CN101326571A

CN101326571A - 声音识别装置

Info

Publication number: CN101326571A
Application number: CNA2006800464353A
Authority: CN
Inventors: 大泽政信; 冈田玲子; 海老原充
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-12-07
Filing date: 2006-08-18
Publication date: 2008-12-17
Anticipated expiration: 2026-08-18
Also published as: US20090228276A1; WO2007066433A1; US8060368B2; CN101326571B; DE112006002979T5; JPWO2007066433A1; JP4846734B2

Abstract

声音识别装置(10)参照声音识别辞典以对输入声音进行声音识别并且输出声音识别结果，其包括：与外部连接设备(20－1)至(20－N)连接且从外部连接设备取得其种类、同时取得登录于外部连接设备中的数据的外部信息取得单元(14)；从数据中将词汇进行抽出以作为抽出词汇并对抽出词汇进行分析、并且将读法赋予该抽出词汇以作为分析数据的词汇抽出分析单元(15)和(16)；以及在与种类对应的声音识别辞典中存储分析数据的辞典生成单元(17)，对每种外部连接设备具有声音识别辞典(13－1)至(13－N)。

Description

声音识别装置

技术领域

本发明涉及一种具有多个声音识别辞典以进行声音识别的声音识别装置，特别涉及一种具有与便携式电话等外部连接设备对应的声音识别辞典的声音识别装置。

背景技术

一般，在声音识别装置中，参照声音识别辞典中所登录的单词(词汇)以进行声音识别，为了提高声音识别率，必须在声音识别辞典中登录较多的单词。因此，在声音识别装置中，有的具有用户向现有的声音识别辞典中追加登录单词以更新声音识别辞典的功能以及/或者生成用户个人用的声音识别辞典的功能。

例如，在声音识别装置中，有的当生成利用声音输入而生成电子邮件中所使用的声音识别辞典时，如果检测出开始邮件生成处理，则读入应用中所取得的文件数据并分析文件数据，抽出现有的声音识别辞典中所不存在的未知词，从而生成包含所抽出的未知词的声音识别辞典(例如，参照专利文献1)。

再有，有的在生成、更新声音识别辞典时，在第1分析辞典存储部中存储登录有日常所使用的词汇的表述以及读法等的第1分析辞典，在第2分析辞典存储部中存储登录有特殊的词汇的表述以及读法等的第2分析辞典，一方面在文本分析部中使用两个分析辞典以进行词素分析，另一方面当用读法赋予部2向输入词素赋予读法时，与第2分析辞典的登录词汇相关并向对应表中记录第2分析辞典的词汇/读法的组合和其他候补/读法候补的组合，利用声音识别辞典生成部并根据对应表的内容来生成声音识别辞典，并且根据使识别词汇与第2分析辞典的音素表述以及其他的音素表述候补对应而生成声音识别辞典(例如，参照专利文献2)。

专利文献1：日本专利特开2004-233577号公报(第3页～第9页，图1～图9)

专利文献2：日本专利特开2003-271183号公报(第6页～第12页，图1～图7)

因为以往的声音识别装置是如上所述那样构成，所以生成、更新声音识别辞典时的对象限定为能够发送接收文件数据的应用对象，由于与声音识别装置连接的外部连接设备的不同，识别时单词的使用频率有很大不同，而且如果考虑到由于外部连接设备的不同而引起识别时使用的单词、词汇也不同，则对于生成、更新单一的应用对象(即，单一的外部连接设备)用的声音识别辞典，就存在着如果外部连接设备不同、则不能够有效地进行声音识别的问题。

另外，在以往的声音识别装置中，因为在单一的声音识别辞典中登录分析后的单词，所以如果增加登录单词数，则使声音识别辞典的检索花费较长时间，不仅不能够有效地进行声音识别，而且有时相似词增多，降低识别率。

本发明正是为了解决上述问题而设计的，其目的在于得到一种能够根据外部连接设备有效地进行声音识别的声音识别装置。

发明内容

本发明的声音识别装置，其特征在于，参照声音识别辞典以对输入声音进行声音识别并且输出声音识别结果，其包括：与外部连接设备连接且从外部连接设备取得其种类、同时取得登录于外部连接设备中的数据的外部信息取得单元；从数据中将词汇进行抽出以作为抽出词汇、对抽出词汇进行分析并且将读法赋予该抽出词汇以作为分析数据的词汇抽出分析单元；以及在与种类对应的声音识别辞典中存储分析数据的辞典生成单元，对每种外部连接设备具有声音识别辞典。

如上所述，根据本发明，由于其构成为：对于声音识别结果判定是否是误识别，如果判定为是误识别，则切换声音识别辞典而继续进行声音识别处理，所以用户不进行特别的操作，而能够切换声音识别辞典以进行声音识别，结果具有能够缩短声音识别处理时间且提高识别率的效果。

附图说明

图1是与外部连接设备一起表示根据本发明实施形态1的声音识别装置的一个例子的框图。

图2是用于说明在图1所示的声音识别装置中向声音识别辞典登录词汇的流程图。

图3是用于说明在图1所示的声音识别装置中声音识别辞典的更新以及新生成的流程图。

图4是与外部连接设备一起表示根据本发明实施形态2的声音识别装置的一个例子的框图。

图5是用于说明在图4所示的声音识别装置中将声音识别辞典设置为有效的动作的流程图。

图6是与外部连接设备一起表示根据本发明实施形态3的声音识别装置的一个例子的框图。

图7是用于说明在图6所示的声音识别装置中外部信息词汇分析单元的动作的流程图。

图8是用于说明在图6所示的声音识别装置中词汇候补提示单元的动作的示意图，(a)以及(b)分别是表示由词汇候补提示单元所提示的词汇候补的例子的示意图。

具体实施方式

下面，为了更加详细地说明本发明，参照附图来说明用于实施本发明的最佳形态。

实施形态1

图1是表示根据本发明实施形态1的声音识别装置的一个例子的框图，图示的声音识别装置10例如在汽车导航装置中使用。声音识别装置10具有：话筒等的声音输入单元11、声音识别单元12、以及多个声音识别辞典(下面仅称为辞典)13-1至13-N(N为2以上的整数)，同时具有：外部信息取得单元14、外部信息词汇抽出单元15、外部信息词汇分析单元16、外部信息辞典生成单元(辞典生成单元)17、词汇分析用辞典18、以及CDDB(光盘数据库：将与音乐CD中所收录的乐曲相关的信息提供给用户的CD再生软件或者外围设备用的数据库)19。然后，多个外部连接设备20-1至20-N与外部信息取得单元14连接。

另外，利用外部信息词汇抽出单元15、外部信息词汇分析单元16、词汇分析用辞典18、以及CDDB 19构成词汇抽出分析单元，利用词汇分析用辞典18以及CDDB 19构成分析辞典。

外部连接设备20-1至20-N是例如便携式电话、小型音乐播放器(例如，iPod(商品名))、键盘、或者PDA(Personal Digital Assistant：个人数字助理)，是互不相同的装置，辞典13-1至13-N分别与外部连接设备20-1至20-N对应。

当进行声音识别时，将从声音输入单元11所输入的声音给与声音识别单元12，声音识别单元12参照后述所生成的辞典13-1至13-N之中的某1个来识别输入声音，并且输出声音识别结果。即，当对外部连接设备20-n(n为1至N的任意数)进行声音识别时，使用辞典13-n来进行声音识别。

另外，根据上述声音识别结果，例如，在汽车导航装置中，进行画面的变化或者外部连接设备20-n的操作，变化后的画面或者外部连接设备的操作结果显示在监视器等上。

接着说明动作。

如果参照图1及图2来说明辞典13-1至13-N的生成，则现在如果将外部连接设备20-n与外部信息取得设备14连接，则从外部连接设备20-n将用于确定设备的ID信号给与外部信息取得单元14。通过这样，外部信息取得单元14判别外部连接设备20-n的种类。

接着，当外部信息取得单元14在取得存储于外部连接设备20-n内的数据(例如，如果为便携式电话，则为接收邮件，如果为iPod，则为曲名、艺术家名、专辑名称等)(步骤ST1)之后，向外部信息辞典生成单元17通知外部连接设备20-n的类别(种类)(步骤ST2)。另外，如果变更与外部信息取得单元14连接的外部连接设备20-n，则同样地要执行步骤ST1以及ST2。

将用外部信息取得单元14取得的数据给与外部信息词汇抽出单元15，这里抽出成为分析对象的部分(例如，接收邮件的正文、曲名、艺术家名、或者专辑名称等)，以作为抽出数据，并将其给与外部信息词汇分析单元16(步骤ST3)。

当所抽出的数据是邮件文章那样的文章时，用外部信息词汇分析单元16进行词素分析，参照词汇分析用辞典18，将文章划分为单词，将分析时所得到的读法赋予各单词而得到分析数据(步骤ST4)。另一方面，当所抽出的数据是曲名或者艺术家名等单词时，外部信息词汇分析单元16将其表述作为关键词，来检索CDDB19，取得读法并赋予该词汇以作为分析数据。

将这些分析数据从外部信息词汇分析单元16传递到外部信息辞典生成单元17，外部信息辞典生成单元17根据从外部信息取得单元14送来的外部连接设备种类，向与外部连接设备20-n对应的辞典13-n中存储分析数据(步骤ST5)。这样，能够与外部连接设备20-1至20-N对应生成辞典13-1至13-N。

然而，上述的辞典13-1至13-N保存于存储器中的辞典保存区域中，且不会被规定的用户以外的用户删除。因此，每次起动声音识别装置10、或者切换外部连接设备20-n时，使用与外部连接设备20-n对应的辞典13-n。

接着，如果参照图3来详细地说明上述步骤ST5，则在用外部信息辞典生成单元17将分析数据存储于辞典13-n时，首先，根据外部连接设备20-n的种类来判定是否存在相应的辞典13-n(种类判定单元：步骤ST6)，如果不存在相应的辞典13-n，则在辞典保存区域中重新生成辞典13-n(辞典生成单元：步骤ST7)，并将分析数据存储于该新辞典13-n中。

另一方面，在步骤ST6中，当判定为与外部连接设备20-n对应的辞典13-n存在时，外部信息辞典生成单元17检查辞典13-n中的词汇，检查是否有与分析数据一致的词汇。即，从分析数据中抽出辞典13-n中不存在的数据(步骤ST8)，仅将辞典13-n中不存在的分析数据保存在辞典13-n中，更新辞典13-n(辞典更新单元：步骤ST9)。然后，外部信息辞典生成单元17去除已经存在于辞典13-n中的分析数据。

另外，在更新辞典时，也可以在存在于辞典的词汇之中删除不包含于分析数据中的词汇。通过这样，能够防止存储于辞典中的数据量增加，其结果能够有效地进行声音识别。

如上所述，根据本实施形态1，因为是根据外部连接设备的种类来生成辞典那样构成，所以如果使用每个外部连接设备的辞典来进行声音识别，则不仅能够提高识别效率，而且具有提高识别率、且能够容易地利用声音输入来操作外部连接设备的效果。

根据本实施形态1，如果将外部连接设备与外部信息取得单元连接，则自动更新对应的辞典，其结果，具有在用户无意识的情况下能够进行辞典更新的效果。

实施形态2

图4是表示根据本发明实施形态2的声音识别装置的一个例子的框图，在图示的声音识别装置30中，对于与图1所示的声音识别装置10具有相同的构成要素，标上相同的参照编号。声音识别装置30还具有声音识别辞典控制单元31，外部信息取得单元14也将外部连接设备20-n的种类通知声音识别辞典控制单元31。

再参照图5，现在如果变更外部连接设备20-n，则如上所述，在外部信息取得单元14从外部连接设备20-n中取得数据(步骤ST10)之后，将外部信息设备20-n的种类通知外部信息辞典取得单元17，同时将外部信息设备20-n的种类通知声音识别辞典控制单元31(步骤ST11)。

根据与图1相关的说明，从用外部信息取得单元14取得的数据中，利用外部信息词汇抽出单元15抽出成为分析对象的部分以作为抽出数据，并且送给外部信息词汇分析单元16(步骤ST12)。于是，在外部信息词汇分析单元16中，参照词汇分析用辞典18或者CDDB 19，得到分析数据(附带读法的词汇)(步骤ST13)。外部信息辞典生成单元17根据从外部信息取得单元14送来的外部连接设备种类，将分析数据存储于与外部连接设备20-n对应的辞典13-n中(步骤ST14)。

另一方面，声音识别辞典控制单元31根据外部连接设备种类将与该外部连接设备20-n对应的辞典13-n设置为有效(步骤ST15)。另外，在将多个外部连接设备与外部信息取得单元14连接时，将分别与这些多个外部连接设备对应的辞典设置为有效。

如上所述，根据本实施形态2，因为是根据外部连接设备的种类来将对应的辞典设置为有效那样构成，所以在进行声音识别时，如果将外部连接设备与外部信息取得单元连接，则能够切换辞典，并且具有在用户无意识切换辞典的情况下、能够进行声音输入的效果。

根据本实施形态2，只有对应于与外部信息取得单元连接的外部连接设备的辞典是有效的，其结果，具有如下效果：在进行声音识别时能够减少必须参照的辞典，不仅能够有效进行声音识别，而且能够提高识别率。

实施形态3

图6是表示根据本发明实施形态3的声音识别装置的一个例子的框图，在图示的声音识别装置40中，对于与图1所示的声音识别装置10具有相同的构成要素，标上相同的参照编号。声音识别装置40还具有词汇候补选择单元41以及词汇候补提示单元42，如后所述，当利用外部信息词汇分析单元16分析用外部信息词汇抽出单元15抽出的抽出数据(词汇)的结果是所得到的分析数据(附带读法的词汇)中存在着波动时(例如，存在多个词汇候补的情况)，外部信息词汇分析单元16将该情况与词汇候补提示单元42联系。

用词汇候补提示单元42将多个词汇候补显示于例如监视器(未图示)上，从而催促用户进行选择。如果用户利用词汇候补选择单元41从多个词汇候补中选择1个词汇候补以作为选择词汇，则将该选择词汇给与外部信息词汇分析单元16，外部信息词汇分析单元16将选择词汇作为分析数据并传送到外部信息辞典生成单元17。于是，外部信息辞典生成单元17根据从外部信息取得单元14送来的外部连接设备种类，将分析数据存储于与外部连接设备20-n对应的辞典13-n中。

再参照图7以及图8，现在如果将iPod那样的音乐数据再生设备作为外部连接设备20-n以与外部信息取得单元14连接，则如上所述，外部信息取得单元14将外部连接设备20-n的种类送到外部信息辞典生成单元17，同时从外部连接设备20-n取得数据(步骤ST16)，并将该数据送到外部信息词汇抽出单元15。

外部信息词汇抽出单元15从用外部信息取得单元14所取得的数据中抽出成为分析对象的部分(这里，例如抽出曲名、艺术家名、以及专辑名称等的数据：步骤ST17)，作为抽出数据送到外部信息词汇分析单元16。在外部信息词汇分析单元16中，首先判定抽出数据是否是邮件文章那样的文章(步骤ST18)，如果抽出数据是文章，则外部信息词汇分析单元16进行词素分析，参照词汇分析用辞典18，将文章划分为单词(词汇)，将分析时所得到的读法赋予各单词以得到分析数据(步骤ST19)。

该分析数据从外部信息词汇分析单元16送到外部信息辞典生成单元17，外部信息辞典生成单元17将分析数据存储于与从外部信息取得单元14送来的外部连接设备20-n的种类对应的辞典20-n中(步骤ST20)。

另一方面，在步骤ST18中，如果判定抽出数据不是文章，则在外部信息词汇分析单元16中将该表述作为关键词以检索CDDB19(步骤ST21)，判定是否存在作为检索结果的词汇(即，判断是否具有一致的词汇：步骤ST22)。如果具有一致的词汇，则外部信息词汇分析单元16将读法赋予该词汇以作为分析数据(步骤ST23)。然后，利用外部信息辞典生成单元17来进行步骤ST20。

然而，如果曲名、艺术家名、或者专辑名称中存在波动，则与抽出数据一致的词汇不存在于CDDB19中，在步骤ST22中，外部信息词汇分析单元16判断为检索结果不存在。例如，如图8(a)所示，在外部连接设备20-n中登录的数据的表述是[○○○×□]，如果CDDB 19中登录的词汇的表述是[○○○△×]以及[○○○×△]等，则与抽出数据一致的登录词汇不存在于CDDB19中。在这种情况下，在外部信息词汇分析单元16中，将与抽出数据相似的词汇作为词汇候补以进行选择(步骤ST24)，并利用词汇候补提示单元42在监视器(提示部)43上提示词汇候补。

在图8(a)所示的例子中，若在提示部43上将[○○○△×]及[○○○×]作为词汇候补进行提示，用户利用词汇候补选择单元41从词汇候补中选择1个词汇候补作为选择词汇，则在步骤ST23中，外部信息词汇分析单元16对选择词汇赋予读法，作为分析数据。然后，利用外部信息辞典生成单元17进行步骤ST20。

在外部信息词汇分析单元16中判定抽出数据与登录词汇的类似度时，使用抽出数据的表述与登录词汇的表述的字符串长度或字符的一致数、变换为假名时的字符串长度或字符的一致数等，求出类似度(错误字数相对于字数的比例)。例如，类似度具有0(完全不一致)～100(完全一致)的情况，若类似度是预先规定的阈值(例如80)以上，则外部信息词汇分析单元16将该词汇作为词汇候补，利用词汇候补提示单元42在提示部43上提示。在图示的例子中，步骤ST22及ST24相当于类似词汇判定单元。

在图8(b)所示的例子中，登录于外部连接设备20-n中的数据的表述是[Wish Comes True]，如果登录于CDDB19中的词汇的表述是[Wish Come True]等，则虽然在CDDB 19中不存在与抽出数据一致的登录词汇，但根据类似判定，外部信息词汇分析单元16利用词汇候补提示单元42在提示部43上显示[WishCome True]以作为词汇候补。

如上所述，根据本实施形态3，由于其构成为，即使当与登录于外部连接设备中的数据的表述一致的单词不存在时，如果提示类似的词汇候补以使用户从词汇候补中选择1个词汇候补，则也作为选择词汇登录于辞典中，所以具有能够提高辞典的词汇的精度、并且能够降低误识别率的效果。

工业上的实用性

如上所述，本发明的声音识别装置由于能够根据外部连接设备来有效地进行声音识别，所以适用于例如便携式电话等中所使用的声音识别装置。

Claims

1.一种声音识别装置，其特征在于，

该声音识别装置参照声音识别辞典以对输入声音进行声音识别并且输出声音识别结果，在该声音识别装置中，包括：

与外部连接设备连接且从该外部连接设备取得其种类、同时取得登录于所述外部连接设备中的数据的外部信息取得单元；

从所述数据中对词汇进行抽出以作为抽出词汇、对该抽出词汇进行分析并且将读法赋予该抽出词汇以作为分析数据的词汇抽出分析单元；以及

在与所述种类对应的所述声音识别辞典中存储所述分析数据的辞典生成单元，

每种所述外部连接设备都具有所述声音识别辞典。

2.如权利要求1中所述的声音识别装置，其特征在于，

辞典生成单元具有：

接收分析数据时判定是否存在与外部连接设备的种类对应的声音识别辞典的种类判定单元；

如果与所述外部连接设备的种类对应的声音识别辞典不存在、则新生成与该种类对应的声音识别辞典的辞典生成单元；以及

如果与所述外部连接设备的种类对应的声音识别辞典存在、则更新与该种类对应的声音识别辞典的辞典更新单元。

3.如权利要求1中所述的声音识别装置，其特征在于，

还具有：接收与外部信息取得单元连接的外部连接设备的种类、并且只将与该种类对应的声音识别辞典设置为有效的声音识别辞典控制单元。

4.如权利要求1中所述的声音识别装置，其特征在于，

词汇抽出分析单元具有：

分析抽出词汇时用的分析辞典；以及

如果与所述抽出词汇一致的词汇不存在于所述分析辞典中、则判定与该抽出词汇类似的词汇是否存在于所述分析辞典中的类似词汇判定单元，

所述声音识别装置还包括：如果与所述抽出词汇类似的词汇存在于所述分析辞典中、则将该类似的词汇作为词汇候补以进行提示的词汇候补提示单元。

5.如权利要求4中所述的声音识别装置，其特征在于，

所述声音识别装置还具有：从利用词汇候补提示单元所提示的词汇候补中选择1个词汇候补作为选择词汇的词汇候补选择单元，

词汇分析单元将读法赋予所述选择词汇以作为分析数据。