具体实施方式
以下,参照附图对本发明的实施方式进行详细说明。
图1为,表示本发明的一个实施方式所涉及的语音识别装置的结构例的图。该语音识别装置例如被搭载于自动贩卖机、家电产品、家用设备、车载装置(导航装置等)或者移动终端等中,且对用户的语音进行识别,并实施与该识别结果相对应的响应及处理。
如图1所示,语音识别装置包括:语音输入部10、A/D转换器20、语音识别用的半导体集成电路装置30A、D/A转换器40、语音输出部50、控制部60。另外,也可以将语音输入部10、A/D转换器20、D/A转换器40以及语音输出部50中的至少一部分内置于半导体集成电路装置30A中。
控制部60包括主机CPU(Central Processing Unit:中央处理器)61、存储部62。主机CPU61根据被存储在存储部62的记录介质中的软件(语音识别控制程序)而进行动作。作为记录介质,可以使用硬盘、软盘、MO(光磁盘)、MT(磁带)、CD-ROM或者DVD-ROM等。主机CPU61通过向半导体集成电路装置30A供给控制信号,从而对半导体集成电路装置30A中的语音识别动作进行控制。
语音输入部10包括:话筒,其将语音转换为电信号(语音信号);放大器,其对从话筒输出的语音信号进行放大;低通滤波器,其对放大后的语音信号的频带进行限制。A/D转换器20通过对从语音输入部10输出的模拟的语音信号进行取样,从而将其转换为数字的语音信号(语音数据)。例如,语音数据的语音频带为12kHz、比特数为16比特。
半导体集成电路装置30A包括:信号处理部31、语音识别DB(Data Base:数据库)存储部32、转换候选设定部33、转换列表存储部34、标准模式提取部35、一致检测部37。并且,半导体集成电路装置30A还可以包括语音信号合成部37及/或语音合成DB(数据库)存储部39。
信号处理部31通过对所输入的语音信号实施傅立叶转换,从而提取语音信号的多个频率成分,并生成表示语音信号的频率成分的分布状态的特征模式。所生成的特征模式被输出至一致检测部37。此外,信号处理部31在所输入的语音信号的电平超出了预定的值时,对语音检测信号进行激活并向一致检测部37以及主机CPU61输出。由此,能够对有无来自用户的要求或回答进行判断。
在此,对根据语音信号而求出特征模式的方法的一个示例进行说明。信号处理部31对所输入的语音信号实施过滤处理而强调高频成分。接下来,信号处理部31通过对由语音信号所表示的语音波形加以海明窗,从而每隔预定的时间而对时间序列的语音信号进行划分由此制作出多个帧。并且,信号处理部31通过针对于每一帧而对语音信号进行傅立叶转换,从而提取多个频率成分。由于各个频率成分为复数,因此信号处理部31求出各个频率成分的绝对值。
信号处理部31通过对这些频率成分施加根据梅尔刻度(mel scale)而确定的频率区域的窗并进行积分,从而求出与窗的数量相对应的数量的数值。并且,信号处理部31取得这些数值的对数,并对对数值进行离散余弦转换。由此,如果频率区域的窗为20个,则将获得20个数值。
在以这种方式而获得的数值内,低次的值(例如,12个)被称为MFCC(Mel-Frequency Cepstral Coefficients:梅尔频率倒频谱系数)。信号处理部31针对每一帧而计算出MFCC,并按照HMM(Hidden Markov Model:隐马尔可夫模型)而对MFCC进行连结,作为与以时间序列而被输入的语音信号中所含有的各个音素相对应的MFCC而求出特征模式。
在此,“音素”是指,在某一语言中视为相同的声音的要素。以下,对作为语音而使用了日语的情况进行说明。作为日语的音素,有“a”、“i”、“u”、“e”、“o”的元音、“k”、“s”、“t”、“n”等的辅音、“j”、“w”的半元音、“N”、“Q”、“H”的特殊音拍。
语音识别数据库存储部32存储有包含标准模式的语音识别数据库,其中,所述标准模式对于在预定的语言中所使用的各种音素而表示出频率成分的分布状态。在语音识别数据库中,表示各种音素的文本数据、与作为选择项信息的标准模式被对应起来。
标准模式是使用多个(例如,200人左右)说话人所发出的语音而被预先制成的。在标准模式的制作中,根据表示各个音素的语音信号而求出MFCC。但是,在使用多个说话人所发出的语音而制成的MFCC中,各自的数值具有偏差。
因此,针对各个音素的标准模式,在多维空间(例如,十二维空间)中具有包括偏差的扩展。如果根据被输入至信号处理部31的语音信号而生成的特征模式包含在标准模式的扩展的范围内,则判断为两者的音素一致。
此外,也可以不是一个语音识别数据库,而使用多个语音识别数据库。例如,语音识别数据库存储部32还可以存储有多个语音识别数据库,所述多个语音识别数据库为,根据收录年龄以及性别不同的多组说话人的语音而得出的语音信号所生成的多个语音识别数据库。在这种情况下,一致检测部37能够从多个语音识别数据库中选择可良好地检测出音素的一致的语音识别数据库来进行使用。
或者,在能够确定使用语音识别装置的用户的年龄以及性别的情况下,也可以采用如下方式,即,语音识别数据库存储部32将根据通过收录年龄以及性别有所不同的多组说话人的语音而获得的语音数据所生成的多个语音识别数据库,与用于确定年龄以及性别的信息对应起来而进行存储。在这种情况下,一致检测部37能够从存储在语音识别数据库存储部32中的多个语音识别数据库内,按照用于确定使用语音识别装置的用户的年龄以及性别的信息,来选择一个语音识别数据库而进行使用。
转换候选设定部33在从主机CPU61与指令一起接收到表示成为转换候选的多个单词或者语句的文本数据时,按照所接收的指令,而在转换列表中设定文本数据。转换列表存储部34对该转换列表进行存储。
作为指令,例如使用用于对转换列表中的全部的文本数据进行重新设定的设定指令、用于在转换列表中追加一部分的文本数据的追加指令、用于从转换列表中删除一部分的文本数据的删除指令。因此,还能够不更换转换列表整体,而对转换列表的一部分任意地进行变更。另外,也可以在转换列表中预先设定有预定的文本数据。
在转换列表存储部34中,当在转换列表中设定有新的文本数据时,标准模式提取部35从语音识别数据库中提取出,与由被设定于转换列表中的文本数据所表示的单词或者语句的至少一部分相对应的标准模式。
一致检测部37在语音检测信号被激活时进行动作,并通过将根据所输入的语音信号的至少一部分而生成的特征模式、与从语音识别数据库中提取出的标准模式进行比较,从而对两者的一致性进行检测。
例如,一致检测部37将根据所输入的语音信号的开头的音节而生成的特征模式、与由被设定于转换列表中的文本数据所表示的各个单词或者语句的开头的音节相对应的标准模式标准模式进行比较。另外,还可以采用如下方式,即,当转换列表中仅存在一个在开头具有被检测为一致的音节的转换候选的情况下,判断为该转换候选成为转换后的单词或者语句。在转换列表中存在多个在开头具有被检测为一致的音节的转换候选的情况下,一致检测部37将逐渐扩大应当被检测一致性的音节的范围,直至转换候选缩小为一个。
在此,“音节”是指,以一个元音作为主音,而由该元音单独构成或者在该元音的前后伴有一个或者多个辅音而构成的音的概括。此外,半元音或特殊音拍也可以构成音节。即,一个音节由一个或者多个音素构成。作为日语的音节,有“あ”、“い”、“う”、“え”、“お”、“か”、“き”、“く”、“け”、“こ”等。
例如,与音节“あ”相对应的标准模式为,针对于构成音节“あ”的音素“a”的标准模式。此外,与音节“か”相对应的标准模式为,针对于构成音节“か”的第一个音素“k”的标准模式、和针对于构成音节“か”的第二个音素“a”的标准模式。
在所输入的语音信号的一个音节由一个音素构成的情况下,如果检测为该音素一致,则检测为音节一致。另一方面,在所输入的语音信号的一个音节由多个音素构成的情况下,如果检测为这些音素一致,则检测为音节一致。
当检测出特征模式与标准模式一致时,一致检测部37将用于确定具有被检测为一致的音节的单词或者语句的信息、例如表示该单词或者语句的文本数据,作为语音识别结果而输出。由此,主机CPU61能够对与被输入至半导体集成电路装置30A的语音信号的至少一部分相对应的单词或者语句进行识别。
主机CPU61根据从半导体集成电路装置30A输出的语音识别结果而从多个响应内容(提问或者消息)中选择一个响应内容,并将表示所选择的响应内容的响应数据发送至半导体集成电路装置30A。
半导体集成电路装置30A的语音信号合成部38从主机CPU61接收表示针对于语音识别结果的响应内容的响应数据,并根据所接收的响应数据,来合成表示应当输出的语音的语音信号。为了合成语音信号,可以使用被存储在语音合成数据库存储部39中的语音合成数据库,但也可以使用被存储在语音识别数据库存储部32中的语音识别数据库来合成语音信号。
在这种情况下,例如语音信号合成部38针对响应内容中所包含的各个因素,根据语音识别数据库中所包含的标准模式而求出频谱。并且,语音信号合成部38通过对频谱进行逆傅立叶转换而求出语音波形,并将关于响应内容所包含的多个音素的多个语音波形连在一起,从而合成与响应内容相对应的数字的语音信号。
D/A转换器40将从语音信号合成部38输出的数字的语音信号转换为模拟的语音信号。语音输出部50包括功率放大器和扬声器,其中,所述功率放大器对从D/A转换器40输出的模拟的语音信号进行功率放大,所述扬声器根据被实施了功率放大后的语音信号来发出语音。扬声器将由从主机CPU61供给的响应数据所表示的响应内容作为语音而输出。由此,能够形成如下的状况,即,针对于基于响应数据而发出的提问或者消息的、用户的回答,被预测为几个单词或者语句中的一个。
此外,主机CPU61将表示如下内容的文本数据与设定指令一起发送至半导体集成电路装置30A,所述内容为,作为针对于所选择的提问或者消息所作出的回答而成为转换候选的多个单词或者语句。当半导体集成电路装置30A的转换候选设定部33从主机CPU61接收到设定指令以及文本数据时,按照所接收到的设定指令而在转换列表中设定文本数据。由此,能够在转换列表中设定表示如下内容的文本数据,所述内容为,作为针对于基于响应数据而发出的提问或者消息所作出的回答而成为转换候选的多个单词或者语句。
接下来,参照图1和图2对本发明的一个实施方式所涉及的语音识别方法进行说明。图2为,表示由图1所示的语音识别装置实施的语音识别方法的流程图。
在图2的步骤S1中,主机CPU61在半导体集成电路装置30A的电源接通时或者重新启动后,将表示一个提问或者消息的响应数据、以及表示作为针对于该提问或者消息的回答而成为转换候选的多个单词或者语句的文本数据,与设定指令一起发送至半导体集成电路装置30A。
在步骤S2中,半导体集成电路装置30A的转换候选设定部33从主机CPU61接收设定指令以及文本数据,并按照所接收的设定指令而在转换列表中设定文本数据。
当在转换列表中设定有新的文本数据时,在步骤S3中,标准模式提取部35从包含表示在预定的语言中所使用的多个音素的频率成分的分布状态的标准模式的语音识别数据库中提取出如下的标准模式,所述标准模式为,与由在转换列表中所设定的文本数据所表示的各个单词或者语句的至少一部分相对应的标准模式。
在步骤S4中,语音信号合成部38根据所接收到的响应数据来合成语音信号,由此从语音输出部50发出提问或者消息。当用户对该提问或消息进行回答而发出语音时,在步骤S5中,信号处理部31对所输入的语音信号实施傅立叶转换,由此而提取语音信号的频率成分,并生成表示语音信号的频率成分的分布状态的特征模式。此外,信号处理部31对语音检测信号进行激活。
当语音检测信号被激活时,在步骤S6中,一致检测部37对根据所输入的语音信号的至少一部分而生成的特征模式、和从语音识别数据库提取的标准模式之间的一致性进行检测,并输出语音识别结果,所述语音识别结果为,在成为转换候选的多个单词或者语句中确定出被检测为一致的单词或者语句的语音识别结果。
可以以如下方式对半导体集成电路装置30A进行控制,即,当从语音检测信号被激活起的预定的期间内未获得表现出特征模式与标准模式之间的一致的语音识别结果的情况下,主机CPU61将应当向转换列表中追加的文本数据与追加指令一起发送至半导体集成电路装置30A,并再次实施一致检测。由此,当在预定的期间内未获得表现出特征模式与标准模式之间的一致的语音识别结果的情况下,能够追加选择项而再次实施一致检测。
或者,主机CPU61可以将表示“请重复”等的消息的响应数据发送至半导体集成电路装置30A,也可以将表示换种说法以便易于理解的提问的响应数据发送至半导体集成电路装置30A。语音信号合成部38根据从主机CPU61供给的响应数据来合成语音信号,并从语音输出部50发出新的消息或者提问。
当从语音检测信号被激活起的预定的期间内获得了表现出特征模式与标准模式之间的一致的语音识别结果时,在步骤S7中,主机CPU61对一系列的语音识别动作是否完成进行判断。如果一系列的语音识别动作已完成,则处理结束。另一方面,如果一系列的语音识别动作未完成,则处理将转移至步骤S8。
在步骤S8中,主机CPU61根据从半导体集成电路装置30A输出的语音识别结果而从多个响应内容中选择一个响应内容,并将表示所选择的响应内容的响应数据、以及表示作为针对于所选择的响应内容的回答而成为转换候选的多个单词或者语句的文本数据,与设定指令一起发送至半导体集成电路装置30A。并且通过这种方式反复实施步骤S2以后的处理。
根据本发明的一个实施方式,通过使用基于语音识别脚本的转换列表,从而能够将与所输入的语音信号的特征模式进行比较的标准模式缩小为如下的标准模式,即,与由在转换列表中所设定的文本数据所表示的各个单词或者语句的至少一部分相对应的标准模式。
此时,转换列表的内容能够通过从主机CPU61向半导体集成电路装置30A发送设定指令以及文本数据,从而按照语音识别脚本而自由地进行设定。另一方面,通过从主机CPU61向转换候选设定部33发送删除指令以及文本数据,从而能够从转换列表中删除不需要的转换候选,以降低语音识别处理的负担。
此外,通过从语音识别数据库中提取与由在转换列表中所设定的文本数据表示的各个单词或者语句的至少一部分相对应的标准模式,从而使语音识别中的选择项信息的更新变得容易。其结果为,能够适当地对选择项信息的范围进行限制从而提高识别率,或者能够实现对较深的语音识别分级菜单的应对。
接下来,对本发明的一个实施方式所涉及的语音识别装置中的语音识别动作的具体例进行说明。在此,对将图1所示的语音识别装置应用于食堂中的饭票的自动贩卖机的情况进行说明。
在自动贩卖机上显示有包括多个食品名的食品菜单。在食品菜单中显示有“荞麦面”、“乌冬面”、“咖喱饭”、“猪排饭”等的文字。在这种情况下,预测用户发出的最初的语言为在食品菜单中所显示的“荞麦面”、“乌冬面”、“咖喱饭”、“猪排饭”等中的任意一个。
因此,主机CPU61在自动贩卖机的电源接通时或者重新启动后,将表示食品菜单中所显示的多个食品名的文本数据与设定指令一起发送至半导体集成电路装置30A。半导体集成电路装置30A的转换候选设定部33按照所接收的设定指令而在转换列表中设定所接收的文本数据。
此外,当在中途向食品菜单追加了食品的情况下,主机CPU61将表示所追加的食品名的文本数据与追加指令一起发送至半导体集成电路装置30A。半导体集成电路装置30A的转换候选设定部33按照所接收的追加指令而将所接收的文本数据追加于转换列表中。
另一方面,当在中途一部分的食品售罄的情况下,主机CPU61将表示变为售罄的食品名的文本数据与删除指令一起发送至半导体集成电路装置30A。半导体集成电路装置30A的转换候选设定部33按照所接收的删除指令而将所接收的文本数据从转换列表中删除。
以这种方式,制成了图5所示的转换列表A。虽然在图5中,图示了与食品名相对应的编号、食品名的日语表述、食品名所包含的音素的罗马字表述,但只要在转换列表中至少包含有能够确定食品名所包含的音素的罗马字表述或者假名表述即可。
当转换列表A被制成时,标准模式提取部35针对于转换列表A所包含的食品名“荞麦面”、“乌冬面”、“咖喱饭”、“猪排饭”等的开头的音节“そ”、“う”、“カ”、“カ”等所包含的音素“s和o”、“u”、“k和a”、“k和a”等的各个音素,从语音识别数据库中提取相对应的标准模式。
此外,主机CPU61将表示“选择哪一个食品?请说出食品名。”的提问或者消息的通讯数据发送至半导体集成电路装置30A。半导体集成电路装置30A的语音信号合成部38根据该通讯数据来合成语音信号并向D/A转换器40输出,D/A转换器40将数字的语音信号转换为模拟的语音信号,并将模拟的语音信号输出至语音输出部50。由此,从语音输出部50发出“选择哪一个食品?请说出食品名。”的提问或者消息。
对于通过语音输出部50而发出的提问或者消息,当用户观察所显示的食品菜单而说出“猪排饭。”时,信号处理部31针对于音素“k、a、t、u、d、o、N…”的各个音素,而生成表示频率成分的分布状态的特征模式。
一致检测部37通过对由信号处理部31生成的开头的音节的第一个音素“k”的特征模式、和从语音识别数据库中提取的开头的音节的第一个音素“s”、“u”、“k”、“k”等的标准模式进行比较,从而检测出与音素“k”一致。
当被检测为一致的音素表示为辅音的情况下,一致检测部37通过进一步对开头的音节的第二个音素进行比较。一致检测部37通过对由信号处理部31生成的开头的音节的第二个音素“a”的特征模式、和从语音识别数据库中提取的开头的音节的第二个音素“o”、“a”、“a”等的标准模式进行比较,从而检测出与音素“a”的一致。
由此,检测出与音节“カ”的一致。如果检测为一致的食品名为一个,则就此得出语音识别结果。但是,由于在转换列表包含有食品名“咖喱饭”和食品名“猪排饭”,因此无法识别出与哪一个相符。在这种情况下,一致检测部37将扩大应当被检测一致性的音节的范围。
即,一致检测部37将如下的信号输出至标准模式提取部35,所述信号为,委托对与转换列表中所包含的上述食品名的第二个音节相对应的标准模式进行提取的信号。由此,标准模式提取部35针对于转换列表中所包含的食品名“咖喱饭”以及“猪排饭”的第二个音节“レ”以及“ツ”所包含的音素“r和e”以及“t和u”的各个音素,从语音识别数据库中提取表示频率成分的分布状态的标准模式。
一致检测部37通过对由信号处理部31生成的第二个音节的第一个音素“t”的特征模式、和从语音识别数据库中提取的第二个音节的第一个音素“r”以及“t”的标准模式进行比较,从而检测出与音素“t”一致。
并且,一致检测部37通过对由信号处理部31生成的第二个音节的第二个音素“u”的特征模式、和从语音识别数据库中提取的第二个音节的第二个音素“e”以及“u”的标准模式进行比较,从而检测出与音素“u”一致。
由此,检测出与音节“ツ”一致。当还存在具有开头的音节“カ”以及第二个音节“ツ”的其他食品名的情况下,一致检测部37只需进一步扩大应当被检测一致性的音节的范围即可。一致检测部37将确定具有被检测为一致的开头的音节“カ”以及第二个音节“ツ”的食品名“猪排饭”的语音识别结果输出至主机CPU61。
作为用于确定食品名“猪排饭”的信息,有图3所示的编号、食品名的日语表述“猪排饭”或其一部分“猪排”、食品名所包含的音素的罗马字表述”katudoN”或其一部分“katu”等。由此,主机CPU61能够识别出与所输入的语音信号的至少一部分相对应的食品名“猪排饭”。
当以这种方式结束第一次的语音识别动作时,主机CPU61将开始实施第二次的语音识别动作。主机CPU61根据所接收到的语音识别结果,从由被存储于存储部62中的响应数据所表示的多个响应内容的中选择一个适当的响应内容,并将表示所选择的响应内容的响应数据、以及表示作为针对于所选的响应内容的回答的多个转换候选的文本数据,与设定指令一起发送至半导体集成电路装置30A。
半导体集成电路装置30A的转换候选设定部33按照所接收的设定指令,在从转换列表中删除当前的全部文本数据之后,在转换列表中设定所接收的文本数据。
例如,主机CPU61将表示“几个?”的提问的响应数据供给至语音信号合成部38。在这种情况下,可预测出用户针对该提问而发出的最初的语句为“一个”、“两个”、“三个”等的多个回答中的某一个。因此,主机CPU61将表示“一个”、“两个”、“三个”等的多个回答的文本数据与设定指令一起发送至半导体集成电路装置30A。
以这种方式,制成图6所示的转换列表B。当转换列表B被制成时,标准模式提取部35针对于由转换列表B中所包含的文本数据所表示的单词“一个”、“两个”、“三个”等的开头的音节“ひ”、“ふ”、“み”等所包含的音素“h和i”、“h和u”、“m和i”等的各个音素,从语音识别数据库中提取表示频率成分的分布状态的标准模式。
语音信号合成部38根据从主机CPU61供给的响应数据来合成语音信号并向D/A转换器40输出,D/A转换器40将数字的语音信号转换为模拟的语音信号,并将模拟的语音信号输出至语音输出部50。由此,从语音输出部50对用户发出“几个?”的提问。
对于通过语音输出部50而发出的提问,当用户说出“一个。”时,信号处理部31针对于音素“h、i、t、o、t、u…”的各个音素,生成表示频率成分的分布状态的特征模式。
一致检测部37通过对由信号处理部31生成的开头的音节的第一个音素“h”的特征模式、和从语音识别数据库中提取的开头的音节的第一个音素“h”、“h”、“m”等的标准模式进行比较,从而检测出音素“h”的一致。
在检测为一致的音素表示为辅音的情况下,一致检测部37通过进一步对由信号处理部31生成的开头的音节的第二个音素“i”的特征模式、和从语音识别数据库中提取的开头的音节的第二个音素“i”、“u”、“i”等的标准模式进行比较,从而检测出与音素“i”一致。
由此,检测出与音节“ひ”一致。一致检测部37将确定在开头具有检测为一致的音节“ひ”的单词“一个”的语音识别结果输出至主机CPU61。由此,主机CPU61能够识别出与所输入的语音信号的至少一部分相对应的单词“一个”。
因此,主机CPU61将表示“请投入○○○元。”的消息的响应数据供给至语音信号合成部38。语音信号合成部38根据从主机CPU61供给的响应数据来合成语音信号并向D/A转换器40输出,D/A转换器40将数字的语音信号转换为模拟的语音信号,并将模拟的语音信号输出至语音输出部50。由此,通过语音输出部50而对用户发出“请投入○○○元。”的消息。
接下来,参照附图对本发明的另一个实施方式进行详细说明。
图3为,表示本发明的另一个实施方式的语音识别装置的结构例的图。该语音识别装置例如被搭载于自动贩卖机、家电产品、家用设备、车载装置(导航装置等)或者移动终端等,且对用户的语音进行识别,并实施与该识别结果相对应的响应或处理。
另外,关于在图3中示出的结构,由于对于以与图1相同的编号而指示的结构而言,与对图1所实施的说明相同,因此以下省略该结构的说明。
半导体集成电路装置30B包括:信号处理部31、语音识别DB(数据库)存储部32、转换信息设定部33、转换列表存储部34、标准模式提取部35、识别精度调节部36、一致检测部37。并且,半导体集成电路装置30B也可以包括语音信号合成部38及/或语音合成DB(数据库)存储部39。
转换信息设定部33将表示成为转换候选的多个单词或者语句的文本数据、以及表示在根据语音信号来识别单词或者语句时所应用的识别精度的严密性的识别精度参数与指令一起从主机CPU61接收。此外,转换信息设定部33按照所接收的指令而在转换列表中设定文本数据,并且在识别精度调节部36中设定识别精度参数。转换列表存储部34对转换列表进行存储。
作为指令,例如使用了用于对转换列表中的所有的文本数据以及识别精度参数进行重新设定的设定指令、用于向转换列表中追加一部分文本数据的追加指令、用于从转换列表中删除一部分文本数据的删除指令。因此,能够无需更换转换列表全体,而任意对转换列表的一部分进行变更。此外,也可以使用用于仅对识别精度参数进行变更的变更指令。另外,也可以在转换列表中预先设定有预定的文本数据。
识别精度调节部36按照由转换信息设定部33设定的识别精度参数,而对从语音识别数据库32中提取的标准模式的扩展的范围进行调节。虽然由标准模式提取部35从语音识别数据库32中提取的标准模式,在多维空间具有含有偏差的扩展,但识别精度调节部36对该标准模式的扩展的范围进行调节。
在以下的示例中,由识别精度参数表示的识别精度的严密性或者模糊性被分为从最模糊的等级1到最精确的等级M的M个等级(M为2以上的自然数)。当用A1(i)~A2(i)(i=1,2,…,N)表示某标准模式A在N维空间(N为自然数)中的扩展时,通过识别精度调节部36而被调节后的标准模式A的扩展的范围A1a(i)~A2a(i)将使用等级R(1≤R≤M)并例如通过下式而表示。
A1a(i)=A1(i)-k·(M-R)·(A2(i)-A1(i))
A2a(i)=A2(i)+k·(M-R)·(A2(i)-A1(i))
在此,k为常数。
例如,当在汽车的控制中应用语音识别的情况下,为了防止实施错误的控制,而设定了表示最精确的等级M的识别精度参数“M”。另一方面,在选择转换列表所包含的两个单词中的一个的这种情况下,语音识别中产生错误的可能性较低,因此设定了表示最模糊的等级1的识别精度参数“1”。
或者,也可以根据在转换列表中选择项的数量与预定的数量相比较多还是较少来设定不同的识别精度参数。此外,还可以根据在转换列表中选择项所包含的相似的语言与预定的数量相比较多还是较少来设定不同的识别精度参数。
一致检测部37在语音检测信号被激活时进行动作,对由信号处理部31生成的特征模式、和通过识别精度调节部36而被调节了扩展的范围的标准模式进行比较。而且,一致检测部37对如下内容进行判断,即,根据所输入的语音信号的至少一部分而生成的特征模式是否包含在通过识别精度调节部36而被调节的标准模式的扩展的范围内。
比较是针对N维空间的各个成分而实施的,对于i=1,2,…,N,只要满足下式,则判断为特征模式B包含在标准模式A的扩展的范围内。
A1a(i)≤B(i)≤A2a(i)
如果根据所输入的语音信号的至少一部分而生成的特征模式包含在标准模式的扩展的范围内,则一致检测部37检测为两者一致。
例如,一致检测部37将根据所输入的语音信号的开头的音节而生成的特征模式,与由在转换列表中所设定的文本数据所表示的各个单词或者语句的开头的音节相对应的标准模式进行比较。当在转换列表中仅存在一个在开头具有被检测为一致的音节的转换候选的情况下,该转换候选将成为转换后的单词或者语句。另一方面,当在转换列表中存在多个在开头具有被检测为一致的音节的转换候选的情况下,一致检测部37将扩大应当被检测一致性的音节的范围,直至转换候选缩小为一个。
此外,主机CPU61将表示作为对于所选择的提问或者消息的回答而成为转换候选的多个单词或者语句的文本数据、及根据这些单词或者语句而选择的识别精度参数,与设定指令一起发送至半导体集成电路装置30B。
当从主机CPU61处将文本数据以及识别精度参数与设定指令一起接收到时,半导体集成电路装置30B的转换信息设定部33按照所接收的设定指令,而在转换列表中设定文本数据,并且在识别精度调节部36中设定识别精度参数。由此,能够在转换列表中设定表示与根据响应数据而发出的提问或者消息相对应的多个单词或者语句的文本数据,并且在识别精度调节部36中设定根据这些单词或者语句而选择的识别精度参数。
接下来,参照图3以及图4对本发明的一个实施方式所涉及的语音识别方法进行说明。图4为,表示由图3所示的语音识别装置实施的语音识别方法的流程图。
在图4的步骤S1中,主机CPU61在半导体集成电路装置30B的电源接通时或者重新启动后,将表示一个提问或者消息的通讯数据、表示作为针对于该提问或者消息的回答而成为转换候选的多个单词或者语句的文本数据、以及根据这些单词或者语句而选择的识别精度参数,与设定指令一起发送至半导体集成电路装置30B。
在步骤S2中,半导体集成电路装置30B的转换信息设定部33从主机CPU61处将文本数据以及识别精度参数与设定指令一起接收。转换信息设定部33按照所接收的设定指令而在转换列表中设定文本数据,并且在识别精度调节部36中设定识别精度参数。
当在转换列表中设定了新的文本数据时,在步骤S3中,标准模式提取部35从包括表示在预定的语言中所使用的多个音素的频率成分的分布状态的标准模式的语音识别数据库中,提取与在转换列表中所设定的文本数据所表示的各个单词或者语句的至少一部分相对应的标准模式。此外,在步骤S4中,识别精度调节部36按照识别精度参数,对从语音识别数据库中提取的标准模式的扩展的范围进行调节。
在步骤S5中,语音信号合成部38根据所接收到的通讯数据来合成语音信号,由此从语音输出部50而发出提问或者消息。当用户对上述提问或消息进行回答而发出语音时,在步骤S6中,信号处理部31通过对所输入的语音信号实施傅立叶转换从而提取语音信号的频率成分,并生成表示语音信号的频率成分的分布状态的特征模式。此外,信号处理部31对语音检测信号进行激活。
当语音检测信号被激活时,在步骤S7中,只要根据所输入的语音信号的至少一部分而生成的特征模式包含在标准模式的扩展的范围内,则一致检测部37检测为两者一致,并输出在成为转换候选的多个单词或者语句内确定出被检测为一致的单词或者语句的语音识别结果。
可以以如下方式对半导体集成电路装置30B进行控制,即,当从语音检测信号被激活起的预定的期间内未得到表现出特征模式与标准模式之间的一致的语音识别结果的情况下,主机CPU61将等级较低的新的识别精度参数与变更指令一起发送至半导体集成电路装置30B,并再次实施一致检测。由此,当在预定的期间内未得到表现出特征模式与标准模式之间的一致的语音识别结果的情况下,可以放宽语音识别的识别精度的严密性而再次实施一致检测。
或者,主机CPU61可以将表示“请重复”等的消息的响应数据发送至半导体集成电路装置30B,也可以将表示换种说法以便容易理解的提问的响应数据发送至半导体集成电路装置30B。语音信号合成部38根据从主机CPU61供给的响应数据来合成语音信号,并从语音输出部50发出新的消息或者提问。
当从语音检测信号被激活起的预定的期间内得到了表现出特征模式与标准模式之间的一致的语音识别结果时,在步骤S8中,主机CPU61对一系列的语音识别动作是否结束进行判断。如果一系列的语音识别动作结束,则处理结束。另一方面,如果一系列的语音识别动作未结束,则处理转移至步骤S9。
在步骤S9中,主机CPU61根据从半导体集成电路装置30B输出的语音识别结果而从多个响应内容之中选择一个响应内容,并将表示所选择的响应内容的响应数据、和表示作为针对于所选的响应内容的回答而成为转换候选的多个单词或者语句的文本数据、以及根据这些单词或语句而选择的识别精度参数,与设定指令一起发送至半导体集成电路装置30B。并且以此方式反复实施步骤S2以后的处理。
根据本发明的一个实施方式,通过使用基于语音识别脚本的转换列表,从而能够将与所输入的语音信号的特征模式进行比较的标准模式缩小至如下的标准模式,即,与由在转换列表中所设定的文本数据所表示的各个单词或者语句的至少一部分相对应的标准模式。在此,语音识别脚本是指,创造出如下的状况而实施语音识别,所述状况为,可预测处用户针对于某个提问或者消息的的回答为几个单词或者语句中的一个的状况。
此时,语音识别中的识别精度的严密性或者模糊性能够通过从主机CPU61向半导体集成电路装置30B发送指令以及识别精度参数的方式,从而沿着语音识别脚本而自由地进行设定。其结果为,能够使语音识别的识别精度较为精密从而防止误识别、或者放宽语音识别的识别精度从而来提高识别率。
接下来,对本发明的一个实施方式所涉及的语音识别装置中的语音识别动作的具体例进行说明。在此,对图1所示的语音识别装置被应用于食堂中的饭票的自动贩卖机的情况进行说明。
在自动贩卖机上显示有包括多个食品名的食品菜单。在食品菜单中显示有“荞麦面”、“乌冬面”、“咖喱饭”、“猪排饭”等的文字。在这种情况下,可以预测用户发出的最初的语句为在食品菜单中所显示的“荞麦面”、“乌冬面”、“咖喱饭”、“猪排饭”等中的任意一个。
因此,主机CPU61在自动贩卖机的电源接通时或者重新启动后,将表示食品菜单中所显示的多个食品名的文本数据,与识别精度参数以及设定指令一起发送至半导体集成电路装置30B。此时,主机CPU61可以以如下方式设定识别精度参数,即,在食品菜单中所显示的食品名的数量多于预定的数量的情况下使识别精度较为严密,而在食品菜单中所显示的食品名的数量少于预定的数量的情况下放宽识别精度。
半导体集成电路装置30B的转换信息设定部33按照所接收的设定指令,而在转换列表中设定所接收的文本数据,并且在识别精度调节部36中设定所接收的识别精度参数。
以这种方式,制成了图5所示的转换列表A。虽然在图5中,图示了与食品名相对应的编号、食品名的日语表述、食品名所包含的音素的罗马字表述,但只要在转换列表中至少包含有能够确定食品名所包含的音素的罗马字表述或者假名表述即可。
当转换列表A被制成时,标准模式提取部35针对于转换列表A中所包含的食品名“荞麦面”、“乌冬面”、“咖喱饭”、“猪排饭”等的开头的音节“そ”、“う”、“カ”、“カ”等所包含的音素“s和o”、“u”、“k和a”、“k和a”等的各个因素,从语音识别数据库中提取相对应的标准模式。此外,识别精度调节部36按照识别精度参数,而对从语音识别数据库中提取的标准模式的扩展的范围进行调节。
从外,主机CPU61将表示“选择哪一个食品?请说出食品名。”的提问或者消息的通讯数据发送至半导体集成电路装置30B。半导体集成电路装置30B的语音信号合成部38根据该通讯数据来合成语音信号并向D/A转换器40输出,D/A转换器40将数字的语音信号转换为模拟的语音信号,并将模拟的语音信号输出至语音输出部50。由此,从语音输出部50发出“选择哪一个食品?请说出食品名。”的提问或者消息。
对于从语音输出部50发出的提问或者消息,当用户观察所显示的食品菜单而说出“猪排饭。”时,信号处理部31对于音素“k、a、t、u、d、o、N…”的各个音素,生成表示频率成分的分布状态的特征模式。
一致检测部37通过对由信号处理部31生成的开头的音节的第一个音素“k”的特征模式、和从语音识别数据库中提取的开头的音节的第一个音素“s”、“u”、“k”、“k”等的标准模式进行比较,从而检测出与音素“k”一致。
在被检测为一致的音素表示为辅音的情况下,一致检测部37进一步对开头的音节的第二个音素进行比较。一致检测部37通过对由信号处理部31生成的开头的音节的第二个音素“a”的特征模式、和从语音识别数据库中提取的开头的音节的第二个音素“o”、“a”、“a”等的标准模式进行比较,从而检测出与音素“a”一致。
由此,检测出与音节“カ”一致。如果被检测为一致的食品名为一个,则就此获得语音识别结果。但是,由于在转换列表中含有食品名“咖喱饭”和食品名“猪排饭”,因此无法识别出与哪一个相符。在这种情况下,一致检测部37将扩大应当被检测一致性的音节的范围。
即,一致检测部37将如下的信号发送至标准模式提取部35,所述信号为,委托对与转换列表中所包含的上述食品名的第二个音节相对应的标准模式进行提取的信号。由此,标准模式提取部35针对于转换列表中所包含的食品名“咖喱饭”以及“猪排饭”的第二个音节“レ”以及“ツ”所含的音素“r和e”以及“t和u”的各个音素,从语音识别数据库中提取表示频率成分的分布状态的标准模式。此外,识别精度调节部36按照识别精度参数,而对从语音识别数据库中提取的标准模式的扩展的范围进行调节。
一致检测部37通过对由信号处理部31生成的第二个音节的第一个音素“t”的特征模式、和从语音识别数据库中提取的第二个音节的第一个音素“r”以及“t”的标准模式进行比较,从而检测出与音素“t”一致。
并且,一致检测部37通过对由信号处理部31生成的第二个音节的第二个音素“u”的特征模式、和从语音识别数据库中提取的第二个音节的第二个音素“e”以及“u”的标准模式进行比较,从而检测出与音素“u”一致。
由此,检测出与音节“ツ”一致。在还存在具有开头的音节“カ”以及第二个音节“ツ”的其他食品名的情况下,一致检测部37只需进一步扩大应当被检测一致性的音节的范围即可。一致检测部37将确定出具有被检测为一致的开头的音节“カ”以及第二个音节“ツ”的食品名“猪排饭”的语音识别结果输出至主机CPU61。
作为用于确定食品名“猪排饭”的信息,有图3所示的编号、食品名的日语表述“猪排饭”或者其一部分“猪排”、食品名中所包含的音素的罗马字表述”katudoN”或者其一部分“katu”等。由此,主机CPU61能够识别出与所输入的语音信号的至少一部分相对应的食品名“猪排饭”。
当以这种方式结束第一次的语音识别动作时,主机CPU61将开始实施第二次的语音识别动作。主机CPU61按照所接收到的语音识别结果,从由被存储于存储部62的响应数据所表示的多个响应内容之中选择一个适当的响应内容,并将表示所选择的响应内容的响应数据、以及表示作为对于所选泽的响应内容的回答的多个转换候选的文本数据,与识别精度参数和设定指令一起发送至半导体集成电路装置30B。
半导体集成电路装置30B的转换信息设定部33按照所接收的设定指令,在从转换列表中删除了当前的全部文本数据之后,在转换列表中设定所接收的文本数据,并且在识别精度调节部36中设定所接收的识别精度参数。
例如,主机CPU61将表示“几个?”的提问的响应数据供给至语音信号合成部38。在这种情况下,可以预测用户针对于该提问而发出的最初的语句为“一个”、“两个”、“三个”等的多个回答中的某一个。因此,主机CPU61将表示“一个”、“两个”、“三个”等的多个回答的文本数据,与识别精度参数及设定指令一起发送至半导体集成电路装置30B。
以这种方式,制成了图6所示的转换列表B。当转换列表B被制成时,标准模式提取部35针对于由转换列表B中所包含的文本数据表示的单词“一个”、“两个”、“三个”等的开头的音节“ひ”、“ふ”、“み”等所包含的音素“h和i”、“h和u”、“m和i”等的各个音素,从语音识别数据库中提取表示频率成分的分布状态的标准模式。并且,识别精度调节部36按照识别精度参数,而对从语音识别数据库中提取的标准模式的扩展的范围进行调节。
语音信号合成部38根据从主机CPU61供给的响应数据来合成语音信号并向D/A转换器40输出,D/A转换器40将数字的语音信号转换为模拟的语音信号,并将模拟的语音信号输出至语音输出部50。由此,从语音输出部50对用户发出“几个?”的提问。
对于从语音输出部50发出的提问,当用户说出“一个。”时,信号处理部31针对于音素“h、i、t、o、t、u…”的各个音素,而生成表示频率成分的分布状态的特征模式。
一致检测部37通过对由信号处理部31生成的开头的音节的第一个音素“h”的特征模式、和从语音识别数据库中提取的开头的音节的第一个音素“h”、“h”、“m”等的标准模式进行比较,从而检测出与音素“h”一致。
在被检测为一致的音素表示为辅音的情况下,一致检测部37通过进一步对由信号处理部31生成的开头的音节的第二个音素“i”的特征模式、和从语音识别数据库中提取的开头的音节的第二个音素“i”、“u”、“i”等的标准模式进行比较,从而检测出与音素“i”一致。
由此,检测出与音节“ひ”一致。一致检测部37将确定出在开头具有被检测为一致的音节“ひ”的单词“一个”的语音识别结果输出至主机CPU61。由此,主机CPU61能够识别出与所输入的语音信号的至少一部分相对应的单词“一个”。
因此,主机CPU61将表示“请投入○○○元。”的消息的响应数据供给至语音信号合成部38。语音信号合成部38根据从主机CPU61供给的响应数据来合成语音信号并向D/A转换器40输出,D/A转换器40将数字的语音信号转换为模拟的语音信号,并将模拟的语音信号输出至语音输出部50。由此,从语音输出部50对用户发出“请投入○○○元。”的消息。
虽然在以上的实施方式中,对将本发明应用于自动贩卖机中的具体例进行了说明,但本发明并不限定于该实施方式,而能够应用于一般的电子设备,并且对于在该技术领域具有通常知识的人员,能够在本发明的技术的思想内进行多种改变。
符号说明
10…语音输入部;20…A/D转换器;30A、30B…半导体集成电路装置;31…信号处理部;32…语音识别数据库存储部;33…转换候选设定部;34…转换列表存储部;35…标准模式提取部;36…识别精度调节部;37…一致检测部;38…语音信号合成部;39…语音合成数据库存储部;40…D/A转换器;50…语音输出部;60…控制部;61…主机CPU;62…存储部。