CN1819016A - 语音处理装置 - Google Patents

语音处理装置 Download PDF

Info

Publication number
CN1819016A
CN1819016A CN200610006603.8A CN200610006603A CN1819016A CN 1819016 A CN1819016 A CN 1819016A CN 200610006603 A CN200610006603 A CN 200610006603A CN 1819016 A CN1819016 A CN 1819016A
Authority
CN
China
Prior art keywords
speech
voice
dictionary
sound
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200610006603.8A
Other languages
English (en)
Other versions
CN100578612C (zh
Inventor
关根直树
柿野友成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Publication of CN1819016A publication Critical patent/CN1819016A/zh
Application granted granted Critical
Publication of CN100578612C publication Critical patent/CN100578612C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

提供一种语音处理装置,包括:语音/非语音判别部(5),判别从语音输入部(3)输入的声音是语音还是非语音;关键字辞典(10);语音识别用辞典(13);语音识别部(8),基于语音识别用辞典进行语音识别;语音关键字探测部(11),探测由语音/非语音判别部判断为语音的声音是否为预先注册在关键字辞典中的单词;以及识别指示部(9),对语音识别部发出指示,使其在探测为从语音输入部输入的声音包含注册在关键字辞典中的单词的时刻,开始对输入的声音进行语音识别,以用户发出目标的语言后的特定的发声为触发进行语音识别。

Description

语音处理装置
技术领域
本发明涉及一种语音处理装置,可以进行语音识别以及说话者识别,用于通过语音来控制各种设备。
背景技术
一般地,在用于进行语音识别以及说话者识别的语音处理中,存在由于除了目标的语音之外还拾取周围的环境语音而引起误识别的问题。为了消除这样的不利,下述专利文献1中公开了一种在用户发出目标的语言之前使用语音操作按钮的技术。该技术一般称为即按即说(push-to-talk)。此外,在下述专利文献2中公开了代替专利文献1中公开的语音操作按钮而通过发出特定的关键字来解决的技术。该技术是等待成为关键字的一个单词,并得到识别了该单词之后的信息,称为语音命令(magic word)方式。在发生这样的目标的语言之前的特定操作、即语音操作按钮的操作或关键字的发声在以下记做前方触发。
[专利文献1]特开平8-328584号公报
[专利文献2]特开2000-322078号公报
[非专利文献1]近代科学社刊 古井贞熙著‘音響·音声光学’
如果不有意进行其操作或发声则无法强迫用户进行前方触发,因此对于用户是负担。此外,在进行前方触发的操作之后,要求可靠且准确的发声。但是,如前所述,语音操作按钮的操作、关键字的发声等前方触发后的作为目标的语言的发声要求上述那样准确的发声,因此说话者意识到该情况而紧张,并引起说话不流畅或说错的可能性很高。因此,难以避免因用户的发声引起的误识别。
发明内容
本发明包括:语音/非语音判别部,判别包含用户的语音的声音被从语音输入部输入后的声音是语音还是非语音;关键字辞典,可以预先保存关键字;语音识别用辞典,用于进行语音识别;语音识别部,基于所述语音识别用辞典进行语音识别;语音关键字探测部,探测由所述语音/非语音判别部判断为语音的声音是否是预先注册在所述关键字辞典中的单词;以及识别指示部,对所述语音识别部发出指示,使其在探测出从语音输入部输入的声音包含注册在所述关键字辞典中的单词的时刻,对输入的声音进行语音识别,以用户发出目标的语言之后的特定的发声(关键字)为触发来进行语音识别。
不强迫用户进行发声前的前触发,而可以以自然的发声来进行语音识别。即,与语音命令方式不同,由于在‘目标的语言’之后进行特定的发声(关键字),所以在关键字发声时已经说了目标的语言,因此没有紧张感,由此,引起关键字的说话不流畅或说错的可能性降低,可以以自然的发声进行可靠的语音识别。
附图说明
图1是表示本发明的第一实施方式的语音处理装置的方框图。
图2是语音的音源信息的波形图。
图3是非语音的音源信息的波形图。
图4是表示语音和非语音的频谱相关特征量的最大值和频度的关系的关系图。
图5是语音关键字探测部的示意图。
图6是表示从语音关键字探测部到语音识别部的动作的流程图。
图7是表示语音发声的时间经过和各部分的动作的迁移的关系的流程图。
图8是表示本发明的第二实施方式的语音处理装置的方框图。
图9是表示用户和关键字的关系的说明图。
图10是表示本发明的第三实施方式的语音处理装置的方框图。
图11是表示本发明的第四实施方式的语音处理装置的方框图。
具体实施方式
基于图1至图7说明本发明的第一实施方式。
图1是表示语音处理装置1的整体结构的方框图。图1所示的方框图是功能方框图,该功能方框图所示的各种功能由计算机(未图示)执行。换言之,图1所示的功能通过按照用于使计算机执行该功能的程序码在处理器中的运算处理来实现。在该情况下,处理器以及存储程序码的存储介质等可以是构成为集成电路的固件结构,例如也可以由通用计算机等构成。在处理器以及存储程序码的存储介质等由通用计算机等构成的情况下,作为一例,预先在该通用计算机的HDD等中安装程序码。安装的程序码例如被复制到RAM中,该通用计算机内置的处理器按照被复制的程序码执行图1所示的各种功能。
本实施方式的语音处理装置1具有可输入包含说话者2发出的语音的语音的语音输入部3。对该语音输入部3串联连接有:AD转换部4,将从所述语音输入部3输入的声音转换为数字信号;语音/非语音判别部5,判别从所述AD转换部4输入的声音是语音还是非语音;语音录音部7,使录音数据存储部6对由所述语音/非语音判别部5判断为语音的声音进行录音;以及识别指示部9,具有将由录音数据存储部6录音的声音传送给后级的语音识别部8的功能。而且,语音关键字探测部11连接在从所述语音/非语音判别部5和所述识别指示部9之间,对所述关键字辞典10连接有关键字变更部12,所述语音关键字探测部11探测所述语音/非语音判别部5判断为语音的声音是否为预先注册在关键字辞典10中的单词。此外,在所述语音录音部7和所述语音识别部8之间连接有所述录音数据存储部6。进而,对所述语音识别部8连接有用于进行语音识别的语音识别用辞典13。
然后,所述语音输入部3是将输入的语音转换为电模拟声音的转换部,以扩音器等为代表。所述AD转换部4是以规定的采样频率、量化位数,将输入的模拟信号转换为数字信号的转换部。由这些语音输入部3和AD转换部4构成用于输入声音的输入部件。
此外,所述语音/非语音判别部5具备判别输入的语音是否为人的声音的功能。作为代表,下面表示音源信息的结构,但不限于此。语音由声带的振动通过声道而变化,考虑表现为50音的语音。声带振动称作音源信息,声道的变化称为声道特性,特别考虑与声带的振动相当的信息带有语音/非语音的特征。以下,将该信息称作音源信息。作为音源信息的提取方法,举出通过线性预测残差的方法作为代表。对于数字化的输入语音的时间序列x(n),过去p个标本x(n-p)…x(n-1)的线性结合为x~(n)=α1*x(n-1)+α2*x(n-2)…αp*x(n-p),在预测当前的标本值x(n)的线性预测分析中,将x(n)×x~(n)称作线性预测残差,是相当于音源信息的特征量。详细地说,记载于上述非专利文献1的第124页以后。
图2表示语音的音源信息,图3表示非语音的音源信息。横轴表示频率,纵轴表示音量(语音能量)。比较这两个图,图2的语音的音源信息以0kHz~2.5kHz表示周期性,图3的非语音的音源信息为非周期性。作为判断该周期的有无的方法,自相关法较有名。自相关法是指以c(j)=∑y(i)*(i+j)对序列{y(1)~y(n)}进行计算的相关特征量。图4表示相关特征量的最大值直方图。从该图4可知在横轴上可以在相关特征量0.3附近分离。利用该不同构成语音/非语音判别部5。
在非语音的情况下,语音/非语音判别部5不进行以后的动作。换言之,仅在判别为语音的情况下,输入信号被发送到语音录音部7、语音关键字探测部11。语音录音部7完成将被判别为语音的输入声音记录在录音数据存储部6中的功能。存储介质只要是HDD、存储器等存储区域,是什么都可以。
语音关键字探测部11仅受理注册在关键字辞典10中的识别语句。图5是语音关键字探测部11的详细图。音响分析部14接受从语音/非语音判别部5收录的数字数据,进行通过FET(高速傅立叶转换)等处理的频率分析等,对输入语音的每个预定区间(例如,音素单位或单词单位等)按时间序列输出对于各区间的语音识别所需的特征信息(例如,频谱等)。
音响对照部15接受从音响分析部14输出的特征信息,并参照关键字辞典10中注册的单词进行对照,并计算与输入语音区间(例如,音素或音节或语调句等音素串单位,或者单词单位等字符串单位等)的识别候补的相似度,从而判别是否是关键字辞典10中注册的单词。另外,音响对照部15中的上述处理可以对HMM(隐马尔可夫模型)或DP(动态规划)、或者NN(神经网络)等现有的对照技术中加入关键字辞典10来实现。音响对照部15判别是否为关键字辞典10中注册的单词后,其结果被发送到识别指示部9。图6的虚线框表示识别指示部9的动作的细节。识别指示部9仅在探测到关键字辞典10的单词的情况下,指示对录音数据存储部6中的数据进行语音识别。该功能可以通过软件的分支命令(if等)来实现。
作为具体的例子,假设用户、即说话者2说了‘鮭定食調理完了(さけてぃしょくちょぅりかんりょぅ)’。这里,假设在关键字辞典10中注册有‘調理完了(ちょぅりかんりょぅ)’作为关键字。在说话者2发出‘さけ…’的瞬间,语音/非语音判别部5判别为‘语音’,由语音录音部7对该语音开始录音,并保存在录音数据存储部6中。发声持续,到达发出‘ちょぅりかんりょぅ’时,由于与关键字辞典10中注册的识别语句匹配,因此语音关键字探测部11将‘探测出关键字’的消息通知给识别指示部9。
受到探测到关键字的通知的识别指示部9如图6的流程图所示,停止录音,由录音数据存储部6记录的语音按图6的1~n的顺序被传送到语音识别部8。
语音识别部8基于预先注册在语音识别用辞典13中的识别语句,开始语音识别。语音识别部8如图5的语音关键字探测部11那样,可以通过设置音响分析部和音响对照部的功能来实现。
在语音识别用辞典13中注册的识别语句为‘鮭定食(さけてぃしょく)’的情况下,如前所述,由于与语音录音部7录音的区间‘さけてぃしょくちょぅりかんりょぅ’中的‘さけてぃしょく’匹配,因此语音识别部8输出正确结果、‘鮭定食’。
图7所示的是示意地图示本实施方式的动作的图,横轴表示发声的时间经过,纵轴方向表示装置的动作顺序。首先,说话者2在非语音状态中发出‘鮭定食,調理完了’。此时的发声的声音的振幅按照‘鮭定食,調理完了’的顺序依次对‘非语音’、‘鮭定食’、‘調理完了’表示图示的波形。另一方面,在装置侧,语音/非语音判别部5在‘非语音’的定时不探测语音,在‘鮭定食’的定时探测语音。由该语音/非语音判别部5探测出语音时,语音录音部7开始录音,在语音关键字探测部11中,由于探测出的语音为‘鮭定食’,因此不进行关键字探测。然后,在发出‘調理完了’的定时,语音关键字探测部11进行关键字探测。由此,识别指示部9进行识别指示,语音识别部8输出正确结果、‘鮭定食’。
通过这样的方法,仅通过说话者2发声,就可以进行与现有的关键字输入同等的语音识别。换言之,代替作为关键字输入的输入确定操作的‘返回键(return key)’,语音关键字探测部11进行工作。在该情况下,在说话者2不流畅地说成‘さ,さけて,しょく’的情况下,即使在如果在注意到错误发声为‘ぁゅてぃしょく’的情况下,只要不进行‘ちょぅりかんりょぅ’的发声,在本实施方式中,就不执行语音识别。由此,可以大幅地减少语音的误识别引起的误动作。
如果,在其它的情况使用了本实施方式的语音处理装置1的情况下,也假设‘調理完了’的关键字不适当的情况。在这样的情况下,也可以使用关键字变更部12将关键字注册为适于情况的语句。
接着,基于图8以及图9说明本发明的第二实施方式。与对于图1~图7说明部分相同的部分使用相同标号,也省略说明。
图8是表示语音处理装置16的整体结构的方框图。图8所示的方框图是功能方框图,该功能方框图所示的各种功能由计算机(未图示)执行。换言之,图8所示的功能通过按照用于使计算机执行该功能的程序码在处理器中的运算处理来完成。在该情况下,处理器以及存储程序码的记录介质等可以是构成为集成电路的固件结构,例如也可以由通用计算机等构成。在处理器以及存储程序码的存储介质等由通用计算机等构成的情况下,作为一例,预先在该通用计算机的HDD等中安装程序码。安装的程序码例如被复制到RAM中,该通用计算机内置的处理器按照被复制的程序码执行图8所示的各种功能。
本实施方式中的语音处理装置16在如下的结构中与所述语音处理装置1同样。即,具有可输入包含说话者2所发出语音的语音的语音输入部3。对该语音输入部3串联连接有:AD转换部4,将从所述语音输入部3输入的语音转换为数字信号;语音/非语音判别部5,判别从所述AD转换部4输入的声音是语音还是非语音;语音录音部7,使录音数据存储部6对由所述语音/非语音判别部5判断为语音的声音进行录音;以及识别指示部9,具有将由录音数据存储部6录音的声音传送给后级的语音识别部8的功能。而且,语音关键字探测部11连接在从所述语音/非语音判别部5和所述识别指示部9之间,所述语音关键字探测部11探测由所述语音/非语音判别部5判断为语音的声音是否是预先注册在所述关键字辞典10中的单词。此外,对所述语音识别部8连接有用于进行语音识别的语音识别用辞典13。然后,本实施方式中的特征在于,对所述语音/非语音判别部5连接说话者识别部18,该说话者识别部18连接了记录从说话者2的语音信息来确定说话者2信息的说话者识别用辞典17,对该说话者识别部18连接有关键字选择部19,对该关键字选择部19连接有所述关键字辞典10。
接着,以下说明本实施方式中新追加的说话者识别部18的作用。说话者识别是从说话者2的语音信息(不是特定的单词信息,而是说话者2的语音中包含的语音上的特征)确定说话者2的个人的技术,主要用于安全用途。通过预先在说话者识别用辞典17中注册说话者的语音信息,可以判定说话者2。如图5所示,说话者识别部18由音响分析部14和音响对照部15构成。接受从语音/非语音判别部5输出的数字数据,进行通过FFT(高速傅立叶转换)等处理的频率分析等,对输入语音的每个预定区间(例如,音素单位或单词单位等)按时间序列输出对于各区间的说话者识别所需的特征信息(例如,频谱等)。
音响对照部15接受从音响分析部14输出的特征信息,并参照说话者识别用辞典17中注册的说话者2的语音信息进行对照,并计算与输入语音区间的说话者的候补的相似度,从而确定说话者2。另外,音响对照部15中的上述处理可以在HMM(隐马尔可夫模型)、或固有值展开法、或者VQ(矢量量化)等现有的对照技术中加入关键字辞典10来实现。
说话者2的语音通过说话者识别部18确定说话者个人,个人名被发送到关键字选择部19。图9表示关键字选择部19的一例。当前,假设说话者2发出‘山田太郎入室’。在说话者2是‘山田太郎’本人的情况下,关键字选择部19按照列表将‘入室’考虑为关键字,并注册到关键字辞典10中。具体来说,在说话者发出‘やまだ…’的声音的瞬间,语音/非语音判别部5判别为‘语音’,说话者识别部18识别为‘山田太郎’本人,在关键字选择部19选择了关键字‘入室’之后,在关键字辞典10中注册‘入室(にゅぅしっ)’。与所述第一实施方式同样,从由语音/非语音判别部5判别为‘语音’的时刻起,由语音录音部7对该语音开始录音。发声持续,到达发出‘にゅぅしっ’时,由于与关键字辞典10中注册的识别语句匹配,因此语音关键字探测部11将‘探测出关键字’的消息通知给识别指示部9,停止录音。此后的动作与所述第一实施方式同样。
在本实施方式中,不仅产生与所述实施方式同等的效果,而且可以对每个用户在沉默中变更输入确定操作的发声。即,如‘山田太郎入室’、‘福沢次郎出社’、‘铃木花子ロック解除’这样,对每个用户基于‘山田太郎’、‘福沢次郎’、‘铃木花子’的说话者识别,变更为‘入室’、‘出社’、‘ロック解除’的关键字。此外,尽管用户是福沢次郎,但为了诈称山田次朗而发出‘やまだじろぅ,入室’,说话者识别部18也不识别为‘山田太郎’,而且,由于与作为福沢次郎的输入确定操作的‘出社’不匹配,因此不动作。由此,也带来说话者的安全强化。
接着,基于图10说明本发明的第三实施方式。与对于图1~图7说明的部分相同的部分使用相同标号,也省略说明。
图10是表示语音处理装置20的整体结构的方框图。图10所示的方框图是功能方框图,该功能方框图所示的各种功能由计算机(未图示)执行。换言之,图10所示的功能通过按照用于使计算机执行该功能的程序码在处理器中的运算处理来完成。在该情况下,处理器以及存储程序码的记录介质等可以是构成为集成电路的固件结构,例如也可以由通用计算机等构成。在处理器以及存储程序码的存储介质等由通用计算机等构成的情况下,作为一例,预先在该通用计算机的HDD等中安装程序码。安装的程序码例如被复制到RAM中,该通用计算机内置的处理器按照被复制的程序码执行图10所示的各种功能。
首先,从语音处理装置20的语音输入部3到语音/非语音判别部5与第一实施方式为相同结构,但不包括录音数据记录部6。在语音/非语音判别部5判别为非语音的情况下,不进行以后的动作。换言之,仅在判别为语音的情况下,输入信号被发送到语音识别部8、语音关键字探测部11。语音关键字探测部11仅受理关键字辞典10中注册的识别语句。具备该功能的语音关键字探测部11的实现方法如第一实施方式那样。
作为具体的例子,假设用户、即说话者2说了‘鮭定食調理完了(さけてぃしょくちょぅりかんりょぅ)’。这里,假设在关键字辞典10中注册有‘調理完了(ちょぅりかんりょぅ)’时,在说话者2发出‘さけ…’的瞬间,语音/非语音判别部5判别为‘语音’,该语音被发送到语音识别部8。在该时刻,语音识别部8基于预先注册在语音识别用辞典13中的识别语句开始语音识别。在第一实施方式中,使用了由录音数据存储部6存储的方法,但在本实施方式中,通过先开始语音识别,可以早发回识别结果。在语音识别用辞典13中注册的识别语句为‘鮭定食(さけてぃしょく)’的情况下,由语音关键字探测部11探测出关键字之前的区间、‘さけてぃしょく,ちょぅりかんりょぅ’中的‘さけてぃしょく’由语音识别部8识别,得到正确结果‘鮭定食’。发声持续,到达发出‘ちょぅりかんりょぅ’时,由于与关键字辞典10中注册的识别语句匹配,因此语音关键字探测部11将‘探测出关键字’的消息通知给识别结果判定部21。识别结果判定部21收到该通知后,才将从语音识别部8输出的正确结果‘鮭定食’作为语音处理装置20的结果输出。
在本实施方式中,不仅可以得到与第一实施方式同等的效果,与其相比较,由于不需要录音数据的记录,因此,在识别速度的方面发挥优越性。例如,在用户进行了‘辛子ソ一ス付き味噌煮込みハンバ一ク定食、調理完了’的发声的情况下,在第一实施方式中,仅‘辛子ソ一ス付き味噌煮込みハンバ一ク定食’部分的语音识别速度延迟,并输出结果,但在本实施方式中,可以不延迟地输出结果。
如果,要在其它的情况下使用本实施方式的语音处理装置20的情况下,也假设‘調理完了’的关键字不适当的情况。在这样的情况下,也可以使用关键字变更部12将关键字注册为适于情况的语句。
接着,基于图11说明本发明的第四实施方式。
图11是表示语音处理装置22的整体结构的方框图。图11所示的方框图是功能方框图,该功能方框图所示的各种功能由计算机(未图示)执行。换言之,图11所示的功能通过按照用于使计算机执行该功能的程序码在处理器中的运算处理来完成。在该情况下,处理器以及存储程序码的记录介质等可以是构成为集成电路的固件结构,例如也可以由通用计算机等构成。在处理器以及存储程序码的存储介质等由通用计算机等构成的情况下,作为一例,预先在该通用计算机的HDD等中安装程序码。安装的程序码例如被复制到RAM中,该通用计算机内置的处理器按照被复制的程序码执行图11所示的各种功能。
本实施方式中的语音处理装置22与第二实施方式同样,对第三实施方式附加了说话者识别用辞典17、说话者识别部18和关键字选择部19。因此,具体的说明省略,但可以对第二实施方式附加第三实施方式的特征,并可以实现处理的高速化。
在本发明中,具有对由语音/非语音判别部探测为语音的声音进行说话者识别的说话者识别部和说话者识别用辞典,识别指示部对语音识别部发出指示,使其在由语音关键字探测部探测出为说话者识别用辞典中注册的说话者的情况和为注册在关键字辞典中的单词的情况的时刻,开始对由录音数据存储部录音的声音进行语音识别,所以可以具备进行使用者的确定的功能从而强化安全功能。
此外,将与由说话者识别部和说话者识别辞典确定的说话者对应的关键字注册在关键字辞典中,所以可以对每个用户在沉默中变更输入确定操作的发声。
进而,可以容易地变更关键字辞典的注册内容。
进而,关键字辞典可以保存多个关键字,可以应对多种用途。
接着,在具有:可输入包含用户的声音的声音输入部、将从语音输入部输入的语音转换为数字信号的AD转换部、判别从AD转换部输入的声音是语音还是非语音的语音/非语音判别部、使录音数据存储部对由语音/非语音判别部判断为语音的声音进行录音的语音录音部、仅可以预先保存一个关键字的关键字辞典、用于与探测由语音/非语音判别部判断为语音的声音是否是预先注册在关键字辞典中的单词的语音关键字探测部进行语音识别的语音识别用辞典、基于语音识别用辞典对由语音/非语音判别部判断为语音的声音进行语音识别的语音识别部的语音处理装置中,通过包括识别结果判定部,可以进行高速处理,该识别结果判定部具有在由语音关键字探测部探测为是关键字辞典中注册的单词的时刻受理语音识别部的结果的功能。
此外,通过将与由说话者识别部和说话者识别辞典确定的说话者对应的关键字注册在关键字辞典中,可以应对多种使用状态。

Claims (9)

1.一种语音处理装置,其特征在于,包括:
语音输入部(3),可输入包含用户的语音的声音;
AD转换部(4),将从所述语音输入部输入的声音转换为数字信号;
语音/非语音判别部(5),判别从所述AD转换部输入的声音是语音还是非语音;
语音录音部(7),使录音数据存储部(6)对由所述语音/非语音判别部判断为语音的声音进行录音;
关键字辞典(10),仅可以预先保存一个关键字;
语音关键字探测部(11),探测由所述语音/非语音判别部判断为语音的声音是否为预先注册在所述关键字辞典中的单词;
识别指示部(9),具有将由所述录音数据存储部录音的声音传送到语音识别部的功能;
语音识别用辞典(13),用于进行语音识别;以及
语音识别部(8),基于所述语音识别用辞典,按照所述识别指示部的指示进行语音识别,
所述识别指示部(9)对所述语音识别部(8)发出指示,使其在由所述语音关键字探测部(11)探测出是预先注册在所述关键字辞典(10)中的单词的时刻,开始对由所述录音数据存储部(6)录音的声音进行语音识别。
2.如权利要求1所述的语音处理装置,其特征在于,
具有对由所述语音/非语音判别部探测为语音的声音进行说话者识别的说话者识别部(18)和说话者识别用辞典(17),
所述识别指示部对所述语音识别部发出指示,使其在由所述语音关键字探测部探测为是注册在所述说话者识别用辞典中的说话者并且是注册在所述关键字辞典中的单词的时刻,开始对由所述录音数据存储部录音的声音进行语音识别。
3.如权利要求2所述的语音处理装置,其特征在于,
可以在所述关键字辞典中注册与由所述说话者识别部和所述说话者识别辞典确定的说话者对应的关键字。
4.如权利要求2所述的语音处理装置,其特征在于,
可以变更关键字辞典的注册内容。
5.如权利要求1、2、3以及4的任何一项所述的语音处理装置,其特征在于,
所述关键字辞典可以保存多个关键字。
6.一种语音处理装置,其特征在于,包括:
语音输入部(3),可输入包含用户的语音的声音;
AD转换部(4),将从所述语音输入部输入的声音转换为数字信号;
语音/非语音判别部(5),判别从所述AD转换部输入的声音是语音还是非语音;
关键字辞典(10),仅可以预先保存一个关键字;
语音识别用辞典(13),用于与语音关键字探测部(11)进行语音识别,该语音关键字探测部(11)探测由所述语音/非语音判别部判断为语音的声音是否为预先注册在所述关键字辞典中的单词;以及
语音识别部(8),基于所述语音识别用辞典对由所述语音/非语音判别部判断为语音的声音进行语音识别,
具有识别结果判定部(21),其具有如下功能,即在由所述语音关键字探测部(11)探测出是所述关键字辞典(10)中注册的单词的时刻受理所述语音识别部(8)的结果。
7.如权利要求6所述的语音处理装置,其特征在于,
具有对由所述语音/非语音判别部探测为语音的声音进行说话者识别的说话者识别部(18)和说话者识别用辞典(17),
所述识别指示部具有识别结果判定部(21),其具有如下功能,即在由所述语音关键字探测部探测为是注册在所述说话者识别用辞典中的说话者并且是注册在所述关键字辞典中的单词的时刻,开始受理所述语音识别部的结果。
8.如权利要求7所述的语音处理装置,其特征在于,
可以在所述关键字辞典中注册与由所述说话者识别部和所述说话者识别辞典确定的说话者对应的关键字。
9.如权利要求7所述的语音处理装置,其特征在于,
可以变更所述关键字辞典的注册内容。
CN200610006603A 2005-02-07 2006-01-26 语音处理装置 Expired - Fee Related CN100578612C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP31032/05 2005-02-07
JP2005031032A JP4237713B2 (ja) 2005-02-07 2005-02-07 音声処理装置

Publications (2)

Publication Number Publication Date
CN1819016A true CN1819016A (zh) 2006-08-16
CN100578612C CN100578612C (zh) 2010-01-06

Family

ID=36918998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610006603A Expired - Fee Related CN100578612C (zh) 2005-02-07 2006-01-26 语音处理装置

Country Status (2)

Country Link
JP (1) JP4237713B2 (zh)
CN (1) CN100578612C (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441649B (zh) * 2007-11-21 2011-09-21 株式会社日立制作所 声音数据检索系统
CN104620314A (zh) * 2012-04-26 2015-05-13 纽昂斯通讯公司 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统
CN105931640A (zh) * 2015-02-27 2016-09-07 想象技术有限公司 激活短语的低功率检测
CN106233376A (zh) * 2014-04-21 2016-12-14 高通股份有限公司 用于通过话音输入激活应用程序的方法和设备
CN107093427A (zh) * 2016-02-17 2017-08-25 通用汽车环球科技运作有限责任公司 不流畅语言的自动语音识别
CN107403011A (zh) * 2017-08-01 2017-11-28 三星电子(中国)研发中心 虚拟现实环境语言学习实现方法和自动录音控制方法
CN110503951A (zh) * 2018-05-18 2019-11-26 夏普株式会社 判定装置、电子设备、响应系统、判定装置的控制方法
US12062360B2 (en) 2018-06-12 2024-08-13 Sony Corporation Information processing device and information processing method

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009175179A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
JP5042194B2 (ja) 2008-10-27 2012-10-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者テンプレートを更新する装置及び方法
JP2013037030A (ja) * 2011-08-03 2013-02-21 Casio Comput Co Ltd エミュレータ装置およびプログラム
US9865255B2 (en) 2013-08-29 2018-01-09 Panasonic Intellectual Property Corporation Of America Speech recognition method and speech recognition apparatus
JP2016024212A (ja) 2014-07-16 2016-02-08 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP6296121B2 (ja) * 2016-08-31 2018-03-20 カシオ計算機株式会社 エミュレータ装置、プログラム及び表示方法
WO2019198132A1 (ja) * 2018-04-09 2019-10-17 マクセル株式会社 音声認識デバイス、音声認識デバイスの連携システム、及び音声認識デバイスの連携方法
US20210272564A1 (en) * 2018-06-25 2021-09-02 Sony Corporation Voice processing device, voice processing method, and recording medium
WO2020003851A1 (ja) * 2018-06-27 2020-01-02 ソニー株式会社 音声処理装置、音声処理方法及び記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11231895A (ja) * 1998-02-17 1999-08-27 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及びその装置
JP2001067091A (ja) * 1999-08-25 2001-03-16 Sony Corp 音声認識装置
JP2002175096A (ja) * 2000-12-06 2002-06-21 Denso Corp マイク制御装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441649B (zh) * 2007-11-21 2011-09-21 株式会社日立制作所 声音数据检索系统
CN104620314A (zh) * 2012-04-26 2015-05-13 纽昂斯通讯公司 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统
CN104620314B (zh) * 2012-04-26 2017-05-10 纽昂斯通讯公司 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统
CN106233376B (zh) * 2014-04-21 2020-07-17 高通股份有限公司 用于通过话音输入激活应用程序的方法和设备
US10770075B2 (en) 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
CN106233376A (zh) * 2014-04-21 2016-12-14 高通股份有限公司 用于通过话音输入激活应用程序的方法和设备
US10720158B2 (en) 2015-02-27 2020-07-21 Imagination Technologies Limited Low power detection of a voice control activation phrase
CN105931640A (zh) * 2015-02-27 2016-09-07 想象技术有限公司 激活短语的低功率检测
CN105931640B (zh) * 2015-02-27 2021-05-28 想象技术有限公司 激活短语的低功率检测
CN107093427A (zh) * 2016-02-17 2017-08-25 通用汽车环球科技运作有限责任公司 不流畅语言的自动语音识别
CN107403011A (zh) * 2017-08-01 2017-11-28 三星电子(中国)研发中心 虚拟现实环境语言学习实现方法和自动录音控制方法
CN107403011B (zh) * 2017-08-01 2020-08-07 三星电子(中国)研发中心 虚拟现实环境语言学习实现方法和自动录音控制方法
CN110503951A (zh) * 2018-05-18 2019-11-26 夏普株式会社 判定装置、电子设备、响应系统、判定装置的控制方法
US12062360B2 (en) 2018-06-12 2024-08-13 Sony Corporation Information processing device and information processing method

Also Published As

Publication number Publication date
JP4237713B2 (ja) 2009-03-11
JP2006215499A (ja) 2006-08-17
CN100578612C (zh) 2010-01-06

Similar Documents

Publication Publication Date Title
CN1819016A (zh) 语音处理装置
CN110136727B (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
TWI253056B (en) Combined engine system and method for voice recognition
JP5024154B2 (ja) 関連付け装置、関連付け方法及びコンピュータプログラム
JP2019514045A (ja) 話者照合方法及びシステム
US20140207457A1 (en) False alarm reduction in speech recognition systems using contextual information
EP1936606A1 (en) Multi-stage speech recognition
JPH09500223A (ja) 多言語音声認識システム
AU2013251457A1 (en) Negative example (anti-word) based performance improvement for speech recognition
US7650281B1 (en) Method of comparing voice signals that reduces false alarms
KR101699252B1 (ko) 음성 인식을 위한 특징 파라미터 추출 방법 및 이를 이용하는 음성 인식 장치
Zhu et al. Filler word detection and classification: A dataset and benchmark
JP2011053569A (ja) 音響処理装置およびプログラム
KR20210081166A (ko) 다국어 음성 환경에서의 언어 식별 장치 및 방법
JP4791857B2 (ja) 発話区間検出装置及び発話区間検出プログラム
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
Kumar et al. Multilingual speaker recognition using neural network
KR20200032935A (ko) 음성인식장치 및 음성인식방법
Mishra et al. Speaker identification, differentiation and verification using deep learning for human machine interface
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
JP2021001988A (ja) 音声認識装置、音声認識方法及び記憶媒体
KR20200114019A (ko) 음성의 피치 정보에 기초한 화자 식별 방법 및 그 장치
Marchetto et al. An automatic speaker recognition system for intelligence applications
Karmacharya Design of Keyword Spotting System Based on Segmental Time Warping of Quantized Features
CA2896801C (en) False alarm reduction in speech recognition systems using contextual information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100106

Termination date: 20120126