CN108630200A - 声音关键字检测装置以及声音关键字检测方法 - Google Patents
声音关键字检测装置以及声音关键字检测方法 Download PDFInfo
- Publication number
- CN108630200A CN108630200A CN201710766822.4A CN201710766822A CN108630200A CN 108630200 A CN108630200 A CN 108630200A CN 201710766822 A CN201710766822 A CN 201710766822A CN 108630200 A CN108630200 A CN 108630200A
- Authority
- CN
- China
- Prior art keywords
- keyword
- secondary key
- key
- voice
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 111
- 230000000977 initiatory effect Effects 0.000 claims abstract description 38
- 239000002131 composite material Substances 0.000 claims description 69
- 230000008859 change Effects 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 description 33
- 238000000034 method Methods 0.000 description 17
- 238000012360 testing method Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 230000015654 memory Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 230000006854 communication Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 150000001875 compounds Chemical class 0.000 description 6
- 230000001186 cumulative effect Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000009825 accumulation Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000003556 assay Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000000205 computational method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明的实施方式涉及从声音检测关键字的声音关键字检测装置、以及应用于该装置的声音关键字检测方法。提供能够从声音快速准确地检测关键字的声音关键字检测装置、声音关键字检测方法以及程序。根据实施方式,声音关键字检测装置在从第1帧检测到第1副关键字并从第2帧检测到第2副关键字时,根据所述第1帧的起始端时间和结束端时间中的至少一方、以及所述第2帧的起始端时间和结束端时间中的至少一方,决定是否受理所述第2副关键字。
Description
本申请以日本专利申请2017-053324(申请日:03/17/2017)为基础,从该申请享受优先的利益。本申请通过参照该申请,从而包含同一申请的全部内容。
技术领域
本发明的实施方式涉及从声音检测关键字的声音的关键字检测装置、以及应用于该装置的声音关键字检测方法。
背景技术
近年来,具有对声音所包含的关键字的声音进行检测并根据该关键字来开始特定的动作的功能的各种电子仪器在增加。用户仅凭对关键字进行发声,就能够不进行复杂的操作而使电子仪器进行所期望的动作。
发明内容
本发明要解决的课题在于,提供能够从声音快速准确地检测关键字的声音关键字检测装置、声音关键字检测方法以及程序。
根据实施方式,声音关键字检测装置具备声音获取单元、关键字评分计算单元、关键字检测单元、受理决定单元以及关键字输出单元。声音获取单元获取包含多个帧的声音数据。关键字评分计算单元通过将与构成第1关键字的第1副关键字和所述第1副关键字的后续的第2副关键字分别关联起来的音素、音韵、音标、短音节或者标注与所述声音数据的各帧进行匹配,计算针对所述第1副关键字的第1评分和针对所述第2副关键字的第2评分。关键字检测单元根据所述第1评分从所述声音数据检测所述第1副关键字,根据所述第2评分从所述声音数据检测所述第2副关键字。受理决定单元在从所述多个帧中的一个以上的第1帧检测到所述第1副关键字时,决定受理所述第1副关键字,在从所述多个帧中的一个以上的第2帧检测到所述第2副关键字时,根据所述一个以上的第1帧的起始端时间和结束端时间中的至少一方、以及所述一个以上的第2帧的起始端时间和结束端时间中的至少一方,决定是否受理所述第2副关键字。关键字输出单元在决定了受理所述第2副关键字的情况下,输出所述第1关键字。
根据上述结构的声音关键字检测装置,能够从声音快速准确地检测关键字。
附图说明
图1是示出具备第1实施方式的声音关键字检测装置的声音关键字检测系统的结构的例子的框图。
图2是示出同一实施方式的声音关键字检测装置的系统结构的框图。
图3是示出由同一实施方式的声音关键字检测装置执行的声音关键字检测程序的功能结构的框图。
图4是示出由同一实施方式的声音关键字检测装置执行的声音关键字检测处理的次序的例子的流程图。
图5是用于说明由同一实施方式的声音关键字检测装置使用的关键字/副关键字模型的图。
图6是用于说明同一实施方式的声音关键字检测装置从声音检测一个关键字的声音的动作的例子的图。
图7是示出由同一实施方式的声音关键字检测装置使用的关键字/副关键字数据的一个结构例的图。
图8是示出由同一实施方式的声音关键字检测装置使用的复合关键字数据的一个结构例的图。
图9是示出由同一实施方式的声音关键字检测装置使用的时间差分阈值数据的一个结构例的图。
图10是示出由同一实施方式的声音关键字检测装置使用的评分数据的一个结构例的图。
图11是示出由第2实施方式的声音关键字检测装置执行的声音关键字检测程序的功能结构的框图。
图12是示出由同一实施方式的声音关键字检测装置显示的阈值调整画面的例子的图。
图13是示出由同一实施方式的声音关键字检测装置显示的时间差分阈值调整画面的例子的图。
图14是示出由同一实施方式的声音关键字检测装置执行的阈值调整处理的次序的例子的流程图。
图15是示出由第3实施方式的声音关键字检测装置执行的声音关键字检测程序的功能结构的框图。
图16是示出由同一实施方式的声音关键字检测装置执行的关键字模型构建处理的次序的例子的流程图。
图17是用于说明由同一实施方式的关键字检测装置制作的基数树的例子的图。
符号说明
10:声音关键字检测装置;101:CPU;102:系统控制器;103:主存储器;104:LCD;105:BIOS-ROM;106:非易失性存储器;107:麦克风;108:通信设备;109:键盘;110:定点设备;111:EC;201:OS;202:声音关键字检测程序;31:声音获取部;32:关键字评分计算部;33:关键字检测部;34:副关键字受理决定部;35:复合关键字检测部;36:关键字模型储存部。
具体实施方式
以下,参照附图,说明实施方式。
(第1实施方式)
图1示出具备第1实施方式的声音关键字检测装置的声音关键字检测系统的结构的例子。该声音关键字检测系统具备客户端1和服务器2。服务器2例如能够作为服务器计算机而实现。客户端1能够作为平板电脑、智能手机、移动电话机、PDA这样的移动信息终端、个人计算机、或者内置于各种电子仪器的编入系统而实现。客户端1与服务器2能够经由网络3交换数据。另外,客户端1和服务器2中的至少一方具有从声音检测关键字的声音的关键字检测功能。
在声音关键字检测系统中,能够从使用设置于客户端1的麦克风等来生成的声音数据(声音信号)检测关键字。更详细而言,客户端1经由网络3将使用设置于该客户端1的麦克风等来生成的声音数据发送到服务器2。服务器2使用声音关键字检测功能,从自客户端1接收到的声音数据检测关键字,经由网络3将该关键字发送到客户端1。由此,客户端1例如能够开始与检测到的关键字相应的特定的动作。此外,客户端1不仅可以将声音数据发送到服务器2,还可以将使用声音数据而生成的声音特征量(例如,声音特征向量列)发送到服务器2。服务器2还能够从接收到的声音特征量检测关键字,将该关键字发送到客户端1。
另外,声音关键字检测功能也可以设置于客户端1。在该情况下,客户端1能够使用该声音关键字检测功能来从使用设置于客户端1的麦克风等而生成的声音数据检测关键字。
这样,在本实施方式中,能够使用客户端1或者服务器2中的至少一方具有的声音关键字检测功能来从声音数据检测关键字。
以下,为了使说明易于理解,将具有声音关键字检测功能的客户端1作为本实施方式的声音关键字检测装置10而例示。
图2是示出声音关键字检测装置10的系统结构的框图。声音关键字检测装置10具备CPU101、系统控制器102、主存储器103、BIOS-ROM105、非易失性存储器106、麦克风107、通信设备108、键盘109、定点设备110、嵌入式控制器(EC)111等。
CPU101是控制声音关键字检测装置10内的各种组件的动作的处理器。CPU101执行从作为存储设备的非易失性存储器106载入到主存储器103的各种程序。这些程序包含操作系统(OS)201以及各种应用程序。应用程序包含声音关键字检测程序202。该声音关键字检测程序202包含用于从声音数据检测关键字的命令群。
另外,CPU101还执行储存于BIOS-ROM105的基本输入输出系统(BIOS)。BIOS是用于硬件控制的程序。
系统控制器102是对CPU101的本地总线与各种组件之间进行连接的设备。系统控制器102内置有对主存储器103进行访问控制的存储器控制器。另外,系统控制器102还内置有显示控制器,该显示控制器对被用作声音关键字检测装置10的显示器监视器的LCD104进行控制。由该显示控制器生成的显示信号被送到LCD104。LCD104根据显示信号来显示画面图像。
另外,系统控制器102内置音频编解码器(codec)。音频编解码器构成为控制麦克风107。音频编解码器生成基于由麦克风107集音的声音的声音信号(声音波形)。
通信设备108是构成为执行有线通信或者无线通信的设备。通信设备108包括发送信号的发送部和接收信号的接收部。
键盘109以及定点设备110是用于由用户进行输入的设备。定点设备110是如鼠标、触摸板、触摸面板那样的、用于对LCD104的画面上的点以及点的移动进行检测的设备。
EC111是包括用于电力管理的嵌入式控制器的单片机。EC111具有根据由用户进行的电源按键的操作来对本声音关键字检测装置10进行电源开启或者电源关断的功能。
近年来,从声音波形检测目标对象的关键字声音,进行与该关键字相应的仪器的动作的应用在增加。受理关键字而进行动作的仪器始终受理声音并检测该关键字是否被发声,所以最好以低电力、低计算量进行动作。另外,为了用户舒适地使仪器动作,需要在关键字受理后,尽早地使仪器的动作开始,最好为低延迟的声音关键字检测。
在有多个由某个仪器应受理的关键字的情况下,与针对声音波形而比较在某个时间的范围内对哪个关键字候补进行了发声的评分高并进行单词的识别的方法相比,在某个声音波形的时间范围内各个关键字发声是否超过规定的阈值评分而存在的二值判别能够应用计算量低且延迟时间少的算法。但是,在后者的情况下,难以对相同的发音串多的两个关键字进行区分。例如,在设定有“コミュニケーション”和“コミュニケーター”这样的关键字的情况下,在发音串中只有“ター”和“ション”有差别,所以在直至“コミュニケー”为止的评分高的情况下,针对“コミュニケーション”和“コミュニケーター”中的任意发声都要检测两方的关键字。
这样,在进行针对各个声音关键字检测/不检测的二值判别的声音关键字检测手法中,当在两个以上的关键字间包含大量相同的发音串的情况下,存在要检测包括该相同的发音串的全部关键字的课题。
因此,在本实施方式中,在从声音检测到通过对关键字进行分割而得到的各副关键字之后,根据检测到副关键字的起始端时间和结束端时间中的至少一方,决定是否受理由多个副关键字构成的关键字(以下,还称为复合关键字)。由此,能够从声音快速准确地检测关键字。
图3是示出由声音关键字检测装置10执行的声音关键字检测程序202的功能结构的框图。声音关键字检测程序202具备声音获取部31、关键字评分计算部32、关键字检测部33、副关键字受理决定部34以及复合关键字检测部35。声音关键字检测程序202的各部分能够读出储存于关键字模型储存部36的各种数据,另外能够将数据写入到关键字模型储存部36。对关键字模型储存部36例如分配有非易失性存储器106的一部分的区域。
关键字模型储存部36储存与多个关键字对应的多个关键字模型。关键字模型根据对应的关键字的音素、音韵、短音节(mora)、音标、或者标注来决定。另外,多个关键字模型中的一个以上的关键字模型是由与表示对应的关键字的一部分的两个以上的副关键字对应的两个以上的副关键字模型构成的复合关键字模型。副关键字模型也根据对应的副关键字的音素、音韵、短音节、音标、或者标注来决定,储存于关键字模型储存部36。另外,复合关键字模型还包含表示构成关键字的副关键字间的发声顺序的前后关系的信息。
声音获取部31获取包含多个帧的声音数据。声音获取部31例如受理声音波形,并进行数字化,输出每帧的声音特征量。
关键字评分计算部32使用处于关键字模型储存部36中的关键字模型以及副关键字模型(以下,还称为关键字/副关键字模型)来计算针对声音特征量的关键字评分。
关键字检测部33通过基于关键字评分和预先决定的阈值评分的判定来进行关键字以及副关键字的检测。
副关键字受理决定部34在由关键字检测部33检测到副关键字时,根据副关键字的起始端信息和结束端信息中的至少一方,决定是否受理该副关键字。
复合关键字检测部35在由副关键字受理决定部34受理的副关键字为构成复合关键字的最末尾的副关键字的情况下,将该复合关键字作为检测结果而输出。
在此,例示在关键字模型储存部36储存如下模型的情况:
(1)由第1副关键字、和该第1副关键字的后续的第2副关键字构成的第1关键字的关键字模型(复合关键字模型);
(2)由第2副关键字、和该第1副关键字的后续的第3副关键字构成的第2关键字的关键字模型(复合关键字模型);以及
(3)第3关键字的关键字模型。
在由声音获取部31获取到包含多个帧的声音数据时,关键字评分计算部32例如通过将与构成第1关键字的第1副关键字和该第1副关键字的后续的第2副关键字分别关联起来的音素、音韵、音标、短音节或者标注、与声音数据的各帧进行匹配,计算针对第1副关键字的第1评分和针对第2副关键字的第2评分。
接下来,关键字检测部33根据第1评分从声音数据检测第1副关键字,根据第2评分从声音数据检测第2副关键字。更具体而言,关键字检测部33在针对第1副关键字的第1评分比第1阈值评分大的情况下,检测第1副关键字,在针对第2副关键字的第2评分比第2阈值评分大的情况下,检测第2副关键字。
副关键字受理决定部34例如在从声音数据所包含的多个帧中的一个以上的第1帧检测到第1副关键字时,决定受理第1副关键字。然后,副关键字受理决定部34在从多个帧中的一个以上的第2帧检测到第2副关键字时,根据一个以上的第1帧的起始端时间和结束端时间中的至少一方、以及一个以上的第2帧的起始端时间和结束端时间中的至少一方,决定是否受理第2副关键字。副关键字受理决定部34例如在一个以上的第1帧的结束端时间与一个以上的第2帧的起始端时间的第1差分处于由第1时间差分阈值和第2时间差分阈值规定的范围内的情况下,决定受理第2副关键字。副关键字受理决定部34例如在第1差分为第1时间差分阈值以上且小于第2时间差分阈值的情况(其中,第1时间差分阈值<第2时间差分阈值)下,决定受理第2副关键字。
然后,复合关键字检测部35在决定了由副关键字受理决定部34受理第2副关键字的情况下,由于该第2副关键字为构成第1关键字的最末尾的副关键字,所以输出第1关键字。
此外,关键字评分计算部32在第2关键字由第1副关键字和该第1副关键字的后续的第3副关键字构成的情况下,也可以通过将与第3副关键字关联起来的音素、音韵、音标、短音节或者标注与声音数据的各帧进行匹配,进一步计算针对第3副关键字的第3评分。
关键字检测部33根据第3评分进一步检测第3副关键字。关键字检测部33例如在针对第1副关键字的第1评分比第1阈值评分大的情况下,检测第1副关键字,在针对第2副关键字的第2评分为第2阈值评分以下的情况下,不检测第2副关键字,在针对第3副关键字的第3评分比第3阈值评分大的情况下,检测第3副关键字。
接着,副关键字受理决定部34在从多个帧中的一个以上的第3帧检测到第1副关键字时,决定受理第1副关键字。然后,副关键字受理决定部34在从多个帧中的一个以上的第4帧检测到第3副关键字时,根据一个以上的第3帧的起始端时间和结束端时间中的至少一方、以及一个以上的第4帧的起始端时间和结束端时间中的至少一方,决定是否受理第3副关键字。副关键字受理决定部34例如在一个以上的第3帧的结束端时间与一个以上的第4帧的起始端时间的第2差分处于由第3时间差分阈值和第4时间差分阈值规定的范围内的情况下,决定受理第3副关键字。副关键字受理决定部34例如在第2差分为第3时间差分阈值以上且小于第4时间差分阈值的情况(其中,第3时间差分阈值<第4时间差分阈值),决定受理第3副关键字。
然后,复合关键字检测部35在决定了受理第3副关键字的情况下,输出第2关键字。
另外,关键字评分计算部32也可以通过将与第3关键字关联起来的音素、音韵、音标、短音节或者标注与声音数据的各帧进行匹配,计算针对第3关键字的评分。
在该情况下,关键字检测部33根据针对第3关键字的评分来检测第3关键字,输出检测到的第3关键字。关键字检测部33例如在针对第3关键字的评分比阈值评分大的情况下,检测并输出第3关键字。
接着,参照图4的流程图,说明由声音关键字检测装置10执行的声音关键字检测处理的次序的例子。例如通过由CPU101执行声音关键字检测程序202所包含的命令群而实现该声音关键字检测处理。
声音获取部31受理声音波形,并进行数字化,生成声音特征量(步骤S11)。声音波形是使用麦克风107等而被收录的。声音获取部31将声音波形从模拟变换为数字,使用由此得到的数字的声音数据来生成特征向量。作为声音波形的从模拟向数字的变换,使用一般的AD变换,从模拟波变换到数字波。声音获取部31在该变换中,例如,按照16kHz对模拟波进行采样,用16比特表示数字波的1个采样的振幅值。声音获取部31每隔一定的时间切出该数字波。
在此,例示声音获取部31一边每256个点采样地将数字波错开128个点采样一边进行切出的情况。将该256个点采样作为1帧。由此,声音获取部31获取包含多个帧的声音数据。
声音获取部31根据该256个点采样计算梅尔频率倒谱系数(Mel FrequencyCepstral Coefficient(MFCC))特征量12维。然后,声音获取部31将该MFCC特征量缓冲3帧量,将连结3帧量的MFCC特征量而得到的36维作为这3帧中的中央帧的时刻的特征量进行输出。被抽取的特征量并不限定于MFCC,例如,也可以使用梅尔滤波器组(Mel Filter Bank)特征量、感知线性预测(Perceptual Linear Prediction(PLP))、RSTA-PLP特征量、或者间距特征量、或者它们的Δ分量、或者ΔΔ分量。或者,也可以使用这些特征量的组合。另外,连结帧数并不限定于3,只要为1帧以上,则连结任意个帧都可以。进而,切出采样大小、帧周期并不限定于上述值。
关键字评分计算部32使用处于关键字模型储存部36中的关键字模型以及副关键字模型(关键字/副关键字模型)来计算针对声音特征量的关键字/副关键字评分(以下,还简称为评分)(步骤S12)。关键字评分计算部32收取由声音获取部31生成的声音特征量,使用关键字/副关键字模型来计算关键字/副关键字评分。
以下,说明检测对象的关键字为“コミュニケーション”、“コミュニケーター”、“ハロー”这三个的情况下的具体的例子。针对这些关键字使用关键字模型来针对按每帧切出的声音特征向量列计算累积评分的方法存在很多,在此,按照使用左到右型(left-to-right型)的隐马尔可夫模型(Hidden Markov Model:HMM)和维特比(Viterbi)算法的方法进行例示。
如图5所示,将“コミュニケー”、“ション”、“ター”、“ハロー”的关键字或者副关键字分别设为w1、w2、w3、w4,分别利用副关键字的连结来表示复合关键字“コミュニケーション”、“コミュニケーター”,设为
W1=(w1,w2),W2=(w1,w3)
。首先,作为关键字/副关键字模型,分别准备wn(n=1、2、3、4)的模型。用左到右型的音素HMM表示关键字/副关键字模型。音素HMM将分别表示w1、w2、w3、w4的音素串“k a my un i k e i”、“sy o n”、“t a a”、“h e l o u”的音素设为1个状态,作为HMM的参数,音素间的转变概率中的任意转变间的概率都设为同一概率,用每帧的音素的出现概率(声响评分)表示输出概率。在本实施方式中,计算每帧的声响评分的模型针对多个关键字设为共同的前馈型的神经网络,累积评分使用利用维特比算法来计算的方法。
用于计算声响评分的神经网络的输出层从分别表示w1、w2、w3、w4的音素“k a my un i k e i”、“sy o n”、“t a a”、“h e l o u”除掉重复的音素,施加针对无音区间的音素“sil”,由13个输出单元构成。输入层由与计算出的所述声音特征量相当的36个输入单元构成。在此,中间层设为是将具有256个单元的层重叠3个而成的。使用包括无声音区间的“コミュニケーション”、“コミュニケーター”、“ハロー”这3个单词的朗读声音,使用反向传播法来学习神经网络。
这样,能够准备针对关键字的音素HMM,使用维特比算法来简单地计算针对wn的音素HMM在从声音取入开始起的帧数te中到达至结束端的路径之中的最大累积声响评分Sn和具有该评分的路径的确定。将此时的具有针对wn的最大累积声响评分Sn的路径的音素HMM的起始端帧设为tns。作为这样的方法,例如,能够应用上述专利文献2所记载的方法。
关键字评分计算部32一边使te在时间方向上增加一边进行评分计算。此时,还能够每几帧地跳过评分计算,削减计算量。最大累积声响评分Sn例如是对数似然的时间序列之和,也可以将该和用作标准化为特定的范围(例如,1至100的范围、或者0至100的范围)的值。关键字评分计算部32例如将某个关键字或者副关键字的最大累积声响评分Sn用作该关键字或者副关键字的关键字/副关键字评分。
此外,关键字/副关键字模型并不限定于以音素为单位的模型化,还能够以音韵、短音节、音标或者标注文字为单位进行模型化。另外,累积评分的计算方法并不限定于使用了HMM和维特比算法的计算方法,还能够应用具有循环构造的神经网络、例如组合长期记忆(Long short-term memory(LSTM))和连接时域分类(Connectionist TemporalClassification)而计算的方法、使用注意模型(Attention Model)来计算的方法。另外,对于帧单位的声响评分计算,并不限定于前馈型的神经网络,还能够应用循环构造的神经网络、例如LSTM等。进而,即使是(高斯混合模型)Gaussian Mixture Model也同样地能够求出帧单位的声响评分。
关键字检测部33通过比较关键字/副关键字评分和设定的阈值评分,判定是否存在具有超过阈值评分的评分的关键字或者副关键字(步骤S13)。关键字检测部33比较针对wn预先准备的针对累积声响评分的阈值评分thn和最大累积声响评分Sn。在针对(n=1、2、3、4),发现了一个满足
thn<Sn
的n的情况下,将该n的值代入到m。在将该关键字的起始端时间设为tms时,检测起始和结束端区间(tms,te)的关键字wm。关于阈值评分thn,使用包含关键字以及副关键字的开发声音数据分组,针对全部关键字设定一个作为合适率以及再现率的调节平均的F值成为最大的值。在该情况下,如果增大阈值评分thn的值,则难以检测关键字以及副关键字,如果减小阈值评分thn的值,则易于检测关键字以及副关键字。另外,例如,在最大累积声响评分Sn为被标准化为特定的范围的值的情况下,阈值评分thn也可以被设定为该特定的范围中的任意值。
关键字检测部33在检测到wm的情况下,从声音取入开始起数其检测区间并计数是第几号检测到的区间。如图6所示,关键字检测部33使用在当前的处理帧te检测到的区间计数i(i=1、2、3、……),将起始端时间ts(i)以及结束端时间te(i)(其中,ts(i)<te(i))设为在第i号检测到关键字或者副关键字的区间的起始端以及结束端的帧计数(帧编号)。然后,关键字检测部33将起始和结束端区间(ts(i),te(i))与检测到的关键字或者副关键字wm关联起来,存储于规定的存储区域(例如,主存储器103或者非易失性存储器106的工作区段)。此外,检测方法并不限定于在此叙述的方法,例如,也可以为了抑制区间的长度所致的累积评分的偏差,按照如上述专利文献2那样的方法进行如平均局部评分是否超过阈值评分那样的检测。
在没有超过阈值的关键字或者副关键字的情况(步骤S13的否)下,返回到步骤S11的次序,继续进行用于从后续的声音数据检测关键字或者副关键字的处理。
另一方面,在存在超过阈值的关键字或者副关键字的情况、即检测到关键字或者副关键字的情况(步骤S13的是)下,关键字检测部33判定检测到的关键字为构成复合关键字的开头的副关键字、构成复合关键字的第2号以后的副关键字以及通常的关键字(即,未被分割为多个副关键字的关键字)中的哪一个(步骤S14)。
在检测到的关键字为构成复合关键字的开头的副关键字的情况(步骤S14的“开头的副关键字”)下,返回到步骤S11的次序。在图6的例子中,检测到的副关键字74(“コミュニケー”)相当于该开头的副关键字。
在检测到的关键字为不是副关键字的通常的关键字的情况(步骤S14的“通常的关键字”)下,关键字检测部33输出检测到该关键字的情况(步骤S15)。
在检测到的关键字为构成复合关键字的第2号以后的副关键字的情况(步骤S14的“第2号以后的副关键字”)下,进入到步骤S16的次序。在图6的例子中,检测到的副关键字71、73、75(“ション”)和副关键字72(“ター”)相当于该第2号以后的副关键字。
这样,在本实施方式中,在检测到的关键字/副关键字为w1“コミュニケー”的情况下,被判定为是复合关键字的开头的副关键字。另外,在检测到的关键字/副关键字为w2“ション”或者w3“ター”的情况下,被判定为是复合关键字的第2号以后的副关键字。进而,在检测到的关键字/副关键字为w4“ハロー”的情况下,被判定为是通常的关键字。
在检测到的关键字为构成复合关键字的第2号以后的副关键字的情况(步骤S14的“第2号以后的副关键字”)下,副关键字受理决定部34根据检测到的副关键字的起始端时间和结束端时间中的至少一方,决定是否受理副关键字(步骤S16)。在此,例示在步骤S14中检测到构成复合关键字的副关键字w2“ション”或者w3“ター”的情况。
副关键字受理决定部34在检测到w2“ション”或者w3“ター”时、例如在第k号的区间(0≤k<i)检测到构成复合关键字的前面的副关键字w1“コミュニケー”的情况下,针对w2“ション”或者w3“ター”进行受理判定。
如图6所示,副关键字受理决定部34将在满足与(ts(k),te(k))关联起来的单词为w1“コミュニケー”的k中为最大值的k设为K(在图6的例子中,K=i-1),使用第K号的区间的起始端时间(ts(K),te(K))、和第i号的区间的结束端时间(ts(i),te(i))进行比较。针对复合关键字Wl(l=1、2),预先设定有作为时间差分阈值的受理最小值Tmin l以及受理最大值Tmax l(其中,Tmin l<Tmax l)。副关键字受理决定部34在满足下式的情况下,受理在第i号检测到的副关键字。
Tmin l<ts(i)-te(K)<Tmax l
此外,受理最小值Tmin l以及Tmax l还能够取负的值。作为时间差分阈值的受理最小值Tmin l以及受理最大值Tmax l也与阈值评分thn相同地使用包含关键字以及副关键字的开发声音数据分组,例如,针对全部关键字设定一个作为合适率以及再现率的调节平均的F值成为最大的值。
在未受理检测到的副关键字的情况(步骤S16的否)下,返回到步骤S11的次序。在图6的例子中,示出了未受理检测到的副关键字71、72、73的情况(拒绝)。
在受理了检测到的副关键字的情况(步骤S16的是)下,复合关键字检测部35判定受理的副关键字是否为构成复合关键字的最末尾的副关键字(步骤S17)。在受理的副关键字不是构成复合关键字的最末尾的副关键字的情况(步骤S17的否)下,返回到步骤S11的次序。
另一方面,在受理的副关键字为构成复合关键字的最末尾的副关键字的情况(步骤S17的是)下,复合关键字检测部35输出检测到该复合关键字的情况(步骤S18)。如图6所示的例子那样,复合关键字检测部35例如当在检测到作为关键字W1“コミュニケーション”的开头的副关键字的w1“コミュニケー”之后在步骤S16中受理了作为最末尾的副关键字的w2“ション”的情况下,输出关键字W1“コミュニケーション”。另外,复合关键字检测部35例如当在检测到作为关键字W2“コミュニケーター”的开头的副关键字的w1“コミュニケー”之后在步骤S16中受理了作为最末尾的副关键字的w3“ター”的情况下,输出关键字W2“コミュニケーター”。
基于以上,能够检测包含复合关键字的关键字。
接着,参照图7至图10,说明储存于关键字模型储存部36的数据的例子。该数据由声音关键字检测程序202内的各部分读出,另外能够被更新。
图7示出关键字/副关键字数据的一个结构例。关键字/副关键字数据包含与多个关键字或者副关键字对应的多个记录。各记录例如包含ID、音素以及阈值评分。各记录也可以代替音素,或者除了音素之外,还包含音韵、短音节、音标、以及标注中的至少任意一个。
在与某个关键字或者副关键字对应的记录中,“ID”表示被赋予给该关键字或者副关键字的识别信息。“音素”表示与该关键字或者副关键字对应的音素。“阈值评分”表示用于被检测为该关键字或者副关键字的评分的阈值。
该关键字/副关键字数据例如用于由关键字评分计算部32进行的关键字/副关键字评分的计算、和由关键字检测部33进行的关键字以及副关键字的检测。
图8示出复合关键字数据的一个结构例。复合关键字数据包含与多个复合关键字对应的多个记录。各记录例如包含ID和副关键字串。
在与某个复合关键字对应的记录中,“ID”表示被赋予给该复合关键字的识别信息。“副关键字串”表示被赋予给构成该复合关键字的多个副关键字的多个ID的序列。在该“副关键字串”中,例如,示出了图7的关键字/副关键字数据所包含的多个ID的序列。
通过使用该复合关键字数据和关键字/副关键字数据,从而关键字检测部33例如能够决定检测到的关键字/副关键字为复合关键字的开头的关键字、复合关键字的第二号以后的副关键字、通常的关键字中的哪个。
图9示出时间差分阈值数据的一个结构例。时间差分阈值数据包含与多个副关键字的组对应的多个记录。各记录例如包含副关键字串、受理最小值以及受理最大值。
在与某个副关键字的组对应的记录中,“副关键字串”表示被赋予给构成该副关键字的组的两个副关键字的两个ID的序列。在该“副关键字串”中,例如示出了图7的副关键字数据所包含的两个ID的序列。
“受理最小值”表示用于将从声音数据检测到的两个副关键字作为该副关键字的组进行受理的副关键字间的最小的检测间隔。“受理最大值”表示用于将从声音数据检测到的两个副关键字作为该副关键字的组进行受理的副关键字间的最大的检测间隔。“受理最小值”以及“受理最大值”所示的间隔例如既可以是基于帧数的值,也可以是基于时间的值。
副关键字受理决定部34能够使用该时间差分阈值数据来决定是否受理检测到的副关键字的组。
图10示出评分数据的一个结构例。评分数据是为了从声音数据检测副关键字而由关键字评分计算部32以及关键字检测部33生成的临时数据。评分数据包含与多个副关键字对应的多个记录。各记录例如包含ID、评分、起始端时间以及结束端时间。
在与某个副关键字对应的记录中,“ID”表示被赋予给该副关键字的ID。在该“副关键字串”中,例如示出了图7的副关键字数据所包含的ID之一。
“评分”表示与该副关键字有关的似然性。“起始端时间”表示检测到该副关键字的声音数据上的期间的起始端的时间。“结束端时间”表示检测到该副关键字的声音数据上的期间的结束端的时间。“起始端时间”以及“结束端时间”所示的时间既可以是时刻,也可以是帧计数。“评分”所示的值表示声音数据中的、从起始端时间至结束端时间为止的数据与该副关键字对应的似然度。
如以上说明,根据本实施方式,能够从声音快速准确地检测关键字。副关键字受理决定部34在从声音数据的多个帧中的一个以上的第1帧检测到第1副关键字时,决定受理第1副关键字。然后,副关键字受理决定部34在从多个帧中的一个以上的第2帧检测到第2副关键字时,根据一个以上的第1帧的起始端时间和结束端时间中的至少一方、以及一个以上的第2帧的起始端时间和结束端时间中的至少一方,决定是否受理第2副关键字。复合关键字检测部35在决定了受理第2副关键字的情况下,输出第1关键字。由此,例如,当在两个以上的关键字间包含大量的相同的发音串的情况下,也能够快速准确地检测这两个以上的关键字中的一个关键字。
此外,参照图1,如上所述,服务器2也可以具有声音关键字检测功能。在该情况下,客户端1经由通信设备等将基于使用麦克风而集音的声音的声音数据发送到网络3上的服务器2。
服务器2经由通信设备从客户端1接收声音数据。服务器2通过执行上述声音关键字检测程序202,从接收到的声音数据检测关键字。然后,服务器2将检测到的关键字发送到客户端1。
因此,客户端1通过对具有声音关键字检测功能的服务器2发送声音数据,从而与客户端1自身具有声音关键字检测功能的情况同样地能够获取关键字。另外,还能够实施如下方法:在客户端1中具有声音获取部31,仅将作为其输出的声音特征量发送到服务器2,利用服务器2实施之后的处理。
(第2实施方式)
图11示出在第2实施方式的声音关键字检测装置10上执行的声音关键字检测程序202的功能结构。该声音关键字检测装置10具有在第1实施方式中说明的系统结构。本实施方式的声音关键字检测程序202除了具备声音获取部31、关键字评分计算部32、关键字检测部33、副关键字受理决定部34以及复合关键字检测部35之外,还具备阈值评分显示部41、阈值评分调整部42、时间差分阈值显示部43以及时间差分阈值调整部44。声音关键字检测程序202的各部分能够读出储存于关键字模型储存部36的各种数据,另外能够将数据写入到关键字模型储存部36。声音获取部31、关键字评分计算部32、关键字检测部33、副关键字受理决定部34、复合关键字检测部35以及关键字模型储存部36具有与第1实施方式同样的结构。以下,仅聚焦于与第1实施方式的不同部分进行说明。
阈值评分显示部41将储存于关键字模型储存部36的关键字以及副关键字各自的当前的阈值评分显示于LCD104的画面。另外,阈值评分显示部41也可以将用于对储存于关键字模型储存部36的关键字以及副关键字的当前的阈值评分进行变更的用户接口显示于LCD104的画面。该用户接口例如包括能够改写阈值评分的文本区段、用于使阈值评分增加或者减少的按键、用于从多个值选择任意的值的下拉菜单等。阈值评分显示部41根据由使用了键盘109、定点设备110的用户进行的操作,受理阈值评分的变更。
阈值评分调整部42根据使用了所显示的用户接口的操作,变更阈值评分。阈值评分调整部42例如使从阈值评分显示部41收取到的阈值评分反映到由关键字检测部33使用的各关键字/副关键字的阈值评分中。阈值评分调整部42也可以按照从阈值评分显示部41收取到的某个关键字或者副关键字的阈值评分,改写储存于关键字模型储存部36的、该关键字或者副关键字的阈值评分。
例如,阈值评分显示部41将用于变更为了检测第1副关键字而使用的第1阈值评分和为了检测第2副关键字而使用的第2阈值评分中的至少一方的用户接口显示于画面。阈值评分调整部42根据使用了该用户接口的操作,变更第1阈值评分和第2阈值评分中的至少一方。
时间差分阈值显示部43将构成储存于关键字模型储存部36的复合关键字的副关键字间的当前的时间差分阈值显示于LCD104的画面。另外,时间差分阈值显示部43也可以将用于对构成储存于关键字模型储存部36的复合关键字的副关键字间的当前的时间差分阈值进行变更的用户接口显示于LCD104的画面。该时间差分阈值例如包括表示受理副关键字间的时间差分的范围的时间差分的最小值和最大值。另外,用户接口例如包括能够改写时间差分阈值的文本区段、用于使时间差分阈值增加或者减少的按键、用于从多个值选择任意的值的下拉菜单等。时间差分阈值显示部43根据由使用了键盘109、定点设备110的用户进行的操作,受理时间差分阈值(例如,最小值以及最大值)的变更。
时间差分阈值调整部44根据使用了所显示的用户接口的操作,变更时间差分阈值。时间差分阈值调整部44例如使从时间差分阈值显示部43收取到的时间差分阈值反映到由副关键字受理决定部34使用副关键字间的时间差分阈值中。时间差分阈值调整部44也可以用从时间差分阈值显示部43收取到的、某个副关键字间的时间差分阈值来改写储存于关键字模型储存部36的、该副关键字间的时间差分阈值。
例如,时间差分阈值显示部43将用于对用于判定是否受理在第1副关键字之后检测到的第2副关键字的第1时间差分阈值和第2时间差分阈值中的至少一方进行变更的用户接口显示于画面。时间差分阈值调整部44根据使用了该用户接口的操作来变更第1时间差分阈值和第2时间差分阈值中的至少一方。如上所述,副关键字受理决定部34能够在检测到第1副关键字的一个以上的第1帧的结束端时间、与检测到第1副关键字的后续的第2副关键字的一个以上的第2帧的起始端时间的第1差分处于由第1时间差分阈值和第2时间差分阈值规定的范围内的情况下,决定受理第2副关键字。
图12示出由阈值评分显示部41显示于显示器(LCD104)的阈值评分调整画面81的例子。在该阈值评分调整画面81显示有作为副关键字的“communica”、“tion”、以及“tor”各自的阈值评分、和作为关键字的“Hello”的阈值评分。所显示的阈值评分能够根据由用户进行的操作(例如,由用户进行的数值的输入)来变更。阈值评分调整部42能够根据用于对某个关键字或者副关键字的阈值评分进行变更的用户操作,变更该关键字或者副关键字的阈值评分。
另外,图13示出由时间差分阈值显示部43显示于显示器的时间差分阈值调整画面82的例子。在该时间差分阈值调整画面82显示有用于判定是否受理副关键字的组的受理最小值以及受理最大值。更详细而言,显示有用于判定是否受理副关键字“communica”的后续的副关键字“tion”的受理最小值以及受理最大值、和用于判定是否受理副关键字“communica”的后续的副关键字“tor”的受理最小值以及受理最大值。所显示的受理最小值以及受理最大值能够根据由用户进行的操作(例如,由用户进行的数值的输入)来变更。时间差分阈值调整部44能够根据用于对某个副关键字的组的受理最小值或者受理最大值进行变更的用户操作来变更该副关键字的组的受理最小值或者受理最大值。
接着,参照图14的流程图,说明由声音关键字检测装置10执行的阈值调整处理的次序的例子。在本实施方式中,也与第1实施方式相同地,设为检测对象的关键字为“コミュニケーション”、“コミュニケーター”、“ハロー”这三个。而且,将“コミュニケー”、“ション”、“ター”、“ハロー”的关键字或者副关键字分别设为w1、w2、w3、w4,将复合关键字“コミュニケーション”、“コミュニケーター”分别设为利用副关键字的连结来表示的
W1=(w1,w2),W2=(w1,w3)
。另外,作为关键字/副关键字模型,按照与第1实施方式相同的方法分别准备有wn(其中,n=1、2、3、4)的模型。
首先,阈值评分显示部41将关键字以及副关键字的当前的阈值评分显示于LCD104的画面(步骤S21)。在此,如图12所示的阈值评分调整画面81那样显示储存于关键字模型储存部36的关键字或者副关键字的单词(例如,标注)、以及与其关联起来的、由关键字检测部33使用的阈值评分。在此,显示的是当前的阈值评分,只要仍旧为初始值,则相对于所有的关键字以及副关键字是相同的值,例如,设定有
thn=20(n=1、2、3、4)。
接下来,阈值评分显示部41根据由用户进行的操作,受理阈值评分的变更(步骤S22)。用户例如为了调整关键字或者副关键字的出现容易度或出现难度,进行变更阈值评分的操作。例如,在副关键字w2“tion”、以及副关键字w3“tor”与其它关键字/副关键字相比过于被检测的情况下,用户在图12所示的由阈值评分显示部41显示的阈值评分调整画面81的表内,通过经由了图形用户接口(GUI)的操作,将针对副关键字w2、w3的阈值评分从20变更到40。阈值评分显示部41受理基于用户操作的该阈值评分的变更。
阈值评分调整部42使在步骤S22中变更的(受理的)阈值评分反映到检测关键字以及副关键字时的阈值评分中(步骤S23)。阈值评分调整部42例如通过用户操作将在阈值评分调整画面81上的表中从20变更到40的针对副关键字w2、w3的阈值评分th2、th3分别改写为40。由此,用户能够自由地调整关键字以及副关键字的出现容易度(检测容易度)。
接着,时间差分阈值显示部43将各复合关键字的当前的时间差分阈值评分显示于LCD104的画面(步骤S24)。在此,如图13所示的时间差分阈值调整画面82那样显示储存于关键字模型储存部36的复合关键字、和与其关联起来的、由副关键字受理决定部34使用的时间差分阈值。在此,显示的是作为当前的时间差分阈值的受理最小值Tmin l以及受理最大值Tmax l,只要仍旧为初始值,则相对于所有的副关键字的组(复合关键字)是相同的值,例如,设定有
Tmin l=0(l=1、2),Tmax l=50(l=1、2)。
接下来,时间差分阈值显示部43根据由用户进行的操作,受理时间差分阈值的变更(步骤S25)。例如,在复合关键字W2“communica-tor”与复合关键字W1“communica-tion”相比过于被检测的情况下,用户在图13所示的由时间差分阈值显示部43显示的时间差分阈值调整画面82的表内,通过经由了GUI的操作,将针对复合关键字W2的时间差分阈值变更为“Tmin 2=5”以及“Tmax 2=40”。时间差分阈值显示部43受理基于用户操作的该时间差分阈值的变更。
时间差分阈值调整部44使在步骤S25中变更的(受理的)时间差分阈值反映到决定是否受理副关键字时的时间差分阈值中(步骤S26)。时间差分阈值调整部44例如通过用户操作将在时间差分阈值调整画面82上的表中变更的时间差分阈值代入(设定)到由副关键字受理决定部34使用的Tmin 2、Tmax 2。即,从
Tmin 2=0,Tmax 2=50
变更到
Tmin 2=5,Tmax 2=40
。由此,用户能够自由地调整复合关键字的出现容易度(检测容易度)。
此外,在此,示出了针对每个复合关键字调整时间差分阈值的例子,但也可以针对复合关键字中的、2组、3组的单词的每个连结单位调整时间差分阈值。例如,在一个复合关键字由三个以上的副关键字构成、因此包括多个副关键字的组的情况下,能够针对副关键字的每个组(针对副关键字的每个连结单位)调整时间差分阈值。
此外,关于用于更新阈值评分的步骤S21至步骤S23的次序、和用于更新时间差分阈值的步骤S24至步骤S26的次序,能够任意地调换其顺序。例如,既可以在步骤S24至步骤S26的次序之后执行步骤S21至步骤S23的次序,而且也可以并行地执行步骤S21至步骤S23的次序、和步骤S24至步骤S26的次序。
如以上说明,根据本实施方式,能够容易地调整基于声音关键字检测装置10的关键字以及副关键字的检测容易度。用户能够经由用户接口容易地变更显示于画面的阈值评分、时间差分阈值。因此,能够根据被变更的阈值评分,容易地调整关键字以及副关键字的检测容易度,另外能够根据被变更的时间差分阈值,容易地调整复合关键字(副关键字的组)的检测容易度。
此外,阈值评分不仅可以经由用户接口而输入,而且还可以作为规定的格式的数据而输入。阈值评分调整部42例如能够使用记述有关键字或者副关键字和与该关键字或者副关键字对应的阈值评分的数据,更新由关键字检测部33使用的阈值评分。
同样地,表示时间差分阈值的受理最小值和受理最大值不仅可以经由用户接口而输入,而且还可以作为规定的格式的数据而输入。时间差分阈值调整部44例如能够使用记述有副关键字的组和与该副关键字的组对应的受理最小值以及受理最大值的数据,更新由副关键字受理决定部34使用的受理最小值以及受理最大值。
此外,参照图1,如上所述,在服务器2具有声音关键字检测功能的情况下,服务器2也可以对客户端1提供用于变更在服务器2上使用的阈值评分以及时间差分阈值的网络库的用户接口。服务器2例如经由网页浏览器、专用的应用,使如图12以及图13所示的、用于变更阈值评分以及时间差分阈值的用户接口显示于客户端1的画面,受理被变更的值。
(第3实施方式)
图15示出在第3实施方式的声音关键字检测装置10上执行的声音关键字检测程序202的功能结构。该声音关键字检测装置10具有在第1实施方式中说明的系统结构。本实施方式的声音关键字检测程序202除了具备声音获取部31、关键字评分计算部32、关键字检测部33、副关键字受理决定部34以及复合关键字检测部35之外,还具备关键字列表获取部51以及关键字模型构建部52。声音关键字检测程序202的各部分能够读出储存于关键字模型储存部36的各种数据,另外能够将数据写入到关键字模型储存部36。声音获取部31、关键字评分计算部32、关键字检测部33、副关键字受理决定部34、复合关键字检测部35以及关键字模型储存部36具有与第1实施方式相同的结构。以下,仅聚焦于与第1实施方式的不同部分进行说明。
关键字列表获取部51获取包括多个关键字的关键字列表。关键字列表获取部51例如既可以获取用户使用键盘109等进行了文本输入的关键字的列表,也可以获取按照规定的格式记述有多个关键字的数据作为关键字的列表。
关键字模型构建部52从获取到的关键字的列表抽取表示各关键字的音素、音韵、短音节、音标、或者标注在多个关键字间共同的部分和不同的部分,构建基于抽取出的共同部分和不同的部分的关键字模型以及副关键字模型(关键字/副关键字模型)。关键字模型构建部52例如决定与表示各关键字的音素、音韵、音标、短音节或者标注在多个关键字间相同的部分对应的副关键字和与不同的部分对应的副关键字,构建基于决定的副关键字的副关键字模型。然后,关键字模型构建部52使用决定的副关键字(副关键字模型),决定(构建)复合关键字模型,该复合关键字模型规定分别构成多个关键字中的两个以上的关键字的多个副关键字、和该多个副关键字间的发声顺序的前后关系。构建出的关键字模型(复合关键字模型)以及副关键字模型保存于关键字模型储存部36。
关键字评分计算部32使用与由第1副关键字和该第1副关键字的后续的第2关键字构成的第1关键字对应的复合关键字模型,例如计算针对第1副关键字的第1评分、和针对第2副关键字的第2评分。然后,关键字受理决定部34使用该复合关键字模型,决定受理第1副关键字和第2副关键字。
参照图16的流程图,示出由声音关键字检测装置10执行的关键字模型构建处理的次序的例子。该声音关键字检测装置10例如通过由CPU101执行声音关键字检测程序202所包含的命令群而实现。
首先,关键字列表获取部51受理关键字的列表(步骤S31)。关键字列表获取部51例如获取作为关键字的“コミュニケーション”、“コミュニケーター”以及“ハロー”、和与它们分别关联起来的音素串“k a my u n i k e i sy o n”、“k a my u n i k e i t a a”以及“h e l o u”。
接下来,关键字模型构建部52从获取到的关键字的列表抽取关键字间的共同部分和不同的部分(步骤S32)。在抽取共同部分和不同的部分时,使用音素串和基数树(radixtree)。当将多个关键字的音素串置换为基数树构造时,基数树构造的边的部分相当于共同部分和不同的部分中的任意部分,另外成为关键字和副关键字中的任意一个。
关键字模型构建部52例如以如下方式制作基数树。
首先,关键字模型构建部52将关键字的列表所包含的第一个关键字的音素串登记到基数树。
接下来,在登记第二个关键字的音素串时,关键字模型构建部52从根部至该第二个关键字的音素串一致的部位为止扫描基数树。然后,当在第二个关键字的一部分中发现了在当前的基数树中不存在的、不同的部分的情况下,关键字模型构建部52为了登记该不同的部分,而对基数树追加新的边。关键字模型构建部52将该不同的部分、即第二个关键字的剩余的音素串登记为追加的边的标签。此外,在从剩余的音素串的开头至中途的一部分为止共同的边已经登记到基数树的情况下,关键字模型构建部52将与该剩余的音素串和已经登记的边的共同部分对应的边新登记到基数树,从此处分支为两个,设计成还登记分别与不同的部分对应的边。通过将所有的音素串登记到基数树,能够制作针对获取到的关键字的列表的基数树。
接着,关键字模型构建部52根据在步骤S32中抽取出的、与关键字的共同部分不同的部分,构建关键字/副关键字模型(步骤S33)。关键字模型构建部52例如与第1实施方式相同地针对各关键字、副关键字构建音素HMM。在构建该音素HMM时使用的复合关键字的前后关系例如能够通过从根部探索在步骤S32中制作出的基数树而得到。由此,能够从关键字的列表自动地抽取关键字的共同部分和不同的部分,构建针对它们的关键字/副关键字模型。
然后,关键字模型构建部52将构建出的关键字/副关键字模型保存于关键字模型储存部36(步骤S34)。
图17示出由关键字模型构建部52制作的基数树的具体的例子。
为了制作该基数树,关键字模型构建部52首先将与第一个关键字“コミュニケーション”对应的音素串“k a my u n i k e i sy o n”作为与根部91连接的边登记到基数树。
接下来,关键字模型构建部52在登记与第二个关键字“コミュニケーター”对应的音素串“k a my u n i k e i t a a”时,从根部91至该第二个关键字的音素串一致的部位为止扫描基数树。在制作过程中的基数树中,没有与音素串“k a my u n i k e i t a a”完全一致的边,从该音素串的开头至中途的一部分为止是共同的边“k a my u n i k e isy o n”已经被登记。因此,关键字模型构建部52将与音素串“k a my u n i k e i t a a”与已经登记的边“k a my u n i k e i sy o n”的共同部分对应的边“k a my u n i k ei”92代替为已经登记的边“k a my u n i k e i sy o n”,新登记到基数树。然后,关键字模型构建部52从此处分支为两个,设置成还登记分别与不同的部分对应的边“t a a”94和边“sy o n”95。
接着,关键字模型构建部52在登记与第三个关键字“ハロー”对应的音素串“h e lo u”时,从根部91至该第三个关键字的音素串一致的部位为止扫描基数树。在制作过程中的基数树中,没有与音素串“h e l o u”完全一致的边,也没有从该音素串的开头至中途的一部分为止是共同的边。因此,关键字模型构建部52将音素串“h e l o u”作为与根部91连接的边93登记到基数树。
根据以上的结构,能够制作针对获取到的关键字“コミュニケーション”、“コミュニケーター”、以及“ハロー”的基数树。如上所述,关键字模型构建部52能够使用该基数树得到关键字间的共同部分和不同的部分,所以能够容易地构建与获取到的关键字的列表对应的关键字/副关键字模型。关键字的共同部分的抽取并不仅限定于基数树,也可以使用最长公共子序列(Longest Common Subsequence)算法、动态规划(Dynamic Programming)匹配等。
此外,本发明的几个实施方式所记载的声音关键字检测装置10既可以通过将上述声音关键字检测程序202预先安装于通用的计算机装置而实现,也可以通过存储于CD-ROM等存储介质,或者经由网络分发上述程序202并将该程序202适当地安装于计算机装置而实现。另外,关键字模型储存部36能够适当地利用内置或者外设于上述计算机装置的存储器、硬盘或CD-R、CD-RW、DVD-RAM、DVD-R等存储介质等而实现。
另外,本发明的几个实施方式所记载的各种功能的每一个也可以利用电路(处理电路)实现。作为处理电路的例子,包含如中央处理装置(CPU)那样的、被编程的处理器。该处理器通过执行储存于存储器的计算机程序(命令群),从而分别执行所记载的功能。该处理器也可以是包括电路的微型处理器。作为处理电路的例子,还包括数字信号处理器(DSP)、面向特定用途的集成电路(ASIC)、微型控制器、控制器、其它电路部件。另外,这些实施方式所记载的CPU以外的其它组件的每一个也可以利用处理电路实现。
另外,本发明的几个实施方式的各种处理能够利用计算机程序实现,所以仅凭经由储存有该计算机程序的计算机可读取的存储介质将该计算机程序安装于计算机而执行,就能够容易地实现与这些实施方式同样的效果。
说明了本发明的几个实施方式,但这些实施方式是作为例子而提示的,并未意图限定发明的范围。这些新的实施方式能够在其它各种方式中被实施,能够在不脱离发明的要旨的范围进行各种省略、置换、变更。这些实施方式、其变形包含于发明的范围、要旨,并且包含于专利权利要求书所记载的发明和与其均等的范围。
此外,能够将上述实施方式总结为以下的技术方案。
技术方案1
一种声音关键字检测装置,具备:
声音获取单元,获取包含多个帧的声音数据;
关键字评分计算单元,通过将与构成第1关键字的第1副关键字和所述第1副关键字的后续的第2副关键字分别关联起来的音素、音韵、音标、短音节或者标注与所述声音数据的各帧进行匹配,计算针对所述第1副关键字的第1评分和针对所述第2副关键字的第2评分;
关键字检测单元,根据所述第1评分从所述声音数据检测所述第1副关键字,根据所述第2评分从所述声音数据检测所述第2副关键字;
受理决定单元,在从所述多个帧中的一个以上的第1帧检测到所述第1副关键字时,决定受理所述第1副关键字,在从所述多个帧中的一个以上的第2帧检测到所述第2副关键字时,根据所述一个以上的第1帧的起始端时间和结束端时间中的至少一方、以及所述一个以上的第2帧的起始端时间和结束端时间中的至少一方,决定是否受理所述第2副关键字;以及
关键字输出单元,在决定了受理所述第2副关键字的情况下,输出所述第1关键字。
技术方案2
根据上述技术方案1,所述关键字评分计算单元进而在第2关键字由所述第1副关键字、和所述第1副关键字的后续的第3副关键字构成的情况下,将与所述第3副关键字关联起来的音素、音韵、音标、短音节或者标注与所述声音数据的各帧进行匹配,从而计算针对所述第3副关键字的第3评分,
所述关键字检测单元进而根据所述第3评分来检测所述第3副关键字,
所述受理决定单元进而在从所述多个帧中的一个以上的第3帧检测到所述第1副关键字时,决定受理所述第1副关键字,在从所述多个帧中的一个以上的第4帧检测到所述第3副关键字时,根据所述一个以上的第3帧的起始端时间和结束端时间中的至少一方、以及所述一个以上的第4帧的起始端时间和结束端时间中的至少一方,决定是否受理所述第3副关键字,
所述关键字输出单元进而在决定了受理所述第3副关键字的情况下,输出所述第2关键字。
技术方案3
根据上述技术方案1,所述关键字评分计算单元进而通过将与第3关键字关联起来的音素、音韵、音标、短音节或者标注与所述声音数据的各帧进行匹配,计算针对所述第3关键字的评分,
所述关键字检测单元进而根据针对所述第3关键字的评分来检测所述第3关键字,输出检测到的所述第3关键字。
技术方案4
根据上述技术方案1,所述关键字检测单元在针对所述第1副关键字的所述第1评分比第1阈值评分大的情况下,检测所述第1副关键字,在针对所述第2副关键字的所述第2评分比第2阈值评分大的情况下,检测所述第2副关键字。
技术方案5
根据上述技术方案4,所述声音关键字检测装置还具备第1变更单元,该第1变更单元变更所述第1阈值评分和所述第2阈值评分中的至少一方。
技术方案6
根据上述技术方案5,所述声音关键字检测装置还具备第1显示控制单元,该第1显示控制单元将用于变更所述第1阈值评分和所述第2阈值评分中的至少一方的用户接口显示于画面,
所述第1变更单元根据使用了所显示的所述用户接口的操作,变更所述第1阈值评分和所述第2阈值评分中的至少一方。
技术方案7
根据上述技术方案1,所述受理决定单元在所述一个以上的第1帧的结束端时间与所述一个以上的第2帧的起始端时间的第1差分处于由第1时间差分阈值和第2时间差分阈值规定的范围内的情况下,决定受理所述第2副关键字。
技术方案8
根据上述技术方案7,所述声音关键字检测装置还具备第2变更单元,该第2变更单元变更所述第1时间差分阈值和所述第2时间差分阈值中的至少一方。
技术方案9
根据上述技术方案8,所述声音关键字检测装置还具备第2显示控制单元,该第2显示控制单元将用于变更所述第1时间差分阈值和所述第2时间差分阈值中的至少一方的用户接口显示于画面,
所述第2变更单元根据使用了所显示的所述用户接口的操作,变更所述第1时间差分阈值和所述第2时间差分阈值中的至少一方。
技术方案10
根据上述技术方案1,还具备:
关键字获取单元,获取多个关键字;以及
关键字模型构建单元,决定与表示各关键字的音素、音韵、音标、短音节或者标注在所述多个关键字间相同的部分对应的副关键字、和与不同的部分对应的副关键字,使用所决定的所述副关键字,决定复合关键字模型,该复合关键字模型规定分别构成所述多个关键字中的两个以上的关键字的多个副关键字、和该多个副关键字间的发声顺序的前后关系,
所述关键字评分计算单元使用所述复合关键字模型,计算所述第1评分和所述第2评分,
所述受理决定单元使用所述复合关键字模型,决定受理所述第1副关键字和所述第2副关键字。
技术方案11
一种声音关键字检测方法,
获取包含多个帧的声音数据,
通过将与构成第1关键字的第1副关键字和所述第1副关键字的后续的第2副关键字分别关联起来的音素、音韵、音标、短音节或者标注与所述声音数据的各帧进行匹配,计算针对所述第1副关键字的第1评分和针对所述第2副关键字的第2评分,
根据所述第1评分从所述声音数据检测所述第1副关键字,根据所述第2评分从所述声音数据检测所述第2副关键字,
在从所述多个帧中的一个以上的第1帧检测到所述第1副关键字时,决定受理所述第1副关键字,在从所述多个帧中的一个以上的第2帧检测到所述第2副关键字时,根据所述一个以上的第1帧的起始端时间和结束端时间中的至少一方、以及所述一个以上的第2帧的起始端时间和结束端时间中的至少一方,决定是否受理所述第2副关键字,
在决定了受理所述第2副关键字的情况下,输出所述第1关键字。
技术方案12
一种程序,由计算机执行,所述程序使所述计算机执行如下次序:
获取包含多个帧的声音数据的次序;
通过将与构成第1关键字的第1副关键字和所述第1副关键字的后续的第2副关键字分别关联起来的音素、音韵、音标、短音节或者标注与所述声音数据的各帧进行匹配,计算针对所述第1副关键字的第1评分和针对所述第2副关键字的第2评分的次序;
根据所述第1评分从所述声音数据检测所述第1副关键字,根据所述第2评分从所述声音数据检测所述第2副关键字的次序;
在从所述多个帧中的一个以上的第1帧检测到所述第1副关键字时,决定受理所述第1副关键字,在从所述多个帧中的一个以上的第2帧检测到所述第2副关键字时,根据所述一个以上的第1帧的起始端时间和结束端时间中的至少一方、以及所述一个以上的第2帧的起始端时间和结束端时间中的至少一方,决定是否受理所述第2副关键字的次序;以及
在决定了受理所述第2副关键字的情况下,输出所述第1关键字的次序。
Claims (10)
1.一种声音关键字检测装置,具备:
声音获取单元,获取包含多个帧的声音数据;
关键字评分计算单元,通过将与构成第1关键字的第1副关键字和所述第1副关键字的后续的第2副关键字分别关联起来的音素、音韵、音标、短音节或者标注与所述声音数据的各帧进行匹配,计算针对所述第1副关键字的第1评分和针对所述第2副关键字的第2评分;
关键字检测单元,根据所述第1评分从所述声音数据检测所述第1副关键字,根据所述第2评分从所述声音数据检测所述第2副关键字;
受理决定单元,在从所述多个帧中的一个以上的第1帧检测到所述第1副关键字时,决定受理所述第1副关键字,在从所述多个帧中的一个以上的第2帧检测到所述第2副关键字时,根据所述一个以上的第1帧的起始端时间和结束端时间中的至少一方、以及所述一个以上的第2帧的起始端时间和结束端时间中的至少一方,决定是否受理所述第2副关键字;以及
关键字输出单元,在决定了受理所述第2副关键字的情况下,输出所述第1关键字。
2.根据权利要求1所述的声音关键字检测装置,其中,
所述关键字评分计算单元进而在第2关键字由所述第1副关键字、和所述第1副关键字的后续的第3副关键字构成的情况下,将与所述第3副关键字关联起来的音素、音韵、音标、短音节或者标注与所述声音数据的各帧进行匹配,从而计算针对所述第3副关键字的第3评分,
所述关键字检测单元进而根据所述第3评分来检测所述第3副关键字,
所述受理决定单元进而在从所述多个帧中的一个以上的第3帧检测到所述第1副关键字时,决定受理所述第1副关键字,在从所述多个帧中的一个以上的第4帧检测到所述第3副关键字时,根据所述一个以上的第3帧的起始端时间和结束端时间中的至少一方、以及所述一个以上的第4帧的起始端时间和结束端时间中的至少一方,决定是否受理所述第3副关键字,
所述关键字输出单元进而在决定了受理所述第3副关键字的情况下,输出所述第2关键字。
3.根据权利要求1所述的声音关键字检测装置,其中,
所述关键字评分计算单元进而通过将与第3关键字关联起来的音素、音韵、音标、短音节或者标注与所述声音数据的各帧进行匹配,计算针对所述第3关键字的评分,
所述关键字检测单元进而根据针对所述第3关键字的评分来检测所述第3关键字,输出检测到的所述第3关键字。
4.根据权利要求1所述的声音关键字检测装置,其中,
所述关键字检测单元在针对所述第1副关键字的所述第1评分比第1阈值评分大的情况下,检测所述第1副关键字,在针对所述第2副关键字的所述第2评分比第2阈值评分大的情况下,检测所述第2副关键字。
5.根据权利要求4所述的声音关键字检测装置,其中,
所述声音关键字检测装置还具备第1变更单元,该第1变更单元变更所述第1阈值评分和所述第2阈值评分中的至少一方。
6.根据权利要求5所述的声音关键字检测装置,其中,
所述声音关键字检测装置还具备第1显示控制单元,该第1显示控制单元将用于变更所述第1阈值评分和所述第2阈值评分中的至少一方的用户接口显示于画面,
所述第1变更单元根据使用了所显示的所述用户接口的操作,变更所述第1阈值评分和所述第2阈值评分中的至少一方。
7.根据权利要求1所述的声音关键字检测装置,其中,
所述受理决定单元在所述一个以上的第1帧的结束端时间与所述一个以上的第2帧的起始端时间的第1差分处于由第1时间差分阈值和第2时间差分阈值规定的范围内的情况下,决定受理所述第2副关键字。
8.根据权利要求7所述的声音关键字检测装置,其中,
所述声音关键字检测装置还具备第2变更单元,该第2变更单元变更所述第1时间差分阈值和所述第2时间差分阈值中的至少一方。
9.根据权利要求8所述的声音关键字检测装置,其中,
所述声音关键字检测装置还具备第2显示控制单元,该第2显示控制单元将用于变更所述第1时间差分阈值和所述第2时间差分阈值中的至少一方的用户接口显示于画面,
所述第2变更单元根据使用了所显示的所述用户接口的操作,变更所述第1时间差分阈值和所述第2时间差分阈值中的至少一方。
10.根据权利要求1所述的声音关键字检测装置,其中,还具备:
关键字获取单元,获取多个关键字;以及
关键字模型构建单元,决定与表示各关键字的音素、音韵、音标、短音节或者标注在所述多个关键字间相同的部分对应的副关键字、和与不同的部分对应的副关键字,使用所决定的所述副关键字,决定复合关键字模型,该复合关键字模型规定分别构成所述多个关键字中的两个以上的关键字的多个副关键字、和该多个副关键字间的发声顺序的前后关系,
所述关键字评分计算单元使用所述复合关键字模型,计算所述第1评分和所述第2评分,
所述受理决定单元使用所述复合关键字模型,决定受理所述第1副关键字和所述第2副关键字。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017-053324 | 2017-03-17 | ||
JP2017053324A JP6585112B2 (ja) | 2017-03-17 | 2017-03-17 | 音声キーワード検出装置および音声キーワード検出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108630200A true CN108630200A (zh) | 2018-10-09 |
CN108630200B CN108630200B (zh) | 2022-01-07 |
Family
ID=63519586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710766822.4A Active CN108630200B (zh) | 2017-03-17 | 2017-08-31 | 声音关键字检测装置以及声音关键字检测方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10553206B2 (zh) |
JP (1) | JP6585112B2 (zh) |
CN (1) | CN108630200B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110189750B (zh) | 2018-02-23 | 2022-11-15 | 株式会社东芝 | 词语检测系统、词语检测方法以及记录介质 |
KR102622357B1 (ko) * | 2018-07-13 | 2024-01-08 | 구글 엘엘씨 | 종단 간 스트리밍 키워드 탐지 |
US11170770B2 (en) * | 2018-08-03 | 2021-11-09 | International Business Machines Corporation | Dynamic adjustment of response thresholds in a dialogue system |
US11308939B1 (en) * | 2018-09-25 | 2022-04-19 | Amazon Technologies, Inc. | Wakeword detection using multi-word model |
CN109599124B (zh) * | 2018-11-23 | 2023-01-10 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
JP7191792B2 (ja) | 2019-08-23 | 2022-12-19 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
JP7098587B2 (ja) | 2019-08-29 | 2022-07-11 | 株式会社東芝 | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム |
CN113658609B (zh) * | 2021-10-20 | 2022-01-04 | 北京世纪好未来教育科技有限公司 | 关键字匹配信息的确定方法、装置、电子设备和介质 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5799274A (en) * | 1995-10-09 | 1998-08-25 | Ricoh Company, Ltd. | Speech recognition system and method for properly recognizing a compound word composed of a plurality of words |
JP2000259653A (ja) * | 1999-03-09 | 2000-09-22 | Mitsubishi Electric Corp | 音声認識装置及び音声認識方法 |
US20050288929A1 (en) * | 2004-06-29 | 2005-12-29 | Canon Kabushiki Kaisha | Speech recognition method and apparatus |
WO2006086511A2 (en) * | 2005-02-08 | 2006-08-17 | Tegic Communications, Inc. | Method and apparatus utilizing voice input to resolve ambiguous manually entered text input |
US20090055185A1 (en) * | 2007-04-16 | 2009-02-26 | Motoki Nakade | Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program |
CN101458928A (zh) * | 2007-12-10 | 2009-06-17 | 富士通株式会社 | 语音识别装置 |
CN102334119A (zh) * | 2009-02-26 | 2012-01-25 | 国立大学法人丰桥技术科学大学 | 声音检索装置及声音检索方法 |
CN102867512A (zh) * | 2011-07-04 | 2013-01-09 | 余喆 | 自然语音识别方法和装置 |
CN103794208A (zh) * | 2012-10-29 | 2014-05-14 | 无敌科技(西安)有限公司 | 利用语音特征将英文单词发音按音节分开的装置与方法 |
CN104143330A (zh) * | 2013-05-07 | 2014-11-12 | 佳能株式会社 | 语音识别方法和语音识别系统 |
US20140337031A1 (en) * | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Method and apparatus for detecting a target keyword |
CN105229726A (zh) * | 2013-05-07 | 2016-01-06 | 高通股份有限公司 | 用于关键字检测的自适应音频帧处理 |
CN105632487A (zh) * | 2015-12-31 | 2016-06-01 | 北京奇艺世纪科技有限公司 | 一种语音识别方法和装置 |
US20160171973A1 (en) * | 2014-12-16 | 2016-06-16 | Nice-Systems Ltd | Out of vocabulary pattern learning |
CN105957518A (zh) * | 2016-06-16 | 2016-09-21 | 内蒙古大学 | 一种蒙古语大词汇量连续语音识别的方法 |
US20160275405A1 (en) * | 2015-03-19 | 2016-09-22 | Kabushiki Kaisha Toshiba | Detection apparatus, detection method, and computer program product |
CN106297776A (zh) * | 2015-05-22 | 2017-01-04 | 中国科学院声学研究所 | 一种基于音频模板的语音关键词检索方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4342575B2 (ja) * | 2007-06-25 | 2009-10-14 | 株式会社東芝 | キーワード提示のための装置、方法、及びプログラム |
WO2011125793A1 (ja) * | 2010-03-31 | 2011-10-13 | 楽天株式会社 | 検索システム、検索方法、検索プログラム及び記録媒体 |
US9202462B2 (en) * | 2013-09-30 | 2015-12-01 | Google Inc. | Key phrase detection |
US9520127B2 (en) * | 2014-04-29 | 2016-12-13 | Microsoft Technology Licensing, Llc | Shared hidden layer combination for speech recognition systems |
-
2017
- 2017-03-17 JP JP2017053324A patent/JP6585112B2/ja active Active
- 2017-08-30 US US15/691,159 patent/US10553206B2/en active Active
- 2017-08-31 CN CN201710766822.4A patent/CN108630200B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5799274A (en) * | 1995-10-09 | 1998-08-25 | Ricoh Company, Ltd. | Speech recognition system and method for properly recognizing a compound word composed of a plurality of words |
JP2000259653A (ja) * | 1999-03-09 | 2000-09-22 | Mitsubishi Electric Corp | 音声認識装置及び音声認識方法 |
US20050288929A1 (en) * | 2004-06-29 | 2005-12-29 | Canon Kabushiki Kaisha | Speech recognition method and apparatus |
WO2006086511A2 (en) * | 2005-02-08 | 2006-08-17 | Tegic Communications, Inc. | Method and apparatus utilizing voice input to resolve ambiguous manually entered text input |
US20090055185A1 (en) * | 2007-04-16 | 2009-02-26 | Motoki Nakade | Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program |
CN101458928A (zh) * | 2007-12-10 | 2009-06-17 | 富士通株式会社 | 语音识别装置 |
CN102334119A (zh) * | 2009-02-26 | 2012-01-25 | 国立大学法人丰桥技术科学大学 | 声音检索装置及声音检索方法 |
CN102867512A (zh) * | 2011-07-04 | 2013-01-09 | 余喆 | 自然语音识别方法和装置 |
CN103794208A (zh) * | 2012-10-29 | 2014-05-14 | 无敌科技(西安)有限公司 | 利用语音特征将英文单词发音按音节分开的装置与方法 |
CN104143330A (zh) * | 2013-05-07 | 2014-11-12 | 佳能株式会社 | 语音识别方法和语音识别系统 |
US20140337031A1 (en) * | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Method and apparatus for detecting a target keyword |
CN105229726A (zh) * | 2013-05-07 | 2016-01-06 | 高通股份有限公司 | 用于关键字检测的自适应音频帧处理 |
US20160171973A1 (en) * | 2014-12-16 | 2016-06-16 | Nice-Systems Ltd | Out of vocabulary pattern learning |
US20160275405A1 (en) * | 2015-03-19 | 2016-09-22 | Kabushiki Kaisha Toshiba | Detection apparatus, detection method, and computer program product |
CN106297776A (zh) * | 2015-05-22 | 2017-01-04 | 中国科学院声学研究所 | 一种基于音频模板的语音关键词检索方法 |
CN105632487A (zh) * | 2015-12-31 | 2016-06-01 | 北京奇艺世纪科技有限公司 | 一种语音识别方法和装置 |
CN105957518A (zh) * | 2016-06-16 | 2016-09-21 | 内蒙古大学 | 一种蒙古语大词汇量连续语音识别的方法 |
Non-Patent Citations (2)
Title |
---|
FURUICHI C 等: "Speech recognition using stochastic phonemic segment model based on phoneme segmentation", 《SYSTEMS AND COMPUTERS》 * |
TAVANAEI A 等: "False alarm reduction by improved filler model and post-processing in speech keyword spotting", 《2011 IEEE INTERNATIONAL WORKSHOP ON MACHINE LEARNING FOR SIGNAL PROCESSING》 * |
Also Published As
Publication number | Publication date |
---|---|
JP2018155957A (ja) | 2018-10-04 |
CN108630200B (zh) | 2022-01-07 |
US20180268809A1 (en) | 2018-09-20 |
US10553206B2 (en) | 2020-02-04 |
JP6585112B2 (ja) | 2019-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108630200A (zh) | 声音关键字检测装置以及声音关键字检测方法 | |
US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
EP3438973B1 (en) | Method and apparatus for constructing speech decoding network in digital speech recognition, and storage medium | |
JP6754184B2 (ja) | 音声認識装置及び音声認識方法 | |
CN104900235B (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
CN102982811B (zh) | 一种基于实时解码的语音端点检测方法 | |
CN112739253B (zh) | 用于肺部状况监测与分析的系统和方法 | |
CN104765996B (zh) | 声纹密码认证方法及系统 | |
US20140172428A1 (en) | Method and apparatus for context independent gender recognition utilizing phoneme transition probability | |
JPWO2004075168A1 (ja) | 音声認識装置及び音声認識方法 | |
US9595261B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
US20180308501A1 (en) | Multi speaker attribution using personal grammar detection | |
Zhong et al. | DNN i-Vector Speaker Verification with Short, Text-Constrained Test Utterances. | |
Hansen et al. | Speaker height estimation from speech: Fusing spectral regression and statistical acoustic models | |
JP5229124B2 (ja) | 話者照合装置、話者照合方法およびプログラム | |
Yu et al. | {SMACK}: Semantically Meaningful Adversarial Audio Attack | |
CN110189750A (zh) | 词语检测系统、词语检测方法以及记录介质 | |
Woubie et al. | Voice-quality Features for Deep Neural Network Based Speaker Verification Systems | |
US20210065684A1 (en) | Information processing apparatus, keyword detecting apparatus, and information processing method | |
CN105895079A (zh) | 语音数据的处理方法和装置 | |
Hou et al. | Domain adversarial training for improving keyword spotting performance of esl speech | |
KR102113879B1 (ko) | 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치 | |
Trabelsi et al. | A multi level data fusion approach for speaker identification on telephone speech | |
Al-Hassani et al. | [Retracted] Development of High Accuracy Classifier for the Speaker Recognition System | |
Nandwana et al. | A new front-end for classification of non-speech sounds: a study on human whistle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |