CN112447176B - 信息处理装置、关键词检测装置以及信息处理方法 - Google Patents
信息处理装置、关键词检测装置以及信息处理方法 Download PDFInfo
- Publication number
- CN112447176B CN112447176B CN202010127371.1A CN202010127371A CN112447176B CN 112447176 B CN112447176 B CN 112447176B CN 202010127371 A CN202010127371 A CN 202010127371A CN 112447176 B CN112447176 B CN 112447176B
- Authority
- CN
- China
- Prior art keywords
- keyword
- data
- model
- learning
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 67
- 230000010365 information processing Effects 0.000 title claims abstract description 49
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 230000006978 adaptation Effects 0.000 claims abstract description 58
- 239000000284 extract Substances 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 63
- 230000006870 function Effects 0.000 claims description 15
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 42
- 238000013075 data extraction Methods 0.000 description 47
- 230000015654 memory Effects 0.000 description 30
- 230000008569 process Effects 0.000 description 26
- 238000013500 data storage Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000005401 electroluminescence Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
- G10L2015/0633—Creating reference templates; Clustering using lexical or orthographic knowledge sources
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
实施方式涉及信息处理装置、关键词检测装置以及信息处理方法。提供能够高效地进行学习的装置以及方法。实施方式涉及的装置具备取得部、学习部、提取部以及自适应部。取得部取得包含特征量及其正解音素标签的学习数据。学习部使声学模型进行学习以使得当输入特征量时输出音素标签。提取部从学习数据提取包含关键词、其所包含的子词、音节、或者音素的特征量的数据。自适应部使用所提取的数据,使关键词检测模型对声学模型进行自适应。
Description
本申请以日本专利申请2019-157158(申请日:8/29/2019)为基础,根据该申请享受优先权。本申请通过参照该申请而包含该申请的全部内容。
技术领域
本发明的实施方式涉及信息处理装置、关键词检测装置以及信息处理方法。
背景技术
近年来,对基于语音的操作进行了自适应的智能扬声器急速地普及。智能扬声器例如通过从语音检测也被称为“唤醒词”的特定关键词来启动。用户仅说出关键词,就能够使智能扬声器启动,继续进行各种各样的操作。因此,需要从语音检测关键词的关键词模型。
发明内容
本发明要解决的技术课题在于:提供能够从有限的数据高效地使关键词模型进行学习的信息处理装置、关键词检测装置以及信息处理方法。
根据实施方式,信息处理装置具备数据取得部、学习部、提取部以及自适应处理部。数据取得部取得包含语音特征量和该语音特征量的正解音素标签的组合的第1学习数据。学习部使用上述第1学习数据,使声学模型进行学习以使得相对于上述语音特征量的输入而输出上述正解音素标签。提取部从上述第1学习数据提取第2学习数据,该第2学习数据包含预先设定的关键词、上述关键词所包含的子词、上述关键词所包含的音节以及上述关键词所包含的音素中的至少一个语音特征量。自适应处理部至少使用上述第2学习数据,使与上述关键词的检测相关的关键词模型对学习完毕的上述声学模型进行自适应。
根据上述结构的信息处理装置,能够从有限的数据高效地使关键词模型进行学习。
附图说明
图1是表示第1实施方式涉及的信息处理装置的系统结构的例子的框图。
图2是表示第1实施方式涉及的信息处理装置的功能结构的例子的框图。
图3是表示第1实施方式涉及的信息处理装置进行的处理次序和处理内容的例子的流程图。
图4是表示第2实施方式涉及的信息处理装置的功能结构的例子的框图。
图5是表示第2实施方式涉及的信息处理装置进行的处理次序和处理内容的例子的流程图。
图6是表示第3实施方式涉及的信息处理装置进行的处理次序和处理内容的例子的流程图。
图7是表示第4实施方式涉及的信息处理装置进行的处理次序和处理内容的例子的流程图。
图8是表示第5实施方式涉及的信息处理装置进行的处理次序和处理内容的例子的流程图。
图9是表示第6实施方式涉及的信息处理装置的功能结构的例子的框图。
图10是表示第7实施方式涉及的关键词检测装置的功能结构的例子的框图。
图11是表示第7实施方式涉及的关键词检测装置进行的处理次序和处理内容的一个例子的图。
图12是表示使用了根据实施方式进行自适应后的关键词检测模型的实验结果的曲线图。
附图标记说明
1信息处理装置、关键词模型学习装置;2麦克风;3输入设备;4输出设备;10I/F单元;20控制单元;20A硬件处理器;20B程序存储器;21学习数据取得部;22模型学习部;23数据提取部;24关键词模型自适应部;25输出控制部;26关键词发声数据取得部;27关键词设定部;30数据存储器;31学习数据存储部;32关键词模型存储部;33关键词发声数据存储部;100关键词检测装置;101麦克风;102输入设备;103输出设备;110I/F单元;120控制单元;121语音取得部;122关键词检测部;130数据存储器;131关键词模型存储部。
具体实施方式
以下,参照附图对本发明涉及的实施方式进行说明。
[第1实施方式]
(1)关键词模型学习装置
(1-1)结构
图1是表示作为第1实施方式涉及的信息处理装置的关键词模型学习装置1的一个例子的框图。关键词模型学习装置1例如是服务器计算机或者个人计算机,被用于为了检测关键词所使用的关键词模型的学习。
关键词模型学习装置1例如具有CPU(Central Processing Unit,中央处理单元)等的硬件处理器20A。并且,经由总线40对该硬件处理器连接了程序存储器20B、数据存储器30以及接口(I/F)单元10。
I/F单元10具有从外部设备接受学习数据、并输出至控制单元20的功能。另外,I/F单元10具有向外部设备输出与从控制单元20输出了的学习完毕模型有关的信息的功能。I/F单元10可以包括通信接口。通信接口例如包括一个以上的有线或者无线的通信接口,能够与外部设备之间进行信息收发。作为有线接口,例如可使用有线LAN,另外,作为无线接口,例如可使用采用了无线LAN、Bluetooth(注册商标)等的小功率无线数据通信标准的接口。
另外,在I/F单元10可以连接麦克风2、输入设备3以及输出设备4。例如,I/F单元10具有取入由麦克风2收集到的语音来作为语音信号、并送交给控制单元20的功能。另外,I/F单元10具有取入通过键盘、触摸面板、触摸板、鼠标等输入设备3输入的数据并送交给控制单元20的功能。另外,I/F单元10具有如下功能:向输出设备4输出从控制单元20输出了的输出数据,该输出设备4包括使用了液晶或者有机EL(Electro Luminescence,电致发光)等的显示设备和/或输出语音的扬声器。此外,对于麦克风2、输入设备3以及输出设备4,既可以使用内置于关键词模型学习装置1的设备,另外,也可以使用能够经由网络进行通信的其他信息终端的麦克风、输入设备以及输出设备。
程序存储器20B例如是组合使用了HDD(Hard Disk Drive,硬盘驱动器)、SSD(Solid State Drive,固态驱动器)等能够随时写入以及读出的非易失性存储器和ROM等非易失性存储器来作为存储介质的存储器,保存有为了执行实施方式涉及的各种控制处理所需要的程序。
数据存储器30例如是组合使用了HDD或者SSD等能够随时写入以及读出的非易失性存储器和RAM(Random Access Memory,随机访问存储器)等易失性存储器来作为存储介质的存储器,被用于存储在进行信息处理的过程中取得以及制作的各种数据。
在用于进行关键词检测的关键词模型的学习中,一般需要大量的说话者的关键词发声数据,需要用于其收录的收录成本。例如,也有报告指出为了针对特定关键词来使得关键词模型进行学习,需要4万的发声。
本实施方式提供能够从有限的数据高效地进行关键词模型的学习的技术。
图2是表示第1实施方式涉及的关键词模型学习装置1的功能结构的框图。
在数据存储器30的存储区域设有学习数据存储部31和关键词模型存储部32。
学习数据存储部31被用于存储由控制单元20取得的学习数据。学习数据包含语音特征量及其的正解音素标签的组合。
关键词模型存储部32被用于存储学习完毕的关键词模型。在此,学习完毕的关键词模型是指进行了学习以检测特定关键词的模型。
控制单元20具备上述硬件处理器20A和上述程序存储器20B,具备学习数据取得部21、模型学习部22、数据提取部23、关键词模型自适应部24以及输出控制部25来作为处理功能部。这些处理功能部均通过使上述硬件处理器20A执行保存于程序存储器20B的程序来实现。另外,控制单元20也可以用包括ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(field-programmable gate array,现场可编程门阵列)等集成电路的其他的多样的形式来实现。另外,上述程序也可以是经由网络来提供的程序。
学习数据取得部21作为第1数据取得部,取得包含语音特征量及其的正解音素标签的组合的学习数据(第1学习数据),并使之存储于学习数据存储部31。
模型学习部22作为学习部来进行如下处理:使用从学习数据存储部31读出的学习数据,使声学模型进行学习以使得相对于语音特征量的输入而输出正解音素标签。语音特征量既可以是MFCC(Mel Frequency Cepstral Coefficient,梅尔频率倒谱系数),也可以是梅尔滤波器组(Mel filter bank)。或者,也可以使用音调(pitch)特征量、它们的Δ成分或ΔΔ成分、或者这些特征量的组合。以下,设为使用MFCC特征量作为语音特征量来进行说明。
数据提取部23作为提取部进行如下处理:从自学习数据存储部31读出了的学习数据,提取包含预先设定的关键词、该关键词所包含的子词、该关键词所包含的音节或者该关键词所包含的音素的数据。
关键词模型自适应部24作为自适应处理部进行如下处理:至少使用由数据提取部23提取到的数据(第2学习数据),使与关键词的检测相关的关键词模型对学习完毕的声学模型进行自适应。关键词模型自适应部24使进行了自适应的关键词模型存储于关键词模型存储部32。另外,关键词模型自适应部24也能够读出存储于关键词模型存储部32的关键词模型,使该关键词模型进行再学习而更新。
输出控制部25进行如下处理:将控制单元20的处理结果经由I/F单元10输出至外部设备。例如,输出控制部25响应来自外部设备的请求,读出与存储于关键词模型存储部32的关键词模型有关的信息,生成输出数据,并经由I/F单元10而输出至输出设备4或者其他外部设备。
(2-2)动作
接着,对如以上那样构成的关键词模型学习装置1进行的信息处理动作进行说明。图3是表示其处理次序和处理内容的流程图。
在步骤S101中,关键词模型学习装置1在学习数据取得部21的控制下取得学习数据。学习数据包含语音特征量及其的正解音素标签的组合。例如如以下那样提取语音特征量。
首先,使用麦克风等收集发声语音,并作为语音波形进行输出。该语音波形的模拟波例如被以16kHz进行采样,数字波的1个采样的振幅值由16位表示。并且,该数字波一边每256点采样就错开128点采样,一边被截取。将该256点采样作为1帧,从1帧算出12维的MFCC特征量。并且,将3帧量的MFCC特征量连结而得到的36维被作为语音特征量来使用。
正解标签是与语音特征量对应的发音的信息。在此,使用与36维的语音特征量对应的音素的隐马尔可夫模型(Hidden Markov Model,HMM)来作为标签。
接着,在步骤S102中,关键词模型学习装置1在模型学习部22的控制下从学习数据存储部31读出上述学习数据,使用该学习数据来进行声学模型(通用模型)的学习。该声学模型是能识别一般的发声的声学模型。以下,为了与用于检测关键词的关键词模型进行区别,将通过模型学习部22学习的声学模型称为通用模型。模型的形式既可以是DNN(DeepNeuralNetwork,深层神经网络),也可以是CNN(Convolution Neural Network,卷积神经网络),还可以是RNN(Recurrent Neural Network,循环神经网络),也还可以是LSTM(LongShort-Term Memory,长短期记忆网络)。在此,使用DNN来作为模型的形式。
另一方面,在步骤S103中,关键词模型学习装置1在数据提取部23的控制下从学习数据存储部31读出上述学习数据,判定该学习数据是否包含预先设定的关键词或者其要素。在判定为包含的情况下(是),移至步骤S104。在判定为不包含的情况下(否),移至步骤S105。在此,“关键词”是关键词检测的对象,可以任意地进行设定。“关键词的要素”包括:关键词所包含的该关键词的一部分的子词、该关键词的一部分的音节或者该关键词的一部分的音素。
在步骤S104中,关键词模型学习装置1在数据提取部23的控制下从自学习数据存储部31读出的学习数据中提取包含关键词、其一部分的子词、其一部分的音节、或者其一部分的音素的数据。例如,在关键词为“でんきつけて”的情况下,子词为“でんき”、“つけて”,音节为“で”、“ん”、“き”、“つ”、“け”、“て”,音素为“d”、“e”、“N”、“kk”、“i”、“ts”、“u”、“kk”、“e”、“t”、“e”。
更详细而言,数据提取部23在作为关键词进行提取的情况下,从学习数据提取包含“でんきつけて”的数据。在作为子词进行提取的情况下,从学习数据提取包含子词的一部分的“でんき”或者“つけて”的数据。在作为音节进行提取的情况下,从学习数据提取包含音节的一部分的“で”、“ん”、“き”、“つ”、“け”、或者“て”的数据。在以音素为单位进行提取的情况下,从学习数据提取包含音素的一部分的“d”、“e”、“N”、“kk”、“i”、“ts”、“u”、“kk”、或者“t”的数据。重复的子词、音节或者音素可以省略。在该例子中,音素“e”和“kk”重复了多次,因此,省略重复的部分,不进行重复的数据提取。
接着,在步骤S105中,关键词模型学习装置1在数据提取部23的控制下,判定是否关于全部学习数据确认了关键词或者其要素的有无。在判定为对全部数据进行了确认的情况下(是),移至步骤S106。在判定为未对全部数据进行确认的情况下(否),返回步骤S103,继续判定学习数据是否包含关键词或者其要素。
在步骤S106中,关键词模型学习装置1在关键词模型自适应部24的控制下进行如下处理:使用至少包含所提取的数据的数据,使关键词模型对于学习完毕的通用模型进行自适应。
关键词模型自适应部24使进行了自适应的关键词模型存储于关键词模型存储部32。然后,输出控制部25能够在适当的时机或者根据例如来自外部设备的请求,读出与存储于关键词模型存储部32的自适应完毕的关键词模型有关的信息,生成并输出所需要的输出数据。
(3)效果
如以上说明的那样,在第1实施方式中,关键词模型学习装置1取得包含语音特征量及其的正解音素标签的组合的学习数据,使用学习数据使通用模型进行学习,以使得相对于语音特征量的输入而输出正解音素标签。另一方面,从学习数据提取包含预先设定的关键词、所述关键词所包含的子词、所述关键词所包含的音节或者所述关键词所包含的音素的数据,至少使用所提取的数据,使与上述关键词的检测相关的关键词模型对于上述学习完毕的通用模型进行自适应。
在此,也可以不使用学习完毕的通用模型,不是自适应,而是使用从学习数据提取的数据来从初始状态起使关键词模型进行学习。但是,根据所提取的数据的量,有可能无法从初始状态起正确地学习关键词模型。
根据第1实施方式,关键词模型自适应部24使用从学习数据提取的数据,使关键词模型对于学习完毕的通用模型进行自适应。即,以学习完毕的通用模型为基础,使适于特定关键词的关键词模型进行再学习。由此,即使是根据有限的数据,也能保证关键词模型的制作。另外,在学习数据中也包含许多关键词以外的语音,但所提取的数据仅是包含关键词或者关键词的一部分的数据,因此,能够更高效地使适当的关键词模型进行自适应。
[第2实施方式]
(1)结构以及动作
作为第2实施方式涉及的信息处理装置的关键词模型学习装置1进一步使用包含关键词的发声语音的关键词发声数据来实施关键词模型的自适应。
第2实施方式涉及的关键词模型学习装置1可以具备与图1所示的第1实施方式涉及的关键词模型学习装置1同样的系统结构。
图4是表示第2实施方式涉及的关键词模型学习装置1的功能结构的框图。在图4中,对与图2所示的第1实施方式涉及的关键词模型学习装置1相同的结构标记相同的附图标记,省略详细的说明。
如图4所示,第2实施方式涉及的关键词模型学习装置1与第1实施方式同样地,在控制单元20内具备学习数据取得部21、模型学习部22、数据提取部23、关键词模型自适应部24以及输出控制部25,还具备关键词发声数据取得部26。另外,在数据存储器30的存储区域中,在学习数据存储部31和关键词模型存储部32的基础上,还设有关键词发声数据存储部33。
关键词发声数据取得部26作为第2数据取得部而在任意的定时取得能够利用的关键词发声数据。关键词发声数据取得部26也可以取得通过麦克风2输入的关键词发声语音,基于此来生成关键词发声数据。或者,关键词发声数据取得部26也可以从外部设备取得预先准备的关键词发声数据。
关键词发声数据存储部33被用于存储由关键词发声数据取得部26取得的关键词发声数据。
关键词模型自适应部24从模型学习部22接受与第1实施方式同样地学习后的通用模型,从数据提取部23接受与第1实施方式同样地提取的数据,并且,读出保存于关键词发声数据存储部33的关键词发声数据,使用所提取的数据和关键词发声数据,使关键词模型对学习完毕的通用模型进行自适应。
图5表示第2实施方式涉及的关键词模型学习装置1的处理内容和处理次序。在图5中,对与图3所示的第1实施方式涉及的处理相同的处理标记相同的附图标记,省略详细的说明。
与第1实施方式同样地,首先,在步骤S101中,关键词模型学习装置1在学习数据取得部21的控制下取得学习数据。在步骤S102中,关键词模型学习装置1在模型学习部22的控制下使用上述学习数据来进行通用模型的学习。在步骤S103中,关键词模型学习装置1在数据提取部23的控制下判定上述学习数据是否包含预先设定的关键词或者其要素。在判定为包含的情况下(是),移至步骤S104,在判定为不包含的情况下(否),移至步骤S105。在步骤S104中,数据提取部23从学习数据提取包含关键词或者其要素的数据。在步骤S105中,关键词模型学习装置1在数据提取部23的控制下判定是否对全部学习数据进行了确认。在判定为对全部数据进行了确认的情况下(是),移至步骤S116,在判定为未对全部数据进行确认的情况下(否),返回步骤S103,继续判定学习数据是否包含关键词或者其要素。
接着,在步骤S116中,关键词模型学习装置1在关键词发声数据取得部26的控制下取得关键词发声数据,并使之存储于关键词发声数据存储部33。此外,该步骤可以在任意的定时进行。
在步骤S117中,关键词模型学习装置1在关键词模型自适应部24的控制下进行如下处理:从关键词发声数据存储部33读出关键词发声数据,使用所提取的数据和关键词发声数据,使关键词模型对学习完毕的通用模型进行自适应。然后,关键词模型自适应部24使进行了自适应的关键词模型存储于关键词模型存储部32。输出控制部25能够在适当的时机或者根据要求,读出并输出与自适应完毕的关键词模型有关的信息。
(2)效果
如上所述,在第2实施方式中,关键词模型学习装置1进一步取得发声了特定的关键词的关键词发声数据来实施关键词模型的自适应。
在第1实施方式中,对没有关键词发声数据的情况下的关键词模型的学习方法进行了说明。在第2实施方式中,关键词模型自适应部24基于学习完毕通用模型,使用从学习数据提取到的数据和所取得的关键词发声数据,使关键词模型进行自适应。也能够不使用所提取的数据,而仅使用关键词发声数据来使关键词模型进行自适应,但需要大量说话者的关键词发声数据。
根据第2实施方式,从学习数据提取到的数据和关键词发声数据的说话者不同,因此,通过使用从学习数据提取到的数据和关键词发声数据来使关键词模型进行自适应,即使是较少的关键词发声数据也能够适当地进行关键词模型的学习。
[第3实施方式]
(1)结构以及动作
作为第3实施方式涉及的信息处理装置的关键词模型学习装置1从学习数据提取包含关键词的字符数、其一部分的子词的字符数、其一部分的音节数或者其一部分的音素数的比率为预定值以上的数据。
第3实施方式涉及的关键词模型学习装置1能够具有与图1以及图2所示的第1实施方式涉及的关键词模型学习装置1同样的系统结构以及功能结构。
图6表示第3实施方式涉及的关键词模型学习装置1的处理内容和处理次序。在图6中,对与图3所示的第1实施方式涉及的处理相同的处理标记相同的附图标记,省略详细的说明。
与第1实施方式同样地,首先,在步骤S101中,关键词模型学习装置1在学习数据取得部21的控制下取得学习数据。在步骤S102中,关键词模型学习装置1在模型学习部22的控制下使用上述学习数据进行通用模型的学习。在步骤S103中,关键词模型学习装置1在数据提取部23的控制下判定上述学习数据是否包含预先设定的关键词或者其要素。在判定为包含的情况下(是),移至步骤S124,在判定为不包含的情况下(否),移至步骤S126。
接着,在步骤S124中,关键词模型学习装置1在数据提取部23的控制下,进一步对判定为包含关键词或者其要素的数据是否包含预定比率以上的关键词或者其要素进行判定。在判定为包含的情况下(是),移至步骤S125,在判定为不包含的情况下(否),移至步骤S126。在步骤S125中,数据提取部23提取该数据。
更详细而言,数据提取部23判定关键词的字符数、其一部分的子词的字符数、其一部分的音节数、或者其一部分的音素数与作为判定对象的数据的字符数、音节数、或者音素数的比率是否为预定的比率阈值以上。并且,在判定为处于预定的比率阈值以上的情况下,从学习数据提取该数据。
例如,在使用关键词来进行提取的情况下,假设关键词为“でんきつけて”,比率阈值被设定为0.5。在该情况下,关键词的字符数为6。学习数据中,当假设判定对象的数据的发声为“でんきつけてねる”时,其发声的字符数为8。关键词的字符数与对象数据的字符数的比率为6/8=0.75,成为比率阈值以上。因此,数据提取部23从学习数据提取“でんきつけてねる”的发声的数据。另一方面,在判定对象的数据的发声为“なんでくらいへやにいるのはやくでんきつけて”的情况下,其字符数为21。关键词的字符数与对象数据的字符数的比率为6/21=0.29,为比率阈值以下。因此,数据提取部23不从学习数据提取“なんでくらいへやにいるのはやくでんきつけて”的发声的数据。
在使用子词、音节、或者音素来进行提取的情况下,也与使用关键词来进行提取的情况同样。
接着,在步骤S126中,关键词模型学习装置1在数据提取部23的控制下,判定是否对全部学习数据进行了确认。在判定为对全部数据进行了确认的情况下(是),移至步骤S127,在判定为未对全部数据进行确认的情况下(否),返回步骤S103,继续判定学习数据是否包含关键词或者其要素。
在步骤S127中,关键词模型学习装置1在关键词模型自适应部24的控制下进行如下处理:使用所提取的数据,使关键词模型对学习完毕的通用模型进行自适应。然后,关键词模型自适应部24使进行了自适应的关键词模型存储于关键词模型存储部32。输出控制部25能够在适当的时机或者根据要求,读出并输出与自适应完毕的关键词模型有关的信息。
(2)效果
如上所述,在第3实施方式中,关键词模型学习装置1提取包含预定比率以上的关键词或者关键词的一部分的数据,并用于关键词模型的自适应。由此,能够将除了关键词或者其要素以外的数据被提取的比率抑制得低。
假如从学习数据提取的数据包含许多除了关键词或者关键词的一部分以外的发声,就有可能导致进行了自适应的关键词模型的关键词的检测性能降低。
但是,根据第3实施方式,仅提取包含一定的比率或者一定的比例以上的关键词或关键词的一部分的数据,因此,能够提高通过关键词模型实现的对关键词和非关键词进行区别的性能,也能够提高关键词的检测性能。
[第4实施方式]
(1)结构以及动作
作为第4实施方式涉及的信息处理装置的关键词模型学习装置1对从学习数据提取的数据数设定上限值。
第4实施方式涉及的关键词模型学习装置1能够具备与图1以及图2所示的第1实施方式涉及的关键词模型学习装置1同样的系统结构以及功能结构。
图7表示第4实施方式涉及的关键词模型学习装置1的处理内容和处理次序。在图7中,对与图3所示的第1实施方式涉及的处理相同的处理标记相同的附图标记,省略详细的说明。
与第1实施方式同样地,首先,在步骤S101中,关键词模型学习装置1在学习数据取得部21的控制下取得学习数据。在步骤S102中,关键词模型学习装置1在模型学习部22的控制下,使用上述学习数据来进行通用模型的学习。在步骤S103中,关键词模型学习装置1在数据提取部23的控制下,判定学习数据是否包含预先设定的关键词或者其要素。在判定为包含的情况下(是),移至步骤S134,在判定为不包含的情况下(否),移至步骤S136。
接着,在步骤S134中,关键词模型学习装置1在数据提取部23的控制下,进一步对判定为包含特定关键词或者其要素的数据的数量是否为数据数的上限值以下进行判定。在判定为处于上限值以下的情况下(是),移至步骤S135,在判定为不包含的情况下(否),移至步骤S136。在步骤S135中,数据提取部23提取该数据。
更详细而言,数据提取部23在包含特定关键词、其一部分的子词、其一部分的音节、或者其一部分的音素的数据数为预定的数据数阈值以下的情况下,从学习数据提取数据。例如,假设关键词为“でんきつけて”和“こんにちは”这两个,数据数阈值为100。在该情况下,数据提取部23分别提取100个包含“でんきつけて”的数据和包含“こんにちは”的数据。
在步骤S136中,关键词模型学习装置1在数据提取部23的控制下,判定是否对全部学习数据进行了确认。在判定为对全部数据进行了确认的情况下(是),移至步骤S137,在判定对未对全部数据进行确认的情况下(否),返回步骤S103,继续判定学习数据是否包含关键词或者其要素。
在步骤S137中,关键词模型学习装置1在关键词模型自适应部24的控制下进行如下处理:使用所提取的数据,使关键词模型对学习完毕的通用模型进行自适应。然后,关键词模型自适应部24使进行了自适应的关键词模型存储于关键词模型存储部32。输出控制部25能够在适当的时机或者根据要求,读出并输出与自适应完毕的关键词模型有关的信息。
(2)效果
如上所述,在第4实施方式中,关键词模型学习装置1对从学习数据提取的数据数设定上限值。由此,能够减少从学习数据提取的数据数产生偏差。
假如所提取的数据数根据关键词而存在偏差,则有可能导致使用那样的数据来进行了自适应的关键词模型关于一部分的关键词的检测性能会降低。例如,在上述的例子中设为:在学习数据中包含“でんきつけて”的数据数有100个,包含“こんにちは”的数据数有900个。提取全部的这些包含“でんきつけて”的数据和包含“こんにちは”的数据、用关键词模型自适应部24对关键词模型进行自适应时,包含“こんにちは”的数据数为包含“でんきつけて”的数据数的9倍,因此,即使“こんにちは”的检测性能良好,但“でんきつけて”的检测性能会降低。
根据第4实施方式,分别提取100个包含“でんきつけて”的数据和包含“こんにちは”的数据,因此,能够平衡性良好地提取包含两个关键词的数据数,能够抑制一部分关键词的检测性能的降低。
[第5实施方式]
(1)结构以及动作
作为第5实施方式涉及的信息处理装置的关键词模型学习装置1,使用在上述第3实施方式中说明过的比率阈值和在上述第4实施方式中说明过的数据数阈值这两方来提取数据。
第5实施方式涉及的关键词模型学习装置1能够具备与图1以及图2所示的第1实施方式涉及的关键词模型学习装置1同样的系统结构以及功能结构。
图8表示第5实施方式涉及的关键词模型学习装置1的处理内容和处理次序。在图8中,对与图3所示的第1实施方式涉及的处理相同的处理标记相同的附图标记,省略详细的说明。
与第1实施方式同样地,首先,在步骤S101中,关键词模型学习装置1在学习数据取得部21的控制下取得学习数据。在步骤S102中,关键词模型学习装置1在模型学习部22的控制下,使用上述学习数据来进行通用模型的学习。在步骤S103中,关键词模型学习装置1在数据提取部23的控制下,判定学习数据是否包含预先设定的关键词或者其要素。在判定为包含的情况下(是),移至步骤S144,在判定为不包含的情况下(否),移至步骤S147。
接着,在步骤S144中,关键词模型学习装置1在数据提取部23的控制下,进一步对判定为包含关键词或者其要素的数据的数量是否为预定的上限值以下进行判定。在判定为处于上限值以下的情况下(是),移至步骤S145,在判定为超过上限值的情况下(否),移至步骤S146。
在步骤S145中,数据提取部23提取在步骤S103中判定为包含关键词或者其要素的数据。
另一方面,在步骤S146中,数据提取部23针对在步骤S103中判定为包含关键词或者其要素的数据,与在第3实施方式中说明过的同样地计算关键词或者其要素的数量的比率,按关键词或者其要素的数量的比率从高到低的顺序提取数据直到数据数的上限值。此时,数据提取部23也可以进一步使用在第3实施方式中说明过的比率阈值来提取数据。
更详细而言,数据提取部23计算关键词的字符数、其一部分的子词的字符数、其一部分的音节数、或者其一部分的音素数与作为判定对象的数据的字符数、音节数、或者音素数的比率,按该比率从高到低的顺序,提取数据直到数据数阈值。或者,数据提取部23能够计算关键词的字符数、其一部分的子词的字符数、其一部分的音节数、或者其一部分的音素数与作为判定对象的数据的字符数、音节数、或者音素数的比率,仅针对该比率为预定的比率阈值以上的数据,按比率从高到低的顺序提取数据直到数据数阈值。
例如,假设在使用关键词来进行提取的情况下,将比率阈值设定为0.5,将数据数阈值设定为100。在关键词为“でんきつけて”的情况下,当关键词的字符数与对象数据的字符数的比率为0.5以上、且包含“でんきつけて”的发声的数据数为100以下时,数据提取部23从学习数据提取这些数据。在关键词的字符数与对象数据的字符数的比率为0.5以上的数据数为100以上的情况下,数据提取部23按上述比率从高到低的顺序进行提取直到100个数据。
在使用子词、音节、或者音素来进行提取的情况下,也与使用关键词来进行提取的情况同样。
在步骤S147中,关键词模型学习装置1在数据提取部23的控制下判定是否对全部学习数据进行了确认。在判定为对全部数据进行了确认的情况下(是),移至步骤S148,在判定为未对全部数据进行确认的情况下(否),返回步骤S103,继续判定学习数据是否包含关键词或者其要素。
在步骤S148中,关键词模型学习装置1在关键词模型自适应部24的控制下进行如下处理:使用所提取的数据,使关键词模型对学习完毕的通用模型进行自适应。然后,关键词模型自适应部24使进行了自适应的关键词模型存储于关键词模型存储部32。输出控制部25能够在适当的时机或者根据要求,读出并输出与自适应完毕的关键词模型有关的信息。
(2)效果
如上所述,在第5实施方式中,关键词模型学习装置1对从学习数据提取的数据数设定上限值,在超过上限值的情况下,按数据所包含的关键词或者其要素的数量的比率从大到小的顺序提取数据。另外,此时也能够设为仅提取比率超过预定值的数据。
这样,根据第5实施方式,能够抑制按各关键词提取的数据数的偏差并提取包含关键词或者其要素的比率高的数据,因此,能够抑制一部分关键词的检测性能的降低,并使关键词模型高效地进行自适应。
[第6实施方式]
(1)结构以及动作
作为第6实施方式涉及的信息处理装置的关键词模型学习装置1还具备从用户受理关键词的设定的关键词设定部27。
第6实施方式涉及的关键词模型学习装置1能够具备与图1所示的第1实施方式涉及的关键词模型学习装置1同样的系统结构。
图9是表示第6实施方式涉及的关键词模型学习装置1的功能结构的框图。在图9中,对与图2所示的第1实施方式涉及的关键词模型学习装置1相同的结构标记相同的附图标记,省略详细的说明。
如图9所示,第6实施方式涉及的关键词模型学习装置1具备学习数据取得部21、模型学习部22、数据提取部23、关键词模型自适应部24、输出控制部25、学习数据存储部31以及关键词模型存储部32,还具备关键词设定部27。
关键词设定部27进行如下处理:经由I/F单元10,接受用户设定的关键词,并移交给数据提取部23。
第6实施方式涉及的关键词模型学习装置1能够使用与图3所示的第1实施方式相同的处理流程。
第6实施方式涉及的关键词模型学习装置1首先在步骤S101中,在学习数据取得部21的控制下取得学习数据。在步骤S102中,关键词模型学习装置1在模型学习部22的控制下,使用上述学习数据来进行通用模型的学习。
关键词设定部27接受用户设定的关键词、并移交给数据提取部23的处理可以在任意的定时进行。既可以是步骤S101之前,也可以是即将进行步骤S103之前。
在步骤S103中,关键词模型学习装置1在数据提取部23的控制下,基于从关键词设定部27接受的用户指定的关键词,判定上述学习数据是否包含该关键词或者该关键词的要素。在判定为包含的情况下(是),移至步骤S104,在判定为不包含的情况下(否),移至步骤S105。在步骤S104中,数据提取部23提取该数据。在步骤S105中,数据提取部23判定是否对全部学习数据进行了确认,在判定为对全部数据进行了确认的情况下(是),移至步骤S106,在判定为未对全部数据进行确认的情况下(否),返回步骤S103,继续判定学习数据是否包含关键词或者其要素。在步骤S106中,关键词模型学习装置1在关键词模型自适应部24的控制下进行如下处理:使用所提取的数据,使关键词模型对学习完毕的通用模型进行自适应。
更详细而言,例如当用户经由键盘等输入设备3输入“でんきつけて”来作为关键词时,关键词设定部27接受该输入,将“でんきつけて”设定为关键词,并移交给数据提取部23。数据提取部23从学习数据提取包含该关键词、其一部分的子词、其一部分的音节、或者其一部分的音素的数据。模型自适应部24基于学习完毕的通用模型,使用至少包含所提取的数据的数据,使关键词模型进行自适应。进行了自适应的关键词模型成为“でんきつけて”的关键词模型。然后,关键词模型自适应部24使进行了自适应的关键词模型存储于关键词模型存储部32。输出控制部25能够在适当的时机或者根据要求,读出并输出与自适应完毕的关键词模型有关的信息。
(2)效果
如上所述,在第6实施方式中,关键词模型学习装置1基于用户任意地设定的关键词,从学习数据提取数据,使检测用户所设定的关键词的关键词模型对学习完毕的通用模型进行自适应。
这样,根据第6实施方式,针对用户所设定的关键词,不需要新收录发声数据,就能够使关键词模型进行自适应。
[第7实施方式]
(1)结构以及动作
第7实施方式涉及使用了按照上述实施方式进行自适应后的关键词模型来进行关键词检测的关键词检测装置。
图10是表示第7实施方式涉及的关键词检测装置100的系统结构以及功能结构的图。
关键词检测装置100具备I/F单元110、控制单元120以及数据存储器130来作为硬件。
I/F单元110可以包括通信接口。通信接口例如包括一个以上的有线或者无线的通信接口,能够与外部设备之间进行信息收发。作为有线接口,例如使用有线LAN,另外,作为无线接口,例如使用采用了无线LAN、Bluetooth(注册商标)等的小功率无线数据通信标准的接口。
在I/F单元110可连接麦克风101、输入设备102和输出设备103。例如,I/F单元110具有取入由麦克风101收集的语音来作为语音信号、并移交给控制单元120的功能。另外,I/F单元110具有取入通过键盘、触摸面板、触摸板、鼠标等输入设备102输入的数据、并移交给控制单元120的功能。另外,I/F单元110也具有如下功能:向输出设备4输出从控制单元120输出的输出数据,该输出设备4包括使用了液晶或者有机EL(Electro Luminescence)等的显示设备和/或输出语音的扬声器。此外,对于麦克风101、输入设备102以及输出设备103,既可以使用内置于关键词检测装置100的设备,另外,也可以使用能够经由网络进行通信的其他信息终端的麦克风、输入设备以及输出设备。
控制单元120具备CPU等的硬件处理器和程序存储器。程序存储器是组合使用了HDD、SSD等非易失性存储器和ROM等非易失性存储器的存储器,保存有为了执行实施方式涉及的各种控制处理所需要的程序。
数据存储器130是组合使用了HDD、SSD等非易失性存储器和RAM等易失性存储器的存储器,被用于存储在进行信息处理的过程中所取得以及制作的各种数据。
在数据存储器130的存储区域设有关键词模型存储部131。关键词模型存储部131被用于存储通过上述实施方式涉及的关键词模型学习装置1进行了自适应的关键词模型。关键词检测装置100和关键词模型学习装置1既可以是一体的装置,也可以是分别的装置。同样地,关键词检测装置100所具备的关键词模型存储部131既可以是与关键词模型学习装置1所具备的关键词模型存储部32相同的部件,也可以是分别的部件。
控制单元120如上所述那样具备硬件处理器和程序存储器,具备语音取得部121和关键词检测部122来作为处理功能部。这些处理功能部均通过使上述硬件处理器执行保存于程序存储器的程序来实现。另外,控制单元120也可以用包括ASIC、FPGA等集成电路的其他多样的形式来实现。另外,上述程序也可以是经由网络提供的程序。
语音取得部121经由I/F单元110取得由麦克风101收集到的语音信号。语音取得部121进一步进行如下处理:从所取得的语音数据提取语音特征量,并移交给关键词检测部122。
关键词检测部122从关键词模型存储部131读出关键词模型,使用从语音取得部121接受的语音特征量,进行关键词的检测。另外,关键词检测部122能够经由I/F单元110输出检测结果。
图11是表示第7实施方式涉及的关键词检测装置100进行的信息处理的处理次序和处理内容的流程图。
关键词检测装置100基于来自麦克风101的信号,监视用户有无发声,以检测到发声为触发,开始以下的处理。
首先,在步骤S201中,关键词检测装置100在语音取得部121的控制下取得包含多个帧的语音数据。语音取得部121经由I/F单元110取入由麦克风101收集的发声的语音波形(语音数据)。
接着,在步骤S202中,关键词检测装置100在语音取得部121的控制下提取语音特征量。语音取得部121例如以16kHz对从麦克风101接受到的语音波形的模拟波进行采样,按每一定时间来截取数字波,与在第1实施方式中说明过的同样地提取并输出语音特征量(36维的MFCC特征量)。
在步骤S203中,关键词检测装置100在关键词检测部122的控制下从关键词模型存储部131读出关键词模型。例如,在“でんきつけて”为关键词的情况下,所读出的关键词模型是按照上述第1实施方式、第2实施方式、第3实施方式、第4实施方式、第5实施方式、或者第6实施方式进行了自适应后的与“でんきつけて”有关的关键词模型。
在步骤S204中,关键词检测装置100在关键词检测部122的控制下,通过对所读出的关键词模型输入上述特征量来检测关键词。关键词的检测可以使用各种各样的方法,例如可以为:对输入语音的特征量和关键词模型进行比较、计算关键词得分的方法。若关键词得分为预定的阈值以上,则检测为关键词“でんきつけて”(例如参照日本特开2018-155957号公报)。
在步骤S205中,关键词检测装置100在关键词检测部122的控制下向输出设备103输出检测结果。也可以只限于在检测到关键词的情况下输出表示“でんきつけて”的信息。也可以设为:在未检测到关键词的情况下,输出表示该情况的显示。
(2)效果
如以上那样,在第7实施方式中,按照上述第1实施方式、第2实施方式、第3实施方式、第4实施方式、第5实施方式、或者第6实施方式,实施关键词模型的自适应。并且,使用进行了自适应的关键词模型,进行关键词检测。
这样,根据第7实施方式,能够使用不使用大量说话者的关键词发声而进行了自适应后的关键词模型精度良好地进行关键词检测。
[实验结果]
图12表示利用了使用如以上那样的实施方式进行了自适应的关键词模型的实验结果的一个例子。此外,如上述那样,在关键词的检测方面使用了关键词得分。即,根据语音计算关键词得分,与预先设定的阈值进行比较,在关键词得分为阈值以上的情况下判定为是关键词,在此以外的情况下判定为不是关键词。
在图12中,纵轴表示识别精度(Accuracy)(%),表示值越高则识别精度越高。在此,识别精度表示对100次的关键词(例如“でんきつけて”)的发声能够正确地检测出了几次。
横轴表示每24小时的误检测数(False Acceptance per 24hours)。在此,误检测数表示将不是关键词的发声误检测为关键词的次数。横轴的误检测数“0”、“1”表示由于严格地设定了上述关键词得分的阈值而误检测少的情况。在该情况下,也存在语音实际上是关键词、但却未被检测出来的情形(容易被拒绝)。横轴的误检测数“10”表示如下情况:由于宽松地设定了阈值,因此,关键词容易被识别出来,但有可能导致非关键词的得分也为阈值以上而错误地接受。
“baseline”表示使用了通用模型的例子。在通用模型中,在误检测数为0次和1次的情况下,识别精度成为了相当低的值。
“adapt_spk60”是不进行数据提取、使用自适应说话者为60名的关键词发声数据(例如60名说话者说出了“でんきつけて”的数据)来进行了自适应的例子。与通用模型相比,精度提高了一些。
“adapt_spk130”是不进行数据提取、使用自适应说话者为130名的关键词发声数据来进行了自适应的例子。与使用60名的发声数据的情况相比,精度提高了一些。
“adapt_extract+spk60”表示按照上述实施方式进行数据提取、进一步与说话者为60名的关键词发声数据并用而实施了自适应的例子。关于误检测数0~10的任一个,都能够达成非常高的识别精度。特别是,可知得到了比使用了130名的发声数据的情况还高的精度。
[其他实施方式]
此外,本发明并不限定于上述实施方式。
例如,也可以设为:将关于上述实施方式说明过的关键词模型学习装置1所具备的各功能部分散配置在多个装置(服务器、边缘服务器(edge server)、其他客户终端等),通过这些装置相互协作来进行处理。另外,各功能部也可以通过使用电路来实现。电路既可以是实现特定功能的专用电路,也可以是如处理器那样的通用电路。
进一步,以上说明的各处理的流程并不限定于说明的次序,既可以调换几个步骤的顺序,也可以同时并行地实施几个步骤。另外,以上说明的一系列处理不需要在时间上连续地执行,各步骤可以在任意的定时执行。
例如,在关于图3、5、6、7、8说明过的处理流程中,通用模型的学习处理和从学习数据的提取处理不需要一定依次进行。学习处理和提取处理也可以并行地进行。
或者,模型学习部22也可以在进行了通用模型的学习后暂时使学习完毕的通用模型存储于设在存储区域内的通用模型存储部(未图示)。同样地,数据提取部23也可以在进行了数据的提取后使所提取的数据暂时存储于设在存储区域内的提取数据存储部(未图示)。由此,关键词模型学习装置1能够在任意的定时在关键词模型自适应部24的控制下进行如下处理:从各存储部读出学习完毕的通用模型和所提取的数据,使关键词模型进行自适应。
上述各实施方式的处理的至少一部分例如也可以通过使用搭载于通用的计算机的处理器作为基本硬件来实现。实现上述处理的程序也可以保存于能够由计算机读取的记录介质(存储介质)来进行提供。程序被作为能够安装的形式的文件或者能够执行的形式的文件存储于记录介质。作为记录介质,为磁盘、光盘(CD-ROM、CD-R、DVD等)、光磁盘(MO等)、半导体存储器等。只要能够存储程序、且计算机能够读取,则记录介质可以为任何介质。另外,也可以将实现上述处理的程序保存在与互联网等网络连接着的计算机(服务器)上,经由网络使之下载到计算机(客户端)。
另外,关于语音数据的取得、模型的生成等,也可以在不脱离本发明的宗旨的范围内进行各种变形来实施。
根据以上描述的至少一个实施方式的信息处理装置、关键词检测装置以及信息处理方法,通过从包含语音特征量和该语音特征量的正解音素标签的组合的学习数据提取包含关键词的一部分的数据并将其用于学习,能够从有限的数据高效地使关键词模型进行学习。
对本发明的几个实施方式进行了说明,但这些实施方式是作为例子提示的,并不是意在限定发明的范围。这些新的实施方式能够以其他各种各样的方式来实施,能够在不脱离发明的宗旨的范围内进行各种省略、置换、变更。这些实施方式及其变形包含在发明的范围、宗旨内,并且,包含在技术方案记载的发明及其等同的范围内。
此外,可以将上述的实施方式总结为以下的技术方案。
技术方案1
一种信息处理装置,具备:
第1数据取得部,其取得包含语音特征量和该语音特征量的正解音素标签的组合的第1学习数据;
学习部,其使用所述第1学习数据,使声学模型进行学习以使得相对于所述语音特征量的输入而输出所述正解音素标签;
提取部,其从所述第1学习数据提取第2学习数据,所述第2学习数据包含预先设定的关键词、所述关键词所包含的子词、所述关键词所包含的音节以及所述关键词所包含的音素中的至少一个语音特征量;以及
自适应处理部,其使用所述第2学习数据,使与所述关键词的检测相关的关键词模型对学习完毕的所述声学模型进行自适应。
技术方案2
根据上述技术方案1,还具备第2数据取得部,所述第2数据取得部取得包含所述关键词的发声语音的关键词发声数据,
所述自适应处理部使用所述第2学习数据和所述关键词发声数据,使所述关键词模型对所述声学模型进行自适应。
技术方案3
根据上述技术方案1,所述提取部提取所述关键词的字符数、所述子词的字符数、所述音节数或者所述音素数包含在数据中的比率为预定值以上的数据,来作为所述第2学习数据。
技术方案4
根据上述技术方案1,所述提取部将预定的数据数作为上限,提取所述第2学习数据。
技术方案5
根据上述技术方案1,所述提取部将预定的数据数作为上限,按所述关键词的字符数、所述子词的字符数、所述音节数、或者所述音素数包含在数据中的比率从高到低的顺序进行提取,来作为所述第2学习数据。
技术方案6
根据上述技术方案1,所述提取部将预定的数据数作为上限,对于所述关键词的字符数、所述子词的字符数、所述音节数、或者所述音素数包含在数据中的比率为预定值以上的数据,按所述比率从高到低的顺序进行提取,来作为所述第2学习数据。
技术方案7
根据上述技术方案1,还具备从用户受理所述关键词的设定的关键词设定部。
技术方案8
一种关键词检测装置,使用通过上述技术方案1~7中任一项所述的信息处理装置进行了自适应的关键词模型来进行关键词检测。
技术方案9
一种信息处理方法,是信息处理装置执行的信息处理方法,包括:
取得包含语音特征量和该语音特征量的正解音素标签的组合的第1学习数据;
使用所述第1学习数据,使声学模型进行学习以使得相对于所述语音特征量的输入而输出所述正解音素标签;
从所述第1学习数据提取第2学习数据,所述第2学习数据包含预先设定的关键词、所述关键词所包含的子词、所述关键词所包含的音节以及所述关键词所包含的音素中的至少一个语音特征量;以及
使用所述第2学习数据,使与所述关键词的检测相关的关键词模型对学习完毕的所述声学模型进行自适应。
技术方案10
一种记录介质,记录有程序,所述程序具备使处理器执行技术方案1~7中任一项所述的信息处理装置的各部进行的处理的命令。
Claims (7)
1.一种信息处理装置,具备:
第一数据取得部,其取得包含语音特征量和该语音特征量的正解音素标签的至少一个组合的第1学习数据;
学习部,其使用所述第1学习数据,使声学模型进行学习以使得相对于所述语音特征量的输入而输出所述正解音素标签,所述输入由所述声学模型执行,所述声学模型输出所述正解音素标签;
提取部,其从所述第1学习数据提取第2学习数据,所述第2学习数据包含第一数据的语音特征量和所述语音特征量的正解音素标签,所述第一数据包含预先设定的关键词、和所述预先设定的关键词所包含的子词、所述预先设定的关键词所包含的音节以及所述预先设定的关键词所包含的音素中的至少一个;以及
自适应处理部,其使用所述第2学习数据,使与所述预先设定的关键词的检测相关的关键词模型对学习完毕的所述声学模型进行自适应,所述关键词模型是从学习完毕的所述声学模型生成的,已适应于所述预先设定的关键词的所述关键词模型基于学习完毕的所述声学模型重新学习,
所述提取部将预定的数据数作为上限,按所述预先设定的关键词的字符数、所述子词的字符数、所述音节数、或者所述音素数包含在数据中的比率从高到低的顺序对第二数据进行提取,来作为所述第2学习数据。
2.根据权利要求1所述的信息处理装置,
还具备第2数据取得部,所述第2数据取得部取得包含所述预先设定的关键词的发声语音的关键词发声数据,
所述自适应处理部使用所述第2学习数据和所述关键词发声数据,使所述关键词模型对所述声学模型进行自适应。
3.根据权利要求1所述的信息处理装置,
所述提取部提取所述预先设定的关键词的字符数、所述子词的所述字符数、所述音节数或者所述音素数包含在数据中的所述比率为预定值以上的所述第二数据,来作为所述第2学习数据。
4.根据权利要求1所述的信息处理装置,
还具备从用户受理所述预先设定的关键词的设定的关键词设定部。
5.一种关键词检测装置,
使用通过权利要求1~4中任一项所述的信息处理装置进行了自适应所得到的关键词模型来进行关键词检测。
6.一种信息处理方法,是信息处理装置执行的信息处理方法,所述信息处理方法包括:
取得包含语音特征量和该语音特征量的正解音素标签的至少一个组合的第1学习数据;
使用所述第1学习数据,使声学模型进行学习以使得相对于所述语音特征量的输入而输出所述正解音素标签,所述输入由所述声学模型执行,所述声学模型输出所述正解音素标签;
从所述第1学习数据提取第2学习数据,所述第2学习数据包含第一数据的语音特征量和所述语音特征量的正解音素标签,所述第一数据包含预先设定的关键词、和所述预先设定的关键词所包含的子词、所述预先设定的关键词所包含的音节以及所述预先设定的关键词所包含的音素中的至少一个;以及
使用所述第2学习数据,使与所述预先设定的关键词的检测相关的关键词模型对学习完毕的所述声学模型进行自适应,所述关键词模型是从学习完毕的所述声学模型生成的,已适应于所述预先设定的关键词的所述关键词模型基于学习完毕的所述声学模型重新学习,
所述提取将预定的数据数作为上限,按所述预先设定的关键词的字符数、所述子词的字符数、所述音节数、或者所述音素数包含在数据中的比率从高到低的顺序对第二数据进行提取,来作为所述第2学习数据。
7.一种记录介质,记录有程序,所述程序用于使计算机作为第一数据取得单元、学习单元、提取单元以及自适应处理单元发挥功能,
所述第一数据取得单元取得包含语音特征量和该语音特征量的正解音素标签的至少一个组合的第1学习数据,
所述学习单元使用所述第1学习数据,使声学模型进行学习以使得相对于所述语音特征量的输入而输出所述正解音素标签,所述输入由所述声学模型执行,所述声学模型输出所述正解音素标签,
所述提取单元从所述第1学习数据提取第2学习数据,所述第2学习数据包含第一数据的语音特征量和所述语音特征量的正解音素标签,所述第一数据包含预先设定的关键词、和所述预先设定的关键词所包含的子词、所述预先设定的关键词所包含的音节以及所述预先设定的关键词所包含的音素中的至少一个,
所述自适应处理单元使用所述第2学习数据,使与所述预先设定的关键词的检测相关的关键词模型对学习完毕的所述声学模型进行自适应,所述关键词模型是从学习完毕的所述声学模型生成的,已适应于所述预先设定的关键词的所述关键词模型基于学习完毕的所述声学模型重新学习,
所述提取单元将预定的数据数作为上限,按所述预先设定的关键词的字符数、所述子词的字符数、所述音节数、或者所述音素数包含在数据中的比率从高到低的顺序对第二数据进行提取,来作为所述第2学习数据。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019157158A JP7098587B2 (ja) | 2019-08-29 | 2019-08-29 | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム |
JP2019-157158 | 2019-08-29 |
Publications (3)
Publication Number | Publication Date |
---|---|
CN112447176A CN112447176A (zh) | 2021-03-05 |
CN112447176B true CN112447176B (zh) | 2024-09-24 |
CN112447176B9 CN112447176B9 (zh) | 2024-10-25 |
Family
ID=
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008129527A (ja) * | 2006-11-24 | 2008-06-05 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008129527A (ja) * | 2006-11-24 | 2008-06-05 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
CN112447176A (zh) | 2021-03-05 |
JP7098587B2 (ja) | 2022-07-11 |
US11961510B2 (en) | 2024-04-16 |
US20210065684A1 (en) | 2021-03-04 |
JP2021033228A (ja) | 2021-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11942083B2 (en) | Recognizing speech in the presence of additional audio | |
US10930270B2 (en) | Processing audio waveforms | |
EP3114679B1 (en) | Predicting pronunciation in speech recognition | |
US9466289B2 (en) | Keyword detection with international phonetic alphabet by foreground model and background model | |
US8731926B2 (en) | Spoken term detection apparatus, method, program, and storage medium | |
US9640175B2 (en) | Pronunciation learning from user correction | |
US9589564B2 (en) | Multiple speech locale-specific hotword classifiers for selection of a speech locale | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
US20180012602A1 (en) | System and methods for pronunciation analysis-based speaker verification | |
JP7098587B2 (ja) | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム | |
KR101840363B1 (ko) | 오류 발음 검출을 위한 단말 및 음성 인식 장치, 그리고 그의 음향 모델 학습 방법 | |
CN112216270B (zh) | 语音音素的识别方法及系统、电子设备及存储介质 | |
CN112447176B9 (zh) | 信息处理装置、关键词检测装置以及信息处理方法 | |
KR102392992B1 (ko) | 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 | |
KR100677224B1 (ko) | 안티워드 모델을 이용한 음성인식 방법 | |
KR20180051301A (ko) | 자연어 대화체 음성을 인식하는 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CI03 | Correction of invention patent |
Correction item: Claims Correct: Claims submitted on June 17, 2024 False: Claims amended by the examiner in accordance with their authority Number: 39-01 Page: ?? Volume: 40 |