CN110189750A - 词语检测系统、词语检测方法以及记录介质 - Google Patents

词语检测系统、词语检测方法以及记录介质 Download PDF

Info

Publication number
CN110189750A
CN110189750A CN201811068253.7A CN201811068253A CN110189750A CN 110189750 A CN110189750 A CN 110189750A CN 201811068253 A CN201811068253 A CN 201811068253A CN 110189750 A CN110189750 A CN 110189750A
Authority
CN
China
Prior art keywords
word
scoring
mentioned
keyword
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811068253.7A
Other languages
English (en)
Other versions
CN110189750B (zh
Inventor
藤村浩司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2018170090A external-priority patent/JP6852029B2/ja
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN110189750A publication Critical patent/CN110189750A/zh
Application granted granted Critical
Publication of CN110189750B publication Critical patent/CN110189750B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及词语检测系统、词语检测方法以及记录介质。本发明提供一种词语检测系统、方法、以及记录介质,其能够正确并且尽快地从语音数据检测出词语。一个实施方式的词语检测系统具备语音取得部、第一计算部、保存部、检测部、第二计算部、输出部,在第一计算部中将通过语音取得部取得的多个帧的语音数据与词语的参照模型进行匹配,计算帧评分,保存在保存部中,根据帧评分计算词语的第一评分,在检测部中根据第一评分从语音数据检测词语,在第二计算部中根据检出词语的时间信息和帧评分计算词语的第二评分,在输出部中根据多个词语的第二评分的比较结果,决定输出对象词语。

Description

词语检测系统、词语检测方法以及记录介质
本申请以日本专利申请2018-031225(申请日:2018年2月23日)以及日本专利申请2018-170090(申请日:2018年9月11日)为基础,从该申请享受优先权的利益。本申请通过参照该申请而包含该申请的全部内容。
技术领域
本发明的实施方式涉及词语检测系统、词语检测方法以及记录介质。
背景技术
近年来,具有根据用户的语音检测特定的关键词并开始与检测出的关键词对应的特定的动作的功能的各种设备正在增加。由此,用户只要说出希望使其动作的关键词,不进行复杂的操作,就能够使设备进行希望的动作。
发明内容
本发明要解决的课题是提供一种词语检测系统、词语检测方法以及记录介质,其能够正确并且迅速地从语音数据检测出成为关键的词语。
实施方式的词语检测系统具备语音取得部、第一计算部、保存部、检测部、第二计算部、输出部。语音取得部取得包含多个帧的语音数据,生成语音特征量。第一计算部通过将上述语音数据的多个帧分别与基于与成为目标的词语对应的上述语音特征量的参照模型进行匹配而计算帧评分,根据该帧评分计算上述词语的第一评分。保存部保存上述词语的帧评分。检测部根据上述第一评分从上述语音数据检测上述词语,输出所检测出的词语的起点、终点的时间信息。第二计算部根据检测出的上述词语的起点、终点的时间信息和保存在上述保存部中的帧评分,计算针对上述词语的第二评分。输出部使用上述第二评分的值与针对多个词语的第二评分或预先确定的阈值评分或其双方进行比较,根据其比较结果决定成为输出对象的词语。
根据上述结构的词语检测系统,能够正确并且迅速地从语音数据检测出成为关键的词语。
附图说明
图1是概要地表示实施方式的语音关键词检测系统的框图。
图2是表示实施方式的语音关键词检测装置的具体结构的框图。
图3是表示实施方式的语音关键词检测装置的处理功能的功能框图。
图4是表示实施方式的语音关键词检测装置的处理的流程的流程图。
图5是表示在实施方式的语音关键词检测装置中存储在关键词模型存储部中的数据的例子的图。
图6是表示在实施方式的语音关键词检测装置中作为第一实施例关键词第二评分计算部的具体动作例子的状态转移图。
图7是表示在第一实施例中从语音输入直至计算出第二评分而决定并输出单词为止的处理的流程的概念图。
图8是表示在实施方式的语音关键词检测装置中作为第二实施例从语音输入直至计算出第二评分而决定并输出单词为止的处理的流程的概念图。
图9是表示在第二实施例中基于第二评分的比较处理的第一例子的概念图。
图10是表示在第二实施例中基于第二评分的比较处理的第二例子的概念图。
图11是表示在第二实施例中基于第二评分的比较处理的第三例子的概念图。
图12是表示在第三实施例中关键词第二评分计算部的具体的动作例子的状态推移图。
【符号说明】
1:服务器;2:客户端;3:网络;10:语音关键词检测装置;101:CPU;102:系统控制器;103:主存储器;104:LCD;105:BIOS-ROM;106:非易失性存储器;107:麦克风;108:通信设备;109:键盘;110:指示设备;111:内置控制器(EC);201:操作系统(OS);202:语音关键词检测程序;31:语音取得部;32:关键词第一评分计算部;33:关键词第一检测部;34:关键词第二评分计算部;35:关键词第二检测部;36:关键词模型存储部;37:评分缓存器。
具体实施方式
以下,参照附图说明本发明的实施方式。
图1表示具备实施方式的语音关键词检测装置的语音关键词检测系统的结构的例子。该语音关键词检测系统具备客户端装置(以下称为客户端)1和服务器装置(以下称为服务器)2。例如可以作为服务器计算机来实现服务器2。可以作为平板电脑、智能手机、便携电话、PDA这样的便携信息终端、个人计算机、或内置于各种电子设备中的内置系统来实现客户端1。客户端1和服务器2能够经由网络3收发数据。另外,客户端1和服务器2的至少一方具有从语音检测关键词的语音关键词检测功能。
在语音关键词检测系统中,能够从利用设置在客户端1的麦克风等生成的语音数据(语音信号)检测关键词。更详细地说,客户端1经由网络3向服务器2发送利用设置在该客户端1的麦克风等生成的语音数据。服务器2利用语音关键词检测功能,根据从客户端1接收到的语音数据检测关键词,经由网络3向客户端1发送该关键词。由此,客户端1例如能够开始与检测出的关键词对应的特定的动作。此外,客户端1也可以不向服务器2发送语音数据,而是发送使用语音数据生成的语音特征量(例如语音特征向量列)。服务器2也能够根据接收到的语音特征量检测关键词,向客户端1发送该关键词。
另外,也可以将语音关键词检测功能设置在客户端1。在该情况下,客户端1能够利用该语音关键词检测功能,从利用设置在客户端1的麦克风等生成的语音数据检测出关键词。
这样,在本实施方式中,能够利用客户端1或服务器2的至少一个具有的语音关键词检测功能,从语音数据检测关键词。以下,为了容易理解说明,作为本实施方式的语音关键词检测装置10而示例具有语音关键词检测功能的客户端1。
图2是表示语音关键词检测装置10的系统结构的框图。语音关键词检测装置10具备CPU101、系统控制器102、主存储器103、LCD104、BIOS-ROM105、非易失性存储器106、麦克风107、通信设备108、键盘109、指示设备110、内置控制器(EC)111等。
CPU101是控制语音关键词检测装置10内的各种组件的动作的处理器。CPU101执行从作为存储设备的非易失性存储器106装载到主存储器103的各种程序。在这些程序中,包括操作系统(OS)201、以及各种应用程序。在应用程序中,包括语音关键词检测程序202。该语音关键词检测程序202包含用于从语音数据检测关键词的指令群。
另外,CPU101还执行存储在BIOS-ROM105中的基本输入输出系统(BIOS)。BIOS是用于进行硬件控制的程序。
系统控制器102是将CPU101的局域总线和各种组件之间连接起来的设备。在系统控制器102中内置有对主存储器103进行访问控制的存储控制器。另外,在系统控制器102中,还内置有控制被作为语音关键词检测装置10的显示监视器使用的LCD104的显示控制器。通过该显示控制器生成的显示信号被发送到LCD104。LCD104根据显示信号显示画面图像。
另外,系统控制器102内置声音编码解码器。声音编码解码器构成为控制麦克风107。声音编码解码器生成基于由麦克风107收集的语音的语音信号(表示数字处理后的语音波形的数据列。以下称为语音波形)。
通信设备108是构成为执行有线通信或无线通信的设备。通信设备108包括发送信号的发送部、接收信号的接收部。
键盘109和指示设备110是用于用户进行的输入的设备。指示设备110是鼠标、触摸板、触摸屏那样的用于检测LCD104的画面上的点和点的运动的设备。
EC111是包含用于电力管理的内置控制器的单片微计算机。EC111具有与用户对电源按键的操作对应地对语音关键词检测装置10进行电源接通或电源切断的功能。
上述结构的语音关键词检测装置10从语音波形中检索成为目标的关键词的语音部分,从检索出的语音部分中检测目标的关键词。安装该语音关键词检测装置10的设备安装有与检测出的关键词对应地进行动作的应用程序。这样,对于安装在接受关键词而动作的设备中的语音关键词检测装置10,要求始终接受语音进行该关键词的正确的检测,理想的是低功率/低计算量地进行动作的检测装置。另外,为了不使用户感到疲劳而舒适地使设备动作,必须在接受关键词后马上使设备的动作开始,理想的是低延迟的语音关键词检测。
存在以下的方法,即在存在多个某设备应该受理的关键词的情况下,针对语音波形,对在某时间的范围内发出的关键词候选的评分进行比较,根据该比较结果来进行关键词(单词)的识别。与此相对,如专利文献1那样存在以下的方法,即利用对检测进行了特化的评分,对在某语音波形的时间范围内各个关键词的发音是否超出规定的阈值评分地存在进行二值判别。根据该方法,能够应用低计算量而延迟时间少的算法。但是,在后者的二值判定的方法的情况下,评分对检测进行了特化,因此难以区别相同的发音列多的两个关键词。例如,在设定有“communication(联系)”和“communicator(联系人)”这样的关键词的情况下,只有“tor”和“tion”的发音列存在差别,因此在到“communica”为止的的评分高的情况下,针对“communication”和“communicator”的任意一方的发音,都会检测出双方的关键词。
这样,在利用对检测进行了特化的评分而针对各个语音关键词进行检测/不检测的二值判别的语音关键词检测方法中,存在以下的问题,即在两个以上的关键词之间包含多个相同的发音列的情况下,会检测出包含该相同发音列的全部关键词。
为此在本实施方式中,在根据对检测进行了特化的第一检测评分检测出关键词后,根据检测出的起点时间、终点时间、在第一检测评分的计算中使用的帧评分,计算用于识别的第二检测评分,来决定是否受理关键词。由此,能够尽快地从语音中正确地检测出关键词。
图3是表示由语音关键词检测装置10执行的语音关键词检测程序202的功能结构的框图。语音关键词检测程序202具备语音取得部31、关键词第一评分计算部32、关键词第一检测部33、关键词第二评分计算部34、关键词第二检测部35、关键词模型存储部36、评分缓冲器37。语音关键词检测程序202的各部分能够读出存储在关键词模型存储部36中的各种数据,另外能够向关键词模型存储部36写入数据。例如向关键词模型存储部36分配非易失性存储器106的一部分区域。
关键词模型存储部36存储与多个关键词对应的多个关键词模型。根据对应的关键词的音素、声韵、音拍、发音符号或符号文字来决定关键词模型。
语音取得部31取得包含多个帧的语音数据。语音取得部31例如接受语音波形并数字化,作为语音数据输出每个帧的语音特征量。
关键词第一评分计算部32利用关键词模型存储部36中的关键词模型,计算针对语音特征量的帧评分,根据该评分计算关键词第一评分(逐次检测评分)。另外,将帧评分保存在评分缓存器37中。
关键词第一检测部33通过根据关键词第一评分与预先确定的阈值评分的比较结果的判定,进行关键词的一次检测,在检测出关键词的情况下,输出该关键词的起点、终点信息。
关键词第二评分计算部34利用通过关键词第一检测部33检测出的关键词的起点、终点信息以及保存在评分缓存器37中的帧评分,计算关键词第二评分。
关键词第二检测部35与其他关键词的第二评分、或预先确定的阈值、或其双方进行比较,作为检测结果输出评分高的关键词。
说明上述语音关键词检测程序202的处理的流程。
在通过语音取得部31取得包含多个帧的语音数据时,关键词第一评分计算部32例如在对与关键词关联的音素、声韵、发音符号、音拍、或符号文字和语音数据的各帧进行匹配而计算出帧评分后,使用它计算针对关键词的第一评分,将帧评分保存在评分缓存器37中。
接着,关键词第一检测部33根据第一评分从语音数据中检测关键词。更具体地说,关键词第一检测部33在针对关键词的第一评分比第一阈值评分大的情况下,对关键词进行一次检测,输出该关键词的起点终点信息。
关键词第二评分计算部34例如在从包含在语音数据中的多个帧中的一个以上的第一帧中检测出关键词时,利用其起点终点信息和保存在评分缓存器37中的帧评分,计算第二评分。
然后,关键词第二检测部35与其他关键词的第二评分或针对关键词的第二阈值评分进行比较,作为检测结果输出评分高的关键词。
接着,参照图4的流程图,说明由语音关键词检测装置10执行的语音关键词检测处理的步骤的例子。例如通过由CPU101执行包含在语音关键词检测程序202中的指令群,来实现该语音关键词检测处理。
语音取得部31接受语音波形并将其数字化,生成语音特征量(步骤S11)。利用麦克风107等来收录语音波形。语音取得部31将语音波形从模拟变换为数字,使用由此得到的数字的语音数据,作为特征量而生成并输出特征向量。对于语音波形的从模拟向数字的变换,使用普通的AD变换,进行从模拟波向数字波的变换。在该变换中,语音取得部31例如以16kHz采样模拟波,以16比特表示数字波的一个采样的振幅值。语音取得部31在每个固定时间裁剪该数字波。在此,示例以下的情况,即语音取得部31对每256点采样,一边错开128点采样一边对该数字波进行裁剪。将该256点采样作为1帧。由此,语音取得部31取得包含多个帧的语音数据。
语音取得部31根据该256点采样,计算梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient:MFCC)特征量-12维度。然后,语音取得部31对3帧量的该MFCC特征量进行缓存,作为这3帧内的中央帧的时刻的特征量而输出连接了3帧量的MFCC特征量所得的36维度。此外,抽出的特征量并不限于MFCC,例如也可以使用梅尔滤波器组(Mel-filterbank)特征量、感知线性预测(Perceptual Linear Prediction:PLP)、RSTA-PLP特征量、或音调特征量、或这些特征量的Δ成分或ΔΔ成分。或者也可以使用这些特征量的组合。另外,连接帧数并不限于3,只要是1帧以上,则可以连接任意的帧。进而,裁剪采样大小、帧周期并不限于上述的值。
关键词第一评分计算部32接受由语音取得部31生成的语音特征量,使用该语音特征量和关键词模型存储部36中的关键词模型,计算帧评分、关键词第一评分(步骤S12)。
以下,说明检测对象的关键词是“Communication”、“Communicator”、“hello”的3个的情况的具体例子。针对这些关键词,存在很多使用关键词模型对表示对每帧裁剪出的语音特征量的向量列计算累计评分的方法,但在此,通过左到右(left-to-right)型的隐藏马尔科夫模型(Hidden Markov Model:HMM)和专利文献1记载的方法来进行示例。
首先,将“Communication”、“Communicator”、“hello”的关键词分别设为w1、w2、w3。对此,分别准备wn(n=1、2、3)的3个模型作为关键词模型。用左到右型的音素HMM表示关键词。音素HMM将分别表示关键词w1、w2、w3的音素字符(列)“k a my u n i k e i sy o n”、“ka my u n i k e i t a a”、“h e l o u”的一个音素作为一个状态。另外,作为音素HMM的参数,对于音素间的转移概率,任意的转移间的概率都是相同概率。用每帧的音素的出现概率(音响评分)来表示输出概率。
在本实施方式中,使用以下的方法,即将计算每帧的音响评分(帧评分)的模型设为对多个关键词共通的前馈型的神经元网络,使用专利文献1记载的方法计算第一评分。
从分别表示关键词w1、w2、w3的音素“k a my u n i k e i sy o n”、“k a my u ni k e i t a a”、“h e l o u”中排除重复的部分,加上针对无音区间的音素“sil”,而由13个输出单元构成用于计算音响评分的神经元网络的输出层。输入层由与计算出的语音特征量相当的36个输入单元构成。中间层重叠了3个具有256个单元的层。神经元网络使用包含无声音区间的“Communication”、“Communicator”、“hello”的3个单词的读出语音,利用反向传播进行学习。
这样,准备对应关键词的音素HMM,通过专利文献1记载的方法,计算针对关键词模型wn的音素HMM在从语音取得开始的帧数te内到达终点的路径的关键词第一评分S。这时,将具有针对关键词模型wn的帧数te时刻的平均局部评分Sn的路径的音素HMM的起点帧设为tns
将对各帧计算的帧评分保存在评分缓冲器37中。在此,对每个关键词准备能够存储过去8秒钟的帧评分的评分缓冲器,与帧数t对应地记录针对各帧的各关键词的帧评分。在此,对每个关键词准备评分缓冲器,但也可以在关键词之间共享共通的音素的评分,而在关键词之间使用一个评分缓冲器。
关键词第一评分计算部32一边在时间方向上递增帧数te,一边进行评分计算。这时,也可以对每任意帧跳过评分计算而削减计算量。关键词第一评分计算部32使用平均局部评分Sn作为该关键词的第一评分。
此外,关键词模型并不限于音素单位的模型化,也可以按照声韵、音拍、发音符号、或符号文字的单位进行模型化。另外,平均局部评分的计算方法并不限于利用专利文献1的方法,例如,也可以应用非专利文献1的近似计算方法等。另外,对于帧单位的音响评分计算,并不限于前馈型的神经元网路,也可以应用回流(recurrent)构造的神经元网络、例如LSTM等。进而,也同样可以通过高斯混合模型(Gaussian Mixture Model)来求出帧单位的音响评分。
关键词第一检测部33通过对关键词第一评分(以下称为第一评分)和所设定的第一阈值评分进行比较,判定是否存在具有超过第一阈值评分的评分的关键词(步骤S13)。即,关键词第一检测部33比较针对关键词模型wn预先准备的平均局部评分Sn和针对该平均局部评分Sn的第一阈值评分thn。针对(n=1、2、3),在发现了一个满足thn<Sn的n的情况下,将该n的值代入到m。在n=1时,即,假设在此检测出“communication”。如果将该关键词的起点时间设为tms,则会检测出起点终点区间(tms,te)的关键词wm。对于第一阈值评分thn,使用包含关键词的开发语音数据组,针对全部关键词设定一个作为适合率和再现率的调和平均的F值为最大的值。在该情况下,如果提高第一阈值评分thn的值,则变得难以检测出关键词,如果降低第一阈值评分thn的值,则变得容易检测出关键词。也可以向评分乘上负1而使正负反转,在该情况下,在比阈值低的情况下检测出关键词。
在没有超过第一阈值评分的关键词的情况下,返回到步骤S11的步骤,继续进行后续的用于从语音数据检测关键词的处理。
另一方面,在有超过第一阈值评分的关键词的情况下,即,在一次检测出关键词的情况下,在关键词第二评分计算部34中,使用该关键词的检出起点终点区间(tms,te)和评分缓存器37的帧评分,计算针对检测出的关键词wm的关键词第二评分(以下称为第二评分)Dm(步骤S14)。通过将检出起点终点区间(tms,te)作为关键词wm的端点,使用关键词wm的音素HMM和评分缓存器37的对应的区间的帧评分,而在根据起点终点固定的维特比算法计算出最大累计评分后,将该最大累计评分除以检出区间的长度(te-tms),由此对第二评分Dm进行标准化。另外,这时,针对关键词wm的检出起点终点区间(tms,te),使用关键词w2、w3的音素HMM和评分缓存器37的帧评分,计算第二评分D2、D3。针对第二评分,第二阈值评分th2n(n=1、2、3)被预先确定。在检出区间(te-tms)比各个关键词的音素数少时,无法应用维特比算法,因此代入比针对关键词wm预先确定的第二评分的第二阈值评分th2m小的值。可以进行调整使得第二阈值评分th2m也与第一阈值评分thm相同。在确定了端点的情况下,维特比算法能够高速地进行计算,因此能够几乎不增加计算量、延迟时间地计算针对检出区间(tms,te)的关键词的识别评分(第二评分)。
在此,将计算第二评分的区间设为检测起点终点区间(tms,te),但也可以在向起点终点加上余量d帧(d>0)的基础上拓宽区间而在(tms-d,te+d)、(tms>d)中求出第二评分。在对终点时间设置余量d的情况下,必须等待余量d帧量的处理。另外,在向前地对时间应用维特比算法时,针对起点被固定终点不同的区间,根据算法的特性,能够对每个追加帧逐次地计算最大累计评分。因此,也可以将在余量d帧内第二评分为最高的项目作为该关键词的第二评分。关于起点的变化,只要固定终点而相对时间方向向后地进行维特比算法,则也能够达到同样的效果。另外,也可以根据起点终点的余量的变化的组合,而使用最大的评分作为第二评分。在比实际的起点终点位置更宽地进行检测的情况下,也可以将余量设为d<0。
接着,在关键词第二检测部35中,使用针对关键词wm的一次检出起点终点区间(tms,te)而对每个关键词计算出的第二评分,进行单词的检测。即,在关键词第二检测部35中,使用通过关键词第二评分计算部34计算出的针对各个关键词的第二评分Dm、D2、D3,判定是否具有最高的第二评分、并且比该第二评分所对应的关键词的第二阈值评分th2n(n=1、2、3)高(步骤S15),在超过第二阈值评分th2n的情况下,检测具有最高的第二评分的关键词(步骤S16)。在此,假设针对关键词w2的第二评分D2最高。这时,如果th22<D2,则检测出关键词w2。在本实施方式中,通过针对第二评分的阈值、各个关键词的第二评分的比较双方来进行检测,但也可以只通过针对第二评分的阈值、各个关键词的第二评分的比较的任意一方来实施。
在没有具有超过第二阈值评分的第二评分的关键词的情况下,返回到步骤S11的步骤,继续进行后续的用于从语音数据检测关键词的处理。
接着,参照图5,说明存储在关键词模型存储部36中的数据的例子。能够通过语音关键词检测程序202内的各部读出、更新该数据。
图5表示关键词数据的一个结构例子。各条目例如包含ID、音素、以及阈值评分。也可以代替音素,或在音素的基础上,各条目包含声韵、音拍、发音符号、以及符号文字的至少任意一个。
在与某关键词对应的条目中,“ID”表示对该关键词赋予的识别信息。“音素”表示与该关键词对应的音素。“阈值评分”表示用于检测为该关键词的评分的阈值。
例如在关键词第一评分计算部32对关键词评分的计算、关键词第一检测部33对关键词的检测、关键词第二评分计算部34对关键词第二评分的计算、关键词第二检测部35对关键词的检测中使用该关键词数据。
但是,在上述实施方式的说明中,假设客户端1具有语音关键词检测功能,但也可以是服务器2具有语音关键词检测功能。在该情况下,客户端1经由通信设备等向网络3上的服务器2发送基于使用麦克风收集到的语音的语音数据。服务器2经由通信设备从客户端1接收语音数据。服务器2通过执行上述语音关键词检测程序202,从接收到的语音数据检测关键词。然后,服务器2向客户端1发送检测出的关键词。因此,客户端1通过向具有语音关键词检测功能的服务器2发送语音数据,能够与客户端1自身具有语音关键词检测功能的情况同样地取得关键词。另外,也可以是以下这样的形式,即客户端1具有语音取得部31,向服务器2只发送作为其输出的语音特征量,由服务器2实施其后的处理。
此外,上述程序既可以通过预先安装在计算机装置中来实现,也可以通过存储在CD-ROM等存储介质中,或经由网络发布上述程序并适当地将该程序安装到计算机装置中来实现。另外,能够适当地利用内置或外装到上述计算机装置的存储器、硬盘、或CD-R、CD-RW、DVD-RAM、DVD-R等存储介质等来实现各个结构要素。
以下,列举实施例来具体说明上述语音关键词检测装置。
(第一实施例)
作为关键词第二评分计算部34的具体动作例子,参照图6和图7说明从输入语音检测“beast”这样的单词(word)的情况。图6的横轴(时间轴)表示帧编号(frame),纵轴表示状态推移(state)。图中虚线表示全部的检测评分的路径,实线表示逐次检测评分P具有P>0的检测评分的路径,点划线表示第二评分的计算路径。图7表示到从语音输入直至计算出第二评分而确定并输出单词为止的处理的流程。在本实施方式中,如果有语音输入(步骤S21),则对每帧生成语音特征量(特征变换)(步骤S22),通过逐次检测评分计算处理对每帧计算帧评分(步骤S23),将图6所示的起点的帧评分一次保存在评分缓冲器37中(步骤S24)。接着,使用第一评分进行起点、终点的单词检测判定(步骤S25),根据起点、终点的时间信息和帧评分计算第二评分(步骤S26),根据该第二评分的结果输出所检测出的单词(步骤S27)。这样,能够高速地计算起点、终点确定的系列评分。在本实施方式中,第一评分的计算路径和第二评分的计算路径相同,但在逐次检测评分计算时,在路径的长度、逐次检测评分中设置阈值插入终止路径的计算等的近似计算的情况下,第一评分的计算路径和第二评分的计算路径也可以不同。
(第二实施例)
但是,在少计算量、低存储量、低延迟地动作的单词(word)的检测处理中,基于逐次检测(第一)评分计算的单词检测进行计算量、存储量少、低延迟的动作。但是,在该检测方法中,使用近似评分、或对检测特化了的评分,因此难以对其他的检测对象的单词和评分进行比较,会检测出全部的类似的单词(例如beast、boost等)。在用于这样的评分比较的正确的评分计算中,计算量、存储量增大。因此,在本实施方式中,除了图7所示的第一实施方式的处理以外,还如图8所示那样,追加针对第二评分的计算结果而对每个单词比较第二评分的步骤S28,由此降低类似的单词的错误检出。
图9表示上述比较处理的第一例子。在该例子中,设想以下的情况,即在检测出一个词语后,在预先确定的时间阈值内检测出了其他的词语。具体地说,将检测对象设为“beast”和“boost”,对与根据逐次检测评分得到的区间1对应的beast的第二评分和与根据逐次检测评分得到的区间2(比区间1长阈值T)对应的boost的第二评分进行比较。在此,区间1的第二评分比区间2的第二评分大。将评分大的一方判断为好像是该单词。由此,能够将beast作为正确的检测结果而输出。在该情况下,理想的是具备依照用户的画面操作来执行时间阈值的调整的调整功能。
图10表示上述比较处理的第二例子。在该例子中,设想以下的情况,即在检测出一个词语后,必须考虑与检测出的词语类似的其他词语候选。具体地说,在将检测对象设为“beast”时,将“boost”登记为类似的单词候选的情况下,针对区间1计算出beast、boost各自的第二评分,对beast的第二评分和boost的第二评分进行比较。在此,boost的第二评分比beast的第二评分大。将评分大的一方判断为好像是该单词。由此,能够将boost作为正确的检测结果而输出。在该情况下,理想的是具备依照用户的画面操作执行是否计算针对检测词语候选的第二评分的选择功能。
图11表示上述比较处理的第三例子。在该实施例中,组合第一实施例、第二实施例各自的处理,将检测对象设为“beast”、“boost”,计算与区间1对应的beast、boost各自的第二评分,计算针对区间2(比区间1长阈值T)的beast、boost各自的第二评分,将计算出的第二评分中具有最大的评分的检测对象作为正确的检测结果而输出。由此,能够高精度地检测正确的单词。
为了简化上述第二评分的计算、比较,只计算、比较用户指定的关键词的第二评分,针对用户指定的关键词的对(例如turn on/turn off)的各个检测区间计算、比较各个第二评分,根据指定的文字、音素的编辑距离的近似度自动地进行判别。例如在登记Hello、Goo-by、Turn on、Turn off的4个作为关键词的情况下,考虑以下这样的方法,即与Turnon/Turn off之间的编辑距离进行比较,因为Hello、Good-by的距离远,因此不需要计算第二评分。在该情况下,该距离并不只限于编辑距离。这样,通过简化第二评分的计算和比较,能够飞跃地缩短处理时间。另外,也可以考虑以下的方法,即与希望检测出的关键词区别地,向关键词列表加入相对关键词编辑距离近的虚设关键词候选,在检测出虚设关键词时废弃。例如向Turn on、Turn off这样的关键词列表加入Turn of作为虚设关键词,在检测出Turn of的情况下废弃。
(第三实施例)
在实施方式的说明中,将计算第二评分的区间设为检测起点终点区间(tms,te),但也可以在向起点或者终点加上余量d帧的基础上拓宽区间而求出第二评分。在对终点时间设置余量d的情况下,必须等待余量d帧量的处理。另外,在向前地对时间应用维特比算法时,针对起点被固定终点不同的区间,根据算法的特性,能够对每个追加帧逐次地计算最大累计评分。因此,也可以将在余量d帧内第二评分为最高的项目作为该关键词的第二评分。关于起点的变化,只要固定终点而相对时间方向向后地进行维特比算法,则也能够达到同样的效果。另外,也可以根据起点终点的余量的变化的组合,而使用最大的评分作为第二评分。
具体而言,作为关键词第二评分计算部34的具体的动作例子,参照图12说明从输入语音检测“beast”这样的单词(word)的情况。第三实施例的差异在于加上余量帧(tms,te+d),处理的流程与图7相同故在此省略。图12的横轴(时间轴)表示帧编号(frame),纵轴表示状态推移(state)。图中的逐次检测评分相当于在之前的实施方式中说明的第一评分(平均局部评分)。进行将针对第一评分的检测阈值为0的说明。图中的虚线表示全部的检测评分的路径,实线表示逐次检测评分P具有余量1时的最大检测评分的路径,点划线表示第二评分的计算路径。图12是在终点时间上加上余量1时的例子,也可以变更检测评分的路径和第二评分的计算路径。
根据以上所述的至少一个实施方式的词语检测系统、词语检测方法、以及记录介质,在根据对检测特化了的第一检测评分检测出关键词后,根据检测出的起点时间、终点时间、第一检测评分的计算所使用的帧评分,计算用于识别的第二检测评分,决定是否受理关键词,由此能够从语音数据正确并且尽快地检测成为关键的词语。
说明了本发明的若干个实施方式,但这些实施方式是作为例子而提示的,并不是要限定发明的范围。能够以其他的各种形式来实施这些实施方式,在不脱离本发明的主要内容的范围内,能够进行各种省略、置换、变更。这些实施方式、其变形包含在发明范围、主要内容内,同样包含在权利要求书所记载的发明及其等价的范围内。

Claims (10)

1.一种词语检测系统,其特征在于包括:
语音取得部,取得包含多个帧的语音数据,生成语音特征量;
第一计算部,通过将基于对应于成为目标的词语的上述语音特征量的参照模型分别与上述语音数据的多个帧进行匹配,计算帧评分,根据该帧评分计算上述词语的第一评分;
保存部,保存上述词语的帧评分;
检测部,根据上述第一评分从上述语音数据检测上述词语,输出所检测出的词语的起点、终点的时间信息;
第二计算部,根据检测出的上述词语的起点、终点的时间信息和保存在上述保存部中的帧评分,计算针对上述词语的第二评分;
输出部,使用上述第二评分的值而与针对多个词语的第二评分或预先确定的阈值评分或其双方进行比较,根据其比较结果决定成为输出对象的词语。
2.根据权利要求1所述的词语检测系统,其特征在于:上述参照模型基于作为上述语音特征量而生成的音素、声韵、发音符号或符号文字的某一个。
3.根据权利要求1所述的词语检测系统,其特征在于:进而上述输出部根据上述第二评分的计算结果,针对多个词语比较各自的第二评分,根据该比较结果决定输出词语。
4.根据权利要求3所述的词语检测系统,其特征在于:上述输出部当在检测出一个词语后在预先确定的时间阈值内检测出其他的词语的情况下,比较上述第二评分,根据该比较结果决定所输出的词语。
5.根据权利要求3所述的词语检测系统,其特征在于:上述输出部在检测出一个词语后,与和使用该词语的起点、终点的时间信息检测出的词语不同的其它检测词语候选的第二评分进行比较,根据该比较结果决定所输出的词语。
6.根据权利要求4所述的词语检测系统,其特征在于还具备:
调整单元,依照用户的画面操作执行上述时间阈值的调整。
7.根据权利要求5所述的词语检测系统,其特征在于还具备:
选择单元,依照用户的画面操作执行是否计算针对上述检测词语候选的第二评分。
8.根据权利要求5所述的词语检测系统,其特征在于:上述输出部根据词语之间的距离,决定是否针对上述检测词语候选计算第二评分。
9.一种词语检测方法,其特征在于:
取得包含多个帧的语音数据,生成语音特征量;
通过将基于对应于成为目标的词语的上述语音特征量的参照模型分别与上述语音数据的多个帧进行匹配,计算帧评分,根据该帧评分计算上述词语的第一评分;
保存上述词语的帧评分;
根据上述第一评分从上述语音数据检测上述词语,输出所检测出的词语的起点、终点的时间信息;
根据检测出的上述词语的起点、终点的时间信息和保存的上述帧评分,计算针对上述词语的第二评分;
使用上述第二评分的值而与针对多个词语的第二评分或预先确定的阈值评分或其双方进行比较,根据其比较结果决定成为输出对象的词语。
10.一种记录介质,存储用于使计算机执行根据用户发言的语音检测词语的处理的词语检测程序,并能够由上述计算机读出,其特征在于:
上述词语检测程序具备:
语音取得步骤,取得包含多个帧的语音数据,生成语音特征量;
第一计算步骤,通过将基于对应于成为目标的词语的上述语音特征量的参照模型分别与上述语音数据的多个帧进行匹配,计算帧评分,根据该帧评分计算上述词语的第一评分;
保存步骤,保存上述词语的帧评分;
检测步骤,根据上述第一评分从上述语音数据检测上述词语,输出所检测出的词语的起点、终点的时间信息;
第二计算步骤,根据检测出的上述词语的起点、终点的时间信息和保存的上述帧评分,计算针对上述词语的第二评分;
输出步骤,使用上述第二评分的值而与针对多个词语的第二评分或预先确定的阈值评分或其双方进行比较,根据其比较结果决定成为输出对象的词语。
CN201811068253.7A 2018-02-23 2018-09-13 词语检测系统、词语检测方法以及记录介质 Active CN110189750B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2018-031225 2018-02-23
JP2018031225 2018-02-23
JP2018170090A JP6852029B2 (ja) 2018-02-23 2018-09-11 ワード検出システム、ワード検出方法及びワード検出プログラム
JP2018-170090 2018-09-11

Publications (2)

Publication Number Publication Date
CN110189750A true CN110189750A (zh) 2019-08-30
CN110189750B CN110189750B (zh) 2022-11-15

Family

ID=67686137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811068253.7A Active CN110189750B (zh) 2018-02-23 2018-09-13 词语检测系统、词语检测方法以及记录介质

Country Status (2)

Country Link
US (1) US10964311B2 (zh)
CN (1) CN110189750B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020175384A1 (en) * 2019-02-25 2020-09-03 Clarion Co., Ltd. Hybrid voice interaction system and hybrid voice interaction method
JP7191792B2 (ja) * 2019-08-23 2022-12-19 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005148342A (ja) * 2003-11-14 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
CN1698097A (zh) * 2003-02-19 2005-11-16 松下电器产业株式会社 语音识别装置及语音识别方法
CN101636784A (zh) * 2007-03-20 2010-01-27 富士通株式会社 语音识别系统、语音识别程序及语音识别方法
JP2010175807A (ja) * 2009-01-29 2010-08-12 Kddi Corp 音声認識方法および装置
CN102176310A (zh) * 2005-12-08 2011-09-07 纽昂斯奥地利通讯有限公司 具有巨大词汇量的语音识别系统
JP2012189829A (ja) * 2011-03-10 2012-10-04 Fujitsu Ltd 音声認識装置、音声認識方法、および音声認識プログラム
CN105340004A (zh) * 2013-06-28 2016-02-17 谷歌公司 用于发音学习的计算机实现的方法、计算机可读介质和系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8620658B2 (en) * 2007-04-16 2013-12-31 Sony Corporation Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US8543395B2 (en) * 2010-05-18 2013-09-24 Shazam Entertainment Ltd. Methods and systems for performing synchronization of audio with corresponding textual transcriptions and determining confidence values of the synchronization
US10770075B2 (en) * 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
JP6461660B2 (ja) 2015-03-19 2019-01-30 株式会社東芝 検出装置、検出方法およびプログラム
US9691378B1 (en) * 2015-11-05 2017-06-27 Amazon Technologies, Inc. Methods and devices for selectively ignoring captured audio data
US9972313B2 (en) * 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
JP6585112B2 (ja) * 2017-03-17 2019-10-02 株式会社東芝 音声キーワード検出装置および音声キーワード検出方法
US10650807B2 (en) * 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1698097A (zh) * 2003-02-19 2005-11-16 松下电器产业株式会社 语音识别装置及语音识别方法
JP2005148342A (ja) * 2003-11-14 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
CN102176310A (zh) * 2005-12-08 2011-09-07 纽昂斯奥地利通讯有限公司 具有巨大词汇量的语音识别系统
CN101636784A (zh) * 2007-03-20 2010-01-27 富士通株式会社 语音识别系统、语音识别程序及语音识别方法
JP2010175807A (ja) * 2009-01-29 2010-08-12 Kddi Corp 音声認識方法および装置
JP2012189829A (ja) * 2011-03-10 2012-10-04 Fujitsu Ltd 音声認識装置、音声認識方法、および音声認識プログラム
CN105340004A (zh) * 2013-06-28 2016-02-17 谷歌公司 用于发音学习的计算机实现的方法、计算机可读介质和系统

Also Published As

Publication number Publication date
US10964311B2 (en) 2021-03-30
CN110189750B (zh) 2022-11-15
US20190266997A1 (en) 2019-08-29

Similar Documents

Publication Publication Date Title
US20210249013A1 (en) Method and Apparatus to Provide Comprehensive Smart Assistant Services
US11189272B2 (en) Dialect phoneme adaptive training system and method
Sahidullah et al. Introduction to voice presentation attack detection and recent advances
Poddar et al. Speaker verification with short utterances: a review of challenges, trends and opportunities
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
CN105940407B (zh) 用于评估音频口令的强度的系统和方法
KR102196400B1 (ko) 핫워드 적합성을 결정하는 방법 및 장치
US8560317B2 (en) Voice recognition apparatus and recording medium storing voice recognition program
CN103971685B (zh) 语音命令识别方法和系统
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
KR20190100334A (ko) 문맥상의 핫워드들
CN110534099A (zh) 语音唤醒处理方法、装置、存储介质及电子设备
CN110265040A (zh) 声纹模型的训练方法、装置、存储介质及电子设备
CN108630200A (zh) 声音关键字检测装置以及声音关键字检测方法
GB2552082A (en) Voice user interface
CN110706714B (zh) 说话者模型制作系统
CN102280106A (zh) 用于移动通信终端的语音网络搜索方法及其装置
CN107967916A (zh) 确定语音关系
CN109801634A (zh) 一种声纹特征的融合方法及装置
CN114051639A (zh) 使用说话者基线进行情绪检测
CN105869633A (zh) 语言模型的跨语种初始化
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
US20140236597A1 (en) System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis
KR20150145024A (ko) 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
CN110189750A (zh) 词语检测系统、词语检测方法以及记录介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant