CN110663078A - 语音识别装置及语音识别方法 - Google Patents

语音识别装置及语音识别方法 Download PDF

Info

Publication number
CN110663078A
CN110663078A CN201780091034.8A CN201780091034A CN110663078A CN 110663078 A CN110663078 A CN 110663078A CN 201780091034 A CN201780091034 A CN 201780091034A CN 110663078 A CN110663078 A CN 110663078A
Authority
CN
China
Prior art keywords
unit
conversation
voice
speaker
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201780091034.8A
Other languages
English (en)
Inventor
武井匠
竹里尚嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Corp
Original Assignee
Mitsubishi Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Corp filed Critical Mitsubishi Corp
Publication of CN110663078A publication Critical patent/CN110663078A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Abstract

本发明的语音识别装置包括:进行说话者语音的语音识别的语音识别部(101);从语音识别结果中提取出预先设定的关键字的关键字提取部(103);参照关键字的提取结果,对说话者语音是否是对话进行判定的对话判定部(105);以及在判定为不是对话的情况下,从语音识别结果中提取出用于操作设备的命令,并在判定为是对话的情况下,不从语音识别结果中提取命令的操作命令提取部(106)。

Description

语音识别装置及语音识别方法
技术领域
本发明涉及对说话者的语音进行语音识别、并提取出用于控制设备的信息的技术。
背景技术
以往,使用了一种技术,该技术用于在存在多个说话者的语音的情况下,降低在判断该说话者的语音是用于指示设备的控制的语音、还是说话者间的对话的语音时的误识别的发生。
例如,专利文献1中公开了如下语音识别装置,其设为在过去的规定时间内检测到多个说话者的说话者语音的情况下,判断为是构成对话的说话者语音,不进行预先决定的关键字的检测处理。
现有技术文献
专利文献
专利文献1:日本专利特开2005-157086号公报
发明内容
发明所要解决的技术问题
根据上述专利文献1所记载的语音识别装置,使用多个声音采集单元来进行某个说话者的说话者语音的检测,在检测到说话者语音之后,检测在规定时间内是否采集到其他说话者的发话语音,由此来检测说话者间的对话。因此,存在需要多个声音采集单元的问题。此外,为了检测说话者的对话,需要待机规定时间,预先决定的关键字检测处理也将产生延迟,存在操作性下降的问题。
本发明是为了解决上述问题而完成的,其目的在于抑制说话者语音的误识别,而无需多个声音采集单元,并且进行用于操作设备的操作命令的提取,而不设置延迟时间。
解决技术问题所采用的技术方案
本发明所涉及的语音识别装置包括:语音识别部,该语音识别部进行说话者语音的语音识别;关键字提取部,该关键字提取部从语音识别部的识别结果中提取出预先设定的关键字;对话判定部,该对话判定部参照关键字提取部的提取结果,对说话者语音是否是对话进行判定;以及操作命令提取部,该操作命令提取部在对话判定部判定为不是对话的情况下,从语音识别部的识别结果中提取用于操作设备的命令,在对话判定部判定为是对话的情况下,不从识别结果中提取命令。
发明效果
根据本发明,能基于由单一的声音采集单元采集到的说话者语音,来抑制说话者语音的误识别。此外,能进行用于操作设备的操作命令的提取,而不设置延迟时间。
附图说明
图1是示出实施方式1所涉及的语音识别装置的结构的框图。
图2A和图2B是示出语音识别装置的硬件结构例的图。
图3是示出实施方式1所涉及的语音识别装置的语音识别处理的动作的流程图。
图4是示出实施方式1所涉及的语音识别装置的对话判定处理的动作的流程图。
图5是示出实施方式1所涉及的语音识别装置的其它结构的图。
图6是示出与实施方式1所涉及的语音识别装置相连接的显示装置的显示画面的显示例的图。
图7是示出实施方式2所涉及的语音识别装置的结构的框图。
图8是示出实施方式2所涉及的语音识别装置的对话判定处理的动作的流程图。
图9是示出实施方式3所涉及的语音识别装置的结构的框图。
图10是示出实施方式3所涉及的语音识别装置的关键字登录处理的动作的流程图。
图11是示出由语音识别装置和服务器装置协作承担实施方式1所涉及的结构的情况下的示例的框图。
具体实施方式
以下,为了对本发明进行更加详细的说明,根据附图对用于实施本发明的方式进行说明。
实施方式1﹒
图1是示出实施方式1所涉及的语音识别装置100的结构的框图。
语音识别装置100包括语音识别部101、语音识别辞典存储部102、关键字提取部103、关键字存储部104、对话判定部105、操作命令提取部106及操作命令存储部107。
如图1所示,语音识别装置100例如与麦克风200和导航装置300相连接。另外,与语音识别装置100相连接的控制设备并不限于导航装置300。
语音识别部101接收单一的麦克风200所采集到的说话者语音的输入。语音识别部101进行所输入的说话者语音的语音识别,并将所得到的识别结果输出至关键字提取部103、对话判定部105和操作指令提取部106。
详细而言,语音识别部101例如通过PCM(Pulse Code Modulation:脉冲编码调制)对说话者语音进行A/D(模拟/数字)转换,并从数字化后得到的语音信号中检测出相当于用户所说的内容的语音区间。语音识别部101提取所检测到的语音区间的语音数据、或语音数据的特征量。另外,根据语音识别装置100的使用环境,也可以在从语音数据中提取特征量的前级,执行基于信号处理等的频谱差减法等的噪声除去处理或回声去除处理。
语音识别部101参照语音识别辞典存储部102中所存储的语音识别辞典,进行所提取出的语音数据或语音数据的特征量的识别处理,并获取识别结果。语音识别部101所获取的识别结果包含语音区间信息、识别结果字符串、与该识别结果字符串相对应的ID等识别信息、或表示匹配度的识别分数中的至少任1个。这里,识别结果字符串指音节串、单词或词组。语音识别部101的识别处理例如应用HMM(Hidden Markov Model:隐马尔科夫模型)法这样的一般方法来进行。
语音识别部101开始语音识别处理的时刻可以适当设定。例如,可以构成为若用户按下指示开始语音识别的按钮(未图示),则将检测到该按下的信号输入至语音识别部101,并由语音识别部101开始语音识别。
语音识别辞典存储部102存储语音识别辞典。
语音识别辞典是在语音识别部101进行说话者语音的语音识别处理时所参照的辞典,定义了成为语音识别的对象的语言。针对语音识别辞典的语言的定义可以应用使用BNF(Backus-Naur Form:巴克斯范式)记法来列举、利用网络语法将词组记述为网络状、或利用统计语言模型对单词链等进行随机建模等一般的方法。
此外,语音识别辞典中存在预先准备的辞典、以及由所连接的导航装置300在动作中根据需要动态生成的辞典。
关键字提取部103在从语音识别部101输入的识别结果中所记载的识别结果字符串内搜索是否存在登录在关键字存储部104中的关键字。在识别结果字符串内存在所登录的关键字的情况下,关键字提取部103提取该关键字。关键字提取部103在从识别结果字符串中提取出关键字的情况下,将所提取出的关键字输出至对话判定部105。
关键字存储部104存储有可能在说话者间的对话中出现的关键字。这里,说话者间的对话例如指在语音识别装置100搭载于车辆100的情况下在该车辆内的人彼此的对话、以及由位于车辆内的一个人向位于车辆内的另一个人进行的发话等。此外,有可能在说话者间的对话中出现的关键字例如指人名(姓、名、全名及昵称等)或表示呼唤的语言(嗨、喂、啊等)等。
另外,关于人名,在将假设出现在说话者间的对话中的所有人名作为关键字存储于关键字存储部104的情况下,将并非说话者间的对话的语音误检测为对话的可能性变高。出于避免该误检测的目的,语音识别装置100进行如下处理:将根据摄像头的拍摄图像、或生物认证装置的认证结果等预先推定出的说话者的人名作为关键字,并使关键字存储部104进行存储。此外,语音识别装置100也可以进行如下处理:基于与说话者所保有的移动终端或云服务等相连接而得到的地址簿等登录信息来推定说话者,并使关键字存储部104以所推定出的说话者的人名为关键字来进行存储。
若输入了由关键字提取部103所提取出的关键字,则对话判定部105参照从语音识别部101输入的识别结果,将所输入的关键字及该关键字之后的语音判定为是说话者间的对话。对话判定部105将是说话者间的对话这一判定结果输出至操作命令提取部106。
此外,在判定为是对话之后,对话判定部105将该判定中所使用的识别结果的表示语音区间的信息、与从语音识别部101获取到的新的识别结果的表示语音区间的信息进行比较,来推定对话将继续、或对话已结束。在推定为对话已结束的情况下,对话判定部105向操作命令提取部106输出将该对话已结束。
对话判定部105在未由关键字提取部103输入关键字的情况下,判定为并非说话者间的对话。对话判定部105将并非说话者间的对话这一判定结果输出至操作命令提取部106。
操作命令提取部106参照从对话判定部105输入的判定结果,在判定结果为并非说话者间的对话的情况下,从语音识别部101输入的识别结果中提取用于操作导航装置300的命令(以下,记载为操作命令)。与在操作命令存储部107中所存储的操作命令相一致或类似的用语包含在识别结果中的情况下,操作命令提取部106将其作为对应的操作命令来提取。
操作命令例如为“变更路径”、“搜索餐厅”或“开始识别处理”等,与该操作命令相一致或类似的用语例如指“变更路径”、“附近的餐厅”或“开始语音识别”等。操作命令提取部106可以从与预先存储于操作命令存储部107的操作命令其用语本身相一致或类似的用语中提取操作命令,也可以将操作命令或操作命令的一部分作为关键字来提取,并提取与所提取出的关键字或所提取的关键字的组合相对应的操作命令。操作命令提取部106将所提取出的操作命令所表示的操作内容输出至导航装置300。
另一方面,在从对话判定部105输入了是说话者间的对话这一判定结果的情况下,操作命令提取部106不从语音识别部101所输入的识别结果中提取操作命令,或对识别结果所记载的识别分数进行校正,以设定为难以提取操作命令。
具体而言,设为在操作命令提取部106中预先设定有识别分数的阈值,并采用如下结构:在识别分数为该阈值以上的情况下将操作命令输出至导航装置300,而在小于该阈值的情况下不将操作命令输出至导航装置300。若从对话判定部105输入了是说话者间的对话这一判定结果,则操作命令提取部106例如将识别结果的识别分数设定为小于预先设定的阈值的值。
操作命令存储部107是存储操作命令的区域。操作命令存储部107存储上述“路径变更”等用于操作设备的用语。此外,操作命令存储部107也可以与操作命令的用语相对应地存储已转换为导航装置300所能解释的形式的信息。该情况下,操作命令提取部106从操作命令存储部107中获取已转换为导航装置300所能解释的形式的信息。
接着,对语音识别装置100的硬件结构例进行说明。
图2A和图2B是示出语音识别装置100的硬件结构例的图。
语音识别装置100中的语音识别部101、关键字提取部103、对话判定部105和操作命令提取部106的各功能由处理电路来实现。即,语音识别装置100具备用于实现上述各功能的处理电路。该处理电路可以如图2A所示那样是专用的硬件即处理电路100a,也可以如图2B所示那样是执行存储于存储器100c的程序的处理器100b。
如图2A所示,在语音识别部101、关键字提取部103、对话判定部105及操作命令提取部106为专用硬件的情况下,处理电路100a例如相当于单一电路、复合电路、编程处理器、并联编程处理器、ASIC(Application Specific Integrated Circuit:专用集成电路)、FPGA(Field-Programmable Gate Array:现场可编程门阵列)或它们的组合。语音识别部101、关键字提取部103、对话判定部105及操作命令提取部106的各部分的功能可以分别用处理电路来实现,也可以汇总各部分的功能用1个处理电路来实现。
如图2B所示那样,在语音识别部101、关键字提取部103、对话判定部105及操作命令提取部106为处理器100b的情况下,各部分的功能由软件、固件、或软件和固件的组合来实现。软件或固件记述为程序,并存储于存储器100c。处理器100b读取并执行存储于存储器100c的程序,由此来实现语音识别部101、关键字提取部103、对话判定部105及操作命令提取部106的各功能。即,语音识别部101、关键字提取部103、对话判定部105及操作命令提取部106包括存储器100c,该存储器100c用于存储在利用处理器100b来执行时最终执行后述的图3和图4所示的各步骤的程序。此外,也可以说上述程序是使计算机执行语音识别部101、关键字提取部103、对话判定部105及操作命令提取部106的步骤或方法的程序。
这里,处理器100b例如指CPU(Central Processing Unit:中央处理装置)、处理装置、运算装置、处理器、微处理器、微机或DSP(Digital Signal Processor:数字信号处理器)等。
存储器100c例如可以是RAM(Random Access Memory:随机存取存储器)、ROM(ReadOnly Memory:只读存储器)、闪存、EPROM(Erasable Programmable ROM:可擦写可编程只读存储器)、EEPROM(Electrically EPROM:电可擦写可编程只读存储器)等非易失性或易失性的半导体存储器,也可以是硬盘、软盘等磁盘,也可以是小型磁盘、CD(Compact Disc:激光唱盘)、DVD(Digital Versatile Disc:数字多功能光盘)等光盘。
此另,对于语音识别部101、关键字提取部103、对话判定部105及操作命令提取部106的各功能,可以用专用的硬件来实现一部分,并用软件或固件来实现一部分。由此,语音识别装置100中的处理电路100a可以利用硬件、软件、固件或它们的组合来实现上述各功能。
接着,对语音识别装置100的动作进行说明。
语音识别装置100的动作分为语音识别处理和对话判定处理来说明。
首先,一边参照图3的流程图,一边对语音识别处理进行说明。
图3是示出实施方式1所涉及的语音识别装置100的语音识别处理的动作的流程图。
若麦克风200收集到的说话者语音被输入(步骤ST1),则语音识别部101参照语音识别辞典存储部102所存储的语音识别辞典,进行所输入的说话者语音的语音识别,并获取识别结果(步骤ST2)。语音识别部101将所获取到的识别结果输出至关键字提取部103、对话判定部105及操作命令提取部106。
关键字提取部103从步骤ST2中获取到的识别结果中所记载的识别结果字符串中搜索登录在关键字存储部104中的关键字(步骤ST3)。关键字提取部103在步骤ST3中搜索到关键字的情况下,提取出搜索到的关键字(步骤ST4)。关键字提取部103将步骤ST4的提取结果输出至对话判定部105(步骤ST5)。之后,返回步骤ST1的处理,并重复上述处理。另外,在步骤ST3中关键字提取部103未提取出关键字的情况下,将关键字未被提取出这一情况输出至对话判定部105。
接着,对语音识别装置100的对话判定处理进行说明。
图4是示出实施方式1所涉及的语音识别装置100的对话判定处理的动作的流程图。
对话判定部105参照由图3的流程图中所示的步骤ST5的处理而输入的关键字的提取结果,对说话者语音是否是对话进行判定(步骤ST11)。在判定为并非对话的情况下(步骤ST11;否),对话判定部105将判定结果输出至操作命令提取部106。操作命令提取部106参照操作命令存储部107,从语音识别部101的识别结果中提取操作命令,并输出至导航装置300(步骤ST12)。之后,流程返回到步骤ST1的处理。
另一方面,在判定为是对话的情况下(步骤ST11;是),对话判定部105将判定结果输出至操作命令提取部106。操作命令提取部106停止操作命令的提取(步骤ST13)。操作命令提取部106将停止操作命令的提取这一情况通知给对话判定部105。若通知了操作命令的提取已停止,则对话判定部1015从语音识别部101获取新的识别结果的表示语音区间的信息(步骤ST14)。对话判定部105测定步骤ST14中获取到的语音区间、与该语音区域前一个识别结果的语音区间之间的间隔(步骤ST15)。
对话判定部105对步骤ST15中测定出的间隔是否在预先设定的阈值(例如,10秒)以下进行判定(步骤ST16)。在测定出的间隔在阈值以下的情况下(步骤ST16;是),对话判定部105推定为对话将继续(步骤ST17),返回步骤ST14的处理。另一方面,在测定出的间隔比阈值要大的情况下(步骤ST16;否),对话判定部105推定为对话已结束(步骤ST18),将该对话已结束这一情况通知给操作命令提取部106(步骤ST19)。操作命令提取部106解除操作命令的提取停止(步骤ST20),并返回步骤ST11的处理。
另外,在上述图4的流程图的步骤ST13的处理中,示出了停止提取操作命令的处理,但也可以进行如下处理:操作命令提取部106对从语音识别部101获取到的识别结果的识别分数进行校正,以采用不提取操作命令的设定。该情况下,在步骤ST20的处理中,操作命令提取部106解除识别分数的校正。
另外,在上述图4的流程图的步骤ST12或步骤ST13的处理中,也可以构成为操作命令提取部106将基于发话者的语音与操作命令的一致度等计算出的表示可靠度的分数同预先设定的阈值进行比较,在分数为阈值以下的情况下,不提取操作命令。这里,预先设定的阈值例如指在分数的最大值为“1000”的情况下被设定为“500”的值。
并且,操作命令提取部106根据说话者语音是否为对话的判定结果,来进行分数的校正。在判定为说话者语音为对话的情况下,根据该分数的校正来抑制操作命令的提取。操作命令提取部106在判定为是对话的情况下(步骤ST11;是),从分数的值(例如,“600”)中减去规定的值(例如,“300”),并将减去后的分数的值(例如,“300”)与阈值(例如,“500”)进行比较。该示例的情况下,操作命令提取部106不从说话者语音中提取操作命令。由此,在判定为是对话的情况下,操作命令提取部106仅从表示明显说出了命令的较高可靠度的说话者语音中提取操作命令。另外,在判定为并非对话的情况下(步骤ST11;否),操作命令提取部106将分数的值(例如,“600”)与阈值(例如,“500”)进行比较,而不进行从分数的值(例如,“600”)中减去规定的值的处理。该示例的情况下,操作命令提取部106从说话者语音中提取操作命令。
此外,在步骤ST14至步骤ST16中,示出了对话判定部105基于2个语音区间的间隔来推定对话是否结束的处理。在该处理的基础上,对话判定部105也可以在最后获取到语音区间后经过了预先设定的时间(例如,10秒等)以上的情况下,推定为对话已结束。
接着,关于图3和图4所示的流程图,举出具体示例来进行说明。首先,设为关键字存储部104例如登录有“A君/A先生/A”和“B君/B先生/B”等信息。此外,作为说话者语音,以输入了“A先生,顺便去便利店吗?”这样的对话的情况为例进行说明。
在图3的流程图的步骤ST1中,所采集到的“A先生,顺便去便利店吗?”这一说话者语音被输入。在步骤ST2中,语音识别部101检测语音区间,并获取“A先生,顺便去便利店”这一识别结果的字符串。在步骤ST3中,关键字提取部103对识别结果的字符串进行关键字搜索。在步骤ST4中,关键字提取部103参照关键字存储部104进行搜索,并提取“A先生”这一关键字。在步骤ST5中,关键字提取部103将所提取出的关键字“A先生”输出至对话判定部105。
接着,在图4的流程图的步骤ST11中,由于输入了关键字,因此对话判定部105判定为说话者语音是对话(步骤ST11;是)。在步骤ST13中,操作指令提取部106停止从“A先生,顺便去便利店”这一识别结果的字符串中提取操作命令。
之后,设为“是啊”这一说话者语音被输入至语音识别装置100。在步骤ST14中,对话判定部105从语音识别部101获取新的识别结果“是啊”的语音区间的信息。在步骤ST15中,对话判定部105将识别结果“是啊”的语音区间、与识别结果“A先生,顺便去便利店”的语音区间之间的间隔测定为“3秒”。在步骤ST16中,对话判定部15判定为间隔在10秒以下(步骤ST16;是),并在步骤ST17中推定为对话将继续。之后,流程返回步骤ST14的处理。
另一方面,步骤ST15中,在对话判定部将上述2个语音区间的间隔测定为“12秒”的情况下,判定为间隔比10秒要大(步骤ST16;否),在步骤ST18中推定为对话已结束。在步骤ST19中,对话判定部105将对话已结束这一情况通知给操作命令提取部106。在步骤ST20中,操作命令提取部106解除操作指令的提取停止。之后,流程返回步骤ST14的处理。
接着,作为说话者语音,以输入了“顺便去便利店”这样的操作指示的情况为例进行说明。
在图3的流程图的步骤ST1中,所采集到的“顺便去便利店”这一说话者语音被输入。在步骤ST2中,语音识别部101检测语音区间,并获取“顺便去便利店”这一识别结果的字符串。在步骤ST3中,关键字提取部103对识别结果的字符串进行关键字搜索。在步骤ST4中,由于不存在“A君/A先生/A”以及“B君/B先生/B”这些关键字,因此关键字提取部103不进行关键字的提取。在步骤ST5中,关键字提取部103将未提取关键字这一情况输出至对话判定部105。
接着,在图4的流程图的步骤ST11中,由于未提取出关键字,因此对话判定部105判定为并非对话(步骤ST11;否)。在步骤ST12中,操作命令提取部106参照操作命令存储部107,从“顺便去便利店”这一识别结果的字符串中提取出“便利店”这一操作命令,并输出至导航装置300。
由此,在“A先生,顺便去便利店吗?”这一对话作为说话者语音被输入的情况下停止操作命令的提取,但在“顺便去便利店”这一操作指示被输入的情况下,确实地执行操作命令的提取。
如上所述,根据实施方式1,构成为包括:语音识别部101,该语音识别部101进行说话者语音的语音识别;关键字提取部103,该关键字提取部103从语音识别部的识别结果中提取出预先设定的关键字;对话判定部105,该对话判定部105参照关键字提取的提取结果,对说话者语音是否是对话进行判定;以及操作命令提取部106,该操作命令提取部106在判定为不是对话的情况下,从识别结果中提取出用于操作设备的命令,在判定为是对话的情况下,不从识别结果中提取命令,因此,能基于单一的声音采集单元所采集到的说话者语音,来抑制说话者语音的误识别。此外,能进行用于操作设备的命令的提取,而不设置延迟时间。此外,能抑制设备被发话者所不希望的语音操作所控制,便利性得以提高。
此外,根据本实施方式1,构成为对话判定部105在判定为说话者语音是对话的期间,对识别结果的语音区间的间隔是否在预先设定的阈值以上进行判定,在语音区间的间隔在预先设定的阈值以上的情况下,推定为对话已结束,因此,能在推定出对话已结束的情况下,恰当地重新开始操作命令的提取。
另外,也可以采用如下结构:语音识别装置100的对话判定部105将判定结果输出至外部的通知装置。
图5是示出实施方式1所涉及的语音识别装置100的其它结构的图。
图5中,示出了语音识别装置100连接有作为通知装置的显示装置400、以及语音输出装置500的情况。
显示装置400例如由显示器或LED灯等构成。语音输出装置500例如由扬声器构成。
对话判定部105在判定为是对话的情况下、以及对话继续的期间,对显示装置400或语音输出装置500指示输出通知信息。
显示装置400在显示器中显示如下情况:语音识别装置100推定为正在对话中、或未接收到操作命令。此外,显示装置400通过LED灯的点亮来通知语音识别装置100推定为正在对话中这一情况。
图6是示出与实施方式1所涉及的语音识别装置100相连接的显示装置400的显示画面的显示例的图。
在语音识别装置100推定为正在对话中的情况下,在显示装置400的显示画面中显示例如“判定为对话中”以及“无法接收操作命令”的消息401。
语音输出装置500输出表示语音识别装置100推定为正在对话中、且不接收操作命令这一情况的语音引导或效果音。
通过由语音识别装置100控制通知的输出,从而用户能容易地识别是处于能接收操作命令的输入的状态、还是处于无法接收的状态。
上述对话判定部105将判定结果输出至外部的通知装置的结构也能适用于后述的实施方式2和实施方式3。
此外,对话判定部105可以在存储区域(未图示)中存储表示对话结束的语言,例如包含同意表现的“就这样吧”、“知道了”和“OK”等语言。
对话判定部105也可以在新输入的识别结果中包含了表示对话结束的语言的情况下,推定为对话已结束,而不基于语音区间的间隔。
即,对话判定部105构成为在判定为说话者语音是对话的期间,对识别结果中是否包含表示对话结束的语言进行判定,在包含表示对话结束的语言的情况下,推定为对话已结束,因此能抑制如下情况:因语音区间的检测错误导致语音区间的间隔检测为比实际的间隔要短,从而导致错误地推定为对话将继续。
实施方式2﹒
本实施方式2中示出如下结构:将用户的脸部方向也考虑在内来进行是否是对话的判定。
图7是示出实施方式2所涉及的语音识别装置100A的结构的框图。
实施方式2所涉及的语音识别装置100A对图1所示的实施方式1的语音识别装置100追加脸部方向信息获取部108和脸部方向判定部109来构成。此外,语音识别装置100A构成为设置对话判定部105a来代替图1所示的实施方式1的语音识别装置100的对话判定部105。
以下,对与实施方式1所涉及的语音识别装置100的结构要素相同或相当的部分,标注与实施方式1所使用的标号相同的标号,并省略或简化其说明。
脸部方向信息获取部108分析从外部的摄像头600输入的拍摄图像,并计算拍摄图像中所存在的用户的脸部方向信息。脸部方向信息获取部108将所计算出的用户的脸部方向信息存储于缓存等临时存储区域(未图示)。这里,用户是摄像头600所拍摄的拍摄对象者,可以是发话者或发话者以外的其他人中的任意一个。
对话判定部105a具备脸部方向判定部109。若对话判定部105a判定为并非说话者间的对话,则对脸部方向判定部109指示获取脸部方向信息。脸部方向判定部109从脸部方向信息获取部108获取脸部方向信息。脸部方向判定部109获取对话判定部105a的对话判定中所使用的说话者语音的前后规定区间的脸部方向信息,以作为脸部方向信息。脸部方向判定部109根据所获取到的脸部方向信息来判定对话是否在进行。在所获取到的脸部方向信息表示例如“发话者的脸部方向朝向其他用户那里”或“某个用户的脸部方向朝向发话者那里”等条件的情况下,脸部方向判定部109判定为在进行对话。另外,对于在脸部方向信息满足哪些条件时推定为正在进行对话这一点可以适当设定。
对话判定部105a将判定为正在进行对话的结果、在脸部方向判定部109中判定为正在进行对话的结果、或在脸部方向判定部109中判定为不在进行对话的结果中的任一个输出至操作命令提取部106。
操作命令提取部106参照从对话判定部105a输入的判定结果,在判定结果为不在进行对话的情况下,从语音识别部101所输入的识别结果中提取操作命令。
另一方面,操作命令提取部106在判定结果为正在进行对话的情况下,不从语音识别部101所输入的识别结果中提取操作命令,或对识别结果中所记载的识别分数进行校正,以设定为不提取操作命令。
对话判定部105a在判定为正在进行对话的情况下、以及在脸部方向判定部109中判定为正在进行对话的情况下,与实施方式1同样地推定对话将继续、或对话已结束。
接着,对语音识别装置100A的硬件结构例进行说明。另外,省略与实施方式1相同的结构的说明。
语音识别装置100A中的对话判定部105a、脸部方向信息获取部108和脸部方向判定部109是图2A所示的处理电路100a,或是执行存储在图2B所示的存储器100c中的程序的处理器100b。
接着,对语音识别装置100A的对话判定处理进行说明。另外,语音识别装置100A的语音识别处理与实施方式1的语音识别装置100相同,因此省略说明。
图8是示出实施方式2所涉及的语音识别装置100A的对话判定处理的动作的流程图。另外,以下,对与实施方式1所涉及的语音识别装置100相同的步骤标注与图4中所使用的标号相同的标号,并省略或简化其说明。
另外,设为脸部方向信息获取部108进行如下处理:始终对从摄像头600输入的拍摄图像获取脸部方向信息。
步骤ST11的判定处理中,在对话判定部105a判定为并非对话的情况下(步骤ST11;否),对话判定部105a对脸部方向判定部109指示获取脸部方向信息(步骤ST21)。
脸部方向判定部109基于步骤ST21中所输入的指示,从脸部方向信息获取部108获取识别结果的语音区间的前后规定期间的脸部方向信息(步骤ST22)。脸部方向判定部109参照步骤ST22中获取到的脸部方向信息,判定是否正在进行对话(步骤ST23)。在判定为未进行对话的情况下(步骤ST23;否),对话判定部105a将判定结果输出至操作命令提取部106,并前进至步骤ST12的处理。另一方面,在判定为正在进行对话的情况下(步骤ST23;是),对话判定部105a将判定结果输出至操作命令提取部106,并前进至步骤ST13的处理。
如上所述,根据本实施方式2,构成为包括:脸部方向信息获取部108,该脸部方向信息获取部108获取发话者及发话者以外的其他人中的至少任一个的脸部方向信息;以及脸部方向判定部109,该脸部方向判定部109在对话判定部105a判定为不是对话的情况下,基于脸部方向信息是否满足预先设定的条件,进一步判定说话者语音是否是对话,操作命令提取部106在脸部方向判定部109判定为不是对话的情况下,从识别结果中提取命令,在脸部方向判定部109判定为是对话的情况下,不从识别结果中提取命令,因此,能使是否正在进行对话的判定精度提高。由此,能提高语音识别装置的便利性。
实施方式3﹒
本实施方式3中,示出如下结构:获取有可能在说话者间的对话中出现的新的关键字,并登陆在关键字存储部104中。
图9是示出实施方式3所涉及的语音识别装置100B的结构的框图。
实施方式3所涉及的语音识别装置100B对图1所示的实施方式1的语音识别装置100追加脸部方向信息获取部108a和反应检测部110来构成。
以下,对与实施方式1所涉及的语音识别装置100的结构要素相同或相当的部分,标注与实施方式1所使用的标号相同的标号,并省略或简化其说明。
脸部方向信息获取部108a分析从外部的摄像头600输入的拍摄图像,并计算拍摄图像中所存在的用户的脸部方向信息。脸部方向信息获取部108a将所计算出的用户的脸部方向信息输出至反应检测部110。
反应检测部110参照从语音识别部101输入的识别结果,来检测发话者的发话。在检测出发话者的发话之后,在规定时间以内,反应检测部110对是否检测到其他人的反应进行判定。这里,其他人的反应指其他人的发话、或其他人的脸部方向的变化中的至少一方。
在检测到发话者的发话后,反应检测部110在检测出如下情况中的至少任一种时,判定为检测出其他人的反应,即:参照从语音识别部101输入的识别结果而检测出针对发话的语音响应、或参照从脸部方向信息获取部108a输入的脸部方向信息而检测出针对发话的脸部方向的变化。反应检测部110在检测出其他人的反应的情况下,将发话者的发话的识别结果、或识别结果的一部分作为有可能在说话者间的对话中出现的关键字来提取,并登陆在关键字存储部104中。
接着,对语音识别装置100B的硬件结构例进行说明。另外,省略与实施方式1相同的结构的说明。
语音识别装置100B中的脸部方信息获取部108a和反应检测部110是图2A所示的处理电路100a,或是执行存储在图2B所示的存储器100c中的程序的处理器100b。
接着,对语音识别装置100B的关键字登陆处理进行说明。另外,语音识别装置100B的语音识别处理和对话判定处理与实施方式1相同,因此省略说明。
图10是示出实施方式3所涉及的语音识别装置100B的关键字登陆处理的动作的流程图。
另外,设为语音识别装置101始终对从麦克风200输入的说话者语音进行识别处理。同样地,设为脸部方向信息获取部108a进行如下处理:始终对从摄像头600输入的拍摄图像获取脸部方向信息。
若从语音识别部101所输入的识别结果中检测到发话者的发话(步骤ST31),则反应检测部110参照该发话之后从语音识别部101输入的识别结果、以及从脸部方向信息获取部108a输入的脸部方向信息(步骤ST32)。
反应检测部110判定是否输入有其他人针对步骤ST31中所检测出的发话的语音响应、或对于所检测出的发话其他人的脸部方向是否发生了变化(步骤ST33)。在检测到输入有其他人针对发话的语音响应、或针对该发话其他人的脸部方向发生了变化的情况中的至少任一种的情况下(步骤ST33;是),反应检测部110从步骤ST31中检测到的发话的识别结果中提取关键字(步骤ST34)。反应检测部110将步骤ST34中所提取出的关键字登陆在关键字存储部104中(步骤ST35)。之后,流程返回步骤ST31的处理。
另一方面,在未输入有其他人针对所检测出的发话的语音响应、以及对于所检测出的发话其他人的脸部方向没有变化的情况下(步骤ST33;否),反应检测部110对是否经过了预先设定的时间进行判定(步骤ST36)。在未经过预先设定的时间的情况下(步骤ST36;否),返回步骤ST33的处理。另一方面,在经过了预先设定的时间的情况下(步骤ST36;是),返回步骤ST31的处理。
接着,关于图10所示的流程图,举出具体示例来进行说明。此外,作为说话者语音,以输入了与“A先生”的对话的情况为例进行说明。
在步骤ST31中,反应检测部110根据语音识别部101所输入的识别结果“A先生”,来检测发话者的发话。在步骤ST32中,反应检测部110参照在识别结果“A先生”这一发话之后从语音识别部101输入的识别结果以及从脸部方向信息获取部108a输入的脸部方向信息。在步骤ST33中,反应检测部110判定为输入了“什么?”等表示回答的其他人的语音响应、以及检测到其他人的脸部朝向发话者的脸部方向变化(步骤ST33:是)。在步骤ST34中,反应检测部110从识别结果“A先生”中提取出“A”这一关键字。在步骤ST35中,反应检测部110将“A”这一关键字登陆在关键字存储部104中。
由此,反应检测部110在发话者说了“A先生”之后,判定是否输入有其他人的语音响应、或其他人的脸部是否朝向了发话者一侧,由此,能推定说话者间是否正在进行对话。由此,对于事先未定义的说话者间的对话,反应检测部110也可以提取对话中有可能出现的关键字,并将其登录在关键字存储部104中。
如上所述,根据本实施方式3,构成为包括:脸部方向信息获取部108a,该脸部方向信息获取部108a获取发话者以外的其他人的脸部方向信息;以及反应检测部110,该反应检测部110基于其他人针对发话者的说话者语音的脸部方向信息、或其他人针对发话者的发话语音的语音响应中的至少任一方,检测其他人有无反应,在检测到其他人的反应的情况下,将说话者语音或说话者语音的一部分设定为关键字,因此,能从未事先登录或定义在语音识别装置中的用户的对话中提取有可能在对话中出现的关键字并登陆。由此,能消除在未登录或定义的用户利用该语音识别装置的情况下无法进行对话判定的问题。对于所有用户,能抑制设备被不希望的语音操作所控制,能提高该用户的便利性。
另外,上述内容中,以对实施方式1所示的语音识别装置100应用脸部方向信息获取部108a和反应检测部110并构成的情况为例来示出,但也可以适用于实施方式2所示的语音识别装置100A。
可以构成为由与语音识别装置100、100A、100B相连接的服务器装置来进行上述实施方式1至实施方式3中所示的各结构的功能的一部分。并且,也可以构成为由服务器装置来进行实施方式1至实施方式3中所示的各结构的所有功能。
图11是示出由语音识别装置和服务器装置协作执行实施方式1所示的各结构的功能的情况下的结构例的框图。
语音识别装置100C包括语音识别部101、语音识别辞典储存部102和通信部111。服务器装置700包括关键字提取部103、关键字存储部104、对话判定部105、操作命令提取部106、操作命令存储部107和通信部701。语音识别装置100C的通信部111确立与服务器装置700之间的无线通信,并将语音识别结果发送至服务器装置700侧。服务器装置700的通信部701确立与语音识别装置100C和导航装置300之间的无线通信,从语音识别装置100获取语音识别结果,并将从语音识别结果中提取出的操作命令发送至导航装置300。另外,与导航装置700进行无线通信连接的控制设备并不限于导航装置300。
除上述以外,本发明在其发明范围内,能够自由组合各实施方式,或者将各实施方式的任意构成要素进行变形,或者也可以在各实施方式中省略任意的构成要素。
工业上的实用性
本发明所涉及的语音识别装置适用于接收语音操作的车载设备等,适用于准确地判定用户的语音输入并提取操作命令的情况。
标号说明
100、100A、100B、100C 语音识别装置,
101 语音识别部,
102 语音识别辞典存储部,
103 关键字提取部,
104 关键字存储部,
105、105a 对话判定部,
106 操作命令提取部,
107 操作命令存储部,
108、108a 脸部方向信息获取部,
109 脸部方向判定部,
110 反应检测部,
111、701 通信部,
700 服务器装置。

Claims (8)

1.一种语音识别装置,其特征在于,包括:
语音识别部,该语音识别部进行说话者语音的语音识别;
关键字提取部,该关键字提取部从所述语音识别部的识别结果中提取出预先设定的关键字;
对话判定部,该对话判定部参照所述关键字提取部的提取结果,对所述说话者语音是否是对话进行判定;以及
操作命令提取部,该操作命令提取部在所述对话判定部判定为不是对话的情况下,从所述语音识别部的识别结果中提取用于操作设备的命令,在所述对话判定部判定为是对话的情况下,不从所述识别结果中提取所述命令。
2.如权利要求1所述的语音识别装置,其特征在于,
所述预先设定的关键字是人名或表示呼唤的语言。
3.如权利要求1所述的语音识别装置,其特征在于,包括:
脸部方向信息获取部,该脸部方向信息获取部获取发话者及所述发话者以外的其他人中的至少任一个的脸部方向信息;以及
脸部方向判定部,该脸部方向判定部在所述对话判定部判定为不是对话的情况下,基于所述脸部方向信息获取部获取到的所述脸部方向信息是否满足预先设定的条件,进一步判定所述说话者语音是否是对话,
所述操作命令提取部在所述脸部方向判定部判定为不是对话的情况下,从所述识别结果中提取所述命令,在所述脸部方向判定部判定为是对话的情况下,不从所述识别结果中提取所述命令。
4.如权利要求1所述的语音识别装置,其特征在于,包括:
脸部方向信息获取部,该脸部方向信息获取部获取发话者以外的其他人的脸部方向信息;以及
反应检测部,该反应检测部基于所述脸部方向信息获取部获取到的所述其他人针对所述发话者的说话者语音的脸部方向信息、或所述语音识别部识别出的所述其他人针对所述发话者的发话语音的语音响应中的至少任一方,检测所述其他人有无反应,在检测到所述其他人的反应的情况下,将所述说话者语音或所述说话者语音的一部分设定为所述关键字。
5.如权利要求1所述的语音识别装置,其特征在于,
所述对话判定部在判定为所述说话者语音是对话的期间,对所述语音识别部的识别结果的语音区间的间隔是否在预先设定的阈值以上进行判定,在所述语音区间的间隔在预先设定的阈值以上的情况下,推定为所述对话已结束。
6.如权利要求1所述的语音识别装置,其特征在于,
所述对话判定部在判定为所述说话者语音是对话的期间,对所述语音识别部的识别结果中是否包含表示对话结束的语言进行判定,在包含表示所述对话结束的语言的情况下,推定为所述对话已结束。
7.如权利要求1所述的语音识别装置,其特征在于,
所述对话判定部在判定为所述说话者语音是对话的情况下,进行通知该判定结果的控制。
8.一种语音识别方法,其特征在于,包括如下步骤:
语音识别部进行说话者语音的语音识别的步骤;
关键字提取部从所述语音识别的识别结果中提取出预先设定的关键字的步骤;
对话判定部参照所述关键字提取的提取结果,对所述说话者语音是否是对话进行判定的步骤;以及
操作命令提取部在判定为不是对话的情况下,从所述识别结果中提取用于操作设备的命令,在判定为是对话的情况下,不从所述识别结果中提取所述命令的步骤。
CN201780091034.8A 2017-05-25 2017-05-25 语音识别装置及语音识别方法 Withdrawn CN110663078A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/019606 WO2018216180A1 (ja) 2017-05-25 2017-05-25 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
CN110663078A true CN110663078A (zh) 2020-01-07

Family

ID=64395394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780091034.8A Withdrawn CN110663078A (zh) 2017-05-25 2017-05-25 语音识别装置及语音识别方法

Country Status (5)

Country Link
US (1) US20200111493A1 (zh)
JP (1) JP6827536B2 (zh)
CN (1) CN110663078A (zh)
DE (1) DE112017007587T5 (zh)
WO (1) WO2018216180A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11100930B1 (en) * 2018-10-05 2021-08-24 Facebook, Inc. Avoiding false trigger of wake word from remote device during call
WO2022137534A1 (ja) * 2020-12-25 2022-06-30 三菱電機株式会社 車載用音声認識装置及び車載用音声認識方法
WO2022176038A1 (ja) * 2021-02-17 2022-08-25 三菱電機株式会社 音声認識装置および音声認識方法
WO2022239142A1 (ja) * 2021-05-12 2022-11-17 三菱電機株式会社 音声認識装置及び音声認識方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003526120A (ja) * 2000-03-09 2003-09-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 民生電子機器システムとの対話処理方法
JP2004245938A (ja) * 2003-02-12 2004-09-02 Fujitsu Ten Ltd 音声認識装置及びプログラム
JP2007121576A (ja) * 2005-10-26 2007-05-17 Matsushita Electric Works Ltd 音声操作装置
US9865255B2 (en) * 2013-08-29 2018-01-09 Panasonic Intellectual Property Corporation Of America Speech recognition method and speech recognition apparatus
US9715875B2 (en) * 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN106570443A (zh) * 2015-10-09 2017-04-19 芋头科技(杭州)有限公司 一种快速识别方法及家庭智能机器人

Also Published As

Publication number Publication date
WO2018216180A1 (ja) 2018-11-29
US20200111493A1 (en) 2020-04-09
DE112017007587T5 (de) 2020-03-12
JP6827536B2 (ja) 2021-02-10
JPWO2018216180A1 (ja) 2019-11-07

Similar Documents

Publication Publication Date Title
JP3967952B2 (ja) 文法更新システム及び方法
JP4557919B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
KR100742888B1 (ko) 음성 인식 방법
US9224387B1 (en) Targeted detection of regions in speech processing data streams
CN110663078A (zh) 语音识别装置及语音识别方法
US9691389B2 (en) Spoken word generation method and system for speech recognition and computer readable medium thereof
JP2019101385A (ja) 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
US11507759B2 (en) Speech translation device, speech translation method, and recording medium
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2000047696A (ja) 情報処理方法及び装置、その記憶媒体
CN111755000A (zh) 语音识别装置、语音识别方法及记录介质
JP2002202797A (ja) 音声認識方法
US20170270923A1 (en) Voice processing device and voice processing method
JP2004341033A (ja) 音声媒介起動装置およびその方法
JP5375423B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
US10789946B2 (en) System and method for speech recognition with decoupling awakening phrase
JP2008052178A (ja) 音声認識装置と音声認識方法
JP5342629B2 (ja) 男女声識別方法、男女声識別装置及びプログラム
JP2006039382A (ja) 音声認識装置
WO2023047893A1 (ja) 認証装置および認証方法
JP2007183516A (ja) 音声対話装置及び音声認識方法
JP5336788B2 (ja) 音声認識装置およびプログラム
JPWO2013035293A1 (ja) 音声認識装置
JP3259734B2 (ja) 音声認識装置
KR20050001684A (ko) 미등록어 처리를 지원하는 음성 인식 시스템과 방법 및이를 저장한 컴퓨터 판독 가능 기록매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200107

WW01 Invention patent application withdrawn after publication