CN108701456A - 语音识别装置 - Google Patents
语音识别装置 Download PDFInfo
- Publication number
- CN108701456A CN108701456A CN201680082226.8A CN201680082226A CN108701456A CN 108701456 A CN108701456 A CN 108701456A CN 201680082226 A CN201680082226 A CN 201680082226A CN 108701456 A CN108701456 A CN 108701456A
- Authority
- CN
- China
- Prior art keywords
- function
- control unit
- speech recognition
- user
- inquiry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000006870 function Effects 0.000 description 161
- 230000015654 memory Effects 0.000 description 12
- 239000013589 supplement Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 238000000034 method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000007257 malfunction Effects 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000006399 behavior Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3605—Destination input or retrieval
- G01C21/3608—Destination input or retrieval using speech input, e.g. using speech recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
语音识别装置(10)包括:识别用户的说话语音的语音识别部(11);执行与语音识别部(11)的识别结果对应的功能的功能执行部(12);计算功能执行部(12)能执行与识别结果对应的功能的程度的执行程度计算部(13);及在执行程度计算部(13)计算出的程度在预定的第1基准以上的情况下、使功能执行部(12)执行与识别结果对应的功能的控制部(15)。
Description
技术领域
本发明涉及识别用户的说话内容的语音识别装置。
背景技术
专利文献1中记载有一种动作控制装置,该动作控制装置始终识别语音,生成用于执行与识别结果对应的功能的快捷按钮并进行显示。
现有技术文献
专利文献
专利文献1:日本专利特开2008-14818号公报
发明内容
发明所要解决的技术问题
上述专利文献1所涉及的动作控制装置构成为在接收到用户对快捷按钮的操作的情况下,执行与识别结果对应的功能。因此,可防止违反用户的意图而任意执行功能。
然而,其存在如下问题:即使在用户具有功能执行的意图而说话的情况下,也无法通过该说话来立即执行功能,而需要快捷按钮的操作。因此,会让用户感到麻烦。
本发明是为了解决上述问题而完成的,其目的在于提供一种在用户的操作意图明确的情况下简化用户的操作,在用户的操作意图不明确的情况下防止误动作的语音识别装置。
解决技术问题的技术方案
本发明所涉及的语音识别装置包括:语音识别部,该语音识别部识别用户的说话语音;功能执行部,该功能执行部执行与语音识别部的识别结果对应的功能;执行程度计算部,该执行程度计算部计算功能执行部能执行与识别结果对应的功能的程度;及控制部,该控制部在执行程度计算部计算出的程度在预定的第1基准以上的情况下,使功能执行部执行与识别结果对应的功能。
发明效果
根据本发明,在能执行与识别结果对应的功能的程度为第1基准以上的情况下,判断为用户的操作意图明确,并执行该功能,因此,用户通过一次说话就能使功能得到执行。另一方面,在能执行与识别结果对应的功能的程度小于第1基准的情况下,判断为用户的操作意图不明确,可用于防止误动作。
附图说明
图1是表示本发明实施方式1所涉及的语音识别装置的结构例的框图。
图2是表示实施方式1中的执行程度与动作的对应关系的图。
图3是说明实施方式1所涉及的语音识别装置的动作的流程图。
图4是表示本发明实施方式2所涉及的语音识别装置的结构例的框图。
图5是表示实施方式2中的执行程度与动作的对应关系的图。
图6是说明实施方式2所涉及的语音识别装置的动作的流程图。
图7是说明实施方式2所涉及的语音识别装置的动作的其他示例的流程图。
图8是表示实施方式2所涉及的语音识别装置的变形例的框图。
图9是本发明的各实施方式所涉及的语音识别装置的硬件结构图。
具体实施方式
下面,为了更详细地说明本发明,根据附图对用于实施本发明的方式进行说明。
实施方式1
图1是表示本发明实施方式1所涉及的语音识别装置10的结构例的框图。图1所示的语音识别装置10包括:语音识别部11,该语音识别部11识别用户的说话语音;功能执行部12,该功能执行部12执行与语音识别部11的识别结果对应的功能;执行程度计算部13,该执行程度计算部13计算功能执行部12能执行与识别结果对应的功能的程度;执行程度定义存储部14,该执行程度定义存储部14存储有在计算该程度时所使用的执行程度定义;控制部15,该控制部15在执行程度计算部13计算出的程度在预定的第1基准以上的情况下,使功能执行部12执行与识别结果对应的功能;及询问控制部16,该询问控制部16对用户进行询问。
语音识别装置10连接有麦克风1、扬声器2、显示器3及触摸屏4。另外,此处,作为接受用户的操作的输入装置,举例示出利用麦克风1的语音输入和设置在显示器3上的触摸屏4,但并不限于此,也可以是硬件按键等。
以下,利用语音识别装置10搭载于车辆的示例,对本发明的各实施方式进行说明。功能执行部12设为执行车载导航、车载音响或车载空调等车载设备的功能。
麦克风1获取由用户发出的语音,并将语音数据输出至语音识别部11。
语音识别部11从麦克风1接收语音数据,检测与用户说话的内容对应的语音区间。以下,将与用户说话的内容对应的语音区间称为“说话区间”。然后,语音识别部11提取出说话区间的语音数据的特征量,基于该特征量,利用未图示的语音识别辞典等进行识别处理,将识别结果输出至控制部15。此处,作为语音识别的方法,可以利用基于语法的单词识别、关键词定位、大词汇连续语音识别或其他公知方法中的任一种。
此外,语音识别部11也可利用识别结果进行意图推测处理。在该情况下,例如语音识别部11利用大词汇连续语音识别的识别结果和意图推测用的模型,来推测用户的意图,将推测出的意图作为识别结果进行输出。在用户说出“想去市政厅”的情况下,意图推测结果为“将市政厅设定为目的地”。对于意图推测的方法,利用公知方法即可,因此,省略说明。
在搭载于车载导航装置等的语音识别装置中,通常用户会对车载导航装置明确表示说话的开始。因此,指示语音识别开始的按钮显示在具备触摸屏的显示器上,或设置于方向盘。以下,将指示语音识别开始的按钮等称为“语音识别开始指示部”。然后,语音识别装置在由用户对语音识别开始指示部进行了操作之后,对说话的语音进行识别。
本发明的各实施方式的语音识别部11也可如上述那样在有用户的语音识别开始指示之后,根据来自麦克风1的语音数据,检测说话区间,进行识别处理。或者,语音识别部11也可在预定的语音获取期间内,即使没有语音识别开始指示,也根据来自麦克风1的语音数据,检测说话区间,进行识别处理。预定的语音获取期间包含例如从语音识别装置10启动或重新开始到结束或停止为止的期间、或者语音识别部11正在启动的期间等期间。
功能执行部12执行由控制部15指示的功能。功能执行部12能执行的功能设为例如上述的车载导航、车载音响及车载空调的相关功能。
执行程度计算部13从控制部15接收语音识别部11的识别结果。然后,执行程度计算部13参照执行程度定义存储部14,计算能执行与识别结果对应的功能的程度,将执行程度的计算结果输出至控制部15。以下,将能执行与识别结果对应的功能的程度称为“执行程度”。
执行程度阶段性地表示语音识别部11的识别结果与功能执行部12能执行的功能是否能对应起来、及用于执行功能执行部12的功能的信息是否足够。用于执行的信息是后述的宾语,例如在车载音响的歌曲检索功能中,用于确定“歌曲名称”、“艺术家姓名”、“专辑名称”之类的歌曲的信息。
执行程度定义存储部14存储有在执行程度计算部13计算执行程度时所使用的执行程度定义。此处,图2中示出功能的执行程度与语音识别装置10所进行的动作之间的对应关系的示例。
在图2所示的“执行程度定义”的示例中,与有无表示功能的动作的词语即动词及表示功能的目的的词语即宾语相对应的执行程度的值预先定义在执行程度定义存储部14中。设为执行程度的值越大,功能执行部12能执行的程度越高。图2所示的“动作”在后面进行阐述。
执行程度计算部13参照图2所示的执行程度定义,根据识别结果中有无动词和宾语,计算执行程度。例如,在像识别结果“想去市政厅”那样存在动词“想去”和宾语“市政厅”的情况下,执行程度计算部13计算出执行程度“2”。
另外,执行程度计算部13也可仅单纯地提取动词和宾语,也可考虑动词与宾语的依赖的语义。例如,在像“想吃市政厅”这一识别结果那样,动词“想吃”和宾语“市政厅”的语义不通的情况下,执行程度计算部13仅提取出动词,计算出执行程度“1”。
上述情况为一个示例,作为其他计算方法,例如也可利用文件的语义推测技术的似然度来计算执行程度。
执行程度定义存储部14也可存储关键词与执行程度的值的对应关系的定义,以代替图2所示的执行程度定义。具体而言,“想去”等动词的每个关键词对应执行程度“1”,“市政厅”等宾语的每个关键词对应执行程度“1”,“想去市政厅”等包含动词和宾语的每个关键词对应执行程度“2”。
控制部15从语音识别部11获取识别结果,输出至执行程度计算部13并计算执行程度。
控制部15从执行程度计算部13获取执行程度的计算结果,根据该计算结果决定接下来的动作,向功能执行部12或询问控制部16发出动作的指示。为了决定与执行程度对应的动作,对控制部15预先确定第1基准和值比第1基准小的第2基准。
第1基准用于判定是否处于具有功能执行部12执行功能所需的足够信息的状态,例如为图2的示例中的执行程度“2”。在实施方式1所涉及的语音识别装置10中,在执行程度为第1基准以上的情况下,判断为用户的操作车载设备的意图明确,在小于第1基准的情况下,判定为用户操作车载设备的意图不明确。
第2基准用于判定是否处于语音识别部11的识别结果与功能执行部12能执行的功能无法对应、不存在用于执行功能的信息的状态,例如为图2的示例中的执行程度“0”。
控制部15在执行程度为第1基准“2”以上的情况下,将执行与识别结果对应的功能的指示输出至功能执行部12。控制部15中预先定义有动词与功能的对应关系。例如,控制部15中,作为与识别结果“想去市政厅”对应的功能,向功能执行部12输出将市政厅设定为目的地的指示。
控制部15在执行程度小于第1基准“2”的情况下,使得不立即执行与识别结果对应的功能。
例如,控制部15在执行程度大于第2基准“0”、且小于第1基准“2”的情况下,向询问控制部16发出指示,以对用户提示与识别结果对应的功能的候补并询问执行哪个功能。与识别结果对应的功能的候补例如为与识别结果中存在的动词对应的功能、或将宾语作为参数来使用的功能。例如,在识别结果仅为“提高”这一动词的情况下,控制部15将与该动词对应的车载导航的地图放大功能、车载音响的音量变更功能及车载空调的温度变更功能等设为候补。然后,控制部15从询问控制部16等接收询问结果,将执行用户所选择的功能的指示输出至功能执行部12。
例如,控制部15在执行程度为第2基准“0”以下的情况下,不执行与识别结果对应的功能,也不提示功能的候补。
询问控制部16从控制部15接收提示功能的候补并进行询问的指示。询问控制部16可将功能的候补作为语音从扬声器2输出,也可显示于显示器3,也可作为语音从扬声器2输出并显示于显示器3。然后,询问控制部16接收通过用户操作触摸屏4等输入装置而输入的信息,将用户从候补中选择的功能作为询问结果输出至控制部15。另外,可利用触摸屏4等输入装置来接收用户的操作,也可利用麦克风1和语音识别部11的语音输入来接收用户的操作。
接着,利用图3的流程图,对实施方式1所涉及的语音识别装置10的动作进行说明。语音识别装置10在上述预定的语音获取期间内,执行图3的流程图所示的处理。
步骤ST1中,语音识别部11从麦克风1接收语音数据,检测说话区间并进行识别处理,将识别结果输出至控制部15。控制部15从语音识别部11获取识别结果,输出至执行程度计算部13。
步骤ST2中,执行程度计算部13从控制部15接收识别结果,参照执行程度定义存储部14,计算与该识别结果对应的功能的执行程度。执行程度计算部13将执行程度的计算结果输出至控制部15。
步骤ST3中,控制部15从执行程度计算部13接收执行程度的计算结果。控制部15在执行程度为第1基准“2”以上的情况下(步骤ST3“是”),前进至步骤ST7,将执行与识别结果对应的功能的指示输出至功能执行部12。功能执行部12根据来自控制部15的指示,来执行与识别结果对应的功能。
另一方面,控制部15在执行程度小于第1基准“2”的情况下(步骤ST3“否”),前进至步骤ST4。
步骤ST4中,控制部15在执行程度为第2基准“0”以下的情况下(步骤ST4“是”),结束处理。
另一方面,控制部15在执行程度大于第2基准“0”的情况下(步骤ST4“否”),前进至步骤ST5,向询问控制部16发出指示,以提示与识别结果对应的功能的候补并进行询问。询问控制部16根据来自控制部15的指示,利用扬声器2或显示器3来提示功能的候补。
步骤ST6中,用户通过操作触摸屏4而从提示的候补中选择了所期望的功能的情况下,触摸屏4将所选择的功能作为询问结果输出至询问控制部16。询问控制部16从触摸屏4接收询问结果,并输出至控制部15。
或者,用户通过说话从提示的候补中选择了所期望的功能的情况下,语音识别部11经由麦克风1接收该说话的语音数据,检测说话区间并进行识别处理,将识别结果作为询问结果输出至控制部15。
控制部15从询问控制部16或语音识别部11接收到询问结果的情况下(步骤ST6“是”),前进至步骤ST7,将执行用户所选择的功能的指示输出至功能执行部12。功能执行部12根据来自控制部15的指示,来执行用户所选择的功能。
另一方面,控制部15在从向询问控制部16指示候补的提示起到经过规定时间为止的期间内未从询问控制部16或语音识别部11通知有询问结果的情况下(步骤ST6“否”),结束处理。此时,询问控制部16结束显示器3中的功能的候补的显示。
如以上那样,实施方式1所涉及的语音识别装置10构成为包括:语音识别部11,该语音识别部11识别用户的说话语音;功能执行部12,该功能执行部12执行与语音识别部11的识别结果对应的功能;执行程度计算部13,该执行程度计算部13计算功能执行部12能执行与识别结果对应的功能的程度;及控制部15,该控制部15在执行程度计算部13计算出的程度在预定的第1基准以上的情况下,使功能执行部12执行与识别结果对应的功能。在与识别结果对应的功能的执行程度为第1基准以上的情况下,判断为用户的操作意图明确,并执行该功能,从而用户仅通过说话就能使功能得到执行。另一方面,在与识别结果对应的功能的执行程度小于第1基准的情况下,判断为用户的操作意图不明确,可用于防止与用户的意图不同的误动作。
此外,实施方式1所涉及的语音识别装置10构成为包括询问控制部16,该询问控制部16提示功能执行部12基于识别结果能执行的功能的候补。控制部15构成为使功能执行部12执行用户从询问控制部16提示的功能的候补中选择出的功能。由此,用户可通过必要最低限度的追加操作来使功能得到执行。
实施方式1中,语音识别部11构成为识别在预定的语音获取期间内获取的说话语音。如上述那样,根据实施方式1,可防止误动作,因此,可在语音获取期间内始终进行语音识别,因而用户可不指示语音识别开始而使功能得到执行。
实施方式2
在上述实施方式1中,在与识别结果对应的功能的执行程度小于第1基准、且大于第2基准的情况下,提示功能的候补并向用户询问执行哪个功能,但在本实施方式2中,根据用户有无操作意图来变更询问内容。
图4是表示本发明实施方式2所涉及的语音识别装置10的结构例的框图。实施方式2所涉及的语音识别装置10构成为对图1所示的实施方式1的语音识别装置10追加了判断部17。在图4中,关于与图1相同或相当的部分,标注相同的标号,省略说明。
实施方式2中,执行程度计算部13a参照执行程度定义存储部14a,计算与语音识别部11的识别结果对应的功能的执行程度。此处,图5中示出功能的执行程度与语音识别装置10所进行的动作之间的对应关系的示例。
在图5所示的“执行程度定义”的示例中,与表示功能的动作的词语即动词的执行程度的值相比,表示功能的目的的词语即宾语的执行程度的值较低。此外,以执行程度“3”为第1基准,以执行程度“0”为第2基准。
判断部17从控制部15a接收识别结果,参照执行程度定义存储部14a,判断识别结果中有无动词和宾语,从而判断用户有无操作车载设备的意图。然后,判断部17将判断结果输出至控制部15a。
在实施方式1所涉及的语音识别装置10中,在执行程度为第1基准以上的情况下,判断为用户操作车载设备的意图明确,在小于第1基准的情况下,判断为用户操作车载设备的意图不明确。
与此相对地,在本实施方式2中,判断部17在识别结果中存在动词、且该识别结果与功能执行部12能执行的功能可进行对应的情况下,判断为用户具有操作车载设备的意图。另一方面,判断部17在识别结果中不存在动词、或无法与功能进行对应、仅存在宾语的情况下,判断为用户没有操作车载设备的意图。
此处,利用图6的流程图,对实施方式2所涉及的语音识别装置10的动作进行说明。语音识别装置10在上述预定的语音获取期间内,执行图6的流程图所示的处理。
由于图6的步骤ST1~ST7为与实施方式1中的图3的步骤ST1~ST7相同的处理,因此省略说明。
控制部15a在与识别结果对应的功能的执行程度小于第1基准“3”(步骤ST3“否”)、且大于第2基准“0”的情况下(步骤ST4“否”),前进至步骤ST11,并将该识别结果输出至判断部17。判断部17从控制部15a接收识别结果,判断用户有无操作意图,将判断结果输出至控制部15a。控制部15a从判断部17接收判断结果。
控制部15a在用户没有操作意图的情况下(步骤ST11“否”),前进至步骤ST5。另一方面,控制部15a在用户有操作意图的情况下(步骤ST11“是”),前进至步骤ST12,向询问控制部16发出指示,以进行追加执行该功能所需的信息的询问。询问控制部16a根据来自控制部15a的指示,利用扬声器2或显示器3对用户进行追加信息的询问。
步骤ST13中,控制部15a从询问控制部16a或语音识别部11接收到作为询问结果的追加信息的情况下(步骤ST13“是”),前进至步骤ST2,将该追加信息输出至执行程度计算部13a。执行程度计算部13a将最初的识别结果和追加信息合起来,再次计算执行程度。
另一方面,控制部15a在从向询问控制部16a指示追加信息的询问起到经过规定时间为止的期间内未从询问控制部16a或语音识别部11通知有作为询问结果的追加信息的情况下(步骤ST13“否”),结束处理。此时,询问控制部16a结束显示器3中的追加信息的询问的显示。
例如,识别结果为“想听歌曲”的情况下,对动词“想听”可对应有音响重放功能,但对于“歌曲”,由于不清楚具体参数,执行程度为“2”。在此情况下,控制部15a向询问控制部16a发出指示,进行“请说出想听的歌曲名称”等的询问。若用户按照该询问而说出歌曲名称,则控制部15a利用触摸屏4等输入装置,或利用麦克风1和语音识别部11的语音输入,获取歌曲名称的追加信息。然后,执行程度计算部13a利用“想听歌曲”这一识别结果和歌曲名称的追加信息,再次计算音响重放功能的执行程度。此例的情况下,再次计算出的执行程度为“3”,因此,控制部15a将重放歌曲的指示输出至功能执行部12。
另外,控制部15a在识别结果中的宾语不明确也能执行功能的情况下,也可在进行询问前执行功能。
此处,利用图7的流程图,对实施方式2所涉及的语音识别装置10的动作的其他示例进行说明。
步骤ST21中,控制部15a在用户没有操作意图的情况下(步骤ST21“否”),前进至步骤ST5。另一方面,控制部15a在用户有操作意图的情况下(步骤ST21“是”),前进至步骤ST22,向功能执行部12发出指示,以从与识别结果对应的功能的候补中对执行优先度最高的功能进行执行。功能执行部12根据来自控制部15a的指示,来对执行优先度最高的功能进行执行。
例如,在识别结果仅为“提高”这一动词的情况下,控制部15a将与该动词对应的车载导航的地图放大功能、车载音响的音量变更功能及车载空调的温度变更功能等设为候补,从中对执行优先度最高的功能进行执行。
执行优先度可以预先定义为在执行该功能的情况下对用户的影响较小的功能的优先度更高,也可由控制部15a基于用户的利用频度来决定。
步骤ST23中,控制部15a向询问控制部16a发出指示,以进行所执行的功能的提示及该功能有无修正的询问。询问控制部16a根据来自控制部15a的指示,利用扬声器2或显示器3进行所执行的功能的提示及该功能有无修正的询问。此时,询问控制部16a也可提示执行优先度较低而未被执行的功能的候补,使得用户能进行选择。
步骤ST24中,控制部15a在从询问控制部16a或语音识别部11接收到指示执行与所执行的功能不同的功能的识别结果等以作为询问结果的情况下(步骤ST24“是”),前进至步骤ST2,向执行程度计算部13a发出指示,以计算与新识别结果对应的功能的执行程度。此时,控制部15a对于之前执行的功能,将取消该执行的指示输出至功能执行部12。
或者,控制部15a在接收到指示执行与所执行的功能不同的其他功能的识别结果等的情况下(步骤ST24“是”),也可向功能执行部12发出指示,以执行与该识别结果等对应的功能。
另一方面,控制部15a在从向询问控制部16a指示所执行的功能有无修正的询问起到经过规定时间为止的期间内未从询问控制部16a或语音识别部11通知有询问结果的情况下(步骤ST24“否”),结束处理。此时,询问控制部16a结束显示器3中的询问的显示。
像以上那样,实施方式2所涉及的语音识别装置10构成为包括:利用语音识别部11的识别结果来判断用户有无操作意图的判断部17;及对用户进行询问的询问控制部16a。然后,询问控制部16a在执行程度计算部13a计算出的执行程度大于第2基准、且小于第1基准的情况下,根据判断部17的判断结果来变更询问内容。
具体而言,询问控制部16a在由判断部17判断为有操作意图的情况下,进行功能执行部12为了执行功能所需的追加信息的询问。另一方面,询问控制部16a在由判断部17判断为没有操作意图的情况下,提示功能执行部12基于识别结果能执行的功能的候补,控制部15a使功能执行部12执行用户从提示的功能的候补中选择出的功能。由此,用户可通过必要最低限度的追加操作来使功能得到执行。
另外,执行程度计算部13a也可进行为了执行用户从提示的功能的候补中选择出的功能所需的信息的询问。
例如,在图6及图7的流程图所示的步骤ST7中,执行程度计算部13a在执行用户从提示的功能的候补中选择出的功能时,判断为执行该功能所需的信息不足的情况下,对用户进行追加信息的询问。
此外,如实施方式2的图7所示,也可构成为在执行程度计算部13a计算出的执行程度大于第2基准且小于第1基准、并且由判断部17判断为有操作意图的情况下,控制部15a使功能执行部12执行功能,询问控制部16a进行是否修正功能执行部12所执行的功能的询问。由此,在即使没有追加信息也能执行功能的情况下,可无需用户进行追加操作而执行功能。
此外,根据实施方式2,控制部15a构成为在执行程度计算部13a计算出的执行程度为第2基准以下的情况下,不执行与识别结果对应的功能。通过不对执行程度显著偏低的功能进行执行,可防止与用户的意图不同的误动作。
接下来,图8表示实施方式2所涉及的语音识别装置10的变形例。
图8所示的语音识别装置10构成为对图4所示的实施方式2的语音识别装置10追加了用户确定部18。在图8中,关于与图1及图4相同或相当的部分,标注相同的标号,省略说明。
用户确定部18确定说话用户,并通知语音识别部11a。语音识别部11a在图6的流程图所示的步骤ST12或图7的流程图所示的步骤ST23中询问控制部16a进行询问时,对用户确定部18所确定的用户的说话进行识别处理,并作为询问结果进行输出。由此,询问控制部16a可执行与用户确定部18所确定的用户的对话。以下,说明与确定用户的对话的示例。
例如,用户确定部18从麦克风1获取语音数据,实施声纹认证并确定说话用户,语音识别部11a选择性地获取所确定的说话用户的语音数据并进行识别处理。或者,用户确定部18从2个以上的麦克风1获取各语音数据,利用声源定位来确定说话用户的方向,或者获取未图示的摄像头拍摄到的脸部图像并确定说话用户的方向,语音识别部11a利用波束成形来选择性地获取来自说话用户的方向的语音数据并进行识别处理。由此,可防止车内的乘坐人员中所确定的用户以外的说话导致语音识别装置10的误动作。
此外,例如,语音识别部11a也可进行与用户确定部18所确定的说话用户对应的适应。语音识别部11a包括每个用户的语音识别词典、音响模型或语言模型等,根据用户确定部18所确定的说话用户来切换语音识别词典等。此外,语音识别部11a也可为了生成每个用户的语音识别词典等,对于用户确定部18所确定的每个说话用户进行学习。由此,可提高询问时的识别精度,可防止误识别导致语音识别装置10的误动作。
此外,例如,控制部15a也可根据用户确定部18所确定的说话用户,切换图7的流程图所示的步骤ST22中的执行优先度。
另外,也可对图1所示的实施方式1的语音识别装置10追加用户确定部18。在此情况下,在图3的流程图所示的步骤ST5中询问控制部16提示功能的候补并进行询问时,语音识别部11对用户确定部18所确定的用户的说话进行识别处理,并作为询问结果进行输出即可。
最后,参照图9,对本发明各实施方式所涉及的语音识别装置10的硬件结构例进行说明。
图1、图4及图8所示的麦克风1及触摸屏4为图9所示的输入装置103。扬声器2及显示器3为输出装置104。语音识别装置10中的语音识别部11、11a、功能执行部12、执行程度计算部13、13a、控制部15、15a、询问控制部16、16a、判断部17及用户确定部18是执行存储器102中存放的程序的处理器101。执行程度定义存储部14、14a为存储器102。
语音识别部11、11a、功能执行部12、执行程度计算部13、13a、控制部15、15a、询问控制部16、16a、判断部17及用户确定部18的各功能通过软件、固件、或软件和固件的组合来实现。软件或固件记述为程序,存储于存储器102中。处理器101读取存储于存储器102的程序并执行,从而实现各部分的功能。即,语音识别装置10具备用于存储程序的存储器102,该程序在由处理器101来执行时最终执行图3、图6或图7所示的各步骤。此外,该程序也可以说是使计算机执行语音识别装置10各部分的步骤或方法的程序。
处理器101也被称为CPU(Central Processing Unit:中央处理单元)、处理装置、运算装置、微处理器、微机或DSP(Digital Signal Processor:数字信号处理器)等。存储器102例如可以是RAM(Random Access Memory:随机存取存储器)、ROM(Read Only Memory:只读存储器)、闪存、EPROM(Erasable Programmable ROM:可擦除可编程只读存储器)、EEPROM(Electrically EPROM:电可擦除可编程只读存储器)等非易失性或易失性半导体存储器,也可以是硬盘、软盘等磁盘,也可以是迷你光盘、CD(Compact Disc:压缩光盘)、DVD(Digital Versatile Disc:数字通用光盘)等光盘。
另外,上述实施方式1、2中,构成为执行程度计算部13、13a根据语音识别部11、11a的识别结果来计算执行程度,控制部15、15a根据执行程度来决定之后的动作,但也可在该结构的基础上,在说出特定命令的情况下执行与该命令对应的动作。
例如,可以在控制部15、15a中对于“音响”这一命令预先确定了“执行重放最初的歌曲的功能”这一动作的情况下,若用户说出“音响”,则由控制部15、15a开始重放最初的歌曲。
进一步地,作为对于命令的动作,也可不仅确定“功能执行”,还可确定“追加信息询问”或“功能候补提示”等。即,说到“音响”,可以不是“一律重放最初的歌曲”,而是在询问“重放谁的歌曲”、“重放哪首歌曲”等之后重放目标歌曲的动作。
此外,本发明可以在其发明的范围内对各实施方式进行自由组合,或对各实施方式的任意构成要素进行变形,或省略各实施方式的任意的构成要素。
此外,实施方式1、2中,对将语音识别装置10搭载于车辆的用途进行了说明,然而也可以使用在车辆以外的用途中。
工业上的实用性
本发明所涉及的语音识别装置在能执行与识别结果对应的功能的程度为第1基准以上的情况下执行该功能,在除此以外的情况下不立即执行该功能,从而防止误动作,因此,适用于始终识别语音的语音识别装置等。
标号说明
1麦克风、2扬声器、3显示器、4触摸屏、10语音识别装置、11,11a语音识别部、12功能执行部、13,13a执行程度计算部、14,14a执行程度定义存储部、15,15a控制部、16,16a询问控制部、17判断部、18用户确定部、101处理器、102存储器、103输入装置、104输出装置。
Claims (13)
1.一种语音识别装置,其特征在于,包括:
语音识别部,该语音识别部识别用户的说话语音;
功能执行部,该功能执行部执行与所述语音识别部的识别结果对应的功能;
执行程度计算部,该执行程度计算部计算所述功能执行部能执行与所述识别结果对应的功能的程度;及
控制部,该控制部在所述执行程度计算部计算出的程度在预定的第1基准以上的情况下,使所述功能执行部执行与所述识别结果对应的功能。
2.如权利要求1所述的语音识别装置,其特征在于,包括:
判断部,该判断部利用所述语音识别部的识别结果来判断用户有无操作意图;及
询问控制部,该询问控制部对用户进行询问,
所述询问控制部在所述执行程度计算部计算出的程度大于比所述第1基准要小的预定的第2基准、且小于所述第1基准的情况下,根据所述判断部的判断结果,来变更询问内容。
3.如权利要求2所述的语音识别装置,其特征在于,
所述询问控制部在由所述判断部判断为有操作意图的情况下,进行所述功能执行部为了执行所述功能所需的信息的询问。
4.如权利要求3所述的语音识别装置,其特征在于,
所述控制部利用通过所述询问控制部的询问而获取到的信息,来使所述功能执行部执行所述功能。
5.如权利要求2所述的语音识别装置,其特征在于,
所述控制部在所述执行程度计算部计算出的程度大于所述第2基准且小于所述第1基准、并且由所述判断部判断为有操作意图的情况下,使所述功能执行部执行所述功能,
所述询问控制部进行是否修正所述功能执行部所执行的所述功能的询问。
6.如权利要求3所述的语音识别装置,其特征在于,
包括用户确定部,该用户确定部确定说话的用户,
所述询问控制部执行与所述用户确定部所确定的用户的对话。
7.如权利要求6所述的语音识别装置,其特征在于,
所述询问控制部执行与所述用户确定部所确定的用户的语音对话。
8.如权利要求6所述的语音识别装置,其特征在于,
所述语音识别部进行与所述用户确定部所确定的用户相适应的识别。
9.如权利要求2所述的语音识别装置,其特征在于,
所述询问控制部在由所述判断部判断为没有操作意图的情况下,提示所述功能执行部基于所述识别结果能执行的功能的候补。
10.如权利要求9所述的语音识别装置,其特征在于,
所述询问控制部进行为了执行用户从提示的功能的候补中选择出的功能所需的信息的询问。
11.如权利要求9所述的语音识别装置,其特征在于,
所述控制部使所述功能执行部执行用户从所述询问控制部所提示的功能的候补中选择出的功能。
12.如权利要求1所述的语音识别装置,其特征在于,
所述语音识别部识别在预定的语音获取期间内获取到的说话语音。
13.如权利要求2所述的语音识别装置,其特征在于,
所述控制部在所述执行程度计算部计算出的程度在所述第2基准以下的情况下,使得不执行与所述识别结果对应的功能。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2016/055870 WO2017145373A1 (ja) | 2016-02-26 | 2016-02-26 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108701456A true CN108701456A (zh) | 2018-10-23 |
Family
ID=59684989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680082226.8A Withdrawn CN108701456A (zh) | 2016-02-26 | 2016-02-26 | 语音识别装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10446155B2 (zh) |
JP (1) | JPWO2017145373A1 (zh) |
CN (1) | CN108701456A (zh) |
DE (1) | DE112016006496T5 (zh) |
WO (1) | WO2017145373A1 (zh) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
CN105957516B (zh) * | 2016-06-16 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
CN107135443B (zh) * | 2017-03-29 | 2020-06-23 | 联想(北京)有限公司 | 一种信号处理方法及电子设备 |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
JP6525300B1 (ja) | 2017-09-05 | 2019-06-05 | みこらった株式会社 | 自動車及び自動車用プログラム |
JP2019057123A (ja) * | 2017-09-21 | 2019-04-11 | 株式会社東芝 | 対話システム、方法、及びプログラム |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
KR102225984B1 (ko) * | 2018-09-03 | 2021-03-10 | 엘지전자 주식회사 | 음성 인식 서비스를 제공하는 서버 |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
JP7117972B2 (ja) * | 2018-10-19 | 2022-08-15 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 音声認識装置、音声認識方法および音声認識プログラム |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
JP7342419B2 (ja) * | 2019-05-20 | 2023-09-12 | カシオ計算機株式会社 | ロボットの制御装置、ロボット、ロボットの制御方法及びプログラム |
DK180129B1 (en) * | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
JP7132206B2 (ja) * | 2019-12-13 | 2022-09-06 | Necプラットフォームズ株式会社 | 案内システム、案内システムの制御方法、およびプログラム |
TWI752474B (zh) * | 2020-04-22 | 2022-01-11 | 莊連豪 | 無障礙智能語音系統及其控制方法 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN112530442B (zh) * | 2020-11-05 | 2023-11-17 | 广东美的厨房电器制造有限公司 | 语音交互方法及装置 |
WO2022176085A1 (ja) * | 2021-02-18 | 2022-08-25 | 三菱電機株式会社 | 車載向け音声分離装置及び音声分離方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3662780B2 (ja) * | 1999-07-16 | 2005-06-22 | 日本電気株式会社 | 自然言語を用いた対話システム |
JP3724461B2 (ja) * | 2002-07-25 | 2005-12-07 | 株式会社デンソー | 音声制御装置 |
US8265939B2 (en) * | 2005-08-31 | 2012-09-11 | Nuance Communications, Inc. | Hierarchical methods and apparatus for extracting user intent from spoken utterances |
JP4736982B2 (ja) | 2006-07-06 | 2011-07-27 | 株式会社デンソー | 作動制御装置、プログラム |
JP2010055375A (ja) * | 2008-08-28 | 2010-03-11 | Toshiba Corp | 電子機器操作指示装置およびその操作方法 |
JP2011237741A (ja) * | 2010-05-13 | 2011-11-24 | Nec Casio Mobile Communications Ltd | 音声認識装置及びプログラム |
JP6133564B2 (ja) * | 2012-10-05 | 2017-05-24 | 京セラ株式会社 | 電子機器、制御方法、及び制御プログラム |
JP6436400B2 (ja) * | 2014-03-28 | 2018-12-12 | パナソニックIpマネジメント株式会社 | 音声コマンド入力装置および音声コマンド入力方法 |
-
2016
- 2016-02-26 DE DE112016006496.9T patent/DE112016006496T5/de not_active Ceased
- 2016-02-26 WO PCT/JP2016/055870 patent/WO2017145373A1/ja active Application Filing
- 2016-02-26 JP JP2018501542A patent/JPWO2017145373A1/ja active Pending
- 2016-02-26 US US16/076,439 patent/US10446155B2/en not_active Expired - Fee Related
- 2016-02-26 CN CN201680082226.8A patent/CN108701456A/zh not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
US10446155B2 (en) | 2019-10-15 |
US20190051306A1 (en) | 2019-02-14 |
WO2017145373A1 (ja) | 2017-08-31 |
JPWO2017145373A1 (ja) | 2018-08-09 |
DE112016006496T5 (de) | 2018-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108701456A (zh) | 语音识别装置 | |
CN116052661B (zh) | 上下文热词 | |
US9756161B2 (en) | Voice recognition apparatus, vehicle having the same, and method of controlling the vehicle | |
US9318103B2 (en) | System and method for recognizing a user voice command in noisy environment | |
US11074905B2 (en) | System and method for personalization in speech recognition | |
JP6874037B2 (ja) | カスタム音響モデル | |
EP1450349A1 (en) | In-vehicle controller and program for instructing computer to execute operation instruction method | |
US20150154953A1 (en) | Generation of wake-up words | |
CN108292502A (zh) | 语音对话装置及语音对话方法 | |
KR20160010961A (ko) | 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치 | |
US12051403B2 (en) | Server supported recognition of wake phrases | |
EP3654329B1 (en) | In-vehicle device and speech recognition method | |
JP6797338B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2005534983A (ja) | 自動音声認識の方法 | |
US11996099B2 (en) | Dialogue system, vehicle, and method of controlling dialogue system | |
JP2011203434A (ja) | 音声認識装置及び音声認識方法 | |
CN108352167B (zh) | 包括可佩戴设备的车辆语音识别 | |
JP5074759B2 (ja) | 対話制御装置、対話制御方法及び対話制御プログラム | |
JP4440502B2 (ja) | 話者認証システム及び方法 | |
JP6811865B2 (ja) | 音声認識装置および音声認識方法 | |
JP4516918B2 (ja) | 機器制御装置、音声認識装置、エージェント装置、機器制御方法及びプログラム | |
JP2020091435A (ja) | 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器 | |
US20230335120A1 (en) | Method for processing dialogue and dialogue system | |
KR102279319B1 (ko) | 음성분석장치 및 음성분석장치의 동작 방법 | |
JP2019120904A (ja) | 情報処理装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20181023 |