CN106663424B - 意图理解装置以及方法 - Google Patents
意图理解装置以及方法 Download PDFInfo
- Publication number
- CN106663424B CN106663424B CN201480077480.XA CN201480077480A CN106663424B CN 106663424 B CN106663424 B CN 106663424B CN 201480077480 A CN201480077480 A CN 201480077480A CN 106663424 B CN106663424 B CN 106663424B
- Authority
- CN
- China
- Prior art keywords
- intention
- intention understanding
- result
- understanding
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 51
- 238000004364 calculation method Methods 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims description 22
- 238000012937 correction Methods 0.000 claims description 14
- 238000012790 confirmation Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 18
- 230000000877 morphologic effect Effects 0.000 description 16
- 238000012217 deletion Methods 0.000 description 11
- 230000037430 deletion Effects 0.000 description 11
- 101000710013 Homo sapiens Reversion-inducing cysteine-rich protein with Kazal motifs Proteins 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 101000911772 Homo sapiens Hsc70-interacting protein Proteins 0.000 description 6
- 101001139126 Homo sapiens Krueppel-like factor 6 Proteins 0.000 description 5
- 102100029860 Suppressor of tumorigenicity 20 protein Human genes 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 108090000237 interleukin-24 Proteins 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 101000585359 Homo sapiens Suppressor of tumorigenicity 20 protein Proteins 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 101000661807 Homo sapiens Suppressor of tumorigenicity 14 protein Proteins 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3605—Destination input or retrieval
- G01C21/3608—Destination input or retrieval using speech input, e.g. using speech recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Radar, Positioning & Navigation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
语音识别部(3)根据一个输入语音(2),生成多个语音识别结果。意图理解部(7)按照每个语音识别结果估计意图,输出一个以上的意图理解结果和分数。权重计算部(11)使用控制对象设备的设定信息(9)计算等待权重。意图理解校正部(12)使用等待权重,校正意图理解结果候选的分数,算出最终分数,根据该最终分数从意图理解结果候选中选择意图理解结果(13)。
Description
技术领域
本发明涉及根据语音识别结果估计用户的意图的意图理解装置以及其方法。
背景技术
近年来,使用人们说的语言的语音识别结果来执行装置的操作的技术受到关注。该技术被用作移动电话、导航装置等的语音接口。作为现有的基本方法,具有以下这样的方法:例如装置预先存储假定的语音识别结果与操作的对应关系,当用户发出的语音的识别结果是假定的内容时,执行与该识别结果对应的操作。
该方法与用户手动操作的情况相比,可通过语音的发声进行直接操作,因此,作为快捷功能有效地发挥作用。另一方面,用户为了执行操作,需要发出装置等待的语言,当装置处理的功能增加时,用户不得不预先记住的语言增加。另外,一般情况下,在充分理解使用说明书后使用装置的用户较少,所以,没有理解的用户不知道为了进行操作要说什么,所以,还具有这样的问题:实际上,除了记住的功能的指令以外,无法利用语音进行操作。
因此,作为改良上述问题的技术,提出了以下这样的方法:即使用户没有记住用于达成目的的指令,装置也通过对话来引导用户达成目的。作为其实现的方法的一个重要技术,例如在专利文献1中公开了根据用户的发话来正确地估计该用户的意图的技术。
专利文献1的语音处理装置按照分别表示多个意图的多个意图信息,具有语言的词典数据库以及文法数据库,还将此前执行的指令的信息作为事先分数进行保持。该语音处理装置按照多个意图信息来计算音响分数、语言分数以及事先分数,作为表示根据用户发话而输入的语音信号相对于意图信息的一致度的分数,选择综合这些分数而获得的综合分数最大的意图信息。此外,还公开了以下的情况:语音处理装置根据综合分数来执行所选择的意图信息,在用户确认后执行或放弃。
但是,在专利文献1中,所定义的意图是“请告诉天气”、“请告诉时间”这种形式的唯一决定的意图,没有提及例如假定了包含在导航装置的终点设定中所需的多用的设施名这样的意图的处理。
现有技术文献
专利文献
专利文献1:日本特开2011-33680号公报
发明内容
发明要解决的课题
在上述专利文献1的语音处理装置中,因为按照意图来设计语音识别结果,所以,仅仅是从多个不同的意图中进行选择、以及判定最终选择的意图信息的执行和放弃,不处理语音识别结果的次级候选。
例如,在用户听音乐的状态下作出“不听音乐”这样的发话的情况下,当“想听音乐”这样的第1候选和“不听音乐”这样的第2候选的意图作为结果求出时,选择第1候选的“想听音乐”。
此外,在导航装置的终点已经设定了“○○中心”的状态下用户为了追加途经地而作出“停在○×中心”这样的发话的结果是,在“停在○○中心”是第1候选的意图、“停在○×中心”是第2候选的意图的情况下也会选择第1候选的“停在○○中心”。
这样,具有以下这样的课题:因为现有装置不处理次级候选,所以,难以正确地理解用户的意图。其结果是,用户必须取消所选择的第1候选,再次作出发话。
本发明是为了解决上述这样的课题而完成的,其目的是提供利用输入语音来正确地理解用户的意图的意图理解装置以及方法。
解决问题的手段
本发明的意图理解装置具备:语音识别部,其识别用户用自然语言发出的一个语音,生成按照似然度从高到低的顺序排列的多个语音识别结果;词素分析部,其将语音识别结果分别转换为词素串;意图理解部,其根据词素串估计用户的发话的意图,从一个词素串中输出一个以上的意图理解结果候选和表示可能性的程度的意图理解分数,从多个语音识别结果中的具有可能性的语音识别结果依次生成至少两个意图理解结果候选,并根据所述似然度和所述意图理解分数生成所述意图理解结果候选的分数;权重计算部,其计算每个意图理解结果候选的权重;以及意图理解校正部,其使用权重校正意图理解结果候选的分数,算出最终分数,选择该最终分数最先满足预先设定的条件的所述意图理解结果候选作为所述意图理解结果。
本发明的意图理解方法包括以下的步骤:语音识别步骤,识别用户用自然语言发出的一个语音,生成按照似然度从高到低的顺序排列的多个语音识别结果;词素分析步骤,将语音识别结果分别转换为词素串;意图理解步骤,根据词素串估计用户的发话的意图,从一个词素串中输出一个以上的意图理解结果候选和表示可能性的程度的意图理解分数,从多个语音识别结果中的具有可能性的语音识别结果依次生成至少两个意图理解结果候选,并根据所述似然度和所述意图理解分数生成所述意图理解结果候选的分数;权重计算步骤,计算每个意图理解结果候选的权重;以及意图理解校正步骤,使用权重校正意图理解结果候选的分数来算出最终分数,选择该最终分数最先满足预先设定的条件的意图理解结果候选作为意图理解结果。
发明效果
根据本发明,根据一个语音生成识别分数高的上位的多个语音识别结果,从多个语音识别结果中的具有可能性的语音识别结果依次生成意图理解结果候选,使用权重来校正意图理解结果候选的分数,算出最终分数,选择该最终分数最先满足预先设定的条件的意图理解结果候选作为意图理解结果,所以,能够从不仅包含与输入语音相对的语音识别结果的第1候选还包含次级候选的候选中选择最终的意图理解结果。因此,能够提供可正确地理解用户意图的意图理解装置。
根据本发明,根据一个语音生成多个语音识别结果,根据语音识别结果分别生成意图理解结果候选,使用权重来校正意图理解结果候选的分数,算出最终分数,根据该最终分数从多个意图理解结果候选中选择意图理解结果,所以,能够从不仅包含与输入语音相对的语音识别结果的第1候选还包含次级候选的候选中选择最终的意图理解结果。因此,能够提供可正确地理解用户意图的意图理解方法。
附图说明
图1是示出本发明的实施方式1的意图理解装置的结构的框图。
图2是示出将实施方式1的意图理解装置作为语音接口组装的导航装置的结构的框图。
图3是说明实施方式1的意图理解装置的动作的图,图3的(a)是设定信息的例子,图3的(b)是对话的例子。
图4是示出实施方式1的意图理解装置的各部的输出结果的图,图4的(a)是语音识别结果的例子,图4的(b)~图4的(d)是与语音识别结果1位~3位相对的意图理解结果候选等的例子。
图5是定义了实施方式1的意图理解装置的权重计算部所使用的制约条件与等待权重的对应关系的表。
图6是示出实施方式1的意图理解装置的动作的流程图。
图7是示出本发明的实施方式2的意图理解装置的结构的框图。
图8是说明实施方式2的意图理解装置的动作的图,示出对话的例子。
图9是示出实施方式2的意图理解装置的各部的输出结果的图,图9的(a)是语音识别结果的例子,图9的(b)~图9的(d)是与语音识别结果1位~3位相对的意图理解结果候选等的例子。
图10是示出实施方式2的意图理解装置的层次树的例子的图。
图11是图10的层次树的各节点的意图的列表。
图12是示出实施方式2的意图理解装置的权重计算部计算的等待权重的例子的图。
图13是示出实施方式2的意图理解装置的动作的流程图。
图14是示出图13的步骤ST20的具体动作的流程图。
图15是示出本发明的实施方式3的意图理解装置的结构的框图。
图16是示出实施方式3的意图理解装置的关键字表的例子的图。
图17是示出实施方式3的意图理解装置的关键字对应意图的例子的图。
图18是示出实施方式3的意图理解装置的各个部的输出结果的图,图18的(a)是语音识别结果的例子,图18的(b)~图18的(d)是与语音识别结果第1位~第3位相对的意图理解结果候选等的例子。
图19是示出实施方式3的意图理解装置的动作的流程图。
图20是示出图19的步骤ST31的具体动作的流程图。
图21是示出本发明的意图理解装置的变形例的框图。
图22是说明本发明的意图理解装置的动作的图,示出对话的例子。
具体实施方式
以下,为了更详细地说明本发明,根据附图说明用于实施本发明的方式。
实施方式1.
如图1所示,本发明的实施方式1的意图理解装置1具备:语音识别部3,其对用户发出的输入语音2进行语音识别,转换为文本;语音识别部3在语音识别中使用的语音识别词典4;词素分析部5,其将语音识别结果分解为词素;词素分析部5在词素分析中使用的词素分析词典6;意图理解部7,其根据词素分析结果生成意图理解结果的候选;用于供意图理解部7估计用户的意图的意图理解模型8;设定信息存储部10,其存储控制对象设备的设定信息9;权重计算部11,其使用设定信息存储部10的设定信息9计算权重;以及意图理解校正部12,其使用权重来校正意图理解结果的候选,从中选择最终的意图理解结果13并输出。
意图理解装置1由未图示的CPU(Central Processing Unit)构成,该CPU通过执行内部存储器存储的程序,实现作为语音识别部3、词素分析部5、意图理解部7、权重计算部11以及意图理解校正部12的功能。
语音识别词典4、词素分析词典6、意图理解模型8以及设定信息存储部10由HDD(Hard Disk Drive)、DVD(Digital Versatile Disc)、存储器等构成。
图2是示出将意图理解装置1作为语音接口组装的导航装置100的结构的框图。该导航装置100是基于语音的控制对象。语音输入部101由麦克风等构成,将用户发出的语音转换为信号,将其作为输入语音2输出至意图理解装置1。导航控制部102由CPU等构成,执行从当前地到终点的路径的搜索以及引导等功能。终点等的设定信息9从导航控制部102输出至意图理解装置1。另外,该导航控制部102从意图理解装置1接收意图理解结果13,执行意图理解结果13所示的操作,或者将关于意图理解结果13的语音信号输出到语音输出部103。语音输出部103由扬声器等构成,再现从导航控制部102输入的语音信号。
此外,可以使用不同的CPU构成意图理解装置1和导航控制部102,也可以使用1个CPU构成意图理解装置1和导航控制部102。
例如,以“<主意图>[<槽名>=<槽值>、···]”这样的形式来表现意图。具体地说,以“终点设定[设施=?]”以及“终点设定[设施=$设施$(=○○店)]”这样的方式表现。“终点设定[设施=?]”表示这样的状态:虽然用户希望设定终点,但尚未决定具体的设施名。“终点设定[设施=$设施$(=○○店)]”表示这样的状态:用户将“○○店”这样的具体设施设定为终点。
作为意图理解部7进行的意图理解方法,例如可利用最大熵法等方法。具体地说,意图理解模型8大量地保持“终点、设定”这样的独立单词(以下,称为特征)与“终点设定[设施=?]”这样的正确意图的组。意图理解部7例如从“希望设定终点”这样的输入语音2的词素分析结果中提取“终点、设定”这样的特征,利用统计的方法从意图理解模型8中估计哪个意图有多大的可能性。意图理解部7输出意图与表示该意图的可能性的分数的组的列表作为意图理解结果的候选。
以下,说明意图理解部7执行利用最大熵法的意图理解方法的情况。
图3的(a)是实施方式1中的设定信息9的例子,图3的(b)是对话的例子。
在基于语音的控制对象是导航装置100的情况下,在设定信息9中包含有无终点以及经由地的设定,在进行了设定的情况下包含该终点或经由地的名称,此外还包含所显示的地图的类型等信息。意图理解装置1的设定信息存储部10存储导航装置100的导航控制部102所输出的设定信息9。在图3的(a)的例子中,在设定信息9中包含“终点:△△”和“经由地:○○”的信息。
图3的(b)表示在导航装置100与用户之间从上依次进行对话的情况。在对话内容中,各行的行头的“U:”表示用户发出的输入语音2,“S:”表示来自导航装置100的应答。
图4是意图理解装置1的各部的输出结果的例子。
图4的(a)表示语音识别部3所输出的语音识别结果的例子。语音识别结果是“○○是目的地”这样的语音识别结果与表示该语音识别结果的可能性的似然度的组的列表,按照似然度从高到低的顺序排列。
图4的(b)是与图4的(a)的语音识别结果中的第1位的语音识别结果“○○是目的地”相对的意图理解结果候选、分数、等待权重以及最终分数,图4的(c)与第2位的语音识别结果“不去○○”相对,图4的(d)与第3位的语音识别结果“寻找○△”相对。意图理解部7输出“经由地设定[设施=$设施$]”这样的意图与分数的组的列表作为意图理解结果的候选。这些意图理解结果候选按照分数从高到低的顺序排列。权重计算部11按照意图理解部7输出的每个意图理解结果候选,计算等待权重。意图理解校正部12按照意图理解部7所输出的每个意图理解结果候选,使用等待权重计算最终分数。
图5是定义了制约条件与等待权重的对应关系的表。
例如,可认为在导航装置100的终点已被设定为“△△”的情况下,用户在下一次发话时再一次进行“将终点设定为△△”这样的意图的发话的可能性较低。由此,针对此制约条件,将意图“终点设定[设施=$设施$(=△△)]”的等待权重设定为“0.0”。另一方面,因为存在用户将终点变更为“?”(△△以外的场所)的可能性,所以,将意图“终点设定[设施=设施=$设施$(=?)]”的等待权重设定为“1.0”。另外,因为用户进行将与终点相同的“○○”设定为经由地的意图的发话的可能性较低,所以,将意图“经由地设定[设施=$设施$(=○○)]”的等待权重设定为“0.0”。此外,因为有时用户删除已经设定的经由地“○○”,所以,将意图“删除经由地[设施=$设施$(=○○)]”的等待权重设定为“1.0”。
权重计算部11保持如上所述地根据产生意图的可能性而事先定义的等待权重的信息,根据设定信息9选择与意图对应的等待权重。
意图理解校正部12使用以下的式(1),校正意图理解部7的意图理解结果的候选。具体地说,意图理解校正部12对从语音识别部3获得的语音识别结果的似然度与从意图理解部7获得的意图理解结果候选的意图理解分数进行乘法计算,来计算分数(相当于图4的(b)等所示的“分数”),对该分数与从权重计算部11获得的等待权重进行乘法运算,获得最终分数(相当于图4的(b)等所示的“最终分数”)。在本实施方式1中,如式(1)那样进行利用乘法运算的意图理解校正,但不限于该方法。
(似然度)×(意图理解分数)=(分数)
(分数)×(等待权重)=(最终分数)
···(1)
接着,参照图6的流程图,来说明意图理解装置1的动作。
这里,意图理解装置1被组装到作为控制对象的导航装置100,当用户按下未明示的对话开始按钮时,开始对话。另外,假设在设定信息存储部10中存储有图3的(a)所示的设定信息9,针对图3的(b)的对话内容进行意图理解过程的详细说明。
在检测到用户已按下导航装置100的对话开始按钮时,导航控制部102以语音的形式从语音输出部103输出提示对话开始的应答“发出哔的声音后,请说话”,继续使蜂鸣声鸣叫。另外,意图理解装置1使语音识别部3成为可识别的状态,成为等待用户发话的状态。
接着,如图3的(b)那样,当用户发出“不去○○”时,语音输入部101将该发话转换为语音数据,并输出至意图理解装置1的语音识别部3。意图理解装置1的语音识别部3使用语音识别词典4将输入语音2转换为文本,并且算出似然度,输出至词素分析部5(步骤ST11)。
接着,词素分析部5使用词素分析词典6,对语音识别结果进行词素分析,输出至意图理解部7(步骤ST12)。例如,语音识别结果“○○是目的地”的词素分析结果为“○○/名词、は/助词、目的地/名词、で/助词”。
接着,意图理解部7使用意图理解模型8,根据词素分析结果估计意图,并且算出分数,作为意图理解结果候选输出至意图理解校正部12(步骤ST13)。此时,意图理解部7从词素分析结果中提取使用于意图理解的特征,将该特征与意图理解模型8进行对照来估计意图。从图4的(a)的语音识别结果“○○是目的地”的词素分析结果中,提取“○○、目的地”这样的特征的列表,并获得图4的(b)的意图理解结果候选“经由地设定[设施=$设施$(=○○)]”及其分数“0.623”以及意图理解结果候选“设施检索[设施=$设施$(=○○)]”及其分数“0.286”。
然后,权重计算部11从设定信息存储部10中读入设定信息9,根据该设定信息9和图5所示的表来选择每个意图的等待权重,输出至意图理解校正部12(步骤ST14)。
接着,意图理解校正部12使用语音识别部3所计算的语音识别结果的似然度、意图理解部7计算的意图理解结果候选的分数和权重计算部11选择的等待权重,根据上式(1)来算出意图理解结果候选的最终分数(步骤ST15)。此时,意图理解校正部12按照语音识别结果的似然度从上位到下位的顺序且同一语音识别结果中的意图理解结果候选的分数从上位到下位的顺序,计算最终分数,每次计算都评价其最终分数。意图理解校正部12例如在发现最终分数X=0.5以上的意图理解结果候选的时刻,使该意图理解结果候选成为最终的意图理解结果13。
在图4的例子中,关于与输入语音2“不去○○”相对的第1位的语音识别结果“○○是目的地”,图4的(b)的意图理解结果候选第1位“经由地设定[设施=$设施$(=○○)]”的最终分数为“0.0”,第2位“设施检索[设施=$设施$(=○○)]”的最终分数为“0.286”,任意的意图理解结果候选都不满足最终分数是X以上的条件(步骤ST16“否”)。
因此,意图理解装置1针对第2位的语音识别结果“不去○○”反复进行步骤ST12~ST15的处理,其结果是,获得图4的(c)的意图理解结果候选第1位“经由地删除[设施=$设施$(=○○)]”的最终分数“0.589”和第2位“设施检索[设施=$设施$(=○○)]”的最终分数“0.232”。因为语音识别结果第2位且意图理解结果候选第1位的“经由地删除[设施=$设施$(=○○)]”的最终分数“0.589”满足X以上(步骤ST16“是”),所以,在此时刻,意图理解校正部12将“经由地删除[设施=$设施$(=○○)]”作为最终的意图理解结果13返回导航控制部102,结束处理。
导航控制部102在从意图理解装置1接收到意图理解结果13的“经由地删除[设施=$设施$(=○○)]”时,对语音输出部103进行指示,如图3的(b)那样以语音的形式输出“删除经由地○○。可以吗?”。在用户对其发出“是”的情况下,意图理解装置1通过语音输入部101受理该发出的输入语音2,判断为正确地进行了语音识别以及意图理解。另外,意图理解装置1针对“是”的输入语音2进行语音识别以及意图理解,将意图理解结果13输出至导航控制部102。导航控制部102根据该意图理解结果13,执行删除经由地“○○”的操作。
由此,在导航控制部102中,执行“经由地删除[设施=$设施$(=○○)]”,而不是具有语音识别结果的最大似然度以及意图理解结果的最大分数的“经由地设定[设施=$设施$(=○○)]”,能够排除误识别的影响。
以上,根据实施方式1,意图理解装置1构成为具备:语音识别部3,其识别用户以自然语言发出的一个输入语音2,生成多个语音识别结果;词素分析部5,其将语音识别结果分别转换为词素串;意图理解部7,其根据词素串估计用户发话的意图,从一个词素串输出一个以上的意图理解结果候选和分数;权重计算部11,其计算每个意图理解结果候选的等待权重;以及意图理解校正部12,其使用等待权重校正意图理解结果候选的分数,算出最终分数,根据该最终分数从意图理解结果候选中选择意图理解结果13。因此,可以从不仅包含与输入语音2相对的第1位的语音识别结果、还包含第2位以后的语音识别结果的结果中选择最终的意图理解结果13。因此,能够提供可正确地理解用户的意图的意图理解装置1。
另外,根据实施方式1,意图理解部7从多个语音识别结果中的具有可能性的语音识别结果依次生成意图理解结果候选,意图理解校正部12构成为,每当意图理解部7生成意图理解结果候选时,算出最终分数,选择该最终分数满足预先设定的条件X的意图理解结果候选作为意图理解结果13。因此,能够抑制意图理解装置1的运算量。
另外,根据实施方式1,权重计算部11构成为,使用根据意图理解校正部12所选择的意图理解结果13而工作的控制对象设备(例如,导航装置100)的设定信息9,计算等待权重。具体地说,权重计算部11构成为,具有对制约条件和满足该制约条件时的等待权重进行定义的图5这样的表,根据设定信息9来判断是否满足制约条件,选择等待权重。因此,能够估计与控制对象设备的状况相应的确切意图。
实施方式2.
图7是示出实施方式2的意图理解装置20的结构的框图。在图7中对与图1相同或相当的部分标注相同的符号,并省略说明。该意图理解装置20具备:层级地表现意图的层次树21;以及根据层次树21的意图中的已激活的意图来计算等待权重的权重计算部22。
图8是实施方式2中的对话的例子。与图3的(b)相同,行头的“U:”表示用户发话,“S:”表示来自控制对象的装置(例如,图2所示的导航装置100)的应答。
图9是意图理解装置20的各部的输出结果的例子。图9的(a)是语音识别部3输出的语音识别结果及其似然度。图9的(b)~图9的(d)是意图理解部7输出的意图理解结果的候选及其分数、权重计算部22所输出的等待权重以及意图理解校正部12输出的最终分数。图9的(b)示出图9的(a)的第1位的语音识别结果“不去○○”的意图理解结果候选,图9的(c)示出第2位的语音识别结果“经由○○”的意图理解结果候选,图9的(d)示出第3位的语音识别结果“把○○作为目的地”的意图理解结果候选。
图10以及图11是层次树21的例子。如图10所示,在层次树21中,表示意图的节点是层级构造,越到根(上的层级)部,则越成为表示抽象意图的节点,越到叶(下的层级)部,则越成为表示具体意图的节点。例如,当比较第3层级的节点#9的“终点设定[设施=?]”与第4层级的节点#16的“目的设定[设施=$设施$(=○○店)]”这两个意图时,在上位的层级存在表示更抽象的意图的节点#9,表示填充了具体的槽值(例如,○○店)的意图的节点#16位于其下方。
位于第1层级的节点#1的意图“导航”是表示导航控制部102的导航功能的集合的抽象节点,表示个别的导航功能的节点#2~#5位于其下方的第2层级。例如,节点#4的意图“终点设定[]”表示这样的状态:虽然用户希望设定终点,但尚未决定具体的场所。当成为已设定终点的状态时,从节点#4转移到节点#9或节点#16。在图10的例子中示出根据图8所示的“设定目的地”这样的用户的发话激活了节点#4的状态。
层次树21根据导航装置100所输出的信息,激活意图节点。
图12是权重计算部22计算出的等待权重的例子。
根据“设定目的地”这样的用户发话,层次树21的节点#4的意图“终点设定[]”已被激活,所以,节点#4的枝叶方向的节点#9、#10的意图的等待权重成为1.0,其它意图节点的等待权重成为0.5。
后面叙述权重计算部22的等待权重的计算方法。
图13是示出意图理解装置20的动作的流程图。图13的步骤ST11~ST13、ST15、ST16与图6的步骤ST11~ST13、ST15、ST16的处理相同。
在步骤ST20中,权重计算部22参照层次树21,计算意图理解部7的意图理解结果候选的等待权重,输出至意图理解校正部12。
图14是示出图13的步骤ST20的具体动作的流程图。在步骤ST21中,权重计算部22对意图理解部7的意图理解结果候选与层次树21的被激活的意图进行比较。在意图理解部7的意图理解结果候选位于层次树21的被激活的意图的枝叶方向时(步骤ST22“是”),权重计算部22将等待权重设为第1权重a(步骤ST23)。另一方面,在意图理解部7的意图理解结果候选位于层次树21的被激活的意图的枝叶方向以外时(步骤ST22“否”),权重计算部22将等待权重设为第2权重b(步骤ST24)。在本实施方式2中,a=1、0,b=0.5。另外,在不存在被激活的意图节点时,使等待权重成为1.0。
接着,说明意图理解装置20的动作。
意图理解装置20的动作基本上与上述实施方式1的意图理解装置1的动作相同。本实施方式2与上述实施方式1的区别是等待权重的计算方法。
以下,关于图8所示的对话内容,详细地说明意图理解过程。与上述实施方式1相同,假定在作为控制对象的导航装置100(图2所示)中组装了意图理解装置20的情况。另外,当由用户按下未图示的发话开始按钮时,开始对话。在图8的最初的用户发话“设定目的地”的时刻,导航装置100没有取得任何来自用户的信息,所以,是在意图理解装置20的层次树21上不存在激活的意图节点的状态。
此外,层次树21根据意图理解校正部12所输出的意图理解结果13激活意图节点。
在对话开始后,当用户发出“设定目的地”时,该发话的输入语音2被输入到意图理解装置20。该输入语音2被语音识别部3识别(步骤ST11),被词素分析部5分解为词素(步骤ST12),意图理解部7算出意图理解结果候选(步骤ST13)。这里,假设对用户发话“设定目的地”正确地进行了识别而没有误识别、正确地理解了其意图,意图理解校正部12获得“终点设定[]”的意图理解结果13。导航控制部102为了使设定为终点的设施具体化,对语音输出部103进行指示,以语音的形式输出“设定终点。请说出场所”。另外,层次树21激活与意图理解结果13的“终点设定[]”相应的节点#4。
导航装置100进行了提示下一发话的应答,所以,继续与用户的对话,如图8那样,用户发出“把○○作为目的地”。意图理解装置20对该用户发话“把○○作为目的地”进行步骤ST11、ST12的处理。其结果,获得图9的(a)的语音识别结果“不去○○”、“经由○○”、“把○○作为目的地”的各个词素分析结果。接着,意图理解部7根据词素分析结果估计意图(步骤ST13)。这里,假设意图理解结果的候选成为图9的(b)的“经由地删除[设施=$设施$(=○○)]”和“终点设定[设施=$设施$(=○○)]”。
接着,权重计算部22参照层次树21计算等待权重(步骤ST20)。在此时刻,层次树21的节点#4为激活状态,权重计算部22根据此状态计算权重。
首先,在步骤ST21中,将激活的节点#4的信息从层次树21传递到权重计算部22,并且将意图理解结果候选“经由地删除[设施=$设施$(=○○)]”和“终点设定[设施=$设施$(=○○)]”从意图理解部7传递到权重计算部22。权重计算部22比较已激活的节点#4的意图和意图理解结果候选,在意图理解结果候选位于激活节点#4的枝叶方向(即,节点#9以及节点#10)的情况下(步骤ST22“是”),将等待权重设为第1权重a(步骤ST23)。另一方面,在意图理解结果候选位于激活节点#4的枝叶方向以外的情况下(步骤ST22“否”),权重计算部22将等待权重设为第2权重b(步骤ST24)。
第1权重a为大于第2权重b的值。例如,在a=1.0、b=0.5的情况下,等待权重如图9的(b)所示。
接着,意图理解校正部12使用语音识别部3计算的语音识别结果的似然度、意图理解部7计算的意图理解结果候选的分数和权重计算部22计算的等待权重,根据上式(1)算出意图理解结果候选的最终分数(步骤ST15)。最终分数如图9的(b)所示。
接着,意图理解校正部12与上述实施方式1同样地判定最终分数是否满足条件X以上(步骤ST16)。这里,如果也把X=0.5作为条件,则与语音识别结果第1位“不去○○”相对的图9的(b)的意图理解结果候选“经由地删除[设施=$设施$(=○○)]”的最终分数“0.314”和“终点设定[设施=$设施$(=○○)]”的最终分数“0.127”都不满足条件。
因此,意图理解装置20针对语音识别结果第2位的“经由○○”反复进行步骤ST12~ST14、ST20、ST15的处理。其结果是,如图9的(c)那样求出意图理解结果候选“经由地删除[设施=$设施$(=○○)]”的最终分数“0.295”和“设施检索[设施=$设施$(=○○)]”的最终分数“0.116”,但这些也不满足X以上的条件。
因此,意图理解装置20针对语音识别结果第3位的“把○○作为目的地”反复进行步骤ST12、ST13、ST20、ST15的处理,其结果是,如图9的(d)那样求出意图理解结果候选“终点设定[设施=$设施$(=○○)]”的最终分数“0.538”。因为该最终分数满足X以上的条件,所以,意图理解校正部12将“终点设定[设施=$设施$(=○○)]”作为最终的意图理解结果13输出。层次树21根据意图理解结果13激活节点#16。
导航控制部102在从意图理解装置20接收到意图理解结果13的“终点设定[设施=$设施$(=○○)]”时,对语音输出部103进行指示,如图8那样,以语音的形式输出“将○○设定为终点。可以吗?”。在用户对此发出“是”的情况下,意图理解装置20通过语音输入部101受理该发话的输入语音2,判断为正确地进行了语音识别以及意图理解。另外,意图理解装置20对“是”的输入语音2进行语音识别以及意图理解,将意图理解结果13输出至导航控制部102。导航控制部102根据该意图理解结果13将“○○”设定为终点,从语音输出部103以语音的形式输出“已经把○○作为终点”,向用户通知已进行终点设定。
以上,根据实施方式2,权重计算部22构成为,以使得意图理解校正部12容易地选择出符合根据与用户的对话的流程而期待的意图的意图理解结果候选的方式进行加权。因此,能够估计与用户和控制对象设备的对话状况相应的确切意图。
另外,根据实施方式2,意图理解装置20具备层次树21,该层次树21使用越到根部则越成为抽象意图、越到叶部则越成为具体意图的树结构表现用户的意图,权重计算部22根据层次树21,以容易选择出相对于与刚刚选择的意图理解结果13对应的意图位于枝叶方向的意图理解结果候选的方式进行加权。这样,可通过利用意图的层次性校正与用户发话相对的意图,使控制对象设备根据确切的语音识别结果以及意图理解结果进行动作。
实施方式3.
图15是示出实施方式3的意图理解装置30的结构的框图。在图15中对与图1以及图5相同或相当的部分标注相同的符号并省略说明。该意图理解装置30具备:关键字表31,其存储与意图对应的关键字;关键字检索部32,其从关键字表31中检索与词素分析结果对应的意图;以及权重计算部33,其使对应于关键字的意图与层次树21的激活的意图进行比较,计算等待权重。
图16是关键字表31的一例。关键字表31存储意图与关键字的组。例如,针对意图“终点设定[]”,赋予“目的地”、“去”、“终点”等成为意图的特征表现的关键字。对除了层次树21的第1层级的节点#1之外的第2层级以下的各节点的意图赋予关键字。
以下,将与关键字对应的意图称为关键字对应意图。另外,将与层次树21的激活的意图节点对应的意图称为层次树对应意图。
图17是语音识别部3输出的语音识别结果、语音识别结果所包含的关键字、关键字检索部32检索到的关键字对应意图的例子。与语音识别结果“不去○○”的关键字“不去”对应的关键字对应意图为“经由地删除[]”,与语音识别结果“经由○○”的关键字“经由”对应的关键字对应意图为“经由地设定[]”,与语音识别结果“把○○作为目的地”的关键字“目的地”对应的关键字对应意图为“终点设定[]”。
图18的(a)是语音识别部3输出的语音识别结果及其似然度的例子。图18的(b)~图18的(d)是意图理解部7输出的意图理解结果候选及其分数、权重计算部33输出的等待权重以及意图理解校正部12输出的最终分数。图18的(b)示出图18的(a)的第1位的语音识别结果“不去○○”的意图理解结果候选,图18的(c)示出第2位的语音识别结果“经由○○”的意图理解结果候选,图18的(d)示出第3位的语音识别结果“把○○作为目的地”的意图理解结果候选。
图19是示出意图理解装置30的动作的流程图。图19的步骤ST11~ST13、ST15、ST16与图6的步骤ST11~ST13、ST15、ST16的处理相同。
在步骤ST30中,关键字检索部32从关键字表31中检索与词素分析结果对应的关键字,取得与检索的关键字对应的关键字对应意图。关键字检索部32向权重计算部33输出所取得的关键字对应意图。
图20是示出图19的步骤ST31的具体动作的流程图。在步骤ST32中,权重计算部33对意图理解部7的意图理解结果候选、层次树21的激活的层次树对应意图、关键字检索部32的关键字对应意图进行比较。在意图理解结果候选与关键字对应意图、层次树对应意图都不一致的情况下(步骤ST32“否”),权重计算部33将等待权重设为第3权重c。
在意图理解结果候选与层次树对应意图一致的情况下(步骤ST32“是”且步骤ST34“是”),权重计算部33将等待权重设为第4权重d(步骤ST35)。此外,在步骤ST34“是”中,可能存在意图理解结果候选与层次树对应意图、关键字对应意图双方一致的情况。
在意图理解结果候选与层次树对应意图不一致而仅与关键字对应意图一致的情况下(步骤ST34“否”),权重计算部33将等待权重设为第5权重e(步骤ST36)。
在本实施方式3中,假设c=0.0、d=1.0、e=0.5。即,如果意图理解结果候选与层次树对应意图一致,则等待权重成为1.0,如果与层次树对应意图不一致而与关键字对应意图一致,则成为0.5,如果与层次树对应意图、关键字对应意图都不一致,则成为0.0。
接着,说明意图理解装置30的动作。
意图理解装置30的动作基本上与上述实施方式1、2的意图理解装置1、20的动作相同。本实施方式3与上述实施方式1、2的区别是等待权重的计算方法。
以下,详细地说明图8所示的对话内容中的用户发话“把○○作为目的地”的意图理解过程。与上述实施方式1、2同样,假定在作为控制对象的导航装置100(图2所示)中组装了意图理解装置30的情况。
另外,层次树21引用图10以及图11。
用户发话“把○○作为目的地”的输入语音2被语音识别部3识别(步骤ST11),被词素分析部5分解为词素(步骤ST12),意图理解部7算出意图理解结果的候选(步骤ST13)。然后,可获得图18的(b)这样的意图理解结果候选“经由地删除[设施=$设施$(=○○)]”及其分数“0.623”以及“终点设定[设施=$设施$(=○○)]”及其分数“0.127”。
接着,关键字检索部32从关键字表31中检索与词素分析部5的词素分析结果对应的关键字,取得与检索出的关键字对应的关键字对应意图。因为在“不去○○”的词素分析结果中存在图16的“不去”这样的关键字,所以,关键字对应意图成为“经由地删除[]”。
接着,权重计算部33计算等待权重(步骤ST31)。在此时刻,层次树21的节点#4是激活状态,节点#4的层次树对应意图是“终点设定[]”。
首先,在步骤ST32中,层次树21对权重计算部33输出已激活的节点#4的层次树对应意图“终点设定[]”。另外,意图理解部7对权重计算部33输出用户发话“不去○○”的意图理解结果候选第1位“经由地删除[设施=$设施$(=○○)]”。此外,关键字检索部32对权重计算部33输出关键字对应意图“经由地删除[]”。
因为意图理解结果候选第1位的“经由地删除[设施=$设施$(=○○)]”与关键字对应意图“经由地删除[]”一致(步骤ST32“是”且步骤ST34“否”),所以,权重计算部33将意图理解结果候选第1位的等待权重设为第5权重e(=0.5)(步骤ST35)。
这里,权重计算部33还把层次树21的父子关系包含在内判断一致,因为“经由地删除[设施=$设施$(=○○)]”是“经由地删除[]”的子,所以,判断为一致。
另一方面,因为意图理解结果候选第2位“终点设定[设施=$设施$(=○○)]”与层次树对应意图“终点设定[]”一致(步骤ST32“是”且步骤ST34“是”),所以,权重计算部33将意图理解结果候选第2位的等待权重设为第4权重d(=1.0)(步骤ST36)。
最终,如图18的(b)那样,求出与第1位的语音识别结果“不去○○”相对的第1位的意图理解结果候选“经由地删除[设施=$设施$(=○○)]”的最终分数“0.312”、第2位的意图理解结果候选“终点设定[设施=$设施$(=○○)]”的最终分数“0.127”。因为第1位、第2位的最终分数都不满足X以上的条件,所以,意图理解装置30针对第2位的语音识别结果“经由○○”,进行步骤ST12、ST13、ST30、ST31、ST15的处理。
其结果是,如图18的(c)那样,“经由○○”的意图理解结果候选第1位“经由地删除[设施=$设施$(=○○)]”以及第2位“设施检索[设施=$设施$(=○○)]”分别设定等待权重“0.0”(=c),最终分数分别为“0.0”,这里也不满足X以上的条件。
因此,处理对象转移至第3位的语音识别结果“把○○作为目的地”,如图18的(d)那样,意图理解结果候选第1位“终点设定[设施=$设施$(=○○)]”的最终分数满足X以上的条件,所以,作为意图理解结果13进行输出。由此,与上述实施方式2同样地将“○○”设定为终点。
以上,根据实施方式3,意图理解装置30具备关键字检索部32,其从定义了意图与关键字的对应关系的关键字表31中检索与词素串一致的关键字,并取得与该检索的关键字对应的关键字对应意图,权重计算部33构成为,使用层次树对应意图和关键字对应意图来计算等待权重。因此,可利用意图的层级性和作为意图的特征表现的关键字来校正与用户发话相对的意图,并能够使控制对象设备根据确切的语音识别结果以及意图理解结果进行动作。
此外,在上述实施方式1~3中,虽然说明了日语的例子,但也可以按照各种语言变更与意图理解相关的特征提取方法,由此,能够应用于英语、德语以及中文等各种语言。
另外,在单词是用特定的符号(例如,空格)划分的语言的情况下,如果难以分析语言的构造,则可以针对输入语音2的自然语言文本,利用模式匹配这样的方法提取“$设施$”、“$住所$”等槽值,然后,直接执行意图理解处理。
此外,在上述实施方式1~3中,通过利用词素分析部5分析语音识别结果的文本来进行意图理解处理的准备,但是,根据语音识别部3的识别方法的不同,有时存在语音识别结果本身包含词素分析结果的情况,在此情况下,可以省略词素分析部5和词素分析词典6,在语音识别处理之后直接执行意图理解处理。
另外,在上述实施方式1~3中,作为意图理解的方法,以假定基于最大熵法的学习模型的例子进行了说明,但不是限定意图理解方法。
此外,在上述实施方式3中,构成为,权重计算部33使用层次树对应意图和关键字对应意图来计算等待权重,但即便不使用层次树21而根据关键字表31的关键字在词素分析结果中出现的次数来变更意图理解结果候选的分数,也能够计算等待权重。
例如,在用户发话中出现了对于确定“不去”、“经由”这样的意图而言重要的单词的情况下,意图理解部7通常对用户发话“不去○○”使用“○○、不去”这样的特征进行意图理解处理。取而代之,也可以通过像“○○、不去、不去”这样地重复位于关键字表31中的关键字,意图理解部7计算在估计意图时根据“不去”的个数而加权的分数。
另外,在上述实施方式1~3中,按照多个语音识别结果中的似然度从高到低的顺序依次进行意图理解处理,在发现最终分数满足X以上的条件的意图理解结果候选的时刻结束处理,但在意图理解装置的运算处理中存在富余的情况下,对全部语音识别结果进行意图理解处理来选择意图理解结果13的方法也是可行的。
此外,在上述实施方式1~3中,虽然在执行与意图理解结果13对应的操作之前向用户确认是否可以执行(例如,图3的(b)的“删除经由地○○。可以吗?”),但也可以根据意图理解结果13的最终分数来变更是否进行确认。
另外,例如,也可以是,在将语音识别结果第1位的意图理解结果候选被选择为意图理解结果13的情况下不进行确认、在第2位以后的意图理解结果候选被选择为意图理解结果13的情况下进行确认等,根据名次变更是否进行确认。
另外,例如,也可以是,在用等待权重进行校正之前的分数最高的意图理解结果候选被选择为意图理解结果13的情况下不进行确认,在分数比其低的意图理解结果候选被选择为意图理解结果13的情况下进行确认等,根据分数的大小变更是否进行确认。
这里,图21示出意图理解装置40的变形例。意图理解装置40具备:语音输入部41,其将用户发出的语音转换成信号,并取得该信号作为输入语音;意图确认处理部42,其在意图理解校正部12排除可能性最大的意图理解结果候选(即,利用等待权重校正之前的分数大的意图理解结果候选)并将其以外的意图理解结果候选选择为意图理解结果13的情况下,向用户确认是否采用该意图理解结果13而决定可否采用;以及语音输出部43,其输出意图确认处理部42所生成的意图理解结果确认用的语音信号。这些语音输入部41、意图确认处理部42以及语音输出部43发挥与图2所示的语音输入部101、导航控制部102以及语音输出部103相同的作用,通过如图3的(b)那样的“删除经由地○○。可以吗?”的语音输出,向用户确认可否采用意图理解结果13。
此外,向用户的确认方法除了语音输出之外,还可以是画面显示等。
此外,在上述实施方式2、3中,虽然利用层次树21的树结构表现了意图的层次性,但并非必需是完整的树结构,如果是不包含环结构的曲线结构,也能够进行同样的处理。
此外,在上述实施方式2、3中,虽然在意图理解处理中仅利用了本次的用户发话,但在层次树21的层次变化过程中的发话的情况下,也可以使用从包含本次之前的用户发话在内的多个发话中提取的特征来进行意图理解处理。由此,能够估计根据通过多个部分发话获得的部分信息难以估计的意图。
这里,使用图22所示的对话内容作为例子进行说明。
在上述实施方式2的情况下,从最初的用户发话“设定目的地”中提取“目的地、设定”作为特征。另外,从第2个的发话“○○”中提取“$设施$(=○○)”作为特征。作为结果,通常在第2个的发话中仅使用“$设施$(=○○)”进行意图理解处理(图13的步骤ST13)。
另一方面,在考虑是否是层次变化过程中的情况下,最初的发话“设定目的地”是层次树21的节点#4、第2个的发话与节点#4为父子关系的可能性高,所以,对第2个发话使用“目的地、设定、$设施$(=○○)”这3个特征进行意图理解处理,由此可获得更确切的意图理解结果。
另外,在上述实施方式1~3中,虽然作为意图理解装置的控制对象设备,以图2的导航装置100为例,但不限于导航装置。另外,在图2中将意图理解装置内置于控制对象设备,但也可以外置。
除了上述以外,本发明在其发明的范围内,可进行各实施方式的自由组合、各实施方式的任意构成要素的变形或者在各实施方式中省略任意的构成要素。
工业上的可利用性
如以上那样,本发明的意图理解装置使用输入语音来估计用户的意图,所以,适合用于手动难以操作的汽车导航装置等的语音接口。
标号说明
1、20、30、40 意图理解装置,2 输入语音,3 语音识别部,4 语音识别词典,5 词素分析部,6 词素分析词典,7 意图理解部,8 意图理解模型,9 设定信息,10 设定信息存储部,11、22、33 权重计算部,12 意图理解校正部,13 意图理解结果,21 层次树,31 关键字表,32 关键字检索部,41、101 语音输入部,43、103 语音输出部,42 意图确认处理部,100导航装置,102 导航控制部。
Claims (9)
1.一种意图理解装置,其具备:
语音识别部,其识别用户用自然语言发出的一个语音,生成按照似然度从高到低的顺序排列的多个语音识别结果;
词素分析部,其将所述语音识别结果分别转换为词素串;
意图理解部,其根据所述词素串估计所述用户的发话的意图,从一个所述词素串中输出一个以上的意图理解结果候选和表示可能性的程度的意图理解分数,从所述多个语音识别结果中的具有可能性的语音识别结果依次生成至少两个所述意图理解结果候选,并根据所述似然度和所述意图理解分数生成每个所述意图理解结果候选的分数;
权重计算部,其计算每个所述意图理解结果候选的权重;以及
意图理解校正部,其使用所述权重校正所述意图理解结果候选的所述分数,按照所述语音识别结果的似然度的顺序且同一语音识别结果中的所述意图理解结果候选的分数的顺序算出最终分数,选择该最终分数最先满足预先设定的条件的所述意图理解结果候选作为所述意图理解结果。
2.根据权利要求1所述的意图理解装置,其特征在于,
所述权重计算部使用根据所述意图理解校正部选择出的所述意图理解结果而进行动作的控制对象设备的设定信息来计算所述权重。
3.根据权利要求2所述的意图理解装置,其特征在于,
所述权重计算部具有定义了制约条件和满足该制约条件时的所述权重的信息,根据所述控制对象设备的设定信息判断是否满足所述制约条件,选择所述权重。
4.根据权利要求1所述的意图理解装置,其特征在于,
所述权重计算部以使得所述意图理解校正部容易地选择出符合根据与所述用户的对话的流程而期待的意图的所述意图理解结果候选的方式进行加权。
5.根据权利要求4所述的意图理解装置,其特征在于,
该意图理解装置具备层次树,该层次树使用越到根部则越成为抽象意图、越到叶部则越成为具体意图的树结构表现所述用户的意图,
所述权重计算部根据所述层次树,以容易选择出相对于与刚刚选择的所述意图理解结果对应的意图位于枝叶方向的所述意图理解结果候选的方式进行加权。
6.根据权利要求5所述的意图理解装置,其特征在于,
所述意图理解部除了根据本次发话而生成的所述词素串之外,还使用根据本次之前的发话而生成的所述词素串来估计所述用户的意图。
7.根据权利要求5所述的意图理解装置,其特征在于,
该意图理解装置具备关键字检索部,该关键字检索部从定义了意图与关键字的对应关系的关键字表中检索与所述词素串一致的关键字,取得与该检索的关键字对应的所述意图,
所述权重计算部使用所述层次树和所述关键字检索部所取得的所述意图来计算所述权重。
8.根据权利要求1所述的意图理解装置,其特征在于,
该意图理解装置具备意图确认处理部,该意图确认处理部在所述意图理解校正部排除可能性最大的意图理解结果候选并将其以外的所述意图理解结果候选选择为所述意图理解结果的情况下,向所述用户确认是否采用该意图理解结果而决定可否采用。
9.一种意图理解方法,包括以下的步骤:
语音识别步骤,识别用户用自然语言发出的一个语音,生成按照似然度从高到低的顺序排列的多个语音识别结果;
词素分析步骤,将所述语音识别结果分别转换为词素串;
意图理解步骤,根据所述词素串估计所述用户的发话的意图,从一个所述词素串中输出一个以上的意图理解结果候选和表示可能性的程度的意图理解分数,从所述多个语音识别结果中的具有可能性的语音识别结果依次生成至少两个所述意图理解结果候选,并根据所述似然度和所述意图理解分数生成每个所述意图理解结果候选的分数;
权重计算步骤,计算每个所述意图理解结果候选的权重;以及
意图理解校正步骤,使用所述权重校正所述意图理解结果候选的所述分数,按照所述语音识别结果的似然度的顺序且同一语音识别结果中的所述意图理解结果候选的分数的顺序来算出最终分数,选择该最终分数最先满足预先设定的条件的所述意图理解结果候选作为所述意图理解结果。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/059445 WO2015151157A1 (ja) | 2014-03-31 | 2014-03-31 | 意図理解装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106663424A CN106663424A (zh) | 2017-05-10 |
CN106663424B true CN106663424B (zh) | 2021-03-05 |
Family
ID=54239528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480077480.XA Active CN106663424B (zh) | 2014-03-31 | 2014-03-31 | 意图理解装置以及方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10037758B2 (zh) |
JP (1) | JPWO2015151157A1 (zh) |
CN (1) | CN106663424B (zh) |
DE (1) | DE112014006542B4 (zh) |
WO (1) | WO2015151157A1 (zh) |
Families Citing this family (138)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
DE102015205044A1 (de) * | 2015-03-20 | 2016-09-22 | Bayerische Motoren Werke Aktiengesellschaft | Eingabe von Navigationszieldaten in ein Navigationssystem |
US10558688B1 (en) | 2015-04-15 | 2020-02-11 | Arimo, LLC | Natural language interface for data analysis |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
CN108027823B (zh) * | 2015-07-13 | 2022-07-12 | 帝人株式会社 | 信息处理装置、信息处理方法以及计算机可读取的存储介质 |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
KR102267561B1 (ko) * | 2016-01-28 | 2021-06-22 | 한국전자통신연구원 | 음성 언어 이해 장치 및 방법 |
US20190005950A1 (en) * | 2016-03-30 | 2019-01-03 | Mitsubishi Electric Corporation | Intention estimation device and intention estimation method |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
CN106251869B (zh) * | 2016-09-22 | 2020-07-24 | 浙江吉利控股集团有限公司 | 语音处理方法及装置 |
US10216832B2 (en) * | 2016-12-19 | 2019-02-26 | Interactions Llc | Underspecification of intents in a natural language processing system |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) * | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) * | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770411A1 (en) * | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
CN107170446A (zh) * | 2017-05-19 | 2017-09-15 | 深圳市优必选科技有限公司 | 语义处理服务器及用于语义处理的方法 |
CN107240398B (zh) * | 2017-07-04 | 2020-11-17 | 科大讯飞股份有限公司 | 智能语音交互方法及装置 |
US10599377B2 (en) | 2017-07-11 | 2020-03-24 | Roku, Inc. | Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services |
US10455322B2 (en) | 2017-08-18 | 2019-10-22 | Roku, Inc. | Remote control with presence sensor |
US10777197B2 (en) * | 2017-08-28 | 2020-09-15 | Roku, Inc. | Audio responsive device with play/stop and tell me something buttons |
US11062710B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Local and cloud speech recognition |
US11062702B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Media system with multiple digital assistants |
CN110168535B (zh) * | 2017-10-31 | 2021-07-09 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及终端、计算机存储介质 |
US10733375B2 (en) * | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US11145298B2 (en) | 2018-02-13 | 2021-10-12 | Roku, Inc. | Trigger word detection with multiple digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US11379706B2 (en) * | 2018-04-13 | 2022-07-05 | International Business Machines Corporation | Dispersed batch interaction with a question answering system |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11704533B2 (en) * | 2018-05-23 | 2023-07-18 | Ford Global Technologies, Llc | Always listening and active voice assistant and vehicle operation |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
KR20200013152A (ko) * | 2018-07-18 | 2020-02-06 | 삼성전자주식회사 | 이전에 대화를 수집한 결과를 기반으로 인공 지능 서비스를 제공하는 전자 장치 및 방법 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
CN109634692A (zh) * | 2018-10-23 | 2019-04-16 | 蔚来汽车有限公司 | 车载对话系统及用于其的处理方法和系统 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
KR20200072907A (ko) * | 2018-12-13 | 2020-06-23 | 현대자동차주식회사 | 대화 시스템이 구비된 차량 및 그 제어 방법 |
CN109710941A (zh) * | 2018-12-29 | 2019-05-03 | 上海点融信息科技有限责任公司 | 基于人工智能的用户意图识别方法和装置 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11100933B2 (en) * | 2019-04-17 | 2021-08-24 | Tempus Labs, Inc. | Collaborative artificial intelligence method and system |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
CN110472030A (zh) * | 2019-08-08 | 2019-11-19 | 网易(杭州)网络有限公司 | 人机交互方法、装置和电子设备 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
CN110956958A (zh) * | 2019-12-04 | 2020-04-03 | 深圳追一科技有限公司 | 搜索方法、装置、终端设备及存储介质 |
KR20210081103A (ko) * | 2019-12-23 | 2021-07-01 | 엘지전자 주식회사 | 복수의 언어를 포함하는 음성을 인식하는 인공 지능 장치 및 그 방법 |
CN113516491B (zh) * | 2020-04-09 | 2024-04-30 | 百度在线网络技术(北京)有限公司 | 推广信息展示方法、装置、电子设备及存储介质 |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
CN111696558A (zh) * | 2020-06-24 | 2020-09-22 | 深圳壹账通智能科技有限公司 | 智能外呼方法、装置、计算机设备及存储介质 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN111933127B (zh) * | 2020-07-31 | 2024-06-25 | 升智信息科技(南京)有限公司 | 一种具备自学习能力的意图识别方法及意图识别系统 |
CN112002321B (zh) * | 2020-08-11 | 2023-09-19 | 海信电子科技(武汉)有限公司 | 显示设备、服务器及语音交互方法 |
JP2022050011A (ja) * | 2020-09-17 | 2022-03-30 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
CN113763947B (zh) * | 2021-01-15 | 2024-04-05 | 北京沃东天骏信息技术有限公司 | 一种语音意图识别方法、装置、电子设备及存储介质 |
CN112417712A (zh) * | 2021-01-21 | 2021-02-26 | 深圳市友杰智新科技有限公司 | 目标设备的确定方法、装置、计算机设备和存储介质 |
JP7420109B2 (ja) * | 2021-04-08 | 2024-01-23 | トヨタ自動車株式会社 | 情報出力システム、サーバ装置および情報出力方法 |
US20240232180A9 (en) * | 2021-05-24 | 2024-07-11 | Salesforce, Inc. | Applied Artificial Intelligence Technology for Natural Language Generation Using a Graph Data Structure to Generate Narratives of Dynamically Determined Sizes |
US11947548B2 (en) * | 2021-11-29 | 2024-04-02 | Walmart Apollo, Llc | Systems and methods for providing search results based on a primary intent |
CN113870842B (zh) * | 2021-12-02 | 2022-03-15 | 深圳市北科瑞声科技股份有限公司 | 基于权重调节的语音控制方法、装置、设备及介质 |
CN114254622B (zh) * | 2021-12-10 | 2024-06-14 | 马上消费金融股份有限公司 | 一种意图识别方法和装置 |
US20230222291A1 (en) * | 2022-01-10 | 2023-07-13 | Verizon Patent And Licensing Inc. | System and method for determining intentions of messages |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101256559A (zh) * | 2007-02-27 | 2008-09-03 | 株式会社东芝 | 用于处理输入语音的装置和方法 |
CN103280218A (zh) * | 2012-12-31 | 2013-09-04 | 威盛电子股份有限公司 | 基于语音识别的选择方法及其移动终端装置及信息系统 |
WO2013172534A1 (ko) * | 2012-05-17 | 2013-11-21 | 포항공과대학교 산학협력단 | 대화 관리 시스템 및 방법 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7286984B1 (en) | 1999-11-05 | 2007-10-23 | At&T Corp. | Method and system for automatically detecting morphemes in a task classification system using lattices |
US20020198714A1 (en) * | 2001-06-26 | 2002-12-26 | Guojun Zhou | Statistical spoken dialog system |
US7228275B1 (en) | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
US7751551B2 (en) * | 2005-01-10 | 2010-07-06 | At&T Intellectual Property I, L.P. | System and method for speech-enabled call routing |
US7826945B2 (en) * | 2005-07-01 | 2010-11-02 | You Zhang | Automobile speech-recognition interface |
US8265939B2 (en) * | 2005-08-31 | 2012-09-11 | Nuance Communications, Inc. | Hierarchical methods and apparatus for extracting user intent from spoken utterances |
US20070094022A1 (en) * | 2005-10-20 | 2007-04-26 | Hahn Koo | Method and device for recognizing human intent |
CN101331537A (zh) * | 2005-12-14 | 2008-12-24 | 三菱电机株式会社 | 声音识别装置 |
JP2008032834A (ja) * | 2006-07-26 | 2008-02-14 | Toshiba Corp | 音声翻訳装置及びその方法 |
JP2008203559A (ja) | 2007-02-20 | 2008-09-04 | Toshiba Corp | 対話装置及び方法 |
JP5326549B2 (ja) * | 2008-12-22 | 2013-10-30 | 日産自動車株式会社 | 音声認識装置及び方法 |
JP2011033680A (ja) * | 2009-07-30 | 2011-02-17 | Sony Corp | 音声処理装置及び方法、並びにプログラム |
JP2012047924A (ja) * | 2010-08-26 | 2012-03-08 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
KR101522837B1 (ko) | 2010-12-16 | 2015-05-26 | 한국전자통신연구원 | 대화 방법 및 이를 위한 시스템 |
JP5710317B2 (ja) * | 2011-03-03 | 2015-04-30 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、自然言語解析方法、プログラムおよび記録媒体 |
CA2747153A1 (en) * | 2011-07-19 | 2013-01-19 | Suleman Kaheer | Natural language processing dialog system for obtaining goods, services or information |
AU2012232977A1 (en) | 2011-09-30 | 2013-04-18 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US8983840B2 (en) * | 2012-06-19 | 2015-03-17 | International Business Machines Corporation | Intent discovery in audio or text-based conversation |
US9053708B2 (en) | 2012-07-18 | 2015-06-09 | International Business Machines Corporation | System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment |
WO2014083945A1 (ja) | 2012-11-30 | 2014-06-05 | 三菱電機株式会社 | 意図推定装置および意図推定方法 |
KR102261552B1 (ko) * | 2014-06-30 | 2021-06-07 | 삼성전자주식회사 | 음성 명령어 제공 방법 및 이를 지원하는 전자 장치 |
-
2014
- 2014-03-31 US US15/120,539 patent/US10037758B2/en active Active
- 2014-03-31 JP JP2016511184A patent/JPWO2015151157A1/ja active Pending
- 2014-03-31 WO PCT/JP2014/059445 patent/WO2015151157A1/ja active Application Filing
- 2014-03-31 CN CN201480077480.XA patent/CN106663424B/zh active Active
- 2014-03-31 DE DE112014006542.0T patent/DE112014006542B4/de active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101256559A (zh) * | 2007-02-27 | 2008-09-03 | 株式会社东芝 | 用于处理输入语音的装置和方法 |
WO2013172534A1 (ko) * | 2012-05-17 | 2013-11-21 | 포항공과대학교 산학협력단 | 대화 관리 시스템 및 방법 |
CN103280218A (zh) * | 2012-12-31 | 2013-09-04 | 威盛电子股份有限公司 | 基于语音识别的选择方法及其移动终端装置及信息系统 |
Also Published As
Publication number | Publication date |
---|---|
DE112014006542T5 (de) | 2016-12-15 |
US20170011742A1 (en) | 2017-01-12 |
CN106663424A (zh) | 2017-05-10 |
US10037758B2 (en) | 2018-07-31 |
DE112014006542B4 (de) | 2024-02-08 |
JPWO2015151157A1 (ja) | 2017-04-13 |
WO2015151157A1 (ja) | 2015-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106663424B (zh) | 意图理解装置以及方法 | |
US7949524B2 (en) | Speech recognition correction with standby-word dictionary | |
JP5480760B2 (ja) | 端末装置、音声認識方法および音声認識プログラム | |
US8380505B2 (en) | System for recognizing speech for searching a database | |
JP4709887B2 (ja) | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム | |
JP4734155B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP4769223B2 (ja) | テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置 | |
JP5951161B2 (ja) | 音声認識装置及び音声認識方法 | |
JP6245846B2 (ja) | 音声認識における読み精度を改善するシステム、方法、およびプログラム | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
JP2010020102A (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
JP6690484B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
JP5183120B2 (ja) | 平方根ディスカウンティングを使用した統計的言語による音声認識 | |
JP2006189730A (ja) | 音声対話方法および音声対話装置 | |
US20200372110A1 (en) | Method of creating a demographic based personalized pronunciation dictionary | |
JP4639990B2 (ja) | 音声対話装置及び音声理解結果生成方法 | |
US20150206539A1 (en) | Enhanced human machine interface through hybrid word recognition and dynamic speech synthesis tuning | |
JP4987530B2 (ja) | 音声認識辞書作成装置および音声認識装置 | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
JP2012255867A (ja) | 音声認識装置 | |
JP2011039468A (ja) | 電子辞書で音声認識を用いた単語探索装置及びその方法 | |
JP4930014B2 (ja) | 音声認識装置、および音声認識方法 | |
JP2007264229A (ja) | 対話装置 | |
WO2009147745A1 (ja) | 検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |