CN107871503A - 语音对话系统以及发声意图理解方法 - Google Patents
语音对话系统以及发声意图理解方法 Download PDFInfo
- Publication number
- CN107871503A CN107871503A CN201710894125.7A CN201710894125A CN107871503A CN 107871503 A CN107871503 A CN 107871503A CN 201710894125 A CN201710894125 A CN 201710894125A CN 107871503 A CN107871503 A CN 107871503A
- Authority
- CN
- China
- Prior art keywords
- sounding
- sentence
- user
- voice
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000004519 manufacturing process Methods 0.000 claims abstract description 21
- 230000004044 response Effects 0.000 claims description 46
- 238000013515 script Methods 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语音对话系统、发声意图理解方法以及计算机可读介质。语音对话系统具备:语音输入单元,获取用户发声;意图理解单元,对由所述语音输入单元获取到的语音的发声意图进行理解;对话语句制作单元,制作系统发声语句的文本;以及语音输出单元,将所述系统发声语句输出为语音数据,所述对话语句制作单元在制作系统发声语句的文本时,将标签插入到系统发声语句中的任意位置而制作,所述意图理解单元根据进行了用户发声的定时是在从所述语音输出单元输出与所述标签对应的位置的系统发声语句之前还是之后,对用户的发声意图进行理解。
Description
技术领域
本发明涉及语音对话系统,涉及与打断发声(barge-in utterance)对应的语音对话系统。
背景技术
在语音对话系统中,期望在系统发声与用户发声叠合时判定用户是否对当前的系统发声作出了应答。
专利文献1公开如下内容:在系统发声与用户发声重叠的情况下,根据作为对象的用户发声的长度、作为对象的用户发声与紧接在前面的发声的时间关系、系统的状态等判断作为对象的用户发声是否为针对对话系统的发声。根据该方法,能够区分需要对话系统应答的用户发声和如自言自语等那样不需要应答的用户发声。
但是,在专利文献1的方法中,即使判断出与系统发声重叠的用户发声是针对语音对话系统的发声,也无法判断该用户发声是否为对当前输出过程中的系统发声进行应答的发声。
用户发声能够分类为对当前输出过程中的系统发声进行应答的发声、对前一个系统发声进行应答的发声以及用户自发地对语音对话系统进行搭话的发声等。在系统发声与用户发声叠合的情况下,期望能够判断用户是否有对当前的系统发声进行应答的意图。
本发明的目的在于,在语音对话系统中,在系统发声与用户发声叠合时准确地判断用户的发声意图。
专利文献1:日本特开2014-77969号公报
发明内容
第一方案为一种语音对话系统,具备:
语音输入单元,获取用户发声;
意图理解单元,对由所述语音输入单元获取到的语音的发声意图进行理解;
对话语句制作单元,制作系统发声语句的文本;以及
语音输出单元,将所述系统发声语句输出为语音数据,
所述对话语句制作单元在制作系统发声语句的文本时,将标签嵌入到系统发声语句中的任意位置来制作系统发声语句的文本,
所述意图理解单元根据输入用户发声的定时在从所述语音输出单元输出与所述标签对应的位置的系统发声语句之前还是之后,对用户的发声意图进行理解。
这样,通过将标签嵌入到系统发声语句之中,能够根据用户发声的开始定时在与该标签对应的位置的文章(单词)的发声之前还是之后判定用户发声是否为对当前输出过程中的系统发声进行应答的发声。
在本方案中,如果输入用户发声的定时在从所述语音输出单元输出与所述标签对应的位置的系统发声语句之后,则所述意图理解单元理解为用户发声是对所述系统发声语句进行应答的发声;如果输入用户发声的定时在从所述语音输出单元输出与所述标签对应的位置的系统发声语句之前,则所述意图理解单元理解为用户发声不是对所述系统发声语句进行应答的发声。
另外,在本方案中,所述对话语句制作单元能够将所述系统发声语句生成为组合连接词部分和内容部分而成的语句,将所述标签插入到所述连接词部分与所述内容部分之间。其中,标签的位置也可以不在连接词部分与内容部分之间,例如,也可以是被设想为只要听到内容部分中的该位置之前的内容用户就能够理解系统发声的意图的位置。
另外,在本方案中,所述意图理解单元计算第1时间,该第1时间是从由所述语音输出单元输出所述系统发声语句至由所述语音输出单元输出所述标签之前的全部文本为止的时间;所述意图理解单元获取第2时间,该第2时间是从由所述语音输出单元输出所述系统发声语句至开始输入所述用户发声为止的时间;所述意图理解单元比较所述第1时间与所述第2时间,从而能够判断输入所述用户发声的定时在从所述语音输出单元输出与所述标签对应的位置的系统发声语句之前还是之后。
另外,在本方案中,期望所述语音输出单元不将所述系统发声语句的文本中的所述标签输出为语音。
此外,本发明还能够理解为具备上述单元的至少一部分的语音对话系统。另外,本发明还能够理解为执行上述处理的至少一部分的语音对话方法。进而,本发明还能够理解为用于使计算机执行该方法的计算机程序或者非临时地存储有该计算机程序的计算机可读存储介质。上述单元以及处理的每一个能够尽可能地相互组合来构成本发明。
根据本发明,在语音对话系统中,能够在系统发声与用户发声叠合时准确地判断用户的发声意图。
附图说明
图1是示出实施方式的语音对话系统的结构的图。
图2是示出变形例的语音对话系统的结构的图。
图3是说明实施方式的语音对话系统中的用户发声的意图理解的图。
图4是示出实施方式的语音对话系统中的对话语句制作以及输出处理的流程的例子的图。
图5是说明实施方式的语音对话系统中的用户发声的意图理解处理的流程的图。
具体实施方式
以下,参照附图,举例来详细说明本发明的优选的实施方式。以下说明的实施方式是将语音对话机器人用作语音对话终端的系统,但语音对话终端并不是非机器人不可,能够使用任意的信息处理装置、语音对话接口等。
<系统结构>
图1是示出本实施方式的语音对话系统(语音对话机器人)的结构的图。本实施方式的语音对话机器人100是包括麦克风(语音输入部)101、扬声器(语音输出部)107、微型处理器等运算装置、存储器以及通信装置等的计算机。利用微型处理器执行程序,从而语音对话机器人100作为语音识别部102、意图理解部103、对话管理部104、对话语句制作部105、语音合成部106发挥功能。虽未图示,但语音对话机器人100也可以具备图像获取装置(照相机)、可动关节部、移动单元等。
语音识别部102对从麦克风101输入的用户发声的语音数据进行噪音去除、声源分离、特征量抽取等处理,使用户发声的内容文本化。语音识别部102还获取对麦克风101进行用户发声的定时(时刻)。
此外,语音识别部102构成为能够理解在系统发声的期间发出的用户发声。系统发声过程中的用户发声被称为打断发声(中断发声(interrupting utterance))。语音识别部10 2对应于打断发声,从输入到麦克风101的语音数据中压制自己发声,从而能够取出用户发声而识别。
意图理解部103根据语音识别部102的识别结果(发声内容的文本、发声特征量等)来理解用户的发声意图。意图理解部103存储有用于理解发声内容的语料库或者辞典,通过参照语料库或者辞典来理解用户的发声。
意图理解部103还判断用户发出的打断发声是否为对当前的系统发声进行应答的发声。此外,关于打断发声不是对当前的系统发声进行应答的发声的情况包括打断发声是对当前的系统发声之前的系统发声进行应答的情况以及用户自发地对机器人进行搭话的情况这两种情况。稍后叙述判断打断发声是否为对当前的系统发声进行应答的发声的处理的详细内容。由意图理解部103得到的用户发声的发声意图理解的结果被送到对话管理部104以及对话语句制作部105。
对话管理部104中存储有过去在系统与用户之间进行的对话的历史。对话管理部104中不仅管理对话的内容,还管理在何种状况(例如,日期时间、地点)下进行了该对话。能够利用对话管理部104掌握在与用户之间进行了何种会话,能够参考过去的对话来生成应答。
对话语句制作部105从意图理解部103接受用户发声的意图理解的结果,制作对用户发声进行应答的发声(系统发声)的对话语句文本。在本说明书中,将系统发声的对话语句文本还称为系统发声语句或者系统对话语句。对话语句制作部105参照储存于对话管理部104的过去的对话的内容(也包括当前的对话内容)、用户信息等来制作系统对话语句。对话语句制作部105也可以保有对话脚本数据库,按照储存于数据库的对话脚本来制作应答语句。对话语句制作部105制作出的对话语句被送到对话管理部104,并进行存储。
在制作系统应答的对话语句文本时,嵌入用于告知用于判断用户的打断发声是否为对当前的发声进行应答的发声的定时的“标签”来制作。对话语句制作部105将应答语句制作成连接词部分与正文(内容部分)之和。此时,将标签插入到连接词与正文之间。例如,在衔接“哎哎”的连接词与“你的名字是?”的正文来制作文本的情况下,生成“哎哎,<1>你的名字是?”的文本。在这里,“<1>”相当于标签。另外,在衔接“这么说来”与“你知道明天的天气?”的情况下,为“这么说来,<2>你知道明天的天气?”。在这里,标签内的数字是确定标签的数字,但如果1个文章(应答)中只包含1个标签,则不一定要使用如数字那样的可变符号。
语音合成部106接收发声内容的文本,进行语音合成而生成应答语音数据。从扬声器107再生由语音合成部106生成的应答语音数据。此时,文本所包含的标签不输出为语音。
另外,语音合成部106计算发声内容的文本所包含的直至紧接在标签前面的语音输出完成的时刻、或者从文本的开头至紧接在标签前面的语音的输出所需的时间。能够根据发声内容的文本和发声速度计算该时刻或者时间。计算出的时间或者时刻被送到意图理解部103。
此外,语音对话机器人100并不是非要构成为1个装置不可。例如,如图2所示,能够由包括麦克风101、扬声器107、照相机、可动关节部等的机器人装置109(前端装置)和执行各种处理的智能手机110(或者其它计算机)这两个装置构成。在该情况下,机器人装置与计算机利用蓝牙(注册商标)等无线通信连接,机器人装置所获取到的数据被送到计算机,根据由计算机得到的处理结果,由机器人装置进行应答语句等的再生。
另外,并不是非要利用语音对话机器人100进行语音识别处理、对话语句制作处理,如图2所示,也可以在语音识别服务器200、对话服务器300中进行这些处理。另外,也可以利用1个服务器进行这些处理。在这样使用外部服务器进行处理的情况下,智能手机110(或者机器人装置109)控制与服务器之间的协作。
<处理>
图3是示意地说明在本实施方式中判断系统发声与用户发声叠合时的用户发声的意图的处理的图。在这里,处理如下例子:因为在系统发出“○○你的爱好是什么?”的发声301之后用户未回复应答,所以接着发出“哎哎,那么,你来自哪里?”的发声302。用户在比发声302的开始定时稍晚的定时发出“开车呀”的发声303。发声302与发声303重叠,需要判断用户发声303是对发声301进行应答的发声,还是对发声302进行应答的发声。
在这里,发声302的文本是由对话语句制作部105嵌入标签而制作出的,被制作成“哎哎,那么,<1>你来自哪里?”的文本。然后,在语音合成部106中计算从发声302的开始至紧接在标签<1>的前面的输出所需的时间A。此外,如上所述,标签不被输出为语音,但以下为了简化说明,有将直至紧接在标签前面的输出完成的定时称为标签的输出定时等记载为似乎标签被输出为语音的情况。
系统还能够获取发声302的开始与发声303的开始之间的时间B。在这里,如果用户的发声303的开始在标签输出定时之前(时间A≥时间B),则能够判断为用户的发声303是对系统先前的发声301进行应答的发声。这是因为如下缘故:由于将标签插入到应答语句的正文之前,所以应理解为正文输出之前的应答不是针对当前的发声302的应答,而是针对先前的发声301的应答。
另外,如果用户的发声303的开始在标签输出定时之后(时间A<时间B),则能够判断为用户的发声303是对系统当前的发声302进行应答的发声。这是因为应理解为在系统开始输出应答语句的正文之后,用户对当前的发声302进行了应答。
以下,参照图4以及图5的流程图,说明用于实现图3所示的处理的详细内容。
图4是示出语音对话机器人100中的对话语句的制作以及输出的处理的流程的流程图。在步骤S11中,对话语句制作部105确定与状况相应的对话脚本(会话模板)。这里所说的状况例如由用户发声的识别结果、此前对话的内容、当前的时刻或位置等各种因素确定。对话语句制作部105具有储存有多个对话脚本(会话模板)的对话脚本数据库,在对话脚本中记述系统发声的内容以及与设想的用户的应答相应的进一步的系统发声的内容。对话脚本中的系统发声的一部分内容被指定为根据用户的应答或其它状况来确定。对话语句制作部105选择适于当前状况的对话脚本。
在步骤S12中,对话语句制作部105根据选择出的对话脚本来确定发声语句的文本。发声语句文本的确定方法不作特别限定,但在这里,发声语句的文本最终被确定成连接词与正文的组合。连接词的例子是如“嗯”、“原来如此”、“这么说来”的简单回答、附和、开场白或者用户的发声内容的一部分的重叠。对话语句制作部105将标签插入到连接词与正文之间来制作发声语句的文本。例如,生成“哎哎,<1>你的名字是?”、“这么说来,<2>你知道明天的天气?”的文本。
此外,既可以将连接词、标签以及正文的组合储存于对话脚本(会话模板),也可以仅将正文储存于对话脚本,选择适当的连接词,与标签一起添加到正文。
在步骤S13中,在对话语句制作部105输出了所确定的发声文本时计算从发声开始至紧接在标签前面部分为止的发声所需的时间,并进行存储。能够根据语音合成处理中的发声速度的设定和发声文本的内容,求出从发声开始至紧接在标签前面为止的时间。
在步骤S14中,语音合成部106将发声语句文本变换为语音数据,从扬声器107输出。在步骤S15中,存储发声的开始定时。
图5是意图理解处理的流程图,在意图理解处理中判断用户的打断发声(即与系统发声叠合的用户发声)是否为意图对当前的系统发声进行应答的发声。此外,语音对话机器人100中的用户发声的意图理解处理还包含除了是否为对当前的系统发声进行应答的发声的判断以外的判断,但在这里,关注于是否为对当前的系统发声进行应答的发声进行说明。
在步骤S21中,从麦克风101获取用户的发声。此时,存储用户发声的开始定时。
在步骤S22中,意图理解部103比较从当前输出过程中的系统发声的发声开始定时至该系统发声内的标签的输出定时为止的期间的时间(图3中的时间A)、和从该系统发声的发声开始定时至用户发声的发声开始定时为止的期间的时间(图3中的时间B)。
如果用户发声在系统发声内的标签的输出开始定时之前即时间A≥时间B(S23-是),则在步骤S24中,意图理解部103判断为用户发声是对当前的系统发声的前1个系统发声进行应答的发声。
另一方面,如果用户发声在系统发声内的标签的输出开始定时之后即时间A<时间B(S23-否),则在步骤S25中,意图理解部103判断为用户发声是对当前的系统发声进行应答的发声。
<效果>
根据本实施方式,能够在用户发声与系统发声叠合的情况下,通过简单的处理判断该用户发声是否为针对当前的系统发声的应答。因而,能够更适当地实现系统与用户之间的对话。
<变形例>
在上述实施方式中,为了判断用户发声是否为对当前的系统发声进行应答的发声,仅考虑了用户发声的定时与标签的输出定时的比较结果,但也可以考虑其它要素而进行最终的判断。例如,可以考虑将前1个以及当前的系统发声的内容与用户的打断发声的内容的关联性考虑进来进行判断。如图3的例子所示,在系统接连发出“你的爱好是什么?”的询问和“你来自哪里?”的询问时,在用户说“开车呀”的情况下,不管用户发声的定时如何,都根据内容的关联性判断为是针对先前的系统发声(“你的爱好是什么?”)的应答。还优选这样考虑用户发声的定时与发声内容的关联性这两方来进行最终的判断。
另外,这里例举系统接连发出两个询问的例子进行了说明,但在系统开口发声的情况下也能够应用同样的处理。在该情况下,判断用户发声是对系统发声进行应答的发声还是自发地开口发出会话的发声。也就是说,在用户的打断发声不是对系统发声进行应答的发声的情况下,理解为用户意图开口会话。
另外,在对话语句的制作中使用了对话脚本(会话模板),但对话语句的制作方法不作特别限定。也可以不使用对话脚本而确定对话语句。另外,对话语句文本中的标签的插入位置不限于连接词与正文之间,只要插入到能够获得本发明的效果的位置即可。另外,也可以在1个应答语句之中插入多个标签,在该情况下,还能够根据用户发声的开始符合由标签规定的3个以上的区间中的哪部分来确定用户的发声意图。
在上述说明中,使用“标签”这样的用语,在应答语句文本中采用如“<1>”等的表达,但本发明中的“标签”是指定应答语句中的位置的标签,在应答语句文本中具体表达成什么样不作限定。为了确定应答语句中的位置而能够采用预先确定的任意的字符串或者基于预先确定的规则的任意的字符串,这些都相当于本发明中的“标签”。
<其它>
上述实施方式以及变形例的结构能够在不脱离本发明的技术的思想的范围内适当地组合利用。另外,本发明也可以在不脱离其技术的思想的范围适当地施加变更来实现。
Claims (11)
1.一种语音对话系统,其特征在于,具备:
语音输入单元,获取用户发声;
意图理解单元,对由所述语音输入单元获取到的语音的发声意图进行理解;
对话语句制作单元,制作系统发声语句的文本;以及
语音输出单元,将所述系统发声语句输出为语音数据,
所述对话语句制作单元在制作系统发声语句的文本时,将标签插入到系统发声语句中的任意位置来制作系统发声语句的文本,
所述意图理解单元根据输入用户发声的定时在从所述语音输出单元输出与所述标签对应的位置的系统发声语句之前还是之后,对用户的发声意图进行理解。
2.根据权利要求1所述的语音对话系统,其特征在于,
如果输入用户发声的定时在从所述语音输出单元输出与所述标签对应的位置的系统发声语句之后,则所述意图理解单元理解为用户发声是对所述系统发声语句进行应答的发声,
如果输入用户发声的定时在从所述语音输出单元输出与所述标签对应的位置的系统发声语句之前,则所述意图理解单元理解为用户发声不是对所述系统发声语句进行应答的发声。
3.根据权利要求1所述的语音对话系统,其特征在于,
所述对话语句制作单元将所述系统发声语句生成为组合连接词部分和内容部分而成的语句,将所述标签插入到所述连接词部分与所述内容部分之间。
4.根据权利要求1所述的语音对话系统,其特征在于,
所述意图理解单元计算第1时间,该第1时间是从由所述语音输出单元输出所述系统发声语句至由所述语音输出单元输出所述标签之前的全部文本为止的时间,
所述意图理解单元获取第2时间,该第2时间是从由所述语音输出单元输出所述系统发声语句至开始输入所述用户发声为止的时间,
所述意图理解单元比较所述第1时间与所述第2时间,从而判断输入所述用户发声的定时在从所述语音输出单元输出与所述标签对应的位置的系统发声语句之前还是之后。
5.根据权利要求1所述的语音对话系统,其特征在于,
所述语音输出单元不将所述系统发声语句的文本中的所述标签输出为语音。
6.一种发声意图理解方法,其特征在于,包括:
语音输入步骤,获取用户发声;
意图理解步骤,对在所述语音输入步骤中获取到的语音的发声意图进行理解;
对话语句制作步骤,制作系统发声语句的文本;以及
语音输出步骤,将所述系统发声语句输出为语音数据,
在所述对话语句制作步骤中,在制作系统发声语句的文本时,将标签插入到系统发声语句中的任意位置来制作系统发声语句的文本,
在所述意图理解步骤中,根据输入用户发声的定时在输出与所述标签对应的位置的系统发声语句之前还是之后,对用户的发声意图进行理解。
7.根据权利要求6所述的语音对话方法,其特征在于,
所述意图理解步骤包括如下步骤:
如果输入用户发声的定时在输出与所述标签对应的位置的系统发声语句之后,则理解为用户发声是对所述系统发声语句进行应答的发声;以及
如果输入用户发声的定时在输出与所述标签对应的位置的系统发声语句之前,则理解为用户发声不是对所述系统发声语句进行应答的发声。
8.根据权利要求6所述的语音对话方法,其特征在于,
在所述对话语句制作步骤中将所述系统发声语句生成为组合连接词部分和内容部分而成的语句,将所述标签插入到所述连接词部分与所述内容部分之间。
9.根据权利要求6所述的语音对话方法,其特征在于,
在所述意图理解步骤中,
计算第1时间,该第1时间是从输出所述系统发声语句至输出所述标签之前的全部文本为止的时间,
获取第2时间,该第2时间是从输出所述系统发声语句至开始输入所述用户发声为止的时间,
比较所述第1时间与所述第2时间,从而判断输入所述用户发声的定时在输出与所述标签对应的位置的系统发声语句之前还是之后。
10.根据权利要求6所述的语音对话方法,其特征在于,
在所述语音输出步骤中,不将所述系统发声语句的文本中的所述标签输出为语音。
11.一种计算机可读介质,其特征在于,
所述计算机可读介质非临时地储存有用于使计算机执行权利要求6记载的方法的各步骤的程序。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016189406A JP6515897B2 (ja) | 2016-09-28 | 2016-09-28 | 音声対話システムおよび発話意図理解方法 |
JP2016-189406 | 2016-09-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107871503A true CN107871503A (zh) | 2018-04-03 |
CN107871503B CN107871503B (zh) | 2023-02-17 |
Family
ID=61685640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710894125.7A Active CN107871503B (zh) | 2016-09-28 | 2017-09-28 | 语音对话系统以及发声意图理解方法 |
Country Status (3)
Country | Link |
---|---|
US (4) | US10319379B2 (zh) |
JP (1) | JP6515897B2 (zh) |
CN (1) | CN107871503B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111312229A (zh) * | 2018-11-26 | 2020-06-19 | 夏普株式会社 | 信息处理装置、信息处理方法以及记录介质 |
CN111475206A (zh) * | 2019-01-04 | 2020-07-31 | 优奈柯恩(北京)科技有限公司 | 用于唤醒可穿戴设备的方法及装置 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6428954B2 (ja) * | 2016-02-18 | 2018-11-28 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP6515897B2 (ja) | 2016-09-28 | 2019-05-22 | トヨタ自動車株式会社 | 音声対話システムおよび発話意図理解方法 |
JP2018054790A (ja) * | 2016-09-28 | 2018-04-05 | トヨタ自動車株式会社 | 音声対話システムおよび音声対話方法 |
US20210065708A1 (en) * | 2018-02-08 | 2021-03-04 | Sony Corporation | Information processing apparatus, information processing system, information processing method, and program |
JP6775545B2 (ja) * | 2018-05-09 | 2020-10-28 | 日本電信電話株式会社 | 対話データ生成装置、対話データ生成方法、およびプログラム |
JP6969491B2 (ja) * | 2018-05-11 | 2021-11-24 | トヨタ自動車株式会社 | 音声対話システム、音声対話方法及びプログラム |
JP7169096B2 (ja) * | 2018-06-18 | 2022-11-10 | 株式会社デンソーアイティーラボラトリ | 対話システム、対話方法、およびプログラム |
CN109285545A (zh) * | 2018-10-31 | 2019-01-29 | 北京小米移动软件有限公司 | 信息处理方法及装置 |
JP7512254B2 (ja) | 2019-03-26 | 2024-07-08 | 株式会社Nttドコモ | 音声対話システム、モデル生成装置、バージイン発話判定モデル及び音声対話プログラム |
CN115146653B (zh) * | 2022-07-21 | 2023-05-02 | 平安科技(深圳)有限公司 | 对话剧本构建方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020184031A1 (en) * | 2001-06-04 | 2002-12-05 | Hewlett Packard Company | Speech system barge-in control |
US7321856B1 (en) * | 2005-08-03 | 2008-01-22 | Microsoft Corporation | Handling of speech recognition in a declarative markup language |
WO2012150658A1 (ja) * | 2011-05-02 | 2012-11-08 | 旭化成株式会社 | 音声認識装置および音声認識方法 |
US8600753B1 (en) * | 2005-12-30 | 2013-12-03 | At&T Intellectual Property Ii, L.P. | Method and apparatus for combining text to speech and recorded prompts |
CN104464731A (zh) * | 2013-09-20 | 2015-03-25 | 株式会社东芝 | 数据收集装置及方法、语音对话装置及方法 |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6598018B1 (en) * | 1999-12-15 | 2003-07-22 | Matsushita Electric Industrial Co., Ltd. | Method for natural dialog interface to car devices |
US7158935B1 (en) * | 2000-11-15 | 2007-01-02 | At&T Corp. | Method and system for predicting problematic situations in a automated dialog |
US20020087312A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented conversation buffering method and system |
US7069213B2 (en) * | 2001-11-09 | 2006-06-27 | Netbytel, Inc. | Influencing a voice recognition matching operation with user barge-in time |
US8374879B2 (en) * | 2002-02-04 | 2013-02-12 | Microsoft Corporation | Systems and methods for managing interactions from multiple speech-enabled applications |
JP2003241797A (ja) * | 2002-02-22 | 2003-08-29 | Fujitsu Ltd | 音声対話システム |
US7246062B2 (en) * | 2002-04-08 | 2007-07-17 | Sbc Technology Resources, Inc. | Method and system for voice recognition menu navigation with error prevention and recovery |
US7197460B1 (en) * | 2002-04-23 | 2007-03-27 | At&T Corp. | System for handling frequently asked questions in a natural language dialog service |
JP4304959B2 (ja) * | 2002-10-31 | 2009-07-29 | セイコーエプソン株式会社 | 音声対話制御方法、音声対話制御装置および音声対話制御プログラム |
US20050015256A1 (en) * | 2003-05-29 | 2005-01-20 | Kargman James B. | Method and apparatus for ordering food items, and in particular, pizza |
US8826137B2 (en) * | 2003-08-14 | 2014-09-02 | Freedom Scientific, Inc. | Screen reader having concurrent communication of non-textual information |
US7853451B1 (en) * | 2003-12-18 | 2010-12-14 | At&T Intellectual Property Ii, L.P. | System and method of exploiting human-human data for spoken language understanding systems |
US7624016B2 (en) * | 2004-07-23 | 2009-11-24 | Microsoft Corporation | Method and apparatus for robustly locating user barge-ins in voice-activated command systems |
US7742911B2 (en) * | 2004-10-12 | 2010-06-22 | At&T Intellectual Property Ii, L.P. | Apparatus and method for spoken language understanding by using semantic role labeling |
WO2006069381A2 (en) * | 2004-12-22 | 2006-06-29 | Enterprise Integration Group | Turn-taking confidence |
JP4680691B2 (ja) * | 2005-06-15 | 2011-05-11 | 富士通株式会社 | 対話システム |
US7640160B2 (en) * | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US9318108B2 (en) * | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
EP2259252B1 (en) * | 2009-06-02 | 2012-08-01 | Nuance Communications, Inc. | Speech recognition method for selecting a combination of list elements via a speech input |
US8311838B2 (en) * | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
JP6066471B2 (ja) | 2012-10-12 | 2017-01-25 | 本田技研工業株式会社 | 対話システム及び対話システム向け発話の判別方法 |
US8977555B2 (en) | 2012-12-20 | 2015-03-10 | Amazon Technologies, Inc. | Identification of utterance subjects |
US20140278404A1 (en) * | 2013-03-15 | 2014-09-18 | Parlant Technology, Inc. | Audio merge tags |
US8862467B1 (en) * | 2013-12-11 | 2014-10-14 | Google Inc. | Contextual speech recognition |
JP6539940B2 (ja) * | 2013-12-19 | 2019-07-10 | 株式会社デンソー | 音声認識装置及び音声認識プログラム |
JP2015184563A (ja) * | 2014-03-25 | 2015-10-22 | シャープ株式会社 | 対話型家電システム、サーバ装置、対話型家電機器、家電システムが対話を行なうための方法、当該方法をコンピュータに実現させるためのプログラム |
KR101770187B1 (ko) * | 2014-03-27 | 2017-09-06 | 한국전자통신연구원 | 음성 대화를 통한 네비게이션 제어 장치 및 방법 |
US10289433B2 (en) * | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9390706B2 (en) * | 2014-06-19 | 2016-07-12 | Mattersight Corporation | Personality-based intelligent personal assistant system and methods |
US9792901B1 (en) * | 2014-12-11 | 2017-10-17 | Amazon Technologies, Inc. | Multiple-source speech dialog input |
US10311862B2 (en) * | 2015-12-23 | 2019-06-04 | Rovi Guides, Inc. | Systems and methods for conversations with devices about media using interruptions and changes of subjects |
JP2018054790A (ja) * | 2016-09-28 | 2018-04-05 | トヨタ自動車株式会社 | 音声対話システムおよび音声対話方法 |
JP6515897B2 (ja) * | 2016-09-28 | 2019-05-22 | トヨタ自動車株式会社 | 音声対話システムおよび発話意図理解方法 |
-
2016
- 2016-09-28 JP JP2016189406A patent/JP6515897B2/ja active Active
-
2017
- 2017-09-14 US US15/704,691 patent/US10319379B2/en active Active
- 2017-09-28 CN CN201710894125.7A patent/CN107871503B/zh active Active
-
2019
- 2019-04-22 US US16/390,261 patent/US11087757B2/en active Active
-
2021
- 2021-07-02 US US17/366,270 patent/US11900932B2/en active Active
-
2023
- 2023-12-14 US US18/539,604 patent/US20240112678A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020184031A1 (en) * | 2001-06-04 | 2002-12-05 | Hewlett Packard Company | Speech system barge-in control |
US7321856B1 (en) * | 2005-08-03 | 2008-01-22 | Microsoft Corporation | Handling of speech recognition in a declarative markup language |
US8600753B1 (en) * | 2005-12-30 | 2013-12-03 | At&T Intellectual Property Ii, L.P. | Method and apparatus for combining text to speech and recorded prompts |
WO2012150658A1 (ja) * | 2011-05-02 | 2012-11-08 | 旭化成株式会社 | 音声認識装置および音声認識方法 |
CN104464731A (zh) * | 2013-09-20 | 2015-03-25 | 株式会社东芝 | 数据收集装置及方法、语音对话装置及方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111312229A (zh) * | 2018-11-26 | 2020-06-19 | 夏普株式会社 | 信息处理装置、信息处理方法以及记录介质 |
CN111475206A (zh) * | 2019-01-04 | 2020-07-31 | 优奈柯恩(北京)科技有限公司 | 用于唤醒可穿戴设备的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US11087757B2 (en) | 2021-08-10 |
US11900932B2 (en) | 2024-02-13 |
US20240112678A1 (en) | 2024-04-04 |
JP2018054791A (ja) | 2018-04-05 |
US20210335362A1 (en) | 2021-10-28 |
US20190244620A1 (en) | 2019-08-08 |
CN107871503B (zh) | 2023-02-17 |
US20180090144A1 (en) | 2018-03-29 |
US10319379B2 (en) | 2019-06-11 |
JP6515897B2 (ja) | 2019-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107871503A (zh) | 语音对话系统以及发声意图理解方法 | |
US10911596B1 (en) | Voice user interface for wired communications system | |
JP6465077B2 (ja) | 音声対話装置および音声対話方法 | |
US20180090132A1 (en) | Voice dialogue system and voice dialogue method | |
US10194023B1 (en) | Voice user interface for wired communications system | |
US20060229873A1 (en) | Methods and apparatus for adapting output speech in accordance with context of communication | |
KR20190046631A (ko) | 자연어 프로세싱을 위한 시스템 및 방법 | |
US10326886B1 (en) | Enabling additional endpoints to connect to audio mixing device | |
JP2014191030A (ja) | 音声認識端末およびコンピュータ端末を用いる音声認識方法 | |
CN106230689A (zh) | 一种语音信息交互的方法、装置及服务器 | |
JP2019208138A (ja) | 発話認識装置、及びコンピュータプログラム | |
CN111261151A (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
GB2516942A (en) | Text to Speech Conversion | |
US20060190260A1 (en) | Selecting an order of elements for a speech synthesis | |
JP2018049132A (ja) | 音声対話システムおよび音声対話方法 | |
US10866948B2 (en) | Address book management apparatus using speech recognition, vehicle, system and method thereof | |
US8355484B2 (en) | Methods and apparatus for masking latency in text-to-speech systems | |
JP6468258B2 (ja) | 音声対話装置および音声対話方法 | |
JP2017167270A (ja) | 音声処理装置および音声処理方法 | |
JP6904225B2 (ja) | 情報処理装置 | |
JP2015087649A (ja) | 発話制御装置、方法、発話システム、プログラム、及び発話装置 | |
CN116935851A (zh) | 用于语音转换的方法及装置、语音转换系统、存储介质 | |
JP4658022B2 (ja) | 音声認識システム | |
JP2017122930A (ja) | 発話制御装置、方法、発話システム、及びプログラム | |
CN111596833A (zh) | 一种技能话术缠绕处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |