CN107871503B - 语音对话系统以及发声意图理解方法 - Google Patents

语音对话系统以及发声意图理解方法 Download PDF

Info

Publication number
CN107871503B
CN107871503B CN201710894125.7A CN201710894125A CN107871503B CN 107871503 B CN107871503 B CN 107871503B CN 201710894125 A CN201710894125 A CN 201710894125A CN 107871503 B CN107871503 B CN 107871503B
Authority
CN
China
Prior art keywords
utterance
sentence
user
voice
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710894125.7A
Other languages
English (en)
Other versions
CN107871503A (zh
Inventor
池野笃司
神宫司雄祐
西岛敏文
片冈史宪
刀根川浩巳
梅山伦秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN107871503A publication Critical patent/CN107871503A/zh
Application granted granted Critical
Publication of CN107871503B publication Critical patent/CN107871503B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语音对话系统、发声意图理解方法以及计算机可读介质。语音对话系统具备:语音输入单元,获取用户发声;意图理解单元,对由所述语音输入单元获取到的语音的发声意图进行理解;对话语句制作单元,制作系统发声语句的文本;以及语音输出单元,将所述系统发声语句输出为语音数据,所述对话语句制作单元在制作系统发声语句的文本时,将标签插入到系统发声语句中的任意位置而制作,所述意图理解单元根据进行了用户发声的定时是在从所述语音输出单元输出与所述标签对应的位置的系统发声语句之前还是之后,对用户的发声意图进行理解。

Description

语音对话系统以及发声意图理解方法
技术领域
本发明涉及语音对话系统,涉及与打断发声(barge-in utterance)对应的语音对话系统。
背景技术
在语音对话系统中,期望在系统发声与用户发声叠合时判定用户是否对当前的系统发声作出了应答。
专利文献1公开如下内容:在系统发声与用户发声重叠的情况下,根据作为对象的用户发声的长度、作为对象的用户发声与紧接在前面的发声的时间关系、系统的状态等判断作为对象的用户发声是否为针对对话系统的发声。根据该方法,能够区分需要对话系统应答的用户发声和如自言自语等那样不需要应答的用户发声。
但是,在专利文献1的方法中,即使判断出与系统发声重叠的用户发声是针对语音对话系统的发声,也无法判断该用户发声是否为对当前输出过程中的系统发声进行应答的发声。
用户发声能够分类为对当前输出过程中的系统发声进行应答的发声、对前一个系统发声进行应答的发声以及用户自发地对语音对话系统进行搭话的发声等。在系统发声与用户发声叠合的情况下,期望能够判断用户是否有对当前的系统发声进行应答的意图。
本发明的目的在于,在语音对话系统中,在系统发声与用户发声叠合时准确地判断用户的发声意图。
专利文献1:日本特开2014-77969号公报
发明内容
第一方案为一种语音对话系统,具备:
语音输入单元,获取用户发声;
意图理解单元,对由所述语音输入单元获取到的语音的发声意图进行理解;
对话语句制作单元,制作系统发声语句的文本;以及
语音输出单元,将所述系统发声语句输出为语音数据,
所述对话语句制作单元在制作系统发声语句的文本时,将标签嵌入到系统发声语句中的任意位置来制作系统发声语句的文本,
所述意图理解单元根据输入用户发声的定时在从所述语音输出单元输出与所述标签对应的位置的系统发声语句之前还是之后,对用户的发声意图进行理解。
这样,通过将标签嵌入到系统发声语句之中,能够根据用户发声的开始定时在与该标签对应的位置的文章(单词)的发声之前还是之后判定用户发声是否为对当前输出过程中的系统发声进行应答的发声。
在本方案中,如果输入用户发声的定时在从所述语音输出单元输出与所述标签对应的位置的系统发声语句之后,则所述意图理解单元理解为用户发声是对所述系统发声语句进行应答的发声;如果输入用户发声的定时在从所述语音输出单元输出与所述标签对应的位置的系统发声语句之前,则所述意图理解单元理解为用户发声不是对所述系统发声语句进行应答的发声。
另外,在本方案中,所述对话语句制作单元能够将所述系统发声语句生成为组合连接词部分和内容部分而成的语句,将所述标签插入到所述连接词部分与所述内容部分之间。其中,标签的位置也可以不在连接词部分与内容部分之间,例如,也可以是被设想为只要听到内容部分中的该位置之前的内容用户就能够理解系统发声的意图的位置。
另外,在本方案中,所述意图理解单元计算第1时间,该第1时间是从由所述语音输出单元输出所述系统发声语句至由所述语音输出单元输出所述标签之前的全部文本为止的时间;所述意图理解单元获取第2时间,该第2时间是从由所述语音输出单元输出所述系统发声语句至开始输入所述用户发声为止的时间;所述意图理解单元比较所述第1时间与所述第2时间,从而能够判断输入所述用户发声的定时在从所述语音输出单元输出与所述标签对应的位置的系统发声语句之前还是之后。
另外,在本方案中,期望所述语音输出单元不将所述系统发声语句的文本中的所述标签输出为语音。
此外,本发明还能够理解为具备上述单元的至少一部分的语音对话系统。另外,本发明还能够理解为执行上述处理的至少一部分的语音对话方法。进而,本发明还能够理解为用于使计算机执行该方法的计算机程序或者非临时地存储有该计算机程序的计算机可读存储介质。上述单元以及处理的每一个能够尽可能地相互组合来构成本发明。
根据本发明,在语音对话系统中,能够在系统发声与用户发声叠合时准确地判断用户的发声意图。
附图说明
图1是示出实施方式的语音对话系统的结构的图。
图2是示出变形例的语音对话系统的结构的图。
图3是说明实施方式的语音对话系统中的用户发声的意图理解的图。
图4是示出实施方式的语音对话系统中的对话语句制作以及输出处理的流程的例子的图。
图5是说明实施方式的语音对话系统中的用户发声的意图理解处理的流程的图。
具体实施方式
以下,参照附图,举例来详细说明本发明的优选的实施方式。以下说明的实施方式是将语音对话机器人用作语音对话终端的系统,但语音对话终端并不是非机器人不可,能够使用任意的信息处理装置、语音对话接口等。
<系统结构>
图1是示出本实施方式的语音对话系统(语音对话机器人)的结构的图。本实施方式的语音对话机器人100是包括麦克风(语音输入部)101、扬声器(语音输出部)107、微型处理器等运算装置、存储器以及通信装置等的计算机。利用微型处理器执行程序,从而语音对话机器人100作为语音识别部102、意图理解部103、对话管理部104、对话语句制作部105、语音合成部106发挥功能。虽未图示,但语音对话机器人100也可以具备图像获取装置(照相机)、可动关节部、移动单元等。
语音识别部102对从麦克风101输入的用户发声的语音数据进行噪音去除、声源分离、特征量抽取等处理,使用户发声的内容文本化。语音识别部102还获取对麦克风101进行用户发声的定时(时刻)。
此外,语音识别部102构成为能够理解在系统发声的期间发出的用户发声。系统发声过程中的用户发声被称为打断发声(中断发声(interrupting utterance))。语音识别部10 2对应于打断发声,从输入到麦克风101的语音数据中压制自己发声,从而能够取出用户发声而识别。
意图理解部103根据语音识别部102的识别结果(发声内容的文本、发声特征量等)来理解用户的发声意图。意图理解部103存储有用于理解发声内容的语料库或者辞典,通过参照语料库或者辞典来理解用户的发声。
意图理解部103还判断用户发出的打断发声是否为对当前的系统发声进行应答的发声。此外,关于打断发声不是对当前的系统发声进行应答的发声的情况包括打断发声是对当前的系统发声之前的系统发声进行应答的情况以及用户自发地对机器人进行搭话的情况这两种情况。稍后叙述判断打断发声是否为对当前的系统发声进行应答的发声的处理的详细内容。由意图理解部103得到的用户发声的发声意图理解的结果被送到对话管理部104以及对话语句制作部105。
对话管理部104中存储有过去在系统与用户之间进行的对话的历史。对话管理部104中不仅管理对话的内容,还管理在何种状况(例如,日期时间、地点)下进行了该对话。能够利用对话管理部104掌握在与用户之间进行了何种会话,能够参考过去的对话来生成应答。
对话语句制作部105从意图理解部103接受用户发声的意图理解的结果,制作对用户发声进行应答的发声(系统发声)的对话语句文本。在本说明书中,将系统发声的对话语句文本还称为系统发声语句或者系统对话语句。对话语句制作部105参照储存于对话管理部104的过去的对话的内容(也包括当前的对话内容)、用户信息等来制作系统对话语句。对话语句制作部105也可以保有对话脚本数据库,按照储存于数据库的对话脚本来制作应答语句。对话语句制作部105制作出的对话语句被送到对话管理部104,并进行存储。
在制作系统应答的对话语句文本时,嵌入用于告知用于判断用户的打断发声是否为对当前的发声进行应答的发声的定时的“标签”来制作。对话语句制作部105将应答语句制作成连接词部分与正文(内容部分)之和。此时,将标签插入到连接词与正文之间。例如,在衔接“哎哎”的连接词与“你的名字是?”的正文来制作文本的情况下,生成“哎哎,<1>你的名字是?”的文本。在这里,“<1>”相当于标签。另外,在衔接“这么说来”与“你知道明天的天气?”的情况下,为“这么说来,<2>你知道明天的天气?”。在这里,标签内的数字是确定标签的数字,但如果1个文章(应答)中只包含1个标签,则不一定要使用如数字那样的可变符号。
语音合成部106接收发声内容的文本,进行语音合成而生成应答语音数据。从扬声器107再生由语音合成部106生成的应答语音数据。此时,文本所包含的标签不输出为语音。
另外,语音合成部106计算发声内容的文本所包含的直至紧接在标签前面的语音输出完成的时刻、或者从文本的开头至紧接在标签前面的语音的输出所需的时间。能够根据发声内容的文本和发声速度计算该时刻或者时间。计算出的时间或者时刻被送到意图理解部103。
此外,语音对话机器人100并不是非要构成为1个装置不可。例如,如图2所示,能够由包括麦克风101、扬声器107、照相机、可动关节部等的机器人装置109(前端装置)和执行各种处理的智能手机110(或者其它计算机)这两个装置构成。在该情况下,机器人装置与计算机利用蓝牙(注册商标)等无线通信连接,机器人装置所获取到的数据被送到计算机,根据由计算机得到的处理结果,由机器人装置进行应答语句等的再生。
另外,并不是非要利用语音对话机器人100进行语音识别处理、对话语句制作处理,如图2所示,也可以在语音识别服务器200、对话服务器300中进行这些处理。另外,也可以利用1个服务器进行这些处理。在这样使用外部服务器进行处理的情况下,智能手机110(或者机器人装置109)控制与服务器之间的协作。
<处理>
图3是示意地说明在本实施方式中判断系统发声与用户发声叠合时的用户发声的意图的处理的图。在这里,处理如下例子:因为在系统发出“○○你的爱好是什么?”的发声301之后用户未回复应答,所以接着发出“哎哎,那么,你来自哪里?”的发声302。用户在比发声302的开始定时稍晚的定时发出“开车呀”的发声303。发声302与发声303重叠,需要判断用户发声303是对发声301进行应答的发声,还是对发声302进行应答的发声。
在这里,发声302的文本是由对话语句制作部105嵌入标签而制作出的,被制作成“哎哎,那么,<1>你来自哪里?”的文本。然后,在语音合成部106中计算从发声302的开始至紧接在标签<1>的前面的输出所需的时间A。此外,如上所述,标签不被输出为语音,但以下为了简化说明,有将直至紧接在标签前面的输出完成的定时称为标签的输出定时等记载为似乎标签被输出为语音的情况。
系统还能够获取发声302的开始与发声303的开始之间的时间B。在这里,如果用户的发声303的开始在标签输出定时之前(时间A≥时间B),则能够判断为用户的发声303是对系统先前的发声301进行应答的发声。这是因为如下缘故:由于将标签插入到应答语句的正文之前,所以应理解为正文输出之前的应答不是针对当前的发声302的应答,而是针对先前的发声301的应答。
另外,如果用户的发声303的开始在标签输出定时之后(时间A<时间B),则能够判断为用户的发声303是对系统当前的发声302进行应答的发声。这是因为应理解为在系统开始输出应答语句的正文之后,用户对当前的发声302进行了应答。
以下,参照图4以及图5的流程图,说明用于实现图3所示的处理的详细内容。
图4是示出语音对话机器人100中的对话语句的制作以及输出的处理的流程的流程图。在步骤S11中,对话语句制作部105确定与状况相应的对话脚本(会话模板)。这里所说的状况例如由用户发声的识别结果、此前对话的内容、当前的时刻或位置等各种因素确定。对话语句制作部105具有储存有多个对话脚本(会话模板)的对话脚本数据库,在对话脚本中记述系统发声的内容以及与设想的用户的应答相应的进一步的系统发声的内容。对话脚本中的系统发声的一部分内容被指定为根据用户的应答或其它状况来确定。对话语句制作部105选择适于当前状况的对话脚本。
在步骤S12中,对话语句制作部105根据选择出的对话脚本来确定发声语句的文本。发声语句文本的确定方法不作特别限定,但在这里,发声语句的文本最终被确定成连接词与正文的组合。连接词的例子是如“嗯”、“原来如此”、“这么说来”的简单回答、附和、开场白或者用户的发声内容的一部分的重叠。对话语句制作部105将标签插入到连接词与正文之间来制作发声语句的文本。例如,生成“哎哎,<1>你的名字是?”、“这么说来,<2>你知道明天的天气?”的文本。
此外,既可以将连接词、标签以及正文的组合储存于对话脚本(会话模板),也可以仅将正文储存于对话脚本,选择适当的连接词,与标签一起添加到正文。
在步骤S13中,在对话语句制作部105输出了所确定的发声文本时计算从发声开始至紧接在标签前面部分为止的发声所需的时间,并进行存储。能够根据语音合成处理中的发声速度的设定和发声文本的内容,求出从发声开始至紧接在标签前面为止的时间。
在步骤S14中,语音合成部106将发声语句文本变换为语音数据,从扬声器107输出。在步骤S15中,存储发声的开始定时。
图5是意图理解处理的流程图,在意图理解处理中判断用户的打断发声(即与系统发声叠合的用户发声)是否为意图对当前的系统发声进行应答的发声。此外,语音对话机器人100中的用户发声的意图理解处理还包含除了是否为对当前的系统发声进行应答的发声的判断以外的判断,但在这里,关注于是否为对当前的系统发声进行应答的发声进行说明。
在步骤S21中,从麦克风101获取用户的发声。此时,存储用户发声的开始定时。
在步骤S22中,意图理解部103比较从当前输出过程中的系统发声的发声开始定时至该系统发声内的标签的输出定时为止的期间的时间(图3中的时间A)、和从该系统发声的发声开始定时至用户发声的发声开始定时为止的期间的时间(图3中的时间B)。
如果用户发声在系统发声内的标签的输出开始定时之前即时间A≥时间B(S23-是),则在步骤S24中,意图理解部103判断为用户发声是对当前的系统发声的前1个系统发声进行应答的发声。
另一方面,如果用户发声在系统发声内的标签的输出开始定时之后即时间A<时间B(S23-否),则在步骤S25中,意图理解部103判断为用户发声是对当前的系统发声进行应答的发声。
<效果>
根据本实施方式,能够在用户发声与系统发声叠合的情况下,通过简单的处理判断该用户发声是否为针对当前的系统发声的应答。因而,能够更适当地实现系统与用户之间的对话。
<变形例>
在上述实施方式中,为了判断用户发声是否为对当前的系统发声进行应答的发声,仅考虑了用户发声的定时与标签的输出定时的比较结果,但也可以考虑其它要素而进行最终的判断。例如,可以考虑将前1个以及当前的系统发声的内容与用户的打断发声的内容的关联性考虑进来进行判断。如图3的例子所示,在系统接连发出“你的爱好是什么?”的询问和“你来自哪里?”的询问时,在用户说“开车呀”的情况下,不管用户发声的定时如何,都根据内容的关联性判断为是针对先前的系统发声(“你的爱好是什么?”)的应答。还优选这样考虑用户发声的定时与发声内容的关联性这两方来进行最终的判断。
另外,这里例举系统接连发出两个询问的例子进行了说明,但在系统开口发声的情况下也能够应用同样的处理。在该情况下,判断用户发声是对系统发声进行应答的发声还是自发地开口发出会话的发声。也就是说,在用户的打断发声不是对系统发声进行应答的发声的情况下,理解为用户意图开口会话。
另外,在对话语句的制作中使用了对话脚本(会话模板),但对话语句的制作方法不作特别限定。也可以不使用对话脚本而确定对话语句。另外,对话语句文本中的标签的插入位置不限于连接词与正文之间,只要插入到能够获得本发明的效果的位置即可。另外,也可以在1个应答语句之中插入多个标签,在该情况下,还能够根据用户发声的开始符合由标签规定的3个以上的区间中的哪部分来确定用户的发声意图。
在上述说明中,使用“标签”这样的用语,在应答语句文本中采用如“<1>”等的表达,但本发明中的“标签”是指定应答语句中的位置的标签,在应答语句文本中具体表达成什么样不作限定。为了确定应答语句中的位置而能够采用预先确定的任意的字符串或者基于预先确定的规则的任意的字符串,这些都相当于本发明中的“标签”。
<其它>
上述实施方式以及变形例的结构能够在不脱离本发明的技术的思想的范围内适当地组合利用。另外,本发明也可以在不脱离其技术的思想的范围适当地施加变更来实现。

Claims (9)

1.一种语音对话系统,其特征在于,具备:
语音输入单元,获取用户发声;
意图理解单元,对由所述语音输入单元获取到的语音的发声意图进行理解;
对话语句制作单元,制作系统发声语句的文本;以及
语音输出单元,将所述系统发声语句输出为语音数据,
所述对话语句制作单元在制作系统发声语句的文本时,将标签插入到系统发声语句中的任意位置来制作系统发声语句的文本,
所述意图理解单元根据输入用户发声的定时在从所述语音输出单元输出与所述标签对应的位置的系统发声语句之前还是之后,对用户的发声意图进行理解,
其中,所述对话语句制作单元将所述系统发声语句生成为组合连接词部分和内容部分而成的语句,将所述标签插入到所述连接词部分与所述内容部分之间,所述连接词部分包括如下中的一个:附和、开场白、先前获取的用户发声的一部分的重叠。
2.根据权利要求1所述的语音对话系统,其特征在于,
如果输入用户发声的定时在从所述语音输出单元输出与所述标签对应的位置的系统发声语句之后,则所述意图理解单元理解为用户发声是对所述系统发声语句进行应答的发声,
如果输入用户发声的定时在从所述语音输出单元输出与所述标签对应的位置的系统发声语句之前,则所述意图理解单元理解为用户发声不是对所述系统发声语句进行应答的发声。
3.根据权利要求1所述的语音对话系统,其特征在于,
所述意图理解单元计算第1时间,该第1时间是从由所述语音输出单元输出所述系统发声语句至由所述语音输出单元输出所述标签之前的全部文本为止的时间,
所述意图理解单元获取第2时间,该第2时间是从由所述语音输出单元输出所述系统发声语句至开始输入所述用户发声为止的时间,
所述意图理解单元比较所述第1时间与所述第2时间,从而判断输入所述用户发声的定时在从所述语音输出单元输出与所述标签对应的位置的系统发声语句之前还是之后。
4.根据权利要求1所述的语音对话系统,其特征在于,
所述语音输出单元不将所述系统发声语句的文本中的所述标签输出为语音。
5.一种发声意图理解方法,其特征在于,包括:
语音输入步骤,获取用户发声;
意图理解步骤,对在所述语音输入步骤中获取到的语音的发声意图进行理解;
对话语句制作步骤,制作系统发声语句的文本;以及
语音输出步骤,将所述系统发声语句输出为语音数据,
在所述对话语句制作步骤中,在制作系统发声语句的文本时,将标签插入到系统发声语句中的任意位置来制作系统发声语句的文本,
在所述意图理解步骤中,根据输入用户发声的定时在输出与所述标签对应的位置的系统发声语句之前还是之后,对用户的发声意图进行理解,
其中,在所述对话语句制作步骤中,将所述系统发声语句生成为组合连接词部分和内容部分而成的语句,将所述标签插入到所述连接词部分与所述内容部分之间,所述连接词部分包括如下中的一个:附和、开场白、先前获取的用户发声的一部分的重叠。
6.根据权利要求5所述的发声意图理解方法,其特征在于,
所述意图理解步骤包括如下步骤:
如果输入用户发声的定时在输出与所述标签对应的位置的系统发声语句之后,则理解为用户发声是对所述系统发声语句进行应答的发声;以及
如果输入用户发声的定时在输出与所述标签对应的位置的系统发声语句之前,则理解为用户发声不是对所述系统发声语句进行应答的发声。
7.根据权利要求5所述的发声意图理解方法,其特征在于,
在所述意图理解步骤中,
计算第1时间,该第1时间是从输出所述系统发声语句至输出所述标签之前的全部文本为止的时间,
获取第2时间,该第2时间是从输出所述系统发声语句至开始输入所述用户发声为止的时间,
比较所述第1时间与所述第2时间,从而判断输入所述用户发声的定时在输出与所述标签对应的位置的系统发声语句之前还是之后。
8.根据权利要求5所述的发声意图理解方法,其特征在于,
在所述语音输出步骤中,不将所述系统发声语句的文本中的所述标签输出为语音。
9.一种计算机可读介质,其特征在于,
所述计算机可读介质非临时地储存有用于使计算机执行权利要求5记载的方法的各步骤的程序。
CN201710894125.7A 2016-09-28 2017-09-28 语音对话系统以及发声意图理解方法 Active CN107871503B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-189406 2016-09-28
JP2016189406A JP6515897B2 (ja) 2016-09-28 2016-09-28 音声対話システムおよび発話意図理解方法

Publications (2)

Publication Number Publication Date
CN107871503A CN107871503A (zh) 2018-04-03
CN107871503B true CN107871503B (zh) 2023-02-17

Family

ID=61685640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710894125.7A Active CN107871503B (zh) 2016-09-28 2017-09-28 语音对话系统以及发声意图理解方法

Country Status (3)

Country Link
US (4) US10319379B2 (zh)
JP (1) JP6515897B2 (zh)
CN (1) CN107871503B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10514881B2 (en) * 2016-02-18 2019-12-24 Sony Corporation Information processing device, information processing method, and program
JP2018054790A (ja) * 2016-09-28 2018-04-05 トヨタ自動車株式会社 音声対話システムおよび音声対話方法
JP6515897B2 (ja) * 2016-09-28 2019-05-22 トヨタ自動車株式会社 音声対話システムおよび発話意図理解方法
US20210065708A1 (en) * 2018-02-08 2021-03-04 Sony Corporation Information processing apparatus, information processing system, information processing method, and program
JP6969491B2 (ja) * 2018-05-11 2021-11-24 トヨタ自動車株式会社 音声対話システム、音声対話方法及びプログラム
JP7169096B2 (ja) * 2018-06-18 2022-11-10 株式会社デンソーアイティーラボラトリ 対話システム、対話方法、およびプログラム
CN109285545A (zh) * 2018-10-31 2019-01-29 北京小米移动软件有限公司 信息处理方法及装置
JP2020086943A (ja) * 2018-11-26 2020-06-04 シャープ株式会社 情報処理装置、情報処理方法、および、プログラム
CN111475206B (zh) * 2019-01-04 2023-04-11 优奈柯恩(北京)科技有限公司 用于唤醒可穿戴设备的方法及装置
CN115146653B (zh) * 2022-07-21 2023-05-02 平安科技(深圳)有限公司 对话剧本构建方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7321856B1 (en) * 2005-08-03 2008-01-22 Microsoft Corporation Handling of speech recognition in a declarative markup language
WO2012150658A1 (ja) * 2011-05-02 2012-11-08 旭化成株式会社 音声認識装置および音声認識方法
US8600753B1 (en) * 2005-12-30 2013-12-03 At&T Intellectual Property Ii, L.P. Method and apparatus for combining text to speech and recorded prompts
CN104464731A (zh) * 2013-09-20 2015-03-25 株式会社东芝 数据收集装置及方法、语音对话装置及方法

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6598018B1 (en) * 1999-12-15 2003-07-22 Matsushita Electric Industrial Co., Ltd. Method for natural dialog interface to car devices
US6941266B1 (en) * 2000-11-15 2005-09-06 At&T Corp. Method and system for predicting problematic dialog situations in a task classification system
US20020087312A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented conversation buffering method and system
GB0113583D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Speech system barge-in control
US7069213B2 (en) * 2001-11-09 2006-06-27 Netbytel, Inc. Influencing a voice recognition matching operation with user barge-in time
US8374879B2 (en) * 2002-02-04 2013-02-12 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
JP2003241797A (ja) * 2002-02-22 2003-08-29 Fujitsu Ltd 音声対話システム
US7246062B2 (en) * 2002-04-08 2007-07-17 Sbc Technology Resources, Inc. Method and system for voice recognition menu navigation with error prevention and recovery
US7197460B1 (en) * 2002-04-23 2007-03-27 At&T Corp. System for handling frequently asked questions in a natural language dialog service
JP4304959B2 (ja) * 2002-10-31 2009-07-29 セイコーエプソン株式会社 音声対話制御方法、音声対話制御装置および音声対話制御プログラム
US20050015256A1 (en) * 2003-05-29 2005-01-20 Kargman James B. Method and apparatus for ordering food items, and in particular, pizza
US8826137B2 (en) * 2003-08-14 2014-09-02 Freedom Scientific, Inc. Screen reader having concurrent communication of non-textual information
US7853451B1 (en) * 2003-12-18 2010-12-14 At&T Intellectual Property Ii, L.P. System and method of exploiting human-human data for spoken language understanding systems
US7624016B2 (en) * 2004-07-23 2009-11-24 Microsoft Corporation Method and apparatus for robustly locating user barge-ins in voice-activated command systems
US7742911B2 (en) * 2004-10-12 2010-06-22 At&T Intellectual Property Ii, L.P. Apparatus and method for spoken language understanding by using semantic role labeling
US7809569B2 (en) * 2004-12-22 2010-10-05 Enterprise Integration Group, Inc. Turn-taking confidence
JP4680691B2 (ja) * 2005-06-15 2011-05-11 富士通株式会社 対話システム
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
EP2259252B1 (en) * 2009-06-02 2012-08-01 Nuance Communications, Inc. Speech recognition method for selecting a combination of list elements via a speech input
US8311838B2 (en) * 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
JP6066471B2 (ja) 2012-10-12 2017-01-25 本田技研工業株式会社 対話システム及び対話システム向け発話の判別方法
US8977555B2 (en) 2012-12-20 2015-03-10 Amazon Technologies, Inc. Identification of utterance subjects
US20140278404A1 (en) * 2013-03-15 2014-09-18 Parlant Technology, Inc. Audio merge tags
US8862467B1 (en) * 2013-12-11 2014-10-14 Google Inc. Contextual speech recognition
JP6539940B2 (ja) * 2013-12-19 2019-07-10 株式会社デンソー 音声認識装置及び音声認識プログラム
JP2015184563A (ja) * 2014-03-25 2015-10-22 シャープ株式会社 対話型家電システム、サーバ装置、対話型家電機器、家電システムが対話を行なうための方法、当該方法をコンピュータに実現させるためのプログラム
KR101770187B1 (ko) * 2014-03-27 2017-09-06 한국전자통신연구원 음성 대화를 통한 네비게이션 제어 장치 및 방법
US10289433B2 (en) * 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9390706B2 (en) * 2014-06-19 2016-07-12 Mattersight Corporation Personality-based intelligent personal assistant system and methods
US9792901B1 (en) * 2014-12-11 2017-10-17 Amazon Technologies, Inc. Multiple-source speech dialog input
US10311862B2 (en) * 2015-12-23 2019-06-04 Rovi Guides, Inc. Systems and methods for conversations with devices about media using interruptions and changes of subjects
JP6515897B2 (ja) * 2016-09-28 2019-05-22 トヨタ自動車株式会社 音声対話システムおよび発話意図理解方法
JP2018054790A (ja) * 2016-09-28 2018-04-05 トヨタ自動車株式会社 音声対話システムおよび音声対話方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7321856B1 (en) * 2005-08-03 2008-01-22 Microsoft Corporation Handling of speech recognition in a declarative markup language
US8600753B1 (en) * 2005-12-30 2013-12-03 At&T Intellectual Property Ii, L.P. Method and apparatus for combining text to speech and recorded prompts
WO2012150658A1 (ja) * 2011-05-02 2012-11-08 旭化成株式会社 音声認識装置および音声認識方法
CN104464731A (zh) * 2013-09-20 2015-03-25 株式会社东芝 数据收集装置及方法、语音对话装置及方法

Also Published As

Publication number Publication date
US10319379B2 (en) 2019-06-11
US11900932B2 (en) 2024-02-13
US20180090144A1 (en) 2018-03-29
US20190244620A1 (en) 2019-08-08
JP2018054791A (ja) 2018-04-05
CN107871503A (zh) 2018-04-03
US20240112678A1 (en) 2024-04-04
US20210335362A1 (en) 2021-10-28
JP6515897B2 (ja) 2019-05-22
US11087757B2 (en) 2021-08-10

Similar Documents

Publication Publication Date Title
CN107871503B (zh) 语音对话系统以及发声意图理解方法
US11264030B2 (en) Indicator for voice-based communications
US10911596B1 (en) Voice user interface for wired communications system
US10074369B2 (en) Voice-based communications
US10453449B2 (en) Indicator for voice-based communications
JP5753869B2 (ja) 音声認識端末およびコンピュータ端末を用いる音声認識方法
US20170103757A1 (en) Speech interaction apparatus and method
KR101423258B1 (ko) 상담 대화 제공 방법 및 이를 이용하는 장치
US9349370B2 (en) Speech recognition terminal device, speech recognition system, and speech recognition method
US10194023B1 (en) Voice user interface for wired communications system
US20170194000A1 (en) Speech recognition device and speech recognition method
JP6614080B2 (ja) 音声対話システムおよび音声対話方法
JP2010157081A (ja) 応答生成装置及びプログラム
JP2018049132A (ja) 音声対話システムおよび音声対話方法
JP6468258B2 (ja) 音声対話装置および音声対話方法
CN111739506A (zh) 一种应答方法、终端及存储介质
KR20190032557A (ko) 음성 기반 통신
CN108806691B (zh) 语音识别方法及系统
JP5818753B2 (ja) 音声対話システム及び音声対話方法
CN111524508A (zh) 语音对话系统以及语音对话实现方法
KR20190140803A (ko) 감정 임베딩과 순환형 신경망을 이용한 대화 시스템 및 방법
CN111125346A (zh) 语义资源的更新方法及系统
JP7373348B2 (ja) 音声対話装置、音声対話用学習済みモデル、及び音声対話方法
CN111081236A (zh) 一种语音处理方法、终端和计算机存储介质
KR20160053581A (ko) 동물 소리의 통역 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant