CN108885872A - 应答生成装置、对话控制系统以及应答生成方法 - Google Patents

应答生成装置、对话控制系统以及应答生成方法 Download PDF

Info

Publication number
CN108885872A
CN108885872A CN201680084408.9A CN201680084408A CN108885872A CN 108885872 A CN108885872 A CN 108885872A CN 201680084408 A CN201680084408 A CN 201680084408A CN 108885872 A CN108885872 A CN 108885872A
Authority
CN
China
Prior art keywords
user
nomenclature
dialogue
response
understanding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680084408.9A
Other languages
English (en)
Inventor
藤井洋
藤井洋一
小路悠介
渡边圭辅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN108885872A publication Critical patent/CN108885872A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

对话管理部(31)选择与和用户之间的对话状态对应的应答模板,将在应答模板中包含的术语符号向理解度估计部(30)输出。理解度估计部(30)将所输入的用户对术语符号的理解度向对话管理部(31)输出。应答生成部(32)基于由对话管理部(31)选择出的应答模板来生成应答语句,根据从对话管理部(31)输入的用户对术语的理解度,向应答语句追加说明语句并输出。

Description

应答生成装置、对话控制系统以及应答生成方法
技术领域
本发明涉及在用户与系统的对话中估计用户对系统所使用的术语的理解度、并基于估计结果而生成促进用户对术语的理解的应答语句的应答生成装置、具备该应答生成装置的对话控制系统以及应答生成方法。
背景技术
近年来,对人类说出的语言进行声音输入并执行与所输入的声音的识别结果对应的功能这一技术受到关注。该技术例如作为便携电话、汽车导航这样的设备的声音接口而被利用。作为基本的算法,预先将假定的声音识别结果与功能对应起来,在所输入的声音的识别结果为假定的声音识别结果的情况下,执行与该识别结果对应的功能。这样,通过用户说话而直接执行功能,因此,作为指定要执行的功能时的快捷方式是有效的。
另一方面,用户在执行想要的功能时,需要说出与该功能对应的术语。因此,当增加由系统执行的功能时,用户必须记住的术语也增加。在该情况下,若用户未充分地理解系统的使用说明书,则用户在执行想要的功能时有可能不知晓说出哪种术语才好。
作为解决这种问题的现有技术,例如,存在专利文献1所记载的装置。在该装置中,对指定应执行的功能的声音输入的超时次数或该声音输入的订正次数进行累计,根据该累计结果,来估计用户对促使上述功能的指定的引导语句的内容理解到何种程度。然后,将内容的详细程度不同的引导语句中的、与估计出的理解度对应的详细程度的引导语句提示给用户。
另外,在专利文献2所记载的方法中,例如,按照各类别从用户的社会书签的标签信息提取特征语句。然后,基于Web页的历史信息等,对在用户访问的Web页中使用了特征语句的频度进行累计,将该使用频度为阈值以下的类别决定为对用户来说是未知的类别。在用户所阅览的Web页的特征语句属于上述未知的类别的情况下,判定为该Web页的特征语句是用户的未知语句,将未知语句的说明语句提示给用户。
现有技术文献
专利文献
专利文献1:国际公开第2008/084575号
专利文献2:日本特开2010-92286号公报
发明内容
发明要解决的问题
在专利文献1所记载的装置中,估计用户对促使指定应执行的功能的引导语句的理解度,变更为与该理解度相应的详细程度的引导语句并提示给用户。然而,该引导语句并不是对指定功能的术语中的、用户未理解内容的术语本身进行说明的引导语句,而仅仅示出在功能的指定中用户应说出的内容。因此,无论引导语句的内容如何变更,用户都无法理解上述术语,即便在下一次的声音输入中也持续不知晓术语的内容的状态。
例如,在通过声音输入来指定对汽车导航系统中的地图的朝向进行变更的功能的情况下,在专利文献1所记载的装置中,即便能够判断为用户不知晓包含“正北向上”或“车头向上”这样的术语的功能,也无法判断为用户不知晓“正北向上”和“车头向上”双方或者其中之一。因此,虽然能够向用户提示提高详细度的应答信息,但无法提示用于促进术语的理解的最佳的应答信息。
另外,在专利文献2所记载的方法中,在用户所阅览的Web页的特征语句属于上述未知的类别的情况下,判定为该Web页的特征语句是用户的未知语句,将未知语句的说明语句提示给用户。
然而,专利文献2所记载的方法只不过是估计用户对类别的识别程度,并非估计用户对术语本身的理解度。因此,存在无法提示对用户未理解的术语适当进行说明的应答信息这样的问题。
例如,作为与地图的朝向相关的功能,在知晓正北向上而不知晓车头向上的情况下,在专利文献2所记载的方法中,根据这些术语的使用频度,来估计对它们所属的类别即“地图的朝向”的理解度。
然而,却不估计用户对属于“地图的朝向”这一类别的术语本身的理解度。因此,即便在用户对术语“正北向上”的理解度高的情况下,也有可能向用户提示针对该术语的说明语句,即便在用户想知晓术语“车头向上”的情况下,也有可能存在不提示该术语的说明语句的情况。
本发明用于解决上述问题,其目的在于,获得一种能够适当地促进用户对在对话中使用的术语的理解的应答生成装置、对话控制系统以及应答生成方法。
用于解决问题的手段
本发明的应答生成装置具备对话管理部、理解度估计部以及应答生成部。对话管理部从与预先决定的对话状态对应的应答模板中选择与和用户之间的对话状态对应的应答模板,输出在选择出的应答模板中包含的术语符号。理解度估计部参照将通过预先决定的对话状态定义的多个估计条件与赋予给各估计条件的和术语符号的理解相应的权重对应起来而成的估计条件表、以及将在各估计条件下执行了功能的频度与和功能对应的术语符号对应起来而成的频度表,来确定与从对话管理部输入的术语符号对应的功能的各估计条件的频度和权重,对根据确定出的频度和权重计算出的评分进行大小判定,将判定的结果作为用户对术语符号的理解度向对话管理部输出。应答生成部基于由对话管理部选择出的应答模板,生成与用户之间的对话状态中的应答语句,根据从对话管理部输入的用户对术语符号的理解度,向应答语句追加术语符号的说明语句并输出。
发明的效果
根据本发明,能够估计用户对在与用户之间的对话中提示的术语符号的理解度,根据该理解度将说明语句追加于应答语句,因此,能够适当地促进用户对在对话中使用的术语的理解。
附图说明
图1是示出本发明的实施方式1的对话控制系统的结构的框图。
图2是示出估计条件表的一例的图。
图3A是示出最初进行了对话时的频度表的一例的图。图3B是示出进行了多次对话时的频度表的一例的图。
图4是示出术语说明表的一例的图。
图5A是示出实现对话控制系统的硬件结构的图。图5B是示出对实现对话控制系统的软件进行执行的硬件结构的图。
图6是示出实施方式1的应答生成装置的动作的流程图。
图7是示出实施方式1的对话控制系统的动作的流程图。
图8是示出对在与用户之间的对话中能够执行的功能进行定义的控制信息和与各功能对应的应答模板的具体例的图。
图9是示出实施方式1的应答生成装置的具体动作的一例的流程图。
图10是示出术语的理解度估计的具体处理的流程图。
图11是示出本发明的实施方式2的对话控制系统的结构的框图。
图12是示出实施方式2的应答生成装置的具体动作的流程图。
图13是示出实施方式2中的应答模板与应答信息的具体例的图。
具体实施方式
以下,为了更加详细地说明本发明,按照附图对其具体实施方式进行说明。
实施方式1.
图1是示出本发明的实施方式1的对话控制系统1的结构的框图。如图1所示,对话控制系统1是对与用户之间的对话中的信息的输入输出进行控制的系统,具备输入部2、应答生成装置3、输出部4、频度信息存储部5、说明信息存储部6以及应答模板存储部7。
输入部2是从用户受理信息的输入的构成要素,具备手动操作输入部20以及声音识别部21。应答生成装置3是生成在与用户之间的对话中提示的应答语句的装置,具备理解度估计部30、对话管理部31以及应答生成部32。
输出部4是向用户听觉性或视觉性地提示从应答生成装置3输出的应答语句。例如,对应答语句进行声音合成并进行声音输出。并且,将应答语句作为文本信息而显示在监视器画面中。
频度信息存储部5是存储有按照对话的对象的每个用户而获得的频度信息的存储部。频度信息是由估计条件表和频度表构成的信息。
图2是示出估计条件表5A的一例的图。估计条件表5A是将多个估计条件与向各估计条件赋予的和术语符号的理解对应的权重wi对应起来的表信息。在图2的情况下,在估计条件表5A中,被分配了条件编号1~6的估计条件与向各估计条件赋予的权重wi对应起来。
另外,i是表示条件编号的下标,在图2的情况下为i=1~6。
估计条件是根据在与用户之间的对话中被假定的对话状态而定义的。例如,条件编号1的估计条件由“在输出包含术语或术语的说明语句在内的声音引导之前,用户说出了术语”这样的对话状态定义。
在该情况下,在没有声音引导的输出的状态下用户突然说出术语,因此,用户理解术语的内容而说出了术语的可能性高。
对此,在条件编号1的估计条件中,作为与用户的术语符号的理解相关的权重w1而赋予了最大的1.00。
另一方面,条件编号5的估计条件由“在显示了术语的选择画面的状态下,用户指定出与术语对应的功能以外的功能”这样的对话状态定义。
在该情况下,尽管显示了术语的选择画面,用户仍使用输入部2而指定出与术语符号对应的功能以外的功能。这被认为是用户不太理解选择画面的术语,因此,指定出与和术语符号对应的功能不同的功能的可能性高。
对此,在条件编号5的估计条件中,作为与用户的术语符号的理解相关的权重w5而赋予了比较小的0.20。
图3A是示出最初进行了对话时的频度表5B的一例的图。图3B是示出进行了多次对话时的频度表5B的一例的图。
频度表5B是将在各估计条件的对话状态下指定并执行了功能的频度fi与和该功能对应的术语符号对应起来的表信息,由每个术语符号的频度数据构成。频度数据示出与术语符号对应的功能在条件编号1~6的估计条件下由用户指定并执行的频度fi
术语符号是指与用户可通过对话指定的功能对应的术语符号,设定术语或术语的说明语句。另外,以后,将对术语符号设定术语或说明语句这一情形适当记载为“在术语插入位置插入术语或说明语句”,但这些都是相同的含义。
术语符号“#正北向上”的频度数据5B-1示出在条件编号1~6的各估计条件下由用户指定并执行了与术语符号“#正北向上”对应的功能的频度f1~f6。并且,与术语符号“#正北向上”对应的功能是指,以将地图的朝向设为北方朝上的方式进行显示的功能。
术语符号“#车头向上”的频度数据5B-2示出在条件编号1~6的各估计条件下由用户指定并执行了与术语符号“#车头向上”对应的功能的频度f1~f6。并且,与术语符号“#车头向上”对应的功能是指,以将地图的朝向设为车辆的行进方向朝上的方式进行显示的功能。
另外,图3A所示的频度表5B相当于最初进行了对话时的信息,因此,频度fi未被累计。因此,频度数据5B-1以及频度数据5B-2这两方的频度fi都为0。
另一方面,图3B所示的频度表5B是进行了多次对话时的信息,因此,在频度数据5B-1与频度数据5B-2这两方累计了频度fi。例如,在频度数据5B-1中的条件编号2的估计条件下,频度f2成为3。
这表示,在条件编号2的估计条件下,由用户指定并执行了与术语符号“#正北向上”对应的功能的频度f2为3次。
说明信息存储部6是存储有术语说明表的存储部。
图4是示出术语说明表5C的一例的图。术语说明表5C是将在与用户之间的对话中使用的术语符号、该术语符号中设定的术语以及说明语句对应起来的表信息。另外,说明语句是按照名词结束的形式定义的,以使得即便在术语符号中进行设定也生成正确的语句。
例如,术语“正北向上”的说明语句定义为“北方朝上的地图显示”。
在存在“设为{#正北向上}?”这样的应答模板的情况下,即便对术语符号#正北向上设定了说明语句,也成为“设为北方朝上的地图显示?”这样的应答语句,成为一个有意义的语句。
另外,在对术语符号#正北向上设定了术语“正北向上”的情况下,成为“设为正北向上?”这样的应答语句。
另外,在术语说明表5C中,术语“VICS”的说明语句定义为“道路交通信息通信系统”,术语“智能IC”的说明语句定义为“能够利用ETC卡而通行的信息交换”。关于这些术语,按照以名词结束的形式定义,使得即便对术语符号设定了说明语句,也成为有意义的语句。
另外,VICS以及ETC为注册商标。
应答模板存储部7是存储了预先决定的对话状态和与该对话状态对应的应答模板的存储部。
应答模板是在各对话状态下从系统侧向用户提示的语句的模板,存在配置有前述的术语符号的情况。以下,将基于应答模板生成的语句称为应答语句。
输入部2的手动操作输入部20是受理通过用户的手动操作进行的信息输入的构成要素,例如,由硬件按钮、触摸面板这样的硬件和受理使用这些硬件的信息输入的软件构成。声音识别部21对用户说出的声音进行声音识别,并获取识别结果的文本。
如前所述,在频度信息存储部5存储有每个用户的频度信息,因此,需要在系统侧识别用户。因此,用户在与系统对话时,使用输入部2输入用于识别自身的识别信息。在系统侧,使用该识别信息来确定用户,由此使用与该用户对应的频度信息。
另外,在声音识别部21的声音识别以及输出部4的声音合成时,也可以利用公知的技术。例如,利用下述的参考文献的7章(134页~148页)以及8章(149页~192页)所记载的技术。
(参考文献)“デジタル音声処理”,東海大学出版社,1985年9月25日出版
理解度估计部30参照估计条件表5A和频度表5B,来确定与从对话管理部31输入的术语符号对应的功能的各估计条件的频度和权重,对根据确定出的频度和权重计算出的评分进行大小判定,将判定的结果作为用户对术语符号的理解度而向对话管理部31输出。
例如,理解度估计部30参照估计条件表5A,来确定表示执行了功能的对话状态的估计条件(条件编号i)以及根据与该功能对应的术语符号j的理解而向估计条件赋予的权重wij。另外,j是表示术语符号的下标。接着,理解度估计部30参照频度表5B,按照各估计条件来确定与该术语符号j对应的功能被执行的频度fij。然后,理解度估计部30计算出评分Σfij·wij,将对该评分进行大小判定而得到的结果设为用户对术语符号j的理解度,其中,评分Σfij·wij是将这样确定出的每个估计条件的频度fij与权重wij分别相乘而得到的值fij·wij的总和。
对话管理部31从与预先决定的对话状态对应的应答模板中选择与和用户的对话状态对应的应答模板,将选择出的应答模板所包含的术语符号输出到理解度估计部30,取得用户对术语符号的理解度。
例如,对话管理部31基于由输入部2从用户受理到的输入信息,来确定与用户之间的对话状态以及用户想要执行的功能。然后,对话管理部31从应答模板存储部7选择与假定从确定出的对话状态迁移的对话状态对应的应答模板。对话管理部31将这样选择出的应答模板所包含的术语符号输出到理解度估计部30,从理解度估计部30取得用户对术语符号的理解度。
另外,对话管理部31在每次执行与用户所指定的术语符号对应的功能时,对存储于频度信息存储部5的关于该术语符号的频度表5B的内容进行更新。例如,对话管理部31在以条件编号2的估计条件执行了与术语符号“#正北向上”对应的功能的情况下,将频度数据5B-1的与条件编号2对应的频度f2加1。
应答生成部32基于由对话管理部31选择出的应答模板,生成与和用户之间的对话状态相应的应答语句,根据从对话管理部31输入的用户对术语符号的理解度,向应答语句追加说明语句并输出。
例如,应答生成部32在由对话管理部31取得的用户对术语符号的理解度为阈值X以上的情况下,判断为用户对术语符号的该理解度高,不向应答语句追加该说明语句而输出。
另外,在用户对术语符号的理解度小于阈值X的情况下,应答生成部32判断为用户对该术语符号的理解度低,生成使应答语句连接着说明语句的语句或者使术语的说明语句连接着应答语句的语句并输出。
尤其是通过将使应答语句连接着说明语句的语句作为应答信息提示给用户,从而用户能够根据该说明语句预先知晓应答语句所包含的术语的内容。
图5A是示出实现对话控制系统1的硬件结构的图。并且,图5B是示出对实现对话控制系统1的软件进行执行的硬件结构的图。在对话控制系统1中,输入部2的手动操作输入部20例如使用图5A以及图5B所示的触摸面板101而实现。另外,声音识别部21对从麦克风102输入的用户的发声声音进行声音识别。输出部4对从应答生成装置3输出的应答语句进行声音合成并从扬声器103输出声音,或者将应答语句的文本信息显示于监视器104。
应答生成装置3中的理解度估计部30、对话管理部31、应答生成部32的各功能由处理电路实现。即,应答生成装置3具备用于依次进行图6所示的步骤ST1至步骤ST3的处理的处理电路。
处理电路可以是专用的硬件,也可以是读出并执行存储器107所存放的程序的CPU(Central Processing Unit)105。
另外,频度信息存储部5、说明信息存储部6以及应答模板存储部7可以构筑于图5B所示的硬盘驱动器106的存储区域,也可以构筑于能够从应答生成装置3读写信息的的外部的存储装置。
在处理电路是图5A所示的专用的硬件的处理电路100的情况下,处理电路100例如对应于单一电路、复合电路、程序化的处理器、并行程序化的处理器、ASIC(ApplicationSpecific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、或者它们的组合。
另外,可以由处理电路分别实现理解度估计部30、对话管理部31、应答生成部32的各部的功能,也可以由一个处理电路统一实现各部的功能。
在处理电路为图5B所示的CPU105的情况下,可以通过软件、固件、或软件与固件的组合来实现理解度估计部30,对话管理部31,应答生成部32的功能。
软件与固件以程序的形式被记述,并存放在存储器107中。通过CPU105读出并执行存储器107所存放的程序来实现各部的功能。即,应答生成装置3具备存储器107,该存储器107用于在由CPU105执行时,存放结果上执行前述的图6的各步骤的处理的程序。
另外,这些程序使计算机执行理解度估计部30、对话管理部31、应答生成部32的步骤或方法。
另外,关于理解度估计部30、对话管理部31、应答生成部32的各功能,也可以由专用的硬件实现一部分,由软件或固件实现一部分。例如,关于理解度估计部30,使用专用的硬件的处理电路100来实现其功能,关于对话管理部31以及应答生成部32,通过CPU105执行存储器107所存放的程序来实现其功能。
这样,上述处理电路能够通过硬件、软件、固件、或它们的组合来实现前述的功能。
另外,构成对话控制系统1的各构成要素也可以构筑于在用户使用的车辆等中搭载的信息处理装置、便携终端装置、以及能够与这些装置之间进行信息的交换的服务器装置中的至少一种装置。
例如,信息处理装置具备输入部2以及输出部4,在能够与信息处理装置之间进行通信的服务器装置中构筑应答生成装置3。通过这样构成,能够由信息处理装置和服务器装置实现对话控制系统1。
另外,在该结构中,也可以将信息处理装置置换成便携终端装置来实现对话控制系统1。
接着,对动作进行说明。
图7是示出实施方式1的对话控制系统1的动作的流程图,示出在与用户之间的对话中执行的一系列的处理。另外,图8是示出对在与用户之间的对话中能够执行的功能进行定义的控制信息以及与各功能对应的应答模板的具体例的图。以下,对话对象的用户使用输入部2输入自身的识别信息,由此,在对话控制系统1侧确定出用户。
另外,在与用户之间的对话中,按照图8所示的功能,选择应答模板,提示基于该应答模板的应答语句。
以下,针对用户最初使用对话控制系统1的情况以及用户使用了多次对话控制系统1而存留有频度数据的情况进行说明。
在由用户最初使用了对话控制系统1的情况下,对话管理部31针对在与用户之间的对话中使用的各术语符号的术语说明标志而设定0(步骤ST1a)。术语说明标志是用于在图7的一系列的对话处理中仅进行一次术语符号的说明的标志,通过对术语说明标志设定0,从而将被追加了说明语句后的应答语句提示给用户。另外,在一系列的对话处理中向用户提示被追加了说明语句后的应答语句后,对关于该术语符号的术语说明标志设定1。
接着,对话管理部31成为等待通过使用输入部2的用户的声音输入或手动操作进行输入的等待状态(步骤ST2a)。若不存在通过声音输入或手动操作而进行的输入(步骤ST2a;否),则重复进行步骤ST2a的处理。
在通过声音而输入与用户欲执行的功能、即用户想要的功能对应的术语的情况下,用户按下发声开始按钮之后说出术语。
发声开始按钮是成为声音识别部21对从麦克风102输入的声音进行声音识别的触发的按钮。由此,声音识别部21对用户说出的声音进行声音识别,将识别结果向对话管理部31输出。另外,这里,设不存在声音识别部21对声音的误识别,输入声音假定为始终被正确地识别。
接下来,在存在通过用户的声音输入或手动操作而进行的输入的情况下(步骤ST2a;是),对话管理部31基于通过声音输入或手动操作而输入的输入信息的内容,确定用户想要执行的功能(步骤ST3a)。
例如,在说出“地图操作”或利用软件按钮按下了“地图操作”的情况下,对话管理部31确定用户想要的功能A0。
在步骤ST4a中,对话管理部31从应答模板存储部7所存储的应答模板中,选择与功能A0中的下一个对话状态对应的应答模板B0并向应答生成部32输出。如图8所示,由于应答模板B0不包含术语符号,因此,应答生成部32基于应答模板B0而生成应答语句。由此,例如生成“能够选择比例尺变更、地图朝向变更、地图变更等”这样的应答语句并向输出部4输出。
输出部4将应答语句提示给用户(步骤ST5a)。
例如,输出部4将“比例尺变更”、“地图朝向变更”、“地图变更”这样的选择项显示于监视器104,对“能够选择比例尺变更、地图朝向变更。地图变更等”这样的应答语句进行声音合成,从扬声器103输出声音。
对话管理部31确认在通过步骤ST4a确定出的功能中是否包含使对话结束的处理(步骤ST6a)。
在由用户指定的功能A0中,如图8所示,设定有对话结束处理C0。在对话结束处理C0中,如“(无)”所示,未设定使对话结束的处理。因此,返回到步骤ST2a的处理。
接着,设在用户的操作输入中指定了“地图朝向变更”。在该情况下,执行前述的步骤ST2a至步骤ST3a的处理,将“正北向上”、“车头向上”这两个关键词显示于监视器104的画面,该“正北向上”、“车头向上”表示能够从用户想要的功能A1迁移的功能A1-1、A1-2。接下来,在步骤ST4a中,执行应答信息的生成处理,因此,使用图9详细进行说明。
图9是示出实施方式1的应答生成装置3的具体动作的一例的流程图,示出在步骤ST4a中生成应答信息的一系列的处理。
在步骤ST1b中,对话管理部31从应答模板存储部7所存储的应答模板中,选择作为应答模板B1的“设为{#正北向上}、还是设为{#车头向上}”来作为下一个对话场景。
接下来,对话管理部31提取应答模板B1所包含的术语符号“#正北向上”和“#车头向上”并向理解度估计部30输出(步骤ST2b)。
接着,理解度估计部30估计用户对从对话管理部31输入的术语符号的理解度(步骤ST3b)。使用图10来详细说明该处理。另外,这里,由于是由用户最初使用了对话控制系统1的状态,因此,“#正北向上”的频度数据5B-1和“#车头向上”的频度数据5B-2成为图3A的状态。
图10是示出术语的理解度估计的具体处理的流程图,示出在步骤ST3b中估计用户对各术语的理解度的一系列的处理。后面举例说明将用户的理解度分类为高低两个等级的情况。
首先,理解度估计部30参照术语说明标志,确认在术语说明标志中是否设定了1(步骤ST1c)。这里,术语说明标志为0(步骤ST1c;否),因此转移至步骤ST2c的处理。
在步骤ST2c中,理解度估计部30从频度信息存储部5读出与术语符号对应的频度信息,确定与术语符号相关的各估计条件的频度fi和向各估计条件赋予的权重wi。接着,理解度估计部30计算出将频度fi与权重wi相乘而得到的值fi·wi的总和即Σfi·wi,来作为与用户对术语符号的理解相关的评分。这里,“#正北向上”的频度数据5B-1和“#车头向上”的频度数据5B-2的频度都为0,因此,评分也为0.0。
接着,理解度估计部30判定评分Σfi·wi是否为预先决定的阈值X以上(步骤ST3c)。这里,将阈值X设为3.00。
此时,针对“#正北向上”的评分和针对“#车头向上”的评分都小于阈值X(步骤ST3c;否)。
此时,理解度估计部30判定为用户对术语符号“#正北向上”和术语符号“#车头向上”这两方的理解度都低(步骤ST4c)。理解度估计部30将这种使用了阈值X的评分的大小判定结果作为用户的理解度向对话管理部31输出,结束图10的处理。
当图10的处理结束后,返回到图9的步骤ST3b的处理。
在步骤ST3b中,对话管理部31在从理解度估计部30取得用户对术语符号的理解度之后,将应答模板以及用户对术语符号的理解度向应答生成部32输出。
这里,除了应答模板B1之外,还将“用户对#正北向上的理解度低”这样的大小判定结果和“用户对#车头向上的理解度低”这样的大小判定结果作为用户的理解度向应答生成部32输出。
应答生成部32确认是否针对应答模板B1所包含的所有术语符号执行了应答信息的生成处理(步骤ST4b)。
这里,由于“#正北向上”和“#车头向上”处于未处理状态(步骤ST4b;否),因此,应答生成部32依次选择应答模板B1中的未处理的术语符号的术语(步骤ST5b)。这里,选择了“#正北向上”。
接着,应答生成部32基于从对话管理部31输入的用户对术语符号的理解度,确认用户对选择出的术语符号的理解度是否低(步骤ST6b)。这里,由于从对话管理部31输入了“用户对#正北向上的理解度低”这样的大小判定结果(步骤ST6b;是),因此,应答生成部32生成使用了选择出的术语符号的说明语句的语句(步骤ST7b)。这里,由于用户对“正北向上”的理解度低,因此,应答生成部32生成“正北向上是指北方朝上的地图显示。”这样的语句。
接下来,关于“#车头向上”,由于也从对话管理部31输入了“用户对#车头向上的理解度低”这样的大小判定结果,因此,依次执行步骤ST4b至步骤ST7b的处理。
由此,应答生成部32生成“车头向上是指行进方向朝上的地图显示。”这样的语句。
由于针对所有术语符号执行了应答信息的生成处理(步骤ST4b;是),因此,应答生成部32生成向应答模板B1的术语插入位置插入对应的术语得到的语句(步骤ST8b)。
这里,生成设定了与应答模板B1所包含的“#正北向上”和“#车头向上”对应的术语的、“设为正北向上还是设为车头向上”这样的应答语句。由此,图9的处理结束,返回到图7的步骤ST5a的处理。
在图7的步骤ST5a中,输出部4向用户提示应答语句。
这里,将“正北向上是指北方朝上的地图显示。车头向上是指行进方向朝上的地图显示。设为正北向上还是设为车头向上”这样的选择画面显示于监视器104。
此外,将“正北向上是指北方朝上的地图显示。车头向上是指行进方向朝上的地图显示。设为正北向上还是设为车头向上”这样的声音从扬声器103输出。
接下来,在步骤ST6a中,选择了图8所示的对话结束处理C0,因此,返回到步骤ST2a的处理。
在步骤ST2a中,用户根据由输出部4提示的应答语句,理解了“正北向上”这样的术语是指“北方朝上的地图显示”。
然后,当由用户说出“正北向上”或使用手动操作输入部20按下“正北向上”的选择按钮时,对话管理部31确定图8所示的功能A1-1(步骤ST3a)。
接着,在步骤ST4a中,由于“#正北向上”的术语说明标志成为1,因此,对话管理部31认为用户理解了“#正北向上”,选择“设成了正北向上”这样的应答模板B2。然后,应答生成部32生成“设成了正北向上”这样的应答语句。
在步骤ST5a中,输出部4向用户提示“设成了正北向上”这样的应答语句。在将地图的朝向变更为正北向上的功能A1-1中,设定有图8所示的对话结束处理C1(步骤ST6a;是)。在对话结束处理C1中,设定有“设置(地图朝向,正北向上)”这样的处理,通过将地图的朝向变更为正北向上而结束对话。
因此,在步骤ST7a中,未图示的功能执行部执行将地图的朝向变更为正北向上的功能,由此转移至步骤ST8a。
在地图的朝向成为正北向上后,对话管理部31将频度数据5B-1中的条件编号2的估计条件的频度f2加1(步骤ST8a)。
另外,在步骤ST8a中,对话管理部31也可以针对与在步骤ST7a中执行了命令的功能处于排他性关系的功能所对应的术语符号,对权重wi比执行了功能的估计条件小的估计条件的频度进行更新。
另外,处于排他性关系的功能是指,处于相互关联但无法同时执行的关系的功能。
例如,正北向上和车头向上作为表示地图的朝向的功能而关联,但处于无法同时执行的排他性关系。在条件编号2的估计条件下指定正北向上而执行了命令的情况下,针对车头向上,对话管理部31也将频度数据5B-2中的关于条件编号3的估计条件的频度f3加1。
另外,在输出了包含术语“正北向上”和术语“车头向上”的声音引导之后,在条件编号2的估计条件下用户说出正北向上的情况下,若从车头向上的观点出发,则对应于说出车头向上以外的术语的条件编号3的估计条件。
这样,在执行了某一功能的情况下,依次更新针对所执行的功能以及相对于所执行的功能处于排他性关系的功能而言的频度,使用该频度数据来估计用户的术语符号的理解度。
另一方面,在由用户使用了多次对话控制系统1的情况下,对话管理部31在将术语说明标志设为0之后(步骤ST1a),转移至步骤ST2a,成为等待通过用户的声音输入或手动操作进行输入的等待状态。
在步骤ST2a中,当用户按下软件按钮的“地图操作”时,对话管理部31从应答模板存储部7所存储的应答模板中选择与功能A0中的下一个对话状态对应的应答模板B0并向应答生成部32输出。应答生成部32基于应答模板B0而生成应答语句。由此,例如,生成“能够选择比例尺变更、地图朝向变更、地图变更等”这样的应答语句并向输出部4输出。
输出部4将“比例尺变更”、“地图朝向变更”、“地图变更”这样的选择项显示于监视器104,对“能够选择比例尺变更、地图朝向变更、地图变更等”这样的应答语句进行声音合成并从扬声器103输出声音。
这里,假设通过用户的操作输入而指定了“地图朝向变更”。在该情况下,执行步骤ST2a至步骤ST3a的处理,将“正北向上”、“车头向上”这两个关键词显示于监视器104的画面,“正北向上”、“车头向上”表示能够从用户想要的功能A1迁移的功能A1-1、A1-2。
接下来,在步骤ST4a中,执行应答信息的生成处理,因此,再次使用图9详细进行说明。
在步骤ST1b中,对话管理部31从应答模板存储部7所存储的应答模板中选择作为应答模板B1的“设为{#正北向上}、还是设为{#车头向上}”来作为下一个对话场景。
接下来,对话管理部31提取应答模板B1所包含的术语符号“#正北向上”和“#车头向上”并向理解度估计部30输出(步骤ST2b)。在步骤ST3b中,理解度估计部30估计用户对从对话管理部31输入的术语符号的理解度。
再次使用图10对该处理详细进行说明。另外,这里,设“#正北向上”的频度数据5B-1与“#车头向上”的频度数据5B-2成为图3B的状态。
在步骤ST1c中,理解度估计部30参照术语说明标志,确认在术语说明标志中是否设定了1。这里,由于术语说明标志为0(步骤ST1c;否),因此转移至步骤ST2c的处理。
在步骤ST2c中,理解度估计部30从频度信息存储部5读出与术语符号对应的频度信息,确定关于术语符号的各估计条件的频度fi和向各估计条件赋予的权重wi
接着,理解度估计部30计算出将频度fi与权重wi相乘而得到的值fi·wi的总和即Σfi·wi,来作为与用户对术语符号的理解相关的评分。
这里,由于频度数据5B-1和频度数据5B-2为图3B的状态,因此,针对术语符号“#正北向上”的评分被计算为5.8,针对术语符号“#车头向上的评分被计算为1.9。
接下来,理解度估计部30判定评分Σfi·wi是否为预先决定的阈值X以上(步骤ST3c)。这里,将阈值X设为3.00。
此时,针对“#正北向上”的评分成为阈值X以上(步骤ST3c;是),针对“#车头向上”的评分小于阈值X(步骤ST3c;否)。
根据前述的评分与阈值X的比较结果,理解度估计部30判定为用户对术语符号“#正北向上”的理解度高(步骤ST5c),判定为用户对术语符号“#车头向上”的理解度低(步骤ST4c)。
理解度估计部30将这样的评分的大小判定结果作为用户对术语符号的理解度向对话管理部31输出,结束图10的处理。
当图10的处理结束后,返回到图9的步骤ST3b的处理。
在步骤ST3b中,对话管理部31从理解度估计部30取得用户对术语符号的理解度时,将应答模板以及用户对术语符号的理解度向应答生成部32输出。
这里,除了应答模板B1之外,还将“用户对#正北向上的理解度高”这样的大小判定结果和“用户对#车头向上的理解度低”这样的大小判定结果作为用户的理解度向应答生成部32输出。
应答生成部32确认是否针对应答模板B1所包含的所有术语符号执行了应答信息的生成处理(步骤ST4b)。
这里,由于“#正北向上”和“#车头向上”处于未处理状态(步骤ST4b;否),因此,应答生成部32依次选择应答模板B1中的未处理的术语符号的术语(步骤ST5b)。这里,选择“#正北向上”。
接着,应答生成部32基于从对话管理部31输入的用户对术语符号的理解度,确认用户对选择出的术语符号的理解度是否低(步骤ST6b)。这里,由于从对话管理部31输入了“用户对#正北向上的理解度高”这样的大小判定结果(步骤ST6b;否),因此,应答生成部32转移至步骤ST4b的处理。
由于术语符号“#车头向上”处于未处理状态(步骤ST4b;否),因此,转移至步骤ST5b的处理。
这里,由于从对话管理部31输入了“用户对#车头向上的理解度低”这样的大小判定结果,因此,执行步骤ST5b至步骤ST7b的处理。由此,应答生成部32生成“车头向上是指行进方向朝上的地图显示。”这样的语句。之后,转移至步骤ST4b的处理。
由于针对所有术语符号执行了应答信息的生成处理(步骤ST4b;是),因此,应答生成部32生成向应答模板B1的术语插入位置插入对应的术语得到的语句(步骤ST8b)。
这里,生成设定了与应答模板B1所包含的“#正北向上”和“#车头向上”对应的术语的、“设为正北向上还是设为车头向上”这样的应答语句。
由此,结果是,生成“车头向上是指行进方向朝上的地图显示。设为正北向上还是设为车头向上”这样的语句。
之后,图9的处理结束,返回到图7的步骤ST5a的处理。
在图7的步骤ST5a中,输出部4向用户提示由应答生成部32生成的语句。这里,将“车头向上是指行进方向朝上的地图显示。设为正北向上还是设为车头向上”这样的选择画面显示于监视器104。
此外,从扬声器103输出“车头向上是指行进方向朝上的地图显示。设为正北向上还是设为车头向上”这样的声音。
接下来,在步骤ST6a中,由于选择了图8所示的对话结束处理C0,因此,返回到步骤ST2a的处理。
在步骤ST2a中,用户根据从输出部4提示的语句,理解了“正北向上”是经常使用的功能,除此以外理解了“车头向上”这样的“行进方向朝上的地图显示”。
然后,当由用户说出“正北向上”或使用手动操作输入部20按下“正北向上”的选择按钮时,执行步骤ST3a至步骤ST7a的处理,未图示的功能执行部执行将地图的朝向变更为正北向上的功能,由此,转移至步骤ST8a。
在上述对话中,在通过声音指定了正北向上的情况下,对话管理部31将频度数据5B-1中的条件编号2的估计条件的频度f2加1(步骤ST8a)。另外,对话管理部31针对术语符号“#车头向上”,将频度数据5B-2中的条件编号3的估计条件的频度f3加1。
在按下选择画面上的“正北向上”的选择按钮而指定了正北向上的情况下,对话管理部31将频度数据5B-1中的条件编号4的估计条件的频度f4加1。另外,对话管理部31针对“#车头向上”,将频度数据5B-2中的条件编号3的估计条件的频度f3加1。
在用于指定像这样相互关联但处于排他性关系的多个功能中的一个功能的对话状态中,多数情况下针对与多个功能中的其他功能对应的术语,也向用户进行提示。在该情况下,在用户对与上述其他功能对应的术语的理解低的情况下,也将与该功能对应的术语的说明语句提示给用户。
即,在与上述多个功能对应的术语中,针对与未执行的功能对应的术语,也提示了促进用户的理解的应答信息。
对此,如前述那样,即便不执行上述其他功能也对频度进行更新,由此,关于与上述多个功能对应的术语中的、用户的理解有进展的术语,针对未执行的上述其他功能也不再提示包含说明语句的应答信息。
由此,针对术语而生成包含说明语句的应答信息的时间被缩短,能够进行与用户对术语的理解相应的高效的对话。
如以上那样,在实施方式1的应答生成装置3中,对话管理部31从与预先决定的对话状态对应的应答模板中,选择与和用户之间的对话状态对应的应答模板,输出所选择出的应答模板中包含的术语符号。理解度估计部30参照估计条件表5A和频度表5B,确定与从对话管理部31输入的术语符号对应的功能的各估计条件的频度和权重,将对根据确定出的频度和权重计算出的评分进行大小判定而得到的结果作为用户对术语符号的理解度向对话管理部31输出。应答生成部32基于由对话管理部31选择出的应答模板而生成与用户之间的对话状态中的应答语句,根据从对话管理部31输入的用户对术语符号的理解度,向应答语句追加术语符号的说明语句并输出。这样,估计用户对在与用户之间的对话中提示的术语的理解度,根据该理解度向应答语句追加说明语句,因此,能够适当地促进用户对在对话中使用的术语的理解。
另外,在实施方式1的应答生成装置3中,理解度估计部30计算出将确定出的各估计条件的频度fi与权重wi分别相乘而得到的值fi·wi的总和Σfi·wi来作为评分。由此,能够估计与和用户之间的对话历史相应的准确的理解度。
此外,在实施方式1的应答生成装置3中,应答生成部32针对用户的理解度高的术语符号,不向应答语句追加说明语句,针对用户的理解度低的术语符号,生成向应答语句追加说明语句得到的语句并输出。
由此,根据用户对术语符号的理解度,将向应答语句追加说明语句得到的语句提示给用户,因此,能够适当地促进用户对在对话中使用的术语的理解。
此外,在实施方式1的应答生成装置3中,应答生成部32针对用户的理解度低的术语符号,生成在应答语句的之前或之后追加说明语句得到的语句。尤其是针对用户的理解度低的术语,生成在术语的说明语句后接着应答语句的文章,由此用户能够在理解应答语句所包含的术语的基础上,进行与应答语句对应的操作。
此外,在实施方式1的应答生成装置3中,应答生成部32针对用户的理解度高的术语符号,生成对术语符号设定术语得到的应答语句,针对用户的理解度低的术语符号,生成对术语符号设定说明语句得到的应答语句。这样,根据用户对术语符号的理解度,将向应答语句的内部追加术语的说明语句得到的文章提示给用户,因此,能够适当地促进用户对在对话中使用的术语的理解。
此外,在实施方式1的应答生成装置3中,对话管理部31在处于相互关联但无法同时执行的排他性关系的多个功能中的任意功能被执行的情况下,针对与所执行的功能对应的术语符号,对执行了功能的估计条件的频度进行更新,针对与因排他性关系而未被执行的功能对应的术语符号,也对权重比执行了功能的估计条件小的估计条件的所述频度进行更新。
通过这种方式,若用户对与相互关联但无法同时执行的多个功能对应的术语的理解得到进展,则与此相应地,不再提示包含术语的说明语句在内的应答信息。由此,伴随着用户对与上述多个功能对应的术语的理解的进展,对话时间也缩短,能够进行高效的对话。
实施方式2.
图11是示出本发明的实施方式2的对话控制系统1A的结构的框图。在图11中,针对与图1相同的构成要素标注相同的标号并省略说明。对话控制系统1A与实施方式1所示的对话控制系统1同样地,是控制与用户之间的对话中的信息的输入输出的系统,具备输入部2、应答生成装置3A、输出部4、频度信息存储部5、说明信息存储部6以及应答模板存储部7。
应答生成装置3A是生成在与用户之间的对话中提示的应答语句的装置,具备理解度估计部30、对话管理部31A、应答生成部32A以及意图估计部33。
对话管理部31A除了具备与实施方式1所示的对话管理部31同样的功能之外,还从应答模板存储部7所存储的应答模板中选择与用于指定由意图估计部33估计的功能的对话状态相应的应答模板。
应答生成部32A除了具备与实施方式1所示的应答生成部32同样的功能之外,还考虑向用户提示的语句的长度而生成应答信息。
例如,应答生成部32A在向应答模板的术语插入位置插入术语的说明语句得到的语句的长度为阈值以上的情况下,生成将应答语句的内容分成小于阈值的长度的语句得到的语句。作为该语句,举出由向术语插入位置插入术语得到的应答语句和术语的说明语句构成的语句。
意图估计部33基于由输入部2受理到的用户的输入信息,估计用户想要执行的功能。
例如,预先成对地准备成为正确意图的功能与用于指定该功能的发声的例句,利用最大熵方法等的机器学习而从用户的自由发声中估计用户想要执行的功能。
另外,通过处理电路来实现理解度估计部30、对话管理部31A、应答生成部32A以及意图估计部33的各功能。
在处理电路为图5A所示的专用的硬件的处理电路100的情况下,处理电路100例如对应于单一电路、复合电路、程序化的处理器、并行程序化的处理器、ASIC、FPGA或它们的组合。
另外,在处理电路为图5B所示的CPU105的情况下,可以通过软件、固件或软件与固件的组合来实现理解度估计部30、对话管理部31A、应答生成部32A以及意图估计部33的功能。
接着,对动作进行说明。
图12是示出实施方式2的对话控制系统1A的动作的流程图,示出在与用户之间的对话中执行的一系列的处理。
在实施方式2中,与实施方式1不同,关于输入,受理自由发声,意图估计部33能够根据说出的内容来估计应执行的功能,以此来说明以下的动作。另外,在实施方式2中,假设也能够在不存在误识别的状态下正确地识别用户的发声。此外,使用未明示的发声开始按钮来开始对话。
以下,与实施方式1同样地,针对用户最初使用对话控制系统1A的情况和用户使用了多次对话控制系统1A而存留有频度数据的情况进行说明。另外,这里,对话对象的用户使用输入部2输入自身的识别信息,由此在对话控制系统1A侧确定出用户。
在由用户最初使用了对话控制系统1A的情况下,与实施方式1同样地,在按下了软件按钮的“地图朝向变更”的情况下,在监视器104的画面上显示“正北向上”和“车头向上”这两个术语(关键词)。之后,转移至图12的应答信息生成处理。
另外,在图12的步骤ST1d中,与步骤ST1b同样地,也可以是,对话管理部31A确定用户想要的功能,根据该功能,选择与接下来迁移的对话状态相应的应答模板。并且,步骤ST2d和步骤ST3d与图9所示的步骤ST2b和步骤ST3b的处理是同样的,省略说明。
通过这一系列的处理,对话管理部31A将应答模板B1、“用户对#正北向上的理解度低”这样的大小判定结果、以及“用户对#车头向上的理解度低”这样的大小判定结果向应答生成部32A输出。
在步骤ST4d中,应答生成部32A从说明信息存储部6读出术语符号“#正北向上”和术语符号“#车头向上”的各说明语句。
由于用户对应答模板B1所包含的术语符号“#正北向上”和术语符号“#车头向上”的理解度低,因此,应答生成部32A生成对术语符号设定说明语句得到的应答语句,计算出所生成的应答语句的长度。
这里,计算出从应答模板B1去掉术语符号的部分后的两个“设为”这样的部分的字符数以及术语“正北向上”和术语“车头向上”的各说明语句的字符数,并合计这些字符数。
由此,计算出对应答模板B1的术语符号设定说明语句得到的应答语句的长度。在上述的例子中,“设为”(日语:にしますか)这样的部分的字符数为5(日语字符数),术语“正北向上”的说明语句“北方朝上的地图显示”(日语:北が上になる地図表示)的字符数为10(日语字符数),术语“车头向上”的说明语句“行进方向朝上的地图显示”(日语:進行方向が上になる地図表示)的字符数为13(日语字符数),因此,上述应答语句的长度成为33(=5+5+10+13)。
接着,应答生成部32A判定应答语句的长度是否为阈值N以上(步骤ST5d)。在听觉性或视觉性地提示了基于应答模板生成的应答语句时,若该应答语句过长,则存在用户无法立即识别应答语句的内容的可能性。对此,对于阈值N,设定预想为不妨碍用户的识别这一语句长度范围的上限值。
这里,应答语句的长度为33,成为阈值N(=30)以上(步骤ST5d;是)。此时,应答生成部32A例如生成图13所示的语句D3作为应答信息(步骤ST6d)。
在图13中,语句D3是“正北向上是指北方朝上的地图显示。车头向上是指行进方向朝上的地图显示。设为正北向上还是设为车头向上。”这样的语句,准备“{#术语符号=术语}是{#术语符号=术语的说明语句}。”这一形式的模板。
应答生成部32A通过对上述模板中的术语符号设定对应的术语或说明语句,从而生成“正北向上是指北方朝上的地图显示。”(日语:ノースアップは、北が上になる地図表示です)这样的19字符(日语字符数)的语句、以及“车头向上是指行进方向朝上的地图显示。”(日语:ヘディングアップは、進行方向が上になる地図表示です)这样的24字符(日语字符数)的语句。
此外,应答生成部32A通过对应答模板B1的术语符号设定对应的术语,从而生成“设为正北向上还是设为车头向上”(日语:ノースアップにしますか、ヘディングアップにしますか)这样的24字符(日语字符数)的应答语句。将像这样生成的语句D3作为应答信息从应答生成部32A向输出部4输出。然后,由输出部4进行声音输出以及画面显示。
当通过声音而输出“正北向上是指北方朝上的地图显示。车头向上是指行进方向朝上的地图显示。设为正北向上还是设为车头向上。”这样的语句D3时,用户能够理解“正北向上”这样的术语是指“北方朝上的地图显示”。
当由用户说出“正北向上”或使用手动操作输入部20按下“正北向上”的选择按钮时,执行图7的步骤ST3a至步骤ST7a的处理,未图示的功能执行部执行将地图的朝向变更为正北向上的功能,由此转移至图7的步骤ST8a。
在上述对话中,在通过声音指定了正北向上的情况下,对话管理部31A将频度数据5B-1中的条件编号2的估计条件的频度f2加1(步骤ST8a)。另外,对话管理部31A针对术语符号“#车头向上”,将频度数据5B-2中的条件编号3的估计条件的频度f3加1。
当按下选择画面上的“正北向上”的选择按钮而指定了正北向上的情况下,对话管理部31A将频度数据5B-1中的条件编号4的估计条件的频度f4加1。另外,对话管理部31A针对“#车头向上”,将频度数据5B-2中的条件编号3的估计条件的频度f3加1。
这样,在执行了某一功能的情况下,依次更新针对所执行的功能以及与所执行的功能处于排他性关系的功能的频度,由此,使用该频度数据来估计用户的术语符号的理解度。
另一方面,在由用户使用了多次对话控制系统1的情况下,与上述同样地,当按下了软件按钮的“地图朝向变更”时,在监视器104的画面上显示“正北向上”和“车头向上”这两个术语(关键词)。之后,转移至图12的应答信息生成处理。
通过图12的步骤ST1d至步骤ST3d的一系列的处理,对话管理部31A将应答模板B1、“用户对#正北向上的理解度高”这样的大小判定结果、以及“用户对#车头向上的理解度低”这样的大小判定结果向应答生成部32A输出。
在步骤ST4d中,应答生成部32A基于从对话管理部31A输入的信息,从说明信息存储部6读出术语符号“#正北向上”的术语和术语符号“#车头向上”的说明语句。
应答生成部32A计算出从应答模板B1去掉术语符号的部分后的两个“设为”这样的部分的字符数、“正北向上”这样的术语的字符数、以及术语“车头向上”的说明语句的字符数,并合计这些字符数。
由此,计算出对应答模板B1的术语符号设定术语的说明语句得到的应答语句的长度。这里,“设为”(日语:にしますか)这样的部分的字符数为5(日语字符数),术语“正北向上”(日语:ノースアップ)的字符数为6(日语字符数),术语“车头向上”的说明语句“行进方向朝上的地图显示”(日语:進行方向が上になる地図表示)的字符数为13(日语字符数),因此,上述应答语句的长度成为29(=5+5+6+13)。
接着,应答生成部32A判定应答语句的长度是否为阈值N以上(步骤ST5d)。这里,应答语句的长度为29,小于阈值N(=30)(步骤ST5d;否)。此时,应答生成部32A例如生成图13所示的语句D1作为应答信息(步骤ST6d)。
另外,在用户接着进行例如如“上方是行进方向”、“地图是行进方向”等那样的与“行进方向朝上的地图显示”类似的发声而指定了“车头向上”的情况下,应答生成部32A也预先生成“行进方向朝上的地图显示是车头向上。”这样的语句。
当通过声音而输出“设为正北向上?还是设为行进方向朝上的地图显示。”这样的语句D1时,用户能够理解“正北向上”是经常使用的功能,除此以外存在行进方向朝上的地图显示。
当由用户说出“行进方向为上方的地图”时,执行图7的步骤ST3a至步骤ST7a的处理,未图示的功能执行部执行将地图的朝向变更为正北向上的功能,由此转移至图7的步骤ST8a。
在上述对话中通过声音执行了行进方向为上方的地图的情况下,意图估计部33将用户想要执行的功能估计为“车头向上”。
此时,对话管理部31A将频度数据5B-2中的条件编号2的估计条件的频度f2加1(步骤ST8a)。另外,对话管理部31A针对术语符号“#正北向上”,也将频度数据5B-1中的条件编号3的估计条件的频度f3加1。
另外,如前所述,在未使用术语符号“#车头向上”而通过“行进方向为上方的地图”这样的声音指定了功能的情况下,作为将所指定的功能的说明与术语结合的语句,应答生成部32A将前述的“行进方向朝上的地图显示为车头向上。”这样的语句向输出部4追加输出。由此,输出部4将语句D2提示给用户。
在像这样通过说明语句的指定而执行了功能的情况下,通过追加向用户提示将与功能对应的术语和说明语句对应起来的语句,由此,也能够适当地促进用户对术语的理解。
如以上那样,在实施方式2的应答生成装置3A中,应答生成部32A在所生成的语句为预先决定的阈值N以上的长度的情况下,分成长度小于阈值N的多个语句而输出。通过这种方式,能够提示用户容易识别的应答信息。
另外,实施方式2的应答生成装置3A具备意图估计部33,该意图估计部33基于输入信息,估计用户想要执行的功能。由此,即便在由用户说出了与应答语句所包含的术语或说明语句类似的内容的情况下,也能够根据该说出内容来估计功能。
此外,在实施方式2的应答生成装置3A中,应答生成部32A在未由用户使用术语符号而执行了与术语符号对应的功能的情况下,生成由术语符号和说明语句构成的语句并输出。
由于提示了像这样生成的文章,因此,用户能够理解与所执行的功能对应的术语。
尤其是,虽然意图估计部33能够根据用户的各种说出内容来估计功能,但根据说出内容估计的功能的可靠性低。对此,通过提示由术语和说明语句构成的文章,从而用户从下一次对话起使用表示该功能的术语的可能性变高。由此,能够提高由意图估计部33估计的功能的可靠性。
另外,目前为止示出了未由用户使用术语符号时、意图估计部33估计与术语符号对应的功能的情况,但不局限于此。例如,在用户不说出术语符号而是使用手动操作输入部20通过手动操作执行了与术语符号对应的功能的情况下,对话管理部31A识别出执行了与术语符号对应的功能并向应答生成部32A通知。由此,应答生成部32A生成并输出由术语符号与说明语句构成的语句。
即,由于无需进行意图估计部33的估计,因此,若实施方式1中的对话管理部31能够识别出未由用户使用术语符号而执行了与术语符号对应的功能,则实施方式1中的应答生成部32也可以构成为生成由术语符号与说明语句构成的语句。
另外,在实施方式1以及实施方式2中,估计条件表5A中的向估计条件赋予的权重wi与时间经过无关,是固定的值。
然而,在即便过了固定的时间也不进行功能的指定的估计条件下,用户有可能忘记了在该估计条件所示的对话状态下提示的术语的内容,需要再次进行理解。
对此,对话管理部31或对话管理部31A也可以在估计条件表5A中针对从上次更新频度fi起超过了经过时间的阈值的估计条件而减小权重wi。例如,准备多个经过时间的阈值,在每次超过各经过时间的阈值时阶段性地或渐渐地减小权重wi
由此,针对与用户之间的对话中不怎么迁移的估计条件,用户对术语符号的理解度变低,从而提示附加了说明语句的应答语句。由此,能够促进用户对在与用户之间的对话中不怎么迁移的估计条件下提示的术语符号的理解。
也可以是,对话管理部31或对话管理部31A在由用户指定了功能起的允许时间内又指定了与先前指定的功能无法同时执行的功能时,不更新针对先前指定的功能的估计条件的频度fi,而针对之后指定的功能,更新估计条件的频度fi
例如,正北向上和车头向上处于在地图朝向上存在关联但无法同时执行的排他性关系。在该情况下,在从指定了正北向上起的允许时间内指定了处于排他性关系的车头向上时,针对正北向上,将之前刚刚相加后的频度返回到原来的频度,并增加针对车头向上的频度。
由此,在用户对术语的理解不充分而误指定了与和该术语对应的功能不同的功能的情况下,能够对频度进行修正,以避免将该指定反映到理解度的估计中。
此外,在实施方式1以及实施方式2中,估计条件也可以包含用户的状态。在该情况下,对话管理部31或对话管理部31A基于用户的状态的检测信息,更新在与用户的状态对应的估计条件下指定了功能的频度fi
通过这种方式,能够根据用户的状态来估计用户对术语符号的理解度。
此外,在实施方式1以及实施方式2中,示出了利用日语进行与用户之间的对话的情况,但不局限于此。
例如,通过预先用英语、德语、汉语等各种语言生成应答模板、估计条件表、频度表、术语说明表等用于对话处理的数据,从而也能够应用于使用这些言语的对话中。
另外,本发明在其发明的范围内,能够进行各实施方式的自由组合或各实施方式的任意的构成要素的变形、或者在各实施方式中省略任意的构成要素。
工业实用性
本发明的应答生成装置,能够适当地促进用户对在对话中使用的术语的理解,因此,例如适用于在功能的指定中使用专门术语的汽车导航系统的接口。
标号说明
1、1A:对话控制系统,2:输入部,3、3A:应答生成装置,4:输出部,5:频度信息存储部,5A:估计条件表,5B:频度表,5B-1、5B-2:频度数据,5C:术语说明表,6:说明信息存储部,7:应答模板存储部,20:手动操作输入部,21:声音识别部,30:理解度估计部,31、31A:对话管理部,32、32A:应答生成部,33:意图估计部,100:处理电路,101:触摸面板,102:麦克风,103:扬声器,104:监视器,105:CPU,106:硬盘装置,107:存储器。

Claims (13)

1.一种应答生成装置,其特征在于,
所述应答生成装置具备:
对话管理部,其从与预先决定的对话状态对应的应答模板中选择与和用户之间的对话状态对应的应答模板,输出在选择出的应答模板中包含的术语符号;
理解度估计部,其参照将通过预先决定的对话状态定义的多个估计条件与赋予给各估计条件的和术语符号的理解相应的权重对应起来而成的估计条件表、以及将在各估计条件下执行了功能的频度与和功能对应的术语符号对应起来而成的频度表,来确定与从所述对话管理部输入的术语符号对应的功能的各估计条件的所述频度和所述权重,对根据确定出的所述频度和所述权重计算出的评分进行大小判定,将判定的结果作为用户对术语符号的理解度向所述对话管理部输出;以及
应答生成部,其基于由所述对话管理部选择出的应答模板,生成与用户之间的对话状态中的应答语句,根据从所述对话管理部输入的用户对术语符号的理解度,向应答语句追加说明语句并输出。
2.根据权利要求1所述的应答生成装置,其特征在于,
所述理解度估计部计算出将每个估计条件的所述频度与所述权重相乘而得到的值的总和来作为所述评分。
3.根据权利要求1所述的应答生成装置,其特征在于,
所述应答生成部生成并输出如下得到的语句:针对用户的理解度高的术语符号,不向应答语句追加说明语句,针对用户的理解度低的术语符号,向应答语句追加说明语句。
4.根据权利要求1所述的应答生成装置,其特征在于,
所述应答生成部针对用户的理解度低的术语符号,生成在应答语句之前或之后追加说明语句而得到的语句。
5.根据权利要求1所述的应答生成装置,其特征在于,
所述应答生成部针对用户的理解度高的术语符号,生成对术语符号设定术语而得到的应答语句,针对用户的理解度低的术语符号,生成对术语符号设定说明语句而得到的应答语句。
6.根据权利要求1所述的应答生成装置,其特征在于,
所述应答生成部在所生成的语句为预先决定的阈值以上的长度的情况下,将所生成的语句分成长度小于所述阈值的多个语句而输出。
7.根据权利要求1所述的应答生成装置,其特征在于,
所述应答生成装置具备意图估计部,该意图估计部基于输入信息,估计用户想要执行的功能。
8.根据权利要求1所述的应答生成装置,其特征在于,
所述对话管理部在处于相互关联但无法同时执行的排他性关系的多个功能中的任意功能被执行的情况下,针对与所执行的功能对应的术语符号,对执行了功能的估计条件的所述频度进行更新,针对与因所述排他性关系而未被执行的功能对应的术语符号,也对所述权重比执行了功能的估计条件小的估计条件的所述频度进行更新。
9.根据权利要求1所述的应答生成装置,其特征在于,
所述应答生成部在未由用户使用术语符号而执行了与术语符号对应的功能的情况下,生成并输出由术语符号与说明语句构成的语句。
10.根据权利要求1所述的应答生成装置,其特征在于,
所述对话管理部针对从上次更新所述频度起经过了预先决定的时间也不存在所述频度的更新的估计条件,减小所述权重。
11.根据权利要求1所述的应答生成装置,其特征在于,
所述对话管理部在从指定了处于无法同时执行的排他性关系的多个功能中的任意功能的执行起,在允许时间内指定了处于所述排他性关系的另外的功能的执行的情况下,不更新先前指定了功能的执行的估计条件的所述频度,而更新指定了所述另外的功能的执行的估计条件的所述频度。
12.一种对话控制系统,其特征在于,
所述对话控制系统具备:
对话管理部,其从与预先决定的对话状态对应的应答模板中选择与和用户之间的对话状态对应的应答模板,输出在选择出的应答模板中包含的术语符号;
理解度估计部,其参照将通过预先决定的对话状态定义的多个估计条件与赋予给各估计条件的和术语符号的理解相应的权重对应起来而成的估计条件表、以及将在各估计条件下执行了功能的频度与和功能对应的术语符号对应起来而成的频度表,来确定与从所述对话管理部输入的术语符号对应的功能的各估计条件的所述频度和所述权重,对根据确定出的所述频度和所述权重计算出的评分进行大小判定,将判定的结果作为用户对术语符号的理解度向所述对话管理部输出;
应答生成部,其基于由所述对话管理部选择出的应答模板,生成与用户之间的对话状态中的应答语句,根据从所述对话管理部输入的用户对术语符号的理解度,向应答语句追加说明语句并输出;
输入部,其受理与用户之间的对话;以及
输出部,其将从所述应答生成部输出的语句提示给所述用户。
13.一种应答生成方法,其特征在于,
所述应答生成方法具备如下步骤:
对话管理部从与预先决定的对话状态对应的应答模板中选择与和用户之间的对话状态对应的应答模板,输出在应答模板中包含的术语符号;
理解度估计部参照将通过预先决定的对话状态定义的多个估计条件与赋予给各估计条件的和术语符号的理解相应的权重对应起来而成的估计条件表、以及将在各估计条件下执行了功能的频度与和功能对应的术语符号对应起来而成的频度表,来确定与从所述对话管理部输入的术语符号对应的功能的各估计条件的所述频度和所述权重,对根据确定出的所述频度和所述权重计算出的评分进行大小判定,将判定的结果作为用户对术语符号的理解度向所述对话管理部输出;以及
应答生成部基于由所述对话管理部选择出的应答模板,生成与用户之间的对话状态中的应答语句,根据从所述对话管理部输入的用户对术语符号的理解度,向应答语句追加说明语句并输出。
CN201680084408.9A 2016-04-11 2016-04-11 应答生成装置、对话控制系统以及应答生成方法 Pending CN108885872A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/061702 WO2017179101A1 (ja) 2016-04-11 2016-04-11 応答生成装置、対話制御システムおよび応答生成方法

Publications (1)

Publication Number Publication Date
CN108885872A true CN108885872A (zh) 2018-11-23

Family

ID=60041483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680084408.9A Pending CN108885872A (zh) 2016-04-11 2016-04-11 应答生成装置、对话控制系统以及应答生成方法

Country Status (6)

Country Link
US (1) US10504508B2 (zh)
JP (1) JP6391887B2 (zh)
CN (1) CN108885872A (zh)
DE (1) DE112016006549B4 (zh)
TW (1) TW201737125A (zh)
WO (1) WO2017179101A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019106054A (ja) * 2017-12-13 2019-06-27 株式会社東芝 対話システム
JP6984474B2 (ja) * 2018-02-14 2021-12-22 トヨタ自動車株式会社 情報処理装置および情報処理方法
TWI718369B (zh) * 2018-04-26 2021-02-11 國立勤益科技大學 智能互動系統
US11063887B2 (en) * 2018-09-13 2021-07-13 Sharp Kabushiki Kaisha Information processing apparatus, user terminal apparatus, and control method
JP7135886B2 (ja) * 2019-01-24 2022-09-13 トヨタ自動車株式会社 促し発話装置、促し発話方法及びプログラム
US11303588B1 (en) * 2019-09-05 2022-04-12 Meta Platforms, Inc. Automating a response to a message communicated to a business entity via an online messaging application

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009037458A (ja) * 2007-08-02 2009-02-19 Toyota Motor Corp 応答システム、及び応答内容制御方法
CN101510197A (zh) * 2008-02-15 2009-08-19 冲电气工业株式会社 信息检索系统
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和系统
CN105144285A (zh) * 2013-06-19 2015-12-09 松下电器(美国)知识产权公司 声音对话方法及设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005084590A (ja) * 2003-09-11 2005-03-31 Nissan Motor Co Ltd 音声認識装置
TWI297123B (en) 2004-12-29 2008-05-21 Delta Electronics Inc Interactive entertainment center
EP1761015B1 (en) * 2005-09-02 2017-11-08 Swisscom AG Self-adaptive user interface for dialogue systems
JP4603988B2 (ja) * 2006-01-31 2010-12-22 キヤノン株式会社 情報処理装置および方法
US8880402B2 (en) * 2006-10-28 2014-11-04 General Motors Llc Automatically adapting user guidance in automated speech recognition
US8315868B2 (en) 2006-12-28 2012-11-20 Mitsubishi Electric Corporation Vehicle-mounted voice recognition and guidance apparatus
JP5132511B2 (ja) 2008-10-08 2013-01-30 ヤフー株式会社 知識dbを利用した検索方法
WO2010084881A1 (ja) * 2009-01-20 2010-07-29 旭化成株式会社 音声対話装置、対話制御方法及び対話制御プログラム
TWI379205B (en) 2009-03-12 2012-12-11 Ind Tech Res Inst Instant communication interacting system and method thereof
US9792015B2 (en) 2013-09-19 2017-10-17 Microsoft Technology Licensing, Llc Providing visualizations for conversations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009037458A (ja) * 2007-08-02 2009-02-19 Toyota Motor Corp 応答システム、及び応答内容制御方法
CN101510197A (zh) * 2008-02-15 2009-08-19 冲电气工业株式会社 信息检索系统
CN105144285A (zh) * 2013-06-19 2015-12-09 松下电器(美国)知识产权公司 声音对话方法及设备
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和系统

Also Published As

Publication number Publication date
US20190096395A1 (en) 2019-03-28
DE112016006549T5 (de) 2018-11-15
WO2017179101A1 (ja) 2017-10-19
DE112016006549B4 (de) 2019-11-14
US10504508B2 (en) 2019-12-10
JPWO2017179101A1 (ja) 2018-09-20
TW201737125A (zh) 2017-10-16
JP6391887B2 (ja) 2018-09-19

Similar Documents

Publication Publication Date Title
CN108885872A (zh) 应答生成装置、对话控制系统以及应答生成方法
US9865264B2 (en) Selective speech recognition for chat and digital personal assistant systems
CN110069608B (zh) 一种语音交互的方法、装置、设备和计算机存储介质
US10395647B2 (en) System and method for natural language processing
CN110838289A (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
CN107623614A (zh) 用于推送信息的方法和装置
JP2021533397A (ja) 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション
CN112970059B (zh) 用于处理用户话语的电子装置及其控制方法
CN107707745A (zh) 用于提取信息的方法和装置
CN105493027A (zh) 用于实时语言翻译的用户界面
CN105895105A (zh) 语音处理方法及装置
CN110148399A (zh) 一种智能设备的控制方法、装置、设备及介质
CN108877782A (zh) 语音识别方法和装置
CN111428010A (zh) 人机智能问答的方法和装置
CN102439660A (zh) 基于置信度得分的语音标签方法和装置
CN109376363A (zh) 一种基于耳机的实时语音翻译方法及装置
CN110288995A (zh) 基于语音识别的交互方法、装置、存储介质和电子设备
CN112199486A (zh) 一种办公场景的任务型多轮对话方法及系统
CN113658586B (zh) 语音识别模型的训练方法、语音交互方法及装置
CN113808572B (zh) 语音合成方法、装置、电子设备和存储介质
CN114490969B (zh) 基于表格的问答方法、装置以及电子设备
CN113223522B (zh) 语音识别方法、装置、设备和存储介质
CN112307162A (zh) 用于信息交互的方法和装置
CN107798094A (zh) 用于输入字词的方法和装置
CN111046674B (zh) 语义理解方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20230602

AD01 Patent right deemed abandoned