CN111095237A - 对话处理装置及对话处理系统 - Google Patents

对话处理装置及对话处理系统 Download PDF

Info

Publication number
CN111095237A
CN111095237A CN201880058572.1A CN201880058572A CN111095237A CN 111095237 A CN111095237 A CN 111095237A CN 201880058572 A CN201880058572 A CN 201880058572A CN 111095237 A CN111095237 A CN 111095237A
Authority
CN
China
Prior art keywords
information
item
sub
dialogue
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880058572.1A
Other languages
English (en)
Other versions
CN111095237B (zh
Inventor
杉浦千加志
佐佐木淳哉
后藤哲也
长健太
田中浩之
铃木优
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Publication of CN111095237A publication Critical patent/CN111095237A/zh
Application granted granted Critical
Publication of CN111095237B publication Critical patent/CN111095237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/543User-generated data transfer, e.g. clipboards, dynamic data exchange [DDE], object linking and embedding [OLE]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

实施方式的对话处理装置(10)具有一个或者多个分项目处理部(12)和对话控制部(11)。对话控制部(11)向各分项目处理部(12)发送输入信息。各分项目处理部(12)从输入信息中抽取自身应获得的信息的候选,并与表示该候选的可靠性的程度的信息一起发送给对话控制部(11)。对话控制部(11)将可靠性的程度满足第一基准的候选确定为对应的项目的信息,如果具有信息未确定的项目,则向用户输出询问该项目的信息的应答。多个的分项目处理部(12A、12B、12C、12D)中的每一个是通过对具有基本规则的通用处理部(20A、20B、20C、20D)提供项目名称(22A、22B、22C、22D)和动作参数(23A、23B、23C、23D)而被构建的,该基本规则用于根据与应获得的信息的类型对应的对话知识(21A、21B、21C、21D)进行候选的抽取并计算可靠性的程度。

Description

对话处理装置及对话处理系统
技术领域
本发明的实施方式涉及对话处理装置及对话处理系统。
背景技术
以往,已知有根据对话脚本进行与用户的对话的对话处理装置。这种对话处理装置可以通过对话脚本的改善实现与目的相适应的对话处理,但是为了灵活应对各种各样的对话的版本,所需要的对话脚本的量将增大。并且,对话脚本通常是按照用于达成规定的目的的一系列的对话的流程而单独生成的,因而难以使所生成的对话脚本具有通用性。因此,存在实现对话处理用的对话脚本的改善需要庞大的劳力的问题,期望以更简洁的结构实现用于达成规定的目的的对话处理的构架。
现有技术文献
专利文献
专利文献1:日本特开2007-264198
发明内容
发明要解决的课题
本发明要解决的课题是提供一种对话处理装置及对话处理系统,以简洁的结构实现用于达成规定的目的的对话处理。
用于解决课题的手段
实施方式的对话处理装置,通过与用户的对话获得用于执行规定的动作的一个或者多个项目的信息,所述对话处理装置具有:一个或者多个分项目处理部,与所述一个或者多个项目对应;以及对话控制部,与所述一个或者多个分项目处理部协作而控制与用户的对话。所述对话控制部将与用户的输入对应的输入信息发送给所述一个或者多个分项目处理部中的每一个分项目处理部。所述一个或者多个分项目处理部中的每一个分项目处理部从由所述对话控制部接收到的所述输入信息中抽取自身应获得的信息的候选,将所抽取的候选与表示该候选是应获得的信息的可靠性的程度的信息一起发送给所述对话控制部。所述对话控制部将从所述一个或者多个分项目处理部中的每一个分项目处理部接收到的候选中、所述可靠性的程度满足第一基准的候选,确定为与发送了该候选的分项目处理部对应的项目的信息,如果具有信息未确定的项目,则向用户输出用于询问该项目的信息的应答。所述一个或者多个分项目处理部中的每一个分项目处理部,是通过对具有基本规则的通用处理部提供对应的项目的项目名称和用于决定自身的动作的动作参数而被构建的,所述基本规则用于根据与应获得的信息的类型相对应的对话知识而计算所述候选的抽取及所述可靠性的程度。
附图说明
图1是表示有关第一实施方式的对话处理装置的功能性结构例的框图。
图2是表示插槽表的一例的图。
图3是表示表格信息的一例的图。
图4是说明分项目处理部的详情的图。
图5是说明分项目处理部的详情的图。
图6是说明分项目处理部的详情的图。
图7是说明分项目处理部的详情的图。
图8是说明对话控制部的详情的图。
图9是说明对话处理装置的动作例的图。
图10是表示对话控制部的处理步骤的一例的流程图。
图11是表示分项目处理部的处理步骤的一例的流程图。
图12是表示有关第二实施方式的对话处理系统的概要的框图。
图13是说明将有关多个分项目处理部设为分层构造的结构例的图。
图14是表示有关第一实施方式的对话处理装置和有关第二实施方式的对话处理系统的硬件结构例的框图。
具体实施方式
下面,参照附图对实施方式的对话处理装置及对话处理系统进行详细说明。
<实施方式的概要>
本实施方式的对话处理装置是用户以明确的目的进行使用的目的达成式的对话处理装置,通过与用户的对话,获得用于执行适应该目的的规定的动作的一个或者多个的项目的信息。例如,如果目的是“商谈记录”,则通过与用户的对话获得“访问日期时间”、“访问目标”、“下次预定日期”、“备注事项”等各项目的信息。另外,如果目的是“住宿预订”,则“预订入住时间”、“预订退房时间”、“住宿人数”、“住宿计划”等各项目的信息是应获得的信息,如果目的是车载导航系统的“路径查询”,则“目的地”、“有无利用收费道路”等各项目的信息是应获得的信息。此外,下面假设应获得的信息是多个项目的信息进行说明,但应获得的信息也可以是一个项目的信息。
本实施方式的对话处理装置使用插槽表(slot table)执行与目的相适应的规定的动作。插槽表具有与多个项目中的各项目对应的多个插槽。通过对话而获得的信息(项目值)被输入各插槽。在插槽表的所有插槽填满时,根据该插槽表执行与目的相适应的规定的动作。例如,如果目的是“商谈记录”,则与目的相适应的规定的动作是将商谈记录登记在数据库中的动作。另外,如果目的是“住宿预订”,则是住宿预订咨询的执行的动作,如果目的是“路径查询”,则是从当前位置到目的地的路径的查询处理的动作,是与各种目的对应的规定的动作。另外,也可以是,即使是插槽表的所有的插槽未填满时,在与执行规定的动作所需要的项目对应的插槽填满的阶段执行规定的动作。
本实施方式的根本是,按照与上述插槽表的各插槽对应的多个项目的每个项目设置单独进行用于获得该项目的信息的处理的小部件(在本实施方式中将其称为“分项目处理部”),将与多个项目对应的多个分项目处理部进行组合来实现对话处理。本实施方式的对话处理装置构成为具有这些多个分项目处理部、和与这些多个分项目处理部协作控制与用户的对话的对话控制部。对话控制部与多个分项目处理部协作地控制与用户的对话,使得信息被输入上述插槽表中的各插槽。
本实施方式的对话处理装置应获得的各项目的信息可以分类为与该项目的属性对应的类型。例如,在上述的以“商谈记录”为目的的例子中,如果项目是“访问日期时间”和“下次预定日期”,则应获得的信息是日期时间,因而是日期时间类型,如果项目是“访问目标”,则应获得的信息是从几个选择项中选择的公司名称等,因而是选择项类型。另外,如果项目是“备注事项”,则应获得的信息是没有特别限制的任意的信息,因而是自由记述类型。用于获得这些信息的处理根据该信息的类型,可以在某种程度上做到一般化。因此,在本实施方式中,按照每个类型事前准备定义了与应获得的信息的类型对应的通用性处理的通用处理部,定制这些通用处理部来构建上述的分项目处理部。
在本实施方式中,如上所述,定制按照应获得的信息的每个类型而事前准备的通用处理部来构建多个分项目处理部,将这些多个分项目处理部进行组合并构建对话处理装置。因此,不需如以往根据对话脚本进行对话处理的对话处理装置那样,进行改善与应达成的目的对应的大量的对话脚本的烦杂作业,即可实现适当的对话处理,以简洁的结构实现达成规定的目的用的对话处理。下面,以应达成的目的是“商谈记录”的情况为例,对本实施方式的对话处理装置的具体的结构例及动作进行说明。
<第一实施方式>
图1是表示有关第一实施方式的对话处理装置10的功能性结构例的框图。本实施方式的对话处理装置10如图1所示具有对话控制部11和多个分项目处理部12A、12B、12C、12D(下面,在不需要特别区分它们的情况下,表述为“分项目处理部12”)的组合,作为用于实现与用户50之间的对话处理的基本单元。该对话处理装置10进行与用户50之间的对话处理,以便获得在插槽表16的各插槽输入的信息。
图2表示插槽表16的一例。插槽表16如图2所示具有以项目序号(图中的01、02、03、04)被识别的多个插槽17A、17B、17C、17D(下面,在不需要特别区分它们的情况下,表述为“插槽17”)。这些多个插槽17与适应应达成的目的的多个项目对应。在本实施方式中,应达成的目的是“商谈记录”,假设将商谈记录登记在数据库中所需要的信息是“访问日期时间”、“访问目标”、“下次预定日期”及“备注事项”等各项目的信息。因此,生成具有以下插槽的插槽表16,即,被输入“访问日期时间”的信息的项目序号01的插槽17A、被输入“访问目标”的信息的项目序号02的插槽17B、被输入“下次预定日期”的信息的项目序号03的插槽17C、被输入“备注事项”的信息的项目序号04的17D。
插槽表16在开始与用户50之间的对话处理时生成,并随时被输入通过与用户的对话而获得的信息。并且,在所有的插槽17填满时执行与目的相适应的规定的动作,该插槽表16被删除。即,插槽表16是每当与用户50之间进行用于达成目的的一系列的对话处理时生成的临时的表格。该插槽表16是根据在对话处理装置10的内部被持久地保存的表格信息而生成的。在此,关于插槽表16,以根据在对话处理装置10的内部被持久地保存的表格信息被随时生成的构架进行说明,但不限于此,也可以不删除所生成的插槽表16而以表格形式进行保存。
图3表示表格信息18的一例。表格信息18是如图3所示按照为执行与目的相适应的规定的动作而应获得信息的多个项目的每个项目,定义了项目序号、信息的类型和项目名称的信息。图3所示的表格信息18决定图2所示的在插槽表16的各插槽17被输入的信息。即,根据图3所示的表格信息18决定这样的插槽表16,在该插槽表16的以项目序号01被识别的插槽17A被输入日期时间类型的信息作为项目名称是“访问日期时间”的项目的信息,在以项目序号02被识别的插槽17B被输入选择项类型的信息作为项目名称是“访问目标”的项目的信息,在以项目序号03被识别的插槽17C被输入日期时间类型的信息作为项目名称是“下次预定日期”的项目的信息,在以项目序号04被识别的插槽17D被输入自由记述类型的信息作为项目名称是“备注事项”的项目的信息。
上述的表格信息18例如在构建与目的相适应的对话处理装置10时通过装置构建者被输入,并被持久地保存在对话处理装置10的内部。并且,在开始与用户50之间的对话处理时,参照该表格信息18生成插槽表16。并且,表格信息18还被用作构建与多个项目对应的多个分项目处理部12用的信息。另外,在对话控制部11按照后面所述向用户50输出应答的情况下,该表格信息18也被参照。
对话控制部11与多个分项目处理部12协作控制与用户50的对话。对话控制部11具有这样的作用:将分别独立地进行动作的多个分项目处理部12进行汇总,由与用户50的输入对应的输入文本获得在插槽表16的各插槽17输入的信息。
具体地,对话控制部11接收用户50的输入,将与用户50的输入对应的输入信息发送给多个分项目处理部12中的各个分项目处理部。下面,假设输入信息是文本(输入文本)进行说明,但不限于此。在与用户50的输入对应的输入信息是文本的情况下,用户50的输入可以是通过麦克风所取得的声音,还可以是通过键盘等被输入的文本。如果用户50的输入是文本,对话控制部11将用户50输入的文本原样作为输入文本发送给多个分项目处理部12中的各个分项目处理部。在用户50的输入是声音的情况下,对话控制部11将该声音通过声音识别处理转换成文本,将所得到的文本作为输入文本发送给多个分项目处理部12中的各个分项目处理部。另外,也可以是这样的结构,在对话控制部11的外部进行针对用户50输入的声音的声音识别处理,对话控制部11接收由声音被转换而成的文本。声音识别处理采用公知技术即可,因而省略详细说明。
然后,对话控制部11接收由多个分项目处理部12中的各个分项目处理部发送的后述的候选及得分。并且,如果具有得分在第一阈值以上的候选(满足第一基准的候选),则将该候选确定为与发送了该候选的分项目处理部12对应的项目的信息,并输入插槽表16的所对应的项目的插槽17。例如,如果由与项目名称为“访问日期时间”的项目对应的分项目处理部12A发送的候选的得分在第一阈值以上,则对话控制部11将由分项目处理部12A发送的候选确定为项目名称为“访问日期时间”的项目的信息,并输入插槽表16的插槽17A。另外,得分是表示该候选是应获得的信息的可靠性的程度的信息的一例,也可以使用得分以外的信息。例如,不限于如得分那样被数值化的信息,还能够使用表示该候选是应获得的信息的可靠性的程度的标签(例如,“可靠”、“模糊”、“不符”等标签)等。在这种情况下,标签为“可靠”的候选成为满足第一基准的候选,标签为“模糊”的候选成为不满足第一基准、但满足第二基准的候选。
另外,当在插槽表16中具有未被输入信息的插槽17的情况下、即具有在插槽17输入的信息为未确定的项目的情况下,对话控制部11向用户50输出询问该项目的信息的应答。例如,如果用户50的输入是文本,对话控制部11生成询问未确定的项目的信息的应答文本,使该应答文本显示在用户50使用的显示装置上。另外,如果用户50的输入是声音,对话控制部11将所生成的应答文本通过声音合成处理转换成声音,将所得到的声音从用户50使用的扬声器进行输出。另外,也可以是这样的结构,在对话控制部11的外部进行针对应答外部的声音合成处理,并从用户50使用的扬声器进行输出。声音合成处理采用公知技术即可,因而省略详细说明。
关于询问未确定的项目的信息的应答文本,例如能够通过准备“xxx是什么”这样作为基础的通用的应答文本,在“xxx”部分插入信息为未确定的项目名称来生成。例如,如果项目名称是“下次预定日期”的项目的信息为未确定,通过在作为基础的应答文本中插入“下次预定日期”,能够生成“下次预定日期是什么”的应答文本。另外,也可以是,例如单独准备“xxx是什么时候”这样日期时间类型所特有的作为基础的应答文本,如果询问的信息是日期时间类型,则选择该应答文本并插入项目名称,生成“下次预定日期是什么时候”这样的应答文本。当具有信息为未确定的多个项目的情况下,对话控制部11例如可以由项目序号较小的项目开始顺序地向用户50输出询问该项目的信息的应答。
并且,对话控制部11在由多个分项目处理部12中任一方接收到得分小于第一阈值且在第二阈值以上的候选(不满足第一基准、但满足第二基准的候选)的情况下(其中,第一阈值>第二阈值),向用户15输出询问该候选是否正确的应答。关于这种情况时的应答文本,例如通过准备“xxx是yyy吗”这样作为基础的通用的应答文本,在“xxx”的部分插入成为询问的对象的项目名称,在“yyy”的部分插入成为询问的对象的候选来生成。例如,在由与项目名称是“访问目标”的项目对应的分项目处理部12B接收到的候选是“山下工业”、该候选的得分小于第一阈值且在第二阈值以上的情况下,通过在作为基础的应答文本中插入“访问目标”和“山下工业”,能够生成“访问目标是山下工业吗?”这样的应答文本。
在向用户50输出了询问由分项目处理部12接收到的候选是否正确的应答的情况下,对话控制部11在与来自用户50的下一个的输入对应的输入文本包括例如“是”、“是的”这样的肯定表述的情况下,将作为询问的对象的候选确定为与作为询问的对象的项目对应的信息,并输入插槽表16的所对应的项目的插槽17。另一方面,在与来自用户50的下一个的输入对应的输入文本包括例如“不”、“不是的”这样的否定表述的情况下、或者肯定表述和否定表述都不包含的情况下,对话控制部11将该输入文本发送给与成为询问的对象的项目对应的分项目处理部12,等待由该分项目处理部12再次发送过来候选及其得分。另外,也可以是,不仅向与成为询问的对象的项目对应的分项目处理部12发送输入文本,而且也向所有的分项目处理部12发送输入文本。并且,对话控制部11在由多个分项目处理部12发送过来得分小于第一阈值且在第二阈值以上的候选的情况下,例如可以由项目序号较小的项目开始顺序地向用户50输出询问候选是否正确的应答。
对话控制部11反复进行以上的处理一直到插槽表16的所有的插槽17填满为止,在插槽表16的所有的插槽17填满时,使用在插槽表16的各插槽17被输入的信息执行与目的相适应的规定的动作。在本实施方式中,应达成的目的是“商谈记录”,因而在插槽表16的插槽17A被输入的“访问日期时间”的信息、在插槽17B被输入的“访问目标”的信息、在插槽17C被输入的“下次预定时间”的信息、和在插槽17D被输入的“备注事项”的信息,作为一个商谈记录被登记在数据库中。另外,也可以是这样的结构,对话控制部11进行截止到在插槽表16的各插槽17输入信息的处理,与目的相适应的规定的动作由与对话控制部11不同的单元,根据在插槽表16的各插槽17被输入的信息来执行。
多个分项目处理部12分别接收由对话控制部11发送的输入文本,从该输入文本中抽取自身应获得的信息的候选,将所抽取的候选与表示该候选是应获得的信息的可靠性的得分一起发送给对话控制部11。这些分项目处理部12如上所述是通过定制、按照信息的每个类型而事前准备的通用处理部中与自身应获得的信息的类型对应的通用处理部而构建的。通用处理部具有根据与应获得的信息的类型对应的对话知识进行候选的抽取及得分的计算的基本规则,并被提供项目名称和决定分项目处理部12的动作用的动作参数,由此作为分项目处理部12发挥作用。
图4是说明与项目名称是“访问日期时间”的项目对应的分项目处理部12A的详情的图。分项目处理部12A是按照图4所示通过对日期时间类型通用处理部20A提供项目名称22A和动作参数23A而构建的。日期时间类型通用处理部20A是与日期时间类型的信息对应的通用处理部。由于项目名称22A是“访问日期时间”、动作参数23A是分项目处理部12A应获得的信息为过去的日期时间的访问日期时间,因而是“过去的日期时间”这样的信息获得的条件。
日期时间类型通用处理部20A根据对话知识21A从输入文本中抽取被估计为表示日期时间的部分作为候选,按照候选计算指示所抽取的各候选表示日期时间的可靠性的得分,将得分为最高的候选与得分一起进行输出。对话知识21A包括日期时间类型通用处理部20A的动作流程和得分计算的规则、表示日期时间的字符串的列表、将表示日期时间的字符串转换成规定格式的数值的列的规则等。例如,在输入文本包含“今天15时”这样的字符串的情况下,日期时间类型通用处理部20A根据对话知识21A将“今天15时”这样的字符串转换成“2017/06/26 15:00”这样规定格式的数值的列。另外,对话知识21A还可以包含当表示日期时间的字符串与项目名称22A一起被包含在输入文本中的情况下,将该字符串(候选)的得分设为最大的规则。
另外,得分的计算能够按照预先设定的得分计算规则来进行。例如,当项目名称22A的一部分被包含在输入文本中的情况下,给与值0.7作为基础得分,在还符合动作参数23A的情况下、在项目名称22A全部被包含的情况下,分别按照对基础得分加上0.1的计算规则计算得分。例如,在被输入“今天15时将yy介绍给了xx。”时,“今天15时”符合项目名称22A的一部分的日期时间,因而被给与值0.7作为基础得分。另外,由于是“介绍给了”这样有关过去的输入,因而“今天15时”是指过去的日期时间,符合动作参数23A,因而被加上0.1,得分成为0.8。另一方面,在项目名称22A全部被包含在输入文本中的情况下,如“访问日期时间为今天15时……”或“今天15时访问了xx”等,还被再加上0.1,因而得分成为0.9。
另外,当项目名称22A不被包含在输入文本中、也不符合动作参数23A的情况下,不是将得分设为零,而是根据输入文本的字符串,根据与对项目名称22A、动作参数23A设定的信息的相似度等计算得分。在这种情况下,优选设定比基础得分低的得分。
日期时间类型通用处理部20A通过被提供项目名称22A和动作参数23A,被定制为用于获得“访问日期时间”的信息的分项目处理部12A。分项目处理部12A将作为动作参数23A所提供的“过去的日期时间”作为信息获得的条件,从输入文本中抽取“访问日期时间”的候选,计算表示该候选是“访问日期时间”的可靠性的得分,将得分为最高的候选与得分一起发送给对话控制部11。
图5是说明与项目名称是“访问目标”的项目对应的分项目处理部12B的详情的图。分项目处理部12B是按照图5所示通过对选择项类型通用处理部20B提供项目名称22B和动作参数23B而被构建的。选择项类型通用处理部20B是与选择项类型的信息对应的通用处理部。项目名称22B是“访问目标”,动作参数23B是由分项目处理部12B应获得的信息有几个信息的选择项中被选择的公司名称等,因而例如是“东京商事、海山建设、山田工业……”这样的选择项。
选择项类型通用处理部20B根据对话知识21B,从输入文本中抽取被估计为与作为动作参数23B被提供的选择项中任一个一致的部分作为候选,按照每个候选计算指示所抽取的各候选表示该选择项的可靠性的得分,将得分为最高的候选与得分一起进行输出。对话知识21B包括选择项类型通用处理部20B的动作流程和得分计算的规则等。另外,也可以是,对话知识21B包含在被估计为与作为动作参数23B提供的选择项中任一个一致的字符串、和项目名称22B一起都被包含在输入文本中的情况下,将该字符串(候选)的得分设为最大的规则。
另外,也可以是,选择项类型通用处理部20B在输入文本包含读音的信息的情况下(例如,通过针对用户50输入的声音的声音识别处理而得到的读音的信息被附加在输入文本中的情况下),作为动作参数23B对所提供的选择项附加读音的信息,通过输入文本所包含的读音的信息和选择项的读音的信息的匹配,从输入文本中抽取候选。
另外,得分的计算能够按照预先设定的得分计算规则来进行。例如,与日期时间类型的情况一样,能够根据输入文本是否包含项目名称22B和动作参数23B进行计算。例如,设为在包含动作参数23B的情况下给与基础得分(0.7),在还包含项目名称22B的情况下增加得分的计算规则。另外,还能够使得分反映出使用了上述的读音的信息的匹配的结果,在这种情况下,可以根据读音的信息的相似度增加得分。例如,在用户50说出“访问目标是海山商事”或“访问了海山商事”、并且识别结果全部正确的情况下,由于包含了项目名称的“访问目标”、作为项目名称的一部分的“访问”,因而增加得分(+0.1)。另外,由于包含作为对动作参数23B设定的选择项的“海山商事”,因而再增加得分(+0.2)。关于与动作参数23B的关系中的得分评价,例如能够根据与选择项的对象字符串的一致、读音的信息的相似度、与项目名称的距离等进行评价。评价(得分的增加值)可以适当设定。
在选择项类型的情况下,与日期时间类型的情况一样,在输入文本与项目名称22B、动作参数23B不符的情况下,不是将得分设为零,而是根据一部分的信息、例如仅输入文本的读音的信息的一部分与对项目名称22B和动作参数23B设定的信息相似的情况等,使能够根据与对项目名称22B、动作参数23B设定的信息的关系计算得分。在这种情况下,期望设定比基础得分低的得分。在后述的自由记述类型通用处理部20D中也能够基于同样的考量,计算输入文本与项目名称、动作参数不符的情况的得分。
选择项类型通用处理部20B通过被提供项目名称22B和动作参数23B,被定制为获得“访问目标”的信息用的分项目处理部12B。分项目处理部12B从输入文本中抽取被估计为与作为动作参数23B所提供的选择项中任一个一致的字符串作为“访问目标”的候选,计算表示该候选是“访问目标”的可靠性的得分,将得分为最高的候选与得分一起发送给对话控制部11。
图6是说明与项目名称为“下次预定日期”的项目对应的分项目处理部12C的详情的图。分项目处理部12C是按照图6所示通过对日期时间类型通用处理部20A提供项目名称22C和动作参数23C而构建的。由于项目名称22C是“下次预定日期”、动作参数23C是分项目处理部12C应获得的信息为未来的日期时间的下次预定日期,因而是“未来的日期时间”这样的信息获得的条件。
分项目处理部12C所使用的日期时间类型通用处理部20A与上述的分项目处理部12A所使用的日期时间类型通用处理部20A相同地,从输入文本中抽取被估计为表示日期时间的部分作为候选,按照每个候选计算指示所抽取的各候选表示日期时间的可靠性的得分,将得分为最高的候选与得分一起进行输出。该日期时间类型通用处理部20A通过被提供项目名称22C和动作参数23C,被定制为获得“下次访问日期”的信息用的分项目处理部12C。分项目处理部12C将作为动作参数23C所提供的“未来的日期时间”作为信息获得的条件,从输入文本中抽取“下次预定日期”的候选,计算表示该候选是“下次预定日期”的可靠性的得分,将得分为最高的候选与得分一起发送给对话控制部11。
图7是说明与项目名称是“备注事项”的项目对应的分项目处理部12D的详情的图。分项目处理部12D是按照图7所示通过对自由记述类型通用处理部20D提供项目名称22D和动作参数23D而构建的。自由记述类型通用处理部20D是与自由记述类型的信息对应的通用处理部。由于项目名称22D是“备注事项”,动作参数23D是定义有关“商谈记录”的专门用语等的用户辞典、和在与“备注事项”对应的插槽17D中输入的信息的字符数限制等。
自由记述类型通用处理部20D根据对话知识21D,从输入文本中抽取在与项目名称对应的插槽17中输入的信息的候选,计算表示所抽取的候选是在与项目名称对应的插槽17中输入的信息的可靠性的得分,将候选与得分一起进行输出。对话知识21D包括自由记述类型通用处理部20D的动作流程和得分计算的规则,在输入文本包含项目名称时,抽取该项目名称后面的后续的字符串作为候选、并将得分最大化的规则等。
另外,得分的计算能够按照预先设定的得分计算规则来进行。例如,能够根据是否包含项目名称22D计算得分。并且,能够按照如下的计算规则进行计算,在包含项目名称22D的情况下给与基础得分,根据输入文本中的项目名称的出现位置增加得分。例如,在输入文本是“xxxxxx、备注事项为yyy”的情况下,由于在中途具有“备注事项”,因而抽取“备注事项”下面的“yyy”的部分作为自由记述内容,并给与基础得分(0.6)。另外,在如输入文本是“备注事项为yyy”那样在开头具有项目名称的情况下,增加得分(+0.2)。另外,也可以是,在自由记述类型的情况时与日期时间类型和选择项类型一样地,还能够使得分反映出读音的信息,即使是表述不一致时,只要读音的信息相似就视为包含项目名称22D,并给与基础得分。
自由记述类型通用处理部20D通过被提供项目名称22D和动作参数23D,被定制为获得“备注事项”的信息用的分项目处理部12D。分项目处理部12D使用作为动作参数23D所提供的用户辞典,从输入文本中抽取不超过字符数限制的字符串作为候选,计算表示该候选是“备注事项”的可靠性的得分,将候选与得分一起发送给对话控制部11。
如上所述,本实施方式的对话处理装置10具有的多个分项目处理部12,分别是通过对与自身应获得的信息的类型对应的通用处理部给与项目名称及动作参数而被构建的。通用处理部采用按照信息的每个类型事前准备的通用处理部。因此,在构建本实施方式的对话处理装置10时,按照执行与目的相适应的规定的动作所需要的每个项目,选择与该信息的类型对应的通用处理部,并给与项目名称及动作参数来构建分项目处理部12,仅通过设置将多个分项目处理部12进行汇总的对话控制部11,即可构建可以进行适当的对话处理的对话处理装置10。
另外,在本实施方式中,假设应达成的目的是“商谈记录”的情况,因而作为通用处理部是示例了与日期时间类型的信息对应的日期时间类型通用处理部20A、与选择项类型的信息对应的选择项类型通用处理部20B、以及与自由记述类型的信息对应的自由记述类型通用处理部20D。但是,通过事前准备与各种各样的信息的类型对应的通用处理部,能够容易构建用于获得与各种各样的目的对应的每种项目的信息的分项目处理部。
例如,事前准备与数值类型的信息对应的通用处理部,针对该通用处理部,给与“住宿预订”作为项目名称、给与“单位(人)、有效位、上限下限”作为动作参数等,由此构建用于获得为达成“住宿预订”的目的所需要的“住宿人数”的信息的分项目处理部。另外,事前准备与住址类型的信息对应的通用处理部,针对该通用处理部,提供“目的地”作为项目名称、提供“住址数据、地图数据”作为动作参数等,由此构建用于获得为达成“路径查询”的目的所需要的“目的地”的信息的分项目处理部。
另外,也可以是,针对上述的对话控制部11适用与分项目处理部12相同的构架,定制具有将多个分项目处理部12进行汇总的基本规则的通用对话控制部,由此构建对话控制部11。图8是说明这样构建的对话控制部11的详情的图。该对话控制部11是按照图8所示通过对通用对话控制部30给与动作参数32而构建的。
通用对话控制部30根据对话知识31控制与用户50的对话。对话知识31包括动作流程、与用户的对话的规则、为答复用户50而使用的上述的作为基础的通用的应答文本等,该动作流程是指将输入文本发送给各分项目处理部12,并与得分一起接收候选,将得分在第一阈值以上的候选输入插槽表16的相应的插槽17。该通用对话控制部30通过被给与动作参数32,被定制为与对话处理装置10应达成的目的对应的对话控制部11。动作参数32例如是与插槽表16的各插槽17对应的项目名称、在所有的插槽17填满时执行的动作等。
在本实施方式的对话处理装置10中,与用户50的对话的历史被蓄积在对话历史蓄积部13中。被蓄积在对话历史蓄积部13中的对话历史例如能够用来更新分项目处理部12的对话知识21A、21B、21D(下面,在不特别区分它们时表述为“对话知识21”)。本实施方式的对话处理装置10具有使用对话历史更新对话知识21的更新部14。
更新部14根据在对话历史蓄积部13被蓄积的对话历史,检测不能确定作为与多个分项目处理部12中任一方对应的项目的信息而应确定的信息的事件,并更新与该项目对应的分项目处理部12的对话知识21,使得可以将该信息确定为该项目的信息。具体地,例如对管理对话处理装置10的运用的管理者,可浏览地提示在对话历史蓄积部13被蓄积的对话历史。管理者确认对话历史,在输入文本所包含的某一项目的信息未被确定而对用户50进行了询问的情况下,将该信息和项目名称输入对话处理装置10。更新部14以来自该管理者的输入为基础检测上述的事件,并更新该分项目处理部12的对话知识21,使得在由管理者输入的项目名称的分项目处理部12中适当地获得由管理者输入的信息。
另外,也可以是,更新部14从在对话历史蓄积部13被蓄积的对话历史中检测应答与输入文本的组合的对话模式作为上述的事件,所述应答是对话控制部11向用户50输出的询问得分小于第一阈值且在第二阈值以上的所述候选是否正确的应答,所述输入文本包含其后的肯定表述,并且,更新部14更新将该对话模式所包含的候选发送给对话控制部11的分项目处理部12的对话知识21,使得所述候选的得分达到第一阈值以上。
在本实施方式的对话处理装置10中,对话控制部11能够按照可以调整的控制参数控制与用户50的对话。其中,所谓控制与用户50的对话的控制参数,例如是指应答文本的语言使用(亲密、礼貌等)、对应答文本进行声音合成而输出的合成声音的音质和速度等。通过按照用户50的属性(年龄、性别等)适当调整这样的控制参数,对于用户50而言能够实现满意度较高的对话。本实施方式的对话处理装置10具有参数调整部15,调整由对话控制部11控制与用户50的对话用的控制参数。
参数调整部15取得用户50的属性,按照所取得的属性调整上述的控制参数。用户50的属性例如可以通过受理用户50的明确的指定(例如年龄和性别的输入)来取得。或者,也可以是,通过摄像机拍摄用户50的脸部图像,分析该脸部图像来估计用户50的属性。另外,还可以是,分析与用户50的对话历史,估计用户50的大致性格(严肃、直爽等),将该性格包含在用户50的属性中。关于与用户50的属性对应的控制参数的值,例如将各种各样的属性的用户50作为对象,一面改变控制参数的值一面收集进行对话处理时的用户50的满意度等并进行统计处理,由此能够决定最佳的值。
下面,对如上所述构成的本实施方式的对话处理装置10的动作进行说明。图9是说明本实施方式的对话处理装置10的动作例的图,表示用户50进行了“今天15时去了东京商事”的输入时的对话处理装置10的动作例。
对话控制部11接收用户50的输入,将“今天15时访问了东京商事”这样的输入文本发送给多个分项目处理部12中的各个分项目处理部(1)。多个分项目处理部12中与项目名称是“访问日期时间”的项目对应的分项目处理部12A,从由对话控制部11接收到的“今天15时访问了东京商事”这样的输入文本中,抽取“今天15时”并转换成“2017/06/26 15:00”。输入文本包含项目名称22A的“访问”,并且提示出“访问了”这样过去的日期时间,与作为动作参数23A所提供的过去的日期时间这样的条件吻合,因而根据计算规则计算出对基础得分0.7加上了0.2得到的0.9这样高的值作为得分。这样,从“今天15时访问了东京商事”抽取的“今天15时”的得分达到0.9,把得分0.9与将该“今天15时”转换得到的候选“2017/06/2615:00”一起发送给对话控制部11(2A)。另外,在此假设得分的值域是0~1.0,第一阈值是0.9,第二阈值是0.7。
另外,多个分项目处理部12中与项目名称是“访问目标”的项目对应的分项目处理部12B,从由对话控制部11接收到的“今天15时去了东京商事”这样的输入文本中,抽取“访问”、“东京商事”并计算得分。“访问”由于与项目名称22B一致,因而得分是0.8,“东京商事”由于包含在作为动作参数23B而被提供了的选择项中,所以被计算出0.9这样高的值作为得分。在这种情况下,分项目处理部12将“东京商事”作为候选,并与得分:0.9一起发送给对话控制部11(2B)。
另外,多个分项目处理部12中与项目名称是“下次预定日期”的项目对应的分项目处理部12C,从由对话控制部11接收到的“今天15时访问了东京商事”这样的输入文本中,抽取“今天15时”并转换成“2017/06/2615:00”,将其作为候选并与得分:0.45一起发送给对话控制部11(2C)。“今天15时”与作为动作参数23C所提供的未来的日期时间的条件不吻合,因而得分成为0.45这样比较低的值。
另外,多个分项目处理部12中与项目名称是“备注事项”的项目对应的分项目处理部12D,抽取由对话控制部11接收到的“今天15时访问了东京商事”这样的输入文本并直接作为候选,并与得分:0.12一起发送给对话控制部11(2D)。该候选不是“备注事项”这样的项目名称后面的后续的字符串,因而得分成为0.12这样比较低的值。
从多个分项目处理部12中的各个分项目处理部接收了候选和得分的对话控制部11,将得分在第一阈值以上的候选确定为与发送了该候选的分项目处理部12对应的项目的信息,并输入插槽表16的所对应的项目的插槽17中(3)。在本例中,从分项目处理部12A发送的“2017/06/26 15:00”的得分是0.95,从分项目处理部12B发送的“东京商事”的得分是0.92。因此,对话控制部11将“2017/06/26 15:00”确定为“访问日期时间”的信息,将“东京商事”确定为“访问目标”的信息,在插槽表16的与“访问日期时间”对应的插槽17A中输入“2017/06/26 15:00”,在与“访问目标”对应的插槽17B中输入“东京商事”。
另外,在接收到得分小于第一阈值且在第二阈值以上的候选的情况下,对话控制部11向用户50输出询问该候选是否正确的应答,而在本例中,由于未接收到这样的候选,因而不进行询问候选是否正确的应答。
然后,对话控制部11确认插槽表16的所有的插槽17是否已填满,如果具有信息未输入的插槽17,则向用户50输出询问在该插槽17中输入的信息的应答(4)。在本例中,与“下次预定日期”对应的插槽17C和与“备注事项”对应的插槽17D尚未输入,因而向用户50输出“下次预定日期是什么”的应答,以便询问在项目序号较小的插槽17C中输入的“下次预定日期”的信息。
本实施方式的对话处理装置10反复进行以上的动作一直到插槽表16的所有的插槽17填满为止,通过与用户50的对话获得各项目的信息,并输入插槽表16的各插槽17中。并且,在所有的插槽17填满时,对话控制部11根据插槽表16执行与“商谈记录”等目的对应的动作。
图10是表示对话控制部11的处理步骤的一例的流程图,示出了对话控制部11每当接收来自用户50的输入时执行的处理的流程。
对话控制部11在接收来自用户50的输入时,首先将与该输入对应的输入文本发送给多个分项目处理部12的各个分项目处理部(步骤S101)。并且,对话控制部11从各分项目处理部12接收候选和得分(步骤S102)。
然后,对话控制部11判定从各分项目处理部12接收到的候选中是否具有得分在第一阈值以上的候选(步骤S103)。并且,如果具有得分在第一阈值以上的候选(步骤S103:是),则将该候选输入插槽表16的所对应的插槽17(步骤S104)。另一方面,如果没有得分在第一阈值以上的候选(步骤S103:否),则不进行步骤S104的处理,进入下一个步骤S105。
然后,对话控制部11判定从各分项目处理部12接收到的候选中是否具有得分小于第一阈值且在第二阈值以上的候选(步骤S105)。并且,如果具有得分小于第一阈值且在第二阈值以上的候选(步骤S105:是),则对话控制部11向用户50输出询问该候选是否正确的应答(步骤S106),并结束一系列的处理。
另一方面,如果没有得分小于第一阈值且在第二阈值以上的候选(步骤S105:否),对话控制部11判定插槽表16的所有的插槽17是否已填满(步骤S107)。并且,如果具有未被输入信息的插槽(步骤S107:否),则对话控制部11向用户50输出询问在该未确定的插槽17输入的信息的应答(步骤S108),并结束一系列的处理。另一方面,如果插槽表16的所有的插槽17已填满(步骤S107:是),对话控制部11使用在插槽表16的各插槽17被输入的信息执行与目的相适应的规定的动作(步骤S109),并结束一系列的处理。
图11是表示分项目处理部12的处理步骤的一例的流程图,示出了分项目处理部12每当从对话控制部11被发送输入文本时执行的处理的流程。
分项目处理部12在接收从对话控制部11发送的输入文本时(步骤S201),根据该输入文本进行候选的抽取和得分计算(步骤S202)。然后,分项目处理部12将在步骤S202中抽取的候选、与针对该候选计算出的得分一起发送给对话控制部11(步骤S203),并结束一系列的处理。另外,也可以是,分项目处理部12将输入文本分割成规定单位的字符串等部分文本进行处理。在这种情况下,作为分割的方法,能够使用例如对输入文本进行意思分析,以意思的整体为单位划分输入文本的方法。此外,分割的方法可以根据应获得的信息的类型而不同,还可以设为将分割的规则包含在上述的对话知识21中的结构。也可以是,对所分割的各部分文本进行得分的计算,将所计算出的得分为最高的部分文本作为候选,把该候选与得分一起发送给对话控制部11。
如以上列举具体的例子详细说明的那样,本实施方式的对话处理装置10通过多个分项目处理部12和对话控制部11的组合,实现与应达成的目的对应的对话处理,这些分项目处理部12是通过定制事前按照信息的每个类型而准备的通用处理部而构建的,对话控制部11对这些分项目处理部12进行汇总。因此,不需如以往根据对话脚本进行对话处理的对话处理装置那样,进行改善与应达成的目的对应的大量的对话脚本的烦杂作业,即可进行适当的对话处理,以简洁的结构实现达成规定的目的用的对话处理。
并且,本实施方式的对话处理装置10是这样的结构,由对话控制部11将输入文本发送给多个分项目处理部12中的所有分项目处理部,多个分项目处理部12分别独立地进行用于获得每个项目的信息的处理,因而能够从用户50的一次输入同时获得多个项目的信息。即,在现有技术中从用户50的一次输入只能获得一个项目的信息,而在本实施方式中能够从用户50的一次输入获得多个项目的信息,能够实现效率良好的对话。
(第一变形例)
另外,在以上的说明中,在从分项目处理部12被发送的候选的得分小于第一阈值且在第二阈值以上的情况下,对话控制部11生成用于询问用户50该候选是否正确的应答文本,但也可以是,由发送了该候选的分项目处理部12生成应答文本。在这种情况下,分项目处理部12在由输入文本所抽取的候选的得分小于第一阈值且在第二阈值以上的情况下,替代向对话控制部11发送该候选和得分,而向对话控制部11发送用于询问该候选是否正确的应答文本。对话控制部11在从任意一个分项目处理部12接收到应答文本的情况下,将该应答文本或者通过声音合成处理由该应答文本被转换而成的合成声音输出给用户50。
(第二变形例)
另外,在以上的说明中,仅将得分小于第一阈值且在第二阈值以上的候选作为对象,询问用户50该候选是否正确,但也可以是,用户50可以指定询问的频次。例如,也可以是,作为对话处理装置10的动作模式设置“标准模式”和“准确模式”,在用户50选择了“标准模式”的情况下,与上述的例子一样地,仅将得分小于第一阈值且在第二阈值以上的候选作为对象,询问用户50该候选是否正确,在用户50选择了“准确模式”的情况下,将得分在第二阈值以上的所有的候选作为对象,询问用户50该候选是否正确。另外,也可以是,作为对话处理装置10的动作模式还追加“简易模式”,在用户50选择了“简易模式”的情况下,不对用户50进行询问,就将得分小于第一阈值且在第二阈值以上的候选确定为对应的项目的信息。此外,还可以是根据用户50所选择的动作模式使针对得分的阈值变化的结构,以便在用户50选择了“准确模式”的情况下降低第一阈值的值,在用户50选择了“简易模式”的情况下提高第二阈值的值。此外,还可以是,设置对最后所输入的内容确认这样可以吗的模式,或与所选择的模式无关,设置针对最终确定的内容进行确认的构架。
(第三变形例)
另外,本实施方式的对话处理装置10还可以是这样的结构,不仅具有用于获得在插槽表16的各插槽17输入的信息的多个分项目处理部12,而且具有用于顺畅地进行与用户50的对话的对话处理部。例如,也可以是,具有在与用户50的对话处理的开始时进行问候的应答的对话处理部。这样的对话处理部能够以与分项目处理部12相同的构架来构建。即,例如通过对一问一答式的通用处理部提供表示各种各样的问候模式的动作参数,能够构建在与用户50的对话处理的开始时进行问候的应答的对话处理部。
<第二实施方式>
下面,对第二实施方式进行说明。本实施方式是将应达成的目的彼此不同的多个对话处理装置10进行组合,构建多目的型的对话处理系统的例子。
图12是表示有关第二实施方式的对话处理系统100的概要的框图。对话处理系统100如图12所示具有多个对话处理装置10A、10B、10C(下面,在不特别区分它们的情况下表述为“对话处理装置10”)、和选择部40。多个对话处理装置10分别是与上述的第一实施方式的对话处理装置10相同的结构,但应达成的目的(根据目的而执行的规定的动作)彼此不同。在本实施方式中,对话处理装置10A是以“商谈记录”为目的而构建的,对话处理装置10B是以“新顾客登记”为目的而构建的,对话处理装置10C是以“订货记录”为目的而构建的。
选择部40根据与用户50的输入对应的输入文本,判断作为用户50目的的规定的动作,从多个对话处理装置10中选择进行与用户50的对话的对话处理装置10。例如,当在与用户50的输入对应的输入文本中包含“商谈记录”特有的字符串的情况下,选择部40判断为用户50的目的是“商谈记录”,作为进行与用户50的对话的对话处理装置10,选择对应于“商谈记录”的对话处理装置10A。另外,当在与用户50的输入对应的输入文本中包含“新顾客登记”特有的字符串的情况下,选择部40判断为用户50的目的是“新顾客登记”,作为进行与用户50的对话的对话处理装置10,选择对应于“新顾客登记”的对话处理装置10B。另外,当在与用户50的输入对应的输入文本中包含“订货记录”特有的字符串的情况下,选择部40判断为用户50的目的是“订货记录”,作为进行与用户50的对话的对话处理装置10,选择对应于“订货记录”的对话处理装置10C。
另外,选择部40在根据输入文本不能判断作为用户50目的的规定的动作的情况下(例如,输入文本中未包含表示对话处理装置10的目的的字符串的情况下),通过所有的对话处理装置10的对话控制部11向各分项目处理部12发送输入文本,在各分项目处理部12中计算得分。各对话处理装置10的对话控制部11从由分项目处理部12发送的得分中选择最高的得分,并发送给选择部40。并且,选择部40根据从各对话处理装置10的对话控制部11发送的得分,选择对输入文本进行处理的对话处理装置10。例如,在输入文本是“在15时访问了xx”的情况下,由于该输入文本中不包含“商谈”、“新顾客”、“订货”等字符串,因而不能判断应对输入文本进行处理的对话处理装置10。因此,向各对话处理装置10发送输入文本,根据在各分项目处理部12的得分的计算结果,例如如果从以“商谈记录”为目的的对话处理装置10发送“访问目标:xx”的得分0.85,从其他对话处理装置10未发送来在此之上的得分,则估计作为用户50目的的规定的动作是“商谈记录”,选择以“商谈记录”为目的的对话处理装置10,作为对输入文本进行处理的对话处理装置10。并且,在这种情况下,也可以由选择部40向用户50进行“输入商谈记录可以吗?”“访问日期时间是xxx、访问目标是xx,可以吗?”这样的询问的处理。
如上所述,本实施方式的对话处理系统100是将应达成的目的彼此不同的多个对话处理装置10进行组合而构建的,各对话处理装置10是与上述的第一实施方式相同的结构,因而与第一实施方式的对话处理装置10一样,不需进行改善大量的对话脚本的烦杂作业,即可以简洁的结构适当地实现多目的的对话处理。
<其他变形例>
另外,在上述的各实施方式及变形例中,说明了通过多个分项目处理部12和对话控制部11的组合来构成对话处理装置10,通过多个对话处理装置10和选择部40的组合来构成对话处理系统100,但作为对话处理装置10和对话处理系统100的结构,可以考虑各种各样的变形。例如,将上述的分项目处理部12、对话处理装置10、对话处理系统100分别作为部件(下面,将分项目处理部12作为“小代理”,将对话处理装置10作为“中代理”,将对话处理系统100作为“大代理”),通过这些小代理、中代理、大代理的各种各样的组合,能够实现包括多层次的各种各样的结构。
另外,在上述的各实施方式及变形例中,以简单的对话脚本为例进行了说明,但通过小代理、中代理、大代理的组合,还能够应对数量庞大的脚本生成和各种各样的对话的变化。例如,在上述的各实施方式及变形例中,假设中代理由多个小代理构成进行了说明,但根据达成目的用的对话的单位,不仅可以是由多个小代理构成中代理的情况,还可以分别作为大代理、中代理、小代理这样单一的代理的组合来实现,也可以是仅由小代理对来自用户50的输入进行处理的结构。另外,还能够设为自由地组合代理来达成对话目的的结构,如以小代理群α和与该小代理群α中任一个连接的小代理群β的方式分层次地构成多个小代理等。另外,不仅上述的大代理、中代理、小代理的组合,通过设置各代理和由其他构架生成的已有的对话脚本的接口,还能够对各代理和已有的对话脚本进行组合。
下面,示出各种各样的结构的版本的简单的具体例。例如,在对话目的是问候的情况下,对来自用户50的输入文本(你好),代理同样回答“你好”,由此达成对话目的,因而能够由对来自用户50的输入信息进行处理的小代理(仅第一层)构成。下面,说明住宿预订是对话目的的情况。这种情况例如能够通过设定“询问住宿计划”这样的目的的中代理来实现,但也存在仅通过如图9所示的中代理、多个小代理的结构不能询问详细住宿计划(例如价格和条件(禁烟、带浴室等)等)的情况。在这种情况下,例如按照图13所示,通过利用分层构造的小代理(分项目处理部12)群α、β能够应对。小代理群α中的一个作为选择计划用的小代理,通过由该小代理进行“价格和条件(禁烟、带浴室等)的要求?”这样的应答,再次通过中代理从用户50得到针对选择计划的回答,并在小代理群β中的小代理把所选择的计划作为确定信息进行处理来实现。这样,能够根据对话目的通过各种各样的代理的组合实现与各种各样的目的对应的对话处理。
<补充说明>
有关上述的第一实施方式的对话处理装置10和有关第二实施方式的对话处理系统100,例如能够通过构成一般的计算机的硬件和由计算机执行的程序(软件)的协作来实现。例如,通过由计算机执行规定的程序,能够实现上述的对话控制部11、分项目处理部12A~12D、更新部14、参数调整部15等构成对话处理装置10的功能性构成要素、和对话处理装置10A~10C及选择部40等构成对话处理系统100的功能性构成要素。另外,使用计算机具有的大容量存储装置能够实现上述的对话历史蓄积部13等。
图14是表示有关上述的第一实施方式的对话处理装置10和有关第二实施方式的对话处理系统100的硬件结构例的框图。对话处理装置10和对话处理系统100例如按照图14所示使用作为一般的计算机的硬件结构来实现,计算机具有CPU101等硬件处理器(处理器电路)、RAM102和ROM103等存储装置、SSD104等大容量存储装置、通过网络与外部进行通信的通信I/F105、连接周边设备用的设备I/F106。
此时,上述的程序例如被记录在磁盘、光盘、半导体存储器或者与此相类似的记录介质中进行提供。记录程序的记录介质只要是计算机系统可以读取的记录介质,则其存储形式可以是任意的形式。另外,也可以构成为将上述程序预先安装在计算机中,还可以构成为将通过网络发布的上述程序适当安装在计算机中。
在上述的计算机中执行的程序通过形成为包括上述的对话控制部11、分项目处理部12A~12D、更新部14、参数调整部15等各部分的模块结构、或者包括对话处理装置10A~10C及选择部40等各部分的模块结构,由处理器适当读出并执行该程序,在RAM102等主存储装置中生成上述的各部分。
另外,也可以是,有关上述的第一实施方式的对话处理装置10和有关第二实施方式的对话处理系统100通过ASIC(Application Specific Integrated Circuit,专用集成电路)或FPGA(Field Programmable Gate Array,现场可编程门阵列)等专用的硬件来实现上述的功能性各部分的一部分或者全部。
另外,有关上述的第一实施方式的对话处理装置10和有关第二实施方式的对话处理系统100还可以构成为将多台计算机可通信地进行连接而成的网络系统,将上述的各部分分散在多台计算机中来实现的结构。此外,有关上述的第一实施方式的对话处理装置10和有关第二实施方式的对话处理系统100还可以是在云系统上进行动作的虚拟设备。
以上对本发明的实施方式进行了说明,但该实施方式是作为例子提示的,并非意图限定发明的范围。该新的实施方式能够以其他各种各样的形态实施,在不脱离发明的主旨的范围内能够进行各种各样的省略、替换、变更等。这些实施方式及其变形包含在发明的范围或主旨中,并且包含在权利要求书所记载的发明和其等价的范围中。

Claims (9)

1.一种对话处理装置,通过与用户的对话获得用于执行规定的动作的一个或者多个项目的信息,
所述对话处理装置具有:
一个或者多个分项目处理部,与所述一个或者多个项目对应;以及
对话控制部,与所述一个或者多个分项目处理部协作而控制与用户的对话,
所述对话控制部将与用户的输入对应的输入信息发送给所述一个或者多个分项目处理部中的每一个分项目处理部,
所述一个或者多个分项目处理部中的每一个分项目处理部从由所述对话控制部接收到的所述输入信息中抽取自身应获得的信息的候选,将所抽取的候选与表示该候选是应获得的信息的可靠性的程度的信息一起发送给所述对话控制部,
所述对话控制部将从所述一个或者多个分项目处理部中的每一个分项目处理部接收到的候选中、所述可靠性的程度满足第一基准的候选,确定为与发送了该候选的分项目处理部对应的项目的信息,如果具有信息未确定的项目,则向用户输出用于询问该项目的信息的应答,
所述一个或者多个分项目处理部中的每一个分项目处理部,是通过对具有基本规则的通用处理部提供对应的项目的项目名称和用于决定自身的动作的动作参数而被构建的,所述基本规则用于根据与应获得的信息的类型相对应的对话知识而进行所述候选的抽取并计算所述可靠性的程度。
2.根据权利要求1所述的对话处理装置,
在从所述一个或者多个分项目处理部中任一个接收到所述可靠性的程度不满足所述第一基准、但满足与所述第一基准不同的第二基准的候选的情况下,所述对话控制部向用户输出用于询问该候选是否正确的应答。
3.根据权利要求1或2所述的对话处理装置,
在所述一个或者多个项目中,如果执行所述规定的动作所需要的信息是确定的,则所述对话控制部根据确定的项目的信息执行所述规定的动作。
4.根据权利要求1~3中任一项所述的对话处理装置,
所述对话处理装置还具有蓄积与用户的对话的历史的对话历史蓄积部;以及
更新部,根据所述历史检测不能确定作为与所述一个或者多个分项目处理部中任一个对应的项目的信息而应确定的信息的事件,并更新与该项目对应的分项目处理部的所述对话知识,使得可以将该信息确定为该项目的信息。
5.根据权利要求1所述的对话处理装置,
所述对话处理装置还具有蓄积与用户的对话的历史的对话历史蓄积部,
所述对话控制在根据所述历史判断为在所述输入信息中包含作为所述一个或者多个项目中任一个项目的信息而应确定的信息的情况下,不向与该项目对应的分项目处理部发送该输入信息,而将从该输入信息抽取的信息确定为该项目的信息。
6.根据权利要求2所述的对话处理装置,
所述对话处理装置还具有蓄积与用户的对话的历史的对话历史蓄积部,
所述对话控制在根据所述历史判断为在所述输入信息中包含作为所述一个或者多个项目中任一个项目的信息而应确定的信息的情况下,即使是从与该项目对应的分项目处理部接收到的候选的所述可靠性的程度不满足所述第一基准、但满足所述第二基准的情况时,也不向用户输出用于询问该候选是否正确的应答,而将该候选确定为该项目的信息。
7.根据权利要求1~6中任一项所述的对话处理装置,
所述对话处理装置还具有:
参数调整部,取得用户的属性,根据所取得的属性调整所述对话控制部用来控制与用户的对话的控制参数。
8.一种对话处理系统,具有:
多个权利要求1~7中任一项所述的对话处理装置,该多个所述对话处理装置的所述规定的动作彼此不同;以及
选择部,根据所述输入信息判断作为用户目的的所述规定的动作,并选择与该规定的动作对应的所述对话处理装置。
9.一种对话处理装置,通过与用户的对话获得用于执行规定的动作的一个或者多个项目的信息,
所述对话处理装置具有:
一个或者多个分项目处理部,与所述一个或者多个项目对应;
对话控制部,与所述一个或者多个分项目处理部协作而控制与用户的对话,
所述对话控制部将与用户的输入对应的输入信息发送给所述一个或者多个分项目处理部中的每一个分项目处理部,
所述一个或者多个分项目处理部中的每一个分项目处理部从由所述对话控制部接收到的所述输入信息中抽取自身应获得的信息的候选,将所抽取的候选与表示该候选是应获得的信息这一情况的信息一起发送给所述对话控制部,
所述对话控制部将从所述一个或者多个分项目处理部中的每一个分项目处理部接收到的候选中的、表示是所述应获得的信息这一情况的信息满足第一基准的候选,确定为与发送了该候选的分项目处理部相对应的项目的信息,如果具有信息未确定的项目,则向用户输出用于询问该项目的信息的应答,
所述一个或者多个分项目处理部中的每一个分项目处理部,具有用于根据与应获得的信息的类型相对应的对话知识进行所述候选的抽取并导出表示是所述应获得的信息这一情况的信息的规则,并且是通过被提供对应的项目的项目名称和用于决定自身的动作的信息而被构建的。
CN201880058572.1A 2017-09-28 2018-09-25 对话处理装置及对话处理系统 Active CN111095237B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017187858A JP7000096B2 (ja) 2017-09-28 2017-09-28 対話処理装置および対話処理システム
JP2017-187858 2017-09-28
PCT/JP2018/035497 WO2019065647A1 (ja) 2017-09-28 2018-09-25 対話処理装置および対話処理システム

Publications (2)

Publication Number Publication Date
CN111095237A true CN111095237A (zh) 2020-05-01
CN111095237B CN111095237B (zh) 2023-10-13

Family

ID=65901392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880058572.1A Active CN111095237B (zh) 2017-09-28 2018-09-25 对话处理装置及对话处理系统

Country Status (4)

Country Link
US (1) US10896074B2 (zh)
JP (1) JP7000096B2 (zh)
CN (1) CN111095237B (zh)
WO (1) WO2019065647A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641808A (zh) * 2021-07-30 2021-11-12 未鲲(上海)科技服务有限公司 基于槽位信息的解答方法、装置、设备及存储介质
CN117751377A (zh) * 2021-07-26 2024-03-22 三菱电机楼宇解决方案株式会社 询问受理装置、询问受理系统和询问受理方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443355B (zh) * 2019-08-06 2021-11-16 思必驰科技股份有限公司 应用于复合对话任务的对话方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007088877A1 (ja) * 2006-01-31 2007-08-09 Honda Motor Co., Ltd. 会話システムおよび会話ソフトウェア
JP2013542484A (ja) * 2010-08-30 2013-11-21 本田技研工業株式会社 対話システムにおける思考追跡および行動選択
US20140136212A1 (en) * 2012-11-14 2014-05-15 Electronics And Telecommunications Research Institute Spoken dialog system based on dual dialog management using hierarchical dialog task library
CN106055547A (zh) * 2015-04-02 2016-10-26 松下知识产权经营株式会社 对话方法、记录介质以及对话系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004045900A (ja) 2002-07-12 2004-02-12 Toyota Central Res & Dev Lab Inc 音声対話装置及びプログラム
US7228278B2 (en) 2004-07-06 2007-06-05 Voxify, Inc. Multi-slot dialog systems and methods
JP2007264198A (ja) 2006-03-28 2007-10-11 Toshiba Corp 対話装置、対話方法、対話システム、コンピュータプログラム及び対話シナリオ生成装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007088877A1 (ja) * 2006-01-31 2007-08-09 Honda Motor Co., Ltd. 会話システムおよび会話ソフトウェア
JP2013542484A (ja) * 2010-08-30 2013-11-21 本田技研工業株式会社 対話システムにおける思考追跡および行動選択
US20140136212A1 (en) * 2012-11-14 2014-05-15 Electronics And Telecommunications Research Institute Spoken dialog system based on dual dialog management using hierarchical dialog task library
CN106055547A (zh) * 2015-04-02 2016-10-26 松下知识产权经营株式会社 对话方法、记录介质以及对话系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117751377A (zh) * 2021-07-26 2024-03-22 三菱电机楼宇解决方案株式会社 询问受理装置、询问受理系统和询问受理方法
CN113641808A (zh) * 2021-07-30 2021-11-12 未鲲(上海)科技服务有限公司 基于槽位信息的解答方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US10896074B2 (en) 2021-01-19
JP7000096B2 (ja) 2022-01-19
CN111095237B (zh) 2023-10-13
US20200210253A1 (en) 2020-07-02
JP2019061620A (ja) 2019-04-18
WO2019065647A1 (ja) 2019-04-04

Similar Documents

Publication Publication Date Title
US7974835B2 (en) Method, system, and apparatus for natural language mixed-initiative dialogue processing
KR101641572B1 (ko) 상황 및 선호도 기반 대화 스티커 순위 결정 방법 및 컴퓨터 프로그램
CN101567189B (zh) 声音识别结果修正装置、方法以及系统
US6631346B1 (en) Method and apparatus for natural language parsing using multiple passes and tags
KR101709187B1 (ko) 계층적 대화 태스크 라이브러리를 이용한 이중 대화관리 기반 음성대화시스템
JP3930138B2 (ja) 情報解析方法および情報解析プログラムを記憶した媒体
JP7279098B2 (ja) 対話システム、対話方法及び対話プログラム
CN105895103A (zh) 一种语音识别方法及装置
CN109949071A (zh) 基于语音情绪分析的产品推荐方法、装置、设备和介质
US10896074B2 (en) Interactive processing device and interactive processing system
JP6762819B2 (ja) 入力支援装置およびプログラム
JP2005150841A (ja) 情報処理方法及び情報処理装置
US20040220808A1 (en) Voice recognition/response system, voice recognition/response program and recording medium for same
CN110168527B (zh) 信息处理装置、信息处理方法及信息处理程序
CN114974221B (zh) 语音识别模型训练方法及装置、计算机可读存储介质
KR101440887B1 (ko) 영상 및 음성 정보를 이용한 명함 인식 방법 및 장치
JP3542578B2 (ja) 音声認識装置及びその方法、プログラム
CN114528812A (zh) 一种语音识别方法、系统、计算设备及存储介质
JP3468572B2 (ja) 対話処理装置
CN110634480A (zh) 语音对话系统与模型创建装置及其方法
US20220092675A1 (en) Information processing apparatus and program
JP2022067223A (ja) 生成装置および生成方法
JP2005140988A (ja) 音声認識装置及び方法
JP4877112B2 (ja) 音声処理装置およびプログラム
KR102446300B1 (ko) 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant