CN101656799B - 自动会话系统以及会话情节编辑装置 - Google Patents

自动会话系统以及会话情节编辑装置 Download PDF

Info

Publication number
CN101656799B
CN101656799B CN2009101670565A CN200910167056A CN101656799B CN 101656799 B CN101656799 B CN 101656799B CN 2009101670565 A CN2009101670565 A CN 2009101670565A CN 200910167056 A CN200910167056 A CN 200910167056A CN 101656799 B CN101656799 B CN 101656799B
Authority
CN
China
Prior art keywords
sentence
conversation
answer
information
conversation scenario
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009101670565A
Other languages
English (en)
Other versions
CN101656799A (zh
Inventor
黄声扬
胜仓裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universal Entertainment Corp
Original Assignee
Universal Entertainment Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universal Entertainment Corp filed Critical Universal Entertainment Corp
Publication of CN101656799A publication Critical patent/CN101656799A/zh
Application granted granted Critical
Publication of CN101656799B publication Critical patent/CN101656799B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

本发明提供一种自动会话系统及会话情节编辑装置,目的在于即使没有专门知识,也可以在应答用户发话的同时生成语言模型,可以实现基于更准确的声音识别的会话内容,所述语言模型以实现遵循预先准备的会话流程的会话内容的会话情节为依据。自动会话系统具有:会话装置,其通过对用户发话进行声音识别来生成输入句子,向会话服务器请求与该输入句子对应的回答句子;会话服务器,其在从会话装置请求了回答句子时,根据会话情节决定回答句子,将该回答句子发送到会话装置,并将回答句子输入给用户。会话情节编辑装置为了所述自动会话系统而生成会话情节,具有语言模型生成部,其根据会话情节生成在会话装置进行声音识别时使用的语言模型。

Description

自动会话系统以及会话情节编辑装置
技术领域
本发明涉及自动会话系统以及会话情节编辑装置,更详细而言,涉及作为可以自动输出对用户发话进行应答的回答来确立与用户的会话的系统的自动会话系统、以及对在该自动会话系统中使用的会话情节进行生成以及编辑的会话情节编辑装置。
背景技术
以往提出了,在取得用户的发话时输出与该发话内容对应的回答的自动会话装置(例如专利文献1)。在现有的自动会话装置中,一般的方式是使用把用户的发话和与之对应的回答作为一对来存储的数据库,通过检索该数据库来输出与用户的发话对应的回答。
但是,在以一对一的关系输出与用户的发话对应的回答的现有方式中,通过自动会话装置难以实现:关于某个话题,在用户和自动会话装置之间确立自然的会话;或者循序渐进地向用户讲述预先准备的有故事性的内容(例如,制度结构的说明、急救治疗的内容等)。
作为这样的用于确立自然流程的会话的技术,提出了在对用户发话进行应答的同时,使用实现遵循预先准备的会话流程的会话内容的情节,但为了根据该情节生成语言模型,只有具有专门知识的KB(knowledge base,知识库)技术人员才能够生成语言模型。而且在多数情况下,由于将KB(知识库)和会话引擎融合,因此即使是KB制作者也无法掌握全体“情节”。
【专利文献1】特开2002-366190号公开公报
发明内容
本发明的目的在于,即使不具有专门知识,也可以在应答用户发话的同时生成语言模型,可以实现基于更准确的声音识别的会话内容,所述语言模型以实现遵循预先准备的会话流程的会话内容的情节为依据。
作为用于解决上述问题的手段,本发明具备以下特征。
本发明提出一种会话情节编辑装置。该会话情节编辑装置为了自动会话系统而生成会话情节,所述自动会话系统具有:会话装置,其通过对用户发话进行声音识别来生成输入句子,向会话服务器请求与该输入句子对应的回答句子;会话服务器,其在从所述会话装置请求了回答句子时,根据会话情节决定回答句子,将该回答句子发送到所述会话装置,并将回答句子输出给用户,所述会话情节编辑装置的特征在于,具有:语言模型生成单元(例如语言模型生成部),其根据所述会话情节,生成在所述会话装置进行声音识别时使用的语言模型。
根据该会话情节编辑装置,在应答用户发话的同时生成语言模型,可以实现基于更准确的声音识别的会话内容,所述语言模型以实现遵循预先准备的会话流程的会话内容的会话情节为依据。
所述会话情节由对象和态射(morphism)组成,所述会话情节编辑装置可以进一步具有编辑单元,其生成具有作为态射的输入句子、和作为与该态射对应的对象的回答句子的所述会话情节。在现有的自动会话装置中,仅可以由能够理解根据KB执行会话的会话引擎所特有的知识的KB(知识库)技术人员来生成使会话装置动作的知识,但根据该会话情节编辑装置,一般人(最终用户等)也可以自由地构建由“对象和态射的框架”构成的会话情节,由此可以实现基于更准确的声音识别的会话内容。而且,由此,KB制作者可以掌握全体“会话情节”。
另外,基于本发明,会话情节编辑装置具有以下优点。
·可以在将“对象(回答句子)和态射(输入句子)”连接的同时构建会话情节,因此情节的表现易懂。
·开发了对象的引用功能,因此关于对象,可以利用引用源的信息(与引用了某对象的对象相关的信息)。
·通过对象的迁移目的地和引用源,可以浏览对象的状态迁移关系。
·通过排列有对象和态射的“回答列”,可以表现“对象和态射”的基本性质。
·“回答列”正好与“剧本”类似,从一般的制作剧本的观点来看,“回答列是相当易懂的信息”。
·通过会话情节编辑装置·会话服务器·会话装置的全体,可以实现“使会话装置按照剧本动作”。
此外,只要会话情节编辑装置是可以处理“由对象和态射构成的会话情节”得方式,则不限于上述内容。
上述会话情节编辑装置可以进一步具有动态知识生成单元,其生成用于从所述会话情节中检索与态射对应的对象的动态知识。根据该会话情节编辑装置,可以高速地检索相当于输入句子的态射以及与该态射对应的对象,并输出作为对象的回答句子。
另外,在上述会话情节编辑装置中,会话情节编辑装置可以把预定内容的用户发话以外的全部用户发话作为一个态射来记载。根据该会话情节编辑装置,可以定义能够覆盖无限的用户发话的回答句子。
本发明的第二形态提出了自动会话系统。该自动会话系统的特征在于,具有:会话装置,其通过对用户发话进行声音识别来生成输入句子,向会话服务器请求与该输入句子对应的回答句子;会话服务器,其在从所述会话装置请求了回答句子时,根据会话情节决定回答句子,将该回答句子发送到所述会话装置,并将回答句子输出给用户;以及会话情节编辑装置,其具有语言模型生成单元,该语言模型生成单元根据所述会话情节,生成所述会话装置进行声音识别时使用的语言模型。
根据该自动会话系统,可以在应答用户发话(输入句子)的同时生成语言模型,可以实现基于更准确的声音识别的会话内容,所述语言模型以实现遵循预先准备的会话流程的会话内容的会话情节为依据。
另外,在上述自动会话系统中,所述会话情节由对象和态射组成,该自动会话系统中还可以具有编辑单元,其生成具有作为态射的输入句子、和作为与该态射对应的对象的回答句子的所述会话情节。
根据该自动会话系统,在现有的自动会话装置中,仅可以由能够理解根据KB执行会话的会话引擎所特有的知识的KB(知识库)技术人员来生成使会话装置动作的知识,但根据该会话情节编辑装置,一般人(最终用户等)也可以自由地构建由“对象和态射的框架”构成的会话情节,由此可以实现基于更准确的声音识别的会话内容。而且,由此,KB制作者可以掌握全体“会话情节”。
另外,在上述自动会话系统中可以进一步具有动态知识生成单元,其生成用于从所述会话情节中检索与态射对应的对象的动态知识。
另外,在上述会话情节编辑装置中,会话编辑装置可以把预定内容的用户发话以外的全部用户发话作为一个态射来记载。根据该会话情节编辑装置,可以定义能够覆盖无限用户发话的回答句子。
另外,在上述自动会话系统中,会话服务器将记载了使会话装置进行的动作的动作控制信息发送到会话装置,会话装置根据动作控制信息,在输出回答句子的同时执行动作。根据该自动会话系统,会话情节制作者按照会话情节不仅可以控制回答句子的内容,也可以控制会话装置可以执行的任何动作。
另外,在上述自动会话系统中,会话装置可以是由所述动作控制信息来控制动作的终端装置(例如机器人等)。根据该发明,会话情节制作者按照会话情节进行终端装置的动作控制,也可以将会话情节作为动作控制程序来利用。
根据本发明,可以在应答用户发话(输入句子)的同时生成语言模型,可以实现基于更准确的声音识别的会话内容,所述语言模型以实现遵循预先准备的会话流程的会话内容的会话情节为依据。
附图说明
图1是表示自动会话系统的结构例的框图。
图2A是表示会话装置的一个结构例的框图。
图2B是表示声音识别部的一个结构例的框图。
图3是表示会话服务器的一个结构例的框图。
图4是表示会话情节编辑装置的一个结构例的框图。
图5是表示与谈话的范围相当的会话情节的例子的状态迁移图。
图6是表示将图5的会话情节作为数据来表现的例子的图。
图7是表示包含态射的复合的会话情节的例子的状态迁移图。
图8是表示将图7的会话情节作为数据来表现的例子的图。
图9是表示进行基于NULL功能的强制回答的会话情节的例子的状态迁移图。
图10是表示将图9的会话情节作为数据来表现的例子的图。
图11是表示通过引用功能,对用户发话进行“固执回答”的会话情节的例子的状态迁移图。
图12是表示将图11的会话情节作为数据来表现的例子的图。
图13是表示通过“通过复合构成的单位元”构建了“闭环回答”的会话情节的例子的状态迁移图。
图14是表示将图13的会话情节作为数据来表现的例子的图。
图15是在态射的复合中结合法则成立的会话情节的例子的状态迁移图。
图16是表示将图15的会话情节作为数据来表现的例子的图。
图17是表示会话情节编辑装置的编辑画面例的图。
图18是表示会话情节保持部的数据结构例的图。
图19是表示用于通过会话编辑装置生成会话情节数据的输入画面例的图。
图20接续图19,是表示用于通过会话编辑装置生成会话情节数据的输入画面例的图。
图21接续图20,是表示用于通过会话编辑装置生成会话情节数据的输入画面例的图。
图22接续图21,是表示用于通过会话编辑装置生成会话情节数据的输入画面例的图。
图23接续图22,是表示用于通过会话编辑装置生成会话情节数据的输入画面例的图。
图24是表示会话情节编辑装置的变形结构例的功能框图。
图25是回答处理部的功能框图。
图26是表示字符串和从该字符串提取出的形态素的关系的图。
图27是表示“发话句子的类型”、和表示该发话句子的类型的两字符的字母、以及与该发话句子的类型对应的发话句子的例子的图。
图28是表示句子的类型和用于判定该类型的词典的关系的图。
图29是表示会话数据库存储的数据的数据结构的一例的概念图。
图30是表示某话题确定信息和其它话题确定信息的关联的图。
图31是表示话题标题(也称为“第二形态素信息”)的数据结构例的图。
图32是用于说明回答句子的数据结构例的图。
图33是表示与某话题确定信息对应的话题标题、回答句子、下一计划指定信息的具体例的图。
图34是用于说明计划空间的概念图。
图35是表示计划的例子的图。
图36是表示另一计划的例子的图。
图37是表示计划会话处理的具体例的图。
图38是表示会话控制部的主处理的一例的流程图。
图39是表示计划会话控制处理的一例的流程图。
图40接续图39,是表示计划会话控制处理的一例的流程图。
图41是表示基本控制状态的图。
图42是表示谈话空间会话控制处理的一例的流程图。
符号说明
1自动会话装置、10会话装置、20会话服务器、30会话情节编辑装置、40会话情节
具体实施方式
以下,参照附图说明本发明的实施方式。
本实施方式提出了,根据预先准备的会话情节对用户的发话等进行应答来输出回答的自动会话系统、以及生成、编辑会话情节的会话情节编辑装置。
(1.自动会话系统、会话情节编辑装置的结构例)
以下,说明自动会话系统、会话情节编辑装置的结构例。图1是表示自动会话系统1的结构例的框图。自动会话系统1由会话装置10、与会话装置10连接的会话服务器20、以及生成、编辑会话服务器20所使用的会话情节的会话情节编辑装置30构成。
会话装置10,当用户输入发话时,将其发话内容发送到会话服务器20。会话服务器20当取得发话内容时,根据会话情节决定回答和动作控制信息,并且将回答以及动作控制信息输出到会话装置10,该回答是对发话内容的答复,该动作控制信息是记载了与该回答对应的动作、即由会话装置10执行的动作的信息。
会话情节编辑装置30生成、编辑会话情节40,并且输出已生成的、或者已编辑好的会话情节。所输出的会话情节40被存储在会话服务器20中。另外,会话情节编辑装置30根据生成的会话情节40生成语言模型50。为了由会话装置10进行声音识别而使用语言模型50。
以下,详细描述各个上述装置。
(1.1.会话装置)
会话装置10具有以下功能:取得用户的发话(用户发话)作为输入,将该输入内容(以下称为输入句子)发送到会话服务器20,接收从会话服务器20答复的回答以及动作控制信息,根据接收内容执行与回答的输出以及动作控制信息对应的动作。
会话装置10是具备运算处理装置(CPU)、主存储器(RAM)、读出专用存储器(ROM)、输入输出装置(I/O)、在必要时具备硬盘装置等外部存储装置的信息处理装置、或者包含这种信息处理装置的器具、玩具等,例如是计算机、便携电话机、所谓的互联网家电、或者机器人等装置。在会话装置10的所述ROM或者硬盘装置等中存储了程序,将该程序加载到主存储器上,由CPU执行该程序,由此实现会话装置10。另外,上述程序也不一定存储在信息处理装置内的存储装置中,也可以从外部装置(例如ASP(应用程序服务提供商)的服务器等)提供,将其加载到主存储器上。
图2A是表示会话装置10的一个结构例的框图。会话装置10具有:输入部11、与输入部11连接的声音识别部15、与声音识别部15连接的会话处理部12、与会话处理部12连接的动作控制部13、与会话处理部12以及动作控制部13连接的输出部14。另外,会话处理部12可以与会话服务器20通信。另外,声音识别部15取得由会话情节编辑装置30生成的语言模型50,根据该语言模型将声音信号变换为输入句子。
输入部11具有取得用户的发话内容(输入句子),将其变换成电气信号等会话处理部12可以处理的信号来进行传递的功能。输入部11例如是麦克风。
声音识别部15具有根据从输入部11取得的信号推测用户的发话内容,将作为推测结果而得到的用户的发话内容作为输入句子来输出的功能。图2B揭示了表示声音识别部15的结构例的功能框图。声音识别部15具有:取得声音信号的前处理部110、与前处理部110连接的特征提取部120、与特征提取部120连接的识别部130。
识别部130具有:识别运算部140、与识别运算部140连接的音响模型存储部150、以及语言模型存储部160。识别运算部140与特征提取部120相连,并且与会话控制部20相连。另外,语言模型存储部160的存储内容,根据来自后述的语言模型生成部34的输出被改写。
前处理部110将作为声音信号的模拟信号变换为数字信号,另外进行除去噪声以使特征提取变得容易的噪音除去处理。
特征提取部120取得从前处理部110输出的模拟信号,进行从该模拟信号取得判定模式(pattern)属于哪一类(class)的信息的处理。在此,所谓“模式”,是指真实世界的声音、图像等信息,所谓“类”,是模式适合的预定的概念。例如,通过“あ”的发音而产生的声音信号是模式,该声音信号成为记号“あ”这样的类。
特征提取部120根据作为声音信号的数字信号,计算表示该声音信号的特征的特征量。关于如何计算特征量提出了各种方法,例如存在将数字信号变换为声谱(spectrum)并提取出共振峰(formant),将其作为特征矢量来算出的方法。或者,特征提取部120也可以通过根据数字信号取得MFCC(MelFrequency Cepstrum Coefficient)这样特征量的方法来计算出特征矢量,可以采用任何方法。
识别部130具有判别通过特征提取部120输出的特征矢量属于哪个类的功能。识别部130预先准备了代表各类的原型矢量(prototype vevtor),计算所输入的特征矢量近似于哪个原型矢量,决定与特征矢量对应的类。
当更详细地说明识别部130的结构时,识别部130具有:识别运算部140、与识别运算部140连接的音响模型存储部150以及语言模型存储部160。
音响模型存储部150具有存储音响模型的功能。音响模型是求出表示当对单词列w1、w2、...、wn进行发声时以多大概率观测到特征矢量系列X1、X2、...、Xn的带条件的概率的概率模型。
语言模型存储部160具有存储语言模型的功能。语言模式是求出单词列w1、w2、...、wn的发生概率P(w1、w2、...、wn)的概率模型。
该概率模型,对被称为语料库(corpus)的文例集(例如收集了报纸报道的电子数据、在该实施方式中包含会话情节)中出现的单词wk-1的出现次数、单词列wk-1、wk的出现次数进行计数,用前者除后者,由此计算单词的连接概率,求出单词列的发生概率。
识别运算部140具有以下功能:使用声音模型,求出对单词列w1、w2、...、wn进行发声时观测到特征矢量系列X1、X2、...、Xn的概率P1、和单词列w1、w2、...、wn的发生概率P2的积,搜索该积达到最大的单词列w1、w2、...、wn
识别运算部140将作为搜索结果而得到的单词列作为输入句子而输出,传递到会话控制部处理部12。
以上,结束了识别部130、声音识别部15的说明。
返回图2A,继续会话装置10的结构例的说明。
会话处理部12将从声音识别部15取得的输入句子发送到会话服务器20,请求会话服务器20发送与输入句子对应的回答句子、以及与该回答句子对应的动作控制信息。另外,会话处理部12,当从会话服务器20接收回答句子以及与该回答句子对应的动作控制信息时,将回答句子传递到输出部14来使其输出,同时将动作控制信息传递到动作控制部13。
动作控制部13根据从会话处理部12传递来的动作控制信息,执行所指定的动作。若所指定的动作是执行输出部14的显示(例如,再生所指定的动作),则使输出部14执行该动作。另外,当所指定的动作是与从会话服务器20取得的回答句子不同的回答句子的输出(例如,从会话服务器20取得的回答句子是“说什么呢?”,不同的回答句子是“请说点什么吧!”)时,使输出部14输出这样的回答句子。
输出部14具有以用户可理解的形态输出回答句子的功能。关于以何种形态输出回答句子,在本发明中没有限制。例如,输出部14可以是向用户提供作为文本信息的回答句子的例如LCD设备的终端设备、向用户提供作为语音(声音)信息的回答句子的人工语音发生器或扬声器。注意,输出部14可以是如下机器人:能够在设置在机器人上的显示器上显示图像/文本、能够使所机器人上设置的光源发光、能够通过机器人上设置的扬声器输出语音/声音、或者能够移动自己的手臂等。动作控制部13根据动作控制信息来控制这样的动作。
(1.2.会话服务器)
会话服务器20是具有根据会话情节决定回答和动作控制信息,并将回答以及动作控制信息输出到会话装置10的功能的装置,所述回答是针对发话内容的答复,所述动作控制信息是记载了与该回答对应的动作、也就是使会话装置10执行的动作的信息。
会话服务器20是具备运算处理装置(CPU)、主存储器(RAM)、读出专用存储器(ROM)、输入输出装置(I/O)、在必要时具备硬盘装置等外部存储装置的信息处理装置等,例如是计算机、工作站、服务器装置等。在会话服务器20的所述ROM或者硬盘装置等中存储了程序,通过将该程序加载到主存储器上、由CPU对其进行执行,来实现会话服务器。另外,上述程序也不一定存储在信息处理装置内的存储装置中,也可以是从外部装置(例如ASP(应用程序服务提供商的服务器等))提供,将其加载到主存储器中的结构。
会话装置10和会话服务器20可以通过有线或无线相连,另外也可以经由LAN、无线LAN、因特网等通信网(也可以组合多个通信网)相连。另外,会话装置10和会话服务器20可以不一定是个别独立的装置,即使是通过同一装置实现会话装置10和会话服务器20的结构,本发明也成立。
图3是表示会话服务器20的一个结构例的框图。会话服务器20具有:可以和会话装置10通信的回答处理部21;与回答处理部21相连的意思解释词典部23以及会话情节存储部22。
回答处理部21从会话装置10取得输入句子,根据在会话情节存储部22中存储的会话情节选择或决定与该输入句子对应的回答句子,将所决定的回答句子和与该回答句子对应的动作控制信息发送到会话装置10。另外,回答处理部21参照意思解释词典部23存储的意思解释词典,取得输入句子的同意词或同意句,基于该同意词或同意句选择或决定回答句子。
意思解释词典部23具有存储意思解释词典的功能,该意思解释词典用于进行与输入句子对应的回答句子的改写(基于同意词的扩展等)。意思解释词典相当于具有辞典(thesaurus)那样的功能的数据库。
会话情节存储部22具有存储通过会话情节编辑装置30生成或编辑的会话情节40的功能。在后面描述会话情节40的说明。
(1.3.会话情节编辑装置)
会话情节编辑装置30具有以下功能:新生成由所述会话服务器20使用的会话情节,或者变更已生成的会话情节,生成追加内容或者进行内容的一部分的删除而修正后的会话情节。
会话情节编辑装置30是具备运算处理装置(CPU)、主存储器(RAM)、读出专用存储器(ROM)、输入输出装置(I/O)、在必要时具备硬盘装置等外部存储装置的信息处理装置等,例如是计算机、工作站等。在会话情节编辑装置30的所述ROM或者硬盘装置等中存储了程序,通过将该程序加载到主存储器上、由CPU对其进行执行,来实现会话情节编辑装置30。另外,上述程序也可以不一定存储在信息处理装置内的存储装置中,也可以是从外部装置(例如ASP(应用程序服务提供商的服务器等))提供,将其加载到主存储器上的结构。
图4是表示会话情节编辑装置30的一个结构例的框图。会话情节编辑装置30具有:输入部31、与输入部31相连的编辑部32、与编辑部32相连的输出部34以及会话情节保持部33、与会话情节保持部33相连的语言模型生成部34。
输入部31具有以下功能:取得用户的输入,将其变换为电气信号等编辑部32可以处理的信号来传递。输入部31例如是键盘、指点设备、触摸面板、麦克风的某一个或它们的组合。
输出部34具有以会话情节编辑装置30的使用者(操作员)可识别的形态输出编辑中或编辑完成后的会话情节的内容的功能。输出部34例如是液晶显示器装置等。
编辑部32具有根据从输入部31输入的内容,进行作为会话情节的数据的生成、以及其编辑(追加、变更、删除)的功能。此外,通过使输出部34显示编辑中的会话情节的内容,操作员可以实时地掌握会话情节的内容。另外,编辑部32将编辑完成后的会话情节的数据输出到会话情节保持部33。
另外,编辑部32也可以具有以下功能:检查在生成的会话情节中是否遵守了适当的状态迁移关系,在发生违反的情况下,生成向操作员通知发生了违反、违反发生的输入句子或回答句子的消息等,使输出部进行显示等。
另外,编辑部32可以进一步具有相当于会话服务器20的意思解释词典部23的意思解释词典部,编辑部32可以具有以下功能:使用该意思解释词典部,当会话情节中存在重复的意思内容的输入句子或回答句子时,对它们进行整理或者综合,或者促使操作员进行整理、综合。
会话情节保持部33具有将从编辑部32取得的会话情节40,以随后可以读取的形态进行存储或保持的功能。会话情节保持部33中存储的会话情节40的数据,根据需要或者在预定的时刻等被送到会话服务器20的会话情节存储部22。从会话情节保持部33到会话情节存储部22的会话情节40的转发,可以以经由存储介质的形态来进行,也可以经由通信网、通信电缆来进行。
语言模型生成部34具有以下功能:根据在会话情节保持部33中存储的会话情节40,根据在该会话情节40中包含的输入句子、或者输入句子以及回答句子,计算出在它们中包含的单词列的发生概率,将计算出的结果作为语言模型来存储。
所存储的语言模型50,根据需要或者在预定的时刻等被转发到会话装置10的声音识别部15。从语言模型生成部34到声音识别部15的语言模型50的转发,可以以经由存储介质的形态来进行,也可以经由通信网、通信电缆来进行。
(1.3.1.关于会话情节)
在此说明会话情节40。本发明中的会话情节具有以下特征。
(1)以回答句子为“对象”,以用户发话(输入句子)为“态射”(morphism)。
通过具有该特征,可以通过“状态迁移图”表现会话情节决定的会话流程。本发明的会话情节,通过使用后述的“其它”功能,可以输出与全部输入句子(用户发话)对应的回答句子。另外,通过后述的“计时器”发话,可以应对用户的“无言”(无输入)(可以将无言作为态射来处理)。
图5是表示会话情节的例子的状态迁移图。图中,椭圆框X1、X2、X3、X4分别是回答句子,它们相当于“对象”。图中在箭头附近显示的句子是输入句子,它们相当于“态射”。图中<其它>表示来自X1的态射“喜欢”以及“不喜欢”以外的输入句子。图中<timer>表示在用户无言的状态下经过了预定期间的状态。另外,“<其它>|<timer>”这样的标记表示“其它”或“timer”。
在图5所示的例子中,使得“想吃点什么”这样的“态射”迁移到作为回答句子X1、即“你喜欢拉面吗”的“对象”。在回答句子X1的输出后,在第1态射“不喜欢”发生的情况下,迁移到回答句子X4“遗憾!换个话题吧”。另一方面,在回答句子X1的输出后,在第2态射“喜欢”发生的情况下,迁移到回答句子X3“那么,向你介绍美味的店”。另一方面,在回答句子X1的输出后,在第1以及第2态射以外的态射发生的情况下、或者在用户无言的状态下经过了一定期间的情况下,迁移到回答句子X2“拉面,喜欢?不喜欢?”。
当将上述图5的会话情节作为数据来表现时,作为一例而成为图6那样的内容。在此“X1(发话A)X2”是回答列,记载了X1的回答状态通过发话A迁移到X2的回答状态。
(2)在态射中可以定义复合
通过该特征,可以接受从主情节分支的发话,并且即使分支也可以返回开始(主情节)。因此,会话情节的生成者可以构建自己构思的会话流程“故事”,使会话系统进行遵照该故事的会话。
图7是表示包含态射的复合的会话情节的例子的状态迁移图。图中的记号以及标记遵照图5。在此例的会话情节中,在回答句子X1“你喜欢拉面吗?”的输出后,在第1态射“不喜欢”发生的情况下,迁移到回答句子X3“是么?拉面很美味啊”。另一方面,在第1态射以外的态射发生的情况下、或者在用户无言的状态下经过了一定期间的情况下,迁移到回答句子X2“向你介绍真正美味的店”。
在上述回答句子X3“是么?拉面很美味啊”的输出后,仅规定了一个态射<其它>|<timer>,通过任意输入句子(用户发话)或者经过一定期间而迁移到回答句子X2“向你介绍真正美味的店”。
因为可以使用包含这样的态射的复合的会话情节的例子,所以在本发明中可以在尊重对方的发话的同时,引入想要坚持的自己的发话。
此外,当将上述图7的会话情节作为回答列来表现时,成为图8那样的内容。在此,X2是X2的引用。被引用的X2的引用源是X2,在形式上相当于在对象X1和X2之间决定了态射“(不喜欢)X3(<其它>|<timer>)”。该态射是态射“不喜欢”和态射“<其它>|<timer>”的复合。
(3)可以定义单位元
在本发明的会话情节中可以定义单位元。所谓“单位元”,是指不使对象迁移的态射。由于可以定义单位元,以下情况成为可能。
(A)可以对用户发话进行“强制回答”。
图9是表示进行强制回答的会话情节的例子的状态迁移图。在此例中,在回答句子X1“我喜欢拉面。拉面才是美食的本质”的输出时,规定了附加了NULL的第1态射<其它>,不管是什么样的输入句子(用户发话)都忽视输入句子地进行“我喜欢拉面。拉面才是美食的本质”的强制输出。另一方面,在回答句子X1“我喜欢拉面。拉面才是美食的本质”的输出后,通过第2态射<timer>而迁移到回答句子X2“向你介绍真正美味的店”。
在此例中,将忽视对方的发话的情况标记为“NULL”。在图9所示的例子中,由于忽视全部发话,因此对<其它>附加了NULL,但也可以仅忽视“不喜欢”。
此外,在将上述图9的会话情节作为回答列来表现时,成为图10那样的内容。回答列“X1(<其它>)X1”中,“(<其它>)”是从X1到X1的态射,是单位元。
(B)可以对用户发话进行“固执回答”。
图11是表示对用户发话进行“固执回答”的会话情节的例子的状态迁移图。在图1 1的例子中,在回答句子X1“拉面,喜欢?不喜欢?”的输出后,发生了第1态射“不喜欢”的情况下,迁移到回答句子X3“是么?拉面很美味啊”。另一方面,在回答句子X1的输出后,发生了第2态射“喜欢”的情况下,迁移到回答句子X2“向你介绍真正美味的店”。另一方面,在回答句子X1的输出后,发生了第1以及第2态射以外的态射的情况下、或者在用户无言的状态下经过了一定期间的情况下,再次返回回答句子X1“拉面喜欢?不喜欢?”。于是,可以强制性地使用户从“喜欢”或“不喜欢”两项中选择一项。
此外,当将上述图11的会话情节作为回答列来进行表现时,成为图12那样的内容。在此,X1是X1的引用。被引用的X1和引用源X1具有相同的迁移目的地。这意味着X1和X1同形,这种情况下的态射“(<其它>|<timer>)”也相当于从X1到X1的态射,因此称为单位元。
(C)通过“通过复合而构成的单位元”可以构建“闭环回答”。
通过具备该特征,可以在闭合的循环(loop)中催促对方的发话。图13是表示通过“通过复合而构成的单位元”构建了“闭环回答”的会话情节的例子的状态迁移图。在此例中,通过回答句子X1、X2、X3、X4构建了闭环,通过该闭环可以控制会话的流程。当将上述图13的会话情节作为回答列来表现时,成为图14那样的内容。在此情况下也相当于从X1到X1的态射。
将(<其它>|<timer>)X2(<其它>|<timer>)
X3(<其它>|<timer>)X4(<其它>|<timer>)称为单位元。这种情况下的单位元构成了“闭环”。
以上,结束了“项目(3)可以定义单位元”的说明。
(4)在态射的复合中,结合法则成立
通过该特征,对于与某态射对应的回答列S,可以构建沿不同的两条路径的回答列S1和S2,而且可以将它们作为等同的回答列来处理。此时,当设S是与某问题相关的回答列时,S1和S2是提供与S对应的不同解释的回答列,提供了与问题解决相关的信息。由于具有该特征,因此在本发明的会话情节中,可以应对有逻辑的用户发话
图15中表示在态射的复合中结合法则成立的会话情节的例子的状态迁移图。此外,当将上述图15的会话情节作为回答列来表现时,成为图16那样的内容。在此,X2是X2的引用。在形式上,下式成立。
(提示)X3(是××)X4(<其它>|<timer>)
=(是××)X4(<其它>|<timer>)
=(提示)X3(<其它>|<timer>)
(5)描绘交换图
通过该特征,可以定义用于到达任意对象的态射。因此,可以在情节中设定目标,并且可以进行情节整体的掌握。
(6)其它
本发明,在“可以以输入句子作为对象、以回答句子作为态射来处理的谈话的范围”内,检索的结构完全不同,因此无法与“可以以输入句子作为态射、以回答句子作为对象来处理的谈话的范围”进行同样的处理。在本发明中不处理前者那样的谈话的范围。
(1.5.会话情节编辑装置的定位)
在此,关于本发明的会话情节编辑装置30的定位进行汇总。
(1)关于具有对象和态射的会话情节,可以列举出以下特征。
·以回答句子为对象、以输入句子为态射(状态迁移)
·在尊重输入句子的同时,引入想要坚持的回答句子(维持文理:复合)
·与输入句子无关地说定回答句子(强制回答:单位元)
·反复催促对方,直到说出需要的发话为止(固执回答:单位元)
·在闭合的循环中催促输入句子(闭环:单位元)
·进行与解决问题相关的会话(解决问题:结合法则)
·进行面向目标的会话(有目标的会话:交换图)
此外,通过回答列也可以整理上述特征。会话情节编辑装置30具有通过回答列来表现上述会话情节的特征的功能。
通过利用上述会话情节,会话服务器20进行简单的检索即可。即,会话服务器将当前的状态作为会话情节的对象(回答句子)来掌握,在发生了利用者发话的情况下,会话服务器20在进行意思解析的同时检索最佳的态射(输入句子),接下来的状态成为与检索到的态射(输入句子)对应的对象(回答句子)。
此外,上述的会话情节不仅作为状态迁移图或以此为基础的数据(图6、8、10等)来表现,也可以使用图17所示那样的大纲编辑器(outline editor)那样的GUI来生成、编辑。
(2.会话情节生成装置的动作例)
接着,对上述会话情节编辑装置30的动作例进行说明。
本实施方式的会话情节编辑装置30,关于多个不同主题(会话的主题),可以确立与用户的会话。图18是表示会话情节保持部33以及会话情节存储部22(以下简称为会话情节保持部33)存储的会话情节的数据结构例的图。
会话情节保持部33可以针对每个与谈话的范围或主题(会话主题)201对应的域200保持独立的会话情节数据。例如,可以具有与“天气”域和“咖啡豆”域分别相关的会话情节数据,当用户进行与天气相关的发话时,会话服务器20、更详细来说是回答处理部21,将作为“天气”域的会话情节数据优先,搜索与输入句子(也称用户发话)对应的回答句子(也称系统发话),输出对用户发话进行应答的系统发话。另一方面,当用于进行与“咖啡豆”相关的发话时,回答处理部21将作为“咖啡豆”域的会话情节数据优先,搜索与用户发话对应的系统发话,输出对用户发话进行应答的系统发话。
各域200具有:用户发话句子(相当于输入句子,以下相同)210和、作为与用户发话句子对应的自动会话系统的回答而准备的系统发话句子220。在图18所示的例子中,记录了用户发话句子210-1和与其关联的系统发话句子220-1,同时记录了在设想用户应答该系统发话220-1而发话时的用户发话句子210-2,记录了作为与该用户发话句子210-2对应的自动会话系统的回答而准备的系统发话句子220-2。
例如,上述会话情节成为以下这样的用户和系统的会话。
用户发话句子210-1:“好天气啊”
系统发话句子220-1:“喜欢好天气吗?”
用户发话句子210-2:“是的,喜欢啊”
系统发话句子220-2:“不喜欢雨天吗?”
图18所示的会话情节表示了最简单的形态的会话情节。在本自动会话系统可以处理的会话情节中,为了可以应对用户对同一系统发话做出不同的反应而返回用户发话的情况,也可以对一个系统发话句子准备多个用户发话句子。
会话情节编辑装置30具有以下功能:生成由在会话情节保持部33中存储的新的域200、和该域200用户发话句子210、系统发话句子220构成的会话情节数据,使其存储在会话情节保持部33中。
(3.会话情节的输入例)
接着,说明会话情节的输入例。图19到图23是表示关于某域200输入了会话情节的情况下的输入画面的迁移的一例的图。
图19表示通过会话情节编辑装置30生成的输入界面画面的一例。在此,以域200是关于“咖啡豆”的域来进行说明。
会话情节编辑装置30、更详细来说是编辑部32,生成成为输入界面的窗口300,使输出部34对其进行显示。在窗口300中设置了显示区域301,通过由用户操作输入部31,在此输入用户发话句子以及系统发话句子。在图19的例子中显示了域名302,是等待接受该域200中存储的会话情节的输入的状态。
图20是输入了作为该域200中存储的会话情节的开始的用户发话句子401的状态的画面例。
在实际执行自动会话的情况下,会话服务器20的回答处理部21,当用户发话与在此记载的用户发话句子401“关于咖啡豆”一致、或者是可以视为与其相同的发话内容时,作为提取对用户发话进行应答的系统发话句子的域200,从会话情节存储部22中选择将域名303设为“咖啡豆”的域200,并使该域200优先来选择系统发话句子。
作为会话情节的输入者的用户,进行与上述用户发话句子401对应的回答、即系统发话句子的输入。图21表示通过用户输入了针对用户发话句子401“关于咖啡豆”的系统发话句子501的状态的窗口300的显示例。在此例中假定记载了以下会话情节:针对“关于咖啡豆”这样的用户发话句子401,自动会话系统发出作为“关于味道的特征进行回答”“摩卡”、“蓝山”、“乞力马扎罗”中,想知道哪个?”这样的疑问的情节回答句子501。
接着,作为会话情节的输入者的用户,针对上述情节回答句子501输入预想的用户发话句子。图22表示针对所述情节回答句子501输入了预想的用户发话句子601的状态的窗口300的显示例。在此例中,假定针对“关于味道的特征进行回答。“摩卡”、“蓝山”、“乞力马扎罗”中,想知道哪个?”这样的系统发话句子501,预想用户进行了“蓝山”这样的回答,由用户输入了用户发话句子601“蓝山”。
接着,作为会话情节的输入者的用户,输入与上述用户发话句子601对应的系统发话句子。图23表示输入了与所述用户发话句子601对应的系统发话句子701的状态的窗口300的显示例。会话情节的输入者输入系统发话701来作为用户发话句子601的回答。
通过这样的会话情节,自动会话系统在用户想知道咖啡豆蓝山时,可以返回其回答。此外,从此以后,会话情节的输入者可以继续输入用户发话句子、系统发话句子,以使用户与自动会话系统的会话持续。
如上述那样输入的会话情节(用户发话句子和系统发话句子的集合),通过编辑部32被写入会话情节保持部33并存储。该会话情节被转移到会话服务器20的会话情节存储部22。此外,在被转移到会话情节存储部22的情况下,也可以进行会话情节的变换、移植,以便成为与会话服务器20适应的会话情节。
会话服务器20的回答处理部21,也参照会话情节存储部22中存储的新的会话情节,以便可以输出与用户发话对应的情节回答。
(3.变形例)
本实施方式即使如下这样变形也成立。
(1)会话情节编辑装置的变形例
图24是变形例涉及的会话情节编辑装置30X的功能框图。会话情节编辑装置30X基本上具有与前面所述的会话情节编辑装置30相同的结构,不同点是具有与会话情节保持部33相连的动态知识生成部36。此外,关于相同的结构要素赋予相同的参照符号,省略它们的说明。
动态知识生成部35具有根据在会话情节保持部33中存储的会话情节40生成动态知识40X的功能。动态知识40X是为了使会话服务器20可以更高速且高效率地检索作为态射的输入句子以及作为其对象的回答句子,而根据作为回答列的会话情节40再构成的数据。
根据该变形例,可以降低会话服务器20的处理负荷,可以进行高速的回答句子的答复。
(4.会话服务器的结构的另一个例子)
本发明的会话服务器20、回答处理部21即使采用下述的结构,也可以实现本发明。以下描述会话服务器20、更详细而言是回答处理部21的结构例。图25是回答处理部21的扩大框图,是表示会话控制部300以及句子解析部400的具体结构例的框图。回答处理部21具有会话控制部300、句子解析部400和会话数据库500。会话数据库500具有存储会话情节40或动态知识40X的功能。
(4.1.4.句子解析部)
接着,参照图25说明句子解析部400的结构例。
句子解析部400解析通过输入部100或声音识别部200确定的字符串。该句子解析部400在本实施方式中如图25所示,具有字符串确定部410、形态素提取部420、形态素数据库430、输入种类判定部440和发话种类数据库450。字符串确定部410按照每一个短语来划分通过输入部100以及声音识别部200确定的一连串的字符串。所谓一个短语,表示以不破坏文法的意思的程度尽可能细分字符串而得到的一个划分句子。具体而言,字符串确定部410,在一连串字符串中有某一定以上的时间间隔时,在该部分划分字符串。字符串确定部410将该划分而得的各字符串输出到形态素提取部420以及输入种类判定部440。此外,以下说明的“字符串”表示每一个短语的字符串。
(4.1.4.1.形态素提取部)
形态素提取部420,根据通过字符串确定部410划分而得的一个短语的字符串,从该一个短语的字符串中提取出构成字符串的最小单位的各形态素,作为第一形态信息。在此,所谓形态素,在本实施方式中表示字符串中出现的词结构的最小单位。作为该词结构的最小单位,列举出例如名词、形容词、动词等词类。
各形态素如图26所示,在本实施方式中可以表现为m1、m2、m3、...。图26是表示字符串和从该字符串中提取出的形态素的关系的图。如图26所示,从字符串确定部410输入了字符串的形态素提取部420,将该输入的字符串、和在形态素数据库430中预先存储的形态素群(该形态素群,关于属于各个词类的各形态素,准备了记载有该形态素的词条·读法·词类·活用形等的形态素词典)进行对照。进行了该对照的形态素提取部420,从该字符串中提取出与预先存储的形态素群的某个一致的各形态素(m1、m2、...)。除了该提取出的各形态素的要素(n1、n2、n3、...),列举出例如助动词等。
该形态素提取部420将提取出的各形态素作为第一形态素信息而输出到话题确定信息检索部320。此外,第一形态素信素不需要被构造化。在此所谓“构造化”,是指根据词类等对字符串中包含的形态素分类排列,例如是指将作为发话句子的字符串变换为像“主语+宾语+谓语”等那样按照预定的顺序排列形态素而形成的数据。当然,即使使用构造化后的第一形态素信息,也不会妨碍实现本实施方式。
(4.1.4.2.输入种类判定部)
输入种类判定部440,根据通过字符串确定部410确定的字符串,判定发话内容的种类(发话种类)。该发话种类是确定发话内容的种类的信息,在本实施方式中例如表示图27所示的“发话句子的类型”。图27是表示“发话句子的类型”、表示该发话句子的类型的两字符的字母、以及与该发话句子的类型对应的发话句子的例子的图。
在此,“发话句子的类型”在本实施方式中如图27所示,由陈述句(D;Declaration)、时间句(T;Time)、场所句(L;Location)、否定句(N;Negation)等构成。该由各类型构成的句子由肯定句或疑问句构成。所谓“陈述句”,表示表达利用者的意见或想法的句子。该陈述句,在本实施方式中如图27所示,举出例如“我喜欢佐藤”等句子。所谓“场所句”,表示伴随场所的概念的句子。所谓“时间句”,表示伴随时间的概念的句子。所谓“否定句”,表示对陈述句进行否定时的句子。关于“发话句子的类型”的例句,如图27所示那样。
为了由输入种类判定部440判定“发话句子的类型”,输入种类判定部440在本实施方式中如图28所示,使用用于判定是陈述句的定义表现辞典、用于判定是否定句的否定表现辞典等。具体来说,从字符串确定部410输入了字符串的输入种类判定部440,根据所输入的字符串,将该字符串与发话种类数据库450中存储的各辞典进行对照。进行了该对照的输入种类判定部440,从该字符串中提取出与各辞典有关的要素。
该输入种类判定部440根据所提取出的要素判定“发话句子的类型”。例如,输入种类判定部440,在字符串中包含关于某现象进行了陈述的要素时,将包含该要素的字符串判定为陈述句。输入种类判定部440将判定出的“发话句子的类型”输出到回答取得部380。
(4.1.5.会话数据库)
接着,参照图29说明会话数据库500存储的数据的数据结构例。图29是表示会话数据库500存储的数据的结构例的概念图。
会话数据库500如图29所示,预先存储了多个用于确定话题的话题确定信息810。另外,各个话题确定信息810可以与其它话题确定信息810相关联,例如在图29所示的例子中,当确定话题确定信息C(810)时,确定与该话题确定信息C(810)相关联的其它话题确定信息A(810)、话题确定信息B(810)、话题确定信息D(810)来存储。
具体来说,话题确定信息810,在本实施方式中表示与从利用者输入时预想的输入内容、或者向利用者的回答句子具有关联性的“关键字”。
与话题确定信息810对应地存储了一个或多个话题标题820。话题标题820通过由一个字符、多个字符串或它们的组合组成的形态素构成。与各话题标题820对应地存储了向利用者的回答句子830。另外,表示回答句子830的种类的多个回答种类与回答句子830相对应。
接着,说明某话题确定信息810和其它话题确定信息810的关联。图30是表示某话题确定信息810A和其它话题确定信息810B、810C1~810C4、810D1~810D3...的关联的图。此外,在以下的说明中,所谓“相关联地存储”是指当读取某信息X时可以读取与该信息X关联的信息Y。例如,把在信息X的数据中存储了用于读出信息Y的信息(例如表示信息Y的存储目的地地址的指针、信息Y的存储目的地物理存储器地址、逻辑地址等)的状态,设为“信息Y与信息X“相关联地存储””。
在图30所示的例子中,话题确定信息,在与其它话题确定信息之间,可以将上位概念、下位概念、同义词、反义词(本图的例子中省略)相关联地存储。在本图所示的例子中,作为与话题确定信息810A(=“电影”)对应的上位概念的话题确定信息,与话题确定信息810A相关联地存储了话题确定信息810B(=“娱乐”),例如相对于话题确定信息(“电影”)被存储在上一层次中。
另外,与话题确定信息810A相关联地存储了与话题确定信息810A(=“电影”)对应的下位概念的话题确定信息810C1(=“导演”)、话题确定信息810C2(=“主演”)、话题确定信息810C3(=“发行公司”)、话题确定信息810C4(=“上映时间”)以及话题确定信息810D1(=“七武士”)、话题确定信息810D2(=“乱”)、话题确定信息810D3(=“保镖”)、...。
另外,与话题确定信息810A关联了同义词900。在此例中,表示作为话题确定信息810A即关键字“电影”的同义词,而存储了“作品”、“内容”、“影院”的情况。通过确定这样的同义词,在发话中未包含关键字“电影”,但在发话句子等中包含“作品”、“内容”、“影院”的情况下,可以认为在发话句子等中包含话题确定信息810A来进行处理。
回答处理部21通过参照会话数据库500的存储内容,当确定某个话题确定信息810时,可以高速地检索·提取与该话题确定信息810相关联地存储的其它话题确定信息810以及该话题确定信息810的话题标题820、回答句子830等。
接着,参照图31说明话题标题820(也称为“第二形态素信息”)的数据结构例。图31是表示话题标题820的数据结构例的图。
话题确定信息810D1、810D2、810D3、...分别具有多个不同的话题标题8201、8202、...、话题标题8203、8204、...、话题标题8205、8206、...。在本实施方式中,如图31所示,各个话题标题820是由第一确定信息1001、第二确定信息1002和第三确定信息1003构成的信息。在此,第一确定信息1001,在本实施方式中,表示构成话题的主要的形态素。作为第一确定信息1001的例子举出例如构成句子的主语。另外,第二确定信息1002,在本实施方式中表示与第一确定信息1001具有密切的关联性的形态素。该第二确定信息1002举出例如宾语。而且,第三确定信息1003,在本实施方式中,表示表示关于某对象的动作的形态素、或修饰名词等的形态素。该第三确定信息1003,举出例如动词、副词或形容词。此外,第一确定信息1001、第二确定信息1002、第三确定信息1003各自的意思没必要限定于上述内容,即使对第一确定信息1001、第二确定信息1002、第三确定信息1003赋予别的意思(别的词类),只要根据它们可以掌握句子的内容,本实施方式就成立。
例如,在主语为“七武士”、形容词为“有趣”的情况下,如图31所示,话题标题(第二形态素信息)8202由作为第一确定信息1001的形态素“七武士”和作为第三确定信息1003的形态素“有趣”构成。此外,在该话题标题8202中不包含与第二确定信息1002对应的形态素,作为第二确定信息1002而存储了用于表示没有相应的形态素的记号“*”。
此外,该话题标题8202(七武士;*;有趣),有“七武士有趣”的意思。在构成该话题标题820的括号内,以下成为从左起第一确定信息1001、第二确定信息1002、第三确定信息1003的顺序。另外,在话题标题820中没有从第一到第三确定信息中包含的形态素时,关于该部分示为“*”。
此外,构成上述话题标题820的确定信息不像上述第一到第三确定信息那样限定于三个,例如也可以进一步具有其它确定信息(第四确定信息、以及第四以上)。
接着,参照图32说明回答句子830。回答句子830如图32所示,在本实施方式中,为了进行与从利用者发出的发话句子的类型对应的回答,分类为陈述(D;Declaration)、时间(T;Time)、场所(L;Location)、否定(N;Negation)等类型(回答种类),针对每个类型准备回答句子。另外,设肯定句为“A”,设疑问句为“Q”。
参照图33说明话题确定信息810的数据结构例。图33表示与某个话题确定信息810“佐藤”对应的话题标题820、回答句子830的具体例。
与话题确定信息810“佐藤”对应了多个话题标题(820)1-1、1-2、...。与各个话题标题(820)1-1、1-2、...对应地存储了回答句子(830)1-1、1-2、...。针对每个回答种类840而准备了回答句子830。
当话题标题(820)1-1为(佐藤;*;喜欢){这是提取出“喜欢佐藤”中包含的形态素而得的话题标题}时,与该话题标题(820)1-1对应的回答句子(830)1-1列举出(DA;陈述肯定句“我也喜欢佐藤”)、(TA;时间肯定句“我喜欢击球时的佐藤”)等。后述的回答取得部380,一边参照输入种类判定部440的输出,一边取得与该话题标题820对应的一个回答句子830。
在各回答句子中,与该回答句子对应地确定了指定针对用户发话优先输出的回答句子(称为“下一回答句子”)的信息、即下一计划指定信息840。下一计划指定信息840,若是可以确定下一回答句子的信息,则可以是任何信息,例如是可以从会话数据库500中存储的全部回答句子中确定至少一个回答句子的回答句子ID等。
此外,在本实施方式中,下一计划指定信息840,作为以回答句子单位确定下一回答句子的信息(例如回答句子ID)而进行说明,但下一计划指定信息840也可以是以话题标题820、话题确定信息810单位确定下一回答句子(在这种情况下,作为下一回答句子而指定了多个回答句子,因此称为下一回答句子群。但是,实际上作为回答句子被输出的,成为在该回答句子群中包含的某个回答句子)的信息。例如,即使作为下一计划指定信息而使用话题标题ID、话题确定信息ID,本实施方式也成立。
(4.1.6.会话控制部)
在此,返回图25,说明会话控制部300的结构例。
会话控制部300具有以下功能:控制回答处理部21内的各结构要素(声音识别部200、句子解析部400、会话数据库500、输出部600、声音识别词典存储部700)间的数据的收发、以及自身与会话装置的数据的收发,并且进行对用户发话应答的回答句子的决定、输出。
会话控制部300,在本实施方式中如图25所示,具有管理部310、计划会话处理部320、谈话空间会话控制处理部330和CA会话处理部340。以下,对这些结构要素进行说明。
(4.1.6.1.管理部)
管理部310具有存储谈话履历,并且根据需要进行更新的功能。管理部310具有根据来自话题确定信息检索部350、省略句补充部360、话题检索部370、回答取得部380的请求,将所存储的谈话履历的全部或一部分传递到所述各部的功能。
(4.1.6.2.计划会话处理部)
计划会话处理部320具有执行计划,使得在与用户之间确立遵从计划的会话的功能。所谓“计划”是指按照预定的顺序向用户提供预定的回答。以下,说明计划会话处理部320。
计划会话处理部320具有根据用户发话按照预定的顺序输出预定的回答的功能。
图34是用于说明计划的概念图。如图34所示,在计划空间1401中预先准备了多个计划1、计划2、计划3、计划4等各种计划1402。所谓计划空间1401,是指在会话数据库500中存储的多个计划1402的集合。回答处理部21在装置启动时或会话开始时,选择预先决定用于开始的计划,或者根据各用户发话的内容,从计划空间1401中选择适当的某个计划1402,使用所选择的计划1402进行与用户发话对应的回答句子的输出。
图35是表示计划1402的结构例的图。计划1402具有回答句子1501、与之关联的下一计划指定信息1502。下一计划指定信息1502,是确定在该计划1402中包含的回答句子1501之后,向用户输出的包含预定的回答句子(称为下一候补回答句子)的计划1402的信息。在此例中,计划1具有在计划1执行时由回答处理部21输出的回答句子A(1501)、与该回答句子A(1501)关联的下一计划指定信息1502。下一计划指定信息1502,是确定具有作为针对回答句子A(1501)的下一候补回答句子的回答句子B(1501)的计划1402的信息“ID:002”。同样地,针对回答句子B(1501)也决定了下一计划指定信息1502,在输出了回答句子B(1501)的情况下,指定包含下一候补回答句子的计划(1402)。于是,计划1402,通过下一计划指定信息1502连锁地连接,实现向用户输出一连串的连续内容这样的计划会话。即,将想要传达给用户的内容(说明句子、指导句子、问卷(questionnaire)等)分割成多个回答句子,并且预先决定各回答句子的顺序,作为计划而准备好,由此可以根据用户的发话,按顺序向用户提供这些回答句子。此外,如果通过下一计划指定信息1502指定的计划1402中包含的回答句子1501,是对之前的回答句子的输出进行应答的用户发话,则不一定需要立即输出,在用户和回答处理部21之间,该计划也可以间隔关于别的话题的会话后,输出通过下一计划指定信息1502指定的计划1402中包含的回答句子1501。
此外,图35所示的回答句子1501对应于图33所示的回答句子830中的某一个回答句子字符串,另外,图35所示的下一计划指定信息1502对应于图33所示的下一计划指定信息840。
此外,计划1402的连接不限于图35所示的一维排列。图36是表示具有与图35不同的连接方式的计划1402的例子的图。在图36所示的例子中,计划1(1402),为了可以指定成为下一候补回答句子的两个回答句子1501、即1402,而具有两个下一计划指定信息1502。作为具有输出了某个回答句子A(1501)的情况下的下一候补回答句子的计划1402,为了确定具有回答句子B(1501)的计划2(1402)、以及具有回答句子C(1501)的计划3(1402)这两个计划1402,设置了两个次计划指定信息1502。此外,回答句子B、回答句子C是选择性的、择一的,在输出一方的情况下不输出另一方,该计划1(1402)结束。于是,计划1402的连接不限于一维排列的形态,即使是树形图的连接、网状的连接也可以。
此外,不限定各计划具有几个下一候补回答句子。另外,针对成为话的结尾的计划1402,也可以不存在下一计划指定信息1502。
图37表示某一连串的计划1402的具体例。该一连串的计划14021~14024对应于用于向用户通知与危机管理相关的信息的4个回答句子15011~15014。4个回答句子15011~15014全体构成一段连贯的话(说明文章)。各计划14021~14024分别具有“1000-01”“1000-2”“1000-3”“1000-4”这样的ID数据17021~17024。此外,ID数据中的连字符以后的号码是表示输出顺序的信息。另外,各计划14021~14024分别具有下一计划指定信息15021~15024。下一计划指定信息15024的内容是“1000-0F”这样的数据,但该连字符以后的号码“0F”是表示接下来输出的预定计划不存在,该回答句子是一连串的话(说明文章)的结尾的信息。
在此例中,当用户发话为“请教大地震发生时的危机管理”时,计划会话处理部320开始执行该一连串的计划。即,当计划会话处理部320接受用户发话“请教大地震发生时的危机管理”时,计划会话处理部320检索计划空间1401,调查是否存在具有与用户发话“请教大地震发生时的危机管理”对应的回答句子15011的计划1402。在此例中,假定与“请教大地震发生时的危机管理”对应的用户发话字符串17011对应于计划14021
计划会话处理部320,当发现计划14021时,取得该计划14021中包含的回答句子15011,将该回答句子15011作为对用户发话的回答来输出,同时通过下一计划指定信息15021确定下一候补回答句子。
然后,在回答句子15011的输出后,经由输入部11或声音识别部200等接受用户发话时,计划会话处理部320进行计划14022的执行。即,计划会话处理部320判定是否执行通过下一计划指定信息15021指定的计划14022,即是否输出第2个回答句子15012。具体来说,计划会话处理部320,将与该回答句子15012对应的用户发话字符串(也称为例句)17012或者话题标题820(在图37中省略图示)与接受的用户发话进行比较,判定它们是否一致。在一致的情况下,输出第2个回答句子15012。另外,在包含第2个回答句子15012的计划14022中记载了下一计划指定信息15022,因此确定下一候补回答句子。
同样地,根据此后继续进行的用户发话,计划会话处理部320可以依次转移到计划14023、计划14024来进行第3个回答句子15013、第4个回答句子15014的输出。此外,第4个回答句子15014是最终回答句子,当第4个回答句子15014的输出完成时,计划会话处理部320结束计划执行。
于是,通过依次执行计划14021~14024,可以按照既定的顺序向用户提供预先准备的会话内容。
(4.1.6.3.谈话空间会话控制处理部)
返回图25,继续会话控制部300的结构例的说明。
谈话空间会话控制处理部330具有话题确定信息检索部350、省略句补充部360、谈话检索部370和回答取得部380。所述管理部310控制会话控制部300的全体。
所谓“谈话履历”,是确定用户和回答处理部21间的会话的话题或主题的信息,谈话履历是包含后述的“关注话题确定信息”“关注话题标题”“利用者输入句子话题确定信息”“回答句子话题确定信息”中的至少某一个的信息。另外,在谈话履历中包含的“关注话题确定信息”“关注话题标题”“回答句子话题确定信息”不限于通过之前的会话确定的信息,也可以是在过去的预定期间中成为“关注话题确定信息”“关注话题标题”“回答句子话题确定信息”的信息,或者是它们的累积的记录。
以下,对构成谈话空间会话控制处理部330的所述各部进行说明。
(4.1.6.3.1.话题确定信息检索部)
话题确定信息检索部350将通过形态素提取部420提取出的第一形态素信息与各话题确定信息进行对照,从各话题确定信息中检索与构成第一形态素信息的形态素一致的话题确定信息。具体来说,话题确定信息检索部350,当从形态素提取部420输入的第一形态素信息由“佐藤”以及“喜欢”这两个形态素构成时,将输入的第一形态素信息与话题确定信息群进行对照。
进行了该对照的话题确定信息检索部350,当关注话题标题820focus(为了与到前一次为止检索出的话题标题、其它话题标题区别,而标记为820focus)中包含构成第一形态素信息的形态素(例如“佐藤”)时,向回答取得部380输出该关注话题标题820focus。另一方面,当关注话题标题820focus中不包含构成第一形态素信息的形态素时,话题确定信息检索部350根据第一形态素信息,决定利用者输入句子话题确定信息,将输入的第一形态素信息以及利用者输入句子话题确定信息输出到省略句补充部360。此外,“利用者输入句子话题确定信息”,是指相当于第一形态素信息中包含的形态素内、与利用者作为话题的内容相对应的形态素的话题确定信息,或者是相当于第一形态素信息中包含的形态素内、有可能与利用者作为话题的内容相对应的形态素的话题确定信息。
(4.1.6.3.2.省略句补充部)
省略句补充部360,利用到前一次为止检索到的话题确定信息810(以下称为“关注话题确定信息”)以及在前一次的回答句子中包含的话题确定信息810(以下称为“回答句子话题确定信息”),对所述第一形态素信息进行补充,由此生成多个种类的补充后的第一形态素信息。例如,在用户发话为“喜欢”这样的句子时,省略句补充部360将关注话题确定信息“佐藤”包含在第一形态素信息“喜欢”中,生成补充后的第一形态素信息“佐藤、喜欢”。
即,当将第一形态素信息设为“W”、将关注话题确定信息或回答句子话题确定信息的集合设为“D”时,省略句补充部360在第一形态素信息“W”中包含集合“D”的要素来生成补充后的第一形态素信息。
由此,使用第一形态素信息构成的句子为省略句,在作为日语无法理解等情况下,省略句补充部360可以使用集合“D”,将该集合“D”的要素(例如“佐藤”)包含在第一形态素信息“W”中。结果,省略句补充部360可以作出对第一形态素信息“喜欢”进行补充后的第一形态信息“佐藤、喜欢”。此外,补充后的第一形态信息“佐藤、喜欢”对应于“喜欢佐藤”这样的用户发话。
即,省略句补充部360,即使在利用者的发话内容是省略句等情况下,也可以使用集合“D”来补充省略句。结果,省略句补充部360,即使由第一形态素信息构成的句子是省略句,也可以使该句子成为适当的日语。
另外,省略句补充部360根据所述集合“D”检索与补充后的第一形态素信息一致的话题标题820。当发现与补充后的第一形态素信息一致的话题标题820时,省略句补充部360将该话题标题820输出到回答取得部380。回答取得部380可以根据通过省略句补充部360检索到的适当的话题标题820,输出最适合于利用者的发话内容的回答句子830。
此外,省略句补充部360不仅限于在第一形态素信息中包含集合“D”的要素。该省略句补充部360也可以根据关注话题标题,在提取出的第一形态素信息中包含在构成该话题标题的第一确定信息、第二确定信息或第三确定信息的某一个中包含的形态素。
(4.1.6.3.3.话题检索部)
话题检索部370,当未通过省略句补充部360确定话题标题820时,将第一形态素信息、和与利用者输入句子话题确定信息对应的各话题标题820进行对照,从各话题标题820中检索最适合于第一形态素信息的话题标题820。
具体来说,从省略句补充部360输入了检索命令信号的话题检索部370,根据在所输入的检索命令信号中包含的利用者输入句子话题确定信息以及第一形态素信息,从与该利用者输入句子话题确定信息对应的各话题标题中检索最适合于该第一形态素信息的话题标题820。话题检索部370将该检索到的话题标题820作为检索结果信号,输出到回答取得部380。
先前披露的图33表示与某话题确定信息810(=“佐藤”)对应的话题标题820、回答句子830的具体例。如图33所示,例如话题检索部370,由于在所输入的第一形态素信息“佐藤、喜欢”中包含话题确定信息810(=“佐藤”),因此确定该话题确定信息810(=“佐藤”),然后,将与该话题确定信息810(=“佐藤”)对应的各话题标题(820)1-1、1-2、...和所输入的第一形态素信息“佐藤、喜欢”进行对照。
话题检索部370根据其对照结果,从各话题标题(820)1-1~1-2中确定与所输入的第一形态素信息“佐藤、喜欢”一致的话题标题(820)1-1(佐藤:*;喜欢)。话题检索部370将检索到的话题标题(820)1-1(佐藤;*;喜欢)作为检索结果信号,输出到回答取得部380。
(4.1.6.3.4.回答取得部)
回答取得部380根据通过省略句补充部360、或者话题检索部370检索出的话题标题820,取得与该话题标题820对应的回答句子830。另外,回答取得部380根据通过话题检索部370检索出的话题标题820,将与该话题标题820对应的各回答种类、和通过输入种类判定部440判定出的发话种类进行对照。进行了该对照的回答取得部380从各回答种类中检索与判定出的发话种类一致的回答种类。
在图33所示的例子中,回答取得部380,当通过话题检索部370检索出的话题标题是话题标题1-1(佐藤;*;喜欢)时,从与该话题标题1-1对应的回答句子1-1(DA、TA等)中,确定与通过输入种类判定部440判定出的“发话句子的类型”(例如DA)一致的回答种类(DA)。确定了该回答种类(DA)的回答取得部380,根据所确定的回答种类(DA),取得与该回答种类(DA)对应的回答句子1-1(“我也喜欢佐藤。”)。
在此,上述“DA”、“TA”等中的“A”表示肯定形式。因此,在发话种类以及回答种类中包含“A”时,表示关于某事情进行肯定。另外,在发话种类以及回答种类中也可以包含“DQ”、“TQ”等种类。该“DQ”、“TQ”等中的“Q”表示关于某事情的疑问。
当回答种类由上述疑问形式(Q)构成时,与该回答种类对应的回答句子由肯定形式(A)构成。作为以该肯定形式(A)生成的回答句子,列举出对疑问事项进行回答的句子等。例如,当发话句子是“你对投币游戏机进行过操作吗?”时,关于该发话句子的发话种类成为疑问形式(Q)。与该疑问形式(Q)对应的回答句子,列举出例如“我对投币游戏机进行过操作”(肯定形式(A))。
另一方面,当发话种类由肯定形式(A)构成时,与该回答种类对应的回答句子由疑问形式(Q)构成。作为以该疑问形式(Q)生成的回答句子,列举出对发话内容反问的疑问句、或者询问特定事情的疑问句等。例如,当发话句子是“我爱好玩投币游戏机”时,关于该发话句子的发话种类成为肯定形式(A)。与该肯定形式(A)对应的回答句子,列举出例如“不爱好玩弹子机吗?”(询问特定事情的疑问句(Q))。
回答取得部380将所取得的回答句子830作为回答句子信号,输出到管理部310。从回答取得部380输入了回答句子信号的管理部310,将所输入的回答句子信号输出到输出部600。
(4.1.6.4.CA会话处理部)
CA会话处理部340具有以下功能:在针对用户发话,在计划会话处理部320以及谈话空间会话控制处理部330的任意一个中都没有决定回答句子的情况下,根据用户发话的内容输出可以继续与用户的会话的回答句子。
以上,结束了回答处理部21的结构例的说明。
(4.2.会话控制方法)
具有上述结构的回答处理部21通过以下这样进行动作来实现会话控制方法。说明本实施方式的回答处理部21、更详细而言是会话控制部300的动作。
图38是表示会话控制部300的主处理的一例的流程图。该主处理是每当会话控制部300接受用户发话时执行的处理,通过进行该主处理,进行与用户发话对应的回答句子的输出。会话装置10和会话服务器20(回答处理部21)间的会话(对话)确立。
进入主处理时,会话控制部300、更详细而言是计划会话处理部320,首先执行计划会话控制处理(S1801)。计划会话控制处理是执行计划的处理。
图39、图40是表示计划会话控制处理的一例的流程图。以下,参照图39、图40说明计划会话控制处理的例子。
当开始计划会话控制处理时,计划会话处理部320首先进行基本控制状态信息检查(S1901)。基本控制状态信息,将计划1402的执行是否结束作为基本控制状态信息,存储在预定的存储区域中。
基本控制状态信息具有记载计划的基本控制状态的作用。
图41是表示关于被称为情节的类型的计划而产生的4个基本控制状态的图。以下说明各个状态。
(1)结束
该基本控制状态是用户发话与执行中的计划1402一致、更详细而言是与计划1402所对应的话题标题820或例句一致的情况。在这种情况下,计划会话处理部320结束该计划1402,转移到与通过下一计划指定信息1502指定的回答句子1501对应的计划1402。
(2)放弃
该基本控制状态,是当判断出用户发话内容是请求了计划1402的结束的情况下,或者判定为用户的关心转移到了执行中的计划以外的事项的情况下设定的基本控制状态。在基本控制状态信息表示放弃的情况下,计划会话处理部320检索在成为放弃对象的计划1402以外是否存在与用户发话对应的计划1402,在存在的情况下开始该计划1402的执行,在不存在的情况下结束计划的执行。
(3)维持
该基本控制状态,是在用户发话不对应于与执行中的计划1402对应的话题标题820(参照图33)或例句1701(参照图37),并且判断出用户发话不对应于基本控制状态“放弃”的情况下,在基本控制状态信息中记载的基本控制状态。
当是该基本控制状态的情况下,计划会话处理部320在接受用户发话时,首先研究是否重新开始正保留·中止的计划1402,当用户会话不适合于重新开始计划1402时,例如用户发话不对应于与计划1402对应的话题标题802或例句1702时,开始其它计划1402的执行、或者进行后述的谈话空间会话控制处理(S1802)等。当用户发话适合于重新开始计划1402时,根据所存储的下一计划指定信息1502进行回答句子1501的输出。
当基本控制状态为“维持”时,计划会话处理部320检索其它计划1402,以便可以输出与该计划1402对应的回答句子1501以外的回答,或者进行后述的谈话空间会话控制处理等,但在用户发话再次成为与计划1402相关的发话时,重新开始该计划1402的执行。
(4)继续
该状态,是在用户发话不对应于执行中的计划1402中包含的回答句子1501、并且判断出用户发话内容不对应于基本控制状态“放弃”、并且从用户发话解释出的用户的意图不明确的情况下所设定的基本控制状态。
当基本控制状态为“继续”时,计划会话处理部320在接受用户发话时,首先研究是否重新开始正保留·中止的计划1402,当用户发话不适合于重新开始计划1402时,进行后述的CA会话控制处理等,以便可以输出用于从用户引出其它发话的回答句子。
返回图39,继续说明计划会话控制处理。
参照了基本控制状态信息的计划会话处理部320,判定基本控制状态信息表示的基本控制状态是否是“结束”(S1902)。当判定出基本控制状态是“结束”时(S1902,是),计划会话处理部320在基本控制状态信息表示的执行中的计划1402中判定回答句子1501是否是最终回答句子(S1903)。
当判定为已输出最终回答句子1501时(S1903,是),计划会话处理部320,由于在该计划1402中已经全部传达完应该向用户回答的内容,因此为了判定是否开始新的别的计划1402,检索在计划空间中是否存在与用户发话对应的计划1402(S1904)。当该检索的结果是未发现与用户发话对应的计划1402时(S1905,否),由于不存在应该向用户提供的计划1402,因此计划会话处理部320直接结束计划会话控制处理。
另一方面,当该检索的结果是发现了与用户发话对应的计划1402时(S1905,是),计划会话处理部320转移到该计划1402(S1906)。这是由于,存在应该向用户提供的计划1402,因此开始该计划1402的执行(输出计划1402中包含的回答句子1501)。
然后,计划会话处理部320输出该计划1402的回答句子1501(S1908)。所输出的回答句子1501成为对用户发话的回答,计划会话处理部320提供想要向用户传达的信息。
回答句子输出处理(S1908)后,计划会话处理部320结束计划会话控制处理。
另一方面,在先前输出的回答句子1501是否是最终的回答句子1501的判定(S1903)中,当先前输出的回答句子1501不是最终的回答句子1501时(S1903,否),计划会话处理部320转移到与先前输出的回答句子1501相连的回答句子1501、即通过下一计划指定信息1502确定的回答句子1501所对应的计划1402(S1907)。
此后,计划会话处理部320输出在对应的计划1402中包含的回答句子1501,进行对用户发话的回答(S1908)。所输出的回答句子1501成为对用户发话的回答,计划会话处理部320提供想传达给用户的信息。在回答句子输出处理(S1908)后,计划会话处理部320结束计划会话控制处理。
在S1902的判定处理中,当基本控制状态信息不是“结束”时(S1902,否),计划会话处理部320判定基本控制状态信息表示的基本控制状态是否是“放弃”(S1909)。当判定为基本控制状态是“放弃”时(S1909,是),由于不存在应该继续的计划1402,因此计划会话处理部320为了判定是否存在应该开始的新的别的计划1402,在计划空间1401内检索是否存在与用户发话对应的计划1402(S1904)。此后,与在先描述的S1903(是)中的处理同样地,计划会话处理部320执行从S1905到S1908的处理。
另一方面,在基本控制状态信息表示的基本控制状态是否是“放弃”的判定(S1909)中,当判定为基本控制状态不是“放弃”时(S1909,否),计划会话处理部320进一步进行基本控制状态信息表示的基本控制状态是否是“维持”的判定(S1910)。
当基本控制状态信息表示的基本控制状态是“维持”时(S1910,是),计划会话处理部320,关于正保留·停止的计划1402调查用户是否再次表示出关心,当表示出关心时进行动作,重新开始临时保留·停止的计划1402地进行动作。即,计划会话处理部320检查保留停止中的计划1402(图40;S2001),判定用户发话是否对应于保留·停止中的该计划1402(S2002)。
当判定为用户发话对应于该计划1402时(S2002,是),计划会话处理部320转移到与该用户发话对应的计划1402(S2003)。此后,执行回答句子输出处理(图39;S1908)以便输出在该计划1402中包含的回答句子1501。通过如此进行动作,计划会话处理部320根据用户发话可以重新开始已保留·中断的计划1402,可以将在预先准备的计划1402中包含的内容全部传递给用户。
另一方面,在前面的S2002(参照图40)中判定出保留·停止中的计划1402不对应于用户发话时(S2002,否),计划会话处理部320为了判定是否存在应该开始的新的别的计划1402,在计划空间1401内检索是否存在与用户发话对应的计划1402(图39;S1904)。此后,与在先描述的S1903(是)中的处理同样地,计划会话处理部320执行从S1905到S1908的处理。
在S1910的判定中,当基本控制状态信息表示的基本控制状态不是“维持”时(S1910,否),意味着基本控制状态信息表示的基本控制状态是“继续”。在这种情况下,计划会话处理部320不进行回答句子的输出而结束计划会话控制处理。
以上,结束了计划会话控制处理的说明。
返回图38,继续说明主处理。
当结束计划会话控制处理(S1801)时,会话控制部300开始谈话空间会话控制处理(S1802)。但是,在计划会话控制处理(S1801)中进行了回答句子输出的情况下,会话控制部300不进行谈话空间会话控制处理(S1802)以及在后面说明的CA会话控制处理(S1803)的任何一个,进行基本控制信息更新处理(S1904)来结束主处理。
图42是表示本实施方式的谈话空间会话控制处理的一例的流程图。
首先,输入部11进行取得来自利用者的发话内容的步骤(步骤S2201)。具体而言,输入部11取得构成利用者的发话内容的声音。输入部11将所取得的声音作为声音信号,输出到声音识别部200。此外,输入部11也可以不取得来自利用者的声音,而取得从利用者输入的字符串(例如以文本形式输入的字符数据)。在这种情况下,输入部11不是麦克风,而成为键盘或触摸面板等字符输入装置。
接着,声音识别部200进行根据通过输入部11取得的发话内容确定与发话内容对应的字符串的步骤(步骤S2202)。具体而言,从输入部11输入了声音信号的声音识别部200,根据所输入的声音信号确定与该声音信号对应的单词假设(候补)。声音识别部200取得与所确定的单词假设(候补)对应的字符串,将所取得的字符串作为字符串信号输出到会话控制部300,更详细而言输出到谈话空间会话控制处理部330。
然后,字符串确定部410进行将通过声音识别部200确定的一连串字符串按照每一短语来划分的步骤(步骤S2203)。具体而言,从管理部310输入了字符串信号(或者形态素信号)的字符串确定部410,在该输入的一连串字符串中存在某一定以上的时间间隔时,在该部分划分字符串。字符串确定部410将该划分而得的各字符串输出到形态素提取部420以及输入种类判定部440。此外,字符串确定部410,当所输入的字符串是从键盘输入的字符串时,优选在标点或空格等所在的部分划分字符串。
此后,形态素提取部420进行根据通过字符串确定部410确定的字符串,提取构成字符串的最小单位的各形态素作为第一形态素信息的步骤(步骤S2204)。具体而言,从字符串确定部410输入了字符串的形态素提取部420,将所输入的字符串、和在形态素数据库430中预先存储的形态素群进行对照。此外,该形态素群,在本实施方式中,关于属于各个词类的各形态素,准备了记载有该形态素的词条·读法·词类·活用形等的形态素辞典。
进行了该对照的形态素提取部420,从所输入的字符串中提取出与预先存储的形态素群中包含的各形态素一致的各形态素(m1、m2、...)。形态素提取部420将提取出的各形态素作为第一形态素信息,输出到话题确定信息检索部350。
接着,输入种类判定部440进行根据构成通过字符串确定部410确定的一句的各形态素,判定“发话句子的类型”的步骤(步骤S2205)。具体而言,从字符串确定部410输入了字符串的输入种类判定部440,根据所输入的字符串,将该字符串和在发话种类数据库450中存储的各辞典进行对照,从该字符串中提取出与各辞典相关的要素。提取出该要素的输入种类判定部440,根据提取出的要素,判定该要素属于哪个“发话句子的类型”。输入种类判定部440将判定出的“发话句子的类型”(发话种类)输出到回答取得部380。
然后,话题确定信息检索部350进行将通过形态素提取部420提取出的第一形态素信息、和关注话题标题820focus进行比较的步骤(步骤S2206)。
当构成第一形态素信息的形态素和关注话题标题820focus一致时,话题确定信息检索部350将该话题标题820输出到回答取得部380。另一方面,当构成第一形态素信息的形态素和话题标题820不一致时,话题确定信息检索部350将所输入的第一形态素信息以及利用者输入句子话题确定信息作为检索命令信号,输出到省略句补充部360。
此后,省略句补充部360进行根据从话题确定信息检索部350输入的第一形态素信息,将关注话题确定信息以及回答句子话题确定信息包含在所输入的第一形态素信息中的步骤(步骤S2207)。具体而言,当将第一形态素信息设为“W”,将关注话题确定信息以及回答句子话题确定信息的集合设为“D”时,省略句补充部360在第一形态素信息“W”中包含话题确定信息“D”的要素,生成补充后的第一形态素信息,并将该补充后的第一形态素信息、和与集合“D”关联的全部话题标题820进行对照,检索是否存在与补充后的第一形态素信息一致的话题标题820。当存在与补充后的第一形态素信息一致的话题标题820时,省略句补充部360将该话题标题820输出到回答取得部380。另一方面,当未发现与补充后的第一形态素信息一致的话题标题820时,省略句补充部360将第一形态素信息和利用者输入句子话题确定信息传递给话题检索部370。
接着,话题检索部370进行将第一形态素信息和利用者输入句子话题确定信息进行对照,从各话题标题820中检索适合于第一形态素信息的话题标题820的步骤(步骤S2208)。具体而言,从省略句补充部360输入了检索命令信号的话题检索部370,根据在所输入的检索命令信号中包含的利用者输入句子话题确定信息以及第一形态素信息,从与该利用者输入句子话题确定信息对应的各话题标题820中检索适合于该第一形态素信息的话题标题820。话题检索部370将作为该检索结果而得到的话题标题820作为检索结果信号,输出到回答取得部380。
接着,回答取得部380根据通过话题确定信息检索部350、省略句补充部360或者话题检索部370检索出的话题标题820,将通过句子解析部400判定出的利用者的发话种类、和与话题标题820对应的各回答种类进行对照,进行回答句子830的选择(步骤S2209)。
具体而言,以下这样来进行回答句子830的选择。即,从话题检索部370输入了检索结果信号、并从输入种类判定部440输入了“发话句子的类型”的回答取得部380,根据与所输入的检索结果信号对应的“话题标题”和所输入的“发话句子的类型”,从与该“话题类型”对应的回答种类群中确定与“发话句子的类型”(DA等)一致的回答种类。
接着,回答取得部380经由管理部310,将在步骤S2209中取得的回答句子830输出到输出部600(步骤S2210)。从管理部310取得了回答句子的输出部600输出所输入的回答句子830。
以上,结束了谈话空间会话控制处理的说明,返回图38重新开始主处理的说明。
会话控制部300,当结束谈话空间会话控制处理时,执行CA会话控制处理(S1803)。但是,在计划会话控制处理(S1801)以及谈话空间会话控制处理(S1802)中进行了回答句子输出的情况下,会话控制部300不进行CA会话控制处理(S1803),进行基本控制信息更新处理(S1804)来结束主处理。
CA会话控制处理(S1803)是判定用户发话是“正在说明某事”、“正在确认某事”、“正在进行非难或攻击”、还是“这些以外”,输出与用户发话的内容以及判定结果对应的回答句子的处理。通过进行该CA会话控制处理,即使在计划会话控制处理以及谈话空间会话控制处理的任何一个中都无法输出适合于用户发话的回答句子,也可以输出不中断与用户的会话的流程地继续的、比如“相连”的回答句子。
然后,会话控制部300进行基本控制信息更新处理(S1804)。在该处理中,会话控制部300、更详细而言是管理部310,在计划会话处理部320进行了回答句子输出的情况下,将基本控制信息设定为“结束”,在计划会话处理部320停止了回答句子输出的情况下,将基本控制信息设定为“放弃”,在谈话空间会话控制处理部330进行了回答句子输出的情况下,将基本控制信息设定为“维持”,在CA会话处理部340进行了回答句子输出的情况下,将基本控制信息设定为“继续”。
在该基本控制信息变更处理中设定的基本控制信息,在所述计划会话控制处理(S1810)中被参照,在计划的继续或重新开始中被利用。
以上,通过每当接受用户发话时执行主处理,回答处理部21可以根据用户发话执行预先准备的计划,并且针对计划中未包含的话题也可以进行适宜的应答。

Claims (8)

1.一种为了自动会话系统而生成会话情节的会话情节编辑装置,所述自动会话系统具有:会话装置,其通过对用户发话进行声音识别来生成输入句子,向会话服务器请求与该输入句子对应的回答句子;会话服务器,其在从所述会话装置请求了回答句子时,根据会话情节决定回答句子,将该回答句子发送到所述会话装置,并将回答句子输出给用户,
该会话情节编辑装置的特征在于,
具有:
编辑部,其具有检查在被编辑的会话情节中是否遵守了适当的状态迁移关系以便对会话情节做出编辑的功能,其中通过所述状态迁移关系表现所述会话情节决定的会话流程;以及
语言模型生成单元,其计算通过编辑部做出编辑的会话情节中的输入句子中包含的单词列的发生概率,并根据计算结果生成在所述会话装置进行声音识别时使用的语言模型。
2.根据权利要求1所述的会话情节编辑装置,其特征在于,
所述会话情节由对象和态射组成,
该会话情节编辑装置还具有编辑单元,其生成具有作为态射的输入句子、和作为与该态射对应的对象的回答句子的所述会话情节。
3.根据权利要求2所述的会话情节编辑装置,其特征在于,
该会话情节编辑装置还具有动态知识生成单元,其生成用于从所述会话情节中检索与态射对应的对象的动态知识。
4.一种自动会话系统,其特征在于,
具有:
会话装置,其通过对用户发话进行声音识别来生成输入句子,向会话服务器请求与该输入句子对应的回答句子;
会话服务器,其在从所述会话装置请求了回答句子时,根据会话情节决定回答句子,将该回答句子发送到所述会话装置,并将回答句子输出给用户;以及
会话情节编辑装置,其具有:编辑部,其具有检查在被编辑的会话情节中是否遵守了适当的状态迁移关系以便对会话情节做出编辑的功能,其中通过所述状态迁移关系表现所述会话情节决定的会话流程;以及语言模型生成单元,该语言模型生成单元计算通过编辑部做出编辑的会话情节中的输入句子中包含的单词列的发生概率,并根据计算结果生成所述会话装置进行声音识别时使用的语言模型。
5.根据权利要求4所述的自动会话系统,其特征在于,
所述会话情节由对象和态射组成,
该自动会话系统还具有编辑单元,其生成具有作为态射的输入句子、和作为与该态射对应的对象的回答句子的所述会话情节。
6.根据权利要求5所述的自动会话系统,其特征在于,
该自动会话系统还具有动态知识生成单元,其生成用于从所述会话情节中检索与态射对应的对象的动态知识。
7.根据权利要求4至6中任意一项所述的自动会话系统,其特征在于,
所述会话服务器,将记载了使所述会话装置进行的动作的动作控制信息发送到所述会话装置,所述会话装置根据所述动作控制信息,在输出回答句子的同时执行动作。
8.根据权利要求7所述的自动会话系统,其特征在于,
所述会话装置是由所述动作控制信息来控制动作的终端装置。
CN2009101670565A 2008-08-20 2009-08-19 自动会话系统以及会话情节编辑装置 Expired - Fee Related CN101656799B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008212191A JP5149737B2 (ja) 2008-08-20 2008-08-20 自動会話システム、並びに会話シナリオ編集装置
JP2008-212191 2008-08-20
JP2008212191 2008-08-20

Publications (2)

Publication Number Publication Date
CN101656799A CN101656799A (zh) 2010-02-24
CN101656799B true CN101656799B (zh) 2013-08-14

Family

ID=41319846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101670565A Expired - Fee Related CN101656799B (zh) 2008-08-20 2009-08-19 自动会话系统以及会话情节编辑装置

Country Status (4)

Country Link
US (1) US8935163B2 (zh)
EP (1) EP2157570B1 (zh)
JP (1) JP5149737B2 (zh)
CN (1) CN101656799B (zh)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8374859B2 (en) 2008-08-20 2013-02-12 Universal Entertainment Corporation Automatic answering device, automatic answering system, conversation scenario editing device, conversation server, and automatic answering method
WO2013172014A1 (ja) * 2012-05-17 2013-11-21 日本電気株式会社 言語モデル生成装置、音声認識装置、言語モデル生成方法およびプログラム記憶媒体
US10223636B2 (en) * 2012-07-25 2019-03-05 Pullstring, Inc. Artificial intelligence script tool
US8972324B2 (en) 2012-07-25 2015-03-03 Toytalk, Inc. Systems and methods for artificial intelligence script modification
KR101909141B1 (ko) 2012-07-27 2018-10-17 엘지전자 주식회사 전자기기 및 전자기기의 제어방법
CN103177519B (zh) * 2013-02-22 2015-03-25 秦方 具有房门报警和即时声音回应功能的远程监控方法
CN103297503B (zh) * 2013-05-08 2016-08-17 南京邮电大学 基于分层次信息提取服务器的移动终端群智感知系统
US10152972B1 (en) * 2013-05-15 2018-12-11 Allscripts Software, Llc Conversational agent
CN103578464B (zh) * 2013-10-18 2017-01-11 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
JP5996603B2 (ja) * 2013-10-31 2016-09-21 シャープ株式会社 サーバ、発話制御方法、発話装置、発話システムおよびプログラム
CN104834651B (zh) * 2014-02-12 2020-06-05 北京京东尚科信息技术有限公司 一种提供高频问题回答的方法和装置
KR102193559B1 (ko) * 2014-02-18 2020-12-22 삼성전자주식회사 대화형 서버 및 이의 제어 방법
US9437189B2 (en) * 2014-05-29 2016-09-06 Google Inc. Generating language models
JP6390264B2 (ja) * 2014-08-21 2018-09-19 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム
KR20160056548A (ko) * 2014-11-12 2016-05-20 삼성전자주식회사 질의 응답을 위한 디스플레이 장치 및 방법
JP6440483B2 (ja) * 2014-12-17 2018-12-19 シャープ株式会社 通信システム、サーバ装置、ロボット、情報処理方法、およびプログラム
JP6589514B2 (ja) * 2015-09-28 2019-10-16 株式会社デンソー 対話装置及び対話制御方法
US10311862B2 (en) 2015-12-23 2019-06-04 Rovi Guides, Inc. Systems and methods for conversations with devices about media using interruptions and changes of subjects
US20190311716A1 (en) * 2016-10-06 2019-10-10 Sharp Kabushiki Kaisha Dialog device, control method of dialog device, and a non-transitory storage medium
USD882547S1 (en) 2017-12-27 2020-04-28 Yandex Europe Ag Speaker device
RU2707149C2 (ru) 2017-12-27 2019-11-22 Общество С Ограниченной Ответственностью "Яндекс" Устройство и способ модифицирования вывода аудиосигнала устройства
RU2711104C2 (ru) 2017-12-27 2020-01-15 Общество С Ограниченной Ответственностью "Яндекс" Способ и компьютерное устройство для определения намерения, связанного с запросом для создания зависящего от намерения ответа
RU2693332C1 (ru) 2017-12-29 2019-07-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и компьютерное устройство для выбора текущего зависящего от контекста ответа для текущего пользовательского запроса
CN110019736B (zh) * 2017-12-29 2021-10-01 北京京东尚科信息技术有限公司 基于语言模型的问答匹配方法、系统、设备及存储介质
JP7060985B2 (ja) * 2018-03-14 2022-04-27 株式会社日立製作所 シナリオ作成支援システム及びシナリオ作成支援方法
EP3576084B1 (de) * 2018-05-29 2020-09-30 Christoph Neumann Effiziente dialoggestaltung
USD931294S1 (en) 2018-06-22 2021-09-21 5 Health Inc. Display screen or portion thereof with a graphical user interface
US20190392926A1 (en) * 2018-06-22 2019-12-26 5 Health Inc. Methods and systems for providing and organizing medical information
JP2020154269A (ja) * 2019-03-22 2020-09-24 株式会社日立ビルシステム 複数人対話システムおよび複数人対話方法
CN111831795B (zh) * 2019-04-11 2023-10-27 北京猎户星空科技有限公司 多轮对话处理方法、装置、电子设备及存储介质
CN110096191B (zh) * 2019-04-24 2021-06-29 北京百度网讯科技有限公司 一种人机对话方法、装置及电子设备
CN112017642A (zh) * 2019-05-31 2020-12-01 华为技术有限公司 语音识别的方法、装置、设备及计算机可读存储介质
CN110347792B (zh) * 2019-06-25 2022-12-20 腾讯科技(深圳)有限公司 对话生成方法及装置、存储介质、电子设备
CN110377716B (zh) * 2019-07-23 2022-07-12 百度在线网络技术(北京)有限公司 对话的交互方法、装置及计算机可读存储介质
USD947152S1 (en) 2019-09-10 2022-03-29 Yandex Europe Ag Speaker device
WO2021112642A1 (en) * 2019-12-04 2021-06-10 Samsung Electronics Co., Ltd. Voice user interface
CN110827821B (zh) * 2019-12-04 2022-04-12 三星电子(中国)研发中心 一种语音交互装置、方法和计算机可读存储介质
JP2021149267A (ja) * 2020-03-17 2021-09-27 東芝テック株式会社 情報処理装置、情報処理システム及びその制御プログラム
CN111611368B (zh) * 2020-05-22 2023-07-04 北京百度网讯科技有限公司 多轮对话中公共场景对话回溯的方法和装置
US11908477B2 (en) * 2020-08-28 2024-02-20 Cisco Technology, Inc. Automatic extraction of conversation highlights
CN112735407B (zh) * 2020-12-24 2023-07-21 北京三快在线科技有限公司 一种对话处理方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975858A (zh) * 2005-10-21 2007-06-06 阿鲁策株式会社 会话控制装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003463B1 (en) * 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US6266642B1 (en) * 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US20030182113A1 (en) * 1999-11-22 2003-09-25 Xuedong Huang Distributed speech recognition for mobile communication devices
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US20020138274A1 (en) * 2001-03-26 2002-09-26 Sharma Sangita R. Server based adaption of acoustic models for client-based speech systems
JP4340024B2 (ja) 2001-06-07 2009-10-07 日本放送協会 統計的言語モデル生成装置および統計的言語モデル生成プログラム
JP3839784B2 (ja) * 2003-04-10 2006-11-01 日本電信電話株式会社 対話シナリオ生成方法、対話シナリオ生成装置、対話シナリオ生成用プログラム
US20050080628A1 (en) 2003-10-10 2005-04-14 Metaphor Solutions, Inc. System, method, and programming language for developing and running dialogs between a user and a virtual agent
JP2006003413A (ja) * 2004-06-15 2006-01-05 Nippon Telegr & Teleph Corp <Ntt> 音声自動応答方法、この方法を実施する装置、音声自動応答プログラムおよびその記録媒体
JP4634889B2 (ja) * 2005-08-15 2011-02-16 日本電信電話株式会社 音声対話シナリオ作成方法、装置、音声対話シナリオ作成プログラム、記録媒体
JP4849662B2 (ja) * 2005-10-21 2012-01-11 株式会社ユニバーサルエンターテインメント 会話制御装置
JP4846336B2 (ja) * 2005-10-21 2011-12-28 株式会社ユニバーサルエンターテインメント 会話制御装置
JP4888996B2 (ja) 2005-10-21 2012-02-29 株式会社ユニバーサルエンターテインメント 会話制御装置
JP4849663B2 (ja) 2005-10-21 2012-01-11 株式会社ユニバーサルエンターテインメント 会話制御装置
JP4018743B1 (ja) 2007-02-28 2007-12-05 ネット株式会社 保護具、制御用基板及び遊技機

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975858A (zh) * 2005-10-21 2007-06-06 阿鲁策株式会社 会话控制装置

Also Published As

Publication number Publication date
EP2157570A1 (en) 2010-02-24
US20100049513A1 (en) 2010-02-25
CN101656799A (zh) 2010-02-24
JP5149737B2 (ja) 2013-02-20
US8935163B2 (en) 2015-01-13
JP2010048980A (ja) 2010-03-04
EP2157570B1 (en) 2017-07-05

Similar Documents

Publication Publication Date Title
CN101656799B (zh) 自动会话系统以及会话情节编辑装置
CN101656800B (zh) 自动应答装置及方法、会话情节编辑装置、会话服务器
JP6799574B2 (ja) 音声対話の満足度の確定方法及び装置
US10902841B2 (en) Personalized custom synthetic speech
CN1953057B (zh) 会话控制器
US8972265B1 (en) Multiple voices in audio content
CN105808590B (zh) 搜索引擎实现方法、搜索方法以及装置
CN110390003A (zh) 基于医疗的问答处理方法及系统、计算机设备及可读介质
CN107464555A (zh) 向包含语音的音频数据添加背景声音
US20160343367A1 (en) Imbuing Artificial Intelligence Systems With Idiomatic Traits
CN108255934A (zh) 一种语音控制方法及装置
CN105261355A (zh) 一种语音合成方法和装置
CN105027194A (zh) 话语主题的识别
US20200183928A1 (en) System and Method for Rule-Based Conversational User Interface
CN109145168A (zh) 一种专家服务机器人云平台
CN110399470A (zh) 会话消息处理
CN109923515A (zh) 使用网络可寻址设备创建电影化的讲故事体验
CN107195301A (zh) 智能机器人语义处理的方法及装置
McTear Intelligent interface technology: from theory to reality?
Pichl et al. Alquist 3.0: Alexa prize bot using conversational knowledge graph
CN113486166B (zh) 智能客服机器人的构建方法、装置、设备以及存储介质
JP2020529680A (ja) 通話中の感情を認識し、認識された感情を活用する方法およびシステム
Origlia et al. FANTASIA: a framework for advanced natural tools and applications in social, interactive approaches
CN110059174B (zh) 问询指引方法及装置
CN110249326B (zh) 自然语言内容生成器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: Japan Tokyo Dujiang Eastern Ming three chome 7 No. 26 building A building along with it

Applicant after: Universal Entertainment Corp.

Address before: Tokyo, Japan

Applicant before: Aruze Corp.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: ARUZE CORP. TO: GLOBAL ENTERTAINMENT CORPORATION

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130814

Termination date: 20210819