CN110019746B

CN110019746B - 对话系统

Info

Publication number: CN110019746B
Application number: CN201811008382.7A
Authority: CN
Inventors: 吉田尚水; 岩田宪治; 藤村浩司
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-12-13
Filing date: 2018-08-31
Publication date: 2023-10-10
Anticipated expiration: 2038-08-31
Also published as: CN110019746A; US20190180743A1; JP2019106054A; US11087753B2; JP7249378B2; JP2021131907A

Abstract

本发明提供能够更恰当地处理对话状态的履历的对话系统。实施方式的对话系统包括取得部和处理部。上述取得部取得第一文章。上述处理部参照基于与第一对话状态的第一槽位有关的第一特征量和与上述第一文章有关的第一权重的第一加权量。上述处理部参照基于与包含在上述第一文章中的第一意图的上述第一槽位有关的第一意图量和与上述第一权重不同的与上述第一文章有关的第二权重的第二加权量。上述处理部使用上述第一加权量和上述第二加权量，输出与上述第一对话状态之后的第二对话状态的上述第一槽位有关的第二特征量。

Description

对话系统

本申请以日本专利申请2017-238764号(申请日2017年12月13日)为基础，从该申请享受优先权的利益。本申请通过参照该申请而包含该申请的全部内容。

技术领域

本发明的实施方式一般涉及对话系统。

背景技术

作为向用户提供信息的一个方法，例如有识别用户的语音而生成应答句的对话系统。进而，还有根据用户输入的文字信息而提供用户希望的服务的方法。对话系统根据由用户通过语音或文字信息输入的文章，推定用户US的希望。将推定出的用户US的希望称为对话状态。理想的是对话系统在推定当前的对话状态时，能够更恰当地处理过去的对话状态的履历。

发明内容

本发明的实施方式提供一种能够更恰当地处理对话状态的履历的对话系统。

根据本发明的实施方式，对话系统包括取得部和处理部。上述取得部取得第一文章。上述处理部参照基于与第一对话状态的第一槽位(slot)有关的第一特征量和与上述第一文章有关的第一权重的第一加权量。上述处理部参照基于与包含在上述第一文章中的第一意图的上述第一槽位有关的第一意图量和与上述第一权重不同的与上述第一文章有关的第二权重的第二加权量。上述处理部使用上述第一加权量和上述第二加权量，输出与上述第一对话状态之后的第二对话状态的上述第一槽位有关的第二特征量。

根据上述结构的对话系统，能够更恰当地处理对话状态的履历。

附图说明

图1是示例第一实施方式所涉及的对话系统的示意图。

图2是示例第一实施方式所涉及的对话系统的动作的示意图。

图3是示例槽位参数(取值)以及槽位的图。

图4是示例第一实施方式所涉及的对话系统的动作的流程图。

图5是示例第一实施方式所涉及的对话系统的动作的流程图。

图6是示例第一实施方式所涉及的对话系统的动作的流程图。

图7是示例第一实施方式所涉及的对话系统的动作的流程图。

图8是示例第一实施方式所涉及的对话系统的动作的示意图。

图9是示例第一实施方式所涉及的对话系统的其他动作的流程图。

图10是示例第一实施方式所涉及的对话系统的动作的示意图。

图11是示例第一实施方式所涉及的对话系统的动作的流程图。

图12是示例第一实施方式的变形例子所涉及的对话系统的示意图。

图13是示例第一实施方式的变形例子所涉及的对话系统的流程图。

图14是示例第一实施方式的变形例子所涉及的对话系统的动作的示意图。

图15是示例第二实施方式所涉及的对话系统210的示意图。

图16是示例第二实施方式所涉及的对话系统的动作的流程图。

图17是示例实施方式所涉及的对话装置的结构的示意图。

附图标记说明

10：取得部；20：处理部；21：输入部；22：分析部；23：抽出部；24：推定部；25：决定部；26：系统应答取得部；27：对话控制部；31：第一存储部；32：第二存储部；33：第三存储部；34：第四存储部；35：第五存储部；36：第六存储部；37：第七存储部；41：第一模型存储部；42：第二模型存储部；43：第三模型存储部；50：输出部；110、120、210：对话系统；310：对话装置；311：CPU；312：取得部；313：输出部；314：ROM；315：RAM；316：存储部；317：通信装置；318：总线；S1～Sm：槽位；St1～St8、St11～St19、St21～St29、St31～St39、St40～St49、St51～St62、St71～St77、St80～89：步骤；TX1～TX8、TX11～TX18、TX21～TX29、TX31～TX38：文章；US：用户；V11～V13、V21～V23、Vm1～Vmn：取值。

具体实施方式

以下，参照附图说明本发明的各实施方式。

在本申请说明书和各附图中，向与已经说明过的部分相同的要素附加相同的符号，并恰当省略详细说明。

图1是示例第一实施方式所涉及的对话系统的示意图。

如图1所示，对话系统110包括取得部10和处理部20。取得部10取得信息。处理部20进行该信息的处理。

以下，首先说明对话系统的例子。

图2是示例第一实施方式所涉及的对话系统的动作的示意图。

对话系统110识别用户US发出的语音，生成应答句。对话系统110通过语音的识别以及应答句的生成，与用户US进行对话，由此推定用户US的意图。对话系统110例如也可以通过与用户US的文字信息的收发来推定用户US的意图。对话系统110与推定出的用户US的意图对应地向用户US提供服务(用户US希望的信息等)。

例如，在便携电话(智能手机)中使用对话系统110。作为便携电话的操作者的用户US例如通过语音向对话系统110进行各种询问。从对话系统110向用户US提供与该询问对应的服务(信息)。

图2表示用户US希望进餐时的一个例子。

在文章TX1中，对话系统110询问用户US的希望。针对该询问，用户US在文章TX2中，发言所希望的菜肴的种类。通过文章TX1和TX2的信息的收发，对话系统110理解与菜肴的种类有关的用户US的意图。将如文章TX1和TX2那样，从对话系统110和用户US的一方向另一方提供信息，从对话系统110和用户US的另一方向一方提供信息的一连串流程称为“回合(turn)”。

对话系统110例如在其后的文章TX3中询问希望的地点。针对该询问，用户US在文章TX4中发言所希望的地点。通过第二回合的信息的收发，对话系统110理解与地点有关的用户US的意图。

对话系统110检索是否存在适合于用户US的意图的信息。具体地说，对话系统110检索川崎站内的中餐餐馆。例如，在川崎站内没有中餐餐馆的情况下，对话系统110在文章TX5中向用户US传达该信息。接收到该信息，用户US例如在文章TX6中取消所希望的菜肴的种类。

接收到该意图，对话系统110检索川崎站内的餐馆。例如在发现了多个餐馆的情况下，对话系统110在文章TX7中向用户US传达(建议)一个餐馆的名字。例如，用户US在文章TX8中向对话系统110传达接受该建议的信息。

这样，通过对话系统110和用户US之间的信息的收发，对话系统110理解用户US的意图，向用户US提供服务(信息)。为了提供更适合于用户US的意图的服务，理想的是对话系统110能够更恰当地理解用户US的意图。为了在对话系统110中能够恰当地理解意图，例如在对话系统110中设置能够存储信息的多个“分类”。例如，将多个分类的一个分配为“菜肴的种类”。将多个“分类”的另一个分配为“地点”。

可以在多个“分类”的一个(菜肴的种类)存储多个“词语”(日餐、中餐、以及意大利餐等)。例如，在“分类”中存储“日餐”的“词语”的情况下，当用户US发言“希望吃日餐”等的情况下，恰当地推定该用户US的意图，能够提供与日餐有关的餐馆的信息。通过恰当地设定存储在“分类”中的多个“词语”，能够正确地推定用户US的意图。例如在对话系统110的设计时设置存储在“分类”中的多个“词语”。也可以与对话系统110和用户US的“对话”的结果对应地，随时间进行学习。

为了更恰当地理解用户US的意图，理想的是与餐馆的增减对应地追加以及删除“词语”。例如，在川崎站内此前没有中餐的餐馆，而新开设了中餐的餐馆时，理想的是向“菜肴的种类”的“分类”追加与“中餐”对应的“词语”。例如，在川崎站内的日餐的餐馆迁址到其他地点，而在川崎站内没有日餐的餐馆的情况下，理想的是从“菜肴的种类”的“分类”删除与“日餐”对应的“词语”。

进而，理想的是对话系统110能够更正确地跟踪用户US的意图。例如，通过取得文章TX2，对话系统110推定为用户US希望中餐的餐馆。即，对于对话状态的与“菜肴的种类”有关的部分，是“(希望)中餐”。在文章TX4中，用户US没有提及所希望的菜肴的种类。但是，根据第一回合的对话可知用户US希望中餐。因此，在取得文章TX4后，对于对话状态的与“菜肴的种类”有关的部分，理想的是维持“中餐”。进而，在取得文章TX4后，对于对话状态的与“地点”有关的部分，成为“(希望)川崎站内”。

另一方面，在文章TX6中，取消与“菜肴的种类”有关的希望。因此，在取得文章TX6后，对于对话状态的与“菜肴的种类”有关的部分，理想的是成为“None(没有希望)”，对于对话状态的与“地点”有关的部分，理想的是维持“川崎站内”。

如上述那样，对于对话系统110，理想的是能够一边对应包含在“分类”中的“词语”的增减，一边更恰当地处理对话状态的履历。

图3是示例槽位参数(取值)和槽位的图。

对话系统110在推定时参照预先设定的“分类”和包含在该“分类”中的“词语”。该“分类”被称为“槽位”。该“词语”被称为槽位参数或取值。图3示例与餐馆有关的多个槽位S1～Sm。对各个槽位设定多个取值。例如，与菜肴的种类有关的槽位S1包含日餐的取值V11、中餐的取值V12、意大利餐的取值V13等。与地点有关的槽位S2包含川崎站的取值V21、东京站的取值V22、新宿站的取值V23等。对各个取值设定有特征量。对话系统110参照多个槽位S1～Sm，推定用户US意图的取值，生成与该取值有关的应答句。

图4是示例第一实施方式所涉及的对话系统的动作的流程图。

取得部10取得由用户US输入的文章(步骤St1)。例如由用户US输入文章。例如用声音信息(语音信息)和文字信息的至少一个来表示文章。也可以输入语音，由取得部10取得从该语音信息导出的文字信息。文章也可以基于向GUI(图形用户界面)部件的触摸等的操作信息。取得部10例如包括键盘、麦克风、以及触摸屏的至少任意一个。

处理部20例如包括CPU(例如计算机等)。处理部20也可以包括存储器。处理部20分析通过取得部10取得的文章(步骤St2)。由此，推定包含在文章中的用户US的意图。处理部20分析所取得的文章，抽出权重参数(步骤St3)。处理部20根据抽出的权重参数来决定权重(步骤St4)。处理部20参照过去的对话状态(步骤St5)。

处理部20使用包含在文章中的用户US的意图、过去的对话状态、权重，推定当前的对话状态(步骤St6)。处理部20存储所推定出的当前的对话状态(步骤St7)。处理部20判定对话是否结束(步骤St8)。在对话没有结束的情况下，返回到步骤S1。在对话结束的情况下，结束动作。

以下，说明对话系统110的更具体的一个例子。

对话系统110例如还包括第一存储部31、第二存储部32、第三存储部33、第四存储部34、第一模型存储部41以及第二模型存储部42。

第一存储部31存储过去推定出的对话状态。第一存储部31还存储推定对话状态时所使用的信息。该信息包含后述的加权量和特征量等。

第二存储部32存储多个槽位、各个槽位所包含的多个槽位参数。

在将单词变换为向量时参照第三存储部33。第三存储部33例如存储使用word2vec或GloVe所学习的模型。或者第三存储部33存储多个单词和多个向量的各自的对应。例如，向各个单词分配用1-of-K表达所表示的向量。用1-of-K表达所表示的向量的维数与存储在第三存储部33中的单词的总数相同。该向量只有对应的单词的维是“1”，其他维全部是“0”。

第四存储部34存储抽出权重参数时所使用的规则和RNN的至少任意一个。

第一模型存储部41存储单词分割模型。在通过形态分析将文章分割为多个单词时参照单词分割模型。例如用mecab或chasen等模型表示单词分割模型。

第二模型存储部42存储特征量变换模型。向特征量变换模型输入基于参照第三存储部33生成的文章的向量。根据特征量变换模型输出特征量向量。用不依存于文章的字符数的特定的维数来表示该特征量向量。

例如，特征量变换模型是事先学习的Reccurent Neural Network(递归神经网络：RNN)。向RNN的输入层输入基于所取得的文章的向量。包含在中间层的多个节点的至少一部分例如是Long Short-Term Memory(长短期记忆：LSTM)。

各槽位参数也被变换为特征量向量。在将槽位参数变换为特征量向量时，既可以参照存储在第三存储部33中的特征量变换模型，也可以参照其他的模型。或者，也可以预先将各槽位参数变换为特征量向量，将这些特征量向量存储在第三存储部33或其他存储部中。

例如，可以通过监督学习(supervised learning)而事先制作RNN。在该监督学习中，使用被赋予了标签的发言句。标签表示包含在发言句中的对话状态。在类似度(距离)计算的结果是被推定为概率高的槽位参数与正解的槽位参数(标签上记载的槽位参数)不同的情况下，修正RNN的参数以便减小该差。通过重复该操作，来学习RNN。

处理部20例如包括输入部21、分析部22、抽出部23、推定部24以及决定部25。

输入部21输入通过取得部10取得的文章。输入部21将该文章发送到分析部22和抽出部23。分析部22分析文章，推定包含在该文章中的用户US的意图。抽出部23参照第四存储部34，从取得的文章抽出权重参数。

具体地说，分析部22参照第三存储部33和第一模型存储部41，将输入到输入部21的文章变换为向量。分析部22参照第二模型存储部42，将该向量输入到特征量变换模型。由此，分析部22取得特征量向量。分析部22进而参照第二存储部32，将各槽位参数变换为特征量向量。分析部22计算基于文章的特征量向量与各槽位参数的特征量向量的类似度。例如用余弦距离或欧几里得距离来表示类似度。分析部22例如进行标准化以使类似度高的槽位参数的概率变高，生成概率分布。分析部22将分析结果发送到推定部24。

权重参数基于文章中对槽位的提及的程度。例如，在文章中出现了对槽位的提及时，将权重参数设定为“1”。在没有提及时，将权重参数设定为“0”。或者，也可以对应于文章中对槽位的提及的程度，将权重参数设定0以上1以下的实数值。抽出部23将抽出的权重参数发送到决定部25。

在权重参数的抽出中，例如使用规则和RNN的至少任意一个。

例如，根据规则抽出权重参数。在该情况下，对于“菜肴的种类”的槽位，如果有“希望吃○○”的句子，则将权重参数设为1。如果没有该句子，则将权重参数设为0。

利用措辞来制作规则以便不依存于特定的槽位参数。由此，在追加或删除了槽位参数的情况下，也能够恰当地抽出权重参数。

作为不理想的一个例子，设定“如果在文章中包含“日餐”则将与“菜肴的种类”的槽位有关的权重参数设为1”这样的规则。在该情况下，在文章中包含有“土耳其餐”等其他槽位参数的情况下，无法将与“菜肴的种类”的槽位有关的权重参数设为1。另一方面，对于“如果有“希望吃○○”则将与“菜肴的种类”的槽位有关的权重参数设为1”这样的规则，如果○○是日餐或土耳其餐，则能够将权重参数设为1。

在使用RNN抽出权重参数的情况下，将输入的文章变换为特征量向量。当输入了该特征量向量时，RNN输出一维的实数值。例如，RNN事先实施监督学习。在该监督学习中，使用被赋予了表示是否提及了槽位的标签的文章。

或者，也可以将到对话状态的推定为止的部分构筑为一个RNN。在该情况下，事先实施使用了被赋予了表示对话状态的标签的文章的监督学习。

决定部25从抽出部23接受权重参数。决定部25根据权重参数，决定权重。换言之，权重是与输入到处理部20的文章相关的值。为了对推定部24接受的文章的意图和过去的对话状态进行加权并整合而使用权重。权重例如是0以上1以下的实数。决定部25例如直接将权重参数作为权重。在权重参数可能是小于0或超过1的值的情况下，也可以对权重参数进行标准化使得权重参数成为0以上1以下。决定部25将标准化后的权重参数作为权重。决定部25也可以使用S状函数对权重参数进行标准化。

推定部24访问第一存储部31，参照存储在第一存储部31中的过去的对话状态的推定结果。决定部25根据权重参数决定权重。决定部25将权重发送到推定部24。推定部24对文章的分析结果和过去的对话状态进行加权整合，决定当前的对话状态。

对话状态是对各槽位参数的概率分布，因此例如该推定部24对包含在发言句中的对话状态和过去的对话状态进行加权，根据和来推定对话状态。

推定部24将推定出的对话状态发送到第一存储部31。第一存储部31存储发送来的对话状态。推定部24输出所推定出的对话状态。

在追加或删除了槽位参数的情况下，分析部22在计算类似度时，可以通过追加或删除所追加或删除了的槽位参数的处理来对应。在将槽位参数变换为向量的处理中，使用共通的模型，因此不受到槽位参数的增减的影响。类似度基于余弦距离或欧几里得距离，因此不依存于槽位参数。在对包含在文章中的意图和过去的对话状态进行整合时，对于追加了的槽位参数，也将过去的概率设为0。由此，能够从对话状态中去除删除了的槽位参数的概率。

通过在没有提及槽位时减小权重，能够存储过去用户US提及的槽位参数的概率。在图2所示的例子中，用户US在第一个回合的发言中希望中餐，在第二个回合的发言中希望川崎站。这时，在对第一个回合的对话状态进行推定的情况下，基于发言的文章与槽位参数的“中餐”的类似度变高。其结果是在第一个回合中，对与菜肴的种类有关的意图的权重变大，能够将菜肴的种类推定为希望中餐。另一方面，在对第二回合的对话状态进行推定时，基于发言的文章与包含在菜肴的种类中的全部槽位参数的类似度变低。其结果是对与菜肴的种类有关的意图的权重变小，保持第一回合中的推定结果。这样，实施方式所涉及的对话系统110能够在保持过去的履历的同时，在被提及了的情况下更新对话状态。

图5是示例第一实施方式所涉及的对话系统的动作的流程图。

根据上述对话系统110，能够执行以下的处理。

处理部20计算与第一对话状态的第一槽位有关的第一特征量(步骤St11)。第一槽位例如是“菜肴的种类”。第一特征量例如表示与第一对话状态的“菜肴的种类”有关的用户US的希望。

处理部20根据第一特征量和第一权重，计算第一加权量(步骤St12)。第一权重与第一文章相关。第一加权量例如是第一特征量和第一权重之积。或者，第一加权量是基于第一特征量和第一权重之积的值。处理部20将第一加权量存储到第一存储部31(步骤St13)。

处理部20计算第一意图量(步骤St14)。第一意图量与包含在第一文章中的用户US的第一意图的第一槽位有关。例如，第一意图量表示第一文章中的用户US对“菜肴的种类”的希望。

处理部20根据第一意图量、与第一文章相关的第二权重，计算第二加权量(步骤St15)。第二权重例如与第一权重不同。第二加权量例如是第一意图量和第二权重之积。或者，第二加权量是基于第一意图量和第二权重之积的值。处理部20将第二加权量存储到第一存储部31(步骤St16)。

处理部20访问第一存储部31，参照存储在第一存储部31中的第一加权量和第二加权量(步骤St17)。处理部20使用第一加权量和第二加权量，输出(计算)第二特征量(步骤St18)。第二特征量例如表示与第一对话状态后的第二对话状态的“菜肴的种类”有关的用户US的希望。处理部20将第二特征量存储到第一存储部31(步骤St19)。

根据对话系统110，根据加权后的第一特征量和加权后的第一意图量，输出第二对话状态的第二特征量。由此，能够更恰当地处理与对话状态的第一槽位有关的履历。

对于图5所示的流程图，也可以通过其他的系统计算出第一加权量和第二加权量并存储到第一存储部31。在该情况下，可以省略步骤St11～St17。

对话系统110也可以执行以下的处理。

图6是示例第一实施方式所涉及的对话系统的动作的流程图。

处理部20计算与第一对话状态的第一槽位有关的第一特征量、与第一对话状态的第二槽位有关的第三特征量(步骤St21)。例如第二槽位是“地点”。第三特征量表示与“地点”有关的用户US的希望。

处理部20计算第一加权量和第三加权量(步骤St22)。根据第一特征量和第一权重计算第一加权量。根据第三特征量和第三权重计算第三加权量。第一权重和第三权重与从取得部10输入的第一文章相关。第三权重既可以与第一权重相同，也可以与第一权重不同。第三加权量例如是基于第三特征量和第三权重之积的值。处理部20将第一加权量和第三加权量存储到第一存储部31(步骤St23)。

处理部20计算第一意图量和第二意图量(步骤St24)。第一意图量与包含在第一文章中的用户US的第一意图的第一槽位有关。第二意图量与第一意图的第二槽位有关。例如，第二意图量表示用户US对第一意图的“地点”的希望。

处理部20计算第二加权量和第四加权量(步骤St25)。根据第一意图量和与第一文章相关的第二权重计算第二加权量。根据第二意图量和与第一文章相关的第四权重计算第四加权量。第四权重例如与第三权重不同。第四加权量例如是基于第二意图和第四权重之积的值。处理部20将第二加权量和第四加权量存储到第一存储部31(步骤St26)。

处理部20访问第一存储部31，参照第一加权量、第二加权量、第三加权量以及第四加权量(步骤St27)。处理部20输出(计算)第二特征量和第四特征量(步骤St28)。使用第三加权量和第四加权量输出第四特征量。第四特征量例如表示与第二对话状态的“地点”有关的用户US的希望。处理部20将第二特征量和第四特征量存储到第一存储部31(步骤St29)。

根据该处理，能够更恰当地分别处理与对话状态的第一槽位有关的履历和与第二槽位有关的履历。

对话系统110在用图5的流程图表示的处理之后，也可以进而执行以下的处理。

图7是示例第一实施方式所涉及的对话系统的动作的流程图。

处理部20访问第一存储部31，参照第二特征量(步骤St31)。处理部20计算第五加权量(步骤St32)。根据第二特征量和第五权重计算第五加权量。第五权重与在第一文章后由取得部10取得的第二文章相关。第五加权量例如是基于第二特征量和第五权重之积的值。处理部20将第五加权量存储到第一存储部31(步骤St33)。

处理部20计算第三意图量(步骤St34)。第三意图量与包含在第二文章中的用户US的第二意图的第一槽位有关。例如，第三意图量表示第二文章中的用户US对“菜肴的种类”的希望。

处理部20根据第三意图量和与第二文章相关的第六权重计算第六加权量(步骤St35)。第六权重例如与第五权重不同。第六加权量例如是第三意图量和第六权重之积。或者，第六加权量是基于第三意图量和第六权重之积的值。处理部20将第六加权量存储到第一存储部31(步骤St36)。

处理部20访问第一存储部31，参照存储在第一存储部31中的第五加权量和第六加权量(步骤St37)。处理部20使用第五加权量和第六加权量，输出(计算)第五特征量(步骤St38)。第五特征量例如表示与第二对话状态之后的第三对话状态的“菜肴的种类”有关的用户US的希望。处理部20将第五特征量存储到第一存储部31(步骤St39)。

图8是示例第一实施方式所涉及的对话系统的动作的示意图。

图8表示用户US希望就餐时的一个例子。根据第一实施方式所涉及的对话系统110，能够更恰当地处理图8所示的例子。

在图8所示的例子中，用户US针对文章TX11的询问，在文章TX12中，希望日餐(第一对象)和中餐(第二对象)的2个对象。然后在文章TX15中，对话系统110向用户US传达没有找到中餐的餐馆但发现了日餐的餐馆的信息。针对文章TX15，用户US在文章TX16中否定了中餐。

文章TX16只包含中餐的否定的意图。但根据文章TX16以前的对话，可知用户US希望日餐。根据第一实施方式的对话系统110，能够在文章TX17中向用户US传达发现了日餐的餐馆的信息。

具体地说，在对话系统110中，在取得了文章TX12时，与日餐对应的第一槽位参数的第一优先度和与中餐对应的第二槽位参数的第二优先度比此之前的状态高。这时，例如第一优先度和第二优先度比与意大利餐对应的第三槽位参数的第三优先度高。例如用概率表示第一优先度、第二优先度、第三优先度的每一个。第一优先度和第二优先度的提高分别与希望第一槽位参数的概率和希望第二槽位参数的概率的增大对应。

另一方面，当取得文章TX16时，第二优先度降低，第一优先度变得比第二优先度高。这是因为从文章TX16抽出权重参数而根据该权重参数决定权重。

例如在文章TX14中，没有提及“菜肴的种类”的槽位参数。因此与文章TX14对应的向量与包含在“菜肴的种类”中的各槽位参数的向量之间的类似度变小。在文章TX16中，否定了“菜肴的种类”的“中餐”的槽位参数。因此，与文章TX16对应的向量与“中餐”的槽位参数的向量之间的类似度变高。但是，文章TX16否定了中餐，因此类似度低。例如，与没有提及的情况和否定的情况对应地，使权重参数变化，由此在取得文章TX14时不使第二优先度降低，就能够在取得文章TX16时使第二优先度降低很多。其结果是对话系统110能够恰当地推定用户US希望日餐的情况。

在上述例子中，第一存储部31存储有一个回合之前的状态的对话状态。第一存储部31也可以进而存储过去的对话状态。例如，第一存储部31存储有对话状态的第一履历～第N履历(N为2以上的实数)。第M履历(M为1以上N以下的实数)是M回合之前的对话状态的履历。推定部24访问第一存储部31，参照第一履历～第N履历的至少一个。

决定部25根据包含在输入的文章中的意图、对话状态的履历，决定各个权重。例如，在从第一存储部31向推定部24发送第一履历～第N履历的情况下，决定部25决定与包含在文章中的意图和第一履历～第N履历的每一个对应的权重。

推定部24从分析部22接受文章的分析结果。推定部24从决定部25接受多个权重。推定部24根据分析部22对文章的分析结果、多个权重、从一个回合之前到N个回合之前的对话状态，推定对话状态。

与图4所示的流程图的步骤St1和St2同样地执行步骤St40和步骤St41。抽出部23从输入的文章抽出多个权重参数(步骤St42)。多个权重参数分别表示应该怎样程度地关注过去的多个对话状态。例如，在推定部24对对话状态的推定中使用了第一履历～第N履历的情况下，抽出N个权重参数。例如用“1”或“0”表示多个权重参数的每一个。例如，“1”表示应该关注该履历，“0”表示不关注该履历。多个权重参数的每一个也可以是表示应该关注的程度的0以上1以下的实数值。或者，多个权重参数的每一个也可以是表示应该关注的程度的向量。

在具体的权重参数的抽出中，例如使用作为神经网络的一种的关注机制(attention mechanism)。通过向RNN输入被表示为第一履历～第N履历以及单词向量的序列的文章，而输出N个权重参数。在该情况下，多个权重参数的每一个既可以是实数，也可以是多维的向量。

使用赋予了是否应该关注几个回合之前的发言的正解标签的学习数据，事先学习该RNN。在相对于正解标签应该抽出的权重不同的情况下，学习RNN的参数以便缩小该差。或者，也可以使用赋予了对话状态的正解标签的学习数据来学习RNN。

决定部25根据N个权重参数决定N个权重(步骤St43)。也可以将N个权重参数分别直接决定为N个权重。也可以使用神经网络将N个权重参数变换为N个权重。还可以对N个权重参数进行标准化而决定N个权重。

决定部25参照第一存储部31，参照多个过去的对话状态(步骤St44)。决定部25使用包含在文章中的用户US的意图、多个过去的对话状态、多个权重，推定当前的对话状态(步骤St45)。决定部25判定存储在第一存储部31中的过去的对话状态是否为L个以上(步骤St46)。在存储的对话状态少于L个的情况下，决定部25将最新的对话状态存储到第一存储部31(步骤St47)，前进到步骤St48。在存储的对话状态为L个以上的情况下，第一存储部31将所存储的L个对话状态中的最旧的一个覆盖为最新的对话状态(步骤St49)。与图4所示的流程图的步骤St8同样地实施步骤St48。

根据该方法，能够更恰当地处理对话状态的履历。例如，即使在转换了话题后返回到以前的话题的情况下，也能够更高精度地推定对话状态。

在图10所示的例子中，在第四回合的文章TX28中话题(用户US的希望)转换，返回到以前的话题。即，用户US在文章TX28中将话题返回到在第一回合的文章TX22中提及的中餐。

例如，在使用对话系统110的情况下，输入第三回合的文章TX26的结果是，针对对话状态的“菜肴的种类”，“日餐”的概率成为1。另一方面，在文章TX28中，没有与“菜肴的种类”有关的提及。其结果是并不能容易地根据输入文章TX26的时刻的对话状态、文章TX28，推定为用户US希望中餐。

根据上述方法，使用至少2个回合以上之前的履历推定当前的对话状态。例如，抽出部23根据文章TX28，抽出不应该关注1个回合之前的对话状态而是应该关注更过去的对话状态的权重参数。在进行第四回合的推定时，对第一回合的权重变大，对第三回合的权重变小。即，针对对话状态的“菜肴的种类”，可以降低“日餐”的概率，提高“中餐”的概率。

根据该对话系统110，在图5所示的流程图所示的处理之后，可以进一步执行以下的处理。

分别与图7所示的流程图的步骤St31～St36同样地执行步骤St51～St56。处理部20访问第一存储部31，参照第一特征量(步骤St57)。处理部20计算第七加权量(步骤St58)。根据第一特征量和第七权重计算第七加权量。第七权重与第二文章相关。第七权重例如与第五权重和第六权重的各个不同。第七加权量例如是基于第一特征量和第七权重之积的值。处理部20将第七加权量存储到第一存储部31(步骤St59)。

处理部20访问第一存储部31，参照存储在第一存储部31中的第五加权量、第六加权量、以及第七加权量(步骤St60)。处理部20使用第五加权量、第六加权量、以及第七加权量，输出(计算)第五特征量(步骤St61)。处理部20将第五特征量存储到第一存储部31(步骤St62)。

根据该对话系统110，根据加权后的第二特征量、加权后的第三意图量、以及加权后的第一特征量，输出第二对话状态的第五特征量。由此，能够更恰当地处理与对话状态的第一槽位有关的履历。

图12所示的对话系统120不包括抽出部23。在该情况下，例如根据取得的文章中的对槽位的提及的有无或提及的程度来决定权重。

决定部25例如在决定权重时，参照通过人工制作的规则。或者，也可以预先制作推定权重的模型。决定部25在决定权重时，参照该模型。也可以根据由推定部24从分析部22接收到的发言句所包含的对话状态来决定权重。例如，可以根据包含在发言句中的对话状态中的概率最高的一个来决定权重。另外，也可以根据包含在发言句中的对话状态中的全部槽位参数的概率的合计、平均值来决定权重。进而，也可以根据包含在发言句中的对话状态通过神经网络来决定权重。该网络接受各槽位参数的概率作为输入并输出权重。可以事先通过使用了被赋予了表示包含在发言句中的对话状态的标签的发言句的监督学习而制作该网络。

取得部10取得由用户输入的文章(步骤St71)。处理部20对由取得部10取得的文章进行分析(步骤St72)。由此，推定包含在文章中的用户的意图。处理部20根据文章决定权重(步骤St73)。进而，处理部20参照过去的对话状态(步骤St74)。

处理部20使用包含在文章中的用户的意图、过去的对话状态、权重，推定当前的对话状态(步骤St75)。处理部20存储所推定出的当前的对话状态(步骤St76)。处理部20判定对话是否结束(步骤St77)。在对话没有结束的情况下，返回到步骤S71。在对话结束了的情况下，结束动作。

在图14所示的例子中，根据包含文章TX31～TX34的第一个回合和第二个回合的对话，例如对于“菜肴的种类”，“中餐”的概率为1。对于“地点”，“川崎站”的概率为1。在此后的文章TX35中，用户US希望日餐。更具体地说，该文章TX35包含用户US不希望中餐而是希望日餐的意图。根据对话系统120，基于文章TX35的取得，可以将“日餐”的概率提高得比“中餐”的概率高。其结果是对话系统120检索川崎站内的日餐的餐馆，在文章TX36中向用户US传达该检索结果。

如图14所示的例子那样，对话系统120当取得希望第一对象的第一文章时，将与第一对象对应的第一槽位参数的第一优先度提高得比与第二对象对应的第二槽位参数的第二优先度高。然后，对话系统120当在取得第一文章后取得希望第二对象的第二文章时，提高第二优先度使其比第一优先度高。

对话系统120的上述处理能够针对基于第一文章的对话状态和包含在第二文章中的意图的各个决定权重。在不使用权重的情况下，对于基于文章36的对话状态，例如将“日餐”和“中餐”各自的概率设定为0.5。通过使用权重，能够将“日餐”的优先度(概率)提高得比“中餐”的优先度高。因此，根据对话系统120，能够与对话系统110同样地，更恰当地处理对话状态的履历。

图15是示例第二实施方式所涉及的对话系统210的示意图。

对话系统210不只使用由用户输入的文章，还使用此前对话系统210提供的信息(询问)进行处理。

对话系统210例如还包括第五存储部35、第六存储部36、第七存储部37、第三模型存储部43、以及输出部50。处理部20还包括系统应答取得部26和对话控制部27。

第五存储部35存储系统应答向量词典。在将对话系统110输出的询问变换为向量时参照该词典。系统应答向量词典例如存储抽象的多个标记(tag)与多个数值的各个对应、多个槽位与多个数值的各个对应以及多个槽位参数与多个数值的各个对应。

标记抽象地表现文章的意图。例如，多个标记包含“询问”和“确认”等标记。在文章与询问有关的情况下，附加“询问”的标记。在文章与确认有关的情况下，附加“确认”的标记。

向各个标记分配对应的数值。例如，向“询问”的标记分配1。向“确认”的标记分配2。同样，向各个槽位和槽位参数分配对应的数值。例如向“菜肴的种类”的槽位分配1。向“地点”的槽位分配2。向“日餐”的槽位参数分配1。向“中餐”的槽位参数分配2。

第六存储部36存储对话内容。对话内容包含在对话系统210的输出中介绍的内容。内容例如是菜肴的种类、店铺的名字、地点、价格范围等。

第七存储部37存储方案。为了根据推定出的对话状态决定系统应答而使用方案。例如用规则表示方案。例如，规则的一个是“在日餐的概率为0.9以上的情况下，输出询问(地点)”。规则的另一个是“在日餐的概率为0.2以上0.9以下的情况下，输出确认菜肴的种类是否是日餐”。

也可以用事先学习的模型来表示方案。该模型例如根据各槽位参数的概率，选择系统应答。

第三模型存储部43存储应答生成模型。为了根据抽象的标记、槽位、以及槽位参数生成系统应答而使用应答生成模型。应答生成模型例如保持包含空白的模板。例如抽象的标记是“询问(○○)”，模板是“是否希望○○？”。在其他例子中，抽象的标记是“确认(○○＝△△)”，模板是“○○是△△可以吗？”。

系统应答取得部26为了使上一个系统应答反映到对话状态推定中，而接受系统应答。系统应答是从对话系统210向用户输出的文章。系统应答取得部26从对话控制部27接受系统应答。系统应答取得部26向分析部22发送所接受的系统应答。

分析部22从输入部21接受文章。分析部22从系统应答取得部26接受系统应答。分析部22根据由用户输入的文章和系统应答，推定包含在文章中的用户的意图。分析部22向推定部24发送所推定出的意图(文章的分析结果)。抽出部23从由用户输入的文章和系统应答抽出权重参数。抽出部23向决定部25发送所抽出的权重参数。

决定部25根据权重参数和过去的对话状态决定权重并发送到推定部24。推定部24对文章的分析结果和过去的对话状态进行加权整合，决定当前的对话状态。推定部24向对话控制部27发送所推定出的对话状态。对话控制部27向系统应答取得部26和输出部50发送基于推定出的对话状态的文章(系统应答)。

输出部50当接受了系统应答时，输出系统应答。例如输出部50是监视器。在该情况下，输出部50显示系统应答。输出部50可以是扬声器，通过语音输出系统应答。输出部50也可以是打印机，印刷显示系统应答。

例如用文本、语音信号、以及抽象化了的标记的至少任意一个来表示系统应答。例如，通过抽象化了的标记，用“询问(菜肴的种类)”来表示“有希望的菜肴的种类吗”这样的询问句。通过抽象化了的标记，用“确认(菜肴的种类＝日餐)”来表示“希望的菜肴的种类是日餐可以吗？”这样的询问句。通过抽象化了的标记用“建议(名字＝餐馆A)”来表示“餐馆A可以吗？”这样的询问句。通过抽象化了的标记，用“回答(地点＝川崎，电话号码＝1234-5678)”来表示“地点是川崎，电话号码是1234-5678”这样的回答句。这样，用槽位和槽位参数的组来表示标记。

应该关注由用户输入的文章的程度并不限于与应该关注系统应答的程度相同。例如，系统应答询问“与手续A有关的查询可以吗？”。用户对该询问回答“是”。在该情况下，应该关注与手续A对应的槽位参数。用于推定对话状态的文章的重要性低。如果关注系统应答，则能够恰当地推定对话状态。

对话控制部27决定系统应答(步骤St80)，将系统应答发送到系统应答取得部26和输出部50。例如，在对话开始后，“欢迎。有何贵干”是系统应答。然后根据对话状态决定系统应答。在该应答控制中，例如使用事先制作的规则或事先学习的模型。

系统应答取得部26取得系统应答(步骤St81)。分析部22分析由用户输入的文章和系统应答(步骤St82和83)，推定用户的意图。对于文章，与对话系统110同样地推定意图。对于系统应答，例如判定在系统应答的标记中是否包含有相应的槽位参数。例如，在标记中包含有相应的槽位参数的情况下，用“1”表示。在标记中不包含相应的槽位参数的情况下，用“0”表示。

抽出部23根据由用户输入的文章和系统应答，抽出权重参数(步骤St84)。与图4所示的流程图的步骤St4～St8同样地分别执行步骤St85～St89。

根据对话系统210，能够更恰当地推定对话状态。例如，在对话系统210向用户询问，对话系统210取得了对该询问的回答时，能够更恰当地推定用户的意图。

作为一个例子，对话系统向用户询问“菜肴类别是日餐可以吗？”。针对该询问，用户回答“是”。在该情况下，只根据由用户输入的“是”的文章，并不容易推定为用户希望日餐。

根据对话系统210，系统应答取得部26取得系统应答。由此，在抽出权重参数时，可知“是”表示肯定，能够增大对系统应答的权重。其结果是能够恰当地推定为用户希望日餐。

图17是示例实施方式所涉及的对话装置的结构的示意图。

例如通过图15所示的对话装置310实现上述各实施方式所涉及的对话系统。作为一个例子，由与普通的计算机(信息处理装置)相同的硬件结构来实现对话装置310。对话装置310包括CPU(中央处理单元)311、取得部312、输出部313、ROM(只读存储器)314、RAM(随机存取存储器)315、存储部316、通信装置317、总线318。各部通过总线318连接。

CPU311与预先存储在ROM314或存储部316中的各种程序协作地执行各种处理，统一地控制构成对话装置310的各部的动作。CPU311在处理中将RAM315的规定区域用作工作区域。CPU311与预先存储在ROM314或存储部316中的程序协作，实现取得部312、输出部313、以及通信装置317等。

取得部312例如包括键盘、麦克风、以及触摸屏的至少任意一个。取得部312接受从用户输入的信息作为指示信号，向CPU311输出该指示信号。输出部313例如包括监视器、扬声器的至少任意一个。输出部313根据从CPU311输出的信号，输出各种信息。

ROM314不可改写地存储对话装置310的控制所使用的程序和各种设定信息等。RAM315是SDRAM(Synchronous Dynamic Random Access Memory：同步动态随机存取存储器)等易失性的存储介质。RAM315作为CPU311的工作区域而发挥功能。具体地说，作为暂时存储对话装置310使用的各种变量和参数等的缓存器等而发挥功能。

存储部316是快闪存储器等半导体存储介质、磁或光学地可记录的存储介质等可改写的记录装置。存储部316存储对话装置310的控制所使用的程序和各种设定信息等。存储部316存储第一存储部31至第七存储部37、第一模型存储部41至第三模型存储部43存储的信息。为了与外部的设备通信进行信息的收发而使用通信装置317。

根据以上说明的各实施方式，能够提供能够更恰当地处理对话状态的履历的对话系统和对话状态推定方法。通过使用用于使系统执行以上说明的各实施方式的程序和存储了该程序的存储介质，能够更恰当地处理对话状态的履历。

实施方式也可以包括以下的技术方案。

(技术方案1)

一种对话系统，具备：

取得部，其取得第一文章；

处理部，其参照基于与第一对话状态的第一槽位有关的第一特征量和与上述第一文章相关的第一权重的第一加权量，

参照基于与包含在上述第一文章中的第一意图的上述第一槽位有关的第一意图量和与上述第一权重不同而与上述第一文章相关的第二权重的第二加权量，

使用上述第一加权量和上述第二加权量，输出与上述第一对话状态之后的第二对话状态的上述第一槽位有关的第二特征量。

(技术方案2)

在技术方案1所述的对话系统中，上述第一权重与对上述第一文章中的上述第一槽位提及的第一程度相关。

(技术方案3)

在技术方案2所述的对话系统中，

在上述第一程度是第一状态时，上述第一权重比上述第二权重大，

在上述第一程度是第二状态时，上述第二权重比上述第一权重大，

上述第一状态的上述第一程度比上述第二状态的上述第一程度小。

(技术方案4)

在技术方案1～3的任意一个所述的对话系统中，

上述第一槽位包括多个第一槽位参数，

上述处理部根据与上述第一文章对应的第一向量和上述多个第一槽位参数的各个的向量之间的类似度，计算上述第一意图量。

(技术方案5)

在技术方案1～4的任意一个所述的对话系统中，

上述第一加权量基于上述第一特征量和上述第一权重之积，

上述第二加权量基于上述第一意图量和上述第二权重之积。

(技术方案6)

在技术方案1～5的任意一个所述的对话系统中，

上述第二特征量基于上述第一加权量和上述第二加权量之和。

(技术方案7)

在技术方案1～6的任意一个所述的对话系统中，

上述处理部进而

参照基于与上述第一对话状态的第二槽位有关的第三特征量和与上述第一文章相关的第三权重的第三加权量，

参照基于与上述第一意图的上述第二槽位有关的第二意图量和与上述第三权重不同而与上述第一文章相关的第四权重的第四加权量，

使用上述第三加权量和上述第四加权量，输出与上述第二对话状态的上述第二槽位有关的第四特征量。

(技术方案8)

在技术方案1～7的任意一个所述的对话系统中，

上述取得部在上述第一文章的取得后进而取得第二文章，

上述处理部进而

参照基于上述第二特征量和与上述第二文章相关的第五权重的第五加权量，

参照基于与包含在上述第二文章中的第二意图的上述第一槽位有关的第二意图量和与上述第五权重不同而与上述第二文章相关的第六权重的第六加权量，

使用上述第五加权量和上述第六加权量，输出与上述第二对话状态之后的第三对话状态的上述第一槽位有关的第五特征量。

(技术方案9)

在技术方案8所述的对话系统中，

上述处理部

进而参照基于上述第一特征量和与上述第五权重和第六权重不同而与上述第二文章相关的第七权重的第七加权量，

使用上述第五加权量、上述第六加权量、以及第七加权量，输出上述第五特征量。

以上，参照具体例子说明了本发明的实施方式。但是，本发明的实施方式并不限于这些具体例子。例如，关于取得部、处理部、存储部、模型存储部、输出部等各要素的具体结构，只要通过本技术领域的技术人员从公知的范围恰当地选择，能够同样地实施本发明并取得同样的效果，则也包含在本发明的范围内。

另外，只要包含本发明的宗旨，则在技术上可能的范围内组合各具体例子的任意2个以上的要素所得的结果也包含在本发明的范围内。

除此以外，只要包含本发明的宗旨，则基于作为本发明的实施方式而上述的对话系统而由本技术领域的技术人员恰当地进行设计变更并能够实施的全部对话系统也属于本发明的范围。

除此以外，应该了解在本发明的思想范畴内，只要是本技术领域的技术人员就能够想到各种变更例子和修正例子，这些变更例子和修正例子也属于本发明的范围。

说明了本发明的若干个实施方式，但作为例子而提示了这些实施方式，并不是要限定发明的范围。能够以其他各种形式实施这些新的实施方式，在不脱离发明的宗旨的范围内能够进行各种省略、置换、变更。这些实施方式、其变形包含在发明的范围、宗旨内，同时包含在权利要求书所记载的发明及其等价的范围内。

Claims

1.一种对话装置，包括：运算处理装置，

当使用键盘、麦克风、以及触摸屏的至少任意一个取得被输入的第一文章时，上述运算处理装置参照基于第一特征量与第一权重之积的第一加权量，上述第一特征量是取得上述第一文章之前的第一对话状态的第一槽位所包含的多个槽位参数的概率分布，上述第一权重是通过将上述第一文章应用于包含神经网络的已学习的模型而得到的，表示对上述第一文章中的上述第一槽位提及的第一程度，

参照基于与包含在上述第一文章中的第一意图的上述第一槽位有关的第一意图量和与上述第一权重不同的通过向上述模型应用上述第一文章而得到的第二权重之积的第二加权量，

使用上述第一加权量以及上述第二加权量之和，输出与取得上述第一文章之后的第二对话状态的上述第一槽位有关的第二特征量，

生成基于上述第二对话状态的上述第二特征量的应答句。

2.根据权利要求1所述的对话装置，其中，对上述第一槽位提及的上述第一程度越小，上述第一权重越小。

3.根据权利要求1或者2所述的对话装置，其中，

上述第一槽位包括多个第一槽位参数，

上述运算处理装置根据与上述第一文章对应的第一向量和上述多个第一槽位参数的各自的向量的类似度，计算上述第一意图量。

4.根据权利要求1或者2所述的对话装置，其中，

上述运算处理装置进而

参照基于第三特征量和第三权重之积的第三加权量，上述第三特征量是上述第一对话状态的第二槽位所包含的多个槽位参数的概率分布，上述第三权重是通过将上述第一文章应用到上述模型而得到的，表示对上述第一文章中的上述第二槽位提及的程度，

参照基于与上述第一意图的上述第二槽位有关的第二意图量和与上述第三权重不同的将上述第一文章应用于上述模型而得的第四权重之积的第四加权量，

使用上述第三加权量以及上述第四加权量之和，输出与上述第二对话状态的上述第二槽位有关的第四特征量，

除了基于上述第二特征量之外，还基于上述第四特征量生成上述应答句。

5.根据权利要求1或者2所述的对话装置，其中，

当在上述第一文章的取得以及上述应答句的生成后取得第二文章时，

上述运算处理装置参照基于上述第二特征量和第五权重之积的第五加权量，上述第五权重是通过将上述第二文章应用到上述模型而得到的，表示对上述第二文章中的上述第一槽位提及的程度，

参照基于与包含在上述第二文章中的第二意图的上述第一槽位有关的第三意图量和与上述第五权重不同的通过向上述模型应用上述第二文章而得到的第六权重之积的第六加权量，

使用上述第五加权量和上述第六加权量之和，输出与在取得上述第二文章之后的第三对话状态的上述第一槽位有关的第五特征量，

生成基于上述第三对话状态的上述第五特征量的应答句。

6.根据权利要求5所述的对话装置，其中，

上述运算处理装置

进而参照基于上述第一特征量和与上述第五权重以及第六权重不同的将上述第二文章应用于上述模型而得的第七权重之积的第七加权量，

使用上述第五加权量、上述第六加权量以及第七加权量之和，输出上述第五特征量。