CN107545897A

CN107545897A - 对话行为推定方法、对话行为推定装置以及程序

Info

Publication number: CN107545897A
Application number: CN201710275956.6A
Authority: CN
Inventors: 牛尾贵志
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-06-23
Filing date: 2017-04-25
Publication date: 2018-01-05
Also published as: EP3260996A1; US20170372694A1; JP2017228160A; US10460721B2; JP6671020B2

Abstract

提供能够提高精度的对话行为推定方法、对话行为推定装置以及程序。对话行为推定方法是推定语言表达文被分类的对话行为的对话行为推定装置中的对话行为推定方法，包括：取得使可能成为当前的语言表达文的第1文句(148)的文本数据、可能成为第1文句(148)的前一语言表达文的第2文句(148)的文本数据、表示第1文句(148)的说话者是否与第2文句(148)的说话者相同的说话者交替信息(147)、表示第1文句的分类的对话行为信息145相关联而成的训练数据(141)(S112)，将训练数据(141)应用于预定模型，由此，对当前的语言表达文与对话行为信息(145)的关联进行学习(S115～S118)，将学习的结果作为学习结果信息(122)进行存储(S120)。

Description

对话行为推定方法、对话行为推定装置以及程序

技术领域

本公开涉及推定语言表达文被分类的对话行为的对话行为推定方法以及对话行为推定装置。

背景技术

对话行为推定技术是将用户的语言表达向指出该语言表达的含义的对话行为变换的技术。作为这种技术，存在如下现有技术：使用以一句话为单位赋予了对话行为的对话语料库，将对对话行为有贡献的高频度的语句作为特征来进行学习(例如参照专利文献1以及专利文献2)。另外，还存在如下现有技术：不仅使用语句，还使用上下文信息(尤其是，前一句话)，来学习依赖上下文的对话行为(例如参照专利文献3以及非专利文献1)。

在先技术文献

专利文献

专利文献1：日本专利第3016779号公报

专利文献2：日本专利第3059413号公报

专利文献3：日本专利第5591772号公报

非专利文献

非专利文献1：Nal Kalchbrenner，Phil Blunsom，"Recurrent ConvolutionalNeural Networks for Discourse Compositionality"，arXiv preprint arXiv：1306.3584，2013.

发明内容

发明要解决的课题

关于这样的对话行为推定技术，期望进一步提高精度。

本公开的目的在于提供能够提高精度的对话行为推定方法或者对话行为推定装置。

用于解决课题的技术方案

本公开的一个技术方案所涉及的对话行为推定方法是推定语言表达文被分类的对话行为的对话行为推定装置中的对话行为推定方法，包括：取得使可能成为当前的语言表达文的第1文句的文本数据、可能成为所述第1文句的前一语言表达文的第2文句的文本数据、表示所述第1文句的说话者是否与所述第2文句的说话者相同的第1说话者交替信息、表示所述第1文句的分类的对话行为信息相关联而成的第1训练数据，将所述第1训练数据应用于预定模型，由此对所述当前的语言表达文和所述对话行为信息的关联进行学习，将所述学习的结果作为学习结果信息来进行存储。

发明的效果

本公开能够提供可以提高精度的对话行为推定方法或者对话行为推定装置。

附图说明

图1是示出实施方式所涉及的对话行为推定装置的结构的框图。

图2是实施方式所涉及的对话行为推定装置的处理的流程图。

图3是实施方式所涉及的学习部的框图。

图4是实施方式所涉及的学习处理的流程图。

图5是示出实施方式所涉及的训练语料库的一例的图。

图6是示出实施方式所涉及的训练语料库的一例的图。

图7是示出实施方式所涉及的神经网络的概略的图。

图8是实施方式所涉及的对话行为推定部的框图。

图9是实施方式所涉及的对话行为推定处理的流程图。

图10是示出实施方式所涉及的对话数据的一例的图。

图11是示出实施方式所涉及的对话数据的一例的图。

图12是示出实施方式所涉及的推定结果的一例的图。

图13是示出实施方式所涉及的推定结果的一例的图。

图14是示出实施方式所涉及的推定结果的精度的图。

图15是实施方式所涉及的对话系统的框图。

具体实施方式

(作为本公开的基础的见解)

在专利文献1中，作为问题的是：在基于作为声音识别结果与中间言语数据的对的学习数据，识别对话行为和概念的组合来作为中间言语以使得识别错误成为最小时，理解率较低。作为该问题的解决方案，使用通过概念推定用以及说话行为推定用有限状态自动装置进行的推定、和使用了多个概念以及概念的组合的二元模型(bi-gram model)的重排序，将声音识别结果变换为说话行为、概念或者概念的组合的序列。

另外，在专利文献2中，对于与专利文献1同样的问题，利用依赖于自然语言表达文所含的说话行为的制约、和依赖于自然语言表达文所含的语义的概念之间的组合的制约，提高识别对话行为和概念的组合时的理解率。

但是，专利文献1以及专利文献2中，从长的1个说话者的语言表达文，作为前处理进行语言表达文的分割，输出对话行为序列，因此，不处理与自身的语言表达以外的之前的上下文信息之间的依赖度。因此，对具有上位下位关系或者类似性的详细的对话行为的预测进行应用是困难的。由此，不仅需要利用对话中自身的语言表达，还需要利用包含对方的语言表达的上下文信息。

在专利文献3中示出如下课题：在语言表达的聚类时，将对话中的语言表达视为独立的语言表达，因此，未使用由连续的语言表达构成的对话数据所含的重要的上下文信息，聚类的精度、对话行为数量的推定不充分。对于该课题，基于从多个语言表达的时间序列即对话数据提取到的各语言表达的特征量，将多个语言表达进行第1聚类，使用各语言表达的特征量和语言表达的上下文信息(尤其是，紧接着之前的语言表达)，将语言表达进行第2聚类，基于第1聚类结果和第2聚类结果，推定依赖于上下文的程度。

另外，在非专利文献1中，与专利文献3同样地，作为问题的是未使用由连续的语言表达构成的对话数据所含的重要的上下文信息这一点。对此，提出了以下模型的方案：按各说话者区别由连续的语言表达构成的对话数据的语言表达的特征量，利用作为时间序列模型的循环神经网络进行学习，由此，将自身与对方的语言表达进行区别，来提取上下文依赖度。

但是，作为专利文献3和非专利文献1的共同的问题，存在如下课题：如果作为用于学习的上下文信息，不仅使用前一句语言表达，还要使用更过去的上下文信息的话，则由于不学习低频度的上下文信息的数据稀疏(data sparseness)的问题，上下文信息难以对整体的对话行为的变换性能产生贡献。尤其是，存在如下课题：在对话语料库少时，不学习低频度的上下文信息，整体的对话行为的变换性能无法提高。

针对这样的课题，本公开的一个技术方案所涉及的对话行为推定方法是推定语言表达文被分类的对话行为的对话行为推定装置中的对话行为推定方法，包括：取得使可能成为当前的语言表达文的第1文句的文本数据、可够成为所述第1文句的前一语言表达文的第2文句的文本数据、表示所述第1文句的说话者是否与所述第2文句的说话者相同的第1说话者交替信息、表示所述第1文句的分类的对话行为信息相关联而成的第1训练数据，将所述第1训练数据应用于预定模型，由此对所述当前的语言表达文和所述对话行为信息的关联进行学习，将所述学习的结果作为学习结果信息来进行存储。

据此，使用表示当前文句的说话者是否与前一文句的说话者相同的说话者交替信息来进行学习。由此，能够提高语言表达文与对话行为信息的关联的精度。

另外，虽然大规模的数据收集是困难的，但是，通过使用详细的对话行为推定所必需的2个以上的文句连续的训练数据，能够提高整体的对话行为的变换性能。另外，通过以追加收集容易收集的仅处理了连续的2个语言表达的大规模的训练语料库，也能够进一步提高精度。

例如，所述第1训练数据也可以还包括表示所述第1文句的说话者的第1说话者识别信息、和表示所述第2文句的说话者的第2说话者识别信息。

据此，使用表示多个文句的各自的说话者的说话者识别信息进行学习。由此，能够提高语言表达文和对话行为信息的关联的精度。

例如，也可以是：所述模型包括：第1模型，其基于所述第1文句的文本数据、所述第2文句的文本数据、所述第1说话者识别信息、所述第2说话者识别信息、第1权重参数，输出第1特征向量；第2模型，其基于所述第1文句的文本数据、所述第2文句的文本数据、所述第1说话者交替信息、第2权重参数，输出第2特征向量；以及第3模型，其基于所述第1特征向量、所述第2特征向量、第3权重参数，输出与所述第1文句对应的对话行为的后验概率，所述学习通过在所述后验概率与由所述第1训练数据表示的所述对话行为信息之间进行误差反向传播学习来执行。

例如，也可以是：所述第1模型根据具有依赖于所述第1说话者识别信息以及所述第2说话者识别信息的所述第1权重参数的第1RNN-LSTM(Recurrent Neural Network-LongShort Term Memory：循环神经网络-长短期记忆)，从所述第1文句和所述第2文句求取所述第1特征向量，所述第2模型根据具有依赖于所述第1说话者交替信息的所述第2权重参数的第2RNN-LSTM，从所述第1文句和所述第2文句求取所述第2特征向量。

例如，也可以是，所述第1训练数据从收集了2个以上的训练数据的语料库取得。

例如，也可以是，所述对话行为推定方法还包括：取得对话数据，所述对话数据包括由用户说出的作为当前的语言表达文的第3文句的文本数据、作为所述第3文句的前一语言表达文的第4文句的文本数据、以及表示所述第3文句的说话者是否与所述第4文句的说话者相同的第2说话者交替信息，基于所述学习结果信息，将所述对话数据应用于所述模型，由此推定所述第3文句被分类的对话行为。

据此，能够使用学习结果，从语言表达文来推定对话行为。

另外，本公开的一个技术方案所涉及的对话行为推定装置是推定语言表达文被分类的对话行为的对话行为推定装置，具备：训练数据取得部，其取得使可能成为当前的语言表达文的第1文句的文本数据、可能成为所述第1文句的前一语言表达文的第2文句的文本数据、表示所述第1文句的说话者是否与所述第2文句的说话者相同的第1说话者交替信息、表示所述第1文句的分类的对话行为信息相关联而成的第1训练数据；学习部，其通过将所述第1训练数据应用于预定模型，由此对所述当前的语言表达文与所述对话行为信息的关联进行学习；以及存储部，其将所述学习的结果作为学习结果信息来存储。

据此，使用表示当前文句的说话者与前一文句的说话者是否相同的说话者交替信息来进行学习。由此，能够提高语言表达文与对话行为信息的关联的精度。

另外，本公开的一个技术方案所涉及的程序使计算机执行所述对话行为推定方法。

此外，这些总括性的或者具体的技术方案既可以通过系统、方法、集成电路、计算机程序或者计算机可读取的CD-ROM等记录介质来实现，也可以通过系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现。

以下，一边参照附图，一边对本公开的实施方式进行说明。此外，以下要说明的实施方式都表示本公开的一个具体例。在以下的实施方式中示出的数值、形状、结构要素、步骤、步骤的顺序等都是一例，并不旨在限定本公开。另外，关于以下的实施方式中的结构要素中的、表示最上位概念的独立权利要求未记载的结构要素，作为任意的结构要素进行说明。另外，也能够将所有的实施方式中的各自的内容组合。

(实施方式)

首先，说明本实施方式所涉及的对话行为推定装置100的结构。图1是示出本实施方式所涉及的对话行为推定装置100的结构的框图。

该对话行为推定装置100推定语言表达文被分类的对话行为。对话行为推定装置100例如由计算机构成，具备存储部101、处理部102、存储部103、处理部104以及存储部105。

存储部101、103以及105，例如由硬盘驱动器或者固态驱动器等可改写的非易失性存储器构成。

存储部101存储训练语料库121以及对话数据123。存储部103存储学习结果信息122。存储部105存储推定结果124。

处理部102具备训练数据取得部111、学习部112以及对话数据取得部113。处理部104具备对话行为推定部114。

处理部102以及104例如由CPU、ASIC或者FPGA等处理器构成。此外，对于处理部102以及104所具备的各块，通过由CPU等处理器执行计算机所保持的计算机可读取的程序来实现。

接下来，说明对话行为推定装置100的工作。图2是示出对话行为推定装置100的工作的概要的流程图。

首先，对话行为推定装置100使用训练语料库121所含的多个训练数据，进行学习语言表达文与对话行为的对应关系的学习处理(S101)。

接下来，对话行为推定装置100使用上述学习处理的结果，进行对话行为推定处理，该对话行为推定处理推定语言表达文被分类的对话行为(S102)。

以下，对上述学习处理(S101)的详细进行说明。图3是示出学习部112的结构的框图。如图3所示，学习部112具备词素解析部131、单词特征提取部132、上下文依赖提取部133、场景依赖提取部134、对话行为预测部135以及权重更新部136。

图4是本实施方式所涉及的学习处理(S101)的流程图。

首先，学习部112基于伪随机数表对作为学习对象的所有的权重参数进行初始化(S111)。具体而言，学习部112对下述的图7所示的神经网络模型151的全部的权重参数进行初始化。

接下来，训练数据取得部111取得训练语料库121所含的多个训练数据141中的一个(S112)。图5以及图6是示出训练语料库121的一例的图。图5示出英语谈话的情况下的训练语料库121的一例，图6示出日本语问诊对话的情况下的训练语料库121的一例。

如图5以及图6所示，训练语料库121收集了2个以上的训练数据141。各训练数据141与连续地按时间序列说出的多个语言表达文对应，包含与该多个语言表达文一对一地对应的多个训练信息142。各训练信息142包含对话ID143、时刻信息144、对话行为信息145、说话者识别信息146、说话者交替信息147、文句148。

文句148是可能成为语言表达文的文句的文本数据。对话ID143是用于唯一确定包含该训练信息142的训练数据141的识别符。时刻信息144表示文句148的时刻(说话顺序)。也即是，利用时刻信息144表示一个训练数据141所含的多个训练信息142内的文句148被说出的顺序。另外，利用对话ID143以及时刻信息144，管理一个训练数据141内的对话的开始以及终结。

对话行为信息145是表示文句148的分类的教师数据(监督数据)。具体而言，如图6所示，对话行为信息145表示“質問(询问)”、“主張-症状主訴(主张-主要症状)”、“応答-否定(应答-否定)”、“感謝(感谢)”等大致区分文句148所表示的意思的分类。换言之，对话行为信息145表示文句148的意思或者其概要。

说话者识别信息146是用于识别文句148的说话者的信息。说话者交替信息147表示当前文句148的说话者和前一文句148的说话者是否相同。例如，该说话者交替信息147能够从当前以及前一文句的说话者识别信息146算出。例如，在当前时刻，通过说话者识别信息146表示说话者是倾听人、在之前时刻说话者是说话人的情况下，说话者交替信息147被设定为“应答”。在当前时刻以及之前时刻，通过说话者识别信息146表示说话者都是倾听人的情况下，说话者交替信息147被设定为“连续说话”。这在各时刻的说话人和倾听人相反的情况下也是同样的。也即是，在当前时刻和紧接着之前的时刻的说话者不同的情况下，说话者交替信息147被设定为“应答”，在当前时刻和紧接着之前的时刻的说话者相同的情况下，说话者交替信息147被设定为“连续说话”。另外，在不存在之前时刻的文句的情况下，也即是，当前文句是训练数据141所含的最初的文句的情况下，说话者交替信息147被设定为“对话开始”。

另外，对于由文句148表示的文本数据，例如，在日语的情况下是无单词的划分的文字串数据，在英语的情况下，是通过半角空格划分了单词的文字串数据。

这样，训练数据141是使可能成为当前的语言表达文的第1文句148、可能成为第1文句148的前一个语言表达文的第2文句148、表示第1文句148的说话者的第1说话者识别信息146、表示第2文句148的说话者的第2说话者识别信息146、表示第1文句148的说话者是否与第2文句148的说话者相同的说话者交替信息147、表示第1文句148的分类的对话行为信息145相关联而成的数据。

另外，在此，训练数据取得部111取得当前时刻(处理对象的时刻)的训练信息142(对话行为信息145、说话者识别信息146、说话者交替信息147以及文句148)、和当前时刻的紧接着之前的连续且以预先确定的上下文范围表示的数量的1个以上的时刻(以下，也称为前时刻组)的说话者识别信息146以及文句148。

另外，对话行为推定装置100一边变更作为处理对象的当前时刻(训练信息142)或者训练数据141，一边反复执行步骤S112的处理，直至学习产生收敛。此时，训练数据取得部111基于对话ID143，进行提取以使得在不同的对话间成为非连续。另外，训练数据取得部111通过在每次提取时使当前时刻递增来提取不同的学习数据。另外，通常上下文范围是固定的，但是在对话初期等上下文信息不满足上下文范围的情况下，会具有比通常短的上下文范围。

例如，在图5所示的例子中，在上下文范围是5、处理对象是时刻5的文句148的情况下，取得当前时刻5的文句148、作为前时刻组的时刻0～4的文句148、当前时刻以及前时刻组的时刻0～5的说话者识别信息146“B、A、A、A、A、B”、当前时刻5的说话者交替信息147“应答”。另外，当前时刻5的对话行为信息145“Uninterpretable”作为成为学习时的真值的教师数据而被取得。

同样地，例如在图6所示的例子中，在上下文范围是5、处理对象是时刻5的文句148的情况下，取得当前时刻5的文句148、作为前时刻组的时刻0～4的文句148、当前时刻以及前时刻组的时刻0～5的说话者识别信息146“B、A、B、A、B、B”、当前时刻5的说话者交替信息147“连续说话”、当前时刻5的对话行为信息145“询问”。

接下来，学习部112通过将所取得的训练数据141应用于预定模型，来学习包含当前的语言表达文(文句148)所含的单词的重要度的、当前的语言表达文(文句148)与对话行为信息145的关联。在此，模型例如是下述的神经网络模型151。

具体而言，词素解析部131通过将由训练数据取得部111取得的当前时刻以及前时刻组的文句148的每一个分割为单词，从而变换为单词串(S113)。例如，在日语中，能够使用词素解析软件(例如，MeCab)来实现该处理。另外，在英语中，语言表达将半角空格作为单词划分，由此能够实现该处理。例如，词素解析部131将“頭痛があリます。”这一文句148分割为“頭痛”、“が”、“あリます”、“。”。

接下来，单词特征提取部132将由词素解析部131得到的、当前时刻以及前时刻组的单词串的每一个变换为表现了单词特征的文向量表现即特征向量(S114)。作为该方法，例如，可以使用如下方法：基于作为输入所假想的所有的单词的列表(以下，也称为词典)，变换为仅使句子所含的单词或者连续单词的要素值为1的特征向量(Bag of Words(词袋)表现)。也即是，特征向量包含列表所含的全部的单词或者连续单词的数量的要素，各要素与各单词或者连续单词对应。

另外，也可以使用如下方法：通过有师(有监督)学习(例如，将对话行为作为教师的学习)，与事前或者后面的学习同时地，变换为提取了在某对话行为中高频度出现的单词的向量表现。

接下来，上下文依赖提取部133基于前时刻组的特征向量、当前时刻的特征向量、前时刻组以及当前时刻的说话者识别信息146、第1权重参数，求出表示在预测针对当前时刻的文句的对话行为时高频度使用的上下文的第1特征向量(S115)。例如，该功能通过图7所示的模型153(第1模型)来实现。也即是，模型153基于当前时刻的第1文句148的文本数据、前时刻组的第2文句148的文本数据、当前时刻的第1说话者识别信息146、前时刻组的第2说话者识别信息146、第1权重参数，输出第1特征向量。例如，模型153根据具有依赖于前时刻组的说话者识别信息146(前说话者识别信息)以及当前时刻的说话者识别信息146(现说话者识别信息)的第1权重参数的、作为时间序列神经网络模型的RNN-LSTM(RecurrentNeural Network-Long Short Term Memory)，从当前时刻的第1文句和前时刻组的第2文句求出第1特征向量。通过该模型153，与以高频度发生的当前文句相依赖的上下文信息最终从隐藏层作为第1特征向量输出。

另外，场景依赖提取部134基于当前时刻的特征向量、当前时刻的接近着之前的时刻(以下，也记为前一时刻)的特征向量、当前时刻的说话者交替信息147、第2权重参数，算出在预测针对当前时刻的文句的对话行为时高频度地使用的、表示按各场景(对话开始、连续说话以及应答等)的当前时刻以及前一时刻的文句的第2特征向量(S116)。例如，该功能通过图7所示的模型152(第2模型)实现。也即是，第2模型152基于当前时刻的第1文句148的文本数据、前一时刻的第2文句148的文本数据、当前时刻的第1说话者交替信息147、第2权重参数，输出第2特征向量。例如，模型152根据作为具有依赖于当前时刻的说话者交替信息147的权重参数的时间序列神经网络模型的RNN-LSTM，从当前时刻的第1文句和前一时刻的第2文句求出第2特征向量。通过该模型152，最终从隐藏层输出表示按各场景高频度地发生的当前时刻以及前一时刻的文句的第2特征向量。

接下来，对话行为预测部135基于第1特征向量以及第2特征向量、第3权重参数，算出表示对话行为相对于当前时刻的文句的概率分布的后验概率(S117)。例如，如图7的模型154所示，该功能通过多项逻辑回归来实现。也即是，第3模型154基于第1特征向量、第2特征向量、第3权重参数，输出与当前时刻的第1文句对应的对话行为的后验概率。

接下来，权重更新部136基于对话行为的后验概率和成为由当前时刻的对话行为信息145表示的真值的对话行为，将模型152～154的第1～第3权重参数更新为适合的数值(S118)。例如，权重更新部136基于后验概率和成为真值的对话行为的预测误差，通过误差反向传播法来更新权重参数。也即是，权重更新部136进行对第1～第3权重参数进行更新的学习，以使得后验概率和成为真值的对话行为的误差(差分)变为最小。这样，学习部112通过在后验概率和由训练数据141表示的当前时刻的对话行为信息145之间进行误差反向传播学习，来执行学习。

接下来，学习部112判定是否结束学习处理(S119)。例如，学习部112在即便反复学习、误差也不减少的情况下，判定为结束学习处理。

在不结束学习处理的情况下(S119中的“否”)，再次，针对下一时刻或者另外的训练数据141进行步骤S112以后的处理。另外，在结束了学习处理的情况下(S119中“是”)，表示上述学习处理的结果的学习结果信息122存储于存储部103(S120)。具体而言，该学习结果信息122表示学习处理结束时的学习参数(第1～第3权重参数)。

以下，详细地说明使用了神经网络模型151的学习处理。图7是表示本实施方式所涉及的上下文依赖提取部133、场景依赖提取部134以及对话行为预测部135中使用的神经网络模型151的概略的图。该模型151包含上述的模型152～154。

在上下文依赖提取部133中使用的模型153由循环神经网络(RNN-LSTM)和隐藏层构成。

循环神经网络适合时间序列数据的处理，其中，LSTM(Long Short Term Memory，长短期记忆)通过具有被称为存储单元的模块，能够学习长期依赖关系是其优点。

在场景依赖提取部134中使用的模型154也同样地由循环神经网络(LSTM)和隐藏层构成。在对话行为预测部135中使用的模型154由逻辑回归构成。

神经网络模型151的目的在于，将由下述(式1)表示的交叉熵误差的值最小化。

P(Y＝y_tk|x_t-T，…x_t；θ)表示N个训练信息142中的第t个(当前时刻)文句148的特征向量x_t和针对前时刻组的特征向量x_t-T…的、K个对话行为中的第k个对话行为y_tk的后验概率。在此，T是表示作为前时刻组处理的时刻的数量的固定的上下文范围，θ是神经网络的所有的学习参数，u_tk是作为针对第t个语言表达文的真值的对话行为。因此，(式1)表示针对全部数据的对话行为的预测误差，学习部112为了使(式1)的预测误差最小化，利用误差反向传播法将θ进一步更新。

以下，说明到求出各后验概率为止的神经网络的处理的流程。首先，在LSTM中，如下述(式2)～(式5)所示，对特征向量x乘以4个权重矩阵Wⁱ、W^c、W^f、W^o，对表示前一个的LSTM的输出的h_t-1乘以权重矩阵Hⁱ、H^c、H^f、H^o，将作为偏置项的bⁱ、b^c、b^f、b^o和这些结果求和。将其结果作为激活函数即sigmoid函数的自变量，由此，算出在0～1的范围中具有要素值的4个向量i_t、c～_t、f_t、o_t。i_t、c～_t、f_t、o_t是用于进行存储单元的控制的向量，按从前向后的顺序承担存储输入控制、输入存储单元、存储忘却控制、存储输出控制。

i_t＝σ(Wⁱx_t+Hⁱh_t-1+bⁱ)··(式2)

f_t＝σ(W^fx_t+H^fh_t-1+b^f)··(式4)

o_t＝σ(W^ox_t+H^oh_t-1+b^o)··(式5)

接下来，如下述(式6)所示，学习部112使用输入控制向量i_t和输入存储单元c～_t、忘却控制向量f_t以及前存储单元值c_t-1，更新神经网络所具有的存储单元c_t的值。

接下来，如(式7)所示，学习部112利用输出控制向量o_t以及存储单元c_t算出作为当前的LSTM的输出的h_t。

h_t＝o_t*tanh(c_t)··(式7)

在此，t是指在按时间序列排列了前时刻组以及当前时刻的文句时，其时刻是从过去开始的第几个。(式8)中示出tanh函数。

学习部112递归地反复进行运算直至作为对话行为的预测对象的当前时刻即t＝e为止。此外，对于上述的处理，在上下文依赖提取部133和场景依赖提取部134中使用不同的权重参数来进行。

尤其是，作为本实施方式的特征，如下述(式9)所示，在图7的模型153中，对(式2)～(式6)的权重矩阵Hⁱ、H^c、H^f、H^o，使用依赖于之前的说话者识别信息的变量Hⁱ _at-1、H^c _at-1、H^f _at-1、H^o _at-1。也即是，利用根据前说话者的识别编号而不同的权重参数对前说话者的文句的特征向量进行运算的结果被递归地加于下一说话者的文句的特征向量。由此，预测对话行为的当前时刻的LSTM的输出中，在说话者用是说话人还是倾听人来进行了区别的状态下，上下文得以反映。

另外，如下述(式10)所示，在图7所示的模型152中，针对(式2)～(式6)的权重矩阵Hⁱ、H^c、H^f、H^o，使用依赖于说话者交替信息147的变量Hⁱ _st-1、H^c _st-1、H^f _st-1、H^o _st-1。

也即是，利用根据场景(对话开始、连续说话、或者应答等)而不同的权重参数对前说话者的文句的特征向量进行了运算的结果，被递归地加于下一说话者的文句的特征向量。另外，在场景依赖提取部134中，与上下文依赖提取部133不同，仅使用当前文句和其前一个的文句这两个连续的文句，不区别说话者，因此，不反映长期的上下文信息，而反映按各场景说话者容易共同进行的对话行为。

接下来，在图7所示的模型153的隐藏层，如下述(式11)所示，将作为对话行为的预测对象的当前文句的时刻即t＝e时的h^l _e和依赖于说话者识别信息的权重矩阵O^l _ae相乘，对其结果加上偏置项b^l，由此得到第1特征向量f_l-dep。

同样地，在图7所示的模型152中的隐藏层，如下述(式12)所示，将作为对话行为的预测对象的当前文句的时刻即t＝e时的h^r _e与权重矩阵O^r相乘，对其结果加上偏置项b^r，由此得到第2特征向量f_r-dep。

最后，在图7所示的模型154的逻辑回归中，如下述(式13)所示，将由(式11)和(式12)求出的第1特征向量f_l-dep和第2特征向量f_r-dep结合，对所得到的结果乘以权重矩阵O^class，在所得到的结果上加上偏置项b^class。进而，通过将所得到的各要素作为由下述(式14)表示的softmax函数的自变量，来得到对话行为的概率分布。并且，概率分布的各要素表示后验概率P(Y＝y_tk|X_t-T，...x_t；θ)。

此外，(式11)～(式13)是根据表示某特征量的向量，在神经网络中实现导出概率分布的近似函数的方法。

通过上述，利用图7所示的神经网络模型151算出对话行为的后验概率。

接下来，详细说明使用通过上述学习处理得到的学习结果的对话行为推定处理(图2的S102)。图8是示出对话行为推定部114的结构的框图。

对话行为推定部114具备词素解析部161、单词特征提取部162、上下文依赖提取部163、场景依赖提取部164、对话行为预测部165以及推定部166。

图9是本实施方式中的对话行为推定处理(S102)的流程图。

首先，上下文依赖提取部163、场景依赖提取部164以及对话行为预测部165读取通过上述的学习处理(S101)保存于存储部103的学习结果信息122(第1～第3权重参数)(S131)。具体而言，图7所示的神经网络模型151的第1～第3权重参数被更新。

接下来，对话数据取得部113取得存储部101所存储的对话数据123(S132)。图10以及图11是示出对话数据123的一例的图。图10示出英语谈话的情况下的对话数据123的一例，图11示出日语问诊对话的情况下的对话数据123的一例。

如图10以及图11所示，对话数据123包含与按时间序列说出的多个语言表达文对应的多个对话信息171。各对话信息171包含时刻信息172、说话者识别信息173、说话者交替信息174、语言表达文175。

语言表达文175是由用户说出的文句的文本数据。此外，时刻信息172、说话者识别信息173以及说话者交替信息174的含义与上述的训练语料库121所含的时刻信息144、说话者识别信息146以及说话者交替信息147的含义是同样的。

这样，对话数据123包含作为由用户发出的当前的语言表达文175的第3文句的文本数据、作为第3文句的前一语言表达文175的第4文句的文本数据、表示第3文句的说话者的第3说话者识别信息173、表示第4文句的说话者的第4说话者识别信息173、表示第3文句的说话者是否与第4文句的说话者相同的第2说话者交替信息174。

在此，对话数据123例如基于从外部输入的、连续的多个语言表达文而生成。首先，对话行为推定装置100通过按时间序列分割所输入的连续的多个语言表达文而得到多个语言表达文175。接下来，对话行为推定装置100向各语言表达文175赋予时刻信息172以及说话者识别信息173。另外，对话行为推定装置100基于说话者识别信息173，算出说话者交替信息174。具体而言，对话行为推定装置100基于当前时刻和前一时刻的说话者识别信息173，算出当前时刻的说话者交替信息174，并将该说话者交替信息174附加于当前时刻的语言表达文175。

在此，在按时间序列分割连续的语言表达文时，例如，在文本聊天系统的输入的情况下，以向对方一次发送的文本为单位分割语言表达文。另外，在声音对话系统的输入的情况下，基于成为声音识别的触发的连续的无音区间的产生，分割语言表达文。另外，说话者识别信息173既可以通过声波纹认证等生成，也可以从外部输入。

另外，作为对话数据123，至少保持有与上下文范围相应的过去的连续的语言表达文和新输入的当前的语言表达文。另外，根据新的输入除去最以前的语言表达文。另外，作为上下文范围，使用与上述学习处理(S101)时相等的数值。

接下来，对话行为推定部114基于学习结果信息122，将对话数据123应用于模型151，由此推定当前时刻的第3文句被分类的对话行为。

具体而言，词素解析部161通过词素解析将所取得的对话数据123所含的当前时刻以及前时刻组的语言表达文175的每一个分割为单词，由此变换为单词串(S133)。

接下来，单词特征提取部162将由词素解析部161得到的、当前时刻以及前时刻组的单词串的每一个变换为表现了单词特征的文向量表现即特征向量(S134)。此外，步骤S133以及S134的详细内容与上述的步骤S113以及S114是同样的。

接下来，上下文依赖提取部163基于前时刻组的特征向量、当前时刻的特征向量、前时刻组以及当前时刻的说话者识别信息173、第1权重参数，求出第1特征向量(S135)。

另外，场景依赖提取部164基于当前时刻的特征向量、前一时刻的特征向量、当前时刻的说话者交替信息174、第2权重参数，来算出第2特征向量(S136)。

接下来，对话行为预测部165基于第1特征向量以及第2特征向量、第3权重参数，算出表示对话行为相对于当前时刻的文句的概率分布的后验概率(S137)。

此外，对于这些步骤S135～S137的详细内容，除了使用由学习结果信息122表示的第1～第3权重参数这一点以外，与上述的步骤S115～S117是同样的。

接下来，推定部166基于在步骤S137中得到的对话行为的后验概率，推定对话行为，将表示推定出的对话行为的推定结果124存储于存储部105(S138)。例如，推定部166将由后验概率表示的多个对话行为的概率值中的概率值最高的对话行为决定为推定结果124。

另外，图9所示的一系列的处理针对各时刻的语言表达文依次进行。

图12以及图13是示出推定结果124的一例的图。图12示出英语谈话的情况下的推定结果124的一例，图13示出日语问诊对话的情况下的推定结果124的一例。如图12以及图13所示，推定结果124包含与按时间序列发出的多个语言表达文对应的多个推定结果信息181。各推定结果信息181包含时刻信息172、说话者识别信息173、说话者交替信息174、语言表达文175、预测对话行为182。

预测对话行为182表示由推定部166得到的对话行为的推定结果。此外，时刻信息172、说话者识别信息173、说话者交替信息174以及语言表达文175与对话数据123所含的信息相同。

在图12所示的例中，若设上下文范围为5，则前时刻组的语言表达文175是时刻5～9的语言表达文175，当前时刻的语言表达文175是时刻10的语言表达文175。并且，与各时刻对应的说话者识别信息173是“A、A、A、B、B、A”，当前时刻的说话者交替信息174是“应答”。在该情况下，作为当前时刻的预测对话行为182，得到“Yes answers”。这是通过能够提取“isthat right(真的吗？)”来作为场景依赖提取部164按场景区分而以高频度发生的当前和前一个的语言表达，从而使得预测概率进一步提高的例子。

在图13所示的例子中，若设上下文范围为5，则前时刻组的语言表达文175是时刻1～5的语言表达文175，当前时刻的语言表达文175是时刻6的语言表达文175。并且，与各时刻对应的说话者识别信息173是“A、B、A、B、B、B”，当前时刻的说话者交替信息174是“连续说话”。在该情况下，作为当前时刻的预测对话行为182，得到“応答-症状主訴(应答-主要症状)”。这是不仅提取“気にしすぎかもしれませんが…(虽然可能是过于担心了……)”作为通过场景依赖提取部164按场景区分而以高频度发生的当前和前一个的语言表达，还能够提取“頭痛ですね。他には何かあリますか？(头疼呀。其他还有什么吗？)”作为通过上下文依赖提取部163以高频度发生的当前的语言表达和所依赖的上下文信息，由此使得预测概率进一步提高的例子。

图14是示出本实施方式中的基于英语谈话的200对话语料库的学习结果的图。在42种对话行为的分类精度(Accuracy)中，本实施方式所涉及的手法与非专利文献1示出的以往手法相比较，在各种上下文范围中都呈现出优异的分类精度。尤其是，能够确认：当对话语料库的数量少时，与将相比于前1个更为过去的语言表达作为上下文信息来学习的情况相比，通过也考虑不为低频度的2个连续的语言表达，整体的对话行为的变换性能得以提高。

此外，在上述说明中，示出了训练语料库121中包含多个训练数据141的例子，但是，训练语料库121也可以仅包含一个训练数据141。

另外，在上述说明中，说明了在对话行为推定装置100中进行学习处理和对话行为推定处理这双方的例子，但是这些处理也可以在不同的装置中进行。

如以上那样，本实施方式所涉及的对话行为推定装置100使用表示当前文句的说话者是否与前一文句的说话者相同的说话者交替信息147、和表示各文句的说话者的说话者识别信息146来进行学习。由此，能够提高语言表达文与对话行为信息的关联的精度。

以下，对于上述的对话行为推定装置100的利用方式进行说明。图15是包含对话行为推定装置100的对话系统的框图。该对话系统包括具有声音识别的功能且存在于云上的服务器500、和智能手机等便携终端400。用户能够经由便携终端400，通过声音与系统进行基于自然言语的对话。

便携终端400以及服务器500例如经由因特网等公众通信网络而连接。便携终端400是智能手机或者平板电脑等。

便携终端400具备麦克风401、信号处理部402、通信部403以及应答执行部404。麦克风401是将声音变换为电的声音信号的设备，用于收集用户的声音。

信号处理部402判定从麦克风401输入的声音信号是否是噪声，在不是噪声的情况下，将该声音信号输出至通信部403。

通信部403将所输入的声音信号变换为具有能够通信的格式的通信信号，并将得到的通信信号发送给服务器500。

应答执行部404将信号处理部402通过通信部403接收到的应答文显示在监视器。

服务器500具备对话行为推定装置100、通信部501、声音处理部502、对话管理部503以及应答生成部504。通信部501接收来自便携终端400的通信信号，从通信信号取出声音信号，将所取出的声音信号输出至声音处理部502。

声音处理部502对所取出的声音信号进行解析，由此生成表示用户所说的声音的文本数据。

对话行为推定装置100是例如图1所示的对话行为推定装置100，是上述的学习处理已经结束的状态。对话行为推定装置100使用由声音处理部502生成的文本数据，生成上述的对话数据123，使用该对话数据123，推动对话行为，并输出推定结果。

对话管理部503按时间序列保持由对话行为推定装置100推定出的对话行为，基于对话行为的序列，输出应该应答的系统侧的对话行为。

应答生成部504生成与从对话管理部503接收到的对话行为对应的应答文。通信部501将所生成的应答文变换为具有能够通信的格式的通信信号，将所得到的通信信号发送至便携终端400。

这样，在图15的对话系统中，服务器500能够使用进行了上述的学习后的对话行为推定装置100，适当地理解用户的语言表达，并进行应答。

以上，对于实施方式所涉及的对话行为推定装置进行了说明，但是本公开不限定于该实施方式。

另外，上述实施方式所涉及的对话行为推定装置所含的各处理部，典型地作为集成电路即LSI来实现。这些既可以个别地单芯片化，也可以单芯片化成包含一部分或者全部。

另外，集成电路化不限于LSI，也可以通过专用电路或者通用处理器来实现。也可以利用在LSI制造后能够编程的FPGA(Field Programmable Gate Array：现场可编程们阵列)或者可以重构LSI内部的电路单元的连接和/或设定的可重构处理器。

另外，本公开也可以作为通过对话行为推定装置执行的对话行为推定方法来实现。

另外，在上述各实施方式中，各结构要素可以由专用的硬件构成，也可以通过执行适合各结构要素的软件程序来实现。各结构要素也可以通过由CPU或处理器等程序执行部读出并执行记录于硬盘或半导体存储器等记录介质的软件程序来实现。

另外，框图中的功能块的分割是一个例子，可以将多个功能块作为一个功能块实现，可以将一个功能块分割为多个，也可以将一部分的功能移至其他的功能块。另外，也可以由单一的硬件或者软件并行或者分时地处理具有类似的功能的多个功能块的功能。

另外，流程图中的各步骤被执行的顺序是为了具体地说明本公开而例示的，也可以是上述以外的顺序。另外，上述步骤的一部分也可以与其他的步骤同时(并行)地执行。

以上，对于一个或多个技术方案所涉及的对话行为推定装置，基于实施方式进行了说明，但是，本公开不限定于该实施方式。只要不脱离本公开的主旨，将本领域技术人员所能想到的各种变形施加于本实施方式而得到的方式、将不同的实施方式中的结构要素组合而构筑的方式也可以包含于一个或多个方式的范围内。

产业上的可利用性

本公开能够应用于对话行为推定装置，例如，能够应用于如下系统：基于保持了通过声音或者文本实现的用户的语言表达的对话历史记录，适当地理解用户的语言表达。例如，本公开能够利用于达成用户的任务的呼叫中心、问诊对话、或者闲谈对话等面向任务或者非面向任务的对话系统装置或者对话系统方式。另外，本公开能够利用于从对话历史记录仅提取特定的对话行为的信息检索装置或者信息检索方式。

标号的说明

100对话行为推定装置；101、103、105存储部；102、104处理部；111训练数据取得部；112学习部；113对话数据取得部；114对话行为推定部；131、161词素解析部；132、162单词特征提取部；133、163上下文依赖提取部；134、164场景依赖提取部；135、165对话行为预测部；136权重更新部；166推定部；121训练语料库；122学习结果信息；123对话数据；124推定结果；141训练数据；142训练信息；143对话ID；144、172时刻信息；145对话行为信息；146、173说话者识别信息；147、174说话者交替信息；148文句；151、152、153、154模型；171对话信息；175语言表达文；181推定结果信息；182预测对话行为；400便携终端；401麦克风；402信号处理部；403、501通信部；404应答执行部；500服务器；502声音处理部；503对话管理部；504应答生成部。

Claims

1.一种对话行为推定方法，是推定语言表达文被分类的对话行为的对话行为推定装置中的对话行为推定方法，包括：

取得使可能成为当前的语言表达文的第1文句的文本数据、可能成为所述第1文句的前一语言表达文的第2文句的文本数据、表示所述第1文句的说话者是否与所述第2文句的说话者相同的第1说话者交替信息、表示所述第1文句的分类的对话行为信息相关联而成的第1训练数据，

通过将所述第1训练数据应用于预定模型，由此对所述当前的语言表达文与所述对话行为信息的关联进行学习，

将所述学习的结果作为学习结果信息进行存储。

2.根据权利要求1所述的对话行为推定方法，

所述第1训练数据还包括表示所述第1文句的说话者的第1说话者识别信息、和表示所述第2文句的说话者的第2说话者识别信息。

3.根据权利要求2所述的对话行为推定方法，

所述模型包括：

第1模型，其基于所述第1文句的文本数据、所述第2文句的文本数据、所述第1说话者识别信息、所述第2说话者识别信息、第1权重参数，输出第1特征向量；

第2模型，其基于所述第1文句的文本数据、所述第2文句的文本数据、所述第1说话者交替信息、第2权重参数，输出第2特征向量；以及

第3模型，其基于所述第1特征向量、所述第2特征向量、第3权重参数，输出与所述第1文句对应的对话行为的后验概率，

所述学习通过在所述后验概率与由所述第1训练数据表示的所述对话行为信息之间进行误差反向传播学习来执行。

4.根据权利要求3所述的对话行为推定方法，

所述第1模型根据具有依赖于所述第1说话者识别信息以及所述第2说话者识别信息的所述第1权重参数的第1RNN-LSTM，从所述第1文句和所述第2文句求取所述第1特征向量，

所述第2模型根据具有依赖于所述第1说话者交替信息的所述第2权重参数的第2RNN-LSTM，从所述第1文句和所述第2文句求取所述第2特征向量。

5.根据权利要求1～4中任一项所述的对话行为推定方法，

所述第1训练数据从收集了2个以上的训练数据的语料库取得。

6.根据权利要求1～5中任一项所述的对话行为推定方法，

所述对话行为推定方法还包括：

取得对话数据，所述对话数据包括由用户说出的作为当前的语言表达文的第3文句的文本数据、作为所述第3文句的前一语言表达文的第4文句的文本数据、以及表示所述第3文句的说话者是否与所述第4文句的说话者相同的第2说话者交替信息，

基于所述学习结果信息，将所述对话数据应用于所述模型，由此推定所述第3文句被分类的对话行为。

7.一种对话行为推定装置，推定语言表达文被分类的对话行为，具备：

训练数据取得部，其取得使可能成为当前的语言表达文的第1文句的文本数据、可能成为所述第1文句的前一语言表达文的第2文句的文本数据、表示所述第1文句的说话者是否与所述第2文句的说话者相同的第1说话者交替信息、表示所述第1文句的分类的对话行为信息相关联而成的第1训练数据；

学习部，其通过将所述第1训练数据应用于预定模型，由此对所述当前的语言表达文与所述对话行为信息的关联进行学习；以及

存储部，其将所述学习的结果作为学习结果信息来存储。

8.一种程序，其使计算机执行权利要求1所述的对话行为推定方法。