CN109086264A

CN109086264A - 说话继续判定方法、说话继续判定装置以及记录介质

Info

Publication number: CN109086264A
Application number: CN201810578751.XA
Authority: CN
Inventors: 牛尾贵志; 山上胜义; 远藤充
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2017-06-14
Filing date: 2018-06-07
Publication date: 2018-12-25
Anticipated expiration: 2038-06-07
Also published as: JP2019003380A; JP6998517B2; US20180366120A1; US10789951B2; EP3416163B1; EP3416163A1; CN109086264B

Abstract

提供能够提高用户的说话继续的判定精度的说话继续判定方法、说话继续判定装置以及记录介质。该方法包括:对话取得步骤(S22)，取得包括对用户发出的第一时刻的系统文章(184)、继系统文章(184)之后由用户发出的第二时刻的用户文章(185)以及表示该系统文章(184)的意图的系统意图(183)的对话数据(102)；推定步骤(S23)，通过将对话数据(102)适用于进行了机器学习的模型，对表示对该用户文章(185)的应答的等待时间的预测应答延迟量(192)进行推定；状况取得步骤(S24)，取得表示用户状况的用户状况信息(1232)；判定步骤(S25)，根据预测应答延迟量(192)表示的等待时间内的用户状况信息1232，判定继该用户文章(185)之后用户的说话语句是否继续。

Description

说话继续判定方法、说话继续判定装置以及记录介质

技术领域

本公开涉及说话继续判定方法、说话继续判定装置以及记录介质，特别是，涉及使用进行机器学习的预定模型来判定用户的说话继续的说话继续判定方法、说话继续判定装置以及记录介质。

背景技术

说话继续判定技术是推定用户是否想继续说话的技术即判定用户的说话继续的技术。而且，提出了使用说话继续判定技术对对话系统的应答时机和内容动态地进行控制的技术(例如专利文献1)。

在专利文献1所公开的技术中，基于按对话系统示出的每个提问所假设的用户的说话所包含的关键词的最大字数的算出，使直到受理由用户的说话等产生的输入为止的等待时间或者继续受理输入的声音受理时间增减。

在先技术文献

专利文献1：日本专利第4667085号公报

发明内容

发明要解决的问题

然而，在上述专利文献1所提出的方法中，存在无法以充分的精度进行用户的说话继续的判定这样的问题。

本公开是鉴于上述情形而完成的，目的在于提供能够提高用户的说话继续的判定精度的说话继续判定方法、说话继续判定装置以及记录介质。

用于解决问题的手段

本公开的一个技术方案涉及的说话继续判定方法包括：对话取得步骤，取得对话数据，所述对话数据包括：第一文章，是对用户发出的第一时刻的第一说话语句的文本数据；第二文章，是接着所述第一文章由所述用户发出的第二时刻的第二说话语句的文本数据；以及结构化数据，是对所述第一文章表示的意图进行结构化而得到的数据；推定步骤，将所述对话数据适用于反映了通过机器学习而得到的学习结果信息的模型，由此对表示对于所述第二文章的应答的等待时间的应答延迟量进行推定；状况取得步骤，取得表示所述用户的状况的用户状况信息；以及判定步骤，根据所述应答延迟量表示的所述等待时间内的所述用户状况信息，判定接着所述第二文章所述用户的说话语句是否继续。

另外，为了实现上述目的，本公开的一个技术方案涉及的说话继续判定装置是使用进行机器学习的预定的模型来判定用户的说话继续的装置，该装置具备：对话取得部，取得对话数据，所述对话数据包括：第一文章，是对所述用户发出的第一时刻的第一说话语句的文本数据；第二文章，是接着所述第一文章由所述用户发出的第二时刻的第二说话语句的文本数据；以及结构化数据，是对所述第一文章表示的意图进行结构化而得到的数据；推定部，将所述对话数据适用于反映了通过机器学习而得到的学习结果信息的所述模型，由此对表示对于所述第二文章的应答的等待时间的应答延迟量进行推定；状况取得部，取得表示所述用户的状况的用户状况信息；以及判定部，根据所述应答延迟量表示的所述等待时间内的所述用户状况信息，判定接着所述第二文章所述用户的说话语句是否继续。

此外，这些总括性或者具体的技术方案既可以由系统、方法、集成电路、计算机程序或者计算机可读取的CD-ROM等记录介质来实现，也可以由系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现。

发明的效果

根据本公开的说话继续判定方法等，能够提高用户的说话继续的判定精度。

附图说明

图1是表示第一实施方式涉及的说话继续判定系统的结构例的框图。

图2是表示第一实施方式涉及的说话继续判定系统的结构的其它例的框图。

图3是表示第一实施方式涉及的学习用数据的一例的图。

图4是表示第一实施方式涉及的学习部的详细结构的一例的框图。

图5是表示第一实施方式涉及的对话数据的一例的图。

图6是表示第一实施方式涉及的推定部的详细结构的一例的框图。

图7是表示第一实施方式涉及的应答延迟推定结果的一例的图。

图8是表示第一实施方式涉及的用户状况信息的一例的图。

图9是表示第一实施方式涉及的判定部的详细结构的一例的框图。

图10是表示第一实施方式涉及的说话继续判定结果的一例的图。

图11是表示第一实施方式涉及的说话继续判定系统的动作概要的流程图。

图12是第一实施方式涉及的学习处理的详细的流程图。

图13是表示图11示出的推定处理的详细流程的流程图。

图14是表示图11示出的判定处理的详细流程的流程图。

图15A是用于说明第一实施方式涉及的第一判定的一个技术方案的图。

图15B是用于说明第一实施方式涉及的第一判定的一技术方案的图。

图15C是用于说明第一实施方式涉及的第二判定的一个技术方案的图。

图16是表示第二实施方式涉及的对话系统的结构的一例的框图。

具体实施方式

(本公开的基础见解)

说话继续判定技术是对用户是否想继续说话进行推定的技术即判定用户的说话继续的技术。而且，使用说话继续判定技术，动态地控制对话系统的应答的时机(timing)和内容。然而，当其判定精度差时，用户要继续说话，另一方面，会导致对话系统错误地应答相同内容或者下一提问内容等，从而漏听用户的说话。而且，进行错误的应答会造成对话系统与用户之间的对话时间的增加。因此，期望提高用户的说话继续的精度。

例如，在专利文献1中公开了以下技术：基于通过使用按每个提问所假设的关键词最大字数这一规则按每个提问进行的声音识别用语法解析而得到的解析结果，使直到受理声音为止的等待时间和/或继续受理声音的声音受理时间进行增减。由此，不会由于利用者不同而产生过长(必要以上)的等待时间(声音识别)，能够维持顺利的对话。

然而，在专利文献1所公开的技术中将以下情况设为前提：依赖于提问，自然地决定系统同时受理的关键词的最大值与最小值。也就是说，在允许用户的自由说话表现的情况下，还假设关键词为0的情况以及无法决定最大值以并行地描述关键词的情况，从而难以适当地决定等待时间。

因此，为了提高用户的说话继续的精度，想到需要考虑用户的说话内容的含义来判定说话继续。

针对这样的问题，本公开的一个技术方案涉及的说话继续判定方法包括：对话取得步骤，取得对话数据，所述对话数据包括：第一文章，是对用户发出的第一时刻的第一说话语句的文本数据；第二文章，是接着所述第一文章由所述用户发出的第二时刻的第二说话语句的文本数据；以及结构化数据，是对所述第一文章表示的意图进行结构化而得到的数据；推定步骤，将所述对话数据适用于反映了通过机器学习而得到的学习结果信息的模型，由此对表示对于所述第二文章的应答的等待时间的应答延迟量进行推定；状况取得步骤，取得表示所述用户的状况的用户状况信息；以及判定步骤，根据所述应答延迟量表示的所述等待时间内的所述用户状况信息，判定接着所述第二文章所述用户的说话语句是否继续。

根据本技术方案，使用学习处理结果来推定对于用户说话语句的应答延迟量，使用推定出的应答延迟量所表示的等待时间内的用户状况来判定用户的说话继续的有无。这样，通过以两个阶段来判定用户的说话继续，能够提高用户的说话继续的判定精度。

另外，例如，也可以是，所述用户状况信息表示与以下情况中的至少一个对应的值：(1)用于通过文本输入所述用户的说话的文本输入部中的文本输入栏是否为选择中；(2)用于通过声音输入所述用户的说话的集声部中的声音信号是否为输入中；(3)用于检测所述用户的视线的视线检测部中的所述用户的视线位置是否位于包括提示所述第一文章的提示部的装置；以及(4)用于检测所述用户的姿势的姿势检测部中的所述用户的脸部方向和身体方向是否为包括提示所述第一文章的提示部的装置。

另外，例如，也可以是，所述判定步骤中，在所述应答延迟量表示的等待时间为0的情况下，进行表示所述用户的说话语句不继续之意的第一判定，在所述应答延迟量表示的等待时间大于0的情况下，在所述等待时间内的所述用户状况信息表示预定的值时，进行表示所述用户的说话语句继续之意的第二判定，在所述等待时间内的所述用户状况信息不表示所述预定的值时，进行所述第一判定。

另外，例如，也可以是，所述说话继续判定方法还包括：学习取得步骤，取得学习用数据，所述学习用数据包括：第三文章，是对所述用户发出的第三说话语句的文本数据；第四文章，是接着所述第三文章由该用户发出的第四说话语句的文本数据；结构化数据，是对所述第三文章表示的意图进行结构化而得到的数据；以及应答延迟量，表示对于所述第四文章的应答的等待时间；学习步骤，使用所述学习用数据，使所述模型进行学习；以及存储步骤，将在所述学习步骤中学习到的结果作为所述学习结果信息进行存储，在所述学习步骤中，将所述学习用数据所包含的所述应答延迟量作为教师数据，使所述模型学习所述第四文章与所述应答延迟量之间的关联。

根据本技术方案，进行以下学习处理：使用包括过去的系统的说话语句中的系统意图和对于过去的系统的说话语句的用户说话语句的学习用数据，将对于学习用数据所包含的该用户说话语句的应答延迟量作为教师数据，进行用户说话语句与应答延迟量之间的关联。由此，能够根据接着系统说话语句的用户说话语句，高精度地推定应答延迟量。

另外，例如，也可以是，所述模型包括：第一模型，算出将所述第四文章进行词素解析而得到的单词串所包含的单词以及将所述结构化数据所包含的对话行为和关键词作为特性的第一特性矢量，基于算出的所述第一特性矢量和第一权重参数，输出表现所述第四文章的对话状态的第一特征矢量；和第二模型，基于所述第一特征矢量和第二权重参数，输出对于所述第四文章的应答延迟量，在所述学习步骤中，基于由所述第二模型输出的所述应答延迟量与所述学习用数据所包含的所述应答延迟量之间的误差，利用误差逆传播法对所述第一权重参数和所述第二权重参数进行更新，由此使用所述学习用数据使所述模型进行学习。

另外，例如，也可以是，所述第一模型具有所述第一权重参数，并具有根据算出的所述第一特性矢量算出第一特征矢量的神经网络，所述第二模型使用将Sigmoid回归作为输出的神经网络模型、SVM模型即支持向量机模型或者朴素贝叶斯分类器。

另外，例如，也可以是，在所述学习取得步骤中，从语料库中取得所述学习用数据，所述语料库是将对用户发出的说话语句、该说话语句表示的意图的结构化数据、继该说话语句之后由该用户发出的说话语句以及对于由该用户发出的说话语句的应答延迟量进行累积而得到的语料库。

另外，例如，也可以是，所述第一文章表示的意图包括通过类别和行为对所述第一文章进行分类而得到的表示所述第一文章的意图的种类的对话行为和所述第一文章所包含的关键词。

另外，例如，也可以是，所述第三文章表示的意图包括通过类别和行为对所述第三文章进行分类而得到的表示所述第三文章的意图的种类的对话行为和所述第三文章所包含的关键词。

本公开的一个技术方案涉及的说话继续判定装置具备：对话取得部，取得对话数据，所述对话数据包括：第一文章，是对用户发出的第一时刻的第一说话语句的文本数据；第二文章，是继所述第一文章之后由所述用户发出的第二时刻的第二说话语句的文本数据；以及结构化数据，是对所述第一文章表示的意图进行结构化而得到的数据；推定部，将所述对话数据适用于反映了通过机器学习而得到的学习结果信息的模型，由此对表示对于所述第二文章的应答的等待时间的应答延迟量进行推定；状况取得部，取得表示所述用户的状况的用户状况信息；以及判定部，根据所述应答延迟量表示的所述等待时间内的所述用户状况信息，判定继所述第二文章之后所述用户的说话语句是否继续。

根据本技术方案，使用学习处理结果来推定对于用户说话语句的应答延迟量，使用推定出的应答延迟量所表示的等待时间内的用户状况来判定用户的说话继续的有无。这样，通过以两个阶段来判定用户的说话继续，由此能够提高用户的说话继续的判定精度。

以下，参照附图并说明本公开的实施方式。以下说明的实施方式均表示本公开的一个具体例。在以下实施方式中示出的数值、形状、构成要素、步骤、步骤的顺序等为一例，并没有限定本公开的意图。另外，将以下实施方式中的构成要素中表示最上位概念的独立权利要求所没有记载的构成要素作为任意的构成要素来进行说明。另外，在所有实施方式中，还能够将各内容进行组合。

(第一实施方式)

以下，参照附图并说明第一实施方式中的说话继续判定方法等。

[说话继续判定系统]

图1是表示第一实施方式涉及的说话继续判定系统1的结构例的框图。图2是表示第一实施方式涉及的说话继续判定系统1A的结构的其它例的框图。此外，对与图1相同的要素标注同一附图标记。

图1示出的说话继续判定系统1具备存储装置10、学习处理装置11以及说话继续判定装置12。

<存储装置10>

存储装置10存储语料库101和对话数据102。语料库101是大规模地收集表示对话中的说话的文本数据并进行数据库化而得到的语料库。在本实施方式中，语料库101包括多个学习用数据1011。学习用数据1011在由学习处理装置11进行学习处理时使用。

存储装置10例如由硬盘驱动器或者固态硬盘等可改写的非易失性的存储器构成。

<学习处理装置11>

学习处理装置11从存储在存储装置10中的语料库101取得一个以上的学习用数据1011，进行用于推定表示对用户的说话的应答的等待时间的应答延迟量的预定的模型的学习处理。学习处理装置11由计算机等实现。

<说话继续判定装置12>

接着，说明本实施方式涉及的说话继续判定装置12的结构。

说话继续判定装置12从存储装置10取得对话数据102，使用由学习处理装置11进行了机器学习得到的预定模型，判定用户的说话继续即用户是否想继续说话。说话继续判定装置12由计算机等实现。

此外，第一实施方式涉及的说话继续判定系统1并不限定于图1示出的结构。如图2的说话继续判定系统1A所示，说话继续判定装置12也可以包括相当于图1示出的学习处理装置11的功能部即学习处理装置部11A以及相当于图1示出的说话继续判定装置12的功能部即说话继续判定装置部12A。也就是说，既可以如图2示出的说话继续判定装置12那样进行学习处理和说话继续判定处理这两方，也可以如图1所示那样学习处理装置11与说话继续判定装置12为不同装置且分别进行学习处理和说话继续判定处理。另外，图2示出的说话继续判定装置12还可以包括存储装置10。

以下，说明学习处理装置11和说话继续判定装置12的详细结构。

[学习处理装置11]

如图1等所示，学习处理装置11具备取得部111、学习部112以及存储部113。

<存储部113>

存储部113将在学习部112中学习得到的结果存储为学习结果信息1131。存储部113例如由硬盘驱动器或者固态硬盘等可改写的非易失性存储器构成。

<取得部111>

取得部111取得学习用数据，该学习用数据包括对用户发出的第三说话语句的文本数据即第三文章、继第三文章之后由该用户发出的第四说话语句的文本数据即第四文章、对第三文章表示的意图进行结构化而得到的数据即结构化数据以及表示对于第四文章的应答的等待时间的应答延迟量。

此外，取得部111从语料库101中取得该学习用数据，该语料库101是将对用户发出的说话语句、该说话语句表示的意图的结构化数据、继该说话语句之后由该用户发出的说话语句以及对于由该用户发出的说话语句的应答延迟量进行累积得到的语料库。

在本实施方式中，取得部111从存储在存储装置10中的语料库101取得一个以上的学习用数据1011。此外，取得部111例如由CPU、ASIC或者FPGA等处理器构成，通过CPU等处理器执行保持于计算机的、计算机可读取的程序来实现。

图3是表示第一实施方式涉及的学习用数据1011的一例的图。如上所述，图3示出的学习用数据1011包含于语料库101。换言之，语料库101相当于将学习用数据1011累积而得到的语料库。

在学习用数据1011中包括表示对于系统的说话语句的用户的说话语句的多个说话数据。在此，系统既可以是说话继续判定系统1，也可以是生成对话或者应答的对话系统、服务器或者装置等。在图3中示出包括针对用日语进行的菜单咨询的对话的多个说话数据的学习用数据1011。

如图3所示，学习用数据1011包括被附加了数据ID 142的系统意图143、系统文章144、用户文章145以及应答延迟量146。另外，学习用数据1011具有训练数据141，该训练数据141包括被附加了数据ID 142的一个以上的系统意图143～应答延迟量146。在图3中示出在训练数据141中包括被附加了表示“1”的数据ID 142的系统意图143～应答延迟量146的示例，但是并不限于此。

数据ID 142是用于唯一地确定训练数据141的标识符。另外，数据ID 142用于唯一地确定系统意图143～应答延迟量146的内容。

系统文章144是表示系统发出的一个说话的文章的一个说话语句的文本数据。更具体地说，系统文章144是系统对用户发出的说话语句的文本数据，是第三文章的一例。用户文章145是表示用户发出的一个说话的文章的一个说话语句的文本数据。更具体地说，用户文章145是继系统文章144之后由用户发出的说话语句的文本数据，是第四文章的一例。系统文章144和用户文章145是日语单词没有分隔的字符串数据。此外，在系统文章144和用户文章145为英语文本数据的情况下，是利用半角空格分隔英语单词的字符串数据即可。

系统意图143是对系统文章144表示的意图进行结构化而得到的数据(结构化数据)。在该结构化数据中包括将系统文章144表示的文章通过类别和行为进行分类而得到的表示该文章意图的种类的对话行为以及系统文章144表示的文章所包含的关键词。因而，系统意图143还能够捕捉为表示系统文章144的意思或者其概要。在图3示出的示例中，系统意图143由“是否提问”、“确认提问”、“开放提问”这样的系统文章144的对话行为以及<海鮮丼>、<鶏肉>等关键词构成。

此外，关于系统意图143和系统文章144，在系统与用户之间的对话初期等为空的情况下，系统意图143和系统文章144示出表示初始状态的字符串即“INIT”。

应答延迟量146表示对于用户文章145的应答的等待时间的有无。此外，应答延迟量146在学习时被用作对于继系统文章144之后的用户文章145的教师数据。如图3所示，应答延迟量146例如用0或者1表示，但是在实际延迟控制中能够使用与各个值(0或者1)对应的固定值(例如5秒)。此外，应答延迟量146也可以是表示应使系统对于用户文章145的应答延迟什么程度的数值。

在此，在图3示出的示例中，取得部111在将数据ID 142表示1的训练数据141作为学习部112的学习处理的对象的情况下，取得系统意图143“是否提问<海鮮丼>”、系统文章144“海鮮丼で良いですか？”(中文含义是“海鲜盖饭可以吗？”)以及用户文章145“昨日魚を食べたので、”(中文含义是“由于昨天吃了鱼，”)。而且，取得部111取得对数据ID142附加了1的应答延迟量146所示的“1”来作为使用了该训练数据141的学习时的真值即教师数据。

此外，取得部111每次都取得变更了数据ID 142而得到的训练数据141，直到学习部112进行的学习结束为止。取得部111既可以取得包括通过使数据ID 142递增而不同的数据ID 142的训练数据141，也可以取得其它训练数据141。

<学习部112>

学习部112使用学习用数据1011来使预定模型进行学习。更具体地说，学习部112将学习用数据1011所包含的应答延迟量146作为教师数据，使预定模型学习用户文章145(第四文章)与应答延迟量146的关联。更具体地说，当使用图3说明时，学习部112将由取得部111取得的学习用数据1011适用于预定的模型，由此基于系统意图143所包含的对话行为和由关键词表示的结构化数据以及用户文章145所包含的单词，算出表示对话状态的第一特征矢量。而且，使用算出的第一特征矢量和权重参数，学习用户文章145与应答延迟量146之间的关联。而且，学习部112将学习到的结果作为学习结果信息1131而存储到存储部113。

在本实施方式中，预定的模型包括具有第一权重参数的第一模型以及具有第二权重参数的第二模型。第一模型算出将用户文章145(第四文章)进行词素解析而得到的单词串所包含的单词以及将系统文章144(第三文章)的结构化数据所包含的对话行为和关键词作为特性的第一特性矢量，基于算出的第一特性矢量和第一权重参数，输出表现用户文章145(第四文章)的对话状态的第一特征矢量。例如，第一模型具有第一权重参数，并具有根据算出的第一特性矢量算出第一特征矢量的神经网络。

另外，第二模型基于第一特征矢量和第二权重参数，输出对用户文章145(第四文章)的应答延迟量。例如，第二模型使用将Sigmoid回归作为输出的神经网络模型、SVM(Support Vector Machine：支持矢量机)模型或者朴素贝叶斯分类器。

学习部112基于由第二模型输出的应答延迟量与学习用数据1011所包含的应答延迟量146之间的误差，用误差逆传播法对第一权重参数和第二权重参数进行更新，由此使用学习用数据1011使预定模型进行学习。此外，学习部112例如由CPU、ASIC或者FPGA等处理器构成，通过CPU等处理器执行保持于计算机的、计算机可读取的程序来实现。

图4是表示第一实施方式涉及的学习部112的详细结构的一例的框图。

如图4所示，学习部112具备词素解析部1121、特性矢量算出部1122、对话状态算出部1123、应答延迟推定部1124以及权重更新部1125。

<<词素解析部1121>>

词素解析部1121对在由取得部111取得的用户文章145中作为具有自然语言的意思的最小单位的词素进行解析，转换为以词素为单词的单词串。

在本实施方式中，词素解析部1121通过将由取得部111取得的用户文章145的每一个分割为单词而转换为单词串。在日语的用户文章145中，词素解析部1121例如能够使用MeCab等词素解析软件来实现该处理。词素解析部1121例如将“昨日魚を食べたので、”(中文含义：“由于昨天吃了鱼”)这样的用户文章145分割为“昨日”、“魚“、“を”、“食べ”、“た”、”ので”、”、”(中文含义：“由于”、“昨天”、“吃”、“了”、“鱼”、“，”)。此外，词素解析部1121对于英语的用户文章145用半角空格进行单词分隔，由此能够实现该处理。

<<特性矢量算出部1122>>

特性矢量算出部1122将由词素解析部1121得到的单词串以及系统意图143所包含的对话行为和关键词转换为表现为各特性的语句矢量表现即特性矢量。

作为向特性矢量的转换方法存在以下方法：仅考虑在文章中是否包含单词，利用不考虑单词的排列方法等的Bag-of-words模型(词袋模型)。当使用Bag-of-words模型时，例如，基于作为输入所假设的全部特性的列表(以后也称为词典)，仅在存在各特性的情况下将要素值表现为1，由此能够转换为特性矢量。也就是说，特性矢量包含词典所包含的全部单词、对话行为和关键词来作为要素，用1或者0来表现。

<<对话状态算出部1123>>

对话状态算出部1123使用预定模型所包含的第一模型，根据由特性矢量算出部1122算出的特性矢量来算出表示对话状态的第一特征矢量。

在本实施方式中，对话状态算出部1123使用第一模型，基于由特性矢量算出部1122算出的特性矢量和第一权重参数，算出表示对话状态的第一特征矢量。第一模型也可以是能够根据第一特性矢量来算出第一特征矢量的、将Sigmoid回归设为输出的一个神经网络模型。

<<应答延迟推定部1124>>

应答延迟推定部1124使用预定的模型所包含的第二模型，根据由对话状态算出部1123算出的第一特征矢量，推定对于用户文章145的应答延迟量。

在本实施方式中，应答延迟推定部1124使用第二模型，基于由对话状态算出部1123算出的第一特征矢量和第二权重参数，算出表示应答延迟量(0或者1)相对于用户文章145的概率分布的后验概率。

第二模型是Sigmoid回归、SVM模型或者朴素贝叶斯分类器这样的概率模型。另外，第二模型也可以是能够根据第一特征矢量推定该应答延迟量的、将Sigmoid回归设为输出的一个神经网络模型。

<<权重更新部1125>>

权重更新部1125基于由应答延迟推定部1124推定出的应答延迟量与学习用数据1011所包含的应答延迟量146之间的误差，对预定模型的第一权重参数和第二权重参数进行更新。

使用图3进行说明，权重更新部1125在学习对象的训练数据141中，基于由应答延迟推定部1124算出的应答延迟量的后验概率以及该训练数据141所包含的附加了数据ID142的应答延迟量146所表示的真值，通过误差逆传播法将预定模型的第一权重参数和第二权重参数更新为适当的数值。也就是说，权重更新部1125更新第一权重参数和第二权重参数，以使得该后验概率与真值之间的预测误差变得最小。此外，权重更新部1125在该预测误差不能减小的情况下，判定为预测误差为最小并结束更新即可。

这样一来，学习部112通过在算出的应答延迟量的后验概率与由训练数据141表示的附加了数据ID 142的真值即应答延迟量146表示的值之间进行误差最小化学习来执行学习处理。

另外，学习部112将学习处理结束时的第一权重参数和第二权重参数(学习参数)作为学习结果信息1131而存储到存储部113。

[说话继续判定装置12]

接着，说明说话继续判定装置12的详细结构。

如图1等所示，说话继续判定装置12具备对话取得部121、推定部122、存储部123、状况取得部124以及判定部125。

<存储部123>

存储部123存储应答延迟推定结果1231、用户状况信息1232以及说话继续判定结果1233。存储部123例如由硬盘驱动器或者固态硬盘等可改写的非易失性存储器构成。此外，之后详细说明用户状况信息1232和说话继续判定结果1233。

<对话取得部121>

对话取得部121取得对话数据，该对话数据包括对用户发出的第一时刻的第一说话语句的文本数据即第一文章、继第一文章之后由用户发出的第二时刻的第二说话语句的文本数据即第二文章以及使第一文章表示的意图结构化而得到的数据即结构化数据。

在本实施方式中，对话取得部121取得存储在存储装置10中的对话数据102。在对话数据102中包含多个系统的说话语句和表示该说话语句的应答的用户的说话语句。此外，对话取得部121例如由CPU、ASIC或者FPGA等处理器构成，通过由CPU等处理器执行保持于计算机的、计算机可读取的程序来实现。

图5是表示第一实施方式涉及的对话数据102的一例的图。图5示出的对话数据102具有表示针对用日语进行的菜单咨询的对话的说话数据。

如图5所示，对话数据102包括附加了数据ID 182的、系统意图183、系统文章184以及用户文章185。另外，对话数据102具有说话数据181，该说话数据181包括一个以上的附加了数据ID 182的系统意图183～用户文章185。换言之，说话数据181是对话数据102所包含的、成为说话继续判定的对象的数据。在图5示出的示例中，将数据ID 182为1的系统意图183、系统文章184以及用户文章185作为说话数据181。

数据ID 182是用于唯一地确定说话数据181的标识符。另外，数据ID 182用于唯一地确定系统意图183～用户文章185的内容。

系统文章184是与系统文章144同样地表示系统发出的一个说话的文章的一个说话语句的文本数据。更具体地说，系统文章184是系统对用户发出的说话语句的文本数据，是第一文章的一例。用户文章185是与用户文章145同样地表示用户发出的一个说话的文章的一个说话语句的文本数据。更具体地说，用户文章185是继系统文章184之后由用户发出的说话语句的文本数据，是第二文章的一例。

系统意图183是与系统意图143同样地将系统文章184表示的意图结构化而得到的数据(结构化数据)。

此外，对话数据102基于从外部输入的多个说话语句而生成。例如，首先，得到系统输出的系统文章184、与系统文章184关联的系统意图183以及对该系统文章184输入的用户文章185。接着，对这些系统意图183、系统文章184以及用户文章185附加唯一的数据ID182。多个说话语句的一个单位即一个说话例如在利用文本聊天系统进行输入的情况下为向对方发送了一次的文本。另外，在利用声音对话系统进行输入的情况下为直到产生成为声音识别的触发的连续的无声区间为止的识别结果。

另外，对话数据102并不限定于保存在位于说话继续判定装置12外部的存储装置10中的情况，也可以是说话继续判定装置12基于从外部输入的用户的说话语句来生成。也就是说，对话数据102既可以由说话继续判定装置12生成，也可以由其它装置生成。

在图5示出的示例中，对话取得部121在将数据ID 182例如表示1的说话数据181作为说话继续的判定对象的情况下，取得系统意图183“是否提问<中華>”、系统文章184“中華でいいですか？”(中文含义：“中餐可以吗？”)以及用户文章185“中華料理を食べたばかりなので、”(中文含义：“由于刚吃了中餐，”)。换言之，对话取得部121取得成为说话继续的判定对象的说话数据181即第一时刻的系统文章184、继该第一时刻之后的第二时刻且继系统文章184之后由用户发出的用户文章185以及将系统文章表示的意图结构化而得到的数据即结构化数据来作为对话数据102。

<推定部122>

推定部122将对话数据适用于反映了通过学习处理装置11进行机器学习而得到的学习结果信息1131的预定的模型，由此推定表示对于第二文章的应答的等待时间的应答延迟量。

更具体地说，推定部122使用反映了存储在存储部113中的学习结果信息1131的预定的模型，对表示作为推定对象的对于用户文章185的等待时间的应答延迟量进行推定。该预定的模型与由学习部112使用的模型为同一构造。另外，推定部122将推定出的应答延迟量作为应答延迟推定结果1231而存储到存储部123。

此外，推定部122例如由CPU、ASIC或者FPGA等处理器构成，通过由CPU等处理器执行保持于计算机的、计算机可读取的程序来实现。

图6是表示第一实施方式所涉及的推定部122的详细结构的一例的框图。对与图1等同样的要素标注同一附图标记。

在本实施方式中，如图6所示，推定部122具备词素解析部1221、特性矢量算出部1222、对话状态算出部1223、应答延迟推定部1224以及应答延迟决定部1225。

<<词素解析部1221>>

词素解析部1221对由对话取得部121取得的对话数据102(说话数据181)所包含的用户文章185的词素进行解析，分割为将词素作为单词的单词，由此转换为单词串。

此外，词素解析的方法如上所述。

<<特性矢量算出部1222>>

特性矢量算出部1222将由词素解析部1221转换而得到的单词串和系统意图143所包含的对话行为以及关键词转换为作为各特性而表现出的语句矢量表现即特性矢量。

此外，向特性矢量的转换方法如上所述。

<<对话状态算出部1223>>

对话状态算出部1223使用学习完成的预定的模型所包含的第一模型，根据由特性矢量算出部1222算出的特性矢量等，算出表示对话状态的第一特征矢量。在本实施方式中，对话状态算出部1223读取存储部123存储的学习结果信息1131，使其反映于第一模型的第一权重参数，基于由特性矢量算出部1222算出的特性矢量和学习完成的第一权重参数，转换为表示对话状态的第一特征矢量。

<<应答延迟推定部1224>>

应答延迟推定部1224使用学习完成的预定的模型所包含的第二模型，根据由对话状态算出部1223算出的第一特征矢量等，推定对于用户文章185的应答延迟量。在本实施方式中，应答延迟推定部1224读取存储部123存储的学习结果信息1131，使其反映于第一模型的第一权重参数，基于由对话状态算出部1223算出的第一特征矢量和学习完成的第二权重参数，算出表示应答延迟量(0或者1)相对于用户文章185的概率分布的后验概率。

<<应答延迟决定部1225>>

应答延迟决定部1225基于由应答延迟推定部1224推定出的应答延迟量的后验概率，决定预测应答延迟量。应答延迟决定部1225将所决定的预测应答延迟量作为应答延迟推定结果1231而存储到存储部123。例如，应答延迟决定部1225将由后验概率表示的应答延迟量的概率值中概率值大的一方决定为预测应答延迟量，并作为应答延迟推定结果1231而存储到存储部123。

图7是表示第一实施方式涉及的应答延迟推定结果1231的一例的图。对与图5同样的要素标注同一附图标记。

如图7所示，应答延迟推定结果1231包括推定结果191，该推定结果191示出对于图5所示的对话数据102所包含的每个用户文章185的预测应答延迟量192。即，各推定结果191包括附加了数据ID 182的、系统意图183、系统文章184、用户文章185以及预测应答延迟量192。在此，预测应答延迟量192是由应答延迟决定部1225所决定的延迟量。例如在图7中，在数据ID 182表示1的推定结果191中，示出有对于系统意图183“是否提问<中華>”、系统文章184“中華でいいですか？”(中文含义：“中餐可以吗？”)、用户文章185“中華料理を食べたばかりなので、”(中文含义：“由于刚吃了中餐，”)的预测应答延迟量192“1”。

<状况取得部124>

状况取得部124取得表示用户的状况的用户状况信息1232。在本实施方式中，状况取得部124至少取得直到经过等待时间为止的时间所包含的用户状况信息1232，并存储到存储部123。用户状况信息1232用于后述的判定部125的说话继续的判定。

图8是表示第一实施方式涉及的用户状况信息1232的一例的图。如图8所示，用户状况信息1232包括数据ID 220、时刻221以及用户状况222。

数据ID 220表示与图7示出的数据ID 182之间的对应关系。编号为“1”的项目表示图7中的表示“1”的数据ID 182的等待时间内的用户的状况。时刻221表示在表示同一编号的数据ID 220中递增的时刻。在图8示出的示例中，时刻221表示在等待时间为5秒的情况下每隔1秒递增的时刻。用户状况222表示时刻221表示的时刻内的用户的状况。而且，用户状况222表示用于通过文本来输入用户的说话的文本输入部中的文本输入栏是否为选择中。

此外，用户状况222并不限定于表示文本输入栏是否为选择中的情况。用户状况222既可以表示用于通过声音来输入用户的说话的集声部中的声音信号是否为输入中，也可以表示用于检测用户的视线的视线检测部中的用户的视线位置是否位于包括提示系统文章184(第一文章)的提示部的装置。另外，用户状况222也可以表示用于检测用户的姿势的姿势检测部中的用户的脸部方向和身体方向是否位于包括提示系统文章184(第一文章)的提示部的装置。而且，用户状况信息1232示出与表示图8所示的用户状况222的文章对应的值。该值表示用户是否为了进行说话继续而进行着一些动作、应答，例如也可以是0或者1。当然，用户状况信息1232也可以用表示用户状况222的文章来表现。

<判定部125>

判定部125根据预测应答延迟量192表示的等待时间内的用户状况信息1232，判定继用户文章185(第二文章)之后用户的说话语句是否继续。更具体地说，判定部125在预测应答延迟量192表示的等待时间为0的情况下，进行表示用户的说话语句并不继续之意的第一判定即可。另一方面，判定部125在预测应答延迟量192表示的等待时间大于0的情况下，在该等待时间内的用户状况信息表示预定的值时，进行表示用户的说话语句为继续之意的第二判定，在该等待时间内的用户状况信息并非是该预定的值时，进行如上所述的第一判定。

图9是表示第一实施方式涉及的判定部125的详细结构的一例的框图。对与图1等同样的要素标注同一附图标记。

在本实施方式中，如图9所示，判定部125具备等待时间生成部1251以及统合判定部1252。此外，判定部125例如由CPU、ASIC或者FPGA等处理器构成，通过由CPU等处理器执行保持于计算机的、计算机可读取的程序来实现。

<<等待时间生成部1251>>

等待时间生成部1251取得存储在存储部123中的应答延迟推定结果1231，根据应答延迟推定结果1231表示的等待时间的有无，使继用户文章185之后的系统文章184的输出延迟。例如，等待时间生成部1251在应答延迟推定结果1231表示的预测应答延迟量为“1”时，生成向“等待状态”的转变命令，向用于输出系统文章的系统进行输出。由此，等待时间生成部1251能够控制该系统，以使得例如以直到经过5秒等预定的等待时间为止不进行继用户文章185之后的系统文章184的输出。

<<统合判定部1252>>

统合判定部1252基于由推定部122推定出的应答延迟推定结果1231所示的等待时间的有无和等待时间内的用户状况信息1232所示的用户状况222，判定用户的说话继续的有无。

例如，统合判定部1252在应答延迟推定结果1231所示的等待时间为0(无等待时间)情况下，判定为没有用户的说话继续(第一判定)，将表示用户的说话继续为否之意的段信息(也称为说话非继续标记)作为说话继续判定结果1233而存储到存储部123。

另外，例如，统合判定部1252在应答延迟推定结果1231所示的等待时间为1或者大于0的情况下(也即是有等待时间的情况下)，还取得存储在存储部123中的、等待时间内的用户状况信息1232。而且，在等待时间内的用户状况信息1232表示预定的值时，判定为存在用户的说话继续(第二判定)，将表示用户的说话继续中之意的片段信息(也称为说话继续标记)作为说话继续判定结果1233而存储到存储部123。此外，统合判定部1252在等待时间内的用户状况信息1232并不表示预定值时，判定为没有用户的说话继续(第一判定)，将说话非继续标记作为说话继续判定结果1233而存储到存储部123。

此外，在等待时间内用户状况信息1232所示的值发生变化的情况下，统合判定部1252在等待时间内的用户状况信息1232所示的值中的很多满足预定值时，判定为等待时间内的用户状况信息1232表示预定值即可。在图8示出的示例中，例如在表示“1”的数据ID182中，5秒钟的等待时间内4秒钟(时刻221表示的“2”～“5”之间)为表示文本输入栏为选择中这一情况的用户状况，因此统合判定部1252判定为等待时间内的用户状况信息1232表示预定值即可。

图10是表示第一实施方式涉及的说话继续判定结果1233的一例的图。对与图7同样的要素标注同一附图标记。

如图10所示，说话继续判定结果1233包括判定结果231，该判定结果231表示对于图7所示的推定结果191所包含的用户文章185的说话继续判定232。即，各判定结果231包括附加了数据ID 182的、系统意图183、系统文章184、用户文章185、预测应答延迟量192以及说话继续判定232。在此，说话继续判定232表示由统合判定部1252判定出的判定结果，示出表示说话继续标记的值“1”或者表示说话非继续标记的值“0”。

[说话继续判定系统1的动作]

接着，说明如以上那样构成的说话继续判定系统1的动作。

图11是表示第一实施方式涉及的说话继续判定系统1的动作概要的流程图。

首先，说话继续判定系统1使用语料库101所包含的学习用数据1011，进行以下学习处理：学习表示直到输出应答语句为止的等待时间即对于用户的说话的应答的等待时间的应答延迟量(S1)。更具体地说，在S1中，首先，学习处理装置11从存储在存储装置10中的语料库101中取得学习用数据1011(S11)。接着，学习处理装置11使用在S11中取得的学习用数据1011来进行用于推定应答延迟量的预定的模型的学习(S12)。然后，学习处理装置11将在S11中学习到的结果即模型的权重等学习参数作为学习结果信息1131进行存储(S13)。

接着，说话继续判定系统1使用S1的学习处理的结果来判定用户的说话继续(S2)。

更具体地说，在S2中，首先，说话继续判定装置12进行推定处理，之后进行判定处理。即，说话继续判定装置12将作为S1的学习处理的结果的学习结果信息1131读出(S21)，并反映于预定模型。接着，说话继续判定装置12取得存储装置10存储的对话数据102(S22)。接着，说话继续判定装置12使用反映了学习结果信息1131的预定模型，推定对于对话数据102所包含的用户文章185的预测应答延迟量192(S23)。接着，说话继续判定装置12取得表示用户的状况的用户状况信息1232(S24)，根据预测应答延迟量192表示的等待时间内的用户状况信息1232，判定用户的说话继续的有无(S25)。

<学习处理装置11的动作>

接着，说明学习处理装置11进行的学习处理(S1)的详细内容。

图12是第一实施方式涉及的学习处理的详细流程图。对与图11同样的要素标注同一附图标记。以下，使用图3等示出的例子进行说明。

首先，学习处理装置11对作为学习对象的全部权重参数进行初始化(S10)。具体地说，学习处理装置11基于伪随机数表来对预定模型所包含的第一模型和第二模型的第一权重参数和第二权重参数(学习参数)进行初始化。

接着，学习处理装置11取得学习用数据1011(S11)。具体地说，学习处理装置11取得存储在存储装置10中的语料库101所包含的多个学习用数据1011中的一个。

接着，学习处理装置11使用在S11中取得的学习用数据1011进行学习(S12)。具体地说，学习处理装置11将在S11中取得的学习用数据1011所包含的应答延迟量146用作教师数据。学习处理装置11使预定的模型使用该教师数据来学习作为学习处理对象的用户文章145与应答延迟量146的关联。

更详细地说，如图12所示，在S12中，首先，学习处理装置11通过对在S11中取得的用户文章145的每一个进行词素解析而转换为单词串(S121)。

接着，学习处理装置11将在S121中得到的单词串以及系统意图143所包含的对话行为与关键词转换为作为各特性而表现出的特性矢量(S122)。

接着，学习处理装置11使用预定的模型，根据在S122中转换而得到的特性矢量，算出表示对话状态的第一特征矢量(S123)。具体地说，学习处理装置11使用预定模型所包含的第一模型，基于在S122中转换而得到的特性矢量和第一权重参数，算出表示对话状态的第一特征矢量。

接着，学习处理装置11使用预定的模型，根据在S123中算出的第一特征矢量，推定对于用户文章145的应答延迟量(S124)。具体地说，学习处理装置11使用预定的模型所包含的第二模型，基于在S123中算出的第一特征矢量和第二权重参数，算出表示应答延迟量(0或者1)相对于用户文章145的概率分布的后验概率。

接着，学习处理装置11使用在S124中推定出的应答延迟量和作为教师数据的学习用数据1011所包含的应答延迟量146来进行学习参数的更新(S125)。具体地说，学习处理装置11根据在S123中算出的应答延迟量相对于用户文章145的后验概率和学习用数据1011所包含的应答延迟量146所示的成为真值(教师数据)的应答延迟量，更新第一和第二权重参数以使得该后验概率与真值的预测误差变得最小。

接着，学习处理装置11判定是否使S12的学习处理结束(S126)。在不使S12的学习处理结束的情况下(S126：“否”)，再次返回至S11而取得下一数据ID 142或者其它学习用数据1011，进行S12的学习处理。也就是说，学习处理装置11对作为学习处理对象的学习用数据1011进行变更，并且直到学习结束为止反复执行。

另一方面，学习处理装置11在使学习处理结束的情况下(S126：“是”)，将表示学习处理的结果的学习结果信息1131存储到存储部113(S13)。具体地说，学习处理装置11将学习处理结束时的第一和第二权重参数(学习参数)作为学习结果信息1131而存储到存储部113。此外，学习处理装置11在即使反复进行学习误差也不再减小的情况下，与真值之间的预测误差为最小而使学习处理结束。

在此，说明例如学习处理装置11对图3示出的学习用数据1011进行学习处理的情况。

学习处理装置11对数据ID 142表示“1”、系统意图143为“是否提问<海鮮丼>”以及用户文章145为“昨日魚を食べたので、”(中文含义为“由于昨天吃了鱼，”)的训练数据141进行学习处理。在该情况下，学习处理装置11使用第一模型，算出将用户文章145所包含的单词“ので”(中文含义为“由于”)以及“、”作为重要特征反映出的第一特征矢量，使用第二模型，根据第一特征矢量，学习将重要特征与应答延迟量进行关联的第一和第二权重参数，以将对于用户文章145的应答延迟量推测为1。而且，每当数据ID 142的值增加时，学习处理装置11依次进行这样的学习处理。

例如，学习处理装置11对数据ID 142表示“4”、系统意图143为“开放提问”、用户文章145为“こんにちわ”(中文含义为“你好”)的训练数据141进行学习处理。在该情况下，学习处理装置11使用第一模型，算出将“开放提问”与“こんにちわ”作为重要特征反映出的第一特征矢量，使用第二模型，根据第一特征矢量，学习使重要特征与应答延迟量进行关联的第一和第二权重参数，以将对于用户文章145的应答延迟量推测为1。

此外，在学习处理装置11对具有图7示出的系统意图183和用户文章185来作为训练数据141的学习用数据1011进行学习处理的情况下也同样。即，学习处理装置11对数据ID182表示“1”而系统意图183为“是否提问<中華>”、用户文章185为“中華料理をたべたばかりなので、”(中文含义为“由于刚吃了中餐，”)的训练数据141进行学习处理。在该情况下，学习处理装置11使用第一模型，算出将用户文章145所包含的单词“なので”(中文含义为“由于”)以及“、”作为重要特征反映出的第一特征矢量，使用第二模型，根据第一特征矢量，学习使重要特征与应答延迟量进行关联的第一和第二权重参数，以将对于用户文章145的应答延迟量推测为1即可。而且，每当数据ID 182的值增加时，学习处理装置11依次进行这样的学习处理即可。

<说话继续判定装置12的动作>

接着，说明说话继续判定装置12进行的说话继续判定的详细内容。

图13是表示图11示出的推定处理的详细内容的流程图。此外，对与图11同样的要素标注同一附图标记。

首先，在S21中，说话继续判定装置12读出作为S1的学习处理的结果的学习结果信息1131，并反映于预定的模型。更具体地说，说话继续判定装置12读入学习结果信息1131，并使其反映于第一模型的第一权重参数和第二模型的第二权重参数。

接着，在S22中，说话继续判定装置12取得存储在存储装置10中的对话数据102。具体地说，用图5示出的示例进行说明，说话继续判定装置12取得对话数据102，该对话数据102包括第一时刻的系统文章184、继系统文章184之后由用户发出的第二时刻的用户文章185以及使系统文章184所示的意图结构化而得到的数据即结构化数据。

接着，说话继续判定装置12通过对在S21中取得的对话数据102的每一个进行词素解析而转换为单词串(S231)。具体地说，说话继续判定装置12将在S21中取得的说话数据181所包含的用户文章185的每一个进行词素解析并分割为单词而转换为单词串。

接着，说话继续判定装置12基于在S231中得到的单词串，算出特性矢量(S232)。具体地说，说话继续判定装置12将在S121中得到的单词串以及在S21中取得的说话数据181的系统意图183所包含的对话行为与关键词转换为作为各特性而表现出的特性矢量。

接着，说话继续判定装置12使用学习完成的预定的模型，根据在S232中算出的特性矢量，算出表示对话状态的第一特征矢量(S233)。具体地说，说话继续判定装置12使用学习完成的第一模型，基于在S232中算出的特性矢量和学习完成的第一权重参数，算出表示对话状态的第一特征矢量。

接着，说话继续判定装置12使用学习完成的预定模型，基于在S233中算出的第一特征矢量来推定预测应答延迟量(S234)。具体地说，说话继续判定装置12使用学习完成的第二模型，基于在S233中算出的第一特征矢量和学习完成的第二权重参数，算出表示应答延迟量相对于用户文章185的概率分布的后验概率。然后，说话继续判定装置12基于在S234中得到的应答延迟量的后验概率，决定预测应答延迟量192，由此推定对于用户文章185的预测应答延迟量。说话继续判定装置12将预测应答延迟量192作为应答延迟推定结果1231而存储到存储部123。

这样一来，说话继续判定装置12基于学习结果信息1131，将对话数据102适用于预定的模型，由此能够推定对于用户文章185的预测应答延迟量192。

接着，说明说话继续判定装置12进行的判定处理。

图14是表示图11示出的判定处理的详细流程的流程图。此外，在图14中特别示出图11示出的S25的详细内容。

首先，说话继续判定装置12读入存储在存储部123中的应答延迟推定结果1231，取得应答延迟推定结果1231示出的等待时间(S251)。

接着，说话继续判定装置12判定在S251中取得的等待时间的有无即等待时间是否大于0(S252)。

说话继续判定装置12在S252中等待时间大于0的情况下(S252：“是”)，取得存储在存储部123中的等待时间内的用户状况信息1232(S253)。具体地说，说话继续判定装置12在等待时间大于0的情况下，首先，对输出系统文章的系统发出转变为等待状态的转变命令。在此，该转变命令还包括与等待时间进行了关联的例如5秒等预定时间或者表示直到经过等待时间为止该系统不进行继用户文章185之后的系统文章184的输出之意的命令。然后，说话继续判定装置12取得存储在存储部123中的等待时间内的用户状况信息1232。此外，说话继续判定装置12如图11示出的S24那样，逐次取得用户状况信息1232而存储到存储部123，但是也可以从S252的判定时或者等待时间开始时起取得用户状况信息1232而存储到存储部123。

接着，说话继续判定装置12判定在S253中取得的、等待时间内的用户状况信息1232是否表示预定值(S254)。

在S254中，等待时间内的用户状况信息1232表示预定值的情况下(S254：“是”)，说话继续判定装置12判定为存在用户的说话继续(第二判定)，输出说话继续标记(S255)。另一方面，在S254中，在等待时间内的用户状况信息1232并不表示预定值的情况下(S254：“否”)，说话继续判定装置12判定为不存在用户的说话继续(第一判定)，输出说话非继续标记(S256)。

另外，在S252中，说话继续判定装置12在等待时间为0的情况下(S252：“否”)，判定为不存在用户的说话继续(第一判定)，输出说话非继续标记(S256)。

此外，如上所述，说话继续判定装置12将说话继续标记或者说话非继续标记作为说话继续判定结果1233而存储到存储部123来输出。

在此，例如，使用图15A～图15C来说明说话继续判定处理的一个技术方案。

图15A和图15B是用于说明第一实施方式涉及的第一判定的一个技术方案的图。图15C是用于说明第一实施方式涉及的第二判定的一个技术方案的图。

在图15A示出的示例中，首先，系统(在图15A、15B、15C中为S:)将系统意图143为“是否提问<中餐>”的系统文章184“中華でいいですか”(中文含义为“中餐可以吗？”)输出给用户，用户(在图15A、15B、15C中为U:)应答为用户文章145“いいえ”(中文含义为“不”)。在图15A示出的示例中，通过用户在文本输入栏中输入“いいえ”并按压<enter>(回车键)来应答一个说话语句。在该情况下，说话继续判定装置12通过推定作为对于用户文章145没有等待时间(等待时间＝0)的预测应答延迟量192来进行第一判定，向系统输出说话非继续标记。然后，系统按照说话非继续标记，继用户文章145“いいえ”(也即是没有等待时间)之后，将系统意图143为“确认提问”的系统文章184“どんな料理が好きですか”(中文含义为“喜欢什么菜”)向用户输出。

在图15B示出的示例中，首先，系统将与图15A同样的系统文章184“中華でいいですか”(中文含义为“中餐可以吗？”)向用户输出，用户应答为用户文章145“それはいらない”(中文含义为“不要这个”)。在图15B示出的示例中，也由用户在文本输入栏中输入“それはいらない”并按压<enter>(回车键)来应答一个说话语句。在该情况下，说话继续判定装置12推定作为对于用户文章145存在等待时间(等待时间>0)的预测应答延迟量，但是在等待时间内取得的用户状况信息1232没有示出预定值，因此进行第一判定而向系统输出说话非继续标记。其原因在于，在图15B示出的示例中，在等待时间内取得的用户状况信息1232示出与用户没有进行新输入操作这一情况对应的、预定值以外的值。然后，系统按照说话非继续标记，在对于用户文章145“それはいらない”的等待时间经过之后，将系统意图143为“确认提问”的系统文章184“どんな料理が好きですか”向用户输出。用户应答对于系统文章184“どんな料理が好きですか”的用户文章145“肉の方がいい”(中文含义为“更喜欢肉”)。

在图15C示出的示例中，首先，系统将与图15A同样的系统文章184“中華でいいですか”向用户输出，用户应答与图15B同样的用户文章145“それはいらない”。在该情况下，说话继续判定装置12推定作为对于用户文章145存在等待时间(等待时间>0)的预测应答延迟量，进而，在等待时间内取得的用户状况信息1232示出预定值，因此进行第二判定，向系统输出说话继续标记。在图15C示出的例子中，由于在等待时间内取得的用户状况信息1232中示出有与用户为输入操作中这一情况对应的预定值。然后，系统按照说话继续标记，在对于用户文章145“それはいらない”的等待时间经过之后，将系统意图143为“向用户说话的联系”的系统文章184“うん？”(中文含义为“嗯？”)向用户输出。在系统文章184“うん？”等的联系的时间内，用户完成输入操作，能够应答用户文章145“肉料理が食べたい”(中文含义：“想吃肉菜”)。

[效果等]

如上所述，根据本实施方式，使用包括过去的系统的说话语句中的系统意图以及对于过去的系统的说话语句的用户说话语句的学习用数据，将对于学习用数据所包含的该用户说话语句的应答延迟量作为教师数据，进行如下学习处理：进行用户说话语句与应答延迟量的关联。由此，能够根据继系统说话语句之后的用户说话语句来高精度地推定应答延迟量。

另外，根据本实施方式，使用学习处理结果来进行对于用户说话语句的应答延迟量的推定，使用推定出的应答延迟量所示的等待时间内的用户状况来判定用户的说话继续的有无。这样，根据本实施方式的说话继续判定方法和说话继续判定装置等，通过两个阶段来判定用户的说话继续，由此能够提高用户的说话继续的判定精度。

由此，系统侧能够防止用户说话内容的漏听等，因此在系统与用户之间能够进行更顺利的交互(interaction)。

(第二实施方式)

接着，作为第二实施方式说明上述说话继续判定装置12的使用方式。

图16是表示第二实施方式涉及的对话系统的结构的一例的框图。该对话系统具有声音识别的功能，包括智能手机等便携终端40以及存在于云上的服务器50。用户能够借助便携终端40通过声音与系统进行基于自然语言的对话。便携终端40和服务器50例如经由因特网等公共通信网络进行连接。

<便携终端40>

便携终端40为智能手机或者平板等。便携终端40具备字符输入装置401、用户状况取得装置402、信号处理部403、输入输出控制部404、通信部405以及应答执行部406。

字符输入装置401是用于输入字符的装置。字符输入装置401例如将键盘输入的结果转换为字符串，将该字符串输出到输入输出控制部404。此外，字符输入装置401为一例，也可以具备麦克风，将通过声音输入的用户的说话转换为字符。

用户状况取得装置402是用于取得表示用户的状况的传感器信息的装置。用户状况取得装置402例如测定键盘、鼠标等的操作状态，将包括其测定结果的传感器信息输出到信号处理部403。此外，用户状况取得装置402还可以具备用于通过声音来输入用户的说话的麦克风等集声部，并被输入该集声部中的声音信号。另外，用户状况取得装置402还可以具备用于检测用户的视线的照相机等视线检测部，检测该视线检测部中的用户的视线位置是否位于便携终端40的显示部。另外，用户状况取得装置402还可以具备用于检测用户的姿势的照相机等姿势检测部，检测该姿势检测部中的用户的脸部方向和身体方向是否是便携终端40的显示部。在这些情况下，该显示部与在第一实施方式中说明的提示部相对应，提示(显示)从服务器50输出的系统文章184(第一文章)。

信号处理部403从用户状况取得装置402取得的传感器信息转换为表示用户是否正在操作键盘、鼠标等的标记信息，并将该标记信息输出到输入输出控制部404。

输入输出控制部404将表示通过字符输入装置401输入的字符串的信号以及表示通过信号处理部403输入的标记信息的信号输出到通信部405。另外，输入输出控制部404将从通信部405接收到的信号输出到应答执行部406。

通信部405将由输入输出控制部404输入的信号转换为具有可通信的格式的通信信号，将得到的通信信号发送到服务器50(通信部405)。另外，通信部405将从服务器50接收到的通信信号输出到输入输出控制部404。

应答执行部406将由输入输出控制部404从服务器50接收到的通信信号所表示的应答语句显示在监视器中。另外，应答执行部406基于由输入输出控制部404从服务器50接收到的信号所表示的应答延迟量，在应答延迟量中示出的等待时间内将应答执行部406为“待机中”这一情况显示于显示器等显示部。

<服务器50>

服务器50具备通信部501、对话历史存储部502、语言理解部503、说话继续判定装置504、对话策略部505、应答生成部506以及说话继续通知装置507。

通信部501接收来自便携终端40的通信信号。通信部501从接收到的通信信号取出表示字符串和标记信息的信号，并输出到对话历史存储部502。另外，通信部501将从说话继续通知装置507和应答生成部506接收到的表示字符串和标记信息的信号转换为具有可通信的格式的通信信号，并将得到的通信信号输出到便携终端40(通信部405)。

对话历史存储部502通过对取出的表示字符串的信号进行解析，生成用户发出的文本数据，并将其与数据ID和当前时刻进行关联并记录。另外，对话历史存储部502通过对取出的表示标记信息的信号进行解析，生成表示是否为用户的文本输入中的用户状况信息，并将所生成的用户状况信息与数据ID和当前时刻进行关联并记录。另外，对话历史存储部502将通信部501从应答生成部506接收到的应答语句及其意图与数据ID和当前时刻进行关联并记录。

语言理解部503使用由对话历史存储部502生成的文本数据，推定表示用户说话语句的意图的对话行为以及关键词，并输出推定结果。

说话继续判定装置504例如为图1示出的说话继续判定装置12，位于上述学习处理已经结束的状态。说话继续判定装置504使用由对话历史存储部502生成的文本数据，生成上述对话数据102，使用该对话数据102进行预测应答延迟量的推定以及说话继续判定，并将说话继续判定结果1233输出到对话策略部505。另外，将等待时间和说话继续标记的产生输出到说话继续通知装置507。

对话策略部505仅在由说话继续判定装置504输出了说话非继续标记的情况下，按时序方式保持由语言理解部503推定出的对话行为以及关键词的结果，基于该时序来输出应该应答的系统侧的对话行为以及关键词。

应答生成部506生成与从对话策略部505接收到的对话行为对应的应答语句。通信部501将所生成的应答语句转换为具有可通信格式的通信信号，并将得到的通信信号发送到便携终端40。

说话继续通知装置507在接收等待时间和说话继续标记的产生时，当位于等待时间内时，将系统正在等待用户输入之意输出到通信部501，当产生了说话继续标记时，将促使用户说话的应答语句输出到通信部501。

这样，在图16示出的对话系统中，服务器50使用在第一实施方式中说明的进行了学习处理后的说话继续判定装置12等，适当地判定用户的说话是否继续。由此，对话系统能够防止用户的说话的漏听等情况，因此能够顺利地进行交互。

以上，说明了实施方式涉及的说话继续判定装置，但是本公开并不限定于该实施方式。

例如，上述实施方式涉及的说话继续判定装置所包含的各处理部典型地实现为作为集成电路的LSI。这些既可以形成为独立的单片，也可以形成为包含一部分或全部的单片。

另外，集成电路化并不限定于LSI，也可以通过专用电路或者通用处理器来实现。也可以使用在LSI制造后能够进行编程的FPGA(Field Programmable Gate Array：现场可编程逻辑门阵列)或者能够重构LSI内部的电路单元的连接、设定的可重构处理器。

另外，本公开也可以作为由说话继续判定装置执行的说话继续判定方法来实现。

另外，在上述各实施方式中，各构成要素由专用的硬件构成或者也可以通过执行与各构成要素相适的软件程序来实现。各构成要素也可以通过CPU或者处理器等程序执行部读出并执行记录于硬盘或者半导体存储器等记录介质中的软件程序来实现。

另外，框图的功能块的分割为一例，也可以将多个功能块作为一个功能块来实现，或者将一个功能块分割成多个，或者将一部分功能转移到其它功能块上。另外，也可以由单一硬件或者软件以并行或者分时地对具有类似的功能的多个功能块的功能进行处理。

另外，执行流程图中的各步骤的顺序是用于具体地说明本公开而例示的顺序，也可以是上述以外的顺序。另外，上述步骤的一部分也可以与其它步骤同时(并行)执行。

以上，基于实施方式说明了一个或者多个技术方案涉及的说话继续判定装置，但是本公开并不限定于该实施方式。只要不脱离本公开的宗旨，在本实施方式中实施本领域技术人员能够得到的各种变形的方式、将不同实施方式的构成要素进行组合而构筑的方式也可以包含在一个或者多个技术方案的范围内。

产业上的可利用性

本公开能够适用于说话继续判定装置，例如能够适当地判定基于声音或者文本的用户的说话是否继续。例如，本公开能够利用于达成用户的任务的呼叫中心、问诊对话或者聊天对话等任务指向或者非任务指向的对话系统装置或者对话系统方式。

标号说明

1、1A：说话继续判定系统；

10：存储装置；

11：学习处理装置；

11A：学习处理装置部；

12、504：说话继续判定装置；

12A：说话继续判定装置部；

40：便携终端；

50：服务器；

101：语料库；

102：对话数据；

111：取得部；

112：学习部；

113、123：存储部；

121：对话取得部；

122：推定部；

141：训练数据；

142、182、220：数据ID；

143、183：系统意图；

144、184：系统文章；

145、185：用户文章；

146：应答延迟量；1

81：说话数据；

192：预测应答延迟量；

221：时刻；

232：说话继续判定；

401：字符输入装置；

402：用户状况取得装置；

403：信号处理部；

404：输入输出控制部；

405、501：通信部；

406：应答执行部；

502：对话历史存储部；

503：语言理解部；

505：对话策略部；

506：应答生成部；

507：说话继续通知装置；

1011：学习用数据；

1131：学习结果信息；

1121、1221：词素解析部；

1122、1222：特性矢量算出部；

1123、1223：对话状态算出部；

1124、1224：应答延迟推定部；

1125：权重更新部；

1225：应答延迟决定部；

1231：应答延迟推定结果；

1232：用户状况信息；

1233：说话继续判定结果；

1251：等待时间生成部；

1252：统合判定部。

Claims

1.一种说话继续判定方法，包括：

对话取得步骤，取得对话数据，所述对话数据包括：第一文章，是对用户发出的第一时刻的第一说话语句的文本数据；第二文章，是继所述第一文章之后由所述用户发出的第二时刻的第二说话语句的文本数据；以及结构化数据，是对所述第一文章表示的意图进行结构化而得到的数据；

推定步骤，将所述对话数据适用于反映了通过机器学习而得到的学习结果信息的模型，由此对表示对于所述第二文章的应答的等待时间的应答延迟量进行推定；

状况取得步骤，取得表示所述用户的状况的用户状况信息；以及

判定步骤，根据所述应答延迟量表示的所述等待时间内的所述用户状况信息，判定继所述第二文章之后所述用户的说话语句是否继续。

2.根据权利要求1所述的说话继续判定方法，

所述用户状况信息表示与以下情况中的至少一个对应的值：

(1)用于通过文本输入所述用户的说话的文本输入部中的文本输入栏是否为选择中；(2)用于通过声音输入所述用户的说话的集声部中的声音信号是否为输入中；(3)用于检测所述用户的视线的视线检测部中的所述用户的视线位置是否位于包括提示所述第一文章的提示部的装置；以及(4)用于检测所述用户的姿势的姿势检测部中的所述用户的脸部方向和身体方向是否为包括提示所述第一文章的提示部的装置。

3.根据权利要求1或2所述的说话继续判定方法，

所述判定步骤中，

在所述应答延迟量表示的等待时间为0的情况下，进行表示所述用户的说话语句不继续之意的第一判定，

在所述应答延迟量表示的等待时间大于0的情况下，在所述等待时间内的所述用户状况信息表示预定的值时，进行表示所述用户的说话语句继续之意的第二判定，在所述等待时间内的所述用户状况信息不表示所述预定的值时，进行所述第一判定。

4.根据权利要求1～3中任一项所述的说话继续判定方法，

所述说话继续判定方法还包括：

学习取得步骤，取得学习用数据，所述学习用数据包括：第三文章，是对所述用户发出的第三说话语句的文本数据；第四文章，是继所述第三文章之后由该用户发出的第四说话语句的文本数据；结构化数据，是对所述第三文章表示的意图进行结构化而得到的数据；以及应答延迟量，表示对于所述第四文章的应答的等待时间；

学习步骤，使用所述学习用数据，使所述模型进行学习；以及

存储步骤，将在所述学习步骤中学习到的结果作为所述学习结果信息进行存储，

在所述学习步骤中，将所述学习用数据所包含的所述应答延迟量作为教师数据，使所述模型学习所述第四文章与所述应答延迟量之间的关联。

5.根据权利要求4所述的说话继续判定方法，

所述模型包括：

第一模型，算出将所述第四文章进行词素解析而得到的单词串所包含的单词以及将所述结构化数据所包含的对话行为和关键词作为特性的第一特性矢量，基于算出的所述第一特性矢量和第一权重参数，输出表现所述第四文章的对话状态的第一特征矢量；和

第二模型，基于所述第一特征矢量和第二权重参数，输出对于所述第四文章的应答延迟量，

在所述学习步骤中，基于由所述第二模型输出的所述应答延迟量与所述学习用数据所包含的所述应答延迟量之间的误差，利用误差逆传播法对所述第一权重参数和所述第二权重参数进行更新，由此使用所述学习用数据使所述模型进行学习。

6.根据权利要求5所述的说话继续判定方法，

所述第一模型具有所述第一权重参数，并具有根据算出的所述第一特性矢量算出第一特征矢量的神经网络，

所述第二模型使用将Sigmoid回归作为输出的神经网络模型、SVM模型即支持向量机模型或者朴素贝叶斯分类器。

7.根据权利要求4～6中任一项所述的说话继续判定方法，

在所述学习取得步骤中，

从语料库中取得所述学习用数据，所述语料库是将对用户发出的说话语句、该说话语句表示的意图的结构化数据、继该说话语句之后由该用户发出的说话语句以及对于由该用户发出的说话语句的应答延迟量进行累积而得到的语料库。

8.根据权利要求1～7中任一项所述的说话继续判定方法，

所述第一文章表示的意图包括通过类别和行为对所述第一文章进行分类而得到的表示所述第一文章的意图的种类的对话行为和所述第一文章所包含的关键词。

9.根据权利要求4～7中任一项所述的说话继续判定方法，

所述第三文章表示的意图包括通过类别和行为对所述第三文章进行分类而得到的表示所述第三文章的意图的种类的对话行为和所述第三文章所包含的关键词。

10.一种说话继续判定装置，具备：

对话取得部，取得对话数据，所述对话数据包括：第一文章，是对用户发出的第一时刻的第一说话语句的文本数据；第二文章，是继所述第一文章之后由所述用户发出的第二时刻的第二说话语句的文本数据；以及结构化数据，是对所述第一文章表示的意图进行结构化而得到的数据；

推定部，将所述对话数据适用于反映了通过机器学习而得到的学习结果信息的模型，由此对表示对于所述第二文章的应答的等待时间的应答延迟量进行推定；

状况取得部，取得表示所述用户的状况的用户状况信息；以及

判定部，根据所述应答延迟量表示的所述等待时间内的所述用户状况信息，判定继所述第二文章之后所述用户的说话语句是否继续。

11.一种记录介质，是计算机可读取的记录了程序的记录介质，所述程序使计算机执行权利要求1所述的说话继续判定方法。