CN109478188A

CN109478188A - 对话系统以及用于其的计算机程序

Info

Publication number: CN109478188A
Application number: CN201780043642.1A
Authority: CN
Inventors: 阿部宪幸; 大西可奈子; 鸟泽健太郎; 卡纳萨·库恩卡莱; 吴钟勋; 饭田龙; 木俵丰
Original assignee: State-Run Research And Development Legal Person Nict
Current assignee: State-Run Research And Development Legal Person Nict
Priority date: 2016-08-16
Filing date: 2017-07-26
Publication date: 2019-03-15
Also published as: JP6819990B2; US20200183983A1; KR102388042B1; US10936664B2; WO2018034118A1; KR20190039079A; JP2018028752A

Abstract

提供不管话题如何都能与用户进行自然的对话的对话系统。对话系统(30)包含：提问生成部(120)，其接受来自用户的输入句(100)，使用修饰被修饰关系来生成利用了输入句(100)中所含的表达的提问；回答取得部(122)，其将由提问生成部(120)生成的提问输入到提问‑应答系统(104)，从提问‑应答系统(104)取得针对该提问的回答；和发声生成部(124)，其基于回答取得部(122)取得的回答来生成正对输入句(100)的输出句(106)。

Description

对话系统以及用于其的计算机程序

技术领域

本发明涉及在与用户之间进行对话的对话系统，特别涉及能进行自然的对话的对话系统。

背景技术

关于计算机与用户进行对话的系统，到目前为止进行过许多尝试。最简单的是预先准备决定了对话的规则的脚本，计算机按照该脚本进行发声。在脚本中包含被任意的单词置换的变量，通过对用户的发声进行声音识别，来从那里提取某些单词来置换该变量，从而进行应答。如稍后会知道的那样，这样的对话系统由于脚本的数量受到限制，因此应答的模式(pattern)也受到制约。由于对话中会产生的情况的数量是无限的，因此不能在这样的系统中进行自然的对话。

另外，还有对众多对话数据中的句的修饰被修饰关系进行解析，利用其结果的方案。例如对某句进行解析的结果，从“由于今天买了游戏机，因此玩MARCOCARGO”(“MARCOCARGO”设为游戏的名字)这句提取“(今天)买了游戏机”和“玩MARCOCARGO”的组合，作为模式存储。对话时，若在用户发声中出现“今天买了游戏机”这样的表达，就提取与该表达建立对应的“玩MARCOCARGO”这样的表达，进行词尾变换，例如生成“能打MARCOCARGO呢”这样的系统发声。

进一步，在其他的解决方案中，从用户的发声提取关键词，进行关键词检索并将其结果用在系统发声的生成中。例如若用户发声“今天买游戏机”，则以“游戏机”和“买”为关键词对WEB进行检索，收集多个文书，提取其中与关键词接近地出现的单词(例如“MARCOCARGO”)。将单词嵌套在预先准备的模板来生成系统发声。

但这些都有不能正确理解用户发声或WEB上的句的修饰被修饰的意义上的关系(原因、结果、并列等)的问题。由此，有时会生成不合适的系统发声。例如以“去秋叶原卖游戏机，吃拉面。”这样的发声为例。从发声提取“买游戏机”这样的表达和“吃拉面”这样的表达，将两者姑且建立关系。但对话时，若针对“今天买游戏机”这样的用户发声仅基于该关系生成“能吃拉面了”这样的系统发声，通常就不能理解，不能维持自然的对话。

在使用关键词检索的情况下，由于检索结果的文书所包含的单词的词汇过多，因此在检索结果中不需要的信息多，难以提取本来想要的信息。另外，由于利用基于用户发声中所含的关键词的检索结果，因此不能控制系统侧的发声意图(例如是否希望给用户提供信息，是否希望说出感想，是否希望共鸣等)。

在后述的专利文献1中给出了用于解决这样的问题的提案。专利文献1记载的声音对话系统包含：声音识别装置，其识别用户的发声；意图理解部，其为了理解该发声的意图，理解希望知道特定的领域中的怎样的信息，使用预先学习完毕的意图理解模型以及问题解决知识来理解发声的意图；和对话管理部，其为了生成与该意图对应的应答句，从信息源取得用于应答的信息。在专利文献1中，作为该信息源而能举出因特网上的特定的WEB网站和保存了与各种电影相关的人们的感想的感想数据库，并对应于发声者的意图而选择任意一方。例如若用户的发声是希望知道电影的导演，就在WEB网站上检索该电影的导演。若用户的发声是希望知道电影的感想，就检索感想数据库来取出与该电影相关的他人的感想。

专利文献1记载的声音对话系统进一步包含记述了在被输入各种意图时应进行怎样的交互的对话的流程的对话剧本。

该系统进一步包含：使用对话管理部从信息源取得的信息生成针对发声者的发声的应答句的应答句生成部；将应答句生成部生成的应答句进行声音合成来生成声音信号的声音合成部；和将该声音信号变换成声音的扬声器。

现有技术文献

专利文献

专利文献1：JP特开2016-99381号公报(图2)

发明内容

发明要解决的课题

上述的专利文献1记载的系统虽然从大的范围收集针对用户的回答，但其范围被限定在特定的领域(例如电影)。而且，在对方的发声是提问且能容易地判定其意图的情况下，虽然有能生成有意义的应答的可能性，但在并非这样的情况下，有完全无法预测怎样进行了应答的问题。本来，用户只能发出提问的对话就很难说是自然的对话。为此在该系统中不能与用户进行自然的对话。

因此，本发明的目的在于，提供不管发声的话题如何都能基于用户的发声与用户进行自然的对话的对话系统。

用于解决课题的手段

本发明的第1方面所涉及的对话系统包含：包含：参数生成单元，其接受来自用户的输入发声，使用该输入发声中所含的表达来生成用于利用提问-应答系统的参数；回答取得单元，其将由参数生成单元生成的参数输入到提问-应答系统，取得针对该参数的回答；和应答生成单元，其基于回答取得单元取得的回答来生成针对输入发声的应答。

优选地，参数生成单元包含：发声解析单元，其对输入发声进行词素解析以及句法解析；主题估计单元，其根据由发声解析单元解析的结果来估计输入发声的主题；和仿真陈述型提问生成单元，其基于由主题估计单元估计的主题来生成包含构成该主题的部分表达的仿真陈述型提问。

更优选地，参数生成单元包含：部分表达确定单元，其根据由发声解析单元解析的结果来确定代表输入发声的部分表达；和非仿真陈述型提问生成单元，其基于由部分表达确定单元确定的部分表达来生成非仿真陈述型提问。

进一步优选地，可以，应答生成单元包含：发声候补生成单元，其通过对回答运用预先准备的发声生成规则来生成发声候补；和发声整形单元，其对发声候补按照预先准备的发声整形规则进行整形，来生成针对输入发声的应答。

进一步优选地，提问-应答系统针对1个参数输出多个回答，应答生成单元包含：发声候补生成单元，其通过对多个回答各自运用预先准备的发声生成规则来生成多个发声候补；和发声整形单元，其选择多个发声候补的任一者，按照预先准备的发声整形规则进行整形，来生成针对输入发声的应答。

应答生成单元可以包含：发声生成模型，其预先进行了学习，使得若被提供针对提问的回答，则从该回答来生成发声；和发声整形单元，其按照预先准备的发声整形规则对发声生成模型生成的发声进行整形，来生成针对输入发声的应答。

提问-应答系统可以针对1个参数输出多个回答，应答生成单元包含：发声生成模型，其预先进行了学习，使得若被提供针对提问的回答，则从该回答来生成发声；和发声整形单元，其选择发声生成模型针对多个回答各自生成的发声的任一者，按照预先准备的发声整形规则进行整形，来生成针对输入发声的应答。

本发明的第2方面所涉及的计算机程序使计算机作为上述的任意的对话系统发挥功能。

附图说明

图1是表示本发明的第1实施方式所涉及的对话系统的整体结构的框图。

图2是表示第1实施方式所涉及的对话系统的输入句-应答句对收集部的概略结构的框图。

图3是表示第1实施方式所涉及的对话系统的什么型提问/对话学习文集构建部的概略结构的框图。

图4是表示第1实施方式所涉及的对话系统的模式比对部的概略结构的框图。

图5是表示第1实施方式所涉及的对话系统的为什么型提问/对话学习文集构建部的概略结构的框图。

图6是表示第1实施方式所涉及的对话系统的提问生成部的概略结构的框图。

图7是表示第1实施方式所涉及的对话系统的发声生成部的概略结构的框图。

图8是表示第2实施方式所涉及的对话系统的提问生成部的概略结构的框图。

图9是表示第2实施方式所涉及的对话系统的发声生成部的概略结构的框图。

图10是表示第3实施方式所涉及的对话系统的发声生成部的概略结构的框图。

图11是表示第4实施方式所涉及的对话系统的整体结构的框图。

图12是用于实现本发明的各实施方式所涉及的对话系统的计算机系统的外观图。

图13是表示图12中示出外观的计算机系统的内部结构的框图。

具体实施方式

在以下的说明以及附图中对相同部件标注相同参考编号。因此，不再重复对其的详细的说明。另外，在以下的实施方式中，作为仿真陈述型的提问而处置什么型提问，作为非仿真陈述型的提问而处置为什么型提问。但本发明并不限定于这样的实施方式。例如仿真陈述型的提问只要是对事实进行询问的提问(例如与“谁”、“何时”、“哪里”等相伴的提问)，就可以是任何类型。作为非仿真陈述型的提问，除了为什么型以外还可以设为“变成怎样”型、“如何”型等的提问。

[第1实施方式]

<结构>

参考图1，本发明的第1实施方式所涉及的对话系统30包含：提问生成模型构建部50，其与因特网70连接，用于进行什么型提问生成模型82以及为什么型提问生成模型92的训练；和对话装置102，其从来自用户的输入句100使用什么型提问生成模型82以及为什么型提问生成模型92生成一系列提问，并接收来自提问-应答系统104的其应答，使用该应答来生成并输出针对输入句100的输出句106。

<提问生成模型构建部50>

提问生成模型构建部50包含：输入句-应答句对收集部72，其与因特网70连接，从在因特网70上的WEB以及SNS等中大量用户所进行的对话中大量收集某句(将其称作“输入句”)和针对输入句的应答句所构成的对(输入句-应答句对)；和输入句-应答句对存储部74，其存储输入句-应答句对收集部72收集的大量的输入句-应答句对。

提问生成模型构建部50还包含：什么型提问/对话学习文集构建部76，其基于存储于输入句-应答句对存储部74的大量的输入句-应答句对来构建什么型提问/对话学习文集78；和什么型提问生成模型训练部80，其使用什么型提问/对话学习文集78来训练什么型提问生成模型82。

提问生成模型构建部50还包含：为什么型提问/对话学习文集构建部86，其基于存储于输入句-应答句对存储部74的大量的输入句-应答句对来构建为什么型提问/对话学习文集88；和为什么型提问生成模型训练部90，其使用为什么型提问/对话学习文集构建部86来训练为什么型提问生成模型92。

《输入句-应答句对收集部72》

参考图2，输入句-应答句对收集部72包含：候补句对收集部130，其从因特网70大量收集输入句-应答句对的候补(候补句对)；长度检查部132，其仅将候补句对收集部130收集的候补句对当中应答句的长度为给定长度以下的候补句对作为输入句-应答句对采用，丢弃这以外的候补句对；词素解析部134，其进行由长度检查部132采用的输入句-应答句对的各个句的词素解析；和句法解析部136，其进行各个句的句法解析，将附加了词类信息以及句法信息的输入句-应答句对存放到输入句-应答句对存储部74。在本实施方式中，长度检查部132仅采用应答句中所含的单词数不足15的输入句-应答句对。

《什么型提问/对话学习文集构建部76》

参考图3，什么型提问/对话学习文集构建部76包含：含意关系辞典140，其存储“玩(play)”包含“玩耍”的意思这样的表示谓语间的含意关系或同义词关系的信息；二元模式辞典142，其大量存储“用A玩B。”那样由2个变量(A、B)和谓语构成的表达即二元模式、和在实际的文集中与该二元模式共现的相当于变量A以及B的单词的对所构成的组合(将其称作“二元三重”)；和模式比对部150，其对从输入句-应答句对存储部74读出的各个输入句-应答句对，针对输入句中所含的单词与应答句中所含的单词的组合，判定在二元模式辞典142中是否存在包含与该组合一致的单词的组合的二元三重，若存在，就采用该输入句-应答句对和一致的二元三重，若不存在，则什么都不进行(丢弃)。

例如考虑输入句是“买了游戏机啦”，应答句是“能进行MARCOCARGO啦”的情况。在二元三重中有二元模式＝“能用A进行B啦”、A＝“游戏机”、B＝“MARCOCARGO”的情况下，采用该输入句与应答句的组合。二元三重也一起输出。若非如此，则输入句与应答句的组合被丢弃。另外，二元模式辞典根据与提问/对话学习文集不同的文集来作成。

什么型提问/对话学习文集构建部76还包含：清理部152，其使用含意关系辞典140以及二元模式辞典142，丢弃从模式比对部150输出的各候补句对当中是噪声的可能性高的对，仅采用这以外的对进行输出；提问句生成部154，其基于由清理部152采用的输入句-应答句对，参考存储于提问生成规则存储部146的提问生成规则来生成提问句；记录作成部156，其对由提问句生成部154生成的各个提问句作成要和附属的信息一起追加到文集的记录；和文集追加部158，其将由记录作成部156作成的记录追加到什么型提问/对话学习文集78。

记录作成部156作成的记录的格式例如如表格1那样。在什么型提问/对话学习文集78中也以该形式存储各记录。

[表1]

表格1

参考图4，图3所示的清理部152包含：长度检查部132，其丢弃从输入句-应答句对存储部74读出的各输入句-应答句对当中应答句中所含的单词为15个以上的对，采用剩余的对；谓语提取部170，其提取长度检查部132所采用的输入句-应答句对当中应答句中所含的谓语；谓语匹配部172，其参考含意关系辞典140，将含意关系/同义词关系包括在内地对由谓语提取部170提取的谓语和二元模式辞典142中所含的各二元模式中的谓语进行匹配；和对选择部174，其在由谓语匹配部172在二元模式辞典142中发现匹配的二元模式的情况下，将按照处理中的输入句-应答句对、从该对提取的谓语和匹配的二元模式从输入句-应答句对选择的1组的单词所构成的模式选择为学习用的对，并提供给提问句生成部154。在此，设为在二元模式辞典142中只要有一个匹配，就采用该对。

在此，所谓“进行匹配”是指如下那样的情况。考虑二元模式是“用A玩B”的情况。该二元模式包含“玩B”这样的1个变量与1个谓语的组合。通过将该变量B用对应的变量(例如“游戏”)进行置换，能做出“玩游戏”这样1个单词与1个谓语的组合。将其称作“从二元模式生成的一元短语”或仅称作“一元短语”。在输入句-应答句对当中的应答句包含该一元短语的情况下，称为该应答句与成为该一元短语的基础的二元模式匹配。在应答句具有将谓语部分用有含意关系或同义关系的单词置换的一元模式的情况也同样。

《为什么型提问/对话学习文集构建部86》

参考图5，为什么型提问/对话学习文集构建部86包含：部分表达提取部190，其从输入句-应答句对存储部74读出输入句-应答句对，从输入句参考修饰被修饰信息等来提取代表该对的主题的部分表达；和提问句生成部192，其通过对由部分表达提取部190提取的部分表达实施给定的变形来生成提问句。提问句生成部192所进行的变形例如通过将“为什么”、“变成怎样”、“如何”等表达附加在部分表达来进行。

为什么型提问/对话学习文集构建部86还包含：提问/回答系统196；回答取得部194，其通过将由提问句生成部192生成的提问句提供给提问/回答系统196，来从提问/回答系统196取得回答；对选择部198，其在提供给提问/回答系统196的提问句和来自提问/回答系统196的回答句包含一定量以上的共通的单词时，选择处理对象的输入句-应答句对，将这以外的输入句-应答句对丢弃；记录作成部200，其从由对选择部198选择的输入句-应答句对作成要存放到为什么型提问/对话学习文集88的记录；和文集追加部202，其将由记录作成部200作成的记录追加到构成为什么型提问/对话学习文集88的数据库。

为什么型提问/对话学习文集88的记录结构在本实施方式中如表格2记载的那样。

[表2]

表格2

<对话装置102>

《提问生成部120》

参考图6，图1所示的对话装置102的提问生成部120包含：词素解析部230，其对输入句100进行词素解析；和句法解析部232，其对由词素解析部230进行了词素解析的输入句100进行句法解析，附加句法解析信息并输出。

提问生成部120还包含：什么型提问用特性提取部234，其从由句法解析部232附加了句法解析信息的输入句100提取什么型提问用的特性；什么型提问生成部236，其基于通过将由什么型提问用特性提取部234提取的特性所构成的特性矢量输入到什么型提问生成模型82而从什么型提问生成模型82输出的提问的假设和似然信息来生成什么型提问；为什么型提问用特性提取部240，其从输入句100提取为什么型提问用的特性；为什么型提问生成部242，其基于通过将从为什么型提问用特性提取部240提取的特性所构成的特性矢量输入到为什么型提问生成模型92而从为什么型提问生成模型92输出的提问的假设和似然信息来生成为什么型提问；和提问存储部244，其存储由什么型提问生成部236生成的什么型提问和由为什么型提问生成部242生成的为什么型提问。

《发声生成部124》

参考图7，图1所示的对话装置102的发声生成部124包含：发声生成规则存储部262，其预先存储用于从提问句生成发声候补的多个规则；发声候补生成部260，其对从回答取得部122提供的回答运用存储于发声生成规则存储部262的发声生成规则来生成多个发声候补；发声候补存储部264，其存储发声候补生成部260生成的发声候补；排序部266，其按照某基准对存储于发声候补存储部264的发声候补进行打分，并进行排序；发声选择部268，其选择由排序部266最高排序的发声候补；和发声整形部270，其通过加进适于对话的口语性的表达等对由发声选择部268选择的发声进行整形，生成输出句106。发声整形部270所进行的整形例如是在词尾附加“哟！”或“呢！”这样的口语性的词尾。

排序部266所进行的排序例如如以下那样进行。在对从提问-应答系统104送到回答取得部122的应答中附加表示该应答相对于提问合适到何种程度的分数。另一方面，在存储于图7所示的发声生成规则存储部262的发声生成规则预先赋予它们的重要度作为权重。排序部266基本基于两者的积来进行排序。另外，虽未图示，但也可以使用语言模型对各个发声候补来打分发声的自然度，进一步使用其来进行排序。

[动作]

上述的对话系统30如以下那样动作。对话系统30大致划分而具有学习阶段和服务阶段这2个动作阶段。

<学习阶段>

在学习阶段中说明什么型提问生成模型82以及为什么型提问生成模型92的学习。

图1所示的提问生成模型构建部50如以下那样动作。参考图2，输入句-应答句对收集部72的候补句对收集部130巡视因特网70上的各种WEB网站(特别是投稿和针对其的应答成为主要的内容的网站)，收集输入句和针对其的应答句所构成的候补句的对。将收集的候补句的对提供给词素解析部134。

词素解析部134对提供来的候补对内的输入句和应答句双方进行词素解析，将得到的词素串提供给句法解析部136。句法解析部136对各对中所含的输入句和应答句双方的词素串进行句法解析，将附带句法解析结果的对存放在输入句-应答句对存储部74。

参考图3，什么型提问/对话学习文集构建部76的模式比对部150提取存在于从输入句-应答句对存储部74读出的候补句对的输入句以及应答句的各自中的单词，判定在存储于二元模式辞典142的二元对当中是否有与提取的单词的组合一致的二元对。若有，则模式比对部150将该候补句对和与一致的二元对对应的二元模式一起提供给清理部152。若没有这样的二元对，二元模式辞典142对该候补句对什么都不做(丢弃)。

参考图4，长度检查部132判定候补句对当中应答句的长度是否是15单词以上。长度检查部132将应答句15单词以上的候补句对丢弃，将不足15单词的候补句提供给提问句生成部154。谓语提取部170提取从二元模式辞典142提供的输入句-应答句对当中的应答句中所含的谓语，并将其提供给谓语匹配部172。谓语匹配部172在二元模式辞典142内检索包含与该谓语一致的谓语的二元模式。谓语匹配部172这时不仅参考提取的谓语，还参考含意关系辞典140，对与提取的谓语处于含意关系的单词(不管含意关系的上下)或处于同义关系的单词也在二元模式辞典142内检索相符的二元模式。

若有相符的二元模式，则谓语匹配部172将其结果提供给对选择部174，若没有，则对选择部174将表示没有相符的二元模式的结果提供给对选择部174。对选择部174在有相符的二元模式的情况下，将该输入句-应答句对提供给提问句生成部154，在没有的情况下，什么都不做(丢弃)。

通过模式比对部150以及清理部152的这样的处理，能避免用于进行什么型提问/对话学习文集78的学习的文集成为有噪声的。当然也可以不对学习数据进行这样的清理处理。

参考图3，提问句生成部154若从清理部152接受输入句-应答句对，就运用存储于提问生成规则存储部146的提问生成规则当中能运用的提问生成规则来作成提问句。这时可以作成多个提问句。由于二元模式是单纯的模式，因此提问生成规则可以比较简单。例如在“用A玩B。”这样的二元模式的情况下，如“用A玩什么？”、“用什么玩B？”那样将变量的一部分置换成疑问词，若有需要，就将句的末尾变形得像疑问句即可。

记录作成部156在构成输入句-应答句对的输入句和应答句、二元对、输入句-应答句对内将相当于二元对的变量的单词的对、提问句以及提问的类型汇总并作成给定的形式的记录，提供给文集追加部158。文集追加部158将该记录追加到什么型提问/对话学习文集78。

图1所示的什么型提问生成模型训练部80从存储于该什么型提问/对话学习文集78的大量记录作成用于训练什么型提问生成模型82的学习数据，训练什么型提问生成模型82。该训练为了将什么型提问生成模型82训练为若被提供输入句就生成提问句的假设和其似然信息的统计模型而进行。关于该学习中使用怎样的特性，这里虽未详细，但该模型基本能考虑为以输入句为源语言、以提问句为目标语言的翻译模型。因此，能用与机器翻译中的翻译模型同样的特性，运用相同的技术来进行训练。当然在该情况下，虽然需要对输入句和提问句双方分别作成语言模型等与通常的翻译中使用的模型同样的模型，但为了易于看图而这里不对它们进行图示。另外，该模型能以与机器翻译同样的机制训练，但由于源语言和目标语言是相同语言，因此在使用该模型来生成提问句的情况下，通常输入句的部分表达(单词、单词串、谓语等)也出现提问句中。这样的性质不仅在什么型提问生成模型82中，在其他模型的源语言和目标语言相同的模型中也共通地出现。

参考图5，图1所示的为什么型提问/对话学习文集构建部86如以下那样动作。部分表达提取部190从输入句-应答句对存储部74一个一个地读出输入句-应答句对，从输入句使用修饰被修饰关系提取表征该对的主题的部分，提供给提问句生成部192。提问句生成部192通过对由部分表达提取部190提取的部分表达实施给定的变形来生成提问句。提问句生成部192所进行的变形例如通过将“为什么”、“会怎样”、“如何”等表达附加在部分表达来进行。

进而，回答取得部194通过将由提问句生成部192生成的提问句提供给提问/回答系统196，来从提问/回答系统196取得回答，并提供给对选择部198。对选择部198在提供给提问/回答系统196的提问句和来自提问/回答系统196的回答句包含一定量以上的共通的单词时，选择处理对象的输入句-应答句对。对选择部198对这以外的输入句-应答句对什么都不做(丢弃)。记录作成部200与图3所示的什么型提问/对话学习文集构建部76的记录作成部156同样地，从由对选择部198的选择的输入句-应答句对作成要存放到为什么型提问/对话学习文集88的记录。文集追加部202将由记录作成部200作成的记录追加到构成为什么型提问/对话学习文集88的数据库。

若为什么型提问/对话学习文集88完成，为什么型提问生成模型训练部90使用该为什么型提问/对话学习文集88进行为什么型提问生成模型92的训练。为什么型提问生成模型92是若被提供输入句就输出针对该输入句的为什么型的提问的假设和其似然信息的统计模型。因此为什么型提问生成模型训练部90使用为什么型提问/对话学习文集88的各输入句作为输入，使用为什么型提问/对话学习文集88的提问句作为教师数据，来进行为什么型提问生成模型92的学习。该模型也基本考虑为将输入句设为源语言、将提问句设为目标语言的翻译模型。翻译时所需的语言模型也在输入句和提问句双方需要，但这里为了简略说明而并未图示。

若什么型提问生成模型82以及为什么型提问生成模型92的训练完成，就能由对话装置102进行对话动作。

另外，关于这以外的模型，也都是统计模型，能与上述同样地进行训练。虽然作为训练中的特性而使用什么特性会成为问题，但考虑按照通常的自然语言处理使用单词n-gram、词类n-gram、句法解析树的路径上的单词n-gram或词类n-gram等。作为教师数据，通常人工给出正解。当然，如果存在能估计相当于教师数据的数据的程序工具，就也能使用它们来充实训练数据。

<对话装置102进行的对话>

参考图6，若从用户提供输入句100，则提问生成部120的词素解析部230对该输入句100进行词素解析。句法解析部232基于词素解析部230输出的词素串来进行句法解析，将其结果提供给什么型提问用特性提取部234和为什么型提问用特性提取部240。

什么型提问用特性提取部234从由句法解析部232附加了句法解析信息的输入句100提取什么型提问用的特性。什么型提问生成部236基于通过将由什么型提问用特性提取部234提取的特性所构成的特性矢量输入到什么型提问生成模型82而从什么型提问生成模型82输出的提问的假设和似然信息来生成什么型提问。与此并行，为什么型提问用特性提取部240从输入句100提取为什么型提问用的特性。为什么型提问生成部242基于通过将从为什么型提问用特性提取部240提取的特性所构成的特性矢量输入到为什么型提问生成模型92而从为什么型提问生成模型92输出的提问的假设和似然信息来生成为什么型提问。提问存储部244将由什么型提问生成部236生成的什么型提问和由为什么型提问生成部242生成的为什么型提问一起进行存储。

参考图7，在发声生成部124的发声生成规则存储部262预先存储用于从提问句生成发声候补的多个规则。发声候补生成部260对从回答取得部122给来的回答运用存储于发声生成规则存储部262的发声生成规则来生成多个发声候补。发声候补存储部264存储发声候补生成部260生成的发声候补。排序部266按照某基准对存储于发声候补存储部264的发声候补进行排序。发声选择部268选择由排序部266最高排序的发声候补。发声整形部270通过在由发声选择部268选择的发声加进适于对话的口语性的表达等来进行整形，生成输出句106。

如以上那样，根据本实施方式，不是仅从认为与输入句关联的信息生成输出句。从输入句暂且生成提问句并提供给提问-应答系统，来得到其回答。该提问从用户发声除去不需要的信息而生成，且是基于在WEB上频繁看得到的信息的提问，因此明确表征输入句中的用户的发声意图。提问-应答系统对该提问输出具有合适的关系的回答。使用该回答来生成针对用户发声的输出句。通过生成提问来合适地捕捉用户发声与系统发声的关系，能合适地控制对话的流程。

[第2实施方式]

在第1实施方式中，提问生成根据提问生成规则进行。提问生成由于比较易于规则化，因此还能如此使用提问生成规则。但本发明并不限定于使用提问生成规则的第1实施方式。可以不根据规则而是根据统计模型来进行提问生成。第2实施方式具有这样的结构。另外，在该第2实施方式中，取代图6所示的提问生成部120而使用图8所示的提问生成部300，取代图7所示的发声生成部124而使用图9所示的发声生成部350。在其他点上，第2实施方式都与第1实施方式的各部同样。

参考图8，该提问生成部300包含：为了接受输入句100而连接的词素解析部230；和为了接受词素解析部230的输出而连接的句法解析部232。提问生成部300还包含：主题估计用模型310，其预先在统计上进行学习；主题估计部312，其根据附带从句法解析部232输出的句法解析信息的输入句100来生成给定的特性矢量，参考主题估计用模型310来估计输入句100的主题；什么型提问生成用模型316，其预先训练完毕，使得若被赋予对话的主题，就基于该主题将什么型提问的假设和它们的似然信息一起输出；和什么型提问生成部314，其从主题估计部312输出的主题提取特性，使用什么型提问生成用模型316来生成什么型提问。

提问生成部300还包含：部分表达估计用模型320，其预先训练完毕，使得若被赋予从附带句法解析信息的输入句100得到的给定的特性矢量，就输出输入句100中所含的一元短语的部分表达的假设和其似然信息；和部分表达确定部322，其从由句法解析部232输出的附带句法解析信息的输入句100提取给定的特性，作为特性矢量提供给部分表达估计用模型320，基于其输出的部分表达假设和其似然信息来确定输入句100内的部分表达。

提问生成部300还包含：为什么型提问生成用模型326，其预先训练完毕，使得若被提供从部分表达提取的给定的特性，就输出用于基于该部分表达生成合适的为什么型提问的提问假设和它们的似然信息；为什么型提问生成部324，其从由部分表达确定部322确定的部分表达提取特性并提供给为什么型提问生成用模型326，基于该输出来生成用于对应于输入句100合适地控制对话的为什么型提问；和提问存储部244，其存储由什么型提问生成部314生成的提问以及由为什么型提问生成部324生成的提问。

另一方面，参考图9，该第2实施方式中的发声生成部350包含：发声生成模型362，其预先学习完毕，使得若被提供某些句作为发声的材料，就输出基于该句对用户输出的发声的假设和它们的似然信息；发声候补生成部360，其若从回答取得部122(参考图1)被提供来自提问-应答系统104(参考图1)的回答，就将该回答输入到发声生成模型362，基于发声生成模型362输出的发声假设和似然信息来生成发声候补；和以用于存储由发声候补生成部360生成的发声候补的发声候补存储部264为首与图7所示同样地连接的排序部266、发声选择部268以及发声整形部270。

该第2实施方式所涉及的系统如以下那样动作。在此仅说明提问生成部300以及发声生成部350的动作。

若输入句100被提供给图8所示的提问生成部300的词素解析部230，词素解析部230就对输入句100进行词素解析，并将词素串提供给句法解析部232。句法解析部232对该词素串进行句法解析，并将附带句法解析信息的输入句100提供给主题估计部312以及部分表达确定部322。

主题估计部312从该句法解析信息和输入句100提取提供给主题估计用模型310的特性，以特性矢量的形式提供给主题估计用模型310，基于该输出的主题的假设和似然信息来估计输入句100的主题。主题估计部312将该主题提供给什么型提问生成部314。什么型提问生成部314基于该主题而得到用于什么型提问生成用模型316的特性，以特性矢量的形式提供给什么型提问生成用模型316。什么型提问生成部314基于从什么型提问生成用模型316输出的提问的假设和似然信息来生成什么型提问，并存储到提问存储部244。

另一方面，部分表达确定部322从由句法解析部232提供的句法解析信息和输入句100提取用于估计部分表达的特性，以特性矢量的形式提供给部分表达估计用模型320。部分表达估计用模型320基于该特性矢量输出输入句100内的部分表达的假设和它们的似然信息。部分表达确定部322基于似然信息来估计部分表达，将该部分表达提供给为什么型提问生成部324。为什么型提问生成部324基于该部分表达来作成用于生成为什么型提问的特性矢量，提供给为什么型提问生成用模型326。为什么型提问生成用模型326若被提供特性矢量，就输出为什么型提问的假设和它们的似然信息。为什么型提问生成部324基于该提问的假设和似然信息来生成提问候补，并存储到提问存储部244。另外，什么型提问生成部314以及为什么型提问生成部324的每一个均生成多个提问候补。

图1所示的回答取得部122通过将这多个提问提供给提问-应答系统104而从提问-应答系统104得到多个应答。提问-应答系统104将这些应答提供给图9所示的发声生成部350的发声候补生成部360。发声候补生成部360从这些应答各自提取用于发声生成模型362的特性矢量，提供给发声生成模型362，基于其输出的发声假设和它们的似然信息来生成发声候补。发声候补生成部360使基于发声生成模型362的输出生成的发声候补存储到发声候补存储部264。另外，对基于发声生成模型362输出的发声假设和似然信息而生成的各个发声候补由发声生成模型362附加分数。该分数是表示相对于被赋予的特性矢量而发声候补合适到何种程度的值。

排序部266、发声选择部268以及发声整形部270的动作与第1实施方式同样。另外，排序部266所进行的排序也与第1实施方式同样，在该第2实施方式中，不是使用发声规则的重要度，而是使用发声生成模型362对各发声候补附加的分数，在这点上不同。进而在本实施方式中，对提供给提问-应答系统104的提问，也在提问生成部300中通过主题估计用模型310、什么型提问生成用模型316、部分表达估计用模型320以及为什么型提问生成用模型326附加分数。因此，可以使这些分数反映到最终的发声候补的评分。

[第3实施方式]

在第2实施方式中使用发声生成模型362。该发声生成模型362被运用于来自提问-应答系统104的应答，将回答假设和它们的似然信息一起输出。然而，来自提问-应答系统104的应答有对应于提问的变化而变化非常大的可能性。在这样的情况下，用于训练发声生成模型362的学习数据变得稀疏，利用发声生成模型362的发声候补的生成的精度有变低的危险性。因此，在该第3实施方式中，例如设为学习数据包含一元短语，通过在将其中的名词置换成一般的变量的基础上进行发声生成模型的训练，来解决这样的问题。在该情况下，在发声生成模型输出的假设中也包含变量。

参考图10，该第3实施方式所涉及的发声生成部380取代图9的发声生成模型362而包含：发声生成模型394，其如上述那样预先训练；单词置换部390，其将从回答取得部122提供的提问-应答系统的应答当中的一元短语的名词部分置换成变量符号；发声候补生成部392，其从由单词置换部390提供的包含变量符号的应答提取特性，作为特性矢量提供给发声生成模型394，来使发声生成模型394将包含变量符号的发声假设和似然信息一起输出，基于它们来生成发声候补；和变量置换部396，其通过将发声候补生成部392输出的发声候补中所含的变量符号用单词置换部390置换的原始的单词进行置换，来完成发声候补，并存储到发声候补存储部264。

发声生成部380的结构以及动作的除此以外的部分与图9所示的发声生成部350相同。

根据该实施方式的装置，能防止发声生成模型394的训练数据变得稀疏，能提高模型的发声候补的生成的精度。

[第4实施方式]

在上述第1～第3实施方式中，对话装置102等对提问-应答系统104发送由自然语言句构成的提问，使用其应答来生成下一发声，由此控制对话。但本发明并不限定于这样的实施方式。取代提问-应答系统104，只要是具有对从输入句生成的任何参数进行应答来输出用于对话的信息的机制的系统，也能进行利用。例如在图1所示的提问-应答系统104那样的一般的系统的情况下，具备：核心系统，其检索或作成用于针对提问的应答的信息；输入接口部分，其分析来自外部的提问，生成提供给核心系统的参数；和输出接口，其使用核心系统输出的用于生成应答的信息(例如单词群)来生成应答句，将其发送到送来提问的终端等。

只要外部装置具有与该输入输出接口同样的功能，则即使外部装置没有专门生成自然语言句并提供给该装置，将解析提问句的结果配合核心系统的输入规格提供给核心系统即可。另外，来自核心系统的输出经由外部接口以自然语言的形式作为应答被提供给外部装置，但在外部装置并非人的情况下，并不限于专门如此将核心系统的输出变换成自然语言。原样地接受核心系统的输出，外部装置配合目的而对其进行处理即可。第4实施方式涉及这样的系统。

参考图11，该第4实施方式所涉及的对话系统400除了包含具有与第1实施方式同样结构的提问生成模型构建部50、什么型提问生成模型82、以及为什么型提问生成模型92以外，还取代第1实施方式的对话装置102而包含：对话装置410，其对输入句100进行应答，从使用什么型提问生成模型82以及为什么型提问生成模型92生成的自然语言句生成直接提供给外部的提问-应答系统412的核心系统450的表征提问的参数，并提供给提问-应答系统412，根据从提问-应答系统412得到的信息来生成输出句414。

对话装置410包含：参数生成部430，其接受输入句100，根据使用什么型提问生成模型82以及为什么型提问生成模型92得到的提问句生成提供给提问-应答系统412的核心系统的参数；参数发送部432，其将由参数生成部430生成的参数直接发送到提问-应答系统412的核心系统；应答接收部434，其接收针对该参数由提问-应答系统412输出的用于生成应答的信息；和发声生成部436，其基于应答接收部434接收到的信息来生成并输出针对输入句100的发声。

提问-应答系统412包含：核心系统450；输入接口452，其对从外部以自然语言句的形式提供的提问进行解析，生成提供给核心系统450的参数并提供给核心系统450；和输出接口454，其从核心系统450接受针对提问由核心系统450输出的信息，根据该信息生成自然语言句，并作为应答而输出。核心系统450具有用于从输入接口452接收输入参数的输入部470；和输出核心系统生成的用于生成针对提问的应答的信息的输出部472。

通常，输入接口452从外部装置接受自然语言句的提问句的输入，进行解析并生成去往核心系统450的输入参数，并提供给输入部470。对于此，核心系统450使用内部DB检索用于进行应答的信息，经由输出部472输出。输出接口454基于该信息，生成相称的自然语言句作为应答进行输出。

但这样的动作想定了进行提问句的输入的是人。如本实施方式那样对话装置410利用提问-应答系统412时，不需要专门进行利用自然语言句的输入输出。由此，在本实施方式中，参数生成部430将表征提问的参数直接提供给核心系统450的输入部470，应答接收部434直接从输出部472接收核心系统450输出的信息。发声生成部436从该单词群生成针对用户的下一发声，作为输出句414而输出。

如此，在与提问-应答系统412之间不再需要以自然语言句进行交互，能利用提问-应答系统412的核心系统更加效率良好地进行对话。

另外，关于什么型提问生成模型82以及为什么型提问生成模型92，若配合提问-应答系统412的核心系统450的特性或规格提供输入句，进行学习，使得能直接生成针对核心系统450的合适的提问的参数，则效率更加良好。例如取代什么型提问生成模型82以及为什么型提问生成模型92而使用训练成若被赋予输入句则不生成提问句而是直接生成提供给核心系统45的参数的模型即可。为此，在提问生成模型构建部50中，作为模型的学习数据，不使用输入句和与其对应的提问句的组，而是使用输入句和与其对应的提问等价的参数来训练这些模型。在使用这样的模型的情况下，针对输入句100，从什么型提问生成模型82以及为什么型提问生成模型92得到与提问等价的参数。参数生成部430不对该参数进行任何加工，原样不变地经由参数发送部432提供给核心系统450即可。

参数生成部430生成的参数依赖于核心系统450的输入规格。在核心系统450的输入规格未发表的情况下，不能使用本实施方式所涉及的对话装置410。

另外，由于参数生成部430生成的参数依赖于核心系统450的规格，因此在利用多个具有不同规格的核心系统的提问-应答系统的情况下，需要实质组合多个什么型提问生成模型82、为什么型提问生成模型92以及对话装置410来使用。

如以上那样，根据本发明，每当生成针对用户的发声的应答，就有效地利用用户的发声的修饰被修饰关系。进而，由于在系统中使用的统计模型生成时，将实际出现在WEB以及SNS上的对话信息作为基础，因此能防止对话的进行不自然。另外，从发声中所含的众多信息中删除生成向提问-应答系统的提问时不需要的信息。因此，能生成针对用户发声导出自然的对话的合适的系统发声。另外，由于基于用户的发声生成向提问-应答系统的提问，使用针对该提问的应答来生成发声，因此能通过生成的提问来掌握用户的发声与系统发声的关系，能控制系统发声以及对话的进行。

[计算机的实现]

本发明的各实施方式所涉及的对话系统、对话装置以及提问生成模型构建部能通过计算机硬件和在该计算机硬件上执行的计算机程序实现。图12表示该计算机系统530的外观，图13表示计算机系统530的内部结构。

参考图12，该计算机系统530包含具有存储器端口552以及DVD(DigitalVersatile Disc，数字多功能盘)驱动器550的计算机540、键盘546、鼠标548和监视器542。

参考图13，计算机540除了存储器端口552以及DVD驱动器550以外，还包含：CPU(中央处理装置)556；与CPU556、存储器端口552以及DVD驱动器550连接的总线566；存储引导程序等的读出专用存储器(ROM)558；与总线566连接、存储程序命令、系统程序以及作业数据等的随机存取存储器(RAM)560；和硬盘554。计算机系统530还包含：与总线566连接，用于将声音信号数字化并变换成能在计算机中处理的形式的声卡568；和提供向能与其他终端通信的网络572的连接的网络接口卡(NIC)574。在声卡568连接麦克风570。

用于使计算机系统530作为上述的各实施方式所涉及的对话系统的各功能部发挥功能的计算机程序存储在装备于DVD驱动器550或存储器端口552的DVD562或可移动存储器564，进而被转发到硬盘554。或者，程序也可以通过网络568发送到计算机540，存储在硬盘554。程序在执行时载入到RAM560。可以从DVD562经由可移动存储器564或网络568直接将程序载入到RAM560。

该程序包含用于使计算机540作为上述各实施方式所涉及的各对话系统的各功能部发挥功能的多个命令所构成的命令串。使计算机540进行该动作所需的基本的几个功能能由在计算机540上动作的操作系统或第三方的程序或安装于计算机540的能动态链接的各种编程工具包或程序库提供。因此，该程序自身不一定非要包含实现该实施方式的系统、装置以及方法所需的功能的全部。该程序仅包含命令当中通过以控制成能得到所期望结果的做法在执行时动态调用合适的功能或编程工具包或程序库内的合适程序来实现作为上述的系统、装置或方法的功能的命令即可。当然也可以仅以程序提供所需的全部功能。

本次公开的实施方式仅是例示，本发明并不仅限制在上述的实施方式。本发明的范围在参考发明的详细的说明的记载的基础上，由权利要求书的范围的各权利要求示出，包含与记载于其的文言等同意义以及范围内的全部变更。

产业上的可利用性

如以上那样，本发明能在所有产业中在需要与用户的对话的场面下利用，特别能利用在自然的对话较为重要的设备以及服务、和这样的设备以及服务中的接口中。

附图标记的说明

30、400 对话系统

50 提问生成模型构建部

70 因特网

72 输入句-应答句对收集部

74 输入句-应答句对存储部

76 什么型提问/对话学习文集构建部

78 什么型提问/对话学习文集

80 什么型提问生成模型训练部

82 什么型提问生成模型

86 为什么型提问/对话学习文集构建部

88 为什么型提问/对话学习文集

90 为什么型提问生成模型训练部

92 为什么型提问生成模型

100 输入句

102、410 对话装置

104、412 提问-应答系统

106、414 输出句

120、300 提问生成部

122、194 回答取得部

124、350、380、436 发声生成部

130 候补句对收集部

132 长度检查部

134、230 词素解析部

136、232 句法解析部

140 含意关系辞典

142 二元模式辞典

146 提问生成规则存储部

150 模式比对部

152 清理部

154、192 提问句生成部

156、200 记录作成部

158、202 文集追加部

170 谓语提取部

172 谓语匹配部

174、198 对选择部

190 部分表达提取部

196 提问/回答系统

234 什么型提问用特性提取部

236、314 什么型提问生成部

240 为什么型提问用特性提取部

242、324 为什么型提问生成部

244 提问存储部

260、360、392 发声候补生成部

262 发声生成规则存储部

264 发声候补存储部

266 排序部

268 发声选择部

270 发声整形部

268 发声选择部

310 主题估计用模型

312 主题估计部

316 什么型提问生成用模型

320 部分表达估计用模型

322 部分表达确定部

326 为什么型提问生成用模型

362、394 发声生成模型

390 单词置换部

396 变量置换部

430 参数生成部

432 参数发送部

434 应答接收部

450 核心系统。

Claims

1.一种对话系统，其特征在于，包含：

参数生成单元，其接受来自用户的输入发声，使用该输入发声中所含的表达来生成用于利用提问-应答系统的参数；

回答取得单元，其将由所述参数生成单元生成的参数输入到所述提问-应答系统，取得针对该参数的回答；和

应答生成单元，其基于所述回答取得单元取得的回答来生成针对所述输入发声的应答。

2.根据权利要求1所述的对话系统，其特征在于，

所述参数生成单元包含：

发声解析单元，其对所述输入发声进行词素解析以及句法解析；

主题估计单元，其根据由所述发声解析单元解析的结果来估计所述输入发声的主题；和

仿真陈述型提问生成单元，其基于由所述主题估计单元估计的主题来生成包含构成该主题的部分表达的仿真陈述型提问。

3.根据权利要求1所述的对话系统，其特征在于，

所述参数生成单元包含：

部分表达确定单元，其根据由所述发声解析单元解析的结果来确定代表所述输入发声的部分表达；和

非仿真陈述型提问生成单元，其基于由所述部分表达确定单元确定的部分表达来生成非仿真陈述型提问。

4.根据权利要求1～3中任一项所述的对话系统，其特征在于，

所述应答生成单元包含：

发声候补生成单元，其通过对所述回答运用预先准备的发声生成规则来生成发声候补；和

发声整形单元，其对所述发声候补按照预先准备的发声整形规则进行整形，来生成针对所述输入发声的所述应答。

5.根据权利要求1～3中任一项所述的对话系统，其特征在于，

所述应答生成单元包含：

发声生成模型，其预先进行了学习，使得若被提供针对提问的回答，则由该回答来生成发声；和

发声整形单元，其按照预先准备的发声整形规则对所述发声生成模型生成的发声进行整形，来生成针对所述输入发声的所述应答。

6.一种计算机程序，其特征在于，使计算机作为权利要求1～5中任一项所述的对话系统发挥功能。