CN107704456B

CN107704456B - 识别控制方法以及识别控制装置

Info

Publication number: CN107704456B
Application number: CN201710446316.7A
Authority: CN
Inventors: 史宏杰; 牛尾贵志; 远藤充; 山上胜义
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-08-09
Filing date: 2017-06-14
Publication date: 2023-08-29
Anticipated expiration: 2037-06-14
Also published as: US20180046619A1; US10460039B2; CN107704456A; EP3282367A1

Abstract

提供一种用于在使用多种语言的环境下适当地识别表现文本内容的标签的识别控制方法以及识别控制装置。识别控制方法包括：取得第1文本的步骤(S101)，所述第1文本是第1语言的文本；取得第2文本的步骤(S102)，所述第2文本是第2语言的文本、且是通过将第1文本翻译成第2语言而得到的文本；取得正解标签的步骤(S103)，所述正解标签是表现第1文本的内容的标签；以第1语言以及第2语言向共同的识别模型(107)输入第1文本以及第2文本的步骤(S104)；以使得通过共同的识别模型(107)从第1文本以及第2文本识别的标签符合正解标签的方式，更新共同的识别模型(107)的步骤(S105)。

Description

识别控制方法以及识别控制装置

技术领域

本发明涉及用于识别表现文本内容的标签的识别控制方法等。

背景技术

在非专利文献1中，关于跨语言的信息检索，提出了收录有文件的翻译和查询(query)的翻译这两方的混合系统。在非专利文献2中，关于跨语言的文本(text)的分类，提出了使用机器翻译来训练两个不同的分类器。

现有技术文献

非专利文献1：J.Scott McCarley，“Should we translate the documents orthe queries in cross-language”，ACL’99Proceedings of the 37th annual meetingof the Association for Computational Linguistics on ComputationalLinguistics，Association for Computational Linguistics，1999年6月20日，p.208-214

非专利文献2：Yuhong Guo以及Min Xiao，“Cross Language TextClassification via Subspace Co-Regularized Multi-View Learning”，the 29thInternational Conference on Machine Learning(ICML 2012)，2012年6月27日

发明内容

发明要解决的技术问题

然而，在国际化进程中，与多种语言有关的信息处理的质量尚且不足。因此，在使用多种语言的环境下难以适当地识别表现文本内容的标签。

因此，本发明的目的在于，提供一种用于在使用多种语言的环境下适当地识别表现文本内容的标签的识别控制方法等。

用于解决问题的技术方案

本发明的一个技术方案的识别控制方法，包括：取得第1文本的步骤，所述第1文本是第1语言的文本；取得第2文本的步骤，所述第2文本是第2语言的文本、且是通过将所述第1文本翻译成所述第2语言而得到的文本；取得正解标签的步骤，所述正解标签是表现所述第1文本的内容的标签；以所述第1语言以及所述第2语言向共同的识别模型输入所述第1文本以及所述第2文本的步骤；以及以使得通过所述共同的识别模型从所述第1文本以及所述第2文本识别的标签符合所述正解标签的方式，更新所述共同的识别模型的步骤。

此外，这些总括性或具体的技术方案既可以通过系统、装置、方法、集成电路、计算机程序或者计算机可读取的CD-ROM等非瞬时性记录介质来实现，也可以通过系统、装置、方法、集成电路、计算机程序和记录介质的任意组合来实现。

发明的效果

通过本发明的一个技术方案的识别控制方法等，能够在使用多种语言的环境下适当地识别表现文本内容的标签。

附图说明

图1是表示参考例中的英语识别模型的示意图。

图2是表示用于使用参考例中的英语识别模型或者英语训练数据来识别表现汉语文本内容的标签的方法的示意图。

图3是表示实施方式中的识别模型的示意图。

图4是表示实施方式中的识别控制装置的结构的框图。

图5是表示实施方式中的识别控制装置进行的学习动作的流程图。

图6是表示实施方式中的识别控制装置进行的识别动作的流程图。

图7是表示实施方式中的识别控制装置进行的学习动作的变形例的流程图。

图8是表示实施方式中的识别控制装置进行的识别动作的变形例的流程图。

图9是表示实施方式中的识别模型的第1构成例的示意图。

图10是表示实施方式中的识别模型的第2构成例的示意图。

图11是表示实施方式中的识别模型的第3构成例的示意图。

图12是表示评价例中的与对话片段有关的话题以及字段(slot)的数据表图。

图13是表示评价例中的对话以及对话状态的数据表图。

图14是表示评价例中的多通道模型以及输入输出数据的示意图。

图15是表示评价例中的多通道模型的结构的示意图。

图16是表示评价例中的对训练数据的前处理的示意图。

图17是表示评价例中的对开发数据以及测试数据的前处理的示意图。

图18是表示评价例中的评价结果的数据表图。

图19是表示评价例中的超参数(hyper parameter)的数据表图。

图20是表示评价例中的由各模型推定出的标签的正解率的坐标图。

图21是表示评价例中的由各模型推定出的标签的数据表图。

图22是按字段示出评价例中的由各模型推定出的标签的正解率的坐标图。

标号说明

100识别控制装置；101英语训练数据；102英语识别模型；103英语识别对象数据；104汉语识别对象数据；105汉语训练数据；106汉语识别模型；107识别模型；110控制电路；111存储电路；121第1语言的文本；122第2语言的文本；131第1提取层；132第2提取层；140连接层；151第1输入层；152第2输入层；161第1卷积层；162第2卷积层；170池化层；180全连接层；191第1递归层；192第2递归层。

具体实施方式

(成为本发明的基础的见解)

本发明人针对用于识别表现文本内容的标签的识别控制方法等，发现了课题。以下，具体进行说明。

图1是表示参考例中的英语识别模型的示意图。图1所示的英语识别模型102是用于从英语文本识别表现该文本的内容的标签的模型，例如是神经网络模型。

在此，神经网络模型是模拟生物神经的数学模型。神经网络模型包含多个节点。多个节点分别被称为神经元。在节点间，设定有被称为权重(weight)的连接强度来作为参数。可以从被输入到神经网络模型的信息，按照多个节点以及节点间的权重来识别表现所输入的信息的内容的标签。在神经网络模型中，可通过训练来更新权重，改善识别性能。

英语识别模型102通过英语训练数据101来训练。具体而言，在英语训练数据101中，包含英语文本和表现该文本的内容的标签。英语训练数据101所包含的标签也被称为正解标签或者教师标签。并且，以使得通过英语识别模型102从英语训练数据101所包含的英语文本识别的标签符合正解标签的方式，更新英语识别模型102。由此，英语识别模型102受到训练。

英语识别模型102能够适用于英语识别对象数据103，但却不能适用于汉语识别对象数据104。

具体而言，在英语识别对象数据103中包含英语文本。通过英语识别模型102从英语识别对象数据103所包含的英语文本可得到适当的标签。另一方面，在汉语识别对象数据104中包含汉语文本。通过英语识别模型102从汉语识别对象数据104所包含的汉语文本得不到适当的标签。

图2是表示用于使用参考例中的英语识别模型102或者英语训练数据101识别表现汉语识别对象数据104所包含的汉语文本的内容的标签的方法的示意图。

例如，从汉语识别对象数据104向英语识别对象数据103进行机器翻译。具体而言，从汉语识别对象数据104所包含的汉语文本向英语文本进行机器翻译，构建包含英语文本的英语识别对象数据103。然后，能够对所获得的英语识别对象数据103适用英语识别模型102。

或者，从英语训练数据101向汉语训练数据105进行机器翻译。具体而言，从英语训练数据101所包含的英语文本向汉语文本进行机器翻译，构建包含汉语文本和表现该文本的内容的标签的汉语训练数据105。此外，表现文本内容的标签可与语言无关而用数值等来表达。

并且，通过所获得的汉语训练数据105来训练汉语识别模型106。即，通过所获得的汉语训练数据105来构建汉语识别模型106。然后，能够将所构建的汉语识别模型106适用于汉语识别对象数据104。

也就是说，存在从汉语识别对象数据104向英语识别对象数据103进行机器翻译的方法和从英语训练数据101向汉语训练数据105进行机器翻译并构建汉语识别模型106的方法这两种方法。

这两种方法也可以组合。也就是说，也可以通过这两种方法分别来识别表现汉语识别对象数据104所包含的汉语文本的内容的标签。然后，也可以通过由两种方法识别的两个标签的组合或取舍选择来最终识别表现汉语文本的内容的标签。

此外，这样的两种方法的组合类似于非专利文献1所记载的混合系统。另外，关于这样的两种方法的组合，在使用英语识别模型102和汉语识别模型106这样的两个模型这一方面，类似于非专利文献2所记载的技术。

然而，在通过机器翻译获得的英语识别对象数据103以及汉语训练数据105中，由于机器翻译的质量低下而会包含有错误，因此有可能会在标签的识别中得不到足够的质量。

因此，本发明的一个技术方案的识别控制方法，包括：取得第1文本的步骤，所述第1文本是第1语言的文本；取得第2文本的步骤，所述第2文本是第2语言的文本、且是通过将所述第1文本翻译成所述第2语言而得到的文本；取得正解标签的步骤，所述正解标签是表现所述第1文本的内容的标签；以所述第1语言以及所述第2语言向共同的识别模型输入所述第1文本以及所述第2文本的步骤；以及以使得通过所述共同的识别模型从所述第1文本以及所述第2文本识别的标签符合所述正解标签的方式，更新所述共同的识别模型的步骤。

由此，向共同的识别模型输入第1语言的第1文本和第2语言的第2文本这两方。并且，更新共同的识别模型以使得能通过共同的识别模型识别适当的标签。即，能构建从多种语言的多个文本识别适当的标签这样的基于多种语言的识别模型。

并且，基于多种语言的识别模型被跨语言地适当训练。因此，通过基于多种语言的识别模型，相比于基于单种语言的识别模型或者该基于单种语言的识别模型的组合，能够适当地识别标签。因此，能够在使用多种语言的环境下适当地识别表现文本内容的标签。即，能够在使用多种语言的环境下改善标签的识别质量。

例如也可以，所述识别控制方法还包括：通过第1转换模型将所述第1文本转换成第1值序列的步骤，所述第1转换模型是用所述第1语言表达的多个要素在意思上越接近则被转换成越接近的多个值的转换模型；和通过第2转换模型将所述第2文本转换成第2值序列的步骤，所述第2转换模型是用所述第2语言表达的多个要素在意思上越接近则被转换成越接近的多个值的转换模型，在向所述共同的识别模型输入所述第1文本以及所述第2文本的步骤中，向所述共同的识别模型输入被转换成所述第1值序列的所述第1文本以及被转换成所述第2值序列的所述第2文本。

由此，能够通过基于由各语言表达的要素的意思的转换模型适当地将文本转换成值序列，并向共同的识别模型输入被转换成值序列的文本。

另外，例如也可以，在所述第1转换模型中，用所述第1语言表达的多个要素在意思上越接近则被转换成越接近的多个向量，在所述第2转换模型中，用所述第2语言表达的多个要素在意思上越接近则被转换成越接近的多个向量，所述第1值序列是第1向量序列，所述第2值序列是第2向量序列。

由此，能够通过基于由各语言表达的要素的意思的转换模型适当地将文本转换成向量序列，并向共同的识别模型输入被转换成向量序列的文本。

另外，例如也可以，所述共同的识别模型是卷积神经网络模型。

由此，作为用于识别标签的识别模型，使用卷积神经网络模型。通过卷积神经网络模型，能适当地提取特征，基于所提取出的特征适当地识别标签。因此，能够进行适当的标签识别。

另外，例如也可以，所述卷积神经网络模型包括交替地层叠的多个卷积层和多个池化层。

由此，对于用于识别标签的识别模型，使用多个卷积层和多个池化层交替地层叠的卷积神经网络模型。在多个卷积层和多个池化层交替地层叠的卷积神经网络模型中，能通过多次的特征提取，从所输入的信息更适当地提取特征。因此，能够进行更适当的标签识别。

另外，例如也可以，所所述卷积神经网络模型以分开的方式包括与所述第1语言对应的至少一个卷积层和与所述第2语言对应的至少一个卷积层。

由此，通过与各语言对应的卷积层，能够适当地提取特征。即，能够适当地提取每种语言的特征。

另外，例如也可以，所述卷积神经网络模型以分开的方式包括与所述第1语言对应的至少一个池化层和与所述第2语言对应的至少一个池化层。

由此，能够在与各语言对应的池化层，削减表示特征的信息的维度。即，能够在将与多种语言对应的多个特征连接之前削减维度。因此，能够抑制运算量的增加。

另外，例如也可以，所述卷积神经网络模型包括对于所述第1语言和所述第2语言而言共同的至少一个池化层。

由此，能够将与多种语言对应的多个特征进行连接。并且，能够将连接后的多个特征利用于标签的识别。

另外，例如也可以，所述卷积神经网络模型包括对于所述第1语言和所述第2语言而言共同的至少一个卷积层。

由此，能够通过对于多种语言而言共同的卷积层来提取特征。即，能够针对多种语言通过共同的处理进行特征的提取。因此，能够抑制运算量的增加。

另外，例如也可以，所述共同的识别模型是递归神经网络模型。

由此，作为用于识别标签的识别模型，使用适合于自然语言处理的递归神经网络模型。因此，能够适当地识别表现文本内容的标签。

另外，例如也可以，所述共同的识别模型包括：提取第1特征的第1提取层，所述第1特征是所述第1语言的文本的特征；提取第2特征的第2提取层，所述第2特征是所述第2语言的文本的特征；以及将所述第1特征和所述第2特征进行连接的连接层。

由此，包括多个提取层以及连接层的识别模型作为用于识别标签的识别模型来使用。并且，包括该多个提取层以及连接层的识别模型在整体上受到训练。因此，能够适当地识别标签。

另外，例如也可以，在所述连接层中，表示所述第1特征以及所述第2特征的多个值被进行连结。

由此，能够简单地连接表示与多种语言对应的多个特征的多个值。并且，能够将连接的结果利用于标签的识别。

另外，例如也可以，在所述连接层中，对表示所述第1特征以及所述第2特征的多个值进行线性连接。

由此，能够通过简单的运算来组合表示与多种语言对应的多个特征的多个值。并且，能够将组合的结果利用于标签的识别。

另外，例如也可以，在所述连接层中，通过包括表示所述第1特征以及所述第2特征的多个值的连接以及加权加法运算的处理，导出多个标签各自的概率，对于通过所述共同的识别模型识别的标签，通过在所述连接层中导出的概率来识别。

由此，最终标签通过概率来识别。另外，用于从两种语言的两个文本识别最终标签的识别模型受到训练。因此，能够适当地识别最终标签。

另外，例如也可以，所述识别控制方法还包括：取得第3文本的步骤，所述第3文本是所述第1语言的文本；和取得第4文本的步骤，所述第4文本是所述第2语言的文本，所述第3文本和所述第4文本中的一方的文本是通过将另一方的文本翻译成与所述一方的文本对应的语言而得到的文本，所述识别控制方法还包括：向更新后的所述共同的识别模型输入所述第3文本以及所述第4文本的步骤；和将通过所述共同的识别模型从所述第3文本以及所述第4文本识别的标签识别为表现所述第3文本或所述第4文本的标签的步骤。

由此，向基于多种语言的识别模型输入第1语言的第3文本和第2语言的第4文本这两方。通过基于多种语言的识别模型，相比于基于单种语言的识别模型或者该基于单种语言的识别模型的组合，能够适当地识别标签。因此，能适当地识别标签。

另外，例如也可以，所述识别控制方法还包括：通过第1转换模型将所述第3文本转换成第3值序列的步骤，所述第1转换模型是用所述第1语言表达的多个要素在意思上越接近则被转换成越接近的多个值的转换模型；和通过第2转换模型将所述第4文本转换成第4值序列的步骤，所述第2转换模型是用所述第2语言表达的多个要素在意思上越接近则被转换成越接近的多个值的转换模型，在向所述共同的识别模型输入所述第3文本以及所述第4文本的步骤中，向所述共同的识别模型输入被转换成所述第3值序列的所述第3文本以及被转换成所述第4值序列的所述第4文本。

另外，例如也可以，在所述第1转换模型中，用所述第1语言表达的多个要素在意思上越接近则被转换成越接近的多个向量，在所述第2转换模型中，用所述第2语言表达的多个要素在意思上越接近则被转换成越接近的多个向量，所述第3值序列是第3向量序列，所述第4值序列是第4向量序列。

另外，本发明的一个技术方案的识别控制装置，具备：执行识别控制方法的控制电路；和存储有用于供所述控制电路执行所述识别控制方法的信息的存储电路，所述识别控制方法包括：取得第1文本的步骤，所述第1文本是第1语言的文本；取得第2文本的步骤，所述第2文本是第2语言的文本、且是通过将所述第1文本翻译成所述第2语言而得到的文本；取得正解标签的步骤，所述正解标签是表现所述第1文本的内容的标签；以所述第1语言以及所述第2语言向共同的识别模型输入所述第1文本以及所述第2文本的步骤；以及以使得通过所述共同的识别模型从所述第1文本以及所述第2文本识别的标签符合所述正解标签的方式，更新所述共同的识别模型的步骤。

由此，识别控制装置能够执行上述的识别控制方法。因此，识别控制装置能够在使用多种语言的环境下适当地识别表现文本内容的标签。

此外，这些总括性或者具体的技术方案既可以通过系统、装置、方法、集成电路、计算机程序或者计算机可读取的CD-ROM等非瞬时性记录介质来实现，也可以通过系统、装置、方法、集成电路、计算机程序和记录介质的任意组合来实现。

以下，参照附图对实施方式进行具体说明。此外，以下说明的实施方式都表示总括性或者具体的例子。以下的实施方式中示出的数值、形状、材料、构成要素、构成要素的配置位置以及连接形态、步骤、步骤的顺序等是一例，并非旨在限定本发明。另外，关于以下的实施方式中的构成要素中的未记载在表示最上位概念的独立权利要求中的构成要素，作为任意的构成要素来说明。

另外，标签的识别可以表达为标签的推定、标签的预测或者标签的分类等。因此，识别的表达也可以被替换为推定、预测或者分类等表达。

(实施方式1)

图3是表示本实施方式中的识别模型的示意图。图3所示的识别模型107是用于从第1语言的文本以及第2语言的文本识别表现这些文本的内容的标签的模型，例如是神经网络模型。

识别模型107也可以是多层构造的神经网络模型。另外，识别模型107也可以是卷积神经网络(CNN：Convolutional Neural Network)模型，还可以是递归神经网络(RNN：Recurrent Neural Network)模型。

在此，说明第1语言和第2语言为英语和汉语时的例子，但第1语言和第2语言也可以不是英语和汉语。

图3所示的英语训练数据101、英语识别对象数据103、汉语训练数据105以及汉语识别对象数据104与图2所示的各数据相同。此外，训练数据也被称为教师数据。

识别模型107通过英语训练数据101以及汉语训练数据105来训练。具体而言，向识别模型107输入英语训练数据101所包含的英语文本以及汉语训练数据105所包含的汉语文本。更新识别模型107，以使得由识别模型107从英语以及汉语文本识别的标签符合正解标签。由此，识别模型107受到训练。

识别模型107通过英语训练数据101以及汉语训练数据105受到训练，因此能够适用于英语识别对象数据103以及汉语识别对象数据104。即，从英语识别对象数据103所包含的英语文本以及汉语识别对象数据104所包含的汉语文本，可通过识别模型107识别适当的标签。

图4是表示使用图3所示的识别模型107的识别控制装置的结构的框图。图4所示的识别控制装置100具备控制电路110以及存储电路111。识别控制装置100例如是计算机。

控制电路110是进行信息处理的通用或专用的电路。控制电路110也可以是CPU这样的处理器。控制电路110进行用于对识别控制装置100的工作进行控制的信息处理。在此，控制电路110所进行的工作有时也表示为识别控制装置100所进行的工作。

另外，控制电路110执行用于识别表现文本内容的标签的识别控制方法。具体而言，控制电路110经由未图示的输入输出电路取得第1语言的文本、第2语言的文本以及正解标签。并且，控制电路110更新识别模型107以使得通过识别模型107从第1语言以及第2语言的两个文本识别的标签符合正解标签。

另外，控制电路110将通过更新后的识别模型107从第1语言以及第2语言的两个文本识别的标签经由未图示的输入输出电路进行输出。

存储电路111是存储用于供控制电路110进行信息处理的信息的通用或专用的电路。存储电路111可以是易失性存储器，也可以是非易失性存储器。例如，在存储电路111中存储有用于供控制电路110执行识别控制方法的信息。在存储电路111中，也可以存储有识别模型107，还可以存储有用于执行识别控制方法的程序。

另外，为了顺畅地进行信息处理，在存储电路111中，也可以暂时性地存储第1语言以及第2语言的两个文本、正解标签以及通过识别模型107识别出的标签等。

图5是表示图4所示的识别控制装置100进行的学习工作的流程图。图4所示的识别控制装置100通过进行图5所示的工作来更新识别模型107。

首先，识别控制装置100取得第1语言的文本(S101)。第1语言的文本是由第1语言表达的文本。另外，识别控制装置100取得第2语言的文本(S102)。第2语言的文本是由第2语言表达的文本。

第1语言以及第2语言的两个文本中的一方的文本是通过对另一方的文本进行机器翻译而得到的文本。换言之，一方的文本是从另一方的文本翻译来的文本，另一方的文本是没有从一方的文本翻译的原始文本。

另外，识别控制装置100取得正解标签(S103)。正解标签是表现文本内容的标签。更具体而言，正解标签表现第1语言以及第2语言的两个文本中的未经由机器翻译而取得的文本的内容。也就是说，正解标签表现原始文本的内容而非从另一方的文本翻译后的文本的内容。因此，正解标签不包含因机器翻译产生的错误。

识别控制装置100也可以将正解标签与第1语言以及第2语言的两个文本中的原始文本一起来取得。具体而言，识别控制装置100也可以取得附带于原始文本的正解标签。

接着，识别控制装置100将第1语言以及第2语言的两个文本输入到识别模型107(S104)。然后，识别控制装置100以使得通过识别模型107从第1语言以及第2语言的两个文本识别的标签符合正解标签的方式，更新识别模型107(S105)。

例如，在识别模型107是神经网络模型的情况下，识别控制装置100也可以通过误差反向传播法(Backpropagation)来更新识别模型107。该情况下，识别控制装置100通过更新识别模型107的参数、更具体而言是节点间的权重来更新识别模型107。

由此，识别控制装置100能够训练识别模型107。也就是说，识别控制装置100能够使识别模型107进行学习。

图6是表示图4所示的识别控制装置100进行的识别工作的流程图。图4所示的识别控制装置100通过进行图6所示的工作来识别标签。

首先，识别控制装置100取得第1语言的文本(S201)。另外，识别控制装置100取得第2语言的文本(S202)。

接着，识别控制装置100将第1语言以及第2语言的两个文本输入到更新后的识别模型107(S203)。然后，识别控制装置100利用识别模型107从第1语言以及第2语言的两个文本识别标签(S204)。

由此，识别控制装置100能够通过更新后的识别模型107来识别适当的标签。

图7是表示图4所示的识别控制装置100进行的学习工作的变形例的流程图。图7所示的取得处理(S301～S303)与图5所示的取得处理(S101～S103)相同。

然后，在图7所示的变形例中，识别控制装置100对第1语言的文本进行转换(S304)。具体而言，识别控制装置100通过第1转换模型将第1语言的文本转换成值序列，所述第1转换模型是由第1语言表达的多个要素在意思上越接近则被转换成越接近的多个值的模型。值既可以是集合值，也可以是向量值，还可以是矩阵值。

例如，在第1转换模型中，由第1语言表达的多个要素在意思上越接近则被转换成越接近的多个向量。并且，识别控制装置100也可以通过第1转换模型将第1语言的文本转换成与值序列相当的向量序列。

同样地，识别控制装置100对第2语言的文本进行转换(S305)。具体而言，识别控制装置100通过第2转换模型将第2语言的文本转换成值序列，所述第2转换模型是由第2语言表达的多个要素在意思上越接近则被转换成越接近的多个值的模型。值既可以是集合值，也可以是向量值，还可以是矩阵值。

例如，在第2转换模型中，由第2语言表达的多个要素在意思上越接近则被转换成越接近的多个向量。并且，识别控制装置100也可以通过第2转换模型将第2语言的文本转换成与值序列相当的向量序列。

接着，识别控制装置100将第1语言以及第2语言的两个转换后的文本输入识别模型(S306)。然后，识别控制装置100以使得通过识别模型107从第1语言以及第2语言的两个文本识别的标签符合正解标签的方式，更新识别模型107(S307)。

由此，识别控制装置100能够将基于各要素的意思被进行了转换以使得易于识别标签的文本作为对识别模型107的输入来利用。因此，识别控制装置100能够训练识别模型107，使识别模型107进行学习，以使得更适当地识别标签。

图8是表示图4所示的识别控制装置100进行的识别工作的变形例的流程图。图8所示的取得处理(S401以及S402)与图6所示的取得处理(S201以及S202)相同。

然后，在图8所示的变形例中，识别控制装置100对第1语言的文本进行转换(S403)。具体而言，识别控制装置100通过第1转换模型将第1语言的文本转换成值序列，所述第1转换模型是由第1语言表达的多个要素在意思上越接近则被转换成越接近的多个值的模型。

同样地，识别控制装置100对第2语言的文本进行转换(S404)。具体而言，识别控制装置100通过第2转换模型将第2语言的文本转换成值序列，所述第2转换模型是由第2语言表达的多个要素在意思上越接近则被转换成越接近的多个值的模型。

接着，识别控制装置100将第1语言以及第2语言的两个转换后的文本输入更新后的识别模型(S405)。然后，识别控制装置100通过更新后的识别模型107从第1语言以及第2语言的两个文本识别标签(S406)。

由此，识别控制装置100能够将基于各要素的意思被进行了转换以使易于识别标签的文本作为对识别模型107的输入来利用。因此，识别控制装置100能够更适当地识别标签。

图9是表示图3所示的识别模型107的第1构成例的示意图。在图9的例子中，识别模型107包括第1提取层131、第2提取层132以及连接层140。第1提取层131、第2提取层132以及连接层140也可以分别包括多个层。即，第1提取层131、第2提取层132以及连接层140各自也可以是1个以上的层的集合。

例如，识别模型107是多层构造的神经网络模型，第1提取层131、第2提取层132以及连接层140各自对应于多层构造的神经网络模型所包括的1个以上的层。

在第1提取层131中，提取第1语言的文本121的特征即第1特征。在第2提取层132中，提取第2语言的文本122的特征即第2特征。

在连接层140中，将通过第1提取层131提取出的第1特征和通过第2提取层132提取出的第2特征进行连接。在连接层140中，也可以通过连结表示第1特征和第2特征的多个值来连接第1特征和第2特征。也就是说，在连接层140中，也可以将表示第1特征的多个值和表示第2特征的多个值单纯地连在一起。或者，也可以通过对表示第1特征以及第2特征的多个值进行线性连接，从而连接第1特征和第2特征。

另外，在连接层140中，也可以通过连结表示第1特征以及第2特征的多个值、并对连结后的多个值进行线性连接，从而连接第1特征和第2特征。

另外，在连接层140中，也可以通过包括表示第1特征以及第2特征的多个值的连接以及加权加法运算的处理来导出多个标签各自的概率。在此，多个标签各自的概率是标签表现了第1语言的文本121以及第2语言的文本122的内容的概率。

并且，通过识别模型107识别的标签也可以通过所导出的概率来识别。例如，通过识别模型107识别为表现第1语言的文本121以及第2语言的文本122的内容的标签的标签，是所导出的概率比预定概率高的标签。

识别模型107也可以包括被输入表示第1语言的文本121的信息的第1输入层、被输入表示第2语言的文本122的信息的第2输入层、以及输出表示通过识别模型107识别的标签的信息的输出层。

识别模型107除了第1提取层131、第2提取层132以及连接层140之外，还可以包括第1输入层、第2输入层以及输出层。识别模型107也可以将第1输入层包含在第1提取层131中。另外，识别模型107也可以将第2输入层包含在第2提取层132中。另外，识别模型107也可以将输出层包含在连接层140中。特别是，连接层140也可以兼作输出层。也就是说，连接层140也可以是输出层。

另外，第1语言的文本121也可以经第1转换模型转换后输入到识别模型107。同样地，第2语言的文本122也可以经第2转换模型转换后输入到识别模型107。

图10是表示图3所示的识别模型107的第2构成例的示意图。图10所示的识别模型107是卷积神经网络模型的例子，包括第1输入层151、第2输入层152、第1卷积层161、第2卷积层162、池化层170以及全连接层180。

例如，图10中的第1卷积层161或第1输入层151与第1卷积层161的组合，对应于图9中的第1提取层131。另外，图10中的第2卷积层162或第2输入层152与第2卷积层162的组合，对应于图9中的第2提取层132。另外，图10中的池化层170和全连接层180中的至少一方，对应于图9中的连接层140。

在第1输入层151中，被输入表示第1语言的文本121的信息。特别是，在该例中，第1语言的文本121被通过第1转换模型转换成向量序列，表示向量序列的二维矩阵被输入到第1输入层151。在第1卷积层161中，使用多个过滤器对被输入到第1输入层151的二维矩阵进行卷积处理。由此，可提取第1语言的文本121的特征。

在第2输入层152中，被输入表示第2语言的文本122的信息。特别是，在该例中，第2语言的文本122被通过第2转换模型转换成向量序列，表示向量序列的二维矩阵被输入到第2输入层152。在第2卷积层162中，使用多个过滤器对被输入到第2输入层152的二维矩阵进行卷积处理。由此，可提取第2语言的文本122的特征。

在池化层170中，通过连接由第1卷积层161得到的作为矩阵的多个值和由第2卷积层162得到的作为矩阵的多个值，由此连接第1语言的文本121的特征和第2语言的文本122的特征。此时，在池化层170中，通过对由第1卷积层161得到的作为矩阵的多个值和由第2卷积层162得到的作为矩阵的多个值进行二次采样(subsampling)，由此能抑制维度的增加。

在全连接层180中，通过包括由池化层170连接后的多个值的加权加法运算的处理，导出多个标签各自的概率。通过识别模型107识别为表现第1语言的文本121以及第2语言的文本122的内容的标签的标签，是在全连接层180中导出的概率比预定概率高的标签。

通过上述那样的结构，能够将卷积神经网络模型适用于识别模型107。

此外，在图10的例子中，识别模型107包括与第1语言对应的第1卷积层161和与第2语言对应的第2卷积层162，并包括对于第1语言和第2语言而言共同的池化层170。也就是说，识别模型107以分开的方式包括与第1语言对应的至少一个卷积层和与第2语言对应的至少一个卷积层，并包括对于第1语言和第2语言而言共同的至少一个池化层。

识别模型107不限于图10的例子，也可以以分开的方式包括与第1语言对应的至少一个池化层和与第2语言对应的至少一个池化层，也可以包括对于第1语言和第2语言而言共同的至少一个卷积层。另外，识别模型107也可以包括交替地层叠的多个卷积层和多个池化层。

另外，与第1语言对应的信息和与第2语言对应的信息也可以不是在池化层170而是在全连接层180进行连接。即，在识别模型107中，也可以不包括对于第1语言和第2语言而言共同的池化层170。

图11是表示图3所示的识别模型107的第3构成例的示意图。图11所示的识别模型107是递归神经网络模型的例子，包括第1输入层151、第2输入层152、第1递归层191、第2递归层192以及连接层140。

例如，图11中的第1递归层191或第1输入层151与第1递归层191的组合，对应于图9中的第1提取层131。另外，图11中的第2递归层192或第2输入层152与第2递归层192的组合，对应于图9中的第2提取层132。另外，图11中的连接层140对应于图9中的连接层140。

与图10的例子同样地，在第1输入层151中，被输入表示第1语言的文本121的信息。例如，第1语言的文本121被通过第1转换模型转换成向量序列，向量序列被输入到第1输入层151。构成向量序列的多个向量也可以依次被输入到第1输入层151并被进行处理。在第1递归层191中，通过提取被输入到第1输入层151的向量序列的特征来提取第1语言的文本121的特征。

例如，在第1递归层191中，对构成被输入到第1输入层151的向量序列的多个向量，依次进行特征提取处理。此时，将当前向量和对前一向量的特征提取处理的结果用作输入，进行对当前向量的特征提取处理。即，对前一向量的特征提取处理的结果被反映到对当前向量的特征提取处理中，在特征提取处理中反映要素间的关系。

另外，与图10的例子同样地，在第2输入层152中，被输入表示第2语言的文本122的信息。例如，第2语言的文本122被通过第2转换模型转换成向量序列，向量序列被输入到第2输入层152。构成向量序列的多个向量也可以依次被输入到第2输入层152并被进行处理。在第2递归层192中，通过提取被输入到第2输入层152的向量序列的特征来提取第2语言的文本122的特征。

例如，在第2递归层192中，对构成被输入到第2输入层152的向量序列的多个向量，依次进行特征提取处理。此时，将当前向量和对前一向量的特征提取处理的结果用作输入，进行对当前向量的特征提取处理。即，对前一向量的特征提取处理的结果被反映到对当前向量的特征提取处理中，在特征提取处理中反映要素间的关系。

在连接层140中，通过连接由第1递归层191得到的多个值和由第2递归层192得到的多个值，由此连接第1语言的文本121的特征和第2语言的文本122的特征。另外，在连接层140中，通过包括多个值的连接以及加权加法运算的处理，导出多个标签各自的概率。

通过识别模型107识别为表现第1语言的文本121以及第2语言的文本122的内容的标签的标签，是在连接层140中导出的概率比预定概率高的标签。

通过上述那样的结构，能够将递归神经网络模型适用于识别模型107。

此外，在图11的例子中，与图10同样地，向识别模型107输入构成矩阵的向量序列。但是，向识别模型107输入的信息也可以不是构成矩阵的向量序列。

另外，在图9、图10以及图11的各图中示出的构成例是识别模型107的结构的一例。识别模型107的结构不限于在图9、图10以及图11的各图中示出的构成例。

本实施方式的识别控制方法以及识别控制装置100特别是在与训练数据对应的语言和与识别对象数据对应的语言不同的情况下是有用的。

此外，上述示出了与两种语言有关的例子。但是，可以将本实施方式的识别控制方法以及识别控制装置100适用于三种以上的语言。例如，也可以伴随追加的语言而追加与追加的语言对应的构成要素。另外，也可以对追加的语言进行追加的机器翻译。并且，也可以向识别模型107输入三种以上的语言的各文本并识别表现文本内容的标签。

另外，识别控制装置100也可以进行机器翻译。例如，识别控制装置100既可以将第1语言的文本翻译成第2语言，也可以将第2语言的文本翻译成第1语言。也就是说，识别控制装置100既可以通过将第1语言的文本翻译成第2语言来取得第2语言的文本，也可以通过将第2语言的文本翻译成第1语言来取得第1语言的文本。

由此，识别控制装置100能够仅取得第1语言和第2语言中的一方的语言的文本来进行学习或者识别。

(评价例)

接着，作为与实施方式中示出的识别模型107有关的评价例，主要介绍DSTC5(fifth Dialog State Tracking Challenge，第五对话状态跟踪挑战)的评价。

DSTC5是在对话中的意图的识别精度上进行竞赛的第五次比赛。另外，以下说明中的多通道卷积神经网络模型相当于实施方式中示出的识别模型107。另外，对话片段相当于文本。对话状态(Dialog State)相当于表现文本内容的标签。

另外，以下，基本上使用了由字符串表达的对话，但也可以将由声音表达的对话例如通过声音识别转换成字符串来使用。另外，准确地说，DSTC5涉及对话状态的跟踪。在以下的说明中，考虑到易于理解，取代“跟踪”而使用“识别”这一表达，但“识别”也可以替换说法为“跟踪”。

另外，以下，示出了卷积神经网络模型的例子，但对递归神经网络模型等其他模型也可以适用同样的说明。

[1.概要]

由DSTC5提供的脚本涉及跨语言地识别对话状态。在该脚本中，要求参加者基于有标签的英语数据来构建识别器，基于没有标签的汉语数据来验证识别器。另外，针对英语数据和汉语数据这两方，提供通过计算机制作出的翻译。但是，在这些翻译中包含有错误。因此，有可能会因翻译的不慎使用而导致识别器的性能降低。

对此，本发明人提出多通道卷积神经网络模型的架构。在该架构中，向共同的多通道卷积神经网络模型输入英语和汉语。该架构能够有效地提高针对误译的稳健性(鲁棒性)。

进而，该架构纯粹是基于机器学习的。因此，关于两种语言，不需要大范围的预备知识。由于识别器的开发者有可能不精通两种语言，因此该特性在构建识别器时是有用的。

此外，以下，有时将多通道卷积神经网络模型简称为多通道模型。

[2.引言]

对话状态的识别是对话处理的主要任务之一。具体而言，对话状态的识别是：为了易于计算机处理对话，按每个对话部分即对话片段，从对话片段识别将对话片段的内容表现为值的对话状态。为了提供该任务的通用的试验台，实施了一系列的DSTC(Dialog StateTracking Challenges)。

DSTC已经实施了4次，在该期间，对该领域的研究提供了非常有价值的帮助，帮助了最新技术的改良。第4次DSTC之后，要识别对话状态的对话从人与机器的对话变化为人彼此之间的对话。并且，由于人彼此之间的对话的灵活性和含糊性，导致对话状态的识别的困难性大幅增加。

在机器学习中，难以通过有限的训练数据来构建对人彼此之间的对话有用的识别器。该状况无法令人满意。这是因为：为了准备有标签的训练数据，基本上要求大成本、长时间以及专家。另外，为了构建用于新语言的识别器，要求有新语言的新训练数据。

在DSTC5中，提出了使用飞速发展的机器翻译技术。由此，能够不将时间花费在新语言的训练数据的准备上，而使由其他语言构建的识别器适应新语言。机器翻译技术的利用是非常有吸引力的。例如，不仅能够削减使识别器适应新语言的成本，也可能会使得通过不同语言的训练数据构建识别器成为可能。

具体而言，机器翻译技术的利用对于旅行信息系统而言是有用的。例如，即使从不同语言的说话者即从其他国家来的旅行者收集了数据，各语言的数据的量也可能会是有限的。但是，通过组合多种语言的数据，可获得用于训练的足够的数据量。

然而，尽管机器翻译技术最近取得了巨大的进步，但翻译质量尚且不够。通过由计算机制作出的翻译而受到训练的单一语言识别模型有可能会是不完善的。另外，对从其他语言制作出的翻译进行识别的性能有可能会比通常低。

对此，本发明人提出如下多通道模型：用多种语言同时训练，使用原来的对话片段和其翻译这两方来作为用于识别对话状态的输入。由此，能避免仅基于由计算机制作出的翻译来进行识别器的构建。并且，最大限度地活用了多种语言的多个信息，提高了针对误译的稳健性。

[3.数据集]

使用包括DSTC4的训练数据、开发数据以及测试数据的全部数据来作为DSTC5的训练数据。该训练数据包括与从英语说话者收集到的新加坡的旅行信息有关的35个对话会话。

除了该训练数据之外，包括从汉语说话者收集到的2个对话会话的开发数据也在最终评价之前被提供来用于确认识别器的性能。对于训练数据和开发数据的各数据，附加有对话状态作为标签，包括由机器翻译系统制作出的排在前面的5个英语翻译或者汉语翻译。

在DSTC5的评价阶段，将包含没有标签的8个汉语对话的测试数据发布给各参加者。然后，通过识别结果中的标签与真标签的比较来对由参加者提出的识别结果进行了评价。测试数据与训练数据及开发数据同样地，包括由机器翻译系统制作出的排在前面的5个英语翻译。

DSTC5中的对话状态与DSTC4相同，由本体(ontology，本体知识库)来定义。该本体如图12所示那样，包括具有互不相同的字段集的5个话题。

对话状态表示对于话题与字段的组合而言在对话片段中提及的最有特征的信息。例如，对于话题“Food(食物)”与字段“CUISINE(菜肴)”的组合而言，对话状态表示菜肴的种类。另外，对于话题“Transportation(交通)”与字段“STATION(车站)”的组合而言，对话状态表示列车的车站。

话题与字段的组合的总数为30个。并且，按话题与字段的每个组合，提供存在可能性的所有的对话状态作为本体中的列表。DSTC5的主要任务是根据对话片段、对话片段的话题以及对话片段之前的对话历史，针对各字段来识别适当的对话状态。图13表示对话片段及其对话状态。

[4.方法]

[4.1.框架]

在DSTC4中，本发明人提出了基于卷积神经网络模型的方法。通过该方法，在与字段“INFO(信息)”有关的识别中获得最高性能。在该方法中使用的CNN模型是对于所有的话题而言共同的CNN模型，包括追加的多话题卷积层，以使得能够更好地处理在多个话题中提示的信息。

该模型可以通过各种各样的话题来训练。因此，即使在训练数据有限的情况下，也可获得高性能。DSTC5中的训练数据比DSTC4中的训练数据多75％。因此，训练数据有限的状况得到改善。

本发明人更加关注跨语言这一情况，因此在DSTC5中取代DSTC4中的方法而采用了针对各话题来训练单独的CNN模型的方法。也就是说，在DSTC5中的方法中，例如，话题“FOOD(食物)”中的字段“INFO(信息)”和话题“SHOPPING(购物)”中的字段“INFO(信息)”是通过两个独立的模型而训练的。

进而，为了提供可广泛应用且可容易调整的方法，对字段与话题的每个组合的CNN模型设定相同的超参数。

图14是表示在DSTC5中本发明人采用的方法的示意图。按话题与字段的每个组合来构建作为CNN模型的多通道模型。例如，通过用话题“Food”对训练数据进行过滤，得到话题“Food”用训练数据。通过该话题“Food”用训练数据来训练话题“Food”的各字段的多通道模型。

另外，与话题“Food”有关的对话片段以及对话片段的翻译被输入到话题“Food”的各字段的多通道模型。并且，输出将话题“Food”的各字段的对话状态表示为标签的信息。

[4.2.动机]

在DSTC5中，以互不相同的语言来提供训练数据以及测试数据。另外，关于训练数据和测试数据的各数据，提供在汉语和英语的语言之间由计算机制作出的翻译。因此，一个直接方法是对用英语训练数据进行了训练后的模型使用测试数据的英语翻译的方法。另一个直接方法是对用训练数据的汉语翻译进行了训练后的模型使用汉语测试数据的方法。

然而，在两种方法中，不直接利用训练数据和测试数据的某一方而利用其翻译。为了充分活用英语数据和汉语数据这两方，本发明人提出供英语和汉语这两方输入的模型即多通道模型。

[4.3.模型架构]

图15是表示在DSTC5中本发明人提出的多通道模型的结构的示意图。

在本发明人的提案中，在图像处理中较多使用的多通道模型被适用于多种语言的处理。在彩色图像的图像处理中，使用多通道模型的多个输入通道来作为与R、G以及B对应的多个输入通道。在多种语言的处理中，使用多通道模型的多个输入通道来作为与多种语言对应的多个输入通道。

在该多通道模型中，向各输入通道输入的输入数据是由下式表达的二维矩阵，该二维矩阵的各行也被称为对应的词的向量表达即嵌入向量(embedding vector)。

在此，w_i是输入文本中的第i个词的嵌入向量。s是二维排列，是输入文本的矩阵表达。s也被称为嵌入矩阵。为了以包括两个汉语形式和一个英语形式的三个形式将输入文本转换成矩阵，使用了三个嵌入模型。后面叙述这些嵌入模型的详细情况。

关于各通道，使用下式，通过对嵌入矩阵s与过滤器m进行卷积运算，得到特征映射h。

在此，f是非线性激活函数。作为非线性激活函数，可以使用归一化线性函数(ReLU：Rectified Linear Unit，修正线性单元)。*是卷积运算符。b是偏置(bias)项。然后，通过池化层来选择该特征映射h的最大值。该选择处理由下式来表达。

该选择处理是按每个过滤器从输入矩阵中提取最显著的特征的处理。在图15中，在池化层中对多个通道的信息进行连结，但也可以不一定在池化层中进行连结。在该多通道模型中，在各通道中使用多个过滤器来提取多个特征。这些特征被发送到全连接层。在全连接层，进行下式所示的运算。

此外，S是Sigmoid函数，w表示权重，y表示概率。由此，算出多个标签各自的概率。也就是说，算出多个对话状态的各对话状态的概率。

在多通道模型中，在最终输出之前，对从多个通道提取出的特征彼此进行连接。由此，可使用从多个通道得到的丰富的信息。

相对于多种语言的嵌入矩阵有可能互相存在很大不同。因此，在该多通道模型中，使用按每个通道不同的过滤器组。例如，在多种语言下，相同或大致相同的嵌入向量有时会与意思差别很大的无关的词对应。在该多通道模型中，针对多种语言的各语言，通过使用与该语言对应的过滤器组，从与该语言对应的矩阵中提取适当的特征。

[4.4.嵌入模型]

word2vec模型是用于进行单词嵌入的最通用的模型之一。具体而言，word2vec模型是将语言的要素转换成向量的模型，是两层的神经网络模型。另外，word2vec模型通过语料库来训练，以使得多个要素在意思上越接近则被转换成越接近的多个向量。

为了生成向多通道模型输入的矩阵，使用由三个不同的训练语料库训练成的三个不同的word2vec模型即英语嵌入模型、汉语单词嵌入模型以及汉语文字嵌入模型。英语嵌入模型、汉语单词嵌入模型以及汉语文字嵌入模型具体如下。

英语嵌入模型是用于将英语维基百科(Wikipedia，注册商标)中的所有文本的内容用空格(space)进行分割、使所有字符成为小写字符而受训、并将英语单词转换成200维度的向量的word2vec模型。该英语嵌入模型学习253854个英语单词。

汉语单词嵌入模型是用于使用“jieba”模块将汉语维基百科(注册商标)中的所有文本的内容用单词边界进行分割而受训、并将汉语单词转换成200维度的向量的word2vec模型。“jieba”模块是用于将汉语文本的内容按单词进行分割的程序。汉语单词嵌入模型学习出现在汉语维基百科(注册商标)中的444184个汉语单词以及53743个英语单词。

汉语文字嵌入模型是用于将汉语维基百科(注册商标)中的所有文本的内容按汉语的每个文字进行分割而受训、并将汉语文字转换成200维度的向量的word2vec模型。汉语文字嵌入模型学习出现在汉语维基百科(注册商标)中的12145个汉语文字以及53743个英语单词。

在汉语中确定单词边界并不容易。因此，针对汉语，训练了汉语单词嵌入模型和汉语文字嵌入模型这两个模型。

在汉语中，具有意思的最小要素有时是单个文字，有时是连结后的多个文字。并且，在汉语文本的分割中要伴随文章的分析。因此，即使通过最新技术的方法，也仍然不能实现完全的准确性。由于该理由，汉语单词嵌入模型有时会学习不准确的词汇，无法适当地处理文字的组合。

另一方面，汉语文字嵌入模型并不依赖单词的分割，因此在汉语文字嵌入模型中没有错误，能够容易地将文字作为一个词来进行处理。然而，汉语文字嵌入模型无视了单词边界。因此，有时嵌入结果未反映准确的意思。

图16是表示对训练数据的前处理的示意图。训练数据中的英语对话片段通过英语嵌入模型转换成由英语单词的向量构成的英语嵌入矩阵，并被输入到多通道模型的第3通道。另外，英语对话片段通过从英语向汉语的机器翻译系统转换成汉语翻译对话片段。

并且，汉语翻译对话片段通过汉语单词嵌入模型转换成由汉语单词的向量构成的汉语单词嵌入矩阵，并被输入到多通道模型的第1通道。另外，汉语翻译对话片段通过汉语文字嵌入模型转换成由汉语文字的向量构成的汉语文字嵌入矩阵，并被输入到多通道模型的第2通道。

图17是表示对开发数据以及测试数据的前处理的示意图。开发数据以及测试数据中的汉语对话片段通过汉语单词嵌入模型转换成由汉语单词的向量构成的汉语单词嵌入矩阵，并被输入到多通道模型的第1通道。另外，汉语对话片段通过汉语文字嵌入模型转换成由汉语文字的向量构成的汉语文字嵌入矩阵，并被输入到多通道模型的第2通道。

另外，汉语对话片段通过从汉语向英语的机器翻译系统转换成英语翻译对话片段。并且，英语翻译对话片段通过英语嵌入模型转换成由英语单词的向量构成的英语嵌入矩阵，并被输入到多通道模型的第3通道。

[5.结果]

[5.1.DSTC5中的评价结果]

将由本发明人团队提出的方法的评分与其他团队的评分一起示出在图18中。本发明人团队的编号是“2”。

本发明人提出的多通道模型在全部9个团队中取得了最高的评分。事项(entry)“3”的正解率是0.0956，评分第二高的其他团队的正解率是0.0635。另外，事项“3”的F值(F-measure)是0.4519，评分第二高的其他团队的F值是0.3945。即，事项“3”的结果相比于评分第二高的其他团队，在正解率上提高了约50％，在F值上提高了约15％。

在本发明人的团队的5个事项“0”～“4”中，超参数互不相同。图19示出多个超参数。多个超参数中的丢弃(dropout)率会对结果产生很大影响。关于丢弃，在神经网络模型中作为用于削减由于学习了特别的数据而导致普遍化(一般化)性能降低的过度学习的技术而是已知的。

关于5个事项“0”～“4”，随着丢弃率的降低，再现率(recall，召回率)降低，符合率(precision)上升。另一方面，丢弃率的进一步降低并不会改善作为整体的性能。在图18以及图19中，两个事项“5”以及“6”与丢弃率较低的超参数的设定及其结果对应。

[5.2.多通道模型、单通道模型以及组合模型]

本发明人为了调查多通道模型的贡献程度，在多通道模型与通常的单通道模型之间比较了性能。为了进行该比较，使用上述的三个嵌入模型训练了三个单通道模型。另外，在训练中使用了排在最前面的翻译。图20示出该评价结果。多通道模型的性能比三个单通道模型的性能高。另一方面，汉语文字模型在三个单通道模型中具有最高性能。

在先前的DSTC中，为了改善识别性能，使用了组合多个模型的技术。这样的组合的最终输出对应于多个单通道模型的输出的平均。在图20中，示出了由三个单通道模型的组合得到的结果作为组合模型。组合模型具有逼近于多通道模型的性能。另外，组合模型的构建比较容易。因此，也可以使用组合模型来作为多通道模型的代替模型。

[5.3.考察]

上述的结果也可以从集成学习(ensemble learning)的观点来部分说明。在多通道模型中，多个通道对于数据提供更多的特征。通过更多的特征，适当地补足信息。另外，多通道模型中的全连接层得到最佳化。因此，多通道模型能够提高针对误译的稳健性。

图21示出多通道模型的确证例，示出通过各模型识别出的标签。在该例中，无论三个单通道模型的哪个，都未输出正解标签。另一方面，在多通道模型中，输出了正解标签。

在组合模型中，进行单纯的投票那样的工作。也就是说，选择多个单通道模型中的较多地识别出的标签。相对于此，在多通道模型中，根据多个特征选择可靠度高的标签。作为结果，由三个单通道模型的一个单通道模型识别出的标签“Walking”在多通道模型中被适当识别，由三个单通道模型中的两个单通道模型识别出的标签“Exhibit”在多通道模型中被适当否定。

但是，实际的状况更为复杂。如图22所示那样，正解率根据字段而不同，多个模型的性能的高低顺序也根据字段而部分不同。由于在机器翻译中按每个主题不同程度地产生的含糊性，有可能会产生这样的差异。

例如，作为英语中的时间表达，单词“evening”和单词“night”分别以96％和43％的概率被翻译成相同的汉语单词即“wan shang”。该汉语单词具有“evening”和“night”这两方的意思，但存在表示各单词的更准确的汉语用语。

这样的翻译的不准确性会使得在汉语中识别“Evening”和“Night”的标签更为困难，会牵扯到字段“TIME”中的汉语的单通道模型的性能的低度。

另外，通过将翻译方向反过来，有时会受到语言间的词态、词序以及语法的不同的影响，导致翻译质量会发生变化。在DSTC5中，由于训练数据仅包含一个翻译方向、具体是从英语向汉语的方向，因此多通道模型在相反的翻译方向上并不是最佳的。因此，基于翻译质量等，多通道模型也可以在与多个通道对应的多个特征上有偏向。另外，组合模型同样地也可以在模型间有偏向。

另外，为了使多通道模型的性能提高，也可以在两个翻译方向这两方上受到训练。

[6.关于评价的结论]

本发明人提出从互不相同的多个通道受理多种语言的输入的多通道模型。该多通道模型具有针对误译的稳健性、且性能比任何单通道模型都高。进而，关于新语言并不需要预备知识。因此，能够容易地将不同语言的数据适用于多通道模型。

因此，多通道模型能够削减与新语言对应的适用成本，能够针对多种语言识别对话状态。

(总结)

如上所述，在本发明的一个技术方案的识别控制方法中，取得第1文本、第2文本以及正解标签。第1文本是第1语言的文本。第2文本是第2语言的文本，且是通过将第1文本翻译成第2语言而得到的文本。正解标签是表示第1文本的内容的标签。

并且，以第1语言和第2语言向共同的识别模型107输入第1文本以及第2文本。并且，以使得通过共同的识别模型107从第1文本以及第2文本识别的标签符合正解标签的方式，更新共同的识别模型107。

由此，向共同的识别模型107输入第1语言的第1文本和第2语言的第2文本这两方。并且，更新共同的识别模型107，以使得通过共同的识别模型107识别适当的标签。即，能构建从多种语言的多个文本识别适当的标签那样的基于多种语言的识别模型107。

并且，基于多种语言的识别模型107被跨语言地适当训练。因此，通过基于多种语言的识别模型107，相比于基于单种语言的识别模型或者该基于单种语言的识别模型的组合，能够适当地识别标签。因此，能够在使用多种语言的环境下适当地识别表示文本内容的标签。即，能够在使用多种语言的环境下改善标签的识别质量。

例如，也可以通过第1转换模型将第1文本转换成第1值序列，并通过第2转换模型将第2文本转换成第2值序列。在第1转换模型中，用第1语言表达的多个要素在意思上越接近则被转换成越接近的多个值。在第2转换模型中，用第2语言表达的多个要素在意思上越接近则被转换成越接近的多个值。并且，也可以向共同的识别模型107输入被转换成第1值序列的第1文本以及被转换成第2值序列的第2文本。

由此，能够通过基于用各语言表达的要素的意思的转换模型适当地将文本转换成值序列，并向共同的识别模型107输入被转换成值序列的文本。

另外，例如也可以，在第1转换模型中，用第1语言表达的多个要素在意思上越接近则被转换成越接近的多个向量。也可以，在第2转换模型中，用第2语言表达的多个要素在意思上越接近则被转换成越接近的多个向量。第1值序列也可以是第1向量序列。第2值序列也可以是第2向量序列。

由此，能够通过基于用各语言表达的要素的意思的转换模型适当地将文本转换成向量序列，并向共同的识别模型107输入被转换成向量序列的文本。

另外，例如，共同的识别模型107也可以是卷积神经网络模型。由此，作为用于识别标签的识别模型107，使用卷积神经网络模型。通过卷积神经网络模型，能适当地提取特征，基于所提取出的特征适当地识别标签。因此，能够进行适当的标签识别。

另外，例如，卷积神经网络模型也可以包括交替地层叠的多个卷积层和多个池化层。

由此，对于用于识别标签的识别模型107，使用多个卷积层和多个池化层交替地层叠的卷积神经网络模型。在多个卷积层和多个池化层交替地层叠的卷积神经网络模型中，能通过多次的特征提取，从所输入的信息更适当地提取特征。因此，能够进行更适当的标签识别。

另外，例如，卷积神经网络模型也可以以分开的方式包括与第1语言对应的至少一个卷积层和与第2语言对应的至少一个卷积层。由此，通过与各语言对应的卷积层，能够适当地提取特征。即，能够适当地提取每种语言的特征。

另外，例如，卷积神经网络模型也可以以分开的方式包括与第1语言对应的至少一个池化层和与第2语言对应的至少一个池化层。由此，能够在与各语言对应的池化层，削减表示特征的信息的维度。即，能够在将与多种语言对应的多个特征进行连接之前削减维度。因此，能够抑制运算量的增加。

另外，例如，卷积神经网络模型也可以包括对于第1语言和第2语言而言共同的至少一个池化层。由此，能够将与多种语言对应的多个特征进行连接。并且，能够将连接后的多个特征利用于标签的识别。

另外，例如，卷积神经网络模型也可以包括对于第1语言和第2语言而言共同的至少一个卷积层。由此，能够通过针对多种语言共同的卷积层来提取特征。即，能够针对多种语言通过共同的处理进行特征的提取。因此，能够抑制运算量的增加。

另外，例如，共同的识别模型107也可以是递归神经网络模型。由此，作为用于识别标签的识别模型107，使用适合于自然语言处理的递归神经网络模型。因此，能够适当地识别表现文本内容的标签。

另外，例如，共同的识别模型107也可以包括第1提取层、第2提取层以及连接层。在第1提取层中，提取第1语言的文本的特征即第1特征。在第2提取层中，提取第2语言的文本的特征即第2特征。在连接层中，连接第1特征和第2特征。

由此，包括多个提取层以及连接层的识别模型作为用于识别标签的识别模型107来使用。并且，包括这些层的识别模型107在整体上受到训练。因此，能够适当地识别标签。

另外，例如，在连接层中，也可以为表示第1特征以及第2特征的多个值被进行连结。由此，能够简单地连接表示与多种语言对应的多个特征的多个值。并且，能够将连接的结果利用于标签的识别。

另外，例如，在连接层中，也可以对表示第1特征以及第2特征的多个值进行线性连接。由此，能够通过简单的运算来组合表示与多种语言对应的多个特征的多个值。并且，能够将组合的结果利用于标签的识别。

另外，例如，在连接层中，也可以通过包括表示第1特征以及第2特征的多个值的连接以及加权加法运算的处理来导出多个标签各自的概率。并且，对于通过识别模型107识别的标签，也可以通过在连接层中导出的概率来识别。

由此，最终标签通过概率来识别。另外，用于从两种语言的两个文本中识别最终标签的识别模型107受到训练。因此，能够适当地识别最终标签。

另外，例如，也可以取得第3文本以及第4文本。第3文本是第1语言的文本，第4文本是第2语言的文本。另外，第3文本和第4文本中的一方的文本是通过将另一方的文本翻译成与一方的文本对应的语言而得到的文本。

并且，也可以向更新后的共同的识别模型107输入第3文本以及第4文本。并且，也可以将通过共同的识别模型107从第3文本以及第4文本识别的标签识别为表示第3文本或者第4文本的标签。

由此，向基于多种语言的识别模型107输入第1语言的第3文本以及第2语言的第4文本这两方。通过基于多种语言的识别模型107，相比于基于单种语言的识别模型或该基于单种语言的识别模型的组合，能够适当地识别标签。因此，能适当地识别标签。

另外，例如，也可以将第3文本通过第1转换模型转换成第3值序列，并将第4文本通过第2转换模型转换成第4值序列。在第1转换模型中，用第1语言表达的多个要素在意思上越接近则被转换成越接近的多个值。在第2转换模型中，用第2语言表达的多个要素在意思上越接近则被转换成越接近的多个值。并且，也可以向共同的识别模型107输入被转换成第3值序列的第3文本以及被转换成第4值序列的第4文本。

另外，例如也可以，在第1转换模型中，用第1语言表达的多个要素在意思上越接近则被转换成越接近的多个向量。也可以，在第2转换模型中，用第2语言表达的多个要素在意思上越接近则被转换成越接近的多个向量。第3值序列也可以是第3向量序列。第4值序列也可以是第4向量序列。

另外，本发明的一个技术方案的识别控制装置100具备执行上述的识别控制方法的控制电路110和存储有用于供控制电路110执行识别控制方法的信息的存储电路111。由此，识别控制装置100能够执行上述的识别控制方法。因此，能够使得识别控制装置100在使用多种语言的环境下适当地识别表示文本内容的标签成为可能。

以上，基于实施方式等对本发明的一个技术方案的识别控制装置100以及识别控制方法进行了说明，但本发明不限定于实施方式等。对实施方式等实施本领域技术人员能想到的变形而得到的方式以及对实施方式等中的多个构成要素进行任意组合而实现的其他方式也包含在本发明中。

例如，在上述实施方式中，也可以取代特定的构成要素而由其他的构成要素来执行特定的构成要素所执行的处理。另外，也可以变更多个处理的顺序，还可以并行地执行多个处理。另外，翻译也可以不是机器翻译。另外，也可以是程序使计算机执行识别控制方法所包含的步骤。

例如，该程序使计算机执行包括如下步骤的识别控制方法：取得第1文本的步骤，所述第1文本是第1语言的文本；取得第2文本的步骤，所述第2文本是第2语言的文本、且是通过将所述第1文本翻译成所述第2语言而得到的文本；取得正解标签的步骤，所述正解标签是表现所述第1文本的内容的标签；以所述第1语言以及所述第2语言向共同的识别模型输入所述第1文本以及所述第2文本的步骤；以及以使得通过所述共同的识别模型从所述第1文本以及所述第2文本识别的标签符合所述正解标签的方式，更新所述共同的识别模型的步骤。

另外，该程序也可以记录在CD-ROM等非瞬时性记录介质中。另外，识别控制装置100也可以通过集成电路来安装。另外，识别控制装置100也可以具备与识别控制方法所包含的多个步骤分别对应的多个电路或者多个单元等作为多个硬件要素。

产业上的可利用性

本发明能够在多种语言下利用于用于在使用多种语言的环境下识别表现文本内容的标签的识别控制装置等，能够适用于文件识别系统、语言分析系统、对话识别系统或者文件概括系统等。

Claims

1.一种识别控制方法，包括：

取得第1文本的步骤，所述第1文本是第1语言的文本；

取得第2文本的步骤，所述第2文本是第2语言的文本、且是通过将所述第1文本翻译成所述第2语言而得到的文本；

取得正解标签的步骤，所述正解标签是表现所述第1文本的内容的标签；

以所述第1语言以及所述第2语言向共同的识别模型输入所述第1文本以及所述第2文本的步骤；以及

以使得通过所述共同的识别模型从所述第1文本以及所述第2文本识别的标签符合所述正解标签的方式，更新所述共同的识别模型的步骤。

2.根据权利要求1所述的识别控制方法，

所述识别控制方法还包括：

通过第1转换模型将所述第1文本转换成第1值序列的步骤，所述第1转换模型是用所述第1语言表达的多个要素在意思上越接近则被转换成越接近的多个值的转换模型；和

通过第2转换模型将所述第2文本转换成第2值序列的步骤，所述第2转换模型是用所述第2语言表达的多个要素在意思上越接近则被转换成越接近的多个值的转换模型，

在向所述共同的识别模型输入所述第1文本以及所述第2文本的步骤中，向所述共同的识别模型输入被转换成所述第1值序列的所述第1文本以及被转换成所述第2值序列的所述第2文本。

3.根据权利要求2所述的识别控制方法，

在所述第1转换模型中，用所述第1语言表达的多个要素在意思上越接近则被转换成越接近的多个向量，

在所述第2转换模型中，用所述第2语言表达的多个要素在意思上越接近则被转换成越接近的多个向量，

所述第1值序列是第1向量序列，

所述第2值序列是第2向量序列。

4.根据权利要求1～3中任一项所述的识别控制方法，

所述共同的识别模型是卷积神经网络模型。

5.根据权利要求4所述的识别控制方法，

所述卷积神经网络模型包括交替地层叠的多个卷积层和多个池化层。

6.根据权利要求4所述的识别控制方法，

所述卷积神经网络模型以分开的方式包括与所述第1语言对应的至少一个卷积层和与所述第2语言对应的至少一个卷积层。

7.根据权利要求4所述的识别控制方法，

所述卷积神经网络模型以分开的方式包括与所述第1语言对应的至少一个池化层和与所述第2语言对应的至少一个池化层。

8.根据权利要求4所述的识别控制方法，

所述卷积神经网络模型包括对于所述第1语言和所述第2语言而言共同的至少一个池化层。

9.根据权利要求4所述的识别控制方法，

所述卷积神经网络模型包括对于所述第1语言和所述第2语言而言共同的至少一个卷积层。

10.根据权利要求1～3中任一项所述的识别控制方法，

所述共同的识别模型是递归神经网络模型。

11.根据权利要求1～3中任一项所述的识别控制方法，

所述共同的识别模型包括：

提取第1特征的第1提取层，所述第1特征是所述第1语言的文本的特征；

提取第2特征的第2提取层，所述第2特征是所述第2语言的文本的特征；以及

将所述第1特征和所述第2特征进行连接的连接层。

12.根据权利要求11所述的识别控制方法，

在所述连接层中，表示所述第1特征以及所述第2特征的多个值被进行连结。

13.根据权利要求11所述的识别控制方法，

在所述连接层中，对表示所述第1特征以及所述第2特征的多个值进行线性连接。

14.根据权利要求11所述的识别控制方法，

在所述连接层中，通过包括表示所述第1特征以及所述第2特征的多个值的连接以及加权加法运算的处理，导出多个标签各自的概率，

对于通过所述共同的识别模型识别的标签，通过在所述连接层中导出的概率来识别。

15.根据权利要求1～3中任一项所述的识别控制方法，

所述识别控制方法还包括：

取得第3文本的步骤，所述第3文本是所述第1语言的文本；和

取得第4文本的步骤，所述第4文本是所述第2语言的文本，

所述第3文本和所述第4文本中的一方的文本是通过将另一方的文本翻译成与所述一方的文本对应的语言而得到的文本，

所述识别控制方法还包括：

向更新后的所述共同的识别模型输入所述第3文本以及所述第4文本的步骤；和

将通过所述共同的识别模型从所述第3文本以及所述第4文本识别的标签识别为表现所述第3文本或所述第4文本的标签的步骤。

16.根据权利要求15所述的识别控制方法，

所述识别控制方法还包括：

通过第1转换模型将所述第3文本转换成第3值序列的步骤，所述第1转换模型是用所述第1语言表达的多个要素在意思上越接近则被转换成越接近的多个值的转换模型；和

通过第2转换模型将所述第4文本转换成第4值序列的步骤，所述第2转换模型是用所述第2语言表达的多个要素在意思上越接近则被转换成越接近的多个值的转换模型，

在向所述共同的识别模型输入所述第3文本以及所述第4文本的步骤中，向所述共同的识别模型输入被转换成所述第3值序列的所述第3文本以及被转换成所述第4值序列的所述第4文本。

17.根据权利要求16所述的识别控制方法，

所述第3值序列是第3向量序列，

所述第4值序列是第4向量序列。

18.一种识别控制装置，具备：

执行识别控制方法的控制电路；和

存储有用于供所述控制电路执行所述识别控制方法的信息的存储电路，

所述识别控制方法包括：

取得第1文本的步骤，所述第1文本是第1语言的文本；