CN104933022A

CN104933022A - 信息处理装置和信息处理方法

Info

Publication number: CN104933022A
Application number: CN201510109856.7A
Authority: CN
Inventors: 中田康太; 蟻生政秀
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-03-20
Filing date: 2015-03-13
Publication date: 2015-09-23
Anticipated expiration: 2035-03-13
Also published as: JP2015184749A; JP6165657B2; US20150269162A1; CN104933022B

Abstract

本发明涉及一种信息处理装置和信息处理方法。根据实施例，一种信息处理装置包括第一特征计算器，第二特征计算器，相似度计算器以及选择器。第一特征计算器被配置为计算代表至少一个主题的文档与目标文档的相关性强度的主题特征，所述目标文档与语言模型的用途匹配。第二特征计算器被配置为针对多个候选文档中的每一个候选文档计算所述主题特征。相似度计算器被配置为计算所述候选文档的每个主题特征与所述目标文档的主题特征的相似度。选择器被配置为从候选文档中选择相似度大于参考值的候选文档作为要用于学习语言模型的文档。

Description

信息处理装置和信息处理方法

对相关申请的交叉引用

本申请基于2014年3月20日提交的日本专利申请号NO.2014-058246，并以该申请为优先权基础；该日本专利申请的全部内容通过引用方式并入在此。

技术领域

在此说明的实施例一般关于一种信息处理装置和信息处理方法。

背景技术

借助于计算机和互联网环境的普及，大量文档已经被电子化并存储。能够通过使用如此大量的电子化文档来学习用在例如语音识别的技术中的语言模型。通过使用例如在网络上可得的大量文档来学习一种用作一般用途的语言模型能够改善该语言模型的性能。相反，通过使用大量网络上可得的文档来学习一种用作特定用途的语言模型并不能大大改善其性能，因为包含大量关于除特定用途之外的用途的文档。

为了改善用作特定用途的语言模型的性能，有必要通过仅使用关于特定用途的文档(目标文档)来学习语言模型。例如，当特定用途是在呼叫中心的语音识别时，通过使用由录制呼叫中心的操作员的对话语音所得的文档来学习语言模型能够改善用作这一特定用途的语言模型的性能。

但是，使用这种方法，当没有足够数量的目标文档来用于学习时，无法实现用于多种表达的语言模型。然而，很难收集大量关于特定用途的文档。例如，将语音录制成文档的工作需要较大的经济和时间成本，因此难以获得足够数量的目标文档。

发明内容

实施例的一个目的是提供一种能够从除目标文档之外还包括大量文档的多个候选文档中适当选择要用于学习语言模型的文档的信息处理装置。

根据实施例，信息处理装置包括第一特征计算器，第二特征计算器，相似度计算器以及选择器。所述第一特征计算器被配置为计算主题特征，该主题特征代表至少一个主题的文档与目标文档的相关性强度，所述目标文档与语言模型所要用作的用途匹配。第二特征计算器被配置为计算多个候选文档中的每一个候选文档的所述主题特征。相似度计算器被配置为计算候选文档的每一个所述主题特征与所述目标文档的主题特征的相似度。选择器被配置为选择候选文档作为要用于学习语言模型的文档，该候选文档的相似度大于来自其他候选文档之中的参考值。

根据上述信息处理装置，能够从除目标文档之外还包含大量文档的多个候选文档中适当选择要用于学习语言模型的文档。

附图说明

图1是示出根据第一实施例的信息处理装置的配置的图；

图2是示出主题数量为50的主题信息的例子的表格；

图3是示出根据第一实施例的信息处理装置的处理流程的图表；

图4是示出目标文档的第一个例子的图；

图5是示出候选文档的第一个例子的图；

图6是示出候选文档的第二个例子的图；

图7是示出候选文档的第三个例子的图；

图8是示出主题特征计算流程的图表；

图9是示出单词一致度高的文档的例子的图；

图10是示出主题数量为10的主题信息的例子的表格；

图11是示出主题数量为200的主题信息的例子的表格；

图12是示出用于选择主题信息的处理流程的图表；

图13是示出根据第二变型例的主题信息的例子的表格；

图14是示出根据第二实施例的信息处理装置的配置的图；

图15是示出根据第二实施例的信息处理装置的处理流程的图表；

图16是示出目标文档的第二个例子的图；

图17是示出相似用途文档的例子的图；

图18是示出关于第一词性组的主题信息的例子的表格；

图19是示出关于第二词性组的主题信息的例子的表格；以及

图20是示出信息处理装置的硬件配置的图。

具体实施方式

第一实施例

图1是示出根据第一实施例的信息处理装置10的配置的图。图2是示出主题数量为50的主题信息的例子的表格。

信息处理装置10从网络等上的多个候选文档中选择要用于学习语言模型的文档，并通过使用所选择的候选文档来学习语言模型。信息处理装置10包括目标文档存储器21，候选语料库存储器22，主题信息获取单元23，第一特征计算器24，第二特征计算器25，相似度计算器26，选择器27，以及学习单元28。

目标文档存储器21存储与要学习的语言模型所要用作的用途相匹配的文档(目标文档)。目标文档例如由用户手动选择。例如，当要学习的语言模型要被用作呼叫中心的语音识别时，目标文档就是呼叫中心处的操作员的语音所录制成的文本。

候选语料库存储器22存储多个文档(候选文档)，所述多个文档是要用于学习语言模型的文档的候选。候选文档是例如从网络上收集的大量文本。候选文档包括用作例如新闻网站中的文章和信息板上张贴的评论的各种用途的文档，并且也包括用作除语言模型所要用作的用途之外的用途的文档。候选语料库存储器22可以设置在网络上的服务器中或者分布在多个服务器中，而不是被设置在信息处理装置10中。

主题信息获取单元23获取主题信息。如图2所示，针对每个主题，主题信息包含词语和分数对的集合。

主题指文档的中心对象(话题)以及该文档的特征，例如讲话方式。一个文档可以包含多个主题。例如，图2中主题编号#1代表数字家电的主题。图2中主题编号#2代表关于食品的主题。主题信息可以进一步包括代表礼貌语方式的主题和代表书面语方式(用于书写的方式)的主题。

属于主题信息中的每个主题的词语是关于该主题的词语，并且可以被包含在关于该主题的文档中。包含在主题信息中的每个词语都与分数结对。分数代表与该词语所属于的主题的相关性的强度。在本实施例中，随着与所关联主题的相关性越强，分数越高。

在主题信息中，一个词语可以属于多个主题。此外，在主题信息中可以包含任意数量的主题。

例如，通过由用户设置多个主题并由用户收集关于各个主题的词语来生成主题信息。又例如，通过由用户设置多个主题，由用户提供关于每个主题的文档，并且例如由计算机计算在所提供的文档中的词语的频次来生成主题信息。

作为替代方案，主题信息获取单元23可以通过使用如在下面引用文献中所记载的无监督(unsupervised)主题分析技术来自动生成主题信息：

Blei,David M.,Andrew Y.Ng,and Michael I.Jordan."Latentdirichlet allocation."the Journal of machine Learning research 3(2003):P.993-1022.

在该方法中，用户首先设置主题数量N。然后主题信息获取单元23分析大量多种文档来生成分类为N个主题的主题信息。根据该方法，主题信息获取单元23能够在不使用该主题的先验知识的情况下生成该主题信息。

第一特征计算器24基于主题信息针对存储在目标文档存储器21中的目标文档计算主题特征。主题特征代表文档与各个主题的相关性强度。在本实施例中，主题特征由如下式(1)的矢量(数组)表示。

\overset{&RightArrow;}{T} (t) = (T_{1}, T_{2}, . . ., T_{49}, T_{50}) = (0.74,0.03, . . ., 0.06,0.65) - - - (1)

由矢量表示的主题特征包含元素(例如T₁,T₂,...,T₄₉,T₅₀),元素数量对应于包含在主题信息中的主题数量。包含在主题特征中的每个元素与包含在主题信息中的主题一一关联。每个元素代表文档与所关联主题的相关性强度。例如，式(1)中的元素T₁代表文档与图2所示的主题信息中主题编号#1的主题的相关性强度。

这样的主题特征代表文档与各个主题的相关性强度的分布。稍后将参考图8说明用于计算主题特征的更详细的方法。

第二特征计算器25基于主题信息针对存储在候选语料库存储器22中的每个候选文档计算主题特征。针对候选文档的主题特征与目标文档的主题特征形式相同，并通过相同的计算方法计算得到。

相似度计算器26计算针对多个候选文档的每个主题特征与针对目标文档的主题特征之间的相似度。具体来说，相似度计算器26计算每个候选文档中的各个主题的相关性强度的分布与目标文档中的各个主题的相关性强度的分布的相似性如何。

在本实施例中，相似度计算器26通过运算由矢量表示的主题特征的内积来计算相似度。具体来说，相似度计算器26将包含在针对候选文档的主题特征中的每个元素与针对目标文档的主题特征中的对应元素相乘，并计算所有相乘结果的和作为相似度。

选择器27从多个候选文档中选择相似度大于参考值的文档作为要用于学习语言模型的文档。注意参考值可以是由用户设置的值。作为替代方案，参考值可以是基于多个候选文档的相似度计算得到的值。例如，参考值可以是比多个候选文档的相似度的平均值或者是多个候选文档的相似度的最大值小一定量的值。

学习单元28基于选择器27所选择的候选文档来学习语言模型。例如，学习单元28通过使用公知技术来学习n-gram语言模型。

图3是示出根据第一实施例的信息处理装置10的处理流程的图。在本流程中，将说明要用于家电制造商的呼叫中心处的语音识别的语言模型的例子。此外，在本流程中，将说明使用图2所示的主题信息的例子。

在处理前，目标文档由用户提前存储在目标文档存储器21中。目标文档存储器21将文本存储为目标文档，该文本由例如图4所示的针对询问电视机(也称为电视)遥控器的语音回答录制而成。

此外，在处理前，信息处理装置10从网络等获取多个候选文档，并且将所获取的候选文档存储在候选语料存储器22中。候选语料存储器22将候选文档存储为例如在图5、6和7中所示出的那样的文档。图5中示出的候选文档C_{n1}是由向家电制造商的呼叫中心询问DVD刻录机的语音录制而成的文本。图6中示出的候选文档C_{n2}是写在网络上并表明电视工作不正常的文本。图7中示出的候选文档C_{n3}是由向食品制造商的呼叫中心询问过敏原的语音录制而成的文本。

首先，在步骤S11中，主题信息获取单元23生成主题信息。主题信息获取单元23可以获取事先存储的主题信息。

随后，在步骤S12中，第一特征计算器24针对各个主题累计包含在目标文档中的词语的分数以计算目标文档的主题特征。具体来说，第一特征计算器24通过图8中步骤S21到S29示出的程序来计算目标文档的主题特征。

在图8的步骤S21中，第一特征计算器24初始化该主题特征。在本例中，包含在主题特征中的所有元素被初始化为0.0，如下式(2)所示。

\overset{&RightArrow;}{T} (t) = (T_{1}, T_{2}, . . ., T_{49}, T_{50}) = (0.0,0.0, . . ., 0.0,0.0) - - - (2)

随后，第一特征计算器24针对包含在正在处理中的文档中的所有词语中的每一个词语重复从步骤S23到步骤S27的处理(步骤S22和步骤S28之间的循环处理)。例如，第一特征计算器24从正在处理的文档中的第一个词语到最后一个词语中依次选择一个词语，并且对该词语执行从步骤S23到步骤S27的处理。

在针对每个词语的循环处理中，第一特征计算器24针对在主题信息中显示的每个主题进一步重复从步骤S24到S26的处理(步骤S23和步骤S27之间的循环处理)。例如，第一特征计算器24从主题信息的主题编号#1到主题编号#50中依次选择一个主题，并且对该词语执行从步骤S24到步骤S26的处理。

在针对每个主题的循环处理中，首先，在步骤S24中，第一特征计算器24确定所选择的词语是否包含在主题信息中正在被处理的主题的词语集合中。若该词语未被包含(步骤S24中否)，第一特征计算器24将处理转移到步骤S27。若该词语被包含(步骤S24中是)，第一特征计算器24将处理转移到步骤S25。

在步骤S25中，第一特征计算器24获取与从主题信息中正在被处理的主题的词语集合中选择的词语相关联(结对)的分数。随后，在步骤S26中，第一特征计算器24用所获取的分数更新主题特征中的相应元素。例如，第一特征计算器24将所获取的分数加到主题特征的相应元素上。

例如，假设循环处理中正在被处理的词语是“TV”，并假设循环处理中正在处理的主题是主题编号#1。在这种情况下，“TV”出现在主题编号#1的词语集合中。因此第一特征计算器24将与主题编号#1的“TV”相关联的分数(0.11)加到该主题特征的第一元素T₁上。下式(3)表示通过与“TV”相关联的分数(0.11)与初始化的主题特征相加而产生的主题特征。

\overset{&RightArrow;}{T} (t) = (T_{1}, T_{2}, . . ., T_{49}, T_{50}) = (0.11,0.0, . . ., 0.0,0.0) - - - (3)

在完成步骤S26中的处理后，第一特征计算器24将处理转移到步骤S27。在步骤S27中，若还未针对所有主题完成从步骤S24到步骤S26的处理，第一特征计算器24将处理返回到步骤S23并重复针对下个主题的处理。若已针对所有主题完成从步骤S24到步骤S26的处理，则第一特征计算器24将处理转移到步骤S28。

在步骤S28中，若还未针对所有词语完成从步骤S23到步骤S27的处理，第一特征计算器24将处理返回到步骤S22，并重复针对下个词语的处理。若已针对所有词语完成从步骤S23到步骤S27的处理，则第一特征计算器24将处理转移到步骤S29。

下式(4)表示针对所有词语完成更新处理后的主题特征。在本例中，由于在目标文档中包含许多属于主题编号#1的词语，T₁的值大于其他元素的值。

\overset{&RightArrow;}{T} (t) = (T_{1}, T_{2}, . . ., T_{49}, T_{50}) = (2.5,0.1, . . ., 0.2,2.2) - - - (4)

在步骤S29中，第一特征计算器24归一化主题特征。在本例中，通过由下式(5)表示的计算来归一化主题特征。具体来说，第一特征计算器24通过将每个元素T_i除以所有元素的均方根来归一化主题特征。

T_{i} = \frac{T_{i}}{\sqrt{Σ_{i = 1}^{50} T_{i}^{2}}} - - - (5)

下式(6)表示通过目标文档的归一化所产生的主题特征。

\overset{&RightArrow;}{T} (t) = (T_{1}, T_{2}, . . ., T_{49}, T_{50}) = (0.74,0.03, . . ., 0.06,0.65) - - - (6)

在本例中，在通过归一化产生的主题特征中，元素的平方和为1。按这种方式归一化的结果是，该主题特征能够显示正在被处理的文档与哪个主题高度相关。注意在式(6)的主题特征中元素T₃到T₄₈为0.0。因此，在本实施例中，目标文档与主题编号#1和主题编号#50的主题高度相关。

第一特征计算器24针对上述目标文档计算主题特征。

说明书重新参考图3。随后，信息处理装置10针对候选语料库存储器22中存储的每个候选文档重复从步骤S14到步骤S17的处理(步骤S13和步骤S18之间的循环处理)。

在针对各个候选文档的循环处理中，首先在步骤S14中，第二特征计算器25针对每个主题累计包含在正在处理的文档中的词语的分数以计算候选文档的主题特征。具体来说，第二特征计算器25通过图8中步骤S21到S29示出的程序来计算候选文档的主题特征。

下式(7)表示候选文档C_{n1}、候选文档C_{n2}以及候选文档C_{n3}的主题特征。

\begin{matrix} \overset{&RightArrow;}{T} (c_{n 1}) = (0.70,0.01, . . ., 0.04,0.70) \\ \overset{&RightArrow;}{T} (c_{n 2}) = (0.71,0.02, . . ., 0.69, 0.02) \\ \overset{&RightArrow;}{T} (c_{n 3}) = (0.01,0 . 68, . . ., 0.09,0 . 68) \end{matrix} - - - (7)

注意在式(7)表示的主题特征中元素T3到T48为0.0。候选文档C_{n1}与主题编号#1和主题编号#50的主题高度相关。候选文档C_{n2}与主题编号#1和主题编号#49的主题高度相关。候选文档C_{n3}与主题编号#2和主题编号#50的主题高度相关。

随后，在步骤S15中，相似度计算器26计算目标文档的主题特征与候选文档的主题特征之间的相似度。在本实施例中，相似度计算器26计算目标文档的主题特征与候选文档的主题特征的内积，如下式(8)所示。

sim (t, c_{j}) = \overset{&RightArrow;}{T} (t) \cdot \overset{&RightArrow;}{T} (c_{j}) - - - (8)

下式(9)表示候选文档C_{n1}、候选文档C_{n2}以及候选文档C_{n3}的相似度。

sim(t,c_n1)

＝0.74*0.70+0.03*0.01+0.06*0.04+0.65*0.70

＝0.98

sim(t,c_n2)

＝0.74*0.71+0.03*0.02+0.06*0.69+0.65*0.02 (9)

＝0.58

sim(t,c_n3)

＝0.74*0.01+0.03*0.68+0.06*0.09+0.65*0.68

＝0.48

候选文档C_{n1}的相似度为0.98。候选文档C_{n2}的相似度为0.58。候选文档C_{n3}的相似度为0.48。由于目标文档和候选文档C_{n1}都与主题编号#1和主题编号#50的主题高度相关，因此目标文档与候选文档C_{n1}之间的相似度高于其它相似度。

随后，在步骤S16中，选择器27确定相似度是否大于参考值。若相似度不大于参考值(步骤S16中否)，选择器27将处理转移到步骤S18。若相似度大于参考值(步骤S16中是)，选择器27将处理转移到步骤S17。

在步骤S17中，选择器27选择相应的候选文档作为要用于学习语言模型的文档。在本例中，参考值被设置为0.70，而且选择器27选择相似度大于0.70的候选文档C_{n1}。选择器27然后将处理转移到步骤S18。

在步骤S18中，若还未针对所有候选文档完成从步骤S14到步骤S17的处理，则选择器27将处理返回到步骤S13并且重复针对下一个候选文档的处理。若已针对所有候选文档完成从步骤S14到步骤S17的处理，则选择器27将处理转移到步骤S19。

在步骤S19中，学习单元28使用所选择的候选文档来学习语言模型。在完成步骤S19中的处理后，信息处理装置10然后结束本流程。

如上所述，使用根据本实施例的信息处理装置10，能够从包含大量用于其它用途的文档的多个候选文档中高效地选择适于学习语言模型的文档。特别地，使用信息处理装置10，若主题的分布相似，包含相对少量词语与目标文档中包含的词语一致的候选文档也能够被选择作为要用于学习语言模型的文档。

例如，当比较图4所示的目标文档与图5所示的候选文档C_{n1}时，大多数所包含的词语是不同的，因而基于词语的一致度低。然而，图4所示的目标文档中的“TV”与图5所示的候选文档C_{n1}中的“DVD”两者都被识别成关于数字家电的词语，因而根据人的感觉被确定为相似的。信息处理装置10选择这样的候选文档C_{n1}。

此外，具有高词语一致度的文档可能由使用基本相同的词语的文本组成。图9是示出与图4所示的目标文档词语一致度高的候选文档的例子的图。图9的候选文档是由与目标文档的表达基本相同的表达组成的文档。因此，通过使用如图9所示的候选文档来学习的语言模型成为在多种表达方面薄弱的语言模型。

信息处理装置10比较目标文档的主题特征与候选文档的主题特征来确定相似度。因而，即使与目标文档的词语一致度低，信息处理装置10也能够选择包含属于相同主题的词语的候选文档。例如，类似于图4所示的目标文档，由于图5所示的候选文档C_{n1}中主题编号#1和主题编号#50的主题的元素较大，候选文档C_{n1}被选择作为用于学习语言模型的文档。因此信息处理装置10能够适当地选择根据人的感觉而被确定为与目标文档相似的候选文档。这样，根据信息处理装置10，由于语言模型能够从包含关于用途的多种表达的文档中习得，因而能够生成在多种表达方面有鲁棒性的语言模型。

第一变型例

接着，将说明根据第一实施例的第一变型例的信息处理装置10。

图10是示出主题数量为10的主题信息的例子的表格。图11是示出主题数量为200的主题信息的例子的表格。

当主题数量较小时，一个主题中包含与宽的范围相关的词语。例如，如图10所示，在主题数量为10的主题信息中，除了关于比如“电视”和“DVD”的数字家电的词语，主题编号#1的主题中还包含与比如“节目”和“年末(year-end)”的电视节目相关的词语。

当主题数量较大时，一个主题中包含与窄的范围相关的词语。例如，如图11所示，在主题数量为200的主题信息中，“电视”和“DVD”分别单独属于主题编号#1和主题编号#2的主题。主题编号#1包含与“电视”相关的词语并且主题编号#2包含与“DVD”相关的词语。

因此，根据第一变型例的主题信息获取单元23针对数量N的多个主题中的每一个主题生成主题信息，并从所生成的主题信息中选择最合适的主题信息。

图12是示出用于选择包含合适数量的主题的主题信息的处理流程的图。

首先，在步骤S31中，主题信息获取单元23生成包含不同数量的主题的多条主题信息。在本例中，主题信息获取单元23生成多条主题信息，其中主题的数量N为N＝10，N＝50，和N＝200。

随后，在步骤S32中，主题信息获取单元23基于包含不同数量的主题的多条主题信息中的每一条主题信息来计算目标文档的主题特征。下式(10)表示主题数量为N＝10，N＝50，和N＝200的多条主题信息。注意式(10)所表示的主题特征中元素T₃及后面的元素为0.0。

\begin{matrix} {\overset{&RightArrow;}{T}}_{10} (t) = (T_{1}, T_{2}, . . .) = (0.80,0.04, . . .) \\ {\overset{&RightArrow;}{T}}_{50} (t) = (T_{1}, T_{2}, . . .) = (0.74, 0.03, . . .) \\ {\overset{&RightArrow;}{T}}_{200} (t) = (T_{1}, T_{2}, . . .) = (0.54, 0.50, . . .) \end{matrix} - - - (10)

在主题数量为N＝10和N＝50的两条主题信息中，“电视”和“遥控器”属于主题编号#1的主题。因此，在基于主题数量为N＝10和N＝50的两条主题信息的主题特征中，主题编号#1的元素T₁的值较大。

在主题数量为N＝200的主题信息中，“电视”属于主题编号#1的主题，而“遥控器”属于主题编号#2的主题。因此，在基于主题数量为N＝200的主题信息的主题特征中，主题编号#1的元素T₁与主题编号#2的元素T₂基本相等。

随后，在步骤S33中，主题信息获取单元23从所生成的多条主题信息中抽出所包含的元素的最大值的值不小于阈值的主题信息。在本例中，在基于主题数量N＝10的主题信息的主题特征中最大元素的值为0.80。在基于主题数量N＝50的主题信息的主题特征中最大元素的值为0.74。此外，在基于主题数量N＝200的主题信息的主题特征中最大元素的值为0.54。在阈值为0.7的情况下，主题信息获取单元23抽出主题数量N＝10的主题信息和主题数量N＝50的主题信息作为不小于阈值的主题信息。

随后，在步骤S34中，主题信息获取单元23从所抽出的主题信息中选择具有最大主题数量的主题信息。在本例中，主题信息获取单元23选择具有主题数量N＝50的主题信息。

这样，根据第一变型例的信息处理装置10通过使用主题数量被设置成合适值的主题信息来选择用于学习语言模型的候选文档。结果，使用根据第一变型例的信息处理装置10，能够习得具有更好性能的语言模型。

第二变型例

接着，将说明根据第一实施例的第二变型例的信息处理装置10。图13是示出根据第二变型例的主题信息的例子的表格。

根据第二变型例的主题信息包含表示句子(sentences)和讲话(speech)方式的主题的词语集合。例如，图13所示的主题信息中的主题编号#49的主题包含用于在亲密朋友间的对话中使用的通常讲话方式的词语集合。图13所示的主题信息中的主题编号#50的主题包含用于在顾客服务等中使用的礼貌语方式的词语集合。

呼叫中心的操作员通常以礼貌语方式发出语音。因此，通过选择包含属于数字家电的词语和包含用在礼貌语方式中的、比如用在日语句子末尾的“desu”和“masu”的词语的文档，可以高效学习用于识别在呼叫中心的操作员的语音的语言模型。

因此，由于主题信息包含表示讲话方式的主题的词语集合，使用根据第二变型例的信息处理装置10，能够选择更合适的候选文档来用于学习特定用途的语言模型。

第二实施例

接着，将说明根据第二实施例的信息处理装置10。根据第二实施例的信息处理装置10具有与根据第一实施例的信息处理装置10的功能和配置基本相同的功能和配置。具有基本相同的功能和配置的组件将被标注相同的附图标记，并且除了其不同点外将不对其做详细说明。

图14是示出根据第二实施例的信息处理装置10的配置的图。根据第二实施例的信息处理装置10还包括相似用途文档存储器61和第三特征计算器62。

相似用途文档存储器61存储文档(相似用途文档)用于学习语言模型，该语言模型的用途与要学习的语言模型的用途相似。例如，当要学习的语言模型要用于数字家电制造商的呼叫中心的语音识别时，要通过使用相似用途文档来习得的语言模型将被用于其它产品的制造商的呼叫中心的语音识别。

主题信息获取单元23获取主题信息，其中所包含的词语被分类成词性组。例如，主题信息获取单元23生成包含名词(第一词性组)的主题信息和包含名词以外的词语的主题信息(第二词性组，包括例如助词、助动词、动词和代词)。

第一特征计算器24基于用于每个词性组的主题信息来针对目标文档的每个词性组计算主题特征。例如，第一特征计算器24针对目标文档计算与名词(第一词性组)相关的主题特征和与除名词外的词语相关的主题特征(第二词性组)。

第二特征计算器25基于分类成词性组的主题信息来针对每个候选文档的每个词性组计算主题特征。例如，第二特征计算器25针对候选文档计算与名词(第一词性组)相关的主题特征和与除名词外的词语相关的主题特征(第二词性组)。

第三特征计算器62基于分类成词性组的主题信息来针对相似用途文档的每个词性组计算主题特征。例如，第三特征计算器62针对该相似用途文档计算与名词(第一词性组)相关的主题特征和与除名词外的词语相关的主题特征(第二词性组)。

相似度计算器26包括第一计算器71和第二计算器72。第一计算器71接收针对目标文档的各个词性组的主题特征和针对各个候选文档的各个词性组的主题特征作为输入。第一计算器71还接收第一词性组的规范作为输入。然后第一计算器71计算针对各个候选文档的第一词性组的每个主题特征与针对目标文档的第一词性组的主题特征之间的相似度。例如，第一计算器71计算针对各个候选文档的名词(第一词性组)的每个主题特征与针对目标文档的名词(第一词性组)的主题特征之间的相似度(第一相似度)。

第二计算器72接收针对相似用途文档的各个词性组的主题特征和针对各个候选文档的各个词性组的主题特征作为输入。第二计算器72还接收第二词性组的规范作为输入。然后第二计算器72计算针对各个候选文档的第二词性组的每个主题特征与针对相似用途文档的第二词性组的主题特征之间的第二相似度。例如，第二计算器72计算针对各个候选文档的语音中除名词外的部分(第二词性组)的每个主题特征与针对相似用途文档的语音中除名词外的部分(第二词性组)的主题特征之间的相似度(第二相似度)。

选择器27从多个候选文档中选择第一相似度大于第一参考值并且第二相似度大于第二参考值的候选文档作为要用于学习语言模型的文档。

注意第一参考值和第二参考值可以是由用户设置的值。作为替代方案，第一参考值可以是基于候选文档的第一相似度而计算得到的值(基于平均值、最大值等的值)。第二参考值可以是基于候选文档的第二相似度而计算得到的值(基于平均值、最大值等的值)。

图15是示出根据第二实施例的信息处理装置10的处理流程的图。在本流程中，将说明要用于家电制造商的呼叫中心处的语音识别的语言模型的例子。

在处理前，目标文档由用户提前存储在目标文档存储器21中。例如，目标文档存储器21将比如图16所示的由家电制造商的呼叫中心的操作员记录的关于对话内容的报告的文本存储为目标文档。

此外，在处理前，信息处理装置10从网络等获取多个候选文档，并将所获取的候选文档存储在候选语料库存储器22中。例如，类似于第一实施例，候选语料库存储器22存储如那些在图5、6和7示出的候选文档。

此外，在处理前，相似用途文档由用户提前存储在相似用途文档存储器61中。相似用途文档存储器61将如图17示出的文本存储为相似用途文档。图17中的文本是要用于学习用于家电之外的产品(食品)制造商的呼叫中心的语音识别的语言模型的文档。

首先，在步骤S41中，主题信息获取单元23针对每个词性组生成主题信息。下式(11)是表示本实施例中的词性组的集合的例子的公式。

PoS＝(A,B)＝([名词],[助词,助动词,动词,代词]) (11)

式(11)显示第一词性组A包括名词并且第二词性组B包括助词、助动词、动词和代词。作为替代方案，主题信息获取单元23可以生成分类成三个或更多词性组的主题信息。

例如，主题信息获取单元23生成如图18所示的主题信息作为第一词性组A的主题信息。例如，主题信息获取单元23还生成如图19所示的主题信息作为第二词性组B的主题信息。

由于以这种方式生成针对每个词性组的主题信息，例如，在名词的主题信息中，名词的词语可以被分类成例如“数字家电”(主题编号#A_1)和“食品”(主题编号#A_2)的主题。此外，在助词、助动词、动词和代词的主题信息中，词语可以被分类成句子或讲话方式，例如“用于书写的方式”(主题编号#B_1)和“礼貌语方式”(主题编号#B_2)。注意第一词性组中的主题数量可以不同于第二词性组中的主题数量。

随后，在步骤S42中，第一特征计算器24基于每个词性组的主题信息来针对目标文档的每个词性组计算主题特征。下式(12)表示针对目标文档的第一词性组A的主题特征和针对目标文档的第二词性组B的主题特征。

\begin{matrix} {\overset{&RightArrow;}{T}}_{A} (t) = (T_{A 1}, T_{A 2}, . . .) = (0.74, 0.03, . . .) \\ {\overset{&RightArrow;}{T}}_{B} (t) = (T_{B 1}, T_{B 2}, . . .) = (0.81,0.09, . . .) \end{matrix} - - - (12)

由于由式(12)所示的主题编号#A_1和主题编号#B_1的值较大，发现目标文档与“数字家电”和“用于书写的方式”高度相关。

随后，在步骤S43中，第三特征计算器62基于每个词性组的主题信息来针对相似用途文档的每个词性组计算主题特征。下式(13)表示针对相似用途文档的第一词性组A的主题特征和针对相似用途文档的第二词性组B的主题特征。

\begin{matrix} {\overset{&RightArrow;}{T}}_{A} (t^{'}) = (0.01,0.85, . . .) \\ {\overset{&RightArrow;}{T}}_{B} (t^{'}) = (0.10,0.80, . . .) \end{matrix} - - - (13)

由于由式(13)所示的主题编号#A_2和主题编号#B_2的值较大，发现相似用途文档与“食品”和“礼貌语方式”高度相关。

随后，信息处理装置10针对存储在候选语料库存储器22中的每个候选文档重复从步骤S45到步骤S49的处理(步骤S44和步骤S50之间的循环处理)。

在针对每个候选文档的循环处理中，首先在步骤S45中，第二特征计算器25针对候选文档的每个词性组计算主题特征。下式(14)表示针对候选文档C_{n1}、候选文档C_{n2}和候选文档C_{n3}的第一词性组A和第二词性组B的主题特征。

\begin{matrix} \{\begin{matrix} {\overset{&RightArrow;}{T}}_{A} (c_{n 1}) = (0.79,0 . 01, . . .) \\ {\overset{&RightArrow;}{T}}_{B} (c_{n 1}) = (0.10,0.80, . . .) \end{matrix} \\ \{\begin{matrix} {\overset{&RightArrow;}{T}}_{A} (c_{n 2}) = (0.76, 0.06, . . .) \\ {\overset{&RightArrow;}{T}}_{B} (c_{n 2}) = (0.75, 0.10, . . .) \end{matrix} \\ \{\begin{matrix} {\overset{&RightArrow;}{T}}_{A} (c_{n 3}) = (0.03,0.84, . . .) \\ {\overset{&RightArrow;}{T}}_{B} (c_{n 3}) = (0.06,0 . 79, . . .) \end{matrix} \end{matrix} - - - (14)

由于由式(14)所示的主题编号#A_1和主题编号#B_2的值较大，发现候选文档C_{n1}与“数字家电”和“礼貌语方式”高度相关。由于主题编号#A_1和主题编号#B_1的值较大，发现候选文档C_{n2}与“数字家电”和“用于书写的方式”高度相关。由于主题编号#A_2和主题编号#B_2的值较大，发现候选文档C_{n3}与“食品”和“礼貌语方式”高度相关。

随后，在步骤S46中，相似度计算器26的第一计算器71针对每个词性组计算目标文档的主题特征与候选文档的主题特征之间的相似度(第一相似度)。在本实施例中，第一计算器71针对第一词性组A和第二词性组B中的每一个来计算目标文档的主题特征与候选文档的主题特征的内积，如下式(15)所示。

\begin{matrix} {sim}_{A} (t, c_{j}) = {\overset{&RightArrow;}{T}}_{A} (t) \cdot {\overset{&RightArrow;}{T}}_{A} (c_{j}) \\ {sim}_{B} (t, c_{j}) = {\overset{&RightArrow;}{T}}_{B} (t) \cdot {\overset{&RightArrow;}{T}}_{B} (c_{j}) \end{matrix} - - - (15)

随后，在步骤S47中，相似度计算器26的第二计算器72针对每个词性组计算相似用途文档的主题特征与候选文档的主题特征之间的相似度(第二相似度)。在本实施例中，第二计算器72针对第一词性组A和第二词性组B中的每一个来计算相似用途文档的主题特征与候选文档的主题特征的内积，如下式(16)所示。

\begin{matrix} {sim}_{A} (t^{'}, c_{j}) = {\overset{&RightArrow;}{T}}_{A} (t^{'}) \cdot {\overset{&RightArrow;}{T}}_{A} (c_{j}) \\ {sim}_{B} (t^{'}, c_{j}) = {\overset{&RightArrow;}{T}}_{B} (t^{'}) \cdot {\overset{&RightArrow;}{T}}_{B} (c_{j}) \end{matrix} - - - (16)

随后，在步骤S48中，选择器27确定第一相似度是否大于第一参考值(th_A)以及第二相似度是否大于第二参考值(th_B)。下面不等式(17)是选择器27用来进行确定的条件表达式。

sim_A(t,c_n)>th_A且sim_B(t',c_n)>th_B

若条件不满足(步骤S48中否)，选择器27将处理转移到步骤S50。若条件满足(步骤S48中是)，选择器27将处理转移到步骤S49。

在步骤S49中，选择器27选择相应的候选文档作为要用于学习语言模型的文档。在本例中，第一参考值和第二参考值被设置为0.50，并且选择器27选择第一相似度和第二相似度都大于0.50的候选文档C_{n1}。然后选择器27将处理推进到步骤S50。

在步骤S50中，若还未针对所有候选文档完成从步骤S45到步骤S49的处理，选择器27将处理返回到步骤S44，并重复针对下一候选文档的处理。若已针对所有候选文档完成从步骤S45到步骤S49的处理，选择器27将处理推进到步骤S51。

在步骤S51中，学习单元28使用所选择的候选文档来学习语言模型。在完成步骤S51中的处理后，信息处理装置10然后结束本流程。

注意在第二实施例中针对候选文档C_{n1}的不等式(17)的条件表达式如下：

sim_A(t,C_{n1})＝0.74*0.79+0.11*0.03＝0.59,以及

sim_B(t′,C_{n1})＝0.10*0.10+0.8*0.8＝0.65.

因此，由于候选文档C_{n1}满足第一词性组A和第二词性组B两者的条件，抽出候选文档C_{n1}作为用于学习的文档。候选文档C_{n1}是关于数字家电的、采用礼貌语方式的文档，并且与呼叫中心处所发出的讲话匹配。因此信息处理装置10能够通过学习这样的文档来生成具有高性能的语言模型。

若与目标文档的相似度被用于第一词性组和第二词性组两者，针对候选文档C_{n1}的语音的第二词性组B的不等式(17)的条件表达式将成为sim_B(t,C_{n1})＝0.15。在这种情况下，候选文档C_{n1}将不满足条件，并且将不会被选为用于学习的文档。相比之下，针对候选文档C_{n2}的不等式(17)的条件表达式将成为sim_A(t,C_{n2})＝0.56,sim_B(t,C_{n2})＝0.65。在这种情况下，候选文档C_{n2}将被选为用于学习的文档，这意味着包含采用用于书写的方式的词语的文档将被选为用于学习的文档，实际上该用于书写的方式不会发生在呼叫中心处。

若与相似用途文档的相似度被用于第一词性组和第二词性组两者，针对候选文档C_{n1}的语音的第一词性组A的不等式(17)的条件表达式将成为sim_A(t,C_{n1})＝0.11。在这种情况下，候选文档C_{n1}将不满足条件，并且将不会被选为用于学习的文档。

相比之下，针对候选文档C_{n3}的不等式(17)的条件表达式将成为sim_A(t,C_{n3})＝0.71,sim_B(t,C_{n3})＝0.64。在这种情况下，候选文档C_{n3}将会被选为用于学习的文档，这意味着与在呼叫中心处的讲话相似、具有不同主题的文档将被选为用于学习的文档。

使用上述根据第二实施例的信息处理装置10，当事先知道目标文档的主要话题和相似用途文档的讲话方式时，能够通过使用目标文档和相似用途文档的特征的组合来选择适用于该用途的用于学习的文档。

硬件配置

图20是示出根据实施例的信息处理装置10的硬件配置的例子的图。根据实施例的信息处理装置10包括比如中央处理单元(CPU)101的控制器、比如只读存储器(ROM)102以及随机存取存储器(RAM)103的存储器、用于连接通信网络的通信接口(I/F)104以及连接这些组件的总线。

要由根据实施例的信息处理装置10执行的程序被事先嵌入在ROM 102等上并从ROM 102等中被提供。作为替代方案，要由根据实施例的信息处理装置10执行的程序也可以按照能够被安装或执行的文件的形式记录在比如压缩盘只读存储器(CD-ROM)、软盘(FD)、可写压缩盘(CD-R)以及数字多功能盘(DVD)的计算机可读记录介质上，并作为计算机程序产品被提供。

作为替代方案，要由根据实施例的信息处理装置10执行的程序可以被存储在连接到例如因特网的计算机系统上，并且通过被信息处理装置10经由网络下载来提供。作为另一替代方案，要由根据实施例的信息处理装置10执行的程序可以通过比如因特网的网络来提供或分发。

要由根据实施例的信息处理装置10执行的程序包括主题信息获取模块、第一特征计算模块、第二特征计算模块、第三特征计算模块、相似度计算模块、选择模块以及学习模块，并且能够使计算机起到上述信息处理装置10的各个组件(主题信息获取单元23、第一特征计算器24、第二特征计算器25、相似度计算器26、第三特征计算器62、选择器27以及学习单元28)的作用。在计算机中，CPU 101能够从计算机可读存储介质中读出程序到主存储器上，并执行该程序。注意主题信息获取单元23、第一特征计算器24、第二特征计算器25、相似度计算器26、第三特征计算器62、选择器27以及学习单元28中的一些或者全部可以由硬件实现。

根据上述至少一个实施例的信息处理装置，信息处理装置包括第一特征计算器、第二特征计算器、相似度计算器以及选择器。所述第一特征计算器被配置为计算主题特征，该主题特征代表至少一个主题的文档与目标文档的相关性强度，所述目标文档与语言模型的用途匹配。第二特征计算器被配置为针对多个候选文档中的每一个候选文档计算所述主题特征。相似度计算器被配置为计算候选文档的每个所述主题特征与所述目标文档的主题特征的相似度。选择器被配置为从候选文档中选择相似度大于参考值的候选文档作为要用于学习语言模型的文档。因此，能够从除目标文档之外还包含大量文档的多个候选文档中适当选择要用于学习语言模型的文档。

虽然已经说明了某些实施例，但这些实施例仅仅通过示例的方式表示，并不用于限定本发明的范围。事实上，在此说明的新颖的实施例可能以各种其他形式实施；此外，可以对在此说明的实施例进行形式上的各种省略、替换和变更，而不脱离本发明的精神。附带的权利要求及其等同内容旨在包含那些落入本发明的范围和精神之内的实现形式或变型。

Claims

1.一种信息处理装置，包括：

第一特征计算器，被配置为计算代表至少一个主题的文档与目标文档的相关性强度的主题特征，所述目标文档与语言模型要用作的用途匹配；

第二特征计算器，被配置为针对多个候选文档中的每一个候选文档计算所述主题特征；

相似度计算器，被配置为计算所述候选文档的每个主题特征与所述目标文档的主题特征的相似度；以及

选择器，被配置为从候选文档之中选择相似度大于参考值的候选文档作为要用于学习语言模型的文档。

2.根据权利要求1所述的装置，还包括主题信息获取单元，所述主题信息获取单元被配置为针对每个主题获取包含词语和分数对的集合的主题信息，每个所述分数代表所关联词语与每个主题的相关性强度，其中

第一特征计算器和第二特征计算器被配置为基于所述主题信息计算所述主题特征。

3.根据权利要求2所述的装置，其中第一特征计算器和第二特征计算器被配置为通过针对每个主题累计包含在要进行处理的文档中的词语的分数来计算所述主题特征。

4.根据权利要求1所述的装置，还包括学习单元，所述学习单元被配置为基于所选择的候选文档学习所述语言模型。

5.根据权利要求2所述的装置，其中所述主题信息获取单元被配置为通过使用候选文档来生成所述主题信息。

6.根据权利要求5所述的装置，其中所述主题信息获取单元被配置为生成多条主题信息，其中每个主题信息包含不同数量的主题，还被配置为基于所生成的多条主题信息来针对所述目标文档计算多个主题特征，以及基于所计算的主题特征来从所生成的多条主题信息中选择一条主题信息。

7.根据权利要求5所述的信息处理装置，其中

所述主题信息获取单元被配置为针对每个词性组生成所述主题信息，以及

第一特征计算器和第二特征计算器被配置为基于每个词性组的主题信息来针对每个词性组计算所述主题特征。

8.根据权利要求7所述的装置，还包括第三特征计算器，该第三特征计算器被配置为针对相似用途文档的每个词性组计算所述主题特征，所述相似用途文档在内容上不同于所述目标文档，是用于学习所述语言模型的参考，并且用于学习用途类似于所要学习的语言模型的语言模型，其中

所述相似度计算器被配置为计算针对第一词性组的目标文档的主题特征与针对第一词性组的每个候选文档的主题特征的第一相似度，并且计算针对第二词性组的相似用途文档的主题特征与针对第二词性组的每个候选文档的主题特征的第二相似度，以及

所述选择器被配置为选择第一相似度大于第一参考值并且第二相似度大于第二参考值的候选文档作为要用于学习所述语言模型的文档。

9.一种信息处理方法，包括：

计算代表至少一个主题的文档与目标文档的相关性强度的主题特征，所述目标文档与语言模型要用作的用途匹配；

针对多个候选文档中的每一个候选文档计算所述主题特征；

计算所述候选文档的每个主题特征与所述目标文档的主题特征的相似度；以及

从候选文档中选择相似度大于参考值的候选文档作为要用于学习语言模型的文档。