CN111373386A

CN111373386A - 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序

Info

Publication number: CN111373386A
Application number: CN201880071838.6A
Authority: CN
Inventors: 丰柴博义
Original assignee: Ubic Inc
Current assignee: Ubic Inc; Fronteo Inc
Priority date: 2017-11-07
Filing date: 2018-10-29
Publication date: 2020-07-03
Also published as: JP2019086995A; EP3709183A1; US11544309B2; WO2019093172A1; EP3709183A4; US20200285661A1; JP6346367B1

Abstract

本发明具备：单词提取部(11)，其对m个文本进行分析并提取n个单词；向量计算部(12)，其通过使m个文本和n个单词分别在q个维度上向量化，从而计算由q个轴分量构成的m个文本向量和由q个轴分量构成的n个单词向量；以及指标值计算部(13)，其通过分别获取m个文本向量和n个单词向量的内积而计算反映m个文本和n个单词之间的关联度的相似度指标值；通过计算根据文本而算出的文本向量和根据文本内包含的单词而算出的单词向量的内积，能够得到以内积值的形式表示哪个单词对哪个文本具有何等程度的贡献的相似度评价值。

Description

相似度指标值计算装置、相似检索装置及相似度指标值计算用程序

技术领域

本发明涉及相似度指标值计算装置、相似文本检索装置以及相似度指标值计算用程序，尤其涉及对含有多个单词的文本相关的相似度指标值进行计算的技术和使用该指标值进行相似检索的技术。

背景技术

目前，广泛使用从数据库所存储的大量文本中检索与作为检索关键字(retrievalkey)而被输入的文本相似的其他文本的技术。在这种检索技术中，基本上形成为：针对各文本计算一些特征量，从而检索特征量相似的文本。已知有计算文本向量作为特征量之一的技术(例如，参照专利文献1、2)。

在专利文献1公开的信息检索装置中，对检索应答文件进行分析并提取独立词，在得到的独立词中对被登录于向量生成用词典的独立词读出单词向量。然后，根据在整个文本中得到的所有单词向量而获取表示文本特征的文本向量，通过比较各文本向量而求出文本之间的距离，并使用该距离进行分类。

专利文献2中公开的对应范畴检索系统是检索意思内容相近的日英文件对的检索系统，其对包含于学习数据中的所有日语文件和英语文件实施词素分析处理，并对由此而得到的所有日语单词和英语单词计算对应的多维度的单词向量。然后，计算文件向量、即将包含于各文件中的所有单词所对应的单词向量的总和标准化(向量长度设为“1”)后的文件向量，并通过日语文件对应的文件向量和英语文件对应的文件向量检索关联度最高(内积值大)的日英文件对。

另外，还已知有描述了通过段落向量对文本或文件进行评价的论文(例如，参照非专利文献1)。在该非专利文献1公开的技术中也形成为：与上述专利文献1、2同样地对文本中包含的单词计算单词向量，并使用该单词向量来计算段落向量。

专利文献1：日本特开平7-295994号公报

专利文献2：日本特开2002-259445号公报

非专利文献1：“Distributed Representations of Sentences and Documents”by Quoc Le and Tomas Mikolov,Google Inc,Proceedings of the 31st InternationalConference on Machine Learning Held in Bejing,China on 22-24June 2014(“句子和文档的分布式表示”，Quoc Le、Tomas Mikolov，2014年6月22日至24日于中国北京举行的第31届机器学习国际会议论文集)

上述专利文献1、2和非专利文献1中公开的技术均形成为以下构成：计算文本向量作为文本的特征量，通过比较各文本向量或计算各文本向量的内积而对文本进行分类或对相似文本进行检索。

然而，仅使用文本向量作为指标的现有的相似度评价方法存在无法充分提高评价精度这一问题。这是因为文本是由多个单词的组合构成的，而哪个单词对哪个文本有何等程度的贡献并未被准确地评价。

另外，上述专利文献1、2和非专利文献1中公开的文本向量均是通过使用了单词向量的规定计算而被算出的。然而，专利文献1中没有公开如何根据单词向量求出文本向量的具体方法。在专利文献2公开的技术中，由于仅是将文件中包含的所有单词所对应的单词向量的总和标准化而作为文件向量，因此文件中所使用的各单词的单词向量已经以总和形式进行了四舍五入。在非专利文献1公开的技术中，虽然在求取段落向量的过程中使用单词向量，但是单词向量本身并未作为评价文本或文件的指标被使用。

发明内容

本发明是为了解决上述问题而完成的，目的在于能够较之现有技术提高相似度的评价精度。

为了解决上述课题，在本发明的相似度指标值计算装置中，对m个文本进行分析而从该m个文本中提取n个单词，并且，通过使m个文本分别按照规定的规则在q个维度上向量化而计算由q个轴分量构成的m个文本向量，同时通过使n个单词分别按照规定的规则在q个维度上向量化而计算由q个轴分量构成的n个单词向量。然后，通过分别获取m个文本向量和n个单词向量的内积，从而计算反映m个文本和n个单词之间的关联度的相似度指标值。在此，将针对m个文本和n个单词的所有组合计算准确率并进行合计后的值作为目标变量，并计算使该目标变量最大化的文本向量和单词向量，其中，上述准确率是根据n个单词中的一个单词预测m个文本中的一个文本的准确率，或者是根据m个文本中的一个文本预测n个单词中的一个单词的准确率。

(发明效果)

根据上述构成的本发明，通过计算根据文本而算出的文本向量和根据包含于文本内的单词而算出的单词向量的内积，从而算出反映文本和单词之间的关联度的相似度评价值，因此，能够以内积值的形式得到哪个单词对哪个文本具有何等程度的贡献这一情况。因此，通过使用如上所述而得到的本发明的相似度指标值，能够较之现有技术提高相似度的评价精度。

附图说明

图1是表示本实施方式涉及的相似度指标值计算装置的功能结构例的框图。

图2是表示本实施方式涉及的相似检索装置的功能结构例的框图。

图3是表示本实施方式涉及的相似检索装置的其他功能结构例的框图。

图4是表示本实施方式涉及的相似检索装置的其他功能结构例的框图。

图5是表示本实施方式涉及的相似检索装置的其他功能结构例的框图。

(符号说明)

10…相似度指标值计算装置

11…单词提取部

12…向量计算部

12A…文本向量计算部

12B…单词向量计算部

13…指标值计算部

20、30、40、50…相似检索装置

21、31…文本数据存储部

22、52…检索关键字指定部

23、33…相似文本检索部

32…检索关键字获取部

42…数据获取部

具体实施方式

以下，根据附图对本发明的一实施方式进行说明。图1是表示本实施方式涉及的相似度指标值计算装置的功能结构例的框图。本实施方式的相似度指标值计算装置10是输入文本相关的文本数据、计算并输出相似度指标值的装置，其中，相似度指标值反映文本与文本中所包含的单词之间的关联度。相似度指标值计算装置10构成为功能结构包括：单词提取部11、向量计算部12以及指标值计算部13。向量计算部12具备文本向量计算部12A和单词向量计算部12B，作为更加具体的功能结构。

上述各功能块11～13可以由硬件、DSP(Digital Signal Processor：数字信号处理器)和软件中的任一种构成。例如，当由软件构成时，上述各功能块11～13实际上被构成为包括计算机的CPU(中央处理器)、RAM(随机存取存储器)和ROM(只读存储器)等，并且通过运行存储于RAM或ROM、硬盘或半导体存储器等记录介质中的程序而实现。

单词提取部11分析m个(m为大于等于2的任意整数)文本，并从该m个文本中提取n个(n为大于等于2的任意整数)单词。在此，作为分析对象的文本可以由一个句子(利用句号划分的单位)构成，也可以由多个句子构成。由多个句子构成的文本可以是一个文件所包含的部分文本或全部文本。

另外，作为文本的分析，例如能够使用公知的词素分析。在此，单词提取部11既可以形成为提取经词素分析而被划分的所有词类的词素作为单词，也可以形成为仅提取特定词类的词素作为单词。

另外，在m个文本中有时包含有多个相同的单词。该情况下，单词提取部11不提取多个相同的单词，而仅提取一个。即，由单词提取部11提取的n个单词是指n个种类的单词。

向量计算部12根据m个文本和n个单词而计算出m个文本向量和n个单词向量。在此，文本向量计算部12A对经单词提取部11提取而作为分析对象的m个文本，分别按照规定的规则在q个维度上进行向量化，由此计算由q个(q为大于等于2的任意整数)轴分量构成的m个文本向量。另外，单词向量计算部12B对经单词提取部11提取的n个单词分别按照规定的规则在q个维度上进行向量化，由此计算由q个轴分量构成的n个单词向量。

在本实施方式中，作为一例而如下述那样计算文本向量和单词向量。现在，考虑由m个文本和n个单词构成的集合S＝＜d∈D，w∈W＞。在此，分别将文本向量d_i→和单词向量w_j→(以下设定为：符号“→”是指向量。)与各文本d_i(i＝1、2、……、m)和各单词w_j(j＝1、2、……、n)关联。然后，对任意单词w_j和任意文本d_i计算下式(1)所示的准确率P(w_j|d_i)。

[数式1]

另外，该准确率P(w_j|d_i)是可仿照上述非专利文献1中公开的准确率p而算出的值。在非专利文献1中，例如当存在“the”、“cat”、“sat”这三个单词时，将“on”作为第四个单词加以预测，并公开了其预测准确率p的计算式。非专利文献1中公开的准确率p(wt|wt-k、……、wt+k)是根据多个单词wt-k、……、wt+k预测另外一个单词wt时的准确率。

相对于此，本实施方式中使用的式(1)所示的准确率P(w_j|d_i)表示根据m个文本中的一个文本d_i预测n个单词中的一个单词w_j的准确率。所谓根据一个文本d_i预测一个单词w_j，具体而言是指在某个文本d_i出现时预测其中包含单词w_j的可能性。

另外，由于d_i和w_j是对称的，因此该式(1)也可以计算根据n个单词中的一个单词w_j预测m个文本中的一个文本d_i的准确率P(d_i|w_j)。所谓根据一个单词w_j预测一个文本d_i，是指在某个单词w_j出现时预测其包含于文本d_i中的可能性。

在式(1)中，使用以e为底且以单词向量w→和文本向量d→的内积值为指数的指数函数值。然后，将作为预测对象的根据文本d_i和单词w_j的组合而计算的指数函数值与根据文本d_i和n个单词W_k(k＝1、2、……、n)的各个组合而计算的n个指数函数值的合计值的比率，作为根据一个文本d_i预测一个单词w_j的准确率而进行计算。

在此，单词向量w_j→和文本向量d_i→的内积值也可以称作将单词向量w_j→在文本向量d_i→的方向上投影时的标量值，即，单词向量w_j→所具有的文本向量d_i→的方向上的分量值。可以认为这表示单词w_j对文本d_i的贡献程度。因此，使用利用上述内积而计算的指数函数值求取下述比率、即针对一个单词w_j计算的指数函数值相对于针对n个单词W_k(k＝1、2、……、n)计算的指数函数值总和的比率，相当于求取根据一个文本d_i预测n个单词中的一个单词w_j的准确率。

另外，虽然在此示出了使用以单词向量w→和文本向量d→的内积值作为指数的指数函数值的计算例，但是并非必须要使用指数函数值。只要是利用了单词向量w→和文本向量d→的内积值的计算式即可，例如，也可以利用内积值本身的比率求取准确率。

接下来，如下式(2)所示，向量计算部12计算使值L最大化的文本向量d_i→和单词向量w_j→，其中，值L是将利用上式(1)计算的准确率P(w_j|d_i)针对所有集合S求和而得到的值。即，文本向量计算部12A和单词向量计算部12B针对m个文本和n个单词的所有组合计算利用上式(1)计算的准确率P(w_j|d_i)，并将对它们求和后的合计值作为目标变量L，从而计算使该目标变量L最大化的文本向量d_i→和单词向量w_j→。

[数式2]

使针对m个文本和n个单词的所有组合计算出的准确率P(w_j|d_i)的合计值L最大化，是指使根据某个文本d_i(i＝1、2、……、m)预测某个单词w_j(j＝1、2、……、n)的准确率最大化。即，向量计算部12可以说是计算使该准确率最大化的文本向量d_i→和单词向量w_j→的单元。

在此，在本实施方式中如上所述，向量计算部12通过分别使m个文本d_i在q个维度上向量化而计算由q个轴分量构成的m个文本向量d_i→，并且通过分别使n个单词在q个维度上向量化而计算由q个轴分量构成的n个单词向量w_j→。这相当于将q个轴向设为可变而计算使上述目标变量L最大化的文本向量d_i→和单词向量w_j→。

指标值计算部13通过分别获取由向量计算部12算出的m个文本向量d_i→和n个单词向量w_j→的内积，从而计算反映m个文本d_i和n个单词w_j之间的关联度的相似度指标值。在本实施方式中，如下式(3)所示，指标值计算部13通过获取以m个文本向量d_i→的各q个轴分量(d₁₁～d_mq)作为各要素的文本矩阵D、和以n个单词向量w_j→的各q个轴分量(w₁₁～w_nq)作为各要素的单词矩阵W的积，从而计算以m×n个相似度指标值作为各要素的评价值矩阵DW。在此，W^t是单词矩阵的转置矩阵。

[数式3]

可以说，以这种方式计算出的评价值矩阵DW的各要素表示了哪个单词对哪个文本有何等程度的贡献。例如，第一行第二列的要素dw₁₂是表示单词w₂对文本d₁有何种程度的贡献的值。由此，评价值矩阵DW的各行能够用于评价文本的相似度，各列能够用于评价单词的相似度。有关于此的详细情况将在后面进行说明。

接下来，对利用了如上构成的本实施方式涉及的相似度指标值计算装置10的相似检索装置进行说明。图2是表示本实施方式涉及的相似检索装置20的功能结构例的框图。如图2所示，本实施方式的相似检索装置20构成为除了图1所示的相似度指标值计算装置10之外，还包括作为存储介质的文本数据存储部21、作为功能结构的检索关键字指定部22以及相似文本检索部23。

上述各功能块22～23可以由硬件、DSP、软件中的任一种构成。例如，当由软件构成时，上述各功能块22～23实际上被构成为包括计算机的CPU、RAM、ROM等，并且通过运行存储于RAM或ROM、硬盘或半导体存储器等的记录介质中的程序而实现。

文本数据存储部21将m个文本相关的文本数据与通过相似度指标值计算装置10计算出的相似度评价值一起存储。在此，文本数据存储部21将被作为该相似度评价值的计算源的m个文本相关的文本数据与作为利用式(3)计算出的评价值矩阵DW的各要素的值的m×n个相似度评价值一起存储。

检索关键字指定部22从文本数据存储部21所存储的m个文本中指定一个文本作为检索关键字。一个文本的指定由欲进行相似文本检索的用户通过操作相似检索装置20所具备的操作部(键盘、鼠标、触摸面板等)而进行。具体而言，用户获取被存储于文本数据存储部21中的文本的一览表并显示在显示器上，并从该一览表中选择所需的文本，由此进行作为检索关键字的文本的指定。

另外，检索关键字指定部22并非是相似检索装置20本身必须具备的构成。例如，也可以形成为：将相似检索装置20构成为连接到因特网等通信网络的服务器装置，并且在经由该通信网络被连接的其他终端中设置检索关键字指定部22，将显示指定内容的信息从该终端发送至相似检索装置20。

相似文本检索部23在通过检索关键字指定部22从文本数据存储部21所存储的m个文本中指定了一个文本作为检索关键字时，将除该一个文本以外的m－1个其他文本作为检索对象，并从m－1个其他文本中检索并提取与被指定的一个文本相似的文本。具体而言，相似文本检索部23将一个文本相关的n个相似度指标值作为检索关键字关联文本指标值组，将m－1个其他文本涉及的各n个相似度指标值作为检索对象关联文本指标值组，而判断检索关键字关联文本指标值组与检索对象关联文本指标值组的相似度。然后，从m－1个其他文本中且是相似度高的文本中提取规定数量的文本作为检索结果。规定数量可设定为“1”以上的任意数量。

在此，所谓由一个文本相关的n个相似度指标值构成的检索关键字关联文本指标值组，是指构成式(3)所示的评价值矩阵DW的各行之中、一个文本相关的行所包含的n个相似度指标值。例如，在指定文本d₁作为一个文本时，评价值矩阵DW的第一行所包含的n个相似度指标值dw₁₁～dw_1n是检索关键字关联文本指标值组。

另外，所谓由其他文本相关的n个相似度指标值构成的检索对象关联文本指标值组，是指其他文本相关的行中所包含的n个相似度指标值。例如，当指定了文本d₁作为一个文本时，评价值矩阵DW的第一行以外的各行中所包含的各n个相似度指标值dw₂₁～dw_2n、dw₃₁～dw_3n、……、dw_m1～dw_mn是检索对象关联文本指标值组。在此，评价值矩阵DW的第二行中所包含的n个相似度指标值dw₂₁～dw_2n是其他文本d₂相关的检索对象关联文本指标值组。另外，评价值矩阵DW的第m行中所包含的n个相似度指标值dw_m1～dw_mn是其他文本d_m相关的检索对象关联文本指标值组。

相似文本检索部23分别计算一个文本相关的检索关键字关联文本指标值组dw₁₁～dw_1n与其他文本相关的m－1个检索对象关联文本指标值组dw₂₁～dw_2n、dw₃₁～dw_3n、……、dw_m1～dw_mn的相似度，并从m－1个其他文本中且是相似度高的文本中提取规定数量的文本作为检索结果。在此，相似度的计算可以使用公知的方法。例如，可以使用计算欧几里得距离、马氏距离、余弦距离等中的任意一种的方法。

如图2那样构成的相似检索装置20，对于下述情况是有用的：即，从已经算出相似度指标值的m个文本中指定任意一个文本，并从剩余的m－1个文本中检索与被指定的文本相似的其他文本这一情况。例如，在已发表的论文数据作为m个文本被存储于文本数据存储部21中的情况下，在欲搜寻记载有与特别指定的论文相似内容的其他论文等时是有用的。

图3是表示利用了本实施方式的相似度指标值计算装置10的其他相似检索装置30的功能结构例的框图。如图3所示，其他结构例涉及的相似检索装置30构成为除了图1所示的相似度指标值计算装置10以外，还包括作为存储介质的文本数据存储部31、作为功能结构的检索关键字获取部32以及相似文本检索部33。

上述各功能快32～33可以由硬件、DSP、软件中的任一种构成。例如，当由软件构成时，上述各功能块32～33实际上构成为包括计算机的CPU、RAM、ROM等，并通过运行存储于RAM或ROM、硬盘或半导体存储器等记录介质中的程序而实现。

文本数据存储部31将多个文本数据与通过相似度指标值计算装置10计算出的相似度评价值一起存储。在此，文本数据存储部31将被作为该相似度评价值的计算源的多个文本相关的文本数据与作为利用式(3)计算的评价值矩阵DW的各要素的值的多个相似度评价值一起存储。

检索关键字获取部32获取被指定作为检索关键字的文本数据。在此获取的文本数据是与文本数据存储部31中所存储的多个文本数据不同的新文本数据。新文本数据的获取源是任意的。另外，新文本数据的获取方法也是任意的。例如，从经由通信网络而与相似检索装置30连接的外部的终端、服务器或存储器等中，获取由欲进行相似文本检索的用户通过操作部的操作而指定了的文本数据。

相似度指标值计算装置10在通过检索关键字获取部32获取了一个文本数据的情况下，将通过该检索关键字获取部32获取的文本数据作为一个文本(检索关键字的文本)，并将文本数据存储部31中所存储的多个文本数据作为m－1个其他文本(检索对象的文本)，从而根据式(3)计算m×n个相似度指标值。

通过相似度指标值计算装置10而算出的相似度指标值与新文本数据一起被存储在文本数据存储部31中。即，在追加并存储新文本数据的同时更新并存储相似度指标值。另外，如上述那样被存储于文本数据存储部31中的多个文本数据(既存的文本数据和追加的文本数据)，在检索关键字获取部32下一次获取了新文本数据时，被用作m－1个文本数据(但是，m的值为比上一次大“1”的值)。

相似文本检索部33使用由相似度指标值计算装置10算出并存储于文本数据存储部31中的m×n个相似度指标值，从文本数据存储部31所存储的既存文本中检索并提取与被检索关键字获取部32作为检索关键字而获取的一个文本相似的文本。

具体而言，相似文本检索部33判断检索关键字关联文本指标值组与检索对象关联文本指标值组的相似度，其中，检索关键字关联文本指标值组由通过检索关键字获取部32而获取的一个文本所涉及的n个相似度指标值构成，检索对象关联文本指标值组由文本数据存储部31中存储的既存的其他文本所涉及的n个相似度指标值构成。然后，从文本数据存储部31所存储的m－1个其他文本中且是相似度高的文本中提取规定数量的文本作为检索结果。

在此，当将通过检索关键字获取部32而获取的一个文本作为d₁、将文本数据存储部31中存储的既存的其他文本作为d₂～d_m时，由相似度指标值计算装置10根据式(3)算出的构成评价值矩阵DW的各行之中的第一行所包含的n个相似度指标值dw₁₁～dw₁ _n是检索关键字关联文本指标值组。另外，评价值矩阵DW的第二行及以后各行中所包含的各n个相似度指标值dw₂₁～dw_2n、dw₃₁～dw_3n、……、dw_m1～dw_mn是检索对象关联文本指标值组。

相似文本检索部33分别计算一个文本所涉及的检索关键字关联文本指标值组dw₁₁～dw_1n和其他文本所涉及的m－1个检索对象关联文本指标值组dw₂₁～dw_2n、dw₃₁～dw_3n、……、dw_m1～dw_mn的相似度，并从m－1个其他文本中且是相似度高的文本中提取规定数量的文本作为检索结果。

如图3那样构成的相似检索装置30，对于从已经算出相似度指标值的m－1个文本中检索与作为检索关键字而获取的新文本相似的文本这一情况是有用的。例如，在已发表的论文数据作为m－1个文本被存储于文本数据存储部31中的情况下，在欲搜寻记载有与新获取的论文相似的内容的论文时等是有用的。

另外，虽然在上述图2的实施方式中对相似检索装置20包括相似度指标值计算装置10和文本数据存储部21的构成进行了说明，但是本发明并非限定于此。即，相似度指标值计算装置10和文本数据存储部21也可以构成为与具有检索关键字指定部22和相似文本检索部23的相似检索装置不同的装置。图4是表示该情况下的一个构成例的图。

如图4所示，相似度指标值计算装置10和文本数据存储部21配置在与因特网等通信网络连接的服务器装置100中。服务器装置100进而还包括通信部101和数据提供部102，并根据来自与通信网络连接的相似检索装置40的数据获取要求，从文本数据存储部21中读出文本数据和相似度指标值并提供至相似检索装置40。

相似检索装置40除了包括检索关键字指定部22和相似文本检索部23之外，还包括通信部41和数据获取部42。数据获取部42经由通信部41向服务器装置100发送数据获取要求，由此从服务器装置100的文本数据存储部21获取文本数据和相似度指标值。文本数据存储部21中存储的相似度指标值是通过相似度指标值计算装置10事先算出并存储的值。

数据获取部42获取被检索关键字指定部22作为检索关键字而指定的一个文件所涉及的n个相似度指标值作为检索关键字关联文本指标值组，并且获取其他m－1个文件所涉及的各n个相似度指标值作为检索对象关联文本指标值组。另外，检索关键字指定部22所进行的检索关键字的指定，例如通过以下方式进行：从相似检索装置40访问服务器装置100，由此获取文本数据存储部21中所存储的文本的一览表并显示于显示器，并从该一览表中选择用户所需的文本。

相似文本检索部23在如上所述由检索关键字指定部22从文本数据存储部21所存储的m个文本中指定任一个文本作为检索关键字的情况下，使用由数据获取部42从服务器装置100获取的相似度指标值，来判断由一个文本所涉及的n个相似度指标值构成的检索关键字关联文本指标值组与由m－1个其他文本所涉及的各n个相似度指标值构成的检索对象关联文本指标值组的相似度，并从m－1个其他文本中且是相似度高的文本中提取规定数量的文本作为检索结果。

另外，在上述实施方式中对下述例子进行了说明：即，使用由相似度指标值计算装置10算出的评价值矩阵DW的各行作为单位、各n个相似度指标值作为文本指标值组，从而检索相似文本这一例子，但本发明并不限定于此。例如也可以形成为：使用由相似度指标值计算装置10算出的评价值矩阵DW的各列作为单位、各m个相似度指标值作为单词指标值组，从而检索相似单词。

图5是表示以检索相似单词的方式形成的相似检索装置50的功能结构例的框图。在该图5中，由于赋予与图2所示符号相同符号的部分具有相同的功能，故在此省略重复的说明。如图5所示，相似检索装置50构成为除了图1所示的相似度指标值计算装置10之外，还包括作为存储介质的文本数据存储部21、作为功能结构的检索关键字指定部52以及相似单词检索部53。

上述各功能块52～53可以由硬件、DSP、软件中的任一种构成。例如，当由软件构成时，上述各功能块52～53实际上构成为包括计算机的CPU、RAM、ROM等，并通过运行存储于RAM或ROM、硬盘或半导体存储器等的记录介质中的程序而实现。

检索关键字指定部52从被存储于文本数据存储部21的文本数据所包含的n个单词中指定一个单词作为检索关键字。一个单词的指定通过由欲进行相似单词检索的用户操作相似检索装置50所具备的操作部而进行。具体而言，用户获取文本数据存储部21中存储的文本所包含的单词的一览表并显示于显示器，并从该一览表中选择所需的单词，由此进行作为检索关键字的单词的指定。另外，为了如此显示单词一览表，也可以与m个文本数据分开另外地将n个单词数据存储在文本数据存储部21中。

另外，检索关键字指定部52并非必须是相似检索装置50本身具备的构成。例如也可以形成为：将相似检索装置50构成为与因特网等通信网络连接的服务器装置，并在经由该通信网络而被连接的另外的终端上设置检索关键字指定部52，将表示指定内容的信息从该终端发送至相似检索装置50。

相似单词检索部53在由检索关键字指定部52指定了n个单词中的一个单词作为检索关键字的情况下，将该一个单词以外的n－1个其他单词作为检索对象，并从n－1个其他单词中检索并提取与一个单词相似的单词。具体而言，相似单词检索部53将一个单词涉及的m个相似度指标值作为检索关键字关联单词指标值组，将n－1个其他单词涉及的各m个相似度指标值作为检索对象关联单词指标值组，从而判断检索关键字关联单词指标值组与检索对象关联单词指标值组的相似度。然后，从n－1个其他单词中且是相似度高的单词中提取规定数量的单词作为检索结果。

如图5那样构成的相似检索装置50对于从已经算出相似度指标值的m个文本所包含的n个单词中指定任意一个、并从剩余的n－1个单词中检索与指定的单词相似的其他单词这一情况是有用的。此处所说的相似的单词，既存在是检索关键字的单词的同义词或近义词的情况，也存在非同义词或近义词的情况。根据本实施方式，能够将与该单词在哪一文本中使用这一趋势相似的单词作为相似单词加以检索。

此外，上述实施方式均仅为实施本发明时示出的具体化的一例，不能据此限定性地解释本发明的技术范围。即，本发明在不脱离其主旨或其主要特征的情况下，可以通过各种方式实施。

Claims

1.一种相似度指标值计算装置，其特征在于，具备：

单词提取部，该单词提取部对m(m为大于等于2的任意整数)个文本进行分析并从该m个文本中提取n(n为大于等于2的任意整数)个单词；

文本向量计算部，该文本向量计算部通过使所述m个文本分别按照规定的规则在q(q为大于等于2的任意整数)个维度上向量化，从而计算由q个轴分量构成的m个文本向量；

单词向量计算部，该单词向量计算部通过使所述n个单词分别按照规定的规则在q个维度上向量化，从而计算由q个轴分量构成的n个单词向量；以及

指标值计算部，该指标值计算部通过分别获取所述m个文本向量和所述n个单词向量的内积，从而计算反映所述m个文本和所述n个单词之间的关联度的相似度指标值；

所述文本向量计算部和所述单词向量计算部将针对所述m个文本和所述n个单词的所有组合算出准确率并进行合计后的值作为目标变量，并计算使该目标变量最大化的文本向量和单词向量，其中，所述准确率是根据所述n个单词中的一个单词预测所述m个文本中的一个文本的准确率，或者根据所述m个文本中的一个文本预测所述n个单词中的一个单词的准确率。

2.如权利要求1所述的相似度指标值计算装置，其特征在于，

所述指标值计算部通过获取文本矩阵和单词矩阵的积而计算以m×n个所述相似度指标值作为各要素的评价值矩阵，其中，所述文本矩阵以所述m个文本向量的各q个轴分量作为各要素，所述单词矩阵以所述n个单词向量的各q个轴分量作为各要素。

3.一种相似检索装置，其特征在于，具备：

权利要求1或2所述的相似度指标值计算装置；以及

相似文本检索部，该相似文本检索部在指定了所述m个文本中的一个文本作为检索关键字的情况下，将该一个文本以外的m－1个其他文本作为检索对象，判断由所述一个文本所涉及的n个相似度指标值构成的检索关键字关联文本指标值组与由所述m－1个其他文本所涉及的各n个相似度指标值构成的检索对象关联文本指标值组的相似度，并从所述m－1个其他文本中且是所述相似度高的文本中提取规定数量的文本作为检索结果。

4.如权利要求3所述的相似检索装置，其特征在于，

所述相似检索装置进而还具备文本数据存储部，该文本数据存储部将所述m个文本相关的文本数据与通过所述相似度指标值计算装置算出的所述相似度指标值一起进行了存储；

所述相似文本检索部在从所述文本数据存储部所存储的所述m个文本中指定了所述一个文本作为所述检索关键字的情况下，将该一个文本以外的m－1个其他文本作为检索对象，判断由所述一个文本所涉及的n个相似度指标值构成的检索关键字关联文本指标值组与所述m－1个其他文本所涉及的各n个相似度指标值构成的检索对象关联文本指标值组的相似度，并从所述m－1个其他文本中且是所述相似度高的文本中提取规定数量的文本作为检索结果。

5.如权利要求3所述的相似检索装置，其特征在于，

所述相似检索装置进而还具备：

文本数据存储部，该文本数据存储部将多个文本数据与通过所述相似度指标值计算装置算出的所述相似度指标值一起进行了存储，以及

检索关键字获取部，该检索关键字获取部获取作为所述检索关键字而被指定的文本数据；

所述相似度指标值计算装置将通过所述检索关键字获取部而获取的文本数据作为所述一个文本，将所述文本数据存储部中存储的文本数据作为所述m－1个其他文本，从而计算所述相似度指标值；

所述相似文本检索部判断检索关键字关联文本指标值组与检索对象关联文本指标值组的相似度，并从所述文本数据存储部所存储的所述m－1个其他文本中且是所述相似度高的文本中提取规定数量的文本作为检索结果，其中，所述检索关键字关联文本指标值组由通过所述检索关键字获取部而获取的所述一个文本所涉及的n个相似度指标值构成，所述检索对象关联文本指标值组由所述文本数据存储部中存储的所述m－1个其他文本所涉及的各n个相似度指标值构成。

6.一种相似检索装置，其特征在于，具备：

数据获取部，该数据获取部从将所述m个文本相关的文本数据与通过权利要求1或2所述的相似度指标值计算装置算出的所述相似度指标值一起进行了存储的文本数据存储部中，获取所述文本数据和所述相似度指标值；以及

相似文本检索部，该相似文本检索部使用通过所述数据获取部而获取的数据，在指定了所述m个文本中一个文本作为检索关键字的情况下，将该一个文本以外的m－1个其他文本作为检索对象，判断由所述一个文本所涉及的n个相似度指标值构成的检索关键字关联文本指标值组与由所述m－1个其他文本所涉及的各n个相似度指标值构成的检索对象关联文本指标值组的相似度，并从所述m－1个其他文本中且是所述相似度高的文本中提取规定数量的文本作为检索结果。

7.如权利要求3～6中任一项所述的相似检索装置，其特征在于，

取代所述相似文本检索部而具备相似单词检索部，或者在所述相似文本检索部的基础上还具备相似单词检索部，其中，所述相似单词检索部在指定了所述n个单词中的一个单词作为检索关键字的情况下，将该一个单词以外的n－1个其他单词作为检索对象，判断由所述一个单词所涉及的m个相似度指标值构成的检索关键字关联单词指标值组与由所述n－1个其他单词所涉及的各m个相似度指标值构成的检索对象关联单词指标值组的相似度，并从所述n－1个其他单词中且是所述相似度高的单词中提取规定数量的单词作为检索结果。

8.一种相似度指标值计算用程序，其特征在于，

使计算机作为单词提取部单元、向量计算单元以及指标值计算单元发挥作用，其中，

所述单词提取部单元对m(m为大于等于2的任意整数)个文本进行分析并从该m个文本中提取n(n为大于等于2的任意整数)个单词；

向量计算单元通过使所述m个文本分别按照规定的规则在q(q为大于等于2的任意整数)个维度上向量化，并且使所述n个单词分别按照规定的规则在q个维度上向量化，从而计算由q个轴分量构成的m个文本向量和由q个轴分量构成的n个单词向量；

指标值计算单元通过分别获取所述m个文本向量和所述n个单词向量的内积，从而计算反映所述m个文本和所述n个单词之间的关联度的相似度指标值；

所述文本向量计算单元将针对所述m个文本和所述n个单词的所有组合算出准确率并进行合计后的值作为目标变量，并计算使该目标变量最大化的文本向量和单词向量，其中，所述准确率是根据所述n个单词中的一个单词预测所述m个文本中的一个文本的准确率，或者根据所述m个文本中的一个文本预测所述n个单词中的一个单词的准确率。