CN111373386A - 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序 - Google Patents

相似度指标值计算装置、相似检索装置及相似度指标值计算用程序 Download PDF

Info

Publication number
CN111373386A
CN111373386A CN201880071838.6A CN201880071838A CN111373386A CN 111373386 A CN111373386 A CN 111373386A CN 201880071838 A CN201880071838 A CN 201880071838A CN 111373386 A CN111373386 A CN 111373386A
Authority
CN
China
Prior art keywords
text
texts
similarity
index value
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880071838.6A
Other languages
English (en)
Inventor
丰柴博义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubic Inc
Fronteo Inc
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Publication of CN111373386A publication Critical patent/CN111373386A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明具备:单词提取部(11),其对m个文本进行分析并提取n个单词;向量计算部(12),其通过使m个文本和n个单词分别在q个维度上向量化,从而计算由q个轴分量构成的m个文本向量和由q个轴分量构成的n个单词向量;以及指标值计算部(13),其通过分别获取m个文本向量和n个单词向量的内积而计算反映m个文本和n个单词之间的关联度的相似度指标值;通过计算根据文本而算出的文本向量和根据文本内包含的单词而算出的单词向量的内积,能够得到以内积值的形式表示哪个单词对哪个文本具有何等程度的贡献的相似度评价值。

Description

相似度指标值计算装置、相似检索装置及相似度指标值计算 用程序
技术领域
本发明涉及相似度指标值计算装置、相似文本检索装置以及相似度指标值计算用程序,尤其涉及对含有多个单词的文本相关的相似度指标值进行计算的技术和使用该指标值进行相似检索的技术。
背景技术
目前,广泛使用从数据库所存储的大量文本中检索与作为检索关键字(retrievalkey)而被输入的文本相似的其他文本的技术。在这种检索技术中,基本上形成为:针对各文本计算一些特征量,从而检索特征量相似的文本。已知有计算文本向量作为特征量之一的技术(例如,参照专利文献1、2)。
在专利文献1公开的信息检索装置中,对检索应答文件进行分析并提取独立词,在得到的独立词中对被登录于向量生成用词典的独立词读出单词向量。然后,根据在整个文本中得到的所有单词向量而获取表示文本特征的文本向量,通过比较各文本向量而求出文本之间的距离,并使用该距离进行分类。
专利文献2中公开的对应范畴检索系统是检索意思内容相近的日英文件对的检索系统,其对包含于学习数据中的所有日语文件和英语文件实施词素分析处理,并对由此而得到的所有日语单词和英语单词计算对应的多维度的单词向量。然后,计算文件向量、即将包含于各文件中的所有单词所对应的单词向量的总和标准化(向量长度设为“1”)后的文件向量,并通过日语文件对应的文件向量和英语文件对应的文件向量检索关联度最高(内积值大)的日英文件对。
另外,还已知有描述了通过段落向量对文本或文件进行评价的论文(例如,参照非专利文献1)。在该非专利文献1公开的技术中也形成为:与上述专利文献1、2同样地对文本中包含的单词计算单词向量,并使用该单词向量来计算段落向量。
专利文献1:日本特开平7-295994号公报
专利文献2:日本特开2002-259445号公报
非专利文献1:“Distributed Representations of Sentences and Documents”by Quoc Le and Tomas Mikolov,Google Inc,Proceedings of the 31st InternationalConference on Machine Learning Held in Bejing,China on 22-24June 2014(“句子和文档的分布式表示”,Quoc Le、Tomas Mikolov,2014年6月22日至24日于中国北京举行的第31届机器学习国际会议论文集)
上述专利文献1、2和非专利文献1中公开的技术均形成为以下构成:计算文本向量作为文本的特征量,通过比较各文本向量或计算各文本向量的内积而对文本进行分类或对相似文本进行检索。
然而,仅使用文本向量作为指标的现有的相似度评价方法存在无法充分提高评价精度这一问题。这是因为文本是由多个单词的组合构成的,而哪个单词对哪个文本有何等程度的贡献并未被准确地评价。
另外,上述专利文献1、2和非专利文献1中公开的文本向量均是通过使用了单词向量的规定计算而被算出的。然而,专利文献1中没有公开如何根据单词向量求出文本向量的具体方法。在专利文献2公开的技术中,由于仅是将文件中包含的所有单词所对应的单词向量的总和标准化而作为文件向量,因此文件中所使用的各单词的单词向量已经以总和形式进行了四舍五入。在非专利文献1公开的技术中,虽然在求取段落向量的过程中使用单词向量,但是单词向量本身并未作为评价文本或文件的指标被使用。
发明内容
本发明是为了解决上述问题而完成的,目的在于能够较之现有技术提高相似度的评价精度。
为了解决上述课题,在本发明的相似度指标值计算装置中,对m个文本进行分析而从该m个文本中提取n个单词,并且,通过使m个文本分别按照规定的规则在q个维度上向量化而计算由q个轴分量构成的m个文本向量,同时通过使n个单词分别按照规定的规则在q个维度上向量化而计算由q个轴分量构成的n个单词向量。然后,通过分别获取m个文本向量和n个单词向量的内积,从而计算反映m个文本和n个单词之间的关联度的相似度指标值。在此,将针对m个文本和n个单词的所有组合计算准确率并进行合计后的值作为目标变量,并计算使该目标变量最大化的文本向量和单词向量,其中,上述准确率是根据n个单词中的一个单词预测m个文本中的一个文本的准确率,或者是根据m个文本中的一个文本预测n个单词中的一个单词的准确率。
(发明效果)
根据上述构成的本发明,通过计算根据文本而算出的文本向量和根据包含于文本内的单词而算出的单词向量的内积,从而算出反映文本和单词之间的关联度的相似度评价值,因此,能够以内积值的形式得到哪个单词对哪个文本具有何等程度的贡献这一情况。因此,通过使用如上所述而得到的本发明的相似度指标值,能够较之现有技术提高相似度的评价精度。
附图说明
图1是表示本实施方式涉及的相似度指标值计算装置的功能结构例的框图。
图2是表示本实施方式涉及的相似检索装置的功能结构例的框图。
图3是表示本实施方式涉及的相似检索装置的其他功能结构例的框图。
图4是表示本实施方式涉及的相似检索装置的其他功能结构例的框图。
图5是表示本实施方式涉及的相似检索装置的其他功能结构例的框图。
(符号说明)
10…相似度指标值计算装置
11…单词提取部
12…向量计算部
12A…文本向量计算部
12B…单词向量计算部
13…指标值计算部
20、30、40、50…相似检索装置
21、31…文本数据存储部
22、52…检索关键字指定部
23、33…相似文本检索部
32…检索关键字获取部
42…数据获取部
具体实施方式
以下,根据附图对本发明的一实施方式进行说明。图1是表示本实施方式涉及的相似度指标值计算装置的功能结构例的框图。本实施方式的相似度指标值计算装置10是输入文本相关的文本数据、计算并输出相似度指标值的装置,其中,相似度指标值反映文本与文本中所包含的单词之间的关联度。相似度指标值计算装置10构成为功能结构包括:单词提取部11、向量计算部12以及指标值计算部13。向量计算部12具备文本向量计算部12A和单词向量计算部12B,作为更加具体的功能结构。
上述各功能块11~13可以由硬件、DSP(Digital Signal Processor:数字信号处理器)和软件中的任一种构成。例如,当由软件构成时,上述各功能块11~13实际上被构成为包括计算机的CPU(中央处理器)、RAM(随机存取存储器)和ROM(只读存储器)等,并且通过运行存储于RAM或ROM、硬盘或半导体存储器等记录介质中的程序而实现。
单词提取部11分析m个(m为大于等于2的任意整数)文本,并从该m个文本中提取n个(n为大于等于2的任意整数)单词。在此,作为分析对象的文本可以由一个句子(利用句号划分的单位)构成,也可以由多个句子构成。由多个句子构成的文本可以是一个文件所包含的部分文本或全部文本。
另外,作为文本的分析,例如能够使用公知的词素分析。在此,单词提取部11既可以形成为提取经词素分析而被划分的所有词类的词素作为单词,也可以形成为仅提取特定词类的词素作为单词。
另外,在m个文本中有时包含有多个相同的单词。该情况下,单词提取部11不提取多个相同的单词,而仅提取一个。即,由单词提取部11提取的n个单词是指n个种类的单词。
向量计算部12根据m个文本和n个单词而计算出m个文本向量和n个单词向量。在此,文本向量计算部12A对经单词提取部11提取而作为分析对象的m个文本,分别按照规定的规则在q个维度上进行向量化,由此计算由q个(q为大于等于2的任意整数)轴分量构成的m个文本向量。另外,单词向量计算部12B对经单词提取部11提取的n个单词分别按照规定的规则在q个维度上进行向量化,由此计算由q个轴分量构成的n个单词向量。
在本实施方式中,作为一例而如下述那样计算文本向量和单词向量。现在,考虑由m个文本和n个单词构成的集合S=<d∈D,w∈W>。在此,分别将文本向量di→和单词向量wj→(以下设定为:符号“→”是指向量。)与各文本di(i=1、2、……、m)和各单词wj(j=1、2、……、n)关联。然后,对任意单词wj和任意文本di计算下式(1)所示的准确率P(wj|di)。
[数式1]
Figure BDA0002479102010000051
另外,该准确率P(wj|di)是可仿照上述非专利文献1中公开的准确率p而算出的值。在非专利文献1中,例如当存在“the”、“cat”、“sat”这三个单词时,将“on”作为第四个单词加以预测,并公开了其预测准确率p的计算式。非专利文献1中公开的准确率p(wt|wt-k、……、wt+k)是根据多个单词wt-k、……、wt+k预测另外一个单词wt时的准确率。
相对于此,本实施方式中使用的式(1)所示的准确率P(wj|di)表示根据m个文本中的一个文本di预测n个单词中的一个单词wj的准确率。所谓根据一个文本di预测一个单词wj,具体而言是指在某个文本di出现时预测其中包含单词wj的可能性。
另外,由于di和wj是对称的,因此该式(1)也可以计算根据n个单词中的一个单词wj预测m个文本中的一个文本di的准确率P(di|wj)。所谓根据一个单词wj预测一个文本di,是指在某个单词wj出现时预测其包含于文本di中的可能性。
在式(1)中,使用以e为底且以单词向量w→和文本向量d→的内积值为指数的指数函数值。然后,将作为预测对象的根据文本di和单词wj的组合而计算的指数函数值与根据文本di和n个单词Wk(k=1、2、……、n)的各个组合而计算的n个指数函数值的合计值的比率,作为根据一个文本di预测一个单词wj的准确率而进行计算。
在此,单词向量wj→和文本向量di→的内积值也可以称作将单词向量wj→在文本向量di→的方向上投影时的标量值,即,单词向量wj→所具有的文本向量di→的方向上的分量值。可以认为这表示单词wj对文本di的贡献程度。因此,使用利用上述内积而计算的指数函数值求取下述比率、即针对一个单词wj计算的指数函数值相对于针对n个单词Wk(k=1、2、……、n)计算的指数函数值总和的比率,相当于求取根据一个文本di预测n个单词中的一个单词wj的准确率。
另外,虽然在此示出了使用以单词向量w→和文本向量d→的内积值作为指数的指数函数值的计算例,但是并非必须要使用指数函数值。只要是利用了单词向量w→和文本向量d→的内积值的计算式即可,例如,也可以利用内积值本身的比率求取准确率。
接下来,如下式(2)所示,向量计算部12计算使值L最大化的文本向量di→和单词向量wj→,其中,值L是将利用上式(1)计算的准确率P(wj|di)针对所有集合S求和而得到的值。即,文本向量计算部12A和单词向量计算部12B针对m个文本和n个单词的所有组合计算利用上式(1)计算的准确率P(wj|di),并将对它们求和后的合计值作为目标变量L,从而计算使该目标变量L最大化的文本向量di→和单词向量wj→。
[数式2]
Figure BDA0002479102010000071
使针对m个文本和n个单词的所有组合计算出的准确率P(wj|di)的合计值L最大化,是指使根据某个文本di(i=1、2、……、m)预测某个单词wj(j=1、2、……、n)的准确率最大化。即,向量计算部12可以说是计算使该准确率最大化的文本向量di→和单词向量wj→的单元。
在此,在本实施方式中如上所述,向量计算部12通过分别使m个文本di在q个维度上向量化而计算由q个轴分量构成的m个文本向量di→,并且通过分别使n个单词在q个维度上向量化而计算由q个轴分量构成的n个单词向量wj→。这相当于将q个轴向设为可变而计算使上述目标变量L最大化的文本向量di→和单词向量wj→。
指标值计算部13通过分别获取由向量计算部12算出的m个文本向量di→和n个单词向量wj→的内积,从而计算反映m个文本di和n个单词wj之间的关联度的相似度指标值。在本实施方式中,如下式(3)所示,指标值计算部13通过获取以m个文本向量di→的各q个轴分量(d11~dmq)作为各要素的文本矩阵D、和以n个单词向量wj→的各q个轴分量(w11~wnq)作为各要素的单词矩阵W的积,从而计算以m×n个相似度指标值作为各要素的评价值矩阵DW。在此,Wt是单词矩阵的转置矩阵。
[数式3]
Figure BDA0002479102010000081
Figure BDA0002479102010000082
可以说,以这种方式计算出的评价值矩阵DW的各要素表示了哪个单词对哪个文本有何等程度的贡献。例如,第一行第二列的要素dw12是表示单词w2对文本d1有何种程度的贡献的值。由此,评价值矩阵DW的各行能够用于评价文本的相似度,各列能够用于评价单词的相似度。有关于此的详细情况将在后面进行说明。
接下来,对利用了如上构成的本实施方式涉及的相似度指标值计算装置10的相似检索装置进行说明。图2是表示本实施方式涉及的相似检索装置20的功能结构例的框图。如图2所示,本实施方式的相似检索装置20构成为除了图1所示的相似度指标值计算装置10之外,还包括作为存储介质的文本数据存储部21、作为功能结构的检索关键字指定部22以及相似文本检索部23。
上述各功能块22~23可以由硬件、DSP、软件中的任一种构成。例如,当由软件构成时,上述各功能块22~23实际上被构成为包括计算机的CPU、RAM、ROM等,并且通过运行存储于RAM或ROM、硬盘或半导体存储器等的记录介质中的程序而实现。
文本数据存储部21将m个文本相关的文本数据与通过相似度指标值计算装置10计算出的相似度评价值一起存储。在此,文本数据存储部21将被作为该相似度评价值的计算源的m个文本相关的文本数据与作为利用式(3)计算出的评价值矩阵DW的各要素的值的m×n个相似度评价值一起存储。
检索关键字指定部22从文本数据存储部21所存储的m个文本中指定一个文本作为检索关键字。一个文本的指定由欲进行相似文本检索的用户通过操作相似检索装置20所具备的操作部(键盘、鼠标、触摸面板等)而进行。具体而言,用户获取被存储于文本数据存储部21中的文本的一览表并显示在显示器上,并从该一览表中选择所需的文本,由此进行作为检索关键字的文本的指定。
另外,检索关键字指定部22并非是相似检索装置20本身必须具备的构成。例如,也可以形成为:将相似检索装置20构成为连接到因特网等通信网络的服务器装置,并且在经由该通信网络被连接的其他终端中设置检索关键字指定部22,将显示指定内容的信息从该终端发送至相似检索装置20。
相似文本检索部23在通过检索关键字指定部22从文本数据存储部21所存储的m个文本中指定了一个文本作为检索关键字时,将除该一个文本以外的m-1个其他文本作为检索对象,并从m-1个其他文本中检索并提取与被指定的一个文本相似的文本。具体而言,相似文本检索部23将一个文本相关的n个相似度指标值作为检索关键字关联文本指标值组,将m-1个其他文本涉及的各n个相似度指标值作为检索对象关联文本指标值组,而判断检索关键字关联文本指标值组与检索对象关联文本指标值组的相似度。然后,从m-1个其他文本中且是相似度高的文本中提取规定数量的文本作为检索结果。规定数量可设定为“1”以上的任意数量。
在此,所谓由一个文本相关的n个相似度指标值构成的检索关键字关联文本指标值组,是指构成式(3)所示的评价值矩阵DW的各行之中、一个文本相关的行所包含的n个相似度指标值。例如,在指定文本d1作为一个文本时,评价值矩阵DW的第一行所包含的n个相似度指标值dw11~dw1n是检索关键字关联文本指标值组。
另外,所谓由其他文本相关的n个相似度指标值构成的检索对象关联文本指标值组,是指其他文本相关的行中所包含的n个相似度指标值。例如,当指定了文本d1作为一个文本时,评价值矩阵DW的第一行以外的各行中所包含的各n个相似度指标值dw21~dw2n、dw31~dw3n、……、dwm1~dwmn是检索对象关联文本指标值组。在此,评价值矩阵DW的第二行中所包含的n个相似度指标值dw21~dw2n是其他文本d2相关的检索对象关联文本指标值组。另外,评价值矩阵DW的第m行中所包含的n个相似度指标值dwm1~dwmn是其他文本dm相关的检索对象关联文本指标值组。
相似文本检索部23分别计算一个文本相关的检索关键字关联文本指标值组dw11~dw1n与其他文本相关的m-1个检索对象关联文本指标值组dw21~dw2n、dw31~dw3n、……、dwm1~dwmn的相似度,并从m-1个其他文本中且是相似度高的文本中提取规定数量的文本作为检索结果。在此,相似度的计算可以使用公知的方法。例如,可以使用计算欧几里得距离、马氏距离、余弦距离等中的任意一种的方法。
如图2那样构成的相似检索装置20,对于下述情况是有用的:即,从已经算出相似度指标值的m个文本中指定任意一个文本,并从剩余的m-1个文本中检索与被指定的文本相似的其他文本这一情况。例如,在已发表的论文数据作为m个文本被存储于文本数据存储部21中的情况下,在欲搜寻记载有与特别指定的论文相似内容的其他论文等时是有用的。
图3是表示利用了本实施方式的相似度指标值计算装置10的其他相似检索装置30的功能结构例的框图。如图3所示,其他结构例涉及的相似检索装置30构成为除了图1所示的相似度指标值计算装置10以外,还包括作为存储介质的文本数据存储部31、作为功能结构的检索关键字获取部32以及相似文本检索部33。
上述各功能快32~33可以由硬件、DSP、软件中的任一种构成。例如,当由软件构成时,上述各功能块32~33实际上构成为包括计算机的CPU、RAM、ROM等,并通过运行存储于RAM或ROM、硬盘或半导体存储器等记录介质中的程序而实现。
文本数据存储部31将多个文本数据与通过相似度指标值计算装置10计算出的相似度评价值一起存储。在此,文本数据存储部31将被作为该相似度评价值的计算源的多个文本相关的文本数据与作为利用式(3)计算的评价值矩阵DW的各要素的值的多个相似度评价值一起存储。
检索关键字获取部32获取被指定作为检索关键字的文本数据。在此获取的文本数据是与文本数据存储部31中所存储的多个文本数据不同的新文本数据。新文本数据的获取源是任意的。另外,新文本数据的获取方法也是任意的。例如,从经由通信网络而与相似检索装置30连接的外部的终端、服务器或存储器等中,获取由欲进行相似文本检索的用户通过操作部的操作而指定了的文本数据。
相似度指标值计算装置10在通过检索关键字获取部32获取了一个文本数据的情况下,将通过该检索关键字获取部32获取的文本数据作为一个文本(检索关键字的文本),并将文本数据存储部31中所存储的多个文本数据作为m-1个其他文本(检索对象的文本),从而根据式(3)计算m×n个相似度指标值。
通过相似度指标值计算装置10而算出的相似度指标值与新文本数据一起被存储在文本数据存储部31中。即,在追加并存储新文本数据的同时更新并存储相似度指标值。另外,如上述那样被存储于文本数据存储部31中的多个文本数据(既存的文本数据和追加的文本数据),在检索关键字获取部32下一次获取了新文本数据时,被用作m-1个文本数据(但是,m的值为比上一次大“1”的值)。
相似文本检索部33使用由相似度指标值计算装置10算出并存储于文本数据存储部31中的m×n个相似度指标值,从文本数据存储部31所存储的既存文本中检索并提取与被检索关键字获取部32作为检索关键字而获取的一个文本相似的文本。
具体而言,相似文本检索部33判断检索关键字关联文本指标值组与检索对象关联文本指标值组的相似度,其中,检索关键字关联文本指标值组由通过检索关键字获取部32而获取的一个文本所涉及的n个相似度指标值构成,检索对象关联文本指标值组由文本数据存储部31中存储的既存的其他文本所涉及的n个相似度指标值构成。然后,从文本数据存储部31所存储的m-1个其他文本中且是相似度高的文本中提取规定数量的文本作为检索结果。
在此,当将通过检索关键字获取部32而获取的一个文本作为d1、将文本数据存储部31中存储的既存的其他文本作为d2~dm时,由相似度指标值计算装置10根据式(3)算出的构成评价值矩阵DW的各行之中的第一行所包含的n个相似度指标值dw11~dw1 n是检索关键字关联文本指标值组。另外,评价值矩阵DW的第二行及以后各行中所包含的各n个相似度指标值dw21~dw2n、dw31~dw3n、……、dwm1~dwmn是检索对象关联文本指标值组。
相似文本检索部33分别计算一个文本所涉及的检索关键字关联文本指标值组dw11~dw1n和其他文本所涉及的m-1个检索对象关联文本指标值组dw21~dw2n、dw31~dw3n、……、dwm1~dwmn的相似度,并从m-1个其他文本中且是相似度高的文本中提取规定数量的文本作为检索结果。
如图3那样构成的相似检索装置30,对于从已经算出相似度指标值的m-1个文本中检索与作为检索关键字而获取的新文本相似的文本这一情况是有用的。例如,在已发表的论文数据作为m-1个文本被存储于文本数据存储部31中的情况下,在欲搜寻记载有与新获取的论文相似的内容的论文时等是有用的。
另外,虽然在上述图2的实施方式中对相似检索装置20包括相似度指标值计算装置10和文本数据存储部21的构成进行了说明,但是本发明并非限定于此。即,相似度指标值计算装置10和文本数据存储部21也可以构成为与具有检索关键字指定部22和相似文本检索部23的相似检索装置不同的装置。图4是表示该情况下的一个构成例的图。
如图4所示,相似度指标值计算装置10和文本数据存储部21配置在与因特网等通信网络连接的服务器装置100中。服务器装置100进而还包括通信部101和数据提供部102,并根据来自与通信网络连接的相似检索装置40的数据获取要求,从文本数据存储部21中读出文本数据和相似度指标值并提供至相似检索装置40。
相似检索装置40除了包括检索关键字指定部22和相似文本检索部23之外,还包括通信部41和数据获取部42。数据获取部42经由通信部41向服务器装置100发送数据获取要求,由此从服务器装置100的文本数据存储部21获取文本数据和相似度指标值。文本数据存储部21中存储的相似度指标值是通过相似度指标值计算装置10事先算出并存储的值。
数据获取部42获取被检索关键字指定部22作为检索关键字而指定的一个文件所涉及的n个相似度指标值作为检索关键字关联文本指标值组,并且获取其他m-1个文件所涉及的各n个相似度指标值作为检索对象关联文本指标值组。另外,检索关键字指定部22所进行的检索关键字的指定,例如通过以下方式进行:从相似检索装置40访问服务器装置100,由此获取文本数据存储部21中所存储的文本的一览表并显示于显示器,并从该一览表中选择用户所需的文本。
相似文本检索部23在如上所述由检索关键字指定部22从文本数据存储部21所存储的m个文本中指定任一个文本作为检索关键字的情况下,使用由数据获取部42从服务器装置100获取的相似度指标值,来判断由一个文本所涉及的n个相似度指标值构成的检索关键字关联文本指标值组与由m-1个其他文本所涉及的各n个相似度指标值构成的检索对象关联文本指标值组的相似度,并从m-1个其他文本中且是相似度高的文本中提取规定数量的文本作为检索结果。
另外,在上述实施方式中对下述例子进行了说明:即,使用由相似度指标值计算装置10算出的评价值矩阵DW的各行作为单位、各n个相似度指标值作为文本指标值组,从而检索相似文本这一例子,但本发明并不限定于此。例如也可以形成为:使用由相似度指标值计算装置10算出的评价值矩阵DW的各列作为单位、各m个相似度指标值作为单词指标值组,从而检索相似单词。
图5是表示以检索相似单词的方式形成的相似检索装置50的功能结构例的框图。在该图5中,由于赋予与图2所示符号相同符号的部分具有相同的功能,故在此省略重复的说明。如图5所示,相似检索装置50构成为除了图1所示的相似度指标值计算装置10之外,还包括作为存储介质的文本数据存储部21、作为功能结构的检索关键字指定部52以及相似单词检索部53。
上述各功能块52~53可以由硬件、DSP、软件中的任一种构成。例如,当由软件构成时,上述各功能块52~53实际上构成为包括计算机的CPU、RAM、ROM等,并通过运行存储于RAM或ROM、硬盘或半导体存储器等的记录介质中的程序而实现。
检索关键字指定部52从被存储于文本数据存储部21的文本数据所包含的n个单词中指定一个单词作为检索关键字。一个单词的指定通过由欲进行相似单词检索的用户操作相似检索装置50所具备的操作部而进行。具体而言,用户获取文本数据存储部21中存储的文本所包含的单词的一览表并显示于显示器,并从该一览表中选择所需的单词,由此进行作为检索关键字的单词的指定。另外,为了如此显示单词一览表,也可以与m个文本数据分开另外地将n个单词数据存储在文本数据存储部21中。
另外,检索关键字指定部52并非必须是相似检索装置50本身具备的构成。例如也可以形成为:将相似检索装置50构成为与因特网等通信网络连接的服务器装置,并在经由该通信网络而被连接的另外的终端上设置检索关键字指定部52,将表示指定内容的信息从该终端发送至相似检索装置50。
相似单词检索部53在由检索关键字指定部52指定了n个单词中的一个单词作为检索关键字的情况下,将该一个单词以外的n-1个其他单词作为检索对象,并从n-1个其他单词中检索并提取与一个单词相似的单词。具体而言,相似单词检索部53将一个单词涉及的m个相似度指标值作为检索关键字关联单词指标值组,将n-1个其他单词涉及的各m个相似度指标值作为检索对象关联单词指标值组,从而判断检索关键字关联单词指标值组与检索对象关联单词指标值组的相似度。然后,从n-1个其他单词中且是相似度高的单词中提取规定数量的单词作为检索结果。
如图5那样构成的相似检索装置50对于从已经算出相似度指标值的m个文本所包含的n个单词中指定任意一个、并从剩余的n-1个单词中检索与指定的单词相似的其他单词这一情况是有用的。此处所说的相似的单词,既存在是检索关键字的单词的同义词或近义词的情况,也存在非同义词或近义词的情况。根据本实施方式,能够将与该单词在哪一文本中使用这一趋势相似的单词作为相似单词加以检索。
此外,上述实施方式均仅为实施本发明时示出的具体化的一例,不能据此限定性地解释本发明的技术范围。即,本发明在不脱离其主旨或其主要特征的情况下,可以通过各种方式实施。

Claims (8)

1.一种相似度指标值计算装置,其特征在于,具备:
单词提取部,该单词提取部对m(m为大于等于2的任意整数)个文本进行分析并从该m个文本中提取n(n为大于等于2的任意整数)个单词;
文本向量计算部,该文本向量计算部通过使所述m个文本分别按照规定的规则在q(q为大于等于2的任意整数)个维度上向量化,从而计算由q个轴分量构成的m个文本向量;
单词向量计算部,该单词向量计算部通过使所述n个单词分别按照规定的规则在q个维度上向量化,从而计算由q个轴分量构成的n个单词向量;以及
指标值计算部,该指标值计算部通过分别获取所述m个文本向量和所述n个单词向量的内积,从而计算反映所述m个文本和所述n个单词之间的关联度的相似度指标值;
所述文本向量计算部和所述单词向量计算部将针对所述m个文本和所述n个单词的所有组合算出准确率并进行合计后的值作为目标变量,并计算使该目标变量最大化的文本向量和单词向量,其中,所述准确率是根据所述n个单词中的一个单词预测所述m个文本中的一个文本的准确率,或者根据所述m个文本中的一个文本预测所述n个单词中的一个单词的准确率。
2.如权利要求1所述的相似度指标值计算装置,其特征在于,
所述指标值计算部通过获取文本矩阵和单词矩阵的积而计算以m×n个所述相似度指标值作为各要素的评价值矩阵,其中,所述文本矩阵以所述m个文本向量的各q个轴分量作为各要素,所述单词矩阵以所述n个单词向量的各q个轴分量作为各要素。
3.一种相似检索装置,其特征在于,具备:
权利要求1或2所述的相似度指标值计算装置;以及
相似文本检索部,该相似文本检索部在指定了所述m个文本中的一个文本作为检索关键字的情况下,将该一个文本以外的m-1个其他文本作为检索对象,判断由所述一个文本所涉及的n个相似度指标值构成的检索关键字关联文本指标值组与由所述m-1个其他文本所涉及的各n个相似度指标值构成的检索对象关联文本指标值组的相似度,并从所述m-1个其他文本中且是所述相似度高的文本中提取规定数量的文本作为检索结果。
4.如权利要求3所述的相似检索装置,其特征在于,
所述相似检索装置进而还具备文本数据存储部,该文本数据存储部将所述m个文本相关的文本数据与通过所述相似度指标值计算装置算出的所述相似度指标值一起进行了存储;
所述相似文本检索部在从所述文本数据存储部所存储的所述m个文本中指定了所述一个文本作为所述检索关键字的情况下,将该一个文本以外的m-1个其他文本作为检索对象,判断由所述一个文本所涉及的n个相似度指标值构成的检索关键字关联文本指标值组与所述m-1个其他文本所涉及的各n个相似度指标值构成的检索对象关联文本指标值组的相似度,并从所述m-1个其他文本中且是所述相似度高的文本中提取规定数量的文本作为检索结果。
5.如权利要求3所述的相似检索装置,其特征在于,
所述相似检索装置进而还具备:
文本数据存储部,该文本数据存储部将多个文本数据与通过所述相似度指标值计算装置算出的所述相似度指标值一起进行了存储,以及
检索关键字获取部,该检索关键字获取部获取作为所述检索关键字而被指定的文本数据;
所述相似度指标值计算装置将通过所述检索关键字获取部而获取的文本数据作为所述一个文本,将所述文本数据存储部中存储的文本数据作为所述m-1个其他文本,从而计算所述相似度指标值;
所述相似文本检索部判断检索关键字关联文本指标值组与检索对象关联文本指标值组的相似度,并从所述文本数据存储部所存储的所述m-1个其他文本中且是所述相似度高的文本中提取规定数量的文本作为检索结果,其中,所述检索关键字关联文本指标值组由通过所述检索关键字获取部而获取的所述一个文本所涉及的n个相似度指标值构成,所述检索对象关联文本指标值组由所述文本数据存储部中存储的所述m-1个其他文本所涉及的各n个相似度指标值构成。
6.一种相似检索装置,其特征在于,具备:
数据获取部,该数据获取部从将所述m个文本相关的文本数据与通过权利要求1或2所述的相似度指标值计算装置算出的所述相似度指标值一起进行了存储的文本数据存储部中,获取所述文本数据和所述相似度指标值;以及
相似文本检索部,该相似文本检索部使用通过所述数据获取部而获取的数据,在指定了所述m个文本中一个文本作为检索关键字的情况下,将该一个文本以外的m-1个其他文本作为检索对象,判断由所述一个文本所涉及的n个相似度指标值构成的检索关键字关联文本指标值组与由所述m-1个其他文本所涉及的各n个相似度指标值构成的检索对象关联文本指标值组的相似度,并从所述m-1个其他文本中且是所述相似度高的文本中提取规定数量的文本作为检索结果。
7.如权利要求3~6中任一项所述的相似检索装置,其特征在于,
取代所述相似文本检索部而具备相似单词检索部,或者在所述相似文本检索部的基础上还具备相似单词检索部,其中,所述相似单词检索部在指定了所述n个单词中的一个单词作为检索关键字的情况下,将该一个单词以外的n-1个其他单词作为检索对象,判断由所述一个单词所涉及的m个相似度指标值构成的检索关键字关联单词指标值组与由所述n-1个其他单词所涉及的各m个相似度指标值构成的检索对象关联单词指标值组的相似度,并从所述n-1个其他单词中且是所述相似度高的单词中提取规定数量的单词作为检索结果。
8.一种相似度指标值计算用程序,其特征在于,
使计算机作为单词提取部单元、向量计算单元以及指标值计算单元发挥作用,其中,
所述单词提取部单元对m(m为大于等于2的任意整数)个文本进行分析并从该m个文本中提取n(n为大于等于2的任意整数)个单词;
向量计算单元通过使所述m个文本分别按照规定的规则在q(q为大于等于2的任意整数)个维度上向量化,并且使所述n个单词分别按照规定的规则在q个维度上向量化,从而计算由q个轴分量构成的m个文本向量和由q个轴分量构成的n个单词向量;
指标值计算单元通过分别获取所述m个文本向量和所述n个单词向量的内积,从而计算反映所述m个文本和所述n个单词之间的关联度的相似度指标值;
所述文本向量计算单元将针对所述m个文本和所述n个单词的所有组合算出准确率并进行合计后的值作为目标变量,并计算使该目标变量最大化的文本向量和单词向量,其中,所述准确率是根据所述n个单词中的一个单词预测所述m个文本中的一个文本的准确率,或者根据所述m个文本中的一个文本预测所述n个单词中的一个单词的准确率。
CN201880071838.6A 2017-11-07 2018-10-29 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序 Pending CN111373386A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017-214388 2017-11-07
JP2017214388A JP6346367B1 (ja) 2017-11-07 2017-11-07 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム
PCT/JP2018/040056 WO2019093172A1 (ja) 2017-11-07 2018-10-29 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム

Publications (1)

Publication Number Publication Date
CN111373386A true CN111373386A (zh) 2020-07-03

Family

ID=62635717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880071838.6A Pending CN111373386A (zh) 2017-11-07 2018-10-29 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序

Country Status (5)

Country Link
US (1) US11544309B2 (zh)
EP (1) EP3709183A4 (zh)
JP (1) JP6346367B1 (zh)
CN (1) CN111373386A (zh)
WO (1) WO2019093172A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102535852B1 (ko) * 2020-06-04 2023-05-24 동국대학교 산학협력단 Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치
JP7116969B2 (ja) * 2020-06-29 2022-08-12 株式会社Fronteo 2次元マップ生成装置、2次元マップ生成方法および2次元マップ生成用プログラム
CN115587230B (zh) * 2022-09-23 2024-04-12 国网江苏省电力有限公司营销服务中心 结合行业文本和用电负荷的高耗能企业识别方法及系统
KR102628281B1 (ko) * 2023-11-09 2024-01-23 한화시스템(주) 전자지도 전시 성능 향상을 위한 벡터 기반 공간정보 압축 시스템 및 그 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1447261A (zh) * 2002-03-27 2003-10-08 精工爱普生株式会社 特定要素、字符串向量生成及相似性计算的装置、方法
JP2005122515A (ja) * 2003-10-17 2005-05-12 Sony Corp 電子機器装置、テキスト間の類似度計算方法、およびプログラム
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07295994A (ja) 1994-04-22 1995-11-10 Sharp Corp 情報検索装置
JP4013489B2 (ja) 2001-03-02 2007-11-28 富士ゼロックス株式会社 対応カテゴリ検索システムおよび方法
US7133860B2 (en) * 2002-01-23 2006-11-07 Matsushita Electric Industrial Co., Ltd. Device and method for automatically classifying documents using vector analysis
US7668795B2 (en) * 2004-11-02 2010-02-23 Fuji Xerox Co., Ltd. Data analyzer utilizing the spreading activation theory for stemming processing
US8312021B2 (en) * 2005-09-16 2012-11-13 Palo Alto Research Center Incorporated Generalized latent semantic analysis
CN101226596B (zh) * 2007-01-15 2012-02-01 夏普株式会社 文档图像处理装置以及文档图像处理方法
CN101354703B (zh) * 2007-07-23 2010-11-17 夏普株式会社 文档图像处理装置和文档图像处理方法
US20170161275A1 (en) * 2015-12-08 2017-06-08 Luminoso Technologies, Inc. System and method for incorporating new terms in a term-vector space from a semantic lexicon
CN107436875B (zh) * 2016-05-25 2020-12-04 华为技术有限公司 文本分类方法及装置
US11151203B2 (en) * 2017-02-28 2021-10-19 Apple Inc. Interest embedding vectors

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1447261A (zh) * 2002-03-27 2003-10-08 精工爱普生株式会社 特定要素、字符串向量生成及相似性计算的装置、方法
JP2005122515A (ja) * 2003-10-17 2005-05-12 Sony Corp 電子機器装置、テキスト間の類似度計算方法、およびプログラム
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QUOC LE ET AL: "Distributed Representations of Sentences and Documents" *
TOM KENTER ET AL: "Short Text Similarity with Word Embeddings" *
韩普 等: "基于复杂网络的汉语相似词挖掘和相似度计算研究" *

Also Published As

Publication number Publication date
JP2019086995A (ja) 2019-06-06
EP3709183A1 (en) 2020-09-16
US11544309B2 (en) 2023-01-03
WO2019093172A1 (ja) 2019-05-16
EP3709183A4 (en) 2021-09-01
US20200285661A1 (en) 2020-09-10
JP6346367B1 (ja) 2018-06-20

Similar Documents

Publication Publication Date Title
US11714602B2 (en) Methods and systems for identifying a level of similarity between a plurality of data representations
KR102371167B1 (ko) 데이터 아이템을 성긴 분포 표현으로 매핑하는 방법 및 시스템
US8635061B2 (en) Language identification in multilingual text
JP5379138B2 (ja) 領域辞書の作成
CN111373386A (zh) 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
KR20130056207A (ko) 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램
US11983208B2 (en) Selection-based searching using concatenated word and context
US20170242851A1 (en) Non-transitory computer readable medium, information search apparatus, and information search method
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP4945015B2 (ja) 文書検索システム、文書検索プログラム、および文書検索方法
US20140358522A1 (en) Information search apparatus and information search method
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
JP2017134675A (ja) 情報検索装置及びプログラム
Little Recognition of Latin scientific names using artificial neural networks
WO2015159702A1 (ja) 部分情報抽出システム
JP2012104051A (ja) 文書インデックス作成装置
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP2010009237A (ja) 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP6976537B1 (ja) 情報検索装置、情報検索方法および情報検索用プログラム
JP2019211884A (ja) 情報検索システム
JP7216241B1 (ja) チャンキング実行システム、チャンキング実行方法、及びプログラム
JP2011248827A (ja) 言語横断型情報検索方法、言語横断型情報検索システム及び言語横断型情報検索プログラム
JP7386466B1 (ja) データ解析装置およびデータ解析プログラム
JP2012243130A (ja) 情報検索装置、方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200703