CN111767706B - 文本相似度的计算方法、装置、电子设备及介质 - Google Patents
文本相似度的计算方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN111767706B CN111767706B CN202010568868.7A CN202010568868A CN111767706B CN 111767706 B CN111767706 B CN 111767706B CN 202010568868 A CN202010568868 A CN 202010568868A CN 111767706 B CN111767706 B CN 111767706B
- Authority
- CN
- China
- Prior art keywords
- sequence
- similarity
- entity
- target
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 14
- 239000011810 insulating material Substances 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 235000002595 Solanum tuberosum Nutrition 0.000 description 3
- 244000061456 Solanum tuberosum Species 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000002864 sequence alignment Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种文本相似度的计算方法、装置、电子设备及介质。该方法包括:对于每两个目标文本,计算一个目标文本所包含的各个第一序列与另一个目标文本所包含的各个第二序列之间的相似度,得到两个目标文本之间的序列相似度,第一序列和第二序列为分别从对应目标文本中提取的实体关系序列;对于每两个目标文本,利用该两个目标文本之间的序列相似度,计算该两个目标文本的相似度。本申请实施例实现了通过计算一个文本所包含的各个实体关系序列与另一个文本所包含的各个实体关系序列之间的相似度,从而计算两个文本之间的相似度,可以大大提升结算结果的准确性。
Description
技术领域
本申请涉及文本处理技术领域,具体而言,本申请涉及一种文本相似度的计算方法、装置、电子设备及介质。
背景技术
文本相似性衡量作为文本分析的基本组成部分之一,不仅可以有效的获取技术情报,而且还可以检测侵权风险。
目前主要存在两种计算两个文本之间的相似性的方式。第一种是基于耦合网络和共现网络的引文信息分析实现计算两个文本之间的相似性,由于文本的引用存在滞后性,新文本的引用通常较少,且一些文本或者文本数据库并不提供引用信息,因此,采用该方式计算两个文本之间的相似性时,计算结果的准确度较低;第二种是通过从一个文本中提取关键词,通过分析所提取的关键词在另一个文本中的出现频率、以及所提取的关键词的共现词,判断两个文本之间的相似性,由于从文本中提取的关键词依赖于作者的用词风格,且每个作者的用词风格可能不同,导致同一个作者的文本通常会被聚类在一起,即同一作者的文本相似性较高,因此,采用该方式计算两个文本之间的相似性时,计算结果的准确度较低。
综上,现有技术中计算文本之间的相似性时,其计算结果的准确度较低,导致用户无法有效的对文本进行分析。
发明内容
本申请提供了一种文本相似度的计算方法、装置、电子设备及介质,可以解决计算文本之间的相似度时其计算结果的准确度较低的技术问题。
第一方面,提供了一种文本相似度的计算方法,该方法包括:
对于每两个目标文本,计算一个目标文本所包含的各个第一序列与另一个目标文本所包含的各个第二序列之间的相似度,得到两个目标文本之间的序列相似度,第一序列和第二序列为分别从对应目标文本中提取的实体关系序列;
对于每两个目标文本,利用该两个目标文本之间的序列相似度,计算该两个目标文本的相似度。
第二方面,提供了一种文本相似度的计算装置,该装置包括:
第一计算模块,用于对于每两个目标文本,计算一个目标文本所包含的各个第一序列与另一个目标文本所包含的各个第二序列之间的相似度,得到两个目标文本之间的序列相似度,第一序列和第二序列为分别从对应目标文本中提取的实体关系序列;
第二计算模块,用于对于每两个目标文本,利用该两个目标文本之间的序列相似度,计算该两个目标文本的相似度。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行根据第一方面所示的文本相似度的计算方法对应的操作。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所示的文本相似度的计算方法。
本申请提供的技术方案带来的有益效果是:
本申请提供了一种文本相似度的计算方法、装置、电子设备及介质,与现有技术相比,本申请对于每两个目标文本,首先,计算一个目标文本所包含的各个第一序列与另一个目标文本所包含的各个第二序列之间的相似度,得到两个目标文本之间的序列相似度,然后,利用该两个目标文本之间的序列相似度,计算该两个目标文本的相似度,其中,第一序列和第二序列为分别从对应目标文本中提取的实体关系序列。由于文本中所包含的实体关系序列可以揭示文本中实体之间的关系,作者用词风格对实体关系序列所造成的影响较小,且无需依赖文本之间的引用,因此,通过计算一个文本所包含的各个实体关系序列与另一个文本所包含的各个实体关系序列之间的相似度,从而计算两个文本之间的相似度,可以大大提升计算结果的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种文本相似度的计算方法的流程示意图;
图2为本申请实施例提供的一种对实体关系序列进行相似度计算的示意图;
图3为本申请实施例提供的一种双序列比对算法的示意图;
图4为本申请实施例提供的一种图谱的结构示意图;
图5为本申请实施例提供的一种由节点所构成的网络的示意图;
图6为本申请实施例提供的一种每次迭代后权重信息的变化示意图;
图7为本申请实施例提供的一种计算两个目标文本的相似度的示意图;
图8为本申请实施例提供的一种专利相似度的计算流程示意图;
图9为本申请实施例提供的一种效果对比的示意图;
图10为本申请实施例提供的一种文本相似度的计算装置的结构示意图;
图11为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种文本相似度的计算方法,可以由任一电子设备执行,例如,该电子设备可以为终端、服务器中的任一项。如图1所示,该方法包括步骤S101以及步骤S102。
步骤S101,对于每两个目标文本,计算一个目标文本所包含的各个第一序列与另一个目标文本所包含的各个第二序列之间的相似度,得到两个目标文本之间的序列相似度。
其中,第一序列和第二序列为分别从对应目标文本中提取的实体关系序列。
需要说明的是,目标文本为句子、段落或者文章中的至少一项,实体关系序列为由两个实体(在本申请实施例以及下述实施例中以第一个实体、第二个实体来区分该两个实体)和一个关系构成的序列。其中,实体为客观存在并可相互区别的事物,实体可以为生物、物体、抽象概念等,例如,实体可以为姓名、苹果、电风扇等,关系为两个实体之间的关系信息,例如,关系可以为包含关系、亲属关系、别名关系等。
本申请实施例中,针对每一个目标文本,可以从该目标文本中提取至少一个实体关系序列,可以利用深度学习模型从目标文本中提取至少一个实体关系序列。
在实际实现步骤S101时,当目标文本为文章时,可以先从文章中抽取摘要信息,再利用深度学习模型从摘要信息中提取至少一个实体关系序列;当目标文本为文章或者段落时,也可以先从文章或者段落中抽取至少一个句子,再利用深度学习模型从各个句子中分别提取实体关系序列。
需要说明的是,本申请实施例以及下述实施例涉及的各种相似度,其值为0-1之间,值越趋近1,表明二者越相似,值越趋近0,表明二者越不相似,如目标文本的相似度,值越趋近1,表明两个目标文本越相似,值越趋近0,表明两个目标文本越不相似。
步骤S102,对于每两个目标文本,利用该两个目标文本之间的序列相似度,计算该两个目标文本的相似度。
本申请实施例中,对于每两个目标文本,可以利用一个目标文本所包含的各个第一序列与另一个目标文本所包含的各个第二序列之间的相似度,计算该两个目标文本的相似度。
本申请实施例提供了一种文本相似度的计算方法,与现有技术相比,本申请实施例对于每两个目标文本,首先,计算一个目标文本所包含的各个第一序列与另一个目标文本所包含的各个第二序列之间的相似度,得到两个目标文本之间的序列相似度,然后,利用该两个目标文本之间的序列相似度,计算该两个目标文本的相似度,其中,第一序列和第二序列为分别从对应目标文本中提取的实体关系序列。由于文本中所包含的实体关系序列可以揭示文本中实体之间的关系,作者用词风格对实体关系序列所造成的影响较小,且无需依赖文本之间的引用,因此,通过计算一个文本所包含的各个实体关系序列与另一个文本所包含的各个实体关系序列之间的相似度,从而计算两个文本之间的相似度,可以大大提升计算结果的准确性。
本申请实施例的另一种可能实现方式,步骤S101,即计算一个目标文本所包含的各个第一序列与另一个目标文本所包含的各个第二序列之间的相似度,可以包括步骤S1011、步骤S1012以及步骤S1013。
步骤S1011,将一个目标文本所包含的每一第一序列,分别与另一个目标文本所包含的每一第二序列进行组合,形成各个序列对。
本申请实施例中,目标文本包括至少一个实体关系序列,即一个目标文本包括至少一个第一序列,另一个目标文本包括至少一个第二序列,将每一个第一序列与每一个第二序列进行组合,形成各个序列对。
例如,一个目标文本包括第一序列1-1、1-2以及1-3,另一个目标文本包括第二系列2-1以及2-2,则形成的序列对包括(1-1,2-1)、(1-1,2-2)、(1-2,2-1)、(1-2,2-2)、(1-3,2-1)、(1-3,2-2)。
步骤S1012,对于每一序列对中的第一序列和第二序列,计算该第一序列所包含的第一实体与该第二序列所包含的第二实体之间的实体相似度,以及计算该第一序列所包含的第一关系与该第二序列所包含的第二关系之间的关系相似度。
例如,针对序列对(1-1,2-1),可以计算第一序列1-1所包含的第一实体与第二序列2-1所包含的第二实体之间的实体相似度,以及计算第一序列1-1所包含的第一关系与第二序列2-1所包含的第二关系之间的关系相似度。
需要说明的是,在本申请实施例中不限定计算实体相似度以及关系相似度的方式。作为一种可选的实现方式,可以计算第一实体与第二实体之间的语义距离,以得到实体相似度,或者,通过对比第一实体与第二实体之间匹配的字符数,通过匹配的字符数与二者的总字符数来计算得到实体相似度,同样的,可以采用该可选的实现方式计算关系相似度,在此不再赘述。
步骤S1013,对于每一序列对,利用该序列对对应的实体相似度以及关系相似度,计算该序列对中的第一序列与第二序列之间的相似度。
需要说明的是,对于每一序列对,可以采用加权平均的方式计算第一序列与第二序列之间的相似度,即,利用该序列对对应的实体相似度及其权重、关系相似度及其权重,计算得到该序列对中的第一序列与第二序列之间的相似度。
例如,接上例,针对序列对(1-1,2-1),可以利用第一序列1-1所包含的第一实体与第二序列2-1所包含的第二实体之间的实体相似度、及其权重1,以及第一序列1-1所包含的第一关系与第二序列2-1所包含的第二关系之间的关系相似度、及其权重1,计算序列对(1-1,2-1)中第一序列1-1以及第二序列2-1之间的相似度。
本申请实施例的另一种可能实现方式,针对步骤S1012中的计算该第一序列所包含的第一实体与该第二序列所包含的第二实体之间的实体相似度,其具有两种实现方式,分别记为实现方式A1以及实现方式A2。
针对实现方式A1,步骤S1012中,计算该第一序列所包含的第一实体与该第二序列所包含的第二实体之间的实体相似度,可以包括步骤S10121。
步骤S10121,计算第一实体相似度、第二实体相似度、第三实体相似度、第四实体相似度。
其中,第一实体相似度是该第一序列包含的第一个实体与该第二序列包含的第一个实体之间的相似度,第二实体相似度是该第一序列包含的第二个实体与该第二序列包含的第二个实体之间的相似度,第三实体相似度是该第一序列包含的第一个实体与该第二序列包含的第二个实体之间的相似度,第四实体相似度是该第一序列包含的第二个实体与该第二序列包含的第一个实体之间的相似度。
前述实施例已说明,实体关系序列为由两个实体和一个关系构成的序列。本申请实施例中,可以采用(Entity1,Relation,Entity2)(本申请实施例以及后续实施例中可以简记为E1RE2)表示实体关系序,其中,Entity1即E1表示第一个实体、Relation即R表示关系,Entity2即E2表示第二个实体。
由于第一序列和第二序列均为实体关系序列,因此,在本申请实施例以及下述实施例或者上述实施例中,第一序列包含第一实体以及第一关系,其中,第一实体包括第一个实体以及第二个实体,第二序列包含第二实体以及第二关系,其中,第二实体也包括第一个实体以及第二个实体。
对于本申请实施例,针对任一序列对中的第一序列和第二序列,计算第一实体相似度、第二实体相似度、第三实体相似度以及第四实体相似度。
如图2所示,针对任一序列对中的第一序列E11R1E12和第二序列E21R2E22,第一序列E11R1E12包括第一实体以及第一关系R1,其中,第一实体包括第一个实体E11以及第二个实体E12;第二序列E21R2E22包括第二实体以及第二关系R2,其中,第二实体包括第一个实体E21以及第二个实体E22。
当计算第一序列E11R1E12和第二序列E21R2E22之间的相似度时,需要计算第一实体相似度即E11与E21之间的相似度、第二实体相似度即E12与E22之间的相似度、第三实体相似度即E11与E22之间的相似度、以及第四实体相似度即E12与E21之间的相似度。
另外,在步骤S1012中,需要计算该第一序列所包含的第一关系与该第二序列所包含的第二关系之间的关系相似度,即计算R1与R2之间的关系相似度。
本申请实施例中,计算E11与E21之间的相似度、E12与E22之间的相似度、E11与E22之间的相似度、E12与E21之间的相似度、R1与R2之间的关系相似度时,可以采用Needleman-Wunsch双序列比对算法进行匹配,在保证单词或者字符顺序不变的情况下,对实体或者关系进行一一匹配。
具体地,如图3所示,以两个实体分别为“car gasoline”与“gasolinecar”为例,上述两个实体可以有两种匹配方式,分别为(a)和(b),其中,“_”表示空位,任一单词与空位进行匹配时,其相似度可以为0,(a)中“_”与“gasoline”进行匹配、“car”与“car”进行匹配、“gasoline”与“_”进行匹配;(b)中“car”与“_”进行匹配、“gasoline”与“gasoline”进行匹配、“_”与“car”进行匹配。
采用双序列比对算法,如图2所示,当E11与E21或者E22进行匹配时,可以将E11中的各个单词与E21或者E22中的各个单词进行匹配,例如,E11包括单词W1、W2、W3等,E21或者E22中包括单词W1、W2等,在进行匹配时,可以将E11中的W1与E21或者E22中的W1进行匹配、E11中的W2与“_”进行匹配、E11中的W3与E21或者E22中的W2进行匹配等。同样地,R1与R2进行匹配时,R1包括单词W1、W2等,R2中包括单词W1等,在进行匹配时,可以将R1中的W1与“_”进行匹配、R1中的W2与R2中的W1进行匹配等;E12包括单词W1、W2、W3等,E21或者E22中包括单词W1、W2、W3等,在进行匹配时,可以将E12中的W1与E21或者E22中的W1进行匹配、E12中的W2与E21或者E22中的W2进行匹配、E12中的W3与E21或者E22中的W3进行匹配等。
需要说明的是,当进行匹配的过程中,存在单词与“_”进行匹配的情况,该单词与“_”的匹配结果(即相似度)为0。例如,当R1与R2进行匹配的过程中,存在单词与“_”进行匹配的情况,则该单词与“_”的匹配结果(即相似度)为0。
相应地,步骤S1013,即利用该序列对对应的实体相似度以及关系相似度,计算该序列对中的第一序列与第二序列之间的相似度,可以包括步骤S10131、步骤S10132以及步骤S10133。
步骤S10131,利用该序列对对应的第一实体相似度、第二实体相似度以及关系相似度,计算该序列对中的第一序列与第二序列之间的第一相似度。
步骤S10132,利用该序列对对应的第三实体相似度、第四实体相似度以及关系相似度,计算该序列对中的第一序列与第二序列之间的第二相似度。
步骤S10133,确定第一相似度与第二相似度中的最大相似度,作为该序列对中的第一序列与第二序列之间的相似度。
本申请实施例中,针对步骤S10131至步骤S10133,可以采用如下公式计算第一相似度以及第二相似度,并从第一相似度和第二相似度中确定最大相似度:
具体地,表示第一序列与第二序列之间的相似度,其中,表示第一序列包含的第一个实体,Ri表示第一序列包含的第一关系,表示第一序列包含的第二个实体,表示第二序列包含的第一个实体,Rj表示第二序列包含的第二关系,表示第二序列包含的第二个实体;表示第一序列包含的第一个实体与第二序列包含的第一个实体之间的第一实体相似度;sim(Ri,Rj)表示第一序列包含的第一关系与第二序列包含的第二关系之间的关系相似度;表示第一序列包含的第二个实体与第二序列包含的第二个实体之间的第二实体相似度;表示第一序列包含的第一个实体与第二序列包含的第二个实体之间的第三实体相似度;表示第一序列包含的第二个实体与第二序列包含的第一个实体之间的第四实体相似度。
需要说明的是,为利用序列对 对应的第一实体相似度、第二实体相似度以及关系相似度,计算得到的第一相似度,相应地为利用序列对对应的第三实体相似度、第四实体相似度以及关系相似度,计算得到的第二相似度,将第一相似度和第二相似度中的最大值,作为即作为第一序列与第二序列之间的相似度。
针对实现方式A2,步骤S1012,即计算该第一序列所包含的第一实体与该第二序列所包含的第二实体之间的实体相似度,可以包括步骤S10122、步骤S10123以及步骤S10124。
步骤SS10122,基于该第一序列所包含的第一关系,确定该第一序列包括的第一个实体与第二个实体之间的第一语义方向。
本申请实施例中,可以根据第一序列所包含的第一关系确定第一序列的第一语义方向。
例如:针对第一序列“insulating material-part of-planar layers”,“insulating material”表示第一序列的第一个实体,“part of”表示第一序列的第一关系,“planar layers”表示第一序列的第二个实体。第一关系“part of”表明“insulatingmaterial”中的一部分为“planar layers”,因此,可以根据第一关系确定第一语义方向为“insulating material”←“planar layers”,其中,←表示语义方向。
具体地,请见下表1,表1中列出了部分关系及各自对应的描述以及语义方向,其中,Undirected表示无语义方向;E1←E2表示语义方向为由E2指向E1,E2表示实体关系序列所包含的的第二个实体,E1表示实体关系序列所包含的的第一个实体;E1→E2表示语义方向为由E1指向E2;Bidirectional表示双语义方向,即语义方向可以为E1←E2,也可以为E1→E2。
表1
关系类型 | 描述 | 语义方向 | |
1 | spatial relation | 空间关系 | Undirected |
2 | part of | 包含关系 | E1←E2 |
3 | causative relation | 使动关系 | E1←E2 |
4 | operation | 操作关系 | E1←E2 |
5 | made of | 制成关系 | E1←E2 |
6 | instance of | 实例类别关系 | E1→E2 |
7 | attribution | 属性关系 | E1←E2 |
8 | generate | 产生关系 | E1←E2 |
9 | purpose | 目的关系 | E1←E2 |
10 | in manner of | 方式 | E1←E2 |
11 | alias | 别名 | Bidirectional |
12 | formation | 形成关系 | E1→E2 |
13 | comparison | 比较关系 | Undirected |
14 | measurement | 测度关系 | E1←E2 |
15 | others | 其他关系 | Undirected |
步骤S10123,基于该第二序列所包含的第二关系,确定该第二序列包括的第一个实体与第二个实体之间的第二语义方向。
本申请实施例中,可以根据第二序列所包含的第二关系确定第二序列的第二语义方向。
例如:针对第二序列“seed film-form-stop layer”,“seed film”表示第二序列的第一个实体,“form”表示第二序列的第二关系,“stop layer”表示第二序列的第二个实体。第二关系“form”表明“seed film”来自于“stop layer”,因此,可以根据第二关系确定第二语义方向为“seed film”→“stop layer”,其中,→表示语义方向。
步骤S10124,根据第一语义方向和第二语义方向,计算该第一序列所包含的第一实体与该第二序列所包含的第二实体之间的实体相似度。
具体地,针对步骤S10124,步骤S10124即根据第一语义方向和第二语义方向,计算该第一序列所包含的第一实体与该第二序列所包含的第二实体之间的实体相似度,可以包括步骤S101241以及步骤S101242。
步骤S101241,当第一语义方向与第二语义方向一致时,计算第一实体相似度与第二实体相似度。
其中,第一实体相似度是该第一序列包含的第一个实体与该第二序列包含的第一个实体之间的相似度,第二实体相似度是该第一序列包含的第二个实体与该第二序列包含的第二个实体之间的相似度。
对于本申请实施例,第一语义方向与第二语义方向一致,即第一序列的第一个实体与第二个实体之间的语义方向,与第二序列的第一个实体与第二个实体之间的语义方向一致。
例如,第一语义方向为E11→E12,第二语义方向为E21→E22,表明第一语义方向与第二语义方向一致。
需要说明的是,第一语义方向与第二语义方向一致,表明第一序列的第一个实体与第二序列的第一个实体本质相同,第一序列的第二个实体与第二序列的第二个实体本质相同。可以计算第一序列包含的第一个实体与第二序列包含的第一个实体之间的第一实体相似度,以及第一序列包含的第二个实体与第二序列包含的第二个实体之间的第二实体相似度。
进一步的,在执行步骤S1013时,可以执行利用该序列对对应的第一实体相似度、第二实体相似度以及关系相似度,计算第一序列与第二序列之间的相似度的步骤。
具体地,可以利用该序列对对应的第一实体相似度、第二实体相似度以及关系相似度,按照如下公式计算第一序列与第二序列之间的相似度:
对此公式的相关说明详见上述有关本公式的相关说明,在此不再赘述。
步骤S101242,当第一语义方向与第二语义方向不一致时,计算第三实体相似度与第四实体相似度。
其中,第三实体相似度是该第一序列包含的第一个实体与该第二序列包含的第二个实体之间的相似度,第四实体相似度是该第一序列包含的第二个实体与该第二序列包含的第一个实体之间的相似度。
需要说明的是,第一语义方向与第二语义方向不一致,表明第一序列的第一个实体与第二序列的第二个实体本质相同,第一序列的第二个实体与第二序列的第一个实体本质相同。可以计算第一序列包含的第一个实体与第二序列包含的第二个实体之间的第三实体相似度,以及第一序列包含的第二个实体与第二序列包含的第一个实体之间的第四实体相似度。
例如,第一语义方向为“insulating material”←“planar layers”,第二语义方向为“seed film”→“stop layer”,表明二者语义方向不一致,因此,可以计算“insulatingmaterial”与“stop layer”之间的第三实体相似度,以及计算“planar layers”与“insulating material”之间的第四实体相似度。
进一步的,在执行步骤S1013时,可以执行利用该序列对对应的第三实体相似度、第四实体相似度以及关系相似度,计算第一序列与第二序列之间的相似度的步骤。
具体地,可以利用该序列对对应的第三实体相似度、第四实体相似度以及关系相似度,按照如下公式计算第一序列与第二序列之间的相似度:
对此公式的相关说明详见上述有关本公式的相关说明,在此不再赘述。
需要说明的是,部分实体关系序列是单语义方向的(E1→E2或者E1←E2),部分实体关系序列是无语义方向的,部分实体关系序列是双语义方向的(E1→E2和E1←E2)。在实际应用时,可以按照实现方式A1、或者实现方式A2、或者结合实现方式A1与实现方式A2,计算第一序列与第二序列之间的相似度。
其中,结合实现方式A1与实现方式A2,计算第一序列与第二序列之间的相似度时,若第一序列与第二序列均为单语义方向,则可以按照实现方式A2计算第一序列与第二序列之间的相似度;若第一序列与第二序列中的至少一项不为单语义方向,则可以按照实现方式A1计算第一序列与第二序列之间的相似度。
本申请实施例的另一种可能实现方式,针对实现方式A1和/或实现方式A2,将第一实体相似度、第二实体相似度、第三实体相似度、第四实体相似度中的任一个作为目标实体相似度,则目标实体相似度可以按照下述方式计算得到,即可以按照步骤B1、步骤B2以及步骤B3的方式计算目标实体相似度。
步骤B1,关于目标实体相似度对应的两个实体所组成的实体对,计算该实体对中的一个实体的每一语义分别与另一个实体的每一语义之间的语义相似度。
本申请实施例中,针对一个实体对中的任一个实体,其对应至少一个语义,可以计算实体对中的一个实体的每一语义分别与另一个实体的每一语义之间的语义相似度。
例如,若实体对中存在实体“bank”和“apple”,“bank”对应的语义包括“银行”、“河岸”,“apple”对应的语义包括“苹果”和“手机名牌”,则可以计算“银行”与“苹果”之间的语义相似度、“银行”与“手机名牌”之间的语义相似度、“河岸”与“苹果”之间的语义相似度、以及“河岸”与“手机名牌”之间的语义相似度。
步骤B2,若该实体对仅对应有一个语义相似度,则将该语义相似度确定为目标实体相似度。
本申请实施例中,若该实体对对应有一个语义相似度,表明实体对中的每一个实体均对应一个语义,可以将该语义相似度确定为目标实体相似度。
步骤B3,若该实体对对应至少两个语义相似度,则从至少两个语义相似度中提取最大语义相似度,并将最大语义相似度确定为目标实体相似度。
本申请实施例中,若该实体对对应有至少两个语义相似度,表明实体对中的一个实体对应至少两个语义,或者实体对中的每一个实体对应至少两个语义,可以从至少两个语义相似度中提取最大语义相似度,并将最大语义相似度确定为目标实体相似度。
针对步骤B3,可以按照如下公式将最大语义相似度确定为目标实体相似度:
其中,sim(word1,word2)表示目标实体相似度,word1表示第一序列的一个实体,可以为第一个实体,也可以为第二个实体,word2表示第二序列的一个实体,可以为第一个实体,也可以为第二个实体;syn1表示word1对应的语义集,其包括至少一个语义;syn2表示word2对应的语义集,其包括至少一个语义;sim(ci,cj)表示语义ci与语义cj之间的语义相似度,语义ci为语义集syn1中的第i个语义,语义cj为语义集syn2中的第j个语义,i与j均表示序列号,为正整数。
本申请实施例的另一种可能实现方式,步骤B1,即计算该实体对中的一个实体的每一语义分别与另一个实体的每一语义之间的语义相似度,可以包括步骤B11以及步骤B12。
步骤B11,确定该实体对中的一个实体的每一语义分别与另一个实体的每一语义的目标上位词。
需要说明的是,针对每两个语义,二者存在至少一个共同上位词,例如,语义“土豆”和语义“马铃薯”,二者的共同上位词包括“植物”,语义“土豆”与语义“猫”,二者的共同上位词包括“生物”。
本申请实施例中,可以利用预设图谱确定两个语义的目标上位词,该目标上位词可以为与两个语义中的至少一个语义距离最近的共同上位词。
如图4所示,图4示出了本申请实施例提供的一种图谱的结构示意图。该图谱中包括语义“T0”、“T1”、“T2”、“T3”、“T11”、“T12”、“T21”、“T31”、以及“T32”。针对语义“T31”以及“T32”,其共同上位词包括“T3”和“T0”,可以将“T3”确定为“T31”以及“T32”的目标上位词。
步骤B12,根据每两个语义各自与对应的目标上位词之间的语义距离,确定对应两个语义之间的语义相似度。
作为步骤B12的一种可选实现方式,可以采用词汇语义网(WordNet)方式,根据每两个语义各自与对应的目标上位词之间的语义距离,按照下述公式确定对应两个语义之间的相似度:
其中,sim(ci,cj)表示语义ci与语义cj之间的语义相似度,i与j均表示序列号,为正整数;IC(LCS)表示目标上位词LCS的信息内容;IC(ci)表示语义ci的信息内容;IC(cj)表示语义cj的信息内容。
其中,目标上位词或者语义的信息内容(Information Content,IC)为目标上位词或者语义与根节点之间的语义距离,在图谱中,语义距离可以用连线个数来表示,如图4中,目标上位词“T3”的信息内容为1,语义“T31”以及语义“T32”的信息内容均为2。
需要说明的是,在计算语义相似度时,可以利用步骤B11以及步骤B12的方式计算语义相似度,也可以采用其他方式计算语义相似度,例如,可以采用匹配法计算语义相似度,即确定该实体对中的一个实体的每一语义分别与另一个实体的每一语义的匹配字数;根据每两个语义各自的字数以及对应的匹配字数,确定对应两个语义之间的相似度。
本申请实施例的另一种可能实现方式,步骤S102,即对于每两个目标文本,利用该两个目标文本之间的序列相似度,计算该两个目标文本的相似度,还可以包括步骤S1021以及步骤S1022。
步骤S1021,对于每两个目标文本,确定一个目标文本包含的各个第一序列各自的权重信息,以及确定另一个目标文本包含的各个第二序列各自的权重信息。
其中,每一个第一序列的权重信息表征了该第一序列在所属的目标文本中的重要程度,每一个第二序列的权重信息表征了该第二序列在所属的目标文本中的重要程度。
需要说明的是,每一目标文本包括至少一个实体关系序列,即一个目标文本包括至少一个第一序列,另一个目标文本包括至少一个第二序列。本申请实施例中,可以确定一个目标文本包含的各个第一序列各自的权重信息,以及另一个目标文本包含的各个第二序列各自的权重信息。
例如,一个目标文本包括第一序列1-1、1-2以及1-3,另一个目标文本包括第二序列2-1以及2-2,则可以确定第一序列1-1的权重信息、第一序列1-2的权重信息、以及第一序列1-3的权重信息,确定第二序列2-1的权重信息、以及第二序列2-2的权重信息。
需要说明的是,针对任一个目标文本,其包含的各个实体关系序列各自的权重信息之和可以为1,即实体关系序列各自的权重信息为归一化处理之后的权重信息。
步骤S1022,利用该两个目标文本之间的序列相似度以及对应的权重信息,计算该两个目标文本的相似度。
本申请实施例中,针对每两个目标文本,利用该两个目标文本之间的序列相似度,以及该两个目标文本各自对应的权重信息,计算该两个目标文本的相似度,其中,一个目标文本对应的权重信息为一个目标文本包含的各个第一序列各自的权重信息,另一个目标文本对应的权重信息为另一个目标文本包含的各个第二序列各自的权重信息。
例如,一个目标文本包括第一序列1-1、1-2以及1-3,另一个目标文本包括第二序列2-1以及2-2,则可以利用第一序列1-1的权重信息、第一序列1-2的权重信息、以及第一序列1-3的权重信息、第二序列2-1的权重信息、第二序列2-2的权重信息,以及第一序列1-1与第二序列2-1之间的序列相似度、第一序列1-1与第二序列2-2之间的序列相似度、第一序列1-2与第二序列2-1之间的序列相似度、第一序列1-2与第二序列2-2之间的序列相似度、第一序列1-3与第二序列2-1之间的序列相似度、第一序列1-3与第二序列2-2之间的序列相似度,计算两个目标文本之间的相似度。
本申请实施例的另一种可能实现方式,步骤S1021中,确定一个目标文本包含的各个第一序列各自的权重信息,可以包括步骤S10211。
步骤S10211,对于一个目标文本包含的每一个第一序列,计算该第一序列包含的第一个实体、第二个实体以及第一关系各自的权重信息,并利用该第一序列对应的权重信息,计算该第一序列的权重信息。
本申请实施例中,如图5所示,图5示出了本申请实施例所提供的一种由节点所构成的网络的示意图。其中,图5中的节点包括目标文本节点ABk、句子节点Si、以及实体节点或者关系节点Cj,k为序列号,取值为1至K,K为正整数,i为序列号,取值为1至I,I为正整数,j序列号,取值为1至J,J为正整数。当目标文本节点ABk与句子节点Si相连时,表明句子Si来自于目标文本ABk,同样的,当句子节点Si与实体节点或者关系节点Cj相连时,表明实体或者关系Cj来自于句子Si。
基于图5,按照如下方式计算实体的权重信息以及关系的权重信息:
value(vS)←1,value(vC)←1
fork←1to niters:
fori←1to len(vC):
end for
fori←1to len(vC):
end for
forj←1to len(vS):
end for
forj←1to len(vs):
end for
end for
fori←1to len(vC):
end for
其中,value(vS)←1,value(vC)←1,即为将每个句子节点、实体节点或者关系节点的权重信息初始化为1,其中,vS为句子节点,vC为实体节点或者关系节点;针对fork←1toniters,niters为迭代次数,k为序列号,取值为1至niters;针对fori←1to len(vC),len(vC)表示实体节点以及关系节点的数量和,在图5中数量和为J,i为序列号,取值为1至len(vC);即为将第i个实体节点或者关系节点的权重信息更新为与该节点相连的句子节点的权重信息之和,其中,若与相连,则为1;若与不相连,则为0;即为每个实体节点或者关系节点的权重信息进行标准化;针对forj←1to len(vS),len(vS)表示句子节点的数量,在图5中数量为I,j为序列号,取值为1至len(vS);即为将第j个句子节点的权重信息更新为与该节点相连的实体节点或者关系节点的权重信息之和,其中,若与相连,则为1;若与不相连,则为0;即为对每个句子节点的权重信息进行标准化;针对Dc表示通过vS与相连的目标文本数量,其中,表示目标文本节点,l为序列号,在图5中取值为1至K;即为更新句子节点的权重信息。
按照上述的迭代方式,可以确定一个目标文本包含的每一个第一序列,该第一序列包含的、第一实体的权重信息以及第一关系的权重信息。
需要说明的是,上述方式中的参数niters可以为预设值,例如预设值为5,也可根据实际需要,通过每次迭代后权重信息的稳定程度,确定niters值。
如图6所示,图6示出了本申请实施每次迭代后权重信息的变化示意图。其中,本申请实施例中不关注(a)至(f)分别为哪一个参数的权重信息的变化,而仅是关注(a)至(f)中的权重信息的变化,在(a)至(f)中,横轴表示迭代次数,分别为1-10,纵轴表示权重信息,其值大小并非本申请的关注重点。从图6中可以明显看出,在第三次迭代之后,(a)至(f)每一幅图中权重信息均趋于稳定状态,可以将迭代次数设置为3-10中的任一个数,作为一个示例,可以将迭代次数设置为4。
本申请实施例中,可以将第一序列包含的、第一个实体的权重信息、第二个实体的权重信息以及第一关系的权重信息进行平均值计算,得到第一序列的权重信息。
例如,针对第一序列E11R1E12,可以利用该第一序列包含的、第一个实体E11的权重信息、第一关系R1的权重信息、以及第二个实体E12的权重信息,计算得到第一序列E11R1E12的权重信息。
进一步,可以对一个目标文本包含的每一个第一序列的权重信息进行归一化处理,使一个目标文本包含的每一个第一序列的权重信息之和为1。
本申请实施例的另一种可能实现方式,步骤S1021中,确定另一个目标文本包含的各个第二序列各自的权重信息,可以包括步骤S10212。
步骤S10212,对于另一个目标文本包含的每一个第二序列,计算该第二序列包含的第一个实体、第二个实体以及第二关系各自的权重信息,并利用该第二序列对应的权重信息,计算该第二序列的权重信息。
有关步骤S10212的详细说明可以见有关步骤10211的相关说明,二者实现原理类似,在此不再赘述。
本申请实施例的另一种可能实现方式,步骤S1022,即利用该两个目标文本之间的序列相似度以及对应的权重信息,计算该两个目标文本的相似度,可以包括步骤S10221与步骤S10222。
步骤S10221,利用该两个目标文本之间的序列相似度以及对应的权重信息,计算得到该两个目标文本之间的最小运输距离,所述最小运输距离表征了两个目标文本之间的相似程度。
本申请实施例中,对于每两个目标文本,利用该两个目标文本之间的序列相似度计算得到该两个目标文本之间的距离矩阵,具体地,针对该两个目标文本之间的任一个序列相似度,利用1减去该序列相似度,得到该序列相似度对应的距离值,利用该两个目标文本之间的每一个序列相似度对应的距离值,可以得到该两个目标文本之间的距离矩阵。
如图7所示,将两个目标文本之间的距离矩阵(即P1与P2之间的距离矩阵)、一个目标文本中包含的每一个第一序列的权重信息(即P1_Weight)、以及另一个目标文本中包含的每一个第二序列的权重信息(即P2_Weight),输入至最优运输问题求解器中,该最优运输问题求解器可以输出两个目标文本之间的最小运输距离。
需要说明的是,在图7中,各个数值仅为示例性的,可以不关注各个数值的具体大小,图7中所给出示意性的数值。具体地:
P1与P2之间的距离矩阵可以如下所示:
SimVal | ERE<sub>1</sub> | ERE<sub>2</sub> | ERE<sub>3</sub> |
ERE<sub>1</sub> | 0.47 | 0.57 | 0.19 |
ERE<sub>2</sub> | 0.14 | 0.51 | 0.4 |
ERE<sub>3</sub> | 0.17 | 0.79 | 0.29 |
ERE<sub>4</sub> | 0.89 | 0.78 | 0.81 |
P1_Weight可以如下所示:
ERE<sub>1</sub> | ERE<sub>2</sub> | ERE<sub>3</sub> | ERE<sub>4</sub> | |
P1_Weight | 0.25 | 0.49 | 0.22 | 0.1 |
P2_Weight可以如下所示:
ERE<sub>1</sub> | ERE<sub>2</sub> | ERE<sub>3</sub> | |
P2_Weight | 0.4 | 0.3 | 0.3 |
求解器可以输出两个目标文本之间的最小运输距离为:DIS(P1,P2)=0.3031
步骤S10222,利用所述最小运输距离确定该两个目标文本的相似度。
对于本申请实施例,可以利用1减去最小运输距离,得到该两个目标文本的相似度。
如图7所示,利用1减去DIS(P1,P2)=0.3031得到该两个目标文本P1与P2之间的相似度,即Sim(P1,P2)=0.6969。
上述从方法步骤的角度详细介绍了本申请的文本相似度的计算方法,下面将结合一个具体场景(以目标文本为专利)进一步阐述本申请的文本相似度计算方法。
如图8所示,图8示出了本申请实施例提供的一种专利相似度的计算流程示意图。具体地,专利库中包括至少两篇专利,针对每一个专利,可以进行摘要提取,得到每一个专利对应的摘要,从每一个专利的摘要中提取该摘要中包含的实体关系序列,例如,专利P1包括实体关系序列ERE1、ERE2、ERE3、…,计算每两个专利之间的序列相似度,如可以得到专利P1与专利P1、P2…Pn、专利P2分别与专利P1、P2…Pn、…、专利Pn分别与专利P1、P2…Pn之间的序列相似度,其中,每两个专利之间的序列相似度为一个专利所包含的各个第一序列与另一个专利所包含的各个第二序列之间的相似度,例如,专利P1包含第一序列ERE1、ERE2、ERE3以及ERE4,专利P2包含第二序列ERE1、ERE2以及ERE3,则该两个专利之间的序列相似度为各个第一序列与各个第二序列之间的序列相似度。
进一步地,计算每一个专利包含的各个实体关系序列各自的权重信息,例如,专利P1的权重信息(P1_Weight)、专利P2的权重信息(P2_Weight),利用每两个专利之间的序列相似度、每一个专利包含的各个实体关系序列各自的权重信息,计算每两篇专利之间的相似度,例如,专利P1与专利P1、P2…Pn、专利P2分别与专利P1、P2…Pn、…、专利Pn分别与专利P1、P2…Pn之间的相似度。
需要说明的是,图8中各个数值大小仅为示意性的,非本申请实施例的关注重点。
如图9所示,图9为本申请实施例提供的一种效果对比的示意图,其中,本申请实施例是在专利对(记为专利1及其同族专利)的基础上实现的,具体地:
针对包含84个专利对的专利集合,对于每一个专利对,利用该专利对中的专利1与专利集合中的每一个专利进行相似度计算。在进行相似度计算时,可以有三种计算方式,分别记为non-weight、weight以及不同权重主谓宾三元组(Different Weight Subject-Action-Object,DWSAO)(即图9的横轴中的三大部分),non-weight的计算方式为根据步骤S101以及步骤S102的方式进行计算,weight的计算方式为根据步骤S101、步骤S1021以及步骤S1022的方式进行计算,DWSAO的计算方式为根据现有的相似度计算方式进行计算。
进一步的,对于每一个专利1,从计算得到的相似度中按照从大到小的顺序分别取前1个作为一个相似度集合(记为集合1)、前两个作为一个相似度集合(记为集合2)、前三个作为一个相似度集合(记为集合3)、前四个作为一个相似度集合(记为集合4)、前五个作为一个相似度集合(记为集合5),对于每一个专利1所对应的每一个相似度集合,确定该相似度集合是否存在该专利1与其同族专利之间的相似度值,由于专利1及其同族专利之间的相似度值通常为最大相似度值,因此,若存在,则满足条件,若不存在,则不满足条件。
本申请实施例中,针对由每一个专利1所对应的同一个相似度集合组成的目标集合,即目标集合为由84个专利1所对应的同一个相似度集合组成,具体地,目标集合@1为由84个专利1各自对应的集合1组成,目标集合@2为由84个专利1各自对应的集合2组成,目标集合@3为由84个专利1各自对应的集合3组成,目标集合@4为由84个专利1各自对应的集合4组成,目标集合@5为由84个专利1各自对应的集合5组成。
针对每一个目标集合,利用其满足条件的专利1数量与总专利1数量(即84)的比值,作为图9的纵轴,图9的横轴包括三大部分,分别为non-weight、weight以及DWSAO,每一个部分包括目标集合@1至@5。
由图9可以得出,采用non-weight的计算方式,目标集合@1至@5对应的比值依次为:69%、93%、96%、96%、100%,采用weight的计算方式,目标集合@1至@5对应的比值依次为:64%、83%、90%、94%、99%,而采用DWSAO的计算方式,目标集合@1至@5对应的比值依次为:0%、2%、2%、4%、4%。
由此可知,按照本申请所提供的文本相似度的计算方法,在计算专利1与其同族专利之间的相似度时,二者的相似度值较大,满足专利1与其同族专利在通常情况下为相似文本的场景,即采用本申请所提供的文本相似度的计算方法,可以大大提高计算文本相似度的准确性。
上述从方法步骤的角度具体阐述了文本相似度的计算方法,下面从虚拟模块的角度介绍文本相似度的计算装置,具体如下所示:
本申请实施例提供了一种文本相似度的计算装置,如图10所示,该文本相似度的计算装置100可以包括:第一计算模块1001以及第二计算模块1002,其中,
第一计算模块1001,用于对于每两个目标文本,计算一个目标文本所包含的各个第一序列与另一个目标文本所包含的各个第二序列之间的相似度,得到两个目标文本之间的序列相似度。
其中,第一序列和所述第二序列为分别从对应目标文本中提取的实体关系序列。
第二计算模块1002,用于对于每两个目标文本,利用该两个目标文本之间的序列相似度,计算该两个目标文本的相似度。
本申请实施例的另一种可能实现方式,第一计算模块1001在计算一个目标文本所包含的各个第一序列与另一个目标文本所包含的各个第二序列之间的相似度时,具体用于:
将一个目标文本所包含的每一第一序列,分别与另一个目标文本所包含的每一第二序列进行组合,形成各个序列对;
对于每一序列对中的第一序列和第二序列,计算该第一序列所包含的第一实体与该第二序列所包含的第二实体之间的实体相似度,以及计算该第一序列所包含的第一关系与该第二序列所包含的第二关系之间的关系相似度;
对于每一序列对,利用该序列对对应的实体相似度以及关系相似度,计算该序列对中的第一序列与第二序列之间的相似度。
本申请实施例的另一种可能实现方式,第一计算模块1001在计算该第一序列所包含的第一实体与该第二序列所包含的第二实体之间的实体相似度时,具体用于:
计算第一实体相似度、第二实体相似度、第三实体相似度、第四实体相似度;
其中,第一实体相似度是该第一序列包含的第一个实体与该第二序列包含的第一个实体之间的相似度,第二实体相似度是该第一序列包含的第二个实体与该第二序列包含的第二个实体之间的相似度,第三实体相似度是该第一序列包含的第一个实体与该第二序列包含的第二个实体之间的相似度,第四实体相似度是该第一序列包含的第二个实体与该第二序列包含的第一个实体之间的相似度。
本申请实施例的另一种可能实现方式,第一计算模块1001在利用该序列对对应的实体相似度以及关系相似度,计算该序列对中的第一序列与第二序列之间的相似度时,具体用于:
利用该序列对对应的第一实体相似度、第二实体相似度以及关系相似度,计算该序列对中的第一序列与第二序列之间的第一相似度;
利用该序列对对应的第三实体相似度、第四实体相似度以及关系相似度,计算该序列对中的第一序列与第二序列之间的第二相似度;
确定第一相似度与第二相似度中的最大相似度,作为该序列对中的第一序列与第二序列之间的相似度。
本申请实施例的另一种可能实现方式,第一计算模块1001在计算该第一序列所包含的第一实体与该第二序列所包含的第二实体之间的实体相似度时,具体用于:
基于该第一序列所包含的第一关系,确定该第一序列包括的第一个实体与第二个实体之间的第一语义方向;
基于该第二序列所包含的第二关系,确定该第二序列包括的第一个实体与第二个实体之间的第二语义方向;
根据第一语义方向和第二语义方向,计算该第一序列所包含的第一实体与该第二序列所包含的第二实体之间的实体相似度。
本申请实施例的另一种可能实现方式,第一计算模块1001在根据第一语义方向和第二语义方向,计算该第一序列所包含的第一实体与该第二序列所包含的第二实体之间的实体相似度时,具体用于:
当第一语义方向与第二语义方向一致时,计算第一实体相似度与第二实体相似度;
当第一语义方向与第二语义方向不一致时,计算第三实体相似度与第四实体相似度;
其中,第一实体相似度是该第一序列包含的第一个实体与该第二序列包含的第一个实体之间的相似度,第二实体相似度是该第一序列包含的第二个实体与该第二序列包含的第二个实体之间的相似度,第三实体相似度是该第一序列包含的第一个实体与该第二序列包含的第二个实体之间的相似度,第四实体相似度是该第一序列包含的第二个实体与该第二序列包含的第一个实体之间的相似度。
本申请实施例的另一种可能实现方式,将第一实体相似度、第二实体相似度、第三实体相似度、第四实体相似度中的任一个作为目标实体相似度,则第一计算模块1001还用于按照下述方式计算得到目标实体相似度:
关于目标实体相似度对应的两个实体所组成的实体对,计算该实体对中的一个实体的每一语义分别与另一个实体的每一语义之间的语义相似度;
若该实体对仅对应有一个语义相似度,则将该语义相似度确定为目标实体相似度;
若该实体对对应至少两个语义相似度,则从至少两个语义相似度中提取最大语义相似度,并将最大语义相似度确定为目标实体相似度。
本申请实施例的另一种可能实现方式,第一计算模块1001在计算该实体对中的一个实体的每一语义分别与另一个实体的每一语义之间的语义相似度时,具体用于:
确定该实体对中的一个实体的每一语义分别与另一个实体的每一语义的目标上位词;
根据每两个语义各自与对应的目标上位词之间的语义距离,确定对应两个语义之间的语义相似度。
本申请实施例的另一种可能实现方式,第二计算模块1002,具体用于:
对于每两个目标文本,确定一个目标文本包含的各个第一序列各自的权重信息,以及确定另一个目标文本包含的各个第二序列各自的权重信息,其中,每一个第一序列的权重信息表征了该第一序列在所属的目标文本中的重要程度,每一个第二序列的权重信息表征了该第二序列在所属的目标文本中的重要程度;
利用该两个目标文本之间的序列相似度以及对应的权重信息,计算该两个目标文本的相似度。
本申请实施例的另一种可能实现方式,第二确定模块1002在确定一个目标文本包含的各个第一序列各自的权重信息时,具体用于:
对于一个目标文本包含的每一个第一序列,计算该第一序列包含的第一个实体、第二个实体以及第一关系各自的权重信息,并利用该第一序列对应的权重信息,计算该第一序列的权重信息;
相应地,第二确定模块1002在确定另一个目标文本包含的各个第二序列各自的权重信息时,具体用于:
对于另一个目标文本包含的每一个第二序列,计算该第二序列包含的第一个实体、第二个实体以及第二关系各自的权重信息,并利用该第二序列对应的权重信息,计算该第二序列的权重信息。
本申请实施例的另一种可能实现方式,第二确定模块1002在利用该两个目标文本之间的序列相似度以及对应的权重信息,计算该两个目标文本的相似度时,具体用于:
利用该两个目标文本之间的序列相似度以及对应的权重信息,计算得到该两个目标文本之间的最小运输距离,最小运输距离表征了两个目标文本之间的相似程度;
利用最小运输距离确定该两个目标文本的相似度。
需要说明的是,第一计算模块1001以及第二计算模块1002可以为同一个计算模块,也可以为不同的计算模块,在此不做限定。
本申请实施例提供的文本相似度的计算装置可执行本申请方法实施例提供的文本相似度的计算方法,其实现原理相类似,此处不再赘述。
本申请实施例提供了一种文本相似度的计算装置,与现有技术相比,本申请实施例对于每两个目标文本,首先,计算一个目标文本所包含的各个第一序列与另一个目标文本所包含的各个第二序列之间的相似度,得到两个目标文本之间的序列相似度,然后,利用该两个目标文本之间的序列相似度,计算该两个目标文本的相似度,其中,第一序列和第二序列为分别从对应目标文本中提取的实体关系序列。由于文本中所包含的实体关系序列可以揭示文本中实体之间的关系,作者用词风格对实体关系序列所造成的影响较小,且无需依赖文本之间的引用,因此,通过计算一个文本所包含的各个实体关系序列与另一个文本所包含的各个实体关系序列之间的相似度,从而计算两个文本之间的相似度,可以大大提升计算结果的准确性。
上述从虚拟模块的角度介绍本申请的文本相似度的计算装置,下面从实体装置的角度介绍本申请的电子设备。
本申请实施例提供了一种电子设备,如图11所示,图11所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:存储器和处理器;至少一个程序,存储于所述存储器中,用于被所述处理器执行时,与现有技术相比可实现:对于每两个目标文本,首先,计算一个目标文本所包含的各个第一序列与另一个目标文本所包含的各个第二序列之间的相似度,得到两个目标文本之间的序列相似度,然后,利用该两个目标文本之间的序列相似度,计算该两个目标文本的相似度,其中,第一序列和第二序列为分别从对应目标文本中提取的实体关系序列。由于文本中所包含的实体关系序列可以揭示文本中实体之间的关系,作者用词风格对实体关系序列所造成的影响较小,且无需依赖文本之间的引用,因此,通过计算一个文本所包含的各个实体关系序列与另一个文本所包含的各个实体关系序列之间的相似度,从而计算两个文本之间的相似度,可以大大提升计算结果的准确性。
上述从实体装置的角度介绍本申请的电子设备,下面从存储介质的角度介绍本申请的计算机可读存储介质。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,对于每两个目标文本,首先,计算一个目标文本所包含的各个第一序列与另一个目标文本所包含的各个第二序列之间的相似度,得到两个目标文本之间的序列相似度,然后,利用该两个目标文本之间的序列相似度,计算该两个目标文本的相似度,其中,第一序列和第二序列为分别从对应目标文本中提取的实体关系序列。由于文本中所包含的实体关系序列可以揭示文本中实体之间的关系,作者用词风格对实体关系序列所造成的影响较小,且无需依赖文本之间的引用,因此,通过计算一个文本所包含的各个实体关系序列与另一个文本所包含的各个实体关系序列之间的相似度,从而计算两个文本之间的相似度,可以大大提升计算结果的准确性。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (13)
1.一种文本相似度的计算方法,其特征在于,包括:
对于每两个目标文本,计算一个目标文本所包含的各个第一序列与另一个目标文本所包含的各个第二序列之间的相似度,得到两个目标文本之间的序列相似度,所述第一序列和所述第二序列为分别从对应目标文本中提取的实体关系序列;
对于每两个目标文本,利用该两个目标文本之间的序列相似度,计算该两个目标文本的相似度;
所述计算一个目标文本所包含的各个第一序列与另一个目标文本所包含的各个第二序列之间的相似度,包括:
将一个目标文本所包含的每一第一序列,分别与另一个目标文本所包含的每一第二序列进行组合,形成各个序列对;
对于每一序列对中的第一序列和第二序列,计算该第一序列所包含的第一实体与该第二序列所包含的第二实体之间的实体相似度,以及计算该第一序列所包含的第一关系与该第二序列所包含的第二关系之间的关系相似度;
对于每一序列对,利用该序列对对应的实体相似度以及关系相似度,计算该序列对中的第一序列与第二序列之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述计算该第一序列所包含的第一实体与该第二序列所包含的第二实体之间的实体相似度,包括:
计算第一实体相似度、第二实体相似度、第三实体相似度、第四实体相似度;
其中,所述第一实体相似度是该第一序列包含的第一个实体与该第二序列包含的第一个实体之间的相似度,所述第二实体相似度是该第一序列包含的第二个实体与该第二序列包含的第二个实体之间的相似度,所述第三实体相似度是该第一序列包含的第一个实体与该第二序列包含的第二个实体之间的相似度,所述第四实体相似度是该第一序列包含的第二个实体与该第二序列包含的第一个实体之间的相似度。
3.根据权利要求2所述的方法,其特征在于,所述利用该序列对对应的实体相似度以及关系相似度,计算该序列对中的第一序列与第二序列之间的相似度,包括:
利用该序列对对应的第一实体相似度、第二实体相似度以及关系相似度,计算该序列对中的第一序列与第二序列之间的第一相似度;
利用该序列对对应的第三实体相似度、第四实体相似度以及关系相似度,计算该序列对中的第一序列与第二序列之间的第二相似度;
确定所述第一相似度与所述第二相似度中的最大相似度,作为该序列对中的第一序列与第二序列之间的相似度。
4.根据权利要求1所述的方法,其特征在于,所述计算该第一序列所包含的第一实体与该第二序列所包含的第二实体之间的实体相似度,包括:
基于该第一序列所包含的第一关系,确定该第一序列包括的第一个实体与第二个实体之间的第一语义方向;
基于该第二序列所包含的第二关系,确定该第二序列包括的第一个实体与第二个实体之间的第二语义方向;
根据所述第一语义方向和所述第二语义方向,计算该第一序列所包含的第一实体与该第二序列所包含的第二实体之间的实体相似度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一语义方向和所述第二语义方向,计算该第一序列所包含的第一实体与该第二序列所包含的第二实体之间的实体相似度,包括:
当所述第一语义方向与所述第二语义方向一致时,计算第一实体相似度与第二实体相似度;
当所述第一语义方向与所述第二语义方向不一致时,计算第三实体相似度与第四实体相似度;
其中,所述第一实体相似度是该第一序列包含的第一个实体与该第二序列包含的第一个实体之间的相似度,所述第二实体相似度是该第一序列包含的第二个实体与该第二序列包含的第二个实体之间的相似度,所述第三实体相似度是该第一序列包含的第一个实体与该第二序列包含的第二个实体之间的相似度,所述第四实体相似度是该第一序列包含的第二个实体与该第二序列包含的第一个实体之间的相似度。
6.根据权利要求2或5所述的方法,其特征在于,将所述第一实体相似度、所述第二实体相似度、所述第三实体相似度、所述第四实体相似度中的任一个作为目标实体相似度,则所述目标实体相似度按照下述方式计算得到:
关于所述目标实体相似度对应的两个实体所组成的实体对,计算该实体对中的一个实体的每一语义分别与另一个实体的每一语义之间的语义相似度;
若该实体对仅对应有一个语义相似度,则将该语义相似度确定为所述目标实体相似度;
若该实体对对应至少两个语义相似度,则从所述至少两个语义相似度中提取最大语义相似度,并将所述最大语义相似度确定为所述目标实体相似度。
7.根据权利要求6所述的方法,其特征在于,所述计算该实体对中的一个实体的每一语义分别与另一个实体的每一语义之间的语义相似度,包括:
确定该实体对中的一个实体的每一语义分别与另一个实体的每一语义的目标上位词;
根据每两个语义各自与对应的目标上位词之间的语义距离,确定对应两个语义之间的语义相似度。
8.根据权利要求1-5任一项所述的方法,其特征在于,所述对于每两个目标文本,利用该两个目标文本之间的序列相似度,计算该两个目标文本的相似度,包括:
对于每两个目标文本,确定一个目标文本包含的各个第一序列各自的权重信息,以及确定另一个目标文本包含的各个第二序列各自的权重信息,其中,每一个第一序列的权重信息表征了该第一序列在所属的目标文本中的重要程度,每一个第二序列的权重信息表征了该第二序列在所属的目标文本中的重要程度;
利用该两个目标文本之间的序列相似度以及对应的权重信息,计算该两个目标文本的相似度。
9.根据权利要求8所述的方法,其特征在于,所述确定一个目标文本包含的各个第一序列各自的权重信息,包括:
对于一个目标文本包含的每一个第一序列,计算该第一序列包含的第一个实体、第二个实体以及第一关系各自的权重信息,并利用该第一序列对应的权重信息,计算该第一序列的权重信息;
相应地,所述确定另一个目标文本包含的各个第二序列各自的权重信息,包括:
对于另一个目标文本包含的每一个第二序列,计算该第二序列包含的第一个实体、第二个实体以及第二关系各自的权重信息,并利用该第二序列对应的权重信息,计算该第二序列的权重信息。
10.根据权利要求8所述的方法,其特征在于,所述利用该两个目标文本之间的序列相似度以及对应的权重信息,计算该两个目标文本的相似度,包括:
利用该两个目标文本之间的序列相似度以及对应的权重信息,计算得到该两个目标文本之间的最小运输距离,所述最小运输距离表征了两个目标文本之间的相似程度;
利用所述最小运输距离确定所述该两个目标文本的相似度。
11.一种文本相似度的计算装置,其特征在于,包括:
第一计算模块,用于对于每两个目标文本,计算一个目标文本所包含的各个第一序列与另一个目标文本所包含的各个第二序列之间的相似度,得到两个目标文本之间的序列相似度,所述第一序列和所述第二序列为分别从对应目标文本中提取的实体关系序列;
第二计算模块,用于对于每两个目标文本,利用该两个目标文本之间的序列相似度,计算该两个目标文本的相似度;
所述第一计算模块在计算一个目标文本所包含的各个第一序列与另一个目标文本所包含的各个第二序列之间的相似度时,具体用于:将一个目标文本所包含的每一第一序列,分别与另一个目标文本所包含的每一第二序列进行组合,形成各个序列对;
对于每一序列对中的第一序列和第二序列,计算该第一序列所包含的第一实体与该第二序列所包含的第二实体之间的实体相似度,以及计算该第一序列所包含的第一关系与该第二序列所包含的第二关系之间的关系相似度;
对于每一序列对,利用该序列对对应的实体相似度以及关系相似度,计算该序列对中的第一序列与第二序列之间的相似度。
12.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1~10任一项所述的文本相似度的计算方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~10任一项所述的文本相似度的计算方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010568868.7A CN111767706B (zh) | 2020-06-19 | 2020-06-19 | 文本相似度的计算方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010568868.7A CN111767706B (zh) | 2020-06-19 | 2020-06-19 | 文本相似度的计算方法、装置、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111767706A CN111767706A (zh) | 2020-10-13 |
CN111767706B true CN111767706B (zh) | 2022-02-22 |
Family
ID=72721309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010568868.7A Active CN111767706B (zh) | 2020-06-19 | 2020-06-19 | 文本相似度的计算方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767706B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8077984B2 (en) * | 2008-01-04 | 2011-12-13 | Xerox Corporation | Method for computing similarity between text spans using factored word sequence kernels |
CN108009182B (zh) * | 2016-10-28 | 2020-03-10 | 京东方科技集团股份有限公司 | 一种信息提取方法和装置 |
CN108304378B (zh) * | 2018-01-12 | 2019-09-24 | 深圳壹账通智能科技有限公司 | 文本相似度计算方法、装置、计算机设备和存储介质 |
CN110489751A (zh) * | 2019-08-13 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 文本相似度计算方法及装置、存储介质、电子设备 |
CN110866095A (zh) * | 2019-10-10 | 2020-03-06 | 重庆金融资产交易所有限责任公司 | 一种文本相似度的确定方法及相关设备 |
CN111241838B (zh) * | 2020-01-15 | 2023-10-31 | 北京百度网讯科技有限公司 | 文本实体的语义关系处理方法、装置及设备 |
-
2020
- 2020-06-19 CN CN202010568868.7A patent/CN111767706B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111767706A (zh) | 2020-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104794B (zh) | 一种基于主题词的文本相似度匹配方法 | |
Zhu et al. | Heterogeneous hypergraph embedding for document recommendation | |
CN108710613A (zh) | 文本相似度的获取方法、终端设备及介质 | |
EP2866421B1 (en) | Method and apparatus for identifying a same user in multiple social networks | |
US20180158078A1 (en) | Computer device and method for predicting market demand of commodities | |
JP2020123318A (ja) | テキスト相関度を確定するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN103049470B (zh) | 基于情感相关度的观点检索方法 | |
WO2014126657A1 (en) | Latent semantic analysis for application in a question answer system | |
CN112329460B (zh) | 文本的主题聚类方法、装置、设备及存储介质 | |
JP7254925B2 (ja) | 改良されたデータマッチングのためのデータレコードの字訳 | |
CN109408802A (zh) | 一种提升句向量语义的方法、系统及存储介质 | |
CN116848490A (zh) | 使用模型相交进行文档分析 | |
CN108182182A (zh) | 翻译数据库中文档匹配方法、装置及计算机可读存储介质 | |
Lan | Research on Text Similarity Measurement Hybrid Algorithm with Term Semantic Information and TF‐IDF Method | |
CN112347147A (zh) | 基于用户关联关系的信息推送方法、装置及电子设备 | |
Pathak et al. | Adaptive framework for deep learning based dynamic and temporal topic modeling from big data | |
Chen et al. | Learning the structures of online asynchronous conversations | |
CN109766527B (zh) | 一种文本相似度的计算方法以及相关设备 | |
CN111767706B (zh) | 文本相似度的计算方法、装置、电子设备及介质 | |
Hosseini et al. | Implicit entity linking through ad-hoc retrieval | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
Wongchaisuwat | Automatic keyword extraction using textrank | |
Su et al. | A Derivative‐Free Liu–Storey Method for Solving Large‐Scale Nonlinear Systems of Equations | |
CN114020867A (zh) | 一种搜索词的扩展方法、装置、设备及介质 | |
CN110175331B (zh) | 专业术语的识别方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240327 Address after: 100095, Building 6, No.1 Gaolizhang Road, Haidian District, Beijing, 104-35 Patentee after: Beijing Shiyuan Technology Co.,Ltd. Country or region after: China Address before: 100124 No. 100 Chaoyang District Ping Tian Park, Beijing Patentee before: Beijing University of Technology Country or region before: China |