CN117669532A - 一种基于改进的wmd文本相似度计算方法及装置 - Google Patents
一种基于改进的wmd文本相似度计算方法及装置 Download PDFInfo
- Publication number
- CN117669532A CN117669532A CN202311685148.9A CN202311685148A CN117669532A CN 117669532 A CN117669532 A CN 117669532A CN 202311685148 A CN202311685148 A CN 202311685148A CN 117669532 A CN117669532 A CN 117669532A
- Authority
- CN
- China
- Prior art keywords
- word
- subtree
- distance
- words
- wmd
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 86
- 238000004458 analytical method Methods 0.000 claims abstract description 47
- 230000001419 dependent effect Effects 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 7
- 239000003607 modifier Substances 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 5
- 150000001875 compounds Chemical class 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 10
- 238000003058 natural language processing Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种基于改进的WMD文本相似度计算方法,步骤包括:对目标词进行依存句法分析;根据所述依存句法分析结果构建所述目标词的子树和子树集合;利用节点加权向量,计算每个所述子树的向量表示,将所述子树中的节点信息融入向量中;计算得到整体结构上的语法词序依赖信息;本公开考虑到了现有文本相似度计算方法效率较低、无法考虑到上下文语法结构信息、对语境的依赖性较强,利用依存句法分析构建目标词的子树和子树合集,计算节点加权向量,提高了文本相似度计算精度,提高相似度计算效率。
Description
技术领域
本申请涉及文本处理领域,尤其涉及一种基于改进的WMD文本相似度计算方法及装置。
背景技术
自然语言处理领域一直以来都是人工智能研究的热点之一。随着互联网和信息爆炸的时代来临,文本数据的增长呈现出爆炸性的趋势,对文本理解和处理的需求也越来越迫切。在这个背景下,文本相似度计算成为自然语言处理领域的一个核心问题,它涉及信息检索、推荐系统、文本聚类等多个应用领域。
目前,基于词向量的文本相似度计算已经取得了一定的成果,其中Word Mover'sDistance(WMD)是一种常用的算法。然而,传统的WMD算法存在一些缺陷,主要体现在以下几个方面:1.未考虑上下文语法结构信息,传统WMD算法主要关注词向量之间的距离,而忽略了词在句子中的上下文语法结构信息。在一些语境复杂的句子中,忽略上下文可能导致相似度计算的误差;2.忽略词序信息的影响,传统WMD算法没有考虑词的顺序对相似度计算的影响。然而,同样的词汇在不同的顺序中可能表达出截然不同的语义;3.对语境依赖性较强,传统WMD算法在处理一些特定语境下的文本时,由于缺乏对语境的深层次理解,可能导致相似度计算的不准确。
在当前自然语言处理领域,许多应用场景都需要高效准确的文本相似度计算。信息检索、智能问答、情感分析等领域对文本相似度计算提出了更高的要求。然而,传统方法在处理上述问题时存在明显缺陷。
本发明通过引入依存句法分析,将上下文语法结构信息融入文本相似度计算中,从而更好地捕捉词在句子中的语法关系。通过节点加权向量的设计,考虑了节点距离的权重,使得在文本相似度计算中更加灵活。同时,通过对子树边权重的计算,解决了传统方法对于词序信息和依赖程度信息的忽视。本技术的创新点主要体现在对语法结构信息的深度挖掘,以及对节点距离和边权重的精准考虑。
发明内容
本申请的目的在于提供一种基于改进的WMD文本相似度计算方法及装置,解决上述的问题。
本申请的目的采用以下技术方案实现:
第一方面,本申请提供了一种基于改进的WMD文本相似度计算方法,包括以下步骤,对目标词进行依存句法分析;根据所述依存句法分析结果构建所述目标词的子树和子树集合;利用节点加权向量,计算每个所述子树的向量表示,将所述子树中的节点信息融入向量中;计算得到整体结构上的语法词序依赖信息。
该技术方案的有益效果在于:通过引入依存句法分析,该方法能够更全面地捕捉文本中词之间的语法结构关系,从而实现更准确的语义建模;传统WMD算法可能忽略上下文信息,而该方法通过子树集合的构建,充分考虑了上下文语法结构,提升了对文本语义的理解能力;依存句法分析结果的引入使得该方法对语境依赖性更加敏感;通过引入超参数m来控制子树集合的构建,可以根据具体应用场景和需求进行灵活地调节;通过综合考虑词义、词序和语法结构等多方面信息,该方法在文本相似度计算方面具有更高的准确性。
在对所述目标词进行依存句法分析前还包括:
对文本数据进行清理,去除停用词等无关信息,为每个词生成词向量表示并构建向量矩阵。
该技术方案的有益效果在于:通过在依存句法分析之前进行文本数据清理,去除停用词等无关信息,可以减少分析的文本数据量,提高计算效率,这对于大规模文本数据的处理尤为重要,可以有效降低计算成本和时间复杂度;在清理后的文本数据上生成词向量,可以避免无关信息对词向量表示的干扰,清理后的文本更加集中于关键信息,有助于生成更具代表性的词向量,提高了文本表示的质量;清理文本数据并生成词向量时,可以更加关注上下文信息,识别并保留对依存句法分析有帮助的信息,这有助于提高文本相似度计算对语境信息的理解和利用能力。
对目标词进行依存句法分析的具体步骤为,确定中心词,基于所述中心词确定依存项,基于所述中心词和所述依存项构建以所述中心词为基础的树状结构。
该技术方案的有益效果在于:通过确定中心词和依存项,可以清晰地识别出目标词与其他词之间的语法关系,这有助于理解句子的结构,使得依存树更加直观和易于解释;中心词的确定有助于更准确地确定依存项,从而构建准确的依存关系,这种准确性对于理解词与词之间的语法联系至关重要,尤其是在复杂的句子结构中;以确定的中心词为基础构建树状结构,使得分析结果更加集中于目标词的语法环境,这有助于聚焦于与目标词相关的语法信息,提高了对目标词上下文的关注度;构建以中心词为基础的树状结构有助于后续的处理和分析,例如,在计算子树向量或者进行其他特征提取时,树状结构的清晰性使得处理步骤更加顺利和可控。
所述中心词与所述依存项间存在依存关系,所述依存关系包括nsubj、obj、iobj、csubj、nmod、amod、compound、fixed、obl;
其中nsubj表示名词主语关系;obj表示宾语关系;iobj表示间接宾语关系;csubj表示从句主语关系;nmod表示名词修饰语关系;amod表示形容词修饰语关系;compound表示复合表达式关系;fixed表示固定表达式关系;obl表示间接名词关系。
该技术方案的有益效果在于:通过包括不同类型的依存关系,能够提供更全面、更多样化的语法信息,不同类型的依存关系涵盖了不同的语法结构,如主谓关系、修饰关系、从句关系等,这使得该技术方案能够适应包括复杂结构在内的多种语法形式,提高了适应性和通用性,由于涵盖了多种依存关系类型,该技术方案适用于不同的自然语言处理任务,如信息检索、问答系统、机器翻译等,满足了不同任务对不同依存关系分析的需求。
根据所述依存句法分析结果构建所述目标词的子树中包括m阶子树,所述m为超参数,不同的所述m对应形成不同层级的所述子树,将不同层级的所述子树归为同一集合即为所述子树集合。
该技术方案的有益效果在于:对于不同复杂性的文本,可以通过调整m的值来适应,当处理简单的句子时,可以选择较小的m值,而对于复杂结构的句子,可以选择较大的m值,以覆盖更多的语法层次。
根据所述依存句法分析结果构建所述目标词的子树和子树集合还包括,计算子树集合之间的距离来表示两条文本中两个目标词的上下文语法结构上的距离。
该技术方案的有益效果在于:通过计算子树集合之间的距离,系统可以更全面地比较两个目标词在语法结构上的相似性,这种方法不仅考虑了单一子树的特征,还考虑了不同子树之间的关系,使得相似度计算更加全面。
子树中节点加权的向量具体为:
k表示非当前节点距离当前节点的距离,表示词i的词向量,k的取值基于与当前节点的距离,与当前节点相邻的距离为1,与当前节点间隔一个节点距离为2,以此类推。
该技术方案的有益效果在于:对于子树中的每个节点,使用一个权重向量来表示该节点,并且权重向量中的每个元素都通过一个指数衰减函数进行计算,这个权重向量的计算考虑了节点与目标节点的距离,距离越近的节点在权重向量中的影响越大,距离越远的节点在权重向量中的影响越小,这种设计的目的是捕捉子树结构中节点之间的语法关系,同时对距离远的节点进行较弱的考虑。
对所述子树中的所有边进行边权重求和平均,得到整体结构上的语法词序依赖信息,其中所述边权重为反映词序信息及词之间依赖程度的量,所述边权重求和平均为子树结构上词和词之间词序信息及依赖程度的一个反映,a指向b边权重为记为,计算表达式如下:
对子树边权重求和平均得到整体结构上的语法词序依赖信息,记为eE,表达式如下:
其中,fa→b表示语料库中所有同时包含词a和词b的文本并且依存分析形成的子树中词a指向词b出现次数。fab表示语料库中词a和词b同时出现的次数,E表示子树边个数,Vadj表示子树相邻节点对集合。
该技术方案的有益效果在于:这样的设计可以反映词之间的语法关系,考虑了它们在语料库中的共现以及依存关系,进而综合考虑了词序信息及词之间的依赖程度,这种方法能够更全面地捕捉文本结构中词与词之间的关系,有助于提高文本相似度计算的准确性
所述子树向量表示为:
其中,V表示子树节点集合,|V|表示子树节点个数。
该技术方案的有益效果在于:通过加权节点向量的方法,考虑了子树中不同节点对整体结构的贡献。
对所述子树中的所有边进行边权重求和平均,得到整体结构上的语法词序依赖信息还包括:
选取两个词i和j;
计算各自包含i和j的两个子树向量的欧几里得距离;
计算两个词向量的余弦距离;
根据所述两个词向量的余弦距离和包含两个词的子树的欧几里得距离计算词i和j的距离表达式;
依据表达式和WMD算法确定整体结构上的语法词序依赖信息。
该技术方案的有益效果在于:通过考虑两个词在子树向量空间中的距离,综合考虑了它们的语法和语义的相似性,使得结果更加精确。
两个子树向量的欧几里得距离,表达式如下:
de=||si-sj||2
其中,si和sj分别表示包含词i的子树向量和包含词j的子树向量。
两个词向量的余弦距离表达为:
其中,和/>分别表述词i和词j的词向量,/>表示词向量/>和/>的余弦距离。
两条文本中词i和词j距离ci,j表达式如下:
其中,Si和Sj分别表示包含词i的子树集合和包含词j的子树集合,|Si|和|Sj|分别表示两个子树集合包含子树的个数,α表示词i子树集合和词j子树集合之间距离的权重,其值越大,表示两个词上下文语法结构信息上的距离对两个词距离计算影响越大,两个词的词向量语义距离对两个词距离计算影响越小。
第二方面本申请提供一种计算机可读存储介质,能够实现上述内容中任一项所述的文本相似度计算方法。
附图说明
下面结合附图和实施例对本申请进一步说明。
图1是本申请实施例提供的流程示意图;
图2是本申请实施例提供的对t′依存句法分析结果示意图;
图3是本申请实施例提供的t′利用依存句法分析构建子树示意图;
图4是本申请实施例提供的对t依存句法分析结果示意图;
图5是本申请实施例提供的t′利用依存句法分析构建子树示意图;
具体实施方式
下面,结合附图以及具体实施方式,对本申请做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施方式或设计方案不应被解释为比其他实施方式或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
下面,首先对本申请实施例的其中一个应用领域进行简单说明。
依存句法分析,依存句法分析是自然语言处理(NLP)中的一项任务,其目标是分析句子中词语之间的依存关系,即词语之间的语法结构关系,这种关系以树状结构呈现,其中一个词被视为中心词(Head Word),其他词与之形成依存关系;
在依存句法分析中:在每个句子中,存在一个中心词,其他词与中心词形成依存关系。中心词是具有主导地位的词,而其他词则与中心词有特定的语法关系,依存句法分析以形成依存关系的方式表示句法树。这是一种树状结构,其中树根是整个句子的中心词,而其他词则根据它们之间的语法关系连接到树根,每个词都有一个直接的依存项,这是与其在句子中实际语法关系最紧密的词。这个直接的依存项通常在句法树中与中心词相连,依存关系可以是多种类型,表示不同的语法关系,如主谓关系(nsubj,名词主语关系)、宾语关系(obj,宾语关系)、间接宾语关系(iobj,间接宾语关系)、从句主语关系(csubj,从句主语关系)、名词修饰语关系(nmod,名词修饰语关系)等,依存句法分析的过程通常包括确定中心词、识别依存项、建立依存关系、形成句法树等步骤,依存句法分析在自然语言处理的多个任务中都是关键步骤,例如信息抽取、问答系统、机器翻译等。
WMD(Word Mover’s Distance)是将一条文本的词向量全部流向另一条文本的词向量所经过的最短距离之和作为两条文本的相似度的算法,WMD的一种实现方法如下:
定义已经训练好的词向量矩阵为X∈Rd×n,其中,d为词向量维度,n为训练语料词的个数,X为词向量矩阵,R表示矩阵是实矩阵。
首先,对每个文本中词出现的次数进行归一化处理,记为di,表达式如下:
其中,i表示当前文本中某个词,分子计算词i出现次数,分母表示当前文本中每个词出现次数求和,分母中j泛指文本中每个词。
然后,利用训练好的词向量,通过欧氏距离计算文本t中词i和文本t′中词j的距离,表达式如下:
其中,表示词i的向量,/>表示词j的向量,距离ci,j表示文本t中词i转移到文本t′中词j的转移代价。
最后,WMD通过转移量权重和词转移代价乘积求和来衡量两条文本的相似度。表达式如下:
其中,Ti,j表示从词i到词j的转移量权重,满足以下约束:
这里I和J分别表示两条文本词序列集合,然而,利用WMD在计算文本相似度时没有考虑词上下文语法结构信息以及词序信息对相似度计算的影响。
参见图1,本申请实施例提供了一种基于改进的WMD文本相似度计算方法,包括以下步骤:对目标词进行依存句法分析;根据所述依存句法分析结果构建所述目标词的子树和子树集合;利用节点加权向量,计算每个所述子树的向量表示,将所述子树中的节点信息融入向量中;计算得到整体结构上的语法词序依赖信息。
其中,在对所述目标词进行依存句法分析前还包括:对文本数据进行清理,去除停用词等无关信息,为每个词生成词向量表示并构建向量矩阵,在实际应用中文本数据清理可以包括:去除标点符号,去除文本中的标点符号,包括逗号、句号、问号等。标点符号通常对文本分析没有直接贡献,去除它们有助于减小数据的维度;去除停用词,停用词是在文本中频繁出现但通常不携带有用信息的词语,例如“的”“是”“在”等,去除这些停用词可以减小文本数据的维度,集中注意力在更有意义的词汇上;词干化(Stemming)和词形还原(Lemmatizati on),将单词转换为它们的基本形式,词干化是去除词缀,而词形还原是将单词还原为它们的原始词形;当文本中存在缺失数据时也可以填充缺失值或者删除包含缺失值的文本。
步骤对目标词进行依存句法分析中其具体步骤为确定中心词,基于所述中心词确定依存项,基于所述中心词和所述依存项构建以所述中心词为基础的树状结构。
步骤根据所述依存句法分析结果构建所述目标词的子树中包括m阶子树,所述m为超参数,不同的所述m对应形成不同层级的所述子树,将不同层级的所述子树归为同一集合即为所述子树集合;根据所述依存句法分析结果构建所述目标词的子树和子树集合还包括,计算子树集合之间的距离来表示两条文本中两个目标词的上下文语法结构上的距离。
对于子树内部节点,认为子树中节点之间距离不同,节点之间影响程度不同。距离越近,影响越大,反之亦然。基于此,设计一种距离指数衰减的节点加权向量表示,子树中节点加权的向量表示如下:
其中,k表示非当前节点距离当前节点的距离,k=1,2,3...,这里假设与当前节点相邻的距离为1,与当前节点间隔一个节点距离为2,以此类推。表示词i的词向量。
利用节点加权向量,计算每个所述子树的向量表示,将所述子树中的节点信息融入向量中这一步骤中,考虑到词序以及词的依赖程度不同,比如一段文本中存在词a和词b,依存句法分析后,a指向b的依存概率与b指向a的依存概率一般是不同的这一问题,将词的依存概率作为子树边权重,将子树边权重求和平均作为子树结构上词和词之间词序信息及依赖程度的一个反映,将a指向b边权重为记为,计算表达式如下:
其中,fa→b表示语料库中所有同时包含词a和词b的文本并且依存分析形成的子树中词a指向词b出现次数。fab表示语料库中词a和词b同时出现的次数。
对子树边权重求和平均得到整体结构上的语法词序依赖信息,记为eE,表达式如下:
其中,E表示子树边个数,Vadj表示子树相邻节点对集合。
则子树向量表达式如下:
其中,V表示子树节点集合,|V|表示子树节点个数。
计算得到整体结构上的语法词序依赖信息这一步骤中,两条文本中两个目标词之间距离可以表示为目标词语义上的距离与目标词的上下文结构信息距离的加权和,目标词的上下文结构信息通过子树集合之间的距离计算得到,目标词语义上距离利用词向量余弦距离计算得到。
因此,两条文本中词i和词j距离ci,j表达式如下:
其中,Si和Sj分别表示包含词i的子树集合和包含词j的子树集合,|Si|和|Sj|分别表示两个子树集合包含子树的个数,表示词向量/>和/>的余弦距离,表达式如下:
si和sj分别表示包含词i的子树向量和包含词j的子树向量,de(si,sj)表示两个子树向量的欧几里得距离,表达式如下:
de=||si-sj||2
这里α表示词i子树集合和词j子树集合之间距离的权重,其值越大,表示两个词上下文语法结构信息上的距离对两个词距离计算影响越大,两个词的词向量语义距离对两个词距离计算影响越小,当获得ci,j后,将ci,j代入上文所述的WMD算法中计算获得两条文本的相似度。
在一个具体实例中:我们使用STS数据集,包含21289条数据。对该数据集去停用词等,利用word2vec模型(或使用glove、ELmo、Bert等)得到每个词的词向量表示。统计每个词的词频。
从数据集取两条文本,分别记为文本t和文本t′。假设文本t为:“we camp ed nearthe bank of the river”,
文本t′为“I am not sure if you can open a bank account in France”;对t′利用stanza工具(或spacy、hanlp、ltp等工具)得到文本依存句法分析结果参见图2;
利用依存分析结果构建子树,在构建子树时,我们考虑了以下依存关系:nsubj、obj、iobj、csubj、nmod、amod、compound、fixed、obl。m分别取1和2,得到关于目标词bank的上下文依存分析子树集合,包含两个子树,参见图3;
对文本t依存分析结果参见图4;
得到目标词“bank”的依存子树集合参见图5;
现在计算两个文本中“bank”的距离cbank,bank。
对于子树1,统计得到“account”和“bank”同时出现24次,依存分析得到“account”指向“bank”次数为18次,则eaccount→bank=18/24=0.75。
由于只有一条边,词序依赖信息e1=0.75。子树1中以词“bank”为中心的子树向量这里/>为“bank”的词向量,/>根据此方法,得到/>子树向量,则最终的距离其中,其他的同理得到,这里α参数我们取0.2,其中α为超参数,通过人为调试确定,表示词i子树集合和词j子树集合之间距离的权重,其值越大,表示两个词上下文语法结构信息上的距离对两个词距离计算影响越大,两个词的词向量语义距离对两个词距离计算影响越小。
本申请实施例还提供了一种计算机可读存储介质,其具体实施例与上述方法实施例中记载的实施例、所达到的技术效果一致,部分内容不再赘述。
所述计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时实现上述任一项方法的步骤或者实现上述任一项设备的功能。
计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。在本申请实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读存储介质例如可以为但不限于电、磁、光、电磁、红外线或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读存储介质还可以是任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言诸如Java、C++等,还包括常规的过程式程序设计语言诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行,或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本申请从使用目的上,效能上,进步及新颖性等观点进行阐述,已符合专利法所强调的功能增进及使用要件,本申请以上的说明书及说明书附图,仅为本申请的较佳实施例而已,并非以此局限本申请,因此,凡一切与本申请构造,装置,特征等近似、雷同的,即凡依本申请专利申请范围所作的等同替换或修饰等,皆应属本申请的专利申请保护的范围之内。
Claims (14)
1.一种基于改进的WMD文本相似度计算方法,其特征在于,包括以下步骤,对目标词进行依存句法分析;
根据所述依存句法分析结果构建所述目标词的子树和子树集合;
利用节点加权向量,计算每个所述子树的向量表示,将所述子树中的节点信息融入向量中;
计算得到整体结构上的语法词序依赖信息。
2.根据权利要求1所述的一种基于改进的WMD文本相似度计算方法,其特征在于,
在对所述目标词进行依存句法分析前还包括:
对文本数据进行清理,去除停用词等无关信息,为每个词生成词向量表示并构建向量矩阵。
3.根据权利要求1所述的一种基于改进的WMD文本相似度计算方法,其特征在于,
对目标词进行依存句法分析的具体步骤为,确定中心词,基于所述中心词确定依存项,基于所述中心词和所述依存项构建以所述中心词为基础的树状结构。
4.根据权利要求3所述的一种基于改进的WMD文本相似度计算方法,其特征在于,
所述中心词与所述依存项间存在依存关系,所述依存关系包括nsubj、obj、iobj、csubj、nmod、amod、compound、fixed、obl;
其中nsubj表示名词主语关系;obj表示宾语关系;iobj表示间接宾语关系;csubj表示从句主语关系;nmod表示名词修饰语关系;amod表示形容词修饰语关系;compound表示复合表达式关系;fixed表示固定表达式关系;obl表示间接名词关系。
5.根据权利要求1所述的一种基于改进的WMD文本相似度计算方法,其特征在于,
根据所述依存句法分析结果构建所述目标词的子树中包括m阶子树,所述m为超参数,不同的所述m对应形成不同层级的所述子树,将不同层级的所述子树归为同一集合即为所述子树集合。
6.根据权利要求1所述的一种基于改进的WMD文本相似度计算方法,其特征在于,
根据所述依存句法分析结果构建所述目标词的子树和子树集合还包括,计算子树集合之间的距离来表示两条文本中两个目标词的上下文语法结构上的距离。
7.根据权利要求1所述的一种基于改进的WMD文本相似度计算方法,其特征在于,
子树中节点加权的向量具体为:
k表示非当前节点距离当前节点的距离,表示词i的词向量,k的取值基于与当前节点的距离,与当前节点相邻的距离为1,与当前节点间隔一个节点距离为2,以此类推。
8.根据权利要求1所述的一种基于改进的WMD文本相似度计算方法,其特征在于,
对所述子树中的所有边进行边权重求和平均,得到整体结构上的语法词序依赖信息,其中所述边权重为反映词序信息及词之间依赖程度的量,所述边权重求和平均为子树结构上词和词之间词序信息及依赖程度的一个反映,a指向b边权重为记为,计算表达式如下:
对子树边权重求和平均得到整体结构上的语法词序依赖信息,记为eE,表达式如下:
其中,fa→b表示语料库中所有同时包含词a和词b的文本并且依存分析形成的子树中词a指向词b出现次数,fab表示语料库中词a和词b同时出现的次数,|E|表示子树边个数,Vadj表示子树相邻节点对集合。
9.根据权利要求8所述的一种基于改进的WMD文本相似度计算方法,其特征在于,
所述子树向量表示为:
其中,V表示子树节点集合,|V|表示子树节点个数。
10.根据权利要求1所述的一种基于改进的WMD文本相似度计算方法,其特征在于,
对所述子树中的所有边进行边权重求和平均,得到整体结构上的语法词序依赖信息还包括:
选取两个词i和j;
计算各自包含i和j的两个子树向量的欧几里得距离;
计算两个词向量的余弦距离;
根据所述两个词向量的余弦距离和包含两个词的子树的欧几里得距离计算词i和j的距离表达式;
依据所述表达式和WMD算法确定整体结构上的语法词序依赖信息。
11.根据权利要求10所述的一种基于改进的WMD文本相似度计算方法,其特征在于,
两个子树向量的欧几里得距离,表达式如下:
de=||si-sj||2
其中,si和sj分别表示包含词i的子树向量和包含词j的子树向量。
12.根据权利要求10所述的一种基于改进的WMD文本相似度计算方法,其特征在于,
两个词向量的余弦距离表达为:
其中,和/>分别表述词i和词j的词向量,/>表示词向量/>和/>的余弦距离。
13.根据权利要求10所述的一种基于改进的WMD文本相似度计算方法,其特征在于,
两条文本中词i和词j距离ci,j表达式如下:
其中,Si和Sj分别表示包含词i的子树集合和包含词j的子树集合,|Si|和|Sj|分别表示两个子树集合包含子树的个数,α表示词i子树集合和词j子树集合之间距离的权重,其值越大,表示两个词上下文语法结构信息上的距离对两个词距离计算影响越大,两个词的词向量语义距离对两个词距离计算影响越小。
14.一种计算机可读存储介质,其特征在于,
能够实现权利要求1~13中任一项所述的文本相似度计算方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311685148.9A CN117669532A (zh) | 2023-12-08 | 2023-12-08 | 一种基于改进的wmd文本相似度计算方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311685148.9A CN117669532A (zh) | 2023-12-08 | 2023-12-08 | 一种基于改进的wmd文本相似度计算方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117669532A true CN117669532A (zh) | 2024-03-08 |
Family
ID=90069536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311685148.9A Pending CN117669532A (zh) | 2023-12-08 | 2023-12-08 | 一种基于改进的wmd文本相似度计算方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117669532A (zh) |
-
2023
- 2023-12-08 CN CN202311685148.9A patent/CN117669532A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
KR101122850B1 (ko) | 논리 형식에 대한 통계적 언어 모델 | |
KR101031970B1 (ko) | 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법 | |
KR20220027220A (ko) | 자연어 이해(nlu) 프레임워크에서의 예측 유사도 스코어링 서브시스템 | |
CN111310438A (zh) | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 | |
CN108460011B (zh) | 一种实体概念标注方法及系统 | |
Mahajani et al. | A comprehensive survey on extractive and abstractive techniques for text summarization | |
CN116501306B (zh) | 一种基于自然语言描述生成接口文档代码的方法 | |
CN112541337B (zh) | 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 | |
CN111061882A (zh) | 一种知识图谱构建方法 | |
CN110414004A (zh) | 一种核心信息提取的方法和系统 | |
CN111651198A (zh) | 代码摘要自动化生成方法及装置 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
KR20200071877A (ko) | 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN114881043A (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
Fuchs | Natural language processing for building code interpretation: systematic literature review report | |
US20220207240A1 (en) | System and method for analyzing similarity of natural language data | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN113569578B (zh) | 一种用户意图识别方法、装置和计算机设备 | |
CN114970516A (zh) | 数据增强方法及装置、存储介质、电子设备 | |
CN116090450A (zh) | 一种文本处理方法及计算设备 | |
CN117669532A (zh) | 一种基于改进的wmd文本相似度计算方法及装置 | |
Acharjee et al. | Sequence-to-sequence learning-based conversion of pseudo-code to source code using neural translation approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |