CN115859963A - 一种面向新词义原推荐的相似性判别方法及系统 - Google Patents
一种面向新词义原推荐的相似性判别方法及系统 Download PDFInfo
- Publication number
- CN115859963A CN115859963A CN202211702267.6A CN202211702267A CN115859963A CN 115859963 A CN115859963 A CN 115859963A CN 202211702267 A CN202211702267 A CN 202211702267A CN 115859963 A CN115859963 A CN 115859963A
- Authority
- CN
- China
- Prior art keywords
- words
- word
- similarity
- semantic
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向新词义原推荐的相似性判别方法及系统,包括:在HowNet的词表词集合中,通过相似性判别模型选择与新词相似的词语构成相似词集合;根据相似词集合的全部词语、词语对应的概念义项及其义原,构建局部“词语‑义项‑义原”关系网络;基于网络节点重要性排序方法进行义原节点的选择,根据义原节点的标准化度中心性和介性中心度,生成义原节点的推荐指数,评估义原节点的重要度,以相似词语集合为桥梁建立了未登录词与义原的关联关系,通过推荐指数完成未登录词的候选义原的排序选择,用于通过新词对HowNet进行扩展;本发明有效解决了未登录词与词表词的相似性判别问题,并且能够有效解决候选义原的选择问题。
Description
技术领域
本发明涉及面向新词义原推荐技术领域,尤其涉及一种面向新词义原推荐的相似性判别方法及系统。
背景技术
HowNet自问世以来,受到自然语言处理领域的广泛关注,国内外学者在词汇语义消歧、相似度计算、文本分类等方面探索了HowNet的重要应用价值。近年来,相关研究表明,HowNet通过统一的义原标注体系直接刻画语义信息,且每个义原含义明确固定,可被直接作为语义标签融入机器学习模型,使自然语言处理深度学习模型具有更好的鲁棒可解释性。然而,与其他依靠人工构建的知识库系统一样,HowNet存在着规模有限、更新扩展维护成本高的问题。没有HowNet背景知识和未经专门训练的人员难以较好地完成义原预测任务。这导致HowNet潜在的巨大应用价值与其自身规模有限、语义资源稀疏且难扩展的矛盾,解决这个矛盾的一个可行的途径就是开展HowNet的自动或半自动构建技术的研究,其核心问题之一就是为新概念的描述选择合适的义原。
随着时代发展,新词汇和旧词新用的概念不断涌现。新词义原推荐(或预测)任务就是在HowNet已有义原集合中选择出适合构建其概念义项Def描述的义原子集。例如,在现有HowNet知识库中,“小米”的概念义项Def描述包含的义原集合为{material|材料,edible|食物,crop|庄稼}。然而,在目前实际语言环境中,“小米”除了具有一种农作物的概念外,还可以描述为一个公司名或电子产品的品牌。因此,其义原集合中还应该包含{InstitutePlace|场所}或{SpeBrand|特定牌子}等义原。
通常,语义相似的词语或概念之间会共享相同的义原,因此,解决新词概念义原推荐问题,可以借鉴协同过滤(CF,Collaborative Filtering)的主要思想:即利用HowNet已有概念的Def描述中的义原集合来预测当前新词概念的Def描述最可能使用的义原集合,其关键在于度量新旧词语或概念之间的语义相似性。
随着互联网应用的普及,文本大数据中大量的新词不断出现,同时现有词语的含义被延伸和扩展,因此有必要对以义原为基础的语义知识库进行持续地修正和扩充。
在词汇进行义原自动标注方面,XIE等人提出了义原预测任务,并基于词嵌入(word embeddings)和义原嵌入(Sememe embeddings)提出了多种义原预测模型,借助协同过滤和矩阵分解的方法,从已有的人工标注数据集学习词汇与义原的通用的关系,从而自动构造出新词的义原。依赖词语外部上下文信息的语义表示方法无法有效处理低频词或未登录词。JIN等人提出了基于词语内部字信息和外部上下文信息的义原预测框架,通过将内部模型和外部模型融合,提升了低频词义原预测的效果。为了克服低频词嵌入质量差,义原预测准确性不高的问题,LI等人提出了基于字和多标记分布序列到序列(labeldistributed seq2seq model)模型,利用词的定义和描述信息进行义原预测。张磊等人基于多标签分类模型架构,通过将句子中的词作为模型输入,减小了用字作为最小单位的歧义性。杜家驹等人提出了义原相关池化模型,利用局部语义相关性来预测义原,该方法依赖于定义文本的获取质量。在低资源的情况下,解决义原推荐问题的关键在于计算新词与HowNet词表词之间的语义相似度。
词语相似度计算方法可以分为基于语料库的方法和基于知识库的方法。目前,大量主流的词语语义相似性计算方法可以归类为基于语料库的方法。这些方法基于分布假设,从大型文本集合中学习单个词语之间的关联。如果两个词语的上下文环境越相似,或者它们在一起出现的频率越高,则假定它们的语义相似程度越高。通常,词语的分布式表示通过词语在语料库中的共现信息获得,其中一种最著名的基于词相邻关系的表达方式就是word2vec,每个词语被映射到一个唯一的稠密向量。BERT相比以word2vec为代表的词嵌入方法,使用Transformer中的编码器作为特征抽取器,这种方法对上下文有很好的利用,能够动态建模一词多义的现象。上述方法均以字或词的分布式表示为基础,忽略了基于词向量与基于HowNet义原信息的词语相似关系不一致问题,不适合基于协同框架的义原推荐任务,因此,急需一种面向新词义原推荐的相似性判别方法及系统,使其计算得到的度量结果能够逼近基于知网义原的相似度计算结果,即达到“相似性同构”。
发明内容
为了针对现有技术中存在的问题,本发明的目的是提供一种面向新词义原推荐的相似性判别方法及系统,在判别新词与HowNet词表词之间的语义相似性的过程中,利用词表词已知概念描述义原序列的注意力分布,以相似性同构为目标,对基于BERT+CNN的相似性判别模型进行优化,从而为义原推荐任务提供相似概念集合。
为了实现上述技术目的,本发明提供了一种面向新词义原推荐的相似性判别方法,其特征在于,包括以下步骤:
在HowNet的词表词集合中,通过相似性判别模型选择与新词相似的词语构成相似词集合,其中,新词表示在HowNet中的未登录词;
根据相似词集合的全部词语、词语对应的概念义项及其义原,构建局部“词语-义项-义原”关系网络;
基于网络节点重要性排序方法进行义原节点的选择,根据义原节点的标准化度中心性和介性中心度,生成义原节点的推荐指数,评估义原节点的重要度,以相似词语集合为桥梁建立了未登录词与义原的关联关系,通过推荐指数完成未登录词的候选义原的排序选择,用于通过新词对HowNet进行扩展。
优选地,在获取HowNet的过程中,HowNet用于表示利用有限的义原描述无限的概念集合,其中,义原被划分为Entity|实体、Event|事件、Attribute|属性、Value|值以及SecondaryFeature|第二特征。
优选地,在使用相似性判别模型的过程中,相似性判别模型为基于BERT的相似性判别模型,通过词表词已知概念描述义原序列的注意力分布,以相似性同构为目标,对基于BERT的相似性判别模型进行优化,并通过优化后的相似性判别模型选择与新词相似的词语构成相似词集合。
优选地,在构成相似词集合的过程中,将新词和词表词对应的字序列分别输入到两个SaBERT模型,获得融入义原序列信息的语义表示向量;通过CNN分类模型完成未登录词与词表词的相似性判别,并构建相似词集合。
优选地,在获取语义表示向量的过程中,通过SaBERT模型,将词表词的概念描述义项Def所对应的义原树进行先序遍历,得到义原中文词序列SL;
将义原序列SL经S-BERT得到其向量表示ESL;
将ESL与词语中每个字经过BERT后得到的隐藏层向量hci进行拼接,再接一个激活函数为tanh的全连接层,其中,参数矩阵w1∈R2d×n,并通过softmax得到各个字向量的权重向量α;
通过向量加权和得到词语的最终向量表示e。
优选地,在对基于BERT的相似性判别模型进行优化的过程中,将相似性判别问题看作以0.9为分类阈值的二分类问题,通过离散化处理将连续相似度值转换为相似程度判别标记,采用交叉熵损失函数完成模型训练。
优选地,在评估义原节点的重要度的过程中,标准化度中心性的测量公式为:
Cd(vi)=Σjxij/max(Cd(vj)),i≠j∈N
其中,xij=1表示节点i与节点j之间存在直接联系,否则,xij=0;N为网络中全部节点的集合。
优选地,在评估义原节点的重要度的过程中,介性中心度的测量公式为:
其中,σst表示从节点s到t的最短路径数,σst(vi)表示从节点s到t的且经过vi的最短路径数。
优选地,在获取推荐指数的过程中,推荐指数表示为:
R(vi)=Cd(vi)×log(Cb(vi)+1)。
本发明公开了一种面向新词义原推荐的相似性判别系统,相似性判别系统用于通过获取新词对HowNet进行扩展,包括:
数据检索模块,用于在HowNet的词表词集合中,通过相似性判别模型选择与新词相似的词语构成相似词集合,其中,新词表示在HowNet中的未登录词;
数据处理模块,用于根据相似词集合的全部词语、词语对应的概念义项及其义原,构建局部“词语-义项-义原”关系网络;
扩展模块,用于基于网络节点重要性排序方法进行义原节点的选择,根据义原节点的标准化度中心性和介性中心度,生成义原节点的推荐指数,评估义原节点的重要度,以相似词语集合为桥梁建立了未登录词与义原的关联关系,通过推荐指数完成未登录词的候选义原的排序选择。
本发明公开了以下技术效果:
本发明有效解决了未登录词与词表词的相似性判别问题;
在基于协同过滤框架的义原推荐任务中进行的实验表明,相似性同构程度与义原推荐效果成正相关,即本发明能够有效解决候选义原的选择问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述的词语、义项、义原的关系示例;
图2为本发明所述的义原协同推荐框架;
图3为本发明所述的SaBERT2+CNN模型;
图4为本发明所述的义原注意力SaBERT模型。
具体实施方式
下为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1-4所示,本发明提供了一种面向新词义原推荐的相似性判别方法,其特征在于,包括以下步骤:
在HowNet的词表词集合中,通过相似性判别模型选择与新词相似的词语构成相似词集合,其中,新词表示在HowNet中的未登录词;
根据相似词集合的全部词语、词语对应的概念义项及其义原,构建局部“词语-义项-义原”关系网络;
基于网络节点重要性排序方法进行义原节点的选择,根据义原节点的标准化度中心性和介性中心度,生成义原节点的推荐指数,评估义原节点的重要度,以相似词语集合为桥梁建立了未登录词与义原的关联关系,通过推荐指数完成未登录词的候选义原的排序选择,用于通过新词对HowNet进行扩展。
进一步优选地,在获取HowNet的过程中,本发明提到的HowNet用于表示利用有限的义原描述无限的概念集合,其中,义原被划分为Entity|实体、Event|事件、Attribute|属性、Value|值以及SecondaryFeature|第二特征。
进一步优选地,在使用相似性判别模型的过程中,本发明提到的相似性判别模型为基于BERT的相似性判别模型,通过词表词已知概念描述义原序列的注意力分布,以相似性同构为目标,对基于BERT的相似性判别模型进行优化,并通过优化后的相似性判别模型选择与新词相似的词语构成相似词集合。
进一步优选地,在构成相似词集合的过程中,将新词和词表词对应的字序列分别输入到两个SaBERT模型,获得融入义原序列信息的语义表示向量;通过CNN分类模型完成未登录词与词表词的相似性判别,并构建相似词集合。
进一步优选地,在获取语义表示向量的过程中,本发明通过SaBERT模型,将词表词的概念描述义项Def所对应的义原树进行先序遍历,得到义原中文词序列SL;
将义原序列SL经S-BERT得到其向量表示ESL;
将ESL与词语中每个字经过BERT后得到的隐藏层向量hci进行拼接,再接一个激活函数为tanh的全连接层,其中,参数矩阵w1∈R2d×n,并通过softmax得到各个字向量的权重向量α;
通过向量加权和得到词语的最终向量表示e。
进一步优选地,在对基于BERT的相似性判别模型进行优化的过程中,本发明将相似性判别问题看作以0.9为分类阈值的二分类问题,通过离散化处理将连续相似度值转换为相似程度判别标记,采用交叉熵损失函数完成模型训练。
进一步优选地,在评估义原节点的重要度的过程中,本发明提到的标准化度中心性的测量公式为:
Cd(vi)=Σjxij/max(Cd(vj)),i≠j∈N
其中,xij=1表示节点i与节点j之间存在直接联系,否则,xij=0;N为网络中全部节点的集合。
进一步优选地,在评估义原节点的重要度的过程中,介性中心度的测量公式为:
其中,σst表示从节点s到t的最短路径数,σst(vi)表示从节点s到t的且经过vi的最短路径数。
优选地,在获取推荐指数的过程中,本发明提到的推荐指数表示为:
R(vi)=Cd(vi)×log(Cb(vi)+1)。
本发明公开了一种面向新词义原推荐的相似性判别系统,相似性判别系统用于通过获取新词对HowNet进行扩展,包括:
数据检索模块,用于在HowNet的词表词集合中,通过相似性判别模型选择与新词相似的词语构成相似词集合,其中,新词表示在HowNet中的未登录词;
数据处理模块,用于根据相似词集合的全部词语、词语对应的概念义项及其义原,构建局部“词语-义项-义原”关系网络;
扩展模块,用于基于网络节点重要性排序方法进行义原节点的选择,根据义原节点的标准化度中心性和介性中心度,生成义原节点的推荐指数,评估义原节点的重要度,以相似词语集合为桥梁建立了未登录词与义原的关联关系,通过推荐指数完成未登录词的候选义原的排序选择。
本发明提到的HowNet是利用有限的义原描述无限的概念集合。其中,义原被划分为Entity|实体、Event|事件、Attribute|属性、Value|值以及Secondary Feature|第二特征等5个大类。
随着深度学习的发展,卷积神经网络(CNNs),递归神经网络(RNNs),图神经网络(GNNs)和注意力机制等神经网络模型被广泛应用于解决自然语言处理(NLP)任务。相比于非神经网络模型方法严重依赖于离散的手工特征,神经网络方法通常使用低维稠密向量隐式表示语言的语法或语义特征。近年来,大量的研究表明,使用大规模文本语料库进行训练得到的预训练模型(PTMs)可以学习近似通用语言表示,在对特定任务的小数据集微调后,可在显著降低单个自然语言处理任务的难度的同时提升系统性能。
在词语相似度计算方面,由于分布式表示方法可以通过将单词表示为低维稠密实数向量,捕捉词语间的关联信息。因此该方法可在低维空间中高效计算单词间的语义关联,有效解决数据稀疏问题。虽然以word2vec为代表的词语表示学习模型,已经在词语相似度计算任务中取得了较好的效果。然而,word2vec中每一个词语被映射到一个唯一的稠密向量,它无法处理一词多义(polysemy)问题。此外,现有的根据词语的上下文分布来学习词语的表示向量的表示学习模型,不能有效地对于出现次数较少或未登录的词语进行表示学习,这成为影响词语分布式表示方法在相似度计算任务上发挥作用的主要障碍。
相比以word2vec为代表的分布式表示方法,BERT的一个比较突出的优势就是词语表示的动态性,能建模一词多义的现象。在新词概念的义原推荐任务中,对于未登录词(OOV)的分布式表示需求普遍存在,为了减缓OOV的影响,一种普遍的方法是扩大词典规模,以提升模型训练过程中词语的覆盖度,但该方法不能从根本上解决OOV问题。
采用基于字的预训练语言模型,例如,利用BERT编码器最上层的字的隐层向量得到当前词语的向量。然而,简单地利用[CLS]的输出作为词向量的方法的效果并不理想。此外,在HowNet中,概念相似性的度量关键是计算概念对应的义原序列之间的相似度。在序列语义相似度(如,句子相似度)计算方面,采用孪生BERT网络结构的句子嵌入方法Sentence-Transformers(S-BERT)表现出了良好的性能。该方法将句子对输入到参数共享的两个BERT模型中,将BERT输出句子的所有字向量进行平均池化后获得每个句子的句向量表示。因此,本发明尝试利用词表词已知概念描述义原序列的注意力分布,以相似性同构为目标,对基于BERT的相似性判别模型进行优化。
在HowNet中,由义原向上构建概念,由概念向上定义词,词语、义项、义原的关系如图1所示。这里以词语“小米”为例,由“material|材料”、“edible|食物”和“crop|庄稼”等义原及其关系构成了的概念义项的描述为:DEF={material|材料:MaterialOf={edible|食物},material={crop|庄稼}(senseID:177381),再由这个概念义项定义了词语“小米(millet)”。
如上所述,HowNet中,每个词语对应一个或多个概念义项的定义(Def),每个Def包含一个或多个义原。任一概念的描述中的义原之间通过体现概念与概念和概念的属性与属性之间的相互关系连接,通常一个义原可能存在于多个概念义项的定义当中。在对多个词语的语义关系进行建模时,就形成了“词语-义项-义原”关系网络。
本发明期望利用“词语-义项-义原”关系网络的结构特征和基于协同过滤机制发现词语的新概念并为其推荐相关义原。
协同过滤机制是推荐系统所采用的最为重要的技术之一。其基本原理是假设两个用户如果具有相类似的购买行为,则他们对同一类商品感兴趣的程度也就会比较接近,那么当前用户很有可能会对另一个相似用户所喜欢的商品感兴趣。在语义相似性度量方面,结合HowNet中对概念描述方式的规定,可以认为,语义相似的概念应具有相似的义原关联集合。因此,义原推荐的任务中,采用协同过滤机制是一种可行的途径。基本原理是根据相似的概念义项所包含的义原来推荐当前词语尚未被标记但在实际语言环境中很可能表达其某方面语义信息的义原。
利用相似词语对应的概念获得待推荐义原的集合。如图2所示,首先,在HowNet词表词集合中,通过相似性判别模型选择与新词(未登录词)相似的词语构成相似词集合;其次,基于上述全部词语、词语对应的概念义项及其义原,构建局部“词语-义项-义原”关系网络;最后,基于网络节点重要性排序方法进行义原节点的选择。
这里使用两种中心性(Centrality)的度量方法评估义原节点的重要度,并以此重要度作为义原选择排序的依据。度中心性(Degree Centrality)是在网络分析中刻画节点中心性(Centrality)的最直接度量指标。一个节点的节点度越大就意味着这个节点的度中心性越高,该节点在网络中就越重要。标准化度中心性测量公式:
Cd(vi)=Σjxij/max(Cd(vj)),i≠j∈N
其中,xij=1表示节点i与节点j之间存在直接联系,否则,xij=0;N为网络中全部节点的集合。由于节点的度(Degree)的计算过程没有考虑图中邻接节点的重要性,不能很好地体现词语之间对义原的共享特征。因此,需要从路径这个维度来度量节点的中心性,这里引入基于介性中心度(Betweenness Centrality)的中心性度量方法。计算网络中任意两个节点的所有最短路径,如果这些最短路径中有很多条都经过了某个节点,那么就认为这个节点的介性中心度高。介性中心度测量公式:
其中,σst表示从节点s到t的最短路径数,σst(vi)表示从节点s到t的,且经过vi的最短路径数。节点的介性中心度是以经过某个节点的最短路径数目来刻画节点重要性的指标。一个义原节点的介性中心度较高,说明其被相似词语共享的可能性越大。
结合义原节点的标准化度中心性和介性中心度,计算义原节点的推荐指数:
R(vi)=Cd(vi)×log(Cb(vi)+1)
在协同推荐的框架下,以相似词语集合为桥梁建立了未登录词与义原的关联关系,基于上述义原节点的推荐指数完成未登录词的候选义原的排序选择。
新词概念义原推荐任务的目标是为HowNet中未登录的概念推荐合适的义原,因此,需要找到一种义原未知概念与义原已知概念之间的相似度计算模型。由于概念以词的形式表现,上述问题可转换为未登录词语与词表词的相似度计算问题。
与一般的词语相似度计算不同,一方面,基于相似性同构假设,相似性的判别是以基于HowNet的词语相似度计算结果为标准;另一方面,参与相似性判别的词语由未登录词(OOV)和HowNet词表词(IV)构成,对于IV而言,构成其概念描述Def的义原集合是已知的,可以被用来提升模型的收敛性。
相似性判别模型的整体框架如图3右侧部分所示。该模型把输入的新词和词表词对应的字序列分别输入到两个SaBERT模型,获得融入义原序列信息的语义表示向量,然后通过CNN分类模型完成未登录词与词表词的相似性判别。
其中,义原注意力模型SaBERT的结构如图4所示,SaBERT首先将词表词的概念描述Def所对应的义原树进行先序遍历,得到义原中文词序列SL;然后将义原序列SL经S-BERT得到其向量表示ESL;将ESL与词语中每个字经过BERT后得到的隐藏层向量hci进行拼接,然后再接一个激活函数为tanh的全连接层,其中参数矩阵w1∈R2d×n,并通过softmax得到各个字向量的权重向量α;最后通过向量加权和得到词语的最终向量表示e。
a=softmax(tanh(w1[ESL;hci]))
在模型训练的过程中,为了使模型的预测结果能够逼近基于知网义原的相似度计算结果,即达到“相似性同构”的目的,本文利用了经典HowNet语义相似度计算模型作为相似性判别的标准模型。经典HowNet语义相似度计算结果为[0,1]连续实数,对其计算结果的分析发现,相似词语之间计算相似度的结果值在[0.9,1.0]、[0.8,0.9)、[0.7,0.8)和[0.0,0.7)区间上的比例约为6:2:1:1。由于本文进行词语相似度计算的目的是面向候选义原集合的构建进行相似词语的选择,因此,为提高相似词选择的质量,这里本发明将相似性判别问题看作以0.9为分类阈值的二分类问题,通过离散化处理将连续相似度值转换为相似程度判别标记,采用交叉熵损失函数完成模型训练。
本发明提出了语义相似关系的异构问题,假设与HowNet基于义原的语义相似性度量具有一致性的词语相似度判别模型能更有效地为新词推荐义原。基于这种假设,以相似性同构为目标,融合义原注意力对预训练语言模型进行优化。本发明可以有效解决未登录词与词表词的相似性判别问题。在基于协同过滤框架的义原推荐任务中进行的实验表明,相似性同构程度与义原推荐效果成正相关,表明了上述将相似性同构作为模型优化目标的合理性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种面向新词义原推荐的相似性判别方法,其特征在于,包括以下步骤:
在HowNet的词表词集合中,通过相似性判别模型选择与新词相似的词语构成相似词集合,其中,新词表示在HowNet中的未登录词;
根据所述相似词集合的全部词语、词语对应的概念义项及其义原,构建局部“词语-义项-义原”关系网络;
基于网络节点重要性排序方法进行义原节点的选择,根据所述义原节点的标准化度中心性和介性中心度,生成所述义原节点的推荐指数,评估义原节点的重要度,以相似词语集合为桥梁建立了未登录词与义原的关联关系,通过所述推荐指数完成未登录词的候选义原的排序选择,用于通过所述新词对HowNet进行扩展。
2.根据权利要求1所述一种面向新词义原推荐的相似性判别方法,其特征在于:
在获取HowNet的过程中,HowNet用于表示利用有限的义原描述无限的概念集合,其中,义原被划分为Entity|实体、Event|事件、Attribute|属性、Value|值以及SecondaryFeature|第二特征。
3.根据权利要求2所述一种面向新词义原推荐的相似性判别方法,其特征在于:
在使用相似性判别模型的过程中,所述相似性判别模型为基于BERT的相似性判别模型,通过词表词已知概念描述义原序列的注意力分布,以相似性同构为目标,对基于BERT的相似性判别模型进行优化,并通过优化后的相似性判别模型选择与新词相似的词语构成相似词集合。
4.根据权利要求3所述一种面向新词义原推荐的相似性判别方法,其特征在于:
在构成相似词集合的过程中,将所述新词和词表词对应的字序列分别输入到两个SaBERT模型,获得融入义原序列信息的语义表示向量;通过CNN分类模型完成未登录词与词表词的相似性判别,并构建所述相似词集合。
5.根据权利要求4所述一种面向新词义原推荐的相似性判别方法,其特征在于:
在获取语义表示向量的过程中,通过所述SaBERT模型,将词表词的概念描述义项Def所对应的义原树进行先序遍历,得到义原中文词序列SL;
将义原序列SL经S-BERT得到其向量表示ESL;
将ESL与词语中每个字经过BERT后得到的隐藏层向量hci进行拼接,再接一个激活函数为tanh的全连接层,其中,参数矩阵w1∈R2d×n,并通过softmax得到各个字向量的权重向量α;
通过向量加权和得到词语的最终向量表示e。
6.根据权利要求5所述一种面向新词义原推荐的相似性判别方法,其特征在于:
在对基于BERT的相似性判别模型进行优化的过程中,将相似性判别问题看作以0.9为分类阈值的二分类问题,通过离散化处理将连续相似度值转换为相似程度判别标记,采用交叉熵损失函数完成模型训练。
7.根据权利要求6所述一种面向新词义原推荐的相似性判别方法,其特征在于:
在评估义原节点的重要度的过程中,所述标准化度中心性的测量公式为:
Cd(vi)=∑jxij/max(Cd(vj)),i≠j∈N
其中,xij=1表示节点i与节点j之间存在直接联系,否则,xij=0;N为网络中全部节点的集合。
9.根据权利要求8所述一种面向新词义原推荐的相似性判别方法,其特征在于:
在获取推荐指数的过程中,所述推荐指数表示为:
R(vi)=Cd(vi)=log(Cb(vi)+1)。
10.一种面向新词义原推荐的相似性判别系统,其特征在于,所述相似性判别系统用于通过获取新词对HowNet进行扩展,包括:
数据检索模块,用于在HowNet的词表词集合中,通过相似性判别模型选择与新词相似的词语构成相似词集合,其中,新词表示在HowNet中的未登录词;
数据处理模块,用于根据所述相似词集合的全部词语、词语对应的概念义项及其义原,构建局部“词语-义项-义原”关系网络;
扩展模块,用于基于网络节点重要性排序方法进行义原节点的选择,根据所述义原节点的标准化度中心性和介性中心度,生成所述义原节点的推荐指数,评估义原节点的重要度,以相似词语集合为桥梁建立了未登录词与义原的关联关系,通过所述推荐指数完成未登录词的候选义原的排序选择。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211702267.6A CN115859963A (zh) | 2022-12-29 | 2022-12-29 | 一种面向新词义原推荐的相似性判别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211702267.6A CN115859963A (zh) | 2022-12-29 | 2022-12-29 | 一种面向新词义原推荐的相似性判别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115859963A true CN115859963A (zh) | 2023-03-28 |
Family
ID=85655682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211702267.6A Pending CN115859963A (zh) | 2022-12-29 | 2022-12-29 | 一种面向新词义原推荐的相似性判别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115859963A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117610579A (zh) * | 2024-01-19 | 2024-02-27 | 卓世未来(天津)科技有限公司 | 基于长短时记忆网络的语义分析方法及系统 |
-
2022
- 2022-12-29 CN CN202211702267.6A patent/CN115859963A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117610579A (zh) * | 2024-01-19 | 2024-02-27 | 卓世未来(天津)科技有限公司 | 基于长短时记忆网络的语义分析方法及系统 |
CN117610579B (zh) * | 2024-01-19 | 2024-04-16 | 卓世未来(天津)科技有限公司 | 基于长短时记忆网络的语义分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108573411B (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
CN111488734B (zh) | 基于全局交互和句法依赖的情感特征表示学习系统及方法 | |
Tang et al. | Sentiment embeddings with applications to sentiment analysis | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN108681557B (zh) | 基于自扩充表示和相似双向约束的短文本主题发现方法及系统 | |
RU2679988C1 (ru) | Извлечение информационных объектов с помощью комбинации классификаторов | |
CN102123172B (zh) | 一种基于神经网络聚类优化的Web服务发现的实现方法 | |
CN112001186A (zh) | 一种利用图卷积神经网络和中文句法的情感分类方法 | |
Zhang et al. | STCS lexicon: Spectral-clustering-based topic-specific Chinese sentiment lexicon construction for social networks | |
CN107688870A (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN111190968A (zh) | 基于知识图谱的数据预处理和内容推荐方法 | |
US10198497B2 (en) | Search term clustering | |
Liu et al. | Open intent discovery through unsupervised semantic clustering and dependency parsing | |
CN113779264A (zh) | 基于专利供需知识图谱的交易推荐方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN115391570A (zh) | 一种基于方面的情感知识图谱构建方法及装置 | |
CN114743029A (zh) | 一种图像文本匹配的方法 | |
CN113434659B (zh) | 一种在协同设计过程中隐性冲突感知方法 | |
CN115859963A (zh) | 一种面向新词义原推荐的相似性判别方法及系统 | |
Wu et al. | A novel topic clustering algorithm based on graph neural network for question topic diversity | |
Yin et al. | Two-stage Text-to-BIMQL semantic parsing for building information model extraction using graph neural networks | |
CN114444515A (zh) | 一种基于实体语义融合的关系抽取方法 | |
CN112417170B (zh) | 面向不完备知识图谱的关系链接方法 | |
CN114239828A (zh) | 一种基于因果关系的供应链事理图谱构建方法 | |
CN113821588A (zh) | 文本处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |