CN113742494B - 一种基于标签图转化的领域文本相似度计算方法及系统 - Google Patents

一种基于标签图转化的领域文本相似度计算方法及系统 Download PDF

Info

Publication number
CN113742494B
CN113742494B CN202111040367.2A CN202111040367A CN113742494B CN 113742494 B CN113742494 B CN 113742494B CN 202111040367 A CN202111040367 A CN 202111040367A CN 113742494 B CN113742494 B CN 113742494B
Authority
CN
China
Prior art keywords
knowledge graph
node
text
graph
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111040367.2A
Other languages
English (en)
Other versions
CN113742494A (zh
Inventor
程戈
张冬良
廖永安
侯壹凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN202111040367.2A priority Critical patent/CN113742494B/zh
Publication of CN113742494A publication Critical patent/CN113742494A/zh
Application granted granted Critical
Publication of CN113742494B publication Critical patent/CN113742494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于图数据处理领域,公开了一种基于标签图转化的领域文本相似度计算方法及系统,方法包括:从每个待计算相似度的领域文本中抽取实体和关系以构建知识图谱;知识图谱表征初始化,获得实体和关系的表征向量;将待转化的知识图谱中的关系转化为节点,得到无标签化知识图谱;无标签化知识图谱节点表征向量赋值;构建无标签化知识图谱相似度计算模型,对无标签化知识图谱进行特征提取,并计算领域文本相似度。有效提升了领域文本相似度计算的准确度。

Description

一种基于标签图转化的领域文本相似度计算方法及系统
技术领域
本发明属于图数据处理领域,尤其涉及一种基于标签图转化的领域文本相似度计算方法及系统。
背景技术
在自然语言处理(Natural Language Processing,NLP)中,经常会涉及度量两个文本相似度问题,用于判定两篇文章是否相似。比如在对话系统中,系统会准备一些经典问题和对应答案,当用户的问题和经典问题很相似时,系统直接返回准备好的答案。又如在各类搜索引擎类似文章推荐、购物网站类似商品推荐等,均是采用了文本相似度计算技术。总之,文本相似度计算是自然语言处理领域研究中的基础问题,在信息检索、文本分类、文档聚类、主题检测、主题跟踪、问题生成、问答、短文本评分、机器翻译、文本摘要等场景中有广泛应用。因此当前对于文本相似度度量的方法也较多和成熟,比如传统相似度的计算采取编辑距离算法、余弦法、SimHash法等。
当前的文本相似度计算方法,在应用于专业领域文本相似度计算时仍有不足。领域文本是一种增强了文本表示能力特殊文本,有很强的特殊性、专业性、严谨性、冗余性等性质,通常是一种长文本,包含有多个要素,且要素之间存在复杂的关联关系,蕴含了大量知识。而现有的文本相似度计算方法缺乏领域知识和概念层次知识的指导,存在长距离依赖问题,难以实现对领域长文本表征,因此文本相似度计算效果不佳,有必要考虑专业领域知识对相关技术的不同需求。
在领域文本相似度计算方法中,知识图谱是一种结构化的知识表示方法,作为一种标签图,它由大量三元组(头实体,关系,尾实体)构成,表示为(h,r,t),其中关系r建模两个实体之间的关系,能充分表示领域文本中蕴含的知识,是在编码许多领域中具有关系结构的自然表示。因此人们当前研究较多,提出了大量算法,例如图卷积,可以对无标签图进行特征提取,以解决各种下游问题。但是知识图谱和无标签图之间的结构差异,导致无法将先进的无标签图算法应用于知识图谱,并且目前没有一种能既保存知识图谱结构和语义又能将知识图谱转换为无标签图的方法应于领域文本相似度计算,现有技术有必要改进。
发明内容
本发明所要解决的计算问题是克服现有领域文本相似度计算方法,不能同时保存知识图谱结构及语义信息和将知识图谱转换为无标签图,导致相似度计算效果不佳的问题。
为解决上述问题,本发明提供一种基于标签图转化的领域文本相似度计算方法,其特征在于,包括如下步骤:
S1.从每个待计算相似度的领域文本中抽取实体和关系以构建知识图谱;
S2.知识图谱表征初始化,获得实体和关系的表征向量;
S3.对知识图谱进行无标签化转换,将待转化的知识图谱中的关系转化为节点,得到无标签化知识图谱;
S4.无标签化知识图谱节点表征向量赋值;
S5.构建无标签化知识图谱相似度计算模型,对无标签化知识图谱进行特征提取,并计算领域文本相似度。
作为优选,步骤S1具体为:使用实体关系联合抽取方法从领域文本中抽取实体和关系,以构建三元组(h,r,t),然后对三元组进行连接,实现针对领域文本T构建知识图谱G=(V,E)。
作为优选,步骤S2具体为:使用知识图谱表征算法进行表征学习,使用捕捉所述知识图谱的实体和关系语义的自然语言预训练模型或者捕捉所述知识图谱结构信息的平移模型得到所述实体和所述关系的表征向量。
作为优选,步骤S3具体为:知识图谱是一种节点和边都具有标签的图,将所述知识图谱转化为仅有所述节点具有标签的图,所述标签包括:文本、数值等信息;所述知识图谱中的实体和关系可以表示成(h,r,t),将所述关系r节点化为noder,作为所述无标签化知识图谱的边节点,将所述实体h和t直接作为所述无标签化知识图谱的实体节点nodeh和nodet,然后增加两条无标签的边(nodeh,noder)和(noder,nodet)将所述节点nodeh、noder和nodet连接起来;所述增加两条无标签的边,在所述知识图谱的所述关系是有向边时,增加的所述两条无标签边和所述关系的方向相同,在所述知识图谱的所述关系是无向边时,增加的所述两条无标签边也是无向的。
作为优选,步骤S4具体为:将所述知识图谱中的实体的表征向量赋值给所述实体节点;将所述知识图谱中的关系的表征向量赋值给所述边节点,即
作为优选,步骤S5具体为:基于图神经网络构建领域文本相似度计算模型可分为信息传播层和信息聚合层,信息传播层的作用是进行信息传播,以更新每个节点的表示,即将节点表示映射为新的节点表示/>信息聚合层的作用是计算图级别表征hG
步骤S1实现方式如下:
S11.将三元组抽取问题转换为序列标注问题,使用Bi-LSTM作为序列编码器捕获领域文本中每个词的语义,通过独热编码和嵌入层,领域文本中的词序列可以表示为 每个词wt都是一个d维向量,将W输入序列编码器得到上下文信息:
ht=ottanh(ct)
其中,ot为输出门,ct表示词t的嵌入向量,联结双向的词嵌入获得隐藏状态
S12.使用LSTM作为解码器,解码器的输出为:
Tt=W1ht+b1
S13.基于标签预测向量Tt计算领域文本中每个词的归一化标签概率:
yt=W2Tt+b2
其中,N为标签总数,W1、b1、W2、b2为参数,pt为标签概率;
S14.从获得的领域文本中每个词的标签概率pt,选定概率值最大的对应的标签作为该词的标签,然后将具有相同关系的实体合并为一个三元组,不同三元组存在相同的头实体或尾实体,因此三元组可以相互连接构成知识图谱G。
在本发明中,步骤S2实现方式如下:
S21.使用捕捉所述知识图谱的实体和关系语义的自然语言预训练模型,所述每个实体或关系的表征向量计算如下:
S211.文本标签token化:将所述知识图谱中的每个实体或关系的标签文本标识化成token序列,token序列长度为m,设定最长token序列长度为n,由于每个所述实体或关系的文本标签生成token的个数不同,需要给token序列长度小于n的token序列长度增加n-m个[PAD]以保证每个文本标签token序列的个数相同,最后在token序列前加上[CLS],序列后加上[SEP]得到文本标签的token序列;
S212.获取每个token的id:根据所述预训练语言模型给定的词表,所述token在词表中的顺序位置即为该token的id,得到token_id序列;
S213.获取每个token的类型:为得到整个所述实体或关系的文本表征,因此给每个token的类型赋值为0,得到token_type序列;
S214.获取每个token的attention_mask值:所述文本标签的token序列中的每个[PAD]的attention_mask赋值为0,其他token的attention_mask赋值为1,得到attention_mask序列;
S215.使用BERT将步骤S211-S214获得的结果组织成字典输入预训练模型,获得了知识图谱中三元组的实体h、实体t和关系r的表征向量,分别为vh、vr、vt
S22.使用捕捉所述知识图谱图结构信息的平移模型,所述每个实体或关系的表征向量计算如下:
S221.给所述知识图谱中的每个实体分配一个ide
S222.给所述知识图谱中的每个关系分配一个idr
S223.将所述知识图谱中的所有三元组(h,r,t)中的实体和关系替换为对应的id值;
S224.使用TransE对所述替换为id值的三元组进行训练,训练目标尽可能使得vh+vr=vt
在本发明中,步骤S5实现方式如下:
其中,i∈V表示节点,Vi表示节点i邻域节点的集合,j∈Vi表示节点j是节点i的邻域节点,它们对应的节点表示分别为vi和vj;mj→i表示将节点i的邻域节点的信息传播到该节点,fmessage表示单层的神经网络,实现对传播信息进行特征变换;表示结合自身信息和传播信息使用fnode进行特征变换得到节点i新的节点表示;
信息聚合层的作用是在经历T轮信息传播之后,每个节点均接受到T跳节点的信息得到节点表示然后将每个节点的节点表示作为输入计算图级别表示:
针对领域文本相似度计算问题,数据集中的每条数据通常由文本三元组构成(Ti,Tj,Tk),文本Ti和Tj之间的相似度大于Ti和Tk,即:similar(Ti,Tj)>similar(Ti,Tk);通过步骤S1,文本三元组转化为知识图谱三元组(Gi,Gj,Gk);因此,文本相似度问题转化为知识图谱相似度计算问题,由此优化目标为:
其中,γ>0为阈值,是欧几里得距离,定义为:
作为优选,所述的步骤S3还包括,对所述无标签化知识图谱进行泛化,以提升所述无标签化知识图谱的表达能力。
本发明提供的第二种实施方案,一种基于标签图转化的领域文本相似度计算系统,包括知识图谱构建模块、知识图谱表征初始化模块、知识图谱无标签化模块、无标签化知识图谱节点赋值模块、领域文本相似度计算模块,其中:
知识图谱构建模块用于从每个领域文本中抽取实体和关系,以表示领域文本中的要素及要素间关系;
知识图谱表征初始化模块用于计算知识图谱中实体和关系的初始化表征向量;
知识图谱无标签化模块用于将知识图谱中的关系节点化,实现知识图谱转换为无标签化知识图谱;
无标签化知识图谱节点赋值模块用于使得无标签化知识图谱的节点获得特征表示;
领域文本相似度计算模块使用图神经网络对无标签化知识图谱进行特征提取,并计算领域文本相似度。
作为优选,所述的知识图谱无标签化模块还包括对无标签化知识图谱进行泛化,提升知识图谱的知识表达能力。
本发明的有益效果在于:一是在领域文本表示方面,本发明提出了采用结构化的形式表达了领域文本,在构建领域知识图谱的过程中融入了领域知识和概念知识,增强了理解领域文本核心语义的能力。二是在知识表示方面,本发明提出了知识图谱无标签化转换方法和知识图谱泛化方法,转换后的无标签图保留原有知识图谱的语义信息和图结构信息,强化了知识图谱的计算的能力和知识表达能力。
附图说明
图1为本发明一个实施例基于标签图转化的领域文本相似度计算方法的流程示意图。
图2为本发明一个实施例基于标签图转化的领域文本相似度计算系统的示意图。
图3为本发明一个实施例使用实体关系联合抽取方法从案件中抽取实体和关系示意图。
图4为本发明一个实施例构建的案件知识图谱示意图。
图5为本发明一个实施例将知识图谱表征初始化获得实体和关系的表征向量示意图。
图6为本发明一个实施例知识图谱关系节点化示意图。
图7为本发明一个实施例对无标签化案件知识图谱进行泛化示意图。
具体实施方式
为了能够更清楚地说明本发明的目的、实施方案和优点,下面将对本发明的技术方案进行清楚、完整的描述。显然,所描述的实施例是本发明的一部分实施例,对于本领域普通技术人员来讲,不需要创造性的劳动就可以获得其他实施例,都属于本发明的保护范围。
如图1所示,一种基于标签图转化的领域文本相似度计算方法,包括如下步骤:
S1.从每个待计算相似度的领域文本中抽取实体和关系以构建案件知识图谱:
使用实体关系联合抽取方法从领域文本中抽取实体和关系,以构建三元组(h,r,t),然后对三元组进行连接,实现针对领域文本T构建知识图谱G=(V,E);
S2.知识图谱表征初始化,获得实体和关系的表征向量:
使用知识图谱表征算法进行表征学习,使用捕捉所述知识图谱的实体和关系语义的自然语言预训练模型或者捕捉所述知识图谱结构信息的平移模型得到所述实体和所述关系的表征向量;
S21.使用捕捉所述知识图谱的实体和关系语义的自然语言预训练模型,所述每个实体或关系的表征向量计算如下:
S211.文本标签token化:将所述知识图谱中的每个实体或关系的标签文本标识化成token序列,token序列长度为m,设定最长token序列长度为n,由于每个所述实体或关系的文本标签生成token的个数不同,需要给token序列长度小于n的token序列长度增加n-m个[PAD]以保证每个文本标签token序列的个数相同,最后在token序列前加上[CLS],序列后加上[SEP]得到文本标签的token序列;
S212.获取每个token的id:根据所述预训练语言模型给定的词表,所述token在词表中的顺序位置即为该token的id,得到token_id序列;
S213.获取每个token的类型:为得到整个所述实体或关系的文本表征,因此给每个token的类型赋值为0,得到token_type序列;
S214.获取每个token的attention_mask值:所述文本标签的token序列中的每个[PAD]的attention_mask赋值为0,其他token的attention_mask赋值为1,得到attention_mask序列;
S215.使用BERT将步骤S211-S214获得的结果组织成字典输入预训练模型,获得了知识图谱中三元组的实体h、实体t和关系r的表征向量,分别为vh、vr、vt
S22.使用捕捉所述知识图谱图结构信息的平移模型,所述每个实体或关系的表征向量计算如下:
S221.给所述知识图谱中的每个实体分配一个ide
S222.给所述知识图谱中的每个关系分配一个idr
S223.将所述知识图谱中的所有三元组(h,r,t)中的实体和关系替换为对应的id值;
S224.使用TransE对所述替换为id值的三元组进行训练,训练目标尽可能使得vh+vr=vt
S3.对知识图谱进行无标签化转换,将待转化的知识图谱中的关系转化为节点,得到无标签化知识图谱:
知识图谱是一种节点和边都具有标签的图,将所述知识图谱转化为仅有所述节点具有标签的图,所述标签包括:文本、数值等信息;所述知识图谱中的实体和关系可以表示成(h,r,t),将所述关系r节点化为noder,作为所述无标签化知识图谱的边节点,将所述实体h和t直接作为所述无标签化知识图谱的实体节点nodeh和nodet,然后增加两条无标签的边(nodeh,noder)和(noder,nodet)将所述节点nodeh、noder和nodet连接起来;所述增加两条无标签的边,在所述知识图谱的所述关系是有向边时,增加的所述两条无标签边和所述关系的方向相同,在所述案件知识图谱的所述关系是无向边时,增加的所述两条无标签边也是无向的;
作为一种改进,对所述无标签化知识图谱进行泛化,以提升所述无标签化知识图谱的表达能力。
S4.无标签化知识图谱节点表征向量赋值;
将所述知识图谱中的实体的表征向量赋值给所述实体节点;将所述知识图谱中的关系的表征向量赋值给所述边节点,即
S5.构建无标签化知识图谱相似度计算模型,对无标签化知识图谱进行特征提取,并计算领域文本相似度:
基于图神经网络构建领域文本相似度计算模型可分为信息传播层和信息聚合层,信息传播层的作用是进行信息传播,以更新每个节点的表示,即将节点表示映射为新的节点表示/>具体实现如下:
其中,i∈V表示节点,Vi表示节点i邻域节点的集合,j∈Vi表示节点j是节点i的邻域节点,它们对应的节点表示分别为vi和vj;mj→i表示将节点i的邻域节点的信息传播到该节点,fmessage表示单层的神经网络,实现对传播信息进行特征变换;表示结合自身信息和传播信息使用fnode进行特征变换得到节点i新的节点表示;
信息聚合层的作用是在经历T轮信息传播之后,每个节点均接受到T跳节点的信息得到节点表示然后将每个节点的节点表示作为输入计算图级别表示:
针对领域文本相似度计算问题,数据集中的每条数据通常由文本三元组构成(Ti,Tj,Tk),文本Ti和Tj之间的相似度大于Ti和Tk,即:similar(Ti,Tj)>similar(Ti,Tk);通过步骤S1,案件三元组转化为知识图谱三元组(Gi,Gj,Gk)。因此,文本相似度问题转化为知识图谱相似度计算问题,由此优化目标为:
其中,γ>0为阈值,是欧几里得距离,定义为:
前述方法中,步骤S1实现方式如下:
S11.将三元组抽取问题转换为序列标注问题,使用Bi-LSTM作为序列编码器捕获领域文本中每个词的语义,通过独热编码和嵌入层,领域文本中的词序列可以表示为 每个词wt都是一个d维向量,将W输入序列编码器得到上下文信息:
ht=ottanh(ct)
其中,ot为输出门,ct表示词t的嵌入向量,联结双向的词嵌入获得隐藏状态
S12.使用LSTM作为解码器,解码器的输出为:
Tt=W1ht+b1
S13.基于标签预测向量Tt计算领域文本中每个词的归一化标签概率:
yt=W2Tt+b2
其中,N为标签总数,W1、b1、W2、b2为参数,pt为标签概率;
S14.从获得的领域文本中每个词的标签概率pt,选定概率值最大的对应的标签作为该词的标签,然后将具有相同关系的实体合并为一个三元组,不同三元组存在相同的头实体或尾实体,因此三元组可以相互连接构成知识图谱G;
如图2所示,一种基于标签图转化的领域文本相似度计算系统,包括知识图谱构建模块、知识图谱表征初始化模块、知识图谱无标签化模块、无标签化知识图谱节点赋值模块、领域文本相似度计算模块,其中:
知识图谱构建模块用于从每个领域文本中抽取实体和关系,以表示领域文本中的要素及要素间关系;
知识图谱表征初始化模块用于计算知识图谱中实体和关系的初始化表征向量;
知识图谱无标签化模块用于将知识图谱中的关系节点化,实现知识图谱转换为无标签化知识图谱。对无标签化知识图谱进行泛化,提升知识图谱的知识表达能力;
无标签化知识图谱节点赋值模块用于使得无标签化知识图谱的节点获得特征表示;
领域文本相似度计算模块使用图神经网络对无标签化知识图谱进行特征提取,并计算领域文本相似度。
实施例1:
应用实施例:
原告:武某1。被告:某某公司。法定代表人:林某1。被告:林某1。被告:赵某1。武某1向本院提出的诉讼请求:1.要求被告某某公司、林某1偿还原告借款及利息。2.要求被告赵某1对借款本息承担连带清偿责任。3.三被告承担本案诉讼费。事实与理由:被告某某公司的法定代表人林某1向原告武某1借款,并出具借条及借款协议,由被告赵某1为借款担保。借款到期后,原告向被告催要,被告未偿还本金及利息。故要求三被告偿还本笔借款本息。被告赵某1对原告的诉讼请求及事实理由均无异议。被告某某公司、林某1经传票传唤,无正当理由拒不到庭,亦未向本庭提交答辩状及证据。本院经审理认定的事实如下:原告武某1经亲戚介绍认识被告林某1,林某1称某某公司经营周转所需多次向原告借款,双方在某某公司将借条汇总,并对借款本息结算后,重新出具借条和借款协议,协议上约定借款金额。被告林某1在借条、借款担保协议上借款人一栏签名并加盖个人印章,被告赵某1在借款协议保证人一栏签字并加盖个人印章。借条和借款协议上均加盖有被告某某公司的财务印章。
如图1所示,为本发明提供的基于标签图转化的领域文本相似度计算方法的流程示意图,本实施例中,领域文本具体为案件文本,该方法包括以下步骤:
步骤1:从每个待计算相似度的案件中抽取实体和关系以构建案件知识图谱。具体方式为:
使用实体关系联合抽取方法从案件中抽取实体和关系,以构建三元组(h,r,t),然后对三元组进行连接,实现针对案件T构建案情知识图谱G=(V,E)。具体方式如下:
实体关系联合抽取方法基于关系定义了头实体标签和尾实体标签,将三元组抽取问题转换为序列标注问题,如图3所示。首先使用Bi-LSTM作为序列编码器捕获案件中每个词的语义,通过独热编码和嵌入层,案件描述文本中的词序列可以表示为每个词wt都是一个d维向量,将W输入序列编码器得到上下文信息:
ht=ottanh(ct)
其中,ot为输出门,ct表示词t的嵌入向量,联结双向的词嵌入获得隐藏状态然后使用LSTM作为解码器,解码器的输出为:
Tt=W1ht+b1
最后基于标签预测向量Tt计算案件描述文本中每个词的归一化标签概率:
yt=W2Tt+b2
其中,N为标签总数,W1、b1、W2、b2为参数,pt为标签概率。
通过上述方法,获得了案件描述文本中每个词的标签概率pt,选定概率值最大的对应的标签作为该词的标签,然后将具有相同关系的实体合并为一个三元组,不同三元组存在相同的头实体或尾实体,因此三元组可以相互连接构成案件知识图谱G,针对上述案例,采用上述方法构建的案件知识图谱如图4所示。
步骤2:案件知识图谱表征初始化,获得实体和关系的表征向量:
使用知识图谱表征算法进行表征学习,使用捕捉所述案件知识图谱的实体和关系语义的自然语言预训练模型或者捕捉所述案件知识图谱结构信息的平移模型得到所述实体和所述关系的表征向量。如图5所示,具体方式为:
首先使用捕捉所述案件知识图谱的实体和关系语义的自然语言预训练模型,所述每个实体或关系的表征向量计算包括以下步骤:
1)文本标签token化:将所述案件知识图谱中的每个实体或关系的标签文本标识化成token序列,token序列长度为m,设定最长token序列长度为n,由于每个所述实体或关系的文本标签生成token的个数不同,需要给token序列长度小于n的token序列长度增加n-m个[PAD]以保证每个文本标签token序列的个数相同,最后在token序列前加上[CLS],序列后加上[SEP]得到文本标签的token序列;
2)获取每个token的id:根据所述预训练语言模型给定的词表,所述token在词表中的顺序位置即为该token的id,得到token_id序列;
3)获取每个token的类型:本实施例希望得到整个所述实体或关系的文本表征,因此给每个token的类型赋值为0,得到token_type序列;
4)获取每个token的attention_mask值:所述文本标签的token序列中的每个[PAD]的attention_mask赋值为0,其他token的attention_mask赋值为1,得到attention_mask序列;
5)使用BERT将1-4步获得的结果组织成字典输入预训练模型,本实施例仅使用[CLS]的表征向量作为所述实体或关系的表征。
通过上述5个步骤,获得了案件知识图谱中三元组的实体h、实体t和关系r的表征向量,分别为vh、vr、vt。然后使用捕捉所述知识图谱图结构信息的平移模型,所述每个实体或关系的表征向量计算包括以下步骤:
1)给所述知识图谱中的每个实体分配一个ide
2)给所述知识图谱中的每个关系分配一个idr
3)将所述知识图谱中的所有三元组(h,r,t)中的实体和关系替换为对应的id值;
4)使用TransE对所述替换为id值的三元组进行训练,训练目标尽可能使得vh+vr=vt
通过上述4个步骤,对使用BERT获得的实体关系向量进行训练,更新实体关系的向量表示,使得向量表示vh、vr、vt融入了案件知识图谱的结构信息。
步骤3:对案件知识图谱进行无标签化转换,将待转化的案件知识图谱中的关系转化为节点,得到无标签化案件知识图谱。具体方式为:
知识图谱是一种节点和边都具有标签的图,将所述知识图谱转化为仅有所述节点具有标签的图,所述标签包括:文本、数值等信息。所述知识图谱中的实体和关系可以表示成(h,r,t),将所述关系r节点化为noder,作为所述无标签化案件知识图谱的边节点,将所述实体h和t直接作为所述无标签化案件知识图谱的实体节点nodeh和nodet,然后增加两条无标签的边(nodeh,noder)和(noder,nodet)将所述节点nodeh、noder和nodet连接起来。所述增加两条无标签的边,在所述案件知识图谱的所述关系是有向边时,增加的所述两条无标签边和所述关系的方向相同,在所述案件知识图谱的所述关系是无向边时,增加的所述两条无标签边也是无向的。
如图6所示,针对三元组(被告,角色,林某1),关系节点化指的是将关系“角色”转化为节点,得到三个节点“被告”、“角色”和“林某1”,并且添加两条边将三个节点连接起来。
作为一种改进,对所述无标签化案件知识图谱进行泛化,以提升所述案件无标签化知识图谱的表达能力。
案件知识图谱作为一种所述标签图,部分节点出现多次,但是节点标签提供信息较少甚至影响图特征表达,因此,将这部分节点替换为该节点实体的上位概念。
针对上述案例构建的案件知识图谱中,如图7所示,出现多个涉案人节点,如:林某1、武某1、赵某1等,但是在所述相似案例匹配任务中不关心涉案人的姓名信息,仅比较各案件中的法律关系。因此为了提升图特征表达效果,将涉案人节点删除,用该涉案人的上位概念替代,删除该涉案人和其上位概念之间的关系节点。同时,部分属性节点在目标任务也影响了图特征表达,因此删除属性节点及相连接的边。
步骤4:无标签化知识图谱节点表征向量赋值;
将所述知识图谱中的实体的表征向量赋值给所述实体节点;将所述知识图谱中的关系的表征向量赋值给所述边节点,即
步骤5:构建无标签化案件知识图谱相似度计算模型,对无标签化案件知识图谱进行特征提取,并计算案件相似度。具体方式为:
基于图神经网络构建案件相似度计算模型可分为信息传播层和信息聚合层。
信息传播层的作用是进行信息传播,以更新每个节点的表示,即将节点表示映射为新的节点表示/>具体实现如下:
其中,i∈V表示节点,Vi表示节点i邻域节点的集合,j∈Vi表示节点j是节点i的邻域节点,它们对应的节点表示分别为vi和vj。mj→i表示将节点i的邻域节点的信息传播到该节点,fmessage表示单层的神经网络,实现对传播信息进行特征变换。表示结合自身信息和传播信息使用fnode进行特征变换得到节点i新的节点表示。
信息聚合层的作用是在经历T轮信息传播之后,每个节点均接受到T跳节点的信息得到节点表示然后将每个节点的节点表示作为输入计算图级别表示:
本实施例使用的相似案例匹配数据集中,每条数据由案件三元组构成(Ti,Tj,Tk),案件Ti和Tj之间的相似度大于Ti和Tk,即:similar(Ti,Tj)>similar(Ti,Tk)。通过步骤1提出的方法,对案件构建案件知识图谱,将案件三元组转化为案件知识图谱三元组(Gi,Gj,Gk)。因此,案件相似度问题转化为知识图谱相似度计算问题,由此优化目标为:
其中,γ>0为阈值,是欧几里得距离,定义为:
本实施例基于以上步骤,对相似案例匹配数据集进行实验验证,实验结果如表1所示。由于语篇高度程式化,具有冗余性、事件性、流程性和文本内容一般较长等特性,但事实要件分散于文本各处,相距较远,难以互相感知,导致了长距离依赖问题,并且难以实现对案件中蕴含的法律关系进行表示。本发明公开的方法实现了案件的结构化表示,扩展了司法文本缺失的领域知识和概念知识。基于预训练语言模型的文本相似度计算方法相比,准确率有显著提升。
表1
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制。本领域的普通技术人员可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换不需要花费创造性劳动。在不脱离本发明的原理和精神的情况下对实施方式进行变化、修改、替换仍落入本发明的保护范围。

Claims (12)

1.一种基于标签图转化的领域文本相似度计算方法,其特征在于,包括如下步骤:
S1.从每个待计算相似度的领域文本中抽取实体和关系以构建知识图谱;
S2.知识图谱表征初始化,获得实体和关系的表征向量;具体为:使用知识图谱表征算法进行表征学习,使用捕捉知识图谱的实体和关系语义的自然语言预训练模型得到所述实体和所述关系的表征向量;实现方式如下:
S21.使用捕捉知识图谱的实体和关系语义的自然语言预训练模型,所述每个实体或关系的表征向量计算如下:
S211.文本标签token化:将所述知识图谱中的每个实体或关系的标签文本标识化成token序列,token序列长度为m,设定最长token序列长度为n,由于每个所述实体或关系的文本标签生成token的个数不同,需要给token序列长度小于n的token序列长度增加n-m个[PAD]以保证每个文本标签token序列的个数相同,最后在token序列前加上[CLS],序列后加上[SEP]得到文本标签的token序列;
S212.获取每个token的id:根据自然语言预训练模型给定的词表,所述token在词表中的顺序位置即为该token的id,得到token_id序列;
S213.获取每个token的类型:为得到整个所述实体或关系的文本表征,因此给每个token的类型赋值为0,得到token_type序列;
S214.获取每个token的attention_mask值:所述文本标签的token序列中的每个[PAD]的attention_mask赋值为0,其他token的attention_mask赋值为1,得到attention_mask序列;
S215.使用BERT将步骤S211-S214获得的结果组织成字典输入自然语言预训练模型,获得了知识图谱中三元组的实体h、实体t和关系r的表征向量,分别为vh、vr、vt
S3.对知识图谱进行无标签化转换,将待转化的知识图谱中的关系转化为节点,得到无标签化知识图谱;具体为:知识图谱是一种节点和边都具有标签的图,将所述知识图谱转化为仅有所述节点具有标签的图,所述标签包括:文本、数值等信息;所述知识图谱中的实体和关系可以表示成(h,r,t),将所述关系r节点化为noder,作为所述无标签化知识图谱的边节点,将所述实体h和t直接作为所述无标签化知识图谱的实体节点,然后增加两条无标签的边(nodeh,noder)和(noder,nodet)将所述节点h、noder和t连接起来;所述增加两条无标签的边,在所述知识图谱的所述关系是有向边时,增加的所述两条无标签边和所述关系的方向相同,在所述知识图谱的所述关系是无向边时,增加的所述两条无标签边也是无向的;
S4.无标签化知识图谱节点表征向量赋值;
S5.构建无标签化知识图谱相似度计算模型,对无标签化知识图谱进行特征提取,并计算领域文本相似度;基于图神经网络构建领域文本相似度计算模型可分为信息传播层和信息聚合层;实现方式如下:
其中,i∈V表示节点,Vi表示节点i邻域节点的集合,j∈Vi表示节点j是节点i的邻域节点,它们对应的节点表示分别为vi和vj;mj→i表示将节点i的邻域节点的信息传播到该节点,fmessage表示单层的神经网络,实现对传播信息进行特征变换;表示结合自身信息和传播信息使用fnode进行特征变换得到节点i新的节点表示;
信息聚合层的作用是在经历T轮信息传播之后,每个节点均接受到T跳节点的信息得到节点表示然后将每个节点的节点表示作为输入计算图级别表示:
针对领域文本相似度计算问题,数据集中的每条数据通常由文本三元组构成(Ti,Tj,Tk),文本Ti和Tj之间的相似度大于Ti和Tk,即:similar(Ti,Tj)>similar(Ti,Tk);通过步骤S1,文本三元组转化为知识图谱三元组(Gi,Gj,Gk);因此,文本相似度问题转化为知识图谱相似度计算问题,由此优化目标为:
其中,γ>0为阈值,是欧几里得距离,定义为:
2.根据权利要求1所述的领域文本相似度计算方法,其特征在于,步骤S1具体为:使用实体关系联合抽取方法从领域文本中抽取实体和关系,以构建三元组(h,r,t),然后对三元组进行连接,实现针对领域文本T构建知识图谱G=(V,E)。
3.根据权利要求1所述的领域文本相似度计算方法,其特征在于,步骤S4具体为:将所述知识图谱中的实体的表征向量赋值给所述实体节点;将所述知识图谱中的关系的表征向量赋值给所述边节点,即
4.根据权利要求2所述的领域文本相似度计算方法,其特征在于,步骤S1实现方式如下:
S11.将三元组抽取问题转换为序列标注问题,使用Bi-LSTM作为序列编码器捕获领域文本中每个词的语义,通过独热编码和嵌入层,领域文本中的词序列可以表示为 每个词wt都是一个d维向量,将W输入序列编码器得到上下文信息:
ht=ottanh(ct)
其中,ot为输出门,ct表示词t的嵌入向量,联结双向的词嵌入获得隐藏状态
S12.使用LSTM作为解码器,解码器的输出为:
Tt=W1ht+b1
S13.基于标签预测向量Tt计算领域文本中每个词的归一化标签概率:
yt=W2Tt+b2
其中,N为标签总数,W1、b1、W2、b2为参数,pt为标签概率;
S14.从获得的领域文本中每个词的标签概率pt,选定概率值最大的对应的标签作为该词的标签,然后将具有相同关系的实体合并为一个三元组,不同三元组存在相同的头实体或尾实体,因此三元组可以相互连接构成知识图谱G。
5.根据权利要求1-4中任一项所述的领域文本相似度计算方法,其特征在于,所述的步骤S3还包括,对所述无标签化知识图谱进行泛化,以提升所述无标签化知识图谱的表达能力。
6.一种基于标签图转化的领域文本相似度计算方法,其特征在于,包括如下步骤:
S1.从每个待计算相似度的领域文本中抽取实体和关系以构建知识图谱;
S2.知识图谱表征初始化,获得实体和关系的表征向量;具体为:使用知识图谱表征算法进行表征学习,使用捕捉知识图谱的结构信息的平移模型得到所述实体和所述关系的表征向量;实现方式如下:
S22.使用捕捉知识图谱图的结构信息的平移模型,所述每个实体或关系的表征向量计算如下:
S221.给所述知识图谱中的每个实体分配一个ide
S222.给所述知识图谱中的每个关系分配一个idr
S223.将所述知识图谱中的所有三元组(h,r,t)中的实体和关系替换为对应的id值;
S224.使用TransE对所述替换为id值的三元组进行训练,训练目标尽可能使得vh+vr=vt
S3.对知识图谱进行无标签化转换,将待转化的知识图谱中的关系转化为节点,得到无标签化知识图谱;具体为:知识图谱是一种节点和边都具有标签的图,将所述知识图谱转化为仅有所述节点具有标签的图,所述标签包括:文本、数值等信息;所述知识图谱中的实体和关系可以表示成(h,r,t),将所述关系r节点化为noder,作为所述无标签化知识图谱的边节点,将所述实体h和t直接作为所述无标签化知识图谱的实体节点,然后增加两条无标签的边(nodeh,noder)和(noder,nodet)将所述节点h、noder和t连接起来;所述增加两条无标签的边,在所述知识图谱的所述关系是有向边时,增加的所述两条无标签边和所述关系的方向相同,在所述知识图谱的所述关系是无向边时,增加的所述两条无标签边也是无向的;
S4.无标签化知识图谱节点表征向量赋值;
S5.构建无标签化知识图谱相似度计算模型,对无标签化知识图谱进行特征提取,并计算领域文本相似度;基于图神经网络构建领域文本相似度计算模型可分为信息传播层和信息聚合层;实现方式如下:
其中,i∈V表示节点,Vi表示节点i邻域节点的集合,j∈Vi表示节点j是节点i的邻域节点,它们对应的节点表示分别为vi和vj;mj→i表示将节点i的邻域节点的信息传播到该节点,fmessage表示单层的神经网络,实现对传播信息进行特征变换;表示结合自身信息和传播信息使用fnode进行特征变换得到节点i新的节点表示;
信息聚合层的作用是在经历T轮信息传播之后,每个节点均接受到T跳节点的信息得到节点表示然后将每个节点的节点表示作为输入计算图级别表示:
针对领域文本相似度计算问题,数据集中的每条数据通常由文本三元组构成(Ti,Tj,Tk),文本Ti和Tj之间的相似度大于Ti和Tk,即:similar(Ti,Tj)>similar(Ti,Tk);通过步骤S1,文本三元组转化为知识图谱三元组(Gi,Gj,Gk);因此,文本相似度问题转化为知识图谱相似度计算问题,由此优化目标为:
其中,γ>0为阈值,是欧几里得距离,定义为:
7.根据权利要求6所述的领域文本相似度计算方法,其特征在于,步骤S1具体为:使用实体关系联合抽取方法从领域文本中抽取实体和关系,以构建三元组(h,r,t),然后对三元组进行连接,实现针对领域文本T构建知识图谱G=(V,E)。
8.根据权利要求6所述的领域文本相似度计算方法,其特征在于,步骤S4具体为:将所述知识图谱中的实体的表征向量赋值给所述实体节点;将所述知识图谱中的关系的表征向量赋值给所述边节点,即
9.根据权利要求7所述的领域文本相似度计算方法,其特征在于,步骤S1实现方式如下:
S11.将三元组抽取问题转换为序列标注问题,使用Bi-LSTM作为序列编码器捕获领域文本中每个词的语义,通过独热编码和嵌入层,领域文本中的词序列可以表示为W=每个词wt都是一个d维向量,将W输入序列编码器得到上下文信息:
ht=ottanh(ct)
其中,ot为输出门,ct表示词t的嵌入向量,联结双向的词嵌入获得隐藏状态
S12.使用LSTM作为解码器,解码器的输出为:
Tt=W1ht+b1
S13.基于标签预测向量Tt计算领域文本中每个词的归一化标签概率:
yt=W2Tt+b2
其中,N为标签总数,W1、b1、W2、b2为参数,pt为标签概率;
S14.从获得的领域文本中每个词的标签概率pt,选定概率值最大的对应的标签作为该词的标签,然后将具有相同关系的实体合并为一个三元组,不同三元组存在相同的头实体或尾实体,因此三元组可以相互连接构成知识图谱G。
10.根据权利要求6-9中任一项所述的领域文本相似度计算方法,其特征在于,所述的步骤S3还包括,对所述无标签化知识图谱进行泛化,以提升所述无标签化知识图谱的表达能力。
11.一种基于标签图转化使用权利要求1-10中任一项所述的领域文本相似度计算方法的计算系统,其特征在于,包括知识图谱构建模块、知识图谱表征初始化模块、知识图谱无标签化模块、无标签化知识图谱节点赋值模块、领域文本相似度计算模块,其中:
知识图谱构建模块用于从每个领域文本中抽取实体和关系,以表示领域文本中的要素及要素间关系;
知识图谱表征初始化模块用于计算知识图谱中实体和关系的初始化表征向量;
知识图谱无标签化模块用于将知识图谱中的关系节点化,实现知识图谱转换为无标签化知识图谱;
无标签化知识图谱节点赋值模块用于使得无标签化知识图谱的节点获得特征表示;
领域文本相似度计算模块使用图神经网络对无标签化知识图谱进行特征提取,并计算领域文本相似度。
12.根据权利要求11所述的计算系统,其特征在于,所述的知识图谱无标签化模块还包括对无标签化知识图谱进行泛化,提升知识图谱的知识表达能力。
CN202111040367.2A 2021-09-06 2021-09-06 一种基于标签图转化的领域文本相似度计算方法及系统 Active CN113742494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111040367.2A CN113742494B (zh) 2021-09-06 2021-09-06 一种基于标签图转化的领域文本相似度计算方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111040367.2A CN113742494B (zh) 2021-09-06 2021-09-06 一种基于标签图转化的领域文本相似度计算方法及系统

Publications (2)

Publication Number Publication Date
CN113742494A CN113742494A (zh) 2021-12-03
CN113742494B true CN113742494B (zh) 2024-03-15

Family

ID=78736317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111040367.2A Active CN113742494B (zh) 2021-09-06 2021-09-06 一种基于标签图转化的领域文本相似度计算方法及系统

Country Status (1)

Country Link
CN (1) CN113742494B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114461747A (zh) * 2022-01-17 2022-05-10 中国科学院信息工程研究所 基于标签图抑制噪声数据影响的远程监督关系抽取方法及装置
CN114722896B (zh) * 2022-03-05 2024-08-09 昆明理工大学 融合近邻标题图的新闻话题发现方法
CN116383677B (zh) * 2023-06-05 2023-09-29 智慧眼科技股份有限公司 一种知识图谱实体相似度计算方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035917A (zh) * 2014-06-10 2014-09-10 复旦大学 一种基于语义空间映射的知识图谱管理方法和系统
CN111241241A (zh) * 2020-01-08 2020-06-05 平安科技(深圳)有限公司 基于知识图谱的案件检索方法、装置、设备及存储介质
WO2021139229A1 (zh) * 2020-07-31 2021-07-15 平安科技(深圳)有限公司 文本修辞句的生成方法、装置、设备及可读存储介质
WO2021139283A1 (zh) * 2020-06-16 2021-07-15 平安科技(深圳)有限公司 基于深度学习技术的知识图谱问答方法、装置及设备
CN113191156A (zh) * 2021-04-29 2021-07-30 浙江禾连网络科技有限公司 一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法
CN113239210A (zh) * 2021-05-25 2021-08-10 河海大学 基于自动化补全知识图谱的水利文献推荐方法及系统
WO2021164226A1 (zh) * 2020-02-20 2021-08-26 平安科技(深圳)有限公司 法律案件知识图谱查询方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035917A (zh) * 2014-06-10 2014-09-10 复旦大学 一种基于语义空间映射的知识图谱管理方法和系统
CN111241241A (zh) * 2020-01-08 2020-06-05 平安科技(深圳)有限公司 基于知识图谱的案件检索方法、装置、设备及存储介质
WO2021164226A1 (zh) * 2020-02-20 2021-08-26 平安科技(深圳)有限公司 法律案件知识图谱查询方法、装置、设备及存储介质
WO2021139283A1 (zh) * 2020-06-16 2021-07-15 平安科技(深圳)有限公司 基于深度学习技术的知识图谱问答方法、装置及设备
WO2021139229A1 (zh) * 2020-07-31 2021-07-15 平安科技(深圳)有限公司 文本修辞句的生成方法、装置、设备及可读存储介质
CN113191156A (zh) * 2021-04-29 2021-07-30 浙江禾连网络科技有限公司 一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法
CN113239210A (zh) * 2021-05-25 2021-08-10 河海大学 基于自动化补全知识图谱的水利文献推荐方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TML认知计算平台;李佳静;闫宏飞;于珑雪;孟涛;;情报工程(05);全文 *
面向司法案件的案情知识图谱自动构建;洪文兴;胡志强;翁洋;张恒;王竹;郭志新;;中文信息学报(01);全文 *

Also Published As

Publication number Publication date
CN113742494A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN113742494B (zh) 一种基于标签图转化的领域文本相似度计算方法及系统
CN112668671B (zh) 预训练模型的获取方法和装置
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
WO2023065617A1 (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
CN114330354B (zh) 一种基于词汇增强的事件抽取方法、装置及存储介质
CN110162749A (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN106447066A (zh) 一种大数据的特征提取方法和装置
CN106445988A (zh) 一种大数据的智能处理方法和系统
CN115131638B (zh) 视觉文本预训练模型的训练方法、装置、介质和设备
CN113553850A (zh) 一种基于有序结构编码指针网络解码的实体关系抽取方法
CN108985298B (zh) 一种基于语义一致性的人体衣物分割方法
LU506520B1 (en) A sentiment analysis method based on multimodal review data
CN108804544A (zh) 互联网影视多源数据融合方法和装置
CN113761250A (zh) 模型训练方法、商户分类方法及装置
CN116561592B (zh) 文本情感识别模型的训练方法和文本情感识别方法及装置
CN114218922A (zh) 一种基于双通道图卷积网络的方面情感分析方法
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN114492391A (zh) 意图推理方法及装置
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
CN114120074B (zh) 基于语义增强的图像识别模型的训练方法和训练装置
CN114925693A (zh) 一种基于多模型融合的多元关系抽取方法和抽取系统
CN117911079A (zh) 一种个性化商户营销智能推荐方法和系统
CN113761910A (zh) 一种融合情感特征的评论文本细粒度情感分析方法
Ermatita et al. Sentiment Analysis of COVID-19 using Multimodal Fusion Neural Networks.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant