CN113806493A - 一种用于互联网文本数据的实体关系联合抽取方法、装置 - Google Patents

一种用于互联网文本数据的实体关系联合抽取方法、装置 Download PDF

Info

Publication number
CN113806493A
CN113806493A CN202111177032.5A CN202111177032A CN113806493A CN 113806493 A CN113806493 A CN 113806493A CN 202111177032 A CN202111177032 A CN 202111177032A CN 113806493 A CN113806493 A CN 113806493A
Authority
CN
China
Prior art keywords
entity
sequence
classifier
word
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111177032.5A
Other languages
English (en)
Other versions
CN113806493B (zh
Inventor
宋怡晨
李爱平
贾焰
周斌
涂宏魁
王晔
江荣
徐锡山
喻承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111177032.5A priority Critical patent/CN113806493B/zh
Publication of CN113806493A publication Critical patent/CN113806493A/zh
Application granted granted Critical
Publication of CN113806493B publication Critical patent/CN113806493B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种用于互联网文本数据的实体关系联合抽取方法、装置,其可以有效提高从无结构文本中提取实体、关系三元组信息的准确率,包括构建实体关系联合抽取模型,具有数据预处理层、向量表示层、分类器层;将互联网文本数据输入数据预处理层,提取词构成词序列,枚举所有可能的词组合作为候选实体,构成候选实体序列;将词序列和候选实体序列输入向量表示层,得到对应的表示向量;将表示向量输入分类器层的实体分类器,得到实体;将实体组合得到实体对,将词序列和实体对的表示向量输入关系分类器,得到实体间关系;训练实体关系联合抽取模型,将互联网文本数据输入训练好的模型,输出实体和实体间关系,得到三元组<头实体,关系,尾实体>。

Description

一种用于互联网文本数据的实体关系联合抽取方法、装置
技术领域
本发明涉及机器学习中的神经网络领域,具体涉及一种用于互联网文本数据的实体关系联合抽取方法、装置。
背景技术
随着互联网技术的迅速发展普及,每时每秒会产生海量的文本数据,这些文本数据中涵盖着大量的实体、关系等知识,也存在大量的无意义信息。为了快速从非结构化的文本中获取到有效的信息,研究者们提出了信息抽取技术。信息抽取技术突破传统的人工阅读、理解等方式获取语义关系的限制,实现了语义关系的自动抽取。
传统的文本分类和聚类技术可以帮助用户从海量数据汇总筛选出所需要的文档或段落。而因为实体和关系信息文本信息的基础构成,实体和关系抽取技术可以更细粒度的挖掘蕴含在文本中的语义信息,同时可以将抽取到的语义信息表示为结构化的三元组信息。因此,实体和关系抽取不仅是信息抽取的重要组成部分,也是构建大型知识库中必不可少的一步,对于机器翻译、文本摘要、知识库构建、自动问答系统、搜索引擎等领域的发展都有重要的意义。
早期的工作一般将实体和关系抽取作为两个任务以流水线的方式实现,首先进行实体抽取(命名实体识别)主要识别文本中的命名实体,比如人名、地名、机构名称等;然后,通过关系抽取(关系分类)在给定的关系类别下,对文本中标注好的实体对,进行分类。这种流水线的方式使任务变得易于处理,而且每个方法都可以更加灵活;但是,它忽略了这两个任务之间的相关性,需要对每个任务设计一个独立模型,同时前序任务(命名实体识别)的准备性会影响后续任务(关系分类)的准确性,还会导致错误累积。
因此,人们提出了实体关系联合抽取的任务,对于输入的文本,同时抽取文本中的实体和关系,形成结构化的三元组<头实体,关系,尾实体>进行输出,这种联合抽取的方法可以有效地整合实体和关系的信息。然而早起的联合抽取方法主要是基于特征的结构化学习系统,很大程度上需要依赖于特征工程。随着深度学习方法,特别是神经网络方法的发展,越来越多的联合抽取方法通过用网络学习表示来代替人工特征的构造,基于神经网络的模型取得了相当大的成功。
然而这些基于神经网络的实体关系联合抽取方法大多是需要设计复杂的标签框架,采用标签的方法,一个词只能设计一个标签,无法对重复的情况打标签,这些现有的方法很少方法擅长解决重叠三元组问题,即同一个句子中的多个关系三元组共享同一个实体的问题;大多数方法训练时采用外部的数据直接训练,而在使用模型进行抽取时需要从零开始抽取,关系抽取的结果完全根据实体抽取的结果得来的,这种差异也会导致误差的积累。
发明内容
针对上述问题,本发明提供了一种用于互联网文本数据的实体关系联合抽取方法、装置,其可以有效提高从无结构文本中提取实体、关系三元组信息的准确率。
其技术方案是这样的:一种用于互联网文本数据的实体关系联合抽取方法,其特征在于,包括以下步骤:
步骤1:构建实体关系联合抽取模型,所述实体关系联合抽取模型包括数据预处理层、向量表示层、分类器层;
将从互联网信息中提取的互联网文本数据输入实体关系联合抽取模型的数据预处理层,提取互联网文本数据中的词构成词序列,枚举文本数据中所有可能的词组合作为候选实体,构成候选实体序列;
分别将词序列和候选实体序列输入向量表示层进行处理,得到词序列和候选实体序列的表示向量;
将词序列和候选实体序列的表示向量输入分类器层的实体分类器,得到实体;将实体组合得到实体对,将词序列和实体对的表示向量输入关系分类器,得到实体间关系;
步骤2:训练实体关系联合抽取模型,优化模型参数,得到训练好的实体关系联合抽取模型;
步骤3:将互联网文本数据输入训练好的实体关系联合抽取模型,输出实体和实体间关系,得到三元组<头实体,关系,尾实体>。
进一步的,在步骤1中,在实体关系联合抽取模型的数据预处理层中,对互联网文本数据进行预处理,将文本数据以词为单位进行分解,获得词序列,表示为{w1,w2,…,wm};
枚举获得的词序列中所有跨度小于span的词组合,作为候选实体,构成候选实体序列,{e1,e2,…,en},其中,span为设定的预设的阈值,表示一个候选实体最多包含词的数量。
在步骤1中,在实体关系联合抽取模型的向量表示层设有预训练语言模型,所述预训练语言模型包括输入处理层和增加实体感知自注意力的transformer层,
在输入处理层中,对于通过数据预处理层获得的词序列,通过查找输入处理层中的词向量表,得到词对应的表示向量,获取词在文本数据的句子中的位置作为位置向量,将通过词向量表得到词对应的表示向量叠加位置向量得到文本数据中词的表示向量,输入处理层输出的词序列的表示向量为
Figure BDA0003295641730000031
对于通过数据预处理层获得的候选实体序列,通过查找输入处理层中的实体向量表,取得候选实体的表示向量,取候选实体的头尾词对应的位置向量的平均值作为位置向量,设置实体类型向量设为1,三个向量叠加得到输入处理层输出的候选实体的表示向量
Figure BDA0003295641730000032
将词序列和候选实体序列的表示向量链接在一起作为增加实体感知自注意力的transformer层的输入,并分别为词序列和候选实体序列增加输入序列的分隔符,表示为:
Figure BDA0003295641730000033
其中x[cls]和x[sep]分别为词序列和候选实体序列的分隔符;
将链接在一起的词序列和候选实体序列的表示向量输入增加实体感知自注意力的transformer层,得到每项输入对应的输出向量,输出向量序列表示为
Figure BDA0003295641730000034
进一步的,增加实体感知自注意力的transformer层的输出通过如下计算:
Figure BDA0003295641730000035
αij=softmax(eij),
Figure BDA0003295641730000036
其中,hi为输出向量序列中的第i个输出向量,xi为在输入预训练语言模型的向量序列中与hi对应的表示向量,
Figure BDA0003295641730000037
xj表示输入预训练语言模型的向量序列中xi以外的表示向量;Q、K、V属于注意力机制的基础参数,分别为查询矩阵query、键矩阵key和值矩阵value,m、n分别为词序列和候选实体序列的长度,αij为注意力权重,表示每个输入对其他输入的影响程度,eij为注意力分数,Qw2w为输入的xi和xj分别为词时的查询矩阵query,Qe2e为输入的xi和xj分别为实体时的查询矩阵query,Qw2e为输入的xi为词和xj为实体时的查询矩阵query,Qe2w为输入的xi为实体和xj为词时的查询矩阵query。
进一步的,在分类器层的实体分类器中,对于候选实体ei,ei∈{e1,e2,…,en},取候选实体ei对应的首尾词
Figure BDA0003295641730000041
将候选实体ei对应的首尾词
Figure BDA0003295641730000042
Figure BDA0003295641730000043
与向量表示层输出的对应的输出向量串联,得到实体分类器的输入项
Figure BDA0003295641730000044
将实体分类器的输入项
Figure BDA0003295641730000045
输入实体分类器,输出候选实体ei是否为实体,通过实体分类器对所有候选实体进行识别,通过实体分类器识别到文本数据中包含的实体表示为{te1,te2,…,tet},其中
Figure BDA0003295641730000046
将识别到的实体两两组合,得到实体对(tei‘,tej’),实体对(tei‘,tej’)对应候选实体对为(ei,ej),将实体对(tei‘,tej’)与词序列的分隔符在向量表示层中计算得到的表示向量串联,得到关系分类器的输入项
Figure BDA0003295641730000047
Figure BDA0003295641730000048
输入关系分类器,输出实体对(tei‘,tej’)对应的关系,通过关系分类器对所有组合的实体对进行识别,输出实体对对应的所有关系。
进一步的,在所述分类器层中,所述实体分类器和关系分类器分别采用线性全连接模型。
进一步的,在步骤3,训练实体关系联合抽取模型时,对于实体分类器采用cross-entropy损失函数,训练实体分类器时,采用枚举中产生的错误候选实体输入实体分类器作为负样本;
训练关系分类器采用BCEWithLogitsLoss损失函数,利用实体分类器输出的错误实体和组合得到的错误的实体对作为负样本,训练关系分类器。
一种用于互联网文本数据的实体关系联合抽取装置,其特征在于,其包括:包括处理器、存储器以及程序;
所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行上述的用于互联网文本数据的实体关系联合抽取方法。
一种计算机可读存储介质,其特征在于:所述计算机可读存储介质被配置成存储程序,所述程序被配置成执行上述的用于互联网文本数据的实体关系联合抽取方法。
本发明的用于互联网文本数据的实体关系联合抽取方法,设置了一个实体关系联合抽取模型进行实体以及实体间关系的抽取,模型的数据预处理层通过对文本中所有可能的候选实体对进行枚举,给出了所有可能的词的组合,以此给出了所有可能的候选实体,为此对于文本中同一个句子中的多个关系三元组共享同一个实体的情况,可以准确的判断实体对之间存在的关系,解决实体无法重用导致的重叠三元组的问题;且在训练的时候,直接从零开始,采用真实的实体抽取的结果数据用于关系抽取,而模型在预测实体和关系时,同样是采用预测的真实的实体用于关系抽取,保持了训练和预测中数据和模型结构的一致性。相较于流水线模型和其他方法,本发明的联合抽取模型只需要训练一个模型,提高了工作效率,同时保持训练和预测中数据的一致性,减少了误差的积累,本发明的用于互联网文本数据的实体关系联合抽取方法可以更加高效的用于知识库自动构建或者搜索引擎搭建,更有力的保障了人们在信息爆炸的互联网上快速、准确、主动地获取知识。
附图说明
图1为本发明的用于互联网文本数据的实体关系联合抽取方法的步骤图;
图2为一个实施例中计算机装置的内部结构图。
具体实施方式
当前主流的实体关系联合抽取方法主要是通过设计复杂的标注框架的基础上实现的,这些方法对文本本身的语义信息利用不足,而且训练和推断采用不同的数据来源,造成误差的累积,预测的准确率偏低。
见图1,针对上述问题,本发明在实施例中提供了一种用于互联网文本数据的实体关系联合抽取方法,通过预训练好的语言模型将知识库的知识融入到模型中,然后利用该模型学习到文本和词语的特征,最后根据这些学到的特征信息,利用连续的两个分类器,抽取出文本中的实体和实体之间的关系,至少包括以下步骤:
步骤1:构建实体关系联合抽取模型,所述实体关系联合抽取模型包括数据预处理层、向量表示层、分类器层;
将从互联网信息中提取的互联网文本数据输入实体关系联合抽取模型的数据预处理层,提取互联网文本数据中的词构成词序列,枚举文本数据中所有可能的词组合作为候选实体,构成候选实体序列;
分别将词序列和候选实体序列输入向量表示层进行处理,得到词序列和候选实体序列的表示向量;
将词序列和候选实体序列的表示向量输入分类器层的实体分类器,得到实体;将实体组合得到实体对,将词序列和实体对的表示向量输入关系分类器,得到实体间关系;
步骤2:训练实体关系联合抽取模型,优化模型参数,得到训练好的实体关系联合抽取模型;
步骤3:将互联网文本数据输入训练好的实体关系联合抽取模型,输出实体和实体间关系,得到三元组<头实体,关系,尾实体>。
具体在一个实施例中,将本发明的用于互联网文本数据的实体关系联合抽取方法应用在英文文本数据的实体关系联合抽取中,具体按照如下执行:
步骤1包括以下步骤:
构建包括数据预处理层、向量表示层、分类器层的实体关系联合抽取模型;
首先是数据预处理层:
从互联网信息中提取互联网文本数据,在实体关系联合抽取模型的数据预处理层中,对互联网文本数据进行预处理,将文本数据以词为单位进行分解,由于是针对英文文本,所以直接按照空格分解为词,获得文本对应的词序列,表示为{w1,w2,…,wm};序列中w1,w2,…,wm分别为文本数据分解得到的每一个单词,
枚举获得的词序列中所有跨度小于span的词组合,作为候选实体,构成候选实体序列,{e1,e2,…,en},其中,span为设定的预设的阈值,表示一个候选实体最多包含词的数量;譬如设定的span的值为5,则候选实体序列的一个实体ei,可以是包含w1,可以是包含w1和w2,可以是包含w1和w2和w3,可以是包含w1和w2和w3和w4,也可以是包含w1和w2和w3和w4和w5
其次是向量表示层:
在实体关系联合抽取模型的向量表示层设有预训练语言模型,预训练语言模型包括输入处理层和增加实体感知自注意力的transformer层,
在输入处理层中,对于通过数据预处理层获得的词序列,通过查找输入处理层中的词向量表,得到词对应的表示向量,获取词在文本数据的句子中的位置作为位置向量,将通过词向量表得到词对应的表示向量叠加位置向量得到文本数据中词的表示向量,输入处理层输出的词序列的表示向量为
Figure BDA0003295641730000061
将词向量和位置向量结合起来,可以提高对文本数据中句子的表现能力;
对于通过数据预处理层获得的候选实体序列,通过查找输入处理层中的实体向量表,取得候选实体的表示向量,取候选实体的头尾词对应的位置向量的平均值作为位置向量,设置实体类型向量设为1,三个向量叠加得到输入处理层输出的候选实体的表示向量
Figure BDA0003295641730000071
取候选实体的表示向量、位置向量、实体类型叠加提高对文本数据中句子的表现能力;
传统方法中通常采用如word2vec等词向量模型,训练出来的都是静态的词向量,即同一个词,在任何的上下文当中,其向量表征是相同的,显然,这样的一种词向量是无法体现一个词在不同语境中的不同含义的;本方案中,采用预训练语言模型来代替词向量的关键在于,其能够更具上下文的不同,对上下文中的词提取符合其语境的词表征,该词表征向量为一个动态向量,即不同上下文输入预训练语言模型后,同一个词的词表征向量在两个上下文中的词表征是不同的;
将词序列和候选实体序列的表示向量链接在一起作为增加实体感知自注意力的transformer层的输入,并分别为词序列和候选实体序列增加输入序列的分隔符,表示为:
Figure BDA0003295641730000072
其中x[cls]和x[sep]分别为词序列和候选实体序列的分隔符,在词序列和候选实体序列前插入一个分隔符,并将该符号对应的输出向量作为整篇文本的语义表示,在表示文本语义是,与文本中已有的其它字/词相比,这个无明显语义信息的符号会更公平地融合文本中各个字/词的语义信息;
将链接在一起的词序列和候选实体序列的表示向量输入增加实体感知自注意力的transformer层,得到每项输入对应的输出向量,输出向量序列表示为
Figure BDA0003295641730000073
具体的,增加实体感知自注意力的transformer层的输出通过如下计算:
Figure BDA0003295641730000074
αij=softmax(eij),
Figure BDA0003295641730000075
其中,hi为输出向量序列中的第i个输出向量,xi为在输入预训练语言模型的向量序列中与hi对应的表示向量,
Figure BDA0003295641730000081
xj表示输入预训练语言模型的向量序列中xi以外的表示向量;Q、K、V属于注意力机制的基础参数,分别为查询矩阵query、键矩阵key和值矩阵value,m、n分别为词序列和候选实体序列的长度,αij为注意力权重,表示每个输入对其他输入的影响程度,eij为注意力分数,Qw2w为输入的xi和xj分别为词时的查询矩阵query,Qe2e为输入的xi和xj分别为实体时的查询矩阵query,Qw2e为输入的xi为词和xj为实体时的查询矩阵query,Qe2w为输入的xi为实体和xj为词时的查询矩阵query,查询矩阵query结合值矩阵V和整个输入向量序列,得到每个输入对应的输出hi
最后在分类器层中:
分类器层设有实体分类器和关系分类器,在分类器层的实体分类器中,实体分类器采用线性全连接模型,对于候选实体ei,ei∈{e1,e2,…,en},取候选实体ei对应的首尾词
Figure BDA0003295641730000082
将候选实体ei对应的首尾词
Figure BDA0003295641730000083
Figure BDA0003295641730000084
与向量表示层输出的对应的输出向量串联,得到实体分类器的输入项
Figure BDA0003295641730000085
将实体分类器的输入项
Figure BDA0003295641730000086
输入实体分类器,输出候选实体ei是否为实体,通过实体分类器对所有候选实体进行识别,通过实体分类器识别到文本数据中包含的实体表示为{te1,te2,…,tet},其中
Figure BDA0003295641730000087
将识别到的实体两两组合,得到实体对(tei‘,tej’),实体对(tei‘,tej’)对应候选实体对为(ei,ej),将实体对(tei‘,tej’)与词序列的分隔符在向量表示层中计算得到的表示向量串联,得到关系分类器的输入项
Figure BDA0003295641730000088
Figure BDA0003295641730000089
输入关系分类器,输出实体对(tei‘,tej’)对应的关系,通过关系分类器对所有组合的实体对进行识别,输出实体对对应的所有关系。
步骤2:构建完实体关系联合抽取模型后则需要对模型进行训练,在步骤2,训练实体关系联合抽取模型时,对于实体分类器采用cross-entropy损失函数,训练实体分类器时,采用枚举中产生的错误候选实体输入实体分类器作为负样本;
训练关系分类器采用BCEWithLogitsLoss损失函数,利用实体分类器输出的错误实体和组合得到的错误的实体对作为负样本,训练关系分类器。
在训练中,关系抽取的输入完全依赖于实体抽取的输出,并不会另外设计负样本之类的,通过这样来减少训练和预测真实的实体、关系之间的区别,这点和以往都不同,以往模型对关系的训练是依赖于正确结果进行的;
在本实施例中,不专门设计负样本,而是利用输入中候选实体中的错误项作为实体分类器的天然负样本;而实体分类的错误结果产生的实体对,则作为关系分类器的天然负样本;这样不仅省去设计负样本的步骤,而且使得整个训练过程与实际应用的抽取实体关系过程保持一致,降低训练模型在实际应用因为步骤产生的偏差。
而且,本方案的实体关系联合抽取模型只需要对一个句子运行一次编码就可以用于后续的实体识别和关系抽取,依据loss训练损失函数,这区别于以往模型中有很多工作对于关系抽取要对每个关系设计一个分类器,本方案中只需要一个多标签分类器,使得本发明的方法更容易实现。
步骤3:得到训练好的实体关系联合抽取模型后,可以将互联网文本数据输入训练好的实体关系联合抽取模型,输出实体和实体间关系,得到三元组<头实体,关系,尾实体>。
对本实施例的方法进行实验测试,利用数据集包括NYT、NYT-raw、WebNLG、WebNLG-ETLSpan数据集,将本实施例提供的方法中的实体关系联合抽取模型鱼现有的模型譬如NovelTagging、CopyRE、MultiHead等等,具体见表1中所列。
Figure BDA0003295641730000091
表1
表1中本节模型(局部)指的是采用本发明的实施例提供的方法,在进行实体关系抽取时,只要实体的最后一个词抽对时的情况;本节模型(精确)指的是采用本发明的实施例提供的方法,在进行实体关系抽取时,要求三元组抽取完全一致时的情况。
相较于下现有的联合抽取效果最好的方法,本实施例的方法在NYT数据集上比TPLinker方法精确率上能提高越2.6个百分点,达到93.9%,f1值达到92.5%;在NYT-raw数据集上比TPLinker方法在精确率上能提高越3个百分点,达到94.5%,f1值达到92.5%;在WebNLG-ETLSpan数据集上,本节模型(精确)比TPLinker方法精确率上能提高约3.7个百分点,达到92.6%,F1值提高约4个比分点,达到90.6%,实验证明了专利提出方法在实体关系联合抽取上的有效性。
在本发明的实施例中,还提供了一种用于互联网文本数据的实体关系联合抽取装置,其包括:包括处理器、存储器以及程序;
程序存储在存储器中,处理器调用存储器存储的程序,以执行上述的一种用于互联网文本数据的实体关系联合抽取方法。
该计算机装置可以是终端,其内部结构图可以如图2所示。该计算机装置包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机装置的处理器用于提供计算和控制能力。该计算机装置的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机装置的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现用于互联网文本数据的实体关系联合抽取方法。该计算机装置的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机装置的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机装置外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机装置的限定,具体的计算机装置可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本发明的实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质被配置成存储程序,程序被配置成执行上述的一种用于互联网文本数据的实体关系联合抽取方法。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、计算机装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、计算机装置、或计算机程序产品的流程图和/或框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和/或中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图中指定的功能。
以上对本发明所提供的在用于互联网文本数据的实体关系联合抽取方法、计算机装置、计算机可读存储介质的应用进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种用于互联网文本数据的实体关系联合抽取方法,其特征在于,包括以下步骤:
步骤1:构建实体关系联合抽取模型,所述实体关系联合抽取模型包括数据预处理层、向量表示层、分类器层;
将从互联网信息中提取的互联网文本数据输入实体关系联合抽取模型的数据预处理层,提取互联网文本数据中的词构成词序列,枚举文本数据中所有可能的词组合作为候选实体,构成候选实体序列;
分别将词序列和候选实体序列输入向量表示层进行处理,得到词序列和候选实体序列的表示向量;
将词序列和候选实体序列的表示向量输入分类器层的实体分类器,得到实体;将实体组合得到实体对,将词序列和实体对的表示向量输入关系分类器,得到实体间关系;
步骤2:训练实体关系联合抽取模型,优化模型参数,得到训练好的实体关系联合抽取模型;
步骤3:将互联网文本数据输入训练好的实体关系联合抽取模型,输出实体和实体间关系,得到三元组<头实体,关系,尾实体>。
2.根据权利要求1所述的一种用于互联网文本数据的实体关系联合抽取方法,其特征在于:在步骤1中,在实体关系联合抽取模型的数据预处理层中,对互联网文本数据进行预处理,将文本数据以词为单位进行分解,获得词序列,表示为{w1,w2,…,wm};
枚举获得的词序列中所有跨度小于span的词组合,作为候选实体,构成候选实体序列,{e1,e2,…,en},其中,span为设定的预设的阈值,表示一个候选实体最多包含词的数量。
3.根据权利要求2所述的一种用于互联网文本数据的实体关系联合抽取方法,其特征在于:在步骤1中,在实体关系联合抽取模型的向量表示层设置为预训练语言模型,所述预训练语言模型包括输入处理层和增加实体感知自注意力的transformer层,
在输入处理层中,对于通过数据预处理层获得的词序列,通过查找输入处理层中的词向量表,得到词对应的表示向量,获取词在文本数据的句子中的位置作为位置向量,将通过词向量表得到词对应的表示向量叠加位置向量得到文本数据中词的表示向量,输入处理层输出的词序列的表示向量为
Figure FDA0003295641720000011
对于通过数据预处理层获得的候选实体序列,通过查找输入处理层中的实体向量表,取得候选实体的表示向量,取候选实体的头尾词对应的位置向量的平均值作为位置向量,设置实体类型向量设为1,三个向量叠加得到输入处理层输出的候选实体的表示向量
Figure FDA0003295641720000021
将词序列和候选实体序列的表示向量链接在一起作为增加实体感知自注意力的transformer层的输入,并分别为词序列和候选实体序列增加输入序列的分隔符,表示为:
Figure FDA0003295641720000022
其中x[cls]和x[sep]分别为词序列和候选实体序列的分隔符;
将链接在一起的词序列和候选实体序列的表示向量输入增加实体感知自注意力的transformer层,得到每项输入对应的输出向量,输出向量序列表示为
Figure FDA0003295641720000023
4.根据权利要求3所述的一种用于互联网文本数据的实体关系联合抽取方法,其特征在于:增加实体感知自注意力的transformer层的输出通过如下计算:
Figure FDA0003295641720000024
αij=softmax(eij),
Figure FDA0003295641720000025
其中,hi为输出向量序列中的第i个输出向量,xi为在输入预训练语言模型的向量序列中与hi对应的表示向量,
Figure FDA0003295641720000026
xj表示输入预训练语言模型的向量序列中xi以外的表示向量;Q、K、V属于注意力机制的基础参数,分别为查询矩阵query、键矩阵key和值矩阵value,m、n分别为词序列和候选实体序列的长度,αij为注意力权重,表示每个输入对其他输入的影响程度,eij为注意力分数,Qw2w为输入的xi和xj分别为词时的查询矩阵query,Qe2e为输入的xi和xj分别为实体时的查询矩阵query,Qw2e为输入的xi为词和xj为实体时的查询矩阵query,Qe2w为输入的xi为实体和xj为词时的查询矩阵query。
5.根据权利要求4所述的一种用于互联网文本数据的实体关系联合抽取方法,其特征在于:所述分类器层中设置有实体分类器,在实体分类器中,对于候选实体ei,ei∈{e1,e2,…,en},取候选实体ei对应的首尾词
Figure FDA0003295641720000031
Figure FDA0003295641720000032
将候选实体ei对应的首尾词
Figure FDA0003295641720000033
与向量表示层输出的对应的输出向量串联,得到实体分类器的输入项
Figure FDA0003295641720000034
将实体分类器的输入项
Figure FDA0003295641720000035
输入实体分类器,输出候选实体ei是否为实体,通过实体分类器对所有候选实体进行识别,通过实体分类器识别到文本数据中包含的实体表示为{te1,te2,…,tet},其中
Figure FDA0003295641720000036
6.根据权利要求5所述的一种用于互联网文本数据的实体关系联合抽取方法,其特征在于:所述分类器层中设置有关系分类器,将识别到的实体两两组合,得到实体对(tei‘,tej’),实体对(tei‘,tej’)对应候选实体对为(ei,ej),将实体对(tei‘,tej’)与词序列的分隔符在向量表示层中计算得到的表示向量串联,得到关系分类器的输入项
Figure FDA0003295641720000038
Figure FDA0003295641720000037
输入关系分类器,输出实体对(tei‘,tej’)对应的关系,通过关系分类器对所有组合的实体对进行识别,输出实体对对应的所有关系。
7.根据权利要求6所述的一种用于互联网文本数据的实体关系联合抽取方法,其特征在于:在所述分类器层中,所述实体分类器和关系分类器分别采用线性全连接模型。
8.根据权利要求7所述的一种用于互联网文本数据的实体关系联合抽取方法,其特征在于:在步骤3,训练实体关系联合抽取模型时,对于实体分类器采用cross-entropy损失函数,训练实体分类器时,采用枚举中产生的错误候选实体输入实体分类器作为负样本;
训练关系分类器采用BCEWithLogitsLoss损失函数,利用实体分类器输出的错误实体和组合得到的错误的实体对作为负样本,训练关系分类器。
9.一种用于互联网文本数据的实体关系联合抽取装置,其特征在于,其包括:包括处理器、存储器以及程序;
所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行权利要求1所述的用于互联网文本数据的实体关系联合抽取方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质被配置成存储程序,所述程序被配置成执行权利要求1所述的用于互联网文本数据的实体关系联合抽取方法。
CN202111177032.5A 2021-10-09 2021-10-09 一种用于互联网文本数据的实体关系联合抽取方法、装置 Active CN113806493B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111177032.5A CN113806493B (zh) 2021-10-09 2021-10-09 一种用于互联网文本数据的实体关系联合抽取方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111177032.5A CN113806493B (zh) 2021-10-09 2021-10-09 一种用于互联网文本数据的实体关系联合抽取方法、装置

Publications (2)

Publication Number Publication Date
CN113806493A true CN113806493A (zh) 2021-12-17
CN113806493B CN113806493B (zh) 2023-08-29

Family

ID=78897513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111177032.5A Active CN113806493B (zh) 2021-10-09 2021-10-09 一种用于互联网文本数据的实体关系联合抽取方法、装置

Country Status (1)

Country Link
CN (1) CN113806493B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114528394A (zh) * 2022-04-22 2022-05-24 杭州费尔斯通科技有限公司 一种基于掩码语言模型的文本三元组提取方法及装置
CN115129883A (zh) * 2022-05-27 2022-09-30 腾讯科技(深圳)有限公司 实体链接方法和装置、存储介质及电子设备
CN117455518A (zh) * 2023-12-25 2024-01-26 连连银通电子支付有限公司 一种欺诈交易检测方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472033A (zh) * 2018-11-19 2019-03-15 华南师范大学 文本中的实体关系抽取方法及系统、存储介质、电子设备
CN110705299A (zh) * 2019-09-26 2020-01-17 北京明略软件系统有限公司 实体和关系的联合抽取方法、模型、电子设备及存储介质
CN111368528A (zh) * 2020-03-09 2020-07-03 西南交通大学 一种面向医学文本的实体关系联合抽取方法
CN111666427A (zh) * 2020-06-12 2020-09-15 长沙理工大学 一种实体关系联合抽取方法、装置、设备及介质
CN111767409A (zh) * 2020-06-14 2020-10-13 南开大学 一种基于多头自注意力机制的实体关系抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472033A (zh) * 2018-11-19 2019-03-15 华南师范大学 文本中的实体关系抽取方法及系统、存储介质、电子设备
CN110705299A (zh) * 2019-09-26 2020-01-17 北京明略软件系统有限公司 实体和关系的联合抽取方法、模型、电子设备及存储介质
CN111368528A (zh) * 2020-03-09 2020-07-03 西南交通大学 一种面向医学文本的实体关系联合抽取方法
CN111666427A (zh) * 2020-06-12 2020-09-15 长沙理工大学 一种实体关系联合抽取方法、装置、设备及介质
CN111767409A (zh) * 2020-06-14 2020-10-13 南开大学 一种基于多头自注意力机制的实体关系抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李强: "基于内容分析法的情报分析系统研究与实现", 中国优秀硕士论文全文库信息科技辑 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114528394A (zh) * 2022-04-22 2022-05-24 杭州费尔斯通科技有限公司 一种基于掩码语言模型的文本三元组提取方法及装置
CN115129883A (zh) * 2022-05-27 2022-09-30 腾讯科技(深圳)有限公司 实体链接方法和装置、存储介质及电子设备
CN115129883B (zh) * 2022-05-27 2024-02-13 腾讯科技(深圳)有限公司 实体链接方法和装置、存储介质及电子设备
CN117455518A (zh) * 2023-12-25 2024-01-26 连连银通电子支付有限公司 一种欺诈交易检测方法和装置
CN117455518B (zh) * 2023-12-25 2024-04-19 连连银通电子支付有限公司 一种欺诈交易检测方法和装置

Also Published As

Publication number Publication date
CN113806493B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
Yu et al. Beyond Word Attention: Using Segment Attention in Neural Relation Extraction.
CN113806493B (zh) 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN112527999A (zh) 引入农业领域知识的抽取式智能问答方法及系统
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN111401058B (zh) 一种基于命名实体识别工具的属性值抽取方法及装置
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN112131876A (zh) 一种基于相似度确定标准问题的方法及系统
CN111858896A (zh) 一种基于深度学习的知识库问答方法
US20200311345A1 (en) System and method for language-independent contextual embedding
CN115309910B (zh) 语篇要素和要素关系联合抽取方法、知识图谱构建方法
CN111400449B (zh) 一种正则表达式抽取方法及装置
CN116029306A (zh) 一种限定域文科简答题自动评分方法
Dobson Interpretable outputs: criteria for machine learning in the humanities
Celikyilmaz et al. A graph-based semi-supervised learning for question-answering
Younis et al. A new parallel bat algorithm for musical note recognition.
CN110888983B (zh) 一种正负面情感分析方法、终端设备及存储介质
Shen et al. A general approach to multimodal document quality assessment
Zan et al. S 2 ql: Retrieval augmented zero-shot question answering over knowledge graph
Shen et al. A Multimodal Approach to Assessing Document Quality.
Xia Label oriented hierarchical attention neural network for short text classification
Katta Machine learning for source-code plagiarism detection
Seo et al. Plain Template Insertion: Korean-Prompt-Based Engineering for Few-Shot Learners
CN113392220B (zh) 一种知识图谱生成方法、装置、计算机设备及存储介质
CN110275957B (zh) 姓名消歧方法、装置、电子设备及计算机可读存储介质
Rovella et al. Analysis, evaluation and comparison of knowledge extraction tools in the Environmental and Health domain. A holistic approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant