CN109165385B - 一种基于实体关系联合抽取模型的多三元组抽取方法 - Google Patents

一种基于实体关系联合抽取模型的多三元组抽取方法 Download PDF

Info

Publication number
CN109165385B
CN109165385B CN201810993387.3A CN201810993387A CN109165385B CN 109165385 B CN109165385 B CN 109165385B CN 201810993387 A CN201810993387 A CN 201810993387A CN 109165385 B CN109165385 B CN 109165385B
Authority
CN
China
Prior art keywords
entity
lstm
triple
relationship
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810993387.3A
Other languages
English (en)
Other versions
CN109165385A (zh
Inventor
赵翔
谭真
郭爱博
葛斌
郭得科
肖卫东
唐九阳
黄旭倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201810993387.3A priority Critical patent/CN109165385B/zh
Publication of CN109165385A publication Critical patent/CN109165385A/zh
Priority to US16/524,191 priority patent/US20200073933A1/en
Application granted granted Critical
Publication of CN109165385B publication Critical patent/CN109165385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于包括步骤:获取文本,对目标文本进行分句处理,并对句子中的每个单词进行位置、类型、是否涉及关系标记;建立实体关系联合抽取模型;对实体关系联合抽取模型进行训练;根据实体关系联合抽取模型进行三元组抽取;本发明设计的三部分标记方案,在实体关系联合抽取的过程中能够排除与目标关系不相关的实体;此外,本发明一种基于实体关系联合抽取模型的多三元组抽取方法可以用来抽取多三元组,并且基于本发明三元组抽取方法的模型与其它模型相比有更强的多三元组抽取能力。

Description

一种基于实体关系联合抽取模型的多三元组抽取方法
技术领域
本发明涉及文本处理技术领域,特别是指一种基于实体关系联合抽取模型的多三元组抽取方法。
背景技术
三元组抽取得到结构化的信息(同时抽取两个实体和他们之间的关系)来自非结构化的文本,这是自动知识库构建的一个关键步骤,传统的模型分别使用命名实体识别(NER)和关系分类(RC)抽取实体和关系,产生最后的三元组。这种模块化的方法不能充分捕捉和利用NER和RC的任务之间的相关性,并容易级联错误。
为了克服这些缺点,有人提出了联合抽取模型。他们中的大多数是特征结构模型,这需要过多的人工干预和监督的自然语言处理工具来构建多元化、复杂化的特征。最近,已经提出了一些神经网络模型来联合抽取实体和关系。郑先生等人利用双向长短期记忆网络(Bi-LSTM)来学习联合的隐藏特征,然后用长短期记忆网络(LSTM)抽取实体,用卷积神经网络(CNN)抽取关系;Miwa和Bansal用一个端到端的模型抽取的实体,依赖树用来确定关系。这两个模型首先识别实体,然后为每一对可能抽取的实体选择一个语义关系,在这种情况下,RC分类器的精度相对较低,但召回率较高,因为它被许多属于其他种类的对所误导;同时,有些模型只能抽取出有限的目标关系。郑先生等人把联合抽取问题转化成标注问题,用一个统一的标注方案标注实体和关系标签,利用端到端的模型来解决这个问题;然而,在这个模型中,每一个实体在每个句子中都被限制只涉及一个关系。Katiyar和Cardie也用Bi-LSTM抽取实体,并添加一个注意力机制抽取关系,该模型假定一个实体只能与句子中的一个前置实体相关,这两个模型(部分)忽略了与一个实体相关联的多个关系;在这种情况下,RC任务执行的精度相对较高,但召回率较低,因为RC的候选范围是有限的
因此,现有的联合模型不仅在不实用的约束下抽取有限的关系(一句话中只有一个关系,一个实体只关联到一个前置实体),或简单地产生太多的候选人进行RC分类(所有可能的实体对关系)。深入的调查表明,主要原因在于他们忽视多三元组的影响,这在现存的大型语料库中很常见。另一方面,模型认为,每一个实体对都有某一种关系,在这种情况下,大量的对需要被扔到一个叫做“其他”的类中,但是“其他”的特性在分类器训练中没有学到,因此,非预期的关系混淆了分类器,从而可能无法正确地检测/选择多三元组的目标关系。
发明内容
有鉴于此,本发明的目的在于提出一种基于实体关系联合抽取模型的多三元组抽取方法,用于对句子中的多三元组进行有效抽取。
基于上述目的本发明提供的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于包括以下步骤:
获取文本,对目标文本进行分句处理,并对句子中的每个单词进行标记;
建立实体关系联合抽取模型;
对所述实体关系联合抽取模型进行训练;
根据所述实体关系联合抽取模型进行三元组抽取。
所述对句子中的每个单词进行标记包括对句子中的每个单词进行位置、类型、是否涉及关系三部分进行标记。
所述关系抽取模型包括用于将具有单一语义特征(1-hot)表示的单词转换为嵌入向量的嵌入层、用于对输入句子进行编码的Bi-LSTM层和用于解码的CRF层。
进一步,对于任意三元组t=(e1,e2,r)∈T,所述嵌入层包括从所述嵌入层获得头实体向量e1、尾实体向量e2和关系向量r,为更好地保留实体关系特征,要求e1+r≈e2,评分函数为:
Figure GDA0003710793100000021
其中,T为三元组集合、t为任意三元组、e1为头实体向量、e2为尾实体向量、r为关系向量、f(t)为评分函数。
进一步,所述Bi-LSTM层包括前向LSTM层和反向LSTM层,为防止双向LSTM输出实体特征出现偏差,要求
Figure GDA0003710793100000022
Figure GDA0003710793100000023
评分函数为:
Figure GDA0003710793100000031
Figure GDA0003710793100000032
其中,
Figure GDA0003710793100000033
为前向LSTM输出的评分函数、
Figure GDA0003710793100000034
为反向LSTM输出的评分函数、
Figure GDA0003710793100000035
分别为前向LSTM输出的头实体向量和尾实体向量、
Figure GDA0003710793100000036
分别为反向LSTM输出的头实体向量和尾实体向量。
进一步,所述对所述实体关系联合抽取模型进行训练包括建立损失函数,当所述损失函数越小时,模型的精度越高,模型能够更好的抽取句子中的三元组,所述损失函数为:
L=Le+λLr
其中,L为损失函数、Le为实体抽取损失、Lr为关系抽取损失、λ为权重超参数。
进一步,所述实体抽取损失Le取正确标记概率p(y|X)的最大值,所述实体抽取损失Le为:
Figure GDA0003710793100000037
所述关系抽取损失函数为:
Figure GDA0003710793100000038
其中,X为输入的句子序列;Y表示X可生成的所有序列;y指其中的一个预测序列;
Figure GDA0003710793100000039
为CRF分数;Lem为训练集上的基于边界的排序损失函数;
Figure GDA00037107931000000310
为前向LSTM损失函数;
Figure GDA00037107931000000311
为反向LSTM损失函数;
Figure GDA00037107931000000312
指预测的特征向量。
进一步,所述训练集上的基于边界的排序损失函数为:
Figure GDA00037107931000000313
所述前向LSTM损失函数为:
Figure GDA0003710793100000041
所述反向LSTM损失函数为:
Figure GDA0003710793100000042
其中,t为任意一个三元组;T为三元组集合;t’为负三元组;T’为负三元组集合;f(t')为负三元组的评分函数;
Figure GDA0003710793100000043
为负三元组前向LSTM输出的评分函数;
Figure GDA0003710793100000044
为负三元组反向LSTM输出的评分函数;γ为用于约束正样例和负样例之间边界的超参数。
进一步,所述根据实体关系联合抽取模型进行三元组抽取包括:
用下列得分函数的得最高分的序列来对所述实体标签进行预测:
Figure GDA0003710793100000045
Figure GDA0003710793100000046
为假设的通过预测的实体的集合,对于候选实体对
Figure GDA0003710793100000047
生成初始的三元组集合
Figure GDA0003710793100000048
所述初始三元组满足函数
Figure GDA0003710793100000049
对于每一实体对,当满足:
Figure GDA00037107931000000410
时,
Figure GDA00037107931000000411
即为唯一选择的三元组;
其中,m是候选实体的数量;
Figure GDA00037107931000000412
指每个单词的实体预测结果;
Figure GDA00037107931000000413
指根据实体预测结果
Figure GDA00037107931000000414
获得的候选三元组;
Figure GDA00037107931000000415
指候选三元组的集合。
本发明一种基于实体关系联合抽取模型的多三元组抽取方法使用了一个额外的关系标记来描述关系特征,从而允许负样例策略来强化模型的训练;本发明设计的三部分标记方案(Tri-part tagging scheme,TTS),在关系抽取的过程中能够排除与目标关系不相关的实体;此外,本发明一种基于实体关系联合抽取模型的多三元组抽取方法可以用来抽取多三元组,并且基于本发明三元组抽取方法的模型与其它模型相比有更强的多三元组抽取能力。
附图说明
图1为本发明实施例一种基于实体关系联合抽取模型的多三元组抽取方法的流程示意图;
图2为本发明实施例不同的权重超参数λ值对模型准确率的影响图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
作为本发明的实施例,参阅图1所示,为本发明实施例一种基于实体关系联合抽取模型的多三元组抽取方法的流程示意图。所述的一种基于实体关系联合抽取模型的多三元组抽取方法,包括:
步骤101:获取文本,对目标文本进行分句处理,并对句子中的每个单词进行三部分标记。
对句子中的每个单词进行三部分标记包括对句子中的每个单词进行位置、类型、是否涉及关系三部分进行标记;位置标记(Position Part,PP)用来描述实体中每个词的位置,例如,用“BIO”来表示实体中第一个单词的位置信息,“B”表示该单词是实体中的第一个单词,“I”表示该单词是实体中第一个单词后的任一个单词,“O”表示该单词位于非实体位置;类型标记(Type Part,TP)将单词和实体类型信息联系起来,例如,“PER”代表人,“LOC”代表地点,“ORG”代表组织机构;关系标记(Relation Part,RP)是指对问题中的实体是否涉及任何关系进行标记,“R”表明该实体涉及句子中的一些关系,“N”表示不涉及任何关系。
与传统的BILOU标记方案相比,本发明一种基于实体关系联合抽取模型的多三元组抽取方法的标记方案能够明确哪些是噪音实体,其能够不借助不真实存在的约束产生候选实体对,同时避免过度无关的实体参与每个实体对之间的关系抽取。
步骤102:建立实体关系联合抽取模型。
本发明一种实体关系联合抽取模型包括用于将具有1-hot表示的单词转换为嵌入向量的嵌入层、用于对输入语句进行编码的Bi-LSTM层和用于解码的CRF层。
首先,假设对于一个输入句子序列X,W=(w1,w2,...,ws)是词向量序列,
Figure GDA0003710793100000051
是前向LSTM的输出,
Figure GDA0003710793100000052
是反向LSTM的输出;T,E和R分别表示三元组集合,实体集合和关系集合;t代表一个三元组(e1,e2,r)∈T,其中e1,e2∈E且r∈R;对一个X中的实体e=(xi,...,xi+j,...,xi+el),其中i表示X中的开始位置,j表示实体中的第j个单词,el是实体的长度。
用实体中的位置标记来代表实体标记,且满足:
Figure GDA0003710793100000061
其中e,
Figure GDA0003710793100000062
Figure GDA0003710793100000063
分别是嵌入层和Bi-LSTM层的实体特征。
其次,对于任意三元组t=(e1,e2,r)∈T,从嵌入层中获得头实体向量e1和尾实体向量e2,然后得到一个相匹配的关系向量r,并要求e1加上r约等于e2,即e1+r≈e2;则评分函数为:
Figure GDA0003710793100000064
相似地,从前向和反向LSTM中分别获取实体向量
Figure GDA0003710793100000065
Figure GDA0003710793100000066
为防止双向LSTM中实体特征的偏差,要求执行满足两个额外的约束条件:
Figure GDA0003710793100000067
Figure GDA0003710793100000068
因此,前向LSTM输出的评分函数和反向LSTM输出的评分函数分别为:
Figure GDA0003710793100000069
Figure GDA00037107931000000610
步骤103:对实体关系联合抽取模型进行训练。
对实体关系联合抽取模型进行训练包括建立损失函数,损失函数L包括两部分,实体抽取损失Le和关系抽取损失Lr,当损失函数越小时,模型的精度越高,模型能够更好的抽取句子中的三元组,损失函数为:
L=Le+λLr
其中,L为损失函数、Le为实体抽取损失、Lr为关系抽取损失、λ为权重超参数。
在实体抽取的损失函数中,取正确标记序列的概率p(y|X)的最大值,实体抽取损失函数Le为:
Figure GDA00037107931000000611
实体抽取损失Le的目的是鼓励模型创建正确的标记序列。
在关系抽取的损失函数中,首先建立负样本集合T'。负样本集合是由初始的正确的三元组和被替换的关系组成的,对于一个三元组(e1,e2 r,),用任意一个关系r′∈R替换初始关系r,则负样本T'可以被描述成:
T'={(e1,e2,r')|r'∈R,r'≠r}。
为了训练关系向量和激励区分正面三元组和负面三元组,在隐藏层中取训练集上的基于边界的排序损失函数的最大值,则:
Figure GDA0003710793100000071
其中γ>0是超参数用来约束正样例和负样例之间的边界,ReLu=max(0,x)。相似地,前向和反向LSTM的损失函数可以描述如下:
Figure GDA0003710793100000072
Figure GDA0003710793100000073
因此,关系抽取损失函数如下:
Figure GDA0003710793100000074
其中,X为输入的句子序列;Y表示X可生成的所有序列;y指其中的一个预测序列;
Figure GDA0003710793100000075
为CRF分数;Lem为训练集上的基于边界的排序损失函数;
Figure GDA0003710793100000076
为前向LSTM损失函数;
Figure GDA0003710793100000077
为反向LSTM损失函数;
Figure GDA0003710793100000078
指预测的特征向量。
步骤104:根据所述实体关系联合抽取模型进行三元组抽取。
根据关系模型进行三元组抽取,使用下列得分函数,得分最高的序列作为预测序列,得分函数为:
Figure GDA0003710793100000079
通过预测的标签,选用标签为“R”的单词作为候选实体,将这些结果置入一个集合
Figure GDA00037107931000000710
其中m是候选实体的数量;对于候选实体对
Figure GDA0003710793100000081
生成初始的三元组集合
Figure GDA0003710793100000082
并满足函数
Figure GDA0003710793100000083
对于每一实体对,只选择一种三元组
Figure GDA0003710793100000084
使得:
Figure GDA0003710793100000085
因此,如果
Figure GDA0003710793100000086
比一个关系特征阈值δr要大,则
Figure GDA0003710793100000087
是一个候选三元组,其中关系特征阈值δr根据测试集的精确度(最大值)确定。然后,按照
Figure GDA0003710793100000088
收集所有的候选三元组,得分最高的前n个三元组被认为是抽取出来的三元组,它们用来与测试集中的目标三元组进行比较;在每个句子中,当且仅当一个抽出的三元组完美地与实体的位置和关系相匹配,该三元组被认为是正确的。
本发明的另一个实施例,给出了本发明所建模型与其它模型分别对三元组进行抽取的结果的比较。
本发明不同模型对三元组抽取结果的比较选用的样本集为NYT和NYT(2)。
NYT包含New York Times从1987到2007年的文章,总计包含235k句子。无效的和重复的句子已经被过滤掉,最终得到67k的句子。特别地,测试集包含395个句子,其中大多数句子都包含一个三元组。
NYT(2)是一个从NYT中导出的数据集,它是为了进行多三元组抽取而特别构造的。从NYT(2)中任意取出1000条句子作为测试集,并把剩余部分作为训练集。不同于NYT,NYT(2)的测试集中较大比例(39.1%)的部分包含超过一个三元组。
表1为数据集统计量。
Figure GDA0003710793100000089
本发明三元组抽取模型记为TME,本发明三元组抽取模型的变体TME-RR指用随机的和稳定的关系向量r来进行模型训练,TME-NS指分别用额外的关系向量
Figure GDA00037107931000000810
Figure GDA00037107931000000811
来代替在
Figure GDA00037107931000000812
Figure GDA00037107931000000813
中的关系向量r;对照模型为DS+logistic、MultiR、DS-Joint,、FCM、LINE、CoType和NTS-Joint。本发明采用准确率(Prec)、召回率(Rec)和F值(F1)来评价各个模型的性能。
对于参数设置,选择词向量dw的维度的取值范围是{20,50,100,200},字符特征向量dch的取值范围是{5,10,15,25},大小写特征向量dc的取值范围是{1,2,5,10},正负样例三元组的边界γ的取值范围是{1,2,5,10},权重超参数λ的取值范围是{0.2,0.5,1,2,5,10,20,50};dropout比率设置从0到0.5之间;随机梯度下降用来使损失函数最优化。从测试集里任取10%的句子做验证集,剩下的被作为评价集。最理想的参数是λ=10.0,γ=2.0,dw=100,dch=25,dc=5,dropout=0.5。
表2为各模型在NYT上的实验结果。
Figure GDA0003710793100000091
其中,TME(top-1)表示模型中的每个句子中最多抽取一个三元组,TME(top-2)表示模型中的每个句子中最多抽取两个三元组,TME(top-3)表示模型中的每个句子中最多抽取三个三元组,TME(top-1)-Pretrain表示向量未经过预训练时的抽取结果。
从表2可以看出,相比其他模型,TME(top-1)取得了卓越的结果,F1值增长到了0.530,胜过第二名NTS-Joint 7个百分点;证明本发明基于排序和迁移的模型能够更加适应地处理实体对之间的关系。
表3为各模型在NYT(2)上的实验结果。
Figure GDA0003710793100000092
从表3可以看出,TME(top-2)的F1值增至0.567,相比于NTS-Joint增涨了36.7%,TME(top-2)取得了NYT(2)样本集上的最佳结果,可以证明其对于处理多三元组的能力优于其他模型。
本发明一种基于实体关系联合抽取模型的多三元组抽取方法的另一个实施例对TME模型的成分进行了分析,表4为分析结果:
表4为本发明TME模型的成分分析结果。
Figure GDA0003710793100000101
表中,TME为本发明基于排序和迁移的模型,其中,-TTS(-TP)指移除单词三部分标记中的类型标记部分,-TTS(-RP)指移除单词三部分标记中的关系标记部分,-TTS(-TP-RP)指同时移除单词三部分标记中的类型和关系标记部分。
由表4可以看出,在TME(top-2)中,引入关系标记后,三元组抽取的精度显著提高,提高了42.6%,但召回率仅下降1.3%,说明在模型中引入关系标记可以有效过滤掉与目标关系不相关的实体。
本发明一种基于实体关系联合抽取模型的多三元组抽取方法的另一个实施例给出了不同的权重超参数λ值对模型准确率的影响;如图2所示,若λ>20或λ<5,F1值下降。当λ=10时,TME在实体和关系抽取之间达到平衡,得到了杰出的F1值。
综上所述,本发明一种基于实体关系联合抽取模型的多三元组抽取方法使用了一个额外的关系标记来描述关系特征,从而允许负样例策略来强化模型的训练;本发明设计的三部分标记方案,在关系抽取的过程中能够排除与目标关系不相关的实体;此外,本发明一种基于实体关系联合抽取模型的多三元组抽取方法可以用来抽取多三元组,并且基于本发明三元组抽取方法的模型与其它模型相比有更强的多三元组抽取能力。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于包括以下步骤:
获取文本,对目标文本进行分句处理,并对句子中的每个单词进行标记;
建立实体关系联合抽取模型;
对所述实体关系联合抽取模型进行训练;
根据所述实体关系联合抽取模型进行三元组抽取;
所述实体关系联合抽取模型,包括:
用于将具有1-hot表示的单词转换为嵌入向量的嵌入层、用于对输入句子进行编码的双向长短期记忆Bi-LSTM层和用于解码的CRF层;
其中,对于任意三元组t=(e1,e2,r)∈T,所述嵌入层,包括:
从所述嵌入层获得头实体向量e1、尾实体向量e2和关系向量r,为更好地满足迁移,要求e1+r≈e2,评分函数为:
Figure FDA0003710793090000011
其中,T为三元组集合、t为任意三元组、e1为头实体向量、e2为尾实体向量、r为关系向量、f(t)为评分函数。
2.根据权利要求1所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,所述对句子中的每个单词进行标记包括对句子中的每个单词进行位置、类型、是否涉及关系三部分进行标记。
3.根据权利要求1所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,所述Bi-LSTM层包括前向LSTM层和反向LSTM层,为防止双向LSTM输出实体特征出现偏差,要求
Figure FDA0003710793090000012
Figure FDA0003710793090000013
评分函数为:
Figure FDA0003710793090000014
Figure FDA0003710793090000015
其中,
Figure FDA0003710793090000021
为前向LSTM输出的评分函数、
Figure FDA0003710793090000022
为反向LSTM输出的评分函数、
Figure FDA0003710793090000023
分别为前向LSTM输出的头实体向量和尾实体向量、
Figure FDA0003710793090000024
分别为反向LSTM输出的头实体向量和尾实体向量。
4.根据权利要求1所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,所述对所述实体关系联合抽取模型进行训练包括建立损失函数,所述损失函数为:
L=Le+λLr
其中,L为损失函数、Le为实体抽取损失、Lr为关系抽取损失、λ为权重超参数。
5.根据权利要求4所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,所述实体抽取损失Le取正确标记概率p(y|X)的最大值,所述实体抽取损失Le为:
Figure FDA0003710793090000025
所述关系抽取损失为:
Figure FDA0003710793090000026
其中,X为输入的句子序列;Y表示X可生成的所有序列;y指其中的一个预测序列;
Figure FDA0003710793090000027
为CRF分数;Lem为训练集上的基于边界的排序损失函数;
Figure FDA0003710793090000028
为前向LSTM损失函数;
Figure FDA0003710793090000029
为反向LSTM损失函数;
Figure FDA00037107930900000210
指预测的特征向量。
6.根据权利要求5所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,所述训练集上的基于边界的排序损失函数为:
Figure FDA00037107930900000211
所述前向LSTM损失函数为:
Figure FDA00037107930900000212
所述反向LSTM损失函数为:
Figure FDA00037107930900000213
其中,t为任意一个三元组;T为三元组集合;t’为负三元组;T’为负三元组集合;f(t')为负三元组的评分函数;
Figure FDA0003710793090000031
为负三元组前向LSTM输出的评分函数;
Figure FDA0003710793090000032
为负三元组反向LSTM输出的评分函数;γ为用于约束正样例和负样例之间边界的超参数;
Figure FDA0003710793090000033
为前向LSTM输出的评分函数;
Figure FDA0003710793090000034
为反向LSTM输出的评分函数。
7.根据权利要求1所述的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于,所述根据所述实体关系联合抽取模型进行三元组抽取包括:
用下列得分函数的最高分的序列来对所述实体标签进行预测:
Figure FDA0003710793090000035
Figure FDA0003710793090000036
为假设的通过预测的实体的集合,对于候选实体对
Figure FDA0003710793090000037
生成初始的三元组集合
Figure FDA0003710793090000038
所述初始的三元组满足函数
Figure FDA0003710793090000039
对于每一实体对,当满足:
Figure FDA00037107930900000310
时,
Figure FDA00037107930900000311
即为唯一选择的三元组;
其中,m是候选实体的数量;
Figure FDA00037107930900000312
指每个单词的实体预测结果;
Figure FDA00037107930900000313
指根据实体预测结果
Figure FDA00037107930900000314
获得的候选三元组;
Figure FDA00037107930900000315
指候选三元组的集合;
Figure FDA00037107930900000316
指预测的特征向量;X指输入的句子序列;Y表示X可生成的所有序列;
Figure FDA00037107930900000317
为CRF分数;R指关系集合。
CN201810993387.3A 2018-08-29 2018-08-29 一种基于实体关系联合抽取模型的多三元组抽取方法 Active CN109165385B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810993387.3A CN109165385B (zh) 2018-08-29 2018-08-29 一种基于实体关系联合抽取模型的多三元组抽取方法
US16/524,191 US20200073933A1 (en) 2018-08-29 2019-07-29 Multi-triplet extraction method based on entity-relation joint extraction model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810993387.3A CN109165385B (zh) 2018-08-29 2018-08-29 一种基于实体关系联合抽取模型的多三元组抽取方法

Publications (2)

Publication Number Publication Date
CN109165385A CN109165385A (zh) 2019-01-08
CN109165385B true CN109165385B (zh) 2022-08-09

Family

ID=64893283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810993387.3A Active CN109165385B (zh) 2018-08-29 2018-08-29 一种基于实体关系联合抽取模型的多三元组抽取方法

Country Status (2)

Country Link
US (1) US20200073933A1 (zh)
CN (1) CN109165385B (zh)

Families Citing this family (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119507A (zh) * 2018-02-05 2019-08-13 阿里巴巴集团控股有限公司 词向量生成方法、装置以及设备
CN109492113B (zh) * 2018-11-05 2022-05-13 扬州大学 一种面向软件缺陷知识的实体、关系联合抽取方法
CN109902145B (zh) * 2019-01-18 2021-04-20 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
CN110046351B (zh) * 2019-04-19 2022-06-14 福州大学 规则驱动下基于特征的文本关系抽取方法
CN110059320B (zh) * 2019-04-23 2021-03-16 腾讯科技(深圳)有限公司 实体关系抽取方法、装置、计算机设备和存储介质
CN110222330B (zh) * 2019-04-26 2024-01-30 平安科技(深圳)有限公司 语义识别方法及装置、存储介质、计算机设备
CN110110329B (zh) * 2019-04-30 2022-05-17 湖南星汉数智科技有限公司 一种实体行为抽取方法、装置、计算机装置及计算机可读存储介质
CN110597998A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合句法分析的军事想定实体关系抽取方法及装置
US11354506B2 (en) * 2019-07-30 2022-06-07 Baidu Usa Llc Coreference-aware representation learning for neural named entity recognition
CN111104517A (zh) * 2019-10-01 2020-05-05 浙江工商大学 一种基于两个三元组的中文问题生成方法
CN110765774B (zh) * 2019-10-08 2021-09-17 北京三快在线科技有限公司 信息抽取模型的训练方法、装置及信息抽取方法、装置
US20210110275A1 (en) * 2019-10-11 2021-04-15 Royal Bank Of Canada System and method of machine learning using embedding networks
CN110781683B (zh) * 2019-11-04 2024-04-05 河海大学 一种实体关系联合抽取方法
CN110969008B (zh) * 2019-12-03 2020-08-28 北京中科院软件中心有限公司 一种将加工过程描述语句转换为三元组结构的方法及系统
CN110968660B (zh) * 2019-12-09 2022-05-06 四川长虹电器股份有限公司 基于联合训练模型的信息抽取方法和系统
CN111046670B (zh) * 2019-12-09 2023-04-18 大连理工大学 基于毒品案件法律文书的实体及关系联合抽取方法
CN111428505B (zh) * 2020-01-17 2021-05-04 北京理工大学 一种融合触发词识别特征的实体关系抽取方法
CN111444723B (zh) * 2020-03-06 2023-07-28 深圳追一科技有限公司 信息抽取方法、计算机设备和存储介质
CN111368528B (zh) * 2020-03-09 2022-07-08 西南交通大学 一种面向医学文本的实体关系联合抽取方法
CN111414439B (zh) * 2020-03-17 2023-08-29 科大讯飞(苏州)科技有限公司 复杂尾实体拆分链接方法、装置、电子设备和存储介质
CN111291139B (zh) * 2020-03-17 2023-08-22 中国科学院自动化研究所 基于注意力机制的知识图谱长尾关系补全方法
CN111444715B (zh) * 2020-03-24 2022-12-02 腾讯科技(深圳)有限公司 实体关系识别方法、装置、计算机设备和存储介质
CN111444704B (zh) * 2020-03-27 2023-09-19 中南大学 基于深度神经网络的网络安全关键词抽取方法
CN111460824B (zh) * 2020-03-30 2022-06-14 华南理工大学 一种基于对抗迁移学习的无标注命名实体识别方法
CN111581358B (zh) * 2020-04-08 2023-08-18 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备
CN111539211A (zh) * 2020-04-17 2020-08-14 中移(杭州)信息技术有限公司 实体及语义关系识别方法、装置、电子设备及存储介质
CN111476035B (zh) * 2020-05-06 2023-09-05 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质
CN111597276B (zh) * 2020-05-07 2023-09-29 科大讯飞(苏州)科技有限公司 实体对齐方法、装置和设备
CN111581387B (zh) * 2020-05-09 2022-10-11 电子科技大学 一种基于损失优化的实体关系联合抽取方法
CN111898362B (zh) * 2020-05-15 2024-05-28 联想(北京)有限公司 一种数据处理方法及装置
CN111476023B (zh) * 2020-05-22 2023-09-01 北京明朝万达科技股份有限公司 识别实体关系的方法及装置
CN113743116A (zh) * 2020-05-28 2021-12-03 株式会社理光 命名实体识别的训练方法、装置及计算机可读存储介质
CN111651606B (zh) * 2020-06-05 2024-03-01 深圳市慧择时代科技有限公司 一种文本处理方法、装置及电子设备
CN113807079B (zh) * 2020-06-11 2023-06-23 四川大学 一种基于序列到序列的端到端实体和关系联合抽取方法
CN111666427B (zh) * 2020-06-12 2023-05-12 长沙理工大学 一种实体关系联合抽取方法、装置、设备及介质
CN111753024B (zh) * 2020-06-24 2024-02-20 河北工程大学 一种面向公共安全领域的多源异构数据实体对齐方法
CN111832293B (zh) * 2020-06-24 2023-05-26 四川大学 基于头实体预测的实体和关系联合抽取方法
CN111968700A (zh) * 2020-07-07 2020-11-20 南京农业大学 一种基于bert的水稻表型组学知识图谱关系提取方法及系统
CN111832287B (zh) * 2020-07-22 2024-04-19 广东工业大学 一种实体关系联合抽取方法及装置
CN111950267B (zh) * 2020-08-14 2024-03-29 中国科学技术大学 文本三元组的抽取方法及装置、电子设备及存储介质
CN111967242B (zh) * 2020-08-17 2024-05-03 支付宝(杭州)信息技术有限公司 一种文本信息的抽取方法、装置及设备
CN112329440B (zh) * 2020-09-01 2023-07-25 浪潮云信息技术股份公司 一种基于两阶段筛选和分类的关系抽取方法和装置
CN112016312B (zh) * 2020-09-08 2023-08-29 平安科技(深圳)有限公司 数据关系抽取方法、装置、电子设备及存储介质
CN112069319B (zh) * 2020-09-10 2024-03-22 杭州中奥科技有限公司 文本抽取方法、装置、计算机设备和可读存储介质
CN112101009B (zh) * 2020-09-23 2024-03-26 中国农业大学 一种基于知识图谱的红楼梦人物关系框架相似度评判方法
CN112163092B (zh) * 2020-10-10 2022-07-12 成都数之联科技股份有限公司 实体及关系抽取方法及系统、装置、介质
CN112417872B (zh) * 2020-10-20 2022-08-05 上海大学 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法
CN112463960B (zh) * 2020-10-30 2021-07-27 完美世界控股集团有限公司 一种实体关系的确定方法、装置、计算设备及存储介质
CN112948536A (zh) * 2020-11-09 2021-06-11 袭明科技(广东)有限公司 网页简历页面的信息抽取方法和装置
CN112347759A (zh) * 2020-11-10 2021-02-09 华夏幸福产业投资有限公司 一种实体关系的抽取方法、装置、设备及存储介质
CN112528034B (zh) * 2020-11-16 2022-06-10 中国科学院深圳先进技术研究院 一种基于知识蒸馏的实体关系抽取方法
CN112560475B (zh) * 2020-11-16 2023-05-12 和美(深圳)信息技术股份有限公司 三元组抽取方法及系统
CN112328710A (zh) * 2020-11-26 2021-02-05 北京百度网讯科技有限公司 实体信息处理方法、装置、电子设备和存储介质
CN112329463A (zh) * 2020-11-27 2021-02-05 上海汽车集团股份有限公司 遥监督关系抽取模型的训练方法及相关装置
CN112395428B (zh) * 2020-12-01 2022-09-06 中国科学技术大学 一种基于集合补全知识图谱实体摘要的方法及系统
CN112270196B (zh) * 2020-12-14 2022-04-29 完美世界(北京)软件科技发展有限公司 实体关系的识别方法、装置及电子设备
CN112542222B (zh) * 2020-12-21 2024-02-02 中南大学 基于深度学习的中文电子病历实体及关系联合抽取方法
CN116601626A (zh) * 2020-12-28 2023-08-15 华为技术有限公司 个人知识图谱构建方法、装置及相关设备
CN112699667B (zh) * 2020-12-29 2024-05-21 京东科技控股股份有限公司 一种实体相似度确定方法、装置、设备和存储介质
CN112749283A (zh) * 2020-12-31 2021-05-04 江苏网进科技股份有限公司 一种面向法律领域的实体关系联合抽取方法
US11675978B2 (en) 2021-01-06 2023-06-13 International Business Machines Corporation Entity recognition based on multi-task learning and self-consistent verification
CN112793797A (zh) * 2021-02-03 2021-05-14 东航技术应用研发中心有限公司 一种飞机着陆弹跳预警方法和系统
CN112883197B (zh) * 2021-02-08 2023-02-07 广东电网有限责任公司广州供电局 一种用于封闭开关设备的知识图谱构建方法与系统
CN112836482B (zh) * 2021-02-09 2024-02-23 浙江工商大学 一种基于模板的序列生成模型生成问题的方法及装置
CN112860866B (zh) * 2021-02-09 2023-09-19 北京百度网讯科技有限公司 语义检索方法、装置、设备以及存储介质
CN112950414B (zh) * 2021-02-25 2023-04-18 华东师范大学 一种基于解耦法律要素的法律文本表示方法
CN113010638B (zh) * 2021-02-25 2024-02-09 北京金堤征信服务有限公司 实体识别模型生成方法及装置、实体提取方法及装置
CN113051929A (zh) * 2021-03-23 2021-06-29 电子科技大学 一种基于细粒度语义信息增强的实体关系抽取的方法
CN112989833A (zh) * 2021-04-15 2021-06-18 广东工业大学 一种基于多层lstm的远程监督实体关系联合抽取方法和系统
CN113342929A (zh) * 2021-05-07 2021-09-03 上海大学 一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法
CN113204649A (zh) * 2021-05-11 2021-08-03 西安交通大学 基于实体关系联合抽取的法律知识图谱构建方法及设备
CN113158676A (zh) * 2021-05-12 2021-07-23 清华大学 专业实体与关系联合抽取方法、系统及电子设备
CN113298160B (zh) * 2021-05-28 2023-03-07 深圳数联天下智能科技有限公司 三元组的校验方法、装置、设备和介质
CN113221571B (zh) * 2021-05-31 2022-07-01 重庆交通大学 基于实体相关注意力机制的实体关系联合抽取方法
CN113515598B (zh) * 2021-06-22 2021-12-07 国网电子商务有限公司 一种网络威胁情报文档实体关系提取方法及装置
CN113297384A (zh) * 2021-06-29 2021-08-24 中国人民解放军国防科技大学 一种基于lstm的数据链网络保障需求采集方法及其应用
CN113468330B (zh) * 2021-07-06 2023-04-28 北京有竹居网络技术有限公司 信息获取方法、装置、设备及介质
CN113449517B (zh) * 2021-07-08 2023-03-28 福建工程学院 基于bert门控多窗口注意力网络模型的实体关系抽取方法
CN113553385B (zh) * 2021-07-08 2023-08-25 北京计算机技术及应用研究所 一种司法文书中法律要素的关系抽取方法
CN113486667B (zh) * 2021-07-26 2024-03-05 辽宁工程技术大学 一种基于实体类型信息的医疗实体关系联合抽取方法
CN113590784B (zh) * 2021-07-27 2024-05-24 中国科学技术大学 三元组信息抽取方法、装置、电子设备、及存储介质
CN113779260B (zh) * 2021-08-12 2023-07-18 华东师范大学 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统
CN113722567B (zh) * 2021-08-24 2022-04-19 北京半人科技有限公司 一种基于多目标融合的实体关系抽取方法
CN113468344B (zh) * 2021-09-01 2021-11-30 北京德风新征程科技有限公司 实体关系抽取方法、装置、电子设备和计算机可读介质
CN113822018B (zh) * 2021-09-16 2022-06-14 湖南警察学院 实体关系联合抽取方法
CN113806514B (zh) * 2021-09-18 2024-03-01 上海交通大学 基于Transformer模型的实体关系抽取方法和系统
CN113987195A (zh) * 2021-09-29 2022-01-28 浙江大学 一种可微的挖掘常量规则的方法
CN113609311A (zh) * 2021-09-30 2021-11-05 航天宏康智能科技(北京)有限公司 推荐项目的方法和装置
CN114118056A (zh) * 2021-10-13 2022-03-01 中国人民解放军军事科学院国防工程研究院工程防护研究所 一种战争类研究报告的信息抽取方法
CN113886529B (zh) * 2021-10-22 2022-12-02 苏州空天信息研究院 一种面向网络安全领域的信息抽取方法及其系统
CN113901825B (zh) * 2021-11-22 2024-05-03 东北大学 一种基于主动深度学习的实体关系联合抽取方法及系统
CN114357176B (zh) * 2021-11-26 2023-11-21 永中软件股份有限公司 实体知识自动抽取方法和计算机装置、计算机可读介质
CN113987090B (zh) * 2021-12-28 2022-03-25 北京泷汇信息技术有限公司 句中实体关系模型训练方法及句中实体关系识别方法
CN114298052B (zh) * 2022-01-04 2023-06-20 中国人民解放军国防科技大学 一种基于概率图的实体联合标注关系抽取方法和系统
CN115204120B (zh) * 2022-07-25 2023-05-30 平安科技(深圳)有限公司 保险领域三元组抽取方法、装置、电子设备及存储介质
CN115391569B (zh) * 2022-10-27 2023-03-24 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种从研报自动构建产业链图谱的方法及相关设备
CN115759098B (zh) * 2022-11-14 2023-07-18 中国科学院空间应用工程与技术中心 一种航天文本数据的中文实体和关系联合抽取方法、系统
CN115858825B (zh) * 2023-03-02 2023-05-16 山东能源数智云科技有限公司 基于机器学习的设备故障诊断知识图谱构建方法和装置
CN116402055B (zh) * 2023-05-25 2023-08-25 武汉大学 一种专利文本实体的抽取方法、装置、设备和介质
CN116431757B (zh) * 2023-06-13 2023-08-25 中国人民公安大学 基于主动学习的文本关系抽取方法、电子设备及存储介质
CN116702785B (zh) * 2023-08-03 2023-10-24 腾讯科技(深圳)有限公司 关系标签的处理方法和装置、存储介质及电子设备
CN117057345B (zh) * 2023-10-11 2024-01-30 腾讯科技(深圳)有限公司 一种角色关系的获取方法及相关产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10354188B2 (en) * 2016-08-02 2019-07-16 Microsoft Technology Licensing, Llc Extracting facts from unstructured information
US10503833B2 (en) * 2016-12-06 2019-12-10 Siemens Aktiengesellschaft Device and method for natural language processing
US10997223B1 (en) * 2017-06-28 2021-05-04 Amazon Technologies, Inc. Subject-specific data set for named entity resolution
US10679007B2 (en) * 2018-08-30 2020-06-09 Intelligent Fusion Technology, Inc. Method and system for pattern discovery and real-time anomaly detection based on knowledge graph

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme;Suncong Zheng等;《arXiv:1706.05075v1》;20170607;第1-10页 *
Jointly Extracting Multiple Triplets with Multilayer Translation Constraints;Zhen Tan等;《AAAI-19》;20190717;第33卷(第1期);第7080-7087页 *
面向非结构化数据的知识图谱构建与表示技术研究;谭真;《中国博士学位论文全文数据库 信息科技辑》;20210115(第1期);第I138-283页 *

Also Published As

Publication number Publication date
CN109165385A (zh) 2019-01-08
US20200073933A1 (en) 2020-03-05

Similar Documents

Publication Publication Date Title
CN109165385B (zh) 一种基于实体关系联合抽取模型的多三元组抽取方法
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN108920622B (zh) 一种意图识别的训练方法、训练装置和识别装置
CN107608956B (zh) 一种基于cnn-grnn的读者情绪分布预测算法
CN106095996B (zh) 用于文本分类的方法
CN109492101B (zh) 基于标签信息与文本特征的文本分类方法、系统及介质
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111581385B (zh) 一种不平衡数据采样的中文文本类别识别系统及方法
CN111339754B (zh) 基于案件要素句子关联图卷积的案件舆情摘要生成方法
CN107844533A (zh) 一种智能问答系统及分析方法
CN108052625B (zh) 一种实体精细分类方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN112257441B (zh) 一种基于反事实生成的命名实体识别增强方法
CN112328797A (zh) 一种基于神经网络和注意力机制的情感分类方法及系统
CN113821605B (zh) 一种事件抽取方法
CN109325125B (zh) 一种基于cnn优化的社交网络谣言检测方法
CN112667813B (zh) 用于裁判文书的敏感身份信息的识别方法
CN107305545A (zh) 一种基于文本倾向性分析的网络意见领袖的识别方法
CN107145514A (zh) 基于决策树和svm混合模型的中文句型分类方法
CN108470025A (zh) 局部话题概率生成正则化自编码文本嵌入表示方法
CN105975497A (zh) 微博话题自动推荐方法及装置
CN115221864A (zh) 一种多模态假新闻检测方法及系统
CN111897953A (zh) 一种新型网络媒体平台评论文本分类标注数据纠正方法
CN113836306B (zh) 基于篇章成分识别的作文自动测评方法、设备和存储介质
CN113360659B (zh) 一种基于半监督学习的跨领域情感分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant