CN111651528A - 基于生成式对抗网络的开放式实体关系抽取方法 - Google Patents
基于生成式对抗网络的开放式实体关系抽取方法 Download PDFInfo
- Publication number
- CN111651528A CN111651528A CN202010396741.1A CN202010396741A CN111651528A CN 111651528 A CN111651528 A CN 111651528A CN 202010396741 A CN202010396741 A CN 202010396741A CN 111651528 A CN111651528 A CN 111651528A
- Authority
- CN
- China
- Prior art keywords
- sentence
- entity relationship
- relation
- similarity
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 35
- 238000004458 analytical method Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000012216 screening Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 abstract description 3
- 238000007796 conventional method Methods 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000005065 mining Methods 0.000 description 3
- 101100297738 Danio rerio plekho1a gene Proteins 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于生成式对抗网络的开放式实体关系抽取方法,属于自然语言处理与机器学习领域。针对微博数据短小杂乱的特点,以及现有方法未考虑句子间语义相似性导致抽取的实体关系对准确率低且冗余的问题,提出一种基于生成式对抗网络的开放式实体关系抽取方法。该方法首先通过关系词和论元抽取规则得到实体三元组,通过语法分析树筛选三元组得到候选实体关系对。其次利用生成式对抗网络计算句子相似度,根据相似度阈值,划分相似句子组,并结合组内句子包含的实体关系对与其对应的置信度,合并组内实体关系对。本发明在NLP&&CC微博语料上进行实验,结果表明通过计算实体关系对置信度和划分相似句子组,合并组内实体关系对,提高了准确率和召回率,达到了去冗余的效果。
Description
技术领域
本发明涉及基于生成式对抗网络的开放式实体关系抽取方法,属于自然语言处理与机器学习领域。
背景技术
原始文本都是无结构化的。开放式实体关系抽取技术能够从原始文本中,抽取出实体以及实体对之间存在的关系,形成三元组,三元组的形式为<实体1,关系,实体2>。实体关系抽取技术是很多其他自然语言处理任务的基础,比如知识库构建、问答系统等。
为了解决微博数据的杂乱冗余性质引发的关系抽取器抽取结果准确率低且冗余的问题,研究开放式实体关系抽取技术。因此,本发明将提供基于生成式对抗网络的开放式实体关系抽取方法来提高系统抽取实体关系的能力。
本发明需要解决的基本问题是:从杂乱无序的微博数据中,抽取不限类别的实体、实体关系,形成结构化的数据。现有的开放式实体关系抽取系统和方法,主要包括以下几种:
1.TextRunner系统和WOE系统
TextRunner是第一个开放式信息抽取系统,通过词性和基本名词短语等特征训练朴素贝叶斯模型,抽取实体之间的关系。WOE系统将维基百科数据作为训练集,通过实验证明利用数据中的依存关系可以有效提升TextRunner系统的能力。TextRunner和WOE系统都属于先识别命名实体,再抽取关系的方法。
2.基于规则的方法
ReVerb首先确定一个以动词为中心的关系短语,结合语义规则和语法规则约束抽取实体关系三元组,然后通过位置约束规则抽取实体关系三元组。该方法通过词性标注、命名实体识别和人工制定规则匹配抽取实体关系对。对于多语言的开放信息抽取,Gamallo等采用基于规则的依存分析抽取英语、葡萄牙语、加利西亚语和西班牙语的实体关系。
3.针对中文的开放式实体关系抽取系统
针对中文的开放式实体关系抽取主要有三个系统:ZORE、UnCORE和CORE。ZORE对句子进行依存分析,得到依存解析树,然后依据实体与关系词之间的依存关系迭代抽取句子的实体三元组。UnCORE系统通过制定句子中实体之间和关系指示词之间的位置限制规则,抽取候选关系三元组,然后利用信息增益筛选关系指示词,结合类型排序方法获得每个实体关系类型的关系指示词,最后通过关系词和句式规则对候选三元组进行过滤。CORE首先使用CKIP解析器分析句法结构,然后通过“head-driven”准则识别句子中的中心关系指示词,最后结合依存关系寻找中心实体词。
综上所述,现有开放式实体关系抽取方法难以处理杂乱冗余的微博数据,所以本发明提出基于生成式对抗网络的开放式实体关系抽取方法。
发明内容
本发明的目的是为缓解现有方法在微博数据集上准确率低,结果冗余的问题,提高开放式实体关系抽取性能,提出基于生成式对抗网络的开放式实体关系抽取方法。
本发明的设计原理为:首先,对数据进行预处理,包括:提取微博数据的正文,对正文进行分句、分词、去停用词和词性标注,利用依存分析工具,得到依存句法解析树;其次,通过基本名词识别规则确定候选论元,结合关系词抽取规则和论元抽取规则得到实体关系三元组,利用语法分析树筛选实体关系三元组,得到候选实体关系对;然后,基于生成式对抗网络(GAN,Generative Adversarial Networks)计算句子相似度Sim,得到所有句子的句子相似度矩阵;最后,根据句子相似度矩阵和相似度阈值划分相似句子组,在每个相似句子组内,分别计算每个实体关系三元组的置信度,结合组内句子包含的实体关系对与其对应的置信度,合并组内实体关系对作为该句子组的最优实体关系三元组。
本发明的技术方案是通过如下步骤实现的:
步骤1,对微博数据进行预处理。
步骤1.1,提取微博数据的正文。
步骤1.2,对微博数据的正文进行分句、分词、去停用词和词性标注。
步骤1.3,利用依存分析工具,得到依存句法解析树。
步骤1.4,利用语法分析工具,得到语法分析树。
步骤2,抽取候选实体关系对。
步骤2.1,结合基本名词短语规则、关系词抽取规则和论元抽取规则抽取实体关系三元组。
步骤2.2,通过语法分析树,对实体关系三元组进行筛选,生成实体关系三元组候选集。
步骤3,计算句子相似度。
步骤3.1,基于生成式对抗网络计算句子相似度Sim。
步骤3.2,重复步骤3.1得到句子相似度矩阵。
步骤4,实体关系对合并。
步骤4.1,根据句子相似度矩阵和相似度阈值划分相似句子组。
步骤4.2,结合组内句子包含的实体关系三元组其对应的置信度,合并组内实体关系对,作为该句子组的最优实体关系三元组。
有益效果
相比于现有的开放式实体关系抽取系统和方法,本发明能够有效缓解微博数据实体关系对抽取结果准确率低且冗余的问题。
附图说明
图1为本发明基于生成式对抗网络的开放式实体关系抽取方法的原理图。
图2为依存句法示例图。
图3为语法分析树示例图。
图4为基于生成式对抗网络的句子相似度计算方法的原理图。
图5为生成式对抗网络挖掘两个句子相同特征的原理图。
图6为实体关系对合并原理图。
具体实施方式
为了更好地说明本发明的目的和优点,下面结合实例对本发明方法的实施方式做进一步详细说明。
具体流程为:
步骤1,对微博数据进行预处理。
步骤1.1,提取正文内容,使用正则表达式过滤html标签和噪声符号,同时将正文中的繁体转换为简体。
步骤1.2,对正文数据进行分句,结合哈工大的语言云LTP对每个句子进行分词、词性标注和依存关系分析,并将包含少于4个有效词(包括名词、动词、形容词、数词、时间词等)的文本去除。
步骤1.3,依存句法分析通过分析句子中语言单位内成分之间的依存关系揭示其句法结构,利用哈工大提供的LTP依存分析工具分析句子“白宫预算委员会的民主党星期一发布报告”中成分之间的依存关系见图2。依存句法标注关系及含义见表1。
表1.依存句法标注关系表
步骤1.4,引入语法信息去除噪声,语法分析树是一个有序的、有根节点的树,它能够描述句子的语法结构。利用斯坦福解析器分析句子的语法结构,并获取语法分析树。使用该工具分析句子“小明助手小红抵达上海”的语法结构见图3。
步骤2,抽取候选实体关系对。
步骤2.1,首先根据词性标注结果和名词短语抽取规则得到基本名词短语;其次将句子中存在VOB(动宾关系)或FOB(前置宾语)依存关系路径的动词视为候选关系词;最后将基本名词短语中的成分与候选关系词存在SBV(主谓关系)、VOB、FOB的作为该动词的论元,得到“SBV-关系词-VOB”和“SBV-FOB-关系词”两种依存关系路径的实体关系对。
具有否定结构的句子需要特殊处理,例如,“部分大学生没有参加晚会”,按照上述实体关系对抽取规则得到“e1:部分大学生,e2:晚会,r:参加”实体关系对,结果不正确,所以需要考虑否定词,正确结果应是:“e1:部分大学生,e2:晚会,r:没有参加”。
通过建立一个否定词集来识别否定词,对于识别出来的否定词,将其加入与之存在依存关系路径(ADV)的关系词中。否定词包括:非、没、无、不、防止、没有、难以、禁止、难以、忘记、忽略、放弃、杜绝、拒绝、差点儿、差点儿没、不明不白。
步骤2.2,通过语法分析树,对实体关系三元组进行筛选,生成实体关系三元组候选集。从图3的语法分析树可以看到每两个单词都是连接的。并且紧密相连的单词之间的距离通常很短。因此,对于句子中的每个候选实体关系三元组,在语法分析树中计算实体关系三元组中的关系关键字与实体关系三元组中的两个实体的距离之和。对于每个关系关键字,选择距离和最短的实体对和该关系组成三元组,同时将该关系的其他三元组删除。
步骤3,计算句子相似度。
步骤3.1,基于生成式对抗网络计算句子相似度的方法原理见图4。传统的神经网络方法只关注句子更好的向量表示,比如,给出一个句子对,X=x1,x2,…,xm和Y=y1,y2,…,yn,目标是计算这两个句子的相似性。首先,X和Y中的每个单词被映射为词向量,分别使用xi∈Rd和yj∈Rd表示,其中d表示词向量的维度;其次使用LSTM获得句子中每个单词对应的隐层状态;然后在隐层状态上进行最大池化操作来获得句子的表示HX和HY;最后根据具有l1范数的曼哈顿距离相似度函数计算两个句子表示(HX和HY)的相似度得分,公式表示如式1所示,
S(X,Y)=exp(-‖HX-HY‖1) (1)
另外,本方法添加生成式对抗网络来挖掘两个句子的共同特征,把挖取到的共同特征和公式1计算的相似度分数相结合,把组合的特征输入到softmax层来获得相似度分布,公式如式2所示,
损失函数通常采用交叉熵,定义如公式3所示,
其中,θs表示参数集合,包含所有可训练的参数,(X,Y,c)是数据集D中的样例,(c=j)∈{0,1}。
本方法中的生成式对抗网络用于挖掘两个句子的共同特征,图5说明了该网络的细节。该网络提取句子共同特征主要包括以下几个步骤:
(1)如果一个单词出现在两个句子中,那么在进行相似度计算过程中这个单词可能比其他单词更加重要,并且他们的隐层状态也会包含更多的共同信息。所以选择两句话中重叠单词的隐层状态表示用于共同特征挖掘。获得这些隐层状态表示之后,采用最大池化操作,从而获得句子的表示向量,最终句子X和Y被表示成FX∈Rk和FY∈Rk。
(2)使用生成式对抗网络中的生成器产生共同特征,比如说将FY输入到生成器中,会产生新的特征表示,公式如4所示,
FG=G(FY)=tanh(WgFy+bg) (4)
其中,Wg∈Rk×k和bg∈Rk是生成器G的参数。生成器生成新的特征表示之后与判别器进行对抗来保留与FX共同的信息。
(3)如果无法将新生成的特征FG与FX区分开,则基于句子Y生成的特征也将包含句子X的信息,也就是说FG是句子X和Y的共同特征。为此,在生成式对抗网络中引入一个判别器D用于评价FG。将F(FX或者FG)输入D中,判别器将会输出一个概率分布用于判断F来自于句子X或Y。该概率分布由判别器中的softmax函数来计算,公式如5所示,
D(lF|F)=pd(lF|F)=softmax(WdF+bd) (5)
其中,Wd∈R2×k和bd∈R2是判别器的参数,lF∈{0,1},当F来自于句子X时,lF=1。
(4)下面分别定义判别器和生成器的损失函数。对于判别器,最小化预测分布pd(lF|F)和真实标签分布的交叉熵,公式如式6所示,
其中,θd表示判别器中的所有参数。假设相似的句子对有更多的共性,对于相似的句子对,一个句子在生成器上产生的特征表示会跟另外一个句子的特征表示相近。对于不相似的句子对,正好相反。因此设计了一个新的生成器,它根据句子相似性标签与判别器进行协作和对抗。该生成器根据句子相似性来最大化所生成的特征的标签预测。公式如式7所示,
其中,θg是生成器的所有参数。最后把公式(3)(6)和(7)进行组合得到整个模型最终的目标函数,如式8所示,
J(θ)=Js(θs)+Jd(θd)-Jg(θg) (8)
推断阶段将模型最后一层softmax层的输出的概率分布的第二个值作为句子对的相似度Sim。
步骤3.2,重复上述句子相似度计算方法得到句子集中所有句子相互之间的相似度,生成句子相似度矩阵。
步骤4,实体关系对合并。
步骤4.1,实体关系对合并原理图见图6。通过句子相似度计算得到句子相似度矩阵,把相似度大于阈值的句子划分成一组。句子相似度矩阵划分成相似句子组的具体步骤如下:
(1)在句子集中选择一个句子X,把该句子添加到相似度句子组1中,在句子集中删除句子X;
(2)定位X在句子相似度矩阵中的行数i,把矩阵第i行上相似度大于0.75的所有句子加入句子组1中,并在句子集中删除它们;
(3)随机在剩余句子中选择一个句子Y,如果句子Y与句子组1中任一句子相似度大于0.75,则把Y添加到句子组1中,反之新建一个相似句子组,把Y添加进去,重复(2);
(4)不断迭代(3),直至句子集为空,得到n个相似句子组。
步骤4.2,对组内句子包含的所有实体关系三元组(e1,r,e2),其中,e1∈Rd、e2∈Rd和r∈Rd都是使用word2vec工具获得的词向量。对于每个三元组,首先计算vrelation,vrelation的计算公式为vrelation=e1-e2,vrelation包含实体关系三元组的真实关系的特征;其次计算vrelation和关系r的乘积,计算公式为wi表示组内第i个三元组的置信度,置信度越高表示该三元组越可信。然后对所有三元组的置信度进行归一化,公式为 q表示句子组内三元组的数量;最后根据置信度,对组内所有候选实体关系对进行排序,取排序最高的实体关系对替换组内所有句子的候选实体关系对,作为该句子组的最优实体关系对。
测试结果:基于生成式对抗网络的开放式实体关系抽取方法,在社交文本(2013年NLP&&CC会议发布的面向中文微博观点要素抽取评测任务公开语料)上进行开放式实体关系抽取方法的对比实验,对比方法包括ZORE(2014年)和CORE(2014年)。本发明优于ZORE和CORE,实现了提高准确率以及去冗余的效果,结果如表2所示,有效实现了开放式实体关系抽取。
表2.对比试验结果
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.基于生成式对抗网络的开放式实体关系抽取方法,其特征在于所述方法包括如下步骤:
步骤1,对微博数据进行预处理,包括:提取微博数据的正文,对微博数据的正文进行分句、分词、去停用词和词性标注,利用依存分析工具,得到依存句法解析树,利用语法分析工具,得到语法分析树;
步骤2,结合基本名词短语规则、关系词抽取规则和论元抽取规则抽取实体关系三元组,通过语法分析树,对实体关系三元组进行筛选,生成实体关系对候选集;
步骤3,基于生成式对抗网络计算句子相似度Sim,得到句子相似度矩阵;
步骤4,根据句子相似度矩阵和相似度阈值划分相似句子组,然后结合组内句子包含的实体关系对与其对应的置信度,合并组内实体关系对,作为该句子组的最优实体关系三元组。
2.根据权利要求1所述的基于生成式对抗网络的开放式实体关系抽取方法,其特征在于:步骤1中对句子同时进行依存句法分析和语法分析,得到依存句法解析树和语法分析树。
3.根据权利要求1所述的基于生成式对抗网络的开放式实体关系抽取方法,其特征在于:步骤2中通过依存句法解析树得到候选实体关系三元组,引入语法分析树,通过语法信息对候选实体关系三元组进行筛选。
4.根据权利要求1所述的基于生成式对抗网络的开放式实体关系抽取方法,其特征在于:步骤3基于生成式对抗网络计算句子相似度Sim,本方法使用LSTM得到句子的句子向量表示,使用生成式对抗网络获得句子对的共同特征表示,其次使用具有l1范数的曼哈顿距离相似度函数计算两个句子表示的相似度得分,然后将该相似度得分与句子对的共同特征表示相结合作为组合特征,最后把组合的特征输入softmax层获得相似度值Sim,进而得到句子相似度矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010396741.1A CN111651528A (zh) | 2020-05-11 | 2020-05-11 | 基于生成式对抗网络的开放式实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010396741.1A CN111651528A (zh) | 2020-05-11 | 2020-05-11 | 基于生成式对抗网络的开放式实体关系抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111651528A true CN111651528A (zh) | 2020-09-11 |
Family
ID=72352090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010396741.1A Pending CN111651528A (zh) | 2020-05-11 | 2020-05-11 | 基于生成式对抗网络的开放式实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651528A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113901151A (zh) * | 2021-09-30 | 2022-01-07 | 北京有竹居网络技术有限公司 | 用于关系抽取的方法、装置、设备和介质 |
CN115238217A (zh) * | 2022-09-23 | 2022-10-25 | 山东省齐鲁大数据研究院 | 一种公告文本中抽取数值信息的方法及终端机 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010050675A2 (ko) * | 2008-10-29 | 2010-05-06 | 한국과학기술원 | 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법 |
CN106776544A (zh) * | 2016-11-24 | 2017-05-31 | 四川无声信息技术有限公司 | 人物关系识别方法及装置和分词方法 |
CN106803082A (zh) * | 2017-01-23 | 2017-06-06 | 重庆邮电大学 | 一种基于条件式生成对抗网络的在线笔迹识别方法 |
CN107783960A (zh) * | 2017-10-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
CN107943784A (zh) * | 2017-11-02 | 2018-04-20 | 南华大学 | 基于生成对抗网络的关系抽取方法 |
CN108363816A (zh) * | 2018-03-21 | 2018-08-03 | 北京理工大学 | 基于句义结构模型的开放式实体关系抽取方法 |
CN110119510A (zh) * | 2019-05-17 | 2019-08-13 | 浪潮软件集团有限公司 | 一种基于传递依存关系和结构助词的关系抽取方法及装置 |
US20200019642A1 (en) * | 2018-07-12 | 2020-01-16 | International Business Machines Corporation | Question Answering Using Trained Generative Adversarial Network Based Modeling of Text |
-
2020
- 2020-05-11 CN CN202010396741.1A patent/CN111651528A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010050675A2 (ko) * | 2008-10-29 | 2010-05-06 | 한국과학기술원 | 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법 |
CN106776544A (zh) * | 2016-11-24 | 2017-05-31 | 四川无声信息技术有限公司 | 人物关系识别方法及装置和分词方法 |
CN106803082A (zh) * | 2017-01-23 | 2017-06-06 | 重庆邮电大学 | 一种基于条件式生成对抗网络的在线笔迹识别方法 |
CN107783960A (zh) * | 2017-10-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
CN107943784A (zh) * | 2017-11-02 | 2018-04-20 | 南华大学 | 基于生成对抗网络的关系抽取方法 |
CN108363816A (zh) * | 2018-03-21 | 2018-08-03 | 北京理工大学 | 基于句义结构模型的开放式实体关系抽取方法 |
US20200019642A1 (en) * | 2018-07-12 | 2020-01-16 | International Business Machines Corporation | Question Answering Using Trained Generative Adversarial Network Based Modeling of Text |
CN110119510A (zh) * | 2019-05-17 | 2019-08-13 | 浪潮软件集团有限公司 | 一种基于传递依存关系和结构助词的关系抽取方法及装置 |
Non-Patent Citations (4)
Title |
---|
QIN CHEN, QINMIN HU, JIMMY XIANGJI HUANG, AND LIANG HE.: "CAN: Enhancing Sentence Similarity Modeling with Collaborative and Adversarial Network", THE 41ST INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH & DEVELOPMENT IN INFORMATION RETRIEVAL, pages 815 * |
宋冬云;郑瑾;张祖平;: "基于混合策略的中文短文本相似度计算", 计算机工程与应用, no. 12 * |
李昌利;皇望;樊棠怀;: "基于生成式对抗网络的区分度模型", 扬州大学学报(自然科学版), no. 03 * |
王宏生,孟国艳编著: "人工智能及其应用", 国防工业出版社, pages: 196 - 198 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113901151A (zh) * | 2021-09-30 | 2022-01-07 | 北京有竹居网络技术有限公司 | 用于关系抽取的方法、装置、设备和介质 |
CN115238217A (zh) * | 2022-09-23 | 2022-10-25 | 山东省齐鲁大数据研究院 | 一种公告文本中抽取数值信息的方法及终端机 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Leveraging linguistic structures for named entity recognition with bidirectional recursive neural networks | |
US9336192B1 (en) | Methods for analyzing text | |
US11113470B2 (en) | Preserving and processing ambiguity in natural language | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
Thuy et al. | Cross-language aspect extraction for opinion mining | |
Asimuzzaman et al. | Sentiment analysis of bangla microblogs using adaptive neuro fuzzy system | |
CN111651528A (zh) | 基于生成式对抗网络的开放式实体关系抽取方法 | |
Celebi et al. | Segmenting hashtags and analyzing their grammatical structure | |
Tahayna et al. | Context-Aware Sentiment Analysis using Tweet Expansion Method. | |
Li et al. | Neural factoid geospatial question answering | |
Lopez et al. | Merging and ranking answers in the semantic web: The wisdom of crowds | |
Chiorrini et al. | Emotionalberto: Emotion recognition of italian social media texts through bert | |
Shirafuji et al. | Argument extraction for key point generation using mmr-based methods | |
Ayed et al. | Possibilistic Morphological Disambiguation of Structured Hadiths Arabic Texts using Semantic Knowledge. | |
Yang et al. | Common sense-based reasoning using external knowledge for question answering | |
Praveena et al. | Chunking based malayalam paraphrase identification using unfolding recursive autoencoders | |
Croce et al. | Grammatical Feature Engineering for Fine-grained IR Tasks. | |
Jebbor et al. | Overview of knowledge extraction techniques in five question-answering systems | |
Inui et al. | Fully corpus-based natural language dialogue system | |
Bindu et al. | Design and development of a named entity based question answering system for Malayalam language | |
CN116702786B (zh) | 融合规则和统计特征的中文专业术语抽取方法和系统 | |
CN115270786B (zh) | 一种识别问句意图的方法、装置、设备和可读存储介质 | |
Dong | Chinese Short Text Matching Model Based on WoBERT Word Embedding Representation and Priori Knowledge | |
Jian et al. | PolyUCOMP in TAC 2011 Entity Linking and Slot-Filling. | |
Al-Mashhsdany et al. | Textual Analysis Applications: Subject Review. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200911 |