CN108416058A - 一种基于Bi-LSTM输入信息增强的关系抽取方法 - Google Patents

一种基于Bi-LSTM输入信息增强的关系抽取方法 Download PDF

Info

Publication number
CN108416058A
CN108416058A CN201810237590.8A CN201810237590A CN108416058A CN 108416058 A CN108416058 A CN 108416058A CN 201810237590 A CN201810237590 A CN 201810237590A CN 108416058 A CN108416058 A CN 108416058A
Authority
CN
China
Prior art keywords
vector
word
coding
entity
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810237590.8A
Other languages
English (en)
Other versions
CN108416058B (zh
Inventor
黄河燕
雷鸣
冯冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201810237590.8A priority Critical patent/CN108416058B/zh
Publication of CN108416058A publication Critical patent/CN108416058A/zh
Application granted granted Critical
Publication of CN108416058B publication Critical patent/CN108416058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于Bi‑LSTM输入信息增强的关系抽取方法,属于计算机人工智能自然语言处理领域。通过应用不确定标签的策略标注数据集,应用冗余编码技术对每个单词进行字符级编码产生词形编码向量。词形编码向量与词嵌入向量拼接生成词向量用于捕捉词形与词义信息。通过应用输入信息增强的Bi‑LSTM作为模型编码层,将词向量输入编码层,输出编码向量。将编码向量输入解码层,得到解码向量。应用三个分层次的NN,从解码向量分别提取出实体标签、关系类型、实体编号信息。最后,计算梯度、更新权重,通过最大化目标函数训练模型。本发明方法提高了系统的鲁棒性,减少了非实体单词带来的干扰信息,有效提高了关系抽取的准确率和召回率。

Description

一种基于Bi-LSTM输入信息增强的关系抽取方法
技术领域
本发明涉及一种文本关系抽取方法,尤其涉及一种改进的基于双向长短时记忆神经网络(Bi-LSTM)的文本关系抽取方法,属于计算机人工智能自然语言处理领域。
背景技术
在人工智能自然语言处理领域中,关系抽取是信息抽取中一个重要的研究课题,也是自动构建知识图谱的关键步骤,对信息检索、文本分类、自动问答、机器翻译等其它自然语言处理任务有很大帮助。关系抽取旨在把文件中的非结构和半结构化信息转化为结构化信息,抽取文本中的实体对和它们之间的语义关系,即为文本中的实体对设置预先定义好的关系类型。通常,一个三元组(实体1,关系类型,实体2)用来作为结构化表示的格式。
现有的关系抽取系统可以分为基于人工构造匹配规则的弱监督模型和基于人工标注数据的监督模型。
在弱监督模型中,有的使用匹配规则抽取关系,有的使用“拔靴法”迭代模式来匹配候选关系,还有的在一个图模型构建一系列传播规则来标注未知关系。这些弱监督模型不需要大量的标注数据,但是设计一个既具有高精度又有高覆盖能力的规则或模式是相当困难的任务。
监督模型可以分为基于核函数的方法和基于神经网络的方法。其中,基于核函数的方法一般选择多个特征集进行关系分类,可用的特征集包括:词汇特征、语义特征、句法特征三类。例如,词嵌入、词性、依存类型、实体标签、位置信息、上下位关系等。基于神经网络的方法可以自动学习所需的潜在特征。但是,这类系统的性能主要取决于标注数据的数量与质量。为了减少人工干预,催生了一种远程监督方法,这种方法利用知识库而不是人工产生标注数据,但该方法会产生大量的噪声数据,去噪工作成为这种方法的难点。
近年来,在英语等词形丰富的语言中,基于字符级的词形特征引起了一些研究的重视。关系抽取任务可以分为实体识别和关系分类两个子任务,结合一套标注方法,关系抽取又可以转化为一个标注任务。长短时记忆神经网络(LSTM)作为一个有效的序列标注工具,已经成功应用到关系抽取领域,它通过一个记忆单元可以学习长距离依赖关系。这个记忆单元包括:输入门、遗忘门和输出门。在标准的LSTM模型中,输入信息首先需要和上一个时间步的隐含状态拼接,然后依次经过三个门。拼接操作会引起输入信息的稀释,门操作会导致输入信息的损失。在现有的标注方法中,都用一个标签来标记非实体单词,这样将关系关键词和非关键词用一个标签标注,会给系统带来干扰信息。
发明内容
本发明的目的是为了解决文本关系抽取的问题,提出一种基于Bi-LSTM输入信息增强的关系抽取方法。本方法基于双向长短时记忆神经网络,结合词嵌入和词形编码向量,共同捕捉输入单词的语义和词形特征信息,并且引入了冗余编码技术对英文单词进行编码来提高系统的鲁棒性,通过不确定标签来减少非实体单词的干扰。
为达到以上目的,本发明所采用的技术方案如下:
一种基于Bi-LSTM输入信息增强的关系抽取方法。首先,应用不确定标签标注策略标注数据集,应用冗余编码技术对句子的每个单词进行字符级词形编码,产生单词编码向量,用于捕捉词形信息。之后,通过在训练集上运行word2vec3CBOW模型,产生单词嵌入向量,用于捕捉单词语义信息,并将单词编码向量与单词嵌入向量拼接为单词输入向量,为编码层提供词形特征信息和词义特征信息。然后,应用改进的LSTM模型作为输入信息加强模型编码层,将t时间步的向量输入到编码层,输出编码向量。将编码层输出的编码向量输入解码层,得到解码向量。应用三个分层次的NN细胞,从解码向量分别提取出实体标签、关系类型、实体编号信息,并转换为相应标签。最后,使用Adam算法计算梯度,使用BPTT算法更新权重,通过最大化目标函数训练模型。
有益效果
本发明方法与现有技术相比,具有以下优点:
(1)引入了冗余编码技术对单词进行词形编码,提高了系统的鲁棒性。
(2)改进了标准LSTM模型,解决了输入信息稀释和损失的问题。
(3)首次提出不确定标签,并成功应用到神经网络,解决了非实体单词带来干扰信息的问题。
通过上述三种策略,有效提高了关系抽取的准确率和召回率。本发明方法既可以完成单关系抽取任务,也可以完成多关系抽取任务(一个句子中包含有多个关系三元组)。该模型是一个实体对和关系联合抽取的系统,当将实体标签的实际值代替预测值时,模型可以完成关系分类的任务。
附图说明
图1为本发明方法的模型结构图;
图2为本发明方法所述关系抽取与标注示例图。
图3为本发明方法所述词编码流程图;
图4为本发明方法所述冗余编码对字符编码流程图;
具体实施方式
下面结合附图和实施例对本发明方法的具体实施方式做进一步详细说明。
一种基于Bi-LSTM输入信息增强的关系抽取方法,如图1所示,包括以下步骤:
步骤一,应用不确定标签标注策略标注数据集,如图2所示。具体方法如下:
将句子中的每个单词都使用一个标签标注,每一个标签由三部分组成:实体部分、编号部分、关系部分。
其中,实体部分用“E”表示实体,“N”表示非实体;编号部分用“1”表示第一个实体,“2”表示第二个实体;关系部分用关系类型的缩写“ED”(Entity-Destination)、“CE”(Cause-Effect)等表示关系类型。例如,标签“E1-ED”表示单词是“ED”关系类型的第一个实体,“E0-R0”表示单词是实体并属于“None”关系类型。非实体单词用“N-X”表示,其中“X”是标签的编号部分和关系部分,它的值不确定,可以是任意值。
引入不确定标签“X”的作用,举例说明,在语句“On November 15th,2017,USpresident Donald Trump arrived in Australia for a state visit.”中,有关系三元组(实体1:Donald Trump,关系类型:Entity-Destination,实体2:Australia)。可见,关系类型ED主要由“arrived in”决定,决定关系类型的词或短语称作关系关键词,通常为非实体词。现有方法是将非实体用一个标签标注,如把“arrived”、“in”等关键词与“for”、“a”、“state”、“visit”等非关键词用一个确定的非实体标签“N”标注。这样会给关系类型带来干扰信息,显然不合理。为了解决这个问题,通过引入不确定标签“X”,非实体单词用“N-X”标注,“N”是实体部分,“X”是编号和关系类型部分。它的含义是:如果一个单词是非实体,则不需要关心其编号是多少以及属于哪种关系类型。
步骤二,应用冗余编码技术对句子的每个单词进行字符级词形编码,产生单词编码向量vb,用于捕捉词形信息。
在英语等词形丰富的语言中,一个词根可以派生出名词、动词、形容词、副词等许多词性。在步骤一的示例中,关系关键词“arrived in”还可以有“arrivein”、“arrivesin”、“Trump’s arrival in Australia happened in November…”等多种表达。由此得出结论:词形相同的单词,具有相同的实体类型;词形相似的关系关键词表达相同的关系类型。可见,词形信息对关系抽取是一个重要的特征。
在信息论中,码距定义为编码系统中两个编码的最小海明距离。若p=(p1,p2,…pn)和q=(q1,q2,…qn)是编码系统C中的两个编码,则p和q之间的海明距离dpq为:
其中,n、i为正整数。
编码系统C的码距D为:
信道的检错纠错能力由编码系统的码距决定,码距越大,检错纠错能力越强。码距为D的系统具有最多D-1位的检错能力和位的纠错能力。对于神经网络来说,检错纠错能力可以提高系统的鲁棒性。基于这个理论,为了增大编码系统的码距,可以利用冗余编码技术对字符进行编码。
基于上述原理,如图3所示,所述步骤二的具体实现方法如下:
首先,用冗余编码技术对每个字符进行编码为唯一的向量,如图4所示,方法如下:
步骤a、用字符向量长度为CS维的全“0”向量表示空格字符。
步骤b、以空格字符向量为基点,使用坐标为(-1,0,1)的三进制编码,用穷举法搜索到29个其它编码向量,使这些编码向量两两之间的海明距离不小于码距D。
步骤c、将搜索到的向量分别分配给字符‘a-z’、缩写‘`’号、连字符‘-’、其余的所有字符作为一个特殊字符‘sc’。
步骤d、继续使用穷举法搜索26个大写字母‘A-Z’的编码向量,使得大小写字符之间的海明距离为dlu,并且满足除大小写字符之间外其余字符之间的海明距离不小于码距D。
步骤e、检查编码向量是否满足分配。如果编码向量不够分配,增大CS,返回步骤a。
经过上述步骤,即可得到‘a-z’、‘A-Z’、空格字符、缩写符、连字符、其它所有字符‘sc’共56个字符编码向量。
之后,用空格字符将长度不够的单词填充到预设长度WL,或者截断超长单词到预设长度WL。
最后,依据组成单词的字符序列,拼接所有的字符向量,形成单词编码向量vb
步骤三、通过在训练集上运行word2vec3CBOW模型,产生单词嵌入向量vq,用于捕捉单词语义信息。语义信息是语义关系抽取的重要特征。
步骤四、将单词编码向量vb与单词嵌入向量vq拼接为单词输入向量v,为编码层提供词形特征信息和词义特征信息。
步骤五、应用改进的LSTM模型作为输入信息加强模型编码层,将t时间步的向量vt输入到编码层,输出编码向量
其中,所述改进的LSTM模型是一种单层双向LSTM模型。具体如下:
在标准的LSTM模型中,输入信息首先需要和上一个时间步的隐含状态ht-1拼接,然后依次经过输入门、遗忘门、输出门。拼接操作会引起输入信息的稀释,门操作会导致输入信息的损失。本步骤中,将输入向量vt经过一个普通的NN层的变换得到输入加强向量然后与前向编码向量后向编码向量拼接得到编码向量其中,前向编码向量用来携带历史单词信息,输入加强向量用来携带当前单词信息,后向编码向量用来携带未来单词信息。
因此,编码向量既是编码层的输出,同时也是解码层的输入,用来携带整个句子的信息。一个方向(前向或者后向)的编码向量的具体操作如下:
it=σ(Wi[vt,ht-1]+bi) (1)
ft=σ(Wf[vt,ht-1]+bf) (2)
ot=σ(Wo[vt,ht-1]+bo) (3)
ct=ftct-1+ittanh(Wc[vt,ht-1]+bc) (4)
ht=ottanh(ct) (5)
其中,i,f,o分别表示输入门、遗忘门、输出门的输出,σ是sigmoid激活函数,W是权重矩阵,b是偏置,vt是t时间步的输入向量,ht是一个方向的编码向量。
其中,是输入加强向量,是前向编码向量,是后向编码向量,计算过程如ht
步骤六、将编码层输出的编码向量输入解码层,得到解码向量
其中,
分别表示解码层t时间步的输入门、遗忘门、输出门的输出。
是解码层t时间步的细胞状态,是一个方向的解码向量,是解码向量,包含着实体标签、关系类型、实体编号等信息。
步骤七、应用三个分层次的NN细胞,从解码向量中分别提取出实体标签、关系类型、实体编号信息,并转换为相应标签。
其中,分别是实体标签、关系类型、实体编号的预测值。W是权重矩阵,b是偏置。
步骤八、使用Adam算法计算梯度,使用BPTT算法更新权重,通过最大化目标函数训练模型。目标函数如下:
其中,S是训练集句子总数,Ts是第s句的长度,分别是实体标签、关系类型、实体编号的真实值,分别是实体标签、关系类型、实体编号的预测值;l、u、v分别是关系类型数、实体编号数、实体类型数。ue是实体标签向量,sum函数的第二个参数axis=entity_axis意味着在实体维求和。θ是实体标志,当前单词是实体时,它的值为1,否则为0。例如,定义实体标签向量ue=(0,1),当单词不是实体时则θ=0×1+1×0=0。此时,非实体单词的关系类型和实体编号部分的损失不计入损失函数,从而实现了不确定标签“X”的功能。
实施例
第一步,应用不确定标签标注策略标注数据集。句子的每个单词都用一个标签标注,每一个标签由三部分组成:实体部分、编号部分、关系部分。实体部分用“E”表示实体,“N”表示非实体,编号部分用“1”表示第一个实体,“2”表示第二个实体。关系部分用关系类型的缩写“ED”、“CE”等表示关系类型。“E0-R0”表示单词是实体,属于“None”关系类型。非实体单词用“N-X”标注。
第二步,应用冗余编码技术对句子的每个单词进行字符级的词形编码,生成108维的词编码向量vb。步骤如下:
首先,用冗余编码技术将每个字符编码为9维的字符向量,具体实现如下:
a.用CS=9(字符向量大小)维全“0”向量表示空格字符。
b.以此为基点,使用坐标为(-1,0,1)的三进制编码,用穷举法搜索到29个其它的编码向量,使得这些编码向量两两之间的海明距离不小于码距D=6。
c.将搜索到的向量分别分配给字符‘a-z’、缩写‘`’号、连字符‘-’、其余的所有字符作为一个特殊字符‘sc’。
d.继续使用穷举法搜索26个大写字母‘A-Z’的编码向量,使得大小写字符之间的海明距离为dlu=2,且满足除大小写字符之间外,其余字符之间的海明距离不小于码距D=6。
经过以上步骤,就得到了‘a-z’、‘A-Z’、空格字符、缩写符、连字符、其它所有字符‘sc’共56个字符编码向量。
然后,用空格字符将长度不够的单词填充到预设长度WL=12,或截断超长单词到预设长度WL。
最后,依据组成单词的字符序列,拼接所有的字符向量,形成108维单词的编码向量vb
第三步,在训练集上运行word2vec3CBOW模型,产生192维的单词嵌入向量vq
第四步,将单词编码向量vb与单词嵌入向量vq拼接为300维的输入向量v,其中单词编码向量vb用于捕捉词形特征信息,单词嵌入向量vq用于捕捉词义特征信息。
第五步,应用改进的单层双向LSTM作为输入信息加强模型编码层,将t时间步向量vt输入到编码层,输出编码向量
第六步,将编码层的输出输入解码层,得到解码向量
第七步,应用三个分层次的NN,从解码向量分别提取出实体标签、关系类型、实体编号信息,并转换为相应的标签。
第八步,使用Adam算法计算梯度,BPTT算法更新权重,通过最大化目标函数训练模型。

Claims (4)

1.一种基于Bi-LSTM输入信息增强的关系抽取方法,其特征在于包括以下步骤:
步骤一,应用不确定标签标注策略标注数据集,具体如下:
将句子中的每个单词都使用一个标签标注,每一个标签由三部分组成:实体部分、编号部分、关系部分;其中,实体部分用“E”表示实体,“N”表示非实体;编号部分用“1”表示第一个实体,“2”表示第二个实体;关系部分用关系类型的缩写“ED”、“CE”等表示关系类型;非实体单词用“N-X”表示,其中“X”是标签的编号部分和关系部分,它的值不确定,为任意值;
步骤二,应用冗余编码技术对句子的每个单词进行字符级词形编码,产生单词编码向量vb,用于捕捉词形信息;
步骤三、通过在训练集上运行word2vec3 CBOW模型,产生单词嵌入向量vq,用于捕捉单词语义信息;
步骤四、将单词编码向量vb与单词嵌入向量vq拼接为单词输入向量v,为编码层提供词形特征信息和词义特征信息;
步骤五、应用改进的LSTM模型作为输入信息增强模型编码层,将t时间步的向量vt输入到编码层,输出编码向量所述改进的LSTM模型是一种单层双向LSTM模型,具体如下:
将输入向量vt经过一个普通NN层的变换得到输入增强向量然后与前向编码向量后向编码向量拼接得到编码向量其中,前向编码向量用来携带历史单词信息,输入加强向量用来携带当前单词信息,后向编码向量用来携带未来单词信息;编码向量既是编码层的输出,同时也是解码层的输入,用来携带整个句子的信息;
步骤六、将编码层输出的编码向量输入解码层,得到解码向量
其中,
分别表示解码层t时间步的输入门、遗忘门、输出门的输出;
是解码层t时间步的细胞状态,是一个方向的解码向量;是解码向量,包含实体标签、关系类型、实体编号信息;
步骤七、应用三个分层次的NN细胞,从解码向量中分别提取出实体标签、关系类型、实体编号信息,并转换为相应标签:
其中,分别是实体标签、关系类型、实体编号的预测值,W是权重矩阵,b是偏置;
步骤八、使用Adam算法计算梯度,使用BPTT算法更新权重,通过最大化目标函数训练模型,目标函数如下:
其中,S是训练集句子总数,Ts是第s句的长度,分别是实体标签、关系类型、实体编号的真实值,分别是实体标签、关系类型、实体编号的预测值;l、u、v分别是关系类型数、实体编号数、实体类型数;ue是实体标签向量,sum函数的第二个参数axis=entity_axis意味着在实体维求和;θ是实体标志,当前单词是实体时,它的值为1,否则为0;此时,非实体单词的关系类型和实体编号部分的损失不计入损失函数。
2.如权利要求1所述的一种基于Bi-LSTM输入信息增强的关系抽取方法,其特征在于,所述步骤二包括以下步骤:
首先,用冗余编码技术对每个字符进行编码为唯一的向量;
之后,用空格字符将长度不够的单词填充到预设长度WL,或者截断超长单词到预设长度WL;
最后,依据组成单词的字符序列,拼接所有的字符向量,形成单词编码向量vb
3.如权利要求2所述的一种基于Bi-LSTM输入信息增强的关系抽取方法,其特征在于,所述使用冗余编码技术对每个字符进行编码为唯一向量的方法如下:
步骤a、用字符向量长度为CS维的全“0”向量表示空格字符;
步骤b、以空格字符向量为基点,使用坐标为(-1,0,1)的三进制编码,用穷举法搜索到29个其它编码向量,使这些编码向量两两之间的海明距离不小于码距D;
步骤c、将搜索到的向量分别分配给字符‘a-z’、缩写‘`’号、连字符‘-’、其余的所有字符作为一个特殊字符‘sc’;
步骤d、继续使用穷举法搜索26个大写字母‘A-Z’的编码向量,使得大小写字符之间的海明距离为dlu,并且满足除大小写字符之间外其余字符之间的海明距离不小于码距D;
步骤e、检查编码向量是否满足分配,如果编码向量不够分配,增大CS,返回步骤a。
4.如权利要求1所述的一种基于Bi-LSTM输入信息增强的关系抽取方法,其特征在于,所述一个方向的编码向量的具体操作如下:
it=σ(Wi[vt,ht-1]+bi) (12)
ft=σ(Wf[vt,ht-1]+bf) (13)
ot=σ(Wo[vt,ht-1]+bo) (14)
ct=ftct-1+ittanh(Wc[vt,ht-1]+bc) (15)
ht=ottanh(ct) (16)
其中,i,f,o分别表示输入门、遗忘门、输出门的输出,σ是sigmoid激活函数,W是权重矩阵,b是偏置,vt是t时间步的输入向量,ht是一个方向的编码向量;
其中,是输入加强向量,是前向编码向量,是后向编码向量,计算过程如ht
CN201810237590.8A 2018-03-22 2018-03-22 一种基于Bi-LSTM输入信息增强的关系抽取方法 Active CN108416058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810237590.8A CN108416058B (zh) 2018-03-22 2018-03-22 一种基于Bi-LSTM输入信息增强的关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810237590.8A CN108416058B (zh) 2018-03-22 2018-03-22 一种基于Bi-LSTM输入信息增强的关系抽取方法

Publications (2)

Publication Number Publication Date
CN108416058A true CN108416058A (zh) 2018-08-17
CN108416058B CN108416058B (zh) 2020-10-09

Family

ID=63133181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810237590.8A Active CN108416058B (zh) 2018-03-22 2018-03-22 一种基于Bi-LSTM输入信息增强的关系抽取方法

Country Status (1)

Country Link
CN (1) CN108416058B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344242A (zh) * 2018-09-28 2019-02-15 广东工业大学 一种对话问答方法、装置、设备及存储介质
CN109753660A (zh) * 2019-01-07 2019-05-14 福州大学 一种基于lstm的中标网页命名实体抽取方法
CN109902312A (zh) * 2019-03-01 2019-06-18 北京金山数字娱乐科技有限公司 一种翻译方法及装置、翻译模型的训练方法及装置
CN110059320A (zh) * 2019-04-23 2019-07-26 腾讯科技(深圳)有限公司 实体关系抽取方法、装置、计算机设备和存储介质
CN110263210A (zh) * 2019-06-24 2019-09-20 上海乂学教育科技有限公司 自适应英语学习词库图谱管理方法和系统
CN110348016A (zh) * 2019-07-15 2019-10-18 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
CN110705299A (zh) * 2019-09-26 2020-01-17 北京明略软件系统有限公司 实体和关系的联合抽取方法、模型、电子设备及存储介质
CN110704547A (zh) * 2019-09-26 2020-01-17 北京明略软件系统有限公司 基于神经网络的关系抽取数据生成方法、模型及训练方法
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN111143691A (zh) * 2019-12-31 2020-05-12 四川长虹电器股份有限公司 一种联合信息抽取方法及装置
CN111581387A (zh) * 2020-05-09 2020-08-25 电子科技大学 一种基于损失优化的实体关系联合抽取方法
CN111914091A (zh) * 2019-05-07 2020-11-10 四川大学 一种基于强化学习的实体和关系联合抽取方法
CN111967242A (zh) * 2020-08-17 2020-11-20 支付宝(杭州)信息技术有限公司 一种文本信息的抽取方法、装置及设备
CN112115250A (zh) * 2020-09-28 2020-12-22 四川长虹电器股份有限公司 一种问句自动生成方法及系统
CN112668336A (zh) * 2020-05-14 2021-04-16 北京金山数字娱乐科技有限公司 一种基于任务模型的词语处理方法
CN113076718A (zh) * 2021-04-09 2021-07-06 苏州爱语认知智能科技有限公司 一种商品属性抽取方法及其系统
CN113268575A (zh) * 2021-05-31 2021-08-17 厦门快商通科技股份有限公司 一种实体关系识别方法、装置及可读介质
CN113424192A (zh) * 2018-12-11 2021-09-21 易享信息技术有限公司 结构化文本翻译
CN110866115B (zh) * 2019-10-16 2023-08-08 平安科技(深圳)有限公司 序列标注方法、系统、计算机设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置
CN107330032A (zh) * 2017-06-26 2017-11-07 北京理工大学 一种基于递归神经网络的隐式篇章关系分析方法
CN107729311A (zh) * 2017-08-28 2018-02-23 云南大学 一种融合文本语气的中文文本特征提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置
CN107330032A (zh) * 2017-06-26 2017-11-07 北京理工大学 一种基于递归神经网络的隐式篇章关系分析方法
CN107729311A (zh) * 2017-08-28 2018-02-23 云南大学 一种融合文本语气的中文文本特征提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JULIEN TOURILLE等: "Neural architecture for temporal relation extraction: A bi-lstm approach for detecting narrative containers", 《PROCEEDINGS OF THE 55TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
RUIYING GENG: "Implicit discourse relation identification based on tree structure neural network", 《2017 INTERNATIONAL CONFERENCE ON ASIAN LANGUAGE PROCESSING 》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344242A (zh) * 2018-09-28 2019-02-15 广东工业大学 一种对话问答方法、装置、设备及存储介质
CN113424192A (zh) * 2018-12-11 2021-09-21 易享信息技术有限公司 结构化文本翻译
US11537801B2 (en) 2018-12-11 2022-12-27 Salesforce.Com, Inc. Structured text translation
CN113424192B (zh) * 2018-12-11 2023-03-14 易享信息技术有限公司 结构化文本翻译
CN109753660A (zh) * 2019-01-07 2019-05-14 福州大学 一种基于lstm的中标网页命名实体抽取方法
CN109753660B (zh) * 2019-01-07 2023-06-13 福州大学 一种基于lstm的中标网页命名实体抽取方法
CN109902312A (zh) * 2019-03-01 2019-06-18 北京金山数字娱乐科技有限公司 一种翻译方法及装置、翻译模型的训练方法及装置
CN110059320A (zh) * 2019-04-23 2019-07-26 腾讯科技(深圳)有限公司 实体关系抽取方法、装置、计算机设备和存储介质
CN111914091A (zh) * 2019-05-07 2020-11-10 四川大学 一种基于强化学习的实体和关系联合抽取方法
CN111914091B (zh) * 2019-05-07 2022-10-14 四川大学 一种基于强化学习的实体和关系联合抽取方法
CN110263210A (zh) * 2019-06-24 2019-09-20 上海乂学教育科技有限公司 自适应英语学习词库图谱管理方法和系统
CN110348016A (zh) * 2019-07-15 2019-10-18 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
CN110348016B (zh) * 2019-07-15 2022-06-14 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
CN110705299B (zh) * 2019-09-26 2022-10-25 北京明略软件系统有限公司 实体和关系的联合抽取方法、模型、电子设备及存储介质
CN110704547A (zh) * 2019-09-26 2020-01-17 北京明略软件系统有限公司 基于神经网络的关系抽取数据生成方法、模型及训练方法
CN110705299A (zh) * 2019-09-26 2020-01-17 北京明略软件系统有限公司 实体和关系的联合抽取方法、模型、电子设备及存储介质
CN110866115B (zh) * 2019-10-16 2023-08-08 平安科技(深圳)有限公司 序列标注方法、系统、计算机设备及计算机可读存储介质
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN110866117B (zh) * 2019-10-25 2021-09-03 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN111143691B (zh) * 2019-12-31 2023-04-18 四川长虹电器股份有限公司 一种联合信息抽取方法及装置
CN111143691A (zh) * 2019-12-31 2020-05-12 四川长虹电器股份有限公司 一种联合信息抽取方法及装置
CN111581387B (zh) * 2020-05-09 2022-10-11 电子科技大学 一种基于损失优化的实体关系联合抽取方法
CN111581387A (zh) * 2020-05-09 2020-08-25 电子科技大学 一种基于损失优化的实体关系联合抽取方法
CN112668336A (zh) * 2020-05-14 2021-04-16 北京金山数字娱乐科技有限公司 一种基于任务模型的词语处理方法
CN112668336B (zh) * 2020-05-14 2024-01-09 北京金山数字娱乐科技有限公司 一种基于任务模型的词语处理方法
CN111967242A (zh) * 2020-08-17 2020-11-20 支付宝(杭州)信息技术有限公司 一种文本信息的抽取方法、装置及设备
CN111967242B (zh) * 2020-08-17 2024-05-03 支付宝(杭州)信息技术有限公司 一种文本信息的抽取方法、装置及设备
CN112115250A (zh) * 2020-09-28 2020-12-22 四川长虹电器股份有限公司 一种问句自动生成方法及系统
CN113076718A (zh) * 2021-04-09 2021-07-06 苏州爱语认知智能科技有限公司 一种商品属性抽取方法及其系统
CN113268575B (zh) * 2021-05-31 2022-08-23 厦门快商通科技股份有限公司 一种实体关系识别方法、装置及可读介质
CN113268575A (zh) * 2021-05-31 2021-08-17 厦门快商通科技股份有限公司 一种实体关系识别方法、装置及可读介质

Also Published As

Publication number Publication date
CN108416058B (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
CN108416058A (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
CN111708882B (zh) 基于Transformer的中文文本信息缺失的补全方法
CN111914091B (zh) 一种基于强化学习的实体和关系联合抽取方法
CN111160035B (zh) 文本语料的处理方法和装置
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN109492202A (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN108256066B (zh) 端到端层次解码任务型对话系统
CN101751385B (zh) 一种采用层次管道过滤器体系结构的多语言信息抽取方法
CN113761893B (zh) 一种基于模式预训练的关系抽取方法
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
CN112560486A (zh) 基于多层神经网络的电力实体识别方法、存储介质和设备
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN114429122A (zh) 一种基于循环注意力的方面级情感分析系统和方法
CN112463924A (zh) 面向智能问答基于内部相关性编码的文本意图匹配方法
CN113312498A (zh) 用无向图嵌入知识图谱的文本信息抽取方法
CN117312559A (zh) 基于树结构信息感知的方面级情感四元组抽取方法及系统
CN112183062A (zh) 一种基于交替解码的口语理解方法、电子设备和存储介质
CN112131879A (zh) 一种关系抽取系统、方法和装置
CN116227603A (zh) 一种事件推理任务的处理方法、设备及介质
CN110888944A (zh) 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法
CN113434698B (zh) 基于全层级注意力的关系抽取模型建立方法及其应用
CN112287641B (zh) 一种同义句生成方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant