CN108416058B - 一种基于Bi-LSTM输入信息增强的关系抽取方法 - Google Patents
一种基于Bi-LSTM输入信息增强的关系抽取方法 Download PDFInfo
- Publication number
- CN108416058B CN108416058B CN201810237590.8A CN201810237590A CN108416058B CN 108416058 B CN108416058 B CN 108416058B CN 201810237590 A CN201810237590 A CN 201810237590A CN 108416058 B CN108416058 B CN 108416058B
- Authority
- CN
- China
- Prior art keywords
- vector
- word
- entity
- coding
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 129
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 230000000877 morphologic effect Effects 0.000 claims abstract description 8
- 239000010410 layer Substances 0.000 claims description 29
- 238000002372 labelling Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 10
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- 238000010790 dilution Methods 0.000 description 3
- 239000012895 dilution Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种基于Bi‑LSTM输入信息增强的关系抽取方法,属于计算机人工智能自然语言处理领域。通过应用不确定标签的策略标注数据集,应用冗余编码技术对每个单词进行字符级编码产生词形编码向量。词形编码向量与词嵌入向量拼接生成词向量用于捕捉词形与词义信息。通过应用输入信息增强的Bi‑LSTM作为模型编码层,将词向量输入编码层,输出编码向量。将编码向量输入解码层,得到解码向量。应用三个分层次的NN,从解码向量分别提取出实体标签、关系类型、实体编号信息。最后,计算梯度、更新权重,通过最大化目标函数训练模型。本发明方法提高了系统的鲁棒性,减少了非实体单词带来的干扰信息,有效提高了关系抽取的准确率和召回率。
Description
技术领域
本发明涉及一种文本关系抽取方法,尤其涉及一种改进的基于双向长短时记忆神经网络(Bi-LSTM)的文本关系抽取方法,属于计算机人工智能自然语言处理领域。
背景技术
在人工智能自然语言处理领域中,关系抽取是信息抽取中一个重要的研究课题,也是自动构建知识图谱的关键步骤,对信息检索、文本分类、自动问答、机器翻译等其它自然语言处理任务有很大帮助。关系抽取旨在把文件中的非结构和半结构化信息转化为结构化信息,抽取文本中的实体对和它们之间的语义关系,即为文本中的实体对设置预先定义好的关系类型。通常,一个三元组(实体1,关系类型,实体2)用来作为结构化表示的格式。
现有的关系抽取系统可以分为基于人工构造匹配规则的弱监督模型和基于人工标注数据的监督模型。
在弱监督模型中,有的使用匹配规则抽取关系,有的使用“拔靴法”迭代模式来匹配候选关系,还有的在一个图模型构建一系列传播规则来标注未知关系。这些弱监督模型不需要大量的标注数据,但是设计一个既具有高精度又有高覆盖能力的规则或模式是相当困难的任务。
监督模型可以分为基于核函数的方法和基于神经网络的方法。其中,基于核函数的方法一般选择多个特征集进行关系分类,可用的特征集包括:词汇特征、语义特征、句法特征三类。例如,词嵌入、词性、依存类型、实体标签、位置信息、上下位关系等。基于神经网络的方法可以自动学习所需的潜在特征。但是,这类系统的性能主要取决于标注数据的数量与质量。为了减少人工干预,催生了一种远程监督方法,这种方法利用知识库而不是人工产生标注数据,但该方法会产生大量的噪声数据,去噪工作成为这种方法的难点。
近年来,在英语等词形丰富的语言中,基于字符级的词形特征引起了一些研究的重视。关系抽取任务可以分为实体识别和关系分类两个子任务,结合一套标注方法,关系抽取又可以转化为一个标注任务。长短时记忆神经网络(LSTM)作为一个有效的序列标注工具,已经成功应用到关系抽取领域,它通过一个记忆单元可以学习长距离依赖关系。这个记忆单元包括:输入门、遗忘门和输出门。在标准的LSTM模型中,输入信息首先需要和上一个时间步的隐含状态拼接,然后依次经过三个门。拼接操作会引起输入信息的稀释,门操作会导致输入信息的损失。在现有的标注方法中,都用一个标签来标记非实体单词,这样将关系关键词和非关键词用一个标签标注,会给系统带来干扰信息。
发明内容
本发明的目的是为了解决文本关系抽取的问题,提出一种基于Bi-LSTM输入信息增强的关系抽取方法。本方法基于双向长短时记忆神经网络,结合词嵌入和词形编码向量,共同捕捉输入单词的语义和词形特征信息,并且引入了冗余编码技术对英文单词进行编码来提高系统的鲁棒性,通过不确定标签来减少非实体单词的干扰。
为达到以上目的,本发明所采用的技术方案如下:
一种基于Bi-LSTM输入信息增强的关系抽取方法。首先,应用不确定标签标注策略标注数据集,应用冗余编码技术对句子的每个单词进行字符级词形编码,产生单词编码向量,用于捕捉词形信息。之后,通过在训练集上运行word2vec3CBOW模型,产生单词嵌入向量,用于捕捉单词语义信息,并将单词编码向量与单词嵌入向量拼接为单词输入向量,为编码层提供词形特征信息和词义特征信息。然后,应用改进的LSTM模型作为输入信息加强模型编码层,将t时间步的向量输入到编码层,输出编码向量。将编码层输出的编码向量输入解码层,得到解码向量。应用三个分层次的NN细胞,从解码向量分别提取出实体标签、关系类型、实体编号信息,并转换为相应标签。最后,使用Adam算法计算梯度,使用BPTT算法更新权重,通过最大化目标函数训练模型。
有益效果
本发明方法与现有技术相比,具有以下优点:
(1)引入了冗余编码技术对单词进行词形编码,提高了系统的鲁棒性。
(2)改进了标准LSTM模型,解决了输入信息稀释和损失的问题。
(3)首次提出不确定标签,并成功应用到神经网络,解决了非实体单词带来干扰信息的问题。
通过上述三种策略,有效提高了关系抽取的准确率和召回率。本发明方法既可以完成单关系抽取任务,也可以完成多关系抽取任务(一个句子中包含有多个关系三元组)。该模型是一个实体对和关系联合抽取的系统,当将实体标签的实际值代替预测值时,模型可以完成关系分类的任务。
附图说明
图1为本发明方法的模型结构图;
图2为本发明方法所述关系抽取与标注示例图。
图3为本发明方法所述词编码流程图;
图4为本发明方法所述冗余编码对字符编码流程图;
具体实施方式
下面结合附图和实施例对本发明方法的具体实施方式做进一步详细说明。
一种基于Bi-LSTM输入信息增强的关系抽取方法,如图1所示,包括以下步骤:
步骤一,应用不确定标签标注策略标注数据集,如图2所示。具体方法如下:
将句子中的每个单词都使用一个标签标注,每一个标签由三部分组成:实体部分、编号部分、关系部分。
其中,实体部分用“E”表示实体,“N”表示非实体;编号部分用“1”表示第一个实体,“2”表示第二个实体;关系部分用关系类型的缩写“ED”(Entity-Destination)、“CE”(Cause-Effect)等表示关系类型。例如,标签“E1-ED”表示单词是“ED”关系类型的第一个实体,“E0-R0”表示单词是实体并属于“None”关系类型。非实体单词用“N-X”表示,其中“X”是标签的编号部分和关系部分,它的值不确定,可以是任意值。
引入不确定标签“X”的作用,举例说明,在语句“On November 15th,2017,USpresident Donald Trump arrived in Australia for a state visit.”中,有关系三元组(实体1:Donald Trump,关系类型:Entity-Destination,实体2:Australia)。可见,关系类型ED主要由“arrived in”决定,决定关系类型的词或短语称作关系关键词,通常为非实体词。现有方法是将非实体用一个标签标注,如把“arrived”、“in”等关键词与“for”、“a”、“state”、“visit”等非关键词用一个确定的非实体标签“N”标注。这样会给关系类型带来干扰信息,显然不合理。为了解决这个问题,通过引入不确定标签“X”,非实体单词用“N-X”标注,“N”是实体部分,“X”是编号和关系类型部分。它的含义是:如果一个单词是非实体,则不需要关心其编号是多少以及属于哪种关系类型。
步骤二,应用冗余编码技术对句子的每个单词进行字符级词形编码,产生单词编码向量vb,用于捕捉词形信息。
在英语等词形丰富的语言中,一个词根可以派生出名词、动词、形容词、副词等许多词性。在步骤一的示例中,关系关键词“arrived in”还可以有“arrivein”、“arrivesin”、“Trump’s arrival in Australia happened in November…”等多种表达。由此得出结论:词形相同的单词,具有相同的实体类型;词形相似的关系关键词表达相同的关系类型。可见,词形信息对关系抽取是一个重要的特征。
在信息论中,码距定义为编码系统中两个编码的最小海明距离。若p=(p1,p2,…pn)和q=(q1,q2,…qn)是编码系统C中的两个编码,则p和q之间的海明距离dpq为:
其中,n、i为正整数。
编码系统C的码距D为:
信道的检错纠错能力由编码系统的码距决定,码距越大,检错纠错能力越强。码距为D的系统具有最多D-1位的检错能力和位的纠错能力。对于神经网络来说,检错纠错能力可以提高系统的鲁棒性。基于这个理论,为了增大编码系统的码距,可以利用冗余编码技术对字符进行编码。
基于上述原理,如图3所示,所述步骤二的具体实现方法如下:
首先,用冗余编码技术对每个字符进行编码为唯一的向量,如图4所示,方法如下:
步骤a、用字符向量长度为CS维的全“0”向量表示空格字符。
步骤b、以空格字符向量为基点,使用坐标为(-1,0,1)的三进制编码,用穷举法搜索到29个其它编码向量,使这些编码向量两两之间的海明距离不小于码距D。
步骤c、将搜索到的向量分别分配给字符‘a-z’、缩写‘`’号、连字符‘-’、其余的所有字符作为一个特殊字符‘sc’。
步骤d、继续使用穷举法搜索26个大写字母‘A-Z’的编码向量,使得大小写字符之间的海明距离为dlu,并且满足除大小写字符之间外其余字符之间的海明距离不小于码距D。
步骤e、检查编码向量是否满足分配。如果编码向量不够分配,增大CS,返回步骤a。
经过上述步骤,即可得到‘a-z’、‘A-Z’、空格字符、缩写符、连字符、其它所有字符‘sc’共56个字符编码向量。
之后,用空格字符将长度不够的单词填充到预设长度WL,或者截断超长单词到预设长度WL。
最后,依据组成单词的字符序列,拼接所有的字符向量,形成单词编码向量vb。
步骤三、通过在训练集上运行word2vec3CBOW模型,产生单词嵌入向量vq,用于捕捉单词语义信息。语义信息是语义关系抽取的重要特征。
步骤四、将单词编码向量vb与单词嵌入向量vq拼接为单词输入向量v,为编码层提供词形特征信息和词义特征信息。
其中,所述改进的LSTM模型是一种单层双向LSTM模型。具体如下:
在标准的LSTM模型中,输入信息首先需要和上一个时间步的隐含状态ht-1拼接,然后依次经过输入门、遗忘门、输出门。拼接操作会引起输入信息的稀释,门操作会导致输入信息的损失。本步骤中,将输入向量vt经过一个普通的NN层的变换得到输入加强向量然后与前向编码向量后向编码向量拼接得到编码向量其中,前向编码向量用来携带历史单词信息,输入加强向量用来携带当前单词信息,后向编码向量用来携带未来单词信息。
it=σ(Wi[vt,ht-1]+bi) (1)
ft=σ(Wf[vt,ht-1]+bf) (2)
ot=σ(Wo[vt,ht-1]+bo) (3)
ct=ftct-1+ittanh(Wc[vt,ht-1]+bc) (4)
ht=ottanh(ct) (5)
其中,i,f,o分别表示输入门、遗忘门、输出门的输出,σ是sigmoid激活函数,W是权重矩阵,b是偏置,vt是t时间步的输入向量,ht是一个方向的编码向量。
分别表示解码层t时间步的输入门、遗忘门、输出门的输出。
步骤八、使用Adam算法计算梯度,使用BPTT算法更新权重,通过最大化目标函数训练模型。目标函数如下:
其中,S是训练集句子总数,Ts是第s句的长度,分别是实体标签、关系类型、实体编号的真实值,分别是实体标签、关系类型、实体编号的预测值;l、u、v分别是关系类型数、实体编号数、实体类型数。ue是实体标签向量,sum函数的第二个参数axis=entity_axis意味着在实体维求和。θ是实体标志,当前单词是实体时,它的值为1,否则为0。例如,定义实体标签向量ue=(0,1),当单词不是实体时则θ=0×1+1×0=0。此时,非实体单词的关系类型和实体编号部分的损失不计入损失函数,从而实现了不确定标签“X”的功能。
实施例
第一步,应用不确定标签标注策略标注数据集。句子的每个单词都用一个标签标注,每一个标签由三部分组成:实体部分、编号部分、关系部分。实体部分用“E”表示实体,“N”表示非实体,编号部分用“1”表示第一个实体,“2”表示第二个实体。关系部分用关系类型的缩写“ED”、“CE”等表示关系类型。“E0-R0”表示单词是实体,属于“None”关系类型。非实体单词用“N-X”标注。
第二步,应用冗余编码技术对句子的每个单词进行字符级的词形编码,生成108维的词编码向量vb。步骤如下:
首先,用冗余编码技术将每个字符编码为9维的字符向量,具体实现如下:
a.用CS=9(字符向量大小)维全“0”向量表示空格字符。
b.以此为基点,使用坐标为(-1,0,1)的三进制编码,用穷举法搜索到29个其它的编码向量,使得这些编码向量两两之间的海明距离不小于码距D=6。
c.将搜索到的向量分别分配给字符‘a-z’、缩写‘`’号、连字符‘-’、其余的所有字符作为一个特殊字符‘sc’。
d.继续使用穷举法搜索26个大写字母‘A-Z’的编码向量,使得大小写字符之间的海明距离为dlu=2,且满足除大小写字符之间外,其余字符之间的海明距离不小于码距D=6。
经过以上步骤,就得到了‘a-z’、‘A-Z’、空格字符、缩写符、连字符、其它所有字符‘sc’共56个字符编码向量。
然后,用空格字符将长度不够的单词填充到预设长度WL=12,或截断超长单词到预设长度WL。
最后,依据组成单词的字符序列,拼接所有的字符向量,形成108维单词的编码向量vb。
第三步,在训练集上运行word2vec3CBOW模型,产生192维的单词嵌入向量vq。
第四步,将单词编码向量vb与单词嵌入向量vq拼接为300维的输入向量v,其中单词编码向量vb用于捕捉词形特征信息,单词嵌入向量vq用于捕捉词义特征信息。
第八步,使用Adam算法计算梯度,BPTT算法更新权重,通过最大化目标函数训练模型。
Claims (4)
1.一种基于Bi-LSTM输入信息增强的关系抽取方法,其特征在于包括以下步骤:
步骤一,应用不确定标签标注策略标注数据集,具体如下:
将句子中的每个单词都使用一个标签标注,每一个标签由三部分组成:实体部分、编号部分、关系部分;其中,实体部分用“E”表示实体,“N”表示非实体;编号部分用“1”表示第一个实体,“2”表示第二个实体;关系部分用关系类型的缩写“ED”、“CE”等表示关系类型;非实体单词用“N-X”表示,其中“X”是标签的编号部分和关系部分,它的值不确定,为任意值;
步骤二,应用冗余编码技术对句子的每个单词进行字符级词形编码,产生单词编码向量vb,用于捕捉词形信息;
步骤三、通过在训练集上运行word2vec3 CBOW模型,产生单词嵌入向量vq,用于捕捉单词语义信息;
步骤四、将单词编码向量vb与单词嵌入向量vq拼接为单词输入向量v,为编码层提供词形特征信息和词义特征信息;
将输入向量vt经过一个普通NN层的变换得到输入加强向量然后与前向编码向量后向编码向量拼接得到编码向量其中,前向编码向量用来携带历史单词信息,输入加强向量用来携带当前单词信息,后向编码向量用来携带未来单词信息;编码向量既是编码层的输出,同时也是解码层的输入,用来携带整个句子的信息;
分别表示解码层t时间步的输入门、遗忘门、输出门的输出;
步骤八、使用Adam算法计算梯度,使用BPTT算法更新权重,通过最大化目标函数训练模型,目标函数如下:
2.如权利要求1所述的一种基于Bi-LSTM输入信息增强的关系抽取方法,其特征在于,所述步骤二包括以下步骤:
首先,用冗余编码技术对每个字符进行编码为唯一的向量;
之后,用空格字符将长度不够的单词填充到预设长度WL,或者截断超长单词到预设长度WL;
最后,依据组成单词的字符序列,拼接所有的字符向量,形成单词编码向量vb。
3.如权利要求2所述的一种基于Bi-LSTM输入信息增强的关系抽取方法,其特征在于,所述使用冗余编码技术对每个字符进行编码为唯一向量的方法如下:
步骤a、用字符向量长度为CS维的全“0”向量表示空格字符;
步骤b、以空格字符向量为基点,使用坐标为(-1,0,1)的三进制编码,用穷举法搜索到29个其它编码向量,使这些编码向量两两之间的海明距离不小于码距D;
步骤c、将搜索到的向量分别分配给字符‘a-z’、缩写‘`’号、连字符‘-’、其余的所有字符作为一个特殊字符‘sc’;
步骤d、继续使用穷举法搜索26个大写字母‘A-Z’的编码向量,使得大小写字符之间的海明距离为dlu,并且满足除大小写字符之间外其余字符之间的海明距离不小于码距D;
步骤e、检查编码向量是否满足分配,如果编码向量不够分配,增大CS,返回步骤a。
4.如权利要求1所述的一种基于Bi-LSTM输入信息增强的关系抽取方法,其特征在于,所述一个方向的编码向量的具体操作如下:
it=σ(Wi[vt,ht-1]+bi) (12)
ft=σ(Wf[vt,ht-1]+bf) (13)
ot=σ(Wo[vt,ht-1]+bo) (14)
ct=ftct-1+ittanh(Wc[vt,ht-1]+bc) (15)
ht=ottanh (ct) (16)其中,i,f,o分别表示输入门、遗忘门、输出门的输出,σ是sigmoid激活函数,W是权重矩阵,b是偏置,vt是t时间步的输入向量,ht是一个方向的编码向量;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810237590.8A CN108416058B (zh) | 2018-03-22 | 2018-03-22 | 一种基于Bi-LSTM输入信息增强的关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810237590.8A CN108416058B (zh) | 2018-03-22 | 2018-03-22 | 一种基于Bi-LSTM输入信息增强的关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108416058A CN108416058A (zh) | 2018-08-17 |
CN108416058B true CN108416058B (zh) | 2020-10-09 |
Family
ID=63133181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810237590.8A Active CN108416058B (zh) | 2018-03-22 | 2018-03-22 | 一种基于Bi-LSTM输入信息增强的关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108416058B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344242B (zh) * | 2018-09-28 | 2021-10-01 | 广东工业大学 | 一种对话问答方法、装置、设备及存储介质 |
US10963652B2 (en) * | 2018-12-11 | 2021-03-30 | Salesforce.Com, Inc. | Structured text translation |
CN109753660B (zh) * | 2019-01-07 | 2023-06-13 | 福州大学 | 一种基于lstm的中标网页命名实体抽取方法 |
CN109902312B (zh) * | 2019-03-01 | 2023-07-11 | 北京金山数字娱乐科技有限公司 | 一种翻译方法及装置、翻译模型的训练方法及装置 |
CN110059320B (zh) * | 2019-04-23 | 2021-03-16 | 腾讯科技(深圳)有限公司 | 实体关系抽取方法、装置、计算机设备和存储介质 |
CN111914091B (zh) * | 2019-05-07 | 2022-10-14 | 四川大学 | 一种基于强化学习的实体和关系联合抽取方法 |
CN112307251B (zh) * | 2019-06-24 | 2021-08-20 | 上海松鼠课堂人工智能科技有限公司 | 英语词汇知识点图谱自适应识别关联系统和方法 |
CN110348016B (zh) * | 2019-07-15 | 2022-06-14 | 昆明理工大学 | 基于句子关联注意力机制的文本摘要生成方法 |
CN110704547B (zh) * | 2019-09-26 | 2022-08-09 | 北京明略软件系统有限公司 | 基于神经网络的关系抽取数据生成方法、模型及训练方法 |
CN110705299B (zh) * | 2019-09-26 | 2022-10-25 | 北京明略软件系统有限公司 | 实体和关系的联合抽取方法、模型、电子设备及存储介质 |
CN110866115B (zh) * | 2019-10-16 | 2023-08-08 | 平安科技(深圳)有限公司 | 序列标注方法、系统、计算机设备及计算机可读存储介质 |
CN110866117B (zh) * | 2019-10-25 | 2021-09-03 | 西安交通大学 | 一种基于语义增强与多层次标签嵌入的短文本分类方法 |
CN111143691B (zh) * | 2019-12-31 | 2023-04-18 | 四川长虹电器股份有限公司 | 一种联合信息抽取方法及装置 |
CN111581387B (zh) * | 2020-05-09 | 2022-10-11 | 电子科技大学 | 一种基于损失优化的实体关系联合抽取方法 |
CN111339780B (zh) * | 2020-05-14 | 2020-11-06 | 北京金山数字娱乐科技有限公司 | 一种基于多任务模型的词语处理方法及装置 |
CN118313367A (zh) * | 2020-08-17 | 2024-07-09 | 支付宝(杭州)信息技术有限公司 | 一种文本信息的抽取方法、装置及设备 |
CN112115250A (zh) * | 2020-09-28 | 2020-12-22 | 四川长虹电器股份有限公司 | 一种问句自动生成方法及系统 |
CN113076718B (zh) * | 2021-04-09 | 2022-03-11 | 苏州爱语认知智能科技有限公司 | 一种商品属性抽取方法及其系统 |
CN113268575B (zh) * | 2021-05-31 | 2022-08-23 | 厦门快商通科技股份有限公司 | 一种实体关系识别方法、装置及可读介质 |
CN113779225B (zh) * | 2021-09-17 | 2024-06-28 | 工银科技有限公司 | 实体链接模型的训练方法、实体链接方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886516A (zh) * | 2017-02-27 | 2017-06-23 | 竹间智能科技(上海)有限公司 | 自动识别语句关系和实体的方法及装置 |
CN107330032A (zh) * | 2017-06-26 | 2017-11-07 | 北京理工大学 | 一种基于递归神经网络的隐式篇章关系分析方法 |
CN107729311A (zh) * | 2017-08-28 | 2018-02-23 | 云南大学 | 一种融合文本语气的中文文本特征提取方法 |
-
2018
- 2018-03-22 CN CN201810237590.8A patent/CN108416058B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886516A (zh) * | 2017-02-27 | 2017-06-23 | 竹间智能科技(上海)有限公司 | 自动识别语句关系和实体的方法及装置 |
CN107330032A (zh) * | 2017-06-26 | 2017-11-07 | 北京理工大学 | 一种基于递归神经网络的隐式篇章关系分析方法 |
CN107729311A (zh) * | 2017-08-28 | 2018-02-23 | 云南大学 | 一种融合文本语气的中文文本特征提取方法 |
Non-Patent Citations (2)
Title |
---|
Implicit discourse relation identification based on tree structure neural network;Ruiying Geng;《2017 International Conference on Asian Language Processing 》;20171231;334-337 * |
Neural architecture for temporal relation extraction: A bi-lstm approach for detecting narrative containers;Julien Tourille等;《Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics》;20171231;224-230 * |
Also Published As
Publication number | Publication date |
---|---|
CN108416058A (zh) | 2018-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN110008469B (zh) | 一种多层次命名实体识别方法 | |
CN111708882B (zh) | 基于Transformer的中文文本信息缺失的补全方法 | |
CN107273358B (zh) | 一种基于管道模式的端到端英文篇章结构自动分析方法 | |
CN110263325B (zh) | 中文分词系统 | |
CN111666758B (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN112380863A (zh) | 一种基于多头自注意力机制的序列标注方法 | |
CN112306494A (zh) | 一种基于卷积和循环神经网络的代码分类及聚类方法 | |
CN113190656A (zh) | 一种基于多标注框架与融合特征的中文命名实体抽取方法 | |
CN111368542A (zh) | 一种基于递归神经网络的文本语言关联抽取方法和系统 | |
CN113705196A (zh) | 基于图神经网络的中文开放信息抽取方法和装置 | |
CN112200664A (zh) | 基于ernie模型和dcnn模型的还款预测方法 | |
Moeng et al. | Canonical and surface morphological segmentation for nguni languages | |
CN112464669A (zh) | 股票实体词消歧方法、计算机设备及存储介质 | |
CN114692568A (zh) | 一种基于深度学习的序列标注方法及应用 | |
CN114781381B (zh) | 基于规则和神经网络模型融合的标准指标抽取方法 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN114742016A (zh) | 一种基于多粒度实体异构图的篇章级事件抽取方法及装置 | |
CN112948588B (zh) | 一种用于情报快速整编的中文文本分类方法 | |
CN113312498A (zh) | 用无向图嵌入知识图谱的文本信息抽取方法 | |
CN113177120B (zh) | 一种基于中文文本分类的情报快速整编方法 | |
CN115310445A (zh) | 基于增强序列标注策略的单阶段联合实体关系抽取方法及系统 | |
CN115358227A (zh) | 一种基于短语增强的开放域关系联合抽取方法及系统 | |
CN114201957A (zh) | 文本情感分析方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |