CN106649275A - 基于词性信息和卷积神经网络的关系抽取方法 - Google Patents

基于词性信息和卷积神经网络的关系抽取方法 Download PDF

Info

Publication number
CN106649275A
CN106649275A CN201611232744.1A CN201611232744A CN106649275A CN 106649275 A CN106649275 A CN 106649275A CN 201611232744 A CN201611232744 A CN 201611232744A CN 106649275 A CN106649275 A CN 106649275A
Authority
CN
China
Prior art keywords
word
vector
speech
convolutional neural
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611232744.1A
Other languages
English (en)
Inventor
罗强
刘世林
丁国栋
练睿
罗镇权
闫俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201611232744.1A priority Critical patent/CN106649275A/zh
Publication of CN106649275A publication Critical patent/CN106649275A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理领域,特别涉及基于词性信息和卷积神经网络的关系抽取方法;将词性纳入特征信息输入到卷积神经网络中,由卷积神经网络来完成对包括词、词性和相对于待抽取关系的实体位置的信息的自动特征提取,进行实体间关系的自动分类。本发明方法使用卷积神经网络完成了待处理文本特征的自动提取,在进行特征提取时,将词性向量和词向量结合,使卷积神经网络能够自动学习到更多有助于关系分类的特征,分类判断的准确率更高。本发明方法与基于规则的关系抽取方法相比,不用人工编写大量的规则,减少了工作量,节省人力和时间成本;且具有更好的领域扩展性。与基于传统机器学习方法相比;不用做繁琐的特征工程工作,关系抽取效率更高。

Description

基于词性信息和卷积神经网络的关系抽取方法
技术领域
本发明涉及自然语言处理领域,特别涉及基于词性信息和卷积神经网络的关系抽取方法。
背景技术
随着互联网的快速发展,互联网已经成为了人们获取信息的主要渠道,互联网上的文本数据内容也呈现出指数级增长的趋势。互联网上的文本数据中包含了丰富的信息,对于我们构建知识库或知识图谱非常有用;但是人工进行相关知识提取工作量极其巨大,如果计算机能够理解并提取出有用的信息,那将具有非常重要的意义。但互联网上的文本数据几乎都是以自然语言的形式存在,即无结构化的,计算机无法直接进行处理。为了解决这个问题,信息抽取技术应运而生,信息抽取技术从无结构化的文本数据中抽取出结构化数据,包括实体、实体间关系、事件等。
关系抽取是信息抽取技术里的一项关键技术,通常通过命名实体识别技术识别出句子或语篇中的实体,再由关系抽取技术识别实体对之间的关系。关系抽取常用的方法包括:基于规则的抽取方法,基于无监督学习的抽取方法和基于监督学习的抽取方法。基于规则的关系抽取方法是人工编写规则来识别句子或者语篇中两个实体之间的关系。基于无监督学习的关系抽取方法将包括实体的句子或者语篇进行聚类,基于聚类结果进行关系识别。基于监督学习的关系抽取方法,通常将关系抽取问题转化为一个分类问题,再基于传统机器学习技术或深度学习技术进行关系分类。
目前关系抽取方法中,基于规则的方法存在明显的不足,该方法需要人工 编写大量的规则,工作量非常大,不易维护,而且必须对每个领域都编写规则,不能很好的扩展到其他领域。基于无监督学习的方法,将句子或语篇进行聚类时,往往效果不是很好,存在召回率和准备率都不高的问题,而且需要很多的人工干预。基于监督学习的关系抽取算法中,基于传统的机器学习算法进行关系分类时,需要人工提炼大量的特征,通常会基于分词、词性标注及句法分析等自然语言处理工具的结果提取特征,而且需要具备特定的领域知识,工作量大。
基于深度学习进行关系分类时,不用人工做大量的特征提取,如利用卷积神经网络进行关系分类,但目前利用卷积神经网络进行关系分类时没有利用句子中词的词性信息,词性是词法分析的重要成果,对理解句子含义非常有意义,为关系分类提供非常重要的信息,能够提高关系分类的准确率,优化关系提取的效果。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供基于词性信息和卷积神经网络的关系抽取方法,将词性纳入特征信息输入到卷积神经网络中,由卷积神经网络来完成对包括词、词性和相对于待抽取关系的实体位置的信息的自动特征提取,进行实体关系的自动分类;无需手动进行特征提取,预测的效率和准确率更高。
为了实现上述发明目的,本发明提供了以下技术方案:基于词性信息和卷积神经网络的关系抽取方法,将待处理文本分词后,将由各个词的词信息向量依次排列成的矩阵,输入卷积神经网络中,由卷积神经网络进行特征抽取,进而成对待处理文本中实体关系的判断;所述词信息向量由对应词的词向量Vector1、词性向量Vector2、相对于待抽取关系第一实体的位置向量Vector3和相对于第二实体的位置向量Vector4拼接而成。
具体的,本发明基于词性信息和卷积神经网络的关系抽取方法包含以下实现步骤:
(1)对待处理文本进行分词,形成词序列,并对序列中的各个词进行对应的词性标注:
(2)建立各个词与向量之间的映射关系;
建立各个词性与向量之间的映射关系;
(3)计算序列中各个词相对于第一实体的位置,生成第一位置向量Vector3;计算句子中各个词相对于第二实体的位置,生成第二位置向量Vector4;
(4)将词序列中各个词的词向量Vector1、词性向量Vector2,第一位置向量Vector3和第二位置向量Vector4,拼接成词信息向量Vector5;并将各个词对应的词信息向量依序排列,形成词信息矩阵;
(5)将词信息矩阵输入到卷积神经网络中,进而实现实体关系分类判断。进一步的,所述步骤(2)包含以下实现过程:
(2-1)构建一个语料库;
(2-2)对语料库中的文本进行分词,并进行对应词性标注;
(2-3)对分词后形成词的进行向量转化,同一个词对应一个向量;
(2-4)将各个词性进行向量转化,同一词性对应一个向量。
作为一种优选,所述步骤(2)采用Word Embedding技术来进行词和词性 的向量转化。
作为一种优选,所述步骤(2)中采用word2vec来实现词和词性的向量化。
进一步的,所述步骤(2)与所述步骤(1)的顺序可以调换。
进一步的,所述卷积神经网络将提取到的特征信息输入到maxpooling层中,进行降维处理。
进一步的,所述maxpooling层将经过降维处理后的特征信息输入到softmax层中进行对实体关系的分类预测。
与现有技术相比,本发明的有益效果:本发明提供基于词性信息和卷积神经网络的关系抽取方法,将词性纳入特征信息输入到卷积神经网络中,由卷积神经网络来完成对包括词,词性和相对于待抽取关系的实体位置的信息的自动特征提取,进行实体关系的自动分类;在采用卷积神经网络进行关系抽取时,除了利用词信息和相对于实体的位置信息以外,还充分利用了词的词性信息,有助于更好的理解句子语义。将词性向量和词向量结合成一个信息含量更大的向量;当词向量信息不足的时候词性向量信息会作为补充,使卷积神经网络能够自动学习到更多有助于关系分类的特征,准确率更高。当句子中的词语表示存在歧义时,加入词性信息后,可以一定程度上消除歧义,使关系抽取的鲁棒性更好。
与基于规则的关系抽取方法相比,本发明方法不用人工编写大量的规则,减少了工作量;而且能够比较好的扩展到不同的领域。本发明方法省略了人工规则编写的步骤,特征的提取由卷积神经网络来完成提取,与基于传统机器学习方法相比,本发明不用做繁琐的特征工程工作,使提升了实体关系的判断效率。
附图说明:
图1为本基于词性信息和卷积神经网络的关系抽取方法的实现步骤图。
图2为实施例1总本基于词性信息和卷积神经网络的关系抽取方法实现步骤示意图。
图3为本基于词性信息和卷积神经网络的关系抽取方法的工作原理示意图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
提供基于词性信息和卷积神经网络的关系抽取方法:将待处理文本分词后,将由各个词的词信息向量依次排列成的矩阵,输入卷积神经网络中,由卷积神经网络进行特征抽取,进而完成对待处理文本中实体关系的判断;所述词信息向量由对应的词向量Vector1、词性向量Vector2、相对于待抽取关系第一实体的位置向量Vector3和相对于第二实体的位置向量Vector4拼接而成。本发明方法将词性信息作为输入信息,输入到卷积神经网络中,有助于更好的理解句子语义,提高关系类型判断的准确性。
具体的,本基于词性信息和卷积神经网络的关系抽取方法包含如图1所示的以下实现步骤:
(1)对待处理文本进行分词,形成词序列,并对序列中的各个词进行对应的词性标注:
(2)建立各个词与向量之间的映射关系;建立各个词性与向量之间的映射 关系;
(3)计算序列中各个词相对于第一实体的位置,生成第一位置向量Vector3;计算句子中各个词相对于第二实体的位置,生成第二位置向量Vector4;
(4)将词序列中,各个词的词向量Vector1、词性向量Vector2,第一位置向量Vector3和第二位置向量Vector4,拼接成词信息向量Vector5;由序列中各个词的词信息向量依次排列形成词信息矩阵;
(5)将词信息矩阵输入到卷积神经网络中,进行实体关系分类判断。
进一步的,所述步骤(2)包含以下实现过程:
(2-1)构建一个语料库;
(2-2)对语料库中的文本进行分词,并进行对应词性标注;
(2-3)对分词后形成词的进行向量转化,同一个词对应一个向量;
(2-4)将各个词性进行向量转化,同一词性对应一个向量。
作为一种优选,所述步骤(2)采用Word Embedding来进行词和词性的向量转化。
作为一种优选,所述步骤(2)中采用word2vec来实现词和词性的向量化。
进一步的,所述步骤(2)与所述步骤(1)的顺序可以调换。
进一步的,所述卷积神经网络将提取到的特征信息输入到池化层(优选maxpooling层作为池化层)中,进行降维处理。
进一步的,所述池化层将经过降维处理后的特征信息输入到softmax层中进行对实体关系的分类预测。
实施例1:
如图2所示:选择一个较大的语料库,使用分词工具对语料库中的所有句子进行分词,得到分词结果。对语料库的分词结果,采用Word Embedding技术来生成每个词的N维词向量(N纬度的大小根据语料库中包含词的多少,即语料的规模来设定;在语料库规模较大的情况下,为了避免编码稀疏的问题,可以进行降维,例如使用向量来表示每个词,向量中使用连续的变化的数字),进而得到语料库所包含词的词向量矩阵Matrix1,其中矩阵的每个行向量对应语料库中一个词的词向量。本步骤中语料库中的同一个词对应同一个向量,比如说:“中国”一词,在语料库中可能多次出现,但“中国”一词在向量标注结果中仅对应同一个向量。作为优选,可选择word2vec来实现每个词的向量转化,word2vec可以实现词的向量转化,可以更好的理解词义和语义,所生成的向量中,向量越近,对应的词义也越近。
在分词的基础上,基于语料库的分词结果,使用词性标注工具对语料库中每个句子中的词进行词性标注。得到的词性标注结果后,将句子中的词性作为一个序列;采用WordEmbedding技术生成每个词性的M维词性向量,进而得到语料库的词性向量矩Matrix2,其中矩阵的每一行对应语料库中一个词性的词性向量。
上述过程建立了词与词向量的映射关系,建立了词性与词性向量的映射关系;为卷积神经网络的使用进行了准备。
对于包含待抽取关系实体对的待处理文本(句子或语篇),使用分词工具进行分词,得到分词后的序列,并使用词性标注工具进行词性标注。确定待分类句子两个实体(第一实体Entity1和第二实体Entity2)的位置,并计算序列中各个 词相对于第一实体Entity1的位置,对每一个位置随机生成一个K维的位置向量Vector3,进而得到位置向量矩阵Matrix3。计算序列中各个词相对于第二实体Entity2的位置,对每一个位置随机生成一个K维的位置向量Vector4,进而得到位置向量矩阵Matrix4。
对于句子或语篇分词结果序列里的每一个词,依次从词向量矩阵Matrix1中取出对应的N维词向量Vector1;对于句子或语篇的词性标注结果序列里的每一个词,依次从词性向量矩阵Matrix2中取出对应的M维词性向量Vector2。基于词相对于Entity1和Entity2的位置,从Matrix3中取出对应的K维位置向量Vector3,从Matrix4中取出对应的K维位置向量Vector4,将Vector1、Vector2、Vector3和Vector4拼接到一起得到N+M+2K维的向量Vector5。
得到句子或语篇中的每个词的N+M+2K维向量后,按序组合到一起得到句子或语篇的向量矩阵Matrix5,假设序列的长度为C。
将Matrix5作为卷积神经网络的输入,首先通过卷积层做卷积操作,卷积核大小为w×(N+M+2K);卷积核每次滑动位置为1,因此每个卷积核可以得到一个长度为C-w+1维的向量。将卷积层采集的向量输入到池化层,通过池化层来降低向量的纬度,可以才采用maxpooling层作为池化层来对每一个卷积核做Max Pooling操作:采用max pooling函数,即取出C-w+1维向量中值最大的那一个;一个卷积核对应一个值,通过池化层后每个句子或者语篇会得到一个向量Vector6,向量Vector6的维数等于网络中卷积核的个数。最后在池化层的基础上,将向量Vector6输入到softmax层中,用softmax层进行实体关系的分类,计算出待处理文本中实体关系的分类概率,取概率最大的关系类型作为分类结果。
应该理解,运行神经网络进行分类识别时,需要对模型进行训练,训练时将人工标注后的训练样本输入到神经网络中,通过神经网络的正反向传播和自动权重调节,来进行模型的训练,当达到预先设置识别准确率阈值时,停止训练,认为模型已经训练完成。本发明方法亦是如此,在进行正式的分类识别之前,需要对包括卷积层、maxpooling层和softmax层的神经网络进行训练,训练过程与识别过程类似;构建好神经网络后,将一定数量的(比如说300件)人工标注好实体关系类型的训练样本,进行文本分词和词性标注,形成序列,对序列中的每个词在Matrix1查找对应词向量,在Matrix2中抽取对应的词性向量,生成相对于第一实体的第一位置向量,生成相当于第二实体的第二位置向量,将每个词的上述向量拼接成一个对应的词信息向量,并根据分词序列,将各个词的向量依序排列形成矩阵,将矩阵作为卷积神经网络的输入,经过神经网络正反向传播和自动权重调节,直到设置的准确率阈值时,停止训练,当模型训练结束后,根据上述的识别过程,完成对待抽取实体关系的文本的实体关系识别。
如图3所示:本实施例以“A公司总裁张三出席XX会议”为例来说明本发明方法实体关系的抽取过程:首席对“A公司总裁张三出席XX会议”进行分词,得到:“A公司总裁张三出席XX会议”分词序列,对分词后的序列进行词性标注;词性标注结果为“A公司/NN总裁/NN张三/NR出席/VVXX/NN会议/NN”。将(由“A公司/NN总裁/NN张三/NR出席/VVXX/NN会议/NN”对应的词信息矩阵)输入到卷积层中,由卷积神经网络完成特征的提取,输入到max pooling层中,进行降维处理,最后由softmax层输出“A公司总裁张三出席XX会议”的实体关系类别的判断结果。

Claims (7)

1.基于词性信息和卷积神经网络的关系抽取方法,其特征在于,将待处理文本分词后,将由各个词的词信息向量依次排列成的矩阵,输入卷积神经网络中,由卷积神经网络进行特征抽取,进而完成对待处理文本中实体关系的判断;所述词信息向量由对应词向量、词性向量、相对于待抽取关系第一实体的位置向量和相对于第二实体的位置向量拼接而成。
2.如权利要求1所述的方法,其特征在于,所述方法包含以下实现步骤:
(1)对待处理文本进行分词,形成词序列,并对序列中的各个词进行对应的词性标注;
(2)建立各个词与向量之间的映射关系;
建立各个词性与向量之间的映射关系;
(3)计算句子中各个词相对于第一实体的位置,生成第一位置向量;计算句子中各个词相对于第二实体的位置,生成第二位置向量;
(4)将词序列中各个词的词向量、词性向量,第一位置向量和第二位置向量,拼接成对应的词信息向量;并将各个词对应的词信息向量依序排列,形成词信息矩阵;
(5)通过卷积神经网络对词信息矩阵进行采样;进而实现实体关系分类判断。
3.如权利要求2所述的方法,其特征在于:所述步骤(2)包含以下实现过程:
(2-1)构建一个语料库;
(2-2)对语料库中的文本进行分词,并进行对应词性标注;
(2-3)对分词后形成词的进行向量转化,同一个词对应一个向量;
(2-4)将各个词性进行向量转化,同一词性对应一个向量。
4.如权利要求3所述的方法,其特征在于:所述步骤(2)采用Word Embedding技术来进行词和词性的向量转化。
5.如权利要求3所述的方法,其特征在于:所述步骤(2)中采用word2vec来实现词和词性的向量化。
6.如权利要求1至5之一所述的方法,其特征在于:所述卷积神经网络将提取到的特征信息输入到maxpooling层中,进行降维处理。
7.如权利要求6所述的方法,其特征在于,所述maxpooling层将经过降维处理后的特征信息输入到softmax层中进行对实体关系的分类预测。
CN201611232744.1A 2016-12-28 2016-12-28 基于词性信息和卷积神经网络的关系抽取方法 Pending CN106649275A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611232744.1A CN106649275A (zh) 2016-12-28 2016-12-28 基于词性信息和卷积神经网络的关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611232744.1A CN106649275A (zh) 2016-12-28 2016-12-28 基于词性信息和卷积神经网络的关系抽取方法

Publications (1)

Publication Number Publication Date
CN106649275A true CN106649275A (zh) 2017-05-10

Family

ID=58832020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611232744.1A Pending CN106649275A (zh) 2016-12-28 2016-12-28 基于词性信息和卷积神经网络的关系抽取方法

Country Status (1)

Country Link
CN (1) CN106649275A (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法
CN107220237A (zh) * 2017-05-24 2017-09-29 南京大学 一种基于卷积神经网络的企业实体关系抽取的方法
CN107229684A (zh) * 2017-05-11 2017-10-03 合肥美的智能科技有限公司 语句分类方法、系统、电子设备、冰箱及存储介质
CN107239444A (zh) * 2017-05-26 2017-10-10 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统
CN107392229A (zh) * 2017-06-21 2017-11-24 清华大学 一种基于最面向社会关系抽取的网络表示方法
CN107526834A (zh) * 2017-09-05 2017-12-29 北京工商大学 联合词性与词序的相关因子训练的word2vec改进方法
CN107633362A (zh) * 2017-09-18 2018-01-26 前海梧桐(深圳)数据有限公司 基于生物特征表达企业要素之间联结方式的方法及其系统
CN107798435A (zh) * 2017-11-09 2018-03-13 贵州电网有限责任公司 一种基于文本信息抽取的电力物资需求预测方法
CN107895051A (zh) * 2017-12-08 2018-04-10 宏谷信息科技(珠海)有限公司 一种基于人工智能的股票新闻量化方法及系统
CN107944559A (zh) * 2017-11-24 2018-04-20 国家计算机网络与信息安全管理中心 一种实体关系自动识别方法及系统
CN108009148A (zh) * 2017-11-16 2018-05-08 天津大学 基于深度学习的文本情感分类表示方法
CN108153730A (zh) * 2017-12-25 2018-06-12 北京奇艺世纪科技有限公司 一种多义词词向量训练方法及装置
CN108334605A (zh) * 2018-02-01 2018-07-27 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN108595429A (zh) * 2018-04-25 2018-09-28 杭州闪捷信息科技股份有限公司 基于深度卷积神经网络进行文本特征提取的方法
CN108959286A (zh) * 2017-05-17 2018-12-07 富士通株式会社 信息抽取方法和信息抽取设备
CN109063159A (zh) * 2018-08-13 2018-12-21 桂林电子科技大学 一种基于神经网络的实体关系抽取方法
CN109255033A (zh) * 2018-11-05 2019-01-22 桂林电子科技大学 一种基于位置服务领域的知识图谱的推荐方法
CN109325231A (zh) * 2018-09-21 2019-02-12 中山大学 一种多任务模型生成词向量的方法
CN109460466A (zh) * 2018-09-20 2019-03-12 电子科技大学 一种基于多任务双向长短时记忆网络的隐式句间关系分析方法
CN109522557A (zh) * 2018-11-16 2019-03-26 中山大学 文本关系抽取模型的训练方法、装置及可读存储介质
CN109615006A (zh) * 2018-12-10 2019-04-12 北京市商汤科技开发有限公司 文字识别方法及装置、电子设备和存储介质
CN109710932A (zh) * 2018-12-22 2019-05-03 北京工业大学 一种基于特征融合的医疗实体关系抽取方法
CN110010129A (zh) * 2019-04-09 2019-07-12 山东师范大学 一种基于六足机器人的语音交互系统
CN110276066A (zh) * 2018-03-16 2019-09-24 北京国双科技有限公司 实体关联关系的分析方法及相关装置
CN110427484A (zh) * 2018-04-26 2019-11-08 上海意仕腾教育科技有限公司 一种基于深度学习的中文自然语言处理方法
CN110516239A (zh) * 2019-08-26 2019-11-29 贵州大学 一种基于卷积神经网络的分段池化关系抽取方法
CN111046175A (zh) * 2019-11-18 2020-04-21 杭州天翼智慧城市科技有限公司 基于自学习的电子案卷分类方法及装置
CN111192692A (zh) * 2020-01-02 2020-05-22 上海联影智能医疗科技有限公司 一种实体关系的确定方法、装置、电子设备及存储介质
JP2020107085A (ja) * 2018-12-27 2020-07-09 楽天株式会社 学習装置、妥当性判定装置、学習方法、妥当性判定方法、学習プログラム、及び妥当性判定プログラム
CN111435410A (zh) * 2019-01-14 2020-07-21 阿里巴巴集团控股有限公司 用于医疗文本的关系抽取方法及其装置
CN112052674A (zh) * 2020-08-06 2020-12-08 腾讯科技(深圳)有限公司 一种实体定义抽取方法、系统及存储介质和服务器
CN113191118A (zh) * 2021-05-08 2021-07-30 山东省计算中心(国家超级计算济南中心) 一种基于序列标注的文本关系抽取方法
CN114168716A (zh) * 2022-02-11 2022-03-11 华南理工大学 基于深度学习的工程造价自动抽取和分析方法及装置
CN115952461A (zh) * 2023-03-15 2023-04-11 北京澜舟科技有限公司 一种预训练语料清洗方法、系统及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
THIEN HUU NGUYEN 等: "Relation Extraction: Perspective from Convolutional Neural Networks", 《PROCEEDINGS OF NAACL-HLT 2015》 *
洪军建: "面向社会网络应用的人物关系抽取方法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229684A (zh) * 2017-05-11 2017-10-03 合肥美的智能科技有限公司 语句分类方法、系统、电子设备、冰箱及存储介质
CN107229684B (zh) * 2017-05-11 2021-05-18 合肥美的智能科技有限公司 语句分类方法、系统、电子设备、冰箱及存储介质
CN108959286A (zh) * 2017-05-17 2018-12-07 富士通株式会社 信息抽取方法和信息抽取设备
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法
CN107220237A (zh) * 2017-05-24 2017-09-29 南京大学 一种基于卷积神经网络的企业实体关系抽取的方法
CN107239444A (zh) * 2017-05-26 2017-10-10 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统
CN107239444B (zh) * 2017-05-26 2019-10-08 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统
CN107392229A (zh) * 2017-06-21 2017-11-24 清华大学 一种基于最面向社会关系抽取的网络表示方法
CN107526834A (zh) * 2017-09-05 2017-12-29 北京工商大学 联合词性与词序的相关因子训练的word2vec改进方法
CN107526834B (zh) * 2017-09-05 2020-10-23 北京工商大学 联合词性与词序的相关因子训练的word2vec改进方法
CN107633362A (zh) * 2017-09-18 2018-01-26 前海梧桐(深圳)数据有限公司 基于生物特征表达企业要素之间联结方式的方法及其系统
CN107633362B (zh) * 2017-09-18 2020-11-20 前海梧桐(深圳)数据有限公司 基于生物特征表达企业要素之间联结方式的方法及其系统
CN107798435A (zh) * 2017-11-09 2018-03-13 贵州电网有限责任公司 一种基于文本信息抽取的电力物资需求预测方法
CN107798435B (zh) * 2017-11-09 2021-08-31 贵州电网有限责任公司 一种基于文本信息抽取的电力物资需求预测方法
CN108009148A (zh) * 2017-11-16 2018-05-08 天津大学 基于深度学习的文本情感分类表示方法
CN108009148B (zh) * 2017-11-16 2021-04-27 天津大学 基于深度学习的文本情感分类表示方法
CN107944559A (zh) * 2017-11-24 2018-04-20 国家计算机网络与信息安全管理中心 一种实体关系自动识别方法及系统
CN107895051A (zh) * 2017-12-08 2018-04-10 宏谷信息科技(珠海)有限公司 一种基于人工智能的股票新闻量化方法及系统
CN108153730A (zh) * 2017-12-25 2018-06-12 北京奇艺世纪科技有限公司 一种多义词词向量训练方法及装置
CN108334605A (zh) * 2018-02-01 2018-07-27 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
WO2019149200A1 (zh) * 2018-02-01 2019-08-08 腾讯科技(深圳)有限公司 文本分类方法、计算机设备及存储介质
US11562145B2 (en) 2018-02-01 2023-01-24 Tencent Technology (Shenzhen) Company Limited Text classification method, computer device, and storage medium
CN110276066B (zh) * 2018-03-16 2021-07-27 北京国双科技有限公司 实体关联关系的分析方法及相关装置
CN110276066A (zh) * 2018-03-16 2019-09-24 北京国双科技有限公司 实体关联关系的分析方法及相关装置
CN108595429A (zh) * 2018-04-25 2018-09-28 杭州闪捷信息科技股份有限公司 基于深度卷积神经网络进行文本特征提取的方法
CN110427484A (zh) * 2018-04-26 2019-11-08 上海意仕腾教育科技有限公司 一种基于深度学习的中文自然语言处理方法
CN109063159A (zh) * 2018-08-13 2018-12-21 桂林电子科技大学 一种基于神经网络的实体关系抽取方法
CN109063159B (zh) * 2018-08-13 2021-04-23 桂林电子科技大学 一种基于神经网络的实体关系抽取方法
CN109460466A (zh) * 2018-09-20 2019-03-12 电子科技大学 一种基于多任务双向长短时记忆网络的隐式句间关系分析方法
CN109325231A (zh) * 2018-09-21 2019-02-12 中山大学 一种多任务模型生成词向量的方法
CN109255033A (zh) * 2018-11-05 2019-01-22 桂林电子科技大学 一种基于位置服务领域的知识图谱的推荐方法
CN109255033B (zh) * 2018-11-05 2021-10-08 桂林电子科技大学 一种基于位置服务领域的知识图谱的推荐方法
CN109522557A (zh) * 2018-11-16 2019-03-26 中山大学 文本关系抽取模型的训练方法、装置及可读存储介质
CN109522557B (zh) * 2018-11-16 2021-07-16 中山大学 文本关系抽取模型的训练方法、装置及可读存储介质
CN109615006A (zh) * 2018-12-10 2019-04-12 北京市商汤科技开发有限公司 文字识别方法及装置、电子设备和存储介质
CN109710932A (zh) * 2018-12-22 2019-05-03 北京工业大学 一种基于特征融合的医疗实体关系抽取方法
JP2020107085A (ja) * 2018-12-27 2020-07-09 楽天株式会社 学習装置、妥当性判定装置、学習方法、妥当性判定方法、学習プログラム、及び妥当性判定プログラム
CN111435410A (zh) * 2019-01-14 2020-07-21 阿里巴巴集团控股有限公司 用于医疗文本的关系抽取方法及其装置
CN111435410B (zh) * 2019-01-14 2023-04-14 阿里巴巴集团控股有限公司 用于医疗文本的关系抽取方法及其装置
CN110010129A (zh) * 2019-04-09 2019-07-12 山东师范大学 一种基于六足机器人的语音交互系统
CN110516239A (zh) * 2019-08-26 2019-11-29 贵州大学 一种基于卷积神经网络的分段池化关系抽取方法
CN111046175A (zh) * 2019-11-18 2020-04-21 杭州天翼智慧城市科技有限公司 基于自学习的电子案卷分类方法及装置
CN111046175B (zh) * 2019-11-18 2023-05-23 杭州天翼智慧城市科技有限公司 基于自学习的电子案卷分类方法及装置
CN111192692A (zh) * 2020-01-02 2020-05-22 上海联影智能医疗科技有限公司 一种实体关系的确定方法、装置、电子设备及存储介质
CN111192692B (zh) * 2020-01-02 2023-12-08 上海联影智能医疗科技有限公司 一种实体关系的确定方法、装置、电子设备及存储介质
CN112052674A (zh) * 2020-08-06 2020-12-08 腾讯科技(深圳)有限公司 一种实体定义抽取方法、系统及存储介质和服务器
CN113191118A (zh) * 2021-05-08 2021-07-30 山东省计算中心(国家超级计算济南中心) 一种基于序列标注的文本关系抽取方法
CN113191118B (zh) * 2021-05-08 2023-07-18 山东省计算中心(国家超级计算济南中心) 一种基于序列标注的文本关系抽取方法
CN114168716A (zh) * 2022-02-11 2022-03-11 华南理工大学 基于深度学习的工程造价自动抽取和分析方法及装置
CN114168716B (zh) * 2022-02-11 2022-05-24 华南理工大学 基于深度学习的工程造价自动抽取和分析方法及装置
CN115952461A (zh) * 2023-03-15 2023-04-11 北京澜舟科技有限公司 一种预训练语料清洗方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN106649275A (zh) 基于词性信息和卷积神经网络的关系抽取方法
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN109948165B (zh) 基于混合注意力网络的细粒度情感极性预测方法
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN105512209B (zh) 一种基于特征自动学习的生物医学事件触发词识别方法
CN107193801A (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
WO2020063092A1 (zh) 知识图谱的处理方法及装置
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN108376131A (zh) 基于seq2seq深度神经网络模型的关键词抽取方法
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN106202032A (zh) 一种面向微博短文本的情感分析方法及其系统
CN108509409A (zh) 一种自动生成语义相近句子样本的方法
CN109670014A (zh) 一种基于规则匹配和机器学习的论文作者名消歧方法
CN110413791A (zh) 基于cnn-svm-knn组合模型的文本分类方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN108073576A (zh) 智能搜索方法、搜索装置以及搜索引擎系统
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN108520038B (zh) 一种基于排序学习算法的生物医学文献检索方法
CN105975455A (zh) 基于双向递归神经网络的信息分析系统
CN109325125B (zh) 一种基于cnn优化的社交网络谣言检测方法
CN113742396B (zh) 一种对象学习行为模式的挖掘方法及装置
CN109299251A (zh) 一种基于深度学习算法的异常垃圾短信识别方法及系统
CN111353032B (zh) 面向社区问答的问题分类方法及系统
CN114443846B (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
CN116167379A (zh) 一种基于bert和实体位置信息的实体关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170510

WD01 Invention patent application deemed withdrawn after publication