CN110502742B - 一种复杂实体抽取方法、装置、介质及系统 - Google Patents

一种复杂实体抽取方法、装置、介质及系统 Download PDF

Info

Publication number
CN110502742B
CN110502742B CN201910625736.0A CN201910625736A CN110502742B CN 110502742 B CN110502742 B CN 110502742B CN 201910625736 A CN201910625736 A CN 201910625736A CN 110502742 B CN110502742 B CN 110502742B
Authority
CN
China
Prior art keywords
word
level
neural network
layer
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910625736.0A
Other languages
English (en)
Other versions
CN110502742A (zh
Inventor
靳小龙
程学旗
席鹏弼
郭嘉丰
李紫宣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201910625736.0A priority Critical patent/CN110502742B/zh
Publication of CN110502742A publication Critical patent/CN110502742A/zh
Application granted granted Critical
Publication of CN110502742B publication Critical patent/CN110502742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种复杂实体抽取方法,用于迭层膨胀卷积神经网络,该神经网络包括字级别迭层膨胀卷积神经网络层和词级别迭层膨胀卷积神经网络层,该方法包括:语料生成步骤,用于构建实体语料集,以采集语料,并对该语料进行自定义格式标注,形成训练集、测试集和/或验证集;字级别向量生成步骤,用于对该语料进行预训练,生成字向量,并将该字向量输入该字级别迭层膨胀卷积神经网络层,得到字级别向量;自定义特征提取步骤,用于从自由文本中提取所述自定义格式标注的特征;实体抽取步骤,将所述字级别向量进行拼接后,与所述词级别特征输入该词级别迭层膨胀卷积神经网络层,对所述自由文本进行复杂实体的抽取。该方法提高了实体抽取的精度和效率。

Description

一种复杂实体抽取方法、装置、介质及系统
技术领域
本发明涉及自然语言处理领域,具体涉及一种面向文本的复杂实体抽取方法。
背景技术
实体抽取作为知识抽取中的子任务,也是最基础的一步,指的是从原始语料中自动识别出指定类型的命名实体,我们所说的实体,又称为命名实体,主要包括实体名,如国家名,组织机构名,地名,人名,缩略词,以及一些数学表达式,如货币值,百分数,时间表达式等。本发明中所提到的复杂实体,是一类由数字,特殊符号,英文和汉字组成的实体,可能指代一个产品名称如华为P20手机,也可能指代一种农用拖拉机型号,如黄海金马1504A大型农用拖拉机。
现有的实体抽取方法大多是针对通用实体,如人名,地名,机构名等实体。一般都会将实体抽取转化为序列标注问题。以句子为单位进行句内每一个单元进行多分类。对于中文实体抽取来说,按照单元的粒度,可以分为词语级别的实体抽取和字级别的实体识别。词语级别的实体识别需要先对句子进行中文分词,再基于分词结果,对每一个词语进行序列标志,字级别的实体识别不需要进行中文分词,直接将句子看成字序列对句子中的每一个字进行序列标注。这两种方法主要分为以下几个步骤:
1、首先对输入的句子进行分词(如果是字级别的直接将一个字当成一个词);
2、接着对每一个词提取相关的上下文特征,通常使用两种方法,一是基于自然语言处理工具的构造特征,譬如依存关系、句法结构和词性等,二是基于神经网络生成的表示特征,譬如词向量等;
3、将输入层输入到条件随机场(CRF)和双向长短时记忆网络(Bi-LSTM)中;
4、将隐含层输出输入到softmax层,输出在每一个类别上的概率;
5、在Bi-LSTM+CRF模型中,还需要将softmax层的输出输入到CRF中,通过维比特算法求解序列解。
传统的基于BIO的标注方式和基于BIOES的标注方式指的是B(实体开头词),I(实体中间词),O(非实体词),E(实体结尾词),S(单一实体词)。然而对于复杂实体,由于实体本身由多种成分构成,实体词长度比普通实体要长,实体中蕴含得信息也比普通实体多,传统的基于BIO(BIOES)的标注方式无法体现复杂实体的特殊性,同时由于复杂实体中的词在自然文本语料中很少出现,尤其是一些型号编码,使得预训练的词向量并不能很好的体现复杂实体中词语的语义信息,上述原因导致针对复杂实体的抽取精度不高。
由于长短时记忆网络(LSTM)之类的序列模型在GPU运算上没有卷积神经网络CNN(Convolutional Neural Networks)高效,以往序列模型的训练和预测都比较耗时,在面临海量文本时,实体抽取效率也是我们需要考虑的因素。
综上可知,现有技术在实际使用上,显然存在不便与缺陷,所以有必要加以改进。
发明内容
为了解决上述技术问题,本发明目的在于提供一种基于自定义标注格式的迭层膨胀卷积神经网络IDCNN(Iterated Dilated Convolutional Neural Networks)进行中文实体识别方法。
具体地说,本发明公开了一种基于迭层膨胀卷积神经网络的复杂实体抽取方法,该迭层膨胀卷积神经网络包括字级别迭层膨胀卷积神经网络层和词级别迭层膨胀卷积神经网络层,其特征在于,所述方法包括以下步骤:
语料生成步骤,用于构建实体语料集,以采集语料,并对该语料进行自定义格式标注,形成训练集、测试集和/或验证集;
字级别向量生成步骤,用于对所述语料进行预训练,生成字向量,并将该字向量输入所述字级别迭层膨胀卷积神经网络层,得到字级别向量;
自定义特征提取步骤,用于从自由文本中提取所述自定义格式标注的特征;
实体抽取步骤,将所述字级别向量进行拼接后,与所述词级别特征输入所述词级别迭层膨胀卷积神经网络层,对所述自由文本进行复杂实体的识别分类。
上述的复杂实体抽取方法,其特征在于,所述迭层膨胀卷积神经网络是在卷积神经网络的滤波器上增加一膨胀宽度。
上述的复杂实体抽取方法,其特征在于,所述自定义标注格式包括:
实体名称M,包括符号和/或特殊字符;
非实体词O;
触发词T;
基本修饰词G。
上述的复杂实体抽取方法,其特征在于,所述自定义特征提取步骤进一步包括:
步骤110,使用分词工具对自由文本进行分词,得到分词结果;
步骤120,构建设备触发词词库和基本修饰词词库;
步骤130,根据所述分词结果和所述设备触发词词库、基本修饰词词库,标注出触发词T以及基本修饰词G,剩余词则标注为非实体词O;
步骤140,判断实体名称M,依据该词在训练语料标注出的实体词中出现的次数和出现总次数的比值,判断该词是否应该被标注为实体名称M,当比值小于阈值时,则将该词标注为实体名称M。
上述的复杂实体抽取方法,其特征在于,所述迭层膨胀卷积神经网络,还包括:
softmax层,用于对复杂实体的识别与分类。
上述的复杂实体抽取方法,其特征在于,所述实体抽取步骤进一步包括:
步骤210,将所述字级别向量按照所述分词结果进行拼接,得到每个词在所述字级别迭层膨胀卷积神经网络层的向量表示;
步骤220,将所述每个词在所述字级别迭层膨胀卷积神经网络层的向量表示与词级别特征,进行拼接,得到词语级别的向量表示;
步骤230,将所述词语级别的向量表示输入词级别迭层膨胀卷积神经网络层,得到每个词的隐含层表示;
步骤240,将所述词的隐含层表示输入所述softmax层,进行复杂实体的识别与分类。
上述的复杂实体抽取方法,其特征在于,所述词级别特征包括所述词中每个字的字级别向量和自定义标注格式特征。
上述的复杂实体抽取方法,其特征在于,所述字级别向量进行拼接的步骤包括:
步骤211,将所述字向量序列(X1,X2,…,Xt,…,XT)输入所述字级别迭层膨胀卷积神经网络层,得到字级别隐含层表达X;
步骤212,将字向量Xt转化为向量it=D1 (0)Xt,Dσ (j)表示第j层膨胀卷积层,σ为膨胀宽度,第Lc膨胀宽度随着层数指数增长,初始输出为it,所述神经网络每一层的输出:
Figure BDA0002127030480000041
步骤213,堆叠一层膨胀宽度为1的卷积层:
Figure BDA0002127030480000042
步骤214,将Lc+1层网络看成一个块B(·),堆叠k层网络块:
bt (k)=B(bt (k-1)),
所述字级别迭层膨胀卷积神经网络层输出最后一个块;
步骤215,根据所述分词结果,将属于同一个词的所述字级别迭层膨胀卷积神经网络层的输出进行拼接,得到每个词在所述字级别迭层膨胀卷积神经网络层的向量表示序列(h1,h2,…,ht’,…,hT’)。
上述的复杂实体抽取方法,其特征在于,所述词语级别的向量表示的形成步骤,还包括:
步骤221,将所述每个词在所述字级别迭层膨胀卷积神经网络层的向量表示序列(h1,h2,…,ht’,…,hT’)与所述词级别特征进行拼接,得到词语级别的向量表示(w1,w2,…,wt’,…,wT’);
步骤222,将所述词语级别的向量表示(w1,w2,…,wt’,…,wT’)通过膨胀卷积层;
步骤223,所述膨胀卷积网络块乘上转移矩阵W0,得到当前词在每一个类别下的打分:
Figure BDA0002127030480000043
本发明还公开了一种基于迭层膨胀卷积神经网络的复杂实体抽取装置,该迭层膨胀卷积神经网络包括字级别迭层膨胀卷积神经网络层和词级别迭层膨胀卷积神经网络层,其特征在于,该装置包括:
语料生成模块,用于构建实体语料集,以采集语料,并对该语料进行自定义格式标注,形成训练集、测试集和/或验证集;
字级别向量生成模块,用于对所述语料进行预训练,生成字向量,并将该字向量输入所述字级别迭层膨胀卷积神经网络层,得到字级别向量;
自定义特征提取模块,用于从自由文本中提取所述自定义格式标注的特征;
实体抽取模块,将所述字级别向量进行拼接后,与所述词级别特征输入所述词级别迭层膨胀卷积神经网络层,对所述自由文本进行复杂实体的识别分类。
上述的复杂实体抽取装置,其特征在于,所述迭层膨胀卷积神经网络是在卷积神经网络的滤波器上增加一膨胀宽度。
上述的复杂实体抽取装置,其特征在于,所述自定义标注格式包括:
实体名称M,包括符号和/或特殊字符;
非实体词O;
触发词T;
基本修饰词G。
上述的复杂实体抽取装置,其特征在于,所述自定义特征提取模块包括:
分词模块,使用分词工具对自由文本进行分词;
词库构建模块,构建设备触发词词库和基本修饰词词库;
特征标注模块,根据所述分词结果和设备触发词词库、基本修饰词词库,标注出触发词T以及基本修饰词G,剩余词则标注为非实体词O;
实体名称判断模块,依据该词在训练语料标注出的实体词中出现的次数和出现总次数的比值,判断该词是否应该被标注为实体名称M,当比值小于阈值时,则将该词标注为实体名称M。
上述的复杂实体抽取装置,其特征在于,所述迭层膨胀卷积神经网络,还包括:
Softmax层,用于对复杂实体的识别与分类。
上述的复杂实体抽取装置,其特征在于,所述实体抽取模块进一步包括:
词向量生成模块,将所述字级别向量按照所述分词结果进行拼接,得到每个词在所述字级别迭层膨胀卷积神经网络层的向量表示;
词语级别向量生成模块,将所述每个词在所述字级别迭层膨胀卷积神经网络层的向量表示与词级别特征,进行拼接,得到词语级别的向量表示;
词语级别向量处理模块,将所述词语级别的向量表示输入所述词级别迭层膨胀卷积神经网络层,得到每个词的隐含层表示;
识别分类模块,将所述词的隐含层表示输入softmax层,进行复杂实体的识别与分类。
上述的复杂实体抽取装置,其特征在于,所述词级别特征包括所述词中每个字的字级别向量和自定义标注格式特征。
上述的复杂实体抽取装置,其特征在于,所述字向量序列(X1,X2,…,Xt,…,XT)输入所述字级别迭层膨胀卷积神经网络层,得到字级别隐含层表达X;
然后将字向量Xt转化为向量it=D1 (0)Xt,Dσ (j)表示第j层膨胀卷积层,σ为膨胀宽度,第Lc膨胀宽度随着层数指数增长,初始输出为it,网络每一层的输出:
Figure BDA0002127030480000061
同时堆叠一层膨胀宽度为1的卷积层:
Figure BDA0002127030480000062
随后将Lc+1层网络看成一个块B(·),堆叠k层网络块:
bt (k)=B(bt (k-1)),
所述字级别迭层膨胀卷积神经网络层输出最后一个块;
根据所述分词结果,将属于同一个词的所述字级别迭层膨胀卷积神经网络层的输出进行拼接,得到每个词在所述字级别迭层膨胀卷积神经网络层的向量表示序列(h1,h2,…,ht’,…,hT’)。
上述的复杂实体抽取装置,其特征在于,将所述每个词在所述字级别迭层膨胀卷积神经网络层的向量表示序列(h1,h2,…,ht’,…,hT’)与所述词级别特征进行拼接,得到词语级别的向量表示(w1,w2,…,wt’,…,wT’);
然后将所述词语级别的向量表示(w1,w2,…,wt’,…,wT’)通过膨胀卷积层;
最后所述膨胀卷积网络块乘上转移矩阵W0,得到当前词在每一个类别下的打分:
Figure BDA0002127030480000063
为实现本发明的另一目的,本发明提供了一种文字处理器,包括上述任意一种复杂实体抽取装置。
为实现本发明的另一目的,本发明还提供了一种存储介质,用于存储执行上述任意一种复杂实体抽取方法的程序。
为实现本发明的另一目的,本发明还提供了一种文字处理系统,包括上述任意一种文字处理器。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
附图说明
图1为膨胀卷积示意图
图2为本发明的模型流程图
图3为MOTG自定义特征生成部分子流程图
图4为本发明的系统框架图
图5为本发明的模型详细介绍图
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,说明书中针对“一个实施例”、“实施例”、“示例实施例”等的引用,指的是描述的该实施例可包括特定的特征、结构或特性,但不必然包含这些特定特征、结构或特性。此外,这种表述并非指的是同一个实施例。进一步,在结合实施例描述特定的特征、结构或特性时,无论有没有明确的描述,已经表明将这样的特征、结构或特性结合到其它实施例中是在本领域技术人员的知识范围内的。
在说明书及后续的权利要求书中使用了某些词汇来指称特定模块、组件或部件,本领域普通技术的员应可理解,技术使用者或制造商可以不同的名词或术语来称呼同一个模块、组件或部件。本说明书及后续的权利要求书并不以名称的差异来作为区分模块、组件或部件的方式,而是以模块、组件或部件在功能上的差异来做为区分的准则。在通篇说明书及后续的权利要求项中所提及的“包括”和“包含”为一开放式的用语,故应解释成“包含但不限定于”。
此外,在下面的说明书和权利要求中,将提及许多术语,其应当被定义为具有以下含义。单数形式“一”和“所述”包括复数指代物,除非上下文另外明确规定。“可选的”或“可选地”表示随后描述的事件或情况可能发生或不发生,并且该描述包括事件发生的情况以及事件不发生的情况。
本发明的一个实施例中,使用基于自定义标注格式的迭层膨胀卷积神经网络IDCNN(Iterated Dilated Convolutional Neural Networks)进行中文实体识别。迭层膨胀卷积神经网络IDCNN(Iterated Dilated Convolutional Neural Networks)如图1所示,在传统CNN的滤波器基础上增加了一膨胀宽度,在滤波器作用中,输入矩阵的时候,输入矩阵中索引不能被膨胀宽度整除部分对应的信息被过滤掉,从而在滤波器参数数目不变的情况下捕捉到了更多输入信息。同时,膨胀宽度随着网络层数的增加呈指数增长,这样迭层膨胀卷积神经网络能够在参数数目线性增加的情况下,很快的捕捉到文本的全局信息。从而在保持卷积神经网络高效GPU计算优点的同时进行准确的命名实体识别。
针对复杂实体语义的丰富性和实体组成的复杂性,本发明在一个实施例中设计了一种MOTG的标注方式,将复杂实体中的词语构成分成4个部分,Model表示复杂实体产品名(型号名),该部分往往是由符号或者特殊字符组成,比如“华为P20手机”,“华为”,“P20”就是产品名,分别被标注为B-M,I-M;O表示非实体词;T表示触发词,往往是实体所属的类型,比如“华为P20手机”中的“手机”就是一个触发词,G表示基本修饰词,比如在设备实体“洋马AW82型收割机”中,“型”为一个基本修饰词。
假设实体产品名出现在普通文本中的概率很低,比如,“洋马AW82”这个产品名本身代表了一个实体。其一般都只会出现在实体词中,而在非实体文本中“洋马”,“AW82”都是稀有词。在这个假设下,使用词频信息为训练和预测文本预先提取MOTG特征。基本思想是,若一个词语出现在实体词中的频率和该词出现的词频的比值大于一个阈值,则我们将其预先标注为M。同时,我们根据已有的知识库,得到触发词词表和基本修饰词词表,将分别在两个词表中的词语预先标注为T和G。将预标注的结果作为MOTG特征输入到分类器中。
针对训练语料缺失的问题,同时为了验证模型的有效性,本发明的一个实施例中还构建了一个设备实体语料集。
本发明提出的复杂实体抽取方法包括以下步骤,如图2所示:
S100、未标注语料预处理,使用的未标注语料选自中文自由文本,使用Glove训练字级别的向量表示。
S200、基于知识库生成设备触发词词表和基本修饰词词表。
S300、基于词频相关信息,以及生成的设备触发词词表和基本修饰词词表对语料进行MOTG预标注;将字向量输入到字级别的IDCNN中,得到每一个字的隐含层表示。将字向量拼接,得到每一个词在字级别IDCNN层中的向量表示;提取待识别词的上下文特征,包括词向量特征和MOTG预标注结果。将两部分特征和字级别IDCNN层得到的词向量表示进行向量拼接。
S400、使用词语级别的IDCNN模型抽取实体,将5)中提取得到的特征按照语序依次输入模型,得到每个词的隐层表示,经过softmax分类层进行多分类,识别实体。
本发明提出了一种基于自定义标注格式(MOTG)迭层膨胀卷积神经网络的复杂实体抽取方法,整体框架如图4所示,主要包括训练数据生成,字向量训练,MOTG特征提取和IDCNN模块四个部分。
S100、训练数据生成主要包括语料采集,数据预处理,用自定义的MOTG格式标注实体以及训练集,测试集,验证集分割。其中,所使用的语料来自于爬虫爬取的相关领域的文档。数据预处理包括数据清洗,中文分句,中分分词,按照3:1:1的比例将标注语料划分为训练集,测试集和验证集,分别用于模型训练,调整超参和模型测试。
S200、从自由文本中生成字级别的Glove向量。
S300、MOTG特征提取部分,主要有四部分的工作,子流程图如图3所示:
S110、使用结巴分词对文本分词。
S120、MOTG词表构建:根据已有知识库构建设备触发词词库和基本修饰词词库。
S130、根据S3.1中分词得结果和S3.2中构建得词库预判断文本中的词属于T或者属于G,剩余词标注为O。
S140、依据一个词在训练语料标注出的实体词中出现的次数和出现总次数的比值来判断一个词是否应该被预标注为M。当比值小于阈值时,认为该词属于M。
S400、IDCNN模块为模型的主体部分,分为字级别IDCNN层和词级别IDCNN层,模型详细图如图5所示,字级别IDCNN部分的输入是一个含有T个字向量(X1,X2,…,Xt,…,XT)序列,其中Xt表示一个字向量,输出为一个每一个类别的分类打分序列ht,定义第j层膨胀卷积层为Dσ (j),其中σ为膨胀宽度,网络的第一层即为D1 (j),一个膨胀宽度为1的卷积层。第一层将输入序列中的每一个Xt为向量it
it=D1 (0)Xt
之后,第Lc膨胀宽度随着层数指数增长,初始输出为it,网络每一层的输出Ct (j)为:
Figure BDA0002127030480000101
最后堆叠一层膨胀宽度为1的卷积层,
Figure BDA0002127030480000102
我们把Lc+1层网络看成一个块B(·),堆叠k层网络块,
bt (k)=B(bt (k-1))
膨胀卷积示意图如图1所示,将最后一个块的输出看成字级别IDCNN的输出,根据分词结果将同属一个词的字级别的输出拼接,形成词语级别的IDCNN表示(h1,h2,…,ht’,…,hT’),将其与词语级别的MOTG特征,Glove词向量拼接后形成词语级别的表示(w1,w2,…,wt’,…,wT’),通过和字级别类似得一个膨胀卷积网络块,乘上转移矩阵W0,输出一个和类别数同维度的向量,即当前词在每一个类别下的打分。
ht’ (L’b)=W0(bt’ (L’b))
本发明在该数据集上的测试集上取得了86%的F1值,同时膨胀卷积网络模型在测试时间上比Bi-LSTM模型缩短了8倍。
本发明的一个实施例中,还揭示了一种复杂实体抽取装置,该装置设置于自定义标注格式的迭层膨胀卷积神经网络,包括:语料训练模块,用于从自由文本中采集语料,构建实体语料集,并对该语料进行预处理以提取自定义标注格式,分别形成训练集、测试集和/或验证集;字级别向量生成模块,用于将自由文本中的语料训练生成字级别向量;词级别特征生成模块,用于对自由文本中的语料进行自定义格式标注,生成词级别自定义特征;实体抽取模块,将所述字级别向量和词级别自定义特征输入所述迭层膨胀卷积神经网络,进行向量拼接,对所述自由文本进行复杂实体的识别分类。
在本发明的另一实施例中,还涉及一种文字处理器,包括上述任意一种复杂实体抽取装置,例如各种应用软件等。
在本发明的另一实施例中,本发明还提供了一种存储介质,用于存储执行上述任意一种复杂实体抽取方法的程序。
在本发明的具体实施例中,涉及的计算机程序包括适合于当计算机程序在计算机上运行时执行根据本发明方法的所有步骤的计算机程序代码部件。优选地,在计算机可读介质上体现计算机程序。
本发明的一个实施例中,还涉及一种文字处理系统,包括上述任意一种文字处理器。
本发明方法具有以下有益效果:一是充分利用复杂实体的特性,针对复杂实体采用新的MOTG标记方法,得到待识别实体基于词的分布式表达;二是引入词语级别和字级别的迭层膨胀卷积网络IDCNN,在保证抽取精度的同时大幅提升了实体抽取速度;三是构建了一个设备实体数据集,弥补了该领域实体数据集的空缺。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (15)

1.一种复杂实体抽取方法,该方法用于迭层膨胀卷积神经网络,该神经网络包括字级别迭层膨胀卷积神经网络层和词级别迭层膨胀卷积神经网络层,其特征在于,所述方法包括以下步骤:
语料生成步骤,用于构建实体语料集,以采集语料,并对该语料进行自定义格式标注,形成训练集、测试集和/或验证集;
字级别向量生成步骤,用于对所述语料进行预训练,生成字向量,并将该字向量输入所述字级别迭层膨胀卷积神经网络层,得到字级别向量;
自定义特征提取步骤,用于使用分词工具对自由文本进行分词,得到分词结果,并从自由文本中提取所述自定义格式标注的特征;
实体抽取步骤,将所述字级别向量进行拼接后,与词级别特征输入所述词级别迭层膨胀卷积神经网络层,并通过所述迭层膨胀卷积神经网络对所述自由文本进行复杂实体的识别分类,其中,所述词级别特征包括所述词中每个字的字级别向量和自定义标注格式特征;
其中,所述实体抽取步骤进一步包括:
步骤210,将所述字级别向量按照所述分词结果进行拼接,得到每个词在所述字级别迭层膨胀卷积神经网络层的向量表示;
步骤220,将所述每个词在所述字级别迭层膨胀卷积神经网络层的向量表示与词级别特征,进行拼接,得到词语级别的向量表示;
步骤230,将所述词语级别的向量表示输入词级别迭层膨胀卷积神经网络层,得到每个词的隐含层表示;
步骤240,将所述词的隐含层表示输入softmax层,进行复杂实体的识别与分类;
所述字级别向量进行拼接的步骤包括:
步骤211,将所述字向量序列(X1,X2,…,Xt,…,XT)输入所述字级别迭层膨胀卷积神经网络层,得到字级别隐含层表达X;
步骤212,将字向量Xt转化为向量it=D1 (0)Xt,Dσ (j)表示第j层膨胀卷积层,σ为膨胀宽度,第Lc膨胀宽度随着层数指数增长,初始输出为it,所述字级别迭层膨胀卷积神经网络每一层的输出为:
Figure FDA0003160304730000021
步骤213,堆叠一层膨胀宽度为1的卷积层:
Figure FDA0003160304730000022
步骤214,将Lc+1层网络看成一个块B(·),堆叠k层网络块:
bt (k)=B(bt (k-1)),
所述字级别迭层膨胀卷积神经网络层输出最后一个块;
步骤215,根据所述分词结果,将属于同一个词的所述字级别迭层膨胀卷积神经网络层的输出进行拼接,得到每个词在所述字级别迭层膨胀卷积神经网络层的向量表示序列(h1,h2,…,ht’,…,hT’)。
2.根据权利要求1所述的复杂实体抽取方法,其特征在于,所述迭层膨胀卷积神经网络是在卷积神经网络的滤波器上增加一膨胀宽度。
3.根据权利要求1所述的复杂实体抽取方法,其特征在于,所述自定义标注格式包括:
实体名称M,包括符号和/或特殊字符;
非实体词O;
触发词T;
基本修饰词G。
4.根据权利要求1所述的复杂实体抽取方法,其特征在于,所述自定义特征提取步骤进一步包括:
构建设备触发词词库和基本修饰词词库;
根据所述分词结果、所述设备触发词词库以及所述基本修饰词词库,标注出触发词T以及基本修饰词G,剩余词则标注为非实体词O;
判断所述分词结果中实体名称M,依据所述分词结果中各词在所述语料标注出的实体词中出现的次数和出现总次数的比值,判断该词是否应该被标注为实体名称M,当比值小于一阈值时,则将该词标注为实体名称M。
5.根据权利要求4所述的复杂实体抽取方法,其特征在于,所述迭层膨胀卷积神经网络,还包括:
softmax层,用于对复杂实体的识别与分类。
6.根据权利要求1所述的复杂实体抽取方法,其特征在于,所述词语级别的向量表示的形成步骤,还包括:
步骤221,将所述每个词在所述字级别迭层膨胀卷积神经网络层的向量表示序列(h1,h2,…,ht’,…,hT’)与所述词级别特征进行拼接,得到词语级别的向量表示(w1,w2,…,wt’,…,wT’);
步骤222,将所述词语级别的向量表示(w1,w2,…,wt’,…,wT’)通过膨胀卷积层;
步骤223,所述膨胀卷积层块乘上转移矩阵W0,得到当前词在每一个类别下的打分:
Figure FDA0003160304730000031
7.一种基于迭层膨胀卷积神经网络的复杂实体抽取装置,该迭层膨胀卷积神经网络包括字级别迭层膨胀卷积神经网络层和词级别迭层膨胀卷积神经网络层,其特征在于,该装置包括:
语料生成模块,用于构建实体语料集,以采集语料,并对该语料进行自定义格式标注,形成训练集、测试集和/或验证集;
字级别向量生成模块,用于对所述语料进行预训练,生成字向量,并将该字向量输入所述字级别迭层膨胀卷积神经网络层,得到字级别向量;
自定义特征提取模块,用于使用分词工具对自由文本进行分词,得到分词结果,从自由文本中提取所述自定义格式标注的特征;
实体抽取模块,将所述字级别向量进行拼接后,与词级别特征输入所述词级别迭层膨胀卷积神经网络层,并通过所述迭层膨胀卷积神经网络对所述自由文本进行复杂实体的识别分类,其中所述词级别特征包括所述词中每个字的字级别向量和自定义标注格式特征;
其中,所述实体抽取模块进一步包括:
词向量生成模块,将所述字级别向量按照所述分词结果进行拼接,得到每个词在所述字级别迭层膨胀卷积神经网络层的向量表示;
词语级别向量生成模块,将所述每个词在所述字级别迭层膨胀卷积神经网络层的向量表示与词级别特征,进行拼接,得到词语级别的向量表示;
词语级别向量处理模块,将所述词语级别的向量表示输入所述词级别迭层膨胀卷积神经网络层,得到每个词的隐含层表示;
识别分类模块,将所述词的隐含层表示输入softmax层,进行复杂实体的识别与分类;
所述字向量序列(X1,X2,…,Xt,…,XT)输入所述字级别迭层膨胀卷积神经网络层,得到字级别隐含层表达X;
然后将字向量Xt转化为向量it=D1 (0)Xt,Dσ (j)表示第j层膨胀卷积层,σ为膨胀宽度,第Lc膨胀宽度随着层数指数增长,初始输出为it,所述字级别迭层膨胀卷积神经网络每一层的输出:
Figure FDA0003160304730000041
同时堆叠一层膨胀宽度为1的卷积层:
Figure FDA0003160304730000042
随后将Lc+1层网络看成一个块B(·),堆叠k层网络块:
bt (k)=B(bt (k-1)),
所述字级别迭层膨胀卷积神经网络层输出最后一个块;
根据所述分词结果,将属于同一个词的所述字级别迭层膨胀卷积神经网络层的输出进行拼接,得到每个词在所述字级别迭层膨胀卷积神经网络层的向量表示序列(h1,h2,…,ht’,…,hT’)。
8.根据权利要求7所述的复杂实体抽取装置,其特征在于,所述迭层膨胀卷积神经网络是在卷积神经网络的滤波器上增加一膨胀宽度。
9.根据权利要求7所述的复杂实体抽取装置,其特征在于,所述自定义标注格式包括:
实体名称M,包括符号和/或特殊字符;
非实体词O;
触发词T;
基本修饰词G。
10.根据权利要求7所述的复杂实体抽取装置,其特征在于,所述自定义特征提取模块包括:
词库构建模块,构建设备触发词词库和基本修饰词词库;
特征标注模块,根据所述分词结果、所述设备触发词词库以及所述基本修饰词词库,标注出触发词T以及基本修饰词G,剩余词则标注为非实体词O;
实体名称判断模块,依据所述分词结果中各词在所述语料标注出的实体词中出现的次数和出现总次数的比值,判断该词是否应该被标注为实体名称M,当比值小于一阈值时,则将该词标注为实体名称M。
11.根据权利要求10所述的复杂实体抽取装置,其特征在于,所述迭层膨胀卷积神经网络,还包括:
Softmax层,用于对复杂实体的识别与分类。
12.根据权利要求7所述的复杂实体抽取装置,其特征在于,将所述每个词在所述字级别迭层膨胀卷积神经网络层的向量表示序列(h1,h2,…,ht’,…,hT’)与所述词级别特征进行拼接,得到词语级别的向量表示(w1,w2,…,wt’,…,wT’);
然后将所述词语级别的向量表示(w1,w2,…,wt’,…,wT’)通过膨胀卷积层;
最后所述膨胀卷积层乘上转移矩阵W0,得到当前词在每一个类别下的打分:
Figure FDA0003160304730000051
13.一种文本处理器,包括权利要求7~12任意一种所述复杂实体抽取装置。
14.一种存储介质,用于存储执行权利要求1~6任意一种所述复杂实体抽取方法的程序。
15.一种文本处理系统,包括如权利要求13所述的文本处理器。
CN201910625736.0A 2019-07-11 2019-07-11 一种复杂实体抽取方法、装置、介质及系统 Active CN110502742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910625736.0A CN110502742B (zh) 2019-07-11 2019-07-11 一种复杂实体抽取方法、装置、介质及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910625736.0A CN110502742B (zh) 2019-07-11 2019-07-11 一种复杂实体抽取方法、装置、介质及系统

Publications (2)

Publication Number Publication Date
CN110502742A CN110502742A (zh) 2019-11-26
CN110502742B true CN110502742B (zh) 2021-11-05

Family

ID=68585944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910625736.0A Active CN110502742B (zh) 2019-07-11 2019-07-11 一种复杂实体抽取方法、装置、介质及系统

Country Status (1)

Country Link
CN (1) CN110502742B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160033B (zh) * 2019-12-18 2024-02-27 车智互联(北京)科技有限公司 一种基于神经网络的命名实体识别方法、计算设备及存储介质
CN111738008B (zh) * 2020-07-20 2021-04-27 深圳赛安特技术服务有限公司 基于多层模型的实体识别方法、装置、设备及存储介质
CN112446219A (zh) * 2020-12-11 2021-03-05 四川长虹电器股份有限公司 一种中文请求文本意图分析方法
CN113468344B (zh) * 2021-09-01 2021-11-30 北京德风新征程科技有限公司 实体关系抽取方法、装置、电子设备和计算机可读介质
CN113963304B (zh) * 2021-12-20 2022-06-28 山东建筑大学 基于时序-空间图的跨模态视频时序动作定位方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740151A (zh) * 2018-12-23 2019-05-10 北京明朝万达科技股份有限公司 基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107844609A (zh) * 2017-12-14 2018-03-27 武汉理工大学 一种基于文体和词表的突发事件信息抽取方法及系统
CN109543181B (zh) * 2018-11-09 2023-01-31 中译语通科技股份有限公司 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN109670179B (zh) * 2018-12-20 2022-11-11 中山大学 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740151A (zh) * 2018-12-23 2019-05-10 北京明朝万达科技股份有限公司 基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法

Also Published As

Publication number Publication date
CN110502742A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
CN110502742B (zh) 一种复杂实体抽取方法、装置、介质及系统
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
US11941366B2 (en) Context-based multi-turn dialogue method and storage medium
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN110263325B (zh) 中文分词系统
CN110209806A (zh) 文本分类方法、文本分类装置及计算机可读存储介质
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
CN111222305A (zh) 一种信息结构化方法和装置
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN110362819A (zh) 基于卷积神经网络的文本情感分析方法
CN111274829B (zh) 一种利用跨语言信息的序列标注方法
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN110134950B (zh) 一种字词结合的文本自动校对方法
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN116050397B (zh) 一种长文本摘要生成方法、系统、设备及存储介质
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN112667782A (zh) 一种文本分类方法、装置、设备及存储介质
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN116049387A (zh) 一种基于图卷积的短文本分类方法、装置、介质
Celikyilmaz et al. A graph-based semi-supervised learning for question-answering
CN112667813A (zh) 用于裁判文书的敏感身份信息的识别方法
CN115269842A (zh) 一种智能标签生成方法、装置、计算机设备和存储介质
CN110968661A (zh) 事件抽取方法及系统、计算机可读存储介质及电子设备
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant