CN112949637A - 基于idcnn和注意力机制的招投标文本实体识别方法 - Google Patents
基于idcnn和注意力机制的招投标文本实体识别方法 Download PDFInfo
- Publication number
- CN112949637A CN112949637A CN202110525979.4A CN202110525979A CN112949637A CN 112949637 A CN112949637 A CN 112949637A CN 202110525979 A CN202110525979 A CN 202110525979A CN 112949637 A CN112949637 A CN 112949637A
- Authority
- CN
- China
- Prior art keywords
- layer
- idcnn
- text
- vector
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000007246 mechanism Effects 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 84
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 238000013507 mapping Methods 0.000 claims abstract description 3
- 230000008569 process Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000005096 rolling process Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 238000012805 post-processing Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于IDCNN和注意力机制的招投标文本实体识别方法,具体包括如下步骤:S1:构建嵌入层,以字为单位,将文本中的每个字符映射为向量,得到字向量;S2:计算文本中每个字符的位置向量,得到位置向量;S3:将得到的字向量和位置向量进行拼接,作为嵌入层的输出;S4:构建IDCNN层,将嵌入层的输出输入IDCNN层,进行迭代计算后输出;S5:构建注意力层,将IDCNN层的输出输入至注意力层进行计算并输出;S6:构建CRF层,将注意力层的输出输入CRF层后,计算得到每个字符的标签的概率,得到预测结果。本发明将字向量与位置向量拼接,让模型在学习到语义信息的同时捕获到实体间的依赖关系。
Description
技术领域
本发明涉及文本数据处理领域、自然语言处理领域,尤其涉及一种基于IDCNN和注意力机制的招投标文本实体识别方法。
背景技术
命名实体识别是自然语言处理的重要子任务之一,目前已被广泛应用在了社会生活的方方面面,同样,在招投标相关工作中,命名实体识别技术也发挥着重要的作用。在进行招标、投标的过程中,命名实体识别技术往往被用来提取招投标文本数据中的关键信息,如提取招投标数据中的“项目名称”、“预算金额”、“成交金额”等实体。通过对这些关键信息进行提取,能够辅助招标机构和投标机构进行相应的决策,提高招投标的效果。
常用的命名实体识别方法主要有基于规则的方法和基于深度学习的方法。基于规则的方法需要人工对文本的特点进行分析,设计出合适的规则来对文本中的实体进行提取。但这种方法最终的效果受限于规则的质量,若制定的规则有缺陷,则最终实体识别的效果也不佳。基于深度学习的方法可以自动提取文本中的特征,无需进行复杂的提取特征的工程,而且命名实体识别的效果和鲁棒性要明显好于基于规则的方法。因此目前基于深度学习的方法逐渐成为了命名实体识别的主流方法。
虽然目前基于深度学习的方法成为了命名实体识别的主流方法,但目前用深度学习方法针对招投标数据进行实体识别的研究仍较少,且由于招投标数据的特殊性,在对其进行实体识别的过程中往往面临着3个问题:
常见的中文命名实体识别方法在对文本进行向量化时,往往只是简单地将文本转化为词向量,没有考虑到实体间的依赖关系。而在招投标文本数据集中,一方面,由于文本普遍长度较长,且语境复杂,在进行实体识别任务时会出现一词多义的问题,同一个词可能会被识别为多种实体,单纯使用词向量对文本进行表示效果不佳;另一方面,在招投标文本数据待提取的24个实体中,有较多的实体在文本数据中存在着较强的依赖关系,单纯使用词向量进行文本向量化不能很好地让模型捕获到实体间的依赖关系。
常见的中文命名实体识别方法往往只使用了单一的深度学习模型,而单一的深度学习模型往往将文本中提取出的每一个特征视为同等重要。而事实上招投标文本数据集由于文本较长,其中存在着大量无用的噪声信息,因此将提取出的特征视为同等重要无疑制约了实体识别模型精度的提高。
常见的中文命名实体识别方法最终的效果往往仅依靠模型的精度,而在对招投标数据进行实体识别的过程中,由于数据具有长度长、语境复杂、待识别实体种类多、实体类型相似等特点,仅通过模型来预测容易出现某些字段有多个预测结果而其相似字段没有预测结果的问题,造成最终实体识别精度不高。
发明内容
本发明的目的是在招投标文本实体识别任务中提出了一个基于IDCNN和注意力机制的招投标文本实体识别方法。该方法首先在文本向量化处理过程中,将字向量与位置向量拼接来对文本进行向量化表示,让模型在学习到语义信息的同时捕获到实体间的依赖关系;其次,该方法使用IDCNN和注意力机制相结合的方法来构建模型,降低了模型学习过程中无用特征对模型的影响;最后,该方法设计了模型后处理机制,通过设定规则的方式对模型的结果进行优化,从而提高了最终实体识别的精度。
为达到上述目的而采用了一种基于IDCNN和注意力机制的招投标文本实体识别方法,具体包括如下步骤:
S1:构建嵌入层,以字为单位,将文本中的每个字符映射为向量,得到字向量;
S2:计算文本中每个字符的位置向量,得到位置向量;
S3:将得到的字向量和位置向量进行拼接,作为嵌入层的输出;
S4:构建IDCNN层,将嵌入层的输出输入IDCNN层,进行迭代计算后输出;
S5:构建注意力层,将IDCNN层的输出输入至注意力层进行计算并输出;
S6:构建CRF层,将注意力层的输出输入CRF层后,计算得到每个字符的标签的概率,得到预测结果。
作为本发明基于IDCNN和注意力机制的招投标文本实体识别方法进一步的改进,S1中:
使用Word2Vec中的Skip-gram模型计算得到定长的字向量,对于一个文本序列,将文本中每个字的字向量拼接起来,得到整个文本序列的字向量表示,具体如公式(1)所示:
S=C 1⊕C 2⊕C 3⊕...⊕C n (1)
其中n为文本序列中字的个数,C i (i=1,2,3,...,n)为文本中第i个字的字向量,S则为文本序列的字向量表示。
作为本发明基于IDCNN和注意力机制的招投标文本实体识别方法进一步的改进,S2中:
使用正弦、余弦函数来计算相应的位置向量,具体如公式(2)、(3)所示:
U i,2m =Sin(i/100002m/d ) (2)
U i,2m+1=Cos(i/100002m/d ) (3)
其中d表示位置向量的维度,i表示字符在文本中的位置,m表示字符位置向量的维度位置,2m即表示位置向量的偶数位,2m+1即表示位置向量的奇数位;
文本中第i个字符的位置向量即如公式(4)所示:
P i =[U i,0,U i,1,U i,2,...,U i,d-1] (4)
作为本发明基于IDCNN和注意力机制的招投标文本实体识别方法进一步的改进,S3中:
字向量和位置向量拼接,具体如公式(5)所示:
F i =[C i ,P i ] (5)
作为本发明基于IDCNN和注意力机制的招投标文本实体识别方法进一步的改进,S4具体包括:
S4.1:IDCNN层具有多个膨胀卷积块,利用多个膨胀卷积块对嵌入层的输出进行迭代计算;
S4.2:将多个膨胀卷积块的输出进行拼接,得到最终的输出。
作为本发明基于IDCNN和注意力机制的招投标文本实体识别方法进一步的改进,S4.1中:
每个膨胀卷积块包含多个膨胀卷积层,能够对输入进行多次迭代卷积计算;假设嵌入层输出的向量表示为F,则每个膨胀卷积块的计算原理如公式(6)、(7)所示:
C (1)=D ᵟ (0) F (6)
C (l+1)=r(D ᵟ (l) C (l)) (7)
其中D ᵟ (l)表示第l个膨胀卷积层,其膨胀距离为ᵟ;r()表示ReLU激活函数;通过迭代计算得到最终膨胀卷积块的输出。
作为本发明基于IDCNN和注意力机制的招投标文本实体识别方法进一步的改进,S4.2中:
假设第j个膨胀卷积块的输出为H j ,则计算最终IDCNN层的输出的原理如公式(8)、(9)所示:
H=H 1⊕H 2⊕...⊕H j ⊕...⊕H k (8)
H'=dropout(H) (9)
其中,k为膨胀卷积块的数量,H'为最终IDCNN层的输出。
作为本发明基于IDCNN和注意力机制的招投标文本实体识别方法进一步的改进,S5中:
假设注意力层的输入为H'=[h 1,h 2,...,h q ],则每一个输入h r(r=1,2,3,...,q)的注意力权重α r 的计算过程如公式(10)、(11)所示:
u r =tanh(Wh r +b) (10)
其中W为权重矩阵,b为偏置;最终将注意力权重α r 与输入h r ,进行加权求和即可得到最终注意力层输出的特征表示V,具体如公式(12)所示:
作为本发明基于IDCNN和注意力机制的招投标文本实体识别方法进一步的改进,S6中:
假设给定的输入序列为x=[x 1,x 2,...,x T],对应的标签序列为y=[y1,y2,...,yT],Y(x)是所有标签的集合,则具体的计算原理如公式(13)所示:
其中f(y t-1 ,y t ,x)用于计算y t-1到y t 的转移分数,最终的优化目标为最大化P(y|x)。
作为本发明基于IDCNN和注意力机制的招投标文本实体识别方法进一步的改进,还包括:
S7:在对预测结果进行验证后,对易错、难识别出的实体设置提取的规则,并将规则转化为相应的正则表达式;
S8:将用规则提取出的实体与S6中预测出的实体进行比对,若S6中未提取出某类型实体,结果为空,而用规则提取出了实体,则最终使用规则提取的结果;或S6中与规则均提取出了多个实体,则取两者共同的结果,其余情况均以S6中预测结果为最终结果。
本发明提出了一种基于IDCNN和注意力机制的招投标文本实体识别方法。本发明在对招投标文本进行编码时引入了位置向量,通过将位置向量与字向量进行拼接,让模型在学习到语义信息的同时捕获实体间的依赖关系,从而提高模型的精度。本方法将IDCNN和注意力机制相结合来进行实体识别,通过注意力机制为模型提取的每一个特征赋予权重,减小无效特征对模型进行实体识别的影响,提高了模型的精度。本方法设置了规则后处理机制,能够利用规则对模型预测结果进行进一步的优化,从而提高最终实体识别的精度。经实验表明,使用本发明提出的方法能够在招投标文本实体识别任务中取得较好的效果。
在本发明的方法中,使用将字向量与位置向量进行拼接的方法对文本进行向量化处理,在避免一词多义问题的同时让模型捕获到实体间的依赖关系,从而提高模型进行实体识别的精度。
在本发明的方法中,在IDCNN的基础上加入了注意力机制,通过注意力机制能够为IDCNN提取出的每一个特征赋予一个权重,对提取到的有效特征进行放大,同时减小无效特征对模型的影响,从而提高模型进行实体识别的精度。
附图说明
图1为基于IDCNN和注意力机制的招投标文本实体识别方法流程。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、 “上”、“下”、 “左”、 “右”、 “竖直”、“水平”、 “内”、 “外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“第一”、 “第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性;此外,除非另有明确的规定和限定,术语“安装”、 “相连”、 “连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
1.1嵌入层
一方面,招投标文本数据集中存在一词多义的问题,同一个词可能会被识别为多种实体,从而造成最终结果的错误;另一方面,在待提取的24个实体中,有较多的实体在文本数据中存在着较强的依赖关系,如实体“项目编号”往往出现在实体“项目名称”之后,实体“招标单位联系人”和“招标单位联系电话”往往出现在实体“招标单位”之后。考虑到以上两方面的情况,本发明在模型的嵌入层中,采用将字向量和位置向量进行拼接的方法对文本进行向量化处理。
文本向量化的具体步骤:
步骤一:以字为单位,将文本中的每个字映射为向量。本发明使用Word2Vec中的Skip-gram模型计算得到定长的字向量。对于一个文本序列,将文本中每个字的字向量拼接起来,就可以得到整个文本序列的字向量表示。具体如公式(1)所示:
S=C 1⊕C 2⊕C 3⊕...⊕C n (1)
其中n为文本序列中字的个数,C i (i=1,2,3,...,n)为文本中第i个字的字向量,S则为文本序列的字向量表示。
步骤二:计算位置向量。在将数据输入模型前,需要对其计算位置向量,从而保存每个字在文本序列中的位置和排列顺序信息。本发明使用正弦、余弦函数来计算相应的位置向量。具体如公式(2)、(3)所示:
U i,2m =Sin(i/100002m/d ) (2)
U i,2m+1=Cos(i/100002m/d ) (3)
其中d表示位置向量的维度,i表示字符在文本中的位置,m表示字符位置向量的维度位置,2m即表示位置向量的偶数位,2m+1即表示位置向量的奇数位。
文本中第i个字符的位置向量即如公式(4)所示:
P i =[U i,0,U i,1,U i,2,...,U i,d-1] (4)
步骤三:将得到的字向量和位置向量进行拼接。在得到字向量和位置向量后,本发明将字向量和位置向量拼接起来作为模型的输入。具体如公式(5)所示:
F i =[C i ,P i ] (5)
优点:在招投标文本实体识别任务中,需要识别的实体数量较多,且部分实体间存在着一定的依赖关系。相比于单纯使用字向量,通过将字向量与位置向量拼接的方法能够让模型在学习到语义信息的同时捕获实体间的依赖关系,从而提高模型进行实体识别的精度。
1.2 IDCNN层
在将文本进行向量化处理后,本发明将嵌入层的输出输入到IDCNN层中进行处理。
步骤一:利用多个膨胀卷积块对嵌入层的输出进行迭代计算。IDCNN层具有多个膨胀卷积块,每个膨胀卷积块包含多个膨胀卷积层,能够对输入进行多次迭代卷积计算。假设嵌入层输出的向量表示为F,则每个膨胀卷积块的计算原理如公式(6)、(7)所示:
C (1)=D ᵟ (0) F (6)
C (l+1)=r(D ᵟ (l) C (l)) (7)
其中D ᵟ (l)表示第l个膨胀卷积层,其膨胀距离为ᵟ;r()表示ReLU激活函数;通过迭代计算得到最终膨胀卷积块的输出。
步骤二:将多个膨胀卷积块的输出进行拼接,得到最终的输出。假设第j个膨胀卷积块的输出为H j ,则计算最终IDCNN层的输出的原理如公式(8)、(9)所示:
H=H 1⊕H 2⊕...⊕H j ⊕...⊕H k (8)
H'=dropout(H) (9)
其中,k为膨胀卷积块的数量,H'为最终IDCNN层的输出。
优点:在招投标文本实体识别任务中,本发明所使用的数据集中所包含的文本均为长文本。IDCNN相较于传统的卷积神经网络加大了感受野,让每个卷积输出都包含较大范围的信息;同时它能够加速GPU并行,减少训练时间,在招投标文本实体识别任务中具有更好的性能。
1.3 注意力层
在获取到IDCNN层的输出后,本发明将其输入到注意力层中进行计算。假设注意力层的输入为H'=[h 1,h 2,...,h q ],则每一个输入h r(r=1,2,3,...,q)的注意力权重α r 的计算过程如公式(10)、(11)所示:
u r =tanh(Wh r +b) (10)
其中W为权重矩阵,b为偏置。最终将注意力权重α r 与输入h r ,进行加权求和即可得到最终注意力层输出的特征表示V,具体如公式(12)所示:
由于招投标文本数据大多数为长文本,通过注意力机制能够为模型提取的每一个特征赋予权重,减小无效特征对模型进行实体识别的影响,相较于不加入注意力机制的IDCNN效果要更好。
1.4 CRF层
在得到注意力层输出的特征表示后,将其输入CRF层后即可计算得到每个字符的标签的概率。假设给定的输入序列为x=[x 1,x 2,...,x T],对应的标签序列为y=[y1,y2,...,yT],Y(x)是所有标签的集合,则具体的计算原理如公式(13)所示:
其中f(y t-1 ,y t ,x)用于计算y t-1到y t 的转移分数,最终的优化目标为最大化P(y|x)。
1.5规则后处理
由于招投标文本数据集中大多数数据是长文本,语境较为复杂,且有部分实体在文本中的语义相似,如实体“代理机构联系人”和“招标机构联系人”、“投标开始时间”和“开标时间”、“中标单位”和“中标联合单位”等,仅通过模型来进行实体识别容易出现某些字段有多个预测结果而其相似字段没有预测结果的问题。因此本发明设计了规则后处理模块,利用人工设定的规则对模型的预测结果进行补全和校对,从而提高最终实体识别的精度。具体步骤如下:
步骤一:在对模型预测结果进行验证后,请相关专家有针对性地对模型易错、难识别出的实体设置提取的规则,并将规则转化为相应的正则表达式,方便后续来从文本中提取相应的字段。
步骤二:将用规则提取出的实体与模型预测出的实体进行比对。如果模型未提取出某类型实体,结果为空,而用规则提取出了实体,则最终使用规则提取的结果;如果模型与规则均提取出了多个实体,则取两者共同的结果;其余情况均以模型预测结果为最终结果。
优点:通过规则后处理方式能有效解决因数据特殊性导致模型预测错误的问题,且利用规则来进行实体抽取耗时较少,能够在提高最终实体识别精度的同时保证整体处理流程的效率不受到大的影响。
在本发明的方法中,根据招投标文本数据集中文本数据的特点以及模型测试结果的缺陷,设置了相应的规则对模型预测的结果进行补全和校对,通过这种规则后处理机制对模型预测结果进行了优化,从而提升了最终实体识别的精度。
经实验表明,本发明所提出的基于IDCNN和注意力机制的招投标文本实体识别方法在招投标文本数据集上能够取得较好的效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围之内。
Claims (10)
1.一种基于IDCNN和注意力机制的招投标文本实体识别方法,其特征在于,具体包括如下步骤:
S1:构建嵌入层,以字为单位,将文本中的每个字符映射为向量,得到字向量;
S2:计算文本中每个字符的位置向量,得到位置向量;
S3:将得到的字向量和位置向量进行拼接,作为嵌入层的输出;
S4:构建IDCNN层,将嵌入层的输出输入IDCNN层,进行迭代计算后输出;
S5:构建注意力层,将IDCNN层的输出输入至注意力层进行计算并输出;
S6:构建CRF层,将注意力层的输出输入CRF层后,计算得到每个字符的标签的概率,得到预测结果。
2.根据权利要求1所述的基于IDCNN和注意力机制的招投标文本实体识别方法,其特征在于,S1中:
使用Word2Vec中的Skip-gram模型计算得到定长的字向量,对于一个文本序列,将文本中每个字的字向量拼接起来,得到整个文本序列的字向量表示,具体如公式(1)所示:
S=C 1⊕C 2⊕C 3⊕...⊕C n (1)
其中n为文本序列中字的个数,C i (i=1,2,3,...,n)为文本中第i个字的字向量,S则为文本序列的字向量表示。
3.根据权利要求2所述的基于IDCNN和注意力机制的招投标文本实体识别方法,其特征在于,S2中:
使用正弦、余弦函数来计算相应的位置向量,具体如公式(2)、(3)所示:
U i,2m =Sin(i/100002m/d ) (2)
U i,2m+1=Cos(i/100002m/d ) (3)
其中d表示位置向量的维度,i表示字符在文本中的位置,m表示字符位置向量的维度位置,2m即表示位置向量的偶数位,2m+1即表示位置向量的奇数位;
文本中第i个字的位置向量即如公式(4)所示:
P i =[U i,0,U i,1,U i,2,...,U i,d-1] (4)。
4.根据权利要求3所述的基于IDCNN和注意力机制的招投标文本实体识别方法,其特征在于,S3中:
字向量和位置向量拼接,具体如公式(5)所示:
F i =[C i ,P i ] (5)。
5.根据权利要求4所述的基于IDCNN和注意力机制的招投标文本实体识别方法,其特征在于,S4具体包括:
S4.1:IDCNN层具有多个膨胀卷积块,利用多个膨胀卷积块对嵌入层的输出进行迭代计算;
S4.2:将多个膨胀卷积块的输出进行拼接,得到最终的输出。
6.根据权利要求5所述的基于IDCNN和注意力机制的招投标文本实体识别方法,其特征在于,S4.1中:
每个膨胀卷积块包含多个膨胀卷积层,能够对输入进行多次迭代卷积计算;假设嵌入层输出的向量表示为F,则每个膨胀卷积块的计算原理如公式(6)、(7)所示:
C (1)=D ᵟ (0) F (6)
C (l+1)=r(D ᵟ (l) C (l)) (7)
其中D ᵟ (l)表示第l个膨胀卷积层,其膨胀距离为ᵟ;r()表示ReLU激活函数;通过迭代计算得到最终膨胀卷积块的输出。
7.根据权利要求5所述的基于IDCNN和注意力机制的招投标文本实体识别方法,其特征在于,S4.2中:
假设第j个膨胀卷积块的输出为H j ,则计算最终IDCNN层的输出的原理如公式(8)、(9)所示:
H=H 1⊕H 2⊕...⊕H j ⊕...⊕H k (8)
H'=dropout(H) (9)
其中,k为膨胀卷积块的数量,H'为最终IDCNN层的输出。
10.根据权利要求1所述的基于IDCNN和注意力机制的招投标文本实体识别方法,其特征在于,还包括:
S7:在对预测结果进行验证后,对易错、难识别出的实体设置提取的规则,并将规则转化为相应的正则表达式;
S8:将用规则提取出的实体与S6中预测出的实体进行比对,若S6中未提取出某类型实体,结果为空,而用规则提取出了实体,则最终使用规则提取的结果;或S6中与规则均提取出了多个实体,则取两者共同的结果,其余情况均以S6中预测结果为最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110525979.4A CN112949637A (zh) | 2021-05-14 | 2021-05-14 | 基于idcnn和注意力机制的招投标文本实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110525979.4A CN112949637A (zh) | 2021-05-14 | 2021-05-14 | 基于idcnn和注意力机制的招投标文本实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112949637A true CN112949637A (zh) | 2021-06-11 |
Family
ID=76233857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110525979.4A Pending CN112949637A (zh) | 2021-05-14 | 2021-05-14 | 基于idcnn和注意力机制的招投标文本实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112949637A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836308A (zh) * | 2021-11-26 | 2021-12-24 | 中南大学 | 网络大数据长文本多标签分类方法、系统、设备及介质 |
CN113971404A (zh) * | 2021-10-29 | 2022-01-25 | 中南民族大学 | 一种基于解耦注意力的文物安全命名实体识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086423A (zh) * | 2018-08-08 | 2018-12-25 | 北京神州泰岳软件股份有限公司 | 一种文本匹配方法及装置 |
CN109859760A (zh) * | 2019-02-19 | 2019-06-07 | 成都富王科技有限公司 | 基于深度学习的电话机器人语音识别结果校正方法 |
CN109977213A (zh) * | 2019-03-29 | 2019-07-05 | 南京邮电大学 | 一种面向智能问答系统的最优答案选择方法 |
CN110781393A (zh) * | 2019-10-23 | 2020-02-11 | 中南大学 | 基于图模型和膨胀卷积神经网络的交通事件要素抽取算法 |
CN111680519A (zh) * | 2020-04-28 | 2020-09-18 | 平安科技(深圳)有限公司 | 基于降维桶模型的文本翻译方法及装置 |
CN112446219A (zh) * | 2020-12-11 | 2021-03-05 | 四川长虹电器股份有限公司 | 一种中文请求文本意图分析方法 |
CN112632256A (zh) * | 2020-12-29 | 2021-04-09 | 平安科技(深圳)有限公司 | 基于问答系统的信息查询方法、装置、计算机设备和介质 |
CN112733541A (zh) * | 2021-01-06 | 2021-04-30 | 重庆邮电大学 | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 |
-
2021
- 2021-05-14 CN CN202110525979.4A patent/CN112949637A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086423A (zh) * | 2018-08-08 | 2018-12-25 | 北京神州泰岳软件股份有限公司 | 一种文本匹配方法及装置 |
CN109859760A (zh) * | 2019-02-19 | 2019-06-07 | 成都富王科技有限公司 | 基于深度学习的电话机器人语音识别结果校正方法 |
CN109977213A (zh) * | 2019-03-29 | 2019-07-05 | 南京邮电大学 | 一种面向智能问答系统的最优答案选择方法 |
CN110781393A (zh) * | 2019-10-23 | 2020-02-11 | 中南大学 | 基于图模型和膨胀卷积神经网络的交通事件要素抽取算法 |
CN111680519A (zh) * | 2020-04-28 | 2020-09-18 | 平安科技(深圳)有限公司 | 基于降维桶模型的文本翻译方法及装置 |
CN112446219A (zh) * | 2020-12-11 | 2021-03-05 | 四川长虹电器股份有限公司 | 一种中文请求文本意图分析方法 |
CN112632256A (zh) * | 2020-12-29 | 2021-04-09 | 平安科技(深圳)有限公司 | 基于问答系统的信息查询方法、装置、计算机设备和介质 |
CN112733541A (zh) * | 2021-01-06 | 2021-04-30 | 重庆邮电大学 | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 |
Non-Patent Citations (2)
Title |
---|
吕江海 等;: "《基于膨胀卷积迭代与注意力机制的实体名识别方法》", 《计算机工程》 * |
李妮 等;: "《基于BERT-IDCNN-CRF 的中文命名实体识别方法》", 《山东大学学报(理学版)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113971404A (zh) * | 2021-10-29 | 2022-01-25 | 中南民族大学 | 一种基于解耦注意力的文物安全命名实体识别方法 |
CN113836308A (zh) * | 2021-11-26 | 2021-12-24 | 中南大学 | 网络大数据长文本多标签分类方法、系统、设备及介质 |
CN113836308B (zh) * | 2021-11-26 | 2022-02-18 | 中南大学 | 网络大数据长文本多标签分类方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN111061843B (zh) | 一种知识图谱引导的假新闻检测方法 | |
CN110377903B (zh) | 一种句子级实体和关系联合抽取方法 | |
CN116127953B (zh) | 一种基于对比学习的中文拼写纠错方法、装置和介质 | |
CN112765370B (zh) | 知识图谱的实体对齐方法、装置、计算机设备和存储介质 | |
WO2021208727A1 (zh) | 基于人工智能的文本错误检测方法、装置、计算机设备 | |
CN113593661B (zh) | 临床术语标准化方法、装置、电子设备及存储介质 | |
CN113204611A (zh) | 建立阅读理解模型的方法、阅读理解方法及对应装置 | |
CN112949637A (zh) | 基于idcnn和注意力机制的招投标文本实体识别方法 | |
CN112069825B (zh) | 面向警情笔录数据的实体关系联合抽取方法 | |
CN112612871A (zh) | 一种基于序列生成模型的多事件检测方法 | |
CN112200664A (zh) | 基于ernie模型和dcnn模型的还款预测方法 | |
CN117151222B (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN112926323B (zh) | 基于多级残差卷积与注意力机制的中文命名实体识别方法 | |
CN113191150B (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN111191035B (zh) | 一种识别肺癌临床数据库文本实体的方法及装置 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN114741487B (zh) | 基于图文语义嵌入的图文检索方法及系统 | |
CN112651590B (zh) | 一种指令处理流程推荐的方法 | |
CN114860945A (zh) | 基于规则信息的高质量噪音检测方法与装置 | |
CN113836297A (zh) | 文本情感分析模型的训练方法及装置 | |
CN115146589A (zh) | 文本处理方法、装置、介质以及电子设备 | |
CN117009532B (zh) | 语义类型识别方法、装置、计算机可读介质及电子设备 | |
CN113657103B (zh) | 一种基于ner的非标准中文快递寄件信息识别方法及系统 | |
CN114580372B (zh) | 文本处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |