CN115270803A - 基于BERT并融合N-gram特征的实体抽取方法 - Google Patents
基于BERT并融合N-gram特征的实体抽取方法 Download PDFInfo
- Publication number
- CN115270803A CN115270803A CN202211205747.1A CN202211205747A CN115270803A CN 115270803 A CN115270803 A CN 115270803A CN 202211205747 A CN202211205747 A CN 202211205747A CN 115270803 A CN115270803 A CN 115270803A
- Authority
- CN
- China
- Prior art keywords
- gram
- character
- vector
- entity
- bert
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 128
- 238000012549 training Methods 0.000 claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 17
- 238000012546 transfer Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 238000012935 Averaging Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于BERT并融合N‑gram特征的实体抽取方法,包括步骤:将语料文本输入BERT预训练模型转换为字向量;基于语料文本构建N‑gram特征向量,所述N‑gram特征向量的维度与字向量的维度相同;将字向量和N‑gram特征向量进行融合,得到融合后的高维向量;将融合得到的高维向量经过一个全连接层后输入CRF模型中进行解码,得到语料文本中每个字符是否属于某一实体的概率分布。本发明基于BERT+CRF模型融合N‑gram特征向量,提取出来的高维向量能够包含更加丰富的特征,使模型拥有更加丰富的知识。
Description
技术领域
本发明涉及信息抽取技术领域,特别涉及一种基于BERT并融合N-gram特征的实体抽取方法。
背景技术
为了自动从大量的文本信息中抽取出所需要的实体信息,目前的实体抽取方法使用的基本都是BERT+CRF模型的方法,在BERT预训练模型的基础下进行微调,然后进行实体的抽取。
使用BERT+CRF模型进行实体抽取的能力主要取决于模型对文本信息特征的提取,其中BERT预训练模型的输入都是以单字为基础,经过多个Transformer encode模块,提取文本信息的高维特征,然后根据提取的文本特征对每个字进行实体类别分类。提取出的高维特征中蕴含的信息越丰富,则进行实体抽取时准确率越高。
但是中文的汉字之间都是会有一些联系的,割裂来看其中的文字是不能准确得到其中信息的。BERT预训练模型的结构中虽然有Self-Attention层的存在,能够一定程度上使单个汉字与其他汉字产生联系,但是这种联系是远远不够的。这就使得最终提取出来的高维特征中蕴含的信息不够丰富,影响对最终实体抽取的准确率。
发明内容
本发明的目的在于充分发挥文本数据的上下文信息,基于BERT预训练模型与N-gram特征进行融合后,能够较大程度的挖掘文本的信息,提高实体抽取的准确性,提供一种基于BERT并融合N-gram特征的实体抽取方法。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
基于BERT并融合N-gram特征的实体抽取方法,包括以下步骤:
步骤S1,将语料文本输入BERT预训练模型转换为字向量;
步骤S2,基于语料文本构建N-gram特征向量,所述N-gram特征向量的维度与字向量的维度相同;
步骤S3,将字向量和N-gram特征向量进行融合,得到融合后的高维向量;
步骤S4,将融合得到的高维向量经过一个全连接层后输入CRF模型中进行解码,得到语料文本中每个字符是否属于某一实体的概率分布。
所述将语料文本输入BERT预训练模型转换为字向量的步骤,包括:
将语料文本划分为若干条目标语句,使用BIO标注方法对每条目标语句中的实体部分和非实体部分进行标注,其中B表示实体的开始字符,I表示实体的非开始字符,O表示非实体字符;
将标注后的目标语句按照BERT预训练模型的词库字典转换为序列ID,并在目标语句的开始位置插入特殊字符CLS,在目标语句的结束位置插入特殊字符SEP,以及对每条目标语句配置segment embedding,segment embedding为与目标语句维度相同的全零矩阵;
将转换为序列ID的所有目标语句和对应的segment embedding输入BERT预训练模型中,BERT预训练模型根据序列ID在embedding层中进行查表,获得字向量。
所述基于语料文本构建N-gram特征向量的步骤,包括:
将语料文本划分为若干条目标语句,按照字符长度为N的滑动窗口切分目标语句,使得目标语句形成多个gram频度列表;
再对每个gram频度列表按照设定的阈值进行过滤,形成N-gram特征向量。
所述将字向量和N-gram特征向量进行融合,得到融合后的高维向量的步骤,包括:所述字向量与N-gram特征向量的维度相同,将字向量与N-gram特征向量相加后,计算平均,得到融合后的高维向量。
所述将融合得到的高维向量经过一个全连接层后输入CRF模型中进行解码,得到语料文本中每个字符是否属于某一实体的概率分布的步骤,包括:
将融合后的高维向量输入所述BERT预训练模型的Self-Attention层中,最终输出包含有特殊字符CLS和特殊字符SEP的每个字符的特征融合向量;
将所有融合特征向量输入CRF模型进行解码,所述CRF模型包括状态特征函数、转移特征函数;通过状态特征函数获取当前字符的实体标签,通过转移特征函数获取当前字符与相邻字符组合后的实体标签;
输出每个字符属于某一实体的概率分布。
与现有技术相比,本发明的有益效果:
本发明基于BERT+CRF模型融合N-gram特征向量,提取出来的高维向量能够包含更加丰富的特征,使模型拥有更加丰富的知识,相比于现有的BERT+CRF模型,本发明能够提取更加丰富的特征,提高实体抽取的能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明方法流程图;
图2为本发明构建N-gram特征向量流程图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
实施例:
本发明通过下述技术方案实现,如图1所示,基于BERT并融合N-gram特征的实体抽取方法,包括以下步骤:
步骤S1,将语料文本输入BERT预训练模型转换为字向量。
本步骤的字向量是指BERT预训练模型的embedding层输出的字向量,将语料文本按句划分为若干条目标语句,对目标语句中的每个字符都转换为字向量的形式。
具体来说,对目标语句的标注格式为BIO标注,其中B表示实体的开始字符,I表示实体的非开始字符,O表示非实体字符。比如“北京欢迎您”这句话对应的BIO标注即为“B IO O O”,这句话中“北京”即为实体。
然后将标注后的目标语句按照BERT预训练模型的字典转换为序列ID,这样可以方便在BERT预训练模型的embedding层的词库字典中查找相关语义向量。每条目标语句转换为序列ID后,在每条目标语句的开始位置插入特殊字符CLS,在结束位置插入特殊字符SEP,同时还需要对每条目标语句配置segment embedding,目的是为了区分不同的目标语句。由于每次输入都只有一条目标语句,所以配置的segment embedding为与每条目标语句的维度相同的全零矩阵。
最后将转换为序列ID的所有目标语句和对应的segment embedding输入BERT预训练模型中,BERT预训练模型根据词库字典在embedding层中对序列ID进行查表,从BERT预训练模型的embedding层获得字向量。
步骤S2,基于语料文本构建N-gram特征向量,所述N-gram特征向量的维度与字向量的维度相同。
使用语料文本构建N-gram特征向量,每个字符的N-gram特征向量都包含了基于该字符的丰富信息,使单个字符之间有了一定的联系。
具体来说,N-gram是一种基于统计语言模型的算法,基本思想是按照字符长度为N的滑动窗口切分目标语句,使得目标语句形成多个自节片段,也就是gram频度列表。如图2所示,再对每个gram频度列表按照设定的阈值进行过滤,如将gram频度阈值设定为3,那么则是将频度低于3的字节片段进行过滤,形成N-gram特征向量,每个N-gram特征向量就是一个特征向量空间,该特征向量空间的维度与字向量的维度相同,以便于后续进行融合。
构建N-gram特征向量的过程为:
对于Uni-gram(一元)来说,“我是中国人”这句话抽取的N-gram特征向量为“我/是/中/国/人”。
对于Bi-gram(二元)来说,“我是中国人”这句话抽取的N-gram特征向量为“我是/是中/中国/国人”。
对于Tri-gram(三元)来说,“我是中国人”这句话抽取的N-gram特征向量为“我是中/是中国/中国人”。
N-gram中N越大则一个gram频度列表中的字符就越多,也就是说一个gram频度列表中的字符数等于N,对性能也有更大的影响。如N越大时对下一个词出现的约束性信息越多,有更大的辨别力;N越小时在训练语料文本中出现的次数越多,有更高的可靠性。
在本实施例中适中选择N=3,使用整个语料文本进行N-gram特征提取,最终形成N-gram特征向量。
步骤S3,将字向量和N-gram特征向量进行融合,得到融合后的高维向量。
将步骤S1转换得到的字向量与步骤S2构建的N-gram特征向量进行融合,使得每个字向量包含更为丰富的语义信息。然后将包含有更为丰富的语义信息的字向量传入BERT预训练模型的Self-Attention等后面的层中,提取出融合后的高维向量。
具体来说,对于一段自然文本想要让机器和模型理解这段文本,那么就需要将自然文本处理成机器和模型能够读懂的形式,也就是向量的形式。向量的表现形式则是数字的形式,通过不同数字的组合,可以表现出不同的信息。因此每个向量都是包含有文本信息的,在步骤S1中转换的每个字向量就包含了当前字符的一些信息,而在步骤S2中构建的N-gram特征向量就不仅包含有当前字符的信息,还会包含当前字符的前后左右的一些信息,相比于字向量有着更加丰富的信息。因此将字向量与N-gram特征向量进行融合,来增加对应向量包含信息的丰富度,这样就可以更好的对当前目标语句进行表示。
向量融合的方式有两种,一种是拼接的方式,即将两个向量拼接在一起,这样会增加向量的维度,拼接后的向量维度为拼接前两个向量维度的和。第二种是求平均的方式,即将两个向量进行相加,然后在此基础上计算平均。第二种向量融合方式要求融合的两个向量的维度要完全一样,并且在融合之后的向量维度不变,依旧是融合之前的维度。
本实施例中,选择的向量融合方式是第二种,即对两个向量求平均的方式,具体来说,将语料文本转换为ID序列后,传入BERT预训练模型,经过embedding层输出字向量,与构建的N-gram特征向量使用求平均的方式进行向量融合,得到高维向量,使得融合后的高维向量能够包含更加丰富的文本特征。
需要说明的是,这里的N-gram特征向量是存储在一个embedding层中的,但该embedding层不是BERT预训练模型中的embedding层,只是它们的维度相同,输出的都是768维的向量。
步骤S4,将融合得到的高维向量经过一个全连接层后输入CRF模型中进行解码,得到语料文本中每个字符是否属于某一实体的概率分布。
基于步骤S3融合了N-gram特征向量的高维向量的语义表示,将其进行空间变换,输出的维度为所有类别的维度,然后转入CRF模型中,经过解码,最终得到目标语句的每个字符是否属于某一实体的概率分布。
具体来说,将融合后的高维向量继续传入BERT预训练模型的Self-Attention层中,输出包含有特殊字符CLS和特殊字符SEP的每个字符的融合特征向量。然后将所有融合特征向量输入CRF模型进行解码,CRF模型是条件随机场,能够在标记数据的时候考虑相邻数据的标记信息,CRF模型具有两类特征函数,即状态特征函数、转移特征函数,通过状态特征函数获取当前字符的实体标签,通过转移特征函数获取当前字符与相邻字符组合后的实体标签。最后输出每个字符是否属于某一实体的概率分布。
经过CRF模型之后就可以很好的输出结果进行约束,如“北京欢迎您”如果不经过CRF模型约束,出现“B B O O O”的可能性就会比较大,而经过CRF模型之后,就能很好的约束这种情况。
综上所述,本发明基于BERT+CRF模型融合N-gram特征向量,提取出来的高维向量能够包含更加丰富的特征,使模型拥有更加丰富的知识,相比于现有的BERT+CRF模型,本发明能够提取更加丰富的特征,提高实体抽取的能力。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (5)
1.基于BERT并融合N-gram特征的实体抽取方法,其特征在于:包括以下步骤:
步骤S1,将语料文本输入BERT预训练模型转换为字向量;
步骤S2,基于语料文本构建N-gram特征向量,所述N-gram特征向量的维度与字向量的维度相同;
步骤S3,将字向量和N-gram特征向量进行融合,得到融合后的高维向量;
步骤S4,将融合得到的高维向量经过一个全连接层后输入CRF模型中进行解码,得到语料文本中每个字符是否属于某一实体的概率分布。
2.根据权利要求1所述的基于BERT并融合N-gram特征的实体抽取方法,其特征在于:所述将语料文本输入BERT预训练模型转换为字向量的步骤,包括:
将语料文本划分为若干条目标语句,使用BIO标注方法对每条目标语句中的实体部分和非实体部分进行标注,其中B表示实体的开始字符,I表示实体的非开始字符,O表示非实体字符;
将标注后的目标语句按照BERT预训练模型的词库字典转换为序列ID,并在目标语句的开始位置插入特殊字符CLS,在目标语句的结束位置插入特殊字符SEP,以及对每条目标语句配置segment embedding,segment embedding为与目标语句维度相同的全零矩阵;
将转换为序列ID的所有目标语句和对应的segment embedding输入BERT预训练模型中,BERT预训练模型根据序列ID在embedding层中进行查表,获得字向量。
3.根据权利要求1所述的基于BERT并融合N-gram特征的实体抽取方法,其特征在于:所述基于语料文本构建N-gram特征向量的步骤,包括:
将语料文本划分为若干条目标语句,按照字符长度为N的滑动窗口切分目标语句,使得目标语句形成多个gram频度列表;
再对每个gram频度列表按照设定的阈值进行过滤,形成N-gram特征向量。
4.根据权利要求1所述的基于BERT并融合N-gram特征的实体抽取方法,其特征在于:所述将字向量和N-gram特征向量进行融合,得到融合后的高维向量的步骤,包括:所述字向量与N-gram特征向量的维度相同,将字向量与N-gram特征向量相加后,计算平均,得到融合后的高维向量。
5.根据权利要求2所述的基于BERT并融合N-gram特征的实体抽取方法,其特征在于:所述将融合得到的高维向量经过一个全连接层后输入CRF模型中进行解码,得到语料文本中每个字符是否属于某一实体的概率分布的步骤,包括:
将融合后的高维向量继续输入所述BERT预训练模型的Self-Attention层中,最终输出包含有特殊字符CLS和特殊字符SEP的每个字符的融合特征向量;
将所有融合特征向量输入CRF模型进行解码,所述CRF模型包括状态特征函数、转移特征函数;通过状态特征函数获取当前字符的实体标签,通过转移特征函数获取当前字符与相邻字符组合后的实体标签;
输出每个字符属于某一实体的概率分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211205747.1A CN115270803A (zh) | 2022-09-30 | 2022-09-30 | 基于BERT并融合N-gram特征的实体抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211205747.1A CN115270803A (zh) | 2022-09-30 | 2022-09-30 | 基于BERT并融合N-gram特征的实体抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115270803A true CN115270803A (zh) | 2022-11-01 |
Family
ID=83757924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211205747.1A Pending CN115270803A (zh) | 2022-09-30 | 2022-09-30 | 基于BERT并融合N-gram特征的实体抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115270803A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632997A (zh) * | 2020-12-14 | 2021-04-09 | 河北工程大学 | 基于BERT和Word2Vec向量融合的中文实体识别方法 |
CN112836046A (zh) * | 2021-01-13 | 2021-05-25 | 哈尔滨工程大学 | 一种四险一金领域政策法规文本实体识别方法 |
WO2022134071A1 (zh) * | 2020-12-25 | 2022-06-30 | 京东方科技集团股份有限公司 | 文本抽取方法及装置、计算机可读存储介质以及电子设备 |
CN114818717A (zh) * | 2022-05-25 | 2022-07-29 | 华侨大学 | 融合词汇和句法信息的中文命名实体识别方法及系统 |
CN114927177A (zh) * | 2022-05-27 | 2022-08-19 | 浙江工业大学 | 一种融合中文医疗领域特征的医疗实体识别方法及系统 |
-
2022
- 2022-09-30 CN CN202211205747.1A patent/CN115270803A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632997A (zh) * | 2020-12-14 | 2021-04-09 | 河北工程大学 | 基于BERT和Word2Vec向量融合的中文实体识别方法 |
WO2022134071A1 (zh) * | 2020-12-25 | 2022-06-30 | 京东方科技集团股份有限公司 | 文本抽取方法及装置、计算机可读存储介质以及电子设备 |
CN112836046A (zh) * | 2021-01-13 | 2021-05-25 | 哈尔滨工程大学 | 一种四险一金领域政策法规文本实体识别方法 |
CN114818717A (zh) * | 2022-05-25 | 2022-07-29 | 华侨大学 | 融合词汇和句法信息的中文命名实体识别方法及系统 |
CN114927177A (zh) * | 2022-05-27 | 2022-08-19 | 浙江工业大学 | 一种融合中文医疗领域特征的医疗实体识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kuru et al. | Charner: Character-level named entity recognition | |
CN109388795B (zh) | 一种命名实体识别方法、语言识别方法及系统 | |
JP5128629B2 (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
CN111291195B (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
CN106776548B (zh) | 一种文本的相似度计算的方法和装置 | |
CN112084796B (zh) | 一种基于Transformer深度学习模型的多语种地名词根汉译方法 | |
CN109977220B (zh) | 一种基于关键句和关键字的反向生成摘要的方法 | |
KR102043353B1 (ko) | 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법 | |
CN106383814A (zh) | 一种英文社交媒体短文本分词方法 | |
CN112329482A (zh) | 机器翻译方法、装置、电子设备和可读存储介质 | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
CN116502628A (zh) | 基于知识图谱的政务领域多阶段融合的文本纠错方法 | |
US11314922B1 (en) | System and method for generating regulatory content requirement descriptions | |
CN115099244A (zh) | 一种语音翻译的方法、训练语音翻译模型的方法及装置 | |
CN115017335A (zh) | 知识图谱构建方法和系统 | |
CN112765977B (zh) | 一种基于跨语言数据增强的分词方法及装置 | |
Shafi et al. | UNLT: Urdu natural language toolkit | |
CN113255331A (zh) | 文本纠错方法、装置及存储介质 | |
Labbé et al. | Is my automatic audio captioning system so bad? spider-max: a metric to consider several caption candidates | |
CN115270803A (zh) | 基于BERT并融合N-gram特征的实体抽取方法 | |
US20230419110A1 (en) | System and method for generating regulatory content requirement descriptions | |
KR100487716B1 (ko) | 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그장치 | |
CN114970538A (zh) | 文本纠错的方法及装置 | |
CN112487196A (zh) | 一种训练关系抽取模型并抽取嵌套命名实体关系的方法 | |
Pan et al. | Named entity recognition from spoken documents using global evidences and external knowledge sources with applications on mandarin chinese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221101 |
|
RJ01 | Rejection of invention patent application after publication |