CN112101028B - 一种多特征双向门控领域专家实体抽取方法及系统 - Google Patents

一种多特征双向门控领域专家实体抽取方法及系统 Download PDF

Info

Publication number
CN112101028B
CN112101028B CN202010824303.0A CN202010824303A CN112101028B CN 112101028 B CN112101028 B CN 112101028B CN 202010824303 A CN202010824303 A CN 202010824303A CN 112101028 B CN112101028 B CN 112101028B
Authority
CN
China
Prior art keywords
corpus
entity
expert
domain
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010824303.0A
Other languages
English (en)
Other versions
CN112101028A (zh
Inventor
李翔
张柯文
朱全银
马甲林
王媛媛
方强强
丁行硕
成洁怡
沈天宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202010824303.0A priority Critical patent/CN112101028B/zh
Publication of CN112101028A publication Critical patent/CN112101028A/zh
Application granted granted Critical
Publication of CN112101028B publication Critical patent/CN112101028B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种多特征双向门控领域专家实体抽取方法及系统。该方法首先通过构建领域专家语料库以训练实体抽取模型;接着,使用BERT方法进行字嵌入表示,对语料库专业领域词汇构造要素进行特征分析并提取边界特征;然后,利用双向门控神经网络和注意力机制有效获取特定词语长距离依赖关系;最后,结合条件随机场模型实现命名实体识别,将抽取后的信息建立高质量的实体信息索引项返还WEB应用系统。本发明方法可有效抽取领域专家信息实体,充分利用文本字嵌入特征、边界特征以及上下文特征以获得更好的NER性能,从而解决人工特征提取成本高和专业新词无法识别等问题。

Description

一种多特征双向门控领域专家实体抽取方法及系统
技术领域
本发明属于自然语言处理和信息抽取技术领域,具体涉及一种多特征双向门控领域专家实体抽取方法及系统。
背景技术
传统专家命名实体识别方法存在过度依赖人工特征标注和分词效果,以及专家简介中大量专业新词无法识别等问题。段大高、赵宁、韩忠明等人提出了一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法(中国专利ZL201710006826.2),通过将文本信息转换成词向量数学信息,然后进行向量相似度比较,并根据数字间的关系,来标注实体间的关系,但这种方法过度依赖人工标注的结果;张力文、程国艮等人提出了一种面向中文专利文本的实体抽取方法和系统(中国专利公开号CN 109101538A),该方法和系统依据词性规则模板,无需人工标注便可对专利文本中的实体自动进行提取,克服了现有技术严重依赖大规模标注语料的缺陷,节省了标注的人力成本,却依赖于现有规则的制订,对新词提取无法识别;牛志超、马语菡、南海涛等人提出了一种基于BERT算法模型的知识图谱构建系统(中国专利公开号CN 110866125A),通过使用BERT-bilstm-crf中文命名识别深度学习算法对归零文档段落中的数据进行实体提取,虽然模型使用神经网络之后保证了实体提取的快速性和精准性,但是对专业领域的关键词实体的识别率上还存在挑战。
虽然上述方法在实体抽取任务上取得了一定效果。然而,传统专家命名实体识别方法还存在以下问题:
1、存在过度依赖人工特征标注和分词效果;
2、专家简介中大量专业新词无法识别等问题。
发明内容
发明目的:为解决领域专家信息抽取过程中人工特征提取成本高和专业新词无法识别等问题,本发明提供一种多特征双向门控领域专家实体抽取方法及系统,充分利用领域专业术语在文档中的特征,结合门控神经网络可以从上下文中自动找到更有用的单词以提取指定类型的关键性信息。
技术方案:一种多特征双向门控领域专家实体抽取方法,包括以下步骤:
步骤1:获取领域专家语料库D1∈{d1,d2,...,dN},其中,d为单条领域专家文本,N为语料大小,对领域专家语料库D1中的语料进行标记,包括将领域关键词实体标记为Key;对标记后的语料库依次进行字符级切分和标记,完成全分词标注语料库D2的构建;
步骤2:定位全分词标注语料库D2中标记为Key的领域关键词实体,获取领域关键词实体的前后向特征,通过前后向特征生成二元共现词汇组,并利用二元共现词汇组构建边界特征向量矩阵E1;将全分词标注语料库D2中的语料通过边界特征向量矩阵E1映射至向量空间,得到边界特征;
步骤3:对领域专家语料库D1进行预处理,并采用预处理后的数据对BERT语言模型进行训练,得到训练好的BERT语言模型BERT_Model,循环遍历领域专家语料库D1中每条领域专家文本,通过BERT_Model得到融合全文语义信息的字特征;
步骤4:拼接边界特征和字特征,得到基于多特征融合的向量数据集D3;基于双向门控神经网络和注意力机制,构建中文领域专家实体抽取模型Model,采用向量数据集D3对中文领域专家实体抽取模型Model进行训练,得到最终可用的中文领域专家实体抽取模型Model;
步骤5:将待抽取领域专家文本输入至最终可用的中文领域专家实体抽取模型Model,得到领域专家实体识别结果。
进一步的,在所述步骤1中,需对领域专家语料库进行预处理,所述预处理包括去重和去掉特殊字符;
在步骤1中,所述的对领域专家语料库D1中的语料进行标记,包括:
使用领域专业术语词汇与领域专家语料库D1中的领域关键词实体进行匹配,并标记为Key;
采用YEDDA工具,对领域专家语料库D1中的其他实体进行补充标记,标记类型记为type。
进一步的,所述全分词标注语料库D2由字符对(context,label)构成,其中,context表示切分后的单个字符,label:{offset-type}表示实体的标记,offset表示实体起始到结束的标识,表示为{B,M,E,S},B表示一个词的词首位值,M表示一个词的中间位置,E表示一个词的末尾位置,S表示一个单独的字词,type表示非领域关键词实体的其他实体的标记类型。
进一步的,所述步骤2具体包括:
S201:定位全分词标注语料库D2中标记为Key的领域关键词实体;
S202:设定滑动窗口宽度width,滑动窗口,获取领域关键词实体在滑动窗口宽度width内所有边界的前后向特征;
S203:将前后向特征生成二元共现词汇组,统计各二元共现词汇组以前后顺序同时出现的频率,记为共现频次w;
S204:基于下式计算得到二元共现词汇组出现的概率f:
Figure BDA0002635593290000021
式中,fi表示第i组二元共现词汇组出现的概率,wi表示第i组二元共现词汇组的共现频次;
S205:构建边界特征矩阵E1=(prev,next,w,f),其中,prev表示二元共现词汇组中的前一个词汇,next表示二元共现词汇组中的后一个词汇,w为二元共现词汇组的共现频次,f为二元共现词汇组出现的概率;
S206:将全分词标注语料库D2中所有单条文本通过边界特征向量矩阵E1,映射至向量空间,得到文本中的边界特征
Figure BDA0002635593290000031
进一步的,所述S206具体包括以下步骤:
统计文本边界特征数,并根据下式计算文本中每个字符作为边界特征的可信度P(ci):
Figure BDA0002635593290000032
其中,ci代表在全分词标注语料库D2中的第i个字符,
Figure BDA0002635593290000033
表示字符ci作为边界的二元概率,
Figure BDA0002635593290000034
表示字符ci在全分词标注语料库D2中的共现频次;
对可信度P(ci)归一化处理,得到离散特征值:
Figure BDA0002635593290000035
式中,
Figure BDA0002635593290000036
表示字符ci的边界特征值,round函数为四舍五入计算,k为切割值,用于控制离散化后的特征数,Pmin表示最小可信度阈值,Pmax表示最大可信度阈值。
进一步的,所述步骤3具体包括:
S301:对领域专家语料库D1中的语料按照句子进行切分;
S302:对每个句子进行字符化,将句子切分为Max_len个字,对超过长度Max_len的字符进行截断;
S303:句首以特殊字符[CLS]标记,句子之间用[SEP]字符连接,句末以[SEP]标记,句子中替换的词汇用[MASK]代替,长度不足用[PAD]补齐对应补全符号为0,真实字符以及特殊标记[CLS]和[SEP]对应为1,得到预处理后的语料;
S304:采用预处理后的语料对BERT语言模型进行训练,得到训练好的BERT语言模型BERT_Model;
S305:定义循环变量i1,i1赋初值为1;
S306:判断是否满足i1≤N,若满足则跳转到S307,否则得到文本中各个字融合全文语义信息的字特征
Figure BDA0002635593290000037
S307:采用BERT_Model将全分词标注语料库D2基于字符表示转换为字嵌入表示,并输出每个字的上下文表示;
S308:将字嵌入表示和上下文表示作为特征输入到BERT_Model的双向Transformer中,输出字向量序列
Figure BDA0002635593290000041
S309:i1=i1+1,跳转至S306。
进一步的,所述步骤4具体包括:
S401:定义用于遍历全分词标注语料库D2的循环变量i2,i2赋初值1;
S402:判断是否满足i2≤N,若满足,则跳转到S403,否则跳转到S407;
S403:提取边界特征
Figure BDA0002635593290000042
S404:提取字特征
Figure BDA0002635593290000043
S405:拼接字特征
Figure BDA0002635593290000044
和边界特征
Figure BDA0002635593290000045
得到多特征融合后新的特征
Figure BDA0002635593290000046
S406:i2=i2+1,跳转至S402;
S407:得到基于特征融合的向量数据集D3={X1,X2,...,XN},采用基于特征融合的向量数据集D3对中文领域专家实体抽取模型Model进行训练,得到最终可用的中文领域专家实体抽取模型Model,所述中文领域专家实体抽取模型Model为特征序列X为输入,以包含文本多特征的向量序列为输出。
进一步的,所述步骤5包括:
将待抽取领域专家文本进行预处理,该预处理与步骤3中对对领域专家语料库D1进行预处理相同;
将预处理后的待抽取领域专家文本输入至最终可用的中文领域专家实体抽取模型Model,通过训练好的模型参数,采用维特比算法计算最大可能的输出序列,将其作为最优命名实体识别结果,得到预测实体标签y;
基于预测实体标签y,建立高质量的领域专家实体信息索引项。
本发明还公开了一种多特征双向门控领域专家实体抽取系统,包括:
全分词标注语料库构建模块,执行如下操作:
获取领域专家语料库D1∈{d1,d2,...,dN},其中,d为单条领域专家文本,N为语料大小,对领域专家语料库D1中的语料进行标记,包括将领域关键词实体标记为Key;对标记后的语料库依次进行字符级切分和标记,完成全分词标注语料库D2的构建;
边界特征获取模块,执行如下操作:定位全分词标注语料库D2中标记为Key的领域关键词实体,获取领域关键词实体的前后向特征,通过前后向特征生成二元共现词汇组,并利用二元共现词汇组,构建边界特征向量矩阵E1;将全分词标注语料库D2中的语料通过边界特征向量矩阵E1映射至向量空间,得到边界特征;
语言模型训练模块,执行如下操作:
对领域专家语料库D1进行预处理,并采用预处理后的数据对BERT语言模型进行训练,得到训练好的BERT语言模型BERT_Model;
字特征获取模块,执行如下操作:
循环遍历领域专家语料库D2中每条领域专家文本d,通过BERT_Model得到融合全文语义信息的字特征;
中文领域专家实体抽取模型Model构建及训练模块,执行如下操作:
拼接边界特征和字特征,得到基于多特征融合的向量数据集D3;基于双向门控神经网络和注意力机制,构建中文领域专家实体抽取模型Model,采用向量数据集D3对中文领域专家实体抽取模型Model进行训练,得到最终可用的中文领域专家实体抽取模型Model。
有益效果:本发明与现有技术相比,具有以下优点:
1、本发明基于网络爬虫挖掘数据集,利用第三方工具标记语料,通过统计方法提取边界特征和使用BERT语言模型抽取字特征,使用门控神经网络可以从上下文中自动找到更有用的单词以获得更好的NER性能,从而解决人工特征提取成本高和专业新词无法识别等问题;
2、本发明将自然语言处理与行业知识深度融合,深度挖掘包含领域特征文本,从而更好的对复杂文本进行处理。
附图说明
图1为本发明的总体流程图;
图2为图1中数据清洗的具体流程图;
图3为图1中抽取边界特征的具体流程图;
图4为图1中抽取字嵌入特征的具体流程图;
图5为图1中训练双向门控神经网络模型的具体流程图;
图6为图1的模型应用领域专家实体抽取的流程图。
具体实施方式
本发明的多特征双向门控领域专家实体抽取方法及系统,首先,挖掘网络文本并对其清洗及规范化,半自动标注构建领域专家简介语料库,通过该领域专家简介语料库以训练实体抽取模型;接着,使用BERT方法进行字嵌入表示,对语料库专业领域词汇构造要素进行特征分析并提取边界特征;然后,利用双向门控神经网络和注意力机制有效获取特定词语长距离依赖关系;最后,结合边界特征构建条件随机场模型实现命名实体识别,调用实体抽取系统接口返回抽取结果至WEB应用系统。通过大数据技术对专家信息进行整理、分类和分析后,以不同的形式为高校、政府、企业提供精准的专家信息服务,可以构建高校科技人才与企业、政府的联通桥梁,解决人工特征提取成本高和专业新词无法识别等问题。
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
本发明涉及以下两种模型,现对这两种模型进行说明:
BERT模型采用Transfomer的编码器作为主体模型结构,舍弃了RNN循环式网络结构,引入了双向的语言模型任务,完全基于注意力机制对文本进行建模。通过注意力机制计算文本中每个词和所有词之间的相互关系,根据相互关系反应不同词之间的关联性及重要程度。以词与词之间的权重获得每个词新的表征,通过自身以及与其他词之间的关系得到全局性的表示。Transfomer则对输入的文本不断进行注意力机制层和非线性网络层的交叠得到最终文本的表达。将BERT模型引入实体抽取任务,不仅考虑到上下文信息,也充分利用了全局信息。在进行实体消歧上有很大的优势,在处理相似的未登录字符更容易被识别,提高了实体抽取模型的召回率。
BiGRU-CRF:双向GRU获取的上下文信息无法完全融入当前字符信息。在BiGRU神经网络中添加Attention机制,即在不同时刻计算输出特征向量的权重,突出字符的重要特征,从而提取文本上下文语义特征。CRF可以关注句子级别利用邻居标签信息,产生更高的标记精度。
为了使表述更为清楚,现对各名词解释如下:文本泛指纯文本,可以是一个句子或多个句子的组合;语料是一大段文本,是文本的集合;记录表示某一单条文本。
如图1所示的多特征双向门控领域专家实体抽取方法,包括如下步骤:
步骤1:对原始领域专家语料库D1∈{d1,d2,...,dN}进行清洗,其中,d为单条领域专家文本,N为语料大小,该清洗包括但不限于去重和去特殊字符,使用领域专业术语词汇进行领域关键词匹配标记,领域关键词标记类型定义为Key;通过YEDDA工具对原始领域专家语料库D1中其他实体进行补充标记,标记类型定义为type,包括:专家名Name、机构名ORG、职称PRO和研究方向FIE;将标记后的语料基于字符级进行切分,以{B,M,E,S}进行标记,构建全分词标注语料库D2,全分词标注语料库D2以字符对(context,label)的形式进行存储,context表示切分后的单个字符,label:{offset-type}表示实体的标记,其中,offset表示实体起始到结束的标识,以{B,M,E,S}表示,B表示一个词的词首位值,M表示一个词的中间位置,E表示一个词的末尾位置,S表示一个单独的字词,type则表示定义的实体类型。以上过程可参见图2。
步骤2:定位全分词标注语料库D2中标记类型为Key的关键词实体,设定滑动窗口步长为width,滑动窗口,获取关键词实体在width宽度内所有边界的前后向特征;将前后向特征生成二元共现词汇组,并统计共现频次为w,该共现频次解释为两个词以前后顺序同时出现的频率;根据下式计算得到二元词汇组出现的概率f:
Figure BDA0002635593290000071
式中,fi表示第i组共现词出现的概率,wi表示第i组共现词出现的频次;
构建边界特征矩阵E1=(prev,next,w,f),其中,prev表示二元共现词汇组前一个词汇,next表示二元共现词汇组后一个词汇,w为全分词标注语料库D2中二元词汇组共现的频次,f为二元词汇组出现的概率;
将全分词标注语料库D2中文本记录通过边界特征向量矩阵E1按照式(2)和式(3)映射至向量空间,得到语料库边界特征
Figure BDA0002635593290000072
以上过程可参见图3。
具体的:统计文本边界特征数,并根据下式计算得到文本中每个字符作为边界特征的可信度P(ci):
Figure BDA0002635593290000073
其中,ci代表全分词标注语料库D2中的第i个字符,
Figure BDA0002635593290000074
表示ci作为边界的二元概率,
Figure BDA0002635593290000075
表示ci在全分词标注语料库D2中的共现频次;
对可信度P(ci)归一化处理,得到离散特征值;
Figure BDA0002635593290000076
式中,
Figure BDA0002635593290000077
表示字符ci的边界特征值,round函数为四舍五入计算,k为切割值,控制离散化后的特征数,Pmin表示最小可信度阈值,Pmax表示最大可信度阈值。
步骤3:对原始领域专家语料库D1进行预处理,得到预处理后的语料数据,该预处理包括:
对原始领域专家语料库D1按照句子进行切分;
对每个句子进行文本字符化,使文本中的句子切分为Max_len个字,对超过长度Max_len的字符进行截断;
句首以特殊字符[CLS]标记,句子之间用[SEP]字符连接,句末以[SEP]标记,句子中替换的词汇用[MASK]代替,长度不足用[PAD]补齐对应补全符号为0,真实字符以及特殊标记[CLS]和[SEP]对应为1;
将预处理后的语料数据输入BERT模型训练,得到训练好的BERT语言模型BERT_Model;
循环遍历原始语料库D1中每条记录d,通过BERT语言模型得到字特征
Figure BDA0002635593290000078
具体过程为:
305:定义循环变量i1循环遍历数据集中每条记录d,i1赋初值为1;
306:若i1≤N,则跳转到307,否则跳转到310;
307:采用训练好的BERT语言模型BERT_Model将每个字转换为字嵌入并输出每个字的上下文表示;跳转到308;
308:将字嵌入表示和上下文表示作为特征输入到训练好的BERT语言模型BERT_Model的双向Transformer中,输出记录d的字向量序列
Figure BDA0002635593290000081
309:i1=i1+1,跳转至306;
310:得到各个字融合全文语义信息的字特征
Figure BDA0002635593290000082
以上过程可参见图4。
步骤4:拼接边界特征
Figure BDA0002635593290000083
和字特征
Figure BDA0002635593290000084
得到基于多特征融合的向量数据集D3,根据基于多特征融合的向量数据集D3和双向门控神经网络,构建基于多特征双向门控神经网络的中文领域专家实体抽取模型Model;具体包括以下步骤:
401:定义循环变量i2遍历全分词标注语料库D2,i2赋初值1;
402:若i2≤N,则跳转到403,否则跳转到407;
403:获取第i2条记录的边界特征
Figure BDA0002635593290000085
404:获取第i2条记录的字特征
Figure BDA0002635593290000086
405:拼接字特征
Figure BDA0002635593290000087
和边界特征
Figure BDA0002635593290000088
得到多特征融合后新的特征
Figure BDA0002635593290000089
406:i2=i2+1;跳转402;
407:得到基于特征融合的向量数据集D3={X1,X2,...,XN}。
以特征序列X为例作为双向门控神经网络的输入,用Bi-GRU循环编码以获取输入序列的包含文本多特征的向量序列C={c1,c2,...,ct};获取输入序列的包含文本多特征的向量序列C={c1,c2,...,ct}的过程为:
分别计算特征序列X在t时刻的语义输出
Figure BDA00026355932900000810
其中,
Figure BDA00026355932900000811
表示特征序列X在t时刻的前向语义输出,
Figure BDA00026355932900000812
表示特征序列X在t时刻的反向语义输出,ht为融合后得到包含特征序列X上下文信息的语义输出;
根据下式计算t时刻不同时刻计算输出特征向量的权重αt,突出字符的重要特征:
Figure BDA00026355932900000813
式中,ht为包含序列上下文信息的语义输出,W1为ht的权重矩阵,b1为ht的偏置,M为输入序列X的长度;
当前字符权重矩阵αt与文本特征向量ht进行加权和,得到包含文本各字符重要性信息的多特征向量ct;构建得到包含文本多特征的向量序列C={c1,c2,...,ct};
输入包含文本多特征的向量序列C={c1,c2,...,ct}以及状态标签label,调用内置CRF函数并做状态转换解码。以上过程可参见图5。
步骤5:开放实体抽取系统接口API,创建线程池Thread Pool,判断线程池ThreadPool所有任务是否执行完毕;创建工作线程Child Thread,用户输入待抽取领域专家网络文本,创建领域专家实体抽取任务;对待抽取领域专家文本进行预处理,该预处理同步骤3中预处理过程;通过训练好的基于多特征双向门控神经网络模型Model预测实体标签y,具体为:采用维特比算法,训练好模型参数,用于计算条件概率最大的输出序列,最后得到预测实体标签y;封装实体抽取结果,建立高质量的领域专家实体信息索引项。返还WEB应用程序,领域专家实体抽取任务结束处理;结束Child Thread工作线程;关闭Thread Pool线程池;调用接口,建立高质量的领域专家实体信息索引项,WEB应用系统通过ECharts对实体信息进行可视化返回用户。以上过程可参见图6。
为了更好的说明本方法的有效性,通过收集高校官网25,053篇化工专家网络文本作为实验数据,通过1089条化工技术行业中英文关键词进行化工领域术语进行边界特征分析,统计出化工领域术语上下文边界二元词对数共194,750对,以BiLSTM-CRF为基线对于加入特征提取算法进行测试,模型通过多特征与非字嵌入特征提取随机生成向量作为神经网络模型的输入,对比多特征神经网络模型在实体抽取任务上带来的增益。基于多特征双向门控神经网络模型抽取专家实体信息,将信息抽取转换为序列标注问题,在识别结果中精确值和召回率的调和均值(F1值)较现有BiLSTM-CRF和IDCNN-CRF方法提高9.98%以上。
本发明经过有效抽取领域专家信息实体,充分利用文本字嵌入特征、边界特征以及上下文特征以获得更好的NER性能,从而解决人工特征提取成本高和专业新词无法识别等问题,可普遍适用于各个领域专家实体抽取任务,可与计算机系统结合,将自然语言处理与行业知识深度融合,从而更好地对复杂文本进行处理,满足人们信息检索的需求。

Claims (7)

1.一种多特征双向门控领域专家实体抽取方法,其特征在于:包括以下步骤:
步骤1:获取领域专家语料库D1∈{d1,d2,...,dN},其中,d为单条领域专家文本,N为语料大小,对领域专家语料库D1中的语料进行标记,包括将领域关键词实体标记为Key;对标记后的语料库依次进行字符级切分和标记,完成全分词标注语料库D2的构建;
步骤2:定位全分词标注语料库D2中标记为Key的领域关键词实体,获取领域关键词实体的前后向特征,通过前后向特征生成二元共现词汇组,并利用二元共现词汇组构建边界特征向量矩阵E1;将全分词标注语料库D2中的语料通过边界特征向量矩阵E1映射至向量空间,得到边界特征;具体包括:
S201:定位全分词标注语料库D2中标记为Key的领域关键词实体;
S202:设定滑动窗口宽度width,滑动窗口,获取领域关键词实体在滑动窗口宽度width内所有边界的前后向特征;
S203:将前后向特征生成二元共现词汇组,统计各二元共现词汇组以前后顺序同时出现的频率,记为二元共现词汇组的共现频次w;
S204:基于下式计算得到二元共现词汇组出现的概率f:
Figure FDA0003747904390000011
式中,fi表示第i组二元共现词汇组出现的概率,wi表示第i组二元共现词汇组的共现频次;
S205:构建边界特征向量矩阵E1=(prev,next,w,f),其中,prev表示二元共现词汇组中的前一个词汇,next表示二元共现词汇组中的后一个词汇,w为二元共现词汇组的共现频次,f为二元共现词汇组出现的概率;
S206:将全分词标注语料库D2中所有单条文本通过边界特征向量矩阵E1,映射至向量空间,得到文本中的边界特征
Figure FDA0003747904390000012
步骤3:对领域专家语料库D1进行预处理,并采用预处理后的数据对BERT语言模型进行训练,得到训练好的BERT语言模型BERT_Model,循环遍历领域专家语料库D1中每条领域专家文本,通过BERT_Model得到融合全文语义信息的字特征;
步骤4:拼接边界特征和字特征,得到基于多特征融合的向量数据集D3;基于双向门控神经网络和注意力机制,构建中文领域专家实体抽取模型Model,采用向量数据集D3对中文领域专家实体抽取模型Model进行训练,得到最终可用的中文领域专家实体抽取模型Model;
步骤5:将待抽取领域专家文本输入至最终可用的中文领域专家实体抽取模型Model,得到领域专家实体识别结果。
2.根据权利要求1所述的一种多特征双向门控领域专家实体抽取方法,其特征在
于:在所述步骤1中,需对领域专家语料库进行预处理,所述预处理包括去重和去掉特殊字符;
在步骤1中,所述的对领域专家语料库D1中的语料进行标记,包括:使用领域专业术语词汇与领域专家语料库D1中的领域关键词实体进行匹配,并标记为Key;
采用YEDDA工具,对领域专家语料库D1中的其他实体进行补充标记,标记类型记为type。
3.根据权利要求1所述的一种多特征双向门控领域专家实体抽取方法,其特征在于:所述全分词标注语料库D2由字符对(context,label)构成,其中,context表示切分后的单个字符,label为实体的标记,表示为:label:{offset-type},其中,offset为实体起始到结束的标识,表示为{B,M,E,S},B表示一个词的词首位值,M表示一个词的中间位置,E表示一个词的末尾位置,S表示一个单独的字词,type表示非领域关键词实体的其他实体的标记类型。
4.根据权利要求1所述的一种多特征双向门控领域专家实体抽取方法,其特征在于:所述S206具体包括以下步骤:
统计文本边界特征数,并根据下式计算文本中每个字符作为边界特征的可信度P(ci):
Figure FDA0003747904390000021
其中,ci代表在全分词标注语料库D2中的第i个字符,
Figure FDA0003747904390000022
表示字符ci作为边界的二元概率,
Figure FDA0003747904390000023
表示字符ci在全分词标注语料库D2中的共现频次;
对可信度P(ci)归一化处理,得到离散特征值:
Figure FDA0003747904390000024
式中,
Figure FDA0003747904390000025
表示字符ci的边界特征值,round函数为四舍五入计算,k为切割值,用于控制离散化后的特征数,Pmin表示最小可信度阈值,Pmax表示最大可信度阈值。
5.根据权利要求1所述的一种多特征双向门控领域专家实体抽取方法,其特征在于:所述步骤3具体包括:
S301:对领域专家语料库D1中的语料按照句子进行切分;
S302:对每个句子进行字符化,将句子切分为Max_len个字,对超过长度Max_len的字符进行截断;
S303:句首以特殊字符[CLS]标记,句子之间用[SEP]字符连接,句末以[SEP]标记,句子中替换的词汇用[MASK]代替,长度不足用[PAD]补齐对应补全符号为0,真实字符以及特殊标记[CLS]和[SEP]对应为1,得到预处理后的语料;
S304:采用预处理后的语料对BERT语言模型进行训练,得到训练好的BERT语言模型BERT_Model;
S305:循环遍历原始语料库D1中每条记录d,通过BERT语言模型得到字特征
Figure FDA0003747904390000031
6.根据权利要求1所述的一种多特征双向门控领域专家实体抽取方法,其特征在于:所述的拼接边界特征和字特征,得到基于多特征融合的向量数据集D3,具体包括以下步骤:
S401:定义用于遍历全分词标注语料库D2的循环变量i2,i2赋初值1;
S402:判断是否满足i2≤N,若满足,则跳转到S403,否则跳转到S407;
S403:提取边界特征
Figure FDA0003747904390000032
S404:提取字特征
Figure FDA0003747904390000033
S405:拼接字特征
Figure FDA0003747904390000034
和边界特征
Figure FDA0003747904390000035
得到多特征融合后新的特征
Figure FDA0003747904390000036
S406:i2=i2+1,跳转至S402;
S407:得到基于特征融合的向量数据集D3={X1,X2,...,XN}。
7.根据权利要求1所述的一种多特征双向门控领域专家实体抽取方法,其特征在于:所述步骤5包括:
将待抽取领域专家文本进行预处理,该预处理与步骤3中对领域专家语料库D1进行预处理相同;
将预处理后的待抽取领域专家文本输入至最终可用的中文领域专家实体抽取模型Model,通过训练好的模型参数,采用维特比算法计算最大可能的输出序列,将其作为最优命名实体识别结果,得到预测实体标签y;
基于预测实体标签y,建立高质量的领域专家实体信息索引项。
CN202010824303.0A 2020-08-17 2020-08-17 一种多特征双向门控领域专家实体抽取方法及系统 Active CN112101028B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010824303.0A CN112101028B (zh) 2020-08-17 2020-08-17 一种多特征双向门控领域专家实体抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010824303.0A CN112101028B (zh) 2020-08-17 2020-08-17 一种多特征双向门控领域专家实体抽取方法及系统

Publications (2)

Publication Number Publication Date
CN112101028A CN112101028A (zh) 2020-12-18
CN112101028B true CN112101028B (zh) 2022-08-26

Family

ID=73753842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010824303.0A Active CN112101028B (zh) 2020-08-17 2020-08-17 一种多特征双向门控领域专家实体抽取方法及系统

Country Status (1)

Country Link
CN (1) CN112101028B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836509A (zh) * 2021-02-22 2021-05-25 西安交通大学 一种专家系统知识库构建方法及系统
CN112949308A (zh) * 2021-02-25 2021-06-11 武汉大学 基于功能结构的中文电子病历命名实体识别方法及系统
CN113255344B (zh) * 2021-05-13 2024-05-17 淮阴工学院 一种融合主题信息的关键词生成方法
CN113343701B (zh) * 2021-06-30 2022-08-02 广东电网有限责任公司 一种电力设备故障缺陷文本命名实体的抽取方法及装置
CN113779988A (zh) * 2021-09-07 2021-12-10 科大国创云网科技有限公司 一种通信领域过程类知识事件抽取方法
CN113935324B (zh) * 2021-09-13 2022-10-28 昆明理工大学 基于词集合特征加权的跨境民族文化实体识别方法及装置
CN114218380B (zh) * 2021-12-03 2022-07-29 淮阴工学院 基于多模态的冷链配载用户画像标签抽取方法及装置
CN114355848B (zh) * 2021-12-20 2023-02-07 淮阴工学院 张力检测与智能控制系统
CN114386422B (zh) * 2022-01-14 2023-09-15 淮安市创新创业科技服务中心 基于企业污染舆情抽取的智能辅助决策方法及装置
CN115146630B (zh) * 2022-06-08 2023-05-30 平安科技(深圳)有限公司 基于专业领域知识的分词方法、装置、设备及存储介质
CN116152843B (zh) * 2022-11-22 2024-01-12 南京擎盾信息科技有限公司 合同模板待填写内容的类别识别方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874997A (zh) * 2018-06-13 2018-11-23 广东外语外贸大学 一种面向电影评论的人名命名实体识别方法
CN109800437A (zh) * 2019-01-31 2019-05-24 北京工业大学 一种基于特征融合的命名实体识别方法
CN109885824A (zh) * 2019-01-04 2019-06-14 北京捷通华声科技股份有限公司 一种层次的中文命名实体识别方法、装置及可读存储介质
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110717331A (zh) * 2019-10-21 2020-01-21 北京爱医博通信息技术有限公司 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质
CN111008526A (zh) * 2019-12-06 2020-04-14 安徽理工大学 一种基于双通道神经网络的命名实体识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391485A (zh) * 2017-07-18 2017-11-24 中译语通科技(北京)有限公司 基于最大熵和神经网络模型的韩语命名实体识别方法
CN107808124B (zh) * 2017-10-09 2019-03-26 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874997A (zh) * 2018-06-13 2018-11-23 广东外语外贸大学 一种面向电影评论的人名命名实体识别方法
CN109885824A (zh) * 2019-01-04 2019-06-14 北京捷通华声科技股份有限公司 一种层次的中文命名实体识别方法、装置及可读存储介质
CN109800437A (zh) * 2019-01-31 2019-05-24 北京工业大学 一种基于特征融合的命名实体识别方法
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110717331A (zh) * 2019-10-21 2020-01-21 北京爱医博通信息技术有限公司 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质
CN111008526A (zh) * 2019-12-06 2020-04-14 安徽理工大学 一种基于双通道神经网络的命名实体识别方法

Also Published As

Publication number Publication date
CN112101028A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN112101028B (zh) 一种多特征双向门控领域专家实体抽取方法及系统
CN110110054B (zh) 一种基于深度学习的从非结构化文本中获取问答对的方法
CN109635279B (zh) 一种基于神经网络的中文命名实体识别方法
CN109918666B (zh) 一种基于神经网络的中文标点符号添加方法
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN113486667B (zh) 一种基于实体类型信息的医疗实体关系联合抽取方法
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN110609983B (zh) 一种政策文件结构化分解方法
CN111061882A (zh) 一种知识图谱构建方法
CN116187163B (zh) 一种用于专利文件处理的预训练模型的构建方法及系统
CN111160023B (zh) 一种基于多路召回的医疗文本命名实体识别方法
CN108363691B (zh) 一种用于电力95598工单的领域术语识别系统及方法
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN113743119B (zh) 中文命名实体识别模块、方法、装置及电子设备
CN109062904A (zh) 逻辑谓词提取方法和装置
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN115759092A (zh) 一种基于albert的网络威胁情报命名实体识别方法
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN112541337A (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN111008530A (zh) 一种基于文档分词的复杂语义识别方法
CN111858842A (zh) 一种基于lda主题模型的司法案例筛选方法
CN114443813A (zh) 一种智能化的在线教学资源知识点概念实体链接方法
CN113032541A (zh) 一种基于bert并融合句群检索的答案抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant