CN112434535A - 基于多模型的要素抽取方法、装置、设备及存储介质 - Google Patents

基于多模型的要素抽取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112434535A
CN112434535A CN202011326443.1A CN202011326443A CN112434535A CN 112434535 A CN112434535 A CN 112434535A CN 202011326443 A CN202011326443 A CN 202011326443A CN 112434535 A CN112434535 A CN 112434535A
Authority
CN
China
Prior art keywords
text
element extraction
entity recognition
named entity
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011326443.1A
Other languages
English (en)
Other versions
CN112434535B (zh
Inventor
万建伟
杨洋
潘仰耀
张琛
李锋
万化
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pudong Development Bank Co Ltd
Original Assignee
Shanghai Pudong Development Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Pudong Development Bank Co Ltd filed Critical Shanghai Pudong Development Bank Co Ltd
Priority to CN202011326443.1A priority Critical patent/CN112434535B/zh
Publication of CN112434535A publication Critical patent/CN112434535A/zh
Application granted granted Critical
Publication of CN112434535B publication Critical patent/CN112434535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供了一种基于多模型的要素抽取方法、装置、设备及存储介质,该方法包括:获取目标文本;将所述目标文本分别输入多个命名实体识别模型中进行命名实体识别,以获得对应于所述目标文本的多个要素抽取子结果;将所述多个要素抽取子结果进行组合预测,获得所述目标文本的要素抽取结果。本说明书实施例可以提高信息抽取的准确性。

Description

基于多模型的要素抽取方法、装置、设备及存储介质
技术领域
本说明书涉及自然语言处理技术领域,尤其是涉及一种基于多模型的要素抽取方法、装置、设备及存储介质。
背景技术
信息抽取(Information Extraction,IE)的工作主要是从非结构化的文本中抽取结构化的信息,是自然语言处理(Natural LanguageProcessing,NLP)中非常重要的一个子领域。在进行信息抽取时需要先识别出要抽取的要素,因此命名实体识别(NamedEntitiesRecognition,NER)是信息抽取中必不可少的组成部分,其目的是识别语料(文本)中人名、地名、组织机构名等命名实体(这里的命名实体即为要抽取的要素)。
目前,信息抽取方法主要是基于单一模型的信息抽取方法,例如基于规则和词典的方法、基于统计的方法或基于深度学习模型的方法等。然而,当基于单一模型的信息抽取方法进行多个要素的抽取时,容易出现部分要素抽取失准的问题。
发明内容
本说明书实施例的目的在于提供一种基于多模型的要素抽取方法、装置、设备及存储介质,以提高信息抽取的准确性。
为达到上述目的,一方面,本说明书实施例提供了一种基于多模型的要素抽取方法,包括:
获取目标文本;
将所述目标文本分别输入多个命名实体识别模型中进行命名实体识别,以获得对应于所述目标文本的多个要素抽取子结果;
将所述多个要素抽取子结果进行组合预测,获得所述目标文本的要素抽取结果。
在本说明书一实施例中,所述多个命名实体识别模型包括:
第一命名实体识别模型,其包括设定的正则表达式及要素抽取逻辑;
第二命名实体识别模型,其通过训练深度学习模型得到。
在本说明书一实施例中,所述第二命名实体识别模型通过以下方式训练得到:
将获取的文本转换为标准格式训练集数据;所述标准格式训练集数据包括多维度的标签序列;
利用所述多个维度的标签序列对应对包含多个分支结构的深度学习模型进行训练,并计算每训练轮次后各个分支结构的损失函数值;
当各个分支结构的损失函数值的平均值为最小时,将对应训练轮次后的深度学习模型作为第二命名实体识别模型。
在本说明书一实施例中,所述将获取的文本转换为标准格式训练集数据,包括:
预处理获取到的文本;
对预处理后的文本进行多维度标注,生成标签文本;
将所述标签文本分别转换为基于单个字的词向量,以及基于N个相邻字的N元语法词向量;其中N为大于或等于二的正整数;
将所述词向量及所述N元语法词向量进行特征融合,得到词向量矩阵;所述词向量矩阵包含所述多维度的标签序列。
在本说明书一实施例中,所述将所述多个要素抽取子结果进行组合预测,获得所述目标文本的要素抽取结果,包括:
确定每个要素抽取子结果中各要素预测值的评价指标值;
将各个要素抽取子结果中,对应于同一要素的要素预测值的评价指标值进行排序;
根据排序结果确定该要素的抽取结果。
在本说明书一实施例中,所述评价指标值包括置信度。
在本说明书一实施例中,所述第二命名实体识别模型包括以下依次相连的多个层:
一个嵌入层;
至少一个人工神经网络层;以及,
至少一个条件随机场层。
另一方面,本说明书实施例还提供了一种基于多模型的要素抽取装置,包括:
文本获取模块,用于获取目标文本;
实体识别模块,用于将所述目标文本分别输入多个命名实体识别模型中进行命名实体识别,以获得对应于所述目标文本的多个要素抽取子结果;
组合预测模块,用于将所述多个要素抽取子结果进行组合预测,获得所述目标文本的要素抽取结果。
另一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行上述方法的指令。
另一方面,本说明书实施例还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。
由以上本说明书实施例提供的技术方案可见,本说明书实施例中利用了多个命名实体识别模型对同一个目标文本,并将各个命名实体识别模型输出的要素抽取子结果进行组合预测,以获得目标文本最终的要素抽取结果。因此,与现有技术仅依靠单一模型获取信息抽取结果相比,本说明书实施例综合了各个命名实体识别模型输出的要素抽取子结果,而得到的要素抽取结果,更加客观可靠,从而提高了要素抽取的准确性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了本说明书一些实施例中基于多模型的要素抽取方法的流程图;
图2示出了本说明书一实施例中第二命名实体识别模型的示意图;
图3示出了本说明书一实施例中基于多模型的要素抽取过程示意图;
图4示出了本说明书一些实施例中基于多模型的要素抽取装置的结构框图;
图5示出了本说明书一些实施例中计算机设备的结构框图。
【附图标签说明】
41、文本获取模块;
42、实体识别模块;
43、组合预测模块;
502、计算机设备;
504、处理器;
506、存储器;
508、驱动机构;
510、输入/输出模块;
512、输入设备;
514、输出设备;
516、呈现设备;
518、图形用户接口;
520、网络接口;
522、通信链路;
524、通信总线。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书涉及自然语言处理中的信息抽取技术。其可以应用于任何需要从语料文本中识别并抽取特定要素的应用场景中。例如,在本说明书一些实施例中,信息抽取技术可以应用于金融等领域的信息抽取。
本说明书实施例提供了基于多模型的要素抽取方法,其可以应用于计算机设备侧。参考图1所示,在本说明书一些实施例中,所述基于多模型的要素抽取方法可以包括以下步骤:
S101、获取目标文本。
S102、将所述目标文本分别输入多个命名实体识别模型中进行命名实体识别,以获得对应于所述目标文本的多个要素抽取子结果。
S103、将所述多个要素抽取子结果进行组合预测,获得所述目标文本的要素抽取结果。
在本说明书实施例中利用了多个命名实体识别模型对同一个目标文本,并将各个命名实体识别模型输出的要素抽取子结果进行组合预测,以获得目标文本最终的要素抽取结果。因此,与现有技术仅依靠单一模型获取信息抽取结果相比,本说明书实施例综合了各个命名实体识别模型输出的要素抽取子结果,而得到的要素抽取结果,更加客观可靠,从而提高了要素抽取的准确性。
在本说明书的实施例中,目标文本为待处理的语料文本。该语料文本是用自然语言描述的文本,其可以包括一句或多句文字信息。例如,在一示例性实施例中,目标文本可以为“同意开立履约保函人民币19527.70元。”这样的文字信息。再如,在另一示例性实施例中,目标文本可以为“同意AAAA有限公司额度内申请短期流贷6亿元,期限2年,用于归还他行贷款,到期结清。其他执行原审批意见。”
在本说明书一实施例中,计算机设备可以通过用户界面(UI)等接收外部输入的目标文本。在本说明书另一实施例中,计算机设备还可以从指定的内部存储路径或外部存储路径读取文件,从而获得目标文本。
在本说明书的实施例中,所述多个命名实体识别模型可以是同一类型或不同类型的命名实体识别模型。例如,在本说明书一实施例中,所述多个命名实体识别模型可以包括:基于设定的正则表达式及要素抽取逻辑的第一命名实体识别模型,以及基于深度学习模型的第二命名实体识别模型(即第二命名实体识别模型是通过训练深度学习模型得到)。其中,第一命名实体识别模型是一种规则模板,其可以包括设定的正则表达式及要素抽取逻辑。其中,正则表达式是对字符串操作的一种逻辑公式,可以用事先定义好的一些特定字符(例如标点符号、关键字、指示词、方向词、位置词等)、及这些特定字符的组合,组成一个规则字符串,这个规则字符串用来表达对字符串的一种过滤逻辑(通常以模式和字符串相匹配为主要手段)。
基于规则模板的第一命名实体识别模型采用非端到端的文本处理方式,不能直接通过模型得到所需要素的结构化数据信息。因此,对每一种需要抽取的要素信息,可以用一套相应的正则表达式和抽取逻辑的集合作为文本抽取的模式。这种模型的优势在于开发过程中它可以利用一些外部标注数据,辅以少量的行内标注数据,一起作为训练语料,以用于训练模型。如此,可以大大减少人工标注的数据量。其中,行内标注数据是指为银行内部的标注数据,一般涉及客户隐私信息,不会公开。外部标注数据是指外部公开的标注数据集或从网上爬取数据后进行标注的数据。
基于深度学习模型的第二命名实体识别模型采用端到端的文本处理方式,可以直接抽取出所需要素的结构化数据信息。第二命名实体识别模型一般可以包括依次相连的多个层:一个嵌入层(Eembedding)、至少一个人工神经网络层(Artificial Neural Network,ANN)、以及至少一个条件随机场层(ConditionalRandom Fields,CRF)。当然,根据实际需要还可以增加其他的层。例如,在嵌入层和人工神经网络层之间还可以增加一个dropout层,以防止过拟合。
例如在图2所示的示例性实施例中,第二命名实体识别模型包括有:一个嵌入层、两个Bi-LSTM层(第一Bi-LSTM层、第二Bi-LSTM层)、以及两个CRF层(第一CRF层、第二CRF层)。其中:
嵌入层:可以利用预训练或随机初始化的Eembedding矩阵,将输入的目标文本转换成字向量。例如,可以将输入的目标文本生成低纬度稠密的字向量。
Bi-LSTM层:可以将嵌入层提供的字向量拼接起来构成新的特征向量。例如对于表1所示的两列标签。对于第一列标签而言,Bi-LSTM层包括第一Bi-LSTM层,对于第二列标签而言,Bi-LSTM层可以包括第一Bi-LSTM层和第二Bi-LSTM层。
CRF层:利用CRF统计模型对Bi-LSTM层抽取出的要素标签进行关系判断,即做进一步约束处理。由于只使用Bi-LSTM层会导致输出标签之间的关系出现不合理的情况,因此需要加上一层CRF层。
在本说明书一些实施例中,所述第二命名实体识别模型可以预先通过以下步骤训练得到:
(一)、将获取的文本转换为标准格式训练集数据;所述标准格式训练集数据包括多维度的标签序列。
(二)、利用所述多个维度的标签序列对应对包含多个分支结构的深度学习模型进行训练,并计算每训练轮次后各个分支结构的损失函数值。
(三)、当各个分支结构的损失函数值的平均值为最小时,将对应训练轮次后的深度学习模型作为第二命名实体识别模型。
在本说明书的实施例中,获取的文本是事先准备好用于模型训练的文本格式的语料文本。其获取方式可以参见上述获取目标文本的方式,在此不再赘述。由于文本格式的语料文本一般为非结构化或半结构化数据,深度学习模型并不能直接对其识别,因此,在训练之前需要将其转换为标准格式训练集数据。
在本说明书一实施例中,所述将获取的文本转换为标准格式训练集数据可以包括如下步骤:
(1)、预处理获取到的文本。
预处理的目的在于对数据进行清洗,以剔除异常值、缺失值和无语义的字符(例如空格等)。例如,在一示例性实施例中,以文本格式的审批意见原文的预处理为例,可以将原始的语料中的“&nbsp;”替换为空格;将“html<>”这种形式的标签换成“。”;将“。\s*。+”这种连续的没有语义的符号替换为一个“。”;此外,还可以限制语料长度(例如可以将语料的长度限制为800个字符),当审批意见原文超过800个字符时,可以对审批意见原文拆分为多个语料片段,并对所有语料片段进行预处理。
(2)、对预处理后的文本进行多维度标注,生成标签文本。
对预处理后的文本进行标注目的是为了后续对比验证训练出的模型是否满足设定的评价指标值(例如准确率、召回率、置信度等)。由于同一文本可能会存在同时属于多个命名实体的情况,因此需要将文本进行多维度标注(即文本的同一位置标注多种标签)。例如,以“人民币”为例,其包含“币种”和“金额”两种要素,这两种要素信息都是业务方所需抽取的,如果只标注一种标签,则只能抽取出“币种”或“金额”中的一种,从而无法满足业务要求。在此情况下,就需要将每个文字标注成两列标签(即进行两个维度的标注)。当然,如需要抽取更多的要素,则需要进行更多维度的标注。
在本说明书一实施例中,可以采用BIO(Begin、Inside、Other)标注方法进行训练语料标注。例如,在一示例性实施例中,以“同意开立履约保函人民币19527.70元。”中抽取“币种”或“金额”为例,可以将“同意开立履约保函人民币19527.70元。”进行两个维度的标注。
(3)、将所述标签文本分别转换为基于单个字的词向量,以及基于N个相邻字的N元语法词向量;其中N为大于或等于二的正整数。
标签文本在输入深度学习模型前需要进行向量化,即需要对标签文本进行词向量转换操作,以转换为计算机设备能够运算处理的词向量矩阵。在本说明书一实施例中,可以将所述标签文本分别转换为基于单个字的词向量,以及基于N个相邻字的N元语法词向量(例如bi-gram词向量等)。基于单字的词向量只能获取到字层面的含义,而基于N个相邻字的N元语法词向量则能获取相邻的N个字之间的含义。在本说明书一实施例中,上述两种词向量的转换均可以采用word2vec模型等实现。由此可见,将标签文本向量化实际上可以视为对标签文本的编码,即将标签文中的每个字、词或词组转换为数字标签(id)。
在基于单个字的词向量中包含多单个文字,且每个字对应有多个维度的标签。例如,在一示例性实施例中,基于单个字的词向量可以如下表1所示:
表1
文本 第一列标签 第二列标签
O O
O O
B-yewupinzhong O
I-yewupinzhong O
I-yewupinzhong O
I-yewupinzhong O
I-yewupinzhong O
I-yewupinzhong O
B-bizhong B-jine
I-bizhong I-jine
I-bizhong I-jine
1 O I-jine
9 O I-jine
6 O I-jine
2 O I-jine
7 O I-jine
. O I-jine
7 O I-jine
0 O I-jine
O I-jine
O O
而基于N个相邻字的N元语法词向量与上述基于单个字的词向量类似,只是在基于N个相邻字的N元语法词向量中,包含有多个词或词组,每个词或词组对应有多个维度的标签。
(4)、将所述词向量及所述N元语法词向量进行特征融合,得到词向量矩阵;所述词向量矩阵包含所述多维度的标签序列。
将所述词向量及所述N元语法词向量进行特征融合是指:将基于单个字的词向量与基于N个相邻字的N元语法词向量拼接起来,从而构成一个多维的特征矩阵。如此,通过将基于单字的词向量和基于N个相邻字的N元语法词向量进行特征融合,可以有利于获取更丰富的语义表达,从而有利于后续更加准确地抽取出所需的要素。
例如,在一示例性实施例中,若某个基于单个字的词向量可以表示为[1,2,4],某个基于N个相邻字的N元语法词向量可以表示为[6,7],则将二者进行特征融合后,可以得到特征矩阵[1,2,4,6,7]。
在本说明书的实施例中,利用所述多个维度的标签序列对应对包含多个分支结构的深度学习模型进行训练是指:将每个维度的标签序列对应输入到一一对应的分支结构中,以分别对每个分支结构进行训练。其中,初始的深度学习模型例如可以是Bi-LSTM等。为了获得满足预设要求的命名实体识别模型,在每个训练轮次后,需要计算当前各个分支结构的损失函数值。当各个分支结构的损失函数值的平均值为最小时,可以将对应训练轮次后的深度学习模型作为第二命名实体识别模型。
对于每个分支结构的损失函数值的计算可以参照如下方式:
对输入句子Sentence={w1,w2,w3,…,wn},其中wn为句子中的每个字,经过模型处理后得到预测的标签序列y={y1,y2,y3,…yn},其概率如下。
Figure BDA0002794450490000091
其中,X为句子Sentence词向量的特征拼接后的向量;矩阵T为转移矩阵(转移矩阵就是一个标签转到另外不同标签的概率);
Figure BDA0002794450490000092
表示标签yi转移到yi+1的概率,y0和yn+1(yi中i的取值范围从0到n,当i=n时,yi+1就是yn+1)表示预测句子开始和结束的标签;
Figure BDA0002794450490000093
表示向量组合wi得到yi标签的概率。
Score(X,y)的预测包含多种可能,可以通过Softmax函数实现Score概率分类输出,概率高的y作为输出标签。语句Sentence产生标签序列y的概率为:
Figure BDA0002794450490000094
其中,p(y|X)为概率,YX表示所有可能的标签集合,y为YX中的元素,S(X,y)表示正确标签序列的得分(Score),
Figure BDA0002794450490000095
表示每种可能标签序列的Score,e为自然常数。P(y|X)值越大,表示预测出正确标签的可能性越高。故损失函数可以定义如下形式:
Figure BDA0002794450490000101
经softmax函数输出概率最大的一组序列为有效合理的输出序列,其表达式为:
Figure BDA0002794450490000102
结合图3所示,当将目标文本分别输入第一命名实体识别模型和第二命名实体识别模型中后,可以对应得到对应的要素抽取子结果,即每个命名实体识别模型都可以得到所有需要预测的要素。例如,在一示例性实施例中,总共需要从输入文本中预测20个要素,第一命名实体识别模型可以输出20个要素作为要素抽取子结果;第二命名实体识别模型也可以输出20个要素作为要素抽取子结果。其中,由于第二命名实体识别模型有分支结构(例如图2所示的第二命名实体识别模型具有两个分支结构,其中虚线所围成的部分为一个分支结构,而点划线所围成的部分为另一个分支结构)时,每个分支结构可以预测20个要素中的一部分要素(具体每个分支结构可以预测多少个要素,可以根据需要设定),各个分支结构组合在一起可以输出共20个要素作为要素抽取子结果。
为了提高要素抽取的准确性,可以将第一命名实体识别模型和第二命名实体识别模型预测出的多个要素抽取子结果进行组合预测,以获得所述目标文本的要素抽取结果。
在本说明书一些实施例中,所述将多个要素抽取子结果进行组合预测,获得所述目标文本的要素抽取结果,可以包括以下步骤:
(1)、确定每个要素抽取子结果中各要素预测值的评价指标值。
一般地,每个要素抽取子结果中都包含有多个预测出的要素。因此,可以计算每个要素抽取子结果中各要素预测值的评价指标值进行计算。例如,在一示例性实施例中,业务方总共提出了20个要素要抽取,其中包括“授信客户名称”、“业务品种”、“币种”、“金额”等。相应的,可以计算每个要素抽取子结果中的“授信客户名称”、“业务品种”、“币种”、“金额”的评价指标值。在本说明书一实施例中,评价指标值例如可以包括但不限于准确率、召回率、置信度等。
(2)、将各个要素抽取子结果中,对应于同一要素的要素预测值的评价指标值进行排序。
例如,在一示例性实施例中,业务方总共提出了20个要素要抽取,其中包括“授信客户名称”、“业务品种”、“币种”、“金额”等。以“授信客户名称”的评价指标值为例,可以对上文计算出的每个要素抽取子结果中的“授信客户名称”的评价指标值进行排序,以找到其中评价指标值最高的“授信客户名称”。
(3)、根据排序结果确定该要素的抽取结果。
在本说明书一实施例中,根据排序结果确定该要素的抽取结果是指,将每个排序结果中,价指标值最高的要素确定为目标文本中对应该要素的要素抽取结果。例如,在一示例性实施例中,业务方总共提出了20个要素要抽取,其中包括“授信客户名称”、“业务品种”、“币种”、“金额”等。第二命名实体识别模型在“授信客户名称”、“业务品种”、“币种”、“金额”等12个抽取要素上的评价指标值最高,而第一命名实体识别模型在“币种”、“金额”等另外8个抽取要素上的评价指标值最高。在此情况下,可以将第二命名实体识别模型预测出的上述12个要素,以及第一命名实体识别模型预测出的上述8个要素组合在一起,共同作为20个要抽取要素的要素抽取结果。
在本说明书另一实施例中,还可以进一步对目标文本的要素抽取结果进行评价,以用于监控命名实体识别模型的稳定性等性能,从而可以为后续可能改进命名实体识别模型提供参考依据。
与上述基于多模型的要素抽取方法对应,本说明书还提供了基于多模型的要素抽取装置。参考图4所示,在本说明书一些实施例中,所述基于多模型的要素抽取装置可以包括:
文本获取模块41,可以用于获取目标文本;
实体识别模块42,可以用于将所述目标文本分别输入多个命名实体识别模型中进行命名实体识别,以获得对应于所述目标文本的多个要素抽取子结果;
组合预测模块43,可以用于将所述多个要素抽取子结果进行组合预测,获得所述目标文本的要素抽取结果。
在本说明书一要素抽取装置实施例中,所述多个命名实体识别模型可以包括:
第一命名实体识别模型,其包括设定的正则表达式及要素抽取逻辑;
第二命名实体识别模型,其通过训练深度学习模型得到。
在本说明书一要素抽取装置实施例中,所述第二命名实体识别模型可以通过以下方式训练得到:
将获取的文本转换为标准格式训练集数据;所述标准格式训练集数据包括多维度的标签序列;
利用所述多个维度的标签序列对应对包含多个分支结构的深度学习模型进行训练,并计算每训练轮次后各个分支结构的损失函数值;
当各个分支结构的损失函数值的平均值为最小时,将对应训练轮次后的深度学习模型作为第二命名实体识别模型。
在本说明书一要素抽取装置实施例中,所述将获取的文本转换为标准格式训练集数据,可以包括:
预处理获取到的文本;
对预处理后的文本进行多维度标注,生成标签文本;
将所述标签文本分别转换为基于单个字的词向量,以及基于N个相邻字的N元语法词向量;其中N为大于或等于二的正整数;
将所述词向量及所述N元语法词向量进行特征融合,得到词向量矩阵;所述词向量矩阵包含所述多维度的标签序列。
在本说明书一要素抽取装置实施例中,所述将所述多个要素抽取子结果进行组合预测,获得所述目标文本的要素抽取结果,可以包括:
确定每个要素抽取子结果中各要素预测值的评价指标值;
将各个要素抽取子结果中,对应于同一要素的要素预测值的评价指标值进行排序;
根据排序结果确定该要素的抽取结果。
在本说明书一要素抽取装置实施例中,所述评价指标值可以包括置信度。
在本说明书一要素抽取装置实施例中,所述第二命名实体识别模型包括以下依次相连的多个层:
一个嵌入层;
至少一个人工神经网络层;以及,
至少一个条件随机场层。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
虽然上文描述的过程流程包括以特定顺序出现的多个操作,但是,应当清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
与上述基于多模型的要素抽取方法对应,本说明书还提供了一种计算机设备。如图5所示,在本说明书一些实施例中,所述计算机设备502可以包括一个或多个处理器504,诸如一个或多个中央处理单元(CPU)或图形处理器(GPU),每个处理单元可以实现一个或多个硬件线程。计算机设备502还可以包括任何存储器506,其用于存储诸如代码、设置、数据等之类的任何种类的信息,一具体实施方式中,存储器506上并可在处理器504上运行的计算机程序,所述计算机程序被所述处理器504运行时,可以执行根据上述方法的指令。非限制性的,比如,存储器506可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备502的固定或可移除部件。在一种情况下,当处理器504执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备502可以执行相关联指令的任一操作。计算机设备502还包括用于与任何存储器交互的一个或多个驱动机构508,诸如硬盘驱动机构、光盘驱动机构等。
计算机设备502还可以包括输入/输出模块510(I/O),其用于接收各种输入(经由输入设备512)和用于提供各种输出(经由输出设备514)。一个具体输出机构可以包括呈现设备516和相关联的图形用户接口518(GUI)。在其他实施例中,还可以不包括输入/输出模块510(I/O)、输入设备512以及输出设备514,仅作为网络中的一台计算机设备。计算机设备502还可以包括一个或多个网络接口520,其用于经由一个或多个通信链路522与其他设备交换数据。一个或多个通信总线524将上文所描述的部件耦合在一起。
通信链路522可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路522可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
本申请是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理器的处理器以产生一个机器,使得通过计算机或其他可编程数据处理器的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理器以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理器上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算机设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理器来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于多模型的要素抽取方法,其特征在于,包括:
获取目标文本;
将所述目标文本分别输入多个命名实体识别模型中进行命名实体识别,以获得对应于所述目标文本的多个要素抽取子结果;
将所述多个要素抽取子结果进行组合预测,获得所述目标文本的要素抽取结果。
2.如权利要求1所述的基于多模型的要素抽取方法,其特征在于,所述多个命名实体识别模型包括:
第一命名实体识别模型,其包括设定的正则表达式及要素抽取逻辑;
第二命名实体识别模型,其通过训练深度学习模型得到。
3.如权利要求2所述的基于多模型的要素抽取方法,其特征在于,所述第二命名实体识别模型通过以下方式训练得到:
将获取的文本转换为标准格式训练集数据;所述标准格式训练集数据包括多维度的标签序列;
利用所述多个维度的标签序列对应对包含多个分支结构的深度学习模型进行训练,并计算每训练轮次后各个分支结构的损失函数值;
当各个分支结构的损失函数值的平均值为最小时,将对应训练轮次后的深度学习模型作为第二命名实体识别模型。
4.如权利要求3所述的基于多模型的要素抽取方法,其特征在于,所述将获取的文本转换为标准格式训练集数据,包括:
预处理获取到的文本;
对预处理后的文本进行多维度标注,生成标签文本;
将所述标签文本分别转换为基于单个字的词向量,以及基于N个相邻字的N元语法词向量;其中N为大于或等于二的正整数;
将所述词向量及所述N元语法词向量进行特征融合,得到词向量矩阵;所述词向量矩阵包含所述多维度的标签序列。
5.如权利要求1所述的基于多模型的要素抽取方法,其特征在于,所述将所述多个要素抽取子结果进行组合预测,获得所述目标文本的要素抽取结果,包括:
确定每个要素抽取子结果中各要素预测值的评价指标值;
将各个要素抽取子结果中,对应于同一要素的要素预测值的评价指标值进行排序;
根据排序结果确定该要素的抽取结果。
6.如权利要求5所述的基于多模型的要素抽取方法,其特征在于,所述评价指标值包括置信度。
7.如权利要求2所述的基于多模型的要素抽取方法,其特征在于,所述第二命名实体识别模型包括以下依次相连的多个层:
一个嵌入层;
至少一个人工神经网络层;以及,
至少一个条件随机场层。
8.一种基于多模型的要素抽取装置,其特征在于,包括:
文本获取模块,用于获取目标文本;
实体识别模块,用于将所述目标文本分别输入多个命名实体识别模型中进行命名实体识别,以获得对应于所述目标文本的多个要素抽取子结果;
组合预测模块,用于将所述多个要素抽取子结果进行组合预测,获得所述目标文本的要素抽取结果。
9.一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时,执行根据权利要求1-7任意一项所述方法的指令。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机设备的处理器运行时,执行根据权利要求1-7任意一项所述方法的指令。
CN202011326443.1A 2020-11-24 2020-11-24 基于多模型的要素抽取方法、装置、设备及存储介质 Active CN112434535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011326443.1A CN112434535B (zh) 2020-11-24 2020-11-24 基于多模型的要素抽取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011326443.1A CN112434535B (zh) 2020-11-24 2020-11-24 基于多模型的要素抽取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112434535A true CN112434535A (zh) 2021-03-02
CN112434535B CN112434535B (zh) 2023-05-02

Family

ID=74693802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011326443.1A Active CN112434535B (zh) 2020-11-24 2020-11-24 基于多模型的要素抽取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112434535B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158675A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 基于人工智能的实体抽取方法、装置、设备及介质
CN113158677A (zh) * 2021-05-13 2021-07-23 竹间智能科技(上海)有限公司 一种命名实体识别方法和系统
CN113220888A (zh) * 2021-06-01 2021-08-06 上海交通大学 基于Ernie模型的案件线索要素抽取方法及系统
CN113255322A (zh) * 2021-06-10 2021-08-13 深圳追一科技有限公司 事件抽取方法、装置、计算机设备和计算机可读存储介质
CN113688215A (zh) * 2021-08-03 2021-11-23 上海浦东发展银行股份有限公司 信息抽取、模型训练方法、装置、计算机设备和存储介质
CN113779994A (zh) * 2021-08-25 2021-12-10 上海浦东发展银行股份有限公司 一种要素抽取方法、装置、计算机设备和存储介质
CN113869027A (zh) * 2021-08-26 2021-12-31 盐城金堤科技有限公司 用于获取文本信息的方法及装置
CN114265919A (zh) * 2021-12-24 2022-04-01 中电信数智科技有限公司 一种实体提取方法、装置、电子设备及存储介质
CN118378627A (zh) * 2024-05-09 2024-07-23 北京博瑞彤芸科技股份有限公司 一种中医药命名实体识别方法、装置及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299221A (zh) * 2018-09-04 2019-02-01 广州神马移动信息科技有限公司 实体抽取和排序方法与装置
CN110287481A (zh) * 2019-05-29 2019-09-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 命名实体语料标注训练系统
CN110717045A (zh) * 2019-10-15 2020-01-21 同方知网(北京)技术有限公司 一种基于信访信件概况的信件要素自动提取方法
WO2020108483A1 (zh) * 2018-11-28 2020-06-04 腾讯科技(深圳)有限公司 模型训练方法、机器翻译方法、计算机设备和存储介质
CN111444713A (zh) * 2019-01-16 2020-07-24 清华大学 新闻事件内实体关系抽取方法及装置
CN111563380A (zh) * 2019-01-25 2020-08-21 浙江大学 一种命名实体识别方法及其装置
CN111694924A (zh) * 2020-06-17 2020-09-22 合肥中科类脑智能技术有限公司 一种事件抽取方法和系统
CN111783420A (zh) * 2020-06-19 2020-10-16 上海交通大学 基于bert模型的抗诉书要素抽取方法、系统、介质及设备
CN111967437A (zh) * 2020-09-03 2020-11-20 平安国际智慧城市科技股份有限公司 文本识别方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299221A (zh) * 2018-09-04 2019-02-01 广州神马移动信息科技有限公司 实体抽取和排序方法与装置
WO2020108483A1 (zh) * 2018-11-28 2020-06-04 腾讯科技(深圳)有限公司 模型训练方法、机器翻译方法、计算机设备和存储介质
CN111444713A (zh) * 2019-01-16 2020-07-24 清华大学 新闻事件内实体关系抽取方法及装置
CN111563380A (zh) * 2019-01-25 2020-08-21 浙江大学 一种命名实体识别方法及其装置
CN110287481A (zh) * 2019-05-29 2019-09-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 命名实体语料标注训练系统
CN110717045A (zh) * 2019-10-15 2020-01-21 同方知网(北京)技术有限公司 一种基于信访信件概况的信件要素自动提取方法
CN111694924A (zh) * 2020-06-17 2020-09-22 合肥中科类脑智能技术有限公司 一种事件抽取方法和系统
CN111783420A (zh) * 2020-06-19 2020-10-16 上海交通大学 基于bert模型的抗诉书要素抽取方法、系统、介质及设备
CN111967437A (zh) * 2020-09-03 2020-11-20 平安国际智慧城市科技股份有限公司 文本识别方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘炜等: "一种基于事件本体的文本事件要素提取方法", 《中文信息学报》 *
范意兴;郭嘉丰;兰艳艳;徐君;程学旗;: "基于上下文的深度语义句子检索模型" *
袁慧;马建霞;: "命名实体情报挖掘方法研究及其在图书馆中的发展" *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158675B (zh) * 2021-04-23 2024-04-02 平安科技(深圳)有限公司 基于人工智能的实体抽取方法、装置、设备及介质
CN113158675A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 基于人工智能的实体抽取方法、装置、设备及介质
CN113158677B (zh) * 2021-05-13 2023-04-07 竹间智能科技(上海)有限公司 一种命名实体识别方法和系统
CN113158677A (zh) * 2021-05-13 2021-07-23 竹间智能科技(上海)有限公司 一种命名实体识别方法和系统
CN113220888A (zh) * 2021-06-01 2021-08-06 上海交通大学 基于Ernie模型的案件线索要素抽取方法及系统
CN113255322A (zh) * 2021-06-10 2021-08-13 深圳追一科技有限公司 事件抽取方法、装置、计算机设备和计算机可读存储介质
CN113688215A (zh) * 2021-08-03 2021-11-23 上海浦东发展银行股份有限公司 信息抽取、模型训练方法、装置、计算机设备和存储介质
CN113688215B (zh) * 2021-08-03 2024-08-13 上海浦东发展银行股份有限公司 信息抽取、模型训练方法、装置、计算机设备和存储介质
CN113779994B (zh) * 2021-08-25 2024-01-23 上海浦东发展银行股份有限公司 一种要素抽取方法、装置、计算机设备和存储介质
CN113779994A (zh) * 2021-08-25 2021-12-10 上海浦东发展银行股份有限公司 一种要素抽取方法、装置、计算机设备和存储介质
CN113869027A (zh) * 2021-08-26 2021-12-31 盐城金堤科技有限公司 用于获取文本信息的方法及装置
CN114265919A (zh) * 2021-12-24 2022-04-01 中电信数智科技有限公司 一种实体提取方法、装置、电子设备及存储介质
CN118378627A (zh) * 2024-05-09 2024-07-23 北京博瑞彤芸科技股份有限公司 一种中医药命名实体识别方法、装置及存储介质

Also Published As

Publication number Publication date
CN112434535B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
Jung Semantic vector learning for natural language understanding
Dahouda et al. A deep-learned embedding technique for categorical features encoding
CN110110335B (zh) 一种基于层叠模型的命名实体识别方法
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
Prusa et al. Designing a better data representation for deep neural networks and text classification
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN116304748B (zh) 一种文本相似度计算方法、系统、设备及介质
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
Touati-Hamad et al. Arabic quran verses authentication using deep learning and word embeddings
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN113254590B (zh) 一种基于多核双层卷积神经网络的中文文本情绪分类方法
CN113901813A (zh) 一种基于主题特征和隐式句子结构的事件抽取方法
Shekhar et al. An effective bi-LSTM word embedding system for analysis and identification of language in code-mixed social media text in English and Roman Hindi
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN113051886A (zh) 一种试题查重方法、装置、存储介质及设备
CN114818711B (zh) 基于神经网络的多信息融合命名实体识别方法
Gatchalee et al. Thai text classification experiment using cnn and transformer models for timely-timeless content marketing
CN113312903B (zh) 一种5g移动业务产品词库的构建方法及系统
Ananth et al. Parts of speech tagging and extractive summarization techniques for Kannada documents
CN113191135A (zh) 一种融合颜文字的多类别情感提取方法
Sarker et al. Book review sentiment classification in bangla using deep learning and transformer model
İlgün et al. Sentiment Analysis using Transformers and Machine Learning Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant