CN111177326B - 基于精标注文本的关键信息抽取方法、装置及存储介质 - Google Patents
基于精标注文本的关键信息抽取方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111177326B CN111177326B CN202010280586.7A CN202010280586A CN111177326B CN 111177326 B CN111177326 B CN 111177326B CN 202010280586 A CN202010280586 A CN 202010280586A CN 111177326 B CN111177326 B CN 111177326B
- Authority
- CN
- China
- Prior art keywords
- key information
- text data
- information extraction
- text
- extraction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 91
- 238000002372 labelling Methods 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 52
- 239000011159 matrix material Substances 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000012163 sequencing technique Methods 0.000 claims abstract description 20
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 239000012634 fragment Substances 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 1
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及关键信息抽取技术领域,提出一种基于精标注文本的关键信息抽取方法、装置及存储介质,其中的方法包括:S110、通过BERT预训练模型对文本数据进行预训练获得词向量,将所获得的词向量组合成矩阵式文本数据;S120、将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息;S130、按照预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。本发明解决了对文本段片段进行自动标注的问题,大大降低了标注成本,达到了为下游任务提供了有力支持的技术效果。
Description
技术领域
本发明涉及关键信息抽取技术领域,尤其涉及一种基于精标注文本的关键信息抽取方法、系统、装置及存储介质。
背景技术
机器阅读理解,是指让机器通过阅读文本,回答内容相关的问题。目前,将待回答的问题和相关的阅读材料输入到训练完毕的阅读理解模型进行人工智能式阅读理解的应用越来越广泛。而现有的阅读理解模型是以问题为条件,在文本中标出正确答案,将提前标注好的关键句/段作为模型的输入,但是,关键片段的标注无法兼顾很多领域因而存在片面性,如果采用外包人工标注关键句/段的办法,则会大大增加时间和金钱成本。
为了实现对长文本中可作为答案的片段进行自动标注的目的,业界常见的解决方式为,通过监督方法或者无监督的方法进行关键片段的标注,但是,仍然存在以下弊端:
1)通过无监督方法进行关键片段的标注,仅可以标注出词语,无法标注出片段;2)有监督方法进行关键片段的标注,提取的内容也是词级别,无法标注出片段。
所以,亟需一种可以标注出片段的关键信息抽取的方法。
发明内容
本发明提供一种基于精标注文本的关键信息抽取方法、系统、电子装置及计算机可读存储介质,其主要通过BERT预训练模型和关键信息抽取模型解决了对文本段片段进行自动标注的问题。
为实现上述目的,本发明还提供一种基于精标注文本的关键信息抽取方法,应用于电子装置,方法包括:
S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量,将所获得的词向量组合成矩阵式文本数据;
S120、将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息;
S130、按照预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
进一步,优选的,在S120中,所述关键信息抽取模型根据所述矩阵式文本数据获得关键信息的方法包括:
S210、通过所述关键信息抽取模型的全连接层获得多组关键词,每组关键词均包含关键词起点和关键词终点;
S220、将所述多组关键词经过所述关键信息抽取模型的sigmoid层输出初步关键信息;
S230、将输出的初步关键信息利用所述关键信息抽取模型的交叉熵优化层进行优化后,获得关键信息。
进一步,优选的,所述全连接层包括起点全连接网络和终点全连接网络;所述起点全连接网络,用于将所述矩阵式文本数据转化为起点向量;所述终点全连接网络,用于将所述矩阵式文本数据转化为终点向量。
进一步,优选的,将关键信息抽取模型通过测试集进行测试,选取em值大于设定阈值的关键信息抽取模型作为训练好的关键信息抽取模型;
进一步,优选的,所述BERT预训练模型将所述文本数据的字符进行一维向量表示,将所述一维向量按照字符排列顺序形成二维向量的矩阵式文本数据。
进一步,优选的,在通过BERT预训练模型对文本数据进行预训练获得词向量之前还包括对所述文本数据的清洗步骤,所述清洗步骤包括对所述文本数据的分段、去除过短语料和去除有误语料。
为实现上述目的,本发明提供一种基于精标注文本的关键信息抽取系统,包括预训练单元、关键信息获得单元和关键信息输出单元;
所述预训练单元,用于通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量,将所获得的词向量组合成矩阵式文本数据;
所述关键信息获得单元,用于将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息;
所述关键信息输出单元,用于按照预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
进一步,优选的,所述关键信息获得单元包括多组关键词获取模块、初步关键信息获取模块和关键信息获取模块;
所述多组关键词获取模块,用于通过所述关键信息抽取模型的全连接层获得多组关键词,每组关键词均包含关键词起点和关键词终点;
所述初步关键信息获取模块,用于将所述多组关键词经过所述关键信息抽取模型的sigmoid层输出初步关键信息;
所述关键信息获取模块,用于将输出的初步关键信息利用所述关键信息抽取模型的交叉熵优化层进行优化后,获得关键信息。
为实现上述目的,本发明提供一种电子装置,该电子装置包括:存储器、处理器,所述存储器中存储有基于精标注文本的关键信息抽取程序,所述基于精标注文本的关键信息抽取程序被所述处理器执行时实现如下步骤:
S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量,将所获得的词向量组合成矩阵式文本数据;
S120、将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息;
S130、按照预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括基于精标注文本的关键信息抽取程序,所述基于精标注文本的关键信息抽取程序被处理器执行时,实现上述的基于精标注文本的关键信息抽取方法的步骤。
本发明提出的基于精标注文本的关键信息抽取方法、系统、电子装置及计算机可读存储介质,通过将阅读理解模型的输入改变为长文本以及空字符串(即将问题替换为空字符串),并对阅读理解模型进行训练使其学习到标准答案的特征,从而输出文本中对应的片段作为回答,彻底改变了以往输入文本加问题而输出答案的模式;其有益效果如下:
1)、以阅读理解模型为基本思路进行的改进,将以往以词、句、段为单位标注的关键信息,转换为标注一个连续的片段;
2)、解决了对文本段片段进行自动标注的问题;
3)、大大降低了标注成本,为下游任务提供了有力的支持。
附图说明
图1为本发明基于精标注文本的关键信息抽取方法较佳实施例的流程图;
图2为本发明的关键信息抽取模型获得关键信息方法的较佳实施例的流程图;
图3为本发明的基于精标注文本的关键信息抽取系统的较佳实施例的结构示意图;
图4为本发明的电子装置的较佳实施例的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
阅读理解模型是以问题为条件(或者说输入的是长文本以及问题),在文本中标出正确答案(输出的是文本中对应的作为回答的片段);现有的阅读理解模型是将提前标注好的关键句/段作为模型的输入,而人为标注关键片段存在片面性较大的弊端。
本发明利用BERT(Bidirectional Encoder Representation from Transformer,双向注意力神经网络模型)预训练模型对文本数据进行预训练,然后输入关键信息抽取模型,从而输出文本数据中的关键信息作为回答。
具体地说,与传统的阅读理解模型的输入文本加问题,而输出答案的模式不同,本发明的关键信息抽取模型,输入的是文本,而输出的是关键信息;这里的关键信息是作为答案候选的,也就是说,关键信息某种程度上是阅读理解输出的答案的子集。需要说明的是,本发明的基于精标注文本的关键信息抽取方法由于是无监督的,也不需要问题作为输入,因此输出的关键信息覆盖的范围比答案更广。
本发明提供一种基于精标注文本的关键信息抽取方法。图1示出了根据本发明基于精标注文本的关键信息抽取方法较佳实施例的流程。参照图1所示,该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
以“2018年的dota2世界邀请赛的冠军是OG战队”为例,若采用传统的阅读理解模型,则输入为:文本--“2018年的dota2世界邀请赛的冠军是OG战队”+问题--“2018年冠军是谁”;输出为:答案--“OG战队”。
而若采取本发明的关键信息抽取模型的话,输入为:“2018年的dota2世界邀请赛的冠军是OG战队”;输出的关键信息为:“2018年,dota2世界邀请赛,OG战队”。
在本实施例中,基于精标注文本的关键信息抽取方法包括:步骤S110-步骤S130。
S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量,将所获得的词向量组合成矩阵式文本数据。
具体地说, BERT(Bidirectional Encoder Representation from Transformer,
双向注意力神经网络模型)是一个句子级别的语言模型,不像ELMo模型在与下游具体NLP任
务拼接时需要每层加上权重做全局池化,BERT可以直接获得一整个句子的唯一向量表示。
它在每个input前面加一个特殊的记号,然后让Transformer对进行深度
encoding,由于Transformer是可以无视空间和距离的把全局信息encoding进每个位置的,
而的最高隐层作为句子/句对的表示直接跟softmax的输出层连接,因此其作为梯度
反向传播路径上的“关卡”,可以学到整个input的上层特征。因此BERT模型可以进一步增加
词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。
需要说明的是,BERT预训练模型获得词向量的过程是先进行分词,再将分词后的文档进行预训练生成训练词向量。也就是说,首先得出所有字符的低维向量表示方法,然后将所述低维向量组合成一个二维向量,即可获得一句话的矩阵表示。
下面以“15岁以下的学生”这句话为例进行详细说明。
首先,“1”、“5”、“岁”、“以”、“下”、“的”、“学”、“生”都可以使用一个向量进行表示,然后将上述向量组合成二维向量,从而获得这句话的矩阵表示。具体地说,就是通过BERT模型可以生成上述8个词分别对应的d维词向量,然后将这八个拼接起来形成一个8*d的矩阵,这个矩阵可以唯一的表示上述文本,即矩阵式文本数据。
总的来说,所述BERT预训练模型通过将所述文本数据的字符进行一维向量表示,将所述一维向量按照字符排列顺序形成二维向量的矩阵式文本数据。
在一个具体实施例中,在步骤S110之前,还包括对所述文本数据进行预处理步骤,所述预处理包括清洗处理。具体地说,这里的清洗指的是垂直数据语料的预处理。如前所述,BERT预训练模型应用在垂直数据上,而这些数据(法律、医药、新闻等)不够整洁,因此需要对它们进行处理以满足模型的输入(清洗是清洗测试数据,而非训练数据)。
清洗:包括分段、去除过短语料、清除有误预料。
分段:如前所述,BERT预训练模型需要输入一段文本,然后输出其关键字。需要对输入文本最大长度进行限制,所以将所有输入文本标准化为该长度(该参数设置成512,假设某段不足512个token,则用空白将其补全,这样所有的输入都被标准化为同一个长度了)。而显然地,这些垂直数据长度绝大多数都超过512,因此把它按照段落进行分开重新组合,保证每一段的长度都在规定的限制内,且同时尽可能地保留上下文的语义连贯性。
去除过短的预料:由于各种可能的原因,极小部分数据可能是空,或者篇幅特别短,这部分数据对于下游工作没有帮助,因此在这步直接将其筛选掉。
S120、将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息。
其中,CMRC( Chinese Machine Reading Comprehension)中文机器阅读理解,机器阅读理解(Machine Reading Comprehension)指的是,让机器像人一样去读懂一段文字,并回答相应问题。常见的机器阅读理解形式有完形填空式,选择题式和知名度最广的抽取式,从抽取文档篇数又可细分为多文档(如 MS MARCO)和单文档(SQuAD)。
模型训练过程中留出的样本集,用于调整模型的超参数以及评估模型的能力。是用于评估最终模型的性能,帮助对比多个最终模型并作出选择。用留出的样本对模型能力进行评估的结果偏差更小。将训练样本分为训练集和验证集,模型在训练集上进行拟合,然后使用拟合后的模型对验证集中保留的数据样本进行预测,并定量地计算模型验证误差,通常使用MSE对错误率进行评估,评估生成的验证集错误率即测试错误率。
在一个具体实施例中,利用测试集对训练好的关键信息抽取模型进行测试,获得em值。
即将关键信息抽取模型通过测试集进行测试,选取em值大于设定阈值的关键信息抽取模型作为训练好的关键信息抽取模型;
n为标准答案数量,为所述关 键信息抽取模型所获得的关键信息中包含的标
准答案的数量。即若一篇文本有n个标准答案,输入这篇文本后,模型生成的个答案
组成了一个集合K,假设在n个答案中,有个答案存在于集合K中,则。
需要说明的是,利用CMRC数据集对关键信息抽取模型进行训练。CMRC数据集中的每个文档中均包括多个问答对,将所述问答对中的问题去除;仅剩文档以及答案,将仅剩文档-答案的CMRC作为数据集,训练上述关键信息抽取模型。即,以去除问题的CMRC数据集作为关键信息抽取模型的训练集。
图2示出了根据本发明的关键信息抽取模型获得关键信息方法的较佳实施例的流程图;关键信息抽取模型包括全连接层、sigmoid层和交叉熵优化层。参照图2所示,关键信息抽取模型获得关键信息的方法包括步骤S210-步骤S230:
S210、通过所述关键信息抽取模型的全连接层获得多组关键词,每组关键词均包含关键词起点和关键词终点。
所述全连接层包括起点全连接网络和终点全连接网络;所述起点全连接网络,用于将所述矩阵式文本数据转化为起点向量;所述终点全连接网络,用于将所述矩阵式文本数据转化为终点点向量。
具体地说,对生成的文本的矩阵通过一个表示起点的全连接层(即起点全连接网
络),得到一个长度为l的向量,并将向量命名为;同理通过一个表示终点的全
连接层(即终点全连接网络),得到另一个命名为的向量;也就是通过起点全
连接网络和终点全连接网络两个全连接网络进行预测关键词的起点和终点。
输入P表示为原文文本,并且在文本输入前,在文本的前后添加token进行标记;
继续以内容就是“15岁以下的学生”为例:
S220、将所述多组关键词经过所述关键信息抽取模型的sigmoid层输出初步关键信息;
需要说明的是,通过步骤S210得到了文本数据中的每组关键词的起点值和终点值
(即,作为起点和终点的可能性),例如s和e。即确认了首字符和末字符,从而确定了结果文
本。为了控制结果文本的长度,在一定的长度范围内计算
所有组合中,首字符的起点值与末字符的终点值之和即C,然后通过各关键词的C的得分进
行排序。
S230、将输出的初步关键信息利用所述关键信息抽取模型的交叉熵优化层进行优化后,获得关键信息。
下面通过一个具体的实施例利用公式对关键信息抽取模型的关键信息抽取流程进行说明:
假设d为词嵌入维度,l为文本最大长度,s为该关键信息的起始点,e为该关键信息的终点。
S130、根据预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
之前的网络已经表明,得到了文本中的每个关键词的起点值和终点值(即,作为起
点和终点的可能性)。显然地,确认了首字符和末字符,即确定了结果文本。为了控制结果的
长度,在一定的长度范围内计算所有组合中,首字符的起点值与
末字符的终点值之和。
然后根据预设排序规则对所获得的每个关键词的首字符的起点值与末字符的终点值之和进行排序;需要说明的是预设的排序规则,在具体实施过程中,是将所获得的关键词的首字符的起点值与末字符的终点值之和按照从大到小的降序排列。也就是说,因为k值比较小,所以遍历topK结果对应的值,然后对它们进行排序。
对于所获得的关键词的首字符的起点值与末字符的终点值之和按照从大到小的
降序排列后,将符合设定选取规则的关键信息作为输出。需要说明的是,选取规则在具体的
实施过程中,是采用方式,也就是说关键词的首字符的起点值与末字符的终点值之
和按照从大到小的降序排列后,选择排名前K的关键词作为最终关键词的答案。
总的来说,本发明的关键信息抽取模型训练的目标确实是CMRC数据集的答案,但是却没有利用CMRC数据集里的“问题”这个信息,并且输出的最终结果也不是唯一的答案,而是top20的关键信息,也就是说,在没有问题的基础上,输出所有具有答案潜力的候选答案作为关键信息。
图3示出了本发明的神经网络模型的较佳实施例的结构;参照图3所示,本发明提供一种基于精标注文本的关键信息抽取系统300,包括预训练单元310、关键信息获得单元320和关键信息输出单元330。
所述预训练单元310,用于通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量,将所获得的词向量组合成矩阵式文本数据;
所述关键信息获得单元320,用于将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息;
所述关键信息输出单元330,用于通过按照预设的排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
所述关键信息获得单元320包括多组关键词获取模块321、初步关键信息获取模块322和关键信息获取模块323;
所述多组关键词获取模块321,用于通过所述关键信息抽取模型的全连接层获得多组关键词,每组关键词均包含关键词起点和关键词终点;
所述初步关键信息获取模块322,用于将所述多组关键词经过所述关键信息抽取模型的sigmoid层输出初步关键信息;
所述关键信息获取模块323,用于将输出的初步关键信息利用所述关键信息抽取模型的交叉熵优化层进行优化后,获得关键信息。
综上所述,本发明的基于精标注文本的关键信息抽取系统通过BERT预训练模型和关键信息抽取模型,实现了输入文本而输出文本中对应的片段(关键信息),彻底改变了以往输入文本加问题而输出答案的模式。
本发明提供一种基于精标注文本的关键信息抽取方法,应用于一种电子装置4。
图4示出了根据本发明基于精标注文本的关键信息抽取方法较佳实施例的应用环境。
参照图4所示,在本实施例中,电子装置4可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置4包括:处理器42、存储器41、通信总线43及网络接口44。
存储器41包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器41等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置4的内部存储单元,例如该电子装置4的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置4的外部存储器41,例如所述电子装置4上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(SecureDigital, SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器41的可读存储介质通常用于存储安装于所述电子装置4的基于精标注文本的关键信息抽取程序40等。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
处理器42在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器41中存储的程序代码或处理数据,例如执行基于精标注文本的关键信息抽取程序40等。
通信总线43用于实现这些组件之间的连接通信。
网络接口44可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置4与其他电子设备之间建立通信连接。
图4仅示出了具有组件41-44的电子装置4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置4还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置4还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置4中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置4还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。
在图4所示的装置实施例中,作为一种计算机存储介质的存储器41中可以包括操作系统、以及基于精标注文本的关键信息抽取程序40;处理器42执行存储器41中存储的基于精标注文本的关键信息抽取程序40时实现如下步骤:
S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量,将所获得的词向量组合成矩阵式文本数据;
S120、将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息;
S130、按照预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
在其他实施例中,基于精标注文本的关键信息抽取程序40还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器41中,并由处理器42执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。基于精标注文本的关键信息抽取程序40可以包括预训练单元310、关键信息获得单元320和关键信息输出单元330。
此外,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质中包括基于精标注文本的关键信息抽取程序,所述基于精标注文本的关键信息抽取程序被处理器执行时实现如下操作:S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量,将所获得的词向量组合成矩阵式文本数据;S120、将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息;S130、按照预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
本发明之计算机可读存储介质的具体实施方式与上述基于精标注文本的关键信息抽取方法、电子装置的具体实施方式大致相同,在此不再赘述。
总的来说,本发明基于精标注文本的关键信息抽取方法、系统、电子装置及计算机可读存储介质以阅读理解模型为基本思路进行的改进,将以往以词、句、段为单位标注的关键信息,转换为标注一个连续的片段;解决了对文本段片段进行自动标注的问题;大大降低了标注成本,达到了为下游任务提供有力支持的技术效果。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于精标注文本的关键信息抽取方法,应用于电子装置,其特征在于,所述方法包括:
S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据中每个字的词向量,将所获得的每个字的词向量组合成矩阵式文本数据;
S120、将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息及其可能性分值,所述关键信息包括关键词或者关键句段;其中,所述关键信息的可能性分值为所述关键信息中首字符的起点值与末字符的终点值之和;
S130、按照关键信息的可能性分值的预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
2.根据权利要求1所述的基于精标注文本的关键信息抽取方法,其特征在于,在S120中,所述关键信息抽取模型根据所述矩阵式文本数据获得关键信息的方法包括:
S210、通过所述关键信息抽取模型的全连接层获得多组关键词,每组关键词均包含关键词起点和关键词终点;
S220、将所述多组关键词经过所述关键信息抽取模型的sigmoid层输出初步关键信息;
S230、将输出的初步关键信息利用所述关键信息抽取模型的交叉熵优化层进行优化后,获得关键信息。
3.根据权利要求2所述的基于精标注文本的关键信息抽取方法,其特征在于,
所述全连接层包括起点全连接网络和终点全连接网络;所述起点全连接网络,用于将所述矩阵式文本数据转化为起点向量;所述终点全连接网络,用于将所述矩阵式文本数据转化为终点向量。
5.根据权利要求1所述的基于精标注文本的关键信息抽取方法,其特征在于,所述BERT预训练模型将所述文本数据的字符进行一维向量表示,将所述一维向量按照字符排列顺序形成二维向量的矩阵式文本数据。
6.根据权利要求1所述的基于精标注文本的关键信息抽取方法,其特征在于,在通过BERT预训练模型对文本数据进行预训练获得词向量之前还包括对所述文本数据的清洗步骤,所述清洗步骤包括对所述文本数据的分段、去除过短语料和去除有误语料。
7.一种基于精标注文本的关键信息抽取系统,其特征在于,
包括预训练单元、关键信息获得单元和关键信息输出单元;
所述预训练单元,用于通过BERT预训练模型对文本数据进行预训练获得所述文本数据中每个字的词向量,将所获得的中每个字的词向量组合成矩阵式文本数据;
所述关键信息获得单元,用于将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息及其可能性分值,所述关键信息包括关键词或者关键句段;其中,所述关键信息的可能性分值为所述关键信息中首字符的起点值与末字符的终点值之和;
所述关键信息输出单元,用于按照关键信息的可能性分值的预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
8.根据权利要求7所述的一种基于精标注文本的关键信息抽取系统,其特征在于,所述关键信息获得单元包括多组关键词获取模块、初步关键信息获取模块和关键信息获取模块;
所述多组关键词获取模块,用于通过所述关键信息抽取模型的全连接层获得多组关键词,每组关键词均包含关键词起点和关键词终点;
所述初步关键信息获取模块,用于将所述多组关键词经过所述关键信息抽取模型的sigmoid层输出初步关键信息;
所述关键信息获取模块,用于将输出的初步关键信息利用所述关键信息抽取模型的交叉熵优化层进行优化后,获得关键信息。
9.一种电子装置,其特征在于,该电子装置包括:存储器、处理器,所述存储器中存储有基于精标注文本的关键信息抽取程序,所述基于精标注文本的关键信息抽取程序被所述处理器执行时实现如下步骤:
S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据中每个字的词向量,将所获得的中每个字的词向量组合成矩阵式文本数据;
S120、将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息及其可能性分值,所述关键信息包括关键词或者关键句段;其中,所述关键信息的可能性分值为所述关键信息中首字符的起点值与末字符的终点值之和;
S130、按照关键信息的可能性分值的预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括基于精标注文本的关键信息抽取程序,所述基于精标注文本的关键信息抽取程序被处理器执行时,实现如权利要求1至6中任一项所述的基于精标注文本的关键信息抽取方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010280586.7A CN111177326B (zh) | 2020-04-10 | 2020-04-10 | 基于精标注文本的关键信息抽取方法、装置及存储介质 |
PCT/CN2020/103933 WO2021203581A1 (zh) | 2020-04-10 | 2020-07-24 | 基于精标注文本的关键信息抽取方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010280586.7A CN111177326B (zh) | 2020-04-10 | 2020-04-10 | 基于精标注文本的关键信息抽取方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111177326A CN111177326A (zh) | 2020-05-19 |
CN111177326B true CN111177326B (zh) | 2020-08-04 |
Family
ID=70645903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010280586.7A Active CN111177326B (zh) | 2020-04-10 | 2020-04-10 | 基于精标注文本的关键信息抽取方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111177326B (zh) |
WO (1) | WO2021203581A1 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177326B (zh) * | 2020-04-10 | 2020-08-04 | 深圳壹账通智能科技有限公司 | 基于精标注文本的关键信息抽取方法、装置及存储介质 |
CN111753546B (zh) * | 2020-06-23 | 2024-03-26 | 深圳市华云中盛科技股份有限公司 | 文书信息抽取方法、装置、计算机设备及存储介质 |
CN111723182B (zh) * | 2020-07-10 | 2023-12-08 | 云南电网有限责任公司曲靖供电局 | 一种用于漏洞文本的关键信息抽取方法及装置 |
CN112182141A (zh) * | 2020-09-25 | 2021-01-05 | 中国建设银行股份有限公司 | 一种关键信息抽取方法、装置、设备和可读存储介质 |
CN114586038B (zh) * | 2020-09-28 | 2024-08-27 | 京东方科技集团股份有限公司 | 事件抽取和抽取模型训练的方法和装置、设备、介质 |
CN112329477A (zh) * | 2020-11-27 | 2021-02-05 | 上海浦东发展银行股份有限公司 | 基于预训练模型的信息抽取方法、装置、设备及存储介质 |
CN113361261B (zh) * | 2021-05-19 | 2022-09-09 | 重庆邮电大学 | 一种基于enhance matrix的法律案件候选段落的选取方法及装置 |
CN113505207B (zh) * | 2021-07-02 | 2024-02-20 | 中科苏州智能计算技术研究院 | 一种金融舆情研报的机器阅读理解方法及系统 |
CN113536735B (zh) * | 2021-09-17 | 2021-12-31 | 杭州费尔斯通科技有限公司 | 一种基于关键词的文本标记方法、系统和存储介质 |
CN113779182B (zh) * | 2021-11-12 | 2022-02-15 | 航天宏康智能科技(北京)有限公司 | 从文本数据抽取事件的方法及装置 |
CN113806548A (zh) * | 2021-11-19 | 2021-12-17 | 北京北大软件工程股份有限公司 | 基于深度学习模型的信访要素抽取方法及抽取系统 |
CN114067256B (zh) * | 2021-11-24 | 2023-09-12 | 西安交通大学 | 一种基于Wi-Fi信号的人体关键点检测方法及系统 |
CN114090776A (zh) * | 2021-11-26 | 2022-02-25 | 北京金山数字娱乐科技有限公司 | 文档解析方法、系统及装置 |
CN114254633A (zh) * | 2021-12-14 | 2022-03-29 | 科大讯飞股份有限公司 | 一种关键词抽取方法、装置、设备及存储介质 |
CN114239566B (zh) * | 2021-12-14 | 2024-04-23 | 公安部第三研究所 | 基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质 |
CN114490388A (zh) * | 2022-01-27 | 2022-05-13 | 广西教育学院 | 一种基于代码片段的深度学习智能合约漏洞检测方法 |
CN114818685B (zh) * | 2022-04-21 | 2023-06-20 | 平安科技(深圳)有限公司 | 关键词提取方法、装置、电子设备及存储介质 |
CN114898829A (zh) * | 2022-06-01 | 2022-08-12 | 昆明理工大学 | 一种静脉血栓栓塞症危险因素抽取的方法 |
CN115292469B (zh) * | 2022-09-28 | 2023-02-07 | 之江实验室 | 一种结合段落搜索和机器阅读理解的问答方法 |
CN115809665B (zh) * | 2022-12-13 | 2023-07-11 | 杭州电子科技大学 | 一种基于双向多粒度注意力机制的无监督关键词抽取方法 |
CN115964474A (zh) * | 2022-12-29 | 2023-04-14 | 企知道网络技术有限公司 | 一种政策关键词抽取方法、装置、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108519890A (zh) * | 2018-04-08 | 2018-09-11 | 武汉大学 | 一种基于自注意力机制的鲁棒性代码摘要生成方法 |
CN108536678A (zh) * | 2018-04-12 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 文本关键信息提取方法、装置、计算机设备和存储介质 |
CN110390108A (zh) * | 2019-07-29 | 2019-10-29 | 中国工商银行股份有限公司 | 基于深度强化学习的任务型交互方法和系统 |
CN110413743A (zh) * | 2019-08-09 | 2019-11-05 | 安徽科大讯飞医疗信息技术有限公司 | 一种关键信息抽取方法、装置、设备及存储介质 |
US10482886B2 (en) * | 2017-08-05 | 2019-11-19 | Fu Tai Hua Industry (Shenzhen) Co., Ltd. | Interactive robot and human-robot interaction method |
CN110929094A (zh) * | 2019-11-20 | 2020-03-27 | 北京香侬慧语科技有限责任公司 | 一种视频标题处理方法和装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107436900B (zh) * | 2016-05-26 | 2022-08-09 | 北京搜狗科技发展有限公司 | 基于搜索引擎的信息处理方法和装置 |
CN108664473A (zh) * | 2018-05-11 | 2018-10-16 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN110888966B (zh) * | 2018-09-06 | 2024-05-10 | 微软技术许可有限责任公司 | 自然语言问答 |
KR102128549B1 (ko) * | 2018-09-19 | 2020-07-08 | 주식회사 포티투마루 | 인공 지능 질의 응답 시스템, 방법 및 컴퓨터 프로그램 |
CN109614614B (zh) * | 2018-12-03 | 2021-04-02 | 焦点科技股份有限公司 | 一种基于自注意力的bilstm-crf产品名称识别方法 |
CN110263123B (zh) * | 2019-06-05 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 机构名简称的预测方法、装置和计算机设备 |
CN110442691A (zh) * | 2019-07-04 | 2019-11-12 | 平安科技(深圳)有限公司 | 机器阅读理解中文的方法、装置和计算机设备 |
CN110968667B (zh) * | 2019-11-27 | 2023-04-18 | 广西大学 | 一种基于文本状态特征的期刊文献表格抽取方法 |
CN111177326B (zh) * | 2020-04-10 | 2020-08-04 | 深圳壹账通智能科技有限公司 | 基于精标注文本的关键信息抽取方法、装置及存储介质 |
-
2020
- 2020-04-10 CN CN202010280586.7A patent/CN111177326B/zh active Active
- 2020-07-24 WO PCT/CN2020/103933 patent/WO2021203581A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10482886B2 (en) * | 2017-08-05 | 2019-11-19 | Fu Tai Hua Industry (Shenzhen) Co., Ltd. | Interactive robot and human-robot interaction method |
CN108519890A (zh) * | 2018-04-08 | 2018-09-11 | 武汉大学 | 一种基于自注意力机制的鲁棒性代码摘要生成方法 |
CN108536678A (zh) * | 2018-04-12 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 文本关键信息提取方法、装置、计算机设备和存储介质 |
CN110390108A (zh) * | 2019-07-29 | 2019-10-29 | 中国工商银行股份有限公司 | 基于深度强化学习的任务型交互方法和系统 |
CN110413743A (zh) * | 2019-08-09 | 2019-11-05 | 安徽科大讯飞医疗信息技术有限公司 | 一种关键信息抽取方法、装置、设备及存储介质 |
CN110929094A (zh) * | 2019-11-20 | 2020-03-27 | 北京香侬慧语科技有限责任公司 | 一种视频标题处理方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于改进R-NET的中文机器阅读理解;潘峰;《万方数据知识服务平台》;20200402;全文 * |
Also Published As
Publication number | Publication date |
---|---|
WO2021203581A1 (zh) | 2021-10-14 |
CN111177326A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177326B (zh) | 基于精标注文本的关键信息抽取方法、装置及存储介质 | |
CN109241524B (zh) | 语义解析方法及装置、计算机可读存储介质、电子设备 | |
CN111651996B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN112149421A (zh) | 一种基于bert嵌入的软件编程领域实体识别方法 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN111462752B (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN110929524A (zh) | 数据筛选方法、装置、设备及计算机可读存储介质 | |
CN115310443A (zh) | 模型训练方法、信息分类方法、装置、设备及存储介质 | |
CN113312899A (zh) | 文本分类方法、装置和电子设备 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
CN110969005B (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN114722832A (zh) | 一种摘要提取方法、装置、设备以及存储介质 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN116955534A (zh) | 投诉工单智能处理方法、装置、设备及存储介质 | |
CN114398492B (zh) | 一种在数字领域的知识图谱构建方法、终端及介质 | |
CN115759085A (zh) | 基于提示模型的信息预测方法、装置、电子设备及介质 | |
CN115718889A (zh) | 针对公司简介的行业分类方法及装置 | |
CN115658994A (zh) | 舆情观点报告生成方法、装置、存储介质及电子装置 | |
CN117235271A (zh) | 信息抽取方法、装置、计算机存储介质及电子设备 | |
CN114842982A (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN114611489A (zh) | 文本逻辑条件抽取ai模型构建方法、抽取方法及系统 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN114358579A (zh) | 评阅方法、评阅装置、电子设备以及计算机可读存储介质 | |
CN115617959A (zh) | 问题解答方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |