CN111177326A - 基于精标注文本的关键信息抽取方法、装置及存储介质 - Google Patents

基于精标注文本的关键信息抽取方法、装置及存储介质 Download PDF

Info

Publication number
CN111177326A
CN111177326A CN202010280586.7A CN202010280586A CN111177326A CN 111177326 A CN111177326 A CN 111177326A CN 202010280586 A CN202010280586 A CN 202010280586A CN 111177326 A CN111177326 A CN 111177326A
Authority
CN
China
Prior art keywords
key information
information extraction
text data
text
extraction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010280586.7A
Other languages
English (en)
Other versions
CN111177326B (zh
Inventor
曹辰捷
徐国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202010280586.7A priority Critical patent/CN111177326B/zh
Publication of CN111177326A publication Critical patent/CN111177326A/zh
Priority to PCT/CN2020/103933 priority patent/WO2021203581A1/zh
Application granted granted Critical
Publication of CN111177326B publication Critical patent/CN111177326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及关键信息抽取技术领域,提出一种基于精标注文本的关键信息抽取方法、装置及存储介质,其中的方法包括:S110、通过BERT预训练模型对文本数据进行预训练获得词向量,将所获得的词向量组合成矩阵式文本数据;S120、将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息;S130、按照预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。本发明解决了对文本段片段进行自动标注的问题,大大降低了标注成本,达到了为下游任务提供了有力支持的技术效果。

Description

基于精标注文本的关键信息抽取方法、装置及存储介质
技术领域
本发明涉及关键信息抽取技术领域,尤其涉及一种基于精标注文本的关键信息抽取方法、系统、装置及存储介质。
背景技术
机器阅读理解,是指让机器通过阅读文本,回答内容相关的问题。目前,将待回答的问题和相关的阅读材料输入到训练完毕的阅读理解模型进行人工智能式阅读理解的应用越来越广泛。而现有的阅读理解模型是以问题为条件,在文本中标出正确答案,将提前标注好的关键句/段作为模型的输入,但是,关键片段的标注无法兼顾很多领域因而存在片面性,如果采用外包人工标注关键句/段的办法,则会大大增加时间和金钱成本。
为了实现对长文本中可作为答案的片段进行自动标注的目的,业界常见的解决方式为,通过监督方法或者无监督的方法进行关键片段的标注,但是,仍然存在以下弊端:
1)通过无监督方法进行关键片段的标注,仅可以标注出词语,无法标注出片段;2)有监督方法进行关键片段的标注,提取的内容也是词级别,无法标注出片段。
所以,亟需一种可以标注出片段的关键信息抽取的方法。
发明内容
本发明提供一种基于精标注文本的关键信息抽取方法、系统、电子装置及计算机可读存储介质,其主要通过BERT预训练模型和关键信息抽取模型解决了对文本段片段进行自动标注的问题。
为实现上述目的,本发明还提供一种基于精标注文本的关键信息抽取方法,应用于电子装置,方法包括:
S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量,将所获得的词向量组合成矩阵式文本数据;
S120、将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息;
S130、按照预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
进一步,优选的,在S120中,所述关键信息抽取模型根据所述矩阵式文本数据获得关键信息的方法包括:
S210、通过所述关键信息抽取模型的全连接层获得多组关键词,每组关键词均包含关键词起点和关键词终点;
S220、将所述多组关键词经过所述关键信息抽取模型的sigmoid层输出初步关键信息;
S230、将输出的初步关键信息利用所述关键信息抽取模型的交叉熵优化层进行优化后,获得关键信息。
进一步,优选的,所述全连接层包括起点全连接网络和终点全连接网络;所述起点全连接网络,用于将所述矩阵式文本数据转化为起点向量;所述终点全连接网络,用于将所述矩阵式文本数据转化为终点向量。
进一步,优选的,将关键信息抽取模型通过测试集进行测试,选取em值大于设定阈值的关键信息抽取模型作为训练好的关键信息抽取模型;
其中,
Figure 41128DEST_PATH_IMAGE001
n为标准答案数量,
Figure 498654DEST_PATH_IMAGE002
为所述关键信息抽取模型所获得的关键信息中包含的标准答案 的数量。
进一步,优选的,所述BERT预训练模型将所述文本数据的字符进行一维向量表示,将所述一维向量按照字符排列顺序形成二维向量的矩阵式文本数据。
进一步,优选的,在通过BERT预训练模型对文本数据进行预训练获得词向量之前还包括对所述文本数据的清洗步骤,所述清洗步骤包括对所述文本数据的分段、去除过短语料和去除有误语料。
为实现上述目的,本发明提供一种基于精标注文本的关键信息抽取系统,包括预训练单元、关键信息获得单元和关键信息输出单元;
所述预训练单元,用于通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量,将所获得的词向量组合成矩阵式文本数据;
所述关键信息获得单元,用于将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息;
所述关键信息输出单元,用于按照预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
进一步,优选的,所述关键信息获得单元包括多组关键词获取模块、初步关键信息获取模块和关键信息获取模块;
所述多组关键词获取模块,用于通过所述关键信息抽取模型的全连接层获得多组关键词,每组关键词均包含关键词起点和关键词终点;
所述初步关键信息获取模块,用于将所述多组关键词经过所述关键信息抽取模型的sigmoid层输出初步关键信息;
所述关键信息获取模块,用于将输出的初步关键信息利用所述关键信息抽取模型的交叉熵优化层进行优化后,获得关键信息。
为实现上述目的,本发明提供一种电子装置,该电子装置包括:存储器、处理器,所述存储器中存储有基于精标注文本的关键信息抽取程序,所述基于精标注文本的关键信息抽取程序被所述处理器执行时实现如下步骤:
S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量,将所获得的词向量组合成矩阵式文本数据;
S120、将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息;
S130、按照预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括基于精标注文本的关键信息抽取程序,所述基于精标注文本的关键信息抽取程序被处理器执行时,实现上述的基于精标注文本的关键信息抽取方法的步骤。
本发明提出的基于精标注文本的关键信息抽取方法、系统、电子装置及计算机可读存储介质,通过将阅读理解模型的输入改变为长文本以及空字符串(即将问题替换为空字符串),并对阅读理解模型进行训练使其学习到标准答案的特征,从而输出文本中对应的片段作为回答,彻底改变了以往输入文本加问题而输出答案的模式;其有益效果如下:
1)、以阅读理解模型为基本思路进行的改进,将以往以词、句、段为单位标注的关键信息,转换为标注一个连续的片段;
2)、解决了对文本段片段进行自动标注的问题;
3)、大大降低了标注成本,为下游任务提供了有力的支持。
附图说明
图1为本发明基于精标注文本的关键信息抽取方法较佳实施例的流程图;
图2为本发明的关键信息抽取模型获得关键信息方法的较佳实施例的流程图;
图3为本发明的基于精标注文本的关键信息抽取系统的较佳实施例的结构示意图;
图4为本发明的电子装置的较佳实施例的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
阅读理解模型是以问题为条件(或者说输入的是长文本以及问题),在文本中标出正确答案(输出的是文本中对应的作为回答的片段);现有的阅读理解模型是将提前标注好的关键句/段作为模型的输入,而人为标注关键片段存在片面性较大的弊端。
本发明利用BERT(Bidirectional Encoder Representation from Transformer,双向注意力神经网络模型)预训练模型对文本数据进行预训练,然后输入关键信息抽取模型,从而输出文本数据中的关键信息作为回答。
具体地说,与传统的阅读理解模型的输入文本加问题,而输出答案的模式不同,本发明的关键信息抽取模型,输入的是文本,而输出的是关键信息;这里的关键信息是作为答案候选的,也就是说,关键信息某种程度上是阅读理解输出的答案的子集。需要说明的是,本发明的基于精标注文本的关键信息抽取方法由于是无监督的,也不需要问题作为输入,因此输出的关键信息覆盖的范围比答案更广。
本发明提供一种基于精标注文本的关键信息抽取方法。图1示出了根据本发明基于精标注文本的关键信息抽取方法较佳实施例的流程。参照图1所示,该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
以“2018年的dota2世界邀请赛的冠军是OG战队”为例,若采用传统的阅读理解模型,则输入为:文本--“2018年的dota2世界邀请赛的冠军是OG战队”+问题--“2018年冠军是谁”;输出为:答案--“OG战队”。
而若采取本发明的关键信息抽取模型的话,输入为:“2018年的dota2世界邀请赛的冠军是OG战队”;输出的关键信息为:“2018年,dota2世界邀请赛,OG战队”。
在本实施例中,基于精标注文本的关键信息抽取方法包括:步骤S110-步骤S130。
S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量,将所获得的词向量组合成矩阵式文本数据。
具体地说, BERT(Bidirectional Encoder Representation from Transformer, 双向注意力神经网络模型)是一个句子级别的语言模型,不像ELMo模型在与下游具体NLP任 务拼接时需要每层加上权重做全局池化,BERT可以直接获得一整个句子的唯一向量表示。 它在每个input前面加一个特殊的记号
Figure 313026DEST_PATH_IMAGE003
,然后让Transformer对
Figure 699270DEST_PATH_IMAGE003
进行深度 encoding,由于Transformer是可以无视空间和距离的把全局信息encoding进每个位置的, 而
Figure 966303DEST_PATH_IMAGE003
的最高隐层作为句子/句对的表示直接跟softmax的输出层连接,因此其作为梯度 反向传播路径上的“关卡”,可以学到整个input的上层特征。因此BERT模型可以进一步增加 词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。
需要说明的是,BERT预训练模型获得词向量的过程是先进行分词,再将分词后的文档进行预训练生成训练词向量。也就是说,首先得出所有字符的低维向量表示方法,然后将所述低维向量组合成一个二维向量,即可获得一句话的矩阵表示。
下面以“15岁以下的学生”这句话为例进行详细说明。
首先,“1”、“5”、“岁”、“以”、“下”、“的”、“学”、“生”都可以使用一个向量进行表示,然后将上述向量组合成二维向量,从而获得这句话的矩阵表示。具体地说,就是通过BERT模型可以生成上述8个词分别对应的d维词向量,然后将这八个拼接起来形成一个8*d的矩阵,这个矩阵可以唯一的表示上述文本,即矩阵式文本数据。
总的来说,所述BERT预训练模型通过将所述文本数据的字符进行一维向量表示,将所述一维向量按照字符排列顺序形成二维向量的矩阵式文本数据。
在一个具体实施例中,在步骤S110之前,还包括对所述文本数据进行预处理步骤,所述预处理包括清洗处理。具体地说,这里的清洗指的是垂直数据语料的预处理。如前所述,BERT预训练模型应用在垂直数据上,而这些数据(法律、医药、新闻等)不够整洁,因此需要对它们进行处理以满足模型的输入(清洗是清洗测试数据,而非训练数据)。
清洗:包括分段、去除过短语料、清除有误预料。
分段:如前所述,BERT预训练模型需要输入一段文本,然后输出其关键字。需要对输入文本最大长度进行限制,所以将所有输入文本标准化为该长度(该参数设置成512,假设某段不足512个token,则用空白将其补全,这样所有的输入都被标准化为同一个长度了)。而显然地,这些垂直数据长度绝大多数都超过512,因此把它按照段落进行分开重新组合,保证每一段的长度都在规定的限制内,且同时尽可能地保留上下文的语义连贯性。
去除过短的预料:由于各种可能的原因,极小部分数据可能是空,或者篇幅特别短,这部分数据对于下游工作没有帮助,因此在这步直接将其筛选掉。
S120、将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息。
其中,CMRC( Chinese Machine Reading Comprehension)中文机器阅读理解,机器阅读理解(Machine Reading Comprehension)指的是,让机器像人一样去读懂一段文字,并回答相应问题。常见的机器阅读理解形式有完形填空式,选择题式和知名度最广的抽取式,从抽取文档篇数又可细分为多文档(如 MS MARCO)和单文档(SQuAD)。
模型训练过程中留出的样本集,用于调整模型的超参数以及评估模型的能力。是用于评估最终模型的性能,帮助对比多个最终模型并作出选择。用留出的样本对模型能力进行评估的结果偏差更小。将训练样本分为训练集和验证集,模型在训练集上进行拟合,然后使用拟合后的模型对验证集中保留的数据样本进行预测,并定量地计算模型验证误差,通常使用MSE对错误率进行评估,评估生成的验证集错误率即测试错误率。
在一个具体实施例中,利用测试集对训练好的关键信息抽取模型进行测试,获得em值。
即将关键信息抽取模型通过测试集进行测试,选取em值大于设定阈值的关键信息抽取模型作为训练好的关键信息抽取模型;
其中,
Figure 227520DEST_PATH_IMAGE001
n为标准答案数量,
Figure 896399DEST_PATH_IMAGE004
为所述关 键信息抽取模型所获得的关键信息中包含的标准答 案的数量。即若一篇文本有n个标准答案,输入这篇文本后,模型生成的
Figure 952080DEST_PATH_IMAGE005
个答案组成了 一个集合K,假设在n个答案中,有
Figure 706409DEST_PATH_IMAGE004
个答案存在于集合K中,则
Figure 505738DEST_PATH_IMAGE001
需要说明的是,利用CMRC数据集对关键信息抽取模型进行训练。CMRC数据集中的每个文档中均包括多个问答对,将所述问答对中的问题去除;仅剩文档以及答案,将仅剩文档-答案的CMRC作为数据集,训练上述关键信息抽取模型。即,以去除问题的CMRC数据集作为关键信息抽取模型的训练集。
图2示出了根据本发明的关键信息抽取模型获得关键信息方法的较佳实施例的流程图;关键信息抽取模型包括全连接层、sigmoid层和交叉熵优化层。参照图2所示,关键信息抽取模型获得关键信息的方法包括步骤S210-步骤S230:
S210、通过所述关键信息抽取模型的全连接层获得多组关键词,每组关键词均包含关键词起点和关键词终点。
所述全连接层包括起点全连接网络和终点全连接网络;所述起点全连接网络,用于将所述矩阵式文本数据转化为起点向量;所述终点全连接网络,用于将所述矩阵式文本数据转化为终点点向量。
具体地说,对生成的文本的矩阵通过一个表示起点的全连接层(即起点全连接网 络),得到一个长度为l的向量,并将向量命名为
Figure 29123DEST_PATH_IMAGE006
;同理通过一个表示终点的全 连接层(即终点全连接网络),得到另一个命名为
Figure 22749DEST_PATH_IMAGE007
的向量;也就是通过起点全连 接网络和终点全连接网络两个全连接网络进行预测关键词的起点和终点。
矩阵式的文本数据为
Figure 264375DEST_PATH_IMAGE008
通过两个全连接层后,转化为两个
Figure 601815DEST_PATH_IMAGE009
的一维向量。即,在一个向量中,句子中每个字对应一个值,这个值就是 表示其能作为起点的可能性;另外,在另一个向量中,句子中每个字对应一个值,这个值就 是表示其能作为终点的可能性。
在一个具体的实施例中,若将关键信息抽取模型表示为
Figure 245286DEST_PATH_IMAGE010
Figure 642769DEST_PATH_IMAGE011
输入P表示为原文文本,并且在文本输入前,在文本的前后添加token进行标记;
Figure 371691DEST_PATH_IMAGE012
需要进一步说明的是,token进行标记就是,分词之后,在前面加
Figure 512822DEST_PATH_IMAGE013
,后面加
Figure 10800DEST_PATH_IMAGE014
进行标记;可以看作文本首尾的标记。
继续以内容就是“15岁以下的学生”为例:
Figure 334510DEST_PATH_IMAGE012
表示[“
Figure 285148DEST_PATH_IMAGE013
”, “1”, “5”, “岁”, “以”, “下”, “的”, “学”, “生”,“。”,“
Figure 229970DEST_PATH_IMAGE014
”];其中passage指的是整篇文章。
通过上述公式,得到的X输出,可以看做为长度为
Figure 582454DEST_PATH_IMAGE015
,维度为
Figure 587319DEST_PATH_IMAGE016
的矩阵;
若通过
Figure 25254DEST_PATH_IMAGE017
Figure 445871DEST_PATH_IMAGE018
两个全连接网络来预测关键词的起点和终点,则表 示为:
Figure 980758DEST_PATH_IMAGE019
Figure 94207DEST_PATH_IMAGE020
S220、将所述多组关键词经过所述关键信息抽取模型的sigmoid层输出初步关键信息;
其中,关于关键词的起点和终点,通过步骤S210可以得到
Figure 583220DEST_PATH_IMAGE021
Figure 869844DEST_PATH_IMAGE022
两个向量。
需要说明的是,通过步骤S210得到了文本数据中的每组关键词的起点值和终点值 (即,作为起点和终点的可能性),例如s和e。即确认了首字符和末字符,从而确定了结果文 本。为了控制结果文本的长度,在一定的长度范围
Figure 931341DEST_PATH_IMAGE023
内计算所 有组合中,首字符的起点值与末字符的终点值之和即C,然后通过各关键词的C的得分进行 排序。
在一个具体的实施例中,若对于在文本中出现的某一个片段
Figure 278009DEST_PATH_IMAGE024
,假设起点为
Figure 690536DEST_PATH_IMAGE025
, 终点为
Figure 780852DEST_PATH_IMAGE026
,则判断
Figure 650850DEST_PATH_IMAGE024
的得分为
Figure 902840DEST_PATH_IMAGE027
S230、将输出的初步关键信息利用所述关键信息抽取模型的交叉熵优化层进行优化后,获得关键信息。
在具体的实施过程中,因为所筛选的关键信息是文本数据的一部分,因此包含起 点S和终点e,
Figure 802662DEST_PATH_IMAGE028
新建一个作为长度为l的向量,令
Figure 932555DEST_PATH_IMAGE029
,
Figure 234223DEST_PATH_IMAGE030
时,作为
Figure 657114DEST_PATH_IMAGE031
新建另一个一个作为长度为l的向量,令
Figure 106550DEST_PATH_IMAGE032
,
Figure 476351DEST_PATH_IMAGE033
时,作为
Figure 429264DEST_PATH_IMAGE034
;计算
Figure 226319DEST_PATH_IMAGE035
Figure 398936DEST_PATH_IMAGE036
的稀疏交叉熵
Figure 572429DEST_PATH_IMAGE037
以及
Figure 645427DEST_PATH_IMAGE038
Figure 613383DEST_PATH_IMAGE039
的稀疏交叉熵
Figure 771832DEST_PATH_IMAGE040
,令loss为稀疏交叉熵
Figure 483436DEST_PATH_IMAGE037
和稀疏交叉熵
Figure 410941DEST_PATH_IMAGE040
二者的平均数,对初步关键信息进行优化训练。其中:
Figure 549798DEST_PATH_IMAGE041
Figure 697008DEST_PATH_IMAGE042
总 之,使用sigmoid作为激活函数时,以及使用交叉熵损失函数cross-entropy对关键信息进 行筛选,可使关键信息抽取模型的网络参数能够快速的从错误中学习问题,可较为快速的 得出网络结果。
下面通过一个具体的实施例利用公式对关键信息抽取模型的关键信息抽取流程进行说明:
假设d为词嵌入维度,l为文本最大长度,s为该关键信息的起始点,e为该关键信息的终点。
Figure 946723DEST_PATH_IMAGE043
作为该文本的表示,
Figure 994314DEST_PATH_IMAGE043
是大小为
Figure 304072DEST_PATH_IMAGE044
的矩阵;
Figure 374797DEST_PATH_IMAGE045
Figure 490520DEST_PATH_IMAGE046
分别是两个全连接层 中的
Figure 330300DEST_PATH_IMAGE047
的向量。
Figure 873277DEST_PATH_IMAGE048
,
Figure 165718DEST_PATH_IMAGE049
,
Figure 586597DEST_PATH_IMAGE050
,
Figure 280884DEST_PATH_IMAGE051
分别为长度为l的向量,其中:
Figure 994762DEST_PATH_IMAGE048
Figure 40078DEST_PATH_IMAGE035
Figure 435288DEST_PATH_IMAGE049
Figure 46398DEST_PATH_IMAGE036
Figure 134439DEST_PATH_IMAGE050
Figure 463790DEST_PATH_IMAGE038
Figure 662690DEST_PATH_IMAGE051
Figure 65989DEST_PATH_IMAGE039
Figure 888714DEST_PATH_IMAGE052
Figure 705360DEST_PATH_IMAGE053
;且
Figure 442372DEST_PATH_IMAGE054
Figure 28074DEST_PATH_IMAGE055
Figure 457919DEST_PATH_IMAGE056
;且
Figure 496282DEST_PATH_IMAGE057
Figure 36984DEST_PATH_IMAGE058
;
Figure 255956DEST_PATH_IMAGE059
其中
Figure 653439DEST_PATH_IMAGE060
为p, q两向量的交叉熵;即,
当p为
Figure 382361DEST_PATH_IMAGE048
, 则q为
Figure 461175DEST_PATH_IMAGE049
当p为
Figure 21470DEST_PATH_IMAGE050
, 则q为
Figure 527537DEST_PATH_IMAGE051
S130、根据预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
之前的网络已经表明,得到了文本中的每个关键词的起点值和终点值(即,作为起 点和终点的可能性)。显然地,确认了首字符和末字符,即确定了结果文本。为了控制结果的 长度,在一定的长度范围
Figure 806072DEST_PATH_IMAGE061
内计算所有组合中,首字符的起点值与 末字符的终点值之和。
然后根据预设排序规则对所获得的每个关键词的首字符的起点值与末字符的终点值之和进行排序;需要说明的是预设的排序规则,在具体实施过程中,是将所获得的关键词的首字符的起点值与末字符的终点值之和按照从大到小的降序排列。也就是说,因为k值比较小,所以遍历topK结果对应的值,然后对它们进行排序。
在一个具体实施例中,在文本中出现的某一个片段c,假设起点为s, 终点为e,则 判断c的得分为
Figure 688577DEST_PATH_IMAGE062
。在后续步骤中,并通过控制c的最大长度以增加不同的 起点-终点对的可能性。
对于所获得的关键词的首字符的起点值与末字符的终点值之和按照从大到小的 降序排列后,将符合设定选取规则的关键信息作为输出。需要说明的是,选取规则在具体的 实施过程中,是采用
Figure 604843DEST_PATH_IMAGE063
方式,也就是说关键词的首字符的起点值与末字符的终点值之和 按照从大到小的降序排列后,选择排名前K的关键词作为最终关键词的答案。
在一个具体的实施例中,设定
Figure 547391DEST_PATH_IMAGE064
,则通过选取
Figure 47643DEST_PATH_IMAGE006
Figure 468260DEST_PATH_IMAGE007
各 top10后,再将其交叉相加,得到大约100组
Figure 3146DEST_PATH_IMAGE065
的数值。最后再对其从大到小排序后 选择top20作为最终关键词的答案。
总的来说,本发明的关键信息抽取模型训练的目标确实是CMRC数据集的答案,但是却没有利用CMRC数据集里的“问题”这个信息,并且输出的最终结果也不是唯一的答案,而是top20的关键信息,也就是说,在没有问题的基础上,输出所有具有答案潜力的候选答案作为关键信息。
图3示出了本发明的神经网络模型的较佳实施例的结构;参照图3所示,本发明提供一种基于精标注文本的关键信息抽取系统300,包括预训练单元310、关键信息获得单元320和关键信息输出单元330。
所述预训练单元310,用于通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量,将所获得的词向量组合成矩阵式文本数据;
所述关键信息获得单元320,用于将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息;
所述关键信息输出单元330,用于通过按照预设的排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
所述关键信息获得单元320包括多组关键词获取模块321、初步关键信息获取模块322和关键信息获取模块323;
所述多组关键词获取模块321,用于通过所述关键信息抽取模型的全连接层获得多组关键词,每组关键词均包含关键词起点和关键词终点;
所述初步关键信息获取模块322,用于将所述多组关键词经过所述关键信息抽取模型的sigmoid层输出初步关键信息;
所述关键信息获取模块323,用于将输出的初步关键信息利用所述关键信息抽取模型的交叉熵优化层进行优化后,获得关键信息。
综上所述,本发明的基于精标注文本的关键信息抽取系统通过BERT预训练模型和关键信息抽取模型,实现了输入文本而输出文本中对应的片段(关键信息),彻底改变了以往输入文本加问题而输出答案的模式。
本发明提供一种基于精标注文本的关键信息抽取方法,应用于一种电子装置4。
图4示出了根据本发明基于精标注文本的关键信息抽取方法较佳实施例的应用环境。
参照图4所示,在本实施例中,电子装置4可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置4包括:处理器42、存储器41、通信总线43及网络接口44。
存储器41包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器41等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置4的内部存储单元,例如该电子装置4的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置4的外部存储器41,例如所述电子装置4上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(SecureDigital, SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器41的可读存储介质通常用于存储安装于所述电子装置4的基于精标注文本的关键信息抽取程序40等。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
处理器42在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器41中存储的程序代码或处理数据,例如执行基于精标注文本的关键信息抽取程序40等。
通信总线43用于实现这些组件之间的连接通信。
网络接口44可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置4与其他电子设备之间建立通信连接。
图4仅示出了具有组件41-44的电子装置4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置4还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置4还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置4中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置4还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。
在图4所示的装置实施例中,作为一种计算机存储介质的存储器41中可以包括操作系统、以及基于精标注文本的关键信息抽取程序40;处理器42执行存储器41中存储的基于精标注文本的关键信息抽取程序40时实现如下步骤:
S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量,将所获得的词向量组合成矩阵式文本数据;
S120、将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息;
S130、按照预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
在其他实施例中,基于精标注文本的关键信息抽取程序40还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器41中,并由处理器42执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。基于精标注文本的关键信息抽取程序40可以包括预训练单元310、关键信息获得单元320和关键信息输出单元330。
此外,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质中包括基于精标注文本的关键信息抽取程序,所述基于精标注文本的关键信息抽取程序被处理器执行时实现如下操作:S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量,将所获得的词向量组合成矩阵式文本数据;S120、将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息;S130、按照预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
本发明之计算机可读存储介质的具体实施方式与上述基于精标注文本的关键信息抽取方法、电子装置的具体实施方式大致相同,在此不再赘述。
总的来说,本发明基于精标注文本的关键信息抽取方法、系统、电子装置及计算机可读存储介质以阅读理解模型为基本思路进行的改进,将以往以词、句、段为单位标注的关键信息,转换为标注一个连续的片段;解决了对文本段片段进行自动标注的问题;大大降低了标注成本,达到了为下游任务提供有力支持的技术效果。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于精标注文本的关键信息抽取方法,应用于电子装置,其特征在于,所述方法包括:
S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量,将所获得的词向量组合成矩阵式文本数据;
S120、将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息;
S130、按照预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
2.根据权利要求1所述的基于精标注文本的关键信息抽取方法,其特征在于,在S120中,所述关键信息抽取模型根据所述矩阵式文本数据获得关键信息的方法包括:
S210、通过所述关键信息抽取模型的全连接层获得多组关键词,每组关键词均包含关键词起点和关键词终点;
S220、将所述多组关键词经过所述关键信息抽取模型的sigmoid层输出初步关键信息;
S230、将输出的初步关键信息利用所述关键信息抽取模型的交叉熵优化层进行优化后,获得关键信息。
3.根据权利要求2所述的基于精标注文本的关键信息抽取方法,其特征在于,
所述全连接层包括起点全连接网络和终点全连接网络;所述起点全连接网络,用于将所述矩阵式文本数据转化为起点向量;所述终点全连接网络,用于将所述矩阵式文本数据转化为终点向量。
4.根据权利要求1所述的基于精标注文本的关键信息抽取方法,其特征在于,将关键信息抽取模型通过测试集进行测试,选取em值大于设定阈值的关键信息抽取模型作为训练好的关键信息抽取模型;
其中,
Figure 794399DEST_PATH_IMAGE001
n为标准答案数量,
Figure 711540DEST_PATH_IMAGE002
为所述关键信息抽取模型所获得的关键信息中包含的标准答案 的数量。
5.根据权利要求1所述的基于精标注文本的关键信息抽取方法,其特征在于,所述BERT预训练模型将所述文本数据的字符进行一维向量表示,将所述一维向量按照字符排列顺序形成二维向量的矩阵式文本数据。
6.根据权利要求1所述的基于精标注文本的关键信息抽取方法,其特征在于,在通过BERT预训练模型对文本数据进行预训练获得词向量之前还包括对所述文本数据的清洗步骤,所述清洗步骤包括对所述文本数据的分段、去除过短语料和去除有误语料。
7.一种基于精标注文本的关键信息抽取系统,其特征在于,
包括预训练单元、关键信息获得单元和关键信息输出单元;
所述预训练单元,用于通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量,将所获得的词向量组合成矩阵式文本数据;
所述关键信息获得单元,用于将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息;
所述关键信息输出单元,用于按照预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
8.根据权利要求7所述的一种基于精标注文本的关键信息抽取系统,其特征在于,所述关键信息获得单元包括多组关键词获取模块、初步关键信息获取模块和关键信息获取模块;
所述多组关键词获取模块,用于通过所述关键信息抽取模型的全连接层获得多组关键词,每组关键词均包含关键词起点和关键词终点;
所述初步关键信息获取模块,用于将所述多组关键词经过所述关键信息抽取模型的sigmoid层输出初步关键信息;
所述关键信息获取模块,用于将输出的初步关键信息利用所述关键信息抽取模型的交叉熵优化层进行优化后,获得关键信息。
9.一种电子装置,其特征在于,该电子装置包括:存储器、处理器,所述存储器中存储有基于精标注文本的关键信息抽取程序,所述基于精标注文本的关键信息抽取程序被所述处理器执行时实现如下步骤:
S110、通过BERT预训练模型对文本数据进行预训练获得所述文本数据的词向量,将所获得的词向量组合成矩阵式文本数据;
S120、将所述矩阵式文本数据输入关键信息抽取模型,所述关键信息抽取模型利用CMRC数据集进行训练,并根据所述矩阵式文本数据获得关键信息;
S130、按照预设排序规则对所获得的关键信息进行排序,并将符合设定选取规则的关键信息作为输出。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括基于精标注文本的关键信息抽取程序,所述基于精标注文本的关键信息抽取程序被处理器执行时,实现如权利要求1至6中任一项所述的基于精标注文本的关键信息抽取方法的步骤。
CN202010280586.7A 2020-04-10 2020-04-10 基于精标注文本的关键信息抽取方法、装置及存储介质 Active CN111177326B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010280586.7A CN111177326B (zh) 2020-04-10 2020-04-10 基于精标注文本的关键信息抽取方法、装置及存储介质
PCT/CN2020/103933 WO2021203581A1 (zh) 2020-04-10 2020-07-24 基于精标注文本的关键信息抽取方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010280586.7A CN111177326B (zh) 2020-04-10 2020-04-10 基于精标注文本的关键信息抽取方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111177326A true CN111177326A (zh) 2020-05-19
CN111177326B CN111177326B (zh) 2020-08-04

Family

ID=70645903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010280586.7A Active CN111177326B (zh) 2020-04-10 2020-04-10 基于精标注文本的关键信息抽取方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN111177326B (zh)
WO (1) WO2021203581A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723182A (zh) * 2020-07-10 2020-09-29 云南电网有限责任公司曲靖供电局 一种用于漏洞文本的关键信息抽取方法及装置
CN111753546A (zh) * 2020-06-23 2020-10-09 深圳市华云中盛科技股份有限公司 文书信息抽取方法、装置、计算机设备及存储介质
CN112182141A (zh) * 2020-09-25 2021-01-05 中国建设银行股份有限公司 一种关键信息抽取方法、装置、设备和可读存储介质
CN112329477A (zh) * 2020-11-27 2021-02-05 上海浦东发展银行股份有限公司 基于预训练模型的信息抽取方法、装置、设备及存储介质
CN113361261A (zh) * 2021-05-19 2021-09-07 重庆邮电大学 一种基于enhance matrix的法律案件候选段落的选取方法及装置
WO2021203581A1 (zh) * 2020-04-10 2021-10-14 深圳壹账通智能科技有限公司 基于精标注文本的关键信息抽取方法、装置及存储介质
CN113505207A (zh) * 2021-07-02 2021-10-15 中科苏州智能计算技术研究院 一种金融舆情研报的机器阅读理解方法及系统
CN113536735A (zh) * 2021-09-17 2021-10-22 杭州费尔斯通科技有限公司 一种基于关键词的文本标记方法、系统和存储介质
WO2022061877A1 (zh) * 2020-09-28 2022-03-31 京东方科技集团股份有限公司 事件抽取和抽取模型训练的方法和装置、设备、介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779182B (zh) * 2021-11-12 2022-02-15 航天宏康智能科技(北京)有限公司 从文本数据抽取事件的方法及装置
CN113806548A (zh) * 2021-11-19 2021-12-17 北京北大软件工程股份有限公司 基于深度学习模型的信访要素抽取方法及抽取系统
CN114067256B (zh) * 2021-11-24 2023-09-12 西安交通大学 一种基于Wi-Fi信号的人体关键点检测方法及系统
CN114090776A (zh) * 2021-11-26 2022-02-25 北京金山数字娱乐科技有限公司 文档解析方法、系统及装置
CN114239566B (zh) * 2021-12-14 2024-04-23 公安部第三研究所 基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质
CN114818685B (zh) * 2022-04-21 2023-06-20 平安科技(深圳)有限公司 关键词提取方法、装置、电子设备及存储介质
CN115292469B (zh) * 2022-09-28 2023-02-07 之江实验室 一种结合段落搜索和机器阅读理解的问答方法
CN115809665B (zh) * 2022-12-13 2023-07-11 杭州电子科技大学 一种基于双向多粒度注意力机制的无监督关键词抽取方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108519890A (zh) * 2018-04-08 2018-09-11 武汉大学 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN108536678A (zh) * 2018-04-12 2018-09-14 腾讯科技(深圳)有限公司 文本关键信息提取方法、装置、计算机设备和存储介质
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN109614614A (zh) * 2018-12-03 2019-04-12 焦点科技股份有限公司 一种基于自注意力的bilstm-crf产品名称识别方法
CN110263123A (zh) * 2019-06-05 2019-09-20 腾讯科技(深圳)有限公司 机构名简称的预测方法、装置和计算机设备
CN110390108A (zh) * 2019-07-29 2019-10-29 中国工商银行股份有限公司 基于深度强化学习的任务型交互方法和系统
CN110413743A (zh) * 2019-08-09 2019-11-05 安徽科大讯飞医疗信息技术有限公司 一种关键信息抽取方法、装置、设备及存储介质
US10482886B2 (en) * 2017-08-05 2019-11-19 Fu Tai Hua Industry (Shenzhen) Co., Ltd. Interactive robot and human-robot interaction method
CN110929094A (zh) * 2019-11-20 2020-03-27 北京香侬慧语科技有限责任公司 一种视频标题处理方法和装置
CN110968667A (zh) * 2019-11-27 2020-04-07 广西大学 一种基于文本状态特征的期刊文献表格抽取方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107436900B (zh) * 2016-05-26 2022-08-09 北京搜狗科技发展有限公司 基于搜索引擎的信息处理方法和装置
CN110888966B (zh) * 2018-09-06 2024-05-10 微软技术许可有限责任公司 自然语言问答
KR102128549B1 (ko) * 2018-09-19 2020-07-08 주식회사 포티투마루 인공 지능 질의 응답 시스템, 방법 및 컴퓨터 프로그램
CN110442691A (zh) * 2019-07-04 2019-11-12 平安科技(深圳)有限公司 机器阅读理解中文的方法、装置和计算机设备
CN111177326B (zh) * 2020-04-10 2020-08-04 深圳壹账通智能科技有限公司 基于精标注文本的关键信息抽取方法、装置及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10482886B2 (en) * 2017-08-05 2019-11-19 Fu Tai Hua Industry (Shenzhen) Co., Ltd. Interactive robot and human-robot interaction method
CN108519890A (zh) * 2018-04-08 2018-09-11 武汉大学 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN108536678A (zh) * 2018-04-12 2018-09-14 腾讯科技(深圳)有限公司 文本关键信息提取方法、装置、计算机设备和存储介质
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN109614614A (zh) * 2018-12-03 2019-04-12 焦点科技股份有限公司 一种基于自注意力的bilstm-crf产品名称识别方法
CN110263123A (zh) * 2019-06-05 2019-09-20 腾讯科技(深圳)有限公司 机构名简称的预测方法、装置和计算机设备
CN110390108A (zh) * 2019-07-29 2019-10-29 中国工商银行股份有限公司 基于深度强化学习的任务型交互方法和系统
CN110413743A (zh) * 2019-08-09 2019-11-05 安徽科大讯飞医疗信息技术有限公司 一种关键信息抽取方法、装置、设备及存储介质
CN110929094A (zh) * 2019-11-20 2020-03-27 北京香侬慧语科技有限责任公司 一种视频标题处理方法和装置
CN110968667A (zh) * 2019-11-27 2020-04-07 广西大学 一种基于文本状态特征的期刊文献表格抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
潘峰: "基于改进R-NET的中文机器阅读理解", 《万方数据知识服务平台》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021203581A1 (zh) * 2020-04-10 2021-10-14 深圳壹账通智能科技有限公司 基于精标注文本的关键信息抽取方法、装置及存储介质
CN111753546A (zh) * 2020-06-23 2020-10-09 深圳市华云中盛科技股份有限公司 文书信息抽取方法、装置、计算机设备及存储介质
CN111753546B (zh) * 2020-06-23 2024-03-26 深圳市华云中盛科技股份有限公司 文书信息抽取方法、装置、计算机设备及存储介质
CN111723182A (zh) * 2020-07-10 2020-09-29 云南电网有限责任公司曲靖供电局 一种用于漏洞文本的关键信息抽取方法及装置
CN111723182B (zh) * 2020-07-10 2023-12-08 云南电网有限责任公司曲靖供电局 一种用于漏洞文本的关键信息抽取方法及装置
CN112182141A (zh) * 2020-09-25 2021-01-05 中国建设银行股份有限公司 一种关键信息抽取方法、装置、设备和可读存储介质
WO2022061877A1 (zh) * 2020-09-28 2022-03-31 京东方科技集团股份有限公司 事件抽取和抽取模型训练的方法和装置、设备、介质
CN112329477A (zh) * 2020-11-27 2021-02-05 上海浦东发展银行股份有限公司 基于预训练模型的信息抽取方法、装置、设备及存储介质
CN113361261A (zh) * 2021-05-19 2021-09-07 重庆邮电大学 一种基于enhance matrix的法律案件候选段落的选取方法及装置
CN113505207A (zh) * 2021-07-02 2021-10-15 中科苏州智能计算技术研究院 一种金融舆情研报的机器阅读理解方法及系统
CN113505207B (zh) * 2021-07-02 2024-02-20 中科苏州智能计算技术研究院 一种金融舆情研报的机器阅读理解方法及系统
CN113536735B (zh) * 2021-09-17 2021-12-31 杭州费尔斯通科技有限公司 一种基于关键词的文本标记方法、系统和存储介质
CN113536735A (zh) * 2021-09-17 2021-10-22 杭州费尔斯通科技有限公司 一种基于关键词的文本标记方法、系统和存储介质

Also Published As

Publication number Publication date
CN111177326B (zh) 2020-08-04
WO2021203581A1 (zh) 2021-10-14

Similar Documents

Publication Publication Date Title
CN111177326B (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
US20210150130A1 (en) Methods for generating natural language processing systems
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN112149421A (zh) 一种基于bert嵌入的软件编程领域实体识别方法
CN112818093B (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN112270196A (zh) 实体关系的识别方法、装置及电子设备
CN112364170B (zh) 数据情感分析方法、装置、电子设备及介质
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN110929524A (zh) 数据筛选方法、装置、设备及计算机可读存储介质
CN111666376B (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN111462752B (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN113312899B (zh) 文本分类方法、装置和电子设备
CN113961666B (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN110232128A (zh) 题目文本分类方法及装置
CN116775872A (zh) 一种文本处理方法、装置、电子设备及存储介质
CN115310443A (zh) 模型训练方法、信息分类方法、装置、设备及存储介质
CN116070632A (zh) 一种非正式文本实体标签识别方法和装置
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
CN110969005A (zh) 一种确定实体语料之间的相似性的方法及装置
CN115718889A (zh) 针对公司简介的行业分类方法及装置
CN115344668A (zh) 一种多领域与多学科科技政策资源检索方法及装置
CN114611489A (zh) 文本逻辑条件抽取ai模型构建方法、抽取方法及系统
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant