CN111814465A

CN111814465A - 基于机器学习的信息抽取方法、装置、计算机设备及介质

Info

Publication number: CN111814465A
Application number: CN202010554248.8A
Authority: CN
Inventors: 黎旭东; 丁佳佳; 林桂
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-10-23
Also published as: WO2021135469A1

Abstract

本发明涉及人工智能领域，公开了一种基于机器学习的信息抽取方法、装置、计算机设备及介质，所述方法包括：提取RCT文章的标题、摘要和正文，对正文进行数据预处理，得到处理后的文本信息，将标题、摘要与文本信息作为融合特征，并将融合特征与RCT文章输入到预设的BERT模型进行训练，得到粗粒度关键信息的候选集，将粗粒度关键信息的候选集作为初始候选集，根据预设的过滤条件，对初始候选集进行筛选处理，得到目标候选集，将目标候选集对应的文本信息，作为RCT文章的关键信息，本发明还涉及区块链技术，将得到的RCT文章的关键信息存储至区块链网络中，本发明提高了信息抽取的准确性。

Description

基于机器学习的信息抽取方法、装置、计算机设备及介质

技术领域

本发明涉及人工智能领域，尤其涉及一种基于机器学习的信息抽取方法、装置、计算机设备及介质。

背景技术

随着医学理念的发展，当前的医疗模式已从过去的经验医学向循证医学(Evidence based medicine,EBM)转变。秉持“一切临床决策均应由临床证据出发”的循证医学能为医学临床工作提供最有力的证据支持和严谨的临床科研设计指导，对临床实践与科研有重要指导意义。循证医学的主要证据载体为系统评价，其撰写要求极其严格，研究者需要针对某一明确临床问题进行系统性检索和文献筛选找出当前最佳临床证据，并对这些证据进行偏倚风险评价和结果整合。其步骤涉及系统检索、文献筛选、信息提取、偏倚风险评价和数据合成等。为了控制纳入文献本身的偏倚风险，系统评价撰写者需要寻找的当前最佳临床证据一般为研究设计最为严谨的随机对照临床试验(Randomized ControlledClinical Trial,RCT)。

RCT文献针对性较强，当前在RCT文献中,存着许多已完成的RCT实验设计方法和数据,这些RCT文章中可精炼出实验设计的重点信息为后来研究者提供便利，目前主要通过简单的关键字或者分类进行检索,来从RCT类医学文献中抽取出实验的实验标准、干预手段、及重点结果等总结性句子的系统，但这种抽取方式，得到的句子精确程度不够，抽取信息的准确性存在偏差，若要使得抽取的RCT文章重点信息对医学研究者有所帮助，就需要抽取系统的抽取结果可靠、准确，为此，寻求一种能够从RCT文章中提取高质量的重点句子信息的方法，成了一个亟待解决的难题。

发明内容

本发明实施例提供一种基于机器学习的信息抽取方法、装置、计算机设备和介质，以提高RCT文章信息抽取的准确度。

为了解决上述技术问题，本申请实施例提供一种基于机器学习的信息抽取方法，包括：

获取预设的分类标识，并基于所述分类标识，在检索数据库中进行检索，得到RCT文章；

提取所述RCT文章的标题、摘要和正文；

对所述正文进行数据预处理，得到处理后的文本信息，其中，所述文本信息包括文本短句和所述文本短句对应的位置；

将所述标题、所述摘要与所述文本信息作为融合特征，并将所述融合特征与所述RCT文章输入到预设的BERT模型进行训练，得到粗粒度关键信息的候选集，将所述粗粒度关键信息的候选集作为初始候选集；

根据预设的过滤条件，对所述初始候选集进行筛选处理，得到目标候选集，将所述目标候选集对应的文本信息，作为所述RCT文章的关键信息。

可选地，所述将所述标题、所述摘要与所述文本信息作为融合特征包括：

对所述标题进行分词处理，得到目标分词；

对所述摘要进行短句提取，得到摘要短句；

分别对所述目标分词、所述摘要短句和所述文本信息，按照来源类型进行标记，将标记后的目标分词，标记后的的摘要短句和标记后的文本信息作为输入BERT模型的融合特征。

可选地，所述预设的BERT模型包括编码层和Transformer层，所述将所述融合特征与所述RCT文章输入到预设的BERT模型进行训练，得到粗粒度关键信息的候选集，将所述粗粒度关键信息的候选集作为初始候选集包括：

将所述融合特征与所述RCT文章输入到预设的BERT模型中，通过所述预设的BERT模型的编码层，对所述融合特征进行编码，得到初始编码，所述初始编码包括标题对应的第一编码、摘要对应的第二编码和文本信息对应的第三编码；

通过所述预设的BERT模型的Transformer层，对所述第二编码和所述第三编码进行特征提取，得到第二编码对应的第二特征，以及所述第三编码对应的第三特征；

计算所述第三特征与所述第二特征之间的相似度值，并将与所述第二特征相似度值小于第一预设阈值的第三特征，作为待筛选特征；

将所述待筛选特征对应的文本信息，作为初始候选集。

可选地，在所述计算所述第三特征与所述第二特征之间的相似度值，并将与所述第二特征相似度值小于第一预设阈值的第三特征，作为待筛选特征之后，还包括：

计算所述待筛选特征与所述第一编码的欧式距离；

将欧式距离小于或等于第二预设阈值的所述待筛选特征，作为更新后的待候选特征；

将所述更新后的待筛选特征对应的文本信息，作为初始候选集。

可选地，在所述根据预设的过滤条件，对所述初始候选集进行筛选处理，得到目标候选集，将所述目标候选集对应的文本信息，作为所述RCT文章的关键信息之后，所述基于机器学习的信息抽取方法还包括：

对所述RCT文章的关键信息进行句子重构，得到更新后的关键信息。

可选地，所述基于机器学习的信息抽取方法还包括：将所述RCT文章的关键信息存储于区块链网络节点中。

为了解决上述技术问题，本申请实施例还提供一种基于机器学习的信息抽取装置，包括：

文章获取模块，用于获取预设的分类标识，并基于所述分类标识，在检索数据库中进行检索，得到RCT文章；

内容提取模块，用于提取所述RCT文章的标题、摘要和正文；

数据预处理模块，用于对所述正文进行数据预处理，得到处理后的文本信息，其中，所述文本信息包括文本短句和所述文本短句对应的位置；

信息抽取模块，用于将所述标题、所述摘要与所述文本信息作为融合特征，并将所述融合特征与所述RCT文章输入到预设的BERT模型进行训练，得到粗粒度关键信息的候选集，将所述粗粒度关键信息的候选集作为初始候选集；

信息确定模块，用于根据预设的过滤条件，对所述初始候选集进行筛选处理，得到目标候选集，将所述目标候选集对应的文本信息，作为所述RCT文章的关键信息。

可选地，信息抽取模块包括：

分词处理单元，用于对所述标题进行分词处理，得到目标分词；

短句提取单元，用于对所述摘要进行短句提取，得到摘要短句；

信息标记单元，用于分别对所述目标分词、所述摘要短句和所述文本信息，按照来源类型进行标记，将标记后的目标分词，标记后的的摘要短句和标记后的文本信息作为输入BERT模型的融合特征。

可选地，信息抽取模块还包括：

编码单元，用于将所述融合特征与所述RCT文章输入到预设的BERT模型中，通过所述预设的BERT模型的编码层，对所述融合特征进行编码，得到初始编码，所述初始编码包括标题对应的第一编码、摘要对应的第二编码和文本信息对应的第三编码；

特征提取单元，用于通过所述预设的BERT模型的Transformer层，对所述第二编码和所述第三编码进行特征提取，得到第二编码对应的第二特征，以及所述第三编码对应的第三特征；

相似度计算单元，用于计算所述第三特征与所述第二特征之间的相似度值，并将与所述第二特征相似度值小于第一预设阈值的第三特征，作为待筛选特征；

候选集确定单元，用于将所述待筛选特征对应的文本信息，作为初始候选集。

可选地，所述基于机器学习的RCT文章信息抽取还包括：

距离计算模块，用于计算所述待筛选特征与所述第一编码的欧式距离；

特征筛选模块，用于将欧式距离小于或等于第二预设阈值的所述待筛选特征，作为更新后的待候选特征；

候选集获取模块，用于将所述更新后的待筛选特征对应的文本信息，作为初始候选集。

可选地，基于机器学习的信息抽取装置还包括：

句子重构模块，用于对所述RCT文章的关键信息进行句子重构，得到更新后的关键信息。

可选地，基于机器学习的信息抽取装置还包括：

存储模块，用于将所述RCT文章的关键信息存储于区块链网络节点中。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于机器学习的信息抽取方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于机器学习的信息抽取方法的步骤。

本发明实施例提供的基于机器学习的信息抽取方法、装置、计算机设备及存储介质，通过获取预设的分类标识，并基于分类标识，在检索数据库中进行检索，得到RCT文章，提取RCT文章的标题、摘要和正文，对正文进行数据预处理，得到处理后的文本信息，将标题、摘要与文本信息作为融合特征，并将融合特征与RCT文章输入到预设的BERT模型进行训练，得到粗粒度关键信息的候选集，将粗粒度关键信息的候选集作为初始候选集，使得提取的初始候选集与标题、摘要具有强相关性，确保提取内容的准确性，再根据预设的过滤条件，对初始候选集进行筛选处理，得到目标候选集，将目标候选集对应的文本信息，作为RCT文章的关键信息，实现根据需要，对初始候选集进行筛选，得到更为准确地重点信息，有利于提高信息抽取的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是本申请的基于机器学习的信息抽取方法的一个实施例的流程图；

图3是根据本申请的基于机器学习的信息抽取装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture E界面显示perts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureE界面显示perts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于机器学习的信息抽取方法由服务器执行，相应地，基于机器学习的信息抽取装置设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器，本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。

请参阅图2，图2示出本发明实施例提供的一种基于机器学习的信息抽取方法，以该方法应用在图1中的服务端为例进行说明，详述如下：

S201：获取预设的分类标识，并基于分类标识，在检索数据库中进行检索，得到RCT文章。

具体地，不同检索数据库中，RCT文章的分类标识不同，首先获取检索数据库预设的分类标识，进而基于该分类标识，在检索数据库中进行检索，得到RCT文章。

其中，RCT(research clinical trails)文章是一类医学文章，为研究某种药物或者是干预方法等的实际效果，为此医学研究者会制定招募标准招募志愿者进行实验，此前，也会借鉴已完成的RCT实验设计方法，已发表的RCT文章中可精炼出实验设计的重点信息为后来研究者提供便利，目前业内还未存在于RCT类医学文献中抽取出实验的实验标准，干预手段、及重点结果等总结性句子的系统，且精准度未达医生要求，若要使得抽取的RCT文章重点信息对医学研究者有所帮助，就需要抽取系统的抽取结果可靠、准确。

其中，检索数据库是指包含医学RCT文章的数字图书馆、数据库、学术文库等。

其中，分类标识是指检索数据库中每个类别文献资料对应的检索类别的标识，通过该分类标识，可快速查找到某一类别的文献资料。

S202：提取RCT文章的标题、摘要和正文。

具体地，通过预设的脚本文件，对医学RCT文章进行解析，得到该医学RCT文章的标题、摘要和正文。

其中，预设的脚本文件可以根据实际需求来进行定义，此处不做限制，预设的脚本类型包括但不限于：shell脚本、JavaScript脚本、Lua脚本和python脚本等，优选地，本实施例采用python脚本。

其中，解析的方式，具体包括但不限于：正则匹配、格式解析和模板匹配等。

S203：对正文进行数据预处理，得到处理后的文本信息，其中，文本信息包括文本短句和文本短句对应的位置。

具体地，获取到的正文进行数据预处理，包括文本分割、去除标点等，得到处理后的文本信息，其中，文本信息包括文本短句与文本短句对应的位置。

其中，文本短句对应的位置，是指对数据预处理之后得到的文本短句，按照前后顺序进行编号，得到每个文本短句相对其他文本短句的位置。

S204：将标题、摘要与文本信息作为融合特征，并将融合特征与RCT文章输入到预设的BERT模型进行训练，得到粗粒度关键信息的候选集，将粗粒度关键信息的候选集作为初始候选集。

具体地，将标题、摘要与文本信息作为融合特征，进而将融合特征和RCT文章输入到预设的语言表征模型中进行训练，得到RCT文章中粗粒度关键信息的候选集，作为初始候选集。

其中，语言表模型包括但不限于：深度语义表征(Embedding from LanguageModel，ELMo)算法、OpenAI GPT和预训练双向编码器语义(Bidirectional EncoderRepresentations from Transformers，BERT)模型，优选地，在本实施例中采用BERT模型作为语言表模型。

其中，BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation，即：文本的语义表示，然后将文本的语义表示在特定NLP任务中作微调，最终应用于该NLP任务。在本实施例中，标题中的分词，作为标注的重点词汇特征，摘要中的短句，作为标注的重点短句特征，根据这些标注特征，通过BERT模型，从正文中获取与这些标注特征关联最紧密的短句，作为候选集。

其中，将标题、摘要与文本信息进行融合作为融合特征的过程，可参考后续实施例的描述，为避免重复，此处不再赘述。

其中，粗粒度关键信息是指包含关键信息的信息集合，也即，该粗粒度关键信息中不仅包含关键信息，也包含其他一些不是很重要的信息，因而，需要后续进行进一步筛选。

S205：根据预设的过滤条件，对初始候选集进行筛选处理，得到目标候选集，将目标候选集对应的文本信息，作为RCT文章的关键信息。

具体地，RCT文章具有其固定的特征，通过对预先对一些RCT文章进行分析，得到RCT文章中关键信息的一些通用特征，并将该通用特征作为预设的过滤条件，并根据该过滤条件对初始候选集进行筛选处理，得到目标候选集，将目标候选集对应的文本信息，作为RCT文章的关键信息。

其中，本实施例中预设的过滤条件可根据实际情况进行确定，但均包含如下特征：(1)RCT文章重点信息句子所含有的特征；(2)每类待抽取的重点信息句子其句子内部存在的依存关系。将这两个特征作为依据，筛选Bert算法输出的初始候选集，将非重点信息句子排除在外，这样技能获取到每类待抽取信息的目标候选集。

在本实施例中，通过获取预设的分类标识，并基于分类标识，在检索数据库中进行检索，得到RCT文章，提取RCT文章的标题、摘要和正文，对正文进行数据预处理，得到处理后的文本信息，将标题、摘要与文本信息作为融合特征，并将融合特征与RCT文章输入到预设的BERT模型进行训练，得到粗粒度关键信息的候选集，将粗粒度关键信息的候选集作为初始候选集，使得提取的初始候选集与标题、摘要具有强相关性，确保提取内容的准确性，再根据预设的过滤条件，对初始候选集进行筛选处理，得到目标候选集，将目标候选集对应的文本信息，作为RCT文章的关键信息，实现根据需要，对初始候选集进行筛选，得到更为准确地重点信息，有利于提高信息抽取的准确性。

在一实施例中，在得到RCT文章的关键信息之后，将每个RCT文章的关键信息存储于区块链网络节点中，通过区块链存储，实现数据信息在不同平台之间的共享，也可防止数据被篡改。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

在本实施例的一些可选的实现方式中，步骤S204中，将标题、摘要与文本信息作为融合特征包括：

对标题进行分词处理，得到目标分词；

对摘要进行短句提取，得到摘要短句；

分别对目标分词、摘要短句和文本信息，按照来源类型进行标记，将标记后的目标分词，标记后的的摘要短句和标记后的文本信息作为输入BERT模型的融合特征。

具体地，通过预设的分词方式标题进行分词处理，得到目标分词，再对摘要进行短句提取，得到摘要短句，进而按照来源类型，分别对目标分词、摘要短句和文本信息进行标记，得到融合特征。

进一步地，预设的分词方式包括但不限于：通过第三方分词工具或者分词算法等。

其中，常见的第三方分词工具包括但不限于：Stanford NLP分词器、ICTClAS分词系统、ansj分词工具和HanLP中文分词工具等。

其中，分词算法包括但不限于：最大正向匹配(Maximum Matching，MM)算法、逆向最大匹配(ReverseDirectionMaximum Matching Method，RMM)算法、双向最大匹配(Bi-directction Matching method，BM)算法、隐马尔科夫模型(Hidden Markov Model，HMM)和N-gram模型等。

容易理解地，通过分词的方式从标题中提取分词，可以过滤掉一些无意义的词汇，有利于后续根据这些分词对关键信息抽取的范围进行限定。

进一步地，对摘要进行短句提取具体可以采用TextRank算法，也可以是采用自然语言处理的方式进行语义识别。

其中，TextRank算法通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用摘要本身的信息即可实现关键短句提取。

其中，自然语言处理(Natural Language Processing)是基于机器学习，特别是统计机器学习，来能实现人与计算机之间用自然语言进行有效通信的方法，一般运用到语料库以及马可夫模型(Markov models)。

进一步地，本实施例中，对目标分词、摘要短句和文本信息，按照来源类型进行标记，具体可以是对目标分词、摘要短句和文本信息分别添加一个属性，使用不同标识符来标明其来源于哪一类，例如，采用标识符“FC”标识来源为目标分词，采用标识符“ZY”标识来源为摘要短句，采用标识符“WB”标识来源为文本信息。

在本实施例中，通过对标题、摘要和文本信息进行处理和标记，作为融合特征，有利于在后续通过BERT模型识别的准确程度。

在本实施例的一些可选的实现方式中，预设的BERT模型包括编码层和Transformer层，步骤S204中，将融合特征与RCT文章输入到预设的BERT模型进行训练，得到粗粒度关键信息的候选集，将粗粒度关键信息的候选集作为初始候选集包括：

将融合特征与RCT文章输入到预设的BERT模型中，通过预设的BERT模型的编码层，对融合特征进行编码，得到初始编码，初始编码包括标题对应的第一编码、摘要对应的第二编码和文本信息对应的第三编码；

通过预设的BERT模型的Transformer层，对第二编码和第三编码进行特征提取，得到第二编码对应的第二特征，以及第三编码对应的第三特征；

计算第三特征与第二特征之间的相似度值，并将与第二特征相似度值小于第一预设阈值的第三特征，作为待筛选特征；

将待筛选特征对应的文本信息，作为初始候选集。

具体地，将融合特征与RCT文章输入到预设的BERT模型中，通过预设的BERT模型的编码层，对融合特征进行编码处理，得到初始编码，初始编码包括标题对应的第一编码、摘要对应的第二编码和文本信息对应的第三编码，再通过预设的BERT模型的Transformer层，对第二编码和第三编码进行特征提取，得到第二编码对应的第二特征，以及第三编码对应的第三特征，进而针对每个第三特征，计算该第三特征与第二特征的相似度，若相似度小于第一预设阈值，则将该相似度对应的第三特征，作为待筛选特征。

需要说明的是，预设的BERT模型为预先训练好的BERT模型，其训练样本来源于预先从RCT文章中选取并标记的数据特征。

其中，相似度的计算方式，具体包括但不限于：曼哈顿距离(ManhattanDistance)、欧式距离(Euclidean Distance)、余弦相似度(Cosine similarity)和闵氏距离(Minkowski distance)等。

其中，Transformer层是通过Transformer框架进行构建，Transformer框架是谷歌团队提出的自然语言处理的经典之作，Transformer可以增加到非常深的深度，并利用注意力机制实现快速并行，因而，Transformer框架相对于通常的卷积神经网络或者循环神经网络具有训练速度快，且识别率高的特点。

其中，第一预设阈值可根据实际情况进行设定，例如设为0.6，此处不作具体限制。

在本实施例中，通过采用预设的BERT模型，对融合特征进行编码和特征提取，进而确定与摘要存在关联的文本信息的集合，作为初始候选集，减少了关键信息提取的范围，有利于提高关键信息提取的效率。

在本实施例的一些可选的实现方式中，在计算第三特征与第二特征之间的相似度值，并将与第二特征相似度值小于第一预设阈值的第三特征，作为待筛选特征之后，还包括：

计算待筛选特征与第一编码的欧式距离；

将欧式距离小于或等于第二预设阈值的待筛选特征，作为更新后的待候选特征；

将更新后的待筛选特征对应的文本信息，作为初始候选集。

具体地，在得到待筛选特征之后，为更好的筛选出重要信息，采用标题对应的第一编码作为一个参考维度，计算待筛选特征与第一编码的欧式距离，易理解，距离越小，说明该待筛选特征对应的文本信息与标题的关联越紧密，根据预设的第二阈值对待筛选特征进行筛选，将与第一编码的欧式距离小于或等于第二预设阈值的待筛选特征进行保留，作为更新后的待候选特征，与第一编码的欧式距离大于第二预设阈值的待筛选特征，确认为与标题关联不紧密的待候选特征，进行剔除。

其中，第二预设阈值可以根据实际需求进行设定，例如，设置为8，此处不做具体限定。

其中，欧式距离(Euclidean Distance)又称为欧几里得度量，是是一个通常采用的距离定义，指在m维空间中两个点之间的真实距离，或者向量的自然长度(即该点到原点的距离)。在本实施例中，具体是指待筛选特征对应的空间向量与第一编码对应的空间向量之间的距离。

在本实施例中，通过第一编码与待筛选特征的欧式距离，挑选出与标题关联较紧(欧式距离较小)的待筛选特征作为更新后的待筛选特征，有利于提高初始候选集范围的准确率。

在本实施例的一些可选的实现方式中，在步骤S205之后，该基于机器学习的信息抽取方法还包括：

对RCT文章的关键信息进行句子重构，得到更新后的关键信息。

具体地，得到关键信息可能来源于RCT文章的多段内容，也即，抽取结果存在因为句子在全文的位置不连续，而出现可读性差的情况。此时，需要对提取到的关键信息进行句子重构，以得到句意明确、可读性强的更新后的关键信息，增强抽取关键信息的可靠性。

在本实施例中，句子重构是指采用预设的语法规则，对句式进行检查修正，并对句式中缺失的部分，根据语义进行补充完整，实现句子的完整性。

其中，预设的语法规则，可根据实际的语言，选取对应的语法，制定成对应的规则脚本。

其中，根据以使进行补充完整，具体可以是先对其进行语义识别，在根据句式中缺失的部分，补充相应关键词的方式，来实现句子的完整性，语义识别可采用自然语言处理的方式来实现，具体过程可参考前述实施例的描述，为避免重复，此处不再赘述。

在本实施例中，通过对RCT文章的关键信息进行句子重构，避免关键信息中语法不通顺、前后语义脱节等问题，使得更新后的关键信息表达更为准确。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图3示出与上述实施例基于机器学习的信息抽取方法一一对应的基于机器学习的信息抽取装置的原理框图。如图3所示，该基于机器学习的信息抽取装置包括文章获取模块31、内容提取模块32、数据预处理模块33、信息抽取模块34和信息确定模块35。各功能模块详细说明如下：

文章获取模块31，用于获取预设的分类标识，并基于分类标识，在检索数据库中进行检索，得到RCT文章；

内容提取模块32，用于提取RCT文章的标题、摘要和正文；

数据预处理模块33，用于对正文进行数据预处理，得到处理后的文本信息，其中，文本信息包括文本短句和文本短句对应的位置；

信息抽取模块34，用于将标题、摘要与文本信息作为融合特征，并将融合特征与RCT文章输入到预设的BERT模型进行训练，得到粗粒度关键信息的候选集，将粗粒度关键信息的候选集作为初始候选集；

信息确定模块35，用于根据预设的过滤条件，对初始候选集进行筛选处理，得到目标候选集，将目标候选集对应的文本信息，作为RCT文章的关键信息。

可选地，信息抽取模块34包括：

分词处理单元，用于对标题进行分词处理，得到目标分词；

短句提取单元，用于对摘要进行短句提取，得到摘要短句；

信息标记单元，用于分别对目标分词、摘要短句和文本信息，按照来源类型进行标记，将标记后的目标分词，标记后的的摘要短句和标记后的文本信息作为输入BERT模型的融合特征。

可选地，信息抽取模块34还包括：

编码单元，用于将融合特征与RCT文章输入到预设的BERT模型中，通过预设的BERT模型的编码层，对融合特征进行编码，得到初始编码，初始编码包括标题对应的第一编码、摘要对应的第二编码和文本信息对应的第三编码；

特征提取单元，用于通过预设的BERT模型的Transformer层，对第二编码和第三编码进行特征提取，得到第二编码对应的第二特征，以及第三编码对应的第三特征；

相似度计算单元，用于计算第三特征与第二特征之间的相似度值，并将与第二特征相似度值小于第一预设阈值的第三特征，作为待筛选特征；

候选集确定单元，用于将待筛选特征对应的文本信息，作为初始候选集。

可选地，基于机器学习的RCT文章信息抽取还包括：

距离计算模块，用于计算待筛选特征与第一编码的欧式距离；

特征筛选模块，用于将欧式距离小于或等于第二预设阈值的待筛选特征，作为更新后的待候选特征；

候选集获取模块，用于将更新后的待筛选特征对应的文本信息，作为初始候选集。

可选地，基于机器学习的信息抽取装置还包括：

句子重构模块，用于对RCT文章的关键信息进行句子重构，得到更新后的关键信息。

可选地，基于机器学习的信息抽取装置还包括：

存储模块，用于将RCT文章的关键信息存储于区块链网络节点中。

关于基于机器学习的信息抽取装置的具体限定可以参见上文中对于基于机器学习的信息抽取方法的限定，在此不再赘述。上述基于机器学习的信息抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如电子文件的控制的程序代码等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据，例如运行电子文件的控制的程序代码。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有界面显示程序，所述界面显示程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于机器学习的信息抽取方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于机器学习的信息抽取方法，应用于RCT文章的关键信息抽取，其特征在于，所述基于机器学习的信息抽取方法包括：

提取所述RCT文章的标题、摘要和正文；

2.如权利要求1所述的基于机器学习的信息抽取方法，其特征在于，所述将所述标题、所述摘要与所述文本信息作为融合特征包括：

对所述标题进行分词处理，得到目标分词；

对所述摘要进行短句提取，得到摘要短句；

3.如权利要求1所述的基于机器学习的信息抽取方法，其特征在于，所述预设的BERT模型包括编码层和Transformer层，所述将所述融合特征与所述RCT文章输入到预设的BERT模型进行训练，得到粗粒度关键信息的候选集，将所述粗粒度关键信息的候选集作为初始候选集包括：

将所述待筛选特征对应的文本信息，作为初始候选集。

4.如权利要求3所述的基于机器学习的信息抽取方法，其特征在于，在所述计算所述第三特征与所述第二特征之间的相似度值，并将与所述第二特征相似度值小于第一预设阈值的第三特征，作为待筛选特征之后，还包括：

计算所述待筛选特征与所述第一编码的欧式距离；

5.如权利要求1至4任一项所述的基于机器学习的信息抽取方法，其特征在于，在所述根据预设的过滤条件，对所述初始候选集进行筛选处理，得到目标候选集，将所述目标候选集对应的文本信息，作为所述RCT文章的关键信息之后，所述基于机器学习的信息抽取方法还包括：

6.如权利要求1所述的所述的基于机器学习的信息抽取方法，其特征在于，在所述根据预设的过滤条件，对所述初始候选集进行筛选处理，得到目标候选集，将所述目标候选集对应的文本信息，作为所述RCT文章的关键信息之后，还包括：

将所述RCT文章的关键信息存储于区块链网络节点中。

7.一种基于机器学习的信息抽取装置，应用于RCT文章的关键信息抽取，其特征在于，所述基于机器学习的信息抽取装置包括：

内容提取模块，用于提取所述RCT文章的标题、摘要和正文；

8.如权利要求7所述的基于机器学习的信息抽取装置，其特征在于，信息抽取模块包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的基于机器学习的信息抽取方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于机器学习的信息抽取方法。