CN111581270A

CN111581270A - 一种数据抽取方法和装置

Info

Publication number: CN111581270A
Application number: CN202010339307.XA
Authority: CN
Inventors: 宋宇航; 付骁弈
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-08-25

Abstract

本申请实施例公开了一种数据抽取方法和装置。所述方法包括：在得到段落文本后，获取所述段落文本中所需抽取的内容的特征信息；根据所述内容的特征信息，生成所述段落文本对应的问句；从所述段落文本中确定所述问句对应的答案信息；根据所述答案信息得到所需抽取的数据。

Description

一种数据抽取方法和装置

技术领域

本申请实施例涉及信息处理领域，尤指一种数据抽取方法和装置。

背景技术

数据抽取是一个涉及从各种来源检索数据的过程。抽取数据用以进一步处理数据，将数据迁移到数据存储库或进一步分析数据。将数据转换为此过程的一部分是很常见的。例如，如果需要对数据执行计算，并将这些结果存储在数据仓库中。如果要抽取数据并将其存储在数据仓库中，则可能需要添加其他元数据或使用时间戳或地理位置数据来丰富数据。如果希望将数据与目标数据存储中的其他数据组合在一起。这些过程统称为抽取，转换和加载，抽取是此过程中的第一个关键步骤。

在相关技术中，数据抽取操作是在得到数据后，通过人工筛选所需的信息，并从数据中挑选所需的信息完成数据抽取操作。

在实际应用中，上述数据抽取方式存在着效率低的问题。

发明内容

为了解决上述任一技术问题，本申请实施例提供了一种数据抽取方法和装置。

为了达到本申请实施例目的，本申请实施例提供了一种数据抽取方法，包括：

在得到段落文本后，获取所述段落文本中所需抽取的内容的特征信息；

根据所述内容的特征信息，生成所述段落文本对应的问句；

从所述段落文本中确定所述问句对应的答案信息；

根据所述答案信息得到所需抽取的数据。

一种数据抽取装置，包括：

获取模块，设置为在得到段落文本后，获取所述段落文本中所需抽取的内容的特征信息；

生成模块，设置为根据所述内容的特征信息，生成所述段落文本对应的问句；

确定模块，设置为从所述段落文本中确定所述问句对应的答案信息；

处理模块，设置为根据所述答案信息得到所需抽取的数据。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上文所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上文所述的方法。

上述技术方案中的一个技术方案具有如下优点或有益效果：

在得到段落文本后，获取所述段落文本中所需抽取的内容的特征信息，根据所述内容的特征信息，生成所述段落文本对应的问句，从所述段落文本中确定所述问句对应的答案信息，根据所述答案信息得到所需抽取的数据，通过将相关技术中的数据抽取策略转换为问答系统中确定所需的答案，实现自动抽取的目的，提高数据抽取的效率，克服人工抽取效率低的问题。

本申请实施例的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请实施例技术方案的进一步理解，并且构成说明书的一部分，与本申请实施例的实施例一起用于解释本申请实施例的技术方案，并不构成对本申请实施例技术方案的限制。

图1为本申请实施例提供的数据抽取方法的流程图；

图2为本申请实施例提供的数据自动方法的示意图；

图3为本申请实施例提供的数据抽取模型的示意图；

图4(a)为本申请实施例提供的模型训练和模型测试过程中损失值曲线的对比示意图；

图4(b)为本申请实施例提供的模型训练和模型测试过程中准确度曲线的对比示意图；

图5为本申请实施例提供的数据抽取装置的结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请实施例的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请实施例中的实施例及实施例中的特征可以相互任意组合。

在实现本申请过程中，发明人对相关技术进行了技术分析，发现相关技术至少存在如下问题，包括：

1、相关技术中的数据抽取技术很大程度上依赖于人工操作，效率较低；另外，由于数据采集、解析、整理、入库环节的操作较为分散，导致数据的实时性无法得到满足。

2、相关技术中数据抽取策略是针对特定应用场景设置的，存在着迁移性较差的问题，在面对其他场景的数据抽取情况下，需要重复上述流程，时间成本和人力成本较高。

基于上述分析，本申请实施例提出如下解决方案：

图1为本申请实施例提供的数据抽取方法的流程图。如图1所示，图1所示方法包括：

步骤101、在得到段落文本后，获取所述段落文本中所需抽取的内容的特征信息；

在一个示例性实施例中，该段落文本可以利用预先设置的数据抓取工具从预先设置的网站上读取，所需抽取的内容的特征信息可以为内容的关键词。

以段落文本为某一地区的疫情报道为例，所需抽取的内容可以A地区、确诊病例、疑似病例、隔离病例和时间t。

步骤102、根据所述内容的特征信息，生成所述段落文本对应的问句；

在一个示例性实施例中，内容的特征信息可以为一个或多个的关键词，如果直接以每个关键词进行查找，查找成本较高，因此，将关键词组成问句，作为一个整体，一方面保证对全部关键词的覆盖，另一方面方便问答系统以问句的方式对段落文本进行处理，提高对数据抽取操作的处理效率。

以上文所列的场景为例，问句可以为“A地区在时间t的病例情况是怎样的？”。

步骤103、从所述段落文本中确定所述问句对应的答案信息；

在一个示例性实施例中，可以利用预先设置的问答系统，确定所述问句对应的答案，由于答案可以覆盖问句中的关键词并提供该问句中所需获取的内容，从而达到抽取所需内容的目的。

步骤104、根据所述答案信息得到所需抽取的数据。

在一个示例性实施例中，在得到答案信息后，可以提交人工进行审核后再进行入库操作；或者，直接入库操作。

本申请实施例提供的方法，在得到段落文本后，获取所述段落文本中所需抽取的内容的特征信息，根据所述内容的特征信息，生成所述段落文本对应的问句，从所述段落文本中确定所述问句对应的答案信息，根据所述答案信息得到所需抽取的数据，通过将相关技术中的数据抽取策略转换为问答系统中确定所需的答案，实现自动抽取的目的，提高数据抽取的效率，克服人工抽取效率低的问题。

在一个示例性实施例中，所述从所述段落文本中确定所述问句对应的答案信息之前，所述方法还包括：

对预先获取的样本数据进行切分操作，得到至少两个切分数据，其中所述样本数据的内容与所述段落文本的内容符合预先的相似度的判断条件；

对切分数据中的词语进行标注，得到标注结果；

利用所述标注结果，对所述样本数据进行建模操作，得到语言解析模型；

所述从所述段落文本中确定所述问句对应的答案信息，包括：

利用所述语言解析模型分别对所述段落文本和所述问句中的内容进行解析，得到所述段落文本的第一解析内容和所述问句的第二解析内容；

在所述第一解析内容中确定包括有所述第二解析内容的答案信息。

针对相关技术中数据抽取方案存在着迁移性较差的问题，本申请实施例提供了解决方案，通过选择与该段落文本具有内容相似性的样本数据作为模型的输入源，利用样本数据与所述段落文本存在相同业务场景的特点，进行模型建立，在降低数据抽取方案的设计成本的前提下，提高方案的迁移性。另外，由于新的语料下的模型训练过程会增加时间成本和计算成本，因此，可以记录语料训练流程，从而在其他的场景下可以迁移，使整个流程在不同的场景可以复用。

在一个示例性实施例中，根据问句中携带的信息，利用创建的模型进行段落文本的特征解析，完成所需的数据的抽取，得到答案信息，从而实现自动抽取的目的，提高数据抽取的效率。

在一个示例性实施例中，所述利用所述标注结果，对所述样本数据进行建模操作，得到语言解析模型，包括：

将各个词语的标注结果转换为编码数据，其中所述编码数据用于标记标签的内容；

在对利用预先获取的训练样本建立的语言解析模型后，执行验证和/或测试操作，得到验证和/或测试操作得到的结果数据；

比较标注结果对应的编码数据与结果数据的编码数据，得到比较结果；

根据所述比较结果，对所述语言解析模型进行管理。

在一个示例性实施例中，在得到样本数据后，可以将样本数据划分为训练集、验证集和测试集，利用训练集进行模型的创建，利用验证集对模型的性能进行验证以判断是否能够使用，利用测试集对该模型的性能进行优化。

在得到语言解析模型过程中，可以将各个词语的标注记过转换为编码数据，利用数值作为编码数据进行标签信息的记录，提高验证和测试过程中性能信息的比对效率，提高语言解析模型的创建效率。

在一个示例性实施例中，通过BERT(Bidirectional Encoder Representationsfrom Transformers，来自变换器的双向编码器表征量)模型和BiLSTM(Bi-directionalLong Short-Term Memory，前向-后向长短期记忆网络)神经网络，训练得到数据抽取的模型，可以很大程度的减少人工操作，缩短数据采集、解析、入库的流程时间，保证数据从发布到被录入的时间差在可接受范围内。

在一个示例性实施例中，所述第一解析内容和所述第二解析内容均通过标签的编码数据来标记；

所述在所述段落文本的解析内容中确定所述问句的答案信息，包括：

利用所述问句的编码数据在所述段落文本的编码数据中进行查找，得到段落文本的编码数据中出现所述问句的编码数据的位置；

从所述段落文本的编码数据中抽取所述位置的编码片段；

将所述编码片段中的编码数据进行解码处理，得到所述答案信息。

与相关技术中直接利用段落文本中的文字进行匹配来确定所需抽取的内容相比，本申请实施例是根据段落文本中内容的标签数据进行匹配。对于文字不同但内容相似的内容，一旦标签匹配，就可以认为数据具有相关性。

以段落内容为B地区的疫情信息为新增1例的场景为例，根据标签内容可以确定B地区为A地区下属的一个区域，如果直接采用文字内容进行匹配，由于A地区和B地区在文字上不同，不会对该段内容中进行数据抽取；如果采用本申请实施例提供的方法，通过对段落文本的内容进行标注后得到的标签数据，可以确定B地区与A地区的标签具有关联性，所以对该段内容进行数据抽取，从而提高数据抽取操作的全面性。

以抽取某一地区的疫情数据为例，对数据自动抽取方法进行说明：

图2为本申请实施例提供的数据自动方法的示意图。如图2所示，所述方法利用BERT语言模型做词嵌入，并基于BiLSTM神经网络模型编码，并利用CRF解码得出结果；根据模型做数据的自动抽取，经人工审核后入库。

其中所述方法包括：

数据的爬取、清洗、标注：

可以从网站数据实时爬取新闻、资讯等疫情数据。对各式各样的文本做格式统一，接下来做数据清洗，过滤掉无关的信息。从中取前N天的数据进行词性的标注，以供后续模型的训练使用，其中N为正整数。

数据抽取中用的模型训练；

首先需要划分得到的数据集，处理为训练集、验证集和测试集数据，同时将字符的标注标签转换为id，形成label2id.json的文件，便于后边的模型的训练和预测的时候调用，形式如下：

{

"O":1,

"B-LOC":2,

"I-LOC":3,

"B-PER":4,

"I-PER":5,

"B-ORG":6,

"I-ORG":7

}

接下来是模型训练部分，模型分为3层，BERT词嵌入层用于文本特征的抽取，BiLSTM神经网络模型层，CRF解码层；

图3为本申请实施例提供的数据抽取模型的示意图。如图3所示，所述模型的输入包含两个部分：Document(段落文本)和Question(问题)，数据预处理阶段对数据进行清洗和切分段落；Encoder层采用预训练语言模型BERT，可以利用feature plugins用于集成一些特征插件，最后基于输出层计算答案位置的概率分布。

首先利用BERT抽取文本特征，读取上述得到的label2id字典，载入训练数据，对训练数据中的文本做切分。将切分后的到元素编码成ont-hot encoding，用于下面的模型训练过程。，其中句子长度大于128字节的句子均需要切分，即最大长度MAX_SEQ_LEN＝128。

获取句子的Bert Embedding，构建LSTM模型，LSTM结构如下：

lstm＝Bidirectional(LSTM(units＝128,return_sequences＝True),name＝"bi_lstm")(bert_output)

drop＝Dropout(0.1,name＝"dropout")(lstm)

out＝TimeDistributed(Dense(n_tags,activation＝"softmax"),name＝"time_distributed")(drop)

model＝Model(inputs＝bert_output,outputs＝out)

model.compile(optimizer＝'adam',loss＝'categorical_crossentropy',metrics＝['accuracy'])

可以采用一个标准的交叉熵损失函数来作为损失值，对于优化器，选择Adam，并且采用默认的学习率。

接下来读取训练集，验证集和测试集数据，开始模型的训练，并绘制损失loss和准确率acc的图像。

首先需要评估模型在测试数据集上的表现，读入预测的标签，因为数据中会存在预测的标签长度与原来的标注长度不一致的情况，因此需要对预测的标签做一定的调整，保证长度一致。之后利用序列标注算法评估模块seqeval对测试集进行验证。

模型预测部分，首先读取上述的label2id字典，同样利用BERT抽取文本特征，载入训练得到的模型，从预测的标签列表中获取实体，输入句子，进行预测。

图4(a)为本申请实施例提供的模型训练和模型测试过程中损失值曲线的对比示意图。如图4(a)所示，X轴表示时间信息，Y轴表示损失值信息，其中loss表示训练过程中的损失值，vol_loss表示测试过程中的损失值。

图4(b)为本申请实施例提供的模型训练和模型测试过程中准确度曲线的对比示意图。如图4(b)所示，X轴表示时间信息，Y轴表示准确度信息，其中acc表示训练过程中的准确度，vol_acc表示测试过程中的准确度。如图所示，可以对比训练和测试过程中的损失值loss和准确度acc曲线。

可以利用上述对比图，对模型的数据抽取能力进行量化。

在得到的数据抽取模型后，利用创建的模型进行数据抽取操作。

本申请实施例提供的方法，通过BERT模型和构建BiLSTM神经网络的方法，对疫情相关的新闻数据训练得到模型，自动抽取疫情数据，存入数据库，实现了自动化抽取疫情数据的功能；采用流程化的模型训练自动抽取数据，具有响应速度快、训练周期短、模型质量高等优点，可以针对不同的业务场景做迁移，实现定制化的部署和应用。

图5为本申请实施例提供的数据抽取装置的结构图。如图5所示，图5所示装置包括：

处理模块，设置为根据所述答案信息得到所需抽取的数据。

在一个示例性实施例中，所述装置还包括：

切分模块，设置为所述从所述段落文本中确定所述问句对应的答案信息之前，对预先获取的样本数据进行切分操作，得到至少两个切分数据，其中所述样本数据的内容与所述段落文本的内容符合预先的相似度的判断条件；

标注模块，设置为对切分数据中的词语进行标注，得到标注结果；

建模模块，设置为利用所述标注结果，对所述样本数据进行建模操作，得到语言解析模型；

所述确定模块包括：

解析单元，设置为利用所述语言解析模型分别对所述段落文本和所述问句中的内容进行解析，得到所述段落文本的第一解析内容和所述问句的第二解析内容；

确定单元，设置为在所述第一解析内容中确定包括有所述第二解析内容的答案信息。

在一个示例性实施例中，所述建模模块包括：

转换单元，设置为将各个词语的标注结果转换为编码数据，其中所述编码数据用于标记标签的内容；

执行单元，在对利用预先获取的训练样本建立的语言解析模型后，执行验证和/或测试操作，得到验证和/或测试操作得到的结果数据；

比较单元，设置为比较标注结果对应的编码数据与结果数据的编码数据，得到比较结果；

管理单元，设置为根据所述比较结果，对所述语言解析模型进行管理。

在一个示例性实施例中，所述解析单元所解析的所述第一解析内容和所述第二解析内容均通过标签的编码数据来标记；

所述确定单元包括：

查找子单元，设置为利用所述问句的编码数据在所述段落文本的编码数据中进行查找，得到段落文本的编码数据中出现所述问句的编码数据的位置；

抽取子单元，设置为从所述段落文本的编码数据中抽取所述位置的编码片段；

解码子单元，设置为将所述编码片段中的编码数据进行解码处理，得到所述答案信息。

本申请实施例提供的装置，在得到段落文本后，获取所述段落文本中所需抽取的内容的特征信息，根据所述内容的特征信息，生成所述段落文本对应的问句，从所述段落文本中确定所述问句对应的答案信息，根据所述答案信息得到所需抽取的数据，通过将相关技术中的数据抽取策略转换为问答系统中确定所需的答案，实现自动抽取的目的，提高数据抽取的效率，克服人工抽取效率低的问题。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上文任一项中所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上文任一项中所述的方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种数据抽取方法，包括：

根据所述内容的特征信息，生成所述段落文本对应的问句；

从所述段落文本中确定所述问句对应的答案信息；

根据所述答案信息得到所需抽取的数据。

2.根据权利要求1所述的方法，其特征在于：

所述从所述段落文本中确定所述问句对应的答案信息之前，所述方法还包括：

对切分数据中的词语进行标注，得到标注结果；

3.根据权利要求2所述的方法，其特征在于，所述利用所述标注结果，对所述样本数据进行建模操作，得到语言解析模型，包括：

根据所述比较结果，对所述语言解析模型进行管理。

4.根据权利要求3所述的方法，其特征在于：

所述第一解析内容和所述第二解析内容均通过标签的编码数据来标记；

从所述段落文本的编码数据中抽取所述位置的编码片段；

5.一种数据抽取装置，包括：

处理模块，设置为根据所述答案信息得到所需抽取的数据。

6.根据权利要求5所述的装置，其特征在于：

所述装置还包括：

所述确定模块包括：

7.根据权利要求6所述的装置，其特征在于，所述建模模块包括：

8.根据权利要求7所述的装置，其特征在于：

所述解析单元所解析的所述第一解析内容和所述第二解析内容均通过标签的编码数据来标记；

所述确定单元包括：

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。