CN116204610B

CN116204610B - 一种基于可研报告命名实体识别的数据挖掘方法及装置

Info

Publication number: CN116204610B
Application number: CN202310474163.2A
Authority: CN
Inventors: 陈育洲; 苏毓腾; 陈中华; 梁德楷; 郑李梨
Original assignee: Shenzhen Qhdata Service Co ltd
Current assignee: Shenzhen Qhdata Service Co ltd
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-07-07
Anticipated expiration: 2043-04-28
Also published as: CN116204610A

Abstract

本发明公开涉及一种基于可研报告命名实体识别的数据挖掘方法及装置，该方法包括：通过BIOES序列对原始训练数据集进行标注，根据标注数据对Ner模型进行训练，获取基准训练模型；对待处理文本进行预测，获取第一预测数据集；根据第一预测数据集获取第一切分数据集、第二切分数据集、第一修正数据集以及第一混合数据集，进而获取目标混合数据；通过目标混合数据获取目标训练模型；通过目标训练模型对待处理文本进行预测，获取第二预测数据集，获取可研报告的数据预测结果。能够减少不必要的运算，增加计算效率，使整体模型体积缩小，运行占用资源消耗减少，有明确的实体边界，不需要依赖任何规则，且模型迭代成本低。

Description

一种基于可研报告命名实体识别的数据挖掘方法及装置

技术领域

本发明公开涉及数据处理技术领域，具体地，涉及一种基于可研报告命名实体识别的数据挖掘方法及装置。

背景技术

可行性研究报告，简称可研报告，是在制订生产、基建、科研计划的前期，通过全面的调查研究，分析论可行性研究报告流程证某个建设或改造工程、某种科学研究、某项商务活动切实可行而提出的一种书面材料。近来，随着互联网的飞速发展，在经济运行的领域，出现了许多各个行业研究的信息网站，它们为各类研究机构/分析人员提供了更多元化的经济运行信息获取渠道。这些网站以宏观经济分析报告，行业分析报告，龙头企业行为分析报告等为主要内容。在国内，比较知名的有新浪财经、东方财富网、金十数据等网站中，包含了许多研究报告信息，然而这些报告信息在文本中处于一种非结构化的状态。即使只关注一个非常专业的研究领域，大多数分析师/决策者也很难跟上该领域的研究进展。

因此，本领域人员亟需寻找一种新的技术方案来解决上述的问题。

发明内容

为克服相关技术中存在的问题，本发明公开提供一种基于可研报告命名实体识别的数据挖掘方法及装置。

根据本发明公开实施例的第一方面，提供一种基于可研报告命名实体识别的数据挖掘方法，所述方法包括：

将待处理的可研报告拆分成文本形式后，对所述文本形式的可研报告进行分类并去除无效文本和非关键文本，获取待处理文本；

判断是否需要对训练模型进行初始化；

若确定需要对所述训练模型进行初始化，通过BIOES序列对原始训练数据集进行标注，根据标注后获取的标注数据对Ner模型进行训练，获取基准训练模型；

通过所述基准训练模型对待处理文本进行预测，获取第一预测数据集；

根据所述第一预测数据集获取切分后的第一切分数据集和第二切分数据集、第一切分数据集修正后的第一修正数据集、以及第一修正数据集和所述原始训练数据集混合后的第一混合数据集；

根据第一混合数据集、第一预设权重、第二切分数据集和第二预设权重，获取目标混合数据；

通过所述目标混合数据对Ner模型进行训练，获取目标训练模型；

通过所述目标训练模型对待处理文本进行预测，获取第二预测数据集；

根据预设格式对所述第二预测数据集进行整理，获取所述可研报告的数据预测结果，以对所述可研报告的数据进行挖掘。

可选的，所述方法还包括：

若确定不需要对所述训练模型进行初始化，将所述训练模型作为目标训练模型；

可选的，所述根据所述第一预测数据集获取切分后的第一切分数据集和第二切分数据集、第一切分数据集修正后的第一修正数据集、以及第一修正数据集和所述原始训练数据集混合后的第一混合数据集，包括：

按照1:9的预设比例对所述第一预测数据集进行切分，获取占比10％的第一切分数据集和占比90％的第二切分数据集；

通过预设的数据修正策略对第一切分数据集进行修正得到第一修正数据集；

将所述第一修正数据集与所述原始训练数据进行混合，获取第一混合数据集。

可选的，所述根据第一混合数据集、第一预设权重、第二切分数据集和第二预设权重，获取目标混合数据，包括：

根据第一预设权重和第一混合数据集的乘积，以及第二预设权重和第二切分数据集的乘积，获取目标混合数据，其中，所述第一预设权重的数值为1，第二预设权重的数值为-0.5。

可选的，所述判断是否需要对训练模型进行初始化，包括：

通过文本相似度对比，判断所述待处理文本与所述训练模型的文本数据库中训练文本的相似度是否低于0.5。

根据本发明公开实施例的第二方面，提供一种基于可研报告命名实体识别的数据挖掘装置，所述装置包括：

待处理文本获取模块，将待处理的可研报告拆分成文本形式后，对所述文本形式的可研报告进行分类并去除无效文本和非关键文本，获取待处理文本；

判断模块，与所述待处理文本获取模块相连，判断是否需要对训练模型进行初始化；

基准模型训练模块，与所述判断模块相连，若确定需要对所述训练模型进行初始化，通过BIOES序列对原始训练数据集进行标注，根据标注后获取的标注数据对Ner模型进行训练，获取基准训练模型；

第一预测数据集获取模块，与所述基准模型训练模块相连，通过所述基准训练模型对待处理文本进行预测，获取第一预测数据集；

第一混合数据集获取模块，与所述第一预测数据集获取模块相连，根据所述第一预测数据集获取切分后的第一切分数据集和第二切分数据集、第一切分数据集修正后的第一修正数据集、以及第一修正数据集和所述原始训练数据集混合后的第一混合数据集；

目标混合数据获取模块，与所述第一混合数据集获取模块相连，根据第一混合数据集、第一预设权重、第二切分数据集和第二预设权重，获取目标混合数据；

第一目标训练模型获取模块，与所述目标混合数据获取模块相连，通过所述目标混合数据对Ner模型进行训练，获取目标训练模型；

第二预测数据集获取模块，与所述第一目标训练模型获取模块，通过所述目标训练模型对待处理文本进行预测，获取第二预测数据集；

数据挖掘模块，与所述第二预测数据集获取模块相连，根据预设格式对所述第二预测数据集进行整理，获取所述可研报告的数据预测结果，以对所述可研报告的数据进行挖掘。

可选的，所述装置还包括：

第二目标训练模型获取模块，与所述判断模块相连，若确定不需要对所述训练模型进行初始化，将所述训练模型作为目标训练模型；

第二预测数据集获取模块，与所述第二目标训练模型获取模块相连，通过所述目标训练模型对待处理文本进行预测，获取第二预测数据集；

可选的，所述第一混合数据集获取模块包括：

数据切分单元，按照1:9的预设比例对所述第一预测数据集进行切分，获取占比10％的第一切分数据集和占比90％的第二切分数据集；

数据修正单元，与所述数据切分单元相连，通过预设的数据修正策略对第一切分数据集进行修正得到第一修正数据集；

数据混合单元，与所述数据修正单元相连，将所述第一修正数据集与所述原始训练数据进行混合，获取第一混合数据集。

可选的，所述目标混合数据获取模块，包括：

可选的，所述判断模块，包括：

综上所述，通过本发明公开的技术方案，能够带来以下有益效果：

1）有明确的实体边界，不需要依赖任何规则(如简称，连字符，大小写等)即可直接提取出来；

2）模型迭代成本低，借助较低的人工成本可以使模型在新的领域中快速学习/迭代模型；

3）减少不必要的运算，增加计算效率；

4）与通常的bert+bilstm+crf相比，ner模型去除了两个大型模块，使整体模型体积缩小，效率提升，运行占用资源消耗减少。

本发明公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种基于可研报告命名实体识别的数据挖掘方法的流程图；

图2是根据图1示出的一种混合数据获取方法的流程示意图；

图3是根据图1示出的另一种基于可研报告命名实体识别的数据挖掘方法的流程示意图；

图4是根据一示例性实施例示出的一种基于可研报告命名实体识别的数据挖掘装置的结构框图；

图5是根据图4示出的一种基于可研报告命名实体识别的数据挖掘装置的结构框图；

图6是根据图4示出的一种第一混合数据集获取模块的结构框图。

具体实施方式

以下结合附图对本发明公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1是根据一示例性实施例示出的一种基于可研报告命名实体识别的数据挖掘方法的流程图，如图1所示，该方法包括：

在步骤101中，将待处理的可研报告拆分成文本形式后，对该文本形式的可研报告进行分类并去除无效文本和非关键文本，获取待处理文本。

示例地，获取客户或业务员提供的待处理的可研报告后（通常为word格式或者pdf格式），将待处理的可研报告拆分成文本形式（通常为一句话一个文本），按照预设规则对每句话对应的文本进行分类，去除无效文本和非关键文本，获取需要进行数据挖掘的待处理文本。

可以理解的是，由于可研报告的文本量非常大，且通常会包含许多无关信息，将影响到后续基于命名实体识别的数据挖掘。因此，在进行数据挖掘之前，我们先通过预设的分类模型（优选为task模型）对文本进行分类，并筛选出包含关键信息的语句（即去除非关键文本和无效文本）。通过上述步骤对文本进行筛选后，文本量可以缩减30%-70%，使整体方案的准确性，尤其是运行速度都有提升，运行速度可以比使用全量文本直接进行抽取快50%左右。

需要说明的是，task模型就是一层word embedding的隐层+输出层，如图所示，其中W(1)到W(n)表示document中每个词的word embedding表示。文章则可以用所有词的embedding累加后的均值表示，即公式（1）进行表示：

（1），

最后再从隐层经过softmax处理得到输出层的label。

在步骤102中，判断是否需要对训练模型进行初始化。

示例地，判断是否需要对训练模型进行初始化时，判断依据为经过筛选的有效文本是否已经囊括在训练模型的训练文本中。具体的，通过文本相似度对比的方式，判断该待处理文本与该训练模型的文本数据库中训练文本的相似度是否低于0.5，若低于0.5则需要进行初始化。

在步骤103中，若确定需要对该训练模型进行初始化，通过BIOES序列对原始训练数据集进行标注，根据标注后获取的标注数据对Ner模型进行训练，获取基准训练模型。

示例地，若确定待处理文本与训练文本的相似度低于0.5，则需要对训练模型进行初始化。具体的，通过BIOES序列对原始训练数据集进行标注，其中，原始训练数据为训练模型中的训练文本。根据标注后获取的标注数据对Ner模型进行训练，获取基准训练模型。

需要说明的是，使用BIOSE序列对原始训练数据进行标记时，B-begin代表实体的开头，I-inside代表实体的中间，O-outside代表非实体，用于标记无关字符，E-end代表实体的结尾，S-single代表单个字符。BIOSE序列提供了End的信息，并给出了单个词汇的S-tag，提供了更多的信息，有更加明确的边界信息。

Ner模型算法使用字符级Embedding向量表示可研报告中词汇信息，每个句子被表示成一串由向量组成的序列：

，作为模型的输入，其中e代表每个词的向量表示，n表示句子的长度；使用LSTM对词的向量纬度经行压缩，减少后续计算量。具体的，在BILSTM层中，fw为前向传播的LSTM层隐状态，bw为反向传播的LSTM层隐状态。将每一步的前向和后向的隐向量进行拼接，得到/>

，输出到一个大小为[隐藏层维度，标签类别数]的全连接层，得到每一步对应各个标签的概率。全连接层的结果直接展开，将每个标签的概率softmax化。因此，输出集合可以表示为

，T为每个字的标签向量，x为标签数，n为句子长度，p为每个标签的概率。取每个字的标签的最大概率值的标签作为该字的标签，根据标签确定实体边界，提取出对应实体命名。

由于这种可研报告文本没有公开可用数据集进行测试，所以只能使用自己人工标注的数据，按照8：2切分为训练集与测试集进行模型对比。

测试结果通过表1进行表示：

表1

在步骤104中，通过该基准训练模型对待处理文本进行预测，获取第一预测数据集。

示例地，通过进准训练模型对初始测试集（即待处理文本）进行预测得到伪标签（即第一预测数据集）。根据得到每一个句子的结果，计算该句子的所有字所获得类别的概率的平均值作为模型的句子确信值。

需要说明的是，确信值在0.8以下的部分，按照从小到大排序后，才能执行下述步骤105中的数据切分处理，获取切分后的第一切分数据集和第二切分数据集。

在步骤105中，根据该第一预测数据集获取切分后的第一切分数据集和第二切分数据集、第一切分数据集修正后的第一修正数据集、以及第一修正数据集和该原始训练数据集混合后的第一混合数据集。

示例地，对第一预测数据集进行切分得到第一切分数据集和第二切分数据集后，还需要对第一切分数据集进行修正处理以及混合处理，获取第一混合数据集。

具体的，图2是根据图1示出的一种混合数据获取方法的流程示意图，如图2所示，该步骤105包括：

在步骤1051中，按照1:9的预设比例对该第一预测数据集进行切分，获取占比10％的第一切分数据集和占比90％的第二切分数据集。

示例地，根据上述步骤104获取句子的确信值后，将确信值在0.8以下的部分，按照从小到大排序，并进行切分处理。

在步骤1052中，通过预设的数据修正策略对第一切分数据集进行修正得到第一修正数据集。

示例地，切分处理后10％的第一切分数据进行修正处理，具体的，根据第一切分数据集中每个数据与修正数据库中修正数据之间的映射关系，得到每个数据对应的修正数据，构成第一修正数据集。

另外，还可以将第一修正数据集中的数据交给专家组进行人为修正或者标注。由于只需要专家组对10％的数据进行人为修正，在一定程度上也节省了人工成本。

在步骤1053中，将该第一修正数据集与该原始训练数据进行混合，获取第一混合数据集。

在步骤106中，根据第一混合数据集、第一预设权重、第二切分数据集和第二预设权重，获取目标混合数据。

具体的，根据第一预设权重和第一混合数据集的乘积，以及第二预设权重和第二切分数据集的乘积，获取目标混合数据，其中，该第一预设权重的数值为1，第二预设权重的数值为-0.5。

示例地，第二预设权重和第二切分数据集的乘积称为伪标签数据，第一预设权重与第一混合数据集的乘积和伪标签数据混合后，得到目标混合数据。

在步骤107中，通过该目标混合数据对Ner模型进行训练，获取目标训练模型。

在步骤108中，通过该目标训练模型对待处理文本进行预测，获取第二预测数据集。

示例地，预测数据一般存储在数据库中，以【拆分出来的文本】，【文本含义】，【语句id】来存储。例如：

{Columns=[word,tag, statement_id]

Value=[[中国邮政],[poi],[1], [政府],[poi],[1]]}。

在步骤109中，根据预设格式对该第二预测数据集进行整理，获取该可研报告的数据预测结果，以对该可研报告的数据进行挖掘。

示例地，通常情况下，还需要根据业务员要求或者客户要求改变第二预测数据集的格式，以完成该可研报告的数据挖掘过程。通常情况下，根据业务要求将得到的基本格式转化为业务需要的格式，且一般以api服务形式提供数据。

例如：{“poi”:[“中国邮政”,” 政府”],”town”:[“大坪场镇”]}。

图3是根据图1示出的另一种基于可研报告命名实体识别的数据挖掘方法的流程示意图，如图3所示，该方法还包括：

在步骤201中，若确定不需要对该训练模型进行初始化，将该训练模型作为目标训练模型。

示例地，若待处理文本与训练文本的相似度高于或等于0.5，则不需要对训练模型进行初始化，直接将该训练模型作为目标训练模型，并执行步骤108以及步骤109中的操作。

在步骤202中，通过该目标训练模型对待处理文本进行预测，获取第二预测数据集。

在步骤203中，根据预设格式对该第二预测数据集进行整理，获取该可研报告的数据预测结果，以对该可研报告的数据进行挖掘。

可以理解的是，步骤202即上述步骤108，步骤203即上述步骤109。

图4是根据一示例性实施例示出的一种基于可研报告命名实体识别的数据挖掘装置的结构框图，如图4所示，该装置400包括：

待处理文本获取模块410，将待处理的可研报告拆分成文本形式后，对该文本形式的可研报告进行分类并去除无效文本和非关键文本，获取待处理文本；

判断模块420，与该待处理文本获取模块410相连，判断是否需要对训练模型进行初始化；

基准模型训练模块430，与该判断模块420相连，若确定需要对该训练模型进行初始化，通过BIOES序列对原始训练数据集进行标注，根据标注后获取的标注数据对Ner模型进行训练，获取基准训练模型；

第一预测数据集获取模块440，与该基准模型训练模块430相连，通过该基准训练模型对待处理文本进行预测，获取第一预测数据集；

第一混合数据集获取模块450，与该第一预测数据集获取模块440相连，根据该第一预测数据集获取切分后的第一切分数据集和第二切分数据集、第一切分数据集修正后的第一修正数据集、以及第一修正数据集和该原始训练数据集混合后的第一混合数据集；

目标混合数据获取模块460，与该第一混合数据集获取模块450相连，根据第一混合数据集、第一预设权重、第二切分数据集和第二预设权重，获取目标混合数据；

第一目标训练模型获取模块470，与该目标混合数据获取模块460相连，通过该目标混合数据对Ner模型进行训练，获取目标训练模型；

第二预测数据集获取模块480，与该第一目标训练模型获取470模块，通过该目标训练模型对待处理文本进行预测，获取第二预测数据集；

数据挖掘模块490，与该第二预测数据集获取模块480相连，根据预设格式对该第二预测数据集进行整理，获取该可研报告的数据预测结果，以对该可研报告的数据进行挖掘。

图5是根据图4示出的一种基于可研报告命名实体识别的数据挖掘装置的结构框图，如图5所示，该装置400还包括：

第二目标训练模型获取模块510，与该判断模块420相连，若确定不需要对该训练模型进行初始化，将该训练模型作为目标训练模型；

第二预测数据集获取模块480，与该第二目标训练模型获取模块510相连，通过该目标训练模型对待处理文本进行预测，获取第二预测数据集；

图6是根据图4示出的一种第一混合数据集获取模块的结构框图，如图6所示，该第一混合数据集获取模块450包括：

数据切分单元451，按照1:9的预设比例对该第一预测数据集进行切分，获取占比10％的第一切分数据集和占比90％的第二切分数据集；

数据修正单元452，与该数据切分单元451相连，通过预设的数据修正策略对第一切分数据集进行修正得到第一修正数据集；

数据混合单元453，与该数据修正单元452相连，将该第一修正数据集与该原始训练数据进行混合，获取第一混合数据集。

可选的，该目标混合数据获取模块460，包括：

根据第一预设权重和第一混合数据集的乘积，以及第二预设权重和第二切分数据集的乘积，获取目标混合数据，其中，该第一预设权重的数值为1，第二预设权重的数值为-0.5。

可选的，该判断模块420，包括：

通过文本相似度对比，判断该待处理文本与该训练模型的文本数据库中训练文本的相似度是否低于0.5。

综上所述，本发明公开涉及一种基于可研报告命名实体识别的数据挖掘方法及装置，该方法包括：通过BIOES序列对原始训练数据集进行标注，根据标注数据对Ner模型进行训练，获取基准训练模型；对待处理文本进行预测，获取第一预测数据集；根据第一预测数据集获取第一切分数据集、第二切分数据集、第一修正数据集以及第一混合数据集，进而获取目标混合数据；通过目标混合数据获取目标训练模型；通过目标训练模型对待处理文本进行预测，获取第二预测数据集，获取可研报告的数据预测结果。能够减少不必要的运算，增加计算效率，使整体模型体积缩小，运行占用资源消耗减少，有明确的实体边界，不需要依赖任何规则，且模型迭代成本低。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种基于可研报告命名实体识别的数据挖掘方法，其特征在于，所述方法包括：

判断是否需要对训练模型进行初始化；

根据预设格式对所述第二预测数据集进行整理，获取所述可研报告的数据预测结果，以对所述可研报告的数据进行挖掘；

其中，所述判断是否需要对训练模型进行初始化，包括：通过文本相似度对比，判断所述待处理文本与所述训练模型的文本数据库中训练文本的相似度是否低于0.5；

根据标注后获取的标注数据对Ner模型进行训练，获取基准训练模型，包括：将每个句子表示成一串由向量组成的序列：

，作为Ner模型的输入，其中代表每个词的向量表示，n表示句子的长度；使用LSTM对词的向量纬度经行压缩，以减少计算量；具体的，在BILSTM层中，fw为前向传播的LSTM层隐状态，bw为反向传播的LSTM层隐状态，将每一步的前向和后向的隐向量进行拼接，得到/>

，输出到一个大小为[隐藏层维度，标签类别数]的全连接层，得到每一步对应各个标签的概率，全连接层的结果直接展开，将每个标签的概率softmax化，将输出集合表示为

，/>

，其中，T为每个字的标签向量，x为标签数，n为句子长度，p为每个标签的概率，取每个字的标签的最大概率值的标签作为该字的标签，根据标签确定实体边界，提取出对应实体命名。

2.根据权利要求1所述的基于可研报告命名实体识别的数据挖掘方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的基于可研报告命名实体识别的数据挖掘方法，其特征在于，所述根据所述第一预测数据集获取切分后的第一切分数据集和第二切分数据集、第一切分数据集修正后的第一修正数据集、以及第一修正数据集和所述原始训练数据集混合后的第一混合数据集，包括：

4.根据权利要求3所述的基于可研报告命名实体识别的数据挖掘方法，其特征在于，所述根据第一混合数据集、第一预设权重、第二切分数据集和第二预设权重，获取目标混合数据，包括：

5.一种基于可研报告命名实体识别的数据挖掘装置，其特征在于，所述装置包括：

数据挖掘模块，与所述第二预测数据集获取模块相连，根据预设格式对所述第二预测数据集进行整理，获取所述可研报告的数据预测结果，以对所述可研报告的数据进行挖掘；

其中，所述判断模块，包括：通过文本相似度对比，判断所述待处理文本与所述训练模型的文本数据库中训练文本的相似度是否低于0.5；

，/>

6.根据权利要求5所述的基于可研报告命名实体识别的数据挖掘装置，其特征在于，所述装置还包括：

7.根据权利要求5所述的基于可研报告命名实体识别的数据挖掘装置，其特征在于，所述第一混合数据集获取模块包括：

8.根据权利要求5所述的基于可研报告命名实体识别的数据挖掘装置，其特征在于，所述目标混合数据获取模块，包括：