CN109933796A

CN109933796A - 一种公告文本关键信息提取方法及设备

Info

Publication number: CN109933796A
Application number: CN201910209213.8A
Authority: CN
Inventors: 邱涛; 吴胜杰; 翁安栋
Original assignee: Xiamen Shang Ji Network Technology Co Ltd
Current assignee: Xiamen Shang Ji Network Technology Co Ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2019-06-25
Anticipated expiration: 2039-03-19
Also published as: CN109933796B

Abstract

本发明涉及一种公告文本关键信息提取方法，包括如下步骤：将公告文本转换为HTML文件，所述HTML文件中包含DIV控件，每个DIV控件对应代表一行文字；根据DIV控件的描述样式提取文字信息和表格信息，且在提取的过程中将相邻的语义关联的行合并为段落，与相邻行不存在语义关联的行独立成为段落，得到结构化文本；建立包含关键词的关键信息表单；通过特征工程获取关键信息，并该关键信息写入所述关键信息表单中，完成公告文本的关键信息提取。本发明能够深度解析公告文本，将非结构化数据转换成结构化文本，且能够快速准确提取关键信息，极大减少人工抽取数据的时间，提高投研效率和准确性，为分析过程创造价值。

Description

一种公告文本关键信息提取方法及设备

技术领域

本发明涉及一种公告文本关键信息提取方法及设备，属于自然语言处理领域。

背景技术

公告文本，以上市公司公告为例，是指上市公司按照证监会要求，通过指定平台向社会公众公布公司相关信息。在股市的投资研究过程中，上市公司的公告披露是投资者的重要参考依据，尤其对于专业的机构研究员，挖掘公告重要信息是每日投研的必要过程。然而，公告文本多为非结构化自然语言方式表述，且描述模式，短语差异很大，人工处理难度很大，且部分公告文本篇幅很长(年报、定向增发、资产重组)，包含大量信息，挖掘起来耗时费力。对于大量的非结构化文本，采取人工阅读，人工理解的方式，存在工作量大，理解带有主观性，行业报告全部理解周期性长等问题。因此，如何非结构化数据转换成计算机可理解的结构化数据并快速准确地从中自动提取关键信息成为亟待解决的技术问题。

请参阅图1，现有的计算机提取关键数据的方式一般是采用正则处理，但正则表达式无法穷尽文本中存在的各种特殊情况，例如：“累积投票数量”通过正则表达式可以匹配到‘累积’、‘投票’、‘数量’等内容，但是针对“累计投票数”，就无法匹配到‘累计’和‘数’等关键内容，需要额外再枚举包含‘累计’ ‘投票’、‘数’才能匹配，因此，在处理过程中必须根据原始文件描述的样式，不断地修改正则公式，难度不断加大。

公布号为CN108932327A的发明专利《一种页面信息提取系统及提取方法》公开了一种提取页面信息的方法，包括如下步骤：从获取的众多页面中抽取需要的信息，重复信息的删除（保留最新的信息），获取公告内容，对公告内容分类，对分类后的公告内容创建索引，根据用户关键字匹配新信息，然后推送出去。在页面信息抽取处理步骤中，其给出了页面预处理以及抽取规则设置，最终目的是提取公告的各部分信息，输出结构化的公告信息组以便查询分析。该技术方案并未对公告文本进行关键信息提取，其推送给用户的信息，仍然是完整的公告文件，无法解决本发明提出的快速准确提取关键信息这一技术问题，且该技术方案并未公开如何将公告的各部分信息输出成结构化的描述形式。

发明内容

为了解决上述技术问题，本发明提供一种公告文本关键信息提取方法，其能够深度解析公告文本，将非结构化数据转换成结构化文本，且能够快速准确提取关键信息，极大减少人工抽取数据的时间，提高投研效率和准确性，为分析过程创造价值。

本发明的技术方案一如下：

一种公告文本关键信息提取方法，包括如下步骤：将公告文本转换为HTML文件，所述HTML文件中包含DIV控件，每个DIV控件对应代表一行文字；根据DIV控件的描述样式提取文字信息和表格信息，且在提取的过程中将相邻的语义关联的行合并为段落，与相邻行不存在语义关联的行独立成为段落，得到结构化文本；建立包含关键词的关键信息表单；通过特征工程获取关键信息，并该关键信息写入所述关键信息表单中，完成公告文本的关键信息提取。

更优地，所述将相邻的语义关联的行合并为段落的执行步骤为：若DIV控件对应的行末尾没有空格和回车符，则认定该行与下一行语义关联，同理判断下一行，直至当前行与下一行不存在语义关联，将相邻的语义关联的行划分成段落；若DIV控件对应的行与上一行不存在语义关联，且该行末尾有空格或回车符，则该行独立成为段落。

更优地，所述公告文本包含数字标签，根据所述数字标签将所述结构化文本转换成树形结构的结构化文本。

更优地，所述特征工程的创建过程如下：根据关键信息表单，在样本中标注出需要提取的关键信息；对标注的关键信息采用分词标注或命名实体标注产生训练样本；用所述训练样本训练深度学习模型，得到关键信息提取模型。

更优地，所述深度学习模型的训练步骤如下：所述深度学习模型加载词库；对输入的训练样本进行预处理，对预处理后的训练样本进行分词；结合所述词库训练词向量，将输入的样本转换为词向量的表示方式，然后输入所述深度学习模型进行训练，得到所述关键信息提取模型。

更优地，所述结构化文本通过特征工程提取关键信息的步骤为：对输入的结构化文本进行预处理；对预处理后的训练样本进行分词；将输入的样本转换为词向量的表示方式，然后输入所述深度学习模型；将所述深度学习模型的输出结果写入所述关键信息表单，完成关键信息提取。

更优地，所述深度学习模型为BiLSTM-CRF中文命名实体识别模型。

本发明的还提供一种公告文本关键信息提取设备。

本发明技术方案二如下：

一种公告文本关键信息提取设备，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行如下步骤：将公告文本转换为HTML文件，所述HTML文件中包含DIV控件，每个DIV控件对应代表一行文字；根据DIV控件的描述样式提取文字信息和表格信息，且在提取的过程中将相邻的语义关联的行合并为段落，与相邻行不存在语义关联的行独立成为段落，得到结构化文本；建立包含关键词的关键信息表单；通过特征工程获取关键信息，并该关键信息写入所述关键信息表单中。

本发明具有如下有益效果：

1、本发明一种公告文本关键信息提取方法及设备，将公告文本转换为计算机能够识读的结构化文本，并通过特征工程获取快速准确获取关键信息，极大减少人工抽取数据的时间，提高投研效率和准确性，为分析过程创造价值。

2、本发明一种公告文本关键信息提取方法及设备，通过计算机识别特殊符号，将语义相关的行划分为一段落，得到结构化文本，使得公告文本信息可分析和统计，极大的为研究工作提供了全数据的分析环境。

3、本发明一种公告文本关键信息提取方法及设备，将带有数字标签的公告文本转换为树形文本，保持了原始文档结构的样式，最大限度地保留了原始文档的逻辑顺序。

4、本发明一种公告文本关键信息提取方法及设备，创建特征工程，通过训练得到关键信息提取模型，极大的提高了公告文本阅读分析效率，有效避免人工分析标准不一致的问题。

5、本发明一种公告文本关键信息提取方法及设备，将训练样本预处理并分词，并将输入的训练样本转换为词向量的表示方式，提高了关键信息提取的准确度。

附图说明

图1为现有技术中数据提取流程；

图2为本发明一种公告文本关键信息提取方法的流程示意图；

图3为本发明一种公告文本关键信息提取方法的HTML文件示意图；

图4为本发明一种公告文本关键信息提取方法的结构化文本示意图；

图5为本发明一种公告文本关键信息提取方法的人工标注样本示意图；

图6为本发明一种公告文本关键信息提取方法的分词标注输出示意图；

图7为本发明一种公告文本关键信息提取方法的命名实体标注输出示意图；

图8为本发明一种公告文本关键信息提取方法的关键信息表单示意图；

图9为本发明一种公告文本关键信息提取方法的完成信息提取后的示意图。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

实施例一

请参阅图2，一种公告文本关键信息提取方法，包括如下步骤：将公告文本转换为HTML文件，所述HTML文件中包含DIV控件，每个DIV控件对应代表一行文字；根据DIV控件的描述样式提取文字信息和表格信息，且在提取的过程中将相邻的语义关联的行合并为段落，与相邻行不存在语义关联的行独立成为段落，得到结构化文本，建立包含关键词的关键信息表单（如图8所示），通过特征工程获取关键信息，并该关键信息写入所述关键信息表单中，完成公告文本的关键信息提取，如图9所示。本发明一种公告文本关键信息提取方法及设备，将公告文本转换为计算机能够识读的结构化文本，并通过特征工程获取快速准确获取关键信息，极大减少人工抽取数据的时间，提高投研效率和准确性，为分析过程创造价值。

所述公告文件若为PDF格式的公告文本，可以通过开源工具pdf2htmlEX转换成HTML文件，所述HTML文件如图3所示，所述HTML文件中包含大量的<td>、<tr>、<table>等格式标签，因此，需要将公告文本中的文字和表格信息提取出来，便于后续段落处理及关键信息提取。所述HTML文件中，根据DIV控件的描述样式提取文字和表格信息，具体地，DIV控件的描述样式为：<div class="t m0 x7 h8 y13 ff6 fs1 fc0 sc0 ls0 ws0">”，代表文字实体类；DIV描述样式为“<div class="c x0 y12 w3 hd">”，代表表格实体类。由于每个DIV控件对应代表一行文字，行与行之间相互独立，未能体现公告文本中的段落。在提取的过程中，还要对各行进行段落划分处理，本实例给出了一种将相邻的语义关联的行合并为段落的执行步骤为：若DIV控件对应的行末尾没有空格和回车符，则认定该行与下一行语义关联，同理判断下一行，直至当前行与下一行不存在语义关联，将相邻的语义关联的行划分成段落；若DIV控件对应的行与上一行不存在语义关联，且该行末尾有空格或回车符，则该行独立成为段落。经过上述处理，得到的结构化文本如图4所示。上市公司发出的公告文件一般都包含数字标签：“一”，“二”，“（一）”，“（二）”，“1”，“2”等，根据所述数字标签将所述结构化文本转换成和原始公告文本结构相同的树形结构的结构化文本，如图4所示。目前的公告文本基本都是按照主线条阐述内容，总分结构的样式，树形结构的结构化文本保持了原始文档结构的样式，最大限度地保留了原始文档的逻辑顺序。

所述特征工程的创建过程如下：

步骤10、根据关键信息表单，通过标注工具做样本的人工标注，将关键信息标注出来，获得高质量的标注过的样本；所述标注工具可选用YEDDA(轻量级协作文本跨度注释工具)，人工阅读要标注的关键信息，并采用屏幕划词的方式标注出样本中关键信息的位置，标注过程如图5所示。

步骤20、对标注的关键信息采用分词标注或命名实体标注产生训练样本。采用分词标注方式，其输出格式如图6所示，其中B代表这个汉字是词汇的开始字符，M代表这个汉字是词汇的中间字符，E代表这个汉字是词汇的结束字符，而S代表单字词。采用命名实体标注方式，其输出格式如图7所示，其中BA代表这个汉字是地址首字，MA代表这个汉字是地址中间字，EA代表这个汉字是地址的尾字；BO代表这个汉字是机构名的首字，MO代表这个汉字是机构名称的中间字，EO代表这个汉字是机构名的尾字； BP代表这个汉字是人名首字，MP代表这个汉字是人名中间字，EP代表这个汉字是人名尾字，而O代表这个汉字不属于命名实体。

步骤30、将所述训练样本输入深度学习模型，得到关键信息提取模型，具体地：

步骤31、所述深度学习模型加载词库，所述词库包括自定义词典、中文维基语料库等，所述自定义词典包括用户添加的证券、财务相关词组；

步骤32、对输入的训练样本预处理，去停用词、去特殊字符等；

步骤33、对预处理后的训练样本进行分词，例如可以采用jieba分词器进行分词；

步骤34、结合所述词库训练词向量，将输入的样本转换为词向量的表示方式，然后输入所述深度学习模型进行训练，得到所述关键信息提取模型。训练词向量可以使用word2vec，向量维度为200；所述深度学习模型可以使用BiLSTM+CRF进行模型训练；命名实体识别模型BiLSTM（Bi-directional Long Short-Term Memory，RNN的一种）+CRF（条件随机场），专门应用于名称实体的识别，可以有效的识别出如下三大类信息：实体类（人名、公司名、地址名、产品名、机构名）、日期（各种格式的日期）和数值（百分比、金融等数值），根据场景样本的特点和业务要求，微调模型参数，得到较优的提取效果。

在完成特征工程的创建后，将已转换为结构化文本的公告文本，输入所述关键信息提取模型，需要经过如下步骤：对输入的结构化文本，去停用词、去特殊字符等，然后对预处理后的训练样本进行分词，结合所述词库使用word2vec训练词向量，将输入的文本转换为词向量的表示方式，然后输入所述深度学习模型，所述深度学习模型输出结果写入所述关键信息表单，完成关键信息提取。

所述特征工程，采用深度学习模型进行信息提取，深度学习模型是一种基于对数据进行表征学习的方法，是一种能够模拟出人脑的神经结构的机器学习方法。本发明利用这一点特质，将众多公告文本作为样本训练深度学习模型，通过机器学习，能够识别并提取不同表达形式的关键信息，提高信息提取准确率，有效克服了传统的正则表达式只能对有限的设定好的表达形式进行信息提取。

实施例二

本实施例的具体步骤可参见方法实施例的相关说明部分。

本发明一种公告文本关键信息提取方法及设备，将公告文本转换为计算机能够识读的结构化文本，并通过特征工程获取快速准确获取关键信息，极大减少人工抽取数据的时间，提高投研效率和准确性，为分析过程创造价值。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种公告文本关键信息提取方法，其特征在于，包括如下步骤：

将公告文本转换为HTML文件，所述HTML文件中包含DIV控件，每个DIV控件对应代表一行文字；

根据DIV控件的描述样式提取文字信息和表格信息，且在提取的过程中将相邻的语义关联的行合并为段落，与相邻行不存在语义关联的行独立成为段落，得到结构化文本；

建立包含关键词的关键信息表单；

通过特征工程获取关键信息，并该关键信息写入所述关键信息表单中，完成公告文本的关键信息提取。

2.根据权利要求1所述的一种公告文本关键信息提取方法，其特征在于：所述将相邻的语义关联的行合并为段落的执行步骤为：若DIV控件对应的行末尾没有空格和回车符，则认定该行与下一行语义关联，同理判断下一行，直至当前行与下一行不存在语义关联，将相邻的语义关联的行划分成段落；若DIV控件对应的行与上一行不存在语义关联，且该行末尾有空格或回车符，则该行独立成为段落。

3.根据权利要求1所述的一种公告文本关键信息提取方法，其特征在于：所述公告文本包含数字标签，根据所述数字标签将所述结构化文本转换成树形结构的结构化文本。

4.根据权利要求1所述的一种公告文本关键信息提取方法，其特征在于：所述特征工程的创建过程如下：

根据关键信息表单，在样本中标注出需要提取的关键信息；

对标注的关键信息采用分词标注或命名实体标注产生训练样本；

用所述训练样本训练深度学习模型，得到关键信息提取模型。

5.根据权利要求4所述的一种公告文本关键信息提取方法，其特征在于：所述深度学习模型的训练步骤如下：

所述深度学习模型加载词库；

对输入的训练样本进行预处理，对预处理后的训练样本进行分词；

结合所述词库训练词向量，将输入的样本转换为词向量的表示方式，然后输入所述深度学习模型进行训练，得到所述关键信息提取模型。

6.根据权利要求5所述的一种公告文本关键信息提取方法，其特征在于：所述结构化文本通过特征工程提取关键信息的步骤为：

对输入的结构化文本进行预处理；

对预处理后的训练样本进行分词；

将输入的样本转换为词向量的表示方式，然后输入所述深度学习模型；

将所述深度学习模型的输出结果写入所述关键信息表单，完成关键信息提取。

7.根据权利要求4所述的一种公告文本关键信息提取方法，其特征在于：所述深度学习模型为BiLSTM-CRF中文命名实体识别模型。

8.一种公告文本关键信息提取设备，其特征在于：包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行如权利要求1至7任意项所述的公告文本关键信息提取方法。