CN115982419A

CN115982419A - 一种文档字符串内容识别方法

Info

Publication number: CN115982419A
Application number: CN202111192690.1A
Authority: CN
Inventors: 姚昊; 李强; 任宇阳; 吴宝华; 皮敏; 杜君尧; 肖薇; 潘炼; 楼宝川; 杜梦娟
Original assignee: CNNC Nuclear Power Operation Management Co Ltd
Current assignee: CNNC Nuclear Power Operation Management Co Ltd
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2023-04-18

Abstract

本发明涉及数据信息处理技术领域，具体公开了一种文档字符串内容识别方法。该方法包括：利用Bi‑LSTM‑CRF方法对字符串的编码规则进行分类，构建特定字符串识别模型；构建Bi‑LSTM‑CRF模型，利用特定场景中特定字符串作为字符串编码规则训练集，获得对字符串编码规则分类模型；将文档中的特定字符串与所述字符串编码规则分类模型进行匹配，获得特定字符串的匹配结果；将所述匹配结果与构建的所述特定字符串识别模型进行匹配识别后，生成编码结果集，并在原文档中标注编码。本方法能够在无先验精确编码规则知识前提下，依然能够有效准确识别特定字符串；相比现有的单纯利用字分布式字符串实体识别系统，基于Bi‑LSTM‑CRF模型的实体识别模型取得更好表现，具有更好的准确性。

Description

一种文档字符串内容识别方法

技术领域

本发明属于数据信息处理技术领域，具体涉及一种文档字符串内容识别方法。

背景技术

随着5G技术和互联网技术的不断更新和发展，在自然语言处理领域，从海量文档中对特定字符串类识别的需求越来越多。为了挖掘特定字符串与同一类字符串的关系，字符串识别与匹配技术越来越受到学者们的关注。当需要查找的字符串的编码规则不明确，即无先验精确编码规则知识的情景下，如何识别特定文档字符串成为实际应用中亟待解决的问题之一。

发明内容

本发明的目的在于提供一种文档字符串内容识别方法，解决在需要识别特定字符串的编码规则不清楚的情形下对该类字符串的识别问题。

本发明的技术方案如下：一种文档字符串内容识别方法，该方法具体包括：

利用Bi-LSTM-CRF方法对字符串的编码规则进行分类，构建特定字符串识别模型；

构建Bi-LSTM-CRF模型，利用特定场景中特定字符串作为字符串编码规则训练集，获得对字符串编码规则分类模型；

将文档中的特定字符串与所述字符串编码规则分类模型进行匹配，获得特定字符串的匹配结果；

将所述匹配结果与构建的所述特定字符串识别模型进行匹配识别后，生成编码结果集，并在原文档中标注编码。

所述文档中的特定字符串与所述字符串编码规则分类模型进行匹配前，需要对所述特定字符串进行分隔符干扰字符剔除的预处理步骤。

所述文档需要进行分词、去停用词、去干扰字符串以及提取候选字符串的预处理。

所述文档的预处理具体包括：

利用分词工具，对所述文档进行分词；

对所述文档中的停用词进行剔除；

利用正则表达式对所述文档中的短字符串进行过滤；

利用正则表达式提取文档中符合编码规则的字符串作为候选字符串。

所述Bi-LSTM-CRF模型包括输入层、隐含层、输出层，其中，所述输入层是字符的分布式表示；所述隐含层为双向的循环神经网络，利用使用长短期神经网络LSTM；所述输出层引入条件随机场CRF外层解码结构。

所述字符串编码规则训练集包括核电厂环境下的电机号、机组号、设备号以及相关字符串作为所述字符串编码规则训练集。

所述文档中的特定字符串与所述字符串编码规则分类模型进行匹配前，利用开源ApachePOI对所述文档进行读取，获得所述文档中的文本内容。

所述Bi-LSTM-CRF模型中输入层采用word embedding方法。

本发明的显著效果在于：本发明所述的一种文档字符串内容识别方法，能够在无先验精确编码规则知识前提下，依然能够有效准确识别特定字符串；相比现有的单纯利用字分布式字符串实体识别系统，基于Bi-LSTM-CRF模型的实体识别模型取得更好表现，具有更好的准确性。

附图说明

图1为本发明所述的一种文档字符串内容识别方法流程示意图；

图2为本发明所述的一种文档字符串内容识别方法中的Bi-LSTM-CRF的基本模型图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。

如图1、图2所示，一种文档字符串内容识别方法，该方法具体包括如下步骤：

S1、建立字符串编码规则分类模型，构建特定字符串识别模型；

构建包括输入层、隐含层、输出层共3层的Bi-LSTM-CRF模型，其中，输入层是字符的分布式表示；隐含层为双向的循环神经网络，利用使用长短期神经网络LSTM，解决长居率依赖问题，以及缓解模型梯度消失的问题；输出层引入条件随机场CRF外层解码结构；

利用特定场景中特定字符串编码规则作为训练集，例如，在核电厂环境下，利用电机号、机组号、设备号等常见的字符串作为字符串编码规则训练集，对 Bi-LSTM-CRF模型进行训练；通过对不同类的特定字符串与其他词通过 Bi-LSTM-CRF模型训练，获得对特定字符串识别标注的特定情景特定字符串识别模型；针对具体的核电厂情景下，现有的分词技术并不完善，为了避免错误传递累加，可采用直接在字级别上利用Word2vec方法进行词嵌入；

S2、提取待处理文档的文本内容，并对文档中特定字符串进行预处理；

提取文档T的文本内容，对文档T文本中的特定字符串U进行预处理

S2.1、利用开源的ApachePOI对文档T进行读取，获得文档T中文本内容；

S2.2、对文档T中的特定字符串U进行预处理；

对文档T中特定字符串U的分隔符进行剔除，将数字、字母、文字拆成单个字符队列；

S3、将文档中预处理后的特定字符串与字符串编码规则分类模型进行匹配，获得特定字符串的匹配结果；

利用字符串编码规则分类模型，将预处理后的特定字符串进行匹配，获得该特定字符串U属于字符串编码规则的P类匹配结果；

S4、对文档进行进行分词、去停用词、去干扰字符串以及提取候选字符串的预处理；

S4.1、利用开源的jieba分词工具，对文档T进行分词；

S4.2、对文档T中的停用词进行剔除；

S4.3、利用正则表达式对文档T中的短字符串进行过滤；

S4.4、利用正则表达式提取文档中符合编码规则的字符串作为候选字符串；

S5、将预处理后的文档，通过字符串编码规则分类模型对特定字符串进行匹配识别，并将匹配结果与构建特定字符串识别模型进行匹配识别后，生成编码结果集，并在原文档中标注编码。

Claims

1.一种文档字符串内容识别方法，其特征在于，该方法具体包括：

2.根据权利要求1所述的一种文档字符串内容识别方法，其特征在于，所述文档中的特定字符串与所述字符串编码规则分类模型进行匹配前，需要对所述特定字符串进行分隔符干扰字符剔除的预处理步骤。

3.根据权利要求2所述的一种文档字符串内容识别方法，其特征在于，所述文档需要进行分词、去停用词、去干扰字符串以及提取候选字符串的预处理。

4.根据权利要求3所述的一种文档字符串内容识别方法，其特征在于，所述文档的预处理具体包括：

利用分词工具，对所述文档进行分词；

对所述文档中的停用词进行剔除；

利用正则表达式对所述文档中的短字符串进行过滤；

5.根据权利要求1所述的一种文档字符串内容识别方法，其特征在于，所述Bi-LSTM-CRF模型包括输入层、隐含层、输出层，其中，所述输入层是字符的分布式表示；所述隐含层为双向的循环神经网络，利用使用长短期神经网络LSTM；所述输出层引入条件随机场CRF外层解码结构。

6.根据权利要求1所述的一种文档字符串内容识别方法，其特征在于，所述字符串编码规则训练集包括核电厂环境下的电机号、机组号、设备号以及相关字符串作为所述字符串编码规则训练集。

7.根据权利要求1所述的一种文档字符串内容识别方法，其特征在于，所述文档中的特定字符串与所述字符串编码规则分类模型进行匹配前，利用开源ApachePOI对所述文档进行读取，获得所述文档中的文本内容。

8.根据权利要求5所述的一种文档字符串内容识别方法，其特征在于，所述Bi-LSTM-CRF模型中输入层采用word embedding方法。