CN115982419A - 一种文档字符串内容识别方法 - Google Patents

一种文档字符串内容识别方法 Download PDF

Info

Publication number
CN115982419A
CN115982419A CN202111192690.1A CN202111192690A CN115982419A CN 115982419 A CN115982419 A CN 115982419A CN 202111192690 A CN202111192690 A CN 202111192690A CN 115982419 A CN115982419 A CN 115982419A
Authority
CN
China
Prior art keywords
character string
document
model
specific
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111192690.1A
Other languages
English (en)
Inventor
姚昊
李强
任宇阳
吴宝华
皮敏
杜君尧
肖薇
潘炼
楼宝川
杜梦娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CNNC Nuclear Power Operation Management Co Ltd
Original Assignee
CNNC Nuclear Power Operation Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CNNC Nuclear Power Operation Management Co Ltd filed Critical CNNC Nuclear Power Operation Management Co Ltd
Priority to CN202111192690.1A priority Critical patent/CN115982419A/zh
Publication of CN115982419A publication Critical patent/CN115982419A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明涉及数据信息处理技术领域,具体公开了一种文档字符串内容识别方法。该方法包括:利用Bi‑LSTM‑CRF方法对字符串的编码规则进行分类,构建特定字符串识别模型;构建Bi‑LSTM‑CRF模型,利用特定场景中特定字符串作为字符串编码规则训练集,获得对字符串编码规则分类模型;将文档中的特定字符串与所述字符串编码规则分类模型进行匹配,获得特定字符串的匹配结果;将所述匹配结果与构建的所述特定字符串识别模型进行匹配识别后,生成编码结果集,并在原文档中标注编码。本方法能够在无先验精确编码规则知识前提下,依然能够有效准确识别特定字符串;相比现有的单纯利用字分布式字符串实体识别系统,基于Bi‑LSTM‑CRF模型的实体识别模型取得更好表现,具有更好的准确性。

Description

一种文档字符串内容识别方法
技术领域
本发明属于数据信息处理技术领域,具体涉及一种文档字符串内容识别方法。
背景技术
随着5G技术和互联网技术的不断更新和发展,在自然语言处理领域,从海量文档中对特定字符串类识别的需求越来越多。为了挖掘特定字符串与同一类字符串的关系,字符串识别与匹配技术越来越受到学者们的关注。当需要查找的字符串的编码规则不明确,即无先验精确编码规则知识的情景下,如何识别特定文档字符串成为实际应用中亟待解决的问题之一。
发明内容
本发明的目的在于提供一种文档字符串内容识别方法,解决在需要识别特定字符串的编码规则不清楚的情形下对该类字符串的识别问题。
本发明的技术方案如下:一种文档字符串内容识别方法,该方法具体包括:
利用Bi-LSTM-CRF方法对字符串的编码规则进行分类,构建特定字符串识别模型;
构建Bi-LSTM-CRF模型,利用特定场景中特定字符串作为字符串编码规则训练集,获得对字符串编码规则分类模型;
将文档中的特定字符串与所述字符串编码规则分类模型进行匹配,获得特定字符串的匹配结果;
将所述匹配结果与构建的所述特定字符串识别模型进行匹配识别后,生成编码结果集,并在原文档中标注编码。
所述文档中的特定字符串与所述字符串编码规则分类模型进行匹配前,需要对所述特定字符串进行分隔符干扰字符剔除的预处理步骤。
所述文档需要进行分词、去停用词、去干扰字符串以及提取候选字符串的预处理。
所述文档的预处理具体包括:
利用分词工具,对所述文档进行分词;
对所述文档中的停用词进行剔除;
利用正则表达式对所述文档中的短字符串进行过滤;
利用正则表达式提取文档中符合编码规则的字符串作为候选字符串。
所述Bi-LSTM-CRF模型包括输入层、隐含层、输出层,其中,所述输入层是字符的分布式表示;所述隐含层为双向的循环神经网络,利用使用长短期神经网络LSTM;所述输出层引入条件随机场CRF外层解码结构。
所述字符串编码规则训练集包括核电厂环境下的电机号、机组号、设备号以及相关字符串作为所述字符串编码规则训练集。
所述文档中的特定字符串与所述字符串编码规则分类模型进行匹配前,利用开源ApachePOI对所述文档进行读取,获得所述文档中的文本内容。
所述Bi-LSTM-CRF模型中输入层采用word embedding方法。
本发明的显著效果在于:本发明所述的一种文档字符串内容识别方法,能够在无先验精确编码规则知识前提下,依然能够有效准确识别特定字符串;相比现有的单纯利用字分布式字符串实体识别系统,基于Bi-LSTM-CRF模型的实体识别模型取得更好表现,具有更好的准确性。
附图说明
图1为本发明所述的一种文档字符串内容识别方法流程示意图;
图2为本发明所述的一种文档字符串内容识别方法中的Bi-LSTM-CRF的基本模型图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
如图1、图2所示,一种文档字符串内容识别方法,该方法具体包括如下步骤:
S1、建立字符串编码规则分类模型,构建特定字符串识别模型;
利用Bi-LSTM-CRF方法对字符串的编码规则进行分类,构建特定字符串识别模型;
构建Bi-LSTM-CRF模型,利用特定场景中特定字符串作为字符串编码规则训练集,获得对字符串编码规则分类模型;
构建包括输入层、隐含层、输出层共3层的Bi-LSTM-CRF模型,其中,输入层是字符的分布式表示;隐含层为双向的循环神经网络,利用使用长短期神经网络LSTM,解决长居率依赖问题,以及缓解模型梯度消失的问题;输出层引入条件随机场CRF外层解码结构;
利用特定场景中特定字符串编码规则作为训练集,例如,在核电厂环境下,利用电机号、机组号、设备号等常见的字符串作为字符串编码规则训练集,对 Bi-LSTM-CRF模型进行训练;通过对不同类的特定字符串与其他词通过 Bi-LSTM-CRF模型训练,获得对特定字符串识别标注的特定情景特定字符串识别模型;针对具体的核电厂情景下,现有的分词技术并不完善,为了避免错误传递累加,可采用直接在字级别上利用Word2vec方法进行词嵌入;
S2、提取待处理文档的文本内容,并对文档中特定字符串进行预处理;
提取文档T的文本内容,对文档T文本中的特定字符串U进行预处理
S2.1、利用开源的ApachePOI对文档T进行读取,获得文档T中文本内容;
S2.2、对文档T中的特定字符串U进行预处理;
对文档T中特定字符串U的分隔符进行剔除,将数字、字母、文字拆成单个字符队列;
S3、将文档中预处理后的特定字符串与字符串编码规则分类模型进行匹配,获得特定字符串的匹配结果;
利用字符串编码规则分类模型,将预处理后的特定字符串进行匹配,获得该特定字符串U属于字符串编码规则的P类匹配结果;
S4、对文档进行进行分词、去停用词、去干扰字符串以及提取候选字符串的预处理;
S4.1、利用开源的jieba分词工具,对文档T进行分词;
S4.2、对文档T中的停用词进行剔除;
S4.3、利用正则表达式对文档T中的短字符串进行过滤;
S4.4、利用正则表达式提取文档中符合编码规则的字符串作为候选字符串;
S5、将预处理后的文档,通过字符串编码规则分类模型对特定字符串进行匹配识别,并将匹配结果与构建特定字符串识别模型进行匹配识别后,生成编码结果集,并在原文档中标注编码。

Claims (8)

1.一种文档字符串内容识别方法,其特征在于,该方法具体包括:
利用Bi-LSTM-CRF方法对字符串的编码规则进行分类,构建特定字符串识别模型;
构建Bi-LSTM-CRF模型,利用特定场景中特定字符串作为字符串编码规则训练集,获得对字符串编码规则分类模型;
将文档中的特定字符串与所述字符串编码规则分类模型进行匹配,获得特定字符串的匹配结果;
将所述匹配结果与构建的所述特定字符串识别模型进行匹配识别后,生成编码结果集,并在原文档中标注编码。
2.根据权利要求1所述的一种文档字符串内容识别方法,其特征在于,所述文档中的特定字符串与所述字符串编码规则分类模型进行匹配前,需要对所述特定字符串进行分隔符干扰字符剔除的预处理步骤。
3.根据权利要求2所述的一种文档字符串内容识别方法,其特征在于,所述文档需要进行分词、去停用词、去干扰字符串以及提取候选字符串的预处理。
4.根据权利要求3所述的一种文档字符串内容识别方法,其特征在于,所述文档的预处理具体包括:
利用分词工具,对所述文档进行分词;
对所述文档中的停用词进行剔除;
利用正则表达式对所述文档中的短字符串进行过滤;
利用正则表达式提取文档中符合编码规则的字符串作为候选字符串。
5.根据权利要求1所述的一种文档字符串内容识别方法,其特征在于,所述Bi-LSTM-CRF模型包括输入层、隐含层、输出层,其中,所述输入层是字符的分布式表示;所述隐含层为双向的循环神经网络,利用使用长短期神经网络LSTM;所述输出层引入条件随机场CRF外层解码结构。
6.根据权利要求1所述的一种文档字符串内容识别方法,其特征在于,所述字符串编码规则训练集包括核电厂环境下的电机号、机组号、设备号以及相关字符串作为所述字符串编码规则训练集。
7.根据权利要求1所述的一种文档字符串内容识别方法,其特征在于,所述文档中的特定字符串与所述字符串编码规则分类模型进行匹配前,利用开源ApachePOI对所述文档进行读取,获得所述文档中的文本内容。
8.根据权利要求5所述的一种文档字符串内容识别方法,其特征在于,所述Bi-LSTM-CRF模型中输入层采用word embedding方法。
CN202111192690.1A 2021-10-13 2021-10-13 一种文档字符串内容识别方法 Pending CN115982419A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111192690.1A CN115982419A (zh) 2021-10-13 2021-10-13 一种文档字符串内容识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111192690.1A CN115982419A (zh) 2021-10-13 2021-10-13 一种文档字符串内容识别方法

Publications (1)

Publication Number Publication Date
CN115982419A true CN115982419A (zh) 2023-04-18

Family

ID=85958625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111192690.1A Pending CN115982419A (zh) 2021-10-13 2021-10-13 一种文档字符串内容识别方法

Country Status (1)

Country Link
CN (1) CN115982419A (zh)

Similar Documents

Publication Publication Date Title
CN109299273B (zh) 基于改进seq2seq模型的多源多标签文本分类方法及其系统
CN109635288A (zh) 一种基于深度神经网络的简历抽取方法
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN111291195A (zh) 一种数据处理方法、装置、终端及可读存储介质
CN111061882A (zh) 一种知识图谱构建方法
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN114282527A (zh) 多语言文本检测与纠错方法、系统、电子设备及存储介质
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN115080750B (zh) 基于融合提示序列的弱监督文本分类方法、系统和装置
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN112395392A (zh) 一种意图识别方法及装置、可读存储介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN105573981A (zh) 一种提取中文人名地名的方法及装置
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及系统
CN112257425A (zh) 一种基于数据分级模型的电力数据分析方法及系统
CN112712085A (zh) 一种提取多语言pdf文档中日期的方法
CN111597810A (zh) 一种半监督解耦的命名实体识别方法
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
Acs et al. Hunaccent: Small footprint diacritic restoration for social media
CN115982419A (zh) 一种文档字符串内容识别方法
CN116166768A (zh) 一种基于规则的文本知识抽取方法及系统
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
US20230419110A1 (en) System and method for generating regulatory content requirement descriptions
CN114036908A (zh) 一种融入词表知识的中文篇章级事件抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination