CN114564912A - 一种文档格式智能检查校正方法及系统 - Google Patents

一种文档格式智能检查校正方法及系统 Download PDF

Info

Publication number
CN114564912A
CN114564912A CN202111442152.3A CN202111442152A CN114564912A CN 114564912 A CN114564912 A CN 114564912A CN 202111442152 A CN202111442152 A CN 202111442152A CN 114564912 A CN114564912 A CN 114564912A
Authority
CN
China
Prior art keywords
document
information
format
template
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111442152.3A
Other languages
English (en)
Inventor
杨军
陈渊
王滨
田正鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 15 Research Institute
Original Assignee
CETC 15 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 15 Research Institute filed Critical CETC 15 Research Institute
Priority to CN202111442152.3A priority Critical patent/CN114564912A/zh
Publication of CN114564912A publication Critical patent/CN114564912A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种文档格式智能检查校正方法及系统,所述方法包括:对待测文档的格式和内容进行模板匹配,确定正确格式信息和异常格式信息;基于中文文本纠错模型,对所述异常格式信息进行语法错误的识别和校正;所述中文文本纠错模型包括依次连接的词嵌入层、编码端、解码端和注意力层;所述编码端和所述解码端均为双向LSTM结构。本发明采用基于LSTM的语言模型来解决无标注数据的问题,同时,还可以准确校验规则类错误和部分常见的非规则类错误,提高了文档检查校正的效率和精度。

Description

一种文档格式智能检查校正方法及系统
技术领域
本发明涉及智能化办公技术领域,特别是涉及一种文档格式智能检查校正方法及系统。
背景技术
电子数据处理时,常需要处理一些可图形表示的内容,例如字符、图形、表格等类型,采用管理内容模块进行处理文档的文本或图形元素已经是现有技术中已知的技术,创建个性化文档,或者关联连接到单个文档,再将可能包含文本、图形、表格等的文档不同组成部分作为单独的文件,使用格式转换方式管理。
同时,再对文件的各个组成部分进行管理时,高度灵活或简单性要求的书面形式的技术文档是必须的,维护文档也是必须的,如何使得文档在短时间内适应文档的内容更改、且花费较少的人力,已经会成为管理文档的重要技术问题。
发明内容
为了克服现有技术的不足,本发明的目的是提供一种文档格式智能检查校正方法及系统。
为实现上述目的,本发明提供了如下方案:
一种文档格式智能检查校正方法,包括:
对待测文档的格式和内容进行模板匹配,确定正确格式信息和异常格式信息;
基于中文文本纠错模型,对所述异常格式信息进行语法错误的识别和校正;所述中文文本纠错模型包括依次连接的词嵌入层、编码端、解码端和注意力层;所述编码端和所述解码端均为双向LSTM结构。
优选地,所述对待测文档的格式和内容进行模板匹配,确定正确格式信息和异常格式信息,包括:
基于python分别读取所述待测文档和预设的模板文档,得到待测转换文档和模板转换文档;所述待测文档和所述模板文档的格式为word文档格式;所述待测转换文档和所述模板转换文档的格式为XML文档格式;
基于解析器分别对所述待测转换文档和所述模板转换文档进行解析,得到待测解析信息和模板解析信息;
根据所述待测解析信息和所述模板解析信息进行一致性判断,将所述待测解析信息和所述模板解析信息不一致的部分确定为所述异常格式信息,并将所述待测解析信息和所述模板解析信息一致的部分确定为所述正确格式信息。
优选地,所述将所述待测解析信息和所述模板解析信息不一致的部分确定为所述异常格式信息之后,还包括:
将所述异常格式信息进行颜色异常标记,得到标记信息;
根据所述异常格式信息进行统计制表,得到异常信息报表;
对所述异常格式信息进行查重、统计和\或限制处理操作,得到统计信息。
优选地,所述基于解析器分别对所述待测转换文档和所述模板转换文档进行解析,得到待测解析信息和模板解析信息,包括:
依次利用所述解析器的paragraphs模块、text模块、tables模块、section模块提取所述待测转换文档和所述模板转换文档的解析信息;所述解析器为python-docx解析模块;所述解析信息包括文档的内容、格式、标签和/或属性。
优选地,所述基于中文文本纠错模型,对所述异常格式信息进行语法错误的识别和校正,包括:
根据所述词嵌入层对所述异常格式信息进行向量化处理,得到文本向量信息;
基于所述文本向量信息,根据所述编码端进行循环迭代,生成关于语句的语义向量和隐藏状态;
将所述语义向量和所述隐藏状态进行合并,并根据合并后的信息和所述解码端得到当前时刻的输出向量;
根据所述注意力层和所述当前时刻的输出向量得到注意力矩阵;
将所述注意力矩阵与上一时刻的字符向量进行合并,并将合并后的向量作为所述解码端下一个LSTM节点的输入,以得到预测正确的候选字符;
基于排序算法,根据所述候选字符和所述待测文档的语句信息确定最优候选字。
优选地,所述词嵌入层采用词共现算法进行构建。
优选地,所述排序算法包括TF-IDF算法和余弦相似度算法。
一种文档格式智能检查校正系统,包括:
匹配模块,用于对待测文档的格式和内容进行模板匹配,确定正确格式信息和异常格式信息;
校正模块,用于基于中文文本纠错模型,对所述异常格式信息进行语法错误的识别和校正;所述中文文本纠错模型包括依次连接的词嵌入层、编码端、解码端和注意力层;所述编码端和所述解码端均为双向LSTM结构。
优选地,所述匹配模块具体包括:
转换单元,用于基于python分别读取所述待测文档和预设的模板文档,得到待测转换文档和模板转换文档;所述待测文档和所述模板文档的格式为word文档格式;所述待测转换文档和所述模板转换文档的格式为XML文档格式;
解析单元,用于基于解析器分别对所述待测转换文档和所述模板转换文档进行解析,得到待测解析信息和模板解析信息;
判断单元,用于根据所述待测解析信息和所述模板解析信息进行一致性判断,将所述待测解析信息和所述模板解析信息不一致的部分确定为所述异常格式信息,并将所述待测解析信息和所述模板解析信息一致的部分确定为所述正确格式信息。
优选地,所述匹配模块还包括:
标记单元,用于将所述异常格式信息进行颜色异常标记,得到标记信息;
制表单元,用于根据所述异常格式信息进行统计制表,得到异常信息报表;
统计单元,用于对所述异常格式信息进行查重、统计和\或限制处理操作,得到统计信息。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种文档格式智能检查校正方法及系统,所述方法包括:对待测文档的格式和内容进行模板匹配,确定正确格式信息和异常格式信息;基于中文文本纠错模型,对所述异常格式信息进行语法错误的识别和校正;所述中文文本纠错模型包括依次连接的词嵌入层、编码端、解码端和注意力层;所述编码端和所述解码端均为双向LSTM结构。本发明采用基于LSTM的语言模型来解决无标注数据的问题,同时,还可以准确校验规则类错误和部分常见的非规则类错误,提高了文档检查校正的效率和精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的实施例中的方法流程图;
图2为本发明提供的实施例中的系统模块连接图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤、过程、方法等没有限定于已列出的步骤,而是可选地还包括没有列出的步骤,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤元。
本发明的目的是提供一种文档格式智能检查校正方法及系统,能够提高文档检查校正的效率和精度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明提供的实施例中的方法流程图,如图1所示,本发明提供了一种文档格式智能检查校正方法,包括:
步骤100:对待测文档的格式和内容进行模板匹配,确定正确格式信息和异常格式信息;
步骤200:基于中文文本纠错模型,对所述异常格式信息进行语法错误的识别和校正;所述中文文本纠错模型包括依次连接的词嵌入层、编码端、解码端和注意力层;所述编码端和所述解码端均为双向LSTM结构。
优选地,所述步骤100包括:
基于python分别读取所述待测文档和预设的模板文档,得到待测转换文档和模板转换文档;所述待测文档和所述模板文档的格式为word文档格式;所述待测转换文档和所述模板转换文档的格式为XML文档格式;
基于解析器分别对所述待测转换文档和所述模板转换文档进行解析,得到待测解析信息和模板解析信息;
根据所述待测解析信息和所述模板解析信息进行一致性判断,将所述待测解析信息和所述模板解析信息不一致的部分确定为所述异常格式信息,并将所述待测解析信息和所述模板解析信息一致的部分确定为所述正确格式信息。
具体的,本实施例中具体设定文档转换模板的文档格式为word文档格式,通过python-docx模块把word文档转换为python程序可以读写的对象;文档格式进行转化时,word中的段落、表格、图片、页眉页脚为不同的节点,具体解析过程:
解析器如果输入的是模板文件,则将解析的信息存储成模板信息。解析器如果输入的是待测文件,则将解析的待测文件信息与对应模板信息进行比较,将格式不同的地方标记出来。
(1)在段落文字解析过程中,采用python-docx的paragraphs模块,提取段落的对齐方式、缩进方式、行间距等信息,采用python-docx的text模块,提取文字的标题等级、字体名称、字体大小、字体颜色等信息。
(2)在表格解析过程中,采用python-docx的tables模块,提取表格的单元格样式、单元格文字字体、行列数量等信息。
(3)在章节格式解析过程中,采用python-docx的section模块,提取每个章节的页边距、页面方向、页眉页脚等信息。
进一步地,设定模板的文档格式为word文档格式,格式转换时为XML格式;文档格式进行转化时,解析器将解析信息以节点的方式进行处理,解析信息包括但不限于文档的内容、格式、标签、属性中至少一种。
本实施例中,Word文档格式可以按XML文本格式存储,这样就可以使用外部程序创建Word文件,而不需要使用文档对象,也能够自由的打开分析Word文件或者发布到自己的web页面或者其他更多应用,该模块的作用,就是将word模板文件和待检查的文件读入系统,并转化为标准XML格式。
优选地,所述将所述待测解析信息和所述模板解析信息不一致的部分确定为所述异常格式信息之后,还包括:
将所述异常格式信息进行颜色异常标记,得到标记信息;
根据所述异常格式信息进行统计制表,得到异常信息报表;
对所述异常格式信息进行查重、统计和\或限制处理操作,得到统计信息。
可选地,本实施例在检查处理时,是将解析后的信息与模板文件的格式或内容相比较,如果待检查的文档格式和内容与模板中段落、字体格式不相符合,则判断文档格式不正确,进行异常处理;其中异常处理的方式包括但不限于以下任一种:
(1)根据检查的参数,对其进行颜色异常标记,以便用户及时发现改正;
(2)以报表的形式显示出来。
在以上异常处理方式的基础上,作为改进,还包括通过对解析后的信息进行查重、统计和/或限制处理。
具体的,所述通过对解析后的信息进行查重、统计和/或限制处理,是通过人工智能进行直接模板格式的替换来自动纠正,其中具体步骤包括:将读取到的文件页眉页脚、字体的格式和内容等与模板文件的格式或内容相比较,如果待检查的文档格式和内容与模板不相符合,则认为文档格式不正确,根据检查的参数,对其进行标记,比如以报表的形式显示出来或者对错误处加以红色标记,以便用户及时发现改正。根据用户需求实现人工智能纠正错误时,如果文中的格式与模板中的格式不一致,将文中格式自动替换为模板中的格式,这样就很容易了实现了自动纠正的功能。为了使系统功能更加完善,还可以对文中的字数、符号、图片、表格等信息进行统计与限制,如文中所有字符的查重,图片的格式转换与识别技术。
优选地,所述基于解析器分别对所述待测转换文档和所述模板转换文档进行解析,得到待测解析信息和模板解析信息,包括:
依次利用所述解析器的paragraphs模块、text模块、tables模块、section模块提取所述待测转换文档和所述模板转换文档的解析信息;所述解析器为python-docx解析模块;所述解析信息包括文档的内容、格式、标签和/或属性。
具体的,XML文件格式的读取、检查与修改是较为复杂的过程,需要解析出xml文档中word的内容、格式、标签、属性等信息。解析器读一个XML文档,然后把它的内容解析到一个抽象的信息容器中称为节点(NODES),这些节点代表文档的结构和内容,并允许应用程序来读和操作文档中的信息而不需要显示的知道XML的语义。在一个文档被解析以后,它的节点能够在任何时候被浏览而不需要保持一定的顺序。
优选地,所述步骤200包括:
根据所述词嵌入层对所述异常格式信息进行向量化处理,得到文本向量信息;
基于所述文本向量信息,根据所述编码端进行循环迭代,生成关于语句的语义向量和隐藏状态;
将所述语义向量和所述隐藏状态进行合并,并根据合并后的信息和所述解码端得到当前时刻的输出向量;
根据所述注意力层和所述当前时刻的输出向量得到注意力矩阵;
将所述注意力矩阵与上一时刻的字符向量进行合并,并将合并后的向量作为所述解码端下一个LSTM节点的输入,以得到预测正确的候选字符;
基于排序算法,根据所述候选字符和所述待测文档的语句信息确定最优候选字。
具体的,本实施例是基于LSTM的神经网络语言模型,对海量的无标注数据进行语言模型训练,其中语言模型采用预测位置的隐状态(hiddenstate)进行预测,充分利用上下文信息进行文本校对,采用词共现算法和神经网络语言模型进行查错、改错处理。这一模型构建方式,克服了现有的基于LSTM的语言模型通常是从左至右进行计算的,无法使用上下文信息的技术问题,同时,通过语言模型利用预测位置附近的hiddenstate进行预测,充分利用上下文信息进行文本校对。为了保障处理速度又可以达到较好的效果,使用词共现和神经网络语言模型进行查错。词共现算法统计大规模语料,得出高频的词语搭配和短语。根据统计结果标记出输入文本中的常见词语搭配和短语。针对输入文本中不属于常见词语搭配和短语的汉字,使用神经网络语言模型再次筛选。神经网络语言模型定位疑似错误的汉字。
进一步地,为了提升神经网络语言模型的计算效率,设置输入层采用大词典,而仅对输出层词表进行抑制,这样不仅尽可能地降低了损失,同时过滤掉过低的词频,也有利于模型节点的充分训练,性能还略有提升。有效的提升了真正制约速度性能的输出层节点,输入层节点大的技术问题。
具体的,查错处理时,通过计算句子的概率来判定是否正确,假设一个句子S={w1,w2,...,wn},则通过语言模型P(s)来计算一个句子的合法概率,具体公式为:
P(s)=P(w1,w2,...,wn)=P(w1)*P(w2|w1)*...*P(wn|w1,w2,...,wn-1)
其中W1、W2……Wn为第1、2……n个句子。
进一步地,查错处理时,通过构建n-gram模型,该模型是基于马尔科夫模型假设,一个词的出现概率仅依赖于该词的前1个词或前几个词,则有:
(1)一个词的出现仅依赖于前1个词,即Bigram(2-gram):
P(s)≈P(w1)*P(w2|w1)*P(w3|w2)*...*P(wn|wn-1)
(2)一个词的出现仅依赖于前2个词,即Trigram(3-gram):
P(s)≈P(w1)*P(w2|w1)*P(w3|w1w2)*...*P(wn-2|wn-1)
当n-gram的n值越大时,对下一个词的约束力就越强,本发明中是采用bigram或trigram。来计算极大似然估计Maximum Likelihood Estimate,来构造语言模型,对于Bigram的计算公式如下:
P(wi|wi-1)=count(wi|wi-1)/count(wi-1)
其中Wi、Wi-1为第i、i-1个句子。
在实际应用过程中,设现在有一个语料库如下,其中是<s>是句首标记,</s>句尾标记:
<s1><s2>yesnonononoyes</s2></s1>
<s1><s2>nononoyesyesyesno</s2></s1>
下面要解决问题是来评估如下这个句子的概率:
<s1><s2>yesnonoyes</s2></s1>
首先来演示利用trigram模型来计算概率的结果:
P(yes|<s1>,<s2>)=1/2,
P(no|yes,no)=1/2,
P(</s2>|no,yes)=1/2,
P(no|<s2>,yes)=1
P(yes|no,no)=2/5
P(</s1>|yes,</s2>)=1
所以要求的概率就等于:
1/2×1×1/2×2/5×1/2×1=0.05
如果概率小于定义的某个阈值,表示此句子中有错误或语句不合理。
且中文文本的错别字存在局部性,只需要选取合理的滑动窗口来检查是否存在错别字,例如输入文本“此案已由上级法院穿给下级法庭处理”,其中“转给”写错为“穿给”。模型对句子进行局部分析时,计算词串的共现概率低于阈值,分析器拒绝接受,判定为错误。
可以使用n-gram模型检查到“穿”字打错了,这时将“穿”字转换成拼音“chuan”,再从词典中查找“chuan”的候选词,一个一个试填,用n-gram检查,看是否合理。这就是n-gram模型结合汉字拼音来做中文文本错别字纠错。
本实施例为了进一步识别和校正错别字、标点等语法错误,通过与办公软件融合方式,采用一种基于seq2seq的中文文本纠错模型方法,对文档文书进行智能纠错处理。
具体的,该模型的整体架构是,文本经过词嵌入层向量化后,利用编码端-解码端结构解决错误文本到正确文本的转换过程,编码端和解码端都采用双向LSTM结构,编码端在循环迭代之后生成整个句子的语义向量C,解码端将生成的向量C解码成相应文字,完成错误文本到正确文本的转换。为了缓解seq2seq结构因输入序列过长导致的信息损失问题,引入了注意力机制。具体的模型内部结构为:
(1)词嵌入层。词嵌入层采用词共现算法(N-gram)进行构建,对于给定输入文本S,包括字符w1,w2,…,wn,在N=2时,词嵌入层的输出Xn表示为,c(w1w2…wn)代表了w1,w2,…,wn在文本里出现的次数,计算方法如公式1所示。
公式1:
Figure BDA0003383747150000111
(2)编码端和解码端。模型的编码端和解码端使用的都是双向LSTM结构,其中单向LSTM如公式2-公式4所示,其中Xn为输入向量,ft,ot,it分别为遗忘门、输出门和输入门,WT和b是模型的权重和偏置参数,σ表示sigmoid函数,tanh表示双曲正切函数,Ct表示当前细胞状态,Ct-1表示上一个LSTM节点的细胞状态。
公式2:
Figure BDA0003383747150000112
公式3:
Figure BDA0003383747150000113
公式4:ht=ot*tanh(Ct)。
单向LSTM只能利用单个方向的信息,双向LSTM结构可以充分利用正反两个方向的信息,如公式5-公式8所示,每个输入的句子w1,w2,…,wt,经过词嵌入层得到X1,X2,…,Xt,分别经过两个方向LSTM得到
Figure BDA0003383747150000114
Figure BDA0003383747150000115
然后经过拼接合成成最后输出hi
公式5:X1,X2,…,Xn=e(w1,w2,…,wn)。
公式6:
Figure BDA0003383747150000116
公式7:
Figure BDA0003383747150000117
公式8:
Figure BDA0003383747150000118
(3)注意力层。为了解决长序列到定长向量转化而造成的信息损失的瓶颈,引入注意力层。编码端前向传播的LSTM计算过程如公式9-公式10所示,p()是经过注意力加权的编码端输出结果,其中g()是一个非线性函数,st和mt分别表示第j个时间步解码状态和输入文本内容,f()是激活函数。
公式9:st=f(st-1,yt-1,mt)。
公式10:p(yt∣yt<1,x)=g(yt-1,st,mt)。
根据注意力原理,mt为编码端输出hi的加权和,计算方法如公式11所示。
公式11:
Figure BDA00033837471500001110
其中,αt,i表示st-1和hi的匹配程度,计算过程如公式12-公式13所示。Wa,Ua和Va是注意力矩阵的权重矩阵,b是注意力矩阵的偏置,通过注意力矩阵,编码端和解码端可以在文本中自动选择与目标字符相关的其他字符。
公式12:
Figure BDA0003383747150000121
公式13:
Figure BDA0003383747150000122
(4)文本校正过程。输入一段文本w1,w2,…,wn,词嵌入层将文本编码成词向量,输入到编码端的LSTM层,按顺序循环迭代之后,获取到整个句子的语义向量C,以及隐藏状态hi。向量C用于初始化解码端的初始状态,将C和hi合并后,再经过解码端得到输出st,st在注意力层与hi进行计算得到注意力矩阵,注意力矩阵与上一时刻的字符向量合并后,作为解码端下一个LSTM节点的输入,用于预测正确的候选字符,对于候选字符有多个的情况,采用排序算法进行优先级排序,选择优先级最高作为候选字符。
(5)排序算法。排序算法采用TF-IDF和余弦相似度对每个候选字和上下文进行计算,表示候选字与上下文构成句子的合理程度,通过比较来挑选最合理的候选字。候选字的排序算法的具体计算过程如下所示:
输入:原始文本中的字符t,候选字符列表L:[W1,W2,W3,...]
输出:正确候选字W
1、
Figure BDA0003383747150000123
其中count(t)表示对t的出现次数统计,count()表示文档集总字数;
2、
Figure BDA0003383747150000124
其中M表示文档数量,df(t)表示t在文档中集出现过的文档数量。
3、TFIDF(t)=tf(t)×idf(t)
4、Cj(t)={TFIDF(t-1),TFIDF(t),TFIDF(t+1)}
5、
Figure BDA0003383747150000125
6、forwinL:
Cj(w)={TFIDF(t-1),TFIDF(w),TFIDF(t+1)}
Figure BDA0003383747150000126
d=CS(W)-CS(t)
end for
7、distance=[d1,d2,d3...],其中d1,d2,d3...表示不同w对应的d
8、min(distance)=d
9、W=L,distance最小的W,即优先推荐的候选字符
可选地,词共现算法是根据大规模语料,统计长度为k的窗口内两个子词共现的次数,结合考虑顺序,最终保留高频率共现的词组,作为输入到神经网络语言模型的初始信息,当输入文本中不属于常见词语搭配和短语的汉字,使用神经网络语言模型再次筛选;
在输入文本的输入层采用大词典,仅对输出层词表进行移植处理,用于提升神经网络语言模型的计算效率。
进一步地,神经网络语言模型的计算过程为:
(1)输入中文汉字序列embedding;
(2)计算bi-LSTM在输入序列t时刻的hiddenstate,
(3)将前向LSTM的t-1时刻hiddenstate与后向LSTM的t+1时刻hiddenstate作为特征,预测t时刻字概率分布;
(4)当前位置的字不在预测的前N个字中,返回该字本身和神经网络语言模型预测该位置概率分布TopK个字与改字同音字、形近字的交集的前m个字。
作为一种可选的实施方式,改错处理时,具体是通过在改错模块中将输入文本中定位到的错误字,根据候选集,得到输入文本对应正确文本的组合,再根据排序结果,得到输入文本的修改结果,其中Y=为输入文本,Yi=为输入文本对应正确文本组合中的序列;
排序依据Score:
Score=a1*ppl(Yi)+a2*edit_distance(Y,Yi)+a3*WordCount(Yi)
其中ppl(Yi)为语言模型的ppl,edit_distance(Y,Yi)为编辑距离,WordCount为词的个数,计算ppl的语言模型为单向LSTM或ngram统计语言模型。
图2为本发明提供的实施例中的系统模块连接图,如图2所示,本发明还提供一种文档格式智能检查校正系统,包括:
匹配模块,用于对待测文档的格式和内容进行模板匹配,确定正确格式信息和异常格式信息;
校正模块,用于基于中文文本纠错模型,对所述异常格式信息进行语法错误的识别和校正;所述中文文本纠错模型包括依次连接的词嵌入层、编码端、解码端和注意力层;所述编码端和所述解码端均为双向LSTM结构。
优选地,所述匹配模块具体包括:
转换单元,用于基于python分别读取所述待测文档和预设的模板文档,得到待测转换文档和模板转换文档;所述待测文档和所述模板文档的格式为word文档格式;所述待测转换文档和所述模板转换文档的格式为XML文档格式;
解析单元,用于基于解析器分别对所述待测转换文档和所述模板转换文档进行解析,得到待测解析信息和模板解析信息;
判断单元,用于根据所述待测解析信息和所述模板解析信息进行一致性判断,将所述待测解析信息和所述模板解析信息不一致的部分确定为所述异常格式信息,并将所述待测解析信息和所述模板解析信息一致的部分确定为所述正确格式信息。
优选地,所述匹配模块还包括:
标记单元,用于将所述异常格式信息进行颜色异常标记,得到标记信息;
制表单元,用于根据所述异常格式信息进行统计制表,得到异常信息报表;
统计单元,用于对所述异常格式信息进行查重、统计和\或限制处理操作,得到统计信息。
本发明的有益效果如下:
(1)本发明取代了常规方法中复杂庞大的规则集合,避免纠错算法出现的前后矛盾的情况。具体是:通过软件对模板文件的读取,获取其中得有用信息,并且能够进行系统数据分析,可以快速分析出文档的页眉页脚、分段分节、字体样式、大小、表格的属性、图片以及文档属性等所有精确的办工文档信息。并且在检查出文档的格式与标准模板不一致的情况下,可以对文件的错误格式按标准格式进行修改。
(2)本发明取代了基于LSTM的语言模型,只能从左至右进行计算,无法使用上下文信息的常规方法,本发明的方法,采用基于LSTM的语言模型来解决无标注数据的问题,利用海量的无标注数据进行语言模型训练。
(3)本发明能够准确校验规则类错误和部分常见的非规则类错误,规则类错误如标点符号错误、繁体字错误、重复词错误,非规则类错误如姓名职务错误、多音字错误、形近字错误。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法而言,由于其与实施例公开的装置相对应,所以描述的比较简单,相关之处参见装置部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种文档格式智能检查校正方法,其特征在于,包括:
对待测文档的格式和内容进行模板匹配,确定正确格式信息和异常格式信息;
基于中文文本纠错模型,对所述异常格式信息进行语法错误的识别和校正;所述中文文本纠错模型包括依次连接的词嵌入层、编码端、解码端和注意力层;所述编码端和所述解码端均为双向LSTM结构。
2.根据权利要求1所述的文档格式智能检查校正方法,其特征在于,所述对待测文档的格式和内容进行模板匹配,确定正确格式信息和异常格式信息,包括:
基于python分别读取所述待测文档和预设的模板文档,得到待测转换文档和模板转换文档;所述待测文档和所述模板文档的格式为word文档格式;所述待测转换文档和所述模板转换文档的格式为XML文档格式;
基于解析器分别对所述待测转换文档和所述模板转换文档进行解析,得到待测解析信息和模板解析信息;
根据所述待测解析信息和所述模板解析信息进行一致性判断,将所述待测解析信息和所述模板解析信息不一致的部分确定为所述异常格式信息,并将所述待测解析信息和所述模板解析信息一致的部分确定为所述正确格式信息。
3.根据权利要求2所述的文档格式智能检查校正方法,其特征在于,所述将所述待测解析信息和所述模板解析信息不一致的部分确定为所述异常格式信息之后,还包括:
将所述异常格式信息进行颜色异常标记,得到标记信息;
根据所述异常格式信息进行统计制表,得到异常信息报表;
对所述异常格式信息进行查重、统计和\或限制处理操作,得到统计信息。
4.根据权利要求2所述的文档格式智能检查校正方法,其特征在于,所述基于解析器分别对所述待测转换文档和所述模板转换文档进行解析,得到待测解析信息和模板解析信息,包括:
依次利用所述解析器的paragraphs模块、text模块、tables模块、section模块提取所述待测转换文档和所述模板转换文档的解析信息;所述解析器为python-docx解析模块;所述解析信息包括文档的内容、格式、标签和/或属性。
5.根据权利要求1所述的文档格式智能检查校正方法,其特征在于,所述基于中文文本纠错模型,对所述异常格式信息进行语法错误的识别和校正,包括:
根据所述词嵌入层对所述异常格式信息进行向量化处理,得到文本向量信息;
基于所述文本向量信息,根据所述编码端进行循环迭代,生成关于语句的语义向量和隐藏状态;
将所述语义向量和所述隐藏状态进行合并,并根据合并后的信息和所述解码端得到当前时刻的输出向量;
根据所述注意力层和所述当前时刻的输出向量得到注意力矩阵;
将所述注意力矩阵与上一时刻的字符向量进行合并,并将合并后的向量作为所述解码端下一个LSTM节点的输入,以得到预测正确的候选字符;
基于排序算法,根据所述候选字符和所述待测文档的语句信息确定最优候选字。
6.根据权利要求5所述的文档格式智能检查校正方法,其特征在于,所述词嵌入层采用词共现算法进行构建。
7.根据权利要求5所述的文档格式智能检查校正方法,其特征在于,所述排序算法包括TF-IDF算法和余弦相似度算法。
8.一种文档格式智能检查校正系统,其特征在于,包括:
匹配模块,用于对待测文档的格式和内容进行模板匹配,确定正确格式信息和异常格式信息;
校正模块,用于基于中文文本纠错模型,对所述异常格式信息进行语法错误的识别和校正;所述中文文本纠错模型包括依次连接的词嵌入层、编码端、解码端和注意力层;所述编码端和所述解码端均为双向LSTM结构。
9.根据权利要求8所述的文档格式智能检查校正系统,其特征在于,所述匹配模块具体包括:
转换单元,用于基于python分别读取所述待测文档和预设的模板文档,得到待测转换文档和模板转换文档;所述待测文档和所述模板文档的格式为word文档格式;所述待测转换文档和所述模板转换文档的格式为XML文档格式;
解析单元,用于基于解析器分别对所述待测转换文档和所述模板转换文档进行解析,得到待测解析信息和模板解析信息;
判断单元,用于根据所述待测解析信息和所述模板解析信息进行一致性判断,将所述待测解析信息和所述模板解析信息不一致的部分确定为所述异常格式信息,并将所述待测解析信息和所述模板解析信息一致的部分确定为所述正确格式信息。
10.根据权利要求9所述的文档格式智能检查校正系统,其特征在于,所述匹配模块还包括:
标记单元,用于将所述异常格式信息进行颜色异常标记,得到标记信息;
制表单元,用于根据所述异常格式信息进行统计制表,得到异常信息报表;
统计单元,用于对所述异常格式信息进行查重、统计和\或限制处理操作,得到统计信息。
CN202111442152.3A 2021-11-30 2021-11-30 一种文档格式智能检查校正方法及系统 Pending CN114564912A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111442152.3A CN114564912A (zh) 2021-11-30 2021-11-30 一种文档格式智能检查校正方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111442152.3A CN114564912A (zh) 2021-11-30 2021-11-30 一种文档格式智能检查校正方法及系统

Publications (1)

Publication Number Publication Date
CN114564912A true CN114564912A (zh) 2022-05-31

Family

ID=81712185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111442152.3A Pending CN114564912A (zh) 2021-11-30 2021-11-30 一种文档格式智能检查校正方法及系统

Country Status (1)

Country Link
CN (1) CN114564912A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116029287A (zh) * 2023-03-29 2023-04-28 北京万理软件开发有限公司 基于自纠正操作确定工作状态的方法、装置及存储介质
CN116089910A (zh) * 2023-02-16 2023-05-09 北京计算机技术及应用研究所 一种支持多种格式电子文档的密级检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789504A (zh) * 2012-07-19 2012-11-21 姜赢 一种基于xml规则的中文语法校正方法与系统
CN109840519A (zh) * 2019-01-25 2019-06-04 青岛盈智科技有限公司 一种自适应的智能单据识别录入装置及其使用方法
CN110008944A (zh) * 2019-02-20 2019-07-12 平安科技(深圳)有限公司 基于模板匹配的ocr识别方法及装置、存储介质
CN111104557A (zh) * 2019-11-22 2020-05-05 黄琴 基于标准文档标记语言规范的异构文档处理系统及方法
CN111523306A (zh) * 2019-01-17 2020-08-11 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN111598535A (zh) * 2020-05-09 2020-08-28 西安精雕软件科技有限公司 一种基础物料的导入方法、系统、计算机设备
CN111989702A (zh) * 2018-04-18 2020-11-24 费希尔-罗斯蒙特系统公司 质量检查管理系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789504A (zh) * 2012-07-19 2012-11-21 姜赢 一种基于xml规则的中文语法校正方法与系统
CN111989702A (zh) * 2018-04-18 2020-11-24 费希尔-罗斯蒙特系统公司 质量检查管理系统
CN111523306A (zh) * 2019-01-17 2020-08-11 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN109840519A (zh) * 2019-01-25 2019-06-04 青岛盈智科技有限公司 一种自适应的智能单据识别录入装置及其使用方法
CN110008944A (zh) * 2019-02-20 2019-07-12 平安科技(深圳)有限公司 基于模板匹配的ocr识别方法及装置、存储介质
CN111104557A (zh) * 2019-11-22 2020-05-05 黄琴 基于标准文档标记语言规范的异构文档处理系统及方法
CN111598535A (zh) * 2020-05-09 2020-08-28 西安精雕软件科技有限公司 一种基础物料的导入方法、系统、计算机设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089910A (zh) * 2023-02-16 2023-05-09 北京计算机技术及应用研究所 一种支持多种格式电子文档的密级检测方法
CN116089910B (zh) * 2023-02-16 2023-10-20 北京计算机技术及应用研究所 一种支持多种格式电子文档的密级检测方法
CN116029287A (zh) * 2023-03-29 2023-04-28 北京万理软件开发有限公司 基于自纠正操作确定工作状态的方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN112149406B (zh) 一种中文文本纠错方法及系统
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
US20060015326A1 (en) Word boundary probability estimating, probabilistic language model building, kana-kanji converting, and unknown word model building
CN101329666A (zh) 基于语料库及树型结构模式匹配的汉语句法自动分析方法
CN111061882A (zh) 一种知识图谱构建方法
CN114564912A (zh) 一种文档格式智能检查校正方法及系统
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN111666764A (zh) 一种基于XLNet的自动摘要方法与装置
CN112329482A (zh) 机器翻译方法、装置、电子设备和可读存储介质
Fernández-González et al. Faster shift-reduce constituent parsing with a non-binary, bottom-up strategy
CN100361124C (zh) 用于词分析的系统和方法
CN109815497B (zh) 基于句法依存的人物属性抽取方法
CN114757184A (zh) 实现航空领域知识问答的方法和系统
CN109977391B (zh) 一种文本数据的信息抽取方法及装置
CN112633007A (zh) 一种语义理解模型构建方法及装置、语义理解方法及装置
CN115034209A (zh) 文本分析方法、装置、电子设备以及存储介质
Khoufi et al. Chunking Arabic texts using conditional random fields
Ehsan et al. Statistical Parser for Urdu
CN114330350A (zh) 一种命名实体识别方法、装置、电子设备及存储介质
Shitaoka et al. Dependency structure analysis and sentence boundary detection in spontaneous Japanese
CN113468875A (zh) 一种面向SCADA系统自然语言交互接口语义分析的MNet方法
CN111597827A (zh) 一种提高机器翻译准确度的方法及其装置
Round et al. Automated parsing of interlinear glossed text from page images of grammatical descriptions
CN111259159A (zh) 数据挖掘方法、装置和计算机可读存储介质
KR100404320B1 (ko) 문장 자동 색인 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination