CN113033185B - 标准文本纠错方法、装置、电子设备和存储介质 - Google Patents

标准文本纠错方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113033185B
CN113033185B CN202110588256.9A CN202110588256A CN113033185B CN 113033185 B CN113033185 B CN 113033185B CN 202110588256 A CN202110588256 A CN 202110588256A CN 113033185 B CN113033185 B CN 113033185B
Authority
CN
China
Prior art keywords
text
participle
dictionary
error
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110588256.9A
Other languages
English (en)
Other versions
CN113033185A (zh
Inventor
郝文建
张明英
高艳炫
王立玺
胡晨
张�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING SAIXI TECHNOLOGY DEVELOPMENT CO LTD
China Electronics Standardization Institute
Original Assignee
BEIJING SAIXI TECHNOLOGY DEVELOPMENT CO LTD
China Electronics Standardization Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING SAIXI TECHNOLOGY DEVELOPMENT CO LTD, China Electronics Standardization Institute filed Critical BEIJING SAIXI TECHNOLOGY DEVELOPMENT CO LTD
Priority to CN202110588256.9A priority Critical patent/CN113033185B/zh
Publication of CN113033185A publication Critical patent/CN113033185A/zh
Application granted granted Critical
Publication of CN113033185B publication Critical patent/CN113033185B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种标准文本纠错方法、装置、电子设备和存储介质,其中方法包括:确定待纠错标准文本及其领域;所述待纠错标准文本是对标准文件进行光学字符识别得到的;基于所述待纠错标准文本的领域对应的词典,顺序确定所述待纠错标准文本中的错误文本;所述错误文本为所述待纠错标准文本中未在所述词典中出现的分词或词序列;基于所述待纠错标准文本的领域对应的词典,以及所述错误文本的前一分词和后一分词,对所述错误文本进行纠错;其中,所述词典是基于所述领域中的样本标准文本建立的,所述词典中包括所述样本标准文本中出现的分词、包含所述分词的词组,以及所述词组出现的频率。本发明提高了标准文件的数字化结果的准确性。

Description

标准文本纠错方法、装置、电子设备和存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种标准文本纠错方法、装置、电子设备和存储介质。
背景技术
随着标准化建设的普及和产业高质量发展,越来越多的企业事业单位用户参与和使用标准,对应标准的编写和应用的需求不断增多。在使用标准文本的过程中,对应标准的内容理解、解读、使用,往往需要大量的时间和精力对标准宣贯内容进行学习。
在对标准文件进行数字化的过程中,有些特殊字符很难通过机器识别或识别错误,因而往往有许多文字性错误需要纠正。因此,针对标准文件中的错误词汇,需要一种准确的纠错方式进行自动纠错。
发明内容
本发明提供一种标准文本纠错方法、装置、电子设备和存储介质,用以解决现有技术中存在大量文字性错误的缺陷。
本发明提供一种标准文本纠错方法,包括:
确定待纠错标准文本及其领域;所述待纠错标准文本是对标准文件进行光学字符识别得到的;
基于所述待纠错标准文本的领域对应的词典,顺序确定所述待纠错标准文本中的错误文本;所述错误文本为所述待纠错标准文本中未在所述词典中出现的分词或词序列;
基于所述待纠错标准文本的领域对应的词典,以及所述错误文本的前一分词和后一分词,对所述错误文本进行纠错;
其中,所述词典是基于所述领域中的样本标准文本建立的,所述词典中包括所述样本标准文本中出现的分词、包含所述分词的词组,以及所述词组出现的频率。
根据本发明提供一种的标准文本纠错方法,所述基于所述待纠错标准文本的领域对应的词典,以及所述错误文本的前一分词和后一分词,对所述错误文本进行纠错,具体包括:
基于所述错误文本及其前一分词和后一分词,确定多个候选词组序列;
基于各个候选词组序列中各词组在所述领域出现的概率,确定各个候选词组序列在所述领域出现的概率;
基于各个候选词组序列在所述领域出现的概率,确定所述错误文本的纠错文本;
其中,当所述错误文本仅包括一个分词时,所述候选词组序列由前置词组和后置词组构成;否则,所述候选词组序列由所述前置词组、若干中间词组以及所述后置词组构成;
所述前置词组中所述前一分词在前,所述后置词组中所述后一分词在后,所述中间词组的数量与所述错误文本中所有相邻分词组成的词组数量相同,并且所述候选词组序列中每两个相邻词组的首尾分词相同。
根据本发明提供的一种标准文本纠错方法,任一候选词组序列中的任一词组在所述领域出现的概率是基于如下步骤确定的:
确定所述任一词组在所述领域以及所有领域出现的频率;
基于所述任一词组在所述领域出现的频率以及在所有领域出现的频率之间的比值,确定所述任一词组在所述领域出现的概率;
其中,若所述任一词组不存在于所述词典,则将所述词典中包含所述任一词组中任一分词的所有词组在所述领域出现的最低概率作为所述任一词组在所述领域出现的概率。
根据本发明提供的一种标准文本纠错方法,所述确定所述错误文本的纠错文本,之后还包括:
基于所述错误文本的前一分词、后一分词,以及所述纠错文本,将相邻分词组成的词组添加到所述词典中,或,更新相邻分词组成的词组的频率,并将所述错误文本中的每一分词添加到所述词典中。
根据本发明提供的一种标准文本纠错方法,所述基于所述待纠错标准文本的领域对应的词典,顺序确定所述待纠错标准文本中的错误文本,具体包括:
遍历所述待纠错标准文本中的每个分词,若任一分词在所述词典中不存在,则继续判断所述任一分词的下一分词,直至遍历到存在于所述词典的分词,确定所述任一分词至当前遍历位置之前的分词的文本片段为一个错误文本,并继续遍历;若任一分词存在于所述词典,则基于所述任一分词的相邻分词,更新所述词典,并继续遍历。
根据本发明提供的一种标准文本纠错方法,所述若任一分词存在于所述词典,则基于所述任一分词的相邻分词,更新所述词典,具体包括:
若所述相邻分词存在于所述词典中,且所述任一分词与所述相邻分词构成的词组也存在于所述词典中,则将所述任一分词与所述相邻分词构成的词组的频率加1;
若所述相邻分词存在于所述词典中,且所述任一分词与所述相邻分词构成的词组不存在于所述词典中,则将所述任一分词与所述相邻分词构成的词组添加到所述词典中,并将对应频率置1。
根据本发明提供的一种标准文本纠错方法,所述词典是基于如下步骤构建的:
收集所述领域的样本标准文件,并对所述样本标准文件进行光学字符识别,得到样本标准文本;
对所述样本标准文本进行分词;
从所述样本标准文本的首个分词开始,将各个分词以及各个分词及其后一分词组成的词组添加到所述词典中,并统计各个分词组成的词组在所述领域以及所有领域出现的频率。
本发明还提供一种标准文本纠错装置,包括:
文本确定单元,用于确定待纠错标准文本及其领域;所述待纠错标准文本是对标准文件进行光学字符识别得到的;
检错单元,用于基于所述待纠错标准文本的领域对应的词典,顺序确定所述待纠错标准文本中的错误文本;所述错误文本为所述待纠错标准文本中未在所述词典中出现的分词或词序列;
纠错单元,用于基于所述待纠错标准文本的领域对应的词典,以及所述错误文本的前一分词和后一分词,对所述错误文本进行纠错;
其中,所述词典是基于所述领域中的样本标准文本建立的,所述词典中包括所述样本标准文本中出现的分词、包含所述分词的词组,以及所述分词和所述词组出现的频率。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述标准文本纠错方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述标准文本纠错方法的步骤。
本发明提供的标准文本纠错方法、装置、电子设备和存储介质,通过对标准文件数字化并进行分类,得到待纠错文本的领域后,选取该领域预先构建的词典作为待纠错文本检错和纠错的依据,确定待纠错文本中未在词典中出现的错误文本,并结合上下文信息和词典对错误文本纠错,提高了标准文件的数字化结果的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的标准文本纠错方法的流程示意图;
图2为本发明提供的标准文本纠错装置的结构示意图;
图3为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的标准文本纠错方法的流程示意图,如图1所示,该方法包括:
步骤110,确定待纠错标准文本及其领域;待纠错标准文本是对标准文件进行光学字符识别得到的;
步骤120,基于待纠错标准文本的领域对应的词典,顺序确定待纠错标准文本中的错误文本;错误文本为待纠错标准文本中未在词典中出现的分词或词序列;
步骤130,基于待纠错标准文本的领域对应的词典,以及错误文本的前一分词和后一分词,对错误文本进行纠错;
其中,词典是基于领域中的样本标准文本建立的,词典中包括样本标准文本中出现的分词、包含分词的词组,以及词组出现的频率。
具体地,针对需要处理的标准文件,可以利用光学字符识别方法(OpticalCharacter Recognition)对其进行数字化,得到对应的待纠错标准文本。对待纠错标准文本进行领域分类,得到该待纠错文本所属的领域。其中,可以根据ICS国际标准分类的1级分类进行标准文本的领域分类。
根据待纠错文本的领域,选取该领域对应的词典。考虑到标准文本中出现的词语的范围、词语和词语间的关系、词语和符号间的关系,具有一定的领域相关性,因此可以基于该领域的词典,顺序确定待纠错标准文本中的错误文本。此处,可以首先对待纠错标准文本进行分词,分词时可以保留除逗号以外的其他标点符号。随后,从待纠错标准文本的开始分词顺序遍历,依次确定待纠错标准文本中的错误文本。其中,错误文本为待纠错标准文本中未在词典中出现的分词或词序列,且错误文本的个数可以为一个或多个。
此处,上述词典是基于该领域中的样本标准文本建立的,词典中包括样本标准文本中出现的分词、包含分词的词组,以及词组出现的频率。其中,词组出现的频率可以反映该词组在该领域出现的可能性。
由于该词典中记录了该领域中各个正确标准文本的表达方式,包括单个分词的表达、分词与分词之间的表达以及分词与标点符号之间的表达,因此,可以基于该词典,对错误文本进行纠错。具体进行纠错时,可以根据错误文本的前一分词和后一分词所提供的上下文信息,结合该词典中记载的先验信息,对错误文本进行纠错。
本发明实施例提供的方法,通过对标准文件数字化并进行分类,得到待纠错文本的领域后,选取该领域预先构建的词典作为待纠错文本检错和纠错的依据,确定待纠错文本中未在词典中出现的错误文本,并结合上下文信息和词典对错误文本纠错,提高了标准文件的数字化结果的准确性。
基于上述任一实施例,步骤130具体包括:
基于错误文本及其前一分词和后一分词,确定多个候选词组序列;
基于各个候选词组序列中各词组在该领域出现的概率,确定各个候选词组序列在该领域出现的概率;
基于各个候选词组序列在该领域出现的概率,确定错误文本的纠错文本;
其中,当错误文本仅包括一个分词时,候选词组序列由前置词组和后置词组构成;否则,候选词组序列由前置词组、若干中间词组以及后置词组构成;
前置词组中前一分词在前,后置词组中后一分词在后,中间词组的数量与错误文本中所有相邻分词组成的词组数量相同,并且候选词组序列中每两个相邻词组的首尾分词相同。
具体地,根据错误文本的前一分词和后一分词,结合词典中给出的先验信息,可以确定多个候选词组序列。其中,当错误文本仅包括一个分词时,候选词组序列由前置词组和后置词组构成;否则,候选词组序列由前置词组、若干中间词组以及后置词组构成;前置词组中前一分词在前,后置词组中后一分词在后,中间词组的数量与错误文本中所有相邻分词组成的词组数量相同,并且候选词组序列中每两个相邻词组的首尾分词相同。
当错误文本仅包括一个分词时,将前一分词、错误文本、后一分词表示为Ln-1,Ln和Ln+1。此时,前置词组可以表示为<Ln-1,X>,后置词组可以表示为<X,Ln+1>。为了获取候选词组序列,可以从词典中寻找符合上述形式的词组,由于符合上述形式的词组可能有多个,因此,得到的前置词组和后置词组有多种可能性,从而构成多个候选词组序列。
当错误文本包括多个分词时,为了方便描述,以错误文本包括三个分词为例进行说明。将前一分词、错误文本、后一分词表示为Ln-1,Ln、Ln+1、Ln+2和Ln+3,此时,前置词组可以表示为<Ln-1,X>,后置词组可以表示为<Z,Ln+3>。由于错误文本中相邻分词构成的词组有两个,因此中间词组也有两个,此时,中间词组可以表示为<X,Y>和<Y,Z>。即,每个候选词组序列均可以表示为<Ln-1,X>、<X,Y>、<Y,Z>和<Z,Ln+3>。为了获取候选词组序列,同样可以从词典中寻找符合上述形式的词组。此处,可以从两端开始寻找符合条件的所有词组,再一同往中间迭代寻找符合条件的词组。例如,可以首先列出所有符合条件的<Ln-1,X>和<Z,Ln+3>,再寻找所有可能的<X,Y>和<Y,Z>,从而得到多个候选词组序列。
确定得到候选词组序列后,可以基于各个候选词组序列中各词组在该领域出现的概率,确定各个候选词组序列在该领域出现的概率。其中,针对任一候选词组序列,可以将其中各词组在该领域出现的概率相乘,作为该候选词组序列在该领域出现的概率。例如,以错误文本仅包括一个分词为例,可以采用如下公式计算候选词组序列在该领域出现的概率P:
P = p(R(Ln-1,Lx))*p(R(Lx,Ln+1))
其中,R(Ln-1,Lx)表示前置词组,R(Lx,Ln+1)表示后置词组,p(R(Ln-1,Lx))和p(R(Lx,Ln+1))表示对应词组在该领域出现的概率。
基于各个候选词组序列在该领域出现的概率,可以选择概率最大的候选词组序列,从而确定错误文本的纠错文本。例如,可以将概率最大的候选词组序列的中间词组组合,并去除重复分词,得到与错误文本长度相同的文本,作为错误文本的纠错文本。
基于上述任一实施例,任一候选词组序列中的任一词组在该领域出现的概率是基于如下步骤确定的:
确定该词组在该领域以及所有领域出现的频率;
基于该词组在该领域出现的频率以及在所有领域出现的频率之间的比值,确定该词组在该领域出现的概率;
其中,若该词组不存在于该词典,则将该词典中包含该词组中任一分词的所有词组在该领域出现的最低概率作为该词组在该领域出现的概率。
具体地,可以统计该词组R(Sj,Sk)在该领域的词典中出现的频率a(R(Sj,Sk))以 及该词组在所有领域的词典中出现的总次数
Figure 285488DEST_PATH_IMAGE001
,Ø为所有领域的词 典的词组集合。
随后,计算该词组在该领域出现的频率以及在所有领域出现的频率之间的比值,即p(R(Sj,Sk))=a(R(Sj,Sk)/m。将该比值作为该词组在该领域出现的概率。
然而,候选词组序列中的词组可能没有出现在该领域的词典中,此时,可以统计该词典中包含该词组中任一分词的所有词组在该领域出现的概率,将其中的最低概率作为该词组在该领域出现的概率。
基于上述任一实施例,确定错误文本的纠错文本,之后还包括:
基于错误文本的前一分词、后一分词,以及纠错文本,将相邻分词组成的词组添加到词典中,或,更新相邻分词组成的词组的频率,并将错误文本中的每一分词添加到词典中。
具体地,对于上述前一分词、纠错文本以及后一分词构成的词组序列,若该词组序列中相邻分词组成的词组未出现在词典中,则将其添加到词典中,否则,可以将对应词组的频率加一。其次,由于错误文本中的分词未出现在词典中,因此可以将错误文本中的每个分词在人工校对后,均添加到词典中,以完善词典。
基于上述任一实施例,步骤120具体包括:
遍历待纠错标准文本中的每个分词,若任一分词在该词典中不存在,则继续判断该分词的下一分词,直至遍历到存在于该词典的分词,确定该分词至当前遍历位置之前的分词的文本片段为一个错误文本,并继续遍历;若任一分词存在于该词典,则基于该分词的相邻分词,更新该词典,并继续遍历。
具体地,遍历待纠错标准文本中的每个分词。遍历过程中,若遍历到的分词Ln存在于词典中,表明该分词没有出现错误,且可以根据该分词及其相邻分词,对词典进行更新,以进一步完善词典,然后继续遍历。
若遍历到的分词Ln在词典中不存在,表明该分词可能出现错误,此时可以继续判断后续分词是否存在于词典中,若不存在则继续往后遍历和判断,直至遍历到存在于词典中的分词Ln+i+1。此时,可以将分词Ln至当前遍历位置之前的分词Ln+i-1的文本片段(Ln,Ln+1,...,Ln+i-1),作为一个错误文本,然后继续遍历,寻找下一个错误文本。
基于上述任一实施例,若任一分词存在于该词典,则基于该分词的相邻分词,更新该词典,具体包括:
若相邻分词存在于该词典中,且该分词与相邻分词构成的词组也存在于该词典中,则将该分词与相邻分词构成的词组的频率加1;
若相邻分词存在于该词典中,且该分词与相邻分词构成的词组不存在于该词典中,则将该分词与相邻分词构成的词组添加到该词典中,并将对应频率置1。
具体地,判断该分词的相邻分词是否存在于该词典中。若存在,继续判断该分词与相邻分词构成的词组是否存在于该词典中。若该分词与相邻分词构成的词组也存在于该词典中,则将该分词与相邻分词构成的词组的频率加1,否则,将该分词与相邻分词构成的词组添加到该词典中,并将对应频率置1。
基于上述任一实施例,词典是基于如下步骤构建的:
收集该领域的样本标准文件,并对样本标准文件进行光学字符识别,得到样本标准文本;
对样本标准文本进行分词;
从样本标准文本的首个分词开始,将各个分词以及各个分词及其后一分词组成的词组添加到词典中,并统计各个分词组成的词组在该领域以及所有领域出现的频率。
具体地,通过标准文件的扫描等方法,建立标准文件数据库。然后,通过OCR软件,将标准文件数据库进行数字化处理,并对未能数字化处理的文件,进行二次校对和修改,得到多个样本标准文本。
将所有标准文本根据ICS国际标准分类的1级分类对样本标准文本进行分类,用于构建各领域的词典。
通过分词技术,将样本标准文本分词。将分割后的单词,进行标号。设定单词为Sn,则一段拥有N个单词的样本标准文本W可表示为W={Sn|n=1,2,...,N}。
从样本标准文本的首个分词开始,将各个分词Sj作为关键词,建立词典,并将各个分词及其后一分词组成的词组R(Sj,Sk)作为关键词,与各个分词Sj进行关联存储。例如,从样本标准文本的第一个词Sj开始,顺序将R(“。”,Sj)、R(Sj,Sj+1)、R(Sj+1,Sj+2)...按顺序加入到词典当中,以R(Sn,“。”)作为结束。如果遇到已经添加的词组,则将该词组的词条频率加1。通过遍历该领域的全部样本标准文本,形成该领域的词典。
其中,该词典统计了样本标准文本中出现的所有词组R(Sj,Sk)及其在该词典中出 现的频率
Figure 585014DEST_PATH_IMAGE002
。另外,还可以统计各个词组在所有领域的词典中出现的总次数
Figure 532110DEST_PATH_IMAGE003
基于上述任一实施例,图2为本发明实施例提供的标准文本纠错装置的结构示意图,如图2所述,该装置包括:文本确定单元210、检错单元220和纠错单元230。
其中,文本确定单元210用于确定待纠错标准文本及其领域;待纠错标准文本是对标准文件进行光学字符识别得到的;
检错单元220用于基于待纠错标准文本的领域对应的词典,顺序确定待纠错标准文本中的错误文本;错误文本为待纠错标准文本中未在词典中出现的分词或词序列;
纠错单元230用于基于待纠错标准文本的领域对应的词典,以及错误文本的前一分词和后一分词,对错误文本进行纠错;
其中,词典是基于领域中的样本标准文本建立的,词典中包括样本标准文本中出现的分词、包含分词的词组,以及词组出现的频率。
本发明实施例提供的装置,通过对标准文件数字化并进行分类,得到待纠错文本的领域后,选取该领域预先构建的词典作为待纠错文本检错和纠错的依据,确定待纠错文本中未在词典中出现的错误文本,并结合上下文信息和词典对错误文本纠错,提高了标准文件的数字化结果的准确性。
基于上述任一实施例,纠错单元230具体用于:
基于错误文本及其前一分词和后一分词,确定多个候选词组序列;
基于各个候选词组序列中各词组在该领域出现的概率,确定各个候选词组序列在该领域出现的概率;
基于各个候选词组序列在该领域出现的概率,确定错误文本的纠错文本;
其中,当错误文本仅包括一个分词时,候选词组序列由前置词组和后置词组构成;否则,候选词组序列由前置词组、若干中间词组以及后置词组构成;
前置词组中前一分词在前,后置词组中后一分词在后,中间词组的数量与错误文本中所有相邻分词组成的词组数量相同,并且候选词组序列中每两个相邻词组的首尾分词相同。
基于上述任一实施例,任一候选词组序列中的任一词组在该领域出现的概率是基于如下步骤确定的:
确定该词组在该领域以及所有领域出现的频率;
基于该词组在该领域出现的频率以及在所有领域出现的频率之间的比值,确定该词组在该领域出现的概率;
其中,若该词组不存在于该词典,则将该词典中包含该词组中任一分词的所有词组在该领域出现的最低概率作为该词组在该领域出现的概率。
基于上述任一实施例,确定错误文本的纠错文本,之后还包括:
基于错误文本的前一分词、后一分词,以及纠错文本,将相邻分词组成的词组添加到词典中,或,更新相邻分词组成的词组的频率,并将错误文本中的每一分词添加到词典中。
基于上述任一实施例,检错单元220具体用于:
遍历待纠错标准文本中的每个分词,若任一分词在该词典中不存在,则继续判断该分词的下一分词,直至遍历到存在于该词典的分词,确定该分词至当前遍历位置之前的分词的文本片段为一个错误文本,并继续遍历;若任一分词存在于该词典,则基于该分词的相邻分词,更新该词典,并继续遍历。
基于上述任一实施例,若任一分词存在于该词典,则基于该分词的相邻分词,更新该词典,具体包括:
若相邻分词存在于该词典中,且该分词与相邻分词构成的词组也存在于该词典中,则将该分词与相邻分词构成的词组的频率加1;
若相邻分词存在于该词典中,且该分词与相邻分词构成的词组不存在于该词典中,则将该分词与相邻分词构成的词组添加到该词典中,并将对应频率置1。
基于上述任一实施例,词典是基于如下步骤构建的:
收集该领域的样本标准文件,并对样本标准文件进行光学字符识别,得到样本标准文本;
对样本标准文本进行分词;
从样本标准文本的首个分词开始,将各个分词以及各个分词及其后一分词组成的词组添加到词典中,并统计各个分词组成的词组在该领域以及所有领域出现的频率。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行标准文本纠错方法,该方法包括:确定待纠错标准文本及其领域;所述待纠错标准文本是对标准文件进行光学字符识别得到的;基于所述待纠错标准文本的领域对应的词典,顺序确定所述待纠错标准文本中的错误文本;所述错误文本为所述待纠错标准文本中未在所述词典中出现的分词或词序列;基于所述待纠错标准文本的领域对应的词典,以及所述错误文本的前一分词和后一分词,对所述错误文本进行纠错;其中,所述词典是基于所述领域中的样本标准文本建立的,所述词典中包括所述样本标准文本中出现的分词、包含所述分词的词组,以及所述词组出现的频率。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的标准文本纠错方法,该方法包括:确定待纠错标准文本及其领域;所述待纠错标准文本是对标准文件进行光学字符识别得到的;基于所述待纠错标准文本的领域对应的词典,顺序确定所述待纠错标准文本中的错误文本;所述错误文本为所述待纠错标准文本中未在所述词典中出现的分词或词序列;基于所述待纠错标准文本的领域对应的词典,以及所述错误文本的前一分词和后一分词,对所述错误文本进行纠错;其中,所述词典是基于所述领域中的样本标准文本建立的,所述词典中包括所述样本标准文本中出现的分词、包含所述分词的词组,以及所述词组出现的频率。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的标准文本纠错方法,该方法包括:确定待纠错标准文本及其领域;所述待纠错标准文本是对标准文件进行光学字符识别得到的;基于所述待纠错标准文本的领域对应的词典,顺序确定所述待纠错标准文本中的错误文本;所述错误文本为所述待纠错标准文本中未在所述词典中出现的分词或词序列;基于所述待纠错标准文本的领域对应的词典,以及所述错误文本的前一分词和后一分词,对所述错误文本进行纠错;其中,所述词典是基于所述领域中的样本标准文本建立的,所述词典中包括所述样本标准文本中出现的分词、包含所述分词的词组,以及所述词组出现的频率。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种标准文本纠错方法,其特征在于,包括:
确定待纠错标准文本及其领域;所述待纠错标准文本是对标准文件进行光学字符识别得到的;
基于所述待纠错标准文本的领域对应的词典,顺序确定所述待纠错标准文本中的错误文本;所述错误文本为所述待纠错标准文本中未在所述词典中出现的分词或词序列;
基于所述待纠错标准文本的领域对应的词典,以及所述错误文本的前一分词和后一分词,对所述错误文本进行纠错;
其中,所述词典是基于所述领域中的样本标准文本建立的,所述词典中包括所述样本标准文本中出现的分词、包含所述分词的词组,以及所述词组出现的频率;
所述基于所述待纠错标准文本的领域对应的词典,以及所述错误文本的前一分词和后一分词,对所述错误文本进行纠错,具体包括:
基于所述错误文本及其前一分词和后一分词,确定多个候选词组序列;
基于各个候选词组序列中各词组在所述领域出现的概率,确定各个候选词组序列在所述领域出现的概率;
基于各个候选词组序列在所述领域出现的概率,确定所述错误文本的纠错文本;
其中,当所述错误文本仅包括一个分词时,所述候选词组序列由前置词组和后置词组构成;否则,所述候选词组序列由所述前置词组、若干中间词组以及所述后置词组构成;
所述前置词组中所述前一分词在前,所述后置词组中所述后一分词在后,所述中间词组的数量与所述错误文本中所有相邻分词组成的词组数量相同,并且所述候选词组序列中每两个相邻词组的首尾分词相同。
2.根据权利要求1所述的标准文本纠错方法,其特征在于,任一候选词组序列中的任一词组在所述领域出现的概率是基于如下步骤确定的:
确定所述任一词组在所述领域以及所有领域出现的频率;
基于所述任一词组在所述领域出现的频率以及在所有领域出现的频率之间的比值,确定所述任一词组在所述领域出现的概率;
其中,若所述任一词组不存在于所述词典,则将所述词典中包含所述任一词组中任一分词的所有词组在所述领域出现的最低概率作为所述任一词组在所述领域出现的概率。
3.根据权利要求1所述的标准文本纠错方法,其特征在于,所述确定所述错误文本的纠错文本,之后还包括:
基于所述错误文本的前一分词、后一分词,以及所述纠错文本,将相邻分词组成的词组添加到所述词典中,或,更新相邻分词组成的词组的频率,并将所述错误文本中的每一分词添加到所述词典中。
4.根据权利要求1所述的标准文本纠错方法,其特征在于,所述基于所述待纠错标准文本的领域对应的词典,顺序确定所述待纠错标准文本中的错误文本,具体包括:
遍历所述待纠错标准文本中的每个分词,若任一分词在所述词典中不存在,则继续判断所述任一分词的下一分词,直至遍历到存在于所述词典的分词,确定所述任一分词至当前遍历位置之前的分词的文本片段为一个错误文本,并继续遍历;若任一分词存在于所述词典,则基于所述任一分词的相邻分词,更新所述词典,并继续遍历。
5.根据权利要求4所述的标准文本纠错方法,其特征在于,所述若任一分词存在于所述词典,则基于所述任一分词的相邻分词,更新所述词典,具体包括:
若所述相邻分词存在于所述词典中,且所述任一分词与所述相邻分词构成的词组也存在于所述词典中,则将所述任一分词与所述相邻分词构成的词组的频率加1;
若所述相邻分词存在于所述词典中,且所述任一分词与所述相邻分词构成的词组不存在于所述词典中,则将所述任一分词与所述相邻分词构成的词组添加到所述词典中,并将对应频率置1。
6.根据权利要求1至5任一项所述的标准文本纠错方法,其特征在于,所述词典是基于如下步骤构建的:
收集所述领域的样本标准文件,并对所述样本标准文件进行光学字符识别,得到样本标准文本;
对所述样本标准文本进行分词;
从所述样本标准文本的首个分词开始,将各个分词以及各个分词及其后一分词组成的词组添加到所述词典中,并统计各个分词组成的词组在所述领域以及所有领域出现的频率。
7.一种标准文本纠错装置,其特征在于,包括:
文本确定单元,用于确定待纠错标准文本及其领域;所述待纠错标准文本是对标准文件进行光学字符识别得到的;
检错单元,用于基于所述待纠错标准文本的领域对应的词典,顺序确定所述待纠错标准文本中的错误文本;所述错误文本为所述待纠错标准文本中未在所述词典中出现的分词或词序列;
纠错单元,用于基于所述待纠错标准文本的领域对应的词典,以及所述错误文本的前一分词和后一分词,对所述错误文本进行纠错;
其中,所述词典是基于所述领域中的样本标准文本建立的,所述词典中包括所述样本标准文本中出现的分词、包含所述分词的词组,以及所述分词和所述词组出现的频率;
所述基于所述待纠错标准文本的领域对应的词典,以及所述错误文本的前一分词和后一分词,对所述错误文本进行纠错,具体包括:
基于所述错误文本及其前一分词和后一分词,确定多个候选词组序列;
基于各个候选词组序列中各词组在所述领域出现的概率,确定各个候选词组序列在所述领域出现的概率;
基于各个候选词组序列在所述领域出现的概率,确定所述错误文本的纠错文本;
其中,当所述错误文本仅包括一个分词时,所述候选词组序列由前置词组和后置词组构成;否则,所述候选词组序列由所述前置词组、若干中间词组以及所述后置词组构成;
所述前置词组中所述前一分词在前,所述后置词组中所述后一分词在后,所述中间词组的数量与所述错误文本中所有相邻分词组成的词组数量相同,并且所述候选词组序列中每两个相邻词组的首尾分词相同。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述标准文本纠错方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述标准文本纠错方法的步骤。
CN202110588256.9A 2021-05-28 2021-05-28 标准文本纠错方法、装置、电子设备和存储介质 Active CN113033185B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110588256.9A CN113033185B (zh) 2021-05-28 2021-05-28 标准文本纠错方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110588256.9A CN113033185B (zh) 2021-05-28 2021-05-28 标准文本纠错方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113033185A CN113033185A (zh) 2021-06-25
CN113033185B true CN113033185B (zh) 2021-08-10

Family

ID=76456153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110588256.9A Active CN113033185B (zh) 2021-05-28 2021-05-28 标准文本纠错方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113033185B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420547A (zh) * 2021-08-25 2021-09-21 深圳市豪华科技有限公司 即时通信软件的错别字纠错方法及相关设备
CN113705203A (zh) * 2021-09-02 2021-11-26 上海极链网络科技有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质
CN117591634A (zh) * 2023-12-04 2024-02-23 广东南方智媒科技有限公司 一种文本纠错方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369996A (zh) * 2020-02-24 2020-07-03 网经科技(苏州)有限公司 一种特定领域的语音识别文本纠错方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9760560B2 (en) * 2015-03-19 2017-09-12 Nuance Communications, Inc. Correction of previous words and other user text input errors
CN111079412B (zh) * 2018-10-18 2024-01-23 北京嘀嘀无限科技发展有限公司 文本纠错方法及装置
CN111460793A (zh) * 2020-03-10 2020-07-28 平安科技(深圳)有限公司 纠错方法、装置、设备及存储介质
CN111428474A (zh) * 2020-03-11 2020-07-17 中国平安人寿保险股份有限公司 基于语言模型的纠错方法、装置、设备及存储介质
CN111753531B (zh) * 2020-06-28 2024-03-12 平安科技(深圳)有限公司 基于人工智能的文本纠错方法、装置、设备及存储介质
CN112016304A (zh) * 2020-09-03 2020-12-01 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369996A (zh) * 2020-02-24 2020-07-03 网经科技(苏州)有限公司 一种特定领域的语音识别文本纠错方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于知识图谱的OCR转换文本纠错方法研究与应用;张笑文;《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》;20200415;全文 *

Also Published As

Publication number Publication date
CN113033185A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN113033185B (zh) 标准文本纠错方法、装置、电子设备和存储介质
US11475209B2 (en) Device, system, and method for extracting named entities from sectioned documents
CN113076739A (zh) 一种实现跨领域的中文文本纠错方法和系统
CN110704719B (zh) 企业搜索文本分词方法和装置
CN111651978A (zh) 基于实体的词法检查方法与装置和计算机设备及存储介质
CN110807102A (zh) 知识融合方法、装置、计算机设备和存储介质
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN112560450A (zh) 一种文本纠错方法及装置
CN114970502B (zh) 一种应用于数字政府的文本纠错方法
Pal et al. OCR error correction of an inflectional indian language using morphological parsing
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN111191469A (zh) 大规模语料清洗对齐方法及装置
CN112182353B (zh) 用于信息搜索的方法、电子设备和存储介质
Sreejith et al. N-gram based algorithm for distinguishing between Hindi and Sanskrit texts
CN108564086B (zh) 一种字符串的识别校验方法及装置
Aliwy et al. Corpus-based technique for improving Arabic OCR system
CN115757815A (zh) 知识图谱的构建方法、装置及存储介质
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
WO2021196835A1 (zh) 提取时间字符串的方法、装置、计算机设备及存储介质
CN114860873A (zh) 一种生成文本摘要的方法、装置及存储介质
CN115169328A (zh) 一种高准确性的中文拼写检查方法、系统及介质
Soni et al. Correcting whitespace errors in digitized historical texts
Mohapatra et al. Spell checker for OCR
CN114528824A (zh) 文本纠错方法、装置、电子设备及存储介质
CN115687334B (zh) 数据质检方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant