CN111046663A - 一种中文表单的智能校正方法 - Google Patents

一种中文表单的智能校正方法 Download PDF

Info

Publication number
CN111046663A
CN111046663A CN201911175550.6A CN201911175550A CN111046663A CN 111046663 A CN111046663 A CN 111046663A CN 201911175550 A CN201911175550 A CN 201911175550A CN 111046663 A CN111046663 A CN 111046663A
Authority
CN
China
Prior art keywords
word
sentence
corrected
words
intelligent correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911175550.6A
Other languages
English (en)
Other versions
CN111046663B (zh
Inventor
黄翰
黄俊聪
李克奉
徐杨
郝志峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911175550.6A priority Critical patent/CN111046663B/zh
Publication of CN111046663A publication Critical patent/CN111046663A/zh
Application granted granted Critical
Publication of CN111046663B publication Critical patent/CN111046663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种中文表单的智能校正方法。所述方法包括以下步骤:构建智能校正模型;训练调整阈值,得到训练好的智能校正模型;输入待校正的句子到智能校正模型中进行校正。本发明可以自动判断输入句子是否通顺以及根据历史表单填写记录对存在错误的短文本进行修正;用户填写记录可以不断补充进入历史表单填写记录,解决了特定领域语料冷启动问题;本发明在寻找候选校正词集合的过程可以提高文本分词的质量。本发明所需要的训练文本的数量越多,历史表单填写语料库所构建的上下文关系集就越完善。本发明训练智能校正模型耗时较短。智能校正模型构建的过程按模块划分,方便根据业务拓展。

Description

一种中文表单的智能校正方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种中文表单的智能校正方法。
背景技术
自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。概括说来,自然语言是人类社会约定俗成的,区别于人工语言,如程序设计的语言。
随着计算机技术和电子信息技术的普及与发展,我国大力推广政务信息化与政务自动化应用。目前许多政府办事机构都引入了电子表单系统,用户需要填写大量表单。为了方便受教育水平较低的群体,这类电子表单系统往往引入了语音模块,以将用户的语音输入直接转化为中文,填写在表单对应选项中。但是这类语音转写后的中文文本往往由于用户不标准的普通话发音,和环境噪声而出现错误或者缺乏完整性,需要用户对文本进行二次修改或者重新录音转写文字,给用户带来了不良的体验。在目前表单系统广泛应用的情形下,提高用户填写的体验性和方便性的重要性不言而喻。因此,目前亟需一种中文表单的智能校正方案。
目前随着神经网络的发展,已有人将端到端的神经网络模型应用于中文文本语法纠错中,例如一种基于LSTM的中文文本语法纠错模型方法(CN109948152A),采用神经网络模型可以简化人工特征抽取的过程,在大量文本的训练下,可以较好的提高准确率。然而采用神经网络也存在没有解决文本分词质量问题、训练集文本数量庞大、训练耗时长、不适合特定领域语料冷启动,业务解释性差等问题。
发明内容
为了解决上述问题,本发明提供一种中文表单的智能校正方案,该方法可以自动判断输入句子是否通顺以及根据历史表单填写记录对存在错误的短文本进行修正。
本发明的目的至少通过如下技术方案之一实现。
一种中文表单的智能校正方法,包括以下步骤:
步骤S1:构建智能校正模型;
步骤S2:训练调整阈值,得到训练好的智能校正模型;
步骤S3:输入待校正的句子到智能校正模型中进行校正。
进一步地,所述步骤S1包括:
步骤A1:构建历史表单填写语料库;
步骤A2:根据判定句子是否需要校正;
步骤A3:获取待校正词的候选列表;
步骤A4:通过马尔科夫链寻找最优校正词组合,完成智能校正模型的构建。
进一步地,步骤A1:构建历史表单填写语料库;语料库即语言材料的集合,语料是构成语料库的基本单元。所述语料为历史表单填写记录,为内部数据。然后去除语料集中的过短或者不通顺的内容噪音,获取需要的文本内容,并且对文本内容进行初步的解析,构建出上下文关系集,使文本内容易于机器读取与理解,为后续的自然语言处理应用提供条件。所述步骤A1包括:
步骤A1.1:获取历史表单填写记录;
步骤A1.2:对历史表单填写记录进行分词和清洗;
步骤A1.3:根据清洗完全的历史表单填写记录建立上下文关系集,完成历史表单填写语料库的构建。
进一步地,步骤A1.1中,所述历史表单填写记录的获取方式为收集人工填写表单记录;
步骤A1.2中,使用pyhanlp免费开源的分词工具,对表单文本内容进行文本分词和清洗;清洗的内容包括,去除停用词、去除单字词;对于特定的表单项即需要填写内容较多的表项,若句子长度小于5,给予丢弃;
步骤A1.3中,根据有效的文本分词结构建立上下文关系集,所述上下文关系集表示历史表单填写记录中词与词前后对应关系,其形式如下:
Figure BDA0002289846380000021
其中,m表示句子数量,n,h表示不同长度句子拥有的词数量,cij表示第i个句子的第j个词,bi(j+h)表示cij后第h个词;由于句子是不定长的,所以每个句子拥有的词数量不同。
进一步地,步骤A2:根据判定句子是否需要校正;使用分词工具对输入的待校正句子进行词性和句法的分析,进而得到语法规则集结构,计算出该句子的语法困惑度,如果困惑度大于阈值则返回输出,否则继续进行校正步骤。所述步骤A2包括:
步骤A2.1:输入待校正句子并对待校正句子进行分词与词性标注;
步骤A2.2:对待校正句子进行句法分析;
步骤A2.3:得到该句子对应的语法规则集R={f1|(f1,e1,r1,s1,p1),...fn|(fn,en,rn,sn,pn)},f1,e1表示一对词语,r1表示该对词语的句法结构,s1表示f1的词性,p1表示f1对应的语言概率,p1=P(f1|f0),f的下标表示句子中词的位置,f1表示第一个词,f0表示句子的起始,是个占位符;
步骤A2.4:计算待校正句子的语法困惑度Pg;若Pg大于阈值α,则继续后续的校正步骤,否则返回原句子,表示该句子无需校正,阈值α为可调整参数,通过训练的方式调整得到。
进一步地,输入的待校正句子,有可能是正确的句子,或者是有一定语法错误的句子(因环境噪声或者语音转写的缺陷),所以需要判断句子是否需要校正。若发现该句子为正确句子,则可以直接返回,不需要进行后续的校正步骤;步骤A2.1中,使用pyhanlp免费开源的分词工具对待校正句子进行分词以及词性标注和句法分析,得到语法规则集;
步骤A2.4中,所述语法困惑度的计算公式如下:
Pg=1-avg(pi);
其中,avg()为求平均值。
进一步地,步骤A3:获取待校正词的候选列表;构造相似度函数,利用该函数去计算待校正词与语料库中词语的相似度,进而得到候选词集合。所述步骤A3包括:
步骤A3.1:构造相似度函数;
步骤A3.2:计算待校正句子中的词与历史表单填写库的词相似度;
步骤A3.3:根据词相似度寻找候选校正词集合。
进一步地,步骤A3.1中,所述相似度函数如下:
f(x,y)=L(x,y)+pos(y,x-1);
其中L(x,y)指两词的levenshtein距离,pos(y,x-1)指y与x前一个词的步长距离,y表示历史表单填写库中的词,x表示待校正句子中的词;
步骤A3.3中,利用相似度函数,计算待校正句子的词与历史表单填写库的词相似度;如果两个词一模一样,则该待校正句子的词对应的候选词集合为空集,否则取相似度最高的前10%词作为候选词集合,包括以下步骤:
步骤S3.3.1、假定A,B,C,D…为待校正词,待校正字串Z=A;
步骤S3.3.2、计算Z的最小相似度a;
步骤S3.3.3、假定A,B,C,D…为待校正词,待校正字串Z=A+B(字符串拼接);
步骤S3.3.4、计算Z的最小相似度b,若b<a则回到步骤S3.3.3继续拼接新的待校正词,若b>a,则回到步骤S3.3.1,继续为Z赋于新的待校正词。
由于输入的待校正句子可能存在一定的语法错误,所以会对分词工具得到的分词结果造成干扰以及结果的偏差。采用以上的寻找过程,可以有效地降低本来属于一个词,但是由于词内容错误导致分词工具错误分解为两个词的情况。
进一步地,步骤A4:通过马尔科夫链寻找最优校正词组合;根据得到的候选词集合进行不同组合,利用马尔可夫链计算不同组合对应的合理性概率,挑选概率最高的词组合构成句子,将句子输出;所述步骤A4包括:
步骤A4.1:获取到待校正词对应的候选校正词集合后,对候选校正词进行不同组合,得到一系列的组合;
步骤A4.2:以词为马尔可夫链的最小单位,利用马尔科夫链计算候选词组合的合理性概率;
步骤A4.3:挑选概率最高的词组合构成句子,将句子输出。
进一步地,步骤S2:训练调整阈值;人工构造初始标定数据集,将该数据集输入智能校正模型中,对阈值α进行梯度下降,得到一个较好的阈值α初始化值。同时该训练方式支持增量训练,通过不断地添加标定数据使参数更好的调整。所述步骤S2包括:
步骤S2.1:人工构造初始标定数据集并将其输入到智能校正模型中,对阈值α进行梯度下降,得到一个较好的阈值α初始化值,得到训练好的智能校正模型;
步骤S2.2:支持增量标定数据集,对阈值α进行进一步的在线梯度下降,得到更好的智能校正模型。
考虑到标定数据集的局限性,可以将真实使用过程中,用户的一开始输入的内容作为训练集,纠正后最后确认提交的内容作为标签,对阈值进行增量的训练调整。
与现有技术相比,本发明的有益效果为:
1、本发明可以根据历史表单填写记录对存在错误的短文本进行修正,用户填写记录可以不断补充进入历史表单填写记录,解决了特定领域语料冷启动问题。
2、寻找候选校正词集合的过程可以提高文本分词的质量。
3、本发明所需要的训练文本的数量越多,历史表单填写语料库所构建的上下文关系集就越完善。
4、本发明训练智能校正模型耗时较短。
5、智能校正模型构建的过程按模块划分,方便根据业务拓展。
附图说明
图1为本发明实施例中一种中文表单的智能校正方法的技术流程图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例:
一种中文表单的智能校正方法,如图1所示,包括以下步骤:
步骤S1:构建智能校正模型,包括以下步骤:
步骤A1:构建历史表单填写语料库;语料库即语言材料的集合,语料是构成语料库的基本单元。所述语料为历史表单填写记录,为内部数据。然后去除语料集中的过短或者不通顺的内容噪音,获取需要的文本内容,并且对文本内容进行初步的解析,构建出上下文关系集,使文本内容易于机器读取与理解,为后续的自然语言处理应用提供条件。所述步骤A1包括:
步骤A1.1:获取历史表单填写记录;所述历史表单填写记录的获取方式为收集人工填写表单记录;
步骤A1.2:对历史表单填写记录进行分词和清洗;使用pyhanlp免费开源的分词工具,对表单文本内容进行文本分词和清洗;清洗的内容包括,去除停用词、去除单字词;对于特定的表单项即需要填写内容较多的表项,若句子长度小于5,给予丢弃;
步骤A1.3:根据清洗完全的历史表单填写记录建立上下文关系集,完成历史表单填写语料库的构建;根据有效的文本分词结构建立上下文关系集,所述上下文关系集表示历史表单填写记录中词与词前后对应关系,其形式如下:
Figure BDA0002289846380000051
其中,m表示句子数量,n,h表示不同长度句子拥有的词数量,cij表示第i个句子的第j个词,bi(j+h)表示cij后第h个词;由于句子是不定长的,所以每个句子拥有的词数量不同。
步骤A2:根据判定句子是否需要校正;使用分词工具对输入的待校正句子进行词性和句法的分析,进而得到语法规则集结构,计算出该句子的语法困惑度,如果困惑度大于阈值则返回输出,否则继续进行校正步骤。所述步骤A2包括:
步骤A2.1:输入待校正句子并对待校正句子进行分词与词性标注;输入的待校正句子,有可能是正确的句子,或者是有一定语法错误的句子(因环境噪声或者语音转写的缺陷),所以需要判断句子是否需要校正。若发现该句子为正确句子,则可以直接返回,不需要进行后续的校正步骤;使用pyhanlp免费开源的分词工具对待校正句子进行分词以及词性标注和句法分析,得到语法规则集;
步骤A2.2:对待校正句子进行句法分析;
步骤A2.3:得到该句子对应的语法规则集R={f1|(f1,e1,r1,s1,p1),...fn|(fn,en,rn,sn,pn)},f1,e1表示一对词语,r1表示该对词语的句法结构,s1表示f1的词性,p1表示f1对应的语言概率,p1=P(f1|f0),f的下标表示句子中词的位置,f1表示第一个词,f0表示句子的起始,是个占位符;
步骤A2.4:计算待校正句子的语法困惑度Pg;若Pg大于阈值α,则继续后续的校正步骤,否则返回原句子,表示该句子无需校正,阈值α为可调整参数,通过训练的方式调整得到;所述语法困惑度的计算公式如下:
Pg=1-avg(pi);
其中,avg()为求平均值。
步骤A3:获取待校正词的候选列表;构造相似度函数,利用该函数去计算待校正词与语料库中词语的相似度,进而得到候选词集合。所述步骤A3包括:
步骤A3.1:构造相似度函数;所述相似度函数如下:
f(x,y)=L(x,y)+pos(y,x-1);
其中L(x,y)指两词的levenshtein距离,pos(y,x-1)指y与x前一个词的步长距离,y表示历史表单填写库中的词,x表示待校正句子中的词;
步骤A3.2:计算待校正句子中的词与历史表单填写库的词相似度;
步骤A3.3:根据词相似度寻找候选校正词集合;;如果两个词一模一样,则该待校正句子的词对应的候选词集合为空集,否则取相似度最高的前10%词作为候选词集合,包括以下步骤:
步骤S3.3.1、假定A,B,C,D…为待校正词,待校正字串Z=A;
步骤S3.3.2、计算Z的最小相似度a;
步骤S3.3.3、假定A,B,C,D…为待校正词,待校正字串Z=A+B(字符串拼接);
步骤S3.3.4、计算Z的最小相似度b,若b<a则回到步骤S3.3.3继续拼接新的待校正词,若b>a,则回到步骤S3.3.1,继续为Z赋于新的待校正词。
由于输入的待校正句子可能存在一定的语法错误,所以会对分词工具得到的分词结果造成干扰以及结果的偏差。采用以上的寻找过程,可以有效地降低本来属于一个词,但是由于词内容错误导致分词工具错误分解为两个词的情况。
步骤A4:通过马尔科夫链寻找最优校正词组合,根据得到的候选词集合进行不同组合,利用马尔可夫链计算不同组合对应的合理性概率,挑选概率最高的词组合构成句子,将句子输出,完成智能校正模型的构建;所述步骤A4包括:
步骤A4.1:获取到待校正词对应的候选校正词集合后,对候选校正词进行不同组合,得到一系列的组合;
步骤A4.2:以词为马尔可夫链的最小单位,利用马尔科夫链计算候选词组合的合理性概率;
步骤A4.3:挑选概率最高的词组合构成句子,将句子输出,完成智能校正模型的构建。
步骤S2:训练调整阈值,人工构造初始标定数据集,将该数据集输入智能校正模型中,对阈值α进行梯度下降,得到一个较好的阈值α初始化值。同时该训练方式支持增量训练,通过不断地添加标定数据使参数更好的调整,得到训练好的智能校正模型;所述步骤S2包括:
步骤S2.1:人工构造初始标定数据集并将其输入到智能校正模型中,对阈值α进行梯度下降,得到一个较好的阈值α初始化值,得到训练好的智能校正模型;
步骤S2.2:支持增量标定数据集,对阈值α进行进一步的在线梯度下降,得到更好的智能校正模型。
考虑到标定数据集的局限性,可以将真实使用过程中,用户的一开始输入的内容作为训练集,纠正后最后确认提交的内容作为标签,对阈值进行增量的训练调整。
步骤S3:输入待校正的句子到智能校正模型中进行校正。

Claims (10)

1.一种中文表单的智能校正方法,其特征在于,包括以下步骤:
步骤S1:构建智能校正模型;
步骤S2:训练调整阈值,得到训练好的智能校正模型;
步骤S3:输入待校正的句子到智能校正模型中进行校正。
2.根据权利要求1所述的一种中文表单的智能校正方法,其特征在于,所述步骤S1包括:
步骤A1:构建历史表单填写语料库;
步骤A2:根据判定句子是否需要校正;
步骤A3:获取待校正词的候选列表;
步骤A4:通过马尔科夫链寻找最优校正词组合,完成智能校正模型的构建。
3.根据权利要求2所述的一种中文表单的智能校正方法,其特征在于,所述步骤A1包括:
步骤A1.1:获取历史表单填写记录;
步骤A1.2:对历史表单填写记录进行分词和清洗;
步骤A1.3:根据清洗完全的历史表单填写记录建立上下文关系集,完成历史表单填写语料库的构建。
4.根据权利要求3所述的一种中文表单的智能校正方法,其特征在于,步骤A1.1中,所述历史表单填写记录的获取方式为收集人工填写表单记录;
步骤A1.2中,使用pyhanlp免费开源的分词工具,对表单文本内容进行文本分词和清洗;清洗的内容包括,去除停用词、去除单字词;对于特定的表单项即需要填写内容较多的表项,若句子长度小于5,给予丢弃;
步骤A1.3中,根据有效的文本分词结构建立上下文关系集,所述上下文关系集表示历史表单填写记录中词与词前后对应关系,其形式如下:
Figure FDA0002289846370000011
aij={cij:{bi(j+1):1,bi(j+2):2,...bi(j+h):h}};
其中,m表示句子数量,n,h表示不同长度句子拥有的词数量,cij表示第i个句子的第j个词,bi(j+h)表示cij后第h个词。
5.根据权利要求2所述的一种中文表单的智能校正方法,其特征在于,所述步骤A2包括:
步骤A2.1:输入待校正句子并对待校正句子进行分词与词性标注;
步骤A2.2:对待校正句子进行句法分析;
步骤A2.3:得到该句子对应的语法规则集R={f1|(f1,e1,r1,s1,p1),...fn|(fn,en,rn,sn,pn)},f1,e1表示一对词语,r1表示该对词语的句法结构,s1表示f1的词性,p1表示f1对应的语言概率,p1=P(f1|f0),f的下标表示句子中词的位置,f1表示第一个词,f0表示句子的起始,是个占位符;
步骤A2.4:计算待校正句子的语法困惑度Pg;若Pg大于阈值α,则继续后续的校正步骤,否则返回原句子,表示该句子无需校正,阈值α为可调整参数,通过训练的方式调整得到。
6.根据权利要求5所述的一种中文表单的智能校正方法,其特征在于,步骤A2.1中,使用pyhanlp免费开源的分词工具对待校正句子进行分词以及词性标注和句法分析,得到语法规则集;
步骤A2.4中,所述语法困惑度的计算公式如下:
Pg=1-avg(pi);
其中,avg()为求平均值。
7.根据权利要求2所述的一种中文表单的智能校正方法,其特征在于,所述步骤A3包括:
步骤A3.1:构造相似度函数;
步骤A3.2:计算待校正句子中的词与历史表单填写库的词相似度;
步骤A3.3:根据词相似度寻找候选校正词集合。
8.根据权利要求7所述的一种中文表单的智能校正方法,其特征在于,步骤A3.1中,所述相似度函数如下:
f(x,y)=L(x,y)+pos(y,x-1);
其中L(x,y)指两词的levenshtein距离,pos(y,x-1)指y与x前一个词的步长距离,y表示历史表单填写库中的词,x表示待校正句子中的词;
步骤A3.3中,利用相似度函数,计算待校正句子的词与历史表单填写库的词相似度;如果两个词一模一样,则该待校正句子的词对应的候选词集合为空集,否则取相似度最高的前10%词作为候选词集合,包括以下步骤:
步骤S3.3.1、假定A,B,C,D…为待校正词,待校正字串Z=A;
步骤S3.3.2、计算Z的最小相似度a;
步骤S3.3.3、假定A,B,C,D…为待校正词,待校正字串Z=A+B(字符串拼接);
步骤S3.3.4、计算Z的最小相似度b,若b<a则回到步骤S3.3.3继续拼接新的待校正词,若b>a,则回到步骤S3.3.1,继续为Z赋于新的待校正词。
9.根据权利要求2所述的一种中文表单的智能校正方法,其特征在于,所述步骤A4包括:
步骤A4.1:获取到待校正词对应的候选校正词集合后,对候选校正词进行不同组合,得到一系列的组合;
步骤A4.2:以词为马尔可夫链的最小单位,利用马尔科夫链计算候选词组合的合理性概率;
步骤A4.3:挑选概率最高的词组合构成句子,将句子输出。
10.根据权利要求1所述的一种中文表单的智能校正方法,其特征在于,所述步骤S2包括:
步骤S2.1:人工构造初始标定数据集并将其输入到智能校正模型中,对阈值α进行梯度下降,得到一个较好的阈值α初始化值,得到训练好的智能校正模型;
步骤S2.2:支持增量标定数据集,对阈值α进行进一步的在线梯度下降,得到更好的智能校正模型。
CN201911175550.6A 2019-11-26 2019-11-26 一种中文表单的智能校正方法 Active CN111046663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911175550.6A CN111046663B (zh) 2019-11-26 2019-11-26 一种中文表单的智能校正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911175550.6A CN111046663B (zh) 2019-11-26 2019-11-26 一种中文表单的智能校正方法

Publications (2)

Publication Number Publication Date
CN111046663A true CN111046663A (zh) 2020-04-21
CN111046663B CN111046663B (zh) 2023-05-23

Family

ID=70233454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911175550.6A Active CN111046663B (zh) 2019-11-26 2019-11-26 一种中文表单的智能校正方法

Country Status (1)

Country Link
CN (1) CN111046663B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761850A (zh) * 2020-11-13 2021-12-07 北京沃东天骏信息技术有限公司 表单填充方法和装置
CN117057325A (zh) * 2023-10-13 2023-11-14 湖北华中电力科技开发有限责任公司 一种应用于电网领域表单填写方法、系统和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160328366A1 (en) * 2015-05-04 2016-11-10 King Fahd University Of Petroleum And Minerals Systems and associated methods for arabic handwriting synthesis and dataset design
WO2018034426A1 (ko) * 2016-08-17 2018-02-22 창원대학교 산학협력단 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
CN109948152A (zh) * 2019-03-06 2019-06-28 北京工商大学 一种基于lstm的中文文本语法纠错模型方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160328366A1 (en) * 2015-05-04 2016-11-10 King Fahd University Of Petroleum And Minerals Systems and associated methods for arabic handwriting synthesis and dataset design
WO2018034426A1 (ko) * 2016-08-17 2018-02-22 창원대학교 산학협력단 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
CN109948152A (zh) * 2019-03-06 2019-06-28 北京工商大学 一种基于lstm的中文文本语法纠错模型方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761850A (zh) * 2020-11-13 2021-12-07 北京沃东天骏信息技术有限公司 表单填充方法和装置
CN117057325A (zh) * 2023-10-13 2023-11-14 湖北华中电力科技开发有限责任公司 一种应用于电网领域表单填写方法、系统和电子设备
CN117057325B (zh) * 2023-10-13 2024-01-05 湖北华中电力科技开发有限责任公司 一种应用于电网领域表单填写方法、系统和电子设备

Also Published As

Publication number Publication date
CN111046663B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN110717031B (zh) 一种智能会议纪要生成方法和系统
CN109918666B (zh) 一种基于神经网络的中文标点符号添加方法
CN107066455B (zh) 一种多语言智能预处理实时统计机器翻译系统
CN104050160B (zh) 一种机器与人工翻译相融合的口语翻译方法和装置
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
CN101727902B (zh) 一种对语调进行评估的方法
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN112466279B (zh) 一种英语口语发音自动纠正方法和装置
CN112016320A (zh) 基于数据增强的英文标点符号添加方法和系统及设备
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN111858842A (zh) 一种基于lda主题模型的司法案例筛选方法
CN111444704A (zh) 基于深度神经网络的网络安全关键词抽取方法
CN111666764A (zh) 一种基于XLNet的自动摘要方法与装置
CN105389303B (zh) 一种异源语料自动融合方法
CN111046663B (zh) 一种中文表单的智能校正方法
CN113257221B (zh) 一种基于前端设计的语音模型训练方法及语音合成方法
CN117292680A (zh) 一种基于小样本合成的输电运检的语音识别的方法
CN113822052A (zh) 一种文本错误检测方法、装置、电子设备及存储介质
Romero et al. Category-based language models for handwriting recognition of marriage license books
CN116229947A (zh) 一种语音识别方法及语音识别装置
CN116306592A (zh) 一种基于阅读理解的老年痴呆量表纠错方法、系统及介质
Liu et al. A maximum entropy based hierarchical model for automatic prosodic boundary labeling in mandarin
CN102156693B (zh) 一种盲文输入方法和系统
CN114528861A (zh) 一种基于语料库的外语翻译训练方法及装置
CN110858268B (zh) 一种检测语音翻译系统中不流畅现象的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant