CN111488466A - 中文带标记错误语料生成方法、计算装置和存储介质 - Google Patents

中文带标记错误语料生成方法、计算装置和存储介质 Download PDF

Info

Publication number
CN111488466A
CN111488466A CN202010299661.4A CN202010299661A CN111488466A CN 111488466 A CN111488466 A CN 111488466A CN 202010299661 A CN202010299661 A CN 202010299661A CN 111488466 A CN111488466 A CN 111488466A
Authority
CN
China
Prior art keywords
word
error
errors
type
pinyin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010299661.4A
Other languages
English (en)
Other versions
CN111488466B (zh
Inventor
史元春
喻纯
潘星宇
王运涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010299661.4A priority Critical patent/CN111488466B/zh
Publication of CN111488466A publication Critical patent/CN111488466A/zh
Application granted granted Critical
Publication of CN111488466B publication Critical patent/CN111488466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

提供计算机执行的中文带标记错误语料生成方法,包括:获得参考文本;基于参考文本,针对如下错误分类分别生成错误样本,所生成的错误样本体现了该错误分类下的错误:针对同音错误和谐音错误,生成第一类错误样本;针对形近字、键盘误触错误,生成第二类错误样本;针对句法错误,生成第三类错误样本,获得包括参考文本、第一类错误样本、第二类错误样本、第三类错误样本的中文带标记语料。利用本发明的技术,能够利用自然文本生成大量准确的标注语料,支持查错模型的训练检验。

Description

中文带标记错误语料生成方法、计算装置和存储介质
技术领域
本发明计算机涉及人工智能技术,更具体地涉及中文带标记错误语料生成方法、计算装置和存储介质。
背景技术
中文文本错误现如今广泛出现于社会的各行各业之中,其看似无足轻重但所产生的负面影响不容小觑。诸如法律、学术论文、政府公文、媒体的各行各业也都设立了严格的差错率标准。从上世纪九十年代起,学术界和工业界就在致力于研究中文查错的可行的算法技术。而直至今日都未有行之有效的研究、产品推出。其确有诸多研究难点,其中最关键的难点仍是在于真实、全面的带标记语料的缺失。
如今人工智能流行于各行各业,而其中任何成熟的算法模型都无法缺少大量带标记数据的支持。诸如计算机视觉诸多算法、谷歌翻译算法等都是依赖于带标记数据的长期积累。而对于中文查错而言,难以收集自然全面的标记数据是制约其发展的最重要的因素。
带标记数据通常可用于模型算法的训练和验证两个环节,任一环节都是至关重要的。现如今中文查错最权威的公开标记语料是由SIGHAN收集整理发布。学术界绝大多数研究正是依赖相关语料进行训练评测。而这些语料规模很小,准确性不到80%,且全面性也有待提高。难以用于训练模型或是验证模型的标准。
发明内容
鉴于现有技术的上述情况,提出了本发明。
根据本发明的一个方面,提供了一种计算机执行的中文带标记错误语料生成方法,包括:获得参考文本;基于参考文本,针对如下错误分类分别生成错误样本,所生成的错误样本体现了该错误分类下的错误:针对同音错误和谐音错误,生成第一类错误样本;针对形近字、键盘误触错误,生成第二类错误样本;针对句法错误,生成第三类错误样本,获得包括参考文本、第一类错误样本、第二类错误样本、第三类错误样本的中文带标记语料。
可选地,其中所述针对同音错误,生成第一类错误样本包括:分别生成针对如下两种类型的同音错误样本:用户在录入完拼音准备选词时目标词并不在候选框的第一位的第一类型和用户在准备选词时误选择到了目标词周围的其他词而导致的第二类型;包括对参考文本进行分词,之后在上述两种类型中随机选择一种类型;之后,随机在句中挑出一词,随后针对所选择的类型模拟用户结合拼音输入法录入该词的过程进行错误生成。
可选地,所述模拟用户结合拼音输入法录入该词的过程包括:将该词称为原词,首先获取原词的拼音,之后借助谷歌拼音云输入法,获取用户在录入该拼音后所看到的候选词列表;当选择第一类型时,如果原词在候选词列表的首位,则重新选词并重新进行上述获取词拼音的过程,之后借助谷歌拼音云输入法,获取用户在录入该拼音后所看到的候选词列表的操作,如果原词不在候选词列表的首位,则选择首位候选词替换原词;当选择第二类型时,随机选择原词左右两边相邻的词替换原词,替换后的文本即为所需的错误文本。
可选地,所述针对谐音错误,生成第一类错误样本包括:分词、选词、获取词拼音的过程;之后根据词拼音挑选可行的混淆规则,并生成新的词拼音;将拼音传给云输入法,获取候选词列表;之后按特定的概率选择列表中候选词替换原词,生成错误文本。
可选地,候选词选择概率的设定为:设选择首位候选词的概率为4a,则选择前二至五个候选的概率为2a,其余候选为a,所有候选词的挑选概率之和为1,其中a为0至0.25之间的实数。
可选地,所述针对形近字、键盘误触错误,生成第二类错误样本包括:获得形近字表格;从参考文本中随机选择待替换的字,结合形近字表随机选择相应的形近字代替原字,得到针对形近字错误的错误样本。
可选地,所述针对形近字、键盘误触错误,生成第二类错误样本包括如下针对键盘误触,生成错误样本,包括:建立各键位的临近键位表;根据用户使用的输入法种类优化误触规则;在获得参考文本后,依次经过分词、选择待替换词语的流程,之后随机在拼音误触型与五笔误触型之间选择误触错误类型;对于拼音误触型,接下来获取词拼音,随机选择其中单字拼音,并结合拼音的误触规则构建合理的混淆拼音;对于五笔误触型,获取词的五笔编码,结合误触规则构建混淆五笔编码,之后通过云输入法获取候选词列表,按照特定概率选择候选词。
可选地,所述针对句法错误,生成第三类错误样本包括:针对重复字词错误、遗漏字词错误、词序颠倒错误、字词插入错误四类句法错误,分别生成错误样本。
可选地,针对重复字词错误生成错误样本包括:对于参考文本,以随机方式确定增加的字或词;对于增加字,在句中随机选字,之后对字进行重复操作;对于增加词,预先分词,之后对词进行重复操作。
可选地,针对遗漏字词错误生成错误样本包括:对于参考文本,以随机方式确定删减的字或词;对于删减字,在句中随机选字,之后对字进行删减操作;对于删减词,预先分词,之后对词进行删减操作。
可选地,针对词序颠倒错误生成错误样本包括:挑选句中待调整的词,然后前后随机选择一个相邻词,将这两词做位置上的调换。
可选地,针对字词插入错误生成错误样本包括:挑选句中待调整的词,然后前后随机选择一个相邻词;将待调整词插入相邻词之中,若相邻词为单字则重新选择。
可选地,中文带标记错误语料生成方法,还包括:借助搜索引擎对错误句子进行初筛,包括:将参考文本与生成文本分别放在搜索引擎上搜索;结合搜索的条目数量、各网页匹配到的关键文本信息内容来判断参考文本与生成文本的正误性。
可选地,所述结合搜索的条目数量、各网页匹配到的关键文本信息内容来判断参考文本与生成文本的正误性包括:首先将参考文本、生成文本分别放入搜索引擎进行搜索;并筛选出包含参考文本“被修改词”或生成文本“已修改词”的搜索项;对由此得到的搜索项进行统计比较;若参考文本得到的搜索项数小于生成文本的搜索项目,则表明生成文本比参考文本更合理,应从所生成的错误语料中筛除。
根据本发明另一实施例,提供了一种计算装置,包括存储器和中央处理器,存储器上存储有计算机可执行指令,所述指令当被中央处理器执行时,执行上述方法。
根据本发明另一方面,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令当被计算机执行时,执行上述方法。
本发明的中文带标记错误语料生成方法具有下述优势:
1、生成大规模的语料,有很高准确性,且全面性大大提高,能够用于训练模型或是验证模型的标准。
2、能够为计算机视觉诸多算法、谷歌翻译算法提供大规模的带标记数据。
附图说明
图1示出了根据本发明实施例的计算机执行的中文带标记错误语料生成方法的总体流程图。
图2示出了根据本发明一个实施例的中文带标记错误语料生成方法的详细流程图。
具体实施方式
在进行详细描述之前,首先对一些术语的含义作出解释。
参考文本:或称原始文本。指真实、准确、语义完整的中文文本。在生成标记文本的过程中,将其作为模版,基于不同类别的错误对其进行修改。
发明人对于中文文本错误进行归纳整理,本文不考虑标点、英文、数字等符号错误,考察各种各样的中文文本错误,最后将中文文本错误分为词法错误、句法错误、语义错误三类。
下面结合示例介绍发明人所划分的三类中文文本错误。
一、词法错误
词法错误通常是用户在使用各类输入法录入字词过程中的诸多疏忽所导致的。这类错误具有很鲜明的特征,与“原词”具有很高的相似度,通常只要能找到“原词”就能判别出来。与句法错误、语义错误相比,其更容易被识别。词法错误主要可分为以下几个类别:
1.同音错误:这类错误通常源于用户在使用拼音输入法时选词有误所导致的。例如:
【原句】知识产权制度展现出前所未有的生命力、创造力、影响力。
【误句】知识产权制度占线出前所未有的生命力、创造力、影响力。
2.谐音错误:这类错误通常源于用户对于个别拼音存在模糊认知,致使其在使用拼音输入法时录入了错误的拼音导致错误的结果。易造成模糊认知的拼音包括“前后鼻音”、“是否卷舌”等。例如:
【原句】上合组织走过了不平凡的历程。
【误句】上合组织走过了不平凡的昵称。
3.形近字错误:这类错误通常是在用户使用五笔输入法时对字形结构理解有误或录入偏差所导致的。例如:
【原句】我国已经建立起了符合国际通行规则的知识产权法律制度。
【误句】我国己经建立起了符合国际通行规则的知识产权法律制度。
4.键盘误触错误:这类错误源于用户在录入文本的过程中的多种键盘误触。包括按键时先后次序颠倒、遗漏按键、键盘键位分析错误致使键位按错等。例如:
【原句】“马上就办”体现的是主动作为、履职尽责的理念。
【误句】“马上就办”体现的是主动走位、履职尽责的理念。
二、句法错误
用户在录入文本时的失误可能会导致语句句法与原句相比发生偏差,即句法错误。与词法错误有所不同,这类错误的错误通常没有与之对应的正确字词存在,继而难以通过混淆词替换比较的方式准确识别。句法错误包括但不限于:
1.重复字词错误:用户在录入文本的过程中多次录入相同文字致使句法错误。例如:
【原句】遵照规程和准则办事,是法治建设的应有之义。
【误句】遵照规程规程和准则办事,是法治建设的应有之义。
2.遗漏字词错误:用户在录入文本过程中遗漏录入部分文字致使句法错误。例如:
【原句】父亲是位地地道道的庄稼人。
【误句】父亲是位地地道道的庄稼。
3.词序颠倒错误:用户在修改文本时,可能会有新插入的词与周围词语序错误的情况。例如:
【原句】文章研究更关注一个具体而且尚待研究的问题。
【误句】文章研究关注更一个具体而且尚待研究的问题。
4.词间插入错误:用户在修改文本时,可能会与新插入的词切割了原句中词,致使语句中分词发生变化。例如:
【原句】“信用”已经融入人们生产生活的各种场景。
【误句】“信用”已经融入人们生生活产的各种场景。
5.多余助词错误:用户在录入文本过程中,无意中录入冗余的助词致使句法语义产生错误。助词包括虚词、关联助词等(“的”、“地”、“得”、“因为”、“所以”……)
【原句】工作人员等人都得在表格上签名。
【误句】工作人员等人都的得在表格上签名。
三、语义错误
语义错误也是中文文本错误中最难识别的一种,它与用户录入文本的疏忽无关。主要源于用户认知层面上对中文文本的理解偏差。错误包括但不限于:
1.混淆词并列出现:指用户录入的文本中两个同义或近义的词并列出现。这列错误属于语义错误中非常常见的类型。例如:
【误句】我曾经已经论证过算法的可行性。
【误句】用户各自分别修改了同一段测试文本。
2.多成分错误:文本中出现了多个语句成分,此类错误以“多谓语”错误居多。例如:
【误句】它源于内燃机能量转换的损失所导致的。
【误句】这是因为机器新闻比人工新闻更受欢迎所带来的结果。
3.关联词错误:文本中错误使用了关联词搭配。例如:
【误句】因为信用代码正不断完善,但与社会期望还存在一定差距。
4.句内字词冗余:文本中存在可删去的同义字词,例如:
【误句】呈现时修改时应当被纠正的内容。
发明人认为,虽然中文的文本错误种类多样复杂,但绝大多数都有很显著的错误特征。有些是文本直接呈现的特征,如句法错误中的“词序颠倒”错误等;有些在于用户录入过程中的输入法特征,如词法错误中“同音错误”、“谐音错误”等。本发明人针对这三类错误通过模拟这些用户行为特征来自动生成错误。
发明人进行了大量用户实验,分析出其中主要的用户错误种类以及对应的错误特征,制定具体的错误生成规则。借助准确的参考文本,通过计算机模拟用户键盘录入文本的过程来实现上述规则,最终生成所需的错误文本。
图1示出了根据本发明实施例的计算机执行的中文带标记错误语料生成方法的总体流程图。
如图1所示,在步骤S110中,获得参考文本。参考文本,即真实、准确且语义完整的中文文本。学者或业界公司可根据自身查错需求,选取特定领域的文本作为参考文本,以此生成中文文本错误。
在步骤S120中,针对同音错误和谐音错误,生成第一类错误样本。
同音错误源于用户在使用拼音输入法时的选词错误。发明人通过前期的用户实验发现这类错误可按照成因特征分为两类:第一类是用户在录入完拼音准备选词时目标词并不在候选框的第一位,而用户却敲击“空格”选择到了第一位。这类错误在同音错误中最为常见。第二类是用户在准备选词时选择到了目标词周围的其他词。
基于此发现,后面实现示例中在生成同音错误时完全模拟这两类错误产生的过程。
具体地,在一个示例中,所述针对同音错误,生成第一类错误样本包括:分别生成针对如下两种类型的同音错误样本:用户在录入完拼音准备选词时目标词并不在候选框的第一位的第一类型和用户在准备选词时误选择到了目标词周围的其他词而导致的第二类型。
具体地,在生成第一类错误样本中:(1)对参考文本进行分词,(2)在上述两种类型中随机选择一个类型,(3)随机在得到的分词中挑出一词,随后针对所选择的类型,模拟用户结合拼音输入法录入该词的过程进行错误生成。
具体地,在一个示例中,模拟用户结合拼音输入法录入该词的过程可以包括:将该词称为原词,首先获取原词的拼音,之后借助谷歌拼音云输入法,获取用户在录入该拼音后所看到的候选词列表;当选择第一类型时,如果原词在候选词列表的首位,则重新选词并重新进行上述获取词拼音的过程,之后借助谷歌拼音云输入法,获取用户在录入该拼音后所看到的候选词列表的操作,如果原词不在候选词列表的首位,则选择首位候选词替换原词;当选择第二类型时,随机选择原词左右两边相邻的词替换原词,替换后的文本即为所需的错误文本。
对于谐音错误而言,错误源于使用拼音输入法的用户对于个别拼音存在认知偏差。本发明示例性方案选择国人最容易混淆的几个模糊音规则:前后鼻音混淆、平卷舌混淆、h\f混淆、n\l混淆、r\l混淆。具体生成错误的过程与同音错误相似,需要依次经过分词、选词、获取词拼音的过程。之后根据词拼音挑选可行的混淆规则,并生成新的词拼音。将拼音传给云输入法,获取候选词列表。之后按特定的概率选择列表中候选词替换原词,生成最后所需的错误文本。在一个示例中,其中候选词选择概率的设定为:设选择首位候选词的概率为4a,则选择前二至五个候选的概率为2a,其余候选为a,所有候选词的挑选概率之和为1。
在步骤S130中,针对形近字、键盘误触错误,生成第二类错误样本。
形近字错误源于用户在使用五笔输入法时对字形产生错误的理解。生成这类数据需要预先的形近字表。发明人通过网络爬取整理构建了针对2537个常见汉字的形近字表。具体地,在获得参考文本之后,随机选择待替换的字,结合形近字表随机选择相应的形近字代替原字,得到所需的错误文本。
键盘误触错误主要包括用户录入文本时按键先后次序颠倒、遗漏按键、键盘键位分析错误等。在生成数据前,作者首先建立各键位的临近键位表。此外根据用户使用的输入法种类(拼音或五笔)可以优化误触规则。在具体生成过程中,在获得参考文本后,依次经过分词、选择待替换词语的流程,之后随机选择误触错误类型:拼音误触型与五笔误触型。对于拼音误触型,接下来获取词拼音,随机选择其中单字拼音,并结合拼音的误触规则构建合理的混淆拼音;对于五笔误触型,与拼音型相似,获取词的五笔编码,结合误触规则构建合理的混淆五笔编码。之后通过云输入法获取候选词列表,按照特定概率选择候选词,关于概率设定方法,可以与前述针对谐音错误的生成算法中设定的相同。
在步骤S140中,针对句法错误,生成第三类错误样本。
关于句法错误,在一个示例中,针对重复字词错误、遗漏字词错误、词序颠倒错误、字词插入错误四类句法错误,分别生成错误样本。
对于重复、遗漏字词错误而言,两类错误的生成规则相似且比较简单。这里发明人对其进行了进一步细分:重复(遗漏)字错误与重复(遗漏)词错误两类。当拿到参考文本后,以随机方式确定增删字或词。对于增删字而言,只需在句中随机选字,之后对字进行重复或删减操作即可;对于增删词而言,只需预先分词,后续操作与上述相同。例如,对于针对重复字词错误生成错误样本包括:对于参考文本,以随机方式确定增加的字或词;对于增加字,在句中随机选字,之后对字进行重复操作;对于增加词,预先分词,之后对词进行重复操作。再例如,针对遗漏字词错误生成错误样本包括:对于参考文本,以随机方式确定删减的字或词;对于删减字,在句中随机选字,之后对字进行删减操作;对于删减词,预先分词,之后对词进行删减操作。
值得注意的是,算法生成的“遗漏词”文本有很大比例依然是准确的中文文本。这一特点与中文的语言特性相关。中文语句中很多成分都可直接被删去,包括主语、关联词、修饰性副词等等。所以如后续描述的,最后生成的数据还经过搜索引擎进行筛选。
作为示例,词序颠倒、字词插入的错误生成规则相似且较简单。挑选句中待调整的词,然后与相邻词做位置上的调整即可。
例如,针对词序颠倒错误生成错误样本包括:挑选句中待调整的词,然后前后随机选择一个相邻词,将这两词做位置上的调换。
例如,针对词序颠倒错误生成错误样本包括:挑选句中待调整的词,然后前后随机选择一个相邻词,将这两词做位置上的调换。
例如,针对字词插入错误生成错误样本包括:挑选句中待调整的词,然后前后随机选择一个相邻词;将待调整词插入相邻词之中,若相邻词为单字则重新选择。
如前所述,优选地,中文标记错误语料生成方法还借助搜索引擎对错误句子进行初筛,包括:将参考文本与生成文本分别放在搜索引擎上搜索;结合搜索的条目数量、各网页匹配到的关键文本信息内容来判断参考文本与生成文本的正误性。
具体地,所述结合搜索的条目数量、各网页匹配到的关键文本信息内容来判断参考文本与生成文本的正误性包括:首先将参考文本、生成文本分别放入搜索引擎进行搜索;并筛选出包含参考文本“被修改词”或生成文本“已修改词”的搜索项;对由此得到的搜索项进行统计比较;若参考文本得到的搜索项数小于生成文本的搜索项目,则表明生成文本比参考文本更合理,应从所生成的错误语料中筛除。
这样最后获得包括参考文本、第一类错误样本、第二类错误样本、第三类错误样本的中文带标记语料。
图2示出了根据本发明一个实施例的中文带标记错误语料生成方法的详细流程图。
如图2所示,首先(1)选择参考文本,随机选择将要生成的中文错误语料类别,具体地从同音错误、谐音错误、形近字错误、键盘误触错误、重复字词错误、遗漏字词错误、词序颠倒错误、字词插入错误中选择一种,
(2)当选择同音错误时,首先进行分词,接下来在“目标词非首位”错误和“误选目标周围词”错误中随机选择;然后针对所选择的错误类型进行对应的处理,(3)当选择谐音错误时候,首先对于参考文本进行分词,然后从分词后得到的词汇中随机选择,之后获取所选择词的拼音,接下来随机选择词中的字拼音,然后通过混淆拼音表确定混淆噪音,构成新的词拼音,通过词拼音获取对应的云输入法候选词集,按一定概率选择输入法候选词集中的候选词并替代原词;(4)当选择形近字错误时,首先随机选字,然后针对所选取的字,通过形近字表确立相应形近字并替换原字,如果不存在常见形近字,则重复随机选字以及通过形近字表确立相应形近字并替换原字的过程;(5)当选择键盘误触错误时,首先进行分词,然后随机选择,接下来随机选取错误子类,并针对选择的是“拼音输入”错误子类或“五笔输入”错误子类,来分别进行处理;(6)当选择重复字词错误时候,随机选取错误子类,针对选择的是“重复词错误”或者“重复字错误”而进行各自的处理;(7)当选择的是遗漏字词错误时候,随机选择错误子类,针对选择的是
“遗漏词错误”或“遗漏字错误”而进行各自的处理;(8)当选择的是词序颠倒错误时候,首先进行分词,然后随机选词,接下来针对所选取的词,随机选择其左右相邻的词顺序互换;(9)当选择的是字词插入错误时候,首先进行分词,然后随机选词A,接下来随机选择所选取词A的左右相邻的词B,并将该词B插入到插入到词A中的随机位置。在生成了一个错误文本样本时,都可以针对所生成的错误文本样本,来进行搜索引擎筛选,可参考前面的详细描述,这里不再赘述。
本发明上述实施例结合人机交互的研究方法系统分析用户录入文本中产生各种错误的原因,结合算法模拟生成,最后结合搜索引擎进行筛查,确保生成错误的准确性。还可以结合AB test等用户研究方法评价算法质量。本发明的技术方案和系统能不间断利用自然文本生成大量准确的标注语料,支持查错模型的训练检验。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种计算机执行的中文带标记错误语料生成方法,包括:
获得参考文本;
基于参考文本,针对如下错误分类分别生成错误样本,所生成的错误样本体现了该错误分类下的错误:
针对同音错误和谐音错误,生成第一类错误样本;
针对形近字、键盘误触错误,生成第二类错误样本;
针对句法错误,生成第三类错误样本,
获得包括参考文本、第一类错误样本、第二类错误样本、第三类错误样本的中文带标记语料。
2.根据权利要求1的中文带标记错误语料生成方法,其中:
所述针对同音错误,生成第一类错误样本包括:
分别生成针对如下两种类型的同音错误样本:用户在录入完拼音准备选词时目标词并不在候选框的第一位的第一类型和用户在准备选词时误选择到了目标词周围的其他词而导致的第二类型;包括对参考文本进行分词,之后在上述两种类型中随机选择一种类型;之后,随机在句中挑出一词,随后针对所选择的类型模拟用户结合拼音输入法录入该词的过程进行错误生成。
3.根据权利要求2所述的中文带标记错误语料生成方法,其中所述模拟用户结合拼音输入法录入该词的过程包括:
将该词称为原词,首先获取原词的拼音,之后借助谷歌拼音云输入法,获取用户在录入该拼音后所看到的候选词列表;当选择第一类型时,如果原词在候选词列表的首位,则重新选词并重新进行上述获取词拼音的过程,之后借助谷歌拼音云输入法,获取用户在录入该拼音后所看到的候选词列表的操作,如果原词不在候选词列表的首位,则选择首位候选词替换原词;当选择第二类型时,随机选择原词左右两边相邻的词替换原词,替换后的文本即为所需的错误文本。
4.根据权利要求1所述的中文带标记错误语料生成方法,其中:
所述针对谐音错误,生成第一类错误样本包括:
分词、选词、获取词拼音的过程;之后根据词拼音挑选可行的混淆规则,并生成新的词拼音;将拼音传给云输入法,获取候选词列表;之后按特定的概率选择列表中候选词替换原词,生成错误文本。
5.根据权利要求4所述的中文带标记错误语料生成方法,其中候选词选择概率的设定为:设选择首位候选词的概率为4a,则选择前二至五个候选的概率为2a,其余候选为a,所有候选词的挑选概率之和为1,其中a为0至0.25之间的实数。
6.根据权利要求1所述的中文带标记错误语料生成方法,所述针对形近字、键盘误触错误,生成第二类错误样本包括:
获得形近字表格;
从参考文本中随机选择待替换的字,结合形近字表随机选择相应的形近字代替原字,得到针对形近字错误的错误样本。
7.根据权利要求1所述的中文带标记错误语料生成方法,所述针对形近字、键盘误触错误,生成第二类错误样本包括如下针对键盘误触,生成错误样本:
建立各键位的临近键位表;
根据用户使用的输入法种类优化误触规则;
在获得参考文本后,依次经过分词、选择待替换词语的流程,之后随机在拼音误触型与五笔误触型之间选择误触错误类型;
对于拼音误触型,接下来获取词拼音,随机选择其中单字拼音,并结合拼音的误触规则构建合理的混淆拼音;
对于五笔误触型,获取词的五笔编码,结合误触规则构建混淆五笔编码,之后通过云输入法获取候选词列表,按照特定概率选择候选词。
8.根据权利要求1所述的中文带标记错误语料生成方法,所述针对句法错误,生成第三类错误样本包括:
针对重复字词错误、遗漏字词错误、词序颠倒错误、字词插入错误四类句法错误,分别生成错误样本。
9.一种计算装置,包括存储器和中央处理器,存储器上存储有计算机可执行指令,所述指令当被中央处理器执行时,执行权利要求1到8任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令当被计算机执行时,执行权利要求1到8任一项所述的方法。
CN202010299661.4A 2020-04-16 2020-04-16 中文带标记错误语料生成方法、计算装置和存储介质 Active CN111488466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010299661.4A CN111488466B (zh) 2020-04-16 2020-04-16 中文带标记错误语料生成方法、计算装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010299661.4A CN111488466B (zh) 2020-04-16 2020-04-16 中文带标记错误语料生成方法、计算装置和存储介质

Publications (2)

Publication Number Publication Date
CN111488466A true CN111488466A (zh) 2020-08-04
CN111488466B CN111488466B (zh) 2023-06-06

Family

ID=71791716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010299661.4A Active CN111488466B (zh) 2020-04-16 2020-04-16 中文带标记错误语料生成方法、计算装置和存储介质

Country Status (1)

Country Link
CN (1) CN111488466B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101236A (zh) * 2020-09-17 2020-12-18 济南大学 一种面向老年陪护机器人的智能纠错方法及系统
CN112528637A (zh) * 2020-12-11 2021-03-19 平安科技(深圳)有限公司 文本处理模型训练方法、装置、计算机设备和存储介质
CN113486163A (zh) * 2021-06-30 2021-10-08 西安热工研究院有限公司 一种基于音形泛化的模糊搜索方法
CN113536776A (zh) * 2021-06-22 2021-10-22 深圳价值在线信息科技股份有限公司 混淆语句的生成方法、终端设备及计算机可读存储介质
CN113627191A (zh) * 2021-07-05 2021-11-09 中国气象局公共气象服务中心(国家预警信息发布中心) 一种气象预警样本语义自动化标注方法及系统
CN114035693A (zh) * 2021-11-15 2022-02-11 平安普惠企业管理有限公司 拼音输入方法、装置、计算机设备及存储介质
CN117077664A (zh) * 2022-12-29 2023-11-17 广东南方网络信息科技有限公司 一种文本纠错数据的构造方法、装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
CN105573979A (zh) * 2015-12-10 2016-05-11 江苏科技大学 一种基于汉字混淆集的错字词知识生成方法
CN107665190A (zh) * 2017-09-29 2018-02-06 李晓妮 一种文本校对错误词库的自动构造方法和装置
WO2018034426A1 (ko) * 2016-08-17 2018-02-22 창원대학교 산학협력단 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
CN105573979A (zh) * 2015-12-10 2016-05-11 江苏科技大学 一种基于汉字混淆集的错字词知识生成方法
WO2018034426A1 (ko) * 2016-08-17 2018-02-22 창원대학교 산학협력단 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
CN107665190A (zh) * 2017-09-29 2018-02-06 李晓妮 一种文本校对错误词库的自动构造方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101236A (zh) * 2020-09-17 2020-12-18 济南大学 一种面向老年陪护机器人的智能纠错方法及系统
CN112528637A (zh) * 2020-12-11 2021-03-19 平安科技(深圳)有限公司 文本处理模型训练方法、装置、计算机设备和存储介质
CN112528637B (zh) * 2020-12-11 2024-03-29 平安科技(深圳)有限公司 文本处理模型训练方法、装置、计算机设备和存储介质
CN113536776A (zh) * 2021-06-22 2021-10-22 深圳价值在线信息科技股份有限公司 混淆语句的生成方法、终端设备及计算机可读存储介质
CN113486163A (zh) * 2021-06-30 2021-10-08 西安热工研究院有限公司 一种基于音形泛化的模糊搜索方法
CN113627191A (zh) * 2021-07-05 2021-11-09 中国气象局公共气象服务中心(国家预警信息发布中心) 一种气象预警样本语义自动化标注方法及系统
CN114035693A (zh) * 2021-11-15 2022-02-11 平安普惠企业管理有限公司 拼音输入方法、装置、计算机设备及存储介质
CN117077664A (zh) * 2022-12-29 2023-11-17 广东南方网络信息科技有限公司 一种文本纠错数据的构造方法、装置和存储介质
CN117077664B (zh) * 2022-12-29 2024-04-12 广东南方网络信息科技有限公司 一种文本纠错数据的构造方法、装置和存储介质

Also Published As

Publication number Publication date
CN111488466B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN111488466B (zh) 中文带标记错误语料生成方法、计算装置和存储介质
Amjad et al. “Bend the truth”: Benchmark dataset for fake news detection in Urdu language and its evaluation
JP5356197B2 (ja) 単語意味関係抽出装置
JP5144940B2 (ja) 目次抽出におけるロバスト性向上
KR102199835B1 (ko) 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법
US7707026B2 (en) Multilingual translation memory, translation method, and translation program
CN101002198A (zh) 用于非罗马字符和字的拼写校正系统和方法
JP2013016172A (ja) データを処理するシステム及び方法
Veena et al. An effective way of word-level language identification for code-mixed facebook comments using word-embedding via character-embedding
Chang A new approach for automatic Chinese spelling correction
Way et al. wEBMT: developing and validating an example-based machine translation system using the world wide web
Soni et al. A systematic review of automated grammar checking in English language
CN114239546A (zh) 一种基于语法树剪枝的翻译机测试方法
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Kazman Structuring the text of the Oxford English Dictionary through finite state transduction
CN113159969A (zh) 一种金融长文本复核系统
Sifat et al. Synthetic error dataset generation mimicking bengali writing pattern
Olensky Data accuracy in bibliometric data sources and its impact on citation matching
Bloodgood et al. Data cleaning for xml electronic dictionaries via statistical anomaly detection
CN115169328A (zh) 一种高准确性的中文拼写检查方法、系统及介质
Mohapatra et al. Spell checker for OCR
Hasan et al. SweetCoat-2D: Two-Dimensional Bangla Spelling Correction and Suggestion Using Levenshtein Edit Distance and String Matching Algorithm
KR20130029696A (ko) 복합명사 분석장치 및 복합명사 분석 방법
Goonawardena et al. Automated spelling checker and grammatical error detection and correction model for sinhala language
Mandal et al. A systematic literature review on spell checkers for bangla language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant