CN108717412A - 基于中文分词的中文校对纠错方法及系统 - Google Patents

基于中文分词的中文校对纠错方法及系统 Download PDF

Info

Publication number
CN108717412A
CN108717412A CN201810601792.6A CN201810601792A CN108717412A CN 108717412 A CN108717412 A CN 108717412A CN 201810601792 A CN201810601792 A CN 201810601792A CN 108717412 A CN108717412 A CN 108717412A
Authority
CN
China
Prior art keywords
chinese
word
short sentence
error correction
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810601792.6A
Other languages
English (en)
Inventor
窦志成
曾泽群
谢峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wisdom Data Technology Co Ltd
Original Assignee
Beijing Wisdom Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wisdom Data Technology Co Ltd filed Critical Beijing Wisdom Data Technology Co Ltd
Priority to CN201810601792.6A priority Critical patent/CN108717412A/zh
Publication of CN108717412A publication Critical patent/CN108717412A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于中文分词的中文校对纠错方法及系统,所述方法包括以下步骤:对输入的中文文本按单句进行中文分词得到词数组,所述词数组包括单字、两字、三字或四字词语;对所述词数组进行重组形成短句;判断所述短句在预设文本库中出现的次数是否大于第一阈值,若是,则将所述短句标记为正确;若否,则对所述短句进行字形及拼音纠错处理。本发明实现了对文本中错别字进行自动校对与纠错,提升了中文校对纠错的准确性及工作效率。

Description

基于中文分词的中文校对纠错方法及系统
技术领域
本发明涉及文本校正的技术领域,特别涉及一种基于中文分词的中文校对纠错方法及系统。
背景技术
中文文字信息进入计算机主要通过四个途径:即传统的编码录入、光学扫描输入、智能语音输入和智能手写输入。目前上述四种输入方式均无法确保进入计算机的文字信息完全正确。传统的语言文字校对手段是人工文本校对,需要耗费大量的人力、物力和财力。虽然国外文本校对在英文的拼写校对方面取得了一定成果,且部分成果实现了商业化,但由于在于中文语言结构的复杂性和词语搭配的多样性,同时结合语境使得字、词和句变得错综复杂,因此,现有的技术延用到中文校对和纠错上,效果不佳。
发明内容
本发明的目的是提出一种基于中文分词的中文校对纠错方法及系统,能对文本中错别字进行自动校对与纠错,提升中文纠错的准确性及工作效率。
为达到上述目的,本发明提出了一种基于中文分词的中文校对纠错方法,包括以下步骤:
对输入的中文文本按单句进行中文分词得到词数组,所述词数组包括单字、两字、三字或四字词语;对所述词数组进行重组形成短句;
判断所述短句在预设文本库中出现的次数是否大于第一阈值,
若是,则将所述短句标记为正确;若否,则对所述短句进行字形及拼音纠错处理。
进一步,在上述的基于中文分词的中文校对纠错方法中,所述对输入的中文文本按单句进行中文分词得到词数组的步骤包括:
对输入的中文文本按句号及逗号进行拆分,形成独立句子;
对所述独立句子进行中文分词得到词数组,所述词数组包括单字、两字、三字或四字词语。
进一步,在上述的基于中文分词的中文校对纠错方法中,所述对所述词数组进行重组形成短句的步骤包括:
对所述词数组按照预设字符串长度进行重组形成短句。
进一步,在上述的基于中文分词的中文校对纠错方法中,所述对所述词数组进行重组形成短句的步骤还包括:
当判断所述词数组中含有常用字符时,跳过所述常用字符后再按照预设字符串长度进行重组形成短句。
进一步,在上述的基于中文分词的中文校对纠错方法中,所述预设文本库为Solr文本库。
进一步,在上述的基于中文分词的中文校对纠错方法中,所述对所述短句进行字形及拼音纠错处理的步骤具体包括:
将所述短句的目标词语根据其字符长度在预设词库中进行模糊匹配,得到跟所述目标词语相似的备选词语;
对所述备选词语进行字形相似度检验;
获取所述目标词语中每个字的拼音,并组合成字符串进行拼音的相似度检验;
在判断所述词语相似度的值大于第二阈值以及所述词语的统计词频大于第三阈值时,标记所述备选词语为推荐词语。
另,本发明还提供一种基于中文分词的中文校对纠错系统,包括:分词单元、重组单元、判断单元,标记单元及纠错单元;
所述分词单元用于对输入的中文文本按单句进行中文分词得到词数组,所述词数组包括单字、两字、三字或四字词语;所述重组单元用于对所述词数组进行重组形成短句;所述判断单元用于判断所述短句在预设文本库中出现的次数是否大于第一阈值;所述标记单元用于在判断所述短句在预设文本库中出现的次数大于第一阈值时,将所述短句标记为正确;所述纠错单元用于在判断所述短句在预设文本库中出现的次数不大于第一阈值时,对所述短句进行字形及拼音纠错处理。
本发明一种基于中文分词的中文校正纠错方法及系统实现了对文本中错别字进行自动校对与纠错,提升了中文校对纠错的准确性及工作效率。
附图说明
图1为本发明一种基于中文分词的中文校对纠错方法的具体流程示意图;
图2为本发明中文分词的一实施例示意图;
图3为本发明中文分词的另一实施例示意图;
图4为本发明一种基于中文分词的中文纠错系统的结构示意图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
本发明提供一种基于中文分词的中文校正纠错方法,其包括以下步骤:对输入的中文文本按单句进行中文分词得到词数组,所述词数组包括单字、两字、三字或四字词语;对所述词数组进行重组形成短句;判断所述短句在预设文本库中出现的次数是否大于第一阈值,若是,则将所述短句标记为正确;若否,则对所述短句进行字形及拼音纠错处理。这样,通过对中文文本进行中文分词以及检索和匹配,达到识别判断文本中含有的文字错误,且进行相应的纠错处理,并推荐正确的词组,从而实现了对文本中错别字进行自动校对与纠错,提升了中文校对纠错的准确性及工作效率。
请参阅图1,图1为本发明一种基于中文分词的中文校对纠错方法的具体流程示意图。所述方法具体包括以下步骤:
步骤S11:对输入的中文文本按句号及逗号进行拆分,形成独立句子;
具体实现时,用户先输入需要校正纠错的中文文本,具体途径可以为:用户
采用语音或者键盘输入待校对中文文本,即通过指定的API接口传入文本。在得到所述中文文本后,首先要对所述中文文本在文字上进行碎片化处理,即按照句号、逗号进行拆分,形成独立句子。
例如,用户输入的中文文本为:
“武警部队肩负维护国家安全和社会稳定、保障人民安居乐叶的神圣使命。这次调整武警部队领导指挥体制的关键和核心,是加强党中央、中央军委对武警部队的集中统一领导。”
对上述中文文本按句号拆分后为:
(1)武警部队肩负维护国家安全和社会稳定、保障人民安居乐叶的神圣使命。
(2)这次调整武警部队领导指挥体制的关键和核心,是加强党中央、中央军委对武警部队的集中统一领导。
继续对上述(2)中文文本按逗号拆分后为:
(A)这次调整武警部队领导指挥体制的关键和核心
(B)是加强党中央、中央军委对武警部队的集中统一领导
步骤S12:对所述独立句子进行中文分词得到词数组,所述词数组包括单字、两字、三字或四字词语;
具体实现时,在将中文文本拆分为独立句子后,需要对独立句子进一步进行精确的字、词、句划分,即进行中文分词。本发明中采用RUCNLP中文分词对输入的语句进行分词,同时也根据中文分词后的文字特性进行中文纠错。
如图2所示,若输入的中文文本不包含错别字,经过中文分词后的词语将分为四字词语、三字词语、两字词语和字,且这些字和词语都呈现常态化,
如图3所示,若输入的中文文本中包含错别字,正常的中文分词的规律就会被打破,呈现出明显的特征,例如两字词语中出现独立的字+字的组合,三字词语出现独立的字+两字词语的组合,四字词语出现独立的字+三字词语的组合。。等等。通过辨析这样的特征,就能准确的识别和定位该错误发生的位置。
本实施例中,例如对上述第一个独立句子进行中文分词后,得到如下的词数组:
【武警部队,肩负,维护,国家,安全,和,社会,稳定,、,保障,人民,安居乐,叶,的,神圣,使命】
其中,分词后的词数组中包括有单字、两字、三字及四字词语,以及常见符号顿号。
步骤S13:对所述词数组按照预设字符串长度进行重组形成短句;
具体实现时,为提高中文文本的数据校对工作效率,本发明对所述词数组由后往前循环遍历拆分后的词数组,按照预设字符串长度(设定的窗口大小)进行重组形成短句。
例如,上述词数组按5个字符串的长度进行重组后形成的如下短句:
【武警部队,肩负,】【维护,国家,安全,】【和,社会,稳定,】、,【安居乐,叶,】
【的,神圣,使命】
需要说明的是,所述字符串长度可根据需要调整;在对所述词数组进行重组过程中,还需排除掉可能出现标点符号等常用字符,例如所述词数组中的顿号。
即所述步骤S13还包括:
当判断所述词数组中含有常用字符时,跳过所述常用字符后再按照预设字符串长度进行重组形成短句。
步骤S14:判断所述短句在预设文本库中出现的次数是否大于第一阈值,若是,则将所述短句标记为正确;若否,则进行步骤S15;
具体实现时,对上述形成的短句在预设文本库中进行搜索匹配,统计其在预设文本库中出现的次数,并判断所述短句在预设文本库中出现的次数是否大于第一阈值,若是,则判断该词组为高频词组,将所述短句标记为正确;若否,则减少迭代窗口的大小,并标记为高概率发生错误的位置。
例如,上述【武警部队,肩负,】、【维护,国家,安全,】、【和,社会,稳定,】及【的,神圣,使命】四个短句出现次数均大于第一阈值(例如5次),则标记上述四个短句为正确(不含有错别字),而【安居乐,叶,】的短句出现次数均小于第一阈值,则表示短句为错误(含有错别字)。
本发明中,所述预设文本库为Solr文本库(全文检索的服务器),即采用Solr作为语料存储的数据库,该数据库能提供实时的全文搜索,通过语料数据库的搭建,对传入的数据能够进行及时的匹配和统计出现的次数。
步骤S15:对所述短句进行字形及拼音纠错处理。
具体实现时,对于出现标记为错误的文本,则对此文本进行纠错算法和推荐算法的处理,推荐出可能性较高的正确的词语供用户选择。本发明采用字形相似度检验和拼音相似度检验进行纠错处理,即过接受来自校验模块标记的高概率错误字符串,对其进行字形相似度检验和拼音相似度检验。当相似度的值大于第二阈值,并结合该词的统计词频,判断该词为候选的推荐词语。
所述步骤S15具体包括:
将所述短句的目标词语根据其字符长度在预设词库中进行模糊匹配,得到跟所述目标词语相似的备选词语;
对所述备选词语进行字形相似度检验;
获取所述目标词语中每个字的拼音,并组合成字符串进行拼音的相似度检验;
在判断所述词语相似度的值大于第二阈值以及所述词语的统计词频大于第三阈值时,标记所述备选词语为推荐词语。
其中,模糊匹配关注的是相似度,近似、模糊、不精确。比如:1、中国人;2、中国。总共出现了3个字符(中,国,人),而共有的2个字符(中,国),因此相似系数为2/3。考虑每个字符的不同权重时,每个字符对相似度的贡献是不一样的,例如开头的字符串可能贡献会大一些,出现次数多对相似度贡献也有所影响。
需要说明的是,首先,本发明字形相似度检验采用基于N-Gram模型定义的字符串距离,采用Apache lucene的NgramDistance来获得两字符串之间的相似程度,通过返回值的大小来对其进行判断;其次,为了实现中文和拼音之间的转换,本发明采用了Pinyin4J的开源包,能够实现中文转换为拼音的操作。面对多个汉字的词组,在实行字形相似度检验的同时,也将每个字的拼音,组合成一字符串,进行拼音的字符串相似度检测。最终结合相似度和词语的词频,推荐候选的词语。
本发明采用Postgre数据库提供对词库的存储,包括新华字词典、模型词典库和停用词词典库。每个词典将在纠错的时候发挥模糊检索的功能,以供输入的词语进行相似度检验。此外,错误收集词典库对不同用户出现的错误进行统计。一旦某一错误词语高频次出现,能够做到及时的反馈,以此提高系统的执行效率。
请参阅图4,图4为本发明一种基于中文分词的中文纠错系统的结构示意图。
所述系统包括:分词单元10、重组单元20、判断单元30,标记单元40及纠错单元50,所述分词单元10用于对输入的中文文本按单句进行中文分词得到词数组,所述词数组包括单字、两字、三字或四字词语;所述重组单元20用于对所述词数组进行重组形成短句;所述判断单元30用于判断所述短句在预设文本库中出现的次数是否大于第一阈值;所述标记单元40用于在判断所述短句在预设文本库中出现的次数大于第一阈值时,将所述短句标记为正确;所述纠错单元50用于在判断所述短句在预设文本库中出现的次数不大于第一阈值时,对所述短句进行字形及拼音纠错处理。
相比于现有技术,本发明一种基于中文分词的中文校正纠错方法及系统通过对中文文本进行中文分词以及检索和匹配,达到识别判断文本中含有的文字错误,且进行相应的纠错处理,并推荐正确的词组,从而实现了对文本中错别字进行自动校对与纠错,提升了中文校对纠错的准确性及工作效率。
这里本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中。这里所披露的实施例的变形和改变是可能的,对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。

Claims (7)

1.基于中文分词的中文校对纠错方法,其特征在于,所述方法包括以下步骤:
对输入的中文文本按单句进行中文分词得到词数组,所述词数组包括单字、两字、三字或四字词语;对所述词数组进行重组形成短句;
判断所述短句在预设文本库中出现的次数是否大于第一阈值,
若是,则将所述短句标记为正确;若否,则对所述短句进行字形及拼音纠错处理。
2.根据权利要求1所述的基于中文分词的中文校对纠错方法,其特征在于,所述对输入的中文文本按单句进行中文分词得到词数组的步骤包括:
对输入的中文文本按句号及逗号进行拆分,形成独立句子;
对所述独立句子进行中文分词得到词数组,所述词数组包括单字、两字、三字或四字词语。
3.根据权利要求1所述的基于中文分词的中文校对纠错方法,其特征在于, 所述对所述词数组进行重组形成短句的步骤包括:
对所述词数组按照预设字符串长度进行重组形成短句。
4.根据权利要求3所述的基于中文分词的中文校对纠错方法,其特征在于,所述对所述词数组进行重组形成短句的步骤还包括:
当判断所述词数组中含有常用字符时,跳过所述常用字符后再按照预设字符串长度进行重组形成短句。
5.根据权利要求4所述的基于中文分词的中文校对纠错方法,其特征在于,所述预设文本库为Solr文本库。
6.根据权利要求1所述的基于中文分词的中文校对纠错方法,其特征在于,所述对所述短句进行字形及拼音纠错处理的步骤具体包括:
将所述短句的目标词语根据其字符长度在预设词库中进行模糊匹配,得到跟所述目标词语相似的备选词语;
对所述备选词语进行字形相似度检验;
获取所述目标词语中每个字的拼音,并组合成字符串进行拼音的相似度检验;
在判断所述词语相似度的值大于第二阈值以及所述词语的统计词频大于第三阈值时,标记所述备选词语为推荐词语。
7.一种基于中文分词的中文校对纠错系统,其特征在于,所述系统包括:分词单元、重组单元、判断单元,标记单元及纠错单元;
所述分词单元用于对输入的中文文本按单句进行中文分词得到词数组,所述词数组包括单字、两字、三字或四字词语;所述重组单元用于对所述词数组进行重组形成短句;所述判断单元用于判断所述短句在预设文本库中出现的次数是否大于第一阈值;所述标记单元用于在判断所述短句在预设文本库中出现的次数大于第一阈值时,将所述短句标记为正确;所述纠错单元用于在判断所述短句在预设文本库中出现的次数不大于第一阈值时,对所述短句进行字形及拼音纠错处理。
CN201810601792.6A 2018-06-12 2018-06-12 基于中文分词的中文校对纠错方法及系统 Pending CN108717412A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810601792.6A CN108717412A (zh) 2018-06-12 2018-06-12 基于中文分词的中文校对纠错方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810601792.6A CN108717412A (zh) 2018-06-12 2018-06-12 基于中文分词的中文校对纠错方法及系统

Publications (1)

Publication Number Publication Date
CN108717412A true CN108717412A (zh) 2018-10-30

Family

ID=63911956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810601792.6A Pending CN108717412A (zh) 2018-06-12 2018-06-12 基于中文分词的中文校对纠错方法及系统

Country Status (1)

Country Link
CN (1) CN108717412A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522397A (zh) * 2018-11-15 2019-03-26 平安科技(深圳)有限公司 基于语义解析的信息处理方法及装置
CN109885828A (zh) * 2019-01-14 2019-06-14 平安科技(深圳)有限公司 基于语言模型的词语纠错方法、装置、计算机设备及介质
CN110147549A (zh) * 2019-04-19 2019-08-20 阿里巴巴集团控股有限公司 用于执行文本纠错的方法和系统
CN110362824A (zh) * 2019-06-24 2019-10-22 广州多益网络股份有限公司 一种自动纠错的方法、装置、终端设备及存储介质
CN110399607A (zh) * 2019-06-04 2019-11-01 深思考人工智能机器人科技(北京)有限公司 一种基于拼音的对话系统文本纠错系统及方法
CN110457695A (zh) * 2019-07-30 2019-11-15 海南省火蓝数据有限公司 一种在线文字纠错方法及系统
CN111353025A (zh) * 2018-12-05 2020-06-30 阿里巴巴集团控股有限公司 平行语料处理方法、装置、存储介质及计算机设备
CN111444318A (zh) * 2020-04-08 2020-07-24 厦门快商通科技股份有限公司 一种文本纠错方法
CN111667813A (zh) * 2019-03-06 2020-09-15 北京精鸿软件科技有限公司 处理文件的方法和装置
CN113536776A (zh) * 2021-06-22 2021-10-22 深圳价值在线信息科技股份有限公司 混淆语句的生成方法、终端设备及计算机可读存储介质
CN113591440A (zh) * 2021-07-29 2021-11-02 百度在线网络技术(北京)有限公司 一种文本处理方法、装置及电子设备
CN113705203A (zh) * 2021-09-02 2021-11-26 上海极链网络科技有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质
CN114936549A (zh) * 2022-06-06 2022-08-23 湖南环境生物职业技术学院 一种人工智能的文字校对方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576872A (zh) * 2009-06-16 2009-11-11 北京系统工程研究所 一种中文文本处理方法及装置
CN103577393A (zh) * 2012-07-30 2014-02-12 香港城市大学 校正处理方法及装置
CN104991889A (zh) * 2015-06-26 2015-10-21 江苏科技大学 一种基于模糊分词的非多字词错误自动校对方法
CN105279149A (zh) * 2015-10-21 2016-01-27 上海应用技术学院 一种中文文本自动校正方法
CN105512110A (zh) * 2015-12-15 2016-04-20 江苏科技大学 一种基于模糊匹配与统计的错字词知识库构建方法
CN105550170A (zh) * 2015-12-14 2016-05-04 北京锐安科技有限公司 一种中文分词方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576872A (zh) * 2009-06-16 2009-11-11 北京系统工程研究所 一种中文文本处理方法及装置
CN103577393A (zh) * 2012-07-30 2014-02-12 香港城市大学 校正处理方法及装置
CN104991889A (zh) * 2015-06-26 2015-10-21 江苏科技大学 一种基于模糊分词的非多字词错误自动校对方法
CN105279149A (zh) * 2015-10-21 2016-01-27 上海应用技术学院 一种中文文本自动校正方法
CN105550170A (zh) * 2015-12-14 2016-05-04 北京锐安科技有限公司 一种中文分词方法及装置
CN105512110A (zh) * 2015-12-15 2016-04-20 江苏科技大学 一种基于模糊匹配与统计的错字词知识库构建方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522397B (zh) * 2018-11-15 2023-06-27 平安科技(深圳)有限公司 信息处理方法及装置
CN109522397A (zh) * 2018-11-15 2019-03-26 平安科技(深圳)有限公司 基于语义解析的信息处理方法及装置
CN111353025A (zh) * 2018-12-05 2020-06-30 阿里巴巴集团控股有限公司 平行语料处理方法、装置、存储介质及计算机设备
CN111353025B (zh) * 2018-12-05 2024-02-27 阿里巴巴集团控股有限公司 平行语料处理方法、装置、存储介质及计算机设备
CN109885828A (zh) * 2019-01-14 2019-06-14 平安科技(深圳)有限公司 基于语言模型的词语纠错方法、装置、计算机设备及介质
CN111667813B (zh) * 2019-03-06 2024-04-19 北京精鸿软件科技有限公司 处理文件的方法和装置
CN111667813A (zh) * 2019-03-06 2020-09-15 北京精鸿软件科技有限公司 处理文件的方法和装置
CN110147549A (zh) * 2019-04-19 2019-08-20 阿里巴巴集团控股有限公司 用于执行文本纠错的方法和系统
CN110399607A (zh) * 2019-06-04 2019-11-01 深思考人工智能机器人科技(北京)有限公司 一种基于拼音的对话系统文本纠错系统及方法
CN110399607B (zh) * 2019-06-04 2023-04-07 深思考人工智能机器人科技(北京)有限公司 一种基于拼音的对话系统文本纠错系统及方法
CN110362824B (zh) * 2019-06-24 2022-12-02 广州多益网络股份有限公司 一种自动纠错的方法、装置、终端设备及存储介质
CN110362824A (zh) * 2019-06-24 2019-10-22 广州多益网络股份有限公司 一种自动纠错的方法、装置、终端设备及存储介质
CN110457695B (zh) * 2019-07-30 2023-05-12 安徽火蓝数据有限公司 一种在线文字纠错方法及系统
CN110457695A (zh) * 2019-07-30 2019-11-15 海南省火蓝数据有限公司 一种在线文字纠错方法及系统
CN111444318A (zh) * 2020-04-08 2020-07-24 厦门快商通科技股份有限公司 一种文本纠错方法
CN113536776A (zh) * 2021-06-22 2021-10-22 深圳价值在线信息科技股份有限公司 混淆语句的生成方法、终端设备及计算机可读存储介质
CN113591440A (zh) * 2021-07-29 2021-11-02 百度在线网络技术(北京)有限公司 一种文本处理方法、装置及电子设备
CN113705203A (zh) * 2021-09-02 2021-11-26 上海极链网络科技有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质
CN114936549A (zh) * 2022-06-06 2022-08-23 湖南环境生物职业技术学院 一种人工智能的文字校对方法及系统
CN114936549B (zh) * 2022-06-06 2024-02-13 湖南环境生物职业技术学院 一种人工智能的文字校对方法及系统

Similar Documents

Publication Publication Date Title
CN108717412A (zh) 基于中文分词的中文校对纠错方法及系统
US8185376B2 (en) Identifying language origin of words
US9460080B2 (en) Modifying a tokenizer based on pseudo data for natural language processing
US7424675B2 (en) Language input architecture for converting one text form to another text form with tolerance to spelling typographical and conversion errors
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
US20090070097A1 (en) User input classification
ERYİǦİT et al. Social media text normalization for Turkish
CN111090986A (zh) 一种公文文档纠错的方法
CN111259151A (zh) 一种混合文本敏感词变体识别方法和装置
Patil et al. Issues and challenges in marathi named entity recognition
Jain et al. “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning
Chen et al. Integrating natural language processing with image document analysis: what we learned from two real-world applications
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
Feldman et al. A resource-light approach to morpho-syntactic tagging
US20230342551A1 (en) Methods and systems for providing user input recommendations
Hao et al. SCESS: a WFSA-based automated simplified chinese essay scoring system with incremental latent semantic analysis
Feng et al. Multi-level cross-lingual attentive neural architecture for low resource name tagging
CN111767733A (zh) 一种基于统计分词的文献密级甄别方法
Hirpassa Information extraction system for Amharic text
Kapočiūtė-Dzikienė et al. Character-based machine learning vs. language modeling for diacritics restoration
Shekhar et al. Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants
Saharia Phone-based identification of language in code-mixed social network data
Yadav et al. Different Models of Transliteration-A Comprehensive Review
Abuhaiba et al. Author attribution of Arabic texts using extended probabilistic context free grammar language model
Alzuru et al. Quality-Aware Human-Machine Text Extraction for Biocollections using Ensembles of OCRs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181030

RJ01 Rejection of invention patent application after publication