CN111753531A - 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 - Google Patents

一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111753531A
CN111753531A CN202010598449.8A CN202010598449A CN111753531A CN 111753531 A CN111753531 A CN 111753531A CN 202010598449 A CN202010598449 A CN 202010598449A CN 111753531 A CN111753531 A CN 111753531A
Authority
CN
China
Prior art keywords
text
corrected
phrase
word
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010598449.8A
Other languages
English (en)
Other versions
CN111753531B (zh
Inventor
郑立颖
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010598449.8A priority Critical patent/CN111753531B/zh
Priority to PCT/CN2020/117577 priority patent/WO2021135444A1/zh
Publication of CN111753531A publication Critical patent/CN111753531A/zh
Application granted granted Critical
Publication of CN111753531B publication Critical patent/CN111753531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Machine Translation (AREA)

Abstract

本案涉及大数据处理,提供一种基于人工智能的文本纠错方法,包括:获取历史公文数据;对公文文本进行新词发现处理;将新词加入到词典库中;确定出待纠错原文本中的候选错误词;确定出同音词集合;分别将候选错误词对应替换为同音词;选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。考虑到公文书场景下特有的术语表达,对公文文本进行新词发现处理,再将新词加入到词典库中,这样能够挖掘公文书场景下的词作为词典库的补充,目标词典库就含有公文场景下特有的术语的新词;再确定待纠错原文本的候选错误词,避免通用的纠错模型将未识别出特定术语而给将正确的内容改错的问题。本发明还涉及区块链技术,目标词典库存储于区块链中。

Description

一种基于人工智能的文本纠错方法、装置、计算机设备及存储 介质
技术领域
本发明涉及大数据处理,尤其涉及一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质。
背景技术
文本纠错是自然语言处理中的难题之一。文本错误主要有用字错误、替换错误、法错误、用词错误、多字错误和缺字错误等。文本数据中广泛存在音似词替换错误,例如,“短板”被误写为“短班”、“辅助决策”被误写为“扶助决策”等。错词的存在通常直接导致分词错误,而分词错误又使得文本的语义混乱,给文本处理带来困难。文本纠错的应用场景很多,包括输入法纠错、ASR(语音转文字)纠错、公文书写纠错。
目前已有的纠错方法:使用端到端的深度学习方法同时完成错误识别和错误修正步骤,输出修正后的句子结果,但是这种纠错方法对训练数据集的要求较高,需要前期收集较多的错误标注语料才能训练出可用的文本纠错模型。在特殊的场景下,例如,公文书场景下存在很多特定场景的表达术语,使用现成分词工具很容易误分或者无法识别的现象,容易出现由于通用的纠错模型将未识别出特定术语而给将正确的内容改错的问题。
发明内容
本发明提供一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质,以解决文本纠错问题。
一种基于人工智能的文本纠错方法,包括:
获取历史公文数据,其中,所述历史公文数据中包括公文文本;
对所述公文文本进行新词发现处理,得到新词;
将所述新词加入到原词典库中,得到加入所述新词后的目标词典库;
获取待纠错原文本;
根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词;
根据每个所述候选错误词确定每个所述候选错误词的同音词集合;
分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词,得到已纠错文本集合;
从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。
一种基于人工智能的文本纠错装置,包括:
第一获取模块,获取历史公文数据,其中,所述历史公文数据中包括公文文本;
新词发现模块,对所述公文文本进行新词发现处理,得到新词;
新词加入模块,将所述新词加入到原词典库中,得到加入所述新词后的目标词典库;
第二获取模块,获取待纠错原文本;
第一确定模块,根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词;
第二确定模块,根据每个所述候选错误词确定每个所述候选错误词的同音词集合;
替换模块,分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词,得到已纠错文本集合;
选取模块,从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于人工智能的文本纠错方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于人工智能的文本纠错方法的步骤。
上述基于人工智能的文本纠错方法、装置、计算机设备及存储介质,所实现的其中一个方案中,考虑到公文书场景下特有的术语表达,获取历史公文数据,对所述公文文本进行新词发现处理,再将新词加入到词典库中,这样,能够挖掘公文书场景下的词作为词典库的补充,得到的目标词典库就含有公文场景下特有的术语的新词;再根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本的候选错误词,避免了通用的纠错模型将未识别出特定术语而给将正确的内容改错的问题;接着将候选错误词替换为同音词,从已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本,通过计算通顺度分值来筛选出最终的纠错结果,以提高基于人工智能的文本纠错的准确性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对本发明的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中基于人工智能的文本纠错方法的一流程图;
图2是本发明一实施例中基于人工智能的文本纠错方法的另一流程图;
图3是本发明一实施例中基于人工智能的文本纠错方法的另一流程图;
图4是本发明一实施例中基于人工智能的文本纠错方法的另一流程图;
图5是本发明一实施例中基于人工智能的文本纠错装置的一原理框图;
图6是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在一实施例中,如图1所示,提供一种基于人工智能的文本纠错方法,以该方法应用在服务器为例进行说明,包括如下步骤:
S10:获取历史公文数据,其中,所述历史公文数据中包括公文文本。
可理解地,获取公文书写场景下的历史公文数据,公文文本是指公文书写场景下的句子、段落、词语等。需要强调的是,本发明的基于人工智能的文本纠错方法指的是对于自然语言在使用过程中出现的问题自动进行识别和纠正的方法。S20:对所述公文文本进行新词发现处理,得到新词。
可理解地,按顺序依次对所述公文文本的字符拆成多元组,将得到的多元组作为候选词组集合;采用分词工具包对所述公文文本进行分词,得到所述公文文本对应的分词集合;从所述候选词组集合中删除所述公文文本对应的分词集合,得到目标候选词组集合;针对所述目标候选词组集合的词组,根据各所述词组中每个词出现的概率计算,得到目标候选词组集合中每个词组对应的分值;对所述目标候选词组集合中每个词组对应的分值进行排序,得到排序结果;根据所述排序结果和预设阈值对目标候选词组集合中的词组进行筛选,得到新词。
S30:将所述新词加入到原词典库中,得到加入所述新词后的目标词典库。
示例性地,原词典库为jieba词典库,在jieba词典库中开发者可以指定自己自定义的词典,以便包含jieba词典库里没有的词,可理解地,将所述新词加入到jieba词典库中,得到加入所述新词后的目标词典库,所述目标词典库用于对后续待纠错原文本进行候选错误词进行确定的。需要强调的是,为进一步保证上述目标词典库的私密和安全性,上述目标词典库还可以存储于一区块链的节点中。
S40:获取待纠错原文本。
可理解地,获取可能需要进行纠错的待纠错原文本。
S50:根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词。
在一实施例中,如图4所示,步骤S50中,也即所述根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词,具体包括如下步骤:
S51:根据分词工具对所述待纠错原文本进行分词处理,得到待纠错原文本的分词。
示例性地,采用jieba工具包对所述待纠错原文本进行分词处理得到待纠错原文本的分词。可理解地,jieba工具包结合了基于规则和基于统计这两类方法。首先基于前缀词典进行词图扫描,前缀词典是指词典中的词按照前缀包含的顺序排列,例如词典中出现了“买”,之后以“买”开头的词都会出现在这一部分,例如“买水”,进而“买水果”,从而形成一种层级包含结构。若将词看成节点,词与词之间的分词符看成边,则一种分词方案对应着从第一个字到最后一个字的一条分词路径,形成全部可能分词结果的有向无环图。
S52:采用统计语言分析工具包对所述待纠错原文本对应的分词集合中的词组进行分析,得到待纠错原文本对应的分词集合中的词组是否存在于现有词典库中的分析结果。
示例性地,统计语言分析工具包可以为kenlm工具,kenlm工具训练的统计语言模型是基于人民日报语料训练出的统计语言模型,kenlm工具训练速度也更快,而且支持单机大数据的训练;基于统计语言模型从人民日报语料中提取的常用词作为现有词典库;判断所述待纠错原文本对应的分词集合中的词组是否存在现有词典库中,得到待纠错原文本对应的分词集合中的词组是否存在于现有词典库中的分析结果。
可理解地,若分析结果为所述纠错原文本对应的分词集合中的词组不存在于现有词典库中,则判断所述待纠错原文本的分词是否存在于所述目标词典库中,若分析结果为所述纠错原文本对应的分词集合中的词组存在现有词典库中,则不需要对分词集合中的词组进行纠错。
S53:若所述分析结果为所述纠错原文本对应的分词集合中的词组不存在于现有词典库中,则判断所述待纠错原文本的分词是否存在于所述目标词典库中。
S54:若所述待纠错原文本的分词不存在于所述目标词典库中,则确定所述待纠错原文本的分词为候选错误词。
可理解地,判断所述待纠错原文本的分词是否存在于所述目标词典库中,若所述待纠错原文本的分词不存在于所述目标词典库中,则确定所述待纠错原文本的分词为候选错误词;若所述待纠错原文本的分词存在所述目标词典库中,则不需要对分词集合中的词组进行纠错。
在图4对应的实施例中,在基于人工智能的文本纠错的过程中,考虑到公文场景错别字标注语料较少的情况下,采用统计语言分析工具包对所述待纠错原文本对应的分词集合中的词组进行分析,从而实现对所述待纠错原文本对应的分词集合中的词组进行无监督的错别字识别。
S60:根据每个所述候选错误词确定每个所述候选错误词的同音词集合。
示例性地,Python中提供了汉字转拼音的库,名字叫做PyPinyin,可以用于汉字注音、排序、检索等等场合,在本实施例中采用PyPinyin工具包找出待纠错原文本的每个候选错误词对应的若干个同音词,再将该候选错误词对应的若干同音词集合起来组成同音词集合。
S70:分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词,得到已纠错文本集合。
可理解地,考虑到错误音似词和与其对应的正确词的上下文语境相同,将候选错误词替换为与其对应的若干个同音词,得到已纠错文本集合。
S80:从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。
在一实施例中,步骤S80中,也即所述从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本,具体包括如下步骤:
S81:采用统计语言模型中的贝叶斯公式计算所述已纠错文本集合中同音词替换后的已纠错文本的句子通顺度分值,得到已纠错文本的句子通顺度分值,其中贝叶斯公式如下,
p(w1w2...wn)=p(w1)*p(w2|w1)*p(w3|w1w2)....p(wn|w1w2w3...wn-1);
其中,p(w1w2...wn)为同音词进行替换后的已纠错文本的句子通顺度分值;w1为已纠错文本中的第一个词;p(w1)为已纠错文本中的第一个词的概率;wn为已纠错文本中的第n个词;p(wn)为已纠错文本中第n个词的概率;p(wn|w1w2w3...wn-1)为给定前面的词为w1w2w3...wn-1,求后面的词wn出现的条件概率;
示例性地,使用kenlm工具训练的统计语言模型计算将候选错误词替换为同音词后的句子通顺度分值,得到采用不同的同音词进行替换后的已纠错文本的句子通顺度分值,选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。可理解地,预设的文本通顺度是指预先设定的数值,例如,预设的文本通顺度为0.5、0.6、0.7等。
可理解地,采用如下统计语言模型中的贝叶斯公式进行计算:
p(w1w2...wn)=p(w1)*p(w2|w1)*p(w3|w1w2)....p(wn|w1w2w3...wn-1)
其中,p(w1w2...wn)为同音词进行替换后的已纠错文本的句子通顺度分值;w1为第一个词;p(w1)为第一个词的概率;wn为第n个词;p(wn)为第n个词的概率;p(wn|w1w2w3...wn-1)为给定前面的词为w1w2w3...wn-1,求后面的词wn出现的条件概率;
同时,语言模型计算出的概率分布与“理想”的概率分布是有差别的,因此需要对模型理想的概率分布进行评价,而评价语言模型的常见的方式就是困混度(perplexity),困混度也被称为复杂度、混淆度等,句子出现的概率越大,那么perplexity就越小。
S82:选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。
可理解地,预设的文本通顺度是指文本语言的通顺合理的程度,预设的文本通顺度可以为0.6、0.7、0.8等,具体本发明不做限定。例如,候选错误词为“当局着迷”,不同的同音词为“当局者迷”、“当局则米”、“单据着迷”,采用不同的同音词进行替换后的已纠错文本为“如今正处于当局者迷的时代”、“如今正处于当局则米的时代”、“如今正处于单据着迷的时代”;其中,,已纠错文本为“如今正处于当局者迷的时代”的句子通顺度分值为0.9,已纠错文本为“如今正处于当局则米的时代”的句子通顺度分值为0.5、已纠错文本为“如今正处于单据着迷的时代”的句子通顺度分值为0.6,预设的文本通顺度为0.8,最终选取超过预设的文本通顺度“0.8”的已纠错文本“如今正处于当局则米的时代”作为最终的已纠错文本。
在本实施例中,采用统计语言模型中的贝叶斯公式计算已纠错文本的句子通顺度分值,能够提高通顺度分值计算的准确度,进一步提高已纠错文本选取的准确性。
在图1对应的实施例中,考虑到公文书场景下特有的术语表达,获取历史公文数据,对所述公文文本进行新词发现处理,再将新词加入到词典库中,这样,能够挖掘公文书场景下的词作为词典库的补充,得到的目标词典库就含有公文场景下特有的术语的新词;再根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本的候选错误词,避免了通用的纠错模型将未识别出特定术语而给将正确的内容改错的问题;接着将候选错误词替换为同音词;从已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本,通过计算通顺度分值来筛选出最终的纠错结果,以提高基于人工智能的文本纠错的准确性。
在一实施例中,如图2所示,步骤S20中,也即所述对所述公文文本进行新词发现处理,得到新词,具体包括如下步骤:
S21:按顺序依次对所述公文文本的字符拆成多元组,将得到的多元组作为候选词组集合。
示例性地,按顺序依次对所述公文文本的字符拆成二元组和三元组,将得到的二元组和三元组作为候选词组集合。例如,按顺序依次对所述公文文本“新词发现”的字符“新”、“词”、“发”、“现”拆成二元组和三元组,得到对应的二元组有“新词”,“词发”,“发现”,三元组有“新词发”,“词发现”,将得到的二元组“新词”,“词发”,“发现”和三元组“新词发”,“词发现”作为候选词组集合。
本方案的实施例中,按顺序依次对所述公文文本的字符拆成二元组和三元组,将得到的二元组和三元组作为候选词组集合,以实现将公文文本中每组可能成为新词的词组拆分成独立的词。
S22:采用分词工具包对所述公文文本进行分词,得到所述公文文本对应的分词集合。
示例性地,所述分词工具包可以为jieba工具包。例如,采用jieba工具包对公文文本“新词发现”进行分析,得到公文文本对应的分词集合“新词”和“发现”。
S23:从所述候选词组集合中删除所述公文文本对应的分词集合,得到目标候选词组集合。
例如,从候选词组集合的二元组“新词”,“词发”,“发现”和三元组“新词发”,“词发现”中删除公文文本对应的分词集合的“新词”和“发现”,得到目标候选词组集合二元组“词发”和三元组“新词发”,“词发现”。
S24:针对所述目标候选词组集合的词组,根据各所述词组中每个词出现的概率计算,得到目标候选词组集合中每个词组对应的分值。
在一实施例中,如图3所示,步骤S24中,也即所述针对所述目标候选词组集合的词组,根据各所述词组中每个词出现的概率计算,得到目标候选词组集合中每个词组对应的分值,具体包括如下步骤:
S241:按顺序依次将所述目标候选词组集合的词组拆成第一字符和第二字符。
可理解地,目标候选词组集合中的二元组包括“词发”和三元组包括“新词发”,“词发现”,若目标候选词组集合中的词组为二元组“词发”,则按顺序依次将目标候选词组集合中的词语“词发”拆成第一字符“词”和第二字符“发”;若目标候选词组集合中的词组为三元组“新词发”,则按顺序依次将目标候选词组集合中的词语“新词发”拆成第一字符“新词”和第二字符“发”,或者将词语“新词发”拆成第一字符“词发”和第二字符“新”。
S242:获取所述第一字符出现的概率、所述第二字符出现的概率以及所述目标候选词组集合的词组出现的概率。
S243:获取所述目标候选词组集合的词组的左侧的信息熵以及所述目标候选词组集合的词组的右侧的信息熵。
S244:针对所述目标候选词组集合中的每个词组,分别根据每个词组对应的所述第一字符出现的概率、所述第二字符出现的概率、所述词组出现的概率、所述词组左侧的信息熵以及所述词组右侧的信息熵,得到每个词组对应的分值。
在一实施例中,当所述目标候选词组集合中的词组为二元组时,所述按顺序依次将所述目标候选词组集合的词组拆成第一字符和第二字符,具体包括如下步骤:
按顺序依次将所述二元组拆分成第一字符和第二字符,其中,所述第一字符和所述第二字符均为单字符;
在步骤S244中,也即所述针对所述目标候选词组集合中的每个词组,分别根据每个词组对应的所述第一字符出现的概率、所述第二字符出现的概率、所述词组出现的概率、所述词组左侧的信息熵以及所述词组右侧的信息熵,得到每个词组对应的分值,具体包括如下步骤:
采用如下分值计算公式,根据所述二元组中的词组的第一字符出现的概率、所述二元组中的第二字符出现的概率、所述二元组的词组出现的概率、所述二元组的词组左侧的信息熵以及所述二元组右侧的信息熵,得到二元组中的每个词组对应的分值;
Figure BDA0002558262350000121
其中,
Figure BDA0002558262350000122
p(x,y)为第一字符x和第二字符y共同出现的概率,p(x)为第一字符x出现的概率,p(y)为第二字符y出现的概率,LE为词组左侧的信息熵,RE为词组右侧的信息熵。
可理解地,计算出每个词的信息熵可以用来作为词的权重,信息熵公式如下:H(w)=-∑plog(p),其中w为该词,p为该词左右出现的不同词的数目,例如某篇文章中分别出现了两次A、W、C,一次B、W、D,那么W的左侧信息熵为:
Figure BDA0002558262350000131
2/3表示词组A在3次中出现了2次,B只出现了一次,故为1/3;同理W右侧的信息熵也是一样的;如果某个词的左右信息熵都很大,那这个词就很可能是关键词。
在本实施例中,采用分值计算公式,根据所述二元组中的词组的第一字符出现的概率、所述二元组中的第二字符出现的概率、所述二元组的词组出现的概率、所述二元组的词组左侧的信息熵以及所述二元组右侧的信息熵,得到二元组中的每个词组对应的分值,根据上述计算参数进行分值计算进一步提高每个词组对应的分值的准确性,并根据每个词组对应的分值来判断每个词组的作为新词的概率。
在一实施例中,当所述目标候选词组集合中的词组为三元组时,所述按顺序依次将所述目标候选词组集合的词组拆成第一字符和第二字符,包括:
按顺序依次将所述二元组拆分成第一字符和第二字符,其中,所述第一字符为双字符,所述第二字符均为单字符;
所述方法还包括:
采用如下分值计算公式,根据三元组中的词组的第一字符出现的概率、所述三元组中的第二字符出现的概率、所述三元组的词组出现的概率、所述三元组的词组左侧的信息熵以及所述三元组右侧的信息熵,得到三元组的词组对应的多个分值;
Figure BDA0002558262350000132
其中,
Figure BDA0002558262350000141
p(x,y)为第一字符x和第二字符y共同出现的概率,p(x)为第一字符x出现的概率,p(y)为第二字符y出现的概率,LE为词组左侧的信息熵,RE为词组右侧的信息熵。
可理解地,双字符是指字符串,双字符包括两个单字符,单字符只包括一个字符。目标候选词组集合中的词组为三元组“新词发”,则按顺序依次将目标候选词组集合中的词语“新词发”拆成第一字符“新词”和第二字符“发”,或者将词语“新词发”拆成第一字符“词发”和第二字符“新”;若按顺序依次将目标候选词组集合中的词语“新词发”拆成第一字符“新词”和第二字符“发”,得到的分值为0.3;若按顺序依次将目标候选词组集合中的词语““新词发”拆成第一字符“新”和第二字符“词发”,得到的分值为0.5。
在本实施例中,采用分值计算公式,根据三元组中的词组的第一字符出现的概率、所述三元组中的第二字符出现的概率、所述三元组的词组出现的概率、所述三元组的词组左侧的信息熵以及所述三元组右侧的信息熵,得到三元组的词组对应的多个分值,根据上述计算参数进行分值计算进一步提高三元组的词组对应的分值的准确性,并根据每个词组对应的分值来判断每个词组的作为新词的概率。
在图3对应的实施例中,针对所述目标候选词组集合中的每个词组,分别根据每个词组对应的所述第一字符出现的概率、所述第二字符出现的概率、所述词组出现的概率、所述词组左侧的信息熵以及所述词组右侧的信息熵,对应得到每个词组对应的分值,根据上述计算参数进行分值计算以提高每个词组对应的分值的准确性,并根据每个词组对应的分值来判断每个词组的作为新词的概率。
S25:对所述目标候选词组集合中每个词组对应的分值进行排序,得到排序结果。
可理解地,按照score分值的高低对目标候选词组集合中每个词组进行排序,得到排序结果。
S26:根据所述排序结果和预设阈值对目标候选词组集合中的词组进行筛选,得到新词。
示例性地,预设阈值为预先设定的数值,例如,预设阈值可以为0.6、0.7、0.8等,对小于所述预设阈值的score进行剔除,选取超过预设阈值的score对应的目标候选词组集合中的词组作为新词。
在图2对应的实施例中,对公文书场景下进行新词发现,按顺序依次对所述公文文本的字符拆成多元组,将得到的多元组作为候选词组集合,再去除利用分词工具包进行分词后得到的分词集合,得到目标候选词组集合;再针对所述目标候选词组集合的词组,根据词组中每个词出现的概率计算,得到目标候选词组集合中每个词组对应的分值,最后根据排序结果和预设阈值对目标候选词组集合中的词组进行筛选,得到新词,这个过程能够自动挖掘该场景下的新词作为词典的补充。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明的实施过程构成任何限定。
在一实施例中,提供一种基于人工智能的文本纠错装置,该基于人工智能的文本纠错装置与上述实施例中基于人工智能的文本纠错方法一一对应。如图5所示,该基于人工智能的文本纠错装置包括第一获取模块10、新词发现模块20、新词加入模块30、第二获取模块40、第一确定模块50、第二确定模块60、替换模块70和选取模块80。各功能模块详细说明如下:
第一获取模块10,获取历史公文数据,其中,所述历史公文数据中包括公文文本;
新词发现模块20,对所述公文文本进行新词发现处理,得到新词;
新词加入模块30,将所述新词加入到原词典库中,得到加入所述新词后的目标词典库;需要强调的是,为进一步保证上述目标词典库的私密和安全性,上述目标词典库还可以存储于一区块链的节点中。
第二获取模块40,获取待纠错原文本;
第一确定模块50,根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词;
第二确定模块60,根据每个所述候选错误词确定每个所述候选错误词的同音词集合;
替换模块70,分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词,得到已纠错文本集合;
选取模块80,从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。
关于基于人工智能的文本纠错装置的具体限定可以参见上文中对于基于人工智能的文本纠错方法的限定,在此不再赘述。上述基于人工智能的文本纠错装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图6所示,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取历史公文数据,其中,所述历史公文数据中包括公文文本;
对所述公文文本进行新词发现处理,得到新词;
将所述新词加入到原词典库中,得到加入所述新词后的目标词典库;需要强调的是,为进一步保证上述目标词典库的私密和安全性,上述目标词典库还可以存储于一区块链的节点中。
获取待纠错原文本;
根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词;
根据每个所述候选错误词确定每个所述候选错误词的同音词集合;
分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词,得到已纠错文本集合;
从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取历史公文数据,其中,所述历史公文数据中包括公文文本;
对所述公文文本进行新词发现处理,得到新词;
将所述新词加入到原词典库中,得到加入所述新词后的目标词典库;
获取待纠错原文本;
根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词;
根据每个所述候选错误词确定每个所述候选错误词的同音词集合;
分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词,得到已纠错文本集合;
从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于人工智能的文本纠错方法,其特征在于,包括:
获取历史公文数据,其中,所述历史公文数据中包括公文文本;
对所述公文文本进行新词发现处理,得到新词;
将所述新词加入到原词典库中,得到加入所述新词后的目标词典库;
获取待纠错原文本;
根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词;
根据每个所述候选错误词确定每个所述候选错误词的同音词集合;
分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词,得到已纠错文本集合;
从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。
2.如权利要求1所述的基于人工智能的文本纠错方法,其特征在于,所述对所述公文文本进行新词发现处理,得到新词,包括:
按顺序依次对所述公文文本的字符拆成多元组,将得到的多元组作为候选词组集合;
采用分词工具包对所述公文文本进行分词,得到所述公文文本对应的分词集合;
从所述候选词组集合中删除所述公文文本对应的分词集合,得到目标候选词组集合;
针对所述目标候选词组集合的词组,根据各所述词组中每个词出现的概率计算,得到目标候选词组集合中每个词组对应的分值;
对所述目标候选词组集合中每个词组对应的分值进行排序,得到排序结果;
根据所述排序结果和预设阈值对目标候选词组集合中的词组进行筛选,得到新词。
3.如权利要求2所述的基于人工智能的文本纠错方法,其特征在于,所述针对所述目标候选词组集合的词组,根据各所述词组中每个词出现的概率计算,得到目标候选词组集合中每个词组对应的分值,包括:
按顺序依次将所述目标候选词组集合的词组拆成第一字符和第二字符;
获取所述第一字符出现的概率、所述第二字符出现的概率以及所述词组出现的概率;
获取所述词组的左侧的信息熵以及所述词组的右侧的信息熵;
针对所述目标候选词组集合中的每个词组,分别根据每个词组对应的所述第一字符出现的概率、所述第二字符出现的概率、所述词组出现的概率、所述词组左侧的信息熵以及所述词组右侧的信息熵,得到每个词组对应的分值。
4.如权利要求3所述的基于人工智能的文本纠错方法,其特征在于,当所述目标候选词组集合中的词组为二元组时,所述按顺序依次将所述目标候选词组集合的词组拆成第一字符和第二字符,包括:
按顺序依次将所述二元组拆分成第一字符和第二字符,其中,所述第一字符和所述第二字符均为单字符;
所述针对所述目标候选词组集合中的每个词组,分别根据每个词组对应的所述第一字符出现的概率、所述第二字符出现的概率、所述词组出现的概率、所述词组左侧的信息熵以及所述词组右侧的信息熵,得到每个词组对应的分值,包括:
采用如下分值计算公式得到每个词组对应的分值;
Figure FDA0002558262340000031
其中,
Figure FDA0002558262340000032
p(x,y)为第一字符x和第二字符y共同出现的概率,p(x)为第一字符x出现的概率,p(y)为第二字符y出现的概率,LE为词组左侧的信息熵,RE为词组右侧的信息熵。
5.如权利要求3所述的基于人工智能的文本纠错方法,其特征在于,当所述目标候选词组集合中的词组为三元组时,所述按顺序依次将所述目标候选词组集合的词组拆成第一字符和第二字符,包括:
按顺序依次将所述三元组拆分成第一字符和第二字符,其中,所述第一字符为双字符,所述第二字符均为单字符;
所述针对所述目标候选词组集合中的每个词组,分别根据每个词组对应的所述第一字符出现的概率、所述第二字符出现的概率、所述词组出现的概率、所述词组左侧的信息熵以及所述词组右侧的信息熵,得到每个词组对应的分值,包括:
采用如下分值计算公式得到每个词组对应的分值;
Figure FDA0002558262340000033
其中,
Figure FDA0002558262340000041
p(x,y)为第一字符x和第二字符y共同出现的概率,p(x)为第一字符x出现的概率,p(y)为第二字符y出现的概率,LE为词组左侧的信息熵,RE为词组右侧的信息熵。
6.如权利要求1所述的基于人工智能的文本纠错方法,其特征在于,所述根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词,包括:
根据分词工具对所述待纠错原文本进行分词处理,得到待纠错原文本的分词;
采用统计语言分析工具包对所述待纠错原文本对应的分词集合中的词组进行分析,得到待纠错原文本对应的分词集合中的词组是否存在于现有词典库中的分析结果;
若所述纠错原文本对应的分词集合中的词组不存在于现有词典库中,则判断所述待纠错原文本的分词是否存在于所述目标词典库中;
若所述待纠错原文本的分词不存在于所述目标词典库中,则确定所述待纠错原文本的分词为候选错误词。
7.如权利要求1所述的基于人工智能的文本纠错方法,其特征在于,所述从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本,包括:
采用统计语言模型中的贝叶斯公式计算所述已纠错文本集合中同音词替换后的已纠错文本的句子通顺度分值,得到已纠错文本的句子通顺度分值,其中贝叶斯公式如下,
p(w1w2...wn)=p(w1)*p(w2|w1)*p(w3|w1w2)....p(wn|w1w2w3...wn-1);
其中,p(w1w2...wn)为同音词进行替换后的已纠错文本的句子通顺度分值;w1为已纠错文本中的第一个词;p(w1)为已纠错文本中的第一个词的概率;wn为已纠错文本中的第n个词;p(wn)为已纠错文本中的第n个词的概率;p(wn|w1w2w3...wn-1)为给定前面的词为w1w2w3...wn-1,求后面的词wn出现的条件概率;
选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。
8.一种基于人工智能的文本纠错装置,其特征在于,包括:
第一获取模块,获取历史公文数据,其中,所述历史公文数据中包括公文文本;
新词发现模块,对所述公文文本进行新词发现处理,得到新词;
新词加入模块,将所述新词加入到原词典库中,得到加入所述新词后的目标词典库;
第二获取模块,获取待纠错原文本;
第一确定模块,根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词;
第二确定模块,根据每个所述候选错误词确定每个所述候选错误词的同音词集合;
替换模块,分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词,得到已纠错文本集合;
选取模块,从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于人工智能的文本纠错方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于人工智能的文本纠错方法的步骤。
CN202010598449.8A 2020-06-28 2020-06-28 基于人工智能的文本纠错方法、装置、设备及存储介质 Active CN111753531B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010598449.8A CN111753531B (zh) 2020-06-28 2020-06-28 基于人工智能的文本纠错方法、装置、设备及存储介质
PCT/CN2020/117577 WO2021135444A1 (zh) 2020-06-28 2020-09-25 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010598449.8A CN111753531B (zh) 2020-06-28 2020-06-28 基于人工智能的文本纠错方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111753531A true CN111753531A (zh) 2020-10-09
CN111753531B CN111753531B (zh) 2024-03-12

Family

ID=72677602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010598449.8A Active CN111753531B (zh) 2020-06-28 2020-06-28 基于人工智能的文本纠错方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN111753531B (zh)
WO (1) WO2021135444A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528882A (zh) * 2020-12-15 2021-03-19 平安科技(深圳)有限公司 基于ocr识别房产证信息确定方法、装置、设备及介质
CN112580324A (zh) * 2020-12-24 2021-03-30 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备以及存储介质
CN112784581A (zh) * 2020-11-20 2021-05-11 网易(杭州)网络有限公司 文本纠错方法、装置、介质及电子设备
CN113033185A (zh) * 2021-05-28 2021-06-25 中国电子技术标准化研究院 标准文本纠错方法、装置、电子设备和存储介质
CN114742040A (zh) * 2022-06-09 2022-07-12 北京沃丰时代数据科技有限公司 文本纠错方法、文本纠错装置及电子设备
CN114822527A (zh) * 2021-10-11 2022-07-29 北京中电慧声科技有限公司 一种语音转文本的纠错方法、装置及电子设备和存储介质
CN115146636A (zh) * 2022-09-05 2022-10-04 华东交通大学 一种中文错别字纠错处理方法、系统及存储介质
CN115440333A (zh) * 2022-11-08 2022-12-06 深圳达实旗云健康科技有限公司 数据采集过程中的数据处理方法、装置、终端设备及介质

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673228B (zh) * 2021-09-01 2024-09-24 阿里巴巴达摩院(杭州)科技有限公司 文本纠错方法、装置、计算机存储介质及计算机程序产品
CN113936130A (zh) * 2021-09-29 2022-01-14 未鲲(上海)科技服务有限公司 基于ocr技术的文档信息智能获取和纠错方法、系统及设备
CN113869047A (zh) * 2021-09-30 2021-12-31 广州故新智能科技有限责任公司 一种用于金融长文本复核系统的错别字审核模块
CN114595681B (zh) * 2022-02-08 2024-05-28 清华大学 文本切分方法及装置
CN116137149B (zh) * 2023-04-18 2023-07-14 杰创智能科技股份有限公司 语音识别方法、装置和设备
CN116306620B (zh) * 2023-05-24 2023-09-05 上海蜜度信息技术有限公司 文本处理方法、训练方法、存储介质及电子设备
CN117093464B (zh) * 2023-10-17 2024-01-26 青岛海尔乐信云科技有限公司 一种用户进线实时监控预警方法及系统
CN117523590B (zh) * 2023-11-10 2024-05-28 广州方舟信息科技有限公司 一种校验生产厂商名称的方法、装置、设备及存储介质
CN118627505A (zh) * 2024-08-12 2024-09-10 北京拓普丰联信息科技股份有限公司 地址文本处理方法、装置、电子设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017185674A1 (zh) * 2016-04-29 2017-11-02 乐视控股(北京)有限公司 新词发现方法及装置
CN108091328A (zh) * 2017-11-20 2018-05-29 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及可读介质
CN108304385A (zh) * 2018-02-09 2018-07-20 叶伟 一种语音识别文本纠错方法及装置
CN110210029A (zh) * 2019-05-30 2019-09-06 浙江远传信息技术股份有限公司 基于垂直领域的语音文本纠错方法、系统、设备及介质
CN110826322A (zh) * 2019-10-22 2020-02-21 中电科大数据研究院有限公司 一种新词发现和词性预测及标注的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9037967B1 (en) * 2014-02-18 2015-05-19 King Fahd University Of Petroleum And Minerals Arabic spell checking technique
CN110276077A (zh) * 2019-06-25 2019-09-24 上海应用技术大学 中文纠错的方法、装置及设备
CN111090986A (zh) * 2019-11-29 2020-05-01 福建亿榕信息技术有限公司 一种公文文档纠错的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017185674A1 (zh) * 2016-04-29 2017-11-02 乐视控股(北京)有限公司 新词发现方法及装置
CN108091328A (zh) * 2017-11-20 2018-05-29 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及可读介质
CN108304385A (zh) * 2018-02-09 2018-07-20 叶伟 一种语音识别文本纠错方法及装置
CN110210029A (zh) * 2019-05-30 2019-09-06 浙江远传信息技术股份有限公司 基于垂直领域的语音文本纠错方法、系统、设备及介质
CN110826322A (zh) * 2019-10-22 2020-02-21 中电科大数据研究院有限公司 一种新词发现和词性预测及标注的方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784581A (zh) * 2020-11-20 2021-05-11 网易(杭州)网络有限公司 文本纠错方法、装置、介质及电子设备
CN112784581B (zh) * 2020-11-20 2024-02-13 网易(杭州)网络有限公司 文本纠错方法、装置、介质及电子设备
CN112528882A (zh) * 2020-12-15 2021-03-19 平安科技(深圳)有限公司 基于ocr识别房产证信息确定方法、装置、设备及介质
CN112528882B (zh) * 2020-12-15 2024-05-10 平安科技(深圳)有限公司 基于ocr识别房产证信息确定方法、装置、设备及介质
CN112580324A (zh) * 2020-12-24 2021-03-30 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备以及存储介质
CN112580324B (zh) * 2020-12-24 2023-07-25 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备以及存储介质
CN113033185A (zh) * 2021-05-28 2021-06-25 中国电子技术标准化研究院 标准文本纠错方法、装置、电子设备和存储介质
CN114822527A (zh) * 2021-10-11 2022-07-29 北京中电慧声科技有限公司 一种语音转文本的纠错方法、装置及电子设备和存储介质
CN114742040A (zh) * 2022-06-09 2022-07-12 北京沃丰时代数据科技有限公司 文本纠错方法、文本纠错装置及电子设备
CN115146636A (zh) * 2022-09-05 2022-10-04 华东交通大学 一种中文错别字纠错处理方法、系统及存储介质
CN115440333A (zh) * 2022-11-08 2022-12-06 深圳达实旗云健康科技有限公司 数据采集过程中的数据处理方法、装置、终端设备及介质
CN115440333B (zh) * 2022-11-08 2023-02-24 深圳达实旗云健康科技有限公司 数据采集过程中的数据处理方法、装置、终端设备及介质

Also Published As

Publication number Publication date
WO2021135444A1 (zh) 2021-07-08
CN111753531B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN111753531A (zh) 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
CN111859921B (zh) 文本纠错方法、装置、计算机设备和存储介质
US8185376B2 (en) Identifying language origin of words
CN107870901B (zh) 从翻译源原文生成相似文的方法、记录介质、装置以及系统
CN107688803B (zh) 字符识别中识别结果的校验方法和装置
CN112906392B (zh) 一种文本增强方法、文本分类方法及相关装置
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN110853625B (zh) 语音识别模型分词训练方法、系统、移动终端及存储介质
KR101509727B1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
CN110427619B (zh) 一种基于多通道融合与重排序的中文文本自动校对方法
CN112016319A (zh) 预训练模型获取、疾病实体标注方法、装置及存储介质
Kübler et al. Part of speech tagging for Arabic
JP2018055670A (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
CN111160014A (zh) 一种智能分词方法
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN114091448A (zh) 文本对抗样本生成方法、系统、计算机设备和存储介质
CN116579327B (zh) 文本纠错模型训练方法、文本纠错方法、设备及存储介质
Yang et al. Spell Checking for Chinese.
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
Mekki et al. COTA 2.0: An automatic corrector of Tunisian Arabic social media texts
JP3080066B2 (ja) 文字認識装置、方法及び記憶媒体
CN114048753A (zh) 词义识别模型训练、词义判断方法、装置、设备及介质
JP7098463B2 (ja) 単語列修正装置、単語列修正方法及びプログラム
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant