CN112328737B - 一种拼写数据的生成方法 - Google Patents
一种拼写数据的生成方法 Download PDFInfo
- Publication number
- CN112328737B CN112328737B CN201910647316.2A CN201910647316A CN112328737B CN 112328737 B CN112328737 B CN 112328737B CN 201910647316 A CN201910647316 A CN 201910647316A CN 112328737 B CN112328737 B CN 112328737B
- Authority
- CN
- China
- Prior art keywords
- corpus
- word
- pinyin
- original
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012545 processing Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 3
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 239000002274 desiccant Substances 0.000 description 2
- DLYUQMMRRRQYAE-UHFFFAOYSA-N tetraphosphorus decaoxide Chemical compound O1P(O2)(=O)OP3(=O)OP1(=O)OP2(=O)O3 DLYUQMMRRRQYAE-UHFFFAOYSA-N 0.000 description 2
- 241001070941 Castanea Species 0.000 description 1
- 235000014036 Castanea Nutrition 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种拼写数据的生成方法,包括以下步骤:基于输入法构建拼音语料库、语音语料库以及手写语料库;通过输入法输入不同形式的错误句子或词组;通过拼音语料库、语音语料库以及手写语料库对不同形式的错误句子或词组进行匹配检索;当检索出对应的错误时,通过拼音语料库、语音语料库以及手写语料库替换为正确的句子或词组。本发明用于中文拼写检查的标记语料库的获取变得更加简单可行,克服了以往通过人工收集费事费力且难以大量获取的弊端,使用不同的方法为不同的输入法构建对应的标记语料库,可以获得更加接近真实情况的语料数据。
Description
技术领域
本发明涉及语料检查技术领域,尤其涉及一种拼写数据的生成方法。
背景技术
随着互联网技术的快速发展,每时每刻都会有大量的中文文本信息产生,越来越多的行业开始或者已经将本部的工作职能与互联网关联,人们已经习惯了从网络中获取需要的知识和概念。然而网络上的文本信息都是通过输入法进行输入的,常见的输入方式包括键盘录入、OCR识别、语音识别等。然而这些录入方式都不能保证所输入的信息准确无误,这些中文文本或多或少地存在着拼写错误。国家广电总局重视图书编校质量,曾多次对图书进行抽查。以合格率衡量图书质量,2012年为88.4%,2013年为86.8%,2014为82.5%。
除了普通刊物出现拼写错误影响阅读以外,在某些重要领域,比如政治文件、权威发言、重要新闻等,拼写错误还会造成及其严重的影响,甚至影响国家的稳定。此类错误一旦发生,将对国家和社会带来严重影响。因此中文文本的拼写检查越来越受到相关行业的重视。
当前越来越多的人采用数据驱动的方法,来完成中文文本自动拼写检查任务。但是使用这类方法的前提是拥有大量用于拼写检查任务的标记语料库。这里的标记是指为错误句子中的每个字符打上相应的标签。当前人们在获得语料库的时,多数采用人工收集真实的错误句子的方法,但其只包含700条数据;国际计算机语言学会中文语言处理小组(SIGHAN)分别于2013年、2014年和2015年公布了用于拼写检查的标准数据集,这三年公布的数据分别包含1290、5734和3632处拼写错误,共计10656处,这对于需要大量数据用于训练的有监督模型,显得有些捉襟见肘。并且显然通过收集真实数据用以构建语料库的方法费事费力,且错误句子难以大量获取,因此如何自动构建拼写检查语料库引起了业内人士的关注。
发明内容
为克服相关技术中存在的问题,本发明实施例提供一种拼写数据的生成方法,克服了以往通过人工收集费事费力且难以大量获取的弊端。
本发明实施例提供一种拼写数据的生成方法,包括以下步骤:
基于输入法构建拼音语料库、语音语料库以及手写语料库;
通过输入法输入不同形式的错误句子或词组;
通过拼音语料库、语音语料库以及手写语料库对不同形式的错误句子或词组进行匹配检索;
当检索出对应的错误时,通过拼音语料库、语音语料库以及手写语料库替换为正确的句子或词组。
进一步地,所述构建拼音语料库包括以下步骤;
将生成的正确句子进行分词处理,随机选择一个汉字词;
将选择的汉字词转化为拼音,将拼音转化为对应的词语;
在转换出来的词语中选择一个和原词不同的词,代替原来的词进而生成误用拼音相同的词的句子。
进一步地,所述将拼音转化为对应的词语中,每个词语都有对应的得分,分数基于隐马尔科夫模型进行设定,越常用的词得分越高。
进一步地,所述在选择生成的词代替原来的词时,通过对应的预设替换概率进行替换,与原词相同的词的替换概率为零,将剩余的词语按照降序排序,第i个词的得分设为Socre(i),对应的替换概率设为RP(i),替换公式如下:RP(i)代表第i个词的替换概率,Socre(i)代表第i个词的得分,n代表和原词不同的词的数量。
进一步地,所述在将汉字转化为拼音时,使用pypinyin进行转换;在将拼音转化为汉字时,使用Pinyin2Hanzi进行转换。
进一步地,所述构建语音语料库包括以下步骤;
通过语音自动识别技术将生成的错误句子分为两类,第一类为与原句长度相同,第二类为与原来的句子长度不同;
当生成与原来句子长度相同的错误句子时,对相应的字符进行标签标记处理。
进一步地,所述对相应的字符进行标签标记处理时,采用字字对应的方法进行处理,将正确的字标签为C,错误的字标签为W。
进一步地,所述生成的错误句子采用Kaldi工具进行生成,将SL表示和原来句子相同长度的错误句子,将DL表示和原来句子不同长度的错误句子。
进一步地,所述构建手写语料库包括以下步骤:
将输入的文本转化为图片格式;
对图片进行部分模糊化处理;
使用OCR工具对图片进行识别,当识别与原来的汉字不同时,将生成的字符代替原来的字符,生成误用视觉相似字符的句子。
本发明的实施例提供的技术方案具有以下有益效果:用于中文拼写检查的标记语料库的获取变得更加简单可行,克服了以往通过人工收集费事费力且难以大量获取的弊端,使用不同的方法为不同的输入法构建对应的标记语料库,可以获得更加接近真实情况的语料数据。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本发明实施例一中拼写数据的生成方法的流程图。
图2是本发明实施例一中拼写数据的生成方法的定量比较图。
图3是本发明实施例二中拼写数据的生成方法的流程图。
图4是本发明实施例三中拼写数据的生成方法的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置及相关应用、方法的例子。
实施例一
图1是本发明实施例中拼写数据的生成方法的流程图,如图1所示,该拼写数据的生成方法,包括以下步骤:
步骤101、基于输入法构建拼音语料库、语音语料库以及手写语料库。
通过输入法输入不同形式的错误句子或词组。
通过拼音语料库、语音语料库以及手写语料库对不同形式的错误句子或词组进行匹配检索。
当检索出对应的错误时,通过拼音语料库、语音语料库以及手写语料库替换为正确的句子或词组。
构建拼音语料库包括以下步骤;
将生成的正确句子进行分词处理,随机选择一个汉字词;之所以词为单位生成错误,是因为在使用拼音输入法进行输入时,是以词为单位进行输入(火势\逐渐\向\四周\蔓延),而不是以单个的字为单位进行输入(火\势\逐\渐\向\四\周\蔓\延)。
将选择的汉字词转化为拼音,将拼音转化为对应的词语;每个词语都有对应的得分,分数基于隐马尔科夫模型进行设定,越常用的词得分越高。
使用拼音输入法时,主要会产生两种类型的错误:误用拼音相同的词和误用拼音相似的词,因为拼音输入法没有音调信息,所以这里拼音相同的词不包括音调,比如抱负、包袱、报复都是相同拼音的词,本发明将拼音的编辑距离为一或者二的词都认为是拼音相似的词,比如词性和刺青拼音的编辑距离为一,因此二者互为拼音相似词,在生成误用拼音相似词的句子时,如词性和刺青都是具有相似的拼音。
汉字和拼音的相互转化生成误用拼音相同的词的句子,方法如下;随即选择一个汉语词,并提取这个词的拼音,再将拼音转化为对应的词语,选择一个词代替原来的词,在转换出来的词语中选择一个和原词不同的词,代替原来的词进而生成误用拼音相同的词的句子。
通过对应的预设替换概率进行替换,与原词相同的词的替换概率为零,将剩余的词语按照降序排序,第i个词的得分设为Socre(i),对应的替换概率设为RP(i),替换公式如下:RP(i)代表第i个词的替换概率,Socre(i)代表第i个词的得分,n代表和原词不同的词的数量,在将汉字转化为拼音时,使用pypinyin进行转换;在将拼音转化为汉字时,使用Pinyin2Hanzi进行转换。
构建语音语料库包括以下步骤;
通过自动生成误用语音相似字符和误用视觉相似字符的句子,构建拼音语料库,通过语音自动识别技术将生成的错误句子分为两类,第一类为与原句长度相同,第二类为与原来的句子长度不同;将生成的错误句子采用Kaldi工具进行生成,将SL表示和原来句子相同长度的错误句子,将DL表示和原来句子不同长度的错误句子。
本方法只收集和原来句子长度一样的错误句子,当生成与原来句子长度相同的错误句子时,对相应的字符进行标签标记处理,采用字字对应的方法进行处理,将正确的字标签为C,错误的字标签为W,当生成的句子和原来的句子长度不同时,会出现错误标记的情况,前四个字符发生错误,导致后面所有的字符都标错了,当生成的句子和原来的句子不同时,产生错误标记的情况,如正确的句子为五氧化二磷可以做干燥剂,错误的句子为养花二零可以做干燥剂,所以在这种情况下会对模型的学习造成极大的干扰,因此本方法不收集和原来句子长度不同的句子。
使用手写输入法时,经常产生误用视觉相似字符的情况,比如粟和栗、日和曰,而且产生的错误通常以字的形式出现,不同于拼音输入法那样,错误通常以词的形式出现,因此在构建手写语料库时,首先要生成视觉相似字符。
构建手写语料库包括以下步骤:
将输入的文本转化为图片格式;
对图片进行部分模糊化处理;
使用OCR工具对图片进行识别,当识别与原来的汉字不同时,将生成的字符代替原来的字符,生成误用视觉相似字符的句子。
步骤102、通过输入法输入不同形式的错误句子或词组。
步骤103、通过拼音语料库、语音语料库以及手写语料库对不同形式的错误句子或词组进行匹配检索。
步骤104、当检索出对应的错误时,通过拼音语料库、语音语料库以及手写语料库替换为正确的句子或词组。
图2是本发明实施例一中拼写数据的生成方法的定量比较图,如图2所示,本发明将王鼎民等构建的语料库作为基准语料库,进行了定量比较,本发明通过Precision、Recall和F1三个基准的指标来衡量语料库的质量,本发明构建的语料库主要用于校对三大主流输入法生成的中文文本,因此测试集包含三个,三个测试集中的句子分别收集于拼音输入法、语音输入法以及手写输入法生成的真实的文本,测试集的大小均为三千,四个训练集的大小均为五万。
拼写检查测试结果如图2所示,得出如下结论,相比于基准语料库,使用本发明构建的语料库相比于基准语料库可以取得更好的效果,构建的语料库其形式更加接近真实的错误句子;并且使用本发明构建的语料库作为训练集可以取得更好的校对效果。
实施例二
图3是本发明实施例二中拼写数据的生成方法的流程图,如图3所示。
步骤201、采用实施例一中的方法构造不同形式的错误句子。
步骤202、按比例合成语料库,通过语料库检查不同输入法生成的文本。
在生成误用相同拼音的字符的句子时,以字为单位,不以词为单位生成错误,选择一个字符将其转为拼音形式,再将该拼音转为汉字形式,选择新转出来的和原来汉字不同的字符替换原来的字符。
实施例三
图4是本发明实施例三中拼写数据的生成方法的流程图,如图4所示。
步骤301、采用实施例一中的方法构建一种或者几种语料库。
步骤302、采用语料库检查中文文本中的拼写错误。
在生成误用相同拼音的字符的句子时,使用汉字转拼音的工具包,将整个句子转化为拼音的形式,再将拼音形式的句子转化为汉字形式,进而生成想要的错误句子。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (4)
1.一种拼写数据的生成方法,其特征在于,包括以下步骤:
基于输入法构建拼音语料库、语音语料库以及手写语料库;
通过输入法输入不同形式的错误句子或词组;
通过拼音语料库、语音语料库以及手写语料库对不同形式的错误句子或词组进行匹配检索;
当检索出对应的错误时,通过拼音语料库、语音语料库以及手写语料库替换为正确的句子或词组,
其中,所述构建拼音语料库包括以下步骤:
将生成的正确句子进行分词处理,随机选择一个汉字词;
将选择的汉字词转化为拼音,将拼音转化为对应的词语,所述将拼音转化为对应的词语中,每个词语都有对应的得分,分数基于隐马尔科夫模型进行设定,越常用的词得分越高;
在转换出来的词语中选择一个和原词不同的词,代替原来的词进而生成误用拼音相同的词的句子,所述在选择生成的词代替原来的词时,通过对应的预设替换概率进行替换,与原词相同的词的替换概率为零,将剩余的词语按照降序排序,第i个词的得分设为Socre(i),对应的替换概率设为RP(i),替换公式如下:RP(i)代表第i个词的替换概率,Socre(i)代表第i个词的得分,n代表和原词不同的词的数量,
所述构建语音语料库包括以下步骤:
通过语音自动识别技术将生成的错误句子分为两类,第一类为与原句长度相同,第二类为与原来的句子长度不同;
当生成与原来句子长度相同的错误句子时,对相应的字符进行标签标记处理,
所述构建手写语料库包括以下步骤:
将输入的文本转化为图片格式;
对图片进行部分模糊化处理;
使用OCR工具对图片进行识别,当识别与原来的汉字不同时,将生成的字符代替原来的字符,生成误用视觉相似字符的句子。
2.根据权利要求1所述的拼写数据的生成方法,其特征在于,所述在将汉字转化为拼音时,使用pypinyin进行转换;在将拼音转化为汉字时,使用Pinyin2Hanzi进行转换。
3.根据权利要求1所述的拼写数据的生成方法,其特征在于,所述对相应的字符进行标签标记处理时,采用字字对应的方法进行处理,将正确的字标签为C,错误的字标签为W。
4.根据权利要求1所述的拼写数据的生成方法,其特征在于,所述生成的错误句子采用Kaldi工具进行生成,用SL表示和原来句子相同长度的错误句子,用DL表示和原来句子不同长度的错误句子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910647316.2A CN112328737B (zh) | 2019-07-17 | 2019-07-17 | 一种拼写数据的生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910647316.2A CN112328737B (zh) | 2019-07-17 | 2019-07-17 | 一种拼写数据的生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112328737A CN112328737A (zh) | 2021-02-05 |
CN112328737B true CN112328737B (zh) | 2023-05-05 |
Family
ID=74319496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910647316.2A Active CN112328737B (zh) | 2019-07-17 | 2019-07-17 | 一种拼写数据的生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112328737B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6424983B1 (en) * | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
CN1387650A (zh) * | 1999-11-05 | 2002-12-25 | 微软公司 | 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构 |
CN101477565A (zh) * | 2009-01-22 | 2009-07-08 | 北京搜狗科技发展有限公司 | 确定搜索引擎中输入字符串正确性的方法及装置 |
CN101819469A (zh) * | 2009-11-06 | 2010-09-01 | 无敌科技(西安)有限公司 | 中文内容拼写校正的方法 |
CN102135814A (zh) * | 2011-03-30 | 2011-07-27 | 北京搜狗科技发展有限公司 | 一种字词输入方法及系统 |
CN103885938A (zh) * | 2014-04-14 | 2014-06-25 | 东南大学 | 基于用户反馈的行业拼写错误检查方法 |
CN105047198A (zh) * | 2015-08-24 | 2015-11-11 | 百度在线网络技术(北京)有限公司 | 语音纠错处理方法及装置 |
CN107451121A (zh) * | 2017-08-03 | 2017-12-08 | 京东方科技集团股份有限公司 | 一种语音识别方法及其装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8219397B2 (en) * | 2008-06-10 | 2012-07-10 | Nuance Communications, Inc. | Data processing system for autonomously building speech identification and tagging data |
-
2019
- 2019-07-17 CN CN201910647316.2A patent/CN112328737B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6424983B1 (en) * | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
CN1387650A (zh) * | 1999-11-05 | 2002-12-25 | 微软公司 | 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构 |
CN101477565A (zh) * | 2009-01-22 | 2009-07-08 | 北京搜狗科技发展有限公司 | 确定搜索引擎中输入字符串正确性的方法及装置 |
CN101819469A (zh) * | 2009-11-06 | 2010-09-01 | 无敌科技(西安)有限公司 | 中文内容拼写校正的方法 |
CN102135814A (zh) * | 2011-03-30 | 2011-07-27 | 北京搜狗科技发展有限公司 | 一种字词输入方法及系统 |
CN103885938A (zh) * | 2014-04-14 | 2014-06-25 | 东南大学 | 基于用户反馈的行业拼写错误检查方法 |
CN105047198A (zh) * | 2015-08-24 | 2015-11-11 | 百度在线网络技术(北京)有限公司 | 语音纠错处理方法及装置 |
CN107451121A (zh) * | 2017-08-03 | 2017-12-08 | 京东方科技集团股份有限公司 | 一种语音识别方法及其装置 |
Non-Patent Citations (6)
Title |
---|
Duan J 等.Automatically build corpora for chinese spelling check based on the input method.Natural Language Processing and Chinese Computing: 8th CCF International Conference.2019,471-485. * |
Wang D 等.A hybrid approach to automatic corpus generation for Chinese spelling check.Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.2018,2517-2527. * |
李蓉 ; .一个用于OCR输出的中文文本的拼写校对系统.中文信息学报.2009,(第05期),94-99. * |
王秀珍 等.一种面向在线查询的拼写纠错算法.计算机工程与应用.2015,第51卷(第14期),113-119. * |
胡熠 等.搜索引擎的一种在线中文查询纠错方法.中文信息学报.2016,第30卷(第01期),71-78. * |
陈正 等.拼写纠正在拼音输入法中的应用.计算机学报.2001,(第07期),758-763. * |
Also Published As
Publication number | Publication date |
---|---|
CN112328737A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489760B (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN111259631B (zh) | 一种裁判文书结构化方法及装置 | |
CN102982021B (zh) | 用于消除语言转换中的多个读法的歧义的方法 | |
CN100492350C (zh) | 以无模式输入将一种文本形式转换成另一种文本形式的语言输入体系结构 | |
CN102662930B (zh) | 一种语料标注方法及装置 | |
CN110276069B (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
Kaur et al. | A survey of named entity recognition in English and other Indian languages | |
CN110119510B (zh) | 一种基于传递依存关系和结构助词的关系抽取方法及装置 | |
CN111428467A (zh) | 生成阅读理解的问题题目的方法、装置、设备及存储介质 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN108280065B (zh) | 一种外文文本评价方法及装置 | |
Megyesi et al. | The Uppsala corpus of student writings: Corpus creation, annotation, and analysis | |
Jain et al. | “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning | |
CN114780582A (zh) | 基于表格问答的自然答案生成系统及其方法 | |
Volk et al. | Nunc profana tractemus. Detecting code-switching in a large corpus of 16th century letters | |
Kirmizialtin et al. | Automated transcription of non-Latin script periodicals: a case study in the ottoman Turkish print archive | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
CN112328737B (zh) | 一种拼写数据的生成方法 | |
CN110765107A (zh) | 基于数字化编码的题型识别方法及其系统 | |
Kang et al. | Two approaches for the resolution of word mismatch problem caused by English words and foreign words in Korean information retrieval | |
Duan et al. | Automatically build corpora for chinese spelling check based on the input method | |
CN114548049A (zh) | 一种数字正则化方法、装置、设备及存储介质 | |
Zhang et al. | CMMC-BDRC solution to the NLP-TEA-2018 Chinese grammatical error diagnosis task | |
Tikhonov et al. | Scribe versus authorship attribution and clustering in historic Czech manuscripts: a case study with visual and linguistic features | |
KR101638953B1 (ko) | 온라인상 텍스트 자동분석·수정시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |