CN111310443B - 一种文本纠错方法和系统 - Google Patents
一种文本纠错方法和系统 Download PDFInfo
- Publication number
- CN111310443B CN111310443B CN202010089095.4A CN202010089095A CN111310443B CN 111310443 B CN111310443 B CN 111310443B CN 202010089095 A CN202010089095 A CN 202010089095A CN 111310443 B CN111310443 B CN 111310443B
- Authority
- CN
- China
- Prior art keywords
- error correction
- similarity
- confidence
- chinese character
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种文本纠错方法和系统,包括训练BERT模型;对汉字进行编码;将待检测句子输入BERT模型,获得每个位置上的置信度TopK候选集;利用汉字编码,计算候选项与原项的相似度;利用相似度与置信度计算纠错概率;对候选集按照纠错概率重新排序;与设定阈值比较,若概率低于阈值,则不改错;若否,则取出候选集中Top1作为最终纠错结果。本发明通过使用BERT解决现有技术方案中缺乏大量训练语料的问题,并利用上述汉字编码方式,综合考虑汉字的拼字字形对错误文本的影响,动态适应多种纠错任务。
Description
技术领域
本发明涉及语言处理领域,尤其涉及一种文本纠错方法和系统。
背景技术
现有文本纠错方法主要分为统计模型类和神经网络模型类。基于统计模型的方法以N-gram为例,通过计算句子中以目标字为核心的邻接N元概率,对目标字进行检错判断,同时对混淆集进行排序,筛选出第一候选字词纠正错误文本。基于神经网络模型的方法以Seq2Seq模型为例,通过将句子输入Encoder,经过模型计算后,在Decoder会输出句子中每个位置上置信度得分Top1的字符,从而进行纠错。
上述现有技术具有以下缺点:(1)统计模型只考虑了单字构成词语的概率,且这个概率依赖于训练的样本,泛化能力受到限制。同时统计模型并没有考虑上下文的语义信息,无法解决搭配不当的错误。(2)神经网络模型只根据上下文语义信息纠错,未考虑具体任务场景,比如语音转文本时,错误大量集中在同音字;图像转文本时,错误大量集中在同形字。同时当前Seq2Seq模型依赖大量人工标注的平行语料以提高泛化能力。
发明内容
本发明针对现有技术中的缺点,通过使用BERT解决现有技术方案中缺乏大量训练语料的问题,并利用本发明提出的汉字编码方式,综合考虑汉字的拼字字形对错误文本的影响,动态适应多种纠错任务。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
一种文本纠错方法,包括以下步骤:
训练BERT模型;
将待检测句子输入BERT模型,获得每个位置上的置信度TopK候选集;
对汉字进行编码,基于汉字编码,计算候选集中的候选项与原项的相似度;
利用相似度与置信度综合计算纠错概率;
对候选集按照纠错概率重新排序;
与设定阈值比较,若概率低于阈值,则不改错;若否,则取出候选集中Top1作为纠错结果。
可选的,对汉字进行笔画级的拆解,并与拼音结合形成汉字编码。
可选的,汉字编码分为拼音字段、音调字段、结构字段、笔画字段和笔画总数字段。
可选的,基于汉字编码,使用Levenshtein算法计算候选项与原项的相似度。
可选的,设置置信度和相似度的权重,将相似度和置信度各自乘上相应的权重,然后求和,得到纠错概率。
可选的,训练BERT模型过程:BERT对输入序列中的随机比例的字进行mask处理,利用mask的上下文信息预测mask的值,BERT模型得到的结果形式为:字,置信度的候选项,选择置信度最高的作为mask的结果;
注,“()”内文字非解释说明。
本发明还提供了一种文本纠错系统,包括:
汉字编码单元,用于汉字编码处理;
BERT模型单元,用于BERT模型训练;
置信度计算单元,利用BERT模型单元训练好的BERT模型,获得待检测句子每个位置上的置信度TopK候选集;
相似度计算单元,利用汉字编码单元得到的汉字编码,计算置信度TopK候选集中的候选项与原项的相似度;
概率计算单元,根据相似度和置信度计算纠错概率,依据纠错概率并重新排序;
判断单元,判断纠错概率是否大于阈值,若小于,则放弃纠错,若大于,选取Top1作为纠错结果;
输出单元,用于输出纠错结果。
本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法中的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法中的步骤。
本发明的有益效果:
1、本发明采用BERT模型,由于BERT模型本身是在大量文本语料上训练的通用“语言理解”模型,只需要通过简单地微调该预训练模型,利用少量训练样本,就能运用到当前的纠错任务中。
2、本发明利用BERT模型得到句子中每个位置的置信度TopK候选项后,利用汉字编码计算候选项与原项的相似度,该相似度综合考虑了汉字的拼音与结构信息。最后利用相似度与置信度结合计算出候选项的综合概率,利用该概率重排序选出最终的Top1。充分考虑了同音字、同形字的纠错问题。
3、由于汉字的象形文字结构特殊性,如果只通过拼音的字母计算,无法得出准确的相似性,例如日(ri)、目(mu)。而常见的汉字编码如四角编码存在同一编码对应多个汉字,但汉字结构缺大相径庭的情况,比如“有”、“内”“希”的四角编码都是40227。所以四角编码也无法描绘汉字的结构信息。
本发明对汉字进行笔画级的拆解,并与拼音结合形成汉字编码,利用该汉字编码进一步筛选出符合条件的候选集,然后通过Levenshtein算法计算筛选后的候选项与原项的相似度,大大提高了纠错概率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本实施例纠错方法的流程图;
图2是汉字编码示意图;
图3是BERT模型训练流程图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
一种文本纠错方法,包括以下步骤:
训练BERT模型;
将待检测句子输入BERT模型,获得每个位置上的置信度TopK候选集;
对汉字进行编码,基于汉字编码,计算候选集中的候选项与原项的相似度;
利用相似度与置信度综合计算纠错概率;
对候选集按照纠错概率重新排序;
与设定阈值比较,若概率低于阈值,则不改错;若否,则取出候选集中Top1作为纠错结果。
如图1,基本流程为:
(1)使用少量标注语料微调BERT模型;
具体训练过程说明:BERT模型对输入序列中的随机15%的字进行mask处理,利用mask的上下文信息来预测mask的值。需要尽可能选择错误的字来作为masked token。
以样本“1 干山鸟飞绝 千山鸟飞绝”为例,其中“1”表示错误个数,后面两个句子为错误序列和正确序列。如图3所示,选中“千”的位置,遮住“千”作为训练样本;在多份这样的训练样本中,其中80%用mask代替:[mask]山鸟飞绝;10%用正确字代替:千山鸟飞绝; 10%用错误和随机字代替:干山鸟飞绝。最后预测mask的值。
模型得到的结果形式为(字,置信度)的候选项。选择置信度最高的作为mask的结果。
(2)将检测的句子输入(1)的模型,获得每个位置上的置信度TopK候选集;
预测过程说明:当微调好BERT模型后,在预测过程,输入待检测的句子,模型自动为句子中每个位置计算出置信度TopK的候选项。以“千山鸟飞绝, 万静(径)人踪灭”为例,令K=5。
如下所述的“预测结果范例”,模型预测出的候选项可能会受训练过程中其它相似样本的干扰,而预测出与当前句子语义并不相关的结果。虽然正确选项“径”出现在了候选集中,但是会出现算出的置信度分值很低的情况:"径":0.042488109320402145。如果只在此基础上筛选Top1,则无法得出正确结果。
所以需要通过后续(3)的操作进行重排序。
(3)对常用7000个汉字按图2方式进行编码,对汉字进行笔画级的拆解,并与拼音结合形成汉字编码。图中以“有”字为例解释编码格式,依次分为拼音字段、音调字段、结构字段、笔画字段和笔画总数字段。基于此新型编码,使用Levenshtein算法计算TopK候选集中候选项与原项的相似度。
其中Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,操作包括一切使用的手段将一个字符串转换成另一个字符串,比如插入一个字符、删除一个字符等等;操作次数越少,说明两个字符串距离Levenshtein Distance越小,表示两个字符串越相似。
本实施例中以汉字编码的每一位作为操作字符,进行相似度计算。以下述“预测结果范例”为例,通过汉字编码使用Levenshtein算法计算候选项与原项“静”的相似度。下述的“similarity”字段便是最终“径”与“静”的相似度。
预测结果范例:
{
"original_sentence":“千山鸟飞绝,万静人踪灭”,
"corrected_sentence":"千山鸟飞绝,万径人踪灭”,
"num_errors":1,
"errors":[
{
"error_position":7,
"original":"静",
"corrected_to":"径",
"candidates":{
"古":0.2439483255147934,
"壑":0.23254036903381348,
"籁":0.11768658459186554,
"树":0.048645634204149246,
"径":0.042488109320402145
},
"confidence":0.042488109320402145,
"similarity":0.9185714285714286,
"sentence_len":11,
"prob":0.3929214370208127
}。
(4)将(3)中相似度与(2)中的置信度各自乘上相应权重,然后求和得到纠错概率。
在这一步中,权重可以自行调节,分别表示对置信度和相似度的偏重程度。这里我们设置置信度权重=0.6,相似度权重=0.4。图中“prob”字段便是最后计算出的纠错概率即该不该用候选项替换原项的概率,上述“prob”和“similarity”都是最终候选项的结果。本实施例仅仅对候选集中其中一个候选项进行说明,其余候选项不做赘述。
(5)对候选集按纠错概率从大到小排序重排序。其中,汉字编码起到了修正模型误差的效果。相比于只使用BERT模型纠错,添加了汉字编码的方案更加具有泛化性。
(6)设定阈值范围,与设定的阈值比较,如果概率低于阈值,则不改错;高于阈值则取出候选集中Top1作为最终纠错结果。
本发明还提供了一种文本纠错系统,包括:
汉字编码单元,用于汉字编码处理;
BERT模型单元,用于BERT模型训练;
置信度计算单元,利用BERT模型单元训练好的BERT模型,获得待检测句子每个位置上的置信度TopK候选集;
相似度计算单元,利用汉字编码单元得到的汉字编码,计算置信度TopK候选集中的候选项与原项的相似度;
概率计算单元,根据相似度和置信度计算纠错概率,依据纠错概率并重新排序;
判断单元,判断纠错概率是否大于阈值,若小于,则放弃纠错,若大于,选取Top1作为纠错结果;
输出单元,用于输出纠错结果。
本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法中的步骤。所述电子设备可以是电子阅读设备、文本纠错设备等可以实现文本纠错功能的电子设备。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法中的步骤。
此外,需要说明的是,本说明书中所描述的具体实施例,其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化,均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (8)
1.一种文本纠错方法,其特征在于,包括以下步骤:
训练BERT模型;
将待检测句子输入BERT模型,获得每个位置上的置信度TopK候选集;
对汉字进行编码,基于汉字编码,计算候选集中的候选项与原项的相似度;
利用相似度与置信度综合计算纠错概率;
对候选集按照纠错概率重新排序;
与设定阈值比较,若概率低于阈值,则不改错;若否,则取出候选集中Top1作为纠错结果;
对汉字进行编码包括:对汉字进行笔画级的拆解,并与拼音结合形成汉字编码。
2.根据权利要求1所述的文本纠错方法,其特征在于,汉字编码分为拼音字段、音调字段、结构字段、笔画字段和笔画总数字段。
3.根据权利要求1或2所述的文本纠错方法,其特征在于,基于汉字编码,使用Levenshtein算法计算候选项与原项的相似度。
4.根据权利要求1所述的文本纠错方法,其特征在于,设置置信度和相似度的权重,将相似度和置信度各自乘上相应的权重,然后求和,得到纠错概率。
5.根据权利要求1所述的文本纠错方法,其特征在于,训练BERT模型过程:BERT对输入序列中的随机比例的字进行mask处理,利用mask的上下文信息预测mask的值,BERT模型得到的结果形式为:字,置信度 的候选项,选择置信度最高的作为mask的结果。
6.一种文本纠错系统,其特征在于,包括:
汉字编码单元,用于汉字编码处理;
BERT模型单元,用于BERT模型训练;
置信度计算单元,利用BERT模型单元训练好的BERT模型,获得待检测句子每个位置上的置信度TopK候选集;
相似度计算单元,利用汉字编码单元得到的汉字编码,计算置信度TopK候选集中的候选项与原项的相似度;
概率计算单元,根据相似度和置信度计算纠错概率,依据纠错概率并重新排序;
判断单元,判断纠错概率是否大于阈值,若小于,则放弃纠错,若大于,选取Top1作为纠错结果;
输出单元,用于输出纠错结果;
其中,汉字编码处理包括:对汉字进行笔画级的拆解,并与拼音结合形成汉字编码。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5中任一所述的方法中的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一所述的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010089095.4A CN111310443B (zh) | 2020-02-12 | 2020-02-12 | 一种文本纠错方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010089095.4A CN111310443B (zh) | 2020-02-12 | 2020-02-12 | 一种文本纠错方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310443A CN111310443A (zh) | 2020-06-19 |
CN111310443B true CN111310443B (zh) | 2023-08-18 |
Family
ID=71159997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010089095.4A Active CN111310443B (zh) | 2020-02-12 | 2020-02-12 | 一种文本纠错方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310443B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950292B (zh) * | 2020-06-22 | 2023-06-27 | 北京百度网讯科技有限公司 | 文本纠错模型的训练方法、文本纠错处理方法和装置 |
CN111931489B (zh) * | 2020-07-29 | 2023-08-08 | 中国工商银行股份有限公司 | 文本纠错方法、装置和设备 |
CN111861731A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 基于ocr的贷后检查系统及方法 |
CN111968649B (zh) * | 2020-08-27 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 一种字幕纠正方法、字幕显示方法、装置、设备及介质 |
CN112016310A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、系统、设备及可读存储介质 |
CN112085011A (zh) * | 2020-09-27 | 2020-12-15 | 中国建设银行股份有限公司 | 一种ocr识别结果纠错方法、装置及存储介质 |
CN112396049A (zh) * | 2020-11-19 | 2021-02-23 | 平安普惠企业管理有限公司 | 文本纠错方法、装置、计算机设备及存储介质 |
CN112380841B (zh) * | 2020-11-19 | 2022-02-11 | 平安科技(深圳)有限公司 | 一种中文拼写纠错方法、装置、计算机设备及存储介质 |
CN112528637B (zh) * | 2020-12-11 | 2024-03-29 | 平安科技(深圳)有限公司 | 文本处理模型训练方法、装置、计算机设备和存储介质 |
CN112528980B (zh) * | 2020-12-16 | 2022-02-15 | 北京华宇信息技术有限公司 | Ocr识别结果纠正方法及其终端、系统 |
CN113011171A (zh) * | 2021-03-05 | 2021-06-22 | 北京市博汇科技股份有限公司 | 一种基于bert的违规文本识别算法及装置 |
CN113221558B (zh) * | 2021-05-28 | 2023-09-19 | 中邮信息科技(北京)有限公司 | 一种快递地址纠错方法、装置、存储介质及电子设备 |
CN113420546A (zh) * | 2021-06-24 | 2021-09-21 | 平安国际智慧城市科技股份有限公司 | 文本纠错方法、装置、电子设备及可读存储介质 |
CN113343674B (zh) * | 2021-07-09 | 2022-04-01 | 北京海泰方圆科技股份有限公司 | 生成文本纠错模型训练语料的方法、装置、设备及介质 |
CN113743415A (zh) * | 2021-08-05 | 2021-12-03 | 杭州远传新业科技有限公司 | 一种图像文本识别纠错的方法、系统、电子装置和介质 |
CN114912442B (zh) * | 2022-05-18 | 2024-08-23 | 山东新一代信息产业技术研究院有限公司 | 一种基于深度学习的中文文本纠错方法及设备 |
CN117648923B (zh) * | 2024-01-29 | 2024-05-10 | 安徽省立医院(中国科学技术大学附属第一医院) | 一种适用于医疗语境的中文拼写纠错方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2653982A1 (en) * | 2012-04-20 | 2013-10-23 | King Abdulaziz City for Science & Technology (KACST) | Method and system for statistical misspelling correction |
CN107633250A (zh) * | 2017-09-11 | 2018-01-26 | 畅捷通信息技术股份有限公司 | 一种文字识别纠错方法、纠错系统及计算机装置 |
CN110188353A (zh) * | 2019-05-28 | 2019-08-30 | 百度在线网络技术(北京)有限公司 | 文本纠错方法及装置 |
CN110750959A (zh) * | 2019-10-28 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 文本信息处理的方法、模型训练的方法以及相关装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090287969A1 (en) * | 2008-05-13 | 2009-11-19 | Bpm Microsystems | Electronic apparatus and bit error rate tolerance method for programming non-volatile memory devices |
-
2020
- 2020-02-12 CN CN202010089095.4A patent/CN111310443B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2653982A1 (en) * | 2012-04-20 | 2013-10-23 | King Abdulaziz City for Science & Technology (KACST) | Method and system for statistical misspelling correction |
CN107633250A (zh) * | 2017-09-11 | 2018-01-26 | 畅捷通信息技术股份有限公司 | 一种文字识别纠错方法、纠错系统及计算机装置 |
CN110188353A (zh) * | 2019-05-28 | 2019-08-30 | 百度在线网络技术(北京)有限公司 | 文本纠错方法及装置 |
CN110750959A (zh) * | 2019-10-28 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 文本信息处理的方法、模型训练的方法以及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111310443A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310443B (zh) | 一种文本纠错方法和系统 | |
US11238845B2 (en) | Multi-dialect and multilingual speech recognition | |
US11024287B2 (en) | Method, device, and storage medium for correcting error in speech recognition result | |
JP4652737B2 (ja) | 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、 | |
CN112016310A (zh) | 文本纠错方法、系统、设备及可读存储介质 | |
CN112149406A (zh) | 一种中文文本纠错方法及系统 | |
JP4852448B2 (ja) | 誤り傾向学習音声認識装置及びコンピュータプログラム | |
TWI567569B (zh) | Natural language processing systems, natural language processing methods, and natural language processing programs | |
EP3029607A1 (en) | Method for text recognition and computer program product | |
CN109145287B (zh) | 印尼语单词检错纠错方法及系统 | |
CN110555140B (zh) | 面向口令猜测的语料乘积规则的描述、生成与检测方法 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
WO2023030105A1 (zh) | 训练自然语言处理模型和自然语言处理的方法、电子设备 | |
CN115293138B (zh) | 一种文本纠错方法及计算机设备 | |
CN110837730B (zh) | 一种未知实体词汇的确定方法及装置 | |
CN109815497B (zh) | 基于句法依存的人物属性抽取方法 | |
CN115017890A (zh) | 基于字音字形相似的文本纠错方法和装置 | |
CN114861637A (zh) | 拼写纠错模型生成方法和装置、拼写纠错方法和装置 | |
CN113962215A (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
CN117094325B (zh) | 水稻病虫害领域命名实体识别方法 | |
CN114239589A (zh) | 语义理解模型的鲁棒性评估方法、装置及计算机设备 | |
CN114896966B (zh) | 一种中文文本语法错误定位方法、系统、设备及介质 | |
CN102156693B (zh) | 一种盲文输入方法和系统 | |
CN112417851A (zh) | 文本纠错分词方法、系统及电子设备 | |
TWI828086B (zh) | 利用遞歸神經網路之對話回應語句生成系統、方法及電腦可讀媒介 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |