CN113515934A - 文本纠错方法、装置、存储介质及电子设备 - Google Patents
文本纠错方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN113515934A CN113515934A CN202110470228.7A CN202110470228A CN113515934A CN 113515934 A CN113515934 A CN 113515934A CN 202110470228 A CN202110470228 A CN 202110470228A CN 113515934 A CN113515934 A CN 113515934A
- Authority
- CN
- China
- Prior art keywords
- error correction
- text
- sequence
- tag
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 254
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000006243 chemical reaction Methods 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000008859 change Effects 0.000 claims description 41
- 239000013598 vector Substances 0.000 claims description 20
- 238000003780 insertion Methods 0.000 claims description 13
- 230000037431 insertion Effects 0.000 claims description 13
- 238000012217 deletion Methods 0.000 claims description 9
- 230000037430 deletion Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims 4
- 230000008569 process Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 238000013519 translation Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004660 morphological change Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及一种文本纠错方法、装置、存储介质及电子设备,无需丰富的先验知识和大量的人力来构建规则,实现对文本的自动纠错。该方法包括:获取原始文本;所述原始文本输入纠错模型中,得到所述纠错模型输出所述原始文本的纠错标签序列,其中,所述纠错模型通过训练样本进行训练得到的,所述训练样本包括待纠错文本和作为所述待纠错文本的标签的文本纠错标签序列,所述纠错标签序列为所述原始文本转换为目标文本的转换条件;根据所述纠错标签序列对所述原始文本进行纠错处理,得到目标文本。
Description
技术领域
本公开涉及深度学习技术领域,具体地,涉及一种文本纠错方法、装置、存储介质及电子设备。
背景技术
随着人工智能技术的快速发展,深度学习技术也实现了快速发展,将深度学习技术用于对文本的自动纠错(如英语文本的语法纠错),可极大地解放教师资源,还可辅助学生自主学习。
相关技术中,主要通过两种方式来实现对文本的自动纠错。第一种是基于规则和语言模型的传统方法,来实现文本纠错,但文本的错误形式多样,构建规则需要丰富的先验知识和大量的人力,且无法在准确率和覆盖范围上达到平衡。第二种是采用机器翻译的方式,将原始的文本当作源语言,改正后的文本作为目标语言,利用端到端的模型进行训练,但要保证翻译结果的准确性需要大量标注数据来进行训练,且端到端模型的工作速度慢,会导致翻译效率低下。
发明内容
本公开的目的是提供一种文本纠错方法、装置、存储介质及电子设备,无需丰富的先验知识和大量的人力来构建规则,实现对文本的自动纠错。
为了实现上述目的,第一方面,本公开提供一种文本纠错方法,所述方法包括:
获取原始文本;
将所述原始文本输入纠错模型中,得到所述纠错模型输出所述原始文本的纠错标签序列,其中,所述纠错模型通过训练样本进行训练得到的,所述训练样本包括待纠错文本和作为所述待纠错文本的标签的文本纠错标签序列,所述纠错标签序列为所述原始文本转换为目标文本的转换条件;
根据所述纠错标签序列对所述原始文本进行纠错处理,得到目标文本。
可选地,所述纠错模型的输出层后还包括预测层;
所述将所述原始文本输入纠错模型中,得到所述纠错模型输出所述原始文本的纠错标签序列,包括:
将所述输出层输出的对应所述原始文本中各单词的向量输入到所述预测层中;
所述预测层根据预设标签表获取所述原始文本中各单词的向量的纠错标签,得到所述纠错文本的纠错标签序列。
可选地,所述文本纠错标签序列的获取方式包括:
获取文本序列对,所述文本序列对包括待纠错文本序列和对应所述待纠错文本的目标文本序列;
根据预设转换操作和预设标签表,对所述待纠错文本序列进行文本序列匹配,获取所述待纠错文本序列转换为对应所述待纠错文本序列的目标文本序列的文本纠错标签序列。
可选地,所述预设转换操作包括插入操作、删除操作以及替换操作,其中,所述插入操作表示在所述原始文本中插入单词,所述删除操作表示删除所述原始文本中的目标单词,所述替换操作表示对所述原始文本中的目标单词进行替换。
可选地,所述预设标签表包括保持标签、删除标签、插入标签以及替换标签,其中,所述保持标签用于指示被标记的单词保持不变,所述删除标签用于指示删除被标记的单词,所述插入标签用于指示在被标记的单词后面插入单词,所述替换标签用于指示将被标记的单词进行替换。
可选地,所述替换标签包括动词形态变化表、形容词形态变化表、名词形态变化表以及单词大小写变化标签,其中,所述动词形态变化表包含动词不同形态的转换关系,所述形容词形态变化表包括形容词的比较级状态和最高级状态的转换关系,所述名词形态变化表包括名词的单复数形态转换关系,所述单词大小写变化标签包括源单词到目标单词的转换关系;
所述插入标签包括单词原形表,所述单词原形表包括单词原形与单词的不同形态的对应关系。
可选地,所述根据所述纠错标签序列对所述原始文本进行纠错处理,得到目标文本,包括:
根据所述纠错标签序列对所述原始文本进行纠错处理,得到纠错文本;
将所述纠错文本输入所述纠错模型中,所述纠错模型输出所述纠错文本的纠错标签序列;
根据所述纠错文本的纠错标签序列对所述纠错文本进行纠错处理,直至所述纠错处理次数达到预设纠错次数或者相邻两次纠错处理得到的纠错文本一致的情况下,确定当前纠错处理得到的纠错文本为目标文本。
第二方面,本公开提供一种文本纠错装置,所述装置包括:
获取模块,被配置成用于获取原始文本;
执行模块,被配置成用于将所述原始文本输入纠错模型中,得到所述纠错模型输出所述原始文本的纠错标签序列,其中,所述纠错模型通过训练样本进行训练得到的,所述训练样本包括待纠错文本和作为所述待纠错文本的标签的文本纠错标签序列,所述纠错标签序列为所述原始文本转换为目标文本的转换条件;
处理模块,被配置成用于根据所述纠错标签序列对所述原始文本进行纠错处理,得到目标文本。
第三方面,本公开提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面中任一项所述的文本纠错方法的步骤。
第四方面,本公开提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面中任一项所述的文本纠错方法的步骤。
通过上述技术方案,通过纠错模型获取原始文本的纠错标签序列,根据纠错标签序列对原始文本进行纠错处理,得到目标文本,无需丰富的先验知识和大量人力,提高了纠错结果的准确率和纠错效率。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据本公开一示例性实施例示出的一种文本纠错方法的流程图;
图2是根据本公开一示例性实施例示出的一种文本纠错方法的纠错模型示意图;
图3是根据本公开一示例性实施例示出的一种文本纠错方法的另一流程图;
图4是根据本公开一示例性实施例示出的一种文本纠错装置的框图;
图5是根据本公开一示例性实施例示出的一种电子设备。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
正如背景技术所言,相关技术中可采用基于规则和语言模型的传统方法以及机器翻译的方式来实现文本纠错。基于规则和语言模型的传统方法,需要丰富的先验知识和大量的人力来构建规则,在保证纠错结果的准确率的同时无法保证该方法可进行纠错的覆盖范围,若扩大纠错的覆盖范围无法保证纠正结果的准确率。机器翻译的方式需要通过大量的源语言和目标语言来对模型进行训练,提高了纠错成本,且因其模型为端到端模型,翻译过程所耗费的时间较长,导致其翻译效率低下。
有鉴于此,本公开提供一种文本纠错方法、装置、存储介质及电子设备,无需丰富的先验知识和大量的人力来构建规则,实现对文本的自动纠错。
图1是根据本公开一示例性实施例示出的一种文本纠错方法的流程图。参照图1,该文本纠错方法包括:
在步骤S101中,获取原始文本。
在步骤S102中,将原始文本输入纠错模型中,得到纠错模型输出原始文本的纠错标签序列,其中,纠错模型通过训练样本进行训练得到的,训练样本包括待纠错文本和作为待纠错文本的标签的文本纠错标签序列,纠错标签序列为原始文本转换为目标文本的转换条件。
在步骤S103中,根据纠错标签序列对原始文本进行纠错处理,得到目标文本。
通过上述方式,无需耗费大量人力和大量先验知识来构建规则,也无需通过大量的源语言和目标语言来对模型进行训练,实现对文本的自动纠错,且提高了纠错结果的准确率以及纠错效率,可在纠错结果的准确率和纠错结果的覆盖范围上达到平衡。
为了使本领域技术人员更加理解本公开提供的文本纠错方法,下面对上述个步骤进行详细举例说明。
示例地,原始文本可以为存在语法错误的英语语句,也可以为不存在语法错误的英语语句。
在一可实施例中,在步骤S102中的纠错模型的输出层后还包括预测层;那么步骤S102中将原始文本输入到纠错模型中,得到纠错模型输出的原始文本的纠错标签序列,可以包括:
将输出层输出的对应各原始文本中个单词的向量输入到预测层中;
预测层根据预设标签表获取原始文本中各单词的向量的纠错标签,得到纠错文本的纠错标签序列。
应当理解的是,预测模型对原始文本做分词后的基本单位打上一个或多个标签,原始文本做分词后的各基本单位的标签根据在文本中的排列顺序进行排列,得到排列好的标签即为原始文本的纠错标签序列。
如图2所示,分词后的原始文本基本单位为标记(token),在将原始文本输入到纠错模型后,纠错模型会输出各标记的向量,各向量输入预测层后,预测层根据预设标签表确定并输出对应各向量的标签,将预测层输出的标签根据其对应的向量在原始文本中的排列顺序进行排列,得到原始文本的纠错标签序列。
举例说明,如图3所示,原始文本为“I have book”,在将原始文本输入到纠错模型后,纠错模型会输出“I”,“have”以及“book”的向量,各向量输入预测层后,预测层根据预设标签表确定并输出分别对应“I”的向量的标签“保持”,“have”的向量的两个标签“插入A”和“保持”以及“book”的向量标签“保持”,将各标签根据其对应的向量在“I have book”中的排列顺序进行排列,得到“I have book”的纠错标签序列“在have后插入A”。
其中,预测层根据预设标签表确定并输出对应各向量的标签,具体过程包括:预测层对应每个向量得到多个标签,然后通过softmax得到每个标签的概率值,确定最大概率值的位置,在预设标签表查找该位置对应的标签。例如,预测值是[0.1,0.3,0.1],则概率值是[0.2,0.6,0.2],概率最大的是第2个标签,去预设标签表查找第2个标签。
在一可实施例中,在步骤S103中纠错标签序列的获取方式包括:
获取文本序列对,文本序列对包括待纠错文本序列和对应待纠错文本的目标文本序列;
根据预设转换操作和预设标签表,对待纠错文本序列进行文本序列匹配,获取待纠错文本序列转换为对应待纠错文本序列的目标文本序列的文本纠错标签序列。
举例说明,文本序列对中,待纠错文本序列为“I have book”,对应待纠错文本的目标文本序列为“I have many old books”,根据预设转换操作和预设标签表,对“I havebook”进行文本序列匹配,得到的文本纠错标签序列为“在have这个单词后依次插入单词many old,将book替换成books”。
应当理解的是,纠错标签序列是表示待纠错文本序列转换为目标文本序列的转换关系,表示将待纠错文本序列转换为对应待纠错文本的目标文本序列所需的所有操作,以及文本中各标记可能涉及的所有标签,因此纠错标签序列的获取涉及到预设转换操作和预设标签表。
根据预设转换操作和预设标签表,对待纠错文本序列进行文本序列匹配,可以包括:定义代价函数cost,代价函数cost用于表示预设转换操作中每种操作所需的代价;定义disi,j,表示将待纠错文本序列中前i个单词构成的序列转换为目标文本序列前j个单词构成的序列需要的最小的代价。
定义opsi,j,表示待纠错文本序列中前i个单词构成的序列转换为目标文本序列前j个单词构成的序列的最优操作的最后一步。
从i=0,j=0开始,计算所有disi,j与opsi,j,ops记录了每一步对应的操作,根据opsi,j反向推理,得到待纠错文本序列转换为目标文本序列所需的最小代价。
举例说明,在“I have book”转换为“I have many old books”的过程中,ops3,5记录的操作是REPLACE_book_books,即将book替换成books,则反推,前一步的最小代价是dis2,4,找到dis2,4对应的操作,依次进行下去,得到“I have book”转换为“I have manyold books”所需的最小代价。
其中,操作代价是用于限制转换关系的,使转换关系更符合实际使用中习惯的改错方法。每种操作所需代价是自定义的,对于将单词w1替换成w2,根据预设标签表确定w1与w2的关系,如w1是book,w2是books,是单复数的关系,则将代价设的很低。这样,将“I havebook”纠错处理为“I have many old books”,就不会得到在单词have后依次插入单词manyold books,删除单词book的转换关系。这样的转换关系不符合实际使用中习惯的修改方法。
应当理解的是,预设转换操作包括纠正过程中所涉及的所有操作,该操作为将待纠错文本序列转换为对应待纠错文本的目标文本的转换操作,如插入、删除以及替换等。
在一可实施例中,预设转换操作包括插入操作、删除操作以及替换操作,其中,插入操作表示在原始文本中插入单词,删除操作表示删除原始文本中的目标单词,替换操作表示对原始文本中的目标单词进行替换。
将预设转换操作包括的所有操作定义为三类,分别为INSERT-插入操作,DELETE-操作以及REPLACE-替换操作。那么,如图3所示,将“I have book”纠错处理为“I have abook”的文本纠错标签序列为“KEEP INSERT_A KEEP KEEP”。以及,将“I have book”纠错处理为“I have many old books”的文本纠错标签序列为“KEEP INSERT_MANY OLD KEEPREPLACE BOOKS”。
应当理解的是,预设标签表包括纠正过程中所涉及的所有标签,该标签用于对待纠错文本序列的各单词进行标记,以便于确定待纠错文本序列转换为对应待纠错文本的目标文本的转换过程,需对各单词进行的操作,如保持标签、插入标签、删除标签以及替换标签等。
在一可实施例中,预设标签表包括保持标签、删除标签、插入标签以及替换标签,其中,保持标签用于指示被标记的单词保持不变,删除标签用于指示删除被标记的单词,插入标签用于指示在被标记的单词后面插入单词,替换标签用于指示将被标记的单词进行替换。
将预设标签表包括的所有标签定义为四类,分别为KEEP-保持标签,DELETE-删除标签,INSERT-插入标签以及REPLACE替换标签。
其中,保持标签和删除标签两类标签不受语法错误形式的影响,只包含“KEEP”和“DELETE”两个,不需要进行压缩。而插入标签和替换标签因语法错误的多样性,其后缀词可能是任一个单词或符号的任意一种形态,将构成非常庞大的此表,需要对其进行压缩。
在一可实施例中,替换标签包括动词形态变化表、形容词形态变化表、名词形态变化表以及单词大小写变化标签,其中,动词形态变化表包含动词不同形态的转换关系,形容词形态变化表包括形容词的比较级状态和最高级状态的转换关系,名词形态变化表包括名词的单复数形态转换关系,单词大小写变化标签包括源单词到目标单词的转换关系;
插入标签包括单词原形表,单词原形表包括单词原形与单词的不同形态的对应关系。
其中,在动词形态变化表中,定义每一个动词的形态至多分为五种:原形、过去式、过去分词、现在分词以及第三人称单数,分别以VB、VBD、VBN、VBG、VBZ表示。各形态两两之间形成转换关系,如VB->VBD,表示某个单词从原形变成过去式的形态变化,所有的转换关系不超过20种。对REPLACE标签,在源单词与替换单词在动词形态变化表中时,需要以对应的转换关系标签替换原REPLACE标签。则REPLACE标签中动词之间替换的标签压缩到20种。
在形容词形态变化表中,定义每一个形容词的形态至多分三种:原形,比较级以及最高级。各形态两两之间构成转换关系,所有的转换关系不超过6种。对REPLACE标签,在源单词与替换单词在形容词形态变化表中时,以对应的转换关系标签代替原REPLACE标签。则REPLACE标签中形容词原形、比较级以及最高级之间的替换标签压缩到6种。
在名词形态变化表中,定义名词的形态为单数形式和复数形式,则各名词的转换关系不超过2种。对REPLACE标签,在源单词与替换单词在名词形态变化表中时,以对应的转换关系标签代替原REPLACE标签,将REPLACE标签中不同名词的单、复数替换的标签压缩到2种。
构建单词大小写变化标签时,包含全变大写、全变小写、首字母大写三种标签,分别表示源单词到目标单词的转换关系。对于REPLACE标签,在源单词与目标单词符合前述转换关系时,以对应的标签替换原REPLACE标签,将REPLACE标签中单词大小写形态变化相关的标签压缩到3种。
在单词原形表中,包含不同形态的单词及其原形的对应关系。对于INSERT标签,在单词原形表中存在目标词的原形时,将INSERT标签拆分成两步,第一步插入单词原形,第二步由单词原形转换形态变成目标词。则插入多个有相同原形的不同单词的标签将压缩成一个标签,而形态转换标签是既有的标签,不额外增加标签数量,实现对INSERT标签的压缩。
在根据纠错标签序列对原始文本纠错时,可能存在纠错后的文本不是目标文本,所以需要进行多次纠错处理。
在一可实施例中,根据纠错标签序列对原始文本进行纠错处理,得到目标文本,包括:
根据纠错标签序列对原始文本进行纠错处理,得到纠错文本;
将纠错文本输入纠错模型中;
根据纠错文本的纠错标签序列对纠错文本进行纠错处理,直至纠错处理次数达到预设纠错次数或者相邻两次纠错处理得到的纠错文本一致的情况下,确定当前纠错处理得到的纠错文本为目标文本。
其中,预设纠错次数是对大量的数据进行纠错处理确定的,一般在3次~5次之间,在本实施例中预设纠错次数为3次。
根据得到的纠错标签序列“KEEP INSERT_A KEEP KEEP”对“I have a books”进行相应纠错操作,生成纠错文本“I have a books”,将“I have a books”输入纠错模型中,纠错模型输出纠错文本的纠错标签序列“KEEP KEEP KEEP REPLACE BOOK”,根据“KEEP KEEPKEEP REPLACE BOOK”对“I have a books”进行纠错处理,直到纠错处理次数达到3次或者相邻两次纠错处理得到的纠错文本一致的情况下,确定当前纠错处理得到的纠错文本为目标文本“I have a book”。
基于同一发明构思,本公开还提供一种文本纠错装置,该装置可以通过软件、硬件或者两者结合的方式成为点电子设备的部分或全部。参照图4,该文本纠错装置1300可以包括:
获取模块1301,被配置成用于获取原始文本。
执行模块1302,被配置成用于将所述原始文本输入纠错模型中,得到所述纠错模型输出所述原始文本的纠错标签序列,其中,所述纠错模型通过训练样本进行训练得到的,所述训练样本包括待纠错文本和作为所述待纠错文本的标签的文本纠错标签序列,所述纠错标签序列为所述原始文本转换为目标文本的转换条件。
处理模块1303,被配置成用于根据所述纠错标签序列对所述原始文本进行纠错处理,得到目标文本。
可选地,在纠错模型的输出层后还包括预测层的情况下,执行模块1302被配置成用于将所述输出层输出的对应所述原始文本中各单词的向量输入到所述预测层中;
所述预测层根据预设标签表获取所述原始文本中各单词的向量的纠错标签,得到所述纠错文本的纠错标签序列。
可选地,执行模块1302被配置成用于获取文本序列对,所述文本序列对包括待纠错文本序列和对应所述待纠错文本的目标文本序列;
根据预设转换操作和预设标签表,对所述待纠错文本序列进行文本序列匹配,获取所述待纠错文本序列转换为对应所述待纠错文本序列的目标文本序列的文本纠错标签序列。
可选地,执行模块1302纠错过程中的预设转换操作包括插入操作、删除操作以及替换操作,其中,所述插入操作表示在所述原始文本中插入单词,所述删除操作表示删除所述原始文本中的目标单词,所述替换操作表示对所述原始文本中的目标单词进行替换。
可选地,执行模块1302纠错过程中的预设标签表包括保持标签、删除标签、插入标签以及替换标签,其中,所述保持标签用于指示被标记的单词保持不变,所述删除标签用于指示删除被标记的单词,所述插入标签用于指示在被标记的单词后面插入单词,所述替换标签用于指示将被标记的单词进行替换。
可选地,执行模块1302纠错过程中的替换标签包括动词形态变化表、形容词形态变化表、名词形态变化表以及单词大小写变化标签,其中,所述动词形态变化表包含动词不同形态的转换关系,所述形容词形态变化表包括形容词的比较级状态和最高级状态的转换关系,所述名词形态变化表包括名词的单复数形态转换关系,所述单词大小写变化标签包括源单词到目标单词的转换关系;
所述插入标签包括单词原形表,所述单词原形表包括单词原形与单词的不同形态的对应关系。
可选地,处理模块1303,被配置成用于根据所述纠错标签序列对所述原始文本进行纠错处理,得到纠错文本;
将所述纠错文本输入所述纠错模型中,所述纠错模型输出所述纠错文本的纠错标签序列;
根据所述纠错文本的纠错标签序列对所述纠错文本进行纠错处理,直至所述纠错处理次数达到预设纠错次数或者相邻两次纠错处理得到的纠错文本一致的情况下,确定当前纠错处理得到的纠错文本为目标文本。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于同一发明构思,本公开还提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述的文本纠错方法的步骤。
图5是根据一示例性实施例示出的一种电子设备700的框图。如图5所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的文本纠错方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的文本纠错方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的文本纠错方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的文本纠错方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (10)
1.一种文本纠错方法,其特征在于,所述方法包括:
获取原始文本;
将所述原始文本输入纠错模型中,得到所述纠错模型输出所述原始文本的纠错标签序列,其中,所述纠错模型通过训练样本进行训练得到的,所述训练样本包括待纠错文本和作为所述待纠错文本的标签的文本纠错标签序列,所述纠错标签序列为所述原始文本转换为目标文本的转换条件;
根据所述纠错标签序列对所述原始文本进行纠错处理,得到目标文本。
2.根据权利要求1所述的方法,其特征在于,所述纠错模型的输出层后还包括预测层;
所述将所述原始文本输入纠错模型中,得到所述纠错模型输出所述原始文本的纠错标签序列,包括:
将所述输出层输出的对应所述原始文本中各单词的向量输入到所述预测层中;
所述预测层根据预设标签表获取所述原始文本中各单词的向量的纠错标签,得到所述纠错文本的纠错标签序列。
3.根据权利要求1所述的方法,其特征在于,所述文本纠错标签序列的获取方式包括:
获取文本序列对,所述文本序列对包括待纠错文本序列和对应所述待纠错文本的目标文本序列;
根据预设转换操作和预设标签表,对所述待纠错文本序列进行文本序列匹配,获取所述待纠错文本序列转换为对应所述待纠错文本序列的目标文本序列的文本纠错标签序列。
4.根据权利要求3所述的方法,其特征在于,所述预设转换操作包括插入操作、删除操作以及替换操作,其中,所述插入操作表示在所述原始文本中插入单词,所述删除操作表示删除所述原始文本中的目标单词,所述替换操作表示对所述原始文本中的目标单词进行替换。
5.根据权利要求3所述的方法,其特征在于,所述预设标签表包括保持标签、删除标签、插入标签以及替换标签,其中,所述保持标签用于指示被标记的单词保持不变,所述删除标签用于指示删除被标记的单词,所述插入标签用于指示在被标记的单词后面插入单词,所述替换标签用于指示将被标记的单词进行替换。
6.根据权利要求5所述的方法,其特征在于,所述替换标签包括动词形态变化表、形容词形态变化表、名词形态变化表以及单词大小写变化标签,其中,所述动词形态变化表包含动词不同形态的转换关系,所述形容词形态变化表包括形容词的比较级状态和最高级状态的转换关系,所述名词形态变化表包括名词的单复数形态转换关系,所述单词大小写变化标签包括源单词到目标单词的转换关系;
所述插入标签包括单词原形表,所述单词原形表包括单词原形与单词的不同形态的对应关系。
7.根据权利要求1所述的方法,其特征在于,所述根据所述纠错标签序列对所述原始文本进行纠错处理,得到目标文本,包括:
根据所述纠错标签序列对所述原始文本进行纠错处理,得到纠错文本;
将所述纠错文本输入所述纠错模型中,所述纠错模型输出所述纠错文本的纠错标签序列;
根据所述纠错文本的纠错标签序列对所述纠错文本进行纠错处理,直至所述纠错处理次数达到预设纠错次数或者相邻两次纠错处理得到的纠错文本一致的情况下,确定当前纠错处理得到的纠错文本为目标文本。
8.一种文本纠错装置,其特征在于,所述装置包括:
获取模块,被配置成用于获取原始文本;
执行模块,被配置成用于将所述原始文本输入纠错模型中,得到所述纠错模型输出所述原始文本的纠错标签序列,其中,所述纠错模型通过训练样本进行训练得到的,所述训练样本包括待纠错文本和作为所述待纠错文本的标签的文本纠错标签序列,所述纠错标签序列为所述原始文本转换为目标文本的转换条件;
处理模块,被配置成用于根据所述纠错标签序列对所述原始文本进行纠错处理,得到目标文本。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7中任一项所述的文本纠错方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述的文本纠错方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110470228.7A CN113515934A (zh) | 2021-04-28 | 2021-04-28 | 文本纠错方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110470228.7A CN113515934A (zh) | 2021-04-28 | 2021-04-28 | 文本纠错方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113515934A true CN113515934A (zh) | 2021-10-19 |
Family
ID=78064245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110470228.7A Pending CN113515934A (zh) | 2021-04-28 | 2021-04-28 | 文本纠错方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113515934A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162767A (zh) * | 2018-02-12 | 2019-08-23 | 北京京东尚科信息技术有限公司 | 文本纠错的方法和装置 |
CN111626047A (zh) * | 2020-04-23 | 2020-09-04 | 平安科技(深圳)有限公司 | 智能化文本纠错方法、装置、电子设备及可读存储介质 |
CN111931490A (zh) * | 2020-09-27 | 2020-11-13 | 平安科技(深圳)有限公司 | 文本纠错方法、装置及存储介质 |
WO2021164310A1 (zh) * | 2020-02-21 | 2021-08-26 | 华为技术有限公司 | 文本纠错方法、装置、终端设备及计算机存储介质 |
-
2021
- 2021-04-28 CN CN202110470228.7A patent/CN113515934A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162767A (zh) * | 2018-02-12 | 2019-08-23 | 北京京东尚科信息技术有限公司 | 文本纠错的方法和装置 |
WO2021164310A1 (zh) * | 2020-02-21 | 2021-08-26 | 华为技术有限公司 | 文本纠错方法、装置、终端设备及计算机存储介质 |
CN111626047A (zh) * | 2020-04-23 | 2020-09-04 | 平安科技(深圳)有限公司 | 智能化文本纠错方法、装置、电子设备及可读存储介质 |
CN111931490A (zh) * | 2020-09-27 | 2020-11-13 | 平安科技(深圳)有限公司 | 文本纠错方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
OMELIANCHUK K, ET AL: "GECToR-Grammatical Error Correction:Tag,Not Rewrite", IN PROCEEDINGS OF THE 15TH WORKSHOP ON INNOVATIVE USE OF NLP FOR BUILDING EDUCATIONAL APPLICATIONS, 20 May 2020 (2020-05-20), pages 163 - 170 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489760B (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN110750959B (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN106534548B (zh) | 语音纠错方法和装置 | |
CN110008472B (zh) | 一种实体抽取的方法、装置、设备和计算机可读存储介质 | |
CN112016310A (zh) | 文本纠错方法、系统、设备及可读存储介质 | |
CN102156551B (zh) | 一种字词输入的纠错方法及系统 | |
JP5128629B2 (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
CN112036162B (zh) | 文本纠错的适配方法、装置、电子设备及存储介质 | |
CN107273356B (zh) | 基于人工智能的分词方法、装置、服务器和存储介质 | |
CN110795938B (zh) | 文本序列分词方法、装置及存储介质 | |
CN110532573A (zh) | 一种翻译方法和系统 | |
CN103678285A (zh) | 机器翻译方法和机器翻译系统 | |
CN111144140B (zh) | 基于零次学习的中泰双语语料生成方法及装置 | |
CN110211562B (zh) | 一种语音合成的方法、电子设备及可读存储介质 | |
CN108304376B (zh) | 文本向量的确定方法、装置、存储介质及电子装置 | |
CN111243571A (zh) | 文本的处理方法、装置、设备及计算机可读存储介质 | |
US20030061030A1 (en) | Natural language processing apparatus, its control method, and program | |
CN115455175A (zh) | 基于多语言模型的跨语言摘要生成方法和装置 | |
CN114925170B (zh) | 文本校对模型训练方法及装置、计算设备 | |
CN114742037A (zh) | 文本纠错方法、装置、计算机设备和存储介质 | |
US10650195B2 (en) | Translated-clause generating method, translated-clause generating apparatus, and recording medium | |
CN111178097B (zh) | 基于多级翻译模型生成中泰双语语料的方法及装置 | |
CN110852063B (zh) | 基于双向lstm神经网络的词向量生成方法及装置 | |
CN110929514A (zh) | 文本校对方法、装置、计算机可读存储介质及电子设备 | |
CN113515934A (zh) | 文本纠错方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |