CN114417834A - 文本的处理方法、装置、电子设备及可读存储介质 - Google Patents
文本的处理方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN114417834A CN114417834A CN202111607020.1A CN202111607020A CN114417834A CN 114417834 A CN114417834 A CN 114417834A CN 202111607020 A CN202111607020 A CN 202111607020A CN 114417834 A CN114417834 A CN 114417834A
- Authority
- CN
- China
- Prior art keywords
- error
- text
- error correction
- model
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 11
- 238000012937 correction Methods 0.000 claims abstract description 278
- 238000001514 detection method Methods 0.000 claims abstract description 71
- 238000000034 method Methods 0.000 claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims description 130
- 238000003745 diagnosis Methods 0.000 claims description 44
- 238000004590 computer program Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 11
- 239000013598 vector Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000006467 substitution reaction Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 4
- 238000013210 evaluation model Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 241000233805 Phoenix Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000001491 myopia Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请公开了一种文本的处理方法、装置、电子设备及可读存储介质,属于人工智能技术领域。包括:对待处理的第一文本进行错误检测;若经错误检测确定所述第一文本存在错误且所述错误属于第一错误类型,则从多个纠错模型中,确定与所述第一错误类型对应的第一纠错模型,所述多个纠错模型中的不同纠错模型能够对不同错误类型的错误文本进行纠错;通过所述第一纠错模型对所述第一文本进行纠错处理,输出候选文本;根据所述候选文本,确定目标文本。本申请通过确定第一文本中的错误的错误类型,并针对该错误类型,采用对应的纠错模型进行纠错,使得纠错具有一定的针对性,从而可以提高纠错的有效性,进而提高纠错效果。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种文本的处理方法、装置、电子设备及可读存储介质。
背景技术
在人工智能领域,通常需要对文本进行语义解析、文字识别等处理。在一些场景中,由于文本是人工手动输入的,所以可能存在错误,如果基于这样的文本进行语义解析,容易导致出现解析错误或者无法解析的问题。
为此,在对文本进行语义解析之前,可以对文本进行纠错处理。在相关技术中,一般使用两步法进行纠错处理。首先,通过序列学习的方式检测错误文本的位置,然后通过掩码模型对错误文本进行掩码处理,并产生候选字,如此就可以基于候选字重新确定文本。
然而,上述提供的纠错处理方法中,掩码模型的纠错能力有限,所以容易导致纠错效果较差。
发明内容
本申请实施例提供了一种文本的处理方法、装置、电子设备及可读存储介质,可以解决相关技术中由于掩码模型的纠错能力有限导致纠错效果较差的问题。所述技术方案如下:
第一方面,提供了一种文本的处理方法,所述方法包括:
对待处理的第一文本进行错误检测;
若经错误检测确定所述第一文本存在错误且所述错误属于第一错误类型,则从多个纠错模型中,确定与所述第一错误类型对应的第一纠错模型,所述多个纠错模型中的不同纠错模型能够对不同错误类型的错误文本进行纠错;
通过所述第一纠错模型对所述第一文本进行纠错处理,输出候选文本;
根据所述候选文本,确定目标文本。
作为本申请的一个示例,所述根据所述候选文本,确定目标文本,包括:
分别确定所述第一文本的困惑度和所述候选文本的困惑度;
从所述第一文本和所述候选文本中,选择困惑度最小的文本;
将从所述第一文本和所述候选文本中选择的文本,确定为所述目标文本。
作为本申请的一个示例,所述通过所述第一纠错模型对所述第一文本进行纠错处理,输出候选文本之后,还包括:
继续对当前得到的候选文本进行错误检测;
若得到的候选文本中存在错误,则从所述多个纠错模型中,确定与得到的候选文本的第二错误类型对应的第二纠错模型,所述第二错误类型是通过错误检测确定;
通过所述第二纠错模型对得到的候选文本进行纠错处理,再次得到候选文本,并返回至所述继续对当前得到的候选文本进行错误检测的操作,直到得到的候选文本中不存在错误时,结束操作。
作为本申请的一个示例,所述第一错误类型包括替换错误类型、缺字错误类型、缺词错误类型、倒置错误类型中的任意一种,其中,所述替换错误类型是指文本内容被同音词、同音字、形近字、近音字中的任一种替换,所述倒置错误类型是指文本内容的位置发生颠倒。
作为本申请的一个示例,若所述第一错误类型为所述替换错误类型,则所述第一纠错模型为替换纠错模型;
所述替换纠错模型的训练方式包括:
获取第一训练样本集,所述第一训练样本集中包括多个第一样本数据对,每个第一样本数据对包括正确语句样本和所述正确语句样本对应的替换错误语句样本,所述替换错误语句样本是对所述正确语句样本中的部分文本内容按照同音词、同音字、形近字、近音字中的任一种方式进行替换后生成的;
基于所述第一训练样本集,对经过预训练的第一Macbert模型进行训练,以得到所述替换纠错模型。
作为本申请的一个示例,若所述第一错误类型为所述缺字错误类型,则所述第一纠错模型为缺字纠错模型;
所述缺字纠错模型的训练方式包括:
获取第二训练样本集,所述第二训练样本集中包括多个第二样本数据对,每个第二样本数据对包括完整语句样本和所述完整语句样本对应的缺字错误语句样本,所述缺字错误语句样本是将所述完整语句样本中的字进行删除处理后生成的;
基于所述第二训练样本集,对经过预训练的第二Macbert模型进行训练,以得到所述缺字纠错模型。
作为本申请的一个示例,若所述第一错误类型为所述置换错误类型,则所述第一纠错模型为置换纠错模型;
所述置换纠错模型的训练方式包括:
获取第三训练样本集,所述第三训练样本集中包括多个第三样本数据对,每个第三样本数据对包括正确语句样本和所述正确语句样本对应的置换错误语句样本,所述置换错误语句样本是对所述正确语句样本中的部分文本内容进行位置置换后生成的;
基于所述第三训练样本集,对经过预训练的第三Macbert模型进行训练,以得到所述置换纠错模型。
作为本申请的一个示例,所述对待处理的第一文本进行错误检测,包括:
调用错误诊断模型,所述错误诊断模型能够检测出任意一个错误文本的错误类型;
通过所述错误诊断模型,对所述第一文本进行错误检测,以确定所述第一错误类型。
第二方面,提供了一种文本的处理装置,所述装置包括:
检测模块,用于对待处理的第一文本进行错误检测;
第一确定模块,用于若经错误检测确定所述第一文本存在错误且所述错误属于第一错误类型,则从多个纠错模型中,确定与所述第一错误类型对应的第一纠错模型,所述多个纠错模型中的不同纠错模型能够对不同错误类型的错误文本进行纠错;
纠错模块,用于通过所述第一纠错模型对所述第一文本进行纠错处理,输出候选文本;
第二确定模块,用于根据所述候选文本,确定目标文本。
作为本申请的一个示例,所述第二确定模块用于:
分别确定所述第一文本的困惑度和所述候选文本的困惑度;
从所述第一文本和所述候选文本中,选择困惑度最小的文本;
将从所述第一文本和所述候选文本中选择的文本,确定为所述目标文本。
作为本申请的一个示例,所述纠错模块还用于:
继续对当前得到的候选文本进行错误检测;
若得到的候选文本中存在错误,则从所述多个纠错模型中,确定与得到的候选文本的第二错误类型对应的第二纠错模型,所述第二错误类型是通过错误检测确定;
通过所述第二纠错模型对得到的候选文本进行纠错处理,再次得到候选文本,并返回至所述继续对当前得到的候选文本进行错误检测的操作,直到得到的候选文本中不存在错误时,结束操作。
作为本申请的一个示例,所述第一错误类型包括替换错误类型、缺字错误类型、缺词错误类型、倒置错误类型中的任意一种,其中,所述替换错误类型是指文本内容被同音词、同音字、形近字、近音字中的任一种替换,所述倒置错误类型是指文本内容的位置发生颠倒。
作为本申请的一个示例,若所述第一错误类型为所述替换错误类型,则所述第一纠错模型为替换纠错模型;
所述纠错模块还用于对所述替换纠错模型进行训练,具体包括:
获取第一训练样本集,所述第一训练样本集中包括多个第一样本数据对,每个第一样本数据对包括正确语句样本和所述正确语句样本对应的替换错误语句样本,所述替换错误语句样本是对所述正确语句样本中的部分文本内容按照同音词、同音字、形近字、近音字中的任一种方式进行替换后生成的;
基于所述第一训练样本集,对经过预训练的第一Macbert模型进行训练,以得到所述替换纠错模型。
作为本申请的一个示例,若所述第一错误类型为所述缺字错误类型,则所述第一纠错模型为缺字纠错模型;
所述纠错模块还用于对所述缺字纠错模型进行训练,具体包括:
获取第二训练样本集,所述第二训练样本集中包括多个第二样本数据对,每个第二样本数据对包括完整语句样本和所述完整语句样本对应的缺字错误语句样本,所述缺字错误语句样本是将所述完整语句样本中的字进行删除处理后生成的;
基于所述第二训练样本集,对经过预训练的第二Macbert模型进行训练,以得到所述缺字纠错模型。
作为本申请的一个示例,若所述第一错误类型为所述置换错误类型,则所述第一纠错模型为置换纠错模型;
所述纠错模块还用于对置换纠错模型进行训练,具体包括:
获取第三训练样本集,所述第三训练样本集中包括多个第三样本数据对,每个第三样本数据对包括正确语句样本和所述正确语句样本对应的置换错误语句样本,所述置换错误语句样本是对所述正确语句样本中的部分文本内容进行位置置换后生成的;
基于所述第三训练样本集,对经过预训练的第三Macbert模型进行训练,以得到所述置换纠错模型。
作为本申请的一个示例,所述检测模块用于:
调用错误诊断模型,所述错误诊断模型能够检测出任意一个错误文本的错误类型;
通过所述错误诊断模型,对所述第一文本进行错误检测,以确定所述第一错误类型。
第三方面,提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现第一方面中所述的方法的步骤。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行第一方面中所述的方法的步骤。
本申请实施例提供的技术方案带来的有益效果是:
对待处理的第一文本进行错误检测,若第一文本存在错误,说明第一文本需要纠正,此时,可以从多个纠错模型中,确定与第一错误类型对应的第一纠错模型,其中第一错误类型是经错误检测确定的,多个纠错模型中的不同纠错模型能够对不同错误类型的错误文本进行纠错。通过第一纠错模型对第一文本进行纠错处理,输出候选文本。根据候选文本,确定目标文本。如此,通过确定第一文本中的错误的错误类型,并针对该错误类型,采用对应的纠错模型进行纠错,使得纠错具有一定的针对性,从而可以提高纠错的有效性,进而提高纠错效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种电子设备的内部结构示意图;
图2是根据一示例性实施例示出的一种文本的处理方法的流程示意图;
图3是根据另一示例性实施例示出的一种文本的处理方法的流程示意图;
图4是根据一示例性实施例示出的一种替换纠错模型的输入输出示意图;
图5是根据一示例性实施例示出的一种文本的处理方法的流程示意图;
图6是根据一示例性实施例示出的一种文本的处理装置的结构示意图;
图7是根据一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
应当理解的是,本申请提及的“多个”是指两个或两个以上。在本申请的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,为了便于清楚描述本申请的技术方案,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
在对本申请提供的文本的处理方法进行详细介绍之前,先对本申请实施例涉及的应用场景、实施环境分别进行介绍。
首先,对本申请实施例涉及的几种可能的应用场景进行简单介绍。
在一个实施例中,在提供有服务热线的平台上,当用户有业务诉求时,可以拨打某服务热线。对于业务人员来说,在接听电话的过程中,为了便于后续能够高效率地解决用户的业务诉求,通常可以在电脑之类的设备上对通话内容进行记录,这里将记录的文本称为第一文本。如此,后续就可以基于第一文本进行语义解析,以确定第一文本的内容主题,从而根据内容主题,将用户的业务诉求提交给对应的部门来解决。
在另一个实施例中,在会议场所,为了能够记录会议的内容,通常由会议记录人员通过笔记本电脑之类的设备进行会议记录,这里可以将记录的文本称为第一文本。在后续工作总结中,可以对第一文本进行语义解析,以确定会议的核心思想,从而为工作总结等事宜提供条件。
在又一个实施例中,随着智能终端技术的快速发展,各种不同类型的线上学习平台得到广泛应用。用户在学习的过程中,可能会通过平板、笔记本电脑等设备记录笔记,这里将记录的笔记文本称为第一文本。后续可以对第一文本进行语义解析等处理,以对学习内容进行归纳总结。
在上述几种可能的应用场景中,由于第一文本是人工手动输入的,所以通常大概率会存在一些错误,譬如第一文本中存在缺字、缺词的情况,再如第一文本中某个或某些词语错输入为近音词语,比如将“仅”错输入为“尽”。如此以来,将可能影响后续的语义解析等处理效果。为此,本申请实施例提供了一种文本的处理方法,该方法可以尽可能的得到正确的文本内容,其具体实现可以参见下文各个实施例。
接下来,对本申请实施例涉及的实施环境进行简单介绍。
本申请实施例提供的方法可以由电子设备执行。在一个实施例中,该电子设备可以包括但不限于平板电脑、笔记本电脑、台式机之类的设备,本申请实施例对此不作限定。
该电子设备中可以运行多个模型。示例性地,请参考图1,该电子设备中运行的多个模型主要包括错误诊断模型和多个纠错模型。在一个实施例中,可以将图1所示的架构称为纠错系统。
其中,错误诊断模型能够检测出任意一个错误文本的错误类型。在本申请实施例中,错误诊断模型能够对第一文本进行纠错检测,以确定第一文本是否存在错误,以及在确定第一文本存在错误时确定第一文本的错误类型。
多个纠错模型中的不同纠错模型能够对不同错误类型的错误文本进行纠错。在一个实施例中,如图1所示,多个纠错模型包括但不限于替换纠错模型、缺字纠错模型、缺词纠错模型、倒置纠错模型。
替换纠错模型能够对替换错误类型的错误文本进行纠错处理。其中,替换错误类型是指文本内容被同音词、同音字、形近字、近音字中的任一种替换,譬如将“指示”替换成“只是”等。
缺字纠错模型能够对缺字错误类型的错误文本进行纠错处理。其中,缺字错误类型是指文本中缺少字,譬如将文本中的“免费”错输入为“免”,也即缺失“费”字。
缺词纠错模型能够对缺词错误类型的错误文本进行纠错处理。其中,缺词错误类型是指文本中缺少词语,譬如文本中的“多个”一词缺失。
倒置纠错模型能够对倒置错误类型的错误文本进行纠错处理。其中,倒置错误类型是指文本内容的位置发生颠倒,譬如文本内容“上下”置换成“下上”。
当然需要说明的是,图1仅是示例性的示出了四个纠错模型,在另一实施例中,多个纠错模型还可能包括其他类型的纠错模型,譬如还可能包括冗余纠错模型等。冗余纠错模型能够对冗余错误类型的错误文本进行纠错处理,冗余错误类型是指文本中存在冗余内容。
作为示例而非限定,电子设备还包括评估模型,评估模型可以用于对各个纠错模型的纠错结果进行评估,以根据评估结果确定是否选用纠错后的文本作为最终的输出。具体实现可以参见如下实施例。
基于图1所示的实施环境,接下来对本申请实施例提供的文本的处理方法流程进行详细介绍。请参考图2,图2是根据一示例性实施例示出的一种文本的处理方法的流程示意图,该方法可以包括如下几个步骤:
步骤201:对待处理的第一文本进行错误检测。
在一个实施例中,对待处理的一个文本进行错误检测的具体实现可以包括:调用错误诊断模型,错误诊断模型能够检测出任意一个错误文本的错误类型。通过错误诊断模型,对第一文本进行错误检测,以确定第一错误类型。
第一文本可能存在错误,也可能不存在错误,为了进一步判断,电子设备可以对第一文本进行预处理,以将第一文本转化成向量。然后,请参考图3,电子设备调用错误诊断模型,并将对第一文本转换后得到的向量输入至错误诊断模型中,由错误诊断模型进行错误检测,以确定第一文本中是否存在错误,以及若第一文本中存在错误,错误诊断模型确定第一文本中的错误的第一错误类型。也就是说,错误诊断模型能够检测出任意一个文本中是否存在错误以及在存在错误的情况下可以确定对应的错误类型。如此,通过错误诊断模型进行错误检测,相比于其他方式可以提高检测效率。
作为本申请的一个示例,输入至错误诊断模型的文本长度可以要求小于或等于预设长度阈值。该预设长度阈值可以根据实际需求进行设置,譬如预设长度阈值为512个字符,也即输入至错误诊断模型的文本的最大长度是512。若第一文本的长度大于预设长度阈值,则可以将第一文本进行断句处理,以将第一文本拆分成多个文本片段,然后通过错误诊断模型分别对多个文本片段中的各个文本片段进行错误检测。
作为本申请的一个示例,第一错误类型可能包括替换错误类型、缺字错误类型、缺词错误类型、倒置错误类型中的任意一种。
接下来通过表1对几种不同的错误类型进行举例介绍。
表1
在一个示例中,第一文本的正确内容应该是“装修就是妥妥的粤式大排档风格”,若第一文本被记录为“装置就是妥妥的粤式大排档凤阁”,不难理解,“风格”被替换成了“凤阁”,所以第一文本存在替换错误。该种情况下,电子设备在通过错误诊断模型对第一文本进行错误检测后,错误诊断模型输出第一标签,第一标签用于指示第一文本存在错误且错误类型是替换错误类型。
在又一个示例中,第一文本的正确内容应该是“他的直播分为上下两场”,若第一文本被记录为“他的直播分为下上两场”,不难理解,“上下”一次被错误置换为“下上”,所以第一文本存在倒置错误。该种情况下,电子设备在通过错误诊断模型对第一文本进行错误检测后,错误诊断模型输出第二标签,第二标签用于指示第一文本存在错误且错误类型是倒置错误类型。
在另一个示例中,第一文本的正确内容应该是“A场所应该对公众免费开放”,若第一文本被记录为“A场所应该对公众免开放”,不难理解,“免费”中缺少“费”字,所以第一文本存在缺字错误。该种情况下,电子设备在通过错误诊断模型对第一文本进行错误检测后,错误诊断模型输出第三标签,第三标签用于指示第一文本存在错误且错误类型是缺字错误类型。
在又一个实施例中,第一文本的正确内容应该是“需要对B产品多次进行检测”,若第一文本被记录为“需要对B产品进行检测”,不难理解,缺失了“多次”一词,所以第一文本存在缺词错误。该种情况下,电子设备通过错误诊断模型对第一文本进行错误检测后,错误诊断模型输出第四标签,第四标签用于指示第一文本存在错误且错误类型是缺词错误类型。
需要说明的是,上文仅是以第一错误类型包括替换错误类型、缺字错误类型、缺词错误类型、倒置错误类型中的任意一种为例进行说明的。在另一实施例中,第一错误类型还可能是但不限于冗余错误类型、无序错误类型,本申请实施例对此不作限定。
另外,上述错误诊断模型是预先经过训练得到的。在一个实施例中,错误诊断模型的训练过程可以包括:获取第四训练样本集,第四训练样本集中包括多个第四样本数据,多个第四样本数据中的每个第四样本数据包括错误语句样本和该错误语句样本对应的错误类型标签。然后,基于第四训练样本集对经过预训练的第四Macbert模型进行训练,以得到错误诊断模型。
作为示例而非限定,可以利用一些新闻语料,根据不同的错误类型构造出多个错误语句样本,并生成每个错误语句样本对应的错误类型标签,从而得到第四训练样本集。不同的错误语句样本的构造方法可以为:
1、对于替换错误类型的错误语句样本的构造,每给定一个正确文本(譬如一个语句),可以随机地选取一个词语或一个字进行替换,将替换后得到的各个文本作为错误语句样本。然后,将各个错误语句样本与替换错误标签作为一组第四样本数据。其中,针对不同的正确文本,在替换时,可以以一定的概率分别进行同音字、同音词、形近字、近音字替换,使得最终得到的所有替换错误类型的错误语句样本中,同音字、同音词、形近字、近音字的替换比例较接近,譬如替换比例为1:1:1:1。
2、对于倒置错误类型的错误语句样本的构造,每给定一个正确文本,可以随机地选取一个字(或者词语),将其与相邻的字(或者词语)的位置进行交换,以得到倒置错误类型的错误语句样本。然后,将各个错误语句样本与倒置错误标签作为一组第四样本数据。
3、对于缺字错误类型的错误语句样本的构造,每给定一个正确文本(譬如一个完整的语句),可以随机地删除其中的一个字,以得到缺字错误类型的错误语句样本。然后,将各个错误语句样本与缺字错误标签作为一组第四样本数据。
4、在构造缺词错误类型的错误语句样本时,每给定一个正确文本(譬如一个完整的语句),可以随机地删除其中一个词语,以得到缺词错误类型的错误语句样本。然后,将各个错误语句样本与缺词错误标签作为一组第四样本数据。
另外,为了能够检测出任意文本是否存在错误,在第四训练样本集中还包括多个正确语句样本。
作为本申请的一个示例,在第四训练样本集中,不同类型的第四样本数据的数量比例可以是等比例,比如上述四种错误类型的错误语句样本以及正确语句样本的数量比例是1:1:1:1:1,如此可以有助于模型训练,加速收敛。
在本申请实施例中,可以选用Macbert模型作为待训练的模型。然而在实施中,如果基于原始的Macbert模型进行训练,则需要较长的训练时间和大量的训练样本,所以,为了能够提高训练效率,电子设备可以选用已经过预训练的第四Macbert模型作为待训练的模型。经过预训练的第四Macbert模型是指已经过训练且具备一定功能的模型,譬如经过预训练的第四Macbert模型能够确定任意的两个语句是否属于同一段落,或者对添加掩码的句子生成候选词进行补全。电子设备基于第四训练样本集,对经过预训练的第四Macbert模型进行训练,从而得到能够对任意文本进行错误检测的错误诊断模型。第四Macbert模型中包括一个多层的Transformer编码器网络和一个多层的全连接网络,Transformer编码器网络用于语义特征提取,全连接网络用于错误类型分类,损失函数可以采用交叉熵。
步骤202:若经错误检测确定第一文本存在错误且错误属于第一错误类型,则从多个纠错模型中,确定与第一错误类型对应的第一纠错模型,多个纠错模型中的不同纠错模型能够对不同错误类型的错误文本进行纠错。
作为本申请的一个示例,多个纠错模型包括但不限于替换纠错模型、倒置纠错模型、缺字纠错模型、缺词纠错模型中的至少两种。多个纠错模型中的各个纠错模型均是预先经过训练得到的,关于各个纠错模型的训练过程可以参见下文中其他实施例。
请参考图3,当经错误检测确定第一文本存在错误且确定第一文本的错误类型是第一错误类型时,为了能够有效地、具有针对性地对第一文本进行纠错,电子设备从多个纠错模型中确定能够对第一错误类型的错误文本进行纠错的第一纠错模型。
譬如,假设第一文本是“装修就是妥妥的粤式大排档凤阁”,经过纠错检测后确定第一文本的错误类型是替换错误,则电子设备从多个纠错模型中确定替换纠错模型,并将替换纠错模型作为第一纠错模型。
再如,假设第一文本是“他的直播分为下上两场”,经过纠错检测后确定第一文本的错误类型是倒置错误,则电子设备从多个纠错模型中确定倒置纠错模型,并将倒置纠错模型作为第一纠错模型。
又如,假设第一文本是“A场所应该对公众免开放”,经过纠错检测后确定第一文本的错误类型的缺字错误,则电子设备从多个纠错模型中确定缺字纠错模型,并将缺字纠错模型作为第一纠错模型。
步骤203:通过第一纠错模型对第一文本进行纠错处理,输出候选文本。
在实施中,电子设备对第一文本进行预处理,将第一文本的每个字通过编码转化成字向量,假如一个句子有K个字,则最后可以得到K个字向量。然后将K个字向量输入至第一纠错模型,由第一纠错模型进行纠错处理,输出K个新的字向量,这些字向量经过解码后即可得到纠正后的字,并输出候选文本。示例性地,请参考图4,将“我时刻私锁这个问题。”转化成向量,然后输入至第一纠错模型后,由第一纠错模型进行纠错处理后,得到“我时刻思索这个问题。”这个候选文本。
步骤204:根据候选文本,确定目标文本。
目标文本是指后续要用于执行其他操作的文本。譬如目标文本可以用于后续进行语义解析、文字识别等处理。
在一个实施例中,根据候选本文确定目标文本的具体实现可以包括:分别确定第一文本的困惑度和候选文本的困惑度。从第一文本和候选文本中,选择困惑度最小的文本。将从第一文本和候选文本中选择的文本,确定为目标文本。
困惑度是一种评价指标,可用于判断一个句子是人说出的话的概率。文本的困惑度越低,说明该文本越接近常规语句,或者说越接近人常规的说话风格。
在实施中,可以通过图1中的评估模型确定困惑度,譬如该评估模型可以为n-gram语言模型。n-gram语言模型可以是预先经过训练的模型,在一个示例中,以采用3-gram语言模型为例,在训练过程中,可以获取第六训练样本集,譬如选择新闻语料作为第六训练样本集,第六训练样本集中包括多个文本样本。对于第六训练样本集中的每个文本样本,通过3-gram语言模型统计每相邻三个字在第六训练样本集中出现的次数,以及统计每相邻两个字在第六训练样本集中出现的次数。假设一个文本样本由L个字组成,记为s=[w1,w2,w3,...,wL],那么3-gram语言模型可以通过如下公式(1)计算出这个文本样本的概率:
其中,p(s)表示文本样本的概率,p(wi|wi-2,wi-1)表示在出现wi-1,wi-2这两个字的情况下,下一个字是wi的概率,可以通过如下公式(2)确定:
其中,c(wi-2,wi-1)表示第六训练样本集中wi-2,wi-1这两个字组成的词出现的次数,为第六训练样本集中wi-2,wi-1,wi这三个字组成的词出现的次数。
在使用3-gram语言模型计算困惑度时,给定一个文本s,可以使用公式(1)计算该文本s的概率p(s),然后通过如下公式(3)确定文本s的困惑度:
其中,ppl为文本s的困惑度。不难理解,文本s的概率越大,困惑度越低。
由于纠错模型可能存在一定概率的纠错性能差的问题,因此,请参考图3,在得到候选文本后,可以通过上述评估模型确定候选文本的困惑度和第一文本的困惑度,之后,将这两者进行比较,以对纠错模型的纠错效果进行评估。如果候选文本的困惑度小于第一文本的困惑度,则说明纠错模型的纠错结果较好,此时可以将候选文本作为目标文本。反之,如果候选文本的困惑度大于第一文本,则说明纠错模型的纠错结果较差,也就是说,经过纠错处理后的文本可能比原始的文本的正确性低,更难以解读,该种情况下,电子设备可以将第一文本作为目标文本。
值得一提的是,在得到候选文本后,电子设备通过比较候选文本的困惑度与第一文本的困惑度,确定最终将哪个作为目标文本,如此可以提高纠错系统的准确度。
需要说明的是,上述根据候选文本确定目标文本的具体实现仅是示例性的,在另一实施例中,由于候选文本是对第一文本进行纠错处理后得到的,所以大概率会比第一文本的正确性高,因此,电子设备也可以直接将候选文本确定为目标文本。
另外,请参考图3,若对第一文本进行纠错检测后确定第一文本不存在错误,则可以将第一文本直接确定为目标文本,也即输出的是第一文本。
在本申请实施例中,对待处理的第一文本进行错误检测,若第一文本存在错误,说明第一文本需要纠正,此时,可以从多个纠错模型中,确定与第一错误类型对应的第一纠错模型,其中第一错误类型是经错误检测确定的,多个纠错模型中的不同纠错模型能够对不同错误类型的错误文本进行纠错。通过第一纠错模型对第一文本进行纠错处理,输出候选文本。根据候选文本,确定目标文本。如此,通过确定第一文本中的错误的错误类型,并针对该错误类型,采用对应的纠错模型进行纠错,使得纠错具有一定的针对性,从而可以提高纠错的有效性,进而提高纠错效果。
需要说明的是,上述是以对第一文本中存在的一种错误类型的错误文本进行纠正为例进行说明。在另一实施例中,第一文本中还可能存在至少两种错误类型的错误,此时,还可以对至少两种错误类型中的每种错误类型的错误均进行纠正处理。请参考图5,图5是根据另一示例性实施例提供的一种文本的处理方法的流程示意图,该方法可以包括如下内容:
501:对待处理的第一文本进行错误检测。
其具体实现可以参见上述图2所示实施例中的步骤201,这里不再重复介绍。
502:若经错误检测确定第一文本存在错误且错误属于第一错误类型,则从多个纠错模型中,确定与第一错误类型对应的第一纠错模型。
多个纠错模型中的不同纠错模型能够对不同错误类型的错误文本进行纠错。
在一个实施例中,第一文本中包括多种错误类型的错误,在每次错误检测过程中,可以通过错误诊断模型确定一种错误类型。譬如,假设第一文本包括替换错误和置换错误。若通过错误诊断模型对第一文本进行错误检测后,确定第一文本的错误类型是替换错误类型,则电子设备从多个纠错模型中,确定替换纠错模型。
503:通过第一纠错模型对第一文本进行纠错处理,输出候选文本。
继续以上述例子为例,电子设备通过替换纠错模型对第一文本进行纠错处理,输出候选文本,不难理解,此时得到的候选文本中还可能包括置换错误。
504:继续对当前得到的候选文本进行错误检测。
由于候选文本还可能存在其他类型的错误,所以,电子设备可以继续对候选文本进行错误检测。在实施中,可以继续通过错误诊断模型对候选文本进行错误检测,错误诊断模型能够确定候选文本是否存在错误以及若存在错误,则可以确定该错误的错误类型,这里将该错误类型称为第二错误类型。
505:根据错误检测结果判断候选文本是否存在错误。
如果候选文本存在错误,则进入如下步骤506,如果候选本文不存在错误,则可以进入如下步骤508。
506:从多个纠错模型中,确定与得到的候选文本的第二错误类型对应的第二纠错模型,第二错误类型是通过错误检测确定。
示例性地,若候选文本中还存在置换错误,则电子设备从多个纠错模型中,选择置换纠错模型,将置换纠错模型作为第二纠错模型。
507:通过第二纠错模型对得到的候选文本进行纠错处理,再次得到候选文本。
譬如,电子设备可以继续对候选文本中存在的置换错误进行纠错处理,再次得到候选文本。
为了确定该候选文本中是否还存在错误,电子设备返回至继续对当前得到的候选文本进行错误检测的操作,也即返回至步骤504,也即继续对当前得到的候选文本进行错误检测。直到得到的候选文本中不存在错误时,说明将候选文本中存在的各种类型的错误均已纠正,此时结束操作,也即结束错误检测操纵和纠错操作。之后,进入如下步骤508。
在一个实施例中,为了避免系统陷入死循环,可以限定一个句子最多出现预设数量个错误。当一个句子进行预设数量次错误检测之后,即使仍然存在错误,也不再进行错误纠正,直接进入下一个步骤并结束操作。其中,预设数量可以根据实际需求进行设置,譬如预设数量是10。
508:根据当前得到的候选文本,确定目标文本。
针对当前得到的候选文本,至少是经错误诊断模型进行错误检测后确定已不存在错误的,也即经错误诊断模型确定当前得到的候选文本中不包括上述任意一种错误类型的错误。如此,即可基于该候选文本确定目标文本。其具体实现可以参见上述图2所示实施例中的步骤204,这里不再重复介绍。
在本申请实施例中,当第一文本中存在多种错误类型的错误时,可以多次对第一文本进行纠错,在每次纠错过程中对一种错误类型的错误进行纠正,经过多次处理后,可以将多种错误类型的错误均得以纠正。如此,通过多次纠正可以提高纠正系统的准确度。
在另一个实施例中,对不同纠错模型的训练过程进行介绍。不同纠错模型在训练过程中使用的训练数据不相同,具体地:
1、替换纠错模型的训练方式包括:获取第一训练样本集,第一训练样本集中包括多个第一样本数据对,每个第一样本数据对包括正确语句样本和正确语句样本对应的替换错误语句样本,替换错误语句样本是对正确语句样本中的部分文本内容按照同音词、同音字、形近字、近音字中的任一种方式进行替换后生成的。基于第一训练样本集,对经过预训练的第一Macbert模型进行训练,以得到替换纠错模型。
如前文所述,替换错误包含同音词、同音字、近形字、近音字之类的错误,其特点是错误文本与正确文本的长度是一致的,只是正确文本中部分的字(或者词语)被替换成错误的字(或者词语)。在训练过程中,可以基于一些正确语句样本(譬如公开的新闻预料等)中的各个正确语句样本,分别构造出各个正确语句样本对应的包含有替换错误的样本,得到替换错误语句样本。然后,将每个正确语句样本与对应的替换错误语句样本作为一个第一样本数据对,如此即可得到多个第一样本数据对,构成第一训练样本集。同样的,为了提高训练效率,节省训练时间,可以基于第一训练样本集,对已经过预训练的第一Macbert模型进行训练,在一个示例中,使用交叉熵作为第一Macbert模型的损失函数。通过训练,可以得到替换纠错模型,该替换纠错模型能自动识别出第一文本中错误的位置,并直接对错误进行纠正。
2、缺字纠错模型的训练方式包括:获取第二训练样本集,第二训练样本集中包括多个第二样本数据对,每个第二样本数据对包括完整语句样本和完整语句样本对应的缺字错误语句样本,缺字错误语句样本是将完整语句样本中的字进行删除处理后生成的。基于第二训练样本集,对经过预训练的第二Macbert模型进行训练,以得到缺字纠错模型。
存在缺字的错误文本与正确文本的长度不一致的,正确文本的长度比错误文本的长度要长。作为本申请的一个示例,可以考虑缺失一个字的情况,如果缺失一个字,则正确文本比错误文本长一个字符。在训练过程中,可以基于一些完整语句样本(譬如公开的新闻预料等)中的各个完整语句样本,分别构造出各个完整语句样本对应的缺字错误语句样本。然后,将每个完整语句样本与对应的缺字错误语句样本作为一个第二样本数据对,如此即可得到多个第二样本数据对,构成第二训练样本集。同样的,为了提高训练效率,节省训练时间,可以基于第二训练样本集,对已经过预训练的第二Macbert模型进行训练,在一个示例中,使用交叉熵作为第二Macbert模型的损失函数。通过训练,可以得到得到缺字纠错模型,该缺字纠错模型能自动识别出第一文本中错误的位置,并直接对错误进行纠正。
3、置换纠错模型的训练方式包括:获取第三训练样本集,第三训练样本集中包括多个第三样本数据对,每个第三样本数据对包括正确语句样本和正确语句样本对应的置换错误语句样本,置换错误语句样本是对正确语句样本中的部分文本内容进行位置置换后生成的。基于第三训练样本集,对经过预训练的第三Macbert模型进行训练,以得到置换纠错模型。
与替换错误类型,出现倒置错误的文本,其特点是错误文本与正确文本的长度是一致的,只是正确文本中部分文本内容的顺序发生颠倒。在训练过程中,可以基于一些正确语句样本(譬如公开的新闻预料等)中的各个正确语句样本,分别构造出各个正确语句样本对应的包含有置换错误的样本,得到置换错误语句样本。然后,将每个正确语句样本与对应的置换错误语句样本作为一个第三样本数据对,如此即可得到多个第三样本数据对,构成第三训练样本集。同样的,为了提高训练效率,节省训练时间,可以基于第三训练样本集,对已经过预训练的第三Macbert模型进行训练,在一个示例中,使用交叉熵作为第三Macbert模型的损失函数。通过训练,可以得到置换纠错模型,该第三纠错模型能自动识别出第一文本中错误的位置,并直接对错误进行纠正。
4、缺词纠错模型的训练方式包括:获取第五训练样本集,第五训练样本集中包括多个第五样本数据对,每个第五样本数据对包括完整语句样本和完整语句样本对应的缺词错误语句样本,缺词错误语句样本是将完整语句样本中的词语进行删除处理后生成的。基于第五训练样本集,对经过预训练的第五Macbert模型进行训练,以得到缺词纠错模型。
存在缺词的错误文本与正确文本的长度不一致的,正确文本的长度比错误文本的长度要长。作为本申请的一个示例,可以考虑缺失一个词的情况,如果缺失一个词,则正确文本比错误文本长两个字符。在训练过程中,可以基于一些完整语句样本(譬如公开的新闻预料等)中的各个完整语句样本,分别构造出各个完整语句样本对应的缺词错误语句样本。然后,将每个完整语句样本与对应的缺词错误语句样本作为一个第五样本数据对,如此即可得到多个第五样本数据对,构成第五训练样本集。同样的,为了提高训练效率,节省训练时间,可以基于第五训练样本集,对已经过预训练的第五Macbert模型进行训练,在一个示例中,使用交叉熵作为第五Macbert模型的损失函数。通过训练,可以得到缺词纠错模型,该缺词纠错模型能自动识别出第一文本中错误的位置,并直接对错误进行纠正。
若多个纠错模型中还存在其他的纠错模型,也可以采用上述类似方法进行模型训练,以得到用于纠错的纠错模型。譬如,若还存在冗余纠错模型,则也可以按照上述类似的方法,构造出正确语句样本对应的冗余错误语句样本,从而构建用于训练的样本数据集,并基于构建出的样本数据集对经过预训练的Macbert模型进行训练,以得到冗余纠错模型。
应理解,上述实施例中各步骤的序号并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
基于上述各个实施例提供的方法,请参考图6,图6是根据一示例性实施例示出的一种文本的处理装置的结构示意图,该文本的处理装置可以由软件、硬件或者两者的结合实现电子设备的部分或者全部。该文本的处理装置可以包括:
检测模块610,用于对待处理的第一文本进行错误检测;
第一确定模块620,用于若经错误检测确定所述第一文本存在错误且所述错误属于第一错误类型,则从多个纠错模型中,确定与所述第一错误类型对应的第一纠错模型,所述多个纠错模型中的不同纠错模型能够对不同错误类型的错误文本进行纠错;
纠错模块630,用于通过所述第一纠错模型对所述第一文本进行纠错处理,输出候选文本;
第二确定模块640,用于根据所述候选文本,确定目标文本。
作为本申请的一个示例,所述第二确定模块640用于:
分别确定所述第一文本的困惑度和所述候选文本的困惑度;
从所述第一文本和所述候选文本中,选择困惑度最小的文本;
将从所述第一文本和所述候选文本中选择的文本,确定为所述目标文本。
作为本申请的一个示例,所述纠错模块630还用于:
继续对当前得到的候选文本进行错误检测;
若得到的候选文本中存在错误,则从所述多个纠错模型中,确定与得到的候选文本的第二错误类型对应的第二纠错模型,所述第二错误类型是通过错误检测确定;
通过所述第二纠错模型对得到的候选文本进行纠错处理,再次得到候选文本,并返回至所述继续对当前得到的候选文本进行错误检测的操作,直到得到的候选文本中不存在错误时,结束操作。
作为本申请的一个示例,所述第一错误类型包括替换错误类型、缺字错误类型、缺词错误类型、倒置错误类型中的任意一种,其中,所述替换错误类型是指文本内容被同音词、同音字、形近字、近音字中的任一种替换,所述倒置错误类型是指文本内容的位置发生颠倒。
作为本申请的一个示例,若所述第一错误类型为所述替换错误类型,则所述第一纠错模型为替换纠错模型;
所述纠错模块630还用于对所述替换纠错模型进行训练,具体包括:
获取第一训练样本集,所述第一训练样本集中包括多个第一样本数据对,每个第一样本数据对包括正确语句样本和所述正确语句样本对应的替换错误语句样本,所述替换错误语句样本是对所述正确语句样本中的部分文本内容按照同音词、同音字、形近字、近音字中的任一种方式进行替换后生成的;
基于所述第一训练样本集,对经过预训练的第一Macbert模型进行训练,以得到所述替换纠错模型。
作为本申请的一个示例,若所述第一错误类型为所述缺字错误类型,则所述第一纠错模型为缺字纠错模型;
所述纠错模块630还用于对所述缺字纠错模型进行训练,具体包括:
获取第二训练样本集,所述第二训练样本集中包括多个第二样本数据对,每个第二样本数据对包括完整语句样本和所述完整语句样本对应的缺字错误语句样本,所述缺字错误语句样本是将所述完整语句样本中的字进行删除处理后生成的;
基于所述第二训练样本集,对经过预训练的第二Macbert模型进行训练,以得到所述缺字纠错模型。
作为本申请的一个示例,若所述第一错误类型为所述置换错误类型,则所述第一纠错模型为置换纠错模型;
所述纠错模块630还用于对置换纠错模型进行训练,具体包括:
获取第三训练样本集,所述第三训练样本集中包括多个第三样本数据对,每个第三样本数据对包括正确语句样本和所述正确语句样本对应的置换错误语句样本,所述置换错误语句样本是对所述正确语句样本中的部分文本内容进行位置置换后生成的;
基于所述第三训练样本集,对经过预训练的第三Macbert模型进行训练,以得到所述置换纠错模型。
作为本申请的一个示例,所述检测模块610用于:
调用错误诊断模型,所述错误诊断模型能够检测出任意一个错误文本的错误类型;
通过所述错误诊断模型,对所述第一文本进行错误检测,以确定所述第一错误类型。
在本申请实施例中,对待处理的第一文本进行错误检测,若第一文本存在错误,说明第一文本需要纠正,此时,可以从多个纠错模型中,确定与第一错误类型对应的第一纠错模型,其中第一错误类型是经错误检测确定的,多个纠错模型中的不同纠错模型能够对不同错误类型的错误文本进行纠错。通过第一纠错模型对第一文本进行纠错处理,输出候选文本。根据候选文本,确定目标文本。如此,通过确定第一文本中的错误的错误类型,并针对该错误类型,采用对应的纠错模型进行纠错,使得纠错具有一定的针对性,从而可以提高纠错的有效性,进而提高纠错效果。
图7为本申请一实施例提供的电子设备的结构示意图。如图7所示,该实施例的电子设备7包括:至少一个处理器70(图7中仅示出一个)、存储器71以及存储在所述存储器71中并可在所述至少一个处理器70上运行的计算机程序72,所述处理器70执行所述计算机程序72时实现上述任意各个方法实施例中的步骤。
所述电子设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该电子设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是电子设备7的举例,并不构成对电子设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器70可以是CPU(Central Processing Unit,中央处理单元),该处理器70还可以是其他通用处理器、DSP(Digital Signal Processor,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现成可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71在一些实施例中可以是所述电子设备7的内部存储单元,例如电子设备7的硬盘或内存。所述存储器71在另一些实施例中也可以是所述电子设备7的外部存储设备,例如所述电子设备7上配备的插接式硬盘,SMC(Smart Media Card,智能存储卡),SD(Secure Digital,安全数字)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述电子设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (11)
1.一种文本的处理方法,其特征在于,所述方法包括:
对待处理的第一文本进行错误检测;
若经错误检测确定所述第一文本存在错误且所述错误属于第一错误类型,则从多个纠错模型中,确定与所述第一错误类型对应的第一纠错模型,所述多个纠错模型中的不同纠错模型能够对不同错误类型的错误文本进行纠错;
通过所述第一纠错模型对所述第一文本进行纠错处理,输出候选文本;
根据所述候选文本,确定目标文本。
2.如权利要求1所述的方法,其特征在于,所述根据所述候选文本,确定目标文本,包括:
分别确定所述第一文本的困惑度和所述候选文本的困惑度;
从所述第一文本和所述候选文本中,选择困惑度最小的文本;
将从所述第一文本和所述候选文本中选择的文本,确定为所述目标文本。
3.如权利要求1所述的方法,其特征在于,所述通过所述第一纠错模型对所述第一文本进行纠错处理,输出候选文本之后,还包括:
继续对当前得到的候选文本进行错误检测;
若得到的候选文本中存在错误,则从所述多个纠错模型中,确定与得到的候选文本的第二错误类型对应的第二纠错模型,所述第二错误类型是通过错误检测确定;
通过所述第二纠错模型对得到的候选文本进行纠错处理,再次得到候选文本,并返回至所述继续对当前得到的候选文本进行错误检测的操作,直到得到的候选文本中不存在错误时,结束操作。
4.如权利要求1-3中任一项所述的方法,其特征在于,所述第一错误类型包括替换错误类型、缺字错误类型、缺词错误类型、倒置错误类型中的任意一种,其中,所述替换错误类型是指文本内容被同音词、同音字、形近字、近音字中的任一种替换,所述倒置错误类型是指文本内容的位置发生颠倒。
5.如权利要求4所述的方法,其特征在于,若所述第一错误类型为所述替换错误类型,则所述第一纠错模型为替换纠错模型;
所述替换纠错模型的训练方式包括:
获取第一训练样本集,所述第一训练样本集中包括多个第一样本数据对,每个第一样本数据对包括正确语句样本和所述正确语句样本对应的替换错误语句样本,所述替换错误语句样本是对所述正确语句样本中的部分文本内容按照同音词、同音字、形近字、近音字中的任一种方式进行替换后生成的;
基于所述第一训练样本集,对经过预训练的第一Macbert模型进行训练,以得到所述替换纠错模型。
6.如权利要求4所述的方法,其特征在于,若所述第一错误类型为所述缺字错误类型,则所述第一纠错模型为缺字纠错模型;
所述缺字纠错模型的训练方式包括:
获取第二训练样本集,所述第二训练样本集中包括多个第二样本数据对,每个第二样本数据对包括完整语句样本和所述完整语句样本对应的缺字错误语句样本,所述缺字错误语句样本是将所述完整语句样本中的字进行删除处理后生成的;
基于所述第二训练样本集,对经过预训练的第二Macbert模型进行训练,以得到所述缺字纠错模型。
7.如权利要求4所述的方法,其特征在于,若所述第一错误类型为所述置换错误类型,则所述第一纠错模型为置换纠错模型;
所述置换纠错模型的训练方式包括:
获取第三训练样本集,所述第三训练样本集中包括多个第三样本数据对,每个第三样本数据对包括正确语句样本和所述正确语句样本对应的置换错误语句样本,所述置换错误语句样本是对所述正确语句样本中的部分文本内容进行位置置换后生成的;
基于所述第三训练样本集,对经过预训练的第三Macbert模型进行训练,以得到所述置换纠错模型。
8.如权利要求1所述的方法,其特征在于,所述对待处理的第一文本进行错误检测,包括:
调用错误诊断模型,所述错误诊断模型能够检测出任意一个错误文本的错误类型;
通过所述错误诊断模型,对所述第一文本进行错误检测,以确定所述第一错误类型。
9.一种文本的处理装置,其特征在于,所述装置包括:
检测模块,用于对待处理的第一文本进行错误检测;
第一确定模块,用于若经错误检测确定所述第一文本存在错误且所述错误属于第一错误类型,则从多个纠错模型中,确定与所述第一错误类型对应的第一纠错模型,所述多个纠错模型中的不同纠错模型能够对不同错误类型的错误文本进行纠错;
纠错模块,用于通过所述第一纠错模型对所述第一文本进行纠错处理,输出候选文本;
第二确定模块,用于根据所述候选文本,确定目标文本。
10.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的方法。
11.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111607020.1A CN114417834A (zh) | 2021-12-24 | 2021-12-24 | 文本的处理方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111607020.1A CN114417834A (zh) | 2021-12-24 | 2021-12-24 | 文本的处理方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114417834A true CN114417834A (zh) | 2022-04-29 |
Family
ID=81269566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111607020.1A Pending CN114417834A (zh) | 2021-12-24 | 2021-12-24 | 文本的处理方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114417834A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115169330A (zh) * | 2022-07-13 | 2022-10-11 | 平安科技(深圳)有限公司 | 中文文本纠错及验证方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695343A (zh) * | 2020-06-23 | 2020-09-22 | 深圳壹账通智能科技有限公司 | 错词纠正方法、装置、设备及存储介质 |
CN111859919A (zh) * | 2019-12-02 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 文本纠错模型训练方法、装置、电子设备及存储介质 |
CN112149406A (zh) * | 2020-09-25 | 2020-12-29 | 中国电子科技集团公司第十五研究所 | 一种中文文本纠错方法及系统 |
CN112597754A (zh) * | 2020-12-23 | 2021-04-02 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备和可读存储介质 |
CN112597753A (zh) * | 2020-12-22 | 2021-04-02 | 北京百度网讯科技有限公司 | 文本纠错处理方法、装置、电子设备和存储介质 |
-
2021
- 2021-12-24 CN CN202111607020.1A patent/CN114417834A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859919A (zh) * | 2019-12-02 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 文本纠错模型训练方法、装置、电子设备及存储介质 |
CN111695343A (zh) * | 2020-06-23 | 2020-09-22 | 深圳壹账通智能科技有限公司 | 错词纠正方法、装置、设备及存储介质 |
CN112149406A (zh) * | 2020-09-25 | 2020-12-29 | 中国电子科技集团公司第十五研究所 | 一种中文文本纠错方法及系统 |
CN112597753A (zh) * | 2020-12-22 | 2021-04-02 | 北京百度网讯科技有限公司 | 文本纠错处理方法、装置、电子设备和存储介质 |
CN112597754A (zh) * | 2020-12-23 | 2021-04-02 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备和可读存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115169330A (zh) * | 2022-07-13 | 2022-10-11 | 平安科技(深圳)有限公司 | 中文文本纠错及验证方法、装置、设备及存储介质 |
CN115169330B (zh) * | 2022-07-13 | 2023-05-02 | 平安科技(深圳)有限公司 | 中文文本纠错及验证方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110647614B (zh) | 智能问答方法、装置、介质及电子设备 | |
CN111931517B (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
US11031009B2 (en) | Method for creating a knowledge base of components and their problems from short text utterances | |
CN107980130A (zh) | 自动回答方法、装置、存储介质及电子设备 | |
CN110276071B (zh) | 一种文本匹配方法、装置、计算机设备及存储介质 | |
CN107680588B (zh) | 智能语音导航方法、装置及存储介质 | |
CN111339758B (zh) | 基于深度学习模型的文本纠错方法及系统 | |
WO2021143206A1 (zh) | 单语句自然语言处理方法、装置、计算机设备及可读存储介质 | |
CN112036162A (zh) | 文本纠错的适配方法、装置、电子设备及存储介质 | |
WO2023201975A1 (zh) | 一种差异描述语句生成方法、装置、设备及介质 | |
CN110210043A (zh) | 文本翻译方法、装置、电子设备及可读存储介质 | |
CN114757176A (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
CN115099239B (zh) | 一种资源识别方法、装置、设备以及存储介质 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN109492085B (zh) | 基于数据处理的答案确定方法、装置、终端及存储介质 | |
CN109299471A (zh) | 一种文本匹配的方法、装置及终端 | |
CN116013307A (zh) | 一种标点预测方法、装置、设备以及计算机存储介质 | |
CN114492396A (zh) | 用于汽车专有名词的文本错误纠正方法及可读存储介质 | |
CN111062208B (zh) | 一种文件审核的方法、装置、设备及存储介质 | |
CN110826301B (zh) | 标点符号添加方法、系统、移动终端及存储介质 | |
CN115392235A (zh) | 字符匹配方法、装置、电子设备及可读存储介质 | |
CN114417834A (zh) | 文本的处理方法、装置、电子设备及可读存储介质 | |
CN111079433A (zh) | 一种事件抽取方法、装置及电子设备 | |
CN115455922B (zh) | 表单校验方法、装置、电子设备和存储介质 | |
CN110929514A (zh) | 文本校对方法、装置、计算机可读存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |