CN110807319A

CN110807319A - 一种文本内容检测方法、检测装置、电子设备及存储介质

Info

Publication number: CN110807319A
Application number: CN201911054791.5A
Authority: CN
Inventors: 洪煜中
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-18
Anticipated expiration: 2039-10-31
Also published as: CN110807319B

Abstract

本发明实施例提供了一种文本内容检测方法、检测装置、电子设备及存储介质，其中方法包括：获取待检测文本；获取待检测文本的各待检测文字的多个候选字，以及各候选字的语境合适度；针对多个候选字中的各候选字，计算该候选字与该候选字对应的待检测文字之间的相似度；基于各候选字的语境合适度、各候选字的相似度以及预设的错别字检测条件，对待检测文本的各待检测文字进行错别字检测，得到检测结果。本发明实施例能够进一步提高检测的准确性。

Description

一种文本内容检测方法、检测装置、电子设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种文本内容检测方法、检测装置、电子设备及存储介质。

背景技术

获取文本内容后，通常需要检测文本内容中是否存在拼写错误，例如，在获取经OCR(Optical Character Recognition，光学字符识别)或ASR(Automatic SpeechRecognition，自动语音识别)处理得到的文本内容或者人类书写内容后，检测该文本内容中是否存在错别字。

现有的文本内容检测方法通常基于预先设定的困惑集进行检测，其中，困惑集用于存储每个汉字可能被混淆的错别字，其具体检测过程为：对于待检测文本中的每个汉字，将困惑集中该汉字的所有相似汉字作为候选字，然后对各候选字进行筛选，如果筛选结果和原汉字一样，表明该汉字无错；如果筛选结果和原汉字不一样，表明该汉字存在拼写错误，进而可以将该汉字替换为正确的汉字。

然而，发明人在实现本发明的过程中发现，现有技术至少存在如下问题：

由于上述困惑集通常为预先设定好的，例如，对简体中文检测的应用场景或者对繁体中文检测的应用场景，每一个应用场景都需要一个特定的困惑集，也即，一个应用场景需要一个困惑集，因此同一个困惑集无法灵活应用于各类不同的应用场景下；另外，困惑集中无论是相似性大还是相似性小的易混淆的汉字，在实际处理过程中都被无差别对待，因此无法将字符相似性充分利用，这些原因都造成了现有检测方法存在检测准确性不高的问题。

发明内容

本发明实施例的目的在于提供一种文本内容检测方法、检测装置、电子设备及存储介质，以进一步提高对文本内容检测的准确性。具体技术方案如下：

第一方面，本发明实施例提供了一种文本内容检测方法，包括：

获取待检测文本，所述待检测文本中包括多个待检测文字；

获取所述待检测文本的各待检测文字的多个候选字，以及各候选字的语境合适度，所述语境合适度用于表示所述候选字与所述待检测文本的语境匹配程度；

针对所述多个候选字中的各候选字，计算该候选字与该候选字对应的待检测文字之间的相似度；

基于各候选字的所述语境合适度、各候选字的所述相似度以及预设的错别字检测条件，对所述待检测文本的各待检测文字进行错别字检测，得到检测结果。

第二方面，本发明实施例提供了一种文本内容检测装置，包括：

第一获取模块，用于获取待检测文本，所述待检测文本中包括多个待检测文字；

第二获取模块，用于获取所述待检测文本的各待检测文字的多个候选字，以及各候选字的语境合适度，所述语境合适度用于表示所述候选字与所述待检测文本的语境匹配程度；

计算模块，用于针对所述多个候选字中的各候选字，计算该候选字与该候选字对应的待检测文字之间的相似度；

检测模块，用于基于各候选字的所述语境合适度、各候选字的所述相似度以及预设的错别字检测条件，对所述待检测文本的各待检测文字进行错别字检测，得到检测结果。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的文本内容检测方法。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的文本内容检测方法。

本发明实施例提供的一种文本内容检测方法、检测装置、电子设备及存储介质，在获取待检测文本后，通过获取待检测文本中各待检测文字的多个候选字以及各候选字的语境合适度，计算候选字与该候选字对应待检测文字之间的相似度，从而利用各候选字的语境合适度以及各候选字的相似度，以及预设的错别字检测条件，对待检测文本的各待检测文字进行检测，由于本发明实施例在对待检测文字检测过程中共同考虑了汉字的相似性和语境合适度，不再依赖困惑集，因此相比于现有的基于困惑集的检测方法，能够在候选字与待检测汉字差别大时也能正确检测出错别字，因此能够进一步提高检测的准确性。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种文本内容检测方法的一种流程示意图；

图2为本发明实施例中MLM模型输出的多个候选字的示意图；

图3为本发明实施例中MLM模型及CSD模型的输入输出结果示意图；

图4为本发明实施例中计算候选字与该候选字对应待检测文字之间的相似度的一种流程示意图；

图5为本发明实施例中计算字形相似度的一种流程示意图；

图6为本发明实施例中IDS表征字符的一种示意图；

图7为本发明实施例中计算读音相似度的一种流程示意图；

图8为本发明实施例中对待检测文本的各待检测文字进行检测的一种流程示意图；

图9a为本发明实施例中的第一种散点图；

图9b为本发明实施例中的第二种散点图；

图9c为本发明实施例中的第三种散点图；

图10为本发明实施例中MLM模型训练过程的一种流程示意图；

图11为本发明实施例提供的一种文本内容检测装置的一种结构示意图；

图12为本发明实施例的文本内容检测装置中计算模块的一种结构示意图；

图13为本发明实施例的文本内容检测装置中计算模块的第二种结构示意图；

图14为本发明实施例的文本内容检测装置中检测模块的一种结构示意图；

图15为本发明实施例提供的一种文本内容检测装置的第二种结构示意图；

图16为本发明实施例的文本内容检测装置中检测模块的第三种结构示意图；

图17为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

本发明实施例提供的一种文本内容检测方法、检测装置、电子设备及存储介质，从整体上而言，首先通过获取待检测文本中各待检测文字的多个候选字以及各候选字的语境合适度，然后计算候选字与候选字对应待检测文字之间的相似度，从而利用各候选字的语境合适度以及各候选字的相似度，以及预设的错别字检测条件，对待检测文本的各待检测文字进行检测，在对待检测文字检测过程中共同考虑了汉字的相似性和语境合适度，由于不再需要依赖困惑集，因此相比于现有的基于困惑集的检测方法，能够在候选字与待检测汉字差别大时也能正确检测出错别字，因此能够进一步提高检测的准确性。并且，由于不再依赖困惑集，因此不会出现因汉字的候选字未包含于困惑集而导致的难以对该汉字检测的问题，使得检测更加具有灵活性。

如图1所示，本发明实施例首先提供了一种文本内容检测方法，包括以下流程：

S101，获取待检测文本。

本发明实施例中，可以从文本内容中获取待检测文本，例如，通过对文本内容进行句子或短语划分，从而得到多个句子或短语，这些句子或短语便可以作为待检测文本，可以理解，待检测文本中可以包括多个待检测文字，例如，包含多个汉字，并且待检测文本中可能存在错别字，示例性地，上述待检测文本可以为：国际电台苦名丰持人(正确内容为：国际电台著名主持人)。

S102，获取待检测文本的各待检测文字的多个候选字，以及各候选字的语境合适度。

本发明实施例中，在得到待检测文字后，可以获取各待检测文字的多个候选字，以及各候选字的语境合适度，其中，语境合适度用于表示候选字与待检测文本的语境匹配程度。

S103，针对多个候选字中的各候选字，计算该候选字与该候选字对应的待检测文字之间的相似度。

本发明实施例中，在得到多个候选字后，便可以计算各候选字与它们各自对应的待检测文字之间的相似度，示例性地，对于“国”的候选字“台”，可以计算它与“国”的相似度，对于“国”的另一个候选字“世”，也可以计算它与“国”的相似度，因为这些字都与待检测文字“国”对应。计算候选字与待检测文字间的相似度的目的是为了得到候选字与待检测文字之间的相似程度，从而在后续步骤中可以将相似度作为检测依据之一。

S104，基于各候选字的语境合适度、各候选字的相似度以及预设的错别字检测条件，对待检测文本的各待检测文字进行错别字检测，得到检测结果。

在得到各候选字的语境合适度及各候选字的相似度后，便可以根据预设的错别字检测条件检测条件，对待检测文本的各待检测文字进行检测，该检测过程具体可以为：对各候选字按照上述错别字检测条件进行过滤，以筛选出符合上述错别字检测条件的候选字。

作为本发明实施例一种可选的实施方式，可以将待检测文本的各待检测文字输入预先训练好的MLM(Masked Language Model，掩码语言模型)模型对待检测文本进行处理，从而得到各待检测文字的多个候选字，以及各候选字的语境合适度。

在使用MLM模型前，可以对该模型进行fine-tune(微调)训练，因此本发明实施例中的MLM模型为预先训练好的，并且，该MLM模型可以是基于样本文本预先训练得到的，其中样本文本包括：无错样本文本和有错样本文本，并且对于无错样本文本和有错样本文本，可以使用不同的训练方法对该MLM模型进行训练，其训练过程将在下文中说明。当然，上述fine-tune训练在某些应用场景下并不是必须的，例如，对OCR识别结果进行纠错。

示例性地，图2为本发明实施例中使用MLM模型对待检测文本“国际电台苦名丰持人”处理后，得到的该待检测文本的多个候选字及各候选字的语境合适度的示意图，如图2所示，将“国际电台苦名丰持人”这一待检测文本输入MLM模型后，便可以得到一个候选字矩阵，该候选字矩阵中的每个元素即为一个候选字，该候选字矩阵中的每一行表示一组候选文本，每一组候选文本中的各文字对应待检测文本中的多个待检测文字，例如，图中由上至下第一行(rank1)中的“国际电台知名主持人”，第二行(rank2)中的“國際听话著音广目者”，第三行(rank3)中的“世家节视报台演主手”，第四行(rank4)中的“台界讲播冠闻支节持”，它们均对应待检测文本“国际电台苦名丰持人”，并且，各行候选文本的排列顺序与该行候选文本中候选字的语境合适度相关，例如，图中的第一行候选文本中的候选字的语境合适度最高，第二行候选文本中的候选字的语境合适度次之，然后逐级排序，也就是说，在候选矩阵中，各行候选文本的排列顺序是按照该行候选文本中候选字的语境合适度确定的，具体而言，候选矩阵中的各行候选文本的排列顺序，可以按照各行候选文本中候选字的语境合适度由大到小的顺序排序而得到。

MLM模型输出候选字矩阵后，还可以输出候选字矩阵中各候选字的语境合适度，例如，第一行中“国”字的语境合适度为0.994，“际”字的语境合适度为0.999，等。并且，候选字矩阵中的每一列表示一个待检测文字的全部候选字，例如，候选字矩阵的第一列为“国國世台”，它们均为待检测文字“国”的候选字。

如图3所示，为本发明实施例中MLM模型及CSD(Confidence-Similarity Decoder，语境合适度-字符相似度解码器)模型的输入输出示意图，其中，CSD模型中预设有错别字检测条件，该检测条件可以为表示语境合适度与相似度之间关系的一个函数，其输出的文本为“国际电台著名主持人”，其中，“著”和“主”二字为纠错后的文字。本发明实施例中MLM模型及CSD模型，其中MLM模型输出多个候选字的过程可以认为是一个去除噪声编码的过程，而CSD从多个候选字中筛选出符合错别字检测条件的目标候选字的过程可以认为是一个解码的过程，这种基于去噪声自动编码器—解码器的范式，无需大量中文检错纠错样本数据(实验证明10K级别数据已经充足)，也不会出现过拟合情况，而且不依赖困惑集，因此更具有灵活性，准确性也更高。

作为本发明实施例一种可选的实施方式，如图4所示，上述S103中计算候选字与该候选字对应待检测文字之间的相似度的过程，可以包括：

S103’，基于候选字的字形，计算候选字与该候选字对应待检测文字之间的字形相似度。或者，

S103”，基于候选字的读音，计算候选字与该候选字对应待检测文字之间的读音相似度。

本发明实施例中，可以分别基于候选字的字形和读音，分别计算候选字与该候选字对应待检测文字之间的字形相似度或者读音相似度，从而利用文字不同的信息计算不同的相似度，能够使本发明实施例更具有灵活性。相似度的具体计算过程将在下述实施方式中示出。

作为本发明实施例一种可选的实施方式，如图5所示，上述S103’中计算字形相似度的步骤，可以包括：

S1031，分别获取候选字和与该候选字对应的待检测文字的IDS表征字符。

可以获得候选字和与该候选字对应的待检测文字的Unicode(即统一码，是计算机科学领域里的一项业界标准，包括字符集、编码方案等)编码标准中规范的IDS(Ideographic Description Sequences，象形文字描述序列)表征字符，其中，IDS表征字符用于表示组成文字的各字符间的组成顺序。

示例性地，对于“贫”字，如图6所示，虚线上方是“贫”的IDS字符串表征，虚线下方是IDS树型表征，其中①-③三种表征方式表示不同细粒度的IDS树形表征，可以发现，IDS字符串表征即为IDS树型表征的前序遍历路径，即，IDS字符串可以是将IDS树型表征中的各字符按照从上到下、从左到右的顺序遍历后得到的，如图6所示，“贫”字最细粒度的IDS树型表征(图6中的③树型表征)，从上到下、从左到右依次为：

丿、

、丿、

丨、、丿、

则“贫”字的IDS字符串即为：

丿

丿丨

丿

当然，本发明实施例的IDS表征字符，获取任意一个粒度下的均可以，优选的，可以获取最细粒度下的IDS表征字符，由于最细粒度下的IDS表征字符能够更加详细地表征组成文字的各字符间的组成顺序，因此能够在计算字形相似度的时候更加准确。

S1032，根据IDS表征字符，计算候选字与该候选字对应的待检测文字之间的第一编辑距离。

当得到候选字和与该候选字对应的待检测文字的IDS表征字符后，便可以计算这两个字间的第一编辑距离，即将候选字修改为待检测文字所需替换的字符数。上述第一编辑距离可以为Levenshtein(莱文斯坦)编辑距离，或者可以为IDS树型表征的树编辑距离，这都是合理的。

S1033，利用第一编辑距离计算该候选字与对应的待检测文字之间的字形相似度。

得到候选字和与该候选字对应的待检测文字的第一编辑距离后，便可以计算二者的字形相似度，可选的，可以利用以下表达式计算二者的字形相似度：

式中，编辑距离(文字A的字形表征，文字B的字形表征)表示候选字和与该候选字对应的待检测文字的第一编辑距离，length(文字A的字形表征)表示文字A的IDS表征字符长度，length(文字B的字形表征)表示文字B的IDS表征字符长度，max(length(文字A的字形表征)，length(文字B的字形表征))表示文字A和文字B的字符编辑距离可能的最大值，对于同一个字，不同粒度下IDS表征字符长度是不同的，长度越长则表示粒度越细。

本发明实施例中，能够通过表征候选字和与该候选字对应的待检测文字字形的IDS表征字符，计算二者的字形相似度，进而利用字形相似度进行进一步处理，由于字形相似度的计算过程充分利用了汉字为表意文字的特点，因此能够提高后续检测过程的准确性。

作为本发明实施例一种可选的实施方式，如图7所示，上述S103”中计算读音相似度的步骤，可以包括：

S1031’，分别获取候选字和与该候选字对应的待检测文字在不同预设语言类型中的汉字读音表征。

对于候选字和与该候选字对应的待检测文字，可以分别获取它们在不同预设语言类型中的汉字读音表征，例如，可以获取中文普通话(MC)拼音，香港粤语(CC)拼音，韩语(K)汉字拉丁拼音，日语汉读音读(JO)罗马字，越南语(V)汉字拼音以表征每个汉字的读音。上述语言类型中包含了大量汉字的读音表征信息，因此可以利用上述读音表征信息。

S1032’，根据所获取的汉字读音表征，计算候选字与该候选字对应的待检测文字之间的第二编辑距离。

当获取候选字和与该候选字对应的待检测文字在不同预设语言类型中的汉字读音表征后，便可以计算这两个字间的第二编辑距离，即将候选字的读音修改为待检测文字的读音所需替换的字符数。可以理解的是，对于每一种语言类型，都可以计算得到一个第二编辑距离。

S1033’，利用第二编辑距离计算该候选字与对应的待检测文字之间的读音相似度。

得到候选字和与该候选字对应的待检测文字的第二编辑距离后，便可以计算二者的读音相似度，可选的，可以利用以下表达式计算二者的读音相似度：

式中，编辑距离(文字A的读音表征，文字B的读音表征)表示候选字和与该候选字对应的待检测文字的第二编辑距离，length(文字A的读音表征)表示文字A的读音表征长度，length(文字B的读音表征)表示文字B的读音表征长度，max(length(文字A的读音表征)，length(文字B的读音表征))表示示文字A和文字B的读音编辑距离可能的最大值。

可以理解的是，对于每一种语言类型，都可以计算得到一个读音相似度，对于同一个汉字，在不同语言类型下的读音可能不同，作为本发明实施例一种可选的实施方式，本发明实施例可以将这些读音相似度取平均值后，得到一个读音相似度平均值，也即，该读音相似度平均值是综合多种语言类型下汉字的读音考虑后得到的，降低了因单一语言类型对汉字读音的影响，因此得到的读音相似度准确性更高。

表1分别示出了汉字“午”和“牛”，“田”和“由”的IDS表征字符、不同语言类型下的读音，以及得到的字形相似度和读音相似度平均值，其中，“午”和“牛”的字形相似度为0.857，读音相似度为0.280；“田”和“由”的字形相似度为0.889，读音相似度为0.090。

表1 IDS表征字符、不同语言类型下的读音、字形相似度、读音相似度

作为本发明实施例一种可选的实施方式，如图8所示，本发明实施例中对S104中待检测文本的各待检测文字进行检测的步骤，可以包括：

S1041，针对各候选字中的每一个候选字，利用该候选字与该候选字的待检测文字之间的语境合适度和相似度，生成该候选字的语境合适与相似度之间的对应关系。

可以理解的是，每一个候选字对应一个语境合适度和一个相似度，因此本发明实施例可以利用每个候选字各自的语境合适度和相似度，生成该候选字的语境合适度和相似度之间的对应关系。

S1042，判断对应关系是否符合预设的检测条件函数。

上述检测条件函数可以是基于样本文本的语境合适度和相似度之间的对应关系确定的，具体而言，上述检测条件函数可以是以样本文本的语境合适度为自变量，相似度为因变量的一个函数，符合该检测条件函数的候选字，则它对应的待检测文字会被识别为错别字，不符合该检测条件函数的候选字，则被过滤掉。可以理解的是，上述检测条件函数可以被理解为用于筛选出符合目标大小的沙粒的网孔，而沙粒便是各个候选字，当沙粒通过网孔后，大于或等于网孔的沙粒便被过滤掉，小于网孔的沙粒便被保留。

S1043，如果对应关系符合检测条件函数，则将该对应关系所对应的候选字的待检测文字识别为错别字。

本发明实施例中，对于某个候选字，如果它的语境合适度和相似度之间对应关系符合检测条件函数，根据前述内容可知，则该候选字对应的待检测文字为错别字。

本发明实施例中，生成检测条件函数的过程可以认为是对上述CSD模型训练的过程，该过程具体可以为：

对于训练集中的各样本文本，将样本文本输入MLM模型得到样本文本候选矩阵，对于样本文本候选矩阵中的预设一行(例如第一行)，选出该行中不同于样本文本中所对应样本文字的候选字，然后计算该行中的候选字与它们对应的样本文字的相似度以及语境合适度，从而得到相似度和语境合适度之间的对应关系，对于训练集中的所有样本文本，按照上述过程得到每个样本文本的预设一行中与该行原文字不同的候选字的相似度后，也可以得到相似度和语境合适度之间的对应关系，利用所得到的相似度和语境合适度之间的对应关系，便可以生成一个函数，可以理解的是，对于训练集中的各样本文本的每一行，都可以生成一个函数，则可以将这些函数作为上述检测条件函数。

示例性地，当MLM模型对训练集中的样本文本处理后，可以得到一个候选字矩阵，对于该候选字矩阵的每一行，可以选出该行中不同于样本文本中所对应样本文字的候选字，然后计算该行中候选字与它们对应的样本文字的相似度，例如，假如样本文本为“国际电台苦名丰持人”，候选字矩阵的第一行为“国际电台知名主持人”，对于该第一行，则可以选出“知”和“主”(即不同于样本文本中所对应样本文字的候选字，下文简称为与该行原文字不同的候选字)，然后计算“知”相对于“苦”的相似度以及“主”相对于“丰”的相似度，对于训练集中的所有样本文本，按照上述示例得到每个样本文本的第一行中与该行原文字不同的候选字的相似度后，可以绘制一幅所有的第一行中，与该行原文字不同的候选字的散点图，该散点图的坐标以语境合适度为x轴，相似度为y轴，在训练时，人工找到将正确检错且正确纠错的文字与其他文字分开的分界线，该分界线即为语境合适度与相似度之间关系的一个函数。可以理解的是，对于训练集中的所有样本文本，都可以得到它们候选字矩阵的其它各行对应的一幅散点图及分界线。训练好后，在推理(即检测)时，可以取所有行的分界线上方文字的并集作为输出结果。

如图9a-图9c所示为得到的散点图，其中，图9a-图9c中，实心圆表示对于某个待检测文字，识别出错别字且将错别字替换为该错别字对应的候选字；空心圆表示对于某个待检测文字，识别出错别字，但没有将错别字替换为该错别字对应的候选字；叉表示对于某个待检测文字出现识别错误，例如，该待检测文字原本并非错别字，但识别为错别字；黑色曲线为人工在训练时找出的分界线；阴影区域为被过滤清除的文字。图9a没有画出分界线，图9b-图9c分别表示不同的分界线选择，其中，图9b为要求检错性能的分界线，图9c为检错纠错均要求高性能的分界线。

作为本发明实施例一种可选的实施方式，本发明实施例可以在待检测待检测文本中，将错别字替换为该错别字对应的候选字，从而得到目标文本，然后输出目标文本，该目标文本即为包含正确文字的文本，以达到对待检测文本进行文字纠错的效果。

作为本发明实施例一种可选的实施方式，如图10所示，上述MLM模型的训练过程可以包括：

S201，获取无错样本文件，并基于无错样本文件，使用预设的BERT方法生成第一样本。

样本文本可以从预设的中文纠错检错数据集中得到，并利用这些样本文本对MLM模型进行fine-tune训练。无错样本文本可以采用现有的BERT(Bidirectional EncoderRepresentation from Transformers，双向编码表示的变换器)模型中的样本生成方法生成第一样本，本发明实施例不再赘述。

S202，获取有错样本文件，并基于有错样本文件，分别生成第二样本和第三样本。

第二样本中包含错误字符与该错误字符对应正确字符的映射关系，第三样本中包含正确字符与该正确字符的映射关系，并且，第二样本和第三样本的数量级相同，从而避免MLM模型训练过程中过拟合。

示例性的，上述第一样本可以为：国际电台著名主持人，当然，只要是没有错别字的句子或短语，都可以作为第一样本。上述第二样本可以为：国际电台苦名丰持人，并且，该第二样本中标注了“苦”与“著”，以及“丰”与“主”的映射关系。上述第三样本可以为：金球气侯持续变暖(正确的为：全球气候持续变暖)，该第三样本中分别标注了“球”“气”“持”“续”“变”“暖”这些正确字符与它们自身的映射关系。当然，如果希望将“国际电台苦名丰持人”作为第三样本，则可以将“国”“际”“电”“台”“名”“持”“人”这些正确字符与它们自身的映射关系。

S203，使用第一样本、第二样本、第三样本对MLM模型进行训练。

得到第一样本、第二样本、第三样本后，便可以将这些样本输入MLM模型，对MLM模型进行训练，从而得到经训练的MLM模型。

通过上述各实施例描述的内容可知，本发明实施例可以至少包含以下有益效果：

1、本发明实施例的文本内容检测方法采用了DAE(denoising autoencoder，去噪声自动编码器)--解码器范式，这种范式由于可以利用大量的正常样本文本做预训练，而用于样本文本的纠错数据仅作为fine-tune训练，因此避免了纠错数据的数据量不够造成的现有检测方法中存在的过拟合问题，另外，候选字的生成过程是根据语境进行的，因此避免了现有技术中由于使用困惑集而带来的不灵活性，并且，候选字的数量可以更少(实验证明4个候选字即可达到较好效果)，这样使得检测速度更快。

2、本发明实施例的文本内容检测方法采用了更精准的字形相似度量化计算方法，这是由于相比较与现有的利用五笔或仓颉输入法编码，或只使用笔画来做汉字字形表征的方法，或只用汉语拼音做读音表征的方法，现有方法会使得很多文字的相似度是完全相同的，因此相似度粗糙。本发明实施例的方法可以让字形相似度多样化，且使得笔画完全一样只是形式不一样的文字(例如“午”和“牛”，“田”和“由”)之间依然能够拥有不为1的相似度，从而将两个字区分开，因此检测更加准准。

3、本发明实施例的文本内容检测方法是一种高精确保召回的检测方法，而现有检测方法是利用特征加权阈值对候选字进行过滤，该特征加权阈值完全靠经验估计得到，因而无法在保证精确率的同时保证召回率，也就是说，如果提升精确率就会损失召回率，如果提升召回率就会损失精确率，而本发明实施例中的检测方法，对候选矩阵中的每一行候选文本都是高精确输出检测结果(即输出相似度和语境合适度)，通过多行的输出结果进而合并以保证召回率，使得既能提升精确率又能提升召回率。

本发明实施例的文本内容检测方法可以应用但不限于：台词、字幕、或其它视频、图片文本识别结果中的错别字检测过程，从而提高下游应用如内容拆条、标签分类等的性能，还可以应用在校验文稿编辑结果中的错别字检测过程，避免宣传软文、法律文档、技术文档、热聊对话等场景中出现错字造成不良后果。

综上，本发明实施例提供的一种文本内容检测方法，在获取待检测文本后，通过预先训练好的MLM模型对待检测文本处理，从而得到待检测文本中各待检测文字的多个候选字以及各候选字的语境合适度，然后计算候选字与该候选字对应待检测文字之间的相似度，从而利用各候选字的语境合适度以及各候选字的相似度，以及预设的错别字检测条件，对待检测文本的各待检测文字进行检测，由于本发明实施例在对待检测文字检测过程中共同考虑了汉字的相似性和语境合适度，不再依赖困惑集，因此相比于现有的基于困惑集的检测方法，能够在候选字与待检测汉字差别大时也能正确检测出错别字，因此能够进一步提高检测的准确性。

相应于方法实施例，本发明实施例还提供了一种文本内容检测装置，与图1所示流程对应，如图11所示，该装置包括：

第一获取模块401，用于获取待检测文本，待检测文本中包括多个待检测文字。

第二获取模块402，用于获取待检测文本的各待检测文字的多个候选字，以及各候选字的语境合适度，语境合适度用于表示候选字与待检测文本的语境匹配程度。

计算模块403，用于针对多个候选字中的各候选字，计算该候选字与该候选字对应的待检测文字之间的相似度。

检测模块404，用于基于各候选字的语境合适度、各候选字的相似度以及预设的错别字检测条件，对待检测文本的各待检测文字进行错别字检测，得到检测结果。

其中，第二获取模块402具体用于：

将待检测文本的各待检测文字输入预先训练好的掩码语言模型MLM模型，得到MLM模型输出的候选字矩阵，候选字矩阵中的每一行表示一组候选文本，一组候选文本中的各文字对应待检测文本中的多个待检测文字，且各行的排列顺序与该行中候选字的语境合适度相关，候选字矩阵中的每一列表示一个待检测文字的全部候选字。

其中，计算模块403具体用于：

基于候选字的字形，计算候选字与该候选字对应待检测文字之间的字形相似度；或者，

基于候选字的读音，计算候选字与该候选字对应待检测文字之间的读音相似度。

其中，如图12所示，上述计算模块403，包括：

第一获取子模块4031，用于分别获取候选字和与该候选字对应的待检测文字的象形文字描述序列IDS表征字符，IDS表征字符用于表示组成文字的各字符间的组成顺序。

第一计算子模块4032，用于根据IDS表征字符，计算候选字与该候选字对应的待检测文字之间的第一编辑距离，第一编辑距离为将候选字修改为待检测文字所需替换的字符数。

第二计算子模块4033，用于利用第一编辑距离计算该候选字与对应的待检测文字之间的字形相似度。

其中，如图13所示，上述计算模块403，包括：

第二获取子模块4034，用于分别获取候选字和与该候选字对应的待检测文字在不同预设语言类型中的汉字读音表征。

第三计算子模块4035，用于根据所获取的汉字读音表征，计算候选字与该候选字对应的待检测文字之间的第二编辑距离，第二编辑距离为将候选字的拼音修改为待检测文字的拼音所需替换的字符数。

第四计算子模块4036，用于利用第二编辑距离计算该候选字与对应的待检测文字之间的读音相似度。

其中，如图14所示，上述检测模块404，包括：

生成子模块4041，用于用于针对各候选字中的每一个候选字，利用该候选字与该候选字的待检测文字之间的语境合适度和相似度，生成该候选字的语境合适与相似度之间的对应关系。

判断子模块4042，用于判断对应关系是否符合预设的检测条件函数，检测条件函数是基于样本文本的语境合适度和相似度之间的对应关系确定的。

识别子模块4043，用于如果对应关系符合检测条件函数，则将该对应关系所对应的候选字的待检测文字识别为错别字。

其中，在图11所示装置结构的基础上，如图15所示，本发明实施例的文本内容检测装置还可以包括：

替换模块501，用于在待检测待检测文本中，将错别字替换为该错别字对应的候选字，得到目标文本。

输出模块502，用于输出目标文本。

其中，在图11所示装置结构的基础上，如图16所示，本发明实施例的文本内容检测装置还可以包括：

第一生成模块601，用于获取无错样本文件，并基于无错样本文件，使用预设的双向编码表示的变换器BERT方法生成第一样本。

第二生成模块602，用于获取有错样本文件，并基于有错样本文件，分别生成第二样本和第三样本，其中，第二样本中包含错误字符与该错误字符对应正确字符的映射关系，第三样本中包含正确字符与该正确字符的映射关系。

训练模块603，用于使用第一样本、第二样本、第三样本对MLM模型进行训练。

本发明实施例提供的一种文本内容检测装置，在获取待检测文本后，通过获取待检测文本中各待检测文字的多个候选字以及各候选字的语境合适度，计算候选字与该候选字对应待检测文字之间的相似度，从而利用各候选字的语境合适度以及各候选字的相似度，以及预设的错别字检测条件，对待检测文本的各待检测文字进行检测，由于本发明实施例在对待检测文字检测过程中共同考虑了汉字的相似性和语境合适度，不再依赖困惑集，因此相比于现有的基于困惑集的检测方法，能够在候选字与待检测汉字差别大时也能正确检测出错别字，因此能够进一步提高检测的准确性。

本发明实施例还提供了一种电子设备，如图17所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现如下步骤：

获取待检测文本，待检测文本中包括多个待检测文字；

获取待检测文本的各待检测文字的多个候选字，以及各候选字的语境合适度，语境合适度用于表示候选字与待检测文本的语境匹配程度；

针对多个候选字中的各候选字，计算该候选字与该候选字对应的待检测文字之间的相似度；

基于各候选字的语境合适度、各候选字的相似度以及预设的错别字检测条件，对待检测文本的各待检测文字进行错别字检测，得到检测结果。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文本内容检测方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文本内容检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文本内容检测方法，其特征在于，包括：

获取待检测文本，所述待检测文本中包括多个待检测文字；

2.根据权利要求1所述的方法，其特征在于，所述获取所述待检测文本的各待检测文字的多个候选字，以及各候选字的语境合适度的步骤，包括：

将所述待检测文本的各待检测文字输入预先训练好的掩码语言模型MLM模型，得到所述MLM模型输出的候选字矩阵，所述候选字矩阵中的每一行表示一组候选文本，一组候选文本中的各文字对应所述待检测文本中的所述多个待检测文字，且各行的排列顺序与该行中候选字的语境合适度相关，所述候选字矩阵中的每一列表示一个待检测文字的全部候选字。

3.根据权利要求1所述的方法，其特征在于，所述针对所述多个候选字中的各候选字，计算该候选字与该候选字对应的待检测文字之间的相似度的步骤，包括：

基于所述候选字的字形，计算所述候选字与该候选字对应待检测文字之间的字形相似度；或者，

基于所述候选字的读音，计算所述候选字与该候选字对应待检测文字之间的读音相似度。

4.根据权利要求3所述的方法，其特征在于，所述基于所述候选字的字形，计算所述候选字与该候选字对应待检测文字之间的字形相似度的步骤包括：

分别获取所述候选字和与该候选字对应的待检测文字的象形文字描述序列IDS表征字符，所述IDS表征字符用于表示组成文字的各字符间的组成顺序；

根据所述IDS表征字符，计算所述候选字与该候选字对应的待检测文字之间的第一编辑距离，所述第一编辑距离为将所述候选字修改为待检测文字所需替换的字符数；

利用所述第一编辑距离计算该候选字与对应的待检测文字之间的字形相似度。

5.根据权利要求3所述的方法，其特征在于，所述基于所述候选字的读音，计算所述候选字与该候选字对应待检测文字之间的读音相似度的步骤，包括：

分别获取所述候选字和与该候选字对应的待检测文字在不同预设语言类型中的汉字读音表征；

根据所获取的所述汉字读音表征，计算所述候选字与该候选字对应的待检测文字之间的第二编辑距离，所述第二编辑距离为将所述候选字的拼音修改为待检测文字的拼音所需替换的字符数；

利用所述第二编辑距离计算该候选字与对应的待检测文字之间的读音相似度。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述基于各候选字的所述语境合适度、各候选字的所述相似度以及预设的错别字检测条件，对所述待检测文本的各待检测文字进行错别字检测，得到检测结果的步骤，包括：

针对所述各候选字中的每一个候选字，利用该候选字与该候选字的所述待检测文字之间的语境合适度和相似度，生成该候选字的语境合适与相似度之间的对应关系；

判断所述对应关系是否符合预设的检测条件函数，所述检测条件函数是基于样本文本的语境合适度和相似度之间的对应关系确定的；

如果所述对应关系符合所述检测条件函数，则将该对应关系所对应的候选字的待检测文字识别为错别字。

7.根据权利要求6所述的方法，其特征在于，所述基于各候选字的所述语境合适度、各候选字的所述相似度以及预设的错别字检测条件，对所述待检测文本的各待检测文字进行错别字检测，得到检测结果之后，所述方法还包括：

在所述待检测待检测文本中，将所述错别字替换为该错别字对应的候选字，得到目标文本；

输出所述目标文本。

8.根据权利要求2所述的方法，其特征在于，所述MLM模型的训练过程包括：

获取无错样本文件，并基于所述无错样本文件，使用预设的双向编码表示的变换器BERT方法生成第一样本；

获取有错样本文件，并基于所述有错样本文件，分别生成第二样本和第三样本，其中，所述第二样本中包含错误字符与该错误字符对应的正确字符的映射关系，所述第三样本中包含正确字符与该正确字符的映射关系；

使用所述第一样本、所述第二样本、所述第三样本对所述MLM模型进行训练。

9.一种文本内容检测装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述第二获取模块具体用于：

11.根据权利要求9所述的装置，其特征在于，所述计算模块具体用于：

12.根据权利要求9-11任一项所述的装置，其特征在于，所述检测模块包括：

生成子模块，用于针对所述各候选字中的每一个候选字，利用该候选字与该候选字的所述待检测文字之间的语境合适度和相似度，生成该候选字的语境合适与相似度之间的对应关系；

判断子模块，用于判断所述对应关系是否符合预设的检测条件函数，所述检测条件函数是基于样本文本的语境合适度和相似度之间的对应关系确定的；

识别子模块，用于如果所述对应关系符合所述检测条件函数，则将该对应关系所对应的候选字的待检测文字识别为错别字。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

替换模块，用于在所述待检测待检测文本中，将所述错别字替换为该错别字对应的候选字，得到目标文本；

输出模块，用于输出所述目标文本。

14.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一所述的方法步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-8任一所述的方法步骤。