CN112989805A

CN112989805A - 一种文本检测方法、装置、设备及存储介质

Info

Publication number: CN112989805A
Application number: CN202110256965.7A
Authority: CN
Inventors: 刘兴旺
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-06-18

Abstract

本公开提供了文本检测方法、装置、设备、存储介质以及产品，涉及计算机技术领域，尤其涉及人工智能技术及自然语言处理技术领域。具体实现方案为：获取待测文本；对待测文本进行预设错误类型的信息检测，得到第一检测结果；对待测文本进行预设实体类型的实体命名检测，得到第二检测结果；根据第一检测结果和第二检测结果确定待测文本的检测结果。根据本公开的技术方案，能提高文本检测结果的准确性。

Description

一种文本检测方法、装置、设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及人工智能技术及自然语言处理技术领域。

背景技术

优质的语言文字描述，使信息表达更清楚，人们理解起来更轻松。低质不通顺的语言文字描述，使信息传输存在不完整，有歧义，难理解等问题。相关文本检测方法中，对文本是否通顺的检测准确率低，因此，如何提升检测准确率成为亟待解决的问题。

发明内容

本公开提供了一种文本检测方法、装置、设备、存储介质以及产品。

根据本公开的一方面，提供了一种文本检测方法，包括：

获取待测文本；

对该待测文本进行预设错误类型的信息检测，得到第一检测结果；

对该待测文本进行预设实体类型的实体命名检测，得到第二检测结果；

根据该第一检测结果和该第二检测结果确定该待测文本的检测结果。

根据本公开的另一方面，提供了一种文本检测装置，包括：

第一获取单元，用于获取待测文本；

第一检测单元，用于对该待测文本进行预设错误类型的信息检测，得到第一检测结果；

第二检测单元，用于对该待测文本进行预设实体类型的实体命名检测，得到第二检测结果；

确定单元，用于根据该第一检测结果和该第二检测结果确定该待测文本的检测结果。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术方案，能提高文本检测结果的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的文本检测方法的流程示意图一；

图2是根据本公开实施例的文本检测方法的流程示意图二；

图3是根据本公开实施例的文本检测方法的流程示意图三；

图4是根据本公开实施例的由正常文本构造第一训练样本的示意图；

图5是根据本公开实施例的文本检测方法的流程示意图四；

图6是根据本公开实施例的产品线调整示意图；

图7是根据本公开实施例的文本检测方法的流程示意图五；

图8是根据本公开实施例的进行文本检测的示意图；

图9是根据本公开实施例的文本检测装置的组成结构示意图一；

图10是根据本公开实施例的文本检测装置的组成结构示意图二；

图11是用来实现本公开实施例的文本检测方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的说明书实施例和权利要求书及上述附图中的术语"第一"、"第二"、和"第三"等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语"包括"和"具有"以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本公开提供一种文本检测方法，该方法可以应用于电子设备，该电子设备包括但不限于固定设备和/或移动设备。例如，固定设备包括但不限于服务器，服务器可以是云服务器或普通服务器。例如，移动设备包括但不限于手机或平板电脑中的一项或是多项。如图1所示，该方法包括：

步骤S101，获取待测文本；

步骤S102，对该待测文本进行预设错误类型的信息检测，得到第一检测结果；

步骤S103，对该待测文本进行预设实体类型的实体命名检测，得到第二检测结果；

步骤S104，根据该第一检测结果和该第二检测结果确定该待测文本的检测结果。

其中，该待测文本是待检测的文本。例如，该待测文本可以是一句话。又例如，该待测文本可以是一段话。再例如，该待测文本可以是一篇文章。

其中，本公开不对该待测文本的获取方式进行限定。示例性地，电子设备通过对外接口接收该待测文本。又示例性地，电子设备接收其他设备转发的该待测文本。本公开不对该待测文本的来源进行限定。比如，该待测文本可以由人工编辑生成，或者由机器翻译得到。

其中，预设错误类型包括下述中的一种或几种错误类型：少字，多字，错别字，乱排列。其中，错别字包括但不限于下述子类型：同形错别字，同音错别字，随机错别字。

示例性地，今天星期五->令天星五，“星五”属于少字错误类型。

示例性地，今天星期五->令天你星期五，“你”属于多字错误类型。

示例性地，今天->令天，“令”属于同形错别字错误类型。

示例性地，天气->天汽，“汽”属于同音错别字错误类型。

示例性地，你很美->你很啊美，“啊”属于随机错别字错误类型。

示例性地，天气好->天好气，“好气”属于乱排列错误类型。

其中，本公开不对少字情况下具体少的字的数量进行限定。

其中，本公开不对多字情况下具体多出的字的数量进行限定。

其中，本公开不对乱排列情况下具体排列顺序进行限定。

其中，本公开不对预设错误类型的种类和数量进行限定。预设错误类型的种类和数量可根据设计需求或用户需求进行设定或调整。

其中，预设实体类型包括下述中的一种或几种实体类型：人名，地名，汽车名，品牌，缩略词，网络热词。其中，缩略词是指有的缩略形式形成了紧密结构，凝固成为一个能自由运用的语言单位，叫做缩略词。示例性，肌肤问题的缩略词为“肌题”。其中，网络热词是流传于网络的被赋予特定时代和语言环境意义的使用频率较高的词汇。示例性地，“耗子尾汁”是2021年流行的一个网络热词。

其中，第一检测结果是指对该待测文本是否包括符合预设错误类型的信息的检测结果。示例性地，该第一检测结果包括该待测文本是否包括符合预设错误类型的第一类信息的检测结果，以及在包括第一类信息的情况下第一类信息的标签及位置。其中，第一类信息是符合预设错误类型的信息。

示例性地，第一类信息的标签是其所属的预设错误类型的标签。第一类信息的位置是指该第一类信息在该待测文本中出现的位置。其中，不同预设错误类型的信息，对应的标签不同。示例性地，少字错误类型对应标签1，多字错误类型对应标签2，错别字错误类型对应标签3，乱排列错误类型对应标签4。

其中，第二检测结果是指对该待测文本是否包括符合预设实体类型的实体命名的检测结果。示例性地，该第二检测结果包括该待测文本是否包括符合预设实体类型的实体命名的检测结果，以及在包括实体命名的情况下实体命名的标签及位置。

示例性地，实体命名的标签是其所属预设实体类型的标签。实体命名的位置是指该实体命名在该待测文本中出现的位置。其中，不同预设实体类型的信息，对应的标签不同。示例性地，人名类实体对应标签a，地名类实体对应标签b，汽车名类实体对应标签c，品牌名类实体对应标签d，缩略词类实体对应标签e，网络热词类实体对应标签f。

其中，该待测文本的检测结果包括该待测文本是否为正常文本。进一步地，在该待测文本为非正常文本情况下，该待测文本的检测结果还包括不通顺的位置和/或原因。示例性地，在该待测文本满足预设条件的情况下，判定该待测文本为正常文本。在该待测文本不满足预设条件的情况下，判定该待测文本为非正常文本。这里，正常文本可以理解为内容通顺的文本；非正常文本可以理解为内容不通顺的文本。其中，预设条件可根据设计需求或用户需求进行设定或调整。

这样，本公开方案通过获取待测文本；对待测文本进行预设错误类型的信息检测，得到第一检测结果；对待测文本进行预设实体类型的实体命名检测，得到第二检测结果；根据第一检测结果和第二检测结果确定待测文本的检测结果；如此，通过对待测文本进行预设错误类型的信息检测，能够提高检测的覆盖范围；通过对待测文本分别进行预设错误类型的信息检测和实体命名检测，能提高文本检测结果的准确性，从而有助于改善文本生态环境。

在本公开实施例中，在实现上述任一方法的基础上，如图2所示，该方法还可以包括以下步骤：

步骤S105，获取第一识别模型，其中，该第一识别模型是基于第一训练样本对第一预设模型进行训练后所得到的，用于进行预设错误类型的信息检测。

在一些实施方式中，对该待测文本进行预设错误类型的信息检测，得到第一检测结果，包括：

将该待测文本输入该第一识别模型，得到该第一识别模型输出的第一检测结果，该第一检测结果包括该待测文本中是否存在属于预设错误类型的第一类信息以及在存在第一类信息的情况下第一类信息对应的第一类标签及其位置。

其中，第一类信息是相对于不属于预设错误类型的第二类信息而言的，是属于预设错误类型的信息。

这里，第一预设模型可以采用各种神经网络模型，如长短期记忆网络(LSTM，LongShort-Term Memory)模型，条件随机场(CRF，Conditional Random Field)算法模型，基于转换器的双向编码表示(Bidirectional Encoder Representations from Transformers，BERT)模型等。本公开对第一预设模型的类型不进行限定。

需要说明的是，本公开并不对第一预设模型的训练方式和训练过程进行限定。

通过上述实施方式，能够得到第一预设模型，进而将待测文本输入该第一识别模型，能够自动输出第一检测结果，相对于采用人工方式检测而言，能提高文本检测的效率和准确率；同时，由于第一识别模型能够识别预设错误类型的信息，不仅能提高第一识别模型的覆盖范围，还能提升第一识别模型的鲁棒性。

在本公开实施例中，在实现上述任一方法的基础上，如图3所示，该方法还可以包括以下步骤：

步骤S106，获取正常样本文本；基于正常样本文本构造数据，得到第一训练样本。

其中，本公开不对正常样本文本的数量进行限定。

其中，本公开不对正常样本文本的来源进行限定。示例性地，正常样本文本来自于报纸、或电视、或书本、或网站等。

为了满足数据的多样性，在一些实施方式中，基于正常样本文本构造数据，包括下述至少之一：

基于正常样本文本构造少字数据；

基于正常样本文本构造多字数据；

基于正常样本文本构造同音或同形或随机错别字数据；

基于正常样本文本构造乱排列数据。

比如，正常样本为：今天天气很好。

示例性地，错别字样本为：令天天气哼好。令天天气很好。今天天汽很好。今天天搭很好。

示例性地，少字样本为：今天天气很。令天天气很好。今天天好。

示例性地，多字样本为：今天天气很好好。令天天气气很好。

示例性地，乱排列样本为：今天气天好很。今天好天气很。

由于语言学博大精深，错别字可以很好的定义，但是什么是不通顺，却很难定义。每个人的学识、经历都不一样，对不通顺的理解也不一样。另外，目前已经标定好的数据很少，错别字数据可以找到一些，但是其他类型错误的数据是极少的，而且人工标记代价太大，标记准确率不够，标记数据量不够，基于这些不足，第一识别模型很难收敛。图4示出了由正常文本构造第一训练样本的流程示意图，如图4所示，通过对正常文本进行数据构造，增大数据量和数据种类，从而得到丰富多样且量大的样本数据。

通过上述实施方式，给出了样本数据的构造和增强方案，具体的，以一定的概率构造少字数据；以一定的概率构造多字数据；以一定的概率，构造同音、同形、随机错别字数据；以一定的概率构造乱排列数据；以一定的概率构造正常数据；如此，基于上述丰富多样且量大的数据，第一识别模型能很好地收敛，且能提升第一识别模型的鲁棒性。

在本公开实施例中，在实现上述任一方法的基础上，如图5所示，该方法还可以包括以下步骤：

步骤S107，获取第一识别模型上线后的运行日志；基于该运行日志确定第二训练样本；基于该第二训练样本训练该第一识别模型。

本公开中，不对运行日志的数量进行限定。

其中，第二训练样本与第一训练样本不同，第一训练样本是第一识别模型上线前的训练样本，第二训练样本是根据第一识别模型上线后的运行日志确定出的训练样本。

本公开中，不对第二训练样本和第一训练样本的个数进行限定。

本公开中，不对运行日志的采集时间进行限定。示例性地，采集在第一识别模型的第一版本发布后且第二版本发布前的全部或部分运行日志。又示例性地，采集第一识别模型的第二版本试运行阶段的全部或部分运行日志。

本公开中，不对运行日志的采集对象进行限定。示例性地，采集目标群体使用第一识别模型的全部或部分运行日志，目标群体可根据设计需求进行设定或调整，本公开不对目标群体的划分方式进行限定。又示例性地，采集目标区域的用户使用第一识别模型的第二版本试运行阶段的全部或部分运行日志，目标区域可根据设计需求进行设定或调整，本公开不对目标区域的划分方式进行限定。

不同的人对同一批数据的是否不通顺的认知，存在一定的差异。为了使得模型落地，尤其是在不同场景下落地，必须要根据产品线的数据对模型做微调训练。图6示出了产品线调整示意图，如图6所示，根据第一训练本训练得到第一识别模型，获取第一识别模型上线后的数据，根据上线后的数据确定第二训练样本，根据第二训练样本再次训练该第一识别模型。示例性地，在第一场景下，对第一识别模型的检测精度的要求最高；在第二场景下，对第一识别模型的检测精度的要求较高；在第三场景下，对第一识别模型的检测精度的要求较低。如此，在不同应用场景下，能够实现第一识别模型跟随其所在应用场景进行适应性调整，以满足其所在场景的需求，从而实现第一识别模型在各种场景下的落地。可以理解，该微调训练方案同样适用于对第二识别模型。

通过上述实施方式，能够解决第一识别模型的场景适配问题。

在本公开实施例中，在实现上述任一方法的基础上，如图7所示，该方法还可以包括以下步骤：

步骤S108，获取第二识别模型，其中，该第二识别模型是基于第三训练样本对第二预设模型进行训练后所得到的，用于进行预设实体类型的实体命名检测。

在一些实施方式中，对该待测文本进行预设实体类型的实体命名检测，得到第二检测结果，包括：

将该待测文本输入第二识别模型，得到该第二识别模型输出的第二检测结果，该第二检测结果包括该待测文本中是否存在属于该预设实体类型的实体命名以及在存在实体命名的情况下该实体命名对应的第二类标签及其位置。

这里，第二预设模型可以采用各种神经网络模型，如LSTM模型，CRF算法模型，BERT模型，基于transformer的目标检测模型，N-Gram语言模型，频繁项挖掘算法模型，上下文特征模型等。本公开对第二预设模型的类型不进行限定。

其中，本公开不对第二训练样本的数量进行限定。

其中，本公开不对第二训练样本的来源进行限定。示例性地，第二训练样本来自于报纸、或电视、或书本、或网站等。

需要说明的是，本公开并不对第二预设模型的训练方式和训练过程进行限定。

通过上述实施方式，能够得到第二预设模型，进而将待测文本输入该第二识别模型，能够自动输出第二检测结果，相对于采用人工方式检测实体命名而言，能提高对文本中实体命名检测的效率和准确率，从而有助于后续结合该第二检测结果快速确定出待测文本的检测结果。

在本公开实施例中，在实现上述任一方法的基础上，步骤S104得到的检测结果包括该待测文本是否为正常文本。

示例性地，在该待测文本满足预设条件的情况下，判定该待测文本为正常文本。在该待测文本不满足预设条件的情况下，判定该待测文本为非正常文本。这里，正常文本可以理解为内容通顺的文本；非正常文本可以理解为内容不通顺的文本。

其中，预设条件可根据设计需求或用户需求进行设定或调整。示例性地，预设条件涉及对一种预设错误类别的检查。又示例性地，预设条件涉及对两种预设错误类别的检查。

在一些实施方式中，根据该第一检测结果和该第二检测结果确定该待测文本的检测结果，包括：

在该第一检测结果表征该待测文本不包括第一类信息的情况下，确定该待测文本属于正常文本；

在该第一检测结果表征该待测文本包括第一类信息的情况下，结合该第二检测结果确定该待测文本的检测结果。

通过上述实施方式，在第一检测结果满足一定条件下才结合第二检测结果确定该待测文本的检测结果，能大大提高文本检测的速度。

在一些实施方式中，在该第一检测结果表征该待测文本包括第一类信息的情况下，结合该第二检测结果确定该待测文本的检测结果，包括：

在该第一检测结果表征该待测文本包括第一类信息，且该第二检测结果表征该待测文本中第一类信息的位置涉及实体命名的情况下，确定该待测文本属于正常文本；

在该第一检测结果表征该待测文本包括第一类信息，且该第二检测结果表征该待测文本中第一类信息的位置不涉及实体命名的情况下，确定该待测文本属于非正常文本。

这里，第一类信息的位置涉及实体命名，包括：第一类信息的位置位于实体命名的位置覆盖范围内，即第一类信息的位置被包含于实体命名的位置。

这里，第一类信息的位置不涉及实体命名，包括：第一类信息的位置位于实体命名的位置覆盖范围外，即第一类信息的位置未被包含在实体命名的位置。

示例性地，输入的文本为：用轻甜才知道，本地附近有这么多单身小姐姐；第一识别模型输出的第一检测结果为：用轻甜D才知道，本地附近有这么多单身小姐姐，其中，甜是一个多余的字符，甜的位置。第二识别模型输出的第二检测结果为：用轻甜才知道，本地附近有这么多单身小姐姐，其中，轻甜是一个品牌或产品，以及轻甜的位置。最后，根据第一识别模型和第二识别模型，得到检测结果为：该文本为正常文本，即该文本不存在不通顺问题。

通过上述实施方式，能够结合第二检测结果确定该待测文本的检测结果，相对于仅根据第一检测结果来确定该待测文本的检测结果而言，能大大提高文本检测结果的准确率。

在一些实施方式中，该第一检测结果包括第一预测准确率；该第二检测结果包括第二预测准确率。

其中，该第一预测准确率用于表征预测出的第一类信息的准确率。

其中，该第二预测准确率用于表征预测出的命名实体的准确率。

通过上述实施方式，丰富了第一检测结果和第二检测结果的信息维度，为后续根据该第一检测结果和该第二检测结果确定该待测文本的检测结果提供判定依据，还便于快速调整对待测文本的检测速度和精度。

在一些实施方式中，步骤S104得到的检测结果包括该待测文本是否为正常文本。

在该第一检测结果的第一预测准确率小于第一阈值的情况下，确定该待测文本属于正常文本；

在该第一检测结果的第一预测准确率大于或等于第一阈值，且该第二检测结果的第二预测准确率小于第二阈值的情况下，确定该待测文本属于非正常文本；

在该第一检测结果的第一预测准确率大于或等于第一阈值，且该第二检测结果的第二预测准确率大于或等于第二阈值的情况下，若该第二检测结果中实体对应的位置包含第一类信息的位置，则确定该待测文本属于正常文本；若该第二检测结果中该实体对应的位置不包含第一类信息的位置，则确定该待测文本属于非正常文本。

其中，第一阈值和第二阈值均可根据设计需求或用户需求进行设定或调整。示例性地，根据检测精度要求调整第一阈值的值和第二阈值的值。又示例性地，根据检测速度要求调整第一阈值的值和第二阈值的值。

通过上述实施方式，根据第一预测准确率和第二预测准确率确定是否结合第二检测结果确定该待测文本的检测结果，能提高对待测文本的检测速度。同时，由于第一阈值和第二阈值是可调节的，便于根据应用场景快速调整对待测文本的检测速度和精度。

图8示出了进行文本检测的示意图，从图8可以看出，电子设备获取待测文本，通过第一识别模型对该待测文本进行预设错误类型的检测，得到第一检测结果，该第一检测结果包括符合预设错误类型的第一类信息的标签及位置；在该第一检测结果的第一预测准确率小于第一阈值的情况下，确定该待测文本属于正常文本；在该第一检测结果的第一预测准确率大于或等于第一阈值，通过第二识别模型对该待测文本进行预设实体类型的实体命名检测，得到第二检测结果，该第二检测结果包括符合预设实体类型的实体命名的标签及位置，在该第二检测结果的第二预测准确率小于第二阈值的情况下，确定该待测文本属于非正常文本；在该第二检测结果的第二预测准确率大于或等于第二阈值的情况下，通过判断单元判断第二检测结果中实体命名对应的位置是否包含第一类信息的位置，若第二检测结果中实体命名对应的位置包含第一类信息的位置，则判定该待测文本属于正常文本；若第二检测结果中实体命名对应的位置不包含第一类信息的位置，则确定该待测文本属于非正常文本。这里，可以将非正常文本称为不通顺文本。

如此，通过识别文本中的不通顺，进而根据不通顺位置及原因进行针对性修改，提高了文本的质量，以更优质的文本内容呈现给用户，改善了文本生态环境的质量，提升了用户体验。

应理解，图8所示的示意图为一种可选的具体实现方式，本领域技术人员可以基于图8的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开提供的文本检测方法，可以用于文本检测、或机器翻译、或文本生成、或文书自动评审等项目中。示例性地，方法的执行主体可以是电子设备，该电子设备可以是终端，还可以是服务器。

作为对上述各方法的实现，本公开还提供一种文本检测装置。图9示出了文本检测装置的示意图。如图9所示，该装置包括：

第一获取单元901，用于获取待测文本；

第一检测单元902，用于对该待测文本进行预设错误类型的信息检测，得到第一检测结果；

第二检测单元903，用于对该待测文本进行预设实体类型的实体命名检测，得到第二检测结果；

确定单元904，用于根据该第一检测结果和该第二检测结果确定该待测文本的检测结果。

在一些实施方式中，如图10所示，该装置还可包括：

第二获取单元905，用于获取第一识别模型，其中，该第一识别模型是基于第一训练样本对第一预设模型进行训练后所得到的，用于进行预设错误类型的信息检测；

其中，该第一检测单元902，用于：

将该待测文本输入该第一识别模型，得到该第一识别模型输出的第一检测结果，该第一检测结果包括该待测文本中是否存在属于预设错误类型的第一类信息以及在存在第一类信息的情况下该第一类信息对应的第一类标签及其位置。

在一些实施方式中，如图10所示，该装置还可包括：

构造单元906，用于获取正常样本文本；基于正常样本文本构造数据，得到第一训练样本；

其中，该构造单元906基于正常样本文本构造数据，包括下述至少之一：

基于正常样本文本构造少字数据；

基于正常样本文本构造多字数据；

基于正常样本文本构造同音或同形或随机错别字数据；

基于正常样本文本构造乱排列数据。

在一些实施方式中，如图10所示，该装置还可包括：

调整单元907，用于：

获取该第一识别模型上线后的运行日志；

基于该运行日志确定第二训练样本；

基于该第二训练样本训练该第一识别模型。

在一些实施方式中，如图10所示，该装置还可包括：

第三获取单元908，用于获取第二识别模型，其中，该第二识别模型是基于第三训练样本对第二预设模型进行训练后所得到的，用于进行该预设实体类型的实体命名检测；

其中，该第二检测单元903，用于：

将该待测文本输入该第二识别模型，得到该第二识别模型输出的第二检测结果，该第二检测结果包括该待测文本中是否存在属于该预设实体类型的实体命名以及在存在该实体命名的情况下该实体命名对应的第二类标签及其位置。

在一些实施方式中，该确定单元904，用于：

在该第一检测结果表征该待测文本不包括该第一类信息的情况下，判定该待测文本属于正常文本；

在该第一检测结果表征该待测文本包括该第一类信息的情况下，结合该第二检测结果确定该待测文本的检测结果。

在一些实施方式中，该确定单元904，还用于：

在该第一检测结果表征该待测文本包括该第一类信息，且在该第二检测结果表征该待测文本中该第一类信息的位置涉及该实体命名的情况下，确定该待测文本属于正常文本；

在该第一检测结果表征该待测文本包括该第一类信息，且在该第二检测结果表征该待测文本中该第一类信息的位置不涉及该实体命名的情况下，确定该待测文本属于非正常文本。

在一些实施方式中，该第一检测结果包括第一预测准确率；该第二检测结果包括第二预测准确率；该确定单元904，还用于：

在该第一检测结果的第一预测准确率大于或等于该第一阈值，且在该第二检测结果的第二预测准确率小于第二阈值的情况下，确定该待测文本属于非正常文本；

在该第一检测结果的该第一预测准确率大于或等于该第一阈值，且该第二检测结果的第二预测准确率大于或等于第二阈值的情况下，若该第二检测结果中该实体命名对应的位置包含该第一类信息的位置，则确定该待测文本属于正常文本；若该第二检测结果中该实体命名对应的位置不包含该第一类信息的位置，则确定该待测文本属于非正常文本。

本公开实施例各装置中的各模块的功能可以参见上述文本检测方法中的对应描述，在此不再赘述。

本公开的文本检测装置，能提高文本检测结果的准确率，提高文本检测的覆盖范围。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)803中的计算机程序来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如文本检测方法。例如，在一些实施例中，文本检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM1103并由计算单元1101执行时，可以执行上文描述的文本检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本检测方法，包括：

获取待测文本；

对所述待测文本进行预设错误类型的信息检测，得到第一检测结果；

对所述待测文本进行预设实体类型的实体命名检测，得到第二检测结果；

根据所述第一检测结果和所述第二检测结果确定所述待测文本的检测结果。

2.根据权利要求1所述的方法，其中，所述方法还包括：

获取第一识别模型，其中，所述第一识别模型是基于第一训练样本对第一预设模型进行训练后所得到的，用于进行所述预设错误类型的信息检测；

其中，所述对所述待测文本进行预设错误类型的信息检测，得到第一检测结果，包括：

将所述待测文本输入所述第一识别模型，得到所述第一识别模型输出的所述第一检测结果，所述第一检测结果包括所述待测文本中是否存在属于所述预设错误类型的第一类信息以及在存在所述第一类信息的情况下所述第一类信息对应的第一类标签及其位置。

3.根据权利要求2所述的方法，其中，所述方法还包括：

获取正常样本文本；

基于所述正常样本文本构造数据，得到第一训练样本；

其中，所述基于所述正常样本文本构造数据，包括下述至少之一：

基于所述正常样本文本构造少字数据；

基于所述正常样本文本构造多字数据；

基于所述正常样本文本构造同音或同形或随机错别字数据；

基于所述正常样本文本构造乱排列数据。

4.根据权利要求2所述的方法，其中，所述方法还包括：

获取所述第一识别模型上线后的运行日志；

基于所述运行日志确定第二训练样本；

基于所述第二训练样本训练所述第一识别模型。

5.根据权利要求1所述的方法，其中，所述方法还包括：

获取第二识别模型，其中，所述第二识别模型是基于第三训练样本对第二预设模型进行训练后所得到的，用于进行所述预设实体类型的实体命名检测；

其中，所述对所述待测文本进行预设实体类型的实体命名检测，得到第二检测结果，包括：

将所述待测文本输入所述第二识别模型，得到所述第二识别模型输出的所述第二检测结果，所述第二检测结果包括所述待测文本中是否存在属于所述预设实体类型的实体命名以及在存在所述实体命名的情况下所述实体命名对应的第二类标签及其位置。

6.根据权利要求1所述的方法，其中，所述检测结果包括所述待测文本是否为正常文本；所述根据所述第一检测结果和所述第二检测结果确定所述待测文本的检测结果，包括：

在所述第一检测结果表征所述待测文本不包括第一类信息的情况下，确定所述待测文本属于正常文本；

在所述第一检测结果表征所述待测文本包括所述第一类信息的情况下，结合所述第二检测结果确定所述待测文本的检测结果。

7.根据权利要求6所述的方法，其中，所述在所述第一检测结果表征所述待测文本包括所述第一类信息的情况下，结合所述第二检测结果确定所述待测文本的检测结果，包括：

在所述第一检测结果表征所述待测文本包括所述第一类信息，且在所述第二检测结果表征所述待测文本中所述第一类信息的位置涉及所述实体命名的情况下，确定所述待测文本属于正常文本；

在所述第一检测结果表征所述待测文本包括所述第一类信息，且在所述第二检测结果表征所述待测文本中所述第一类信息的位置不涉及所述实体命名的情况下，确定所述待测文本属于非正常文本。

8.根据权利要求1所述的方法，其中，所述第一检测结果包括第一预测准确率；所述第二检测结果包括第二预测准确率；所述检测结果包括所述待测文本是否为正常文本；所述根据所述第一检测结果和所述第二检测结果确定所述待测文本的检测结果，包括：

在所述第一检测结果的所述第一预测准确率小于第一阈值的情况下，确定所述待测文本属于正常文本；

在所述第一检测结果的所述第一预测准确率大于或等于所述第一阈值，且所述第二检测结果的所述第二预测准确率小于第二阈值的情况下，确定所述待测文本属于非正常文本；

在所述第一检测结果的所述第一预测准确率大于或等于所述第一阈值，且所述第二检测结果的所述第二预测准确率大于或等于所述第二阈值的情况下，若所述第二检测结果中所述实体命名对应的位置包含第一类信息的位置，则确定所述待测文本属于正常文本；若所述第二检测结果中所述实体命名对应的位置不包含所述第一类信息的位置，则确定所述待测文本属于非正常文本。

9.一种文本检测装置，包括：

第一获取单元，用于获取待测文本；

第一检测单元，用于对所述待测文本进行预设错误类型的信息检测，得到第一检测结果；

第二检测单元，用于对所述待测文本进行预设实体类型的实体命名检测，得到第二检测结果；

确定单元，用于根据所述第一检测结果和所述第二检测结果确定所述待测文本的检测结果。

10.根据权利要求9所述的装置，其中，所述装置还包括：

第二获取单元，用于获取第一识别模型，其中，所述第一识别模型是基于第一训练样本对第一预设模型进行训练后所得到的，用于进行所述预设错误类型的信息检测；

其中，所述第一检测单元，用于：

11.根据权利要求10所述的装置，其中，所述装置还包括：

构造单元，用于获取正常样本文本；基于所述正常样本文本构造数据，得到第一训练样本；

其中，所述构造单元基于所述正常样本文本构造数据，包括下述至少之一：

基于所述正常样本文本构造少字数据；

基于所述正常样本文本构造多字数据；

基于所述正常样本文本构造同音或同形或随机错别字数据；

基于所述正常样本文本构造乱排列数据。

12.根据权利要求10所述的装置，其中，所述装置还包括：

调整单元，用于：

获取所述第一识别模型上线后的运行日志；

基于所述运行日志确定第二训练样本；

基于所述第二训练样本训练所述第一识别模型。

13.根据权利要求9所述的装置，其中，所述装置还包括：

第三获取单元，用于获取第二识别模型，其中，所述第二识别模型是基于第三训练样本对第二预设模型进行训练后所得到的，用于进行所述预设实体类型的实体命名检测；

其中，所述第二检测单元，用于：

14.根据权利要求9所述的装置，其中，所述确定单元，用于：

在所述第一检测结果表征所述待测文本不包括第一类信息的情况下，判定所述待测文本属于正常文本；

15.根据权利要求14所述的装置，其中，所述确定单元，还用于：

16.根据权利要求9所述的装置，其中，所述第一检测结果包括第一预测准确率；所述第二检测结果包括第二预测准确率；所述检测结果包括所述待测文本是否为正常文本；所述确定单元，还用于：

在所述第一检测结果的所述第一预测准确率大于或等于所述第一阈值，且在所述第二检测结果的所述第二预测准确率小于第二阈值的情况下，确定所述待测文本属于非正常文本；

在所述第一检测结果的所述第一预测准确率大于或等于所述第一阈值，且所述第二检测结果的所述第二预测准确率大于或等于第二阈值的情况下，若所述第二检测结果中所述实体命名对应的位置包含第一类信息的位置，则确定所述待测文本属于正常文本；若所述第二检测结果中所述实体命名对应的位置不包含所述第一类信息的位置，则确定所述待测文本属于非正常文本。

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。