CN111222316B

CN111222316B - 文本检测方法、装置及存储介质

Info

Publication number: CN111222316B
Application number: CN202010005897.2A
Authority: CN
Inventors: 郑钊; 王晓红; 果荣涛; 邵孔东
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2023-08-29
Anticipated expiration: 2040-01-03
Also published as: CN111222316A

Abstract

本公开是关于一种文本检测方法、装置及存储介质，包括：获取待检测文本；基于不同类型的文本处理规则对待检测文本进行处理，得到分别包含有不同类型的文本内容的至少一个文本集合；确定至少一个文本集合中各个词语的风险度，得到至少一个风险度集合；基于至少一个风险度集合，确定待检测文本的风险等级。由于待检测文本中可能包含有不同类型的文本内容，可以基于不同的文本处理规则，对待检测文本进行处理，得到至少一个文本集合，并基于至少一个文本集合中各个词语的风险度得到的风险度集合确定待检测文本的风险等级。相较于通过人工的方式进行审核，不仅能够省时省力，还能够实现多种特殊类型的文本内容的处理，进而提高文本处理的准确性。

Description

文本检测方法、装置及存储介质

技术领域

本公开涉及计算机通信领域，尤其涉及一种文本检测方法、装置及存储介质。

背景技术

上个世纪九十年代以来，互联网快速发展，到现在进入大数据时代，互联网容纳了海量的信息和数据，包括文本、声音、图像、视频等。这里所说的文本是媒体新闻、科技、报告、电子邮件、技术专利、书籍等。与图像声音数据相比，文本占用的网络资源少，更容易上传和下载，这使得网络资源中大部分是以文本的形式出现。与此同时，也可能导致网络中内存良莠不齐，甚至违规内容，影响用户体验，社会稳定。

文本内容检测是自然语言处理（Natural Language Processing，NLP）领域中一个非常经典的问题。目前文本内容检测主要是组建专门的审核团队，由人工进行审核平台上所有的内容，存在成本高，效率低，标准难以把控等问题。

发明内容

本公开提供一种文本检测方法、装置及存储介质。

根据本公开实施例的第一方面，提供一种文本检测方法，包括：

获取待检测文本；

基于不同类型的文本处理规则对所述待检测文本进行处理，得到分别包含有不同类型的文本内容的至少一个文本集合；

确定所述至少一个文本集合中各个词语的风险度，得到至少一个风险度集合；

基于所述至少一个风险度集合，确定所述待检测文本的风险等级。

可选的，所述基于不同类型的文本处理规则对所述待检测文本进行处理，得到分别包含有不同类型的文本内容的至少一个文本集合，包括：

将所述待检测文本与第一预设文本内容进行匹配，从所述待检测文本中确定出与所述第一预设文本内容相匹配的文本内容，构成第一类文本集合；

根据不同类型的文本筛选规则，对所述待检测文本进行筛选处理，得到目标文本；

将所述目标文本与第二预设文本内容进行匹配，从所述目标文本中确定出与所述第二预设文本内容相匹配的文本内容，构成第二类文本集合。

可选的，所述确定所述至少一个文本集合中各个词语的风险度，得到至少一个风险度集合，包括：

确定所述第一类文本集合中各个词语的风险度，构成第一风险度集合；

确定所述第二类文本集合中各个词语的风险度，构成第二风险度集合；

基于预训练的分类检测模型对所述目标文本进行检测，确定所述目标文本中各个词语的风险度，构成第三风险度集合；

所述基于所述至少一个风险度集合，确定所述待检测文本的风险等级，包括：

根据所述第一风险度集合、所述第二风险度集合、以及所述第三风险度集合，确定所述待检测文本的所述风险等级。

可选的，所述根据不同类型的文本筛选规则，对待检测文本进行筛选处理，包括以下至少之一：

根据过滤规则，基于过滤规则匹配，从所述待检测文本中筛选出与所述过滤规则中所包含的待过滤文本内容不匹配的文本内容；

根据文本匹配规则，将所述待检测文本与第三预设文本内容进行匹配，从所述待检测文本中筛选出与所述第三预设文本内容不匹配的文本内容；

根据词频筛选规则，从所述待检测文本中筛选出现频次满足预设条件的文本内容。

可选的，所述根据不同类型的文本筛选规则，对待检测文本进行筛选处理，得到目标文本，包括：

根据所述过滤规则，从所述待检测文本筛选出与基于所述过滤规则设定的文本内容不匹配的文本内容；

根据所述词频筛选规则，从与基于所述过滤规则设定的文本内容不匹配的文本内容中筛选出出现频次满足所述预设条件的文本内容，得到所述目标文本。

可选的，所述将所述目标文本与第二预设文本内容进行匹配，从所述目标文本中确定出与所述第二预设文本内容相匹配的文本内容，构成第二类文本集合，包括：

对所述目标文本进行分词处理，得所述目标文本的词语集合；

将所述词语集合所包含的词语与所述第二预设文本内容进行匹配，从所述词语集合中确定出与所述第二预设文本内容相匹配的词语，构成所述第二类文本集合。

可选的，所述基于预训练的分类检测模型对所述目标文本进行检测，确定所述目标文本中各个词语的风险度，构成第三风险度集合，包括：

基于预训练的词向量转换模型对所述目标文本进行处理，得到所述目标文本对应的词向量；

基于支持向量机或者深度学习模型对所述词向量进行检测处理，确定各个所述词向量对应的各个词语的风险度，构成所述第三风险度集合。

可选的，所述根据词频筛选规则，从所述待检测文本中筛选出现频次满足预设条件的文本内容，包括：

基于所述待检测文本中各个字词在所述待检测文本中出现的次数、包含有所述各个字词的子文本的数量、以及所述待检测文本中所包含的子文本的总数量，分别确定所述各个字词的权重；

从所述待检测文本中筛选出权重大于或者等于设定权重阈值的文本内容，得到所述目标文本。

可选的，所述根据所述第一风险度集合、所述第二风险度集合、以及所述第三风险度集合，确定所述待检测文本的风险等级，包括：

按照设定顺序对所述第一风险度集合、所述第二风险度集合、以及所述第三风险度集合所包含的各个词语的风险度进行排序，得到排序结果；

基于所述排序结果，确定所述待检测文本的所述风险等级。

根据本公开实施例的第二方面，提供一种文本检测装置，包括：

第一获取模块，配置为获取待检测文本；

第二获取模块，配置为基于不同类型的文本处理规则对所述待检测文本进行处理，得到分别包含有不同类型的文本内容的至少一个文本集合；

第一确定模块，配置为确定所述至少一个文本集合中各个词语的风险度，得到至少一个风险度集合；

第二确定模块，配置为基于所述至少一个风险度集合，确定所述待检测文本的风险等级。

可选的，所述第二获取模块，包括：

第一匹配子模块，配置为将所述待检测文本与第一预设文本内容进行匹配，从所述待检测文本中确定出与所述第一预设文本内容相匹配的文本内容，构成第一类文本集合；

筛选子模块，配置为根据不同类型的文本筛选规则，对所述待检测文本进行筛选处理，得到目标文本；

第二匹配子模块，配置为将所述目标文本与第二预设文本内容进行匹配，从所述目标文本中确定出与所述第二预设文本内容相匹配的文本内容，构成第二类文本集合。

可选的，所述第一确定模块，包括：

第一确定子模块，配置为确定所述第一类文本集合中各个词语的风险度，构成第一风险度集合；

第二确定子模块，配置为确定所述第二类文本集合中各个词语的风险度，构成第二风险度集合；

第三确定子模块，配置为基于预训练的分类检测模型对所述目标文本进行检测，确定所述目标文本中各个词语的风险度，构成第三风险度集合；

所述第二确定模块，包括：

第四确定子模块，配置为根据所述第一风险度集合、所述第二风险度集合、以及所述第三风险度集合，确定所述待检测文本的所述风险等级。

可选的，所述第二获取模块，还配置为以下至少之一：

可选的，所述筛选子模块，还配置为：

基于支持向量机或者深度学习模型对所述词向量进行检测处理，确定各个所述词向量对应的各个词语的风险度，构成第三风险度集合。

可选的，所述第二获取模块，还配置为：

可选的，所述第四确定子模块，还配置为：

基于所述排序结果，确定所述待检测文本的所述风险等级。

根据本公开实施例的第三方面，提供一种文本检测装置，包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器配置为：执行时实现上述第一方面中的文本检测方法中的步骤。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由文本检测装置的处理器执行时，使得所述装置能够执行上述第一方面中的文本检测方法中的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例中，由于待检测文本中可能包含有不同类型的文本内容，可以针对待检测文本中不同类型的文本内容，设定不同的文本处理规则，以基于不同的文本处理规则，对待检测文本进行处理，得到至少一个文本集合，并基于至少一个文本集合中各个词语的风险度得到的风险度集合确定待检测文本的风险等级。相较于通过人工的方式进行审核，不仅能够省时省力，还能够实现多种特殊类型的文本内容的处理，进而提高文本处理的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种文本检测方法的流程图。

图2是根据一示例性实施例示出的一种文本检测装置框图。

图3是根据一示例性实施例示出的一种文本检测装置的硬件结构框图一。

图4是根据一示例性实施例示出的一种文本检测装置的硬件结构框图二。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种文本检测方法的流程图，如图1所示，该方法包括以下步骤：

在步骤101中，获取待检测文本；

在步骤102中，基于不同类型的文本处理规则对待检测文本进行处理，得到分别包含有不同类型的文本内容的至少一个文本集合；

在步骤103中，确定至少一个文本集合中各个词语的风险度，得到至少一个风险度集合；

在步骤104中，基于至少一个风险度集合，确定待检测文本的风险等级。

需要说明的是，在对获取到的待检测文本之后，由于待检测文本中所包含的各个词语的风险度不同，这时就需要对待检测文本进行处理，以确定出待检测文本的风险等级。这里，文本是具有完整、系统含义的一个句子或多个句子的组合，待检测文本可以是句子、段落或者篇章。

本公开实施例中，可以基于不同类型的文本处理规则对待处理文本进行处理，得到分别包含有不同类型的文本内容的至少一个文本集合。其中，不同类型的文本内容至少包括第一类型的文本内容和第二类型的文本内容，比如，第一类型的文本内容可以是包含有垃圾字词的文本内容，这里，垃圾字词包括：与色情、暴力和/或恐怖活动相关的字词；第二类型的文本内容可以是包含有敏感字词的文本内容，敏感字词包括：与广告等活动相关的字词。对应的，至少一个文本集合包括第一类文本集合和第二类文本集合，其中，第一类文本集合包括第一类型的文本内容，第二类文本集合包括第二类型的文本内容。

在确定出至少一个文本集合之后，可以确定出各个文本集合中各个词语的风险度，其中，各个词语的风险度是预先设定的。本公开实施例中，可以将待检测文本与预设文本进行匹配的方式确定出对应的文本集合和各个词语的风险度，例如，预设文本中包括“垃圾”，且“垃圾”的风险度为0.5，而待检测文本中也存在“垃圾”这个词语，则可以将“垃圾”这个词语存储至对应的文本集合，并确定出该词语的风险度为0.5。在确定出文本集合中各个词语的风险度之后，就能够形成对应的风险度集合。进而根据各个文本集合对应的风险度集合确定出待检测文本的风险等级。例如，将所有的风险度集合中的最高风险度确定为待检测文本的风险等级。

在其他可选的实施例中，基于不同类型的文本处理规则对待检测文本进行处理，得到分别包含有不同类型的文本内容的至少一个文本集合，包括：

将待检测文本与第一预设文本内容进行匹配，从待检测文本中确定出与第一预设文本内容相匹配的文本内容，构成第一类文本集合；

根据不同类型的文本筛选规则，对待检测文本进行筛选处理，得到目标文本；

将目标文本与第二预设文本内容进行匹配，从目标文本中确定出与第二预设文本内容相匹配的文本内容，构成第二类文本集合。

这里，第一预设文本内容是根据需要预先设定的，例如，可以是包含有垃圾字词的文本内容，这里，垃圾字词包括：与色情、暴力和/或恐怖活动相关的字词。在将待检测文本与第一预设内容进行匹配之后，能够从待检测文本中确定出与第一预设文本内容相匹配的文本内容，例如包含有垃圾字词的文本内容，进而构成第一类文本集合。

需要说明的是，在对获取到的待检测文本进行处理的过程中，由于待检测文本中存在不需要的数据，这时就需要将待检测文本中不需要的数据进行过滤和删除处理。这里，文本是具有完整、系统含义的一个句子或多个句子的组合，待检测文本可以是句子、段落或者篇章。

本公开实施例中，由于待检测文本中可能包含有不同类型的文本内容，可以针对待检测文本中不同类型的文本内容，设定不同的文本筛选规则，以基于不同的文本筛选规则，过滤掉待检测文本中不同类型的文本内容，从待检测文本中筛选出目标文本。例如，可以通过正则表达式将待检测文本中所包含的无意义的文本进行过滤处理，过滤掉作为中文待处理数据的待检测文本所包含的英文字词或者标点符号等。通过词库匹配规则，将待检测文本与垃圾词库进行匹配，过滤掉待检测文本所包含的垃圾字词等，其中，垃圾字词包括：与广告、色情、暴力和/或恐怖活动相关等字词。

在根据不同类型的文本筛选规则，过滤掉待检测文本中多种特殊类型的文本内容之后，可以得到目标文本。在确定出目标文本之后，可以将目标文本与第二预设文本内容进行匹配，从目标文本中确定出与第二预设文本内容相匹配的文本内容，构成第二类文本集合。这里，第二预设文本内容是预先设定的，例如，第二预设文本内容可以是包含有敏感字词的文本内容，敏感字词包括：与广告等活动相关的字词。在将待检测文本与第二预设内容进行匹配之后，能够从待检测文本中确定出与第二预设文本内容相匹配的文本内容，例如包含有敏感字词的文本内容，进而构成第二类文本集合。

在其他可选的实施例中，可以基于文本分类模型对目标文本进行分类处理，以得到分类结果。这里，以文本分类模型是设定分类器为例，可以基于设定分类器对目标文本进行分类，得到分类结果。其中，分类结果表征的可以是目标文本的文本类型，可以基于设定分类器输出多种可选的类型，其中，文本类型包括正常文本类型、垃圾文本类型和重要文本类型等，正常文本类型的文本可以正常显示，垃圾文本类型的文本需要进行删除处理或者屏蔽处理，而重要文本类型的文本可以用于分类处理。以将目标文本输入设定分类器，并基于设定分类器输出了有三种可选的类型为例，则可以分别得到三种可选的类型的概率，并将概率最高的类型作为最终的分类结果。例如，如果输出第一类型的概率是0.2，输出第二类型的概率是0.5，输出第三类型的概率是0.3，则可以将第二类型作为与目标文本的真实类型，即得到的分类结果。这里，概率值可以基于softmax函数对设定分类器所输出的数值进行归一化处理得到。

在其他可选的实施例中，设定分类器也可以是支持向量机（Support VectorMachine， SVM）分类器。

这里，设定分类器可以是根据经过预处理的训练集（已预知类别的文档）学习建模构建出来的分类器，在实现的过程中，可以利用设定测试集文档按照设定测试方法对构建好的分类器进行性能测试，并不断反馈学习，以提高该分类器的性能。

本公开实施例中，可以基于不同类型的文本筛选规则，过滤掉待检测文本中多种特殊类型的文本内容，得到目标文本。还可以基于文本分类模型对目标文本进行分类处理，得到分类结果，相较于通过人工的方式进行筛选并分类，不仅能够省时省力，还能够提高文本分类的准确性。

在其他可选的实施例中，确定至少一个文本集合中各个词语的风险度，得到至少一个风险度集合，包括：

确定第一类文本集合中各个词语的风险度，构成第一风险度集合；

确定第二类文本集合中各个词语的风险度，构成第二风险度集合；

基于预训练的分类检测模型对目标文本进行检测，确定目标文本中各个词语的风险度，构成第三风险度集合；

基于至少一个风险度集合，确定待检测文本的风险等级，包括：

根据第一风险度集合、第二风险度集合、以及第三风险度集合，确定待检测文本的风险等级。

这里，在基于各个文本集合中各个词语的风险度构成与各个文本集合对应的风险度集合之后，可以基于各个风险度集合，确定出待检测文本风险等级。例如，可以将各个风险度集合中的最高风险度确定为待检测文本的风险等级。本公开实施例中，通过不同类型的文本处理规则以及不同类型的文本筛选规则对待检测文本进行处理，进而得到待检测文本的风险等级，相较于通过人工的方式进行筛选并分类，不仅能够省时省力，还能够提高风险等级的准确性。

在其他可选的实施例中，根据不同类型的文本筛选规则，对待检测文本进行筛选处理，包括以下至少之一：

根据过滤规则，基于过滤规则匹配，从待检测文本中筛选出与过滤规则中所包含的待过滤文本内容不匹配的文本内容；

根据文本匹配规则，将待检测文本与第三预设文本内容进行匹配，从待检测文本中筛选出与第三预设文本内容不匹配的文本内容；

根据词频筛选规则，从待检测文本中筛选出现频次满足预设条件的文本内容。

这里，过滤规则包括正则表达式，正则表达式是一种文本模式，该模式描述在搜索文本时要匹配的一个或多个字符串。例如，可以基于预先定义好的设定字符、及这些特定字符的组合，组成一个规则字符串，并基于该规则字符串用来表达对字符串的过滤逻辑。当待检测文本中包含有不符合预设的正则表达式的规则的文本内容，则可以将该文本内容从待检测文本中过滤掉。

文本匹配规则所包含的预设文本内容可以是包含有预设的垃圾字词的垃圾文本内容。例如，在实现的过程中，可以将待检测文本与垃圾文本内容中所包含的垃圾字词进行匹配，当待检测文本包含有存在于垃圾词库中的垃圾字词时，则可以将该垃圾字词从待检测文本中过滤掉。

词频筛选规则可以是频率-逆文档频率（Term Frequency–Inverse DocumentFrequency，TF-IDF）算法，即可以基于TF-IDF算法将待检测文本中出现频次不满足预设条件的字词过滤掉。通过从待检测文本中过滤掉不同类型的特殊文本内容，能够从待检测文本中精确地确定出目标文本，能够提高文本分类的精确性。

在其他可选的实施例中，根据不同类型的文本筛选规则，对待检测文本进行筛选处理，得到目标文本，包括：

根据过滤规则，从待检测文本筛选出与基于过滤规则设定的文本内容不匹配的文本内容；

根据词频筛选规则，从与基于过滤规则设定的文本内容不匹配的文本内容中筛选出出现频次满足预设条件的文本内容，得到目标文本。

这里，可以通过过滤规则过滤掉待检测文本中与基于过滤规则设定的文本内容相匹配的文本内容，从待检测文本筛选出与基于过滤规则设定的文本内容不匹配的文本内容，其中，基于过滤规则设定的文本内容可以是无意义的文本，如英文字符、标点符号等。例如，可以基于预设的正则表达式确定出待检测文本中的英文字符和标点符号等，并将确定出来的英文字符和标点符号进行过滤处理，就能够从待检测文本筛选出与基于过滤规则设定的文本内容不匹配的文本内容。

以词频筛选规则是TF-IDF算法为例，在从待检测文本筛选出与基于过滤规则设定的文本内容不匹配的文本内容之后，可以基于TF-IDF算法从与基于过滤规则设定的文本内容不匹配的文本内容中筛选出出现频次满足预设条件的文本内容，得到目标文本。例如，基于TF-IDF算法确定出各个字词在与基于过滤规则设定的文本内容不匹配的文本内容中出现的频率，以及包含有各个字词的子文本的数量、以及与基于过滤规则设定的文本内容不匹配的文本内容中所包含的子文本的总数量，分别确定各个字词的权重，并过滤掉与基于过滤规则设定的文本内容不匹配的文本内容中权重小于设定权重阈值的字词，筛选出权重大于或者等于设定权重阈值的字词。其中，各个字词的权重分别用于表征各个字词在文本分类中的重要程度。

这里，在根据过滤规则过滤掉待检测文本中与基于过滤规则设定的文本内容相匹配的文本内容之后，能够得到与基于过滤规则设定的文本内容不匹配的文本内容，然后根据词频筛选规则，过滤掉与基于过滤规则设定的文本内容不匹配的文本内容中出现频次不满足预设条件的文本内容，得到目标文本。这样，能够通过多种文本检测规则相结合，对待检测文本进行过滤和筛选，以将待检测文本中无意义的文本内容和垃圾文本内容进行过滤，并选择出对分类比较重要的字词，相较于通过人工标注的方式进行文本检测和分类，本公开实施例中更加省时省力，且能够提高文本检测的精确性。

且本公开实施例中，首先通过过滤规则，将待检测文本中无意义的文本内容删除，得到与基于过滤规则设定的文本内容不匹配的文本内容，再基于与基于过滤规则设定的文本内容不匹配的文本内容中各个字词的重要程度，确定出最终输入文本分类模型的目标文本，并对目标文本进行分类得到分类结果。通过先将无意义文本内容、垃圾文本内容等会对分类结果有不好影响的文本过滤掉，再对字词的出现频次进行计算，确定各个字词对分类的重要性，能够减少因计算无意义文本内容、垃圾文本内容等所包含的字词的出现频次而产生的计算量，进而提高数据处理的效率和精度。

在其他可选的实施例中，根据词频筛选规则，从待检测文本中筛选出现频次满足预设条件的文本内容，包括：

基于待检测文本中各个字词在待检测文本中出现的次数、包含有各个字词的子文本的数量、以及待检测文本中所包含的子文本的总数量，分别确定各个字词的权重；

从待检测文本中筛选出权重大于或者等于设定权重阈值的文本内容，得到目标文本。

这里，以词频筛选规则是TF-IDF算法为例，可以基于TF-IDF算法确定出各个字词在待检测文本中出现的频次，以及包含有各个字词的子文本的数量、以及待检测文本中所包含的子文本的总数量，分别确定各个字词的权重，并过滤掉待检测文本中权重小于设定权重阈值的字词，筛选出权重大于或者等于设定权重阈值的字词。权重的计算公式为：

（1）；

公式（1）中，TF-IDF为各个字词的权重，TF为是各个字词的词频，IDF是各个字词的逆文本频率指数；

（2）；

（3）。

这里，各个字词的权重分别用于表征各个字词在文本分类中的重要程度。通过词频筛选规则，从待检测文本中筛选出对分类结果影响度较高的字词，能够有效降低不重要数据噪声对分类结果的影响。

在其他可选的实施例中，将目标文本与第二预设文本内容进行匹配，从目标文本中确定出与第二预设文本内容相匹配的文本内容，构成第二类文本集合，包括：

对目标文本进行分词处理，得目标文本的词语集合；

将词语集合所包含的词语与第二预设文本内容进行匹配，从词语集合中确定出与第二预设文本内容相匹配的词语，构成第二类文本集合。

这里，由于目标文本可能是句子、段落或者篇章，在将目标文本与第二文本内容进行匹配之前，需要对目标文本进行分词处理。本公开实施例中，可以基于设定分词算法对目标文本进行分词处理，得到目标文本所包含的字词。其中，设定分词算法包括以下至少之一：基于字符串匹配的分词算法、基于理解的分词算法、基于统计的分词算法。

这里，基于字符串匹配的分词算法是指按照设定策略将待分词的字符串与设定机器词典中的词进行匹配，在词典中找到与字符串的子串对应的词，进而得到分词结果。例如，目标文本包含“今天天气真好”，如果设定机器词典中包含“今天”，“天气”和“真好”这几个词语，则对目标文本进行分词的结果为“今天天气真好”。

基于理解的分词算法是通过计算机模拟人对句子的理解，从而达到分词的效果，也就是在分词的同时进行句法，语义分析，利用句法信息和语义信息进行歧义消解。例如，基于大量采集数据进行模型训练得到基于理解的分词算法，然后将待分词的目标文本输入基于理解的分词算法，得到并输出分词结果。

基于统计的分词算法是指利用字与字之间和词与词之间共同出现的概率作为分词的依据，基于统计的分词算法属于无词典分词，只需要对目标文本中的各个字组进行统计，计算各个字的相邻出现的概率，并将各个字的相邻出现的概率与设定概率阈值进行比较，当各个字的相邻出现的概率大于设定概率阈值时，则确定这个字组可以构成一个词。

这里，通过对目标文本进行分词处理，得到目标文本所包含的字词，并将目标文本所包含的字词与第二文本内容中包含的字词进行匹配，过滤掉目标文本中包含在第二文本内容中的字词，能够有效降低不重要数据噪声对分类结果的影响。

在其他可选的实施例中，基于预训练的分类检测模型对目标文本进行检测，确定目标文本中各个词语的风险度，构成第三风险度集合，包括：

基于预训练的词向量转换模型对目标文本进行处理，得到目标文本对应的词向量；

基于支持向量机或者深度学习模型对词向量进行检测处理，确定各个词向量对应的各个词语的风险度，构成第三风险度集合。

在得到目标文本之后，可以基于预训练的词向量转换模型对目标文本进行处理，得到目标文本所对应的目标特征向量，并基于支持向量机（Support Vector Machine，SVM）对目标特征向量进行检测处理，确定各个词向量对应的各个词语的风险度，构成第三风险度集合。

这里，预训练的词向量转换模型包括以下至少之一：快速文本分类（FastText）模型、用来产生词向量（Word2vec，Word to Vector）的模型、连续词袋（CBOW，ContinuousBag-Of-Words）模型。以预训练的词向量转换模型是FastText模型为例，可以将包含有目标文本输入预先训练好的FastText模型，经由FastText模型将目标文本转换为对应的目标特征向量。

本公开实施例中，通过将目标特征向量进行向量表征，并基于支持向量机对目标特征向量进行检测处理，确定各个词向量对应的各个词语的风险度，构成第三风险度集合，能够有效降低不重要数据噪声对分类结果的影响，同时，基于支持向量机对目标特征向量进行分类处理，实现了一个中文文本自动分类系统。

在其他可选的实施例中，根据第一风险度集合、第二风险度集合、以及第三风险度集合，确定待检测文本的风险等级，包括：

按照设定顺序对第一风险度集合、第二风险度集合、以及第三风险度集合所包含的各个词语的风险度进行排序，得到排序结果；

基于排序结果，确定待检测文本的风险等级。

本公开实施例中，可以按照从大到小的顺序对第一风险度集合、第二风险度集合、以及第三风险度集合所包含的各个词语的风险度进行排序，得到各个风险度集合中各个词语的风险度的从大到小的顺序，进而将最高风险度确定为待检测文本的风险等级。在其他可选的实施例中，也可以确定各个风险度集合中各个词语的风险度的平均值，并将各个词语的风险度的平均值确定为待检测文本的风险等级。本公开实施例中，通过不同类型的文本处理规则以及不同类型的文本筛选规则对待检测文本进行检测处理，进而得到待检测文本的风险等级，相较于通过人工的方式进行筛选并分类，不仅能够省时省力，还能够提高风险等级的准确性。

图2是根据一示例性实施例示出的一种文本检测装置框图。如图2所示，该文本检测装置200主要包括：

第一获取模块201，配置为获取待检测文本；

第二获取模块202，配置为基于不同类型的文本处理规则对待检测文本进行处理，得到分别包含有不同类型的文本内容的至少一个文本集合；

第一确定模块203，配置为确定至少一个文本集合中各个词语的风险度，得到至少一个风险度集合；

第二确定模块204，配置为基于至少一个风险度集合，确定待检测文本的风险等级。

在其他可选的实施例中，第二获取模块202，包括：

第一匹配子模块，配置为将待检测文本与第一预设文本内容进行匹配，从待检测文本中确定出与第一预设文本内容相匹配的文本内容，构成第一类文本集合；

筛选子模块，配置为根据不同类型的文本筛选规则，对待检测文本进行筛选处理，得到目标文本；

第二匹配子模块，配置为将目标文本与第二预设文本内容进行匹配，从目标文本中确定出与第二预设文本内容相匹配的文本内容，构成第二类文本集合。

在其他可选的实施例中，第一确定模块203，包括：

第一确定子模块，配置为确定第一类文本集合中各个词语的风险度，构成第一风险度集合；

第二确定子模块，配置为确定第二类文本集合中各个词语的风险度，构成第二风险度集合；

第三确定子模块，配置为基于预训练的分类检测模型对目标文本进行检测，确定目标文本中各个词语的风险度，构成第三风险度集合；

第二确定模块204，包括：

第四确定子模块，配置为根据第一风险度集合、第二风险度集合、以及第三风险度集合，确定待检测文本的风险等级。

在其他可选的实施例中，第二获取模块202，还配置为以下至少之一：

在其他可选的实施例中，筛选子模块，还配置为：

对目标文本进行分词处理，得目标文本的词语集合；

在其他可选的实施例中，筛选子模块，还配置为：

在其他可选的实施例中，第二获取模块202，还配置为：

在其他可选的实施例中，第四确定子模块，还配置为：

基于排序结果，确定待检测文本的风险等级。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图3是根据一示例性实施例示出的一种文本检测装置500的硬件结构框图一。例如，装置500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置500可以包括以下一个或多个组件：处理组件502，存储器504，电力组件506，多媒体组件508，音频组件510，输入/输出（I/O）的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

电力组件506为装置500的各种组件提供电力。电力组件506可以包括电源管理系统，一个或多个电源，及其他与为装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当装置500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风（MIC），当装置500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为装置500提供各个方面的状态评估。例如，传感器组件514可以检测到装置500的打开/关闭状态，组件的相对定位，例如所述组件为装置500的显示器和小键盘，传感器组件514还可以检测装置500或装置500一个组件的位置改变，用户与装置500接触的存在或不存在，装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络，如WiFi，2G或6G，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件516还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

在示例性实施例中，装置500可以被一个或多个应用专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理设备（DSPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由装置500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由文本检测装置的处理器执行时，使得文本检测装置能够执行一种文本检测方法，所述方法包括：

获取待检测文本；

图4是根据一示例性实施例示出的一种文本检测装置1900的硬件结构框图二。例如，装置1900可以被提供为一服务器。参照图4，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如快应用程序。存储器1932中存储的快应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述文本检测方法，所述方法包括：

获取待检测文本；

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出（I/O）接口1958。装置1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种文本检测方法，其特征在于，包括：

获取待检测文本；

基于不同类型的文本处理规则对所述待检测文本进行处理，得到分别包含有不同类型的文本内容的至少一个文本集合；其中，所述至少一个文本集合包括：第二类文本集合；

所述基于不同类型的文本处理规则对所述待检测文本进行处理，得到分别包含有不同类型的文本内容的至少一个文本集合，包括：

将所述目标文本与第二预设文本内容进行匹配，从所述目标文本中确定出与所述第二预设文本内容相匹配的文本内容，构成所述第二类文本集合；

所述根据不同类型的文本筛选规则，对所述待检测文本进行筛选处理，得到目标文本，包括：

从所述待检测文本中筛选出权重大于或者等于设定权重阈值的文本内容，得到所述目标文本；

2.根据权利要求1所述的方法，其特征在于，所述基于不同类型的文本处理规则对所述待检测文本进行处理，得到分别包含有不同类型的文本内容的至少一个文本集合，还包括：

将所述待检测文本与第一预设文本内容进行匹配，从所述待检测文本中确定出与所述第一预设文本内容相匹配的文本内容，构成第一类文本集合。

3.根据权利要求2所述的方法，其特征在于，所述确定所述至少一个文本集合中各个词语的风险度，得到至少一个风险度集合，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据不同类型的文本筛选规则，对待检测文本进行筛选处理，包括以下至少之一：

5.根据权利要求4所述的方法，其特征在于，所述根据不同类型的文本筛选规则，对待检测文本进行筛选处理，得到目标文本，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述目标文本与第二预设文本内容进行匹配，从所述目标文本中确定出与所述第二预设文本内容相匹配的文本内容，构成第二类文本集合，包括：

7.根据权利要求3所述的方法，其特征在于，所述基于预训练的分类检测模型对所述目标文本进行检测，确定所述目标文本中各个词语的风险度，构成第三风险度集合，包括：

8.根据权利要求3所述的方法，其特征在于，所述根据所述第一风险度集合、所述第二风险度集合、以及所述第三风险度集合，确定所述待检测文本的风险等级，包括：

基于所述排序结果，确定所述待检测文本的所述风险等级。

9.一种文本检测装置，其特征在于，包括：

第一获取模块，配置为获取待检测文本；

第二获取模块，配置为基于不同类型的文本处理规则对所述待检测文本进行处理，得到分别包含有不同类型的文本内容的至少一个文本集合；其中，所述至少一个文本集合包括：第二类文本集合；

第二匹配子模块，配置为将所述目标文本与第二预设文本内容进行匹配，从所述目标文本中确定出与所述第二预设文本内容相匹配的文本内容，构成所述第二类文本集合；

所述筛选子模块，具体配置为基于所述待检测文本中各个字词在所述待检测文本中出现的次数、包含有所述各个字词的子文本的数量、以及所述待检测文本中所包含的子文本的总数量，分别确定所述各个字词的权重；从所述待检测文本中筛选出权重大于或者等于设定权重阈值的文本内容，得到所述目标文本；

10.根据权利要求9所述的装置，其特征在于，所述第二获取模块，还包括：

第一匹配子模块，配置为将所述待检测文本与第一预设文本内容进行匹配，从所述待检测文本中确定出与所述第一预设文本内容相匹配的文本内容，构成第一类文本集合。

11.根据权利要求10所述的装置，其特征在于，所述第一确定模块，包括：

所述第二确定模块，包括：

12.根据权利要求10所述的装置，其特征在于，所述第二获取模块，还配置为以下至少之一：

13.根据权利要求12所述的装置，其特征在于，所述筛选子模块，还配置为：

14.根据权利要求13所述的装置，其特征在于，所述筛选子模块，还配置为：

15.根据权利要求11所述的装置，其特征在于，所述筛选子模块，还配置为：

16.根据权利要求11所述的装置，其特征在于，所述第四确定子模块，还配置为：

基于所述排序结果，确定所述待检测文本的所述风险等级。

17.一种文本检测装置，其特征在于，包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器配置为：执行时实现上述权利要求1至8中任一种文本检测方法中的步骤。

18.一种非临时性计算机可读存储介质，当所述存储介质中的指令由文本检测装置的处理器执行时，使得所述装置能够执行上述权利要求1至8中任一种文本检测方法中的步骤。