CN112131374B

CN112131374B - 文本的识别方法、装置和服务器

Info

Publication number: CN112131374B
Application number: CN202010875980.5A
Authority: CN
Inventors: 刘杰
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2023-12-19
Anticipated expiration: 2040-08-25
Also published as: CN112131374A

Abstract

本公开关于一种文本的识别方法、装置和服务器，涉及数据处理技术领域，该方法包括：获取标记为异常的用户所发送的第一文本，以及标记为标准的用户所发送的第二文本，根据第一文本，生成候选关键词集合，根据第二文本，生成参考关键词集合，根据参考关键词集合，对候选关键词集合中的候选关键词进行筛选，以得到目标关键词集合，采用目标关键词集合，对待识别文本进行异常识别。本公开中通过参考标记为标准的用户发送的文本，从标记为异常的用户发送的文本中筛选出关键词，生成关键词集合，以对异常文本进行识别，实现了无需人工参与便可以自动生成关键词集合，节省了人力成本，提高了识别效率。

Description

文本的识别方法、装置和服务器

技术领域

本公开涉及数据处理技术领域，尤其涉及一种文本的识别方法、装置和服务器。

背景技术

随着互联网的不断发展，短视频平台产品的种类也越来越多，越来越多的用户习惯使用甚至依赖从各大平台上获取信息，例如，在某短视频平台的的直播场景，用户可以在评论区发表自己的言论。而有些用户会发表大量的异常文本，如，通过发送预设好的广告文本，以达到不合规的引流目的，影响了短视频平台正常的直播秩序，甚至使得部分用户被误导，因此，需要对异常文本进行识别和处理。

相关技术中，通常采用人工方法生成敏感词集合，以用于异常文本的识别，而人工生成敏感词集合，不仅人力成本高，且容易受到人员经验不足的影响，从而敏感词易被规避，识别效率低下。

发明内容

本公开提供一种文本的识别方法、装置和服务器，以至少解决相关技术中需要依赖人工生成关键词集合，人力人本高，识别效率低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种文本的识别方法，包括：

获取标记为异常的用户所发送的第一文本，以及标记为标准的用户所发送的第二文本；

根据所述第一文本，生成候选关键词集合；

根据所述第二文本，生成参考关键词集合；

根据所述参考关键词集合，对所述候选关键词集合中的候选关键词进行筛选，以得到目标关键词集合；

采用所述目标关键词集合，对待识别文本进行异常识别。

可选地，作为第一方面的第一种可能的实现方式，所述根据所述参考关键词集合，对所述候选关键词集合中的候选关键词进行筛选，以得到目标关键词集合，包括：

确定所述候选关键词在所述候选关键词集合中的第一重复次数，以及在所述参考关键词集合中的第二重复次数；

确定所述第一重复次数与所述第二重复次数之比；

若所述第一重复次数与所述第二重复次数之比大于比例阈值，且所述第一重复次数大于次数阈值，则将所述候选关键词作为目标关键词添加至所述目标关键词集合中；以及

若所述第一重复次数与所述第二重复次数之比小于或等于所述比例阈值，或者，若所述第一重复次数小于或等于所述次数阈值，则删除所述候选关键词。

可选地，作为第一方面的第二种可能的实现方式，所述采用所述目标关键词集合，对待识别文本进行异常识别，包括：

从所述待识别文本之中提取多组连续排列的目标字符组；

将每一组连续排列的目标字符组分别与所述目标关键词集合中的目标关键词匹配，以得到匹配组数；

若所述匹配组数大于阈值组数，则确定所述待识别文本存在异常；以及

若所述匹配组数小于或等于所述阈值组数，则确定所述待识别文本正常。

可选地，作为第一方面的第三种可能的实现方式，在所述获取标记为异常的用户所发送的第一文本，以及标记为标准的用户所发送的第二文本之前，还包括：

获取运行日志；

将所述运行日志中存在异常处理记录的多个用户，分别标记为异常；

从不存在所述异常处理记录的多个用户中，选取部分用户标记为标准。

可选地，作为第一方面的第四种可能的实现方式，所述从不存在所述异常处理记录的多个用户中，选取部分用户标记为标准，包括：

根据用户总数和设定比例，确定标记为标准的用户数量；

从不存在所述异常处理记录的多个用户中，选取所述用户数量的部分用户标记为标准。

可选地，作为第一方面的第五种可能的实现方式，所述根据所述第一文本，生成候选关键词集合，包括：

对所述第一文本提取多组连续排列的第一字符组；以及

将每一组连续排列的第一字符组作为一个候选关键词，以得到所述候选关键词集合。

可选地，作为第一方面的第六种可能的实现方式，所述根据所述第二文本，生成参考关键词集合，包括：

对所述第二文本提取多组连续排列的第二字符组；

将每一组连续排列的第二字符组作为一个参考关键词，以得到所述参考关键词集合。

可选地，作为第一方面的第七种可能的实现方式，所述根据所述参考关键词集合，对所述候选关键词集合中的候选关键词进行筛选，以得到目标关键词集合之后，还包括：

对每一个目标关键词处于所述目标关键词集合中的时长计时，以得到每一个所述目标关键词的计时时长；

删除计时时长大于有效时长的目标关键词。

根据本公开实施例的第二方面，提供一种文本的识别装置，包括：

获取模块，被配置为获取标记为异常的用户所发送的第一文本，以及标记为标准的用户所发送的第二文本；

第一生成模块，被配置为根据所述第一文本，生成候选关键词集合；

第二生成模块，被配置为根据所述第二文本，生成参考关键词集合；

筛选模块，被配置为根据所述参考关键词集合，对所述候选关键词集合中的候选关键词进行筛选，以得到目标关键词集合；

识别模块，被配置为采用所述目标关键词集合，对待识别文本进行异常识别。

可选地，作为第二方面的第一种可能的实现方式，所述筛选模块，包括：

确定单元，被配置为确定所述候选关键词在所述候选关键词集合中的第一重复次数，以及在所述参考关键词集合中的第二重复次数；确定所述第一重复次数与所述第二重复次数之比；

处理单元，被配置为若所述第一重复次数与所述第二重复次数之比大于比例阈值，且所述第一重复次数大于次数阈值，则将所述候选关键词作为目标关键词添加至所述目标关键词集合中；以及若所述第一重复次数与所述第二重复次数之比小于或等于所述比例阈值，或者，若所述第一重复次数小于或等于所述次数阈值，则删除所述候选关键词。

可选地，作为第二方面的第二种可能的实现方式，所述识别模块，还被配置为从所述待识别文本之中提取多组连续排列的目标字符组；将每一组连续排列的目标字符组分别与所述目标关键词集合中的目标关键词匹配，以得到匹配组数；若所述匹配组数大于阈值组数，则确定所述待识别文本存在异常；以及若所述匹配组数小于或等于所述阈值组数，则确定所述待识别文本正常。

可选地，作为第二方面的第三种可能的实现方式，所述装置，还包括：

上述获取模块，还被配置为获取运行日志；

选取模块，被配置为将所述运行日志中存在异常处理记录的多个用户，分别标记为异常；从不存在所述异常处理记录的多个用户中，选取部分用户标记为标准。

可选地，作为第二方面的第四种可能的实现方式，所述选取模块，还被配置为根据用户总数和设定比例，确定标记为标准的用户数量；从不存在所述异常处理记录的多个用户中，选取所述用户数量的部分用户标记为标准。

可选地，作为第二方面的第五种可能的实现方式，所述第一生成模块，还被配置为对所述第一文本提取多组连续排列的第一字符组；以及将每一组连续排列的第一字符组作为一个候选关键词，以得到所述候选关键词集合。

可选地，作为第二方面的第六种可能的实现方式，所述第二生成模块，还被配置为对所述第二文本提取多组连续排列的第二字符组；将每一组连续排列的第二字符组作为一个参考关键词，以得到所述参考关键词集合。

可选地，作为第二方面的第七种可能的实现方式，所述装置，还包括：

计时模块，被配置为对每一个目标关键词处于所述目标关键词集合中的时长计时，以得到每一个所述目标关键词的计时时长；

删除模块，被配置为删除计时时长大于有效时长的目标关键词。

根据本公开实施例的第三方面，提供一种服务器，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如如第一方面所述的文本的识别方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，包括：当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如第一方面所述的文本的识别方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机指令，当所述计算机指令由服务器的处理器执行时，使得所述服务器能够执行如第一方面所述的文本的识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

获取标记为异常的用户所发送的第一文本，以及标记为标准的用户发送的第二文本，根据第一文本，生成候选关键词集合，根据第二文本，生成参考关键词集合，根据参考关键词集合，对候选关键词集合中的候选关键词进行筛选，以得到目标关键词集合，采用目标关键词集合，对待识别文本进行异常识别。本公开中通过参考标记为标准的用户发送的文本，从标记为异常的用户发送的文本中筛选出关键词，生成关键词集合，以对异常文本进行识别，实现了无需人工参与便可以自动生成关键词集合，节省了人力成本，提高了识别效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是本公开实施例提供的一种实施环境图；

图2是根据一示例性实施例示出的一种文本的识别方法的流程示意图；

图3是根据一示例性实施例示出的另一种文本的识别方法的流程示意图；

图4是根据一示例性实施例示出的又一种文本的识别方法的流程示意图；

图5是根据一示例性实施例示出的再一种文本的识别方法的流程示意图。

图6示出了某短视频应用程序的直播界面中评论区示意图；

图7是根据一示例性实施例示出的一种文本的识别装置的框图；

图8是根据一示例性实施例示出的一种服务器10的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

下面参考附图描述本公开实施例的文本的识别方法、装置和服务器。

图1是本公开实施例提供的一种实施环境图。该实施环境可以包括多个终端101、用于为该多个终端101提供服务的服务器102。多个终端101通过无线或者有线网络和服务器102连接，该多个终端101可以为能够访问服务器102的计算机设备或智能终端等。终端101中可以安装有短视频应用程序、浏览器、保护程序等应用程序，服务器102可以为上述应用程序提供文本异常识别的检测服务。终端101还可以作为需求方，通过上述应用程序向服务器102请求对文本数据进行检测，例如对评论信息进行异常检测。

服务器102中还可以具有至少一种数据库，用以存储目标关键词集合，即用于对异常文本进行识别，以及存储标记为异常的用户等等。服务器102可以是设置在云端的服务器，也可以是设置在本地的服务器，服务器102还可以是单个服务器或服务器组，当服务器102是服务器组时，每个服务器之间可以共享已生成的目标关键词集合，以及从多个用户中确定标记为异常的用户等。

图2是根据一示例性实施例示出的一种文本的识别方法的流程示意图，如图2所示，该方法包括以下步骤。

在步骤101中，获取标记为异常的用户所发送的第一文本，以及标记为标准的用户所发送的第二文本。

本公开的文本的识别方法的执行主体为服务器102，比如，本公开的服务器为某短视频应用程序的服务器。

其中，标记为异常的用户，是指包含特定特征的用户，例如，具有多个关联子账户的用户，或经常更改用户昵称的用户，或经常更改图像和用户昵称的用户等；标记为异常的用户还可以是因发送异常文本被处理过的用户，例如，因发送异常文本被举报处理过的用户，或者是识别出发送异常文本而被处理过的用户，以及其它途径发现被处理过的用户等。标记为标准的用户，是指未被处理过的用户，例如，在某短视频平台长期活跃，没有被处理过的用户。

本实施例中，为了便于区分标记为异常的用户发送的文本和标记为标准的用户发送的文本，将标记为异常的用户发送的文本称为第一文本，将标记为标准的用户发送的文本称为第二文本。

在步骤102中，根据第一文本，生成候选关键词集合。

由于标记为异常的用户发送的第一文本中，可能包含异常的信息，例如，包含恶意竞争的广告信息，或包含违禁信息，或包含误导的信息，或包含恶意引流的广告信息等，因此，根据第一文本，可以获取到标记为异常的用户常用的关键词，作为候选关键词，生成候选关键词集合，也就是说候选关键词集合中存储的即为可能可用于对文本进行异常识别的目标关键词，进一步需要后续步骤进行确认。

作为一种可能的实现方式，对标记为异常的用户发送的第一文本提取多组连续排列的第一字符组，以及将每一组连续排列的第一字符组作为一个候选关键词，以得到候选关键词集合。例如，第一文本为：要看片点我头像，切词处理后得到顺序排列的词为：要，看，片，点，我，头，像，以连续排列的3个字为一组，进行拆分组合得到的多组第一字符组，分别为“要看片”、“看片点”、“片点我”、“点我头”、“我头像”，因此，“要看片”、“看片点”、“片点我”、“点我头”、“我头像”即作为候选关键词，生成候选关键词集合，实现了将各种可能的连续语义的字符组都存储至候选关键词集合，提高了候选关键词集合中关键词的丰富性和可靠性，避免了人工生成关键词时，由于经验不足而遗漏关键词的问题。需要说明的是，也可以以连续排列的2个字或其它更多个字为一组进行提取，本实施例中不进行限定。

作为另一种可能的实现方式，对标记为异常的用户发送的第一文本进行切词处理，得到顺序排列的各个词，依据各个词在第一文本中的排列顺序，提取多组顺序排列的第一字符组，已将每一组顺序排列的第一字符组作为一个候选关键词，以得到候选关键词集合，例如，第一文本为：看片点我头像，切词处理后得到顺序排列的词为：看，片，点，我，头，像，以顺序排列的2个字为一个第一字符组，提取得到的多组顺序排列的第一字符组分别为：“看片”、“点我”、“头像”，因此，“看片”、“点我”、“头像”即作为候选关键词，生成候选关键词集合，提高了候选关键词集合中关键词的丰富性和可靠性。需要说明的是，也可以以顺序排列的3个字或更多个字为一组进行提取，本实施例中不进行限定。

在步骤103中，根据第二文本，生成参考关键词集合。

由于标记为标准的用户发送的第二文本中，不包含异常的文本信息，也就是说第二文本中含有的信息都是符合标准要求的信息，因此，根据第二文本，可以生成用于对文本进行识别的参考关键词集合。

作为一种可能的实现方式，对第二文本提取多组连续排列的第二字符组，以及将每一组连续排列的第二字符组作为一个参考关键词，以得到参考关键词集合。例如，第二文本为：我很喜欢读书，以单个字符为单位进行切词处理后得到顺序排列的各个字符为：我，很，喜，欢，读，书，以连续排列的3个字符为一组，进行拆分组合得到的多组第二字符组，分别为“我很喜”、“很喜欢”、“喜欢读”、“欢读书”，进而，根据上述的多组第二字符组，生成参考关键词集合。需要说明的是，也可以以连续排列的2个字符或其它更多个字符为一组进行提取，本实施例中不进行限定。

作为另一种可能的实现方式，对第二文本进行切词处理，得到顺序排列的各个字符，依据各个字符在第二文本中的排列顺序，提取多组顺序排列的第二字符组，以将每一组顺序排列的第二字符组作为一个参考关键词，以得到参考关键词集合，例如，第二文本为：我很喜欢读书，以单个字符为单位进行切词处理后得到顺序排列的各个字符为：我，很，喜，欢，读，书，以顺序排列的2个字符为一组，进行拆分组合得到的多组第二字符组，分别为“我很”、“喜欢”、“读书”，进而，根据上述的多组第二字符组，即“我很”、“喜欢”、“读书”生成参考关键词集合。需要说明的是，也可以以顺序排列的3个字符或其它更多个字符为一组进行提取，本实施例中不进行限定。

在步骤104中，根据参考关键词集合，对候选关键词集合中的候选关键词进行筛选，以得到目标关键词集合。

本实施例中，根据标记为异常的用户发送的第一文本，即可能的异常文本，生成的候选关键词集合中，包含有异常的候选关键词，还可能包含有非异常的候选关键词，为了提高目标关键词集合中目标关键词的准确性，以标记为标准的用户的第二文本生成的参考关键词集合为参照，将候选关键词集合中非异常的关键词筛选掉，将识别为异常的关键词作为目标关键词，以得到目标关键词集合，提高了目标关键词确定的准确性，进而提高了目标关键词集合用于进行文本异常识别的准确性。

在步骤105中，采用目标关键词集合，对待识别文本进行异常识别。

作为一种可能的实现方式，对待识别文本提取连续排列的多组字符作为待比对的关键词，将每一组字符分别与目标关键词集合中的目标关键词进行比对，若存在至少一组字符和目标关键词匹配，则识别待识别文本存在异常。

需要说明的是，对待识别文本提取得到的每组字符的个数可以和目标关键词集合中的关键词对应的字符个数相同，以提高异常识别的效果。

本实施例的文本的识别方法中，获取标记为异常的用户发送的第一文本，以及标记为标准的用户发送的第二文本，根据第一文本，生成候选关键词集合，根据第二文本，生成参考关键词集合，根据参考关键词集合，对候选关键词集合中的候选关键词进行筛选，以得到目标关键词集合，采用目标关键词集合，对待识别文本进行异常识别。本公开中通过参考标记为标准的用户发送的文本，从标记为异常的用户发送的文本中筛选出关键词，生成关键词集合，以对异常文本进行识别，实现了无需人工参与便可以自动生成关键词集合，节省了人力成本，提高了识别效率。

基于上一实施例，本实施例提供了另一种文本的识别方法，说明了如何根据标记为标准的用户发送的第二文本生成参考关键词集合，以及如何根据标记为异常的用户发送的第一文本生成候选关键词集合。图3是根据一示例性实施例示出的另一种文本的识别方法的流程示意图，如图3所示，该方法包含以下步骤：

在步骤201中，获取运行日志，将运行日志中存在异常处理记录的多个用户，分别标记为异常。

本实施例中，运行日志是指服务器端运行的各应用程序的运行日志，例如，某短视频应用程序的运行日志，运行程序都维护有自身的运行日志，运行日志中可记载应用程序运行期间哪些用户登录了应用程序，执行了哪些操作，传输了哪些信息等，因此，当用户因发送了异常的文本被处理后，该处理记录会被记载在运行日志中。从而，从获取的运行日志中，可获取存在异常处理记录的多个用户，分别标记为异常，也就是说标记为异常的用户可以是存在不良处理记录的用户，实现了基于用户特征进行识别，不需要人工离线评估，降低了人力成本。

可选地，在从日志中获取存在异常处理的多个用户时，可获取相应标记为异常的用户的用户标识信息，其中，用户的标识信息可以为用户的登录账号，注册手机号等，可用于唯一识别该用户的信息，以实现后续基于用户的标识信息，获取标记为异常的用户发送的第一文本。

可选地，若从运行日志中获取的存在异常处理记录的用户数量较少时，可以基于标记为异常的用户的特征作为条件，从运行日志中获取的用户相关信息中提取相关的特征，例如，某短视频平台上不活跃的用户，或者是匹配到关联注册有多个账号的用户，将具有这些特征的提高异常文本识别准确度。

在步骤202中，从不存在异常处理记录的多个用户中，选取部分用户标记为标准。

同样的，可从运行日志中不存在异常处理记录的多个用户中，选取部分用户标记标准，选取的标记为标准的部分用户是指没有不良记录的用户，实现了基于是否存在处理记录这一用户特征进行识别，不需要人工离线评估，降低了人力成本，提高了识别效率。

可选地，基于特定特征对用户进行标记，标记为标准的用户，例如，长期在平台活跃，且没有处理记录的用户进行标记，标记为标准，以实现基于用户特征进行识别，不需要人工离线评估。

本实施例中，若获取的标记为标准的用户数量过多，即标记为标准的用户的占比较多，标记为异常的用户的占比较少，会导致因标记为标准的用户数量过多，标记为异常的用户的数量少，使得后续确定出的目标关键词集合中目标关键词数量较少，降低识别的准确度，因此，为了降低标记为标准的用户的占比，步骤202，还可以包括以下步骤：

根据用户总数和设定比例，确定标记为标准的用户数量；

从不存在异常处理记录的多个用户中，选取用户数量的部分用户标记为标准。

例如，用户总数为1000，设定比例为60％，确定的标记为标准的用户的目标数量为n*60％＝600个，若从不存在异常处理记录的多个用户中，确定出的不存在异常处理记录的用户数量为800个，则从800个不存在异常处理记录的用户中选取600个用户标记为标准的用户，以实现降低标记为标准的用户的数量，提高标记为异常的用户的占比，以增加后续目标关键词集合中包含的目标关键词的数量，提高识别的可靠性。

在步骤203中，获取标记为异常的用户所发送的第一文本，以及标记为标准的用户所发送的第二文本。

具体可参照上一实施例中的描述，此处不再赘述。

在步骤204中，对第一文本提取多组连续排列的第一字符组，以及将每一组连续排列的第一字符组作为一个候选关键词，以得到候选关键词集合。

具体的，对标记为异常的用户发送的第一文本提取多组连续排列的第一字符组，以保证各第一字符组中包含第一文本的自然连续的语义，以及将每一组连续排列的第一字符组作为一个候选关键词，以得到候选关键词集合。例如，第一文本为：要看片点我头像，切词处理后得到顺序排列的词为：要，看，片，点，我，头，像，以连续排列的2个字符为一组，进行拆分组合得到的多组第一字符组，分别为“要看”、“看片”、“片点”、“点我”、“我头”和“头像”。需要说明的是，也可以以连续排列的3个字符或其它更多个字符为一组进行提取，具体可根据实际识别效果来调整，本实施例中不进行限定。

在步骤205中，对第二文本提取多组连续排列的第二字符组，将每一组连续排列的第二字符组作为一个参考关键词，以得到参考关键词集合。

由于标记为标准的用户发送的第二文本中，不包含异常的文本信息，也就是说第二文本中含有的信息都是符合要求的信息，因此，根据第二文本，可以生成用于对文本进行识别的参考关键词集合。

作为一种可能的实现方式，对第二文本提取多组连续排列的第二字符组，以及将每一组连续排列的第二字符组作为一个参考关键词，以得到参考关键词集合。例如，第二文本为：我很喜欢读书，以单个字符为单位进行切词处理后得到顺序排列的各个字符为：我，很，喜，欢，读，书，以连续排列的2个字符为一组，进行拆分组合得到的多组第二字符组，分别为“我很”、“喜欢”、“读书”。需要说明的是，也可以以连续排列的3个字符或其它更多个字符为一组进行提取，具体可根据实际识别效果来调整，本实施例中不进行限定。

在步骤206中，根据参考关键词集合，对候选关键词集合中的候选关键词进行筛选，以得到目标关键词集合。

在步骤207中，采用目标关键词集合，对待识别文本进行异常识别。

步骤206和步骤207可参照上述实施例中的描述，此处不再赘述，而后续实施例中会详细说明。

本公开实施例的文本的识别方法中，设置的识别标记为异常的用户和标记为标准的用户的条件是线上用户是否存在不良违规记录，从而不需要进行人工离线评估，可以实现动态的基于标记为异常的用户的更新来更新目标关键词集合，以进行恶意文本对抗。同时将标记为异常的用户发送的第一文本拆分为多组连续排列第一字符组，由于文本中连续排列的字符具有更准确的语义，利用第一字符组生成候选关键词集合，使得候选关键词集合中包含各种可能的候选关键词，避免了候选关键词的遗漏，确保了候选关键词集合的准确性，同理，利用标记为标准的用户发送的第二文本生成的参考关键词集合，也确保了参考关键词集合的准确性，而关键词集合的生成过程也无需人工参与，节省人力成本，提高了识别效率。

上一实施例中说明了基于字符级别的关键词划分，得到了候选关键词集合和参考关键词集合，本实施例中进一步说明如何根据候选关键词集合和参考关键词集合确定目标关键词集合，以用于进行文本的异常识别。

基于上一实施例，图4是根据一示例性实施例示出的又一种文本的识别方法的流程示意图，如图4所示，该方法包含以下步骤：

在步骤301中，获取运行日志，将运行日志中存在异常处理记录的多个用户，分别标记为异常。

在步骤302中，从不存在异常处理记录的多个用户中，选取部分用户标记为标准。

在步骤303中，获取标记为异常的用户所发送的第一文本，以及标记为标准的用户所发送的第二文本。

在步骤304中，对第一文本提取多组连续排列的第一字符组，以及将每一组连续排列的第一字符组作为一个候选关键词，以得到候选关键词集合。

在步骤305中，对第二文本提取多组连续排列的第二字符组，将每一组连续排列的第二字符组作为一个参考关键词，以得到参考关键词集合。

具体地，步骤301-步骤305具体可参照上述实施例中的说明，原理相同，此处不再赘述。

在步骤306中，确定候选关键词在候选关键词集合中的第一重复次数，以及在参考关键词集合中的第二重复次数。

本公开实施例中，候选关键词集合中包含的是可能的异常关键词，而参考关键词集合中包含的是非异常关键词，而由于候选关键词集合中的候选关键词是基于对标记为异常的用户发送的第一文本进行字符组划分得到的，其中，可能包含非异常关键词，也就是说存在候选关键词即出现在候选关键词集合中，也出现在参考关键词集合中的情况，因此，需要基于每一个候选关键词，进行识别。同时，候选关键词集合是基于各个标记为异常的用户发送的第一文本生成的，其中存在重复出现的候选关键词，同样的，参考关键词集合中也存在重复出现的参考关键词，因此，针对候选关键词集合中的每一个候选关键词，确定在候选关键词集合中出现的第一重复次数，以及在参考关键词集合中出现的第二重复次数，根据第一重复次数和第二重复次数对候选关键词进行识别。

在步骤307中，确定所述第一重复次数与所述第二重复次数之比。

本公开实施例中，针对每一个候选关键词，基于该候选关键词在候选关键词集合中出现的第一重复次数与在参考关键词集合中出现的第二重复次数之比，与比例阈值比较，来识别该候选关键词是否为目标关键词，目标关键词用于对异常文本进行识别。

在步骤308中，若第一重复次数与第二重复次数之比大于比例阈值，且第一重复次数大于次数阈值，则将候选关键词作为目标关键词添加至目标关键词集合中。

本公开实施例中，由于标记为标准的用户的数量远大于标记为异常的用户的数量，从而，上述生成的参考关键词集合中的关键词数量也远大于候选关键词集合中的数量，当候选关键词在候选关键词集合中出现的第一重复次数与在参考关键词集合中出现的第二重复次数之比大于比例阈值，则认为该候选关键词是目标关键词，需要添加到目标关键词集合中。

例如，比例阈值为1.1，候选关键词“要看片”，出现在候选关键词集合中的第一重复次数为50次，出现在参考关键词集合中的第二重复次数为40次，则50/40＝1.25，1.25大于比例阈值1.1，则认为候选关键词“要看片”为目标关键词。

本公开实施例中，为了提高目标关键词确定的准确性，在确定候选关键词出现在候选关键词集合中的第一重复次数和出现在参考关键词集合中的第二重复次数之比大于比例阈值时，还需要同时满足第一重复次数大于次数阈值，才可以将相应的候选关键词作为目标关键词，具体来说，确定候选关键词出现在候选关键词集合中的第一重复次数和出现在参考关键词集合中的第二重复次数之比大于比例阈值，则进一步将第一重复次数与次数阈值进行比较，若确定第一重复次数大于次数阈值，也就是说候选关键词出现在候选关键词集合中的第一重复次数和出现在参考关键词集合中的第二重复次数之比大于比例阈值，且第一重复次数大于次数阈值，则将候选关键词作为目标关键词添加至目标关键词集合中。

本公开中，通过增加判断条件，使得必须满足候选关键词出现在候选关键词集合中的第一重复次数和出现在参考关键词集合中的第二重复次数之比大于比例阈值，且第一重复次数大于次数阈值的双重条件时，才将候选关键词作为目标关键词，提高了目标关键词确定的准确性。

例如，比例阈值为1.1，次数阈值为40个，候选关键词“要看片”，出现在候选关键词集合中的第一重复次数为50次，出现在参考关键词集合中的第二重复次数为40次，则50/40＝1.25，1.25大于比例阈值1.1，且第一重复次数50大于次数阈值40，则认为候选关键词“要看片”为目标关键词，将候选关键词“要看片”作为目标关键词添加至目标关键词集合中。

在步骤309中，若第一重复次数与第二重复次数之比小于或等于比例阈值，或者，若第一重复次数小于或等于次数阈值，则删除候选关键词。

作为一种实现方式，本公开实施例中，通常标记为标准的用户的数量大于标记为异常的用户的数量，从而，上述生成的参考关键词集合中的关键词数量也大于候选关键词集合中的数量，当候选关键词在候选关键词集合中出现的第一重复次数与在参考关键词集合中出现的第二重复次数之比小于或等于比例阈值，则认为该候选关键词不是目标关键词，需要删除。

例如，比例阈值为1.1，候选关键词“我头像”，出现在候选关键词集合中的第一重复次数为30次，出现在参考关键词集合中的第二重复次数为40次，则30/40＝0.75，0.75小于比例阈值1.1，则认为候选关键词“我头像”不是目标关键词，需要删除，即不添加至目标关键词集合中。

作为另一种实现方式，将第一重复次数与次数阈值比较，若第一重复次数小于或等于次数阈值，则认为该候选关键词不是目标关键词，需要删除该候选关键词。

例如，候选关键词“很喜欢”，出现在候选关键词集合中的第一重复次数为40次，次数阈值为45次，则第一重复次数40小于次数阈值45，则认为候选关键词“很喜欢”不是目标关键词，需要删除，即不添加至目标关键词集合中。

也就是说，在不满足条件：第一重复次数与第二重复次数之比大于比例阈值，且第一重复次数大于次数阈值，则认为候选关键词不是目标关键词，需要删除，即不添加至目标关键词集合中。

在步骤310中，采用目标关键词集合，对待识别文本进行异常识别。

具体可参照上述实施例中的描述，此处不再赘述，而后续实施例中会详细说明。

本公开实施例的文本的识别方法中，确定候选关键词集合中的候选关键词在候选关键词集合中的第一重复次数，以及在参考关键词集合中的第二重复次数，确定第一重复次数与所述第二重复次数之比，若第一重复次数与第二重复次数之比大于比例阈值，则将候选关键词作为目标关键词添加至目标关键词集合中，以及若第一重复次数与第二重复次数之比小于或等于比例阈值，则筛选掉候选关键词，实现了通过参照候选关键词在候选关键词集合中出现的第一重复次数，和候选关键词在候选关键词集合中出现的第二重复次数，来识别候选关键词是否为正常的异常关键词，也就是目标关键词，确保了目标关键词确定的准确性。

基于上一实施例，本实施例提供了再一种文本的识别方法，说明了通过将待识别文本中的关键词与目标关键词集合中的目标关键词匹配，根据匹配的组数识别待识别文本是否异常，以提高文本识别的准确性。

作为上述步骤105，步骤207和步骤310的可替代实现方案，请参考如下实施例：

图5是根据一示例性实施例示出的再一种文本的识别方法的流程示意图，如图5所示，该方法包含包含以下步骤：

在步骤401中，从待识别文本之中提取多组连续排列的目标字符组。

具体地，将获取的待识别文本，进行切词处理，按照各个词在待识别文本中的排列顺序，得到顺序排列的各个词，依据各个词在待识别文本中的排列顺序，提取多组连续排列的目标字符组。

例如，如图6所示，图6示出了某短视频应用程序的直播界面中评论区示意图，在该直播界面的评论区，通过响应用户A的操作获取待识别文本为：要看片点我头像，该短视频应用程序的服务器通过网络获取到将待识别文本，切词处理后得到顺序排列的词为：要，看，片，点，我，头，像，以任意连续排列的3个字为一组，进行拆分组合得到的多组连续排列的目标字符组，分别为“要看片”、“看片点”、“片点我”、“点我头”、“我头像”。需要说明的是，也可以以连续排列的2个字或其它更多个字为一组进行提取，具体可以识别效果进行调整，本实施例中不进行限定。

在步骤402中，将每一组连续排列的目标字符组分别与目标关键词集合中的目标关键词匹配，以得到匹配组数。

例如，连续排列的目标字符组分别为“要看片”、“看片点”、“片点我”、“点我头”、“我头像”，若目标字符组“要看片”与关键词集合中的目标关键词匹配，则匹配组数为1，进而，将“看片点”与关键词集合中的目标关键词匹配，若匹配，则匹配组数加1，即为2，将“片点我”与关键词集合中的目标关键词匹配，若不匹配，则匹配组数不变，仍然为2，同理，将“点我头”和“我头像”分别匹配后，得到的匹配组数为2。

在步骤403中，判断匹配组数是否大于阈值组数，若是，执行步骤404，若否，执行步骤405。

在步骤404中，确定待识别文本存在异常。

在步骤405中，确定待识别文本正常。

例如，阈值组数为1组，若当前待识别文本对应的匹配组数为1组，则确定待识别文本正常；若当前待识别文本对应的匹配组数为2组，大于阈值组数，则识别当前待识别文本存在异常，也就是说当前的“看片点我头像”的待识别文本就识别为异常文本，从而在前端的短视频的应用程序端，用户点击发送按钮后，会提示：包含违禁关键词，无法发送。或者是直接不响应用户操作，而不进行提示。

本公开中，为了提高异常文本识别的准确性，设置了与匹配组数相比的阈值阈值，在上述确定的匹配组数大于阈值组数时，才识别待识别问题存在异常，若若匹配组数小于或等于阈值组数，则确定待识别文本正常，通过匹配组数和阈值组数的比较，相比于识别到一组目标字符组即识别待识别文本存在异常，提高了异常文本识别的准确性，避免了误伤标记为标准的用户。

在本公开实施例的一种可能的实现方式中，随着时间的进行，标记为异常的用户发现发送的文本均被删除或无法发送，则用户可能会采用其它的方式对文本进行伪装，以躲避识别，因此，在得到目标关键词集合之后，为了提高目标关键词集合的有效性，提高目标关键词用于进行文本异常识别的准确性，本实施例中可对目标关键词集合中的每一个目标关键词设置有效时长，以确保目标关键词集合的有效性。因此，在得到目标关键词集合后，还可以包含以下步骤：

对每一个目标关键词处于目标关键词集合中的时长计时，以得到每一个目标关键词的计时时长；

删除计时时长大于有效时长的目标关键词。

具体地，在将每一个目标关键词添加至目标关键词集合中后，即通过计时，得到每一个目标关键词处于目标关键词集合中的计时时长，并删除计时时长大于有效时长的目标关键词，保证了目标关键词集合的有效性。

例如，目标关键词集合中，包含3个目标关键词，分别称为目标关键词1，目标关键词2和目标关键词3，预设有效时长为7天，针对每一个目标关键词进行计时，得到目标关键词1当前的计时时长为3天，目标关键词2当前的计时时长为8天，目标关键词3当前的计时时长为5天，则确定目标关键词2的计时时长大于了设定的有效时长7天，将目标关键词2删除，保证了目标关键词集合中各个目标关键词的有效性，以使得标记为异常的用户无法躲避识别。

图7是根据一示例性实施例示出的一种文本的识别装置的框图。

参照图7，该装置包括获取模块51，第一生成模块52，第二生成模块53、筛选模块54和识别模块55。

获取模块51，被配置为被配置为获取标记为异常的用户所发送的第一文本，以及标记为标准的用户所发送的第二文本。

第一生成模块52，被配置为根据第一文本，生成候选关键词集合。

第二生成模块53，被配置为根据第二文本，生成参考关键词集合。

筛选模块54，被配置为根据参考关键词集合，对候选关键词集合中的候选关键词进行筛选，以得到目标关键词集合。

识别模块55，被配置为采用目标关键词集合，对待识别文本进行异常识别。

在本发明实施例的一种可能的实现方式中，上述筛选模块54，包括：

确定单元，被配置为确定候选关键词在候选关键词集合中的第一重复次数，以及在参考关键词集合中的第二重复次数，并确定第一重复次数与第二重复次数之比。

处理单元，被配置为若第一重复次数与第二重复次数之比大于比例阈值，且所述第一重复次数大于次数阈值，则将候选关键词作为目标关键词添加至目标关键词集合中；以及若第一重复次数与第二重复次数之比小于或等于比例阈值，或者，若所述第一重复次数小于或等于所述次数阈值，则删除所述候选关键词。

在本发明实施例的一种可能的实现方式中，上述识别模块55，还被配置为从待识别文本之中提取多组连续排列的目标字符组；将每一组连续排列的目标字符组分别与目标关键词集合中的目标关键词匹配，以得到匹配组数；若匹配组数大于阈值组数，则确定待识别文本存在异常；以及若匹配组数小于或等于阈值组数，则确定待识别文本正常。

在本发明实施例的一种可能的实现方式中，该装置还包括：选取模块、计时模块和删除模块。

上述获取模块，还被配置为获取运行日志。

选取模块，被配置为将运行日志中存在异常处理记录的多个用户，分别标记为异常；从不存在异常处理记录的多个用户中，选取部分用户标记为标准的用户。

计时模块，还被配置为对每一个目标关键词处于目标关键词集合中的时长计时，以得到每一个目标关键词的计时时长。

删除模块，还被配置为删除计时时长大于有效时长的目标关键词。

作为一种可能的实现方式，上述选取模块，还被配置为根据用户总数和设定比例，确定标记为标准的用户数量；从不存在异常处理记录的多个用户中，选取用户数量的部分用户标记为标准。

作为一种可能的实现方式，上述第一生成模块52，还被配置为：

对第一文本提取多组连续排列的第一字符组，以及将每一组连续排列的第一字符组作为一个候选关键词，以得到候选关键词集合。

作为一种可能的实现方式，上述第二生成模块53，还被配置为：

对第二文本提取多组连续排列的第二字符组，将每一组连续排列的第二字符组作为一个参考关键词，以得到参考关键词集合。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本实施例的文本的识别装置中，获取标记为异常的用户发送的第一文本，以及标记为标准的用户发送的第二文本，根据第一文本，生成候选关键词集合，根据第二文本，生成参考关键词集合，根据参考关键词集合，对候选关键词集合中的候选关键词进行筛选，以得到目标关键词集合，采用目标关键词集合，对待识别文本进行异常识别。本公开中通过参考标记为标准的用户发送的文本，从标记为异常的用户发送的文本中筛选出关键词，生成关键词集合，以对异常文本进行识别，实现了无需人工参与便可以自动生成关键词集合，节省了人力成本，提高了识别效率。

为了实现上述实施例，本公开提供了一种服务器，包括处理器，用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如前述方法实施例所述的文本的识别方法。

为了实现上述实施例，本公开提供了一种计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如前述方法实施例所述的文本的识别方法。

为了实现上述实施例，本公开提供了一种计算机程序产品，包括计算机指令，当所述计算机指令由服务器的处理器执行时，使得所述服务器能够执行如前述方法实施例所述的文本的识别方法。

图8是根据一示例性实施例示出的一种服务器10的结构框图。图8示出的服务器仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，服务器10包括处理器11，其可以根据存储在只读存储器(ROM，ReadOnly Memory)12中的程序或者从存储器16加载到随机访问存储器(RAM，Random AccessMemory)13中的程序而执行各种适当的动作和处理。在RAM 13中，还存储有服务器10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O，Input/Output)接口15也连接至总线14。

以下部件连接至I/O接口15：包括硬盘等的存储器16；以及包括诸如LAN(局域网，Local Area Network)卡、调制解调器等的网络接口卡的通信部分17，通信部分17经由诸如因特网的网络执行通信处理；驱动器18也根据需要连接至I/O接口15。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分17从网络上被下载和安装。在该计算机程序被处理器11执行时，执行本公开的方法中限定的上述功能。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器804，上述指令可由服务器10的处理器11执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种文本的识别方法，其特征在于，包括：

根据所述第一文本，生成候选关键词集合；

根据所述第二文本，生成参考关键词集合；

采用所述目标关键词集合，对待识别文本进行异常识别；

其中，所述根据所述参考关键词集合，对所述候选关键词集合中的候选关键词进行筛选，以得到目标关键词集合，包括：

确定所述第一重复次数与所述第二重复次数之比；

2.根据权利要求1所述的文本的识别方法，其特征在于，所述采用所述目标关键词集合，对待识别文本进行异常识别，包括：

从所述待识别文本之中提取多组连续排列的目标字符组；

3.根据权利要求1-2任一项所述的文本的识别方法，其特征在于，在所述获取标记为异常的用户所发送的第一文本，以及标记为标准的用户所发送的第二文本之前，还包括：

获取运行日志；

4.根据权利要求3所述的文本的识别方法，其特征在于，所述从不存在所述异常处理记录的多个用户中，选取部分用户标记为标准，包括：

根据用户总数和设定比例，确定标记为标准的用户数量；

5.根据权利要求1-2任一项所述的文本的识别方法，其特征在于，所述根据所述第一文本，生成候选关键词集合，包括：

对所述第一文本提取多组连续排列的第一字符组；以及

6.根据权利要求1-2任一项所述的文本的识别方法，其特征在于，所述根据所述第二文本，生成参考关键词集合，包括：

对所述第二文本提取多组连续排列的第二字符组；

7.根据权利要求1-2任一项所述的文本的识别方法，其特征在于，所述根据所述参考关键词集合，对所述候选关键词集合中的候选关键词进行筛选，以得到目标关键词集合之后，还包括：

删除计时时长大于有效时长的目标关键词。

8.一种文本的识别装置，其特征在于，所述装置包括：

识别模块，被配置为采用所述目标关键词集合，对待识别文本进行异常识别；

所述筛选模块，包括：

9.根据权利要求8所述的文本的识别装置，其特征在于，

所述识别模块，还被配置为从所述待识别文本之中提取多组连续排列的目标字符组；将每一组连续排列的目标字符组分别与所述目标关键词集合中的目标关键词匹配，以得到匹配组数；若所述匹配组数大于阈值组数，则确定所述待识别文本存在异常；以及若所述匹配组数小于或等于所述阈值组数，则确定所述待识别文本正常。

10.根据权利要求8-9任一项所述的文本的识别装置，其特征在于，所述装置，还包括：

上述获取模块，还被配置为获取运行日志；

11.根据权利要求10所述的文本的识别装置，其特征在于，

所述选取模块，还被配置为根据用户总数和设定比例，确定标记为标准的用户数量；从不存在所述异常处理记录的多个用户中，选取所述用户数量的部分用户标记为标准。

12.根据权利要求8-9任一项所述的文本的识别装置，其特征在于，

所述第一生成模块，还被配置为对所述第一文本提取多组连续排列的第一字符组；以及将每一组连续排列的第一字符组作为一个候选关键词，以得到所述候选关键词集合。

13.根据权利要求8-9任一项所述的文本的识别装置，其特征在于，

所述第二生成模块，还被配置为对所述第二文本提取多组连续排列的第二字符组；将每一组连续排列的第二字符组作为一个参考关键词，以得到所述参考关键词集合。

14.根据权利要求8-9任一项所述的文本的识别装置，其特征在于，所述装置，还包括：

15.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-7中任一项所述的文本的识别方法。

16.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如权利要求1-7中任一项所述的文本的识别方法。