CN111079029B

CN111079029B - 敏感账号的检测方法、存储介质和计算机设备

Info

Publication number: CN111079029B
Application number: CN201911323749.9A
Authority: CN
Inventors: 唐升吉; 黎清顾; 曹林
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2023-11-21
Anticipated expiration: 2039-12-20
Also published as: CN111079029A

Abstract

本申请公开一种敏感账号的检测方法、存储介质和计算机设备，该方法包括：获取发表请求所包含的待发表的文本信息，对文本信息进行预处理以得到实词集合；将实词集合中的实词与敏感词库中的敏感词进行匹配，以获取实词集合的整体敏感度；比较整体敏感度与敏感度阈值，根据比较结果确定文本信息的敏感类型，基于文本信息的敏感类型预判发表所述文本信息的相应账号的敏感类型；对于疑似敏感账号，获取其发表的历史文本信息，获取历史文本信息中敏感语句的数量与历史文本信息中语句的总数量的比值，比较比值与预设阈值，根据比较结果判定疑似敏感账号为敏感账号或非敏感账号。本实施例有利于根据文本信息准确判断账户的敏感类型。

Description

敏感账号的检测方法、存储介质和计算机设备

技术领域

本申请涉及信息处理技术领域，尤其涉及一种敏感账号的检测方法、存储介质和计算机设备。

背景技术

随着互联网技术的高速发展，各种各样的信息资源呈指数级增长，一些敏感信息在网络社区中蔓延开来，对社会的和谐造成极大危害。敏感信息识别方法通过识别敏感信息并进行预警以阻止其传播，对引导网络舆情走向，营造网络社区良好舆情环境有着重要意义。

在对网络社区敏感信息进行识别时，主要的检测方法为：敏感信息关键字匹配技术和传统机器学习检测技术。其中敏感信息关键字匹配技术主要是通过收集预定义的隐私敏感词汇，形成敏感字典，然后将所需要检索的文本在此字典中进行匹配。传统机器学习主要是利用传统机器学习手段，对大量的预定义的隐私或文本进行数据采集，根据采集的数据训练分类模型，利用模型将需要检索的文本进行检测。

由于现有方法仅仅通过文本中的关键字来进行判断，无法准确的追根溯源，对相应的账号做准确地处理。

发明内容

本发明的主要目的是提供一种敏感账号的检测方法、存储介质和计算机设备，以解决对敏感账号检测不准确的问题。

第一方面，本申请的实施方式提供一种敏感账号的检测方法，包括以下步骤：获取发表请求所包含的待发表的文本信息，对所述文本信息进行预处理以得到实词集合；将所述实词集合中的实词与敏感词库中的敏感词进行匹配，以获取所述实词集合的整体敏感度；比较所述整体敏感度与敏感度阈值，根据比较结果确定所述文本信息的敏感类型，基于所述文本信息的敏感类型预判发表所述文本信息的相应账号的敏感类型，其中，所述敏感类型包括疑似敏感和非敏感；对于疑似敏感账号，获取其发表的历史文本信息，获取所述历史文本信息中敏感语句的数量与所述历史文本信息中语句的总数量的比值，比较所述比值与预设阈值，根据比较结果判定所述疑似敏感账号为敏感账号或非敏感账号。

可选的，所述对所述文本信息进行预处理以得到实词集合，包括步骤：对所述文本信息进行分词处理，以得到词汇集合；提取所述词汇集合中的实词以组成实词集合。

可选的，所述获取所述实词集合的整体敏感度，包括步骤：获取与所述敏感词库中的敏感词匹配成功的实词个数占所述实词集合中实词总个数的比例值，将所述比例值作为所述实词集合的整体敏感度。

可选的，所述比较所述整体敏感度与敏感度阈值，根据比较结果确定所述文本信息的敏感类型，基于所述文本信息的敏感类型预判发表所述文本信息的相应账号的敏感类型，包括：当所述整体敏感度小于敏感度阈值时，确定所述文本信息的敏感类型为非敏感文本信息，从而判定发表所述文本信息的相应的账号为非敏感账号；当所述整体敏感度大于或等于敏感度阈值时，确定所述文本信息的敏感类型为疑似敏感文本信息，从而判定发表所述文本信息的相应的账号为疑似敏感账号。

可选的，所述获取历史文本信息中敏感语句的数量与所述历史文本信息中语句的总数量的比值，包括步骤：对所述历史文本信息中的每个语句进行分词处理以得到其相应的历史词汇集合；对于每个语句，将历史词汇集合中的词汇与所述敏感词库中的敏感词进行匹配，将匹配成功的词汇与所述历史词汇集合中的词汇总数量的比值作为该语句的语句敏感度，当所述语句敏感度大于或等于预设语句敏感度阈值时，将该语句作为敏感语句进行计数；统计所述历史文本信息中敏感语句的数量，获取所述敏感语句的数量与所述历史文本信息中语句的总数量的比值。

可选的，所述比较所述比值与预设阈值，根据比较结果判定所述疑似敏感账号为敏感账号或非敏感账号，包括：当所述比值大于或等于预设阈值时，判定所述疑似敏感账号为敏感账号，当所述比值小于预设阈值时，判定所述疑似敏感账号为非敏感账号。

可选的，还包括步骤：对于被判定为非敏感账号的发表请求所包含的待发表的文本信息，判断其为允许发表的文本信息，对于被判定为敏感账号的发表请求所包含的待发表的文本信息，判断其为禁止发表的文本信息。

可选的，还包括步骤：对于被判定为敏感账号的发表请求所包含的待发表的文本信息，将所述文本信息进行分词处理以得到至少一个词汇；对于所述至少一个词汇中不能够与敏感词库中的敏感词匹配成功的单词，当所述单词的字数小于预设字数时，将单词中的每个字与所述敏感词库中的字进行匹配，当该单词中的任一个字与所述敏感词库中的字匹配成功的次数大于或等于预设次数阈值时，将所述单词归入所述敏感词库，当所述单词的字数大于或等于预设字数时，将所述单词与所述敏感词库中的敏感词进行匹配，获取最大匹配成功率，当最大匹配成功率大于或等于预设成功率阈值时，将所述单词归入所述敏感词库。

可选的，所述获取最大匹配成功率，包括步骤：对于每一个所述单词，将该单词与所述敏感词库中与该单词字数相同的敏感词进行匹配，获取匹配成功的字数在该单词总字数中的占比，将所述占比作为匹配成功率；在将该单词与所述敏感词库中所有字数相同的敏感词进行匹配的至少一个匹配成功率中，选取其中的最大匹配成功率。

第二方面，本申请的实施方式提供一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现如上文所述的敏感账号的检测方法的步骤。

第三方面，本申请的实施方式提供一种计算机设备，包括处理器和存储有程序代码的存储介质，所述程序代码被所述处理器执行时，实现如上文所述的敏感账号的检测方法的步骤。

本实施方式对于疑似敏感账号通过对其发表的历史文本信息进行进一步判断其敏感类型，能够更加深入的了解该账号的性质，以能够准确判断账号类型，避免了因为单次的发表请求所包含的待发表的文本信息对账户类型的误判。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定，在附图中：

图1为根据本申请一示例性实施方式的敏感账号的检测方法的流程图；

图2为根据本申请一具体实施方式的敏感账号的检测方法的流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

当用户在博客、贴吧等网络社区发表文本信息时，需要对用户请求发表的文本信息进行敏感性检测，当达到一定敏感标准时确定该用户账户为敏感账户，禁止其发表该文本信息，当没有达到敏感标准时即确定该账户为非敏感账户，允许其发表该文本信息。

本申请的技术方案在对文本信息进行敏感性判断时，结合了该账户的历史文本信息，并将判定为敏感账户的文本信息用以扩充敏感词库。

实施例一

如图1所示，本申请的实施方式提供一种敏感账号的检测方法，包括以下步骤：

S110：获取发表请求所包含的待发表的文本信息，对所述文本信息进行预处理以得到实词集合。

作为一种可选的实施方式，对所述文本信息进行预处理以得到实词集合，包括步骤：对所述文本信息进行分词处理，以得到词汇集合；提取所述词汇集合中的实词以组成实词集合。

当用户请求发表文本信息时，获取用户的发表请求所包含的文本信息作为待发表的文本信息，对该文本信息进行敏感性检测，以确定该账户的敏感性。

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。把语法功能作为主要依据，认为能够单独充当句法成分，有词汇意义和语法意义的是实词；不能充当句法成分，没有词汇意义只有语法意义的就是虚词。实词，是汉语词类中的一种，词语中含有实际意义的词，实词能单独充当句子成分，即有词汇意义和语法意义的词。一般包括：名词、动词、形容词、数词、量词、代词。

S120：将所述实词集合中的实词与敏感词库中的敏感词进行匹配，以获取所述实词集合的整体敏感度。

作为一种可选的实施方式，获取所述实词集合的整体敏感度，包括步骤：获取与所述敏感词库中的敏感词匹配成功的实词个数占所述实词集合中实词总个数的比例值，将所述比例值作为所述实词集合的整体敏感度。

将实词集合中的每一个实词与敏感词库中的敏感词进行匹配，当敏感词库中有与该实词一模一样的敏感词时，将该实词作为匹配成功的实词进行计数，统计匹配成功的实词的个数，并与实词集合中实词的总个数作比以得到比例值，将该比例值作为该实词集合的整体敏感度。

S130：比较所述整体敏感度与敏感度阈值，根据比较结果确定所述文本信息的敏感类型，基于所述文本信息的敏感类型预判发表所述文本信息的相应账号的敏感类型，其中，所述敏感类型包括疑似敏感和非敏感。

作为一种可选的实施方式，比较所述整体敏感度与敏感度阈值，根据比较结果确定所述文本信息的敏感类型，基于所述文本信息的敏感类型预判发表所述文本信息的相应账号的敏感类型，包括：当所述整体敏感度小于敏感度阈值时，确定所述文本信息的敏感类型为非敏感文本信息，从而判定发表所述文本信息的相应的账号为非敏感账号；当所述整体敏感度大于或等于敏感度阈值时，确定所述文本信息的敏感类型为疑似敏感文本信息，从而判定发表所述文本信息的相应的账号为疑似敏感账号。

其中，敏感度阈值可以根据需要进行设定，当对文本信息的敏感性要求较高时，可以设定较低的敏感度阈值，当对文本信息的敏感性要求较低时，可以设定较高的敏感度阈值。

对于被判定为非敏感账号的发表请求所包含的待发表的文本信息，可以允许其发表。

本实施方式通过将发表请求所包含的待发表的文本信息与敏感词库进行匹配，初步确定用户账户的敏感性，对于明显的非敏感账户尽快放行，起到了敏感账户检测的初筛的作用。

S140：对于疑似敏感账号，获取其发表的历史文本信息，获取所述历史文本信息中敏感语句的数量与所述历史文本信息中语句的总数量的比值，比较所述比值与预设阈值，根据比较结果判定所述疑似敏感账号为敏感账号或非敏感账号。

作为一种可选的实施方式，获取历史文本信息中敏感语句的数量与所述历史文本信息中语句的总数量的比值，包括步骤：对所述历史文本信息中的每个语句进行分词处理以得到其相应的历史词汇集合；对于每个语句，将历史词汇集合中的词汇与所述敏感词库中的敏感词进行匹配，将匹配成功的词汇与所述历史词汇集合中的词汇总数量的比值作为该语句的语句敏感度，当所述语句敏感度大于或等于预设语句敏感度阈值时，将该语句作为敏感语句进行计数；统计所述历史文本信息中敏感语句的数量，获取所述敏感语句的数量与所述历史文本信息中语句的总数量的比值。

其中，预设语句敏感度阈值可以根据需要进行设定，当对敏感性要求较高时，可以设定一个较低的语句敏感度阈值，当对敏感性要求较低时，可以设定一个较高的语句敏感度阈值。

作为一种可选的实施方式，比较所述比值与预设阈值，根据比较结果判定所述疑似敏感账号为敏感账号或非敏感账号，包括：当所述比值大于或等于预设阈值时，判定疑似敏感账号为敏感账号，当所述比值小于预设阈值时，判定疑似敏感账号为非敏感账号。

其中，预设阈值可以根据需要进行设定，当对敏感性要求较高时，可以设定一个较低的阈值，当对敏感性要求较低时，可以设定一个较高的阈值。

实施例二

作为一种可选的实施方式，在实施例一的基础上还包括步骤：对于被判定为非敏感账号的发表请求所包含的待发表的文本信息，判断其为允许发表的文本信息，对于被判定为敏感账号的发表请求所包含的待发表的文本信息，判断其为禁止发表的文本信息。

可选的，对于敏感账号，可以对该账号进行预设时间的封禁或永久封禁。

实施例三

作为一种可选的实施方式，在实施例一或实施例二的基础上还包括步骤：对于被判定为敏感账号的发表请求所包含的待发表的文本信息，将所述文本信息进行分词处理以得到至少一个词汇；对于所述至少一个词汇中不能够与敏感词库中的敏感词匹配成功的单词，当所述单词的字数小于预设字数时，将单词中的每个字与所述敏感词库中的字进行匹配，当该单词中的任一个字与所述敏感词库中的字匹配成功的次数大于或等于预设次数阈值时，将所述单词归入所述敏感词库，当所述单词的字数大于或等于预设字数时，将所述单词与所述敏感词库中的敏感词进行匹配，获取最大匹配成功率，当最大匹配成功率大于或等于预设成功率阈值时，将所述单词归入所述敏感词库。

其中，不能够与敏感词库中的敏感词匹配成功的单词，即敏感词库中没有与该单词一模一样的敏感词。预设字数可以根据需要进行限定，例如，可以设定为3个或5个等等。作为一种可选的实施方式，所述获取最大匹配成功率，包括步骤：对于每一个所述单词，将该单词与所述敏感词库中与该单词字数相同的敏感词进行匹配，获取匹配成功的字数在该单词总字数中的占比，将所述占比作为匹配成功率；在将该单词与所述敏感词库中所有字数相同的敏感词进行匹配的至少一个匹配成功率中，选取其中的最大匹配成功率。

对于某一个字数大于或等于预设字数的单词，敏感词库中与其字数相同的敏感词可能有多个，对于每个与其字数相同的敏感词，该单词与每个敏感词匹配都会产生一个匹配成功率，本实施方式取最大匹配成功率即取与本单词与最相近的敏感词的匹配成功率。可选的，这里也可以取最小匹配成功率。

本实施方式利用被判定为敏感账户的发表请求所包含的待发表的文本信息对敏感词库进行扩充，有利于对敏感词库的维护补充，有利于后续进行敏感性检测的判断，不同的时期会有不同的敏感词，通过不断更新敏感词库有利于与时俱进的对账户敏感类型的判断。

如图2所示为本申请的一具体实施方式，某用户登录账号后，编写文章标题为“如何快速赚钱的方法？”的文本信息，其内容大致为自身经历，赚钱方法，文中包含大量的“零成本”，“赚钱”等较为敏感词汇，包括引诱性词汇如“加好友”，“私聊”等词汇，当用户点击“发表”按钮后，系统调用该检测方法。

首先，获取发表请求所包含的待发表的文本信息，对待发表的文本信息进行预处理，得到实词集合，将实词集合与敏感词库进行匹配，比较整体敏感度与敏感度阈值，当整体敏感度大于或等于敏感度阈值时，判定该账户为疑似敏感账户，需要等待后续的敏感性检测，当整体敏感度小于敏感度阈值时，判定该账户为非敏感账户，允许该文本信息的发表。

对于本具体实施例中的文本信息初步判定其为疑似敏感用户，需要进行后续的敏感性检测。

然后，获取该账户发表的历史文本信息，例如，发表过的文章，判断该文章中每个语句的敏感性，统计达到语句敏感度阈值的语句的数量与该文章中语句的总数量的比值，比较该比值与预设阈值，当该比值大于或等于预设阈值时，判定该账户为敏感账户，禁止其发表待发表的文本信息，当该比值小于或等于预设阈值时，判定该账户为非敏感账户，允许其发表待发表的文本信息。

判断完成之后，可以利用敏感账户的发表请求所包含的待发表的文本信息对敏感词库进行扩充，如下一次有用户发表的文本信息中存在敏感账户的发表请求所包含的待发表的文本信息中的相关词汇，可以直接判断为敏感账户，无需再次根据历史文本信息进行判断，减少了运算过程，并更好的维护数据库。

本申请的实施方式提供一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现如上文所述的敏感账号的检测方法的步骤。

本申请的实施方式提供一种计算机设备，包括处理器和存储有程序代码的存储介质，所述程序代码被所述处理器执行时，实现如上文所述的敏感账号的检测方法的步骤。

需要注意的是，这里所使用的的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

应当理解的是，本说明书中的示例性实施方式可以由多种不同的形式来实施，并且不应当被解释为只限于这里所阐述的实施方式。提供这些实施方式是为了使得本申请的公开彻底且完整，并且将这些示例性实施方式的构思充分传达给本领域普通技术人员，而不应当理解为对本发明的限制。

Claims

1.一种敏感账号的检测方法，其特征在于，包括以下步骤：

获取发表请求所包含的待发表的文本信息，对所述文本信息进行预处理以得到实词集合；

将所述实词集合中的实词与敏感词库中的敏感词进行匹配，以获取所述实词集合的整体敏感度，包括：获取与所述敏感词库中的敏感词匹配成功的实词个数占所述实词集合中实词总个数的比例值，将所述比例值作为所述实词集合的整体敏感度；

比较所述整体敏感度与敏感度阈值，根据比较结果确定所述文本信息的敏感类型，基于所述文本信息的敏感类型预判发表所述文本信息的相应账号的敏感类型，其中，所述敏感类型包括疑似敏感和非敏感；

对于疑似敏感账号，获取其发表的历史文本信息，获取所述历史文本信息中敏感语句的数量与所述历史文本信息中语句的总数量的比值，比较所述比值与预设阈值，根据比较结果判定所述疑似敏感账号为敏感账号或非敏感账号；

对于被判定为敏感账号的发表请求所包含的待发表的文本信息，将所述文本信息进行分词处理，以得到至少一个词汇；

对于所述至少一个词汇中不能够与敏感词库中的敏感词匹配成功的单词，

当所述单词的字数小于预设字数时，将单词中的每个字与所述敏感词库中的字进行匹配，当该单词中的任一个字与所述敏感词库中的字匹配成功的次数大于或等于预设次数阈值时，将所述单词归入所述敏感词库，

当所述单词的字数大于或等于预设字数时，将所述单词与所述敏感词库中的敏感词进行匹配，获取最大匹配成功率，当最大匹配成功率大于或等于预设成功率阈值时，将所述单词归入所述敏感词库；

其中，所述获取所述历史文本信息中敏感语句的数量与所述历史文本信息中语句的总数量的比值，包括步骤：

对所述历史文本信息中的每个语句进行分词处理，以得到其相应的历史词汇集合；

对于每个语句，将历史词汇集合中的词汇与所述敏感词库中的敏感词进行匹配，将匹配成功的词汇与所述历史词汇集合中的词汇总数量的比值作为该语句的语句敏感度，当所述语句敏感度大于或等于预设语句敏感度阈值时，将该语句作为敏感语句进行计数；

统计所述历史文本信息中敏感语句的数量，获取所述敏感语句的数量与所述历史文本信息中语句的总数量的比值。

2.根据权利要求1所述的检测方法，其特征在于，所述对所述文本信息进行预处理以得到实词集合，包括步骤：

对所述文本信息进行分词处理，以得到词汇集合；

提取所述词汇集合中的实词，以组成实词集合。

3.根据权利要求1所述的检测方法，其特征在于，所述比较所述整体敏感度与敏感度阈值，根据比较结果确定所述文本信息的敏感类型，基于所述文本信息的敏感类型预判其相应账号的敏感类型，包括：

当所述整体敏感度小于敏感度阈值时，确定所述文本信息的敏感类型为非敏感文本信息，从而判定发表所述文本信息的相应账号为非敏感账号；

当所述整体敏感度大于或等于敏感度阈值时，确定所述文本信息的敏感类型为疑似敏感文本信息，从而判定发表所述文本信息的相应账号为疑似敏感账号。

4.根据权利要求1所述的检测方法，其特征在于，所述比较所述比值与预设阈值，根据比较结果判定所述疑似敏感账号为敏感账号或非敏感账号，包括：

当所述比值大于或等于预设阈值时，判定所述疑似敏感账号为敏感账号，

当所述比值小于预设阈值时，判定所述疑似敏感账号为非敏感账号。

5.根据权利要求1所述的检测方法，其特征在于，还包括步骤：

对于被判定为非敏感账号的发表请求所包含的待发表的文本信息，判断其为允许发表的文本信息；

对于被判定为敏感账号的发表请求所包含的待发表的文本信息，判断其为禁止发表的文本信息。

6.根据权利要求1所述的检测方法，其特征在于，所述获取最大匹配成功率，包括步骤：

对于每一个所述单词，将该单词与所述敏感词库中与该单词字数相同的敏感词进行匹配，获取匹配成功的字数在该单词总字数中的占比，将所述占比作为匹配成功率；

在将该单词与所述敏感词库中所有字数相同的敏感词进行匹配的至少一个匹配成功率中，选取其中的最大匹配成功率。

7.一种存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-6中任一项所述的敏感账号的检测方法的步骤。

8.一种计算机设备，包括处理器和存储有程序代码的存储介质，所述程序代码被所述处理器执行时，实现如权利要求1-6中任一项所述的敏感账号的检测方法的步骤。