CN111079029A - 敏感账号的检测方法、存储介质和计算机设备 - Google Patents
敏感账号的检测方法、存储介质和计算机设备 Download PDFInfo
- Publication number
- CN111079029A CN111079029A CN201911323749.9A CN201911323749A CN111079029A CN 111079029 A CN111079029 A CN 111079029A CN 201911323749 A CN201911323749 A CN 201911323749A CN 111079029 A CN111079029 A CN 111079029A
- Authority
- CN
- China
- Prior art keywords
- sensitive
- word
- text information
- account
- sensitivity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 230000035945 sensitivity Effects 0.000 claims abstract description 108
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000010801 machine learning Methods 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开一种敏感账号的检测方法、存储介质和计算机设备,该方法包括:获取发表请求所包含的待发表的文本信息,对文本信息进行预处理以得到实词集合;将实词集合中的实词与敏感词库中的敏感词进行匹配,以获取实词集合的整体敏感度;比较整体敏感度与敏感度阈值,根据比较结果确定文本信息的敏感类型,基于文本信息的敏感类型预判发表所述文本信息的相应账号的敏感类型;对于疑似敏感账号,获取其发表的历史文本信息,获取历史文本信息中敏感语句的数量与历史文本信息中语句的总数量的比值,比较比值与预设阈值,根据比较结果判定疑似敏感账号为敏感账号或非敏感账号。本实施例有利于根据文本信息准确判断账户的敏感类型。
Description
技术领域
本申请涉及信息处理技术领域,尤其涉及一种敏感账号的检测方法、存储介质和计算机设备。
背景技术
随着互联网技术的高速发展,各种各样的信息资源呈指数级增长,一些敏感信息在网络社区中蔓延开来,对社会的和谐造成极大危害。敏感信息识别方法通过识别敏感信息并进行预警以阻止其传播,对引导网络舆情走向,营造网络社区良好舆情环境有着重要意义。
在对网络社区敏感信息进行识别时,主要的检测方法为:敏感信息关键字匹配技术和传统机器学习检测技术。其中敏感信息关键字匹配技术主要是通过收集预定义的隐私敏感词汇,形成敏感字典,然后将所需要检索的文本在此字典中进行匹配。传统机器学习主要是利用传统机器学习手段,对大量的预定义的隐私或文本进行数据采集,根据采集的数据训练分类模型,利用模型将需要检索的文本进行检测。
由于现有方法仅仅通过文本中的关键字来进行判断,无法准确的追根溯源,对相应的账号做准确地处理。
发明内容
本发明的主要目的是提供一种敏感账号的检测方法、存储介质和计算机设备,以解决对敏感账号检测不准确的问题。
第一方面,本申请的实施方式提供一种敏感账号的检测方法,包括以下步骤:获取发表请求所包含的待发表的文本信息,对所述文本信息进行预处理以得到实词集合;将所述实词集合中的实词与敏感词库中的敏感词进行匹配,以获取所述实词集合的整体敏感度;比较所述整体敏感度与敏感度阈值,根据比较结果确定所述文本信息的敏感类型,基于所述文本信息的敏感类型预判发表所述文本信息的相应账号的敏感类型,其中,所述敏感类型包括疑似敏感和非敏感;对于疑似敏感账号,获取其发表的历史文本信息,获取所述历史文本信息中敏感语句的数量与所述历史文本信息中语句的总数量的比值,比较所述比值与预设阈值,根据比较结果判定所述疑似敏感账号为敏感账号或非敏感账号。
可选的,所述对所述文本信息进行预处理以得到实词集合,包括步骤:对所述文本信息进行分词处理,以得到词汇集合;提取所述词汇集合中的实词以组成实词集合。
可选的,所述获取所述实词集合的整体敏感度,包括步骤:获取与所述敏感词库中的敏感词匹配成功的实词个数占所述实词集合中实词总个数的比例值,将所述比例值作为所述实词集合的整体敏感度。
可选的,所述比较所述整体敏感度与敏感度阈值,根据比较结果确定所述文本信息的敏感类型,基于所述文本信息的敏感类型预判发表所述文本信息的相应账号的敏感类型,包括:当所述整体敏感度小于敏感度阈值时,确定所述文本信息的敏感类型为非敏感文本信息,从而判定发表所述文本信息的相应的账号为非敏感账号;当所述整体敏感度大于或等于敏感度阈值时,确定所述文本信息的敏感类型为疑似敏感文本信息,从而判定发表所述文本信息的相应的账号为疑似敏感账号。
可选的,所述获取历史文本信息中敏感语句的数量与所述历史文本信息中语句的总数量的比值,包括步骤:对所述历史文本信息中的每个语句进行分词处理以得到其相应的历史词汇集合;对于每个语句,将历史词汇集合中的词汇与所述敏感词库中的敏感词进行匹配,将匹配成功的词汇与所述历史词汇集合中的词汇总数量的比值作为该语句的语句敏感度,当所述语句敏感度大于或等于预设语句敏感度阈值时,将该语句作为敏感语句进行计数;统计所述历史文本信息中敏感语句的数量,获取所述敏感语句的数量与所述历史文本信息中语句的总数量的比值。
可选的,所述比较所述比值与预设阈值,根据比较结果判定所述疑似敏感账号为敏感账号或非敏感账号,包括:当所述比值大于或等于预设阈值时,判定所述疑似敏感账号为敏感账号,当所述比值小于预设阈值时,判定所述疑似敏感账号为非敏感账号。
可选的,还包括步骤:对于被判定为非敏感账号的发表请求所包含的待发表的文本信息,判断其为允许发表的文本信息,对于被判定为敏感账号的发表请求所包含的待发表的文本信息,判断其为禁止发表的文本信息。
可选的,还包括步骤:对于被判定为敏感账号的发表请求所包含的待发表的文本信息,将所述文本信息进行分词处理以得到至少一个词汇;对于所述至少一个词汇中不能够与敏感词库中的敏感词匹配成功的单词,当所述单词的字数小于预设字数时,将单词中的每个字与所述敏感词库中的字进行匹配,当该单词中的任一个字与所述敏感词库中的字匹配成功的次数大于或等于预设次数阈值时,将所述单词归入所述敏感词库,当所述单词的字数大于或等于预设字数时,将所述单词与所述敏感词库中的敏感词进行匹配,获取最大匹配成功率,当最大匹配成功率大于或等于预设成功率阈值时,将所述单词归入所述敏感词库。
可选的,所述获取最大匹配成功率,包括步骤:对于每一个所述单词,将该单词与所述敏感词库中与该单词字数相同的敏感词进行匹配,获取匹配成功的字数在该单词总字数中的占比,将所述占比作为匹配成功率;在将该单词与所述敏感词库中所有字数相同的敏感词进行匹配的至少一个匹配成功率中,选取其中的最大匹配成功率。
第二方面,本申请的实施方式提供一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时,实现如上文所述的敏感账号的检测方法的步骤。
第三方面,本申请的实施方式提供一种计算机设备,包括处理器和存储有程序代码的存储介质,所述程序代码被所述处理器执行时,实现如上文所述的敏感账号的检测方法的步骤。
本实施方式对于疑似敏感账号通过对其发表的历史文本信息进行进一步判断其敏感类型,能够更加深入的了解该账号的性质,以能够准确判断账号类型,避免了因为单次的发表请求所包含的待发表的文本信息对账户类型的误判。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定,在附图中:
图1为根据本申请一示例性实施方式的敏感账号的检测方法的流程图;
图2为根据本申请一具体实施方式的敏感账号的检测方法的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
当用户在博客、贴吧等网络社区发表文本信息时,需要对用户请求发表的文本信息进行敏感性检测,当达到一定敏感标准时确定该用户账户为敏感账户,禁止其发表该文本信息,当没有达到敏感标准时即确定该账户为非敏感账户,允许其发表该文本信息。
本申请的技术方案在对文本信息进行敏感性判断时,结合了该账户的历史文本信息,并将判定为敏感账户的文本信息用以扩充敏感词库。
实施例一
如图1所示,本申请的实施方式提供一种敏感账号的检测方法,包括以下步骤:
S110:获取发表请求所包含的待发表的文本信息,对所述文本信息进行预处理以得到实词集合。
作为一种可选的实施方式,对所述文本信息进行预处理以得到实词集合,包括步骤:对所述文本信息进行分词处理,以得到词汇集合;提取所述词汇集合中的实词以组成实词集合。
当用户请求发表文本信息时,获取用户的发表请求所包含的文本信息作为待发表的文本信息,对该文本信息进行敏感性检测,以确定该账户的敏感性。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。把语法功能作为主要依据,认为能够单独充当句法成分,有词汇意义和语法意义的是实词;不能充当句法成分,没有词汇意义只有语法意义的就是虚词。实词,是汉语词类中的一种,词语中含有实际意义的词,实词能单独充当句子成分,即有词汇意义和语法意义的词。一般包括:名词、动词、形容词、数词、量词、代词。
S120:将所述实词集合中的实词与敏感词库中的敏感词进行匹配,以获取所述实词集合的整体敏感度。
作为一种可选的实施方式,获取所述实词集合的整体敏感度,包括步骤:获取与所述敏感词库中的敏感词匹配成功的实词个数占所述实词集合中实词总个数的比例值,将所述比例值作为所述实词集合的整体敏感度。
将实词集合中的每一个实词与敏感词库中的敏感词进行匹配,当敏感词库中有与该实词一模一样的敏感词时,将该实词作为匹配成功的实词进行计数,统计匹配成功的实词的个数,并与实词集合中实词的总个数作比以得到比例值,将该比例值作为该实词集合的整体敏感度。
S130:比较所述整体敏感度与敏感度阈值,根据比较结果确定所述文本信息的敏感类型,基于所述文本信息的敏感类型预判发表所述文本信息的相应账号的敏感类型,其中,所述敏感类型包括疑似敏感和非敏感。
作为一种可选的实施方式,比较所述整体敏感度与敏感度阈值,根据比较结果确定所述文本信息的敏感类型,基于所述文本信息的敏感类型预判发表所述文本信息的相应账号的敏感类型,包括:当所述整体敏感度小于敏感度阈值时,确定所述文本信息的敏感类型为非敏感文本信息,从而判定发表所述文本信息的相应的账号为非敏感账号;当所述整体敏感度大于或等于敏感度阈值时,确定所述文本信息的敏感类型为疑似敏感文本信息,从而判定发表所述文本信息的相应的账号为疑似敏感账号。
其中,敏感度阈值可以根据需要进行设定,当对文本信息的敏感性要求较高时,可以设定较低的敏感度阈值,当对文本信息的敏感性要求较低时,可以设定较高的敏感度阈值。
对于被判定为非敏感账号的发表请求所包含的待发表的文本信息,可以允许其发表。
本实施方式通过将发表请求所包含的待发表的文本信息与敏感词库进行匹配,初步确定用户账户的敏感性,对于明显的非敏感账户尽快放行,起到了敏感账户检测的初筛的作用。
S140:对于疑似敏感账号,获取其发表的历史文本信息,获取所述历史文本信息中敏感语句的数量与所述历史文本信息中语句的总数量的比值,比较所述比值与预设阈值,根据比较结果判定所述疑似敏感账号为敏感账号或非敏感账号。
作为一种可选的实施方式,获取历史文本信息中敏感语句的数量与所述历史文本信息中语句的总数量的比值,包括步骤:对所述历史文本信息中的每个语句进行分词处理以得到其相应的历史词汇集合;对于每个语句,将历史词汇集合中的词汇与所述敏感词库中的敏感词进行匹配,将匹配成功的词汇与所述历史词汇集合中的词汇总数量的比值作为该语句的语句敏感度,当所述语句敏感度大于或等于预设语句敏感度阈值时,将该语句作为敏感语句进行计数;统计所述历史文本信息中敏感语句的数量,获取所述敏感语句的数量与所述历史文本信息中语句的总数量的比值。
其中,预设语句敏感度阈值可以根据需要进行设定,当对敏感性要求较高时,可以设定一个较低的语句敏感度阈值,当对敏感性要求较低时,可以设定一个较高的语句敏感度阈值。
作为一种可选的实施方式,比较所述比值与预设阈值,根据比较结果判定所述疑似敏感账号为敏感账号或非敏感账号,包括:当所述比值大于或等于预设阈值时,判定疑似敏感账号为敏感账号,当所述比值小于预设阈值时,判定疑似敏感账号为非敏感账号。
其中,预设阈值可以根据需要进行设定,当对敏感性要求较高时,可以设定一个较低的阈值,当对敏感性要求较低时,可以设定一个较高的阈值。
本实施方式对于疑似敏感账号通过对其发表的历史文本信息进行进一步判断其敏感类型,能够更加深入的了解该账号的性质,以能够准确判断账号类型,避免了因为单次的发表请求所包含的待发表的文本信息对账户类型的误判。
实施例二
作为一种可选的实施方式,在实施例一的基础上还包括步骤:对于被判定为非敏感账号的发表请求所包含的待发表的文本信息,判断其为允许发表的文本信息,对于被判定为敏感账号的发表请求所包含的待发表的文本信息,判断其为禁止发表的文本信息。
可选的,对于敏感账号,可以对该账号进行预设时间的封禁或永久封禁。
实施例三
作为一种可选的实施方式,在实施例一或实施例二的基础上还包括步骤:对于被判定为敏感账号的发表请求所包含的待发表的文本信息,将所述文本信息进行分词处理以得到至少一个词汇;对于所述至少一个词汇中不能够与敏感词库中的敏感词匹配成功的单词,当所述单词的字数小于预设字数时,将单词中的每个字与所述敏感词库中的字进行匹配,当该单词中的任一个字与所述敏感词库中的字匹配成功的次数大于或等于预设次数阈值时,将所述单词归入所述敏感词库,当所述单词的字数大于或等于预设字数时,将所述单词与所述敏感词库中的敏感词进行匹配,获取最大匹配成功率,当最大匹配成功率大于或等于预设成功率阈值时,将所述单词归入所述敏感词库。
其中,不能够与敏感词库中的敏感词匹配成功的单词,即敏感词库中没有与该单词一模一样的敏感词。预设字数可以根据需要进行限定,例如,可以设定为3个或5个等等。作为一种可选的实施方式,所述获取最大匹配成功率,包括步骤:对于每一个所述单词,将该单词与所述敏感词库中与该单词字数相同的敏感词进行匹配,获取匹配成功的字数在该单词总字数中的占比,将所述占比作为匹配成功率;在将该单词与所述敏感词库中所有字数相同的敏感词进行匹配的至少一个匹配成功率中,选取其中的最大匹配成功率。
对于某一个字数大于或等于预设字数的单词,敏感词库中与其字数相同的敏感词可能有多个,对于每个与其字数相同的敏感词,该单词与每个敏感词匹配都会产生一个匹配成功率,本实施方式取最大匹配成功率即取与本单词与最相近的敏感词的匹配成功率。可选的,这里也可以取最小匹配成功率。
本实施方式利用被判定为敏感账户的发表请求所包含的待发表的文本信息对敏感词库进行扩充,有利于对敏感词库的维护补充,有利于后续进行敏感性检测的判断,不同的时期会有不同的敏感词,通过不断更新敏感词库有利于与时俱进的对账户敏感类型的判断。
如图2所示为本申请的一具体实施方式,某用户登录账号后,编写文章标题为“如何快速赚钱的方法?”的文本信息,其内容大致为自身经历,赚钱方法,文中包含大量的“零成本”,“赚钱”等较为敏感词汇,包括引诱性词汇如“加好友”,“私聊”等词汇,当用户点击“发表”按钮后,系统调用该检测方法。
首先,获取发表请求所包含的待发表的文本信息,对待发表的文本信息进行预处理,得到实词集合,将实词集合与敏感词库进行匹配,比较整体敏感度与敏感度阈值,当整体敏感度大于或等于敏感度阈值时,判定该账户为疑似敏感账户,需要等待后续的敏感性检测,当整体敏感度小于敏感度阈值时,判定该账户为非敏感账户,允许该文本信息的发表。
对于本具体实施例中的文本信息初步判定其为疑似敏感用户,需要进行后续的敏感性检测。
然后,获取该账户发表的历史文本信息,例如,发表过的文章,判断该文章中每个语句的敏感性,统计达到语句敏感度阈值的语句的数量与该文章中语句的总数量的比值,比较该比值与预设阈值,当该比值大于或等于预设阈值时,判定该账户为敏感账户,禁止其发表待发表的文本信息,当该比值小于或等于预设阈值时,判定该账户为非敏感账户,允许其发表待发表的文本信息。
判断完成之后,可以利用敏感账户的发表请求所包含的待发表的文本信息对敏感词库进行扩充,如下一次有用户发表的文本信息中存在敏感账户的发表请求所包含的待发表的文本信息中的相关词汇,可以直接判断为敏感账户,无需再次根据历史文本信息进行判断,减少了运算过程,并更好的维护数据库。
本申请的实施方式提供一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时,实现如上文所述的敏感账号的检测方法的步骤。
本申请的实施方式提供一种计算机设备,包括处理器和存储有程序代码的存储介质,所述程序代码被所述处理器执行时,实现如上文所述的敏感账号的检测方法的步骤。
需要注意的是,这里所使用的的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
应当理解的是,本说明书中的示例性实施方式可以由多种不同的形式来实施,并且不应当被解释为只限于这里所阐述的实施方式。提供这些实施方式是为了使得本申请的公开彻底且完整,并且将这些示例性实施方式的构思充分传达给本领域普通技术人员,而不应当理解为对本发明的限制。
Claims (11)
1.一种敏感账号的检测方法,其特征在于,包括以下步骤:
获取发表请求所包含的待发表的文本信息,对所述文本信息进行预处理以得到实词集合;
将所述实词集合中的实词与敏感词库中的敏感词进行匹配,以获取所述实词集合的整体敏感度;
比较所述整体敏感度与敏感度阈值,根据比较结果确定所述文本信息的敏感类型,基于所述文本信息的敏感类型预判发表所述文本信息的相应账号的敏感类型,其中,所述敏感类型包括疑似敏感和非敏感;
对于疑似敏感账号,获取其发表的历史文本信息,获取所述历史文本信息中敏感语句的数量与所述历史文本信息中语句的总数量的比值,比较所述比值与预设阈值,根据比较结果判定所述疑似敏感账号为敏感账号或非敏感账号。
2.根据权利要求1所述的检测方法,其特征在于,所述对所述文本信息进行预处理以得到实词集合,包括步骤:
对所述文本信息进行分词处理,以得到词汇集合;
提取所述词汇集合中的实词,以组成实词集合。
3.根据权利要求1或2所述的检测方法,其特征在于,所述获取所述实词集合的整体敏感度,包括步骤:
获取与所述敏感词库中的敏感词匹配成功的实词个数占所述实词集合中实词总个数的比例值,将所述比例值作为所述实词集合的整体敏感度。
4.根据权利要求3所述的检测方法,其特征在于,所述比较所述整体敏感度与敏感度阈值,根据比较结果确定所述文本信息的敏感类型,基于所述文本信息的敏感类型预判其相应账号的敏感类型,包括:
当所述整体敏感度小于敏感度阈值时,确定所述文本信息的敏感类型为非敏感文本信息,从而判定发表所述文本信息的相应账号为非敏感账号;
当所述整体敏感度大于或等于敏感度阈值时,确定所述文本信息的敏感类型为疑似敏感文本信息,从而判定发表所述文本信息的相应账号为疑似敏感账号。
5.根据权利要求4所述的检测方法,其特征在于,所述获取历史文本信息中敏感语句的数量与所述历史文本信息中语句的总数量的比值,包括步骤:
对所述历史文本信息中的每个语句进行分词处理,以得到其相应的历史词汇集合;
对于每个语句,将历史词汇集合中的词汇与所述敏感词库中的敏感词进行匹配,将匹配成功的词汇与所述历史词汇集合中的词汇总数量的比值作为该语句的语句敏感度,当所述语句敏感度大于或等于预设语句敏感度阈值时,将该语句作为敏感语句进行计数;
统计所述历史文本信息中敏感语句的数量,获取所述敏感语句的数量与所述历史文本信息中语句的总数量的比值。
6.根据权利要求5所述的检测方法,其特征在于,所述比较所述比值与预设阈值,根据比较结果判定所述疑似敏感账号为敏感账号或非敏感账号,包括:
当所述比值大于或等于预设阈值时,判定所述疑似敏感账号为敏感账号,
当所述比值小于预设阈值时,判定所述疑似敏感账号为非敏感账号。
7.根据权利要求1所述的检测方法,其特征在于,还包括步骤:
对于被判定为非敏感账号的发表请求所包含的待发表的文本信息,判断其为允许发表的文本信息;
对于被判定为敏感账号的发表请求所包含的待发表的文本信息,判断其为禁止发表的文本信息。
8.根据权利要求1所述的检测方法,其特征在于,还包括步骤:
对于被判定为敏感账号的发表请求所包含的待发表的文本信息,将所述文本信息进行分词处理,以得到至少一个词汇;
对于所述至少一个词汇中不能够与敏感词库中的敏感词匹配成功的单词,
当所述单词的字数小于预设字数时,将单词中的每个字与所述敏感词库中的字进行匹配,当该单词中的任一个字与所述敏感词库中的字匹配成功的次数大于或等于预设次数阈值时,将所述单词归入所述敏感词库,
当所述单词的字数大于或等于预设字数时,将所述单词与所述敏感词库中的敏感词进行匹配,获取最大匹配成功率,当最大匹配成功率大于或等于预设成功率阈值时,将所述单词归入所述敏感词库。
9.根据权利要求8所述的检测方法,其特征在于,所述获取最大匹配成功率,包括步骤:
对于每一个所述单词,将该单词与所述敏感词库中与该单词字数相同的敏感词进行匹配,获取匹配成功的字数在该单词总字数中的占比,将所述占比作为匹配成功率;
在将该单词与所述敏感词库中所有字数相同的敏感词进行匹配的至少一个匹配成功率中,选取其中的最大匹配成功率。
10.一种存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-9中任一项所述的敏感账号的检测方法的步骤。
11.一种计算机设备,包括处理器和存储有程序代码的存储介质,所述程序代码被所述处理器执行时,实现如权利要求1-9中任一项所述的敏感账号的检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911323749.9A CN111079029B (zh) | 2019-12-20 | 2019-12-20 | 敏感账号的检测方法、存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911323749.9A CN111079029B (zh) | 2019-12-20 | 2019-12-20 | 敏感账号的检测方法、存储介质和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079029A true CN111079029A (zh) | 2020-04-28 |
CN111079029B CN111079029B (zh) | 2023-11-21 |
Family
ID=70316117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911323749.9A Active CN111079029B (zh) | 2019-12-20 | 2019-12-20 | 敏感账号的检测方法、存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079029B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753539A (zh) * | 2020-06-30 | 2020-10-09 | 北京搜狗科技发展有限公司 | 一种识别敏感文本的方法及装置 |
CN112634071A (zh) * | 2021-01-12 | 2021-04-09 | 武汉天源迪科数据科技有限公司 | 一种基于互联网的社群管理系统 |
CN112818700A (zh) * | 2021-01-20 | 2021-05-18 | 广州明朝互动科技股份有限公司 | 一种敏感信息的封禁方法及系统 |
CN113163218A (zh) * | 2021-02-09 | 2021-07-23 | 百果园技术(新加坡)有限公司 | 直播间内用户的检测方法和系统、电子设备及存储介质 |
CN113190762A (zh) * | 2021-05-31 | 2021-07-30 | 南京报业集团有限责任公司 | 一种网络舆情监测方法 |
CN113239674A (zh) * | 2021-06-15 | 2021-08-10 | 中国银行股份有限公司 | 用户评论管理方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150007336A1 (en) * | 2013-06-27 | 2015-01-01 | Huawei Technologies Co., Ltd. | Information processing method, apparatus, and system |
CN107515877A (zh) * | 2016-06-16 | 2017-12-26 | 百度在线网络技术(北京)有限公司 | 敏感主题词集的生成方法和装置 |
CN108280130A (zh) * | 2017-12-22 | 2018-07-13 | 中国电子科技集团公司第三十研究所 | 一种在文本大数据中发现敏感数据的方法 |
CN108519970A (zh) * | 2018-02-06 | 2018-09-11 | 平安科技(深圳)有限公司 | 文本中敏感信息的鉴定方法、电子装置及可读存储介质 |
CN108763202A (zh) * | 2018-05-18 | 2018-11-06 | 广州腾讯科技有限公司 | 识别敏感文本的方法、装置、设备及可读存储介质 |
CN108898418A (zh) * | 2018-05-31 | 2018-11-27 | 康键信息技术(深圳)有限公司 | 用户账号检测方法、装置、计算机设备和存储介质 |
WO2019169766A1 (zh) * | 2018-03-06 | 2019-09-12 | 平安科技(深圳)有限公司 | 电子装置、系统敏感内容的预警方法、系统及存储介质 |
CN110516156A (zh) * | 2019-08-29 | 2019-11-29 | 深信服科技股份有限公司 | 一种网络行为监控装置、方法、设备和存储介质 |
-
2019
- 2019-12-20 CN CN201911323749.9A patent/CN111079029B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150007336A1 (en) * | 2013-06-27 | 2015-01-01 | Huawei Technologies Co., Ltd. | Information processing method, apparatus, and system |
CN107515877A (zh) * | 2016-06-16 | 2017-12-26 | 百度在线网络技术(北京)有限公司 | 敏感主题词集的生成方法和装置 |
CN108280130A (zh) * | 2017-12-22 | 2018-07-13 | 中国电子科技集团公司第三十研究所 | 一种在文本大数据中发现敏感数据的方法 |
CN108519970A (zh) * | 2018-02-06 | 2018-09-11 | 平安科技(深圳)有限公司 | 文本中敏感信息的鉴定方法、电子装置及可读存储介质 |
WO2019169766A1 (zh) * | 2018-03-06 | 2019-09-12 | 平安科技(深圳)有限公司 | 电子装置、系统敏感内容的预警方法、系统及存储介质 |
CN108763202A (zh) * | 2018-05-18 | 2018-11-06 | 广州腾讯科技有限公司 | 识别敏感文本的方法、装置、设备及可读存储介质 |
CN108898418A (zh) * | 2018-05-31 | 2018-11-27 | 康键信息技术(深圳)有限公司 | 用户账号检测方法、装置、计算机设备和存储介质 |
CN110516156A (zh) * | 2019-08-29 | 2019-11-29 | 深信服科技股份有限公司 | 一种网络行为监控装置、方法、设备和存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753539A (zh) * | 2020-06-30 | 2020-10-09 | 北京搜狗科技发展有限公司 | 一种识别敏感文本的方法及装置 |
CN111753539B (zh) * | 2020-06-30 | 2023-12-26 | 北京搜狗科技发展有限公司 | 一种识别敏感文本的方法及装置 |
CN112634071A (zh) * | 2021-01-12 | 2021-04-09 | 武汉天源迪科数据科技有限公司 | 一种基于互联网的社群管理系统 |
CN112818700A (zh) * | 2021-01-20 | 2021-05-18 | 广州明朝互动科技股份有限公司 | 一种敏感信息的封禁方法及系统 |
CN113163218A (zh) * | 2021-02-09 | 2021-07-23 | 百果园技术(新加坡)有限公司 | 直播间内用户的检测方法和系统、电子设备及存储介质 |
CN113190762A (zh) * | 2021-05-31 | 2021-07-30 | 南京报业集团有限责任公司 | 一种网络舆情监测方法 |
CN113239674A (zh) * | 2021-06-15 | 2021-08-10 | 中国银行股份有限公司 | 用户评论管理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111079029B (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079029B (zh) | 敏感账号的检测方法、存储介质和计算机设备 | |
CN108319630B (zh) | 信息处理方法、装置、存储介质和计算机设备 | |
CN106156365B (zh) | 一种知识图谱的生成方法及装置 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN112163424B (zh) | 数据的标注方法、装置、设备和介质 | |
JP7153004B2 (ja) | コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体 | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
JP5379138B2 (ja) | 領域辞書の作成 | |
US9710829B1 (en) | Methods, systems, and articles of manufacture for analyzing social media with trained intelligent systems to enhance direct marketing opportunities | |
CN110263248A (zh) | 一种信息推送方法、装置、存储介质和服务器 | |
CN108536868B (zh) | 社交网络上短文本数据的数据处理方法及装置 | |
CN113076735B (zh) | 目标信息的获取方法、装置和服务器 | |
Swanson et al. | Extracting the native language signal for second language acquisition | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN112183093A (zh) | 一种企业舆情分析方法、装置、设备及可读存储介质 | |
Nigam et al. | Towards a robust metric of polarity | |
Siddiqui et al. | Quality Prediction of Wearable Apps in the Google Play Store. | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN107688594B (zh) | 基于社交信息的风险事件的识别系统及方法 | |
CN108573025B (zh) | 基于混合模板抽取句子分类特征的方法及装置 | |
CN111222032A (zh) | 舆情分析方法及相关设备 | |
CN111091915A (zh) | 医疗数据处理方法及装置、存储介质、电子设备 | |
CN115827867A (zh) | 文本类型的检测方法及装置 | |
CN111178038B (zh) | 一种基于潜在语义分析的文档相似度识别方法及装置 | |
KR102180329B1 (ko) | 가짜 뉴스 판단 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |