CN111966906A - 基于自设敏感词的网页敏感文本处理方法及系统 - Google Patents

基于自设敏感词的网页敏感文本处理方法及系统 Download PDF

Info

Publication number
CN111966906A
CN111966906A CN202010846399.0A CN202010846399A CN111966906A CN 111966906 A CN111966906 A CN 111966906A CN 202010846399 A CN202010846399 A CN 202010846399A CN 111966906 A CN111966906 A CN 111966906A
Authority
CN
China
Prior art keywords
user
sensitive
words
sensitive word
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010846399.0A
Other languages
English (en)
Inventor
徐昌梅
杨盘云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaoxing Yinchuan Software Development Co ltd
Original Assignee
Shaoxing Yinchuan Software Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaoxing Yinchuan Software Development Co ltd filed Critical Shaoxing Yinchuan Software Development Co ltd
Priority to CN202010846399.0A priority Critical patent/CN111966906A/zh
Publication of CN111966906A publication Critical patent/CN111966906A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification

Abstract

本发明涉及一种基于自设敏感词的网页敏感文本处理方法及系统,接收到用户终端发送的敏感词设置请求,获取用户的ID;根据用户的ID获取用户历史操作数据,根据用户历史操作数据为用户推荐敏感词,将推荐的敏感词发送至所述用户终端;接收用户终端选择的敏感词,设定为用户自设敏感词;接收到所述用户终端的网页获取请求时,对获取的网页采用所述用户自设敏感词和默认敏感词进行处理,将所述网页中的敏感词去除或采用预设符号代替;将处理后的网页发送至所述用户终端。通过采用本发明,用户可以自由设定自己所需要屏蔽的敏感词,支持用户自设敏感词和默认敏感词的双重处理屏蔽,并且用户在设定敏感词时,可以智能推荐敏感词,提升了用户使用体验。

Description

基于自设敏感词的网页敏感文本处理方法及系统
技术领域
本发明涉及互联网技术领域,具体是指一种基于自设敏感词的网页敏感文本处理方法及系统。
背景技术
随着互联网技术的快速发展,人们能够从网络中获取到的信息越来越多。然而随着信息的爆炸式增长,信息的质量也难以得到保证。用户在浏览网页时,可能会接触到一些不良信息。现有技术中出现了一些敏感词屏蔽的技术手段,对网页中一些预设的敏感词进行删除或替换,呈现给用户以更干净的网络环境。
然而,现有技术中仅支持默认敏感词的屏蔽。此外,不同用户可能也会有不同的屏蔽需求,现有技术中难以做到根据每个用户的需求进行更智能化、更有针对性的网页敏感文本处理。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于自设敏感词的网页敏感文本处理方法,支持用户自设敏感词和默认敏感词的双重处理屏蔽,提升用户使用体验。
为了实现上述目的,本发明具有如下构成:
本发明提供了一种基于自设敏感词的网页敏感文本处理方法,包括如下步骤:
接收到用户终端发送的敏感词设置请求,获取用户的ID;
根据用户的ID获取用户历史操作数据,根据用户历史操作数据为用户推荐敏感词,将推荐的敏感词发送至所述用户终端;
接收所述用户终端选择的敏感词,设定为用户自设敏感词;
接收到所述用户终端的网页获取请求时,对获取的网页采用所述用户自设敏感词和默认敏感词进行处理,将所述网页中的敏感词去除或采用预设符号代替;
将处理后的网页发送至所述用户终端。
可选地,所述对获取的网页采用所述用户自设敏感词和默认敏感词进行处理,包括如下步骤:
对所有网页采用所述默认敏感词进行处理;
根据用户的ID获取用户自设敏感词;
对所述用户终端请求获取的网页采用所述用户自设敏感词进行处理。
可选地,所述默认敏感词包括全局默认敏感词和各个用户类别的类别默认敏感词;
所述对所有网页采用所述默认敏感词进行处理,包括如下步骤:
对所有网站采用所述全局默认敏感词进行处理;
根据用户的ID获取用户特征数据,将所述用户特征数据输入训练好的用户分类模型,得到用户的类别;
查找所述用户的类别所对应的类别默认敏感词;
对所述用户终端请求获取的网页采用所述类别默认敏感词进行处理。
可选地,所述基于自设敏感词的网页敏感文本处理方法还包括采用如下步骤设定各个用户类别所对应的类别默认敏感词:
获取所述用户类别所对应的多个用户的用户自设敏感词;
统计所述多个用户的用户自设敏感词中每个敏感词的出现次数;
选择出现次数大于预设出现次数阈值的敏感词,作为该用户类别的类别默认敏感词。
可选地,所述选择出现次数大于预设出现次数阈值的敏感词,作为该用户类别的类别默认敏感词,包括如下步骤:
选择出现次数大于预设次数阈值的敏感词,作为候选类别默认敏感词;
对于每个候选类别默认敏感词,获取将该候选类别默认敏感词作为用户自设敏感词的用户的地理位置;
计算该候选类别默认敏感词的用户的地理位置的集中度,判断所述集中度是否小于预设集中度阈值,所述集中度越大,表明该候选类别默认敏感词的用户的地理位置越集中;
如果所述集中度小于预设集中度阈值,则将该候选类别默认敏感词加入类别默认敏感词。
可选地,所述计算该候选类别默认敏感词的用户的地理位置的集中度,包括如下步骤:
根据该候选类别默认敏感词的用户的地理位置在地图上绘制多个位置节点;
从所述多个位置节点中选择最外侧的一个位置节点作为基准节点;
分别计算其他未作为基准节点的各个位置节点与基准节点的距离的平均值,计算所述距离的倒数,作为该候选类别默认敏感词的用户的地理位置的集中度。
可选地,所述根据用户的ID获取用户历史操作数据,根据用户历史操作数据为用户推荐敏感词,包括如下步骤:
从用户历史操作数据中获取用户的主动屏蔽操作;
获取用户的主动屏蔽操作所对应的主动敏感词,将所述主动敏感词作为推荐的敏感词;
根据所述主动敏感词查找所述主动敏感词的相似敏感词,将所述相似敏感词作为推荐的敏感词。
可选地,接收所述用户终端选择的敏感词,包括接收所述用户终端对推荐的敏感词的选择以及用户通过用户终端输入的敏感词,作为所述用户终端选择的敏感词。
本发明实施例还提供一种基于自设敏感词的网页敏感文本处理系统,应用于所述的基于自设敏感词的网页敏感文本处理方法,所述系统包括:
请求接收模块,用于接收用户终端发送的敏感词设置请求,以及接收所述用户终端的网页获取请求;
敏感词推荐模块,用于在接收到用户终端发送的敏感词设置请求时,获取用户的ID,根据用户的ID获取用户历史操作数据,根据用户历史操作数据为用户推荐敏感词;
敏感词设定模块,用于接收到所述用户终端选择的敏感词时,设定为用户自设敏感词;
网页处理模块,用于接收到所述用户终端的网页获取请求时,对获取的网页采用所述用户自设敏感词和默认敏感词进行处理,将所述网页中的敏感词去除或采用预设符号代替;
终端交互模块,用于在所述敏感词推荐模块为用户推荐敏感词之后,将推荐的敏感词发送至所述用户终端,接收所述用户终端选择的敏感词,以及在所述网页处理模块处理完成网页之后,将处理后的网页发送至所述用户终端。
可选地,所述默认敏感词包括全局默认敏感词和各个用户类别的类别默认敏感词,所述系统还包括用户分类模块,用于根据用户的ID获取用户特征数据,将所述用户特征数据输入训练好的用户分类模型,得到用户的类别;
所述敏感词设定模块还包括采用如下步骤设定各个用户类别的类别默认敏感词:
所述敏感词设定模块获取所述用户类别所对应的多个用户的用户自设敏感词;
所述敏感词设定模块统计所述多个用户的用户自设敏感词中每个敏感词的出现次数;
所述敏感词设定模块选择出现次数大于预设次数阈值的敏感词,作为候选类别默认敏感词;
对于每个候选类别默认敏感词,所述敏感词设定模块获取将该候选类别默认敏感词作为用户自设敏感词的用户的地理位置;
所述敏感词设定模块根据该候选类别默认敏感词的用户的地理位置在地图上绘制多个位置节点;
所述敏感词设定模块从所述多个位置节点中选择最外侧的一个位置节点作为基准节点;
所述敏感词设定模块分别计算其他未作为基准节点的各个位置节点与基准节点的距离的平均值,计算所述距离的倒数,作为该候选类别默认敏感词的用户的地理位置的集中度;
所述敏感词设定模块判断所述集中度是否小于预设集中度阈值,所述集中度越大,表明该候选类别默认敏感词的用户的地理位置越集中;
如果所述集中度小于预设集中度阈值,则所述敏感词设定模块将该候选类别默认敏感词加入类别默认敏感词;
如果所述集中度大于等于预设集中度阈值,则所述敏感词设定模块不将该候选类别默认敏感词加入类别默认关键词。
综上所述,与现有技术相比,本发明提出一种基于自设敏感词的网页敏感文本处理方法及系统,用户可以自由设定自己所需要屏蔽的敏感词,支持用户自设敏感词和默认敏感词的双重处理屏蔽,并且用户在设定敏感词时,可以根据用户的历史操作数据智能推荐敏感词,方便用户直接选择自己需要的敏感词,大大提升了用户在浏览网页时使用体验,并且提升了用户自由设定敏感词的便利程度。
附图说明
图1是本发明一实施例的基于自设敏感词的网页敏感文本处理方法的示意图;
图2是本发明一实施例的对所有网页采用所述默认敏感词进行处理的流程图;
图3是本发明一实施例的设定各个用户类别所对应的类别默认敏感词的流程图;
图4是本发明一实施例的计算集中度的示意图;
图5是本发明一实施例的基于自设敏感词的网页敏感文本处理系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。
所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员应意识到,没有特定细节中的一个或更多,或者采用其它的方法、组元、材料等,也可以实践本发明的技术方案。在某些情况下,不详细示出或描述公知结构、材料或者操作以避免模糊本发明。
如图1所示,为了解决现有技术中的技术问题,本发明提供了一种基于自设敏感词的网页敏感文本处理方法,包括如下步骤:
接收到用户终端发送的敏感词设置请求,获取用户的ID,此处用户终端指的是用户用来浏览网页获取网络信息的终端设备,包括但不限于用户的手机、平板电脑、笔记本电脑等等,用户在通过用户终端发送敏感词设置请求之前,需要先在网页敏感文本处理系统中进行登录;
根据用户的ID获取用户历史操作数据,根据用户历史操作数据为用户推荐敏感词,将推荐的敏感词发送至所述用户终端;此处用户历史操作数据可以是用户在各个网站中浏览网页时的历史操作数据,或者在购物平台中搜索产品时的历史操作数据等,即用户在互联网中的历史操作数据;所述用户终端接收到推荐的敏感词后,可以将推荐的敏感词显示在用户设定敏感词的弹窗或页面中,供用户选择;
接收所述用户终端选择的敏感词,设定为用户自设敏感词;
接收到所述用户终端的网页获取请求时,对获取的网页采用所述用户自设敏感词和默认敏感词进行处理,将所述网页中的敏感词去除或采用预设符号代替;此处默认敏感词可以是预先设定的一个无论对于哪个用户对于哪个网页都会进行屏蔽的一些敏感词;
将处理后的网页发送至所述用户终端,所述用户终端配置为接收到处理后的网页后,在用户交互界面中进行显示。
因此,通过采用本发明的基于自设敏感词的网页敏感文本处理方法,用户可以自由设定自己所需要屏蔽的敏感词,在对网页进行敏感文本处理时,支持用户自设敏感词和默认敏感词的双重处理屏蔽,并且用户在设定敏感词时,可以根据用户的历史操作数据智能推荐敏感词,用户可以直接点击选择推荐敏感词作为用户自设敏感词,从而方便了用户直接选择自己需要的敏感词,一方面大大提升了用户在浏览网页时使用体验,另一方面也大大提升了用户自由设定敏感词的便利程度。
在该实施例中,所述对获取的网页采用所述用户自设敏感词和默认敏感词进行处理,包括如下步骤:
对所有网页采用所述默认敏感词进行处理,即将所述网页中的默认敏感词去除或采用预设符号代替;
根据用户的ID获取用户自设敏感词,用户自设敏感词可以存储在一个用户自设敏感词数据库中,该用户自设敏感词数据库中存储的各个用户的用户自设敏感词,用户在初次设定好用户自设敏感词之后,可以继续沿用此次设定的用户自设敏感词,也可以在后续跟进个人需要进行更新和修改,而无需每次对网页处理时都进行设定;
对所述用户终端请求获取的网页采用所述用户自设敏感词进行处理,即将所述网页中的用户自设敏感词去除或采用预设符号代替。
与现有技术中的默认敏感词不同,在该实施例中,本发明的所述默认敏感词可以进一步根据不同情况进行细分,以提供更好的敏感词屏蔽服务。具体地,所述默认敏感词可以包括全局默认敏感词和各个用户类别的类别默认敏感词。此次全局默认敏感词即为需要针对所有的网页进行屏蔽处理的敏感词,而类别默认关键词则为根据不同用户类别划分的类别默认关键词,只对某一特定类别的用户生效。用户类别例如可以划分为激进型用户、保守型用户、敏感型用户等等,针对不同的用户类别,类别默认关键词会有所不同。
如图2所示,在将所述默认敏感词划分为全局默认敏感词和各个用户类别的类别默认敏感词的基础上,所述对所有网页采用所述默认敏感词进行处理,包括如下步骤:
对所有网站采用所述全局默认敏感词进行处理,即将所述网页中的全局默认敏感词去除或采用预设符号代替;
根据用户的ID获取用户特征数据,将所述用户特征数据输入训练好的用户分类模型,得到用户的类别;此处用户特征数据可以包括用户的性别、年龄、所属地区等基本特征数据,也可以包括用户的消费习惯数据、信息浏览习惯数据等网络行为特征数据;此次用户分类模型可以为预先训练好的机器学习模型,例如卷积神经网络、支持向量机、决策树等,预先采集一些用户的特征数据,进行用户类别标记,然后输入到机器学习模型中进行训练,所述机器学习模型的输入为用户的特征数据,输出为用户的类别,在其他可替代的实施方式中,所述用户分类模型也可以包括多个用户类别所对应的特征数据判定条件,在用户的特征数据符合某一类别的特征数据判断条件时,可以确定用户属于该类别;
查找所述用户的类别所对应的类别默认敏感词;
对所述用户终端请求获取的网页采用所述类别默认敏感词进行处理,即将所述网页中的类别默认敏感词去除或采用预设符号代替。
如图3所示,在该实施例中,所述基于自设敏感词的网页敏感文本处理方法还包括采用如下步骤设定各个用户类别所对应的类别默认敏感词:
获取所述用户类别所对应的多个用户的用户自设敏感词;
统计所述多个用户的用户自设敏感词中每个敏感词的出现次数;
选择出现次数大于预设出现次数阈值的敏感词,作为该用户类别的类别默认敏感词。此处出现次数即对应于选择该敏感词作为用户自设敏感词的用户的数量。此处预设出现次数阈值的数值可以根据需要选择和设定。
如图3所示,在该实施例中,所述选择出现次数大于预设出现次数阈值的敏感词,作为该用户类别的类别默认敏感词,包括如下步骤:
选择出现次数大于预设次数阈值的敏感词,作为候选类别默认敏感词;
对于每个候选类别默认敏感词,获取将该候选类别默认敏感词作为用户自设敏感词的用户的地理位置;
计算该候选类别默认敏感词的用户的地理位置的集中度,判断所述集中度是否小于预设集中度阈值,所述集中度越大,表明该候选类别默认敏感词的用户的地理位置越集中;
如果所述集中度小于预设集中度阈值,则说明该候选类别默认敏感词所对应的用户的地理位置比较分散,具有比较好的通用性参考价值,将该候选类别默认敏感词加入类别默认敏感词;
如果所述集中度大于等于预设集中度阈值,则说明该候选类别默认敏感词所对应的用户的地理位置比较集中,可能只能代表一定地区的用户的偏好,而无法适用于所有该类别的用户,通用性不强,因此不将该候选类别默认敏感词加入类别默认关键词。
下面结合图4来具体说明所述集中度的计算方式,具体地,在该实施例中,所述计算该候选类别默认敏感词的用户的地理位置的集中度,包括如下步骤:
如图4所示,根据该候选类别默认敏感词的用户的地理位置在地图上绘制多个位置节点,例如对于候选类别默认敏感词A,根据用户的地理位置在地图上绘制A1、A2、A3和A4四个位置节点,对于候选类别默认敏感词B,根据用户的地理位置在地图上绘制B1、B2、B3和B4四个位置节点;
从所述多个位置节点中选择最外侧的一个位置节点作为基准节点,此处最外侧的位置节点是指在地图上最靠左侧或者最靠右侧的位置节点,例如,对于候选类别默认关键词A,可以选择位置节点A1或A4作为基准节点,此处以选择位置节点A1作为基准节点为例进行说明,对于候选类别默认关键词B,可以选择位置节点B1或B4作为基准节点,此处选择位置节点B1为基准节点为例进行说明;
分别计算其他未作为基准节点的各个位置节点与基准节点的距离的平均值,计算所述距离的倒数,作为该候选类别默认敏感词的用户的地理位置的集中度。例如,对于候选类别默认关键词A,其集中度为4/(d1+d2+d3),对于候选类别默认关键词B,其集中度为4/(d4+d5+d6)。可以看出,相比于候选类别默认关键词A,候选类别默认关键词B的各个位置节点更为集中,其集中度的值也更大。
在该实施例中,所述根据用户的ID获取用户历史操作数据,根据用户历史操作数据为用户推荐敏感词,包括如下步骤:
从用户历史操作数据中获取用户的主动屏蔽操作,即用户在浏览网页或者浏览商品时,往往会根据自己的习惯或偏好选中一些敏感信息,主动将其进行屏蔽,例如,用户在浏览网页时,选中想要屏蔽的内容,然后点击右键,选择屏蔽该词语;
获取用户的主动屏蔽操作所对应的主动敏感词,将所述主动敏感词作为推荐的敏感词;
根据所述主动敏感词查找所述主动敏感词的相似敏感词,将所述相似敏感词作为推荐的敏感词。具体地,在敏感词库中可以存储每个敏感词以及其所对应的相似敏感词的对应关系,因此,可以直接在敏感词库中查找所述主动敏感词的相似敏感词。
因此,本发明不仅实现了敏感词的自动智能推荐,而且还通过相似敏感词进一步扩充了推荐的敏感词的数量,更加方便用户进行选择,提高用户一次设定即满足自身敏感文本处理需求的成功率,避免用户反复更新修改用户自设敏感词。
进一步地,在用户选择自设敏感词时,不仅可以从推荐的敏感词中直接进行选择,而且还可以手动输入一些没有包含在推荐的敏感词中的其他敏感词。因此,如图1中所示出的接收所述用户终端选择的敏感词的步骤,包括接收所述用户终端对推荐的敏感词的选择以及用户通过用户终端输入的敏感词,作为所述用户终端选择的敏感词。
如图5所示,本发明实施例还提供一种基于自设敏感词的网页敏感文本处理系统,应用于所述的基于自设敏感词的网页敏感文本处理方法,所述系统包括:
请求接收模块100,用于接收用户终端发送的敏感词设置请求,以及接收所述用户终端的网页获取请求;
敏感词推荐模块200,用于在接收到用户终端发送的敏感词设置请求时,获取用户的ID,根据用户的ID获取用户历史操作数据,根据用户历史操作数据为用户推荐敏感词;所述历史操作数据可以包括用户的主动屏蔽操作,在为用户推荐敏感词时,可以获取用户的主动屏蔽操作所对应的主动敏感词,将所述主动敏感词作为推荐的敏感词;根据所述主动敏感词查找所述主动敏感词的相似敏感词,将所述相似敏感词作为推荐的敏感词;
敏感词设定模块300,用于接收到所述用户终端选择的敏感词时,设定为用户自设敏感词;
网页处理模块400,用于接收到所述用户终端的网页获取请求时,对获取的网页采用所述用户自设敏感词和默认敏感词进行处理,将所述网页中的敏感词去除或采用预设符号代替;
终端交互模块500,用于在所述敏感词推荐模块200为用户推荐敏感词之后,将推荐的敏感词发送至所述用户终端,接收所述用户终端选择的敏感词,以及在所述网页处理模块400处理完成网页之后,将处理后的网页发送至所述用户终端。
通过采用本发明的基于自设敏感词的网页敏感文本处理系统,用户可以自由设定自己所需要屏蔽的敏感词,在对网页进行敏感文本处理时,支持用户自设敏感词和默认敏感词的双重处理屏蔽,并且用户在设定敏感词时,可以根据用户的历史操作数据智能推荐敏感词,用户可以直接点击选择推荐敏感词作为用户自设敏感词,从而方便了用户直接选择自己需要的敏感词,一方面大大提升了用户在浏览网页时使用体验,另一方面也大大提升了用户自由设定敏感词的便利程度。
在该实施例中,所述默认敏感词包括全局默认敏感词和各个用户类别的类别默认敏感词。如图5所示,所述基于自设敏感词的网页敏感文本处理系统还包括用户分类模块600,用于根据用户的ID获取用户特征数据,将所述用户特征数据输入训练好的用户分类模型,得到用户的类别,此处用户特征数据可以包括用户的性别、年龄、所属地区等基本特征数据,也可以包括用户的消费习惯数据、信息浏览习惯数据等网络行为特征数据;此次用户分类模型可以为预先训练好的机器学习模型,例如卷积神经网络、支持向量机、决策树等,预先采集一些用户的特征数据,进行用户类别标记,然后输入到机器学习模型中进行训练,所述机器学习模型的输入为用户的特征数据,输出为用户的类别。
在该实施例中,所述敏感词设定模块300还可以采用如图3所示的各个步骤设定各个用户类别的类别默认敏感词,具体地,所述敏感词设定模块300还用于采用如下步骤设定各个用户类别的类别默认敏感词:
所述敏感词设定模块300获取所述用户类别所对应的多个用户的用户自设敏感词;
所述敏感词设定模块300统计所述多个用户的用户自设敏感词中每个敏感词的出现次数;
所述敏感词设定模块300选择出现次数大于预设次数阈值的敏感词,作为候选类别默认敏感词;
对于每个候选类别默认敏感词,所述敏感词设定模块300获取将该候选类别默认敏感词作为用户自设敏感词的用户的地理位置;
所述敏感词设定模块300根据该候选类别默认敏感词的用户的地理位置在地图上绘制多个位置节点;
所述敏感词设定模块300从所述多个位置节点中选择最外侧的一个位置节点作为基准节点;
所述敏感词设定模块300分别计算其他未作为基准节点的各个位置节点与基准节点的距离的平均值,计算所述距离的倒数,作为该候选类别默认敏感词的用户的地理位置的集中度;
所述敏感词设定模块300判断所述集中度是否小于预设集中度阈值,所述集中度越大,表明该候选类别默认敏感词的用户的地理位置越集中;
如果所述集中度小于预设集中度阈值,则所述敏感词设定模块300将该候选类别默认敏感词加入类别默认敏感词;
如果所述集中度大于等于预设集中度阈值,则所述敏感词设定模块300不将该候选类别默认敏感词加入类别默认关键词。
综上所述,与现有技术相比,本发明提出一种基于自设敏感词的网页敏感文本处理方法及系统,用户可以自由设定自己所需要屏蔽的敏感词,支持用户自设敏感词和默认敏感词的双重处理屏蔽,并且用户在设定敏感词时,可以根据用户的历史操作数据智能推荐敏感词,方便用户直接选择自己需要的敏感词,大大提升了用户在浏览网页时使用体验,并且提升了用户自由设定敏感词的便利程度。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

Claims (10)

1.一种基于自设敏感词的网页敏感文本处理方法,其特征在于,所述方法包括如下步骤:
接收到用户终端发送的敏感词设置请求,获取用户的ID;
根据用户的ID获取用户历史操作数据,根据用户历史操作数据为用户推荐敏感词,将推荐的敏感词发送至所述用户终端;
接收所述用户终端选择的敏感词,设定为用户自设敏感词;
接收到所述用户终端的网页获取请求时,对获取的网页采用所述用户自设敏感词和默认敏感词进行处理,将所述网页中的敏感词去除或采用预设符号代替;
将处理后的网页发送至所述用户终端。
2.根据权利要求1所述的基于自设敏感词的网页敏感文本处理方法,其特征在于,所述对获取的网页采用所述用户自设敏感词和默认敏感词进行处理,包括如下步骤:
对所有网页采用所述默认敏感词进行处理;
根据用户的ID获取用户自设敏感词;
对所述用户终端请求获取的网页采用所述用户自设敏感词进行处理。
3.根据权利要求2所述的基于自设敏感词的网页敏感文本处理方法,其特征在于,所述默认敏感词包括全局默认敏感词和各个用户类别的类别默认敏感词;
所述对所有网页采用所述默认敏感词进行处理,包括如下步骤:
对所有网站采用所述全局默认敏感词进行处理;
根据用户的ID获取用户特征数据,将所述用户特征数据输入训练好的用户分类模型,得到用户的类别;
查找所述用户的类别所对应的类别默认敏感词;
对所述用户终端请求获取的网页采用所述类别默认敏感词进行处理。
4.根据权利要求3所述的基于自设敏感词的网页敏感文本处理方法,其特征在于,所述方法还包括采用如下步骤设定各个用户类别所对应的类别默认敏感词:
获取所述用户类别所对应的多个用户的用户自设敏感词;
统计所述多个用户的用户自设敏感词中每个敏感词的出现次数;
选择出现次数大于预设出现次数阈值的敏感词,作为该用户类别的类别默认敏感词。
5.根据权利要求4所述的基于自设敏感词的网页敏感文本处理方法,其特征在于,所述选择出现次数大于预设出现次数阈值的敏感词,作为该用户类别的类别默认敏感词,包括如下步骤:
选择出现次数大于预设次数阈值的敏感词,作为候选类别默认敏感词;
对于每个候选类别默认敏感词,获取将该候选类别默认敏感词作为用户自设敏感词的用户的地理位置;
计算该候选类别默认敏感词的用户的地理位置的集中度,判断所述集中度是否小于预设集中度阈值,所述集中度越大,表明该候选类别默认敏感词的用户的地理位置越集中;
如果所述集中度小于预设集中度阈值,则将该候选类别默认敏感词加入类别默认敏感词。
6.根据权利要求5所述的基于自设敏感词的网页敏感文本处理方法,其特征在于,所述计算该候选类别默认敏感词的用户的地理位置的集中度,包括如下步骤:
根据该候选类别默认敏感词的用户的地理位置在地图上绘制多个位置节点;
从所述多个位置节点中选择最外侧的一个位置节点作为基准节点;
分别计算其他未作为基准节点的各个位置节点与基准节点的距离的平均值,计算所述距离的倒数,作为该候选类别默认敏感词的用户的地理位置的集中度。
7.根据权利要求1所述的基于自设敏感词的网页敏感文本处理方法,其特征在于,所述根据用户的ID获取用户历史操作数据,根据用户历史操作数据为用户推荐敏感词,包括如下步骤:
从用户历史操作数据中获取用户的主动屏蔽操作;
获取用户的主动屏蔽操作所对应的主动敏感词,将所述主动敏感词作为推荐的敏感词;
根据所述主动敏感词查找所述主动敏感词的相似敏感词,将所述相似敏感词作为推荐的敏感词。
8.根据权利要求1所述的基于自设敏感词的网页敏感文本处理方法,其特征在于,接收所述用户终端选择的敏感词,包括接收所述用户终端对推荐的敏感词的选择以及用户通过用户终端输入的敏感词,作为所述用户终端选择的敏感词。
9.一种基于自设敏感词的网页敏感文本处理系统,其特征在于,应用于权利要求1至8中任一项所述的基于自设敏感词的网页敏感文本处理方法,所述系统包括:
请求接收模块,用于接收用户终端发送的敏感词设置请求,以及接收所述用户终端的网页获取请求;
敏感词推荐模块,用于在接收到用户终端发送的敏感词设置请求时,获取用户的ID,根据用户的ID获取用户历史操作数据,根据用户历史操作数据为用户推荐敏感词;
敏感词设定模块,用于接收到所述用户终端选择的敏感词时,设定为用户自设敏感词;
网页处理模块,用于接收到所述用户终端的网页获取请求时,对获取的网页采用所述用户自设敏感词和默认敏感词进行处理,将所述网页中的敏感词去除或采用预设符号代替;
终端交互模块,用于在所述敏感词推荐模块为用户推荐敏感词之后,将推荐的敏感词发送至所述用户终端,接收所述用户终端选择的敏感词,以及在所述网页处理模块处理完成网页之后,将处理后的网页发送至所述用户终端。
10.根据权利要求9所述的基于自设敏感词的网页敏感文本处理系统,其特征在于,所述默认敏感词包括全局默认敏感词和各个用户类别的类别默认敏感词,所述系统还包括用户分类模块,用于根据用户的ID获取用户特征数据,将所述用户特征数据输入训练好的用户分类模型,得到用户的类别;
所述敏感词设定模块还包括采用如下步骤设定各个用户类别的类别默认敏感词:
所述敏感词设定模块获取所述用户类别所对应的多个用户的用户自设敏感词;
所述敏感词设定模块统计所述多个用户的用户自设敏感词中每个敏感词的出现次数;
所述敏感词设定模块选择出现次数大于预设次数阈值的敏感词,作为候选类别默认敏感词;
对于每个候选类别默认敏感词,所述敏感词设定模块获取将该候选类别默认敏感词作为用户自设敏感词的用户的地理位置;
所述敏感词设定模块根据该候选类别默认敏感词的用户的地理位置在地图上绘制多个位置节点;
所述敏感词设定模块从所述多个位置节点中选择最外侧的一个位置节点作为基准节点;
所述敏感词设定模块分别计算其他未作为基准节点的各个位置节点与基准节点的距离的平均值,计算所述距离的倒数,作为该候选类别默认敏感词的用户的地理位置的集中度;
所述敏感词设定模块判断所述集中度是否小于预设集中度阈值,所述集中度越大,表明该候选类别默认敏感词的用户的地理位置越集中;
如果所述集中度小于预设集中度阈值,则所述敏感词设定模块将该候选类别默认敏感词加入类别默认敏感词;
如果所述集中度大于等于预设集中度阈值,则所述敏感词设定模块不将该候选类别默认敏感词加入类别默认关键词。
CN202010846399.0A 2020-08-21 2020-08-21 基于自设敏感词的网页敏感文本处理方法及系统 Withdrawn CN111966906A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010846399.0A CN111966906A (zh) 2020-08-21 2020-08-21 基于自设敏感词的网页敏感文本处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010846399.0A CN111966906A (zh) 2020-08-21 2020-08-21 基于自设敏感词的网页敏感文本处理方法及系统

Publications (1)

Publication Number Publication Date
CN111966906A true CN111966906A (zh) 2020-11-20

Family

ID=73389779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010846399.0A Withdrawn CN111966906A (zh) 2020-08-21 2020-08-21 基于自设敏感词的网页敏感文本处理方法及系统

Country Status (1)

Country Link
CN (1) CN111966906A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113163218A (zh) * 2021-02-09 2021-07-23 百果园技术(新加坡)有限公司 直播间内用户的检测方法和系统、电子设备及存储介质
CN114257563A (zh) * 2021-12-20 2022-03-29 创盛视联数码科技(北京)有限公司 一种直播间聊天内容回调的过滤方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113163218A (zh) * 2021-02-09 2021-07-23 百果园技术(新加坡)有限公司 直播间内用户的检测方法和系统、电子设备及存储介质
CN114257563A (zh) * 2021-12-20 2022-03-29 创盛视联数码科技(北京)有限公司 一种直播间聊天内容回调的过滤方法
CN114257563B (zh) * 2021-12-20 2023-10-24 创盛视联数码科技(北京)有限公司 一种直播间聊天内容回调的过滤方法

Similar Documents

Publication Publication Date Title
CN109800352B (zh) 基于剪贴板进行信息推送的方法、系统及终端设备
TWI582619B (zh) Method and apparatus for providing referral words
CN109190049B (zh) 关键词推荐方法、系统、电子设备和计算机可读介质
US11263248B2 (en) Presenting content in accordance with a placement designation
US10402479B2 (en) Method, server, browser, and system for recommending text information
US10055755B2 (en) Targeting content based on receipt of partial terms
CN104216881A (zh) 一种个性化标签的推荐方法及装置
CN106878405B (zh) 一种调整推送项目的方法及装置
KR20110066151A (ko) 버티컬 제안으로 검색 요청을 보조하는 시스템 및 방법
US8838435B2 (en) Communication processing
JP5891339B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US20160299951A1 (en) Processing a search query and retrieving targeted records from a networked database system
CN111967914A (zh) 基于用户画像的推荐方法、装置、计算机设备和存储介质
CN111966906A (zh) 基于自设敏感词的网页敏感文本处理方法及系统
CN107609192A (zh) 一种搜索引擎的补充搜索方法和装置
CN103870553A (zh) 一种输入资源推送方法及系统
CN116955833B (zh) 一种用户行为分析系统及方法
CN110910188A (zh) 课程优化与推荐的方法、装置、存储介质和终端设备
JP6568284B1 (ja) 提供装置、提供方法及び提供プログラム
JP6357283B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP6960838B2 (ja) 情報提供装置、情報提供方法、およびプログラム
JP7042720B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN113360761A (zh) 信息流推荐方法、装置、电子设备和计算机可读存储介质
CN112182414A (zh) 文章推荐方法、装置及电子设备
CN117171432B (zh) 一种客户端app的数据推送方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201120