CN102436512B - 一种基于偏好度的网页文本内容管控方法 - Google Patents
一种基于偏好度的网页文本内容管控方法 Download PDFInfo
- Publication number
- CN102436512B CN102436512B CN 201210014032 CN201210014032A CN102436512B CN 102436512 B CN102436512 B CN 102436512B CN 201210014032 CN201210014032 CN 201210014032 CN 201210014032 A CN201210014032 A CN 201210014032A CN 102436512 B CN102436512 B CN 102436512B
- Authority
- CN
- China
- Prior art keywords
- preference
- user
- webpage
- web page
- eigenwert
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于偏好度的网页文本内容管控方法。本发明的方法包括通过分析用户感兴趣的网页信息生成用户偏好网页库,利用文本智能分析技术计算出待管控网页的偏好度,依据此偏好度进行对网页的管控,同时用户根据管控结果进行反馈,更新偏好网页库。本发明的方法通过这种循环反馈式的增强学习,使得偏好库中的用户偏好信息将得到持续修正,不断逼近用户“真实”的偏好,最终加强对网页管控能力。本发明的方法不仅能实现对网络不良信息过滤,维护网络信息的健康,而且能过滤掉网络上大量对用户而言无用的信息,为用户推送与其密切相关的信息。
Description
技术领域
本发明属于计算机人工智能技术领域,具体涉及网页文本内容管控方法。
背景技术
在网络和通信技术迅速发展的今天,Internet已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道,人们越来越感受到了信息的冲击,然而因特网给人类带来巨大便利的同时,也带来了许多问题。如网络信息混杂无序,垃圾信息充斥其中,而且网络信息呈海量发展,一般的检索方法难以满足用户的信息需求。
发明内容
本发明的目的是为了解决现有的网页文本内容管控方法存在的上述问题,提出了一种基于偏好度的网页文本内容管控方法。
本发明的技术方案是:一种基于偏好度的网页文本内容管控方法,包括网页库生成步骤、网页库分析步骤和用户信息反馈步骤,其中,
网页库生成步骤包括如下分步骤:
S11.对网页文本信息分别进行分词,并且利用停用词表,除去分词里面的常用停用词,得到特征值fi;
其中,A1表示属于cj类别并且含有特征值fi的网页数量,A2表示属于cj类别并且不含特征值fi的网页数量,A3表示不属于cj类别并且含有特征值fi的网页数量,A4表示不属于cj类别并且不含特征值fi的网页数量,N表示所有的网页数量。
S13.根据以下公式计算出每个特征值fi的条件概率值p(F=fi|C=cj),
其中,nij为特征值fi在cj类别网页中出现的次数,Num(cj)为cj类别的网页总数,preference表示用户感兴趣的分类,non-preference表示用户不感兴趣的分类;
S14.将提取出来的特征值和相对应的概率值,以及每个类别的网页总数记录下来,构成偏好网页库;
网页库分析步骤包括如下分步骤:
S21.计算出当前待分析网页文本d={f1,f2,...,fn}的偏好度p(C=preference|d),
其中,Num(page)为所有网页的数量,Num(cj)为属于cj类的网页数量,p(F=fi|C=cj)为网页库生成阶段计算出来的概率值;
S22.将计算出的偏好度p(C=preference|d)与用户初始设定的阈值进行比较,如果此偏好度大于阈值,则将该网页标记为用户所关心的网页。
用户信息反馈步骤包括如下分步骤:
S31.提取用户当前网页的特征值,以及计算特征值在网页中出现的频率fni;
S32.如果是一个没有推荐给用户的网页是用户所关心的,则执行步骤S33,如果是一个推送给用户的网页是用户所不关心的,则执行步骤S34;
S33.计算每一个特征词的概率值p*(F=fi|C=preference)
Num*(preference)=Num(preference)+2
其中,npreference为该特征词在用户关心的网页中出现的次数。用p*(F=fi|C=preference)替换该特征值原有的概率值p(F=fi|C=preference),用Num*(preference)替换Num(preference),更新偏好网页库;
S34.计算每一个特征词的概率值p*(F=fi|C=non-preference)
Num*(non-preference)=Num(non-preference)+2
其中,nnon-preference为该特征词在用户不关心的网页中出现的次数,用p*(F=fi|C=non-preference)替换该特征值原有的概率值p(F=fi|C=non-preference),用Num*(non-preference)替换Num(non-preference),更新偏好网页库。
本发明的有益效果:本发明的方法包括通过分析用户感兴趣的网页信息生成用户偏好网页库,利用文本智能分析技术计算出待管控网页的偏好度,依据此偏好度进行对网页的管控,同时用户根据管控结果进行反馈,更新偏好网页库。本发明的方法通过这种循环反馈式的增强学习,使得偏好库中的用户偏好信息将得到持续修正,不断逼近用户“真实”的偏好,最终加强对网页管控能力。本发明的方法不仅能实现对网络不良信息过滤,维护网络信息的健康,而且能过滤掉网络上大量对用户而言无用的信息,为用户推送与其密切相关的信息。
附图说明
图1本发明的基于偏好度的网页内容管控方法的流程示意图。
具体实施方式
下面结合附图和具体的实施方式对本发明作进一步的阐述。
本发明方法针对网络信息混杂的问题,利用文本智能分析技术,实现基于用户个人偏好对网页内容的管控,管控主要包含两个方面:一是过滤网络不良信息,主要目的在于维护网络信息的健康,净化网络环境,称之为不良信息管控;二是过滤掉网络上大量对用户而言无用、不相关的信息,主要目的在于获取与用户需求密切相关的信息,称之为相关信息管控。
本发明通过文本智能分析技术实现基于用户偏好对网页内容的管控,从海量网络数据中过滤不良信息,及时获取与用户需求相关的信息,其技术具体主要涉及到文本分类技术、中文分词技术、特征选择方法等几个方面。
1.文本分类技术描述
文本分类的任务是:在给定的类别体系下,根据文本的内容,将其自动映射到指定的类别中去。类别体系一般由人工按照应用需求构造。基于内容的文本分类需要指导,即一定数量的已分类好的训练文本或者实例,分类系统从训练文本中获取必要的信息,构造分类器。
在文本处理领域,通常采用向量空间模型(Vector Space Model,VSM)表示文本,一篇文本可以表示为一个n维向量(w1,w2,...,wn),其中wi(i=1,2,...,n)表示第i个特征项(Feature)的权重,n是特征项的个数,特征项可以是字、词、短语或者某种概念,本发明实施例中采用词作为特征项,故称为特征词或特征值。
权重有多种计算方法,最简单的是布尔权重,即权重为1(该特征词在文本中出现)或者0(该特征词没有在文本中出现)。在本发明中,VSM中的权重计算采用词频来表示,即用该特征词在文本中出现的次数来表示权重。
文本分类抽象为一般的描述:设类别总数为|C|,cj表示第j(j=1,2,...,|C|)类,提供给分类器的训练集(训练集中的文本都已经过人工分类)包含|D|篇文本,特征空间(f1,f2,...,fn),n为特征数量,每篇文本表示为di=(wi1,wi2,...,win),i=1,2,...,|D|。一篇待分类文本泛化表示为dx=(wx1,wx2,...,wxn),任务是将dx分到相应的类别中去。
文本分类算法常用的主要有:贝叶斯分类算法、k近邻算法、决策树算法、支持向量机方法。
2.中文分词技术
中文自动分词是中文信息处理技术中最关键的一个环节。所谓分词,就是把一个句子中的词汇按照使用时的意义切分出来。在英语中单词与单词之间有显式的分割符,而在中文里,只有段与段之间、句子与句子间有明显分割,而单词之间不存在这种分界符,因此中文词汇的分割要复杂困难得多。随着汉语自动分词系统的关注度不断提高,各种分词系统也不断建立,分词系统在运行速度、准确度等方面都已经具有了研究应用的价值,其中最有代表性为中科院的分词工具ICTCLAS。ICTCLAS分词工具基于PDAT大规模知识库管理技术,分词速度单机996KB/s,分词精度98.45%,本发明实施例中采用了ICTCLAS3.0对网页文本进行分词处理。
3.特征选择方法
网页中包含了大量的词汇,如果把这些词都作为特征词,将带来一系列问题。首先是向量的维数太大,给计算带来了非常大的压力,存储空间大、处理速度慢;其次是这些词中实际上有很大一部分是与类别无关的,对分类作用不大。因此要降低向量的维数,选择那些有代表意义的词作为特征。先对文本进行预处理,去掉那些常用的对分类用处不大的词(停用词,stop word),然后采用某种特征选择方法对所有的词排序,选出排在前面的一定数量的词作为特征词。常用的特征选择方法有:文档频次(DF),互信息(MI),信息增益(IG),χ2统计量、相对熵(CE)。本发明的特征值提取采用χ2统计量方法,因此下面将详细介绍χ2统计量方法:
χ2统计量度量词汇和类别独立性的缺乏程度,χ2越大,独立性越小,相关性越大。χ2统计量的计算公式如下:
其中,A1、A2、A3、A4、N均表示文本数量,且N=A1+A2+A3+A4,A1表示属于ci类别并且含有词汇t的网页数量,A2表示属于ci类别并且不含词汇t的网页数量,A3表示不属于ci类别并且含有词汇t的网页数量,A4表示不属于ci类别并且不含词汇t的网页数量,N表示所有的网页数量。
4.贝叶斯分类算法
贝叶斯分类是一类常用的分类器,最基本的形式是简单贝叶斯分类器。其原理是计算文本dx属于某个类别的概率p(cj|dx),将文本分到概率最大的类别中去。计算p(cj|dx)时,利用了贝叶斯公式:其中,p(cj)表示类的先验概率,p(dx|cj)表示类的条件概率,对同一篇文本,p(dx)不变。
设dx表示为特征集合(f1,f2,...,fn),n为特征个数,假设特征之间相互独立,则有:
p(cj)和p(fi|cj)都可以利用训练集估计。
本发明的基于偏好度的网页文本内容管控方法,包括网页库生成步骤、网页库分析步骤和用户信息反馈步骤,其中,
网页库生成步骤包括如下分步骤:
S11.对网页文本信息分别进行分词,并且利用停用词表,除去分词里面的常用停用词,得到特征值fi;
其中,A1表示属于cj类别并且含有特征值fi的网页数量,A2表示属于cj类别并且不含特征值fi的网页数量,A3表示不属于cj类别并且含有特征值fi的网页数量,A4表示不属于cj类别并且不含特征值fi的网页数量,N表示所有的网页数量。
这里的M可以由用户预先设定。
S13.根据以下公式计算出每个特征值fi的条件概率值p(F=fi|C=cj),
其中,nij为特征值fi在cj类别网页中出现的次数,Num(cj)为cj类别的网页总数,preference表示用户感兴趣的分类,non-preference表示用户不感兴趣的分类。这里,条件概率式子p(Fi=fi|C=cj)指的是特征值fi在cj类别网页中出现的概率;
S14.将提取出来的特征值和相对应的概率值,以及每个类别的网页总数记录下来,构成偏好网页库;
这里,步骤S11-S14可以看作为文本信息预处理的过程。
网页库分析步骤包括如下分步骤:
S21.计算出当前待分析网页文本d={f1,f2,...,fn}的偏好度p(C=preference|d),
其中,Num(page)为所有网页的数量,Num(cj)为属于cj类的网页数量,p(Fi=fi|C=cj)为网页库生成阶段计算出来的概率值。
S22.将计算出的偏好度p(C=preference|d),与用户初始设定的阈值进行比较,如果此偏好度大于阈值,则将该网页标记为用户所关心的网页。
用户信息反馈步骤包括如下分步骤:
S31.提取用户当前网页的特征值,以及计算特征值在网页中出现的频率fni;
S32.如果是一个没有推荐给用户的网页是用户所关心的,则执行步骤S33,如果是一个推送给用户的网页是用户所不关心的,则执行步骤S34;
S33.计算每一个特征词的概率值p*(F=fi|C=preference)
Num*(preference)=Num(preference)+2
其中,npreference为该特征词在用户关心的网页中出现的次数。用p*(F=fi|C=preference)替换该特征值原有的概率值p(F=fi|C=preference),用Num*(preference)替换Num(preference),更新偏好网页库。
S34.计算每一个特征词的概率值p*(F=fi|C=non-preference)
Num*(non-preference)=Num(non-preference)+2
其中,nnon-preference为该特征词在用户不关心的网页中出现的次数,用p*(F=fi|C=non-preference)替换该特征值原有的概率值p(F=fi|C=non-preference),用Num*(non-preference)替换Num(non-preference),更新偏好网页库,这里,条件概率公式p*(F=fi|C=preference)指的是特征值fi在用户偏好的网页类中的概率,条件概率公式p*(F=fi|C=non-preference)指的是特征值fi在用户不偏好的网页类中的概率。
本发明的方法通过文本分析技术对网页文本内容的分析,计算出网页偏好度,判断网页是否是非法网页、是否是用户关心的网页,并根据分析结果对网页实施相应的管控措施。本发明一方面可以过滤网络不良信息,维护网络信息的健康,净化网络环境,为未成年人绿色上网保驾护航;另一方面还可以应用到电子商务系统中,利用生成的用户偏好信息,帮助企业发现潜在的客户,进行个性化推荐和广告。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (2)
1.一种基于偏好度的网页文本内容管控方法,其特征在于,包括网页库生成步骤、网页库分析步骤和用户信息反馈步骤,其中,
网页库生成步骤包括如下分步骤:
S11.对网页文本信息分别进行分词,并且利用停用词表,除去分词里面的常用停用词,得到特征值fi;
其中,A1表示属于cj类别并且含有特征值fi的网页数量,A2表示属于cj类别并且不含特征值fi的网页数量,A3表示不属于cj类别并且含有特征值fi的网页数量,A4表示不属于cj类别并且不含特征值fi的网页数量,n表示特征值的数量,N表示所有的网页数量;
S13.根据以下公式计算出每个特征值fi的条件概率值p(F=fi|C=cj),
其中,nij为特征值fi在cj类别网页中出现的次数,Num(cj)为cj类别的网页总数,preference表示用户感兴趣的分类,non-preference表示用户不感兴趣的分类;
S14.将提取出来的特征值和相对应的概率值,以及每个类别的网页总数记录下来,构成偏好网页库;
网页库分析步骤包括如下分步骤:
S21.计算出当前待分析网页文本d={f1,f2,...,fn}的偏好度p(C=preference|d),
其中,Num(page)为所有网页的数量,Num(cj)为属于cj类的网页数量,p(F=fi|C=cj)为网页库生成阶段计算出来的概率值;
S22.将计算出的偏好度p(C=preference|d)与用户初始设定的阈值进行比较,如果此偏好度大于阈值,则将该网页标记为用户所关心的网页;
用户信息反馈步骤包括如下分步骤:
S31.提取用户当前网页的特征值,以及计算特征值在网页中出现的频率fni;
S32.如果是一个没有推荐给用户的网页是用户所关心的,则执行步骤S33,如果是一个推送给用户的网页是用户所不关心的,则执行步骤S34;
S33.计算每一个特征值的概率值p*(F=fi|C=preference)
Num*(preference)=Num(preference)+2
其中,npreference为该特征值在用户关心的网页中出现的次数,用p*(F=fi|C=preference)替换该特征值原有的概率值p(F=fi|C=preference),用Num*(preference)替换Num(preference),更新偏好网页库;
S34.计算每一个特征值的概率值p*(F=fi|C=non-preference)
Num*(non-preference)=Num(non-preference)+2
其中,nnon-preference为该特征值在用户不关心的网页中出现的次数,用p*(F=fi|C=non-preference)替换该特征值原有的概率值p(F=fi|C=non-preference),用Num*(non-preference)替换Num(non-preference),更新偏好网页库。
2.根据权利要求1所述的网页文本内容管控方法,其特征在于,S11所述的分词具体采用分词工具ICTCLAS3.0进行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201210014032 CN102436512B (zh) | 2012-01-17 | 2012-01-17 | 一种基于偏好度的网页文本内容管控方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201210014032 CN102436512B (zh) | 2012-01-17 | 2012-01-17 | 一种基于偏好度的网页文本内容管控方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102436512A CN102436512A (zh) | 2012-05-02 |
CN102436512B true CN102436512B (zh) | 2013-05-08 |
Family
ID=45984574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201210014032 Expired - Fee Related CN102436512B (zh) | 2012-01-17 | 2012-01-17 | 一种基于偏好度的网页文本内容管控方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102436512B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544313B (zh) * | 2013-11-04 | 2017-09-08 | 北京国双科技有限公司 | 用于网页推荐的数据处理方法和装置 |
CN104965890B (zh) * | 2015-06-17 | 2017-05-31 | 深圳市腾讯计算机系统有限公司 | 广告推荐的方法和装置 |
CN105260477A (zh) * | 2015-11-06 | 2016-01-20 | 北京金山安全软件有限公司 | 一种信息推送方法及装置 |
US10031977B1 (en) * | 2017-01-26 | 2018-07-24 | Rena Maycock | Data content filter |
CN106874494A (zh) * | 2017-02-23 | 2017-06-20 | 山东浪潮云服务信息科技有限公司 | 一种应用于游客偏好分析的前端展现方法 |
CN108959329B (zh) * | 2017-05-27 | 2023-05-16 | 腾讯科技(北京)有限公司 | 一种文本分类方法、装置、介质及设备 |
CN112000495B (zh) * | 2020-10-27 | 2021-02-12 | 博泰车联网(南京)有限公司 | 用于兴趣点信息管理的方法、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101609450A (zh) * | 2009-04-10 | 2009-12-23 | 南京邮电大学 | 基于训练集的网页分类方法 |
CN101770520A (zh) * | 2010-03-05 | 2010-07-07 | 南京邮电大学 | 基于用户浏览行为的用户兴趣建模方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7856433B2 (en) * | 2007-04-06 | 2010-12-21 | Yahoo! Inc. | Dynamic bid pricing for sponsored search |
-
2012
- 2012-01-17 CN CN 201210014032 patent/CN102436512B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101609450A (zh) * | 2009-04-10 | 2009-12-23 | 南京邮电大学 | 基于训练集的网页分类方法 |
CN101770520A (zh) * | 2010-03-05 | 2010-07-07 | 南京邮电大学 | 基于用户浏览行为的用户兴趣建模方法 |
Non-Patent Citations (2)
Title |
---|
一种基于用户偏好分析的查询优化方法;梅 翔等;《电 子 与 信 息 学 报》;20080131;第30卷(第1期);33-37 * |
梅 翔等.一种基于用户偏好分析的查询优化方法.《电 子 与 信 息 学 报》.2008,第30卷(第1期),33-37. |
Also Published As
Publication number | Publication date |
---|---|
CN102436512A (zh) | 2012-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102436512B (zh) | 一种基于偏好度的网页文本内容管控方法 | |
US10599721B2 (en) | Method and apparatus for automatically summarizing the contents of electronic documents | |
CN106951422B (zh) | 网页训练的方法和装置、搜索意图识别的方法和装置 | |
US9785888B2 (en) | Information processing apparatus, information processing method, and program for prediction model generated based on evaluation information | |
CN110209808B (zh) | 一种基于文本信息的事件生成方法以及相关装置 | |
CN104008203B (zh) | 一种融入本体情境的用户兴趣挖掘方法 | |
Zhang et al. | Semi-supervised learning combining co-training with active learning | |
CN110888990B (zh) | 文本推荐方法、装置、设备及介质 | |
CN102929861B (zh) | 一种文本情感指数计算方法和系统 | |
US20190278864A2 (en) | Method and device for processing a topic | |
CN108932318B (zh) | 一种基于政策资源大数据的智能分析及精准推送方法 | |
CN104376406A (zh) | 一种基于大数据的企业创新资源管理与分析系统和方法 | |
CN103235824A (zh) | 根据浏览网页确定用户感兴趣的网页文本的方法和系统 | |
CN109800350A (zh) | 一种个性化新闻推荐方法及系统、存储介质 | |
CN110110225B (zh) | 基于用户行为数据分析的在线教育推荐模型及构建方法 | |
CN105677649A (zh) | 一种个性化网页排版的方法及装置 | |
CN103235823A (zh) | 根据相关网页和当前行为确定用户当前兴趣的方法和系统 | |
CN103838756A (zh) | 一种确定推送信息的方法及装置 | |
CN103246725A (zh) | 一种基于无线网络的数据业务推送系统和方法 | |
CN111400432A (zh) | 事件类型信息处理方法、事件类型识别方法及装置 | |
US8560466B2 (en) | Method and arrangement for automatic charset detection | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN103810162A (zh) | 推荐网络信息的方法和系统 | |
CN111625715B (zh) | 信息提取方法、装置、电子设备及存储介质 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130508 Termination date: 20160117 |
|
EXPY | Termination of patent right or utility model |