CN103902703B - 基于移动互联网访问的文本内容分类方法 - Google Patents

基于移动互联网访问的文本内容分类方法 Download PDF

Info

Publication number
CN103902703B
CN103902703B CN201410126495.2A CN201410126495A CN103902703B CN 103902703 B CN103902703 B CN 103902703B CN 201410126495 A CN201410126495 A CN 201410126495A CN 103902703 B CN103902703 B CN 103902703B
Authority
CN
China
Prior art keywords
knowledge
url
reasoning
page
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410126495.2A
Other languages
English (en)
Other versions
CN103902703A (zh
Inventor
孙宏
赵晓波
季海东
董童霖
赵宇龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongding Yixin Technology Co ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201410126495.2A priority Critical patent/CN103902703B/zh
Publication of CN103902703A publication Critical patent/CN103902703A/zh
Application granted granted Critical
Publication of CN103902703B publication Critical patent/CN103902703B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

基于移动互联网访问的文本内容分类方法,属于海量的大数据处理和内容分类领域。本发明采用人工智能专家系统的方法,首先通过建立URL清洗的知识库,通过清洗推理机过滤掉不是访问者最终浏览到内容,即“垃圾”。然后,根据URL分类知识库和代表词分类知识库、以及相关推理机,将移动互联网访问的“有效”的内容进行分类。对URL清洗、URL内容分类和代表词内容分类三大知识库的更新,使系统变得越来聪明,不仅提高了内容分类的效率,更重要是提高了内容分类的覆盖面和准确程度。

Description

基于移动互联网访问的文本内容分类方法
技术领域
本发明属于海量的大数据处理和内容分类领域,特别是涉及到一个基于移动互联网访问的、百亿级访问量的海量数据处理的文本内容分类方法。
技术背景
目前,作为省级电信运营商在从“话务经营”向“流量经营”的业务转型过程中,其用户每天访问移动互联网的页面URL数少者有几亿条、多者有几十亿条、甚至上百亿条,涉及的网站几十万,其文本内容千变万化。因此,如何对用户访问的文本内容进行准确、高效率地分类,从而来分析用户的访问行为,实现精准地刻画客户访问兴趣特征,是三大运营商急需解决的智能营销的核心问题。
在实际运营中,电信运营商对如此海量的大数据多数采用的是域名分类法或网站分类法进行内容分类。实际上,网站和域名分类法就是人工梳理网站的频道(或栏目)、子频道(或子栏目),其缺点第一是分类准确性很低,包含有大量的“垃圾”页面URL在分类之中;第二是属于人工分类、不能实现机器自动分类;第三是分类的类别太多,多达四五千个。然而,实际工作中只需要百十余个,因此不能准确地刻画客户的兴趣特征的同时,还浪费了大量系统资源;第四是分类不灵活,网站没有的频道或栏目就无法进行分类。特别是,基于移动互联网访问的文本内容分类是对"有效"内容的分类,要求能够通过该内容分析客户在移动互联网上的访问行为,来精准地刻画客户的兴趣特征,达到降低运营成本、提高服务水平、减少客户投诉、增加企业收益的智能营销的目的。因此,需要清洗导航、功能、统计、天气、错误、流量、登录、下载、版权、接口、脚本等“垃圾”页面URL。
在学术上,自动内容分类方法已经成为研究自然语言处理的热点,其分类方法各种各样,归结为有⑴基于IF-THEN专家推理规则的分类方法;⑵基于自然语言利用神经网络的学习算法;⑶基于关键词的语言算法等的语义分析;⑷基于一组词或词组在文中出现频率、位置、以及词与词间的亲近程度的模式匹配;⑸通过识别内容中的共性元素进行聚类分类;⑹基于概率统计的贝叶斯分类;⑺遗传算法分类优化技术等等……。但是,这些分类方法只解决某些部分的具体应用、数据规模比较小、没有海量“垃圾”的内容分类。
然而,不论是在实际应用中还是在学术研究上,现有的技术都没有能解决如此海量大数据的移动互联网文本内容的分类问题,即没有解决超过一半以上“垃圾”页面清洗过滤的问题、以及没有解决百亿级别的内容分类等问题。
发明内容
鉴于以上存在的问题,本发明的目的在于:提供一种通过人工智能专家系统构建的基于移动互联网访问的文本内容分类方法、系统及装置,旨在解决省级电信运营商业务转型中如何处理百亿级海量访问内容(页面URL)的“垃圾”清洗、如何对“有效”内容进行准确而高效的分类、如何对数据清洗知识和内容分类知识进行更新的问题。
本发明的目的是通过如下技术方案实现:
一种基于移动互联网访问的文本内容分类方法,其特征在于,包括:如下步骤:
(1)数据清洗:针对用户在移动互联网上的访问记录,根据“URL清洗知识库”,调用“URL清洗推理机”清洗访问记录中的“垃圾”页面内容,即不是用户最终浏览的“有效”内容;
(2)已知内容分类:所述的已知内容是用户在移动互联网上浏览的内容已经纳入到“URL分类知识库”中的内容,其分类是在步骤(1)的基础上,根据“URL分类知识库”调用“URL分类推理机”进行的内容分类;
(3)未知内容分类:未知内容是用户在移动互联网上浏览的内容未能纳入“URL分类知识库”中的内容,其分类是在步骤(2)的基础上,爬取分类未成功的页面,并进行切词、过滤和去重,然后再根据“代表词分类知识库”,调用“代表词分类推理机”进行的内容分类;
(4)知识更新:根据步骤(3)“代表词分类推理机”中生成的“垃圾URL特征数据”、“新增URL分类数据”和“新增代表词分类数据”三个中间文件,分别调用“URL清洗知识更新”引擎、“URL分类知识更新”引擎和“代表词分类知识更新”引擎进行更新,经人工确认后,更新“URL清洗知识库”和“URL分类知识库”中的相应知识和规则,自动更新“代表词分类知识库”中的相应知识和规则;
所述步骤(1)中的“URL清洗推理机”的清洗规则包括:
(1‐1)格式验证:完整性验证,即访问记录的核心字段是否包括用户ID,URL格式,访问时间,包括日期YYYY-MM-DD和时间HH:MM:SS,只要不包括其中一个字段,即为数据不完整,则清洗掉该条记录;一致性验证是验证用户ID、URL和访问时间格式是否规范,若不规范,则清洗掉该条记录;
(1‐2)“完全URL”垃圾清洗推理:从“URL清洗知识库”读取清洗知识,在完全URL特征的Hash散列表中,推理在原始的访问记录页面中是否存在完全链接信息“完全URL”为“垃圾”页面特征,若存在,执行步骤(1‐7)推理;若不存在,则进行步骤(1‐3)推理;
(1‐3)“含一级域名”垃圾清洗推理;从原始URL中截取“一级域名”,构造为特征容器包装类TLDS,在“一级域名”特征的Hash散列表中,推理是否存在TLDS为“垃圾”页面的特征;若存在“一级域名”,则进行步骤(1‐5)推理;若不存在,则执行步骤(1‐4)推理;
(1‐4)“不含一级域名”垃圾清洗推理:若不存在“一级域名”,则获取不含一级域名“垃圾”页面特征知识的List,在List中包括后缀、左侧、左右和包含四类匹配知识,按照知识特征的置信度降幂顺序进行匹配推理;若匹配成功,则执行步骤(1‐7)推理;若匹配失败,则数据清洗结束;
(1‐5)“完整域名”垃圾清洗推理:从原始URL中截取“完整域名”,构造为特征容器包装类DOMAIN,在完整域名特征的Hash散列表中,推理是否存在DOMAIN为“垃圾”页面的特征;若存在“完整域名”,则获取完整域名“垃圾”页面特征知识的List,在List中有右侧匹配知识和包含匹配知识,如果匹配成功,执行步骤(1‐7)推理,如果匹配失败,执行步骤(1-6)推理;
(1‐6)“不完整域名”垃圾清洗推理:若在Hash散列表中不存在“完整域名”,则获取不完整域名“垃圾”特征的知识List,在List中包括左侧、左右和包含三类匹配知识,按照“不完整域名”知识特征的置信度降幂顺序进行匹配推理;若匹配成功,则执行步骤(1-7)推理;若匹配失败,则执行步骤(1‐4)推理;
(1‐7)若清洗推理匹配成功,则对“URL清洗知识库”进行更新,同时在原始“移动互联网访问记录”中删除“垃圾”数据,数据清洗结束;
所述的步骤(2)中的“URL分类推理机”,其分类规则包括:
(2‐1)“完全URL”分类知识推理:对于通过URL清理过后的有效访问数据,从“URL分类知识库”读取基于URL的内容分类知识,在完全URL特征的Hash散列表中,推理在清洗后的“有效”的访问记录页面中是否存在完全链接信息“完全URL”为内容分类特征;若存在,执行步骤(2‐6)推理;若不存在,则进行步骤(2‐2)推理;
(2‐2)“含一级域名”分类知识推理:从“有效”的访问页面URL中截取“一级域名”,构造为特征容器包装类TLDS,在“一级域名”特征的Hash散列表中,推理是否存在TLDS为内容分类特征?若存在“一级域名”,则进行步骤(2‐4)推理;若不存在,则执行步骤(2‐3)推理;
(2‐3)“不含一级域名”分类知识推理:获取不含一级域名内容分类特征的知识List,在List中包括左侧、左右和包含三类匹配知识,按照知识特征的置信度降幂顺序进行匹配推理;若匹配成功,则执行步骤(2‐6)推理;若匹配失败,则内容分类结束;
(2‐4)“完整域名”分类知识推理:从“有效”的访问页面URL中截取“完整域名”,构造为特征容器包装类DOMAIN,在完整域名特征的Hash散列表中,推理是否存在DOMAIN为内容分类特征;若存在,则获取完整域名“有效”特征的知识List,在List中有右侧匹配知识和包含匹配知识;若匹配成功,则执行步骤(2‐6)推理;若匹配失败,则况执行步骤(2‐5)推理;
(2‐5)“不完整域名”分类知识推理:获取“不完整域名”内容分类特征知识的List,在List中包括左侧、左右和包含三类匹配知识,按照完整域名知识特征的置信度降幂顺序进行匹配推理;若匹配成功,则执行步骤(2-6)推理;若匹配失败,则执行步骤(2‐3)推理;
(2‐6)若内容分类推理匹配成功,则对“URL分类知识库”实时更新,同时将内容分类结果存储到“URL分类结果”数据文件中,内容分类结束;
所述的步骤(3)中的“代表词分类推理机”,其分类规则包括:
(3-1)首先对待分类页面URL的标题Title进行切词,然后与元信息Meta中的关键词进行合并,同时计算出合并后代表词的频度,构成页面特征向量WPage={(W1,f1),(W2,f2),…,(Wi,fi),…},其中i=1、2、…、M,M为页面中代表词数;若WPage为空,该页面没有标题和元信息,则对页面正文Body进行切词,用与标题和元信息同样方法构成页面特征向量WPage
(3‐2)从“代表词分类知识库”中读取所有的分类知识:
W Base ( C k ) = { ( w 1 k , f 1 k ) , ( w 2 k , f 2 k ) , . . . , ( w j k , f j k ) , . . . }
其中,k=1、2、…、L,L为知识库分类数;j=1、2、…、N,N为第Ck类代表词数,为第Ck类第j个代表词,为第Ck类第j个代表词的频度;
(3‐3)计算待分类文本页面特征向量WPage与所有类别Wbase(CK)的距离D(CK),同时计算出其中最短的距离D(Cmin)和相似度Sk
D ( c k ) = Σ i = 1 M Σ j = 1 N ( f i - f j k ) 2
D ( c min ) = Min { Σ k = 1 L D ( c k ) }
S k = Σ j = 1 M f j k - D ( c min ) Σ j = 1 M f j k
(3-4)进行文本分类:当Mk<Sk≦1时,内容分类成功,将成功分类结果Wnew存储到“内容分类结果”文件中,同时将新增代表词分类数据和新增URL分类数据添加到中间文件中;当Sk≦Mk时,内容分类失败,结束分类,同时将该页面的URL特征存储到“垃圾URL特征数据”中间文件中;其中Mk是预先设置在0‐1之间的相似度阈值;
所述的步骤(4)中的“URL清洗知识库”的更新,其更新规则包括:
(4‐1‐1)根据客户移动互联网访问行为分析,计算“垃圾”页面URL的PV值和置信度,并给出“垃圾”页面和对应的URL特征的Top排名;
(4‐1‐2)新增URL清洗知识的添加:根据垃圾页面的置信度,经人工确认,将新URL清洗知识添加到规则中,即将完全匹配、一级域名和完整域名Hash特征包装类中的知识添加到“URL清洗知识库”中,和将特征包装类构造下的List中的后缀规则、右侧规则、左侧规则、包含规则和左右规则中的知识添加到“URL清洗知识库”中;
(4‐1‐3)URL清洗推理规则的更新:实时更新基于URL清洗的推理规则,即在完全匹配、一级域名和完整域名Hash特征包装类中更新检索序列,在特征包装类构造下的List中更新后缀规则、右侧规则、左侧规则、包含规则和左右规则中更新URL清洗知识的推理优先级别;
(4‐1‐4)URL清洗陈旧知识的删除:根据客户移动互联网访问行为分析”若URL清洗知识N天没有被使用过,则认定为陈旧知识,从“URL清洗知识库”中删除;N为预先设置的阈值;
所述步骤(4)中的“URL分类知识库”的更新,其更新规则包括:
(4‐2‐1)根据客户移动互联网访问行为分析,计算用户访问内容分类页面URL的PV值和置信度,并给出内容分类页面和对应的URL特征的Top排名;
(4‐2‐2)新增内容分类知识的添加:根据内容分类页面的置信度,经人工确认,将新URL内容分类知识添加到规则中,即将完全URL、一级域名和完整域名Hash特征包装类中的知识添加到“URL分类知识库”中,和将特征包装类构造下的List中的后缀规则、右侧规则、左侧规则、包含规则和左右规则中的知识添加到“URL分类知识库”中;
(4‐2‐3)内容分类推理规则的更新:实时更新基于URL内容分类的推理规则,即在完全URL、一级域名和完整域名Hash特征包装类中更新检索序列,在特征包装类构造下的List中更新后缀规则、右侧规则、左侧规则、包含规则和左右规则中更新内容分类推理知识的优先级别;
(4‐2‐4)内容分类陈旧知识的删除:根据客户移动互联网访问行为分析”,若URL内容分类知识N天没有被使用过,则认定为陈旧知识,从“URL分类知识库”中删除;N为预先设置的阈值;
所述的步骤(4)中“代表词分类知识库”的更新,其更新规则包括:
(4-3-1)根据“新增代表词分类数据”中间文件,提取第Ck类的新增代表词为:
W new ( c k ) = { w 1 k , w 2 k , w 3 k , . . . , w i k , . . . }
其中:i=1、2、…、Ni,Ni为新增代表词数;k=1、2、…、L,L为内容分类数
(4-3-2)从代表词基础知识库中提取第Ck类的基础代表词为:
W base ( c k ) = { w 1 k , w 2 k , w 3 k , . . . , w j k , . . . }
其中:j=1、2、…、Mj,Mj为基础分类库中代表词数;k=1、2、…、L,L为内容分类数
(4-3-3)新增知识的添加:
W new ( w i k ) ∈ W base ( w j k ) 时,
则通过分类基础知识库验证,自动更新代表词知识库,即将新增代表词特征向量存储到Wbase(Ck)中;同时,重新计算该分类中各代表词的置信度,更新知识库;
否则,添加失败;
(4‐3‐4)推理规则的更新:通过客户移动互联网访问行为分析,重新计算各个分类中代表词在单位时间内的频度和置信度,进行代表词分类推理规则的更新;
(4‐3‐5)陈旧知识的删除:若各个分类中的代表词知识N天没有被使用过,则认定为陈旧知识,从“代表词分类知识库”中删除;N为预先设置的阈值。
本发明方案的工作原理及技术效果:
本发明是对一个省级的电信运营商(或是中国移动、或是中国电信、或是中国联通)每天客户访问移动互联网的文本内容进行分类。其访问的文本内容具有如下特点:
(1)数据规模大:作为一个省级电信运营商,不论是中国移动、还是中国电信或中国联通,其用户规模少者有1000万左右、多者要上8000万,日户均浏览页面数大约100左右(户均PV值=100),即数据规模在10‐70亿之间。随着移动互联网应用的越来越普及、用户在移动互联网上的粘度越来越高,其数据规模也将越来越大;
(2)包含垃圾多:访问移动互联网的“垃圾”内容超过一半以上,这些“垃圾”信息包括导航、功能、统计、天气、错误、流量、登录、下载、版权、接口、脚本等非文本页面信息,无法精准地刻画用户的兴趣特征,故此必须需要清洗过滤掉;
(3)内容不仅包含正文Body,而且还包含元信息Meta和标题Title;
(4)数据(访问记录)均来源于DPI(DeepPacketInspection)分光数据,虽然三大运营商对DPI分光数据的技术规范不同,但是都至少包含用户ID(或用户手机号码、或用户IMSI号)、页面URL、访问时间(包括日期YYYY-MM-DD和时间HH:MM)三个字段。
本发明对如此复杂的、海量的访问数据,首先要根据“URL清洗知识库”,调用“URL清洗推理机”对数据进行清洗,清洗掉图片、导航、功能、统计、天气、错误、流量、登录、下载、版权、接口、脚本等不是“有效”内容的“垃圾”页面信息。
本发明是涉及到一个完整URL构成:协议://用户名:密码子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志。顶级域名分为国际和国内,如,.com为国际顶级域名,.cn为国家顶级域名。一级域名是在顶级域名前再加一级,如baidu.com、sina.com.cn;二级域名是在一级域名前再加一级,如music.baidu.com、sports.sina.com.cn,以此类推N级域名。本发明中的完整域名=子域名+域名+顶级域名。
本发明涉及到的“URL清洗知识库”中的知识由两种形式组成:
1)“完整URL”、“一级域名”和“完整域名”构成的HashTable知识
2)由通配符组成URL集合的左侧匹配、右侧匹配、左右匹配和包含匹配等List知识
“URL清洗知识库”初始集的建立是通过移动互联网客户行为分析,获取一天“垃圾”页面URL浏览数(PV值)的TopN排名作为训练集,再用下一天“垃圾”页面URL浏览数的TopN排名作为测试集,来检查分析“垃圾”页面抽取的准确性和覆盖程度是否达到预想的M%。当覆盖程度达到M%以上时,则“URL清洗知识库”初始集建立完成。当覆盖程度达不到M%时,则再取下一天的TopN“垃圾”页面数据作为训练集继续训练,直至达到为止。其中:N和M%为预先设置的经验阈值。
本发明中的“URL清洗推理机”是基于Hash散列表数据结构架构下,其清洗推理过程如下:
格式验证:验证访问数据的完整性和一致性,完整性是验证访问记录的核心字段是否包括用户ID,URL格式,访问时间(包括日期YYYY-MM-DD和时间HH:MM)等,只要不包括其中一个字段,即为数据不完整,则清洗掉该条记录。一致性是验证用户ID和访问时间格式是否规范,若不规范,则清洗掉该条记录。
在格式验证的基础上,从“URL清洗知识库”中读取清洗知识,在“完全URL”特征的Hash散列表中,进行“完全URL”推理,即推理原始的访问记录页面URL是否存在“完全URL”为“垃圾”页面特征?例如:在某一时间段内,在Hash散列表中存储的“完全URL”为“垃圾”页面特征的知识如下:
索引值 Hash列表中的“完整URl”清洗规则 类别 置信度
0 Entry=222.186.14.3/ 搜索引擎 5.78%
1 Entry=mob.3g.cn/sorry/404/error.html 错误 4.96%
2 Entry=222.186.14.5/ 搜索引擎 4.52%
3 Entry=mob.3g.cn/sorry/404/404.wml 错误 3.89%
4 Entry=www.umeng.com/check_config_update 软件升级 3.57%
……
若在完全URL特征的Hash散列表中存在“完全URL”,则从原始访问记录中清洗掉该条访问记录,重新计算该条清洗知识的置信度,更新“URL清洗知识库”中的清洗知识,数据清洗完毕。
若在“完全URL”特征的Hash散列表中不存在“完全URL”,则进行“含一级域名”的推理,从原始URL中截取“一级域名”,构造为特征容器包装类TLDS,在“一级域名”特征的Hash散列表中,匹配是否存在TLDS为“垃圾”页面的特征。例如:在某一时间段内,在Hash散列表中存储的“含一级域名”为“垃圾”特征的知识如下:
索引值 Hash列表中的“一级域名”清洗规则 置信度
0 Entry=qq.com 9.25%
1 Entry=cnzz.net 8.36%
2 Entry=baidu.com 7.25%
3 Entry=taobao.com 4.37%
4 Entry5=qlogo.cn 3.58%
……
若在Hash散列表中不存在“一级域名”,则进行“不含一级域名”的推理,获取不含一级域名“垃圾”特征的知识List,在List中包括后缀、左侧、左右和包含四类匹配知识。例如,在不含“一级域名”List下的后缀匹配知识如下:
例如,在“不含一级域名”List下的左侧匹配知识如下:
例如,在“不含一级域名”List下的左右匹配知识如下:
例如,在“不含一级域名”List下的包含匹配知识如下:
然后,按照List下知识特征的置信度降幂顺序进行匹配推理.若匹配成功,则从原始访问记录中清洗掉该条记录,同时重新计算该条清洗知识的置信度,并更新“URL清洗知识库”中的清洗知识。若推理失败,则数据清洗结束。
若在Hash散列表中存在“一级域名”,则进行“含一级域名”推理,即“完整域名”推理:从原始URL中截取“完整域名”,构造为特征容器包装类DOMAIN,在“完整域名”特征的Hash散列表中,推理是否存在DOMAIN为“垃圾”特征?例如:在某一时间段内,在Hash散列表中存储的“完整域名”为“垃圾”特征的知识如下:
若在Hash散列表中存在“完整域名”,则获取完整域名“垃圾”特征的知识List,在List中有右侧匹配和包含匹配两类知识。例如,在存在“完整域名”List下的右侧匹配知识如下:
例如,在存在“完整域名”List下的包含匹配知识如下:
然后,按照List下知识特征的置信度降幂顺序进行匹配推理。如果匹配成功,则从原始访问记录中清洗掉该条记录,同时重新计算该条清洗知识的置信度,并更新“URL清洗知识库”中的清洗知识。若推理失败,转向在Hash散列表中不存在“完整域名”的情况。
若在Hash散列表中不存在“完整域名”,则获取不完整域名“垃圾”特征的知识List,在List中包括左侧、左右和包含三类匹配知识。例如,在不存在“完整域名”List下的右侧匹配知识如下:
例如,在不存在“完整域名”List下的左右匹配知识如下:
例如,在不存在“完整域名”List下的包含匹配知识如下:
然后,按照List下知识特征的置信度降幂顺序进行匹配推理。如果匹配成功,则从原始访问记录中清洗掉该条记录,同时重新计算该条清洗知识的置信度,并更新“URL清洗知识库”中的清洗知识。若匹配失败,转向“不含一级域名”推理。
本发明中的“URL清洗知识库”更新包括三个模块,添加、更新和删除三个模块。首先,是添加新的清洗知识,通过移动互联网用户行为分析,计算出垃圾页面URL的置信度,根据置信度的Top排名,经人工确认,将新URL清洗知识添加到规则中,即在完全匹配、一级域名和完整域名Hash特征包装类中添加清洗知识到“URL清洗知识库”中,和在特征包装类构造下的List中的后缀规则、右侧规则、左侧规则、包含规则和左右规则中添加清洗知识到“URL清洗知识库”中;
其次,是实时更新基于URL清洗的推理规则,即在完全匹配、一级域名和完整域名Hash特征包装类中更新检索序列,在特征包装类构造下的List中更新后缀规则、右侧规则、左侧规则、包含规则和左右规则的推理优先级别。
最后,根据移动互联网用户行为分析,来判断是否删除陈旧的知识。若URL清洗知识N天没有被使用过,则认定为陈旧的知识,从“URL清洗知识库”中删除,天数N为预先设置的阈值。
本发明涉及的内容分类是移动终端用户访问移动互联网的内容分类,是电信运营商每天对各种业务运营支撑的基本需求。本发明的内容分类包括两部分,一部分是针对“URL分类知识库”已有知识的分类,即不用去页面爬取、切词、过滤、去重的内容分类;一部分是针对“URL分类知识库”中不包含知识的分类,即必须通过页面爬取、切词、过滤、去重的内容分类,即基于“代表词分类知识库”的分类。其流程为,首先根据“URL分类知识库”,调用“URL分类推理机”进行内容分类。若分类失败,则根据“代表词分类知识库”,调用“代表词分类推理机”进行内容分类。
本发明对如此复杂的、海量的访问数据,首先要根据“URL分类知识库”存储的移动互联网内容分类知识,然后调用“URL内容分类推理机”对“有效”页面进行分类。
本发明涉及到的URL分类知识库中的知识由两种形式组成:
1)“完整URL”、“一级域名”和“完整域名”构成的HashTable知识
2)由通配符组成URL集合的左侧匹配、右侧匹配、左右匹配和包含匹配等List知识
“URL分类知识库”内容分类的类别是可维护的,可以随时根据运营商市场营销的要求进行重新设置。分类类别可以是一级,也可以是多级,比如:三级体育分类为“体育→篮球→NBA”。每一次知识库类别重新设置均需要重新构建“URL分类知识库”,即通过初始集、训练集和测试集来建立。
“URL分类知识库”初始集的建立是通过移动互联网客户行为分析,获取一天“有效”访问页面URL浏览数(PV值)的TopN排名作为训练集,再用下一天“有效”访问页面URL浏览数的TopN排名作为测试集,来检查分析“有效”访问页面抽取的准确性和覆盖程度是否达到预想的M%。当覆盖程度达到M%以上时,则“URL分类知识库”初始集建立完成。当覆盖程度达不到M%时,则再取下一天的TopN“有效”访问页面数据作为训练集继续训练,直至达到为止。其中:N和M%为预先设置的经验阈值。
本发明中的“URL分类推理机”是基于Hash散列表数据结构架构下,其内容分类推理过程如下:
对于移动互联网访问的“有效”访问页面URL,从“URL分类知识库”中读取内容分类知识,在“完全URL”特征的Hash散列表中,进行第一级推理,即推理是否存在“完整URL”为“有效”页面特征。例如:在某一时间段内,在Hash散列表中存储的完全Urlinfo为“有效”页面特征的知识如下:
索引值 Hash列表中的“完整URL”内容分类规则 类别 置信度
0 launcher.warcraftchina.com/2.0/?locale=zh-CN 网络游戏 3.15%
1 www.222tk.com/ 彩票 2.87%
2 street.yoka.com/clockbeauty/ 时尚 2.45%
3 3g.eastmoney.com/Money.aspx 财经 1.67%
4 house.lsfc.net.cn/sell_info.asp?id=1097356 房产 1.54%
……
若在完全URL特征的Hash散列表中存在“完全URL”,则将成功内容分类的“有效”访问页面存储到“URL分类结果”中间文件中,同时重新计算该条分类知识的置信度,更新“URL分类知识库”的内容分类知识。
若在“完全URL”特征的Hash散列表中不存在“完全URL”,则进行“含一级域名”的推理,从原始URL中截取“一级域名”,构造为特征容器包装类TLDS,在“一级域名”特征的Hash散列表中,匹配是否存在TLDS为内容分类特征。例如:在某一时间段内,在Hash散列表中存储的“一级域名”为内容分类特征的知识如下:
索引值 Hash列表中的“一级域名”内容分类规则 置信度
0 Entry=sina.com.cn 4.32%
1 Entry=sohu.com 3.98%
2 Entry=ifeng.com 3.45%
3 Entry=sina.cn 2.65%
4 Entry=qidian.cn 2.14%
……
若在Hash散列表中不存在“一级域名”,则进行“不含一级域名”的推理,获取不含一级域名内容分类特征的知识List,在List中包括左侧、左右和包含三类匹配知识。例如,在不含“一级域名”List下的左侧匹配知识如下:
例如,在不含“一级域名”List下的左右匹配知识如下:
例如,在不含“一级域名”List下的包含匹配知识如下:
然后,按照List下知识特征的置信度降幂顺序进行匹配推理,若匹配成功,则将成功内容分类的访问页面存储到“URL分类结果”中间文件中,同时重新计算该条分类知识的置信度,更新“URL分类知识库”的内容分类知识。若匹配失败,则内容分类结束。
若在Hash散列表中存在“一级域名”,则进行“含一级域名”推理,即“完整域名”推理:从原始URL中截取“完整域名”,构造为特征容器包装类DOMAIN,在“完整域名”特征的Hash散列表中,推理是否存在DOMAIN为内容分类特征。例如:在某一时间段内,在Hash散列表中存储的“完整域名”为内容分类特征的知识如下:
若在Hash散列表中存在“完整域名”,则获取“完整域名”内容分类特征知识的List,在List中有右侧匹配和包含匹配两类知识。例如,在存在“完整域名”List下的右侧匹配知识如下:
例如,在存在“完整域名”List下的包含匹配知识如下:
然后,按照List下知识特征的置信度降幂顺序进行匹配推理。如果匹配成功,则将成功内容分类的访问页面存储到“URL分类结果”中间文件中,同时重新计算该条分类知识的置信度,更新“URL分类知识库”。若匹配失败,转向在Hash散列表中不存在“完整域名”的情况。
若在Hash散列表中不存在“完整域名”,则获取“不完整域名”特征知识的List,在List中包括左侧、左右和包含三类匹配知识。例如,在不存在“完整域名”List下的右侧匹配知识如下:
例如,在不存在“完整域名”List下的左右匹配知识如下:
例如,在不存在“完整域名”List下的包含匹配知识如下:
然后,按照List下知识特征的置信度降幂顺序进行匹配推理,如果匹配成功,则将成功内容分类的访问页面存储到“URL分类结果”中间文件中,同时重新计算该条分类知识的置信度,更新“URL分类知识库”。若匹配失败,转向“不含一级域名”的推理。
本发明中的“URL分类知识库”更新包括三个模块,添加、更新和删除三个模块。首先,是添加新的内容分类知识,通过移动互联网用户行为分析,计算出有效页面URL的置信度,根据置信度的Top排名,经人工确认,将新URL内容分类知识添加到规则中,即在完全匹配、一级域名和完整域名Hash特征包装类中添加内容分类知识到“URL分类知识库”中,和在特征包装类构造下的List中的后缀规则、右侧规则、左侧规则、包含规则和左右规则中添加内容分类知识到“URL分类知识库”中。
其次,是实时更新基于URL内容分类的推理规则,即在完全匹配、一级域名和完整域名Hash特征包装类中更新检索序列,在特征包装类构造下的List中更新后缀规则、右侧规则、左侧规则、包含规则和左右规则的推理优先级别;
最后,根据移动互联网用户行为分析,来判断是否删除陈旧的知识。若URL内容分类知识N天没有被使用过,则认定为陈旧的知识,从“URL分类知识库”中删除,天数N为预先设置的阈值。
本发明涉及到的“代表词分类知识库”中的知识分为若干类,在每类下由若干个具有频度的代表词组成。其初始集的建立是建立在“移动互联网客户访问行为分析”的基础上,用一天未分类的页面URL,分析其被浏览情况,取其浏览数(PV值)Top排名的页面作为训练集,人工将训练集内的页面进行分类。然后,将训练集中相同类别中的所有页面标题Title中切出来的词和元信息Meta中的关键字进行合并,并计算其频度,构成该类的特征向量。在构造特征向量的基础上,根据欧式距离,计算第k类所有词到第k类以外所有类别的距离,找出距离最小的n个词作为代表词,以此类推,确定知识库的初始集。
再用下一天未分类的页面URL浏览数(PV值)的Top排名作为测试集,来检查分析代表词分类提取的准确性和占有率是否达到设计要求。当占有率达到要求时,则“代表词知识库”初始集建立完成。否则将下一天的浏览数Top排名据作为训练集继续训练,直至达到为止。
本发明中的“代表词分类推理机”首先首先提取从页面URL的标题Title切出来词,然后与元信息Meta中的关键词进行合并,计算合并后代表词的频度,构成该页面特征向量:
WPage={(W1,f1),(W2,f2),…,(Wi,fi),…}
其中i=1、2、…、M,M为页面中代表词数
若WPage为空,说明页面没有标题和元信息,则对页面正文Body进行切词,用与标题和元信息同样方法构成页面特征向量WPage
在获取待分类的文本页面特征向量的基础上,从“代表词分类知识库”中读取所有的分类知识。知识库中的代表词特征向量构造如下:
W Base ( C k ) = { ( w 1 k , f 1 k ) , ( w 2 k , f 2 k ) , . . . , ( w j k , f j k ) , . . . }
其中,k=1、2、…、L,L为知识库分类数;j=1、2、…、N,N为第Ck类代表词数,为第Ck类第j个代表词,为第Ck类第j个代表词对应的频度。
在获取待分类文本页面特征向量和知识库中代表词特征向量的基础上,计算文本页面特征向量中的每一个代表词到“代表词知识库”每一个分类中代表词的距离,来表示页面与知识库某一分类的相似程度:
D ( c k ) = Σ i = 1 M Σ j = 1 N ( f i - f j k ) 2
其中,D(Ck)为文本页面Wpage与“代表词知识库”Wbase的第Ck类内容分类的距离。然后,确定文本页面与“代表词知识库”内容分类中最短的距离D(Cmin):
D ( c min ) = Min { Σ k = 1 L D ( c k ) }
根据文本页面与“代表词知识库”内容分类中最短的距离D(Cmin),计算页面WPage与知识库中第Ck类WPage(Ck)的相似度Sk
S k = Σ j = 1 M f j k - D ( c min ) Σ j = 1 M f j k
当相似度Sk=1时,说明页面WPage与知识库中第Ck类WPage(Ck)的分类100%相似;当相似度Sk=0时,页面WPage与知识库中第Ck类WPage(Ck)的分类相似度为零。
因此,可以判断文本页面归属类别。当Mk<Sk≦1k时,内容分类成功,将成功分类结果存储到“内容分类数据”中间文件中。其中Mk是预先设置在0-1之间的相似度阈值。同时,将新增代表词分类数据和新增URL分类数据添加到中间文件中;当Sk≦Mk时,内容分类失败,结束分类,同时将该页面的URL特征存储到“垃圾URL特征数据”中间文件中。
本发明中的“代表词分类知识库”的更新也包括添加、更新和删除三个模块。第一个模块也是添加新的代表词分类知识,是从代表词分类成功推理获取“新增代表词分类数据”中间文件中提取新增代表词数据,
W new ( c k ) = { w 1 k , w 2 k , w 3 k , . . . , w i k , . . . } ,
其中:i=1、2、…、Ni,Ni为新增代表词数;k=1、2、…、L,L为内容分类数
然后,再从“代表词分类基础库”提取基础代表词
W base ( c k ) = { w 1 k , w 2 k , w 3 k , . . . , w j k , . . . }
其中:j=1、2、…、Mj,Mj为基础分类库中代表词数;k=1、2、…、L,L为内容分类数
时,则将新增代表词添加到“代表词分类知识库”知识库中。否则,添加失败;
第二个模块是更新现有代表词分类知识的推理规则,根据客户移动互联网访问行为分析,重新计算各个分类中代表词在单位时间内的频度,进行代表词分类推理规则的更新;
第三个模块,同样是根据移动互联网用户行为分析,来判断是否删除陈旧的知识、若代表词分类知识N天没有被访问过,则认定为陈旧的知识,从代表词分类知识库中删除,天数N为预先设置的阈值
本发明采用的技术方案,能够将移动互联网访问的“有效”的内容进行分类。对URL清洗、URL内容分类和代表词内容分类三大知识库的更新,使系统变得越来聪明,不仅提高了内容分类的效率,更重要是提高了内容分类的准确程度。
附图说明
图1是移动互联网访问的文本内容分类方法的总流程图。
图2是URL清洗推理机的流程图。
图3是URL分类推理机的流程图。
图4是代表词分类推理机的流程图。
图5是“URL分类知识库”更新的流程图。
图6是“代表词分类知识库”更新的流程图。
图7是“URL清洗知识库”更新的流程图。
具体实施方式:
本发明是在云计算下、基于Hadoop架构的分布式海量大数据的移动互联网访问的文本内容分类,下面结合附图进行详细说明:
在图1中,基于移动互联网客户行为的文本内容分类过程如下:
数据源说明:“移动互联网访问记录”102来源于运营商每天DPI移动互联网分光数据,作为一个省级电信运营商移动互联网的访问记录规模少者几亿条访问记录、多者几十亿、甚至上百亿。访问记录占用的空间取决于一个记录中包含的字段多少,一般情况对于100亿条访问记录的规模大约需要5TB左右的硬盘空间。
系统架构说明:每天,在云计算平台上、通过基于Hadoop架构、结合自主知识产权海量大数据处理模型分布式地采集移动互联网的访问数据、分布式地进行“垃圾”URL清洗、分布式地进行文本内容分类、以及集中式地进行各个知识库的更新。
步骤1,调用101模块进行页面“垃圾”URL清洗,首先从“移动互联网访问记录”102中读取数据。其次,根据“URL清洗知识库”103,调用“URL清洗推理机”引擎进行数据清洗,即清洗“垃圾”访问记录。若访问记录(URL页面)是“垃圾”数据,则从“移动互联网访问记录”102数据中删除掉。若该条数据不是“垃圾”,则为“有效”的访问内容。
在“URL清洗知识库”103中,存储了导航、功能、统计、天气、错误、流量、登录、下载、版权、接口、脚本、图片等知识,不是用户最终浏览的页面,是独立的URL页面和由通配符组成的URL页面集合。
步骤2,在对“垃圾”页面URL清洗的基础上,针对“有效”的访问内容,调用104模块进行基于URL分类知识库的内容分类,即根据“URL分类知识库”105,调用“URL分类推理机”图3引擎进行内容分类。根据106模块判断,若内容分类成功,则将分类数据存入“内容分类数据”中间文件306中。若内容分类失败,则进入基于“代表词分类知识库”109的内容分类。
步骤3,对于基于“URL分类知识库”失败的情况下,首先调用107模块进行页面爬取于处理,即进行页面爬取,页面切词、内容过滤和内容去重等预处理。其次,根据“代表词分类知识库”109,调用“代表词分类推理机”108进行分类。若分类成功,则定期调用“代表词分类知识更新”模块111和调用“URL分类知识更新”模块113进行知识的更新。若分类失败,则定期调用“URL清洗知识更新”模块115进行清洗知识的更新。
步骤4,定期对URL清洗知识、URL分类知识和代表词分类知识进行更新。调用111模块进行代表词分类知识的更新,经“代表词基础分类库”112自动验证后,将更新的代表词分类知识存放到“代表词分类知识库”109中;调用113模块进行URL分类知识的更新,经人工确认114后,将更新的URL分类知识存放到“URL分类知识库”中;调用115模块进行清洗知识的更新,经人工确认116后,将更新的清洗知识存放到“URL清洗知识库”103中。
在图2中,本发明中的“URL清洗推理机”是基于Hash散列表数据结构架构下,其清洗推理过程如下:
步骤1:调用201模块从102“移动互联网访问记录”数据文件中读取原始数据,即访问记录。
步骤2:根据202模块验证数据格式,即验证验证访问数据的完整性和一致性,完整性是验证访问记录的核心字段是否包括用户ID,URL格式,访问时间(包括访问日期)等,只要不包括其中一个字段,即为数据不完整,则调用203模块在102“移动互联网访问访问记录”原始数据中清洗掉该条记录。一致性是验证用户ID和访问时间格式是否规范,若不规范,则调用203模块在“移动互联网访问访问记录”102原始数据中清洗掉该条记录。
步骤3:调用204模块从103“URL清洗知识库”读取清洗知识,然后在“完全URL”特征的Hash散列表中,进行第一级推理,即推理在原始的访问记录页面中是否存在“完全URL”为“垃圾”页面特征。
步骤4:根据205模块判断原始的访问记录页面在“完全URL”特征的Hash散列表中是否存在“完全URL”?若存在,则调用203模块从102“移动互联网访问数据”中清洗掉该条访问记录,再调用216模块重新计算该条清洗知识的置信度,更新103“URL清洗知识库”中的清洗知识,数据清洗结束。若不存在,则进行步骤5推理。
步骤5:调用206模块,从原始的访问记录页面URL中截取“一级域名”,构造为特征容器包装类TLDS,在“一级域名”特征的Hash散列表中,根据207模块推理是否存在TLDS为“垃圾”特征?若不存在“一级域名”,即“不含一级域名”,则执行步骤6推理。若存在,则执行步骤7推理;
步骤6:调用208模块获取不含一级域名“垃圾”页面特征知识的List,在List中包括后缀、左侧、左右和包含四类匹配知识。按照List下知识特征的置信度降幂顺序进行匹配推理。若匹配成功,调用203模块从102“移动互联网访问数据”中清洗掉该条访问记录,再调用216模块重新计算该条清洗知识的置信度,更新103“URL清洗知识库”中的清洗知识。若匹配失败,则推理完成、清洗结束。
步骤7:若存在“一级域名”,则进行“完整域名”垃圾页面清洗推理:调用209模块从原始的访问记录页面URL中截取“完整域名”,构造为特征容器包装类DOMAIN,在“完整域名”特征的Hash散列表中,根据210模块推理是否存在DOMAIN为“垃圾”页面特征?若存在,则执行步骤8推理。若不存在,则执行步骤9推理;
步骤8:存在“完整域名”推理,调用211模块获取完整域名“垃圾”页面特征知识的List,在List中有右侧匹配知识和包含匹配知识。根据212模块判断“完整域名”是否匹配成功?若匹配成功,调用203模块从102“移动互联网访问数据”中清洗掉该条访问记录,再调用216模块重新计算该条清洗知识的置信度,更新103“URL清洗知识库”中的清洗知识,数据清洗结束。若匹配失败,则执行步骤9;
步骤9:不存在“完整域名”推理,调用213模块获取不完整域名“垃圾”页面特征知识的List,在List中包括左侧、左右和包含三类匹配知识,按照“不完整域名”知识特征的置信度降幂顺序进行匹配推理。根据214模块判断是否匹配成功?若匹配成功,则调用203模块从102“移动互联网访问数据”中清洗掉该条访问记录,再调用216模块重新计算清洗知识的置信度,更新103“URL清洗知识库”中的清洗知识;若匹配失败,则执行步骤6推理;
在图3中,本发明中的“URL分类推理机”是基于Hash散列表数据结构架构下,其内容分类推理过程如下:
步骤1:调用301模块从102“清洗后移动互联网访问记录”数据文件中读取“有效”的访问记录。
步骤2:调用302模块从105“URL分类知识库”读取URL内容分类知识,然后在“完全URL”特征的Hash散列表中,进行第一级推理,即推理在清洗后的“有效“的访问记录页面中是否存在“完全URL”为内容分类特征。
步骤3:根据303模块判断在“完全URL”特征的Hash散列表中是否存在“完全URL”?若存在,即内容分类成功,调用314模块将分类结果的访问页面存储到315“URL分类结果”中间文件中,同时调用316模块重新计算该条分类知识的置信度,更新105“URL分类知识库”中的内容分类知识,内容分类结束。若不存在,则进行步骤4推理。
步骤4:调用304模块,从清洗后的“有效“的访问记录页面URL中截取“一级域名”,构造为特征容器包装类TLDS,在“一级域名”特征的Hash散列表中,根据305模块推理是否存在TLDS为内容分类特征?若不存在“一级域名”,则执行步骤5推理。若存在,则执行步骤6推理;
步骤5:调用306模块获取不含“一级域名”特征知识的List,在List中包括左侧、左右和包含三类匹配知识。按照List下知识特征的置信度降幂顺序进行匹配推理。若匹配成功,即内容分类成功,调用314模块将分类结果的访问页面存储到315“URL分类结果”中间文件中,同时调用316模块重新计算该条分类知识的置信度,更新105“URL分类知识库”中的内容分类知识。若匹配失败,则推理完成、内容分类结束;;
步骤6:若存在“一级域名”,则进行“完整域名”内容分类推理。调用307模块,从清洗后的“有效“的访问记录页面URL中截取“完整域名”,构造为特征容器包装类DOMAIN,在完整域名特征的Hash散列表中,根据308模块推理是否存在DOMAIN为内容分类特征?若存在,则执行步骤7推理。若不存在,则执行步骤8推理;
步骤7:存在“完整域名”推理,调用309模块获取“完整域名”的内容分类特征知识List,在其List中获取右侧匹配和包含匹配知识,然后按照List下知识特征的置信度降幂顺序进行匹配推理,根据310模块判断匹配是否成功?若匹配成功,即内容分类成功,调用314模块将分类结果的访问页面存储到315“URL分类结果”中间文件中,同时调用316模块重新计算该条分类知识的置信度,更新105“URL分类知识库”中的内容分类知识,内容分类结束。若匹配失败,则执行步骤8推理;
步骤8:不存在“完整域名”推理,调用311模块获取不“完整域名”内容分类特征知识的List,在List中包括左侧、左右和包含三类匹配知识。按照List下知识特征的置信度降幂顺序进行匹配推理。根据312模块判断是否匹配成功?若匹配成功,即内容分类成功,调用314模块将分类结果的访问页面存储到315“URL分类结果”中间文件中,同时调用316模块重新计算该条分类知识的置信度,更新105“URL分类知识库”中的内容分类知识。若匹配失败,则执行步骤5推理。
在图4中,基于代表词的“代表词分类推理机”108的内容分类过程如下:
步骤1:本发明首先调用401模块从402数据文件中读取待分类的文本页面URL。然后,调用403模块将文本页面URL的标题Title进行切词,并与元信息Meta中的关键词进行合并,计算合并后代表词的频度,构成该页面特征向量:
WPage={(w1,f1),(w2,f2),...,(wi,fi),...}
其中i=1、2、…、M,M为页面中代表词数
步骤2:根据404模块判断WPage是否为空。如果WPage=“空”,说明页面没有标题和元信息,则调用405模块对页面正文Body进行切词,用与标题和元信息同样方法构成页面特征向量WPage
步骤3:调用406模块从“代表词分类知识库”407中读取所有的分类知识。代表词知识库中的知识构造如下:
W Base ( C k ) = { ( w 1 k , f 1 k ) , ( w 2 k , f 2 k ) , . . . , ( w j k , f j k ) , . . . }
其中,k=1、2、…、L,L为知识库分类数;j=1、2、…、N,N为第Ck类代表词数,为第Ck类第j个代表词,为第Ck类第j个代表词对应的频度。
步骤4:调用408模块计算文本页面特征向量Wpage中的每一个代表词到“代表词知识库”每一个分类中代表词Wbase(Ck)的距离,来表示页面与知识库某一分类的相似度:
D ( c k ) = Σ i = 1 M Σ j = 1 N ( f i - f j k ) 2
其中:D(Ck)为文本页面Wpage与“代表词知识库”Wbase(Ck)的第Ck类内容分类的距离。
步骤5:确定文本页面Wpage与“代表词知识库”各内容分类Wbase(Ck)中最短的距离D(Cmin):
D ( c min ) = Min { Σ k = 1 L D ( c k ) }
步骤6:根据文本页面与“代表词知识库”内容分类中最短的距离D(Cmin),计算页面与知识库中第Ck类的相似度Sk
S k = Σ j = 1 M f j k - D ( c min ) Σ j = 1 M f j k
说明:当相似度Sk=0时,说明页面与知识库中的分类一点不相似.当相似度Sk=1时,说明页面与知识库中的分类百分之百的相似;
步骤7:根据409模块判断,当Mk<Sk≦1k时,内容分类成功,调用410模块将成功分类结果存储到“内容分类结果”411文件中,同时调用412模块更新维护407“代表词知识库”。当Sk≦Mk时,内容分类失败,结束分类。其中Mk是预先设置在0-1之间的相似度阈值。
在图5中,“URL分类知识库”的添加、维护和删除维护过程如下:
步骤1,调用501模块进行基于移动互联网的客户访问行为分析,即根据412“新增URL分类特征数据”中间文件的新增知识,分析客户在移动互联网上访问兴趣特征呈现出来的规律,计算出内容分类知识的置信度。
步骤2,调用502模块进行新增URL内容分类知识的添加,根据新增分类URL知识特征的置信度,即在Hash表中添加完全URL、一级域名、完整域名等内容分类检索特征,在各特征下List里的左侧、左右、包含和右侧规则中添加内容分类知识,并根据置信度确定优先级别。经人工确认114后,调用503模块将新增URL内容分类知识添加到105“URL分类知识库”中。
步骤3,调用504模块进行URL内容分类推理规则的更新,从105“URL分类知识库”中调出全部的内容分类知识,在页面URL内容分类过程中,实时维护在各特征下List里的左侧、左右、包含和右侧规则中的内容分类知识,计算其置信度重新确定其推理的优先级别。然后调用505模块对105“URL分类知识库”进行更新。
步骤4,调用506模块删除陈旧的知识,从105“URL分类知识库”中调出全部的内容分类知识,挖掘出N天没有使用过“有效”URL内容分类的知识,并从105“URL分类知识库”中删除。
在图6中,“代表词分类知识更新”模块111的知识更新过程如下:
步骤1,调用601模块,读取新增代表词数据,其中:i=1、2、…、Ni,Ni为新增代表词数;k=1、2、…、L,L为内容分类数。
步骤2,调用602模块,先从“代表词基础分类库”112中读取已经分类的知识,即代表词其中:j=1、2、…、Mj,Mj为基础分类库中代表词数;k=1、2、…、L,L为内容分类数。然后,匹配Wnew(Ck)中的代表词与Wbase(Ck)中的代表词。若时,则将新增代表词添加到“代表词分类知识库”109中。
步骤3,调用605模块进行代表词推理规则的更新维护,从“代表词分类知识库”109中调出全部的分类知识,根据第一步“客户行为分析”结果重新计算所有代表词知识的频度,重新确定代表词分类推理机的优先级别,即确定各个内容类别、以及各类别中代表词知识的优先顺序,然后调用模块606将更新的知识存回“代表词分类知识库”109中。
步骤4,调用607模块删除陈旧的知识,从“代表词分类知识库”109中调出全部的分类知识,挖掘出N天没有使用过代表词分类的知识,并从“代表词分类知识库”109中删除。
在图7中,“URL清洗知识更新”模块115的知识更新过程如下:
步骤1,调用701模块进行基于移动互联网中“垃圾”页面的客户访问行为分析,即根据“垃圾URL特征数据”413中间文件的新增知识,分析客户在移动互联网上访问“垃圾”页面行为呈现出来的规律,计算出“垃圾”页面知识的置信度。
步骤2,调用702模块进行新增URL清洗知识的添加,根据新增“垃圾”页面URL知识特征的置信度,即在Hash表中添加完全URL、一级域名、完整域名等“垃圾”检索特征.在各特征下List里的左侧、左右、包含和右侧规则中添加清洗知识,并根据频度置信度确定优先级别。经116人工确认后,调用703模块将新增URL清洗知识添加到URL清洗知识库中。
步骤3,调用704模块进行“垃圾”URL清洗推理规则的更新,从103“URL清洗知识库”中调出全部的清洗知识,在“垃圾”页面URL清洗过程中,实时维护在各特征下List里的左侧、左右、包含和右侧规则中的清洗知识,计算其置信度重新确定推理的优先级别。然后调用705模块对103“URL清洗知识库”进行更新。
步骤4,调用706模块删除陈旧的知识,从103“URL清洗知识库”中调出全部的清洗知识,挖掘出N天没有使用过“垃圾”URL清洗的知识,调用707模块从103“URL清洗知识库”中删除。

Claims (1)

1.一种基于移动互联网访问的文本内容分类方法,其特征在于,包括:如下步骤:
(1)数据清洗:针对用户在移动互联网上的访问记录,根据“URL清洗知识库”,调用“URL清洗推理机”清洗访问记录中的“垃圾”页面内容,即不是用户最终浏览的“有效”内容;
(2)已知内容分类:所述的已知内容是用户在移动互联网上浏览的内容已经纳入到“URL分类知识库”中的内容,其分类是在步骤(1)的基础上,根据“URL分类知识库”调用“URL分类推理机”进行的内容分类;
(3)未知内容分类:未知内容是用户在移动互联网上浏览的内容未能纳入“URL分类知识库”中的内容,其分类是在步骤(2)的基础上,爬取分类未成功的页面,并进行切词、过滤和去重,然后再根据“代表词分类知识库”,调用“代表词分类推理机”进行的内容分类;
(4)知识更新:根据步骤(3)“代表词分类推理机”中生成的“垃圾URL特征数据”、“新增URL分类数据”和“新增代表词分类数据”三个中间文件,分别调用“URL清洗知识更新”引擎、“URL分类知识更新”引擎和“代表词分类知识更新”引擎进行更新,经人工确认后,更新“URL清洗知识库”和“URL分类知识库”中的相应知识和规则,自动更新“代表词分类知识库”中的相应知识和规则;
所述步骤(1)中的“URL清洗推理机”的清洗规则包括:
(1‐1)格式验证:完整性验证,即访问记录的核心字段是否包括用户ID,URL格式,访问时间,包括日期YYYY-MM-DD和时间HH:MM:SS,只要不包括其中一个字段,即为数据不完整,则清洗掉该条记录;一致性验证是验证用户ID、URL和访问时间格式是否规范,若不规范,则清洗掉该条记录;
(1‐2)“完全URL”垃圾清洗推理:从“URL清洗知识库”读取清洗知识,在完全URL特征的Hash散列表中,推理在原始的访问记录页面中是否存在完全链接信息“完全URL”为“垃圾”页面特征,若存在,执行步骤(1‐7)推理;若不存在,则进行步骤(1‐3)推理;
(1‐3)“含一级域名”垃圾清洗推理;从原始URL中截取“一级域名”,构造为特征容器包装类TLDS,在“一级域名”特征的Hash散列表中,推理是否存在TLDS为“垃圾”页面的特征;若存在“一级域名”,则进行步骤(1‐5)推理;若不存在,则执行步骤(1‐4)推理;
(1‐4)“不含一级域名”垃圾清洗推理:若不存在“一级域名”,则获取不含一级域名“垃圾”页面特征知识的List,在List中包括后缀、左侧、左右和包含四类匹配知识,按照知识特征的置信度降幂顺序进行匹配推理;若匹配成功,则执行步骤(1‐7)推理;若匹配失败,则数据清洗结束;
(1‐5)“完整域名”垃圾清洗推理:从原始URL中截取“完整域名”,构造为特征容器包装类DOMAIN,在完整域名特征的Hash散列表中,推理是否存在DOMAIN为“垃圾”页面的特征;若存在“完整域名”,则获取完整域名“垃圾”页面特征知识的List,在List中有右侧匹配知识和包含匹配知识,如果匹配成功,执行步骤(1‐7)推理,如果匹配失败,执行步骤(1-6)推理;
(1‐6)“不完整域名”垃圾清洗推理:若在Hash散列表中不存在“完整域名”,则获取不完整域名“垃圾”特征的知识List,在List中包括左侧、左右和包含三类匹配知识,按照“不完整域名”知识特征的置信度降幂顺序进行匹配推理;若匹配成功,则执行步骤(1-7)推理;若匹配失败,则执行步骤(1‐4)推理;
(1‐7)若清洗推理匹配成功,则对“URL清洗知识库”进行更新,同时在原始“移动互联网访问记录”中删除“垃圾”数据,数据清洗结束;
所述的步骤(2)中的“URL分类推理机”,其分类规则包括:
(2‐1)“完全URL”分类知识推理:对于通过URL清理过后的有效访问数据,从“URL分类知识库”读取基于URL的内容分类知识,在完全URL特征的Hash散列表中,推理在清洗后的“有效”的访问记录页面中是否存在完全链接信息“完全URL”为内容分类特征;若存在,执行步骤(2‐6)推理;若不存在,则进行步骤(2‐2)推理;
(2‐2)“含一级域名”分类知识推理:从“有效”的访问页面URL中截取“一级域名”,构造为特征容器包装类TLDS,在“一级域名”特征的Hash散列表中,推理是否存在TLDS为内容分类特征?若存在“一级域名”,则进行步骤(2‐4)推理;若不存在,则执行步骤(2‐3)推理;
(2‐3)“不含一级域名”分类知识推理:获取不含一级域名内容分类特征的知识List,在List中包括左侧、左右和包含三类匹配知识,按照知识特征的置信度降幂顺序进行匹配推理;若匹配成功,则执行步骤(2‐6)推理;若匹配失败,则内容分类结束;
(2‐4)“完整域名”分类知识推理:从“有效”的访问页面URL中截取“完整域名”,构造为特征容器包装类DOMAIN,在完整域名特征的Hash散列表中,推理是否存在DOMAIN为内容分类特征;若存在,则获取完整域名“有效”特征的知识List,在List中有右侧匹配知识和包含匹配知识;若匹配成功,则执行步骤(2‐6)推理;若匹配失败,则况执行步骤(2‐5)推理;
(2‐5)“不完整域名”分类知识推理:获取“不完整域名”内容分类特征知识的List,在List中包括左侧、左右和包含三类匹配知识,按照完整域名知识特征的置信度降幂顺序进行匹配推理;若匹配成功,则执行步骤(2-6)推理;若匹配失败,则执行步骤(2‐3)推理;
(2‐6)若内容分类推理匹配成功,则对“URL分类知识库”实时更新,同时将内容分类结果存储到“URL分类结果”数据文件中,内容分类结束;
所述的步骤(3)中的“代表词分类推理机”,其分类规则包括:
(3-1)首先对待分类页面URL的标题Title进行切词,然后与元信息Meta中的关键词进行合并,同时计算出合并后代表词的频度,构成页面特征向量WPage={(W1,f1),(W2,f2),…,(Wi,fi),…},其中i=1、2、…、M,M为页面中代表词数;若WPage为空,该页面没有标题和元信息,则对页面正文Body进行切词,用与标题和元信息同样方法构成页面特征向量WPage
(3‐2)从“代表词分类知识库”中读取所有的分类知识:
W Base ( C k ) = { ( w 1 k , f 1 k ) , ( w 2 k , f 2 k ) , . . . , ( w j k , f j k ) , . . . }
其中,k=1、2、…、L,L为知识库分类数;j=1、2、…、N,N为第Ck类代表词数,为第Ck类第j个代表词,为第Ck类第j个代表词的频度;
(3‐3)计算待分类文本页面特征向量WPage与所有类别Wbase(CK)的距离D(CK),同时计算出其中最短的距离D(Cmin)和相似度Sk
D ( c k ) = Σ i = 1 M Σ j = 1 N ( f i - f j k ) 2
D ( c min ) = Min { Σ k = 1 L D ( c k ) }
S k = Σ j = 1 M f j k - D ( c min ) Σ j = 1 M f j k
(3-4)进行文本分类:当Mk<Sk≦1时,内容分类成功,将成功分类结果Wnew存储到“内容分类结果”文件中,同时将新增代表词分类数据和新增URL分类数据添加到中间文件中;当Sk≦Mk时,内容分类失败,结束分类,同时将该页面的URL特征存储到“垃圾URL特征数据”中间文件中;其中Mk是预先设置在0‐1之间的相似度阈值;
所述的步骤(4)中的“URL清洗知识库”的更新,其更新规则包括:
(4‐1‐1)根据客户移动互联网访问行为分析,计算“垃圾”页面URL的PV值和置信度,并给出“垃圾”页面和对应的URL特征的Top排名;
(4‐1‐2)新增URL清洗知识的添加:根据垃圾页面的置信度,经人工确认,将新URL清洗知识添加到规则中,即将完全匹配、一级域名和完整域名Hash特征包装类中的知识添加到“URL清洗知识库”中,和将特征包装类构造下的List中的后缀规则、右侧规则、左侧规则、包含规则和左右规则中的知识添加到“URL清洗知识库”中;
(4‐1‐3)URL清洗推理规则的更新:实时更新基于URL清洗的推理规则,即在完全匹配、一级域名和完整域名Hash特征包装类中更新检索序列,在特征包装类构造下的List中更新后缀规则、右侧规则、左侧规则、包含规则和左右规则中更新URL清洗知识的推理优先级别;
(4‐1‐4)URL清洗陈旧知识的删除:根据客户移动互联网访问行为分析”若URL清洗知识N天没有被使用过,则认定为陈旧知识,从“URL清洗知识库”中删除;N为预先设置的阈值;
所述步骤(4)中的“URL分类知识库”的更新,其更新规则包括:
(4‐2‐1)根据客户移动互联网访问行为分析,计算用户访问内容分类页面URL的PV值和置信度,并给出内容分类页面和对应的URL特征的Top排名;
(4‐2‐2)新增内容分类知识的添加:根据内容分类页面的置信度,经人工确认,将新URL内容分类知识添加到规则中,即将完全URL、一级域名和完整域名Hash特征包装类中的知识添加到“URL分类知识库”中,和将特征包装类构造下的List中的后缀规则、右侧规则、左侧规则、包含规则和左右规则中的知识添加到“URL分类知识库”中;
(4‐2‐3)内容分类推理规则的更新:实时更新基于URL内容分类的推理规则,即在完全URL、一级域名和完整域名Hash特征包装类中更新检索序列,在特征包装类构造下的List中更新后缀规则、右侧规则、左侧规则、包含规则和左右规则中更新内容分类推理知识的优先级别;
(4‐2‐4)内容分类陈旧知识的删除:根据客户移动互联网访问行为分析”,若URL内容分类知识N天没有被使用过,则认定为陈旧知识,从“URL分类知识库”中删除;N为预先设置的阈值;
所述的步骤(4)中“代表词分类知识库”的更新,其更新规则包括:
(4-3-1)根据“新增代表词分类数据”中间文件,提取第Ck类的新增代表词为:
W new ( c k ) = { w 1 k , w 2 k , w 3 k , . . . , w i k . . . }
其中:i=1、2、…、Ni,Ni为新增代表词数;k=1、2、…、L,L为内容分类数
(4-3-2)从代表词基础知识库中提取第Ck类的基础代表词为:
W base ( c k ) = { w 1 k , w 2 k , w 3 k , . . . , w j k , . . . }
其中:j=1、2、…、Mj,Mj为基础分类库中代表词数;k=1、2、…、L,L为内容分类数
(4-3-3)新增知识的添加:
W new ( w i k ) ∈ W base ( w j k ) 时,
则通过分类基础知识库验证,自动更新代表词知识库,即将新增代表词特征向量存储到Wbase(Ck)中;同时,重新计算该分类中各代表词的置信度,更新知识库;
否则,添加失败;
(4‐3‐4)推理规则的更新:通过客户移动互联网访问行为分析,重新计算各个分类中代表词在单位时间内的频度和置信度,进行代表词分类推理规则的更新;
(4‐3‐5)陈旧知识的删除:若各个分类中的代表词知识N天没有被使用过,则认定为陈旧知识,从“代表词分类知识库”中删除;N为预先设置的阈值。
CN201410126495.2A 2014-03-31 2014-03-31 基于移动互联网访问的文本内容分类方法 Active CN103902703B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410126495.2A CN103902703B (zh) 2014-03-31 2014-03-31 基于移动互联网访问的文本内容分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410126495.2A CN103902703B (zh) 2014-03-31 2014-03-31 基于移动互联网访问的文本内容分类方法

Publications (2)

Publication Number Publication Date
CN103902703A CN103902703A (zh) 2014-07-02
CN103902703B true CN103902703B (zh) 2016-02-10

Family

ID=50994025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410126495.2A Active CN103902703B (zh) 2014-03-31 2014-03-31 基于移动互联网访问的文本内容分类方法

Country Status (1)

Country Link
CN (1) CN103902703B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838886A (zh) * 2014-03-31 2014-06-04 辽宁四维科技发展有限公司 基于代表词知识库的文本内容分类方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528351A (zh) * 2014-09-29 2016-04-27 中国电信股份有限公司 一种移动终端获取互联网信息的内容去重方法及系统
CN106161352A (zh) * 2015-03-31 2016-11-23 阿里巴巴集团控股有限公司 一种匹配方法和客户端,服务器以及匹配设备
CN105117436B (zh) * 2015-08-10 2018-03-30 上海晶赞科技发展有限公司 网站频道自动挖掘方法
CN105930444A (zh) * 2016-04-20 2016-09-07 广州精点计算机科技有限公司 一种互联网用户分群方法及系统
CN105956002A (zh) * 2016-04-20 2016-09-21 广州精点计算机科技有限公司 一种基于url分析的网页分类方法及装置
CN106294861B (zh) * 2016-08-23 2019-08-09 武汉烽火普天信息技术有限公司 面向大规模数据的情报系统中文本聚合及展现方法及系统
CN109241274B (zh) * 2017-07-04 2022-01-25 腾讯科技(深圳)有限公司 文本聚类方法及装置
CN111258969B (zh) * 2018-11-30 2023-08-15 中国移动通信集团浙江有限公司 一种互联网访问日志解析方法及装置
CN109739849B (zh) * 2019-01-02 2021-06-29 山东省科学院情报研究所 一种数据驱动的网络敏感信息挖掘与预警平台
CN110008340A (zh) * 2019-03-27 2019-07-12 曲阜师范大学 一种多源文本知识表示、获取与融合系统
CN110460592B (zh) * 2019-07-26 2021-03-26 光通天下网络科技股份有限公司 Url分析方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN103136372A (zh) * 2013-03-21 2013-06-05 陕西通信信息技术有限公司 网络可信性行为管理中url快速定位、分类和过滤方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100592293C (zh) * 2007-04-28 2010-02-24 李树德 基于智能本体的知识搜索引擎及其实现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN103136372A (zh) * 2013-03-21 2013-06-05 陕西通信信息技术有限公司 网络可信性行为管理中url快速定位、分类和过滤方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838886A (zh) * 2014-03-31 2014-06-04 辽宁四维科技发展有限公司 基于代表词知识库的文本内容分类方法

Also Published As

Publication number Publication date
CN103902703A (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
CN103902703B (zh) 基于移动互联网访问的文本内容分类方法
US11580104B2 (en) Method, apparatus, device, and storage medium for intention recommendation
CN102831199B (zh) 建立兴趣模型的方法及装置
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN107862022B (zh) 文化资源推荐系统
CN104850574B (zh) 一种面向文本信息的敏感词过滤方法
CN103810162B (zh) 推荐网络信息的方法和系统
CN103838886A (zh) 基于代表词知识库的文本内容分类方法
CN110688553A (zh) 基于数据分析的信息推送方法、装置、计算机设备及存储介质
CN103546326B (zh) 一种网站流量统计的方法
US20080104037A1 (en) Automated scheme for identifying user intent in real-time
CN106202514A (zh) 基于Agent的突发事件跨媒体信息的检索方法及系统
CN102667761A (zh) 可扩展的集群数据库
CN103218431A (zh) 一种能识别网页信息自动采集的系统与方法
CN106874292A (zh) 话题处理方法及装置
CN112199508B (zh) 一种基于远程监督的参数自适应农业知识图谱推荐方法
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN109783619A (zh) 一种数据过滤挖掘方法
CN104809252A (zh) 互联网数据提取系统
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN111767443A (zh) 一种高效的网络爬虫分析平台
CN103914534B (zh) 基于专家系统url分类知识库的文本内容分类方法
CN108984514A (zh) 词语的获取方法及装置、存储介质、处理器
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
CN116775972A (zh) 基于信息技术的远端资源整理服务方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20151228

Address after: 110020 Shenyang, Liaoning, Tiexi District, No. nine small road 12 3-7-1

Applicant after: Guo Lei

Address before: 110043, Dadong Road, Dadong District, Liaoning, 134, two gate, two floor, Shenyang

Applicant before: LIAONING SIWEI SCIENCE AND TECHNOLOGY DEVELOPMENTCO., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200110

Address after: 100088 B601, floor 1, building 5, yard 13, Huayuan Road, Haidian District, Beijing

Patentee after: Beijing Dongfang Yixin Technology Co.,Ltd.

Address before: 110020, No. 12, No. nine, Tiexi Road, Shenyang District, Liaoning, 3-7-1

Patentee before: Guo Lei

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210928

Address after: 1530, Lin 10, No. 84, Wenquan Road, Wenquan Town, Haidian District, Beijing 100095

Patentee after: Beijing yunqi lechuang Technology Co.,Ltd.

Address before: 100088 B601, North 1st floor, building 5, yard 13, Huayuan Road, Haidian District, Beijing

Patentee before: Beijing Dongfang Yixin Technology Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220224

Address after: 101100 room 252, floor 2, building 7, courtyard 15, Tonghu street, Tongzhou District, Beijing

Patentee after: Beijing Zhongding Yixin Technology Co.,Ltd.

Address before: 1530, Lin 10, No. 84, Wenquan Road, Wenquan Town, Haidian District, Beijing 100095

Patentee before: Beijing yunqi lechuang Technology Co.,Ltd.

TR01 Transfer of patent right
PP01 Preservation of patent right

Effective date of registration: 20221028

Granted publication date: 20160210

PP01 Preservation of patent right