CN103914534B

CN103914534B - 基于专家系统url分类知识库的文本内容分类方法

Info

Publication number: CN103914534B
Application number: CN201410127141.XA
Authority: CN
Inventors: 孙宏; 赵晓波; 季海东; 董童霖; 赵宇龙
Original assignee: Individual
Current assignee: Shanghai Pudong Software Park Information Technology Co ltd
Priority date: 2014-03-31
Filing date: 2014-03-31
Publication date: 2017-03-15
Anticipated expiration: 2034-03-31
Also published as: CN103914534A

Abstract

基于专家系统URL分类知识库的文本内容分类方法，属于海量大数据的内容分类领域。本发明采用人工智能专家系统的方法，通过“完全URL”、“含一级域名”、“不含一级域名”、“完整域名”和“不完整域名”等分类规则的推理，以及与其List下的“左侧”、“左右”、“包含”和“右侧”等分类知识的匹配；若内容分类推理匹配成功，则对“URL分类知识库”实时进行更新，将分类结果存储到“URL分类结果”中间数据文件中，内容分类结束。若推理匹配失败，则内容分类失败。对URL分类知识库的更新，使系统变得越来聪明，不仅提高了内容分类的效率，更重要是提高了内容分类的覆盖面和准确程度。

Description

基于专家系统URL分类知识库的文本内容分类方法

技术领域

本发明属于专家系统、知识库推理机、内容分类领域，特别是涉及到一个基于专家系统URL分类知识库的移动互联网访问内容的分类方法。

背景技术

随着移动移动互联网的迅猛发展，特备是3G、4G互联网普及，原本只有专业和时尚人士上网变成草根屌丝们都能上网，带来了全民上网的信息化时代，造成信息爆炸。有效的组织管理好互联网信息，并从这些海量的大数据中快速、准确、全面的获取客户的兴趣特征，是对当今信息科学技术领域的一大挑战。数据内容分类技术，作为处理海量互联网文本数据的关键技术，可以解决电信运营商智能营销的问题，达到提高效率、降低成本、减少投诉、增加收益精细化运营的目的。

中国移动、中国电信和中国联通三大运营商每天从固网(IP网)、移动互联网(2G、3G、4G)从DPI分光数据中获取的移动互联网访问数据规模，小者几亿条访问记录，多者上百亿，因此URL页面分类工作是用户移动互联网访问行为分析的基础。传统移动互联网内容分类多数采用的是域名分类法或网站分类法进行内容分类。实际上，网站和域名分类法就是人工梳理网站的频道(或栏目)、子频道(或子栏目)，其缺点第一是分类准确性很低，包含有大量的“有效”页面URL在分类之中；第二是属于人工分类、不能实现机器自动分类；第三是分类的类别太多，多达四五千个类别，而实际工作中只需要百十余个，因此不能准确地刻画客户的兴趣特征，同时还浪费了大量系统资源；第四是分类不灵活，网站没有的频道或栏目就无法进行分类。特别是，基于移动互联网访问的文本内容分类是对＂有效＂内容的分类，要求能够通过该内容分析客户在移动互联网上的访问行为，来精准地刻画客户的兴趣特征，达到降低运营成本、提高服务水平、减少客户投诉、增加企业收益的智能营销的目的。

因此，本发明就是要解决海量大数据用户移动互联网访问的内容分类问题。

发明内容

鉴于以上存在的问题，本发明的目的在于：提供一种通过人工智能专家系统构建的基于URL内容分类知识库的文本内容分类方法，旨在解决电信运营商百亿级海量“有效”内容(页面URL)的分类问题。

本发明的目的是通过如下技术方案实现：

一种基于专家系统URL分类知识库的文本内容分类方法，其特征在于，包括：如下步骤：

(1)“完全URL”分类知识推理：对于通过URL清理过后的有效访问数据，从“URL分类知识库”读取基于URL的内容分类知识，在完全URL特征的Hash散列表中，推理是在清洗后的“有效”访问记录页面中否存在“完全URL”为内容分类特征。若存在，执行步骤(6)推理。若不存在，则进行步骤(2)推理；

(2)“含一级域名”分类知识推理：从“有效”的访问页面URL中截取“一级域名”，构造为特征容器包装类TSDL，在“一级域名”特征的Hash散列表中，推理是否存在TSDL为内容分类特征？若存在“一级域名”，则进行步骤(4)推理。若不存在，则执行步骤(3)推理；

(3)“不含一级域名”分类知识推理：获取不含一级域名内容分类特征的知识List，在List中包括左侧、左右和包含三类匹配知识，按照知识特征的置信度降幂顺序进行匹配推理。若匹配成功，则执行步骤(6)推理。若匹配失败，则内容分类结束；

(4)“完整域名”分类知识推理：从“有效”的访问页面URL中截取“完整域名”，构造为特征容器包装类DOMAIN，在完整域名特征的Hash散列表中，推理是否存在DOMAIN为内容分类特征；若存在，则获取完整域名“有效”特征的知识List，在List中有右侧匹配知和包含匹配识。若匹配成功，则执行步骤(6)推理。若匹配失败，则况执行步骤(5)推理。

(5)“不完整域名”分类知识推理：获取“不完整域名”内容分类特征知识的List，在List中包括左侧、左右和包含三类匹配知识，按照完整域名知识特征的置信度降幂顺序进行匹配推理。若匹配成功，则执行步骤(6)推理；若匹配失败，则执行步骤(3)推理；

(6)若内容分类推理匹配成功，则对“URL分类知识库”实时更新，同时将内容分类结果存储到“URL分类结果”数据文件中，内容分类结束。

所述步骤(6)的“URL分类知识库”中对知识需要进行更新，其步骤如下：

(1)根据客户移动互联网访问行为分析，计算出用户访问内容分类页面URL的PV值(Page View值)和置信度，并给出内容分类页面和对应的URL特征的Top排名；

(2)新增内容分类知识的添加：根据内容分类页面的置信度，经人工确认，将新URL内容分类知识添加到规则中，即将完全URL、一级域名和完整域名Hash特征包装类中的知识添加到URL分类知识库中，和将特征包装类构造下的List中的后缀规则、右侧规则、左侧规则、包含规则和左右规则中的知识添加到“URL分类知识库”中；

(3)内容分类推理规则的更新：实时更新基于URL内容分类的推理规则，即在完全URL、一级域名和完整域名Hash特征包装类中更新检索序列，在特征包装类构造下的List中更新后缀规则、右侧规则、左侧规则、包含规则和左右规则中更新内容分类推理知识的优先级别；

(4)内容分类陈旧知识的删除：根据客户移动互联网访问行为分析，若URL内容分类知识N天没有被使用过，则认定为陈旧知识，从“URL分类知识库中”删除；N即预先设置的阈值。

本发明方案的工作原理及技术效果：

本发明涉及到一个专家系统(ExpertSystem)，起源于20世纪60年代，属于人工智能的一个发展分支，是一个或一组能在某些特定领域内，应用大量的专家知识和推理方法求解复杂问题的一种人工智能计算机程序。通常由人机交互界面、知识库、推理机、解释器、综合数据库、知识获取等6个部分构成。本发明只涉及基于“URL分类知识库”的页面URL的内容分类推理方法，不涉及专家系统的人机交互界面、解释器、综合数据库和知识获取。

本发明是涉及到一个完整URL构成：协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀？参数＝值#标志。顶级域名分为国际和国内，如，.com为国际顶级域名，.cn为国家顶级域名。一级域名是在顶级域名前再加一级，如baidu.com、sina.com.cn；二级域名是在一级域名前再加一级，如music.baidu.com、sports.sina.com.cn，以此类推N级域名。本发明中的完整域名＝子域名+域名+顶级域名。

本发明对如此复杂的、海量的访问数据，首先要根据“URL分类知识库”存储的移动互联网内容分类知识，然后调用“URL内容分类推理机”对“有效”页面进行分类。

本发明涉及到的“URL分类知识库”中的知识由两种形式组成：

1)“完整URL”、“一级域名”和“完整域名”构成的Hash Table知识

2)由通配符组成URL集合的左侧匹配、右侧匹配、左右匹配和包含匹配等List知识

“URL分类知识库”内容分类的类别是可维护的，可以随时根据运营商市场营销的要求进行重新设置。分类类别可以是一级，也可以是多级，比如：三级体育分类为“体育→篮球→NBA”。每一次知识库类别重新设置均需要重新构建“URL分类知识库”，即通过初始集、训练集和测试集来建立。

“URL分类知识库”初始集的建立是通过移动互联网客户行为分析，获取一天“有效”访问页面URL浏览数(PV值)的Top N排名作为训练集，再用下一天“有效”访问页面URL浏览数的Top N排名作为测试集，来检查分析“有效”访问页面抽取的准确性和覆盖程度是否达到预想的M％。当覆盖程度达到M％以上时，则“URL分类知识库”初始集建立完成。当覆盖程度达不到M％时，则再取下一天的Top N“有效”访问页面数据作为训练集继续训练，直至达到为止。其中：N和M％为预先设置的经验阈值。

本发明中的“URL分类推理机”是基于Hash散列表数据结构架构下，其内容分类推理过程如下：

对于移动互联网访问的“有效”访问页面URL，从“URL分类知识库”中读取内容分类知识，在“完全URL”特征的Hash散列表中，进行第一级推理，即推理是否存在“完全URL”为“有效”页面特征。例如：在某一时间段内，在Hash散列表中存储的完全Urlinfo为“有效”页面特征的知识如下：

索引值	Hash列表中的“完整URL”内容分类规则	类别	置信度
				0	launcher.warcraftchina.com/2.0/？locale＝zh-CN	网络游戏	3.15％
1	www.222tk.com/	彩票	2.87％
				2	street.yoka.com/clockbeauty/	时尚	2.45％
3	3g.eastmoney.com/Money.aspx	财经	1.67％
				4	house.lsfc.net.cn/sellinfo.asp？id＝1097356	房产	1.54％
	……

若在完全URL特征的Hash散列表中存在“完全URL”，则将成功内容分类的“有效”访问页面存储到“URL分类结果”中间文件中，同时重新计算该条分类知识的置信度，更新“URL分类知识库”的内容分类知识。

若在“完全URL”特征的Hash散列表中不存在“完全URL”，则进行“含一级域名”的推理，从原始URL中截取“一级域名”，构造为特征容器包装类TSDL，在“一级域名”特征的Hash散列表中，匹配是否存在TSDL为内容分类特征。例如：在某一时间段内，在Hash散列表中存储的“一级域名”为内容分类特征的知识如下：

索引值	Hash列表中的“一级域名”内容分类规则	置信度
			0	Entry＝sina.com.cn	4.32％
1	Entry＝sohu.com	3.98％
			2	Entry＝ifeng.com	3.45％
3	Entry＝sina.cn	2.65％
			4	Entry＝qidian.cn	2.14％
	……

若在Hash散列表中不存在“一级域名”，则进行“不含一级域名”的推理，获取不含一级域名内容分类特征的知识List，在List中包括左侧、左右和包含三类匹配知识。例如，在不含“一级域名”List下的左侧匹配知识如下：

例如，在不含“一级域名”List下的左右匹配知识如下：

例如，在不含“一级域名”List下的包含匹配知识如下：

然后，按照List下知识特征的置信度降幂顺序进行匹配推理，若匹配成功，则将成功内容分类的访问页面存储到“URL分类结果”中间文件中，同时重新计算该条分类知识的置信度，更新“URL分类知识库”的内容分类知识。若匹配失败，则内容分类结束。

若在Hash散列表中存在“一级域名”，则进行“含一级域名”推理，即“完整域名”推理：从原始URL中截取“完整域名”，构造为特征容器包装类DOMAIN，在“完整域名”特征的Hash散列表中，推理是否存在DOMAIN为内容分类特征。例如：在某一时间段内，在Hash散列表中存储的“完整域名”为内容分类特征的知识如下：

若在Hash散列表中存在“完整域名”，则获取“完整域名”内容分类特征知识的List，在List中有右侧匹配和包含匹配两类知识。例如，在存在“完整域名”List下的右侧匹配知识如下：

例如，在存在“完整域名”List下的包含匹配知识如下：

然后，按照List下知识特征的置信度降幂顺序进行匹配推理。如果匹配成功，则将成功内容分类的访问页面存储到“URL分类结果”中间文件中，同时重新计算该条分类知识的置信度，更新“URL分类知识库”。若匹配失败，转向在Hash散列表中不存在“完整域名”的情况。

若在Hash散列表中不存在“完整域名”，则获取“不完整域名”特征知识的List，在List中包括左侧、左右和包含三类匹配知识。例如，在不存在“完整域名”List下的右侧匹配知识如下：

例如，在不存在“完整域名”List下的左右匹配知识如下：

例如，在不存在“完整域名”List下的包含匹配知识如下：

然后，按照List下知识特征的置信度降幂顺序进行匹配推理，如果匹配成功，则将成功内容分类的访问页面存储到“URL分类结果”中间文件中，同时重新计算该条分类知识的置信度，更新“URL分类知识库”。若匹配失败，转向“不含一级域名”的推理。

本发明中的“URL分类知识库”更新包括三个模块，添加、更新和删除三个模块。首先，是添加新的内容分类知识，通过移动互联网用户行为分析，计算出有效页面URL的置信度(Page View值)，根据置信度的Top排名经人工确认根据有效页面的置信度，经人工确认，将新URL内容分类知识添加到规则中，即在完全匹配、一级域名和完整域名Hash特征包装类中添加内容分类知识到“URL分类知识库”中，和在特征包装类构造下的List中的后缀规则、右侧规则、左侧规则、包含规则和左右规则中添加内容分类知识到“URL分类知识库”中。

其次，是实时更新基于URL内容分类的推理规则，即在完全匹配、一级域名和完整域名Hash特征包装类中更新检索序列，在特征包装类构造下的List中更新后缀规则、右侧规则、左侧规则、包含规则和左右规则的推理优先级别；

最后，根据移动互联网用户行为分析，来判断是否删除陈旧的知识。若URL内容分类知识N天没有被使用过，则认定为陈旧的知识，从“URL分类知识库”中删除，天数N为预先设置的阈值。

本发明采用的技术方案，其特点在于通过专家确认的“URL分类知识库”，通过完全URL、含一级域名、不含一级域名、完整域名和不完整域名等清晰规则的推理，以及与其下List的左侧、右侧、左右和包含等清洗知识的匹配，将“有效”的访问记录页面URL进行分类，其内容分类速度、效率、准确率方面与其他数据清洗方法相比，有了极大地提高。

附图说明

图1是基于专家系统URL分类知识库的“有效”内容分类方法的流程图。

图2是基于专家系统URL分类知识库的添加、更新和删除等维护方法的流程图。

具体实施方式

本发明是在专家系统下，基于URL分类知识库，将“有效”的移动互联网访问的内容进行分类，下面结合附图进行详细说明：

在图1中，基于专家系统“URL分类知识库”、在Hash散列表数据结构架构下，其内容分类推理过程如下：

步骤1：调用101模块从102“清洗后移动互联网访问记录”数据文件中读取“有效”的访问记录。

步骤2：调用103模块从104“URL分类知识库”读取URL内容分类知识，然后在“完全URL”特征的Hash散列表中，进行第一级推理，即推理在清洗后的“有效”内容页面中是否存在“完全URL”为内容分类特征。

步骤3：根据105模块判断在“完全URL”特征的Hash散列表中是否存在完全Urlinfo？若存在，内容分类成功，调用116模块将分类结果的访问页面存储到117“URL分类结果”中间文件中，同时调用118模块重新计算该条分类知识的置信度，更新104“URL分类知识库”中的内容分类知识，内容分类结束。若不存在，则进行步骤4推理。

步骤4：调用106模块，从清洗后的“有效”的访问记录URL中截取“一级域名”，构造为特征容器包装类TSDL，在“一级域名”特征的Hash散列表中，根据107模块推理是否存在TSDL为内容分类特征？若不存在“一级域名”，则执行步骤5推理。若存在，则执行步骤6推理；

步骤5：调用108模块获取不含“一级域名”特征知识的List，在List中包括左侧、左右和包含三类匹配知识。按照List下知识特征的置信度降幂顺序进行匹配推理。若匹配成功，即内容分类成功，调用116模块将分类结果的访问页面存储到117“URL分类结果”中间文件中，同时调用118模块重新计算该条分类知识的置信度，更新104“URL分类知识库”中的内容分类知识。若匹配失败，则推理完成、内容分类结束；

步骤6：若存在“一级域名”，则进行“完整域名”内容分类推理。调用109模块，从清洗后的“有效”的访问页面URL中截取“完整域名”，构造为特征容器包装类DOMAIN，在完整域名特征的Hash散列表中，根据110模块推理是否存在DOMAIN为内容分类特征？若存在，则执行步骤7推理。若不存在，则执行步骤8推理；

步骤7：若存在“完整域名”，则调用111模块获取“完整域名”的内容分类特征知识List，在其List中获取右侧匹配和包含匹配知识，然后按照List下知识特征的置信度降幂顺序进行匹配推理，根据112模块判断匹配是否成功。若匹配成功，即内容分类成功，调用116模块将分类结果的访问页面存储到117“URL分类结果”中间文件中，同时调用118模块重新计算该条分类知识的置信度，更新104“URL分类知识库”中的内容分类知识，内容分类结束。若匹配失败，转向步骤8。若匹配失败，则执行步骤8推理；

步骤8：不存在“完整域名”推理：调用113模块获取不“完整域名”内容分类特征知识的List，在List中包括左侧、左右和包含三类匹配知识。按照List下知识特征的置信度降幂顺序进行匹配推理。根据114模块判断匹配是否成功？若匹配成功，即内容分类成功，调用116模块将分类结果的访问页面存储到117“URL分类结果”中间文件中，同时调用118模块重新计算该条分类知识的置信度，更新104“URL分类知识库”中的内容分类知识。若匹配失败，则执行步骤5推理。

在图2中，“URL分类知识库”的添加、维护和删除维护过程如下：

步骤1，调用201模块进行基于移动互联网的客户访问行为分析，即根据202“新增URL特征数据”中间文件的新增知识，分析客户在移动互联网上访问兴趣特征呈现出来的规律，计算出内容分类页面知识的置信度。

步骤2，调用203模块进行新增URL内容分类知识的添加，根据新增分类URL知识特征的置信度，即在Hash表中添加完全URL、一级域名、完整域名等内容分类检索特征，在各特征下List里的左侧、左右、包含和右侧规则中添加内容分类知识，并根据置信度确定优先级别。经人工确认205后，调用206模块将新增URL内容分类知识添加到204“URL分类知识库”中。

步骤3，调用207模块进行URL内容分类推理规则的更新，从204“URL分类知识库”中调出全部的内容分类知识，在页面URL内容分类过程中，实时维护在各特征下List里的左侧、左右、包含和右侧规则中的内容分类知识，计算其置信度重新确定其推理的优先级别。然后调用208模块对204“URL分类知识库”进行更新。

步骤4，调用209模块删除陈旧的知识，从204“URL分类知识库”中调出全部的内容分类知识，挖掘出N天没有使用过“有效”URL内容分类的知识，并从204“URL分类知识库”中删除。

Claims

1.基于专家系统URL 分类知识库的文本内容分类方法，其特征在于，包括：

（1）完全URL分类知识推理：对于通过URL 清理过后的有效访问数据，从URL 分类知识库读取基于URL 的内容分类知识，在完全URL 特征的Hash 散列表中，推理在清洗后的有效访问记录页面中是否存在完全URL为内容分类特征；若存在，执行步骤（6）推理; 若不存在，则进行步骤（2）推理；

（2）含一级域名分类知识推理：从有效的访问页面URL 中截取一级域名，构造为特征容器包装类TSDL，在一级域名特征的Hash 散列表中，推理是否存在TSDL 为内容分类特征；若存在一级域名，则进行步骤（4）推理；若不存在，则执行步骤（3）推理；

（3）不含一级域名分类知识推理：获取不含一级域名内容分类特征的知识List，在List中包括左侧、左右和包含三类匹配知识，按照知识特征的置信度降幂顺序进行匹配推理；若匹配成功，则执行步骤（6）推理；若匹配失败，则内容分类结束；

（4）完整域名分类知识推理：从有效的访问页面URL 中截取完整域名，构造为特征容器包装类DOMAIN，在完整域名特征的Hash 散列表中，推理是否存在DOMAIN 为内容分类特征；若存在，则获取完整域名有效特征的知识List，在List 中有右侧匹配和包含匹配知识；若匹配成功，则执行步骤（6）推理；若匹配失败，则执行步骤（5）推理;

（5）不完整域名分类知识推理：获取不完整域名内容分类特征知识的List，在List 中包括左侧、左右和包含三类匹配知识，按照不完整域名知识特征的置信度降幂顺序进行匹配推理；若匹配成功，则执行步骤（6）推理；若匹配失败，则执行步骤（3）推理；

（6）若内容分类推理匹配成功，则对URL 分类知识库实时更新，同时将内容分类结果存储到URL 分类结果数据文件中，内容分类结束。

2.如权利要求1 所述的基于专家系统URL 分类知识库的文本内容分类方法，其特征在于，所述的步骤（6）中对URL 分类知识库需要定期进行知识更新，其步骤如下：

（1）根据客户移动互联网访问行为分析，计算出用户访问内容分类页面URL 的PV 值（Page View 值）和置信度，并给出内容分类页面和对应的URL 特征的Top 排名；

（2）新增内容分类知识的添加：根据内容分类页面的置信度，经人工确认，将新URL 内容分类知识添加到规则中，即将完全URL、一级域名和完整域名Hash 特征包装类中的知识添加到URL 分类知识库中，和将特征包装类构造下的List 中的后缀规则、右侧规则、左侧规则、包含规则和左右规则中的知识添加到URL 分类知识库中；

（3）内容分类推理规则的更新：实时更新基于URL 内容分类的推理规则，即在完全URL、一级域名和完整域名Hash 特征包装类中更新检索序列，在特征包装类构造下的List 中更新后缀规则、右侧规则、左侧规则、包含规则和左右规则中更新内容分类推理知识的优先级别；

（4）内容分类陈旧知识的删除：根据客户移动互联网访问行为分析，若URL 内容分类知识N 天没有被使用过，则认定为陈旧知识，从URL 分类知识库中删除；N 即为预先设置的阈值。