CN103914534B - 基于专家系统url分类知识库的文本内容分类方法 - Google Patents

基于专家系统url分类知识库的文本内容分类方法 Download PDF

Info

Publication number
CN103914534B
CN103914534B CN201410127141.XA CN201410127141A CN103914534B CN 103914534 B CN103914534 B CN 103914534B CN 201410127141 A CN201410127141 A CN 201410127141A CN 103914534 B CN103914534 B CN 103914534B
Authority
CN
China
Prior art keywords
knowledge
url
reasoning
content
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410127141.XA
Other languages
English (en)
Other versions
CN103914534A (zh
Inventor
孙宏
赵晓波
季海东
董童霖
赵宇龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pudong Software Park Information Technology Co ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201410127141.XA priority Critical patent/CN103914534B/zh
Publication of CN103914534A publication Critical patent/CN103914534A/zh
Application granted granted Critical
Publication of CN103914534B publication Critical patent/CN103914534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于专家系统URL分类知识库的文本内容分类方法,属于海量大数据的内容分类领域。本发明采用人工智能专家系统的方法,通过“完全URL”、“含一级域名”、“不含一级域名”、“完整域名”和“不完整域名”等分类规则的推理,以及与其List下的“左侧”、“左右”、“包含”和“右侧”等分类知识的匹配;若内容分类推理匹配成功,则对“URL分类知识库”实时进行更新,将分类结果存储到“URL分类结果”中间数据文件中,内容分类结束。若推理匹配失败,则内容分类失败。对URL分类知识库的更新,使系统变得越来聪明,不仅提高了内容分类的效率,更重要是提高了内容分类的覆盖面和准确程度。

Description

基于专家系统URL分类知识库的文本内容分类方法
技术领域
本发明属于专家系统、知识库推理机、内容分类领域,特别是涉及到一个基于专家系统URL分类知识库的移动互联网访问内容的分类方法。
背景技术
随着移动移动互联网的迅猛发展,特备是3G、4G互联网普及,原本只有专业和时尚人士上网变成草根屌丝们都能上网,带来了全民上网的信息化时代,造成信息爆炸。有效的组织管理好互联网信息,并从这些海量的大数据中快速、准确、全面的获取客户的兴趣特征,是对当今信息科学技术领域的一大挑战。数据内容分类技术,作为处理海量互联网文本数据的关键技术,可以解决电信运营商智能营销的问题,达到提高效率、降低成本、减少投诉、增加收益精细化运营的目的。
中国移动、中国电信和中国联通三大运营商每天从固网(IP网)、移动互联网(2G、3G、4G)从DPI分光数据中获取的移动互联网访问数据规模,小者几亿条访问记录,多者上百亿,因此URL页面分类工作是用户移动互联网访问行为分析的基础。传统移动互联网内容分类多数采用的是域名分类法或网站分类法进行内容分类。实际上,网站和域名分类法就是人工梳理网站的频道(或栏目)、子频道(或子栏目),其缺点第一是分类准确性很低,包含有大量的“有效”页面URL在分类之中;第二是属于人工分类、不能实现机器自动分类;第三是分类的类别太多,多达四五千个类别,而实际工作中只需要百十余个,因此不能准确地刻画客户的兴趣特征,同时还浪费了大量系统资源;第四是分类不灵活,网站没有的频道或栏目就无法进行分类。特别是,基于移动互联网访问的文本内容分类是对"有效"内容的分类,要求能够通过该内容分析客户在移动互联网上的访问行为,来精准地刻画客户的兴趣特征,达到降低运营成本、提高服务水平、减少客户投诉、增加企业收益的智能营销的目的。
因此,本发明就是要解决海量大数据用户移动互联网访问的内容分类问题。
发明内容
鉴于以上存在的问题,本发明的目的在于:提供一种通过人工智能专家系统构建的基于URL内容分类知识库的文本内容分类方法,旨在解决电信运营商百亿级海量“有效”内容(页面URL)的分类问题。
本发明的目的是通过如下技术方案实现:
一种基于专家系统URL分类知识库的文本内容分类方法,其特征在于,包括:如下步骤:
(1)“完全URL”分类知识推理:对于通过URL清理过后的有效访问数据,从“URL分类知识库”读取基于URL的内容分类知识,在完全URL特征的Hash散列表中,推理是在清洗后的“有效”访问记录页面中否存在“完全URL”为内容分类特征。若存在,执行步骤(6)推理。若不存在,则进行步骤(2)推理;
(2)“含一级域名”分类知识推理:从“有效”的访问页面URL中截取“一级域名”,构造为特征容器包装类TSDL,在“一级域名”特征的Hash散列表中,推理是否存在TSDL为内容分类特征?若存在“一级域名”,则进行步骤(4)推理。若不存在,则执行步骤(3)推理;
(3)“不含一级域名”分类知识推理:获取不含一级域名内容分类特征的知识List,在List中包括左侧、左右和包含三类匹配知识,按照知识特征的置信度降幂顺序进行匹配推理。若匹配成功,则执行步骤(6)推理。若匹配失败,则内容分类结束;
(4)“完整域名”分类知识推理:从“有效”的访问页面URL中截取“完整域名”,构造为特征容器包装类DOMAIN,在完整域名特征的Hash散列表中,推理是否存在DOMAIN为内容分类特征;若存在,则获取完整域名“有效”特征的知识List,在List中有右侧匹配知和包含匹配识。若匹配成功,则执行步骤(6)推理。若匹配失败,则况执行步骤(5)推理。
(5)“不完整域名”分类知识推理:获取“不完整域名”内容分类特征知识的List,在List中包括左侧、左右和包含三类匹配知识,按照完整域名知识特征的置信度降幂顺序进行匹配推理。若匹配成功,则执行步骤(6)推理;若匹配失败,则执行步骤(3)推理;
(6)若内容分类推理匹配成功,则对“URL分类知识库”实时更新,同时将内容分类结果存储到“URL分类结果”数据文件中,内容分类结束。
所述步骤(6)的“URL分类知识库”中对知识需要进行更新,其步骤如下:
(1)根据客户移动互联网访问行为分析,计算出用户访问内容分类页面URL的PV值(Page View值)和置信度,并给出内容分类页面和对应的URL特征的Top排名;
(2)新增内容分类知识的添加:根据内容分类页面的置信度,经人工确认,将新URL内容分类知识添加到规则中,即将完全URL、一级域名和完整域名Hash特征包装类中的知识添加到URL分类知识库中,和将特征包装类构造下的List中的后缀规则、右侧规则、左侧规则、包含规则和左右规则中的知识添加到“URL分类知识库”中;
(3)内容分类推理规则的更新:实时更新基于URL内容分类的推理规则,即在完全URL、一级域名和完整域名Hash特征包装类中更新检索序列,在特征包装类构造下的List中更新后缀规则、右侧规则、左侧规则、包含规则和左右规则中更新内容分类推理知识的优先级别;
(4)内容分类陈旧知识的删除:根据客户移动互联网访问行为分析,若URL内容分类知识N天没有被使用过,则认定为陈旧知识,从“URL分类知识库中”删除;N即预先设置的阈值。
本发明方案的工作原理及技术效果:
本发明涉及到一个专家系统(ExpertSystem),起源于20世纪60年代,属于人工智能的一个发展分支,是一个或一组能在某些特定领域内,应用大量的专家知识和推理方法求解复杂问题的一种人工智能计算机程序。通常由人机交互界面、知识库、推理机、解释器、综合数据库、知识获取等6个部分构成。本发明只涉及基于“URL分类知识库”的页面URL的内容分类推理方法,不涉及专家系统的人机交互界面、解释器、综合数据库和知识获取。
本发明是涉及到一个完整URL构成:协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志。顶级域名分为国际和国内,如,.com为国际顶级域名,.cn为国家顶级域名。一级域名是在顶级域名前再加一级,如baidu.com、sina.com.cn;二级域名是在一级域名前再加一级,如music.baidu.com、sports.sina.com.cn,以此类推N级域名。本发明中的完整域名=子域名+域名+顶级域名。
本发明对如此复杂的、海量的访问数据,首先要根据“URL分类知识库”存储的移动互联网内容分类知识,然后调用“URL内容分类推理机”对“有效”页面进行分类。
本发明涉及到的“URL分类知识库”中的知识由两种形式组成:
1)“完整URL”、“一级域名”和“完整域名”构成的Hash Table知识
2)由通配符组成URL集合的左侧匹配、右侧匹配、左右匹配和包含匹配等List知识
“URL分类知识库”内容分类的类别是可维护的,可以随时根据运营商市场营销的要求进行重新设置。分类类别可以是一级,也可以是多级,比如:三级体育分类为“体育→篮球→NBA”。每一次知识库类别重新设置均需要重新构建“URL分类知识库”,即通过初始集、训练集和测试集来建立。
“URL分类知识库”初始集的建立是通过移动互联网客户行为分析,获取一天“有效”访问页面URL浏览数(PV值)的Top N排名作为训练集,再用下一天“有效”访问页面URL浏览数的Top N排名作为测试集,来检查分析“有效”访问页面抽取的准确性和覆盖程度是否达到预想的M%。当覆盖程度达到M%以上时,则“URL分类知识库”初始集建立完成。当覆盖程度达不到M%时,则再取下一天的Top N“有效”访问页面数据作为训练集继续训练,直至达到为止。其中:N和M%为预先设置的经验阈值。
本发明中的“URL分类推理机”是基于Hash散列表数据结构架构下,其内容分类推理过程如下:
对于移动互联网访问的“有效”访问页面URL,从“URL分类知识库”中读取内容分类知识,在“完全URL”特征的Hash散列表中,进行第一级推理,即推理是否存在“完全URL”为“有效”页面特征。例如:在某一时间段内,在Hash散列表中存储的完全Urlinfo为“有效”页面特征的知识如下:
索引值 Hash列表中的“完整URL”内容分类规则 类别 置信度
0 launcher.warcraftchina.com/2.0/?locale=zh-CN 网络游戏 3.15%
1 www.222tk.com/ 彩票 2.87%
2 street.yoka.com/clockbeauty/ 时尚 2.45%
3 3g.eastmoney.com/Money.aspx 财经 1.67%
4 house.lsfc.net.cn/sellinfo.asp?id=1097356 房产 1.54%
……
若在完全URL特征的Hash散列表中存在“完全URL”,则将成功内容分类的“有效”访问页面存储到“URL分类结果”中间文件中,同时重新计算该条分类知识的置信度,更新“URL分类知识库”的内容分类知识。
若在“完全URL”特征的Hash散列表中不存在“完全URL”,则进行“含一级域名”的推理,从原始URL中截取“一级域名”,构造为特征容器包装类TSDL,在“一级域名”特征的Hash散列表中,匹配是否存在TSDL为内容分类特征。例如:在某一时间段内,在Hash散列表中存储的“一级域名”为内容分类特征的知识如下:
索引值 Hash列表中的“一级域名”内容分类规则 置信度
0 Entry=sina.com.cn 4.32%
1 Entry=sohu.com 3.98%
2 Entry=ifeng.com 3.45%
3 Entry=sina.cn 2.65%
4 Entry=qidian.cn 2.14%
……
若在Hash散列表中不存在“一级域名”,则进行“不含一级域名”的推理,获取不含一级域名内容分类特征的知识List,在List中包括左侧、左右和包含三类匹配知识。例如,在不含“一级域名”List下的左侧匹配知识如下:
例如,在不含“一级域名”List下的左右匹配知识如下:
例如,在不含“一级域名”List下的包含匹配知识如下:
然后,按照List下知识特征的置信度降幂顺序进行匹配推理,若匹配成功,则将成功内容分类的访问页面存储到“URL分类结果”中间文件中,同时重新计算该条分类知识的置信度,更新“URL分类知识库”的内容分类知识。若匹配失败,则内容分类结束。
若在Hash散列表中存在“一级域名”,则进行“含一级域名”推理,即“完整域名”推理:从原始URL中截取“完整域名”,构造为特征容器包装类DOMAIN,在“完整域名”特征的Hash散列表中,推理是否存在DOMAIN为内容分类特征。例如:在某一时间段内,在Hash散列表中存储的“完整域名”为内容分类特征的知识如下:
若在Hash散列表中存在“完整域名”,则获取“完整域名”内容分类特征知识的List,在List中有右侧匹配和包含匹配两类知识。例如,在存在“完整域名”List下的右侧匹配知识如下:
例如,在存在“完整域名”List下的包含匹配知识如下:
然后,按照List下知识特征的置信度降幂顺序进行匹配推理。如果匹配成功,则将成功内容分类的访问页面存储到“URL分类结果”中间文件中,同时重新计算该条分类知识的置信度,更新“URL分类知识库”。若匹配失败,转向在Hash散列表中不存在“完整域名”的情况。
若在Hash散列表中不存在“完整域名”,则获取“不完整域名”特征知识的List,在List中包括左侧、左右和包含三类匹配知识。例如,在不存在“完整域名”List下的右侧匹配知识如下:
例如,在不存在“完整域名”List下的左右匹配知识如下:
例如,在不存在“完整域名”List下的包含匹配知识如下:
然后,按照List下知识特征的置信度降幂顺序进行匹配推理,如果匹配成功,则将成功内容分类的访问页面存储到“URL分类结果”中间文件中,同时重新计算该条分类知识的置信度,更新“URL分类知识库”。若匹配失败,转向“不含一级域名”的推理。
本发明中的“URL分类知识库”更新包括三个模块,添加、更新和删除三个模块。首先,是添加新的内容分类知识,通过移动互联网用户行为分析,计算出有效页面URL的置信度(Page View值),根据置信度的Top排名经人工确认根据有效页面的置信度,经人工确认,将新URL内容分类知识添加到规则中,即在完全匹配、一级域名和完整域名Hash特征包装类中添加内容分类知识到“URL分类知识库”中,和在特征包装类构造下的List中的后缀规则、右侧规则、左侧规则、包含规则和左右规则中添加内容分类知识到“URL分类知识库”中。
其次,是实时更新基于URL内容分类的推理规则,即在完全匹配、一级域名和完整域名Hash特征包装类中更新检索序列,在特征包装类构造下的List中更新后缀规则、右侧规则、左侧规则、包含规则和左右规则的推理优先级别;
最后,根据移动互联网用户行为分析,来判断是否删除陈旧的知识。若URL内容分类知识N天没有被使用过,则认定为陈旧的知识,从“URL分类知识库”中删除,天数N为预先设置的阈值。
本发明采用的技术方案,其特点在于通过专家确认的“URL分类知识库”,通过完全URL、含一级域名、不含一级域名、完整域名和不完整域名等清晰规则的推理,以及与其下List的左侧、右侧、左右和包含等清洗知识的匹配,将“有效”的访问记录页面URL进行分类,其内容分类速度、效率、准确率方面与其他数据清洗方法相比,有了极大地提高。
附图说明
图1是基于专家系统URL分类知识库的“有效”内容分类方法的流程图。
图2是基于专家系统URL分类知识库的添加、更新和删除等维护方法的流程图。
具体实施方式
本发明是在专家系统下,基于URL分类知识库,将“有效”的移动互联网访问的内容进行分类,下面结合附图进行详细说明:
在图1中,基于专家系统“URL分类知识库”、在Hash散列表数据结构架构下,其内容分类推理过程如下:
步骤1:调用101模块从102“清洗后移动互联网访问记录”数据文件中读取“有效”的访问记录。
步骤2:调用103模块从104“URL分类知识库”读取URL内容分类知识,然后在“完全URL”特征的Hash散列表中,进行第一级推理,即推理在清洗后的“有效”内容页面中是否存在“完全URL”为内容分类特征。
步骤3:根据105模块判断在“完全URL”特征的Hash散列表中是否存在完全Urlinfo?若存在,内容分类成功,调用116模块将分类结果的访问页面存储到117“URL分类结果”中间文件中,同时调用118模块重新计算该条分类知识的置信度,更新104“URL分类知识库”中的内容分类知识,内容分类结束。若不存在,则进行步骤4推理。
步骤4:调用106模块,从清洗后的“有效”的访问记录URL中截取“一级域名”,构造为特征容器包装类TSDL,在“一级域名”特征的Hash散列表中,根据107模块推理是否存在TSDL为内容分类特征?若不存在“一级域名”,则执行步骤5推理。若存在,则执行步骤6推理;
步骤5:调用108模块获取不含“一级域名”特征知识的List,在List中包括左侧、左右和包含三类匹配知识。按照List下知识特征的置信度降幂顺序进行匹配推理。若匹配成功,即内容分类成功,调用116模块将分类结果的访问页面存储到117“URL分类结果”中间文件中,同时调用118模块重新计算该条分类知识的置信度,更新104“URL分类知识库”中的内容分类知识。若匹配失败,则推理完成、内容分类结束;
步骤6:若存在“一级域名”,则进行“完整域名”内容分类推理。调用109模块,从清洗后的“有效”的访问页面URL中截取“完整域名”,构造为特征容器包装类DOMAIN,在完整域名特征的Hash散列表中,根据110模块推理是否存在DOMAIN为内容分类特征?若存在,则执行步骤7推理。若不存在,则执行步骤8推理;
步骤7:若存在“完整域名”,则调用111模块获取“完整域名”的内容分类特征知识List,在其List中获取右侧匹配和包含匹配知识,然后按照List下知识特征的置信度降幂顺序进行匹配推理,根据112模块判断匹配是否成功。若匹配成功,即内容分类成功,调用116模块将分类结果的访问页面存储到117“URL分类结果”中间文件中,同时调用118模块重新计算该条分类知识的置信度,更新104“URL分类知识库”中的内容分类知识,内容分类结束。若匹配失败,转向步骤8。若匹配失败,则执行步骤8推理;
步骤8:不存在“完整域名”推理:调用113模块获取不“完整域名”内容分类特征知识的List,在List中包括左侧、左右和包含三类匹配知识。按照List下知识特征的置信度降幂顺序进行匹配推理。根据114模块判断匹配是否成功?若匹配成功,即内容分类成功,调用116模块将分类结果的访问页面存储到117“URL分类结果”中间文件中,同时调用118模块重新计算该条分类知识的置信度,更新104“URL分类知识库”中的内容分类知识。若匹配失败,则执行步骤5推理。
在图2中,“URL分类知识库”的添加、维护和删除维护过程如下:
步骤1,调用201模块进行基于移动互联网的客户访问行为分析,即根据202“新增URL特征数据”中间文件的新增知识,分析客户在移动互联网上访问兴趣特征呈现出来的规律,计算出内容分类页面知识的置信度。
步骤2,调用203模块进行新增URL内容分类知识的添加,根据新增分类URL知识特征的置信度,即在Hash表中添加完全URL、一级域名、完整域名等内容分类检索特征,在各特征下List里的左侧、左右、包含和右侧规则中添加内容分类知识,并根据置信度确定优先级别。经人工确认205后,调用206模块将新增URL内容分类知识添加到204“URL分类知识库”中。
步骤3,调用207模块进行URL内容分类推理规则的更新,从204“URL分类知识库”中调出全部的内容分类知识,在页面URL内容分类过程中,实时维护在各特征下List里的左侧、左右、包含和右侧规则中的内容分类知识,计算其置信度重新确定其推理的优先级别。然后调用208模块对204“URL分类知识库”进行更新。
步骤4,调用209模块删除陈旧的知识,从204“URL分类知识库”中调出全部的内容分类知识,挖掘出N天没有使用过“有效”URL内容分类的知识,并从204“URL分类知识库”中删除。

Claims (2)

1.基于专家系统URL 分类知识库的文本内容分类方法,其特征在于,包括:
(1)完全URL分类知识推理:对于通过URL 清理过后的有效访问数据,从URL 分类知识库读取基于URL 的内容分类知识,在完全URL 特征的Hash 散列表中,推理在清洗后的有效访问记录页面中是否存在完全URL为内容分类特征;若存在,执行步骤(6)推理; 若不存在,则进行步骤(2)推理;
(2)含一级域名分类知识推理:从有效的访问页面URL 中截取一级域名,构造为特征容器包装类TSDL,在一级域名特征的Hash 散列表中,推理是否存在TSDL 为内容分类特征;若存在一级域名,则进行步骤(4)推理;若不存在,则执行步骤(3)推理;
(3)不含一级域名分类知识推理:获取不含一级域名内容分类特征的知识List,在List中包括左侧、左右和包含三类匹配知识,按照知识特征的置信度降幂顺序进行匹配推理;若匹配成功,则执行步骤(6)推理;若匹配失败,则内容分类结束;
(4)完整域名分类知识推理:从有效的访问页面URL 中截取完整域名,构造为特征容器包装类DOMAIN,在完整域名特征的Hash 散列表中,推理是否存在DOMAIN 为内容分类特征;若存在,则获取完整域名有效特征的知识List,在List 中有右侧匹配和包含匹配知识;若匹配成功,则执行步骤(6)推理;若匹配失败,则执行步骤(5)推理;
(5)不完整域名分类知识推理:获取不完整域名内容分类特征知识的List,在List 中包括左侧、左右和包含三类匹配知识,按照不完整域名知识特征的置信度降幂顺序进行匹配推理;若匹配成功,则执行步骤(6)推理;若匹配失败,则执行步骤(3)推理;
(6)若内容分类推理匹配成功,则对URL 分类知识库实时更新,同时将内容分类结果存储到URL 分类结果数据文件中,内容分类结束。
2.如权利要求1 所述的基于专家系统URL 分类知识库的文本内容分类方法,其特征在于,所述的步骤(6)中对URL 分类知识库需要定期进行知识更新,其步骤如下:
(1)根据客户移动互联网访问行为分析,计算出用户访问内容分类页面URL 的PV 值(Page View 值)和置信度,并给出内容分类页面和对应的URL 特征的Top 排名;
(2)新增内容分类知识的添加:根据内容分类页面的置信度,经人工确认,将新URL 内容分类知识添加到规则中,即将完全URL、一级域名和完整域名Hash 特征包装类中的知识添加到URL 分类知识库中,和将特征包装类构造下的List 中的后缀规则、右侧规则、左侧规则、包含规则和左右规则中的知识添加到URL 分类知识库中;
(3)内容分类推理规则的更新:实时更新基于URL 内容分类的推理规则,即在完全URL、一级域名和完整域名Hash 特征包装类中更新检索序列,在特征包装类构造下的List 中更新后缀规则、右侧规则、左侧规则、包含规则和左右规则中更新内容分类推理知识的优先级别;
(4)内容分类陈旧知识的删除:根据客户移动互联网访问行为分析,若URL 内容分类知识N 天没有被使用过,则认定为陈旧知识,从URL 分类知识库中删除;N 即为预先设置的阈值。
CN201410127141.XA 2014-03-31 2014-03-31 基于专家系统url分类知识库的文本内容分类方法 Active CN103914534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410127141.XA CN103914534B (zh) 2014-03-31 2014-03-31 基于专家系统url分类知识库的文本内容分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410127141.XA CN103914534B (zh) 2014-03-31 2014-03-31 基于专家系统url分类知识库的文本内容分类方法

Publications (2)

Publication Number Publication Date
CN103914534A CN103914534A (zh) 2014-07-09
CN103914534B true CN103914534B (zh) 2017-03-15

Family

ID=51040214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410127141.XA Active CN103914534B (zh) 2014-03-31 2014-03-31 基于专家系统url分类知识库的文本内容分类方法

Country Status (1)

Country Link
CN (1) CN103914534B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045782A (zh) * 2014-11-14 2015-11-11 国家电网公司 一种铁磁谐振故障知识库构建方法
CN104820674B (zh) * 2015-04-02 2018-04-27 北京网康科技有限公司 一种网页分类方法及装置
CN107257390B (zh) * 2017-05-27 2020-10-09 北京思特奇信息技术股份有限公司 一种url地址的解析方法和系统
CN108197638B (zh) * 2017-12-12 2020-03-20 阿里巴巴集团控股有限公司 对待评估样本进行分类的方法及装置
CN109522461B (zh) * 2018-10-08 2021-02-05 厦门快商通信息技术有限公司 基于正则表达式的url清洗方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590707B2 (en) * 2006-08-07 2009-09-15 Webroot Software, Inc. Method and system for identifying network addresses associated with suspect network destinations
US8307431B2 (en) * 2008-05-30 2012-11-06 At&T Intellectual Property I, L.P. Method and apparatus for identifying phishing websites in network traffic using generated regular expressions
CN102819591A (zh) * 2012-08-07 2012-12-12 北京网康科技有限公司 一种基于内容的网页分类方法及系统
CN102955810A (zh) * 2011-08-26 2013-03-06 中国移动通信集团公司 一种网页分类方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590707B2 (en) * 2006-08-07 2009-09-15 Webroot Software, Inc. Method and system for identifying network addresses associated with suspect network destinations
US8307431B2 (en) * 2008-05-30 2012-11-06 At&T Intellectual Property I, L.P. Method and apparatus for identifying phishing websites in network traffic using generated regular expressions
CN102955810A (zh) * 2011-08-26 2013-03-06 中国移动通信集团公司 一种网页分类方法和设备
CN102819591A (zh) * 2012-08-07 2012-12-12 北京网康科技有限公司 一种基于内容的网页分类方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Fast Webpage Classification Using URL Features";Min-Yen Kan et al.;《Proceedings of 14th ACM international conference on Information and knowledge management》;20051031;全文 *
"基于URL主题的查询分类方法";张宇等;《计算机研究与发展》;20120813;第49卷(第6期);全文 *
"基于域名信息的钓鱼URL探测";郑礼雄等;《计算机工程》;20120531;第38卷(第10期);全文 *

Also Published As

Publication number Publication date
CN103914534A (zh) 2014-07-09

Similar Documents

Publication Publication Date Title
CN103902703B (zh) 基于移动互联网访问的文本内容分类方法
CN103914534B (zh) 基于专家系统url分类知识库的文本内容分类方法
CN108364028A (zh) 一种基于深度学习的互联网网站自动分类方法
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN103546326B (zh) 一种网站流量统计的方法
CN101820366B (zh) 一种基于预取的钓鱼网页检测方法
CN102831234B (zh) 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN105138558B (zh) 基于用户访问内容的实时个性化信息采集方法
CN102819591B (zh) 一种基于内容的网页分类方法及系统
CN103955842B (zh) 一种面向大规模媒体数据的在线广告推荐系统及方法
CN107220295A (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
CN107169001A (zh) 一种基于众包反馈和主动学习的文本分类模型优化方法
CN104166668A (zh) 基于folfm模型的新闻推荐系统及方法
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN104077407B (zh) 一种智能数据搜索系统及方法
CN103268350A (zh) 一种互联网舆情信息监测系统及监测方法
CN107341183A (zh) 一种基于暗网网站综合特征的网站分类方法
CN105468744A (zh) 一种实现税务舆情分析和全文检索的大数据平台
CN103838886A (zh) 基于代表词知识库的文本内容分类方法
CN104809252A (zh) 互联网数据提取系统
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
CN108733791A (zh) 网络事件检测方法
CN102043811A (zh) 一种医疗信息的评估方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20151228

Address after: 110020 Shenyang, Liaoning, Tiexi District, No. nine small road 12 3-7-1

Applicant after: Guo Lei

Address before: 110043, Dadong Road, Dadong District, Liaoning, 134, two gate, two floor, Shenyang

Applicant before: LIAONING SIWEI SCIENCE AND TECHNOLOGY DEVELOPMENT CO., LTD.

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200119

Address after: 525200 Yunjie Gem Village, Shanmei Street, Gaozhou City, Maoming City, Guangdong Province

Patentee after: Chen Kun

Address before: 110020, No. 12, No. nine, Tiexi Road, Shenyang District, Liaoning, 3-7-1

Patentee before: Guo Lei

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200420

Address after: 200120 unit B, C, D, e, floor 4, building 3, No. 100, Lane 1505, Zuchongzhi Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Patentee after: SHANGHAI PUDONG SOFTWARE PARK INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 525200 Yunjie Gem Village, Shanmei Street, Gaozhou City, Maoming City, Guangdong Province

Patentee before: Chen Kun

TR01 Transfer of patent right