CN106484919A - 一种基于网页独立词的行业网站分类方法和系统 - Google Patents

一种基于网页独立词的行业网站分类方法和系统 Download PDF

Info

Publication number
CN106484919A
CN106484919A CN201611004881.XA CN201611004881A CN106484919A CN 106484919 A CN106484919 A CN 106484919A CN 201611004881 A CN201611004881 A CN 201611004881A CN 106484919 A CN106484919 A CN 106484919A
Authority
CN
China
Prior art keywords
word
autonomous word
autonomous
website
feature database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611004881.XA
Other languages
English (en)
Inventor
胡晓光
刘贺
唐斌
刘刚
唐新民
沈智杰
景晓军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SURFILTER NETWORK TECHNOLOGY Co Ltd
Original Assignee
SURFILTER NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SURFILTER NETWORK TECHNOLOGY Co Ltd filed Critical SURFILTER NETWORK TECHNOLOGY Co Ltd
Priority to CN201611004881.XA priority Critical patent/CN106484919A/zh
Publication of CN106484919A publication Critical patent/CN106484919A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于网页独立词的行业网站分类方法,包括:根据已知网站样本库建立独立词特征库,独立词特征库包括用于判定网站类别的多个独立词和对应的多个独立词加权值;提取未知网站的网站首页中的独立词;以及将从未知网站提取的独立词与独立词特征库进行匹配,计算加权得分,并根据加权得分和预设阈值来生成判定结果。本发明简化了现有基于机器学习和空间向量分析对特定行业网站进行分类判定的过程和方法将网页关键特征进行了抽象和加权评分,排除了空间向量分析方法中的干扰向量维度,将多维空间降低到了二维空间进行分析判定,经过人为对独立词判定结果进行审核确认,提高了其判定的准确率和召回率。

Description

一种基于网页独立词的行业网站分类方法和系统
技术领域
本发明涉及互联网技术,尤其涉及一种基于网页独立词的行业网站分类方法和系统。
背景技术
近年来互联网金融网站如雨后春笋般的出现,但是出现提现困难和跑路的互联网金融网站的比例占到了整体数量的1/3。国家相关管理机构也开始关注和出台政策治理互联网金融网站,特别是P2P网贷网站。因此,首先需要在广泛的网络环境中对网站进行分类,即发现哪些网站是网贷网站。
在现有的网站分类方法中,主要通过提取网站的多维向量特征,建立空间向量模型,并通过计算空间向量余弦夹角的方式来对网站进行分类。然而针对特定的行业网站(例如,互联网网贷网站),这种分类方法主要存在以下不足:上述方法通过对网页的全部内容建立空间向量模型,通用性较强,针对性较弱,会存在较多的噪声向量,导致判定不准确;上述方法对相似网站的排除性较差,如网贷网站和金融咨询网站之间容易出现判断错误;行业网站的页面的布局、信息非常复杂,通过空间向量模型很难找全反例样本,这就导致了对未知网站判定的不确定性;基于空间向量的判断方式,存在统计概率性,相同的网站在不同的测试样本集中,可能会出现不同的结果。
因此,针对特定的行业网站,需要一种针对性较强、准确率高和召回率高的网站分类方法。
发明内容
本发明的目的在于解决现有的网站分类方法在对行业网站进行分类时针对性较弱、准确率低和召回率低的问题,提供一种基于网页独立词的行业网站分类方法和系统以提高行业网站分类的针对性、准确率和召回率。
一方面,本发明实施例提供一种基于网页独立词的行业网站分类方法,包括以下步骤:
步骤S1:根据已知网站样本库建立独立词特征库,所述独立词特征库包括用于判定网站类别的多个独立词和对应的多个独立词加权值;
步骤S2:提取未知网站的网站首页中的独立词;以及
步骤S3:将从所述未知网站提取的独立词与所述步骤S1中获得的所述独立词特征库进行匹配,计算加权得分,并根据所述加权得分和预设阈值来生成判定结果。
优选地,还包括:
步骤S4:对所述判定结果进行人工审核,根据审核结果调整优化所述独立词特征库。
优选地,所述步骤S1包括:
步骤S11:对所述已知网站样本库中的多个网站的网站首页进行分析,从独立HTML标签、title标签、keyword标签和description标签中提取多个关键字;
步骤S12:排除所述多个关键字中对判定网站类别无用的干扰词,得到所述多个独立词;
步骤S13:统计所述多个独立词的词频,并根据所述词频对所述多个独立词进行排序;
步骤S14:设置所述多个独立词各自的独立词加权值,得到所述独立词特征库。
优选地,在所述步骤S14之后,所述步骤S1还包括:
步骤S15:对所述多个独立词的判定运行效果进行人工审核,提取用于确定网站类别的正向独立词和用于排除相似类别网站的反向独立词,并对所述正向独立词和所述反向独立词进行人工加权打分。
优选地,在所述步骤S1和所述步骤S2之间还包括:
步骤S01:对步骤S1中得到的所述多个独立词进行SVM样本训练,形成SVM特征库。
优选地,在所述步骤S3包括:
步骤S31:将从所述未知网站提取的独立词与所述步骤S1中获得的所述独立词特征库进行匹配,计算加权得分;
步骤S32:将从所述未知网站提取的独立词作为SVM的计算集输入,根据所述SVM特征库得到SVM分类结果;
步骤S33:根据所述SVM分类结果对所述加权得分进行修正,并根据修正后的加权得分和所述预设阈值来生成判定结果。
相应地,本发明还提供一种基于网页独立词的行业网站分类系统,包括:
独立词特征库建立模块,用于根据已知网站样本库建立独立词特征库,所述独立词特征库包括用于判定网站类别的多个独立词和对应的多个独立词加权值;
独立词提取模块,用于提取未知网站的网站首页中的独立词;以及
判定模块,用于将从所述未知网站提取的独立词与所述独立词特征库建立模块建立的所述独立词特征库进行匹配,计算加权得分,并根据所述加权得分和预设阈值来生成判定结果。
优选地,还包括:
调整优化模块,用于对所述判定结果进行人工审核,根据审核结果调整优化所述独立词特征库。
优选地,所述独立词特征库建立模块包括:
关键字提取单元,用于对所述已知网站样本库中的多个网站的网站首页进行分析,从独立HTML标签、title标签、keyword标签和description标签中提取多个关键字;
排除单元,用于排除所述多个关键字中对判定网站类别无用的干扰词,得到所述多个独立词;
统计单元,用于统计所述多个独立词的词频,并根据所述词频对所述多个独立词进行排序;
设置单元,用于设置所述多个独立词各自的独立词加权值,得到所述独立词特征库;
判定效果审核单元,用于对所述多个独立词的判定运行效果进行人工审核,提取用于确定网站类别的正向独立词和用于排除相似类别网站的反向独立词,并对所述正向独立词和所述反向独立词进行人工加权打分。
优选地,还包括:
SVM特征库生成模块,用于对所述独立词特征库建立模块中的所述多个独立词进行SVM样本训练,形成SVM特征库;
所述判定模块包括:
加权单元,用于将从所述未知网站提取的独立词与所述独立词特征库建立模块建立的所述独立词特征库进行匹配,计算加权得分;
SVM分类单元,用于将从所述未知网站提取的独立词作为SVM的计算集输入,根据所述SVM特征库得到SVM分类结果;
修正单元,用于根据所述SVM分类结果对所述加权得分进行修正,并根据修正后的加权得分和所述预设阈值来生成判定结果。
实施本发明实施例,具有如下有益效果:本发明提供的基于网页独立词的行业网站分类方法和系统简化了现有基于机器学习和空间向量分析对特定行业网站进行分类判定的过程和方法,独立词的提取符合人的思考逻辑,将网页关键特征进行了抽象和加权评分,排除了空间向量分析方法中的干扰向量维度,将多维空间降低到了二维空间进行分析判定,经过人为对独立词判定结果进行审核确认,不断完善独立词特征的有效性,同时也大大提高了其判定的准确率和召回率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的基于网页独立词的行业网站分类方法的流程图;
图2是本发明实施例二提供的基于网页独立词的行业网站分类方法的流程图;
图3是本发明实施例三提供的基于网页独立词的行业网站分类方法的流程图;
图4是本发明一实施例提供的网贷网站首页;
图5是本发明另一实施例提供的网贷网站首页;
图6是本发明实施例四提供的基于网页独立词的行业网站分类系统的原理图;
图7是本发明实施例五提供的基于网页独立词的行业网站分类系统的原理图;
图8是本发明实施例六提供的基于网页独立词的行业网站分类系统的原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供了一种基于网页独立词的行业网站分类方法。参见图1,该基于网页独立词的行业网站分类方法包括以下步骤:
步骤S1:根据已知网站样本库建立独立词特征库,所述独立词特征库包括用于判定网站类别的多个独立词和对应的多个独立词加权值。
具体地,在本实施例中,通过对大量样本网站的分析,我们发现人工判定网站是否为行业网站(例如,网贷网站)很容易,往往不需要看网页的详细内容就可以做出判断,支撑我们做出判断的依据主要是网页导航文本、板块标题、宣传推广标题、动作按钮文本等信息,以及经过源码分析后的网页title、keywords、description标签内容。这些内容里包含的显著关键字(例如,“我要借款”、“我要贷款”、“年华收益率”等)可以作为判断网站类别的依据的独立词。因此,步骤S1包括:
步骤S11:对所述已知网站样本库中的多个网站的网站首页进行分析,从独立HTML标签、title标签、keyword标签和description标签中提取多个关键字;
具体地,对网页内容进行分析,将在独立HTML标签中出现且文本长度小于12的文本和title标签、keyword标签、description标签的文本内容作为目标文本,对目标文本进行分词,得到的单词作为多个关键字。
步骤S12:排除所述多个关键字中对判定网站类别无用的干扰词,得到所述多个独立词;
具体地,通过步骤S11获得的多个关键字中还包含了对判定网站类别无用的干扰词,如“联系我们”、“登录/注册”、“友情链接”、“首页”等关键字都是干扰词,因此,需要将干扰词进行排除。
步骤S13:统计所述多个独立词的词频,并根据所述词频对所述多个独立词进行排序;
步骤S14:设置所述多个独立词各自的独立词加权值,得到所述独立词特征库。
具体地,根据独立词对判断网站类别的重要程度不同,设置独立词的独立词加权值。例如,将出现在title标签、keyword标签、description标签中的独立词的独立词加权值设置为最高级别,说明其对判断网站类别起到最重要的作用;将出现在body中的独立词的独立词加权值设置为中等级别。
在上述步骤S11到步骤S14的特征提取阶段,通过人工进行网站分析、去噪,解决了通用的空间向量模型方法的不确定性问题,排除了噪声向量干扰。
进一步地,针对现有技术中相似网站的排除性较差的问题(例如,网贷网站和金融咨询网站之间容易出现判断错误),在所述步骤S14之后,所述步骤S1还包括:
步骤S15:对所述多个独立词的判定运行效果进行人工审核,提取用于确定网站类别的正向独立词和用于排除相似类别网站的反向独立词,并对所述正向独立词和所述反向独立词进行人工加权打分。
例如,在判定网站是否为网贷网站时,通过步骤S11-S14获得了“我要借贷”、“年化收益率”、“金融资讯”、“网贷导航”等独立词,通过对独立词的判定运行效果进行人工审核,发现“我要借贷”、“年化收益率”是用于重点判断网站是否为网贷网站的独立词(即正向独立词),而“金融资讯”、“网贷导航”为用于排除资讯和导航类网站的独立词(即反向独立词),因此,需要对正向和负向独立词进行人工加权打分,如“我要借贷”、“年化收益率”得分为10,而“金融资讯”、“网贷导航”得分为-10。
在上述步骤S15中,通过对多个独立词的判定运行效果进行人工审核,进一步提取了有助于判定网站类别的正向独立词和反向独立词。
步骤S2:提取未知网站的网站首页中的独立词;
具体地,对网页内容进行分析,将在独立HTML标签中出现且文本长度小于12的文本和title标签、keyword标签、description标签的文本内容作为目标文本,对目标文本进行分词,得到的单词作为该未知网站的独立词。
步骤S3:将从所述未知网站提取的独立词与所述步骤S1中获得的所述独立词特征库进行匹配,计算加权得分,并根据所述加权得分和预设阈值来生成判定结果。
具体地,对步骤S2中提取的未知网站的独立词,与步骤S1中建立的独立词特征库进行关键词匹配,匹配上后进行加权得分,得出最终的独立词判定得分,并依据预设的阈值判定网站是否为要判定的行业网站。
本实施例提供的基于网页独立词的行业网站分类方法简化了现有基于机器学习和空间向量分析对特定行业网站进行分类判定的过程和方法,独立词的提取符合人的思考逻辑,将网页关键特征进行了抽象和加权评分,排除了空间向量分析方法中的干扰向量维度,将多维空间降低到了二维空间进行分析判定,同时也大大提高了其判定的准确率和召回率。
实施例二
本实施例提供了一种基于网页独立词的行业网站分类方法,与实施例一所述的方法的不同之处在于,本实施例提供的方法还包括根据判定结果调整优化独立词特征库的步骤。
参见图2,该基于网页独立词的行业网站分类方法包括以下步骤:
步骤S1:根据已知网站样本库建立独立词特征库,所述独立词特征库包括用于判定网站类别的多个独立词和对应的多个独立词加权值。
具体地,通过提取网页独立词、排除干扰独立词、统计独立词词频、设置独立词的重要程度加权以及对正向和负向独立词进行人工加权打分等步骤形成独立词特征库。
步骤S2:提取未知网站的网站首页中的独立词;
具体地,对网页内容进行分析,将在独立HTML标签中出现且文本长度小于12的文本和title标签、keyword标签、description标签的文本内容作为目标文本,对目标文本进行分词,得到的单词作为该未知网站的独立词。
步骤S3:将从所述未知网站提取的独立词与所述步骤S1中获得的所述独立词特征库进行匹配,计算加权得分,并根据所述加权得分和预设阈值来生成判定结果。
具体地,对步骤S2中提取的未知网站的独立词,与步骤S1中建立的独立词特征库进行关键词匹配,匹配上后进行加权得分,得出最终的独立词判定得分,并依据预设的阈值判定网站是否为要判定的行业网站。
步骤S4:对所述判定结果进行人工审核,根据审核结果调整优化所述独立词特征库。
具体地,根据实际的判定结果,对阈值和独立词进行人工调整。人工对判定结果进行审核,将审核为行业网站(例如,网贷网站)的网页作为训练样本,加到对应的行业网站的总样本库,不断加大正向样本库,并重新提取独立词和训练,使得独立词特征判定越来越准确。
本实施例提供的基于网页独立词的行业网站分类方法分为独立词特征库建立阶段S1、未知网站独立词提取阶段S2、未知网站独立词得分判定阶段S3、以及独立词特征库优化调整阶段S4四个阶段,四个阶段形成闭环,最后一阶段经过人为对独立词判定结果进行审核确认,不断完善独立词特征的有效性,提高了判定的准确率和召回率。
实施例三
本实施例提供了一种基于网页独立词的行业网站分类方法,与实施例二所述的方法的不同之处在于,本实施例提供的方法与SVM(支持向量机)分类算法进行组合使用。
参见图3,该基于网页独立词的行业网站分类方法包括以下步骤:
步骤S1:根据已知网站样本库建立独立词特征库,所述独立词特征库包括用于判定网站类别的多个独立词和对应的多个独立词加权值。
具体地,通过提取网页独立词、排除干扰独立词、统计独立词词频、设置独立词的重要程度加权以及对正向和负向独立词进行人工加权打分等步骤形成独立词特征库。
步骤S01:对步骤S1中得到的所述多个独立词进行SVM样本训练,形成SVM特征库。
步骤S2:提取未知网站的网站首页中的独立词;
具体地,对网页内容进行分析,将在独立HTML标签中出现且文本长度小于12的文本和title标签、keyword标签、description标签的文本内容作为目标文本,对目标文本进行分词,得到的单词作为该未知网站的独立词。
步骤S31:将从所述未知网站提取的独立词与所述步骤S1中获得的所述独立词特征库进行匹配,计算加权得分;
步骤S32:将从所述未知网站提取的独立词作为SVM的计算集输入,根据所述SVM特征库得到SVM分类结果;
步骤S33:根据所述SVM分类结果对所述加权得分进行修正,并根据修正后的加权得分和所述预设阈值来生成判定结果。
步骤S4:对所述判定结果进行人工审核,根据审核结果调整优化所述独立词特征库。
具体地,根据实际的判定结果,对阈值和独立词进行人工调整。人工对判定结果进行审核,将审核为行业网站(例如,网贷网站)的网页作为训练样本,加到对应的行业网站的总样本库,不断加大正向样本库,并重新提取独立词和训练,使得独立词特征判定和SVM判定越来越准确。
本实施例提供的基于网页独立词的行业网站分类方法通过与与SVM分类算法进行组合使用,利用SVM判定结果来调整加权未知网页独立词判定结果的加权得分,进一步提高了判定的准确率和召回率。在实际实施过程中,通过与SVM分类算法进行组合使用,使得对网贷网站的判定准确率和召回率由原有的76%和62%,提高到了96%和92%。
下面以网贷网站的判断为例详细阐述本发明提供的基于网页独立词的行业网站分类方法的具体流程:
第一步,对已知的网贷网站通过程序进行独立词提取,提取的独立词包括导航网站上的导航链接文本、网页正文中短语等;人工进行独立词的初步筛选及独立词判定运行效果的审核,主要提取导航内和网贷相关的词,最终提取独立词如图4、图5所示,如“我要投资”、“我要贷款”、“债券转让”,且这些词出现在导航中,加权值可设置为重要;提取网页正文中的“年华收益率”、“成交额”、“用户量”,加权值设置为中等;最终得到用于判定网贷网站的独立词特征库如表1所示。
表1独立词特征库
第二步,对提取的独立词进行SVM样本训练,用于形成SVM特征库。
第三步,对于互联网未知网站,我们通过HTTP请求获得网站首页内容,并存储到本地,通过程序提取网页的独立词信息。
第四步,对于未知网页提取的独立词信息,通过与第一步得到的独立词特征库进行关键词匹配,匹配到则以累加的方式加分,最终得到该网页的独立词计算分值。同时,将未知网页提取的独立词信息作为SVM的计算集输入,得到SVM分类结果:是网贷网站或不是网贷网站;再将SVM分类结果作为加权值对独立词计算得分进行修正,如果SVM判定为网贷网站,则对独立词进行3/2的加权,如果SVM判定为不是网贷网站,则对独立词进行1/2加权。
第五步,人工对判定结果进行审核,审核为网贷网站的网页,作为训练样本,加到网贷网站样本库,不断加大正向样本库,并重新提取独立词和训练,使得独立词特征和SVM判定越来越准确。
实施例四
图6是本发明实施例四提供的基于网页独立词的行业网站分类系统的原理图。如图6所示,基于网页独立词的行业网站分类系统包括:
独立词特征库建立模块610,用于根据已知网站样本库建立独立词特征库,所述独立词特征库包括用于判定网站类别的多个独立词和对应的多个独立词加权值;
独立词提取模块620,用于提取未知网站的网站首页中的独立词;以及
判定模块630,用于将从所述未知网站提取的独立词与所述独立词特征库建立模块建立的所述独立词特征库进行匹配,计算加权得分,并根据所述加权得分和预设阈值来生成判定结果。
具体地,在本实施例中,独立词特征库建立模块610包括:
关键字提取单元,用于对所述已知网站样本库中的多个网站的网站首页进行分析,从独立HTML标签、title标签、keyword标签和description标签中提取多个关键字;
排除单元,用于排除所述多个关键字中对判定网站类别无用的干扰词,得到所述多个独立词;
统计单元,用于统计所述多个独立词的词频,并根据所述词频对所述多个独立词进行排序;
设置单元,用于设置所述多个独立词各自的独立词加权值,得到所述独立词特征库;
判定效果审核单元,用于对所述多个独立词的判定运行效果进行人工审核,提取用于确定网站类别的正向独立词和用于排除相似类别网站的反向独立词,并对所述正向独立词和所述反向独立词进行人工加权打分。
本实施例提供的基于网页独立词的行业网站分类方法简化了现有基于机器学习和空间向量分析对特定行业网站进行分类判定的过程和方法,独立词的提取符合人的思考逻辑,将网页关键特征进行了抽象和加权评分,排除了空间向量分析方法中的干扰向量维度,将多维空间降低到了二维空间进行分析判定,同时也大大提高了其判定的准确率和召回率。
实施例五
图7是本发明实施例五提供的基于网页独立词的行业网站分类系统的原理图。如图7所示,与实施例四所述的系统的不同之处在于,本实施例提供的系统还包括:
调整优化模块640,用于对所述判定结果进行人工审核,根据审核结果调整优化所述独立词特征库。
本实施例提供的基于网页独立词的行业网站分类系统经过人为对独立词判定结果进行审核确认,不断完善独立词特征的有效性,提高了判定的准确率和召回率。
实施例六
图8是本发明实施例六提供的基于网页独立词的行业网站分类系统的原理图。如图8所示,与实施例五所述的系统的不同之处在于,本实施例提供的系统还包括:
SVM特征库生成模块650,用于对所述独立词特征库建立模块中的所述多个独立词进行SVM样本训练,形成SVM特征库;
进一步地,所述判定模块630包括:
加权单元,用于将从所述未知网站提取的独立词与所述独立词特征库建立模块建立的所述独立词特征库进行匹配,计算加权得分;
SVM分类单元,用于将从所述未知网站提取的独立词作为SVM的计算集输入,根据所述SVM特征库得到SVM分类结果;
修正单元,用于根据所述SVM分类结果对所述加权得分进行修正,并根据修正后的加权得分和所述预设阈值来生成判定结果。
本实施例提供的基于网页独立词的行业网站分类系统通过与与SVM分类算法进行组合使用,利用SVM判定结果来调整加权未知网页独立词判定结果的加权得分,进一步提高了判定的准确率和召回率。
需要说明的是:上述实施例提供的基于网页独立词的行业网站分类系统在实现基于网页独立词的行业网站分类方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于网页独立词的行业网站分类系统与用于基于网页独立词的行业网站分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (10)

1.一种基于网页独立词的行业网站分类方法,其特征在于,包括以下步骤:
步骤S1:根据已知网站样本库建立独立词特征库,所述独立词特征库包括用于判定网站类别的多个独立词和对应的多个独立词加权值;
步骤S2:提取未知网站的网站首页中的独立词;以及
步骤S3:将从所述未知网站提取的独立词与所述步骤S1中获得的所述独立词特征库进行匹配,计算加权得分,并根据所述加权得分和预设阈值来生成判定结果。
2.根据权利要求1中所述的基于网页独立词的行业网站分类方法,其特征在于,还包括:
步骤S4:对所述判定结果进行人工审核,根据审核结果调整优化所述独立词特征库。
3.根据权利要求1中所述的基于网页独立词的行业网站分类方法,其特征在于,所述步骤S1包括:
步骤S11:对所述已知网站样本库中的多个网站的网站首页进行分析,从独立HTML标签、title标签、keyword标签和description标签中提取多个关键字;
步骤S12:排除所述多个关键字中对判定网站类别无用的干扰词,得到所述多个独立词;
步骤S13:统计所述多个独立词的词频,并根据所述词频对所述多个独立词进行排序;
步骤S14:设置所述多个独立词各自的独立词加权值,得到所述独立词特征库。
4.根据权利要求3中所述的基于网页独立词的行业网站分类方法,其特征在于,在所述步骤S14之后,所述步骤S1还包括:
步骤S15:对所述多个独立词的判定运行效果进行人工审核,提取用于确定网站类别的正向独立词和用于排除相似类别网站的反向独立词,并对所述正向独立词和所述反向独立词进行人工加权打分。
5.根据权利要求1中所述的基于网页独立词的行业网站分类方法,其特征在于,在所述步骤S1和所述步骤S2之间还包括:
步骤S01:对步骤S1中得到的所述多个独立词进行SVM样本训练,形成SVM特征库。
6.根据权利要求5中所述的基于网页独立词的行业网站分类方法,其特征在于,在所述步骤S3包括:
步骤S31:将从所述未知网站提取的独立词与所述步骤S1中获得的所述独立词特征库进行匹配,计算加权得分;
步骤S32:将从所述未知网站提取的独立词作为SVM的计算集输入,根据所述SVM特征库得到SVM分类结果;
步骤S33:根据所述SVM分类结果对所述加权得分进行修正,并根据修正后的加权得分和所述预设阈值来生成判定结果。
7.一种基于网页独立词的行业网站分类系统,其特征在于,包括:
独立词特征库建立模块,用于根据已知网站样本库建立独立词特征库,所述独立词特征库包括用于判定网站类别的多个独立词和对应的多个独立词加权值;
独立词提取模块,用于提取未知网站的网站首页中的独立词;以及
判定模块,用于将从所述未知网站提取的独立词与所述独立词特征库建立模块建立的所述独立词特征库进行匹配,计算加权得分,并根据所述加权得分和预设阈值来生成判定结果。
8.根据权利要求7中所述的基于网页独立词的行业网站分类系统,其特征在于,还包括:
调整优化模块,用于对所述判定结果进行人工审核,根据审核结果调整优化所述独立词特征库。
9.根据权利要求7中所述的基于网页独立词的行业网站分类系统,其特征在于,所述独立词特征库建立模块包括:
关键字提取单元,用于对所述已知网站样本库中的多个网站的网站首页进行分析,从独立HTML标签、title标签、keyword标签和description标签中提取多个关键字;
排除单元,用于排除所述多个关键字中对判定网站类别无用的干扰词,得到所述多个独立词;
统计单元,用于统计所述多个独立词的词频,并根据所述词频对所述多个独立词进行排序;
设置单元,用于设置所述多个独立词各自的独立词加权值,得到所述独立词特征库;
判定效果审核单元,用于对所述多个独立词的判定运行效果进行人工审核,提取用于确定网站类别的正向独立词和用于排除相似类别网站的反向独立词,并对所述正向独立词和所述反向独立词进行人工加权打分。
10.根据权利要求7中所述的基于网页独立词的行业网站分类系统,其特征在于,还包括:
SVM特征库生成模块,用于对所述独立词特征库建立模块中的所述多个独立词进行SVM样本训练,形成SVM特征库;
所述判定模块包括:
加权单元,用于将从所述未知网站提取的独立词与所述独立词特征库建立模块建立的所述独立词特征库进行匹配,计算加权得分;
SVM分类单元,用于将从所述未知网站提取的独立词作为SVM的计算集输入,根据所述SVM特征库得到SVM分类结果;
修正单元,用于根据所述SVM分类结果对所述加权得分进行修正,并根据修正后的加权得分和所述预设阈值来生成判定结果。
CN201611004881.XA 2016-11-15 2016-11-15 一种基于网页独立词的行业网站分类方法和系统 Pending CN106484919A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611004881.XA CN106484919A (zh) 2016-11-15 2016-11-15 一种基于网页独立词的行业网站分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611004881.XA CN106484919A (zh) 2016-11-15 2016-11-15 一种基于网页独立词的行业网站分类方法和系统

Publications (1)

Publication Number Publication Date
CN106484919A true CN106484919A (zh) 2017-03-08

Family

ID=58272209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611004881.XA Pending CN106484919A (zh) 2016-11-15 2016-11-15 一种基于网页独立词的行业网站分类方法和系统

Country Status (1)

Country Link
CN (1) CN106484919A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247709A (zh) * 2017-07-28 2017-10-13 广州多益网络股份有限公司 一种百科词条标签的优化方法及系统
CN108681443A (zh) * 2018-04-02 2018-10-19 广州视源电子科技股份有限公司 任务分类方法、系统及计算机存储介质
CN108694325A (zh) * 2017-04-10 2018-10-23 北大方正集团有限公司 指定类型网站的辨别方法和指定类型网站的辨别装置
CN111078978A (zh) * 2019-11-29 2020-04-28 上海观安信息技术股份有限公司 一种基于网站文本内容的网贷网站实体识别方法及系统
CN112256986A (zh) * 2020-10-19 2021-01-22 中国互联网金融协会 监测虚拟货币网站的方法及装置、电子设备及存储介质
CN112329423A (zh) * 2020-11-05 2021-02-05 上海钐昆网络科技有限公司 Icp备案公司分类方法、装置、电子设备及计算机存储介质
CN112417329A (zh) * 2020-10-19 2021-02-26 中国互联网金融协会 监测非法互联网外汇保证金交易平台的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
CN102663093A (zh) * 2012-04-10 2012-09-12 中国科学院计算机网络信息中心 不良网站检测方法及设备
CN103577430A (zh) * 2012-07-26 2014-02-12 深圳市世纪光速信息技术有限公司 一种信息识别的方法和服务器
CN104424308A (zh) * 2013-09-04 2015-03-18 中兴通讯股份有限公司 网页分类标准获取方法、装置及网页分类方法、装置
CN104834640A (zh) * 2014-02-10 2015-08-12 腾讯科技(深圳)有限公司 网页的识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
CN102663093A (zh) * 2012-04-10 2012-09-12 中国科学院计算机网络信息中心 不良网站检测方法及设备
CN103577430A (zh) * 2012-07-26 2014-02-12 深圳市世纪光速信息技术有限公司 一种信息识别的方法和服务器
CN104424308A (zh) * 2013-09-04 2015-03-18 中兴通讯股份有限公司 网页分类标准获取方法、装置及网页分类方法、装置
CN104834640A (zh) * 2014-02-10 2015-08-12 腾讯科技(深圳)有限公司 网页的识别方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694325A (zh) * 2017-04-10 2018-10-23 北大方正集团有限公司 指定类型网站的辨别方法和指定类型网站的辨别装置
CN108694325B (zh) * 2017-04-10 2020-12-29 北大方正集团有限公司 指定类型网站的辨别方法和指定类型网站的辨别装置
CN107247709A (zh) * 2017-07-28 2017-10-13 广州多益网络股份有限公司 一种百科词条标签的优化方法及系统
CN108681443A (zh) * 2018-04-02 2018-10-19 广州视源电子科技股份有限公司 任务分类方法、系统及计算机存储介质
CN108681443B (zh) * 2018-04-02 2022-03-04 广州视源电子科技股份有限公司 任务分类方法、系统及计算机存储介质
CN111078978A (zh) * 2019-11-29 2020-04-28 上海观安信息技术股份有限公司 一种基于网站文本内容的网贷网站实体识别方法及系统
CN111078978B (zh) * 2019-11-29 2024-02-27 上海观安信息技术股份有限公司 一种基于网站文本内容的网贷网站实体识别方法及系统
CN112256986A (zh) * 2020-10-19 2021-01-22 中国互联网金融协会 监测虚拟货币网站的方法及装置、电子设备及存储介质
CN112417329A (zh) * 2020-10-19 2021-02-26 中国互联网金融协会 监测非法互联网外汇保证金交易平台的方法及装置
CN112329423A (zh) * 2020-11-05 2021-02-05 上海钐昆网络科技有限公司 Icp备案公司分类方法、装置、电子设备及计算机存储介质

Similar Documents

Publication Publication Date Title
CN106484919A (zh) 一种基于网页独立词的行业网站分类方法和系统
Kim et al. Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
KR101536520B1 (ko) 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
CN107341183A (zh) 一种基于暗网网站综合特征的网站分类方法
CN102841946A (zh) 商品数据检索排序及商品推荐方法和系统
CN108563636A (zh) 提取文本关键词的方法、装置、设备及存储介质
CN107563833A (zh) 一种基于区块链积分服务平台的个性化推荐方法及系统
CN108961032A (zh) 借贷处理方法、装置以及服务器
CN103106275A (zh) 基于特征分布信息的文本分类特征筛选方法
CN106227756A (zh) 一种基于情感分类的股票指数预测方法及系统
CN106294330B (zh) 一种科技文本挑选方法及装置
CN104899229A (zh) 基于群体智能的行为聚类系统
CN104463601A (zh) 一种在线社会媒体系统中检测恶意评分用户的方法
CN106294882A (zh) 数据挖掘方法以及装置
CN106446124A (zh) 一种基于网络关系图的网站分类方法
CN110309234A (zh) 一种基于知识图谱的客户持仓预警方法、装置及存储介质
CN104142960A (zh) 互联网数据分析系统
CN108268439A (zh) 文本情感的处理方法及装置
Iqbal et al. Hybrid features prediction model of movie quality using Multi-machine learning techniques for effective business resource planning
CN104035969B (zh) 社交网络中的特征词库构建方法和系统
Sitorus et al. Sensing trending topics in twitter for greater Jakarta area
CN104572623B (zh) 一种在线lda模型的高效数据总结分析方法
Kane et al. Do the communities we choose shape our political beliefs? A study of the politicization of topics in online social groups
Abd Rahman et al. Classification of customer feedbacks using sentiment analysis towards mobile banking applications

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170308