CN109753619A - 一种网站行业类型快速识别的方法 - Google Patents
一种网站行业类型快速识别的方法 Download PDFInfo
- Publication number
- CN109753619A CN109753619A CN201811586061.5A CN201811586061A CN109753619A CN 109753619 A CN109753619 A CN 109753619A CN 201811586061 A CN201811586061 A CN 201811586061A CN 109753619 A CN109753619 A CN 109753619A
- Authority
- CN
- China
- Prior art keywords
- rule
- website
- score value
- keyword
- industry type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及网站行业类型识别技术,旨在提供一种网站行业类型快速识别的方法。该种网站行业类型快速识别的方法包括下述步骤:将目标网站依次匹配基础规则,当出现统计分大于或等于100的行业类型时,则将该行业类型作为目标网站的行业类型;当无法利用基础规则判断时,则将目标网站分别匹配所有二级规则,最后将统计分最高的行业类型作为目标网站的行业类型。本发明提供了一套识别行业网站行业类型的完整技术方案,能基于规则匹配识别网站行业类型,并能自动完善规则及对规则进行自动更新,方便大家对行业网站的使用。
Description
技术领域
本发明是关于网站行业类型识别技术领域,特别涉及一种网站行业类型快速识别的方法。
背景技术
网站行业类型是指网站有规则的按照一定的科学依据,对该网站所从事和经营的模式和类型进行详细划分。
网站行业类型一般来说分为以下几种类型:政府、金融、教育、个人、企业、社区。一般来说每种类型的网站都有相似的网站结构和经营模式。从技术角度来看,对特定行业的网站进行取样分析提取其共有的特性形成特定规则,基于这些规则来对网站行业属性进行分析归类。
现有网站行业类型识别,多采用单一的html关键字来识别,这种方式有很多局限性和很高的错误率,这样在无形当中增加了人工成本,效率不高。总的来说,存在以下缺点:1)关键字识别方式单一;2)错误率高;3)人工二次验证与错误数据分析。
发明内容
本发明的主要目的在于克服现有技术中的不足,提供一种按照网站行业类型快速识别归类的方法。为解决上述技术问题,本发明的解决方案是:
提供一种网站行业类型快速识别的方法,网站的行业类型包括政务网站、教育行业网站、金融行业网站、企业网站、个人网站和社区网站,所述网站行业类型快速识别的方法具体包括下述步骤:
步骤(1):预先设置每个行业类型的基础规则,基础规则包括域名后缀规则、主体(body)中是否有全国党政机关事业单位标志及链接规则、标题(title)中是否有金融关键字规则、标题中是否有行政机关关键字规则、标题中是否有企业关键字规则、标题中是否有社区关键字规则和标题中是否有教育关键字规则;且每条基础规则设有分值,分值范围为60-100;
步骤(2):输入目标网站,将目标网站依次匹配基础规则,当网站与该条基础规则匹配时,则将该基础规则的分值加至该基础规则对应行业类型的统计分,且每个行业类型的统计分初始值为0;
当出现统计分大于或等于100的行业类型时,则不再进行后续步骤,将该行业类型作为目标网站的行业类型;
当匹配完所有基础规则,所有行业类型的统计分都小于100,则继续执行步骤(3);
步骤(3):将所有行业类型的统计分初始化为0,将目标网站分别匹配所有二级规则,当网站与对应行业类型的二级规则匹配时,则将该二级规则的分值加至该行业类型的统计分;
所述二级规则通过判断网站的标题、网页头部和底部是否含有网站行业类型对应的关键词或规则结构,对网站的行业类型进行匹配;且每条二级规则每条二级规则都设有分值,分值范围为60-100;
匹配完所有二级规则后,将统计分最高的行业类型作为目标网站的行业类型。
在本发明中,所述基础规则,具体为:
所述域名后缀规则包括:
域名后缀为gov.cn的网站,是政务网站;该规则的分值为100;
域名后缀为edu.cn的网站,是教育行业网站;该规则的分值为100;
所述主体中是否有全国党政机关事业单位标志及链接规则是指:
域名主体中有全国党政机关事业单位标志及链接的网站,是政务网站;该规则的分值为100;
所述标题中是否有金融关键字规则包括:
域名标题中有金融关键字(金融关键字包括银行、理财、金融、财经、保险、贷款)的网站,是金融行业网站;该规则的分值为80;
抓取机构地址或机构名称,并在中国银行业监督委员会官网检索存在的网站,是金融行业网站;该规则的分值为100;
所述标题中是否有行政机关关键字规则是指:
域名标题中有行政机关关键字(行政机关关键字包括公安、人力资源、委员会、旅游、园林、文化、民政、经济与信息化、外交、国防、发展和改革、国土资源、卫生)的网站,是政务网站;该规则的分值为80;
所述标题中是否有企业关键字规则是指:
域名标题中有企业关键字(企业关键字包括有限公司、集团)的网站,是企业网站;该规则的分值为80;
所述标题中是否有社区关键字规则是指:
域名标题中有社区关键字(社区关键字包括吧、社区、论坛)的网站,是社区网站;该规则的分值为80;
所述标题中是否有教育关键字规则是指:
域名标题中有教育关键字(教育关键字包括幼儿园、小学、初级中学、高级中学、学校、初中、高中、大学、学院、高校、科研、培训)的网站,是教育行业网站;该规则的分值为80。
在本发明中,所述网站行业类型对应的初始二级规则具体为:
政务网站二级规则:
主体底部存在若干链接指向以gov.cn结尾的网站;该规则的分值为分值80;
主体中存在关键字“办事大厅”、“党政领导”或者“组织机构”;该规则的分值为分值70;
教育行业网站二级规则:
主体中有关键字“学院概况”;该规则的分值为分值90;
主体中有关键字“课程”;该规则的分值为分值60;
金融行业网站二级规则:
主体中含有关键字“股票”、“借贷”、“分期”或者“抵押”;该规则的分值为分值70;
企业网站二级规则:
主体中有关键字“解决方案”、“产品中心”或者“招贤纳士”;该规则的分值为分值为80;
个人网站二级规则:
主体中有关键字“日记”或者“个人日记”;该规则的分值为分值60;
社区网站二级规则:
主体中有关键字“论坛”或者“社区”;该规则的分值为分值80;
主体中有关键字“热帖”或者“精华”;该规则的分值为分值60。
在本发明中,对于已识别行业类型的网站,能进行定期分析提取出该行业网站所具有的共同特征,然后将该特征作为二级规则,并根据该特征在网站中存在比例,确定该特征所形成的二级规则的分值。
本发明的原理是:通过对预设规则对网站进行识别分类判断,从而确定其所属行业。本发明的关键点是预设规则模式及行业属性的判定。
与现有技术相比,本发明的有益效果是:
本发明提供了一套识别行业网站行业类型的完整技术方案,能基于规则匹配识别网站行业类型,并能自动完善规则及对规则进行自动更新,方便大家对行业网站的使用。
本发明通过采用漏扫容器化的方式,有效的降低了人工运维成本,提高了工作效率。
附图说明
图1为本发明中的流程示意框图。
具体实施方式
首先需要说明的是,本发明是计算机技术的一种应用。在本发明的实现过程中,会涉及到多个软件功能模块的应用。申请人认为,如在仔细阅读申请文件、准确理解本发明的实现原理和发明目的以后,在结合现有公知技术的情况下,本领域技术人员完全可以运用其掌握的软件编程技能实现本发明。凡本发明申请文件提及的均属此范畴,申请人不再一一列举。
下面结合附图与具体实施方式对本发明作进一步详细描述:
如图1所示的一种网站行业类型快速识别的方法,具体包括如下步骤:
步骤(1):预先设置基础规则及规则对应的网站行业类型;
预设规则清单:
1)域名后缀规则
域名后缀为gov.cn为政务网站(分值100);
域名后缀为edu.cn为教育行业网站(分值100);
2)body中有全国党政机关事业单位标志及链接为政务网站(分值100);
3)title中有金融关键字为金融行业网站(分值80);
抓取机构地址或机构名称从中国银行业监督委员会官网检索存在(100);
4)title中有政府、公安等关键字的网站为政府网站(分值80);
5)title中有公司关键字的网站为企业网站(分值80);
6)title中有“吧”,“社区”等关键字的为社区类网站(分值80);
7)title中有“学校”,“高中”等关键字的为教育类网站(分值80)。
网站行业类型:即该网址所属单位的具体行业类型,有政务类型网站、教育类型网站、金融类型网站、企业类型网站、个人网站、社区网站。
初始规则:明确没有异常并且100%准确的规则。
规则分值:该项规则并不是100%准确,所以每项规则的分值与该项规则的准确率相关。在本发明中,准确率即为该规则的分值。
步骤(2):将目标网站依次匹配基础规则,当网站与该条基础规则匹配时,则将该基础规则的分值加至该基础规则对应行业类型的统计分,且每个行业类型的统计分初始值为0;当出现统计分大于或等于100的行业类型时,则不再进行后续步骤,将该行业类型作为目标网站的行业类型;当匹配完所有基础规则,所有行业类型的统计分都小于100,则继续执行步骤(3)。
步骤(3):根据每项预设规则的二级规则进行匹配再次确认识别。
部分规则初始如下:
政务网站二级规则:1)Body底部存在若干链接指向以gov.cn结尾的网站(分值80);2)Body中存在办事大厅、党政领导、组织机构(分值70)。
教育行业网站二级规则:1)Body中有“学院概况”(分值90);2)Body中有“课程”等关键字(分值60)。
金融行业网站二级规则:Body中含有股票、借贷、分期、抵押(分值70)。
企业网站二级规则:Body中有“解决方案”、“产品中心”、“招贤纳士”(分值为80)。
个人网站二级规则:Body中有“日记”、“个人日记”(分值60)。
社区网站二级规则:1)Body中有“论坛”、“社区”(分值80);2)Body中有“热帖”、“精华”(分值60)。
步骤(4):每项规则都有一个分值,把同行业类型的匹配规则的分值进行相加,最终分值最高的行业类型为最终匹配结果。
步骤(5):对最终判断结果进行分析学习完善规则库:
通过对网站行业分类结果进行整理,每种类型的网站模块和网站结构进行统计,分析识别出同一种网站所具有的相同特征所占的百分比。这时候这个百分比即为该特征的分值,该特征即为一个新的二级规则。此过程即为完善规则库过程。
最后,需要注意的是,以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有很多变形。本领域的普通技术人员能从本发明公开的内容中直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (4)
1.一种网站行业类型快速识别的方法,网站的行业类型包括政务网站、教育行业网站、金融行业网站、企业网站、个人网站和社区网站,其特征在于,所述网站行业类型快速识别的方法具体包括下述步骤:
步骤(1):预先设置每个行业类型的基础规则,基础规则包括域名后缀规则、主体中是否有全国党政机关事业单位标志及链接规则、标题中是否有金融关键字规则、标题中是否有行政机关关键字规则、标题中是否有企业关键字规则、标题中是否有社区关键字规则和标题中是否有教育关键字规则;且每条基础规则设有分值,分值范围为60-100;
步骤(2):将目标网站依次匹配基础规则,当网站与该条基础规则匹配时,则将该基础规则的分值加至该基础规则对应行业类型的统计分,且每个行业类型的统计分初始值为0;
当出现统计分大于或等于100的行业类型时,则不再进行后续步骤,将该行业类型作为目标网站的行业类型;
当匹配完所有基础规则,所有行业类型的统计分都小于100,则继续执行步骤(3);
步骤(3):将所有行业类型的统计分初始化为0,将目标网站分别匹配所有二级规则,当网站与对应行业类型的二级规则匹配时,则将该二级规则的分值加至该行业类型的统计分;
所述二级规则通过判断网站的标题、网页头部和底部是否含有网站行业类型对应的关键词或规则结构,对网站的行业类型进行匹配;且每条二级规则每条二级规则都设有分值,分值范围为60-100;
匹配完所有二级规则后,将统计分最高的行业类型作为目标网站的行业类型。
2.根据权利要求1所述的一种网站行业类型快速识别的方法,其特征在于,所述基础规则,具体为:
所述域名后缀规则包括:
域名后缀为gov.cn的网站,是政务网站;该规则的分值为100;
域名后缀为edu.cn的网站,是教育行业网站;该规则的分值为100;
所述主体中是否有全国党政机关事业单位标志及链接规则是指:
域名主体中有全国党政机关事业单位标志及链接的网站,是政务网站;该规则的分值为100;
所述标题中是否有金融关键字规则包括:
域名标题中有金融关键字的网站,是金融行业网站;该规则的分值为80;
抓取机构地址或机构名称,并在中国银行业监督委员会官网检索存在的网站,是金融行业网站;该规则的分值为100;
所述标题中是否有行政机关关键字规则是指:
域名标题中有行政机关关键字的网站,是政务网站;该规则的分值为80;
所述标题中是否有企业关键字规则是指:
域名标题中有企业关键字的网站,是企业网站;该规则的分值为80;
所述标题中是否有社区关键字规则是指:
域名标题中有社区关键字的网站,是社区网站;该规则的分值为80;
所述标题中是否有教育关键字规则是指:
域名标题中有教育关键字的网站,是教育行业网站;该规则的分值为80。
3.根据权利要求1所述的一种网站行业类型快速识别的方法,其特征在于,所述网站行业类型对应的初始二级规则具体为:
政务网站二级规则:
主体底部存在若干链接指向以gov.cn结尾的网站;该规则的分值为分值80;
主体中存在关键字“办事大厅”、“党政领导”或者“组织机构”;该规则的分值为分值70;
教育行业网站二级规则:
主体中有关键字“学院概况”;该规则的分值为分值90;
主体中有关键字“课程”;该规则的分值为分值60;
金融行业网站二级规则:
主体中含有关键字“股票”、“借贷”、“分期”或者“抵押”;该规则的分值为分值70;
企业网站二级规则:
主体中有关键字“解决方案”、“产品中心”或者“招贤纳士”;该规则的分值为分值为80;
个人网站二级规则:
主体中有关键字“日记”或者“个人日记”;该规则的分值为分值60;
社区网站二级规则:
主体中有关键字“论坛”或者“社区”;该规则的分值为分值80;
主体中有关键字“热帖”或者“精华”;该规则的分值为分值60。
4.根据权利要求1所述的一种网站行业类型快速识别的方法,其特征在于,对于已识别行业类型的网站,能进行定期分析提取出该行业网站所具有的共同特征,然后将该特征作为二级规则,并根据该特征在网站中存在比例,确定该特征所形成的二级规则的分值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811586061.5A CN109753619A (zh) | 2018-12-25 | 2018-12-25 | 一种网站行业类型快速识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811586061.5A CN109753619A (zh) | 2018-12-25 | 2018-12-25 | 一种网站行业类型快速识别的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109753619A true CN109753619A (zh) | 2019-05-14 |
Family
ID=66403134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811586061.5A Pending CN109753619A (zh) | 2018-12-25 | 2018-12-25 | 一种网站行业类型快速识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109753619A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472131A (zh) * | 2019-08-20 | 2019-11-19 | 杭州安恒信息技术股份有限公司 | 一种网站行业类型识别的方法、系统及设备 |
CN112416992A (zh) * | 2020-11-30 | 2021-02-26 | 杭州安恒信息技术股份有限公司 | 基于大数据和关键词的行业类型识别方法、系统及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009026433A1 (en) * | 2007-08-21 | 2009-02-26 | Cortica, Ltd. | Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof |
CN104426838A (zh) * | 2013-08-20 | 2015-03-18 | 中国移动通信集团北京有限公司 | 一种互联网缓存调度方法及系统 |
CN107436890A (zh) * | 2016-05-26 | 2017-12-05 | 阿里巴巴集团控股有限公司 | 一种网站类型的检测方法及装置 |
CN107741960A (zh) * | 2017-09-25 | 2018-02-27 | 厦门集微科技有限公司 | Url的分类方法及装置 |
-
2018
- 2018-12-25 CN CN201811586061.5A patent/CN109753619A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009026433A1 (en) * | 2007-08-21 | 2009-02-26 | Cortica, Ltd. | Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof |
CN104426838A (zh) * | 2013-08-20 | 2015-03-18 | 中国移动通信集团北京有限公司 | 一种互联网缓存调度方法及系统 |
CN107436890A (zh) * | 2016-05-26 | 2017-12-05 | 阿里巴巴集团控股有限公司 | 一种网站类型的检测方法及装置 |
CN107741960A (zh) * | 2017-09-25 | 2018-02-27 | 厦门集微科技有限公司 | Url的分类方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472131A (zh) * | 2019-08-20 | 2019-11-19 | 杭州安恒信息技术股份有限公司 | 一种网站行业类型识别的方法、系统及设备 |
CN112416992A (zh) * | 2020-11-30 | 2021-02-26 | 杭州安恒信息技术股份有限公司 | 基于大数据和关键词的行业类型识别方法、系统及设备 |
CN112416992B (zh) * | 2020-11-30 | 2024-02-02 | 杭州安恒信息技术股份有限公司 | 基于大数据和关键词的行业类型识别方法、系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Naeem et al. | COVID-19 pandemic and connectedness across financial markets | |
Shin et al. | A case-based approach using inductive indexing for corporate bond rating | |
McCormack | Why ‘doing business’ with the World Bank may be bad for you | |
Russell | Revenue administration: managing the shadow economy | |
Aggarwal | Random walk model and asymmetric effect in Korean composite stock price index | |
Wang et al. | Effect of digitalized rumor clarification on stock markets | |
Dong et al. | The detection of fraudulent financial statements: an integrated language model | |
Xu et al. | Identifying features for detecting fraudulent loan requests on P2P platforms | |
CN109753619A (zh) | 一种网站行业类型快速识别的方法 | |
Kocaarslan et al. | Are there any diversification benefits among global finance center candidates in Eurasia? | |
Kebriaee-zadeh et al. | Fundamentals and Stock Return in Pharmaceutical Companies: a Panel Data Model of Iranian Industry: Hydrogel based tablet for vaginal candidiasis | |
Zhang et al. | Research on personal credit scoring model based on multi-source data | |
Alejos | Estimating the fiscal impact of extreme weather events | |
Badar et al. | Financial inclusion and determinants in South Asian countries | |
Zamora-Torres | Countries’ competitiveness on innovation and technology | |
Liu | [Retracted] Construction of Rural Financial Organization Spatial Structure and Service Management Model Based on Deep Convolutional Neural Network | |
Bender et al. | A General Framework for the Identification and Categorization of Risks-an Application to the Context of Financial Markets | |
Enekwe et al. | Effect of capital market on economic growth in Nigeria | |
Ramachandran et al. | A text analysis of federal reserve meeting minutes | |
Chew et al. | Automated account reconciliation using probabilistic and statistical techniques | |
Budak et al. | Measuring the efficiency of charitable giving with content analysis and crowdsourcing | |
Vij et al. | Country risk analysis | |
Ribeiro et al. | What do fact checkers fact-check when? | |
Neophytou et al. | Predicting corporate failure: Empirical evidence for the UK | |
Jeon et al. | Building industry network based on business text: corporate disclosures and news |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190514 |
|
RJ01 | Rejection of invention patent application after publication |