CN101794311B - 基于模糊数据挖掘的中文网页自动分类方法 - Google Patents

基于模糊数据挖掘的中文网页自动分类方法 Download PDF

Info

Publication number
CN101794311B
CN101794311B CN2010101185007A CN201010118500A CN101794311B CN 101794311 B CN101794311 B CN 101794311B CN 2010101185007 A CN2010101185007 A CN 2010101185007A CN 201010118500 A CN201010118500 A CN 201010118500A CN 101794311 B CN101794311 B CN 101794311B
Authority
CN
China
Prior art keywords
webpage
classification
fuzzy
web page
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010101185007A
Other languages
English (en)
Other versions
CN101794311A (zh
Inventor
孙雁飞
姚蓓丽
张顺颐
王攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN2010101185007A priority Critical patent/CN101794311B/zh
Publication of CN101794311A publication Critical patent/CN101794311A/zh
Application granted granted Critical
Publication of CN101794311B publication Critical patent/CN101794311B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公布了一种基于模糊数据挖掘的中文网页自动分类方法,该方法由分类词语描述库构建部分、新网页预处理部分、模糊分类匹配器部分以及分类结果模糊评判部分组成。通过应用模糊综合评判的方法,将构建分类词语描述库时所生产的训练集特征词向量模糊矩阵和新网页预处理部分所生产的网页特征词模糊向量进行模糊分类运算,再通过分类结果模糊评判,从而得到该中文网页的模糊分类。该方法能有效提高分类效率,解决分类模糊性问题,具有良好的可扩展性,操作简单方便,易于推广。

Description

基于模糊数据挖掘的中文网页自动分类方法
技术领域
本发明是针对模糊数据挖掘和基于模糊数据挖掘的中文网页自动分类方法的研究,主要研究如何通过技术手段对中文网页的内容进行过滤提取、分词和特征选择以及文本表示,并研究了如何利用模糊数据挖掘的知识,对网页进行模糊分类的方法,涉及到网页自动获取、中文网页预处理、中文分词及关键词频度分析、中文网页模糊分类等技术领域。
背景技术
随着Internet技术和Web技术的高速发展,Internet上网页的数量正在不断的增加。网络的日益普及以及网民数量的爆炸性增长,使得网络用户行为呈现出复杂性和多样性,如何对网络用户行为进行恰当的分析、管理和告警是急需解决的问题。面对互联网海量信息,如何在这些信息中过滤掉用户反感的信息,并将用户感兴趣的信息提取出来,实现信息的主动推送,同时保证人们在信息选择方面的个人权利,逐渐成为大家所关注的研究点。同时,中文网页种类繁多,通常包含很多的“噪音”信息,一个网页甚至会包含多个主题。获取网页中的有效文本内容,并对网页的海量数据进行自动分类,是组织和管理网络资源的关键。传统的人工分类的方法存在很多诸如效率低下、费用高的弊端。网页自动分类可以在较大程度上解决目前网上信息纷繁杂乱的现象,并方便用户准确地定位所需的信息。因此,网页自动分类便成了快速且有效地组织网络上海量信息的重要手段,具有较大的实用价值。而在现实生活中,很多实际分类问题往往不好精确地确定某个对象属于某个类,只能给出某个对象属于某个类的可能性有多大,这时,文本类别的识别就带有一定的模糊性,对这些具有模糊性的模式借助于模糊理论来刻画显得很自然,这就引出了模糊分类的概念。
针对中文网页进行网页模糊自动分类有一定的难度,主要体现在:
1)中文网页使用中文进行编辑,不像英文单词之间存在空格,需要对中文进行分词处理,分词的效果直接影响到关键词的分析和网页分类的结果。
2)中文网页包含大量的“噪音”,很多网页的编写没有规范,包含很多的广告、注释以及其他信息,需要对网页进行预处理,进化网页内容,提取用户感兴趣的信息。
3)现今大部分对中文网页分类的研究集中在通过对中文网页进行特征选取和向量表示,利用KNN(k-Nearest Neighbor algorithm)分类算法,对网页进行分类,该方法实现网页分类时间代价和复杂性高。应用模糊数据挖掘的理论,对中文网页进行模糊分类的研究并不多见。
发明内容
技术问题:
本发明的目的是建立一种基于模糊数据挖掘的中文网页自动分类方法,并设计其分类模型和算法,通过对中文网页进行预处理,提取出网页中的中文信息,建立分类词语描述库,得到训练集特征词向量模糊矩阵;对待分类的新网页进行网页预处理及特征词模糊化,利用模糊分类匹配器,依照模糊评判原则,快速分析中文网页的模糊分类问题,便于分析网页的核心内容,快速掌握网页的关键信息及其所属类别,从而有利于高效的组织网络上海量的信息。
技术方案:
本发明基于模糊数据挖掘的中文网页自动分类方法,其特征在于该方法的步骤为:
1)根据用户所输入待分类网页P的网址URL,进行待分类网页P的预处理,预处理过程包括提取网页的HTML源码、对网页源码中的广告、注释等内容过滤去噪以及提取出网页中的中文文本内容;
2)利用分词器对所提取出的中文文本内容进行分词操作,得到中文网页的分词后文本;
3)通过关键词频度分析器,对能体现该待分类网页P的主题和关键内容的的关键词进行提取,并按照关键词权重对关键词进行排序,提取出待分类网页P的特征词集合T;
4)初始化数据表D:该数据表D是用于存储构建分类词语描述库时所生产的总特征词集合Z的总特征词向量模糊矩阵R;总特征词是通过文本预处理、训练集总特征词选择以及总特征词集合模糊化的模块得到的;
5)按照数据表D中总特征词的顺序对待分类网页P的特征词集合T进行特征词频度分析;
6)判断总特征词集合Z中的特征词是否存在于待分类网页P中;如果待分类网页P存在该特征词t,则转入步骤7);如果不存在该特征词t,则转到步骤5);
7)统计总特征词集合Z中的特征词在待分类网页P中出现的频度;
8)构造隶属函数,将待分类网页P进行模糊化处理,得到待分类网页P的特征词向量模糊矩阵B;
9)将待分类网页P的特征词向量模糊矩阵B和总特征词向量模糊矩阵R进行模糊分类匹配,得到待分类网页P的分类结果模糊向量C={c1,c2,...,cm};
10)对待分类网页P的分类结果模糊向量C={c1,c2,...,cm}进行“归一化”处理,得到归一化后的向量记为C′,C′=(c1/S,c2/S,...,cm/S),其中, S = Σ i = 1 m c i ;
比较模糊向量C′中的各个元素的值,从中挑选出最大的隶属度值ck,1≤k≤m;
11)分类结果模糊评判,判断最大隶属度值ck与判别阈值α之间的关系,在归一化后的模糊向量C′中,若有且仅有一个元素的值ck≥α,则判断新网页是归于第k类的;若每一个元素的值ck≤α,则判断新网页是不属于本系统分类体系中的任一类别;若不止一个元素ck≥α,则判断新网页是属于所有元素值大于α所对应的类别,由此得出分类并输出分类结果。判别阈值α的确定需要经过反复实验,综合所有类别的情况,使得各个分类的准确度保持在一个均衡的水平;
12)分类成功,结束;
其中,m是训练集网页的类别数目。
步骤1)所述的提取出网页中的中文文本内容的方法是通过阈值对比对网页的类型进行判断,利用正则表达式过滤器对噪音信息进行过滤,并提取出网页的中文,该方法的步骤为:
a)依照所获得的网页源码得到该网页的标签树;
b)通过和标准网页的相关阈值对比,确定步骤(a)所述网页的类型,网页类型包括主题型、链接型和图片型三种;
c)判断网页是否为主题型网页,如果是主题型网页则转到步骤d);如果不是主题型网页,则转到步骤e);
d)根据主题型网页主题的相关度计算,提取出网页主题内容块;
e)利用基于标记的正则表达式过滤器对网页的噪音信息进行过滤;
f)提取网页的中文文本;
g)结束。
有益效果:
通过基于模糊数据挖掘的中文网页分类的方法,我们能够实现:
1)运用模糊集理论及相关算法,根据训练样本网页库,建立分类词语描述库,得到特征词向量模糊矩阵;
2)对新网页进行相关预处理,包括对原始流量数据的清洗,待分类网页的预处理,得到新网页特征词模糊向量。
3)对相应中文网页内容进行分词,按照相关算法提取出关键词,并将中文网页关键词按权重排名;
4)构建模糊分类器,依照模糊分类匹配的方法,实现对中文网页的模糊分类,降低传统分类的人工费用,提高分类的效率。
基于模糊数据挖掘的中文网页自动分类方法具有广泛的意义和应用价值。主要可以应用在:
1.互联网用户兴趣度分析;
2.搜索引擎目录更新;
3.Web内容挖掘;
4.在线文档管理;
5.数字图书馆建设。
附图说明
图1基于模糊数据挖掘的中文网页自动分类的架构图。图中给出了系统的三个层面及其所包含的功能。
图2是基于内容规则的网页中文提取方法流程图。图中给出了网页中文提取的各个部分的处理过程。
图3是基于模糊数据挖掘的中文网页自动分类方法流程图。图中给出了中文网页模糊自动分类的各个部分的处理过程。
具体实施方式
下面结合附图对发明的技术方案进行详细说明:
本发明提出了一种基于模糊数据挖掘的中文网页自动分类技术框架,并详细设计了网页模糊分类算法,如附图3所示。从图中可以看出,系统总共分为三个层面,从下往上依次是:数据采集层、业务逻辑层以及表示层。
数据采集层所涉及到的方法为基于内容规则的网页中文提取方法。通过首先获取到网页的HTML源码,对网页进行预处理。通过测试和分析,发现网页中易于包括各种标签、脚本语言代码、广告及图片链接、设计人员注释、函数声明以及版权信息等冗余的信息。与主题无关的噪音信息会对网页正文内容的提取的速度和精度造成很大影响,有必要进行去除。在提取出网页的标签树以后,我们通过阈值对比的方法判断出网页的类型,当是主题型网页的时候我们采用一种基于标记的正则表达式匹配过滤器来过滤掉网页中的非主题信息。通过几层的过滤器过滤之后,再提取出网页中的中文信息。
本文的关键方法基于模糊数据挖掘的中文网页自动分类方法主要包含四个部分,分别是分类词语描述库构建部分、新网页预处理部分、模糊分类匹配器部分以及分类结果模糊评判部分。
以下详细介绍该设计的各个层面及网页中文提取方法和中文网页分类方法,如附图1所示。
1.数据采集层
功能:该层面提供根据数据清洗后得到的URL获取中文网页的HTML源码,对所获取的源码进行过滤和去噪,以及提取该网页中的中文字符的技术。目的是实现对各类编码的中文网页进行预处理,并提取相应的中文文本。
2.业务逻辑层
功能:该层面提供对中文文本的分词,根据分词结果进行关键词分析以及网页模糊分类匹配的工作。目的是对中文网页的中文文本内容进行分词,并依照相应算法对分词结果进行关键词频度的分析,并对该网页的关键词和分类词语描述库中的特征词进行模糊匹配,通过模糊评判规则,得到中文网页的模糊分类匹配。
3.表示层:该层面主要提供用户的输入和各个部分结果的反馈。
基于内容规则的网页中文提取方法。该方法的处理过程如附图2所示:
a)依照所获得的网页源码得到该网页的标签树;
b)通过和标准网页的相关阈值对比,确定步骤(a)所述网页的类型,网页类型包括主题型、链接型和图片型三种;
c)判断网页是否为主题型网页,如果是主题型网页则转到步骤d);如果不是主题型网页,则转到步骤e);
d)根据主题型网页主题的相关度计算,提取出网页主题内容块;
e)利用基于标记的正则表达式过滤器对网页的噪音信息进行过滤;
f)提取网页的中文文本;
g)结束。
基于模糊数据挖掘的中文网页自动分类方法,该方法处理过程如附图3所示:1)1)根据用户所输入待分类网页P的网址URL,进行待分类网页P的预处理,预处理过程包括提取网页的HTML源码、对网页源码中的广告、注释等内容过滤去噪以及提取出网页中的中文文本内容;
2)利用分词器对所提取出的中文文本内容进行分词操作,得到中文网页的分词后文本;
3)通过关键词频度分析器,对能体现该待分类网页P的主题和关键内容的的关键词进行提取,并按照关键词权重对关键词进行排序,提取出待分类网页P的特征词集合T;
4)初始化数据表D:该数据表D是用于存储构建分类词语描述库时所生产的总特征词集合Z的总特征词向量模糊矩阵R;总特征词是通过文本预处理、训练集总特征词选择以及总特征词集合模糊化的模块得到的;
5)按照数据表D中总特征词的顺序对待分类网页P的特征词集合T进行特征词频度分析;
6)判断总特征词集合Z中的特征词是否存在于待分类网页P中;如果待分类网页P存在该特征词t,则转入步骤7);如果不存在该特征词t,则转到步骤5)
7)统计总特征词集合Z中的特征词在待分类网页P中出现的频度;
8)构造隶属函数,将待分类网页P进行模糊化处理,得到待分类网页P的特征词向量模糊矩阵B;
9)将待分类网页P的特征词向量模糊矩阵B和总特征词向量模糊矩阵R进行模糊分类匹配,得到待分类网页P的分类结果模糊向量C={c1,c2,...,cm};
10)对待分类网页P的分类结果模糊向量C={c1,c2,...,cm}进行“归一化”处理,得到归一化后的向量记为C′,C′=(c1/S,c2/S,...,cm/S),其中, S = Σ i = 1 m c i .
比较模糊向量C′中的各个元素的值,从中挑选出最大的隶属度值ck,1≤k≤m;
11)分类结果模糊评判,判断最大隶属度值ck与判别阈值α之间的关系,在归一化后的模糊向量C′中,若有且仅有一个元素的值ck≥α,则判断新网页是归于第k类的;若每一个元素的值ck≤α,则判断新网页是不属于本系统分类体系中的任一类别;若不止一个元素ck≥α,则判断新网页是属于所有元素值大于α所对应的类别,由此得出分类并输出分类结果。判别阈值α的确定需要经过反复实验,综合所有类别的情况,使得各个分类的准确度保持在一个均衡的水平;
12)分类成功,结束。
其中,m是训练集网页的类别数目。
分类词语描述库构建部分,主要通过对一系列有代表性的网页进行人工分类,得到按类整理好的训练文本集合。然后分别经过训练集合的文本预处理、训练集特征词选择以及总特征词集合模糊化的模块,得到总体的特征词向量模糊矩阵R,为后面的新网页分类的工作打下基础。
新网页预处理部分,主要基于校园网用户访问网络的URL信息数据,从中提取出有效的,较具有代表性的用户访问网页进行网页净化、网页中文文本提取以及中文分词,通过对新网页的关键词进行分析,提取出新网页中文文本的特征词向量,最后形成新网页文本的特征词模糊向量B,作为模糊分类匹配模块的基础。
模糊分类匹配器部分的主要工作是利用模糊数学中的模糊运算法则,通过对前面所求得的新文本的特征词模糊向量B和训练集特征词向量模糊矩阵R进行模糊分类计算,应用模糊综合评判的方法,从论域中选择出最优的对象从而得到新网页文本的模糊决断向量集合C。
分类结果模糊评判这一部分就是要通过模糊分类匹配模块所得到的新网页分类结果的模糊向量值,依照最大隶属度的原则,通过对判别阈值α的判断,来对新网页的类别归属问题进行分析。
根据本方法设计的关键词频度分析中文网页分类系统在项目中得到了具体的验证。系统使用VS2005进行了前台的开发,SQL Server2005数据库进行后台协作,利用C#语言实现各项功能。用户在系统首页面输入相应网址的URL,按步骤操作即可分别得到该网页的HTML源码,所提取的网页中文文本,该网页的关键词按频度排序结果以及该网页的模糊分类结果。系统选择了六个类别的中文网页文本来构建分类词语描述库,作为本系统的分类体系。它们分别是环境类、计算机类、教育类、新闻类、体育类和艺术类。每一类都都选择了200篇网页作为训练网页,六个类共计1200篇网页。这些网页都来自于新华网、新浪网、搜狐网、网易、人民网等各个网站的分类栏目。在系统的测试网页达到800篇的时候,模糊分类的第一维分类准确率封闭测试为78.4%,具有实际的应用价值。

Claims (2)

1.一种基于模糊数据挖掘的中文网页自动分类方法,其特征在于该方法的步骤为:
1)根据用户所输入待分类网页P的网址URL,进行待分类网页P的预处理,预处理过程包括提取网页的HTML源码、对网页源码中的广告、注释内容过滤去噪以及提取出网页中的中文文本内容;
2)利用分词器对所提取出的中文文本内容进行分词操作,得到中文网页的分词后文本;
3)通过关键词频度分析器,对能体现该待分类网页P的主题和关键内容的的关键词进行提取,并按照关键词权重对关键词进行排序,提取出待分类网页P的特征词集合T;
4)初始化数据表D:该数据表D是用于存储构建分类词语描述库时所生产的总特征词集合Z的总特征词向量模糊矩阵R;总特征词是通过文本预处理、训练集总特征词选择以及总特征词集合模糊化的模块得到的;
5)按照数据表D中总特征词的顺序对待分类网页P的特征词集合T进行特征词频度分析;
6)判断总特征词集合Z中的特征词是否存在于待分类网页P中;如果待分类网页P存在该特征词t,则转入步骤7);如果不存在该特征词t,则转到步骤5);
7)统计总特征词集合Z中的特征词在待分类网页P中出现的频度;
8)构造隶属函数,将待分类网页P进行模糊化处理,得到待分类网页P的特征词向量模糊矩阵B;
9)将待分类网页P的特征词向量模糊矩阵B和总特征词向量模糊矩阵R进行模糊分类匹配,得到待分类网页P的分类结果模糊向量C={c1,c2,...,cm};
10)对待分类网页P的分类结果模糊向量C={c1,c2,...,cm}进行“归一化”处理,得到归一化后的向量记为C′,C′=(c1/S,c2/S,...,cm/S),其中, 
Figure DEST_PATH_FSB00000766426400011
比较模糊向量C′中的各个元素的值,从中挑选出最大的隶属度值ck,1≤k≤m;
11)分类结果模糊评判,判断最大隶属度值ck与判别阈值α之间的关系,在归一 化后的模糊向量C′中,若有且仅有一个元素的值ck≥α,则判断新网页是归于第k类的;若每一个元素的值ck≤α,则判断新网页是不属于本系统分类体系中的任一类别;若不止一个元素ck≥α,则判断新网页是属于所有元素值大于α所对应的类别,由此得出分类并输出分类结果;判别阈值α的确定需要经过反复实验,综合所有类别的情况,使得各个分类的准确度保持在一个均衡的水平;
12)分类成功,结束;
其中,m是训练集网页的类别数目。
2.根据权利要求1所述的基于模糊数据挖掘的中文网页自动分类方法,其特征在于步骤1)所述的提取出网页中的中文文本内容的方法是通过阈值对比对网页的类型进行判断,利用正则表达式过滤器对噪音信息进行过滤,并提取出网页的中文,该方法的步骤为:
a)依照所获得的网页源码得到该网页的标签树;
b)通过和标准网页的相关阈值对比,确定步骤(a)所述网页的类型,网页类型包括主题型、链接型和图片型三种;
c)判断网页是否为主题型网页,如果是主题型网页则转到步骤d);如果不是主题型网页,则转到步骤e);
d)根据主题型网页主题的相关度计算,提取出网页主题内容块;
e)利用基于标记的正则表达式过滤器对网页的噪音信息进行过滤;
f)提取网页的中文文本;
g)结束。 
CN2010101185007A 2010-03-05 2010-03-05 基于模糊数据挖掘的中文网页自动分类方法 Expired - Fee Related CN101794311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101185007A CN101794311B (zh) 2010-03-05 2010-03-05 基于模糊数据挖掘的中文网页自动分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101185007A CN101794311B (zh) 2010-03-05 2010-03-05 基于模糊数据挖掘的中文网页自动分类方法

Publications (2)

Publication Number Publication Date
CN101794311A CN101794311A (zh) 2010-08-04
CN101794311B true CN101794311B (zh) 2012-06-13

Family

ID=42587010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101185007A Expired - Fee Related CN101794311B (zh) 2010-03-05 2010-03-05 基于模糊数据挖掘的中文网页自动分类方法

Country Status (1)

Country Link
CN (1) CN101794311B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458658A (zh) * 2019-07-31 2019-11-15 西安工程大学 一种基于语义信息的图书检索推荐方法

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375835B (zh) * 2010-08-17 2016-06-29 深圳市世纪光速信息技术有限公司 一种信息搜索系统和方法
CN102567405A (zh) * 2010-12-31 2012-07-11 北京安码科技有限公司 一种基于改进的文本空间向量表示的热点发现方法
CN102541960A (zh) * 2010-12-31 2012-07-04 北大方正集团有限公司 一种模糊检索的方法及装置
CN102184189B (zh) * 2011-04-18 2012-11-28 北京理工大学 基于dom节点文本密度的网页核心块确定方法
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN102955791A (zh) * 2011-08-23 2013-03-06 句容今太科技园有限公司 网络信息搜索与分类服务系统
CN102289514B (zh) * 2011-09-07 2016-03-30 中国科学院计算技术研究所 社会标签自动标注的方法以及社会标签自动标注器
CN102332012B (zh) * 2011-09-13 2014-10-22 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN102289522B (zh) * 2011-09-19 2014-08-13 北京金和软件股份有限公司 一种对于文本智能分类的方法
CN102521402B (zh) * 2011-12-23 2014-02-19 上海电机学院 文本过滤系统及方法
CN102622553A (zh) * 2012-04-24 2012-08-01 腾讯科技(深圳)有限公司 检测网页安全的方法及装置
CN102819595A (zh) * 2012-08-10 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法、装置及网络设备
CN103678310B (zh) * 2012-08-31 2018-04-27 腾讯科技(深圳)有限公司 网页主题的分类方法及装置
CN102999569B (zh) * 2012-11-09 2015-08-19 同济大学 用户需求分析定位器和分析及定位方法
CN103853720B (zh) * 2012-11-28 2017-04-26 苏州信颐系统集成有限公司 基于用户关注度的网络敏感信息监控系统及方法
CN103870457A (zh) * 2012-12-07 2014-06-18 北京百度网讯科技有限公司 一种确定问答平台中的未回答问题优先级的方法及装置
CN103049557A (zh) * 2012-12-31 2013-04-17 百度在线网络技术(北京)有限公司 一种站点资源管理方法及装置
CN103942693B (zh) * 2013-01-18 2017-11-14 阿里巴巴集团控股有限公司 识别杂货铺的方法、装置及搜索店铺的方法、系统
CN103294820B (zh) * 2013-06-14 2017-11-10 广东电网有限责任公司电力科学研究院 基于语义扩展的web页面归类方法和系统
CN104424308A (zh) * 2013-09-04 2015-03-18 中兴通讯股份有限公司 网页分类标准获取方法、装置及网页分类方法、装置
CN103488746B (zh) * 2013-09-22 2017-04-26 成都锐理开创信息技术有限公司 一种获取业务信息的方法及装置
CN103577547B (zh) * 2013-10-12 2017-11-10 优视科技有限公司 网页类型识别方法及装置
CN103544310B (zh) * 2013-11-04 2017-08-08 北京中搜云商网络技术有限公司 一种基于分类器实现的导购类网页的信息分类方法
CN103886007A (zh) * 2013-12-20 2014-06-25 广西大学 一种基于相互约束的模糊数据分类方法
CN105446981B (zh) * 2014-06-30 2019-03-29 阿里巴巴集团控股有限公司 站点地图生成方法、访问方法及装置
CN104504037B (zh) * 2014-12-15 2018-07-06 深圳市宜搜科技发展有限公司 实体词热度计算方法及装置
CN105005589B (zh) * 2015-06-26 2017-12-29 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
CN106484729B (zh) * 2015-08-31 2020-05-08 华为技术有限公司 一种词汇生成、分类方法及装置
WO2017117781A1 (zh) * 2016-01-07 2017-07-13 马岩 网络信息的分类方法及系统
CN105868363B (zh) * 2016-03-29 2018-12-14 中国农业银行股份有限公司 一种基于模糊逻辑的网页页面正文抽取方法及系统
CN105912695A (zh) * 2016-04-25 2016-08-31 全球电气资源(深圳)有限公司 一种基于互联网的数据信息传输和采集系统
CN107436875B (zh) * 2016-05-25 2020-12-04 华为技术有限公司 文本分类方法及装置
CN106156372B (zh) * 2016-08-31 2019-07-30 北京北信源软件股份有限公司 一种互联网网站的分类方法及装置
CN106547851B (zh) * 2016-10-19 2020-04-07 贵州大学 基于模糊序列模式发掘的网页内容提取方法
CN106599155B (zh) * 2016-12-07 2020-05-26 北京亚鸿世纪科技发展有限公司 一种网页分类方法及系统
CN106778357B (zh) * 2016-12-23 2020-02-07 北京神州绿盟信息安全科技股份有限公司 一种网页篡改的检测方法及装置
CN107092679B (zh) * 2017-04-21 2020-01-03 北京邮电大学 一种特征词向量获得方法、文本分类方法及装置
CN107909088B (zh) * 2017-09-27 2022-06-28 百度在线网络技术(北京)有限公司 获取训练样本的方法、装置、设备和计算机存储介质
CN108629043B (zh) * 2018-05-14 2023-05-12 平安科技(深圳)有限公司 网页目标信息的提取方法、装置及存储介质
CN109062972A (zh) * 2018-06-29 2018-12-21 平安科技(深圳)有限公司 网页分类方法、装置及计算机可读存储介质
CN109471937A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种基于机器学习的文本分类方法及终端设备
CN109657180B (zh) * 2018-12-11 2021-11-26 中科国力(镇江)智能技术有限公司 一种智能化网页内容自动模糊抽取系统
CN109800296B (zh) * 2019-01-21 2022-03-01 四川长虹电器股份有限公司 一种基于用户真实意图的语意模糊识别方法
CN111881286B (zh) * 2019-09-10 2021-08-24 马上消费金融股份有限公司 一种分类模糊性分析方法及装置
CN110705289B (zh) * 2019-09-29 2023-03-28 重庆邮电大学 一种基于神经网络和模糊推理的中文分词方法、系统及介质
CN110633446B (zh) * 2019-11-25 2020-03-13 湖南蚁坊软件股份有限公司 网页栏目识别模型训练方法、使用方法、装置和存储介质
CN112035662B (zh) * 2020-08-26 2021-06-08 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备以及存储介质
CN114186057A (zh) * 2020-09-15 2022-03-15 智慧芽(中国)科技有限公司 基于多类型文本的自动分类方法、装置、设备和存储介质
CN117909507B (zh) * 2024-03-19 2024-05-17 金盾检测技术股份有限公司 基于ai的数据分类系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040249643A1 (en) * 2003-06-06 2004-12-09 Ma Laboratories, Inc. Web-based computer programming method to automatically fetch, compare, and update various product prices on the web servers
CN101470731B (zh) * 2007-12-26 2012-06-20 中国科学院自动化研究所 一种可个性化定制的网页过滤方法
CN101334784B (zh) * 2008-07-30 2011-06-15 施章祖 计算机辅助报告与知识库产生的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458658A (zh) * 2019-07-31 2019-11-15 西安工程大学 一种基于语义信息的图书检索推荐方法

Also Published As

Publication number Publication date
CN101794311A (zh) 2010-08-04

Similar Documents

Publication Publication Date Title
CN101794311B (zh) 基于模糊数据挖掘的中文网页自动分类方法
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN108959431B (zh) 标签自动生成方法、系统、计算机可读存储介质及设备
CN104035997B (zh) 一种基于文本分类和图像深度挖掘的科技情报获取与推送方法
CN102708096B (zh) 一种基于语义的网络智能舆情监测系统及其工作方法
CN107844559A (zh) 一种文件分类方法、装置及电子设备
CN108629633A (zh) 一种基于大数据建立用户画像的方法及系统
CN111797239B (zh) 应用程序的分类方法、装置及终端设备
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN103577478B (zh) 网页推送方法及系统
CN107705066A (zh) 一种商品入库时信息录入方法及电子设备
CN106951422A (zh) 网页训练的方法和装置、搜索意图识别的方法和装置
CN108984518A (zh) 一种面向裁判文书的文本分类方法
CN103744981A (zh) 一种基于网站内容用于网站自动分类分析的系统
CN107506472B (zh) 一种学生浏览网页分类方法
CN108021715B (zh) 基于语义结构特征分析的异构标签融合系统
CN102428467A (zh) 用于分类的基于相似度的特征集补充
CN108959329A (zh) 一种文本分类方法、装置、介质及设备
CN110910175A (zh) 一种旅游门票产品画像生成方法
KR20170115109A (ko) 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술
Aung et al. Random forest classifier for multi-category classification of web pages
CN107908749A (zh) 一种基于搜索引擎的人物检索系统及方法
CN107368610A (zh) 基于全文的大文本 crf 和规则分类方法和系统
CN115481240A (zh) 一种数据资产质量检测方法和检测装置
Priyatam et al. Don't Use a Lot When Little Will Do: Genre Identification Using URLs.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20100804

Assignee: NANJING AXON SCIENCE & TECHNOLOGY CO.,LTD.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: 2017320000034

Denomination of invention: Fuzzy data mining based automatic classification method of Chinese web pages

Granted publication date: 20120613

License type: Exclusive License

Record date: 20170306

EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: NANJING AXON SCIENCE & TECHNOLOGY Co.,Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: 2017320000034

Date of cancellation: 20210604

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120613