CN106126690A - 一种基于文本内容的网页信息过滤方法 - Google Patents
一种基于文本内容的网页信息过滤方法 Download PDFInfo
- Publication number
- CN106126690A CN106126690A CN201610499618.6A CN201610499618A CN106126690A CN 106126690 A CN106126690 A CN 106126690A CN 201610499618 A CN201610499618 A CN 201610499618A CN 106126690 A CN106126690 A CN 106126690A
- Authority
- CN
- China
- Prior art keywords
- text
- feature
- point
- bunch
- info web
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文本内容的网页信息过滤方法,采用X2统计和改进的DBSCAN聚类算法,对文档特征进行2次选择,提高了各特征之间的相对独立性,提出采用构建词索引矩阵和词共现矩阵的方法。最后提出了基于特征簇的向量空间模型,在有效提高特征独立性的同时,减低了特征维数,为下一步分类器计算提供了方便。对于最终各特征簇的权值计算,采TF‑IDF算法,分3步走,把文档表示成特征簇向量空间模型。
Description
技术领域
本发明属于网页方法领域,更具体地说,本发明涉及一种基于文本内容的网页信息过滤方法。
背景技术
网页所携带的信息大致可分为图像、声音、文字,对于图像和声音的内容,大多数情况下会有文字进行概括说明。对于一个网页文字信息的提取和解读可以判定该网页是否为不良信息的载体,基于文本内容的网页过滤就是首先把网页中的文字信息进行提取,然后表示成计算机能运算处理的形式,通过分类算法对网页进行过滤分类。网页文本分类是的最小单元是词,把那些能代表文章意图的词选定出来,经过聚类把词提升为概念。由于基于词的分类是运用统计学的方法同时综合机器学习的理论,把待分类文本表示成向量,然后使用合适算法进行运算分类。这种方法简单直接,对于大量网页信息的过滤可操作性强。
发明内容
本发明所要解决的问题是提供一种基于文本内容的网页信息过滤方法。
为了实现上述目的,本发明采取的技术方案为:
一种基于文本内容的网页信息过滤方法,包括如下步骤:
(1)文本预处理
首先把网页中的文字信息提取出来,接着进行去除噪音、词干还原和标签加权处理,生成带有标记的词序流;
(2)特征选择
采用基于密度聚类算(DBSCAN)法对预处理文本的特征进行选取,接着构建文本特征,把一些经常同时出现的词进行统计,通过聚类生成簇;
(3)特征加权
采用基于特征簇的TF-IDF算法求聚类生成簇的权值;
(4)分类器运算
利用统计学和数学的方法,首先对分类器进行训练,计算各向量的距离,找到分类的映射法则,然后对待测文本进行分类过滤,最终把网页信息区分为规定的两类,得到结果;
(5)自学习更新
引入自学习更新模块,把词库中没有的词记录下来,对结果进行更新检查,得到输出结果;
(6)性能评估
对输出结果计算其各性能指标,通过结果对设定参数进行微调,反复实验不同待测样本的过滤效果,找到相对合适的参数设定。
优选的,所述步骤(2)中特征选择的方法为X2统计。
优选的,所述步骤(2)中构建文本特征的步骤为:
1)X2统计特征选择:采用X2公式特征词和类别之间的相关程度;
2)生成文本索引矩阵;
3)特征词共现矩阵;
4)简化的DBSCAN算法特征聚类选择;
5)文本特征表示。
优选的,所述X2公式为
优选的,所述简化的DBSCAN算法的步骤为:
①读入词共现矩阵,求出所有点对之间的距离;
②提取现有点的集合C1,计算每一个点,在给定半径的范围内,含有点的数量,把每个点含有点的数量进行降序排列,找出排序第一名的核心点群集合c2;
③判断排序第一名的点,是否为核心点(含有点数超过Minpts)如果不是将剩余集合中所有点按序号加入簇,并从C1中删除这些点,如果是核心点,计算每个核心点到其内部的点的距离之和s;
④按照距离之和s对c2集合中点降序排列,找到距离之和最小的核心点jw和其邻域内的点集;
⑤取点jw和在其邻域内,在索引矩阵中词频最高的前3名,以jw为簇心建立一个簇,同时把这4个点从C1集合中删除;
⑥重复步骤②到⑥直到C1没有点;
⑦输出簇群。
优选的,所述步骤(3)中TF-IDF算法的公式为
有益效果:本发明提供了一种基于文本内容的网页信息过滤方法,采用X2统计和改进的DBSCAN聚类算法,对文档特征进行2次选择,提高了各特征之间的相对独立性,提出采用构建词索引矩阵和词共现矩阵的方法。最后提出了基于特征簇的向量空间模型,在有效提高特征独立性的同时,减低了特征维数,为下一步分类器计算提供了方便。对于最终各特征簇的权值计算,采TF-IDF算法,分3步走,把文档表示成特征簇向量空间模型。
具体实施方式
一种基于文本内容的网页信息过滤方法,包括如下步骤:
(1)文本预处理
首先把网页中的文字信息提取出来,接着进行去除噪音、词干还原和标签加权处理,生成带有标记的词序流;
(2)特征选择
采用基于密度聚类算(DBSCAN)法对预处理文本的特征进行选取,接着构建文本特征,把一些经常同时出现的词进行统计,通过聚类生成簇,所述特征选择的方法为X2统计,所述X2公式为
所述构建文本特征的步骤为:
1)X2统计特征选择:采用X2公式特征词和类别之间的相关程度;
2)生成文本索引矩阵;
3)特征词共现矩阵;
4)简化的DBSCAN算法特征聚类选择;
5)文本特征表示,
所述简化的DBSCAN算法的步骤为:
①读入词共现矩阵,求出所有点对之间的距离;
②提取现有点的集合C1,计算每一个点,在给定半径的范围内,含有点的数量,把每个点含有点的数量进行降序排列,找出排序第一名的核心点群集合c2;
③判断排序第一名的点,是否为核心点(含有点数超过Minpts)如果不是将剩余集合中所有点按序号加入簇,并从C1中删除这些点,如果是核心点,计算每个核心点到其内部的点的距离之和s;
④按照距离之和s对c2集合中点降序排列,找到距离之和最小的核心点jw和其邻域内的点集;
⑤取点jw和在其邻域内,在索引矩阵中词频最高的前3名,以jw为簇心建立一个簇,同时把这4个点从C1集合中删除;
⑥重复步骤②到⑥直到C1没有点;
⑦输出簇群;
(3)特征加权
采用基于特征簇的TF-IDF算法求聚类生成簇的权值,所述TF-IDF算法的公式为
(4)分类器运算
利用统计学和数学的方法,首先对分类器进行训练,计算各向量的距离,找到分类的映射法则,然后对待测文本进行分类过滤,最终把网页信息区分为规定的两类,得到结果;
(5)自学习更新
引入自学习更新模块,把词库中没有的词记录下来,对结果进行更新检查,得到输出结果;
(6)性能评估
对输出结果计算其各性能指标,通过结果对设定参数进行微调,反复实验不同待测样本的过滤效果,找到相对合适的参数设定。
本发明提供了一种基于文本内容的网页信息过滤方法,采用X2统计和改进的DBSCAN聚类算法,对文档特征进行2次选择,提高了各特征之间的相对独立性,提出采用构建词索引矩阵和词共现矩阵的方法。最后提出了基于特征簇的向量空间模型,在有效提高特征独立性的同时,减低了特征维数,为下一步分类器计算提供了方便。对于最终各特征簇的权值计算,采TF-IDF算法,分3步走,把文档表示成特征簇向量空间模型。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (6)
1.一种基于文本内容的网页信息过滤方法,其特征在于,包括如下步骤:
(1)文本预处理
首先把网页中的文字信息提取出来,接着进行去除噪音、词干还原和标签加权处理,生成带有标记的词序流;
(2)特征选择
采用基于密度聚类算(DBSCAN)法对预处理文本的特征进行选取,接着构建文本特征,把一些经常同时出现的词进行统计,通过聚类生成簇;
(3)特征加权
采用基于特征簇的TF-IDF算法求聚类生成簇的权值;
(4)分类器运算
利用统计学和数学的方法,首先对分类器进行训练,计算各向量的距离,找到分类的映射法则,然后对待测文本进行分类过滤,最终把网页信息区分为规定的两类,得到结果;
(5)自学习更新
引入自学习更新模块,把词库中没有的词记录下来,对结果进行更新检查,得到输出结果;
(6)性能评估
对输出结果计算其各性能指标,通过结果对设定参数进行微调,反复实验不同待测样本的过滤效果,找到相对合适的参数设定。
2.按照权利要求1所述的一种基于文本内容的网页信息过滤方法,其特征在于:所述步骤(2)中特征选择的方法为X2统计。
3.按照权利要求1所述的一种基于文本内容的网页信息过滤方法,其特征在于:所述步骤(2)中构建文本特征的步骤为:
1)X2统计特征选择:采用X2公式特征词和类别之间的相关程度;
2)生成文本索引矩阵;
3)特征词共现矩阵;
4)简化的DBSCAN算法特征聚类选择;
5)文本特征表示。
4.按照权利要求3所述的一种基于复杂网络的灰度图像识别方法,其特征在于:所述X2公式为
5.按照权利要求3所述的一种基于文本内容的网页信息过滤方法,其特征在于:所述简化的DBSCAN算法的步骤为:
①读入词共现矩阵,求出所有点对之间的距离;
②提取现有点的集合C1,计算每一个点,在给定半径的范围内,含有点的数量,把每个点含有点的数量进行降序排列,找出排序第一名的核心点群集合c2;
③判断排序第一名的点,是否为核心点(含有点数超过Minpts)如果不是将剩余集合中所有点按序号加入簇,并从C1中删除这些点,如果是核心点,计算每个核心点到其内部的点的距离之和s;
④按照距离之和s对c2集合中点降序排列,找到距离之和最小的核心点jw和其邻域内的点集;
⑤取点jw和在其邻域内,在索引矩阵中词频最高的前3名,以jw为簇心建立一个簇,同时把这4个点从C1集合中删除;
⑥重复步骤②到⑥直到C1没有点;
⑦输出簇群。
6.按照权利要求1所述的一种基于文本内容的网页信息过滤方法,其特征在于:所述步骤(3)中TF-IDF算法的公式为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610499618.6A CN106126690A (zh) | 2016-06-29 | 2016-06-29 | 一种基于文本内容的网页信息过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610499618.6A CN106126690A (zh) | 2016-06-29 | 2016-06-29 | 一种基于文本内容的网页信息过滤方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106126690A true CN106126690A (zh) | 2016-11-16 |
Family
ID=57284792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610499618.6A Withdrawn CN106126690A (zh) | 2016-06-29 | 2016-06-29 | 一种基于文本内容的网页信息过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106126690A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153738A (zh) * | 2018-02-10 | 2018-06-12 | 灯塔财经信息有限公司 | 一种基于层次聚类的聊天记录分析方法和装置 |
CN114281994A (zh) * | 2021-12-27 | 2022-04-05 | 盐城工学院 | 一种基于三层加权模型的文本聚类集成方法及系统 |
-
2016
- 2016-06-29 CN CN201610499618.6A patent/CN106126690A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153738A (zh) * | 2018-02-10 | 2018-06-12 | 灯塔财经信息有限公司 | 一种基于层次聚类的聊天记录分析方法和装置 |
CN114281994A (zh) * | 2021-12-27 | 2022-04-05 | 盐城工学院 | 一种基于三层加权模型的文本聚类集成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104750844B (zh) | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 | |
CN102591854B (zh) | 针对文本特征的广告过滤系统及其过滤方法 | |
CN102622373B (zh) | 一种基于tf*idf算法的统计学文本分类系统及方法 | |
CN101751438B (zh) | 自适应语义驱动的主题网页过滤系统 | |
CN104239485B (zh) | 一种基于统计机器学习的互联网暗链检测方法 | |
CN104965867A (zh) | 基于chi特征选取的文本事件分类方法 | |
CN106570144A (zh) | 推荐信息的方法和装置 | |
CN107291723A (zh) | 网页文本分类的方法和装置,网页文本识别的方法和装置 | |
CN101404033A (zh) | 本体层级结构的自动生成方法及系统 | |
CN103793503A (zh) | 一种基于web文本的观点挖掘与分类的方法 | |
CN105760493A (zh) | 一种电力营销服务热点95598工单自动分类方法 | |
CN101609450A (zh) | 基于训练集的网页分类方法 | |
CN103886108A (zh) | 一种不均衡文本集的特征选择和权重计算方法 | |
CN106156372A (zh) | 一种互联网网站的分类方法及装置 | |
CN103064951A (zh) | 一种舆情信息的地域识别方法和装置 | |
CN104346459B (zh) | 一种基于术语频率和卡方统计的文本分类特征选择方法 | |
CN104317784A (zh) | 一种跨平台用户识别方法和系统 | |
CN102200981B (zh) | 面向多层文本分类的特征选择方法和装置 | |
CN102169496A (zh) | 基于锚文本分析的领域术语自动生成方法 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN107066555A (zh) | 面向专业领域的在线主题检测方法 | |
CN101393555A (zh) | 一种垃圾博客检测方法 | |
CN103186612A (zh) | 一种词汇分类的方法、系统和实现方法 | |
CN106777193A (zh) | 一种自动撰写特定稿件的方法 | |
CN104361059A (zh) | 一种基于多示例学习的有害信息识别和网页分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20161116 |