CN106156276B - 基于Pitman-Yor过程的新闻热点发现方法 - Google Patents
基于Pitman-Yor过程的新闻热点发现方法 Download PDFInfo
- Publication number
- CN106156276B CN106156276B CN201610469344.6A CN201610469344A CN106156276B CN 106156276 B CN106156276 B CN 106156276B CN 201610469344 A CN201610469344 A CN 201610469344A CN 106156276 B CN106156276 B CN 106156276B
- Authority
- CN
- China
- Prior art keywords
- class cluster
- text
- data
- news
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Pitman‑Yor过程的新闻热点发现方法。本发明可以自动从新闻数据集中自动挖掘热点个数,而不需要人为的设定吗,也就是新闻热点的个数随着随着数据集大小而变化;然后,在现实的新闻数据集中,一个新的热点往往是处于新闻样本个数少量的类别中,另一方面,大多数已存在的、过时的新闻主题的类别的样本个数巨大,从而造成新热点的样本难以有效的识别出来。所以,本发明的另一个贡献在于新热点可以从这种极端不平衡的数据集中识别出新的热点样本。最终实现了新闻热点在这种真实存在的数据分布情况下的有效识别。
Description
技术领域
本发明涉及计算机技术领域,尤其是一种基于Pitman-Yor过程的新闻热点发现方法。
背景技术
大多数分类算法与少部分聚类算法都只是对数据层干预,例如采用欠采样或是过采样等方法。另一个,多数聚类算法面临的问题是:类簇个数是提前假设的。实际上,现实中很难设定具体的类簇个数。
如今,在热点发现这个领域,已有国内外一些大学或科研机构对网络舆情热点发现进行了大量的研究,也相应的取得丰硕的结果。其中以美国的TDT(Topic Detection andTracking)研究项目最为引人关注。这个项目可以实现从数据流中归纳重要信息。在国内,研究比较晚,但也有引起了大量机构在这方向的关注,比如方正公司、人民日报系统等,但他们关注的侧重点略有不同。但大都都是从热点个数是假定的角度出发,对热点进行挖掘,而不能处理好热点个数随着数据集的增加而增加的情况;其二,没有考虑到真实的数据集是存在极端不平衡的,特别是对于这种新的热点类别,往往相对于已存在的类别是个极小类别,所以给新热点的识别带来了更大的困难。
发明内容
本发明所要解决的技术问题是:提供一种基于Pitman-Yor过程的新闻热点发现方法,它能快速、准确的发现网络环境中所关注的新闻热点,避免了在无监督聚类分析问题中,对存在高度不平衡数据集的文本数据下,对极小类簇的低效识别问题。
本发明是这样实现的:基于Pitman-Yor过程的新闻热点发现方法,包括如下步骤:
1)根据从互联网中抓取新闻文本原始数据集,利用数据预处理工具处理抓取到的原始数据集,去除不在正常值内的文档背景词项,该正常值的范围为1≤词频≤5000,统计文本中出现的每个词项次数,最终生成相应的词汇字典和合成一个含有全部数据的语料库数据矩阵;
2)根据词汇字典和合成的语料库数据矩阵,对语料库的数据矩阵进行初始化,即每个文本为一个类簇,则初始的类簇个数为N;
3)利用基于PYP模型的新闻热点发现聚类算法,则聚类分析的类簇个数为[1,N];
4)对聚类分析结果采用NMI聚类评价方法进行评估结果;若NMI接近于1;此时得到聚类结果中的极小类簇,就是发现的新闻热点。
所述的数据预处理工具为分词器。
步骤3)中所述的聚类算法为:
1)含有N个文本样本数据集的语料库:X={x1,x2,...,xN},初始化,每个文本为一个类簇;
2)随机选取其中一个文本进行采样,剩余的N-1篇作为观察量;计算这个文本在已存在的K个类簇中分布概率和分配为新类簇K+1的分布概率,进一步找出K+1中分布概率最大的类簇Cm,最后计算出最大类簇与剩下K个类簇的文本数的比值
3)依据上一步的比值对相应类簇的大小进行惩罚,获得这个文本分配到K+1类簇的最终生成概率;
4)同理对剩下的文本,重复2)、3)两步骤,直至全部样本采样完成,最后计算全部更新后的语料库的目标函数以判断是否可以收敛。
与现有技术相比,本发明基于现有技术存在的技术难点,首先选取去了非参数贝叶斯模型,解决热点个数需要人为假定的问题;然后基于Pitman-Yor Process模型的改进,克服基础模型的“富人越富”问题,从而解决真实的数据集不平衡下的热点识别问题。最终达到高效地识别出新闻热点和相关的热点爆发预测。首先,本发明可以自动从新闻数据集中自动挖掘热点个数,而不需要人为的设定吗,也就是新闻热点的个数随着随着数据集大小而变化;然后,在现实的新闻数据集中,一个新的热点往往是处于新闻样本个数少量的类别中,另一方面,大多数已存在的、过时的新闻主题的类别的样本个数巨大,从而造成新热点的样本难以有效的识别出来。所以,本发明的另一个贡献在于新热点可以从这种极端不平衡的数据集中识别出新的热点样本。最终实现了新闻热点在这种真实存在的数据分布情况下的有效识别。
附图说明
图1为本发明本发明的新闻热点发现流程图;
图2为本发明的方案与现有技术的方案具体实验效果的NMI对比图;
图3为本发明的方案与现有技术的方案的类别个数在聚类过程中的迭代图。
具体实施方式
本发明的实施例1:基于Pitman-Yor过程的新闻热点发现方法:包括如下步骤:
1)从原始网页中收集的原始新闻文本的原始数据集,利用分词器对采集的原始数据集进行进一步预处理,再利用本发明的新闻热点发现模型之后,得到图2的实验结果分析图,其中蓝、绿和红三条直线分别代表狄利克雷过程混合模型(Dirichlet process model,DPM)、皮特曼过程混合模型(PYPM)和自动调整折扣的皮特曼过程混合模型(AD-PYP)的实验对比结果分析图;
2)人造数据集假定是2个类,极大类与极小类之比为1:1、10:1、50:1、100:1、1000:1等几组不平衡比例数据集;
3)经聚类分析后,得到实验结果;
4)采用NMI进行评估,得到图2所示结果,AD-PYP可以完美分出在各个不平衡比例下的那个极小类簇,即是新闻热点。
Claims (2)
1.一种基于Pitman-Yor过程的新闻热点发现方法,其特征在于:包括如下步骤:
1)根据从互联网中抓取新闻文本原始数据集,利用数据预处理工具处理抓取到的原始数据集,去除不在正常值内的文档背景词项,该正常值的范围为1≤词频≤5000,统计文本中出现的每个词项次数,最终生成相应的词汇字典和合成一个含有全部数据的语料库数据矩阵;
2)根据词汇字典和合成的语料库数据矩阵,对语料库的数据矩阵进行初始化,即每个文本为一个类簇,则初始的类簇个数为N;
3)利用基于PYP模型的新闻热点发现聚类算法,则聚类分析的类簇个数为[1,N];
4)对聚类分析结果采用NMI聚类评价方法进行评估结果;若NMI接近于1;此时得到聚类结果中的极小类簇,就是发现的新闻热点;
步骤3)中所述的聚类算法为:
1)含有N个文本样本数据集的语料库:X={x1,x2,...,xN},初始化,每个文本为一个类簇;
2)随机选取其中一个文本进行采样,剩余的N-1篇作为观察量;计算这个文本在已存在的K个类簇中分布概率和分配为新类簇K+1的分布概率,进一步找出K+1中分布概率最大的类簇Cm,最后计算出最大类簇与剩下K个类簇的文本数的比值
3)依据上一步的比值对相应类簇的大小进行惩罚,获得这个文本分配到K+1类簇的最终生成概率;
4)同理对剩下的文本,重复2)、3)两步骤,直至全部样本采样完成,最后计算全部更新后的语料库的目标函数以判断是否可以收敛。
2.根据权利要求1所述的基于Pitman-Yor过程的新闻热点发现方法,其特征在于:所述的数据预处理工具为分词器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610469344.6A CN106156276B (zh) | 2016-06-25 | 2016-06-25 | 基于Pitman-Yor过程的新闻热点发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610469344.6A CN106156276B (zh) | 2016-06-25 | 2016-06-25 | 基于Pitman-Yor过程的新闻热点发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106156276A CN106156276A (zh) | 2016-11-23 |
CN106156276B true CN106156276B (zh) | 2019-07-19 |
Family
ID=57349245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610469344.6A Expired - Fee Related CN106156276B (zh) | 2016-06-25 | 2016-06-25 | 基于Pitman-Yor过程的新闻热点发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106156276B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599181B (zh) * | 2016-12-13 | 2019-06-18 | 浙江网新恒天软件有限公司 | 一种基于主题模型的新闻热点检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320646A (zh) * | 2015-11-17 | 2016-02-10 | 天津大学 | 一种基于增量聚类的新闻话题挖掘方法及其装置 |
CN105354333A (zh) * | 2015-12-07 | 2016-02-24 | 天云融创数据科技(北京)有限公司 | 一种基于新闻文本的话题提取方法 |
CN105488196A (zh) * | 2015-12-07 | 2016-04-13 | 中国人民大学 | 一种基于互联语料的热门话题自动挖掘系统 |
-
2016
- 2016-06-25 CN CN201610469344.6A patent/CN106156276B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320646A (zh) * | 2015-11-17 | 2016-02-10 | 天津大学 | 一种基于增量聚类的新闻话题挖掘方法及其装置 |
CN105354333A (zh) * | 2015-12-07 | 2016-02-24 | 天云融创数据科技(北京)有限公司 | 一种基于新闻文本的话题提取方法 |
CN105488196A (zh) * | 2015-12-07 | 2016-04-13 | 中国人民大学 | 一种基于互联语料的热门话题自动挖掘系统 |
Non-Patent Citations (2)
Title |
---|
Dynamic Textures Clustering Using A Hierarchical Pitman-Yor Process Mixture Of Dirichlet Distributions;Wentao Fan;《2015 IEEE International Conference on Image Processing》;20151210;论文第1-2节 |
基于云平台的网络新闻热点话题检测与发现;陈震;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150415(第04期);论文第2.1、3.1、3.2节 |
Also Published As
Publication number | Publication date |
---|---|
CN106156276A (zh) | 2016-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiang et al. | A Review of Yolo algorithm developments | |
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
CN106095928B (zh) | 一种事件类型识别方法及装置 | |
CN110297988B (zh) | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN102411563B (zh) | 一种识别目标词的方法、装置及系统 | |
CN104750844B (zh) | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 | |
CN101488150B (zh) | 一种实时多角度网络热点事件分析装置及分析方法 | |
CN103593418B (zh) | 一种面向大数据的分布式主题发现方法及系统 | |
CN109558587B (zh) | 一种针对类别分布不平衡的舆论倾向性识别的分类方法 | |
CN103294817A (zh) | 一种基于类别分布概率的文本特征抽取方法 | |
CN103838756A (zh) | 一种确定推送信息的方法及装置 | |
CN105320646A (zh) | 一种基于增量聚类的新闻话题挖掘方法及其装置 | |
US8090720B2 (en) | Method for merging document clusters | |
Alghamdi et al. | Topic detections in Arabic dark websites using improved vector space model | |
CN109960727A (zh) | 针对非结构化文本的个人隐私信息自动检测方法及系统 | |
CN106055539A (zh) | 姓名消歧的方法和装置 | |
CN109492105A (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN106997379A (zh) | 一种基于图片文本点击量的相近文本的合并方法 | |
CN103268346B (zh) | 半监督分类方法及系统 | |
Celikyilmaz et al. | Leveraging web query logs to learn user intent via bayesian latent variable model | |
CN106156276B (zh) | 基于Pitman-Yor过程的新闻热点发现方法 | |
CN105117466A (zh) | 一种互联网信息筛选系统及方法 | |
CN104778205B (zh) | 一种基于异构信息网络的移动应用排序和聚类方法 | |
CN108829806A (zh) | 一种跨事件新闻文本情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190719 |