CN106294861B - 面向大规模数据的情报系统中文本聚合及展现方法及系统 - Google Patents
面向大规模数据的情报系统中文本聚合及展现方法及系统 Download PDFInfo
- Publication number
- CN106294861B CN106294861B CN201610707151.XA CN201610707151A CN106294861B CN 106294861 B CN106294861 B CN 106294861B CN 201610707151 A CN201610707151 A CN 201610707151A CN 106294861 B CN106294861 B CN 106294861B
- Authority
- CN
- China
- Prior art keywords
- text
- long
- short
- sentence
- simhash
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/358—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种面向大规模数据的情报系统中文本聚合及展现方法及系统,包括以下步骤:S1、对长短文本进行多维度划分,包括长文本、短文本和无意义文本;S2、对长文本通过topN相似度算法计算相似度度量;S3、对短文本进行SimHash算法计算相似度度量;S4、文本聚合展示,在展示文本时,将相似的文本聚合到一起进行展示。本发明能够快速将相似的文本聚合在一起,页面上展现代表性文章的标题和摘要等基本信息,方便用户快速浏览发现自己感兴趣的信息以及在发现感兴趣信息后,点开详细阅读,极大地提高了用户阅读效率以及关键情报信息定位的准确率。
Description
技术领域
本发明涉及计算情报学领域,更具体的说,是涉及一种面向大规模数据的情报系统中文本聚合及展现方法及系统。
背景技术
随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。
网络情报服务系统是利用搜索引擎技术和网络信息挖掘技术,通过网页内容的自动采集处理、敏感词过滤、智能聚类分类、主题检测、专题聚焦、统计分析,实现各单位对自己相关网络情报监督管理的需要,最终形成情报简报、情报专报、分析报告、移动快报,为决策层全面掌握情报动态,做出正确舆论引导,提供分析依据。
传统的情报服务系统上信息阅读方式是逐条浏览,如果页面上出现了重复了相似的文本,也不得不在阅读以后才会发现内容重复,这样就造成了用户时间的浪费。另一方面,用户阅读一条信息后,发现对此类信息比较有兴趣,希望快速并集中地获得此类信息,传统的情报服务系统并没有一种简单快捷的操作方式完成此目的。
发明内容
有鉴于此,有必要针对上述问题,提供一种面向大规模数据的情报系统中文本聚合及展现方法及系统,能够快速将相似的文本聚合在一起,页面上展现代表性文章的标题和摘要等基本信息,方便用户快速浏览发现自己感兴趣的信息以及在发现感兴趣信息后,点开详细阅读,极大地提高了用户阅读效率以及关键情报信息定位的准确率。
为了实现上述目的,本发明的技术方案如下:
一种面向大规模数据的情报系统中文本聚合及展现方法,包括以下步骤:
S1、对长短文本进行多维度划分,包括长文本、短文本和无意义文本;
S2、对长文本通过topN相似度算法计算相似度度量;
S3、对短文本进行SimHash算法计算相似度度量;
S4、文本聚合展示,在展示文本时,将相似的文本聚合到一起进行展示。
作为优选的,所述步骤S1中包括,将来源文本划分成长文本、短文本及无意义文本三种,其中无信息文本会直接抛弃而不做处理。
作为优选的,所述无意义文本为信息量低或无意义信息。
作为优选的,所述步骤S2具体包括:从文本中提取N句代表性的词语,组成特征词语,将此N个句子按从长到短拼接成一个特征句,使用MD5生成此特征句的hash值,存入数据库,拥有相同hash值的文本被认为是相似文本。
作为优选的,所述步骤S3具体包括:将文本进行分词,分词后过滤去掉标点符号,使用SimHash计算各个文本间的相似度,相似的文本会被赋予相同的ID号,将此ID号存入数据库。
作为优选的,所述步骤S4具体包括:将相似类文本聚合成一个按关注度排序的堆上,展示堆顶上的文本摘要信息,浏览时只有点击率排名最高的文本摘要会展示,点击进入会展示详细的文本列表。
一种根据上述方法进行文本聚合及展现的系统,包括长短文本分类器、topN算法模块和SimHash算法模块和数据库;
所述长短文本分类器用于对长短文本进行分类区别,并将长文本传输到topN算法模块、短文本传输到SimHash算法模块、无意义文本直接抛弃;
所述topN算法模块用于将长文本文本按照标点符号分割成有意义的句子,提取N句代表性的语句,将此N个句子按从长到短拼接成一个特征句,使用MD5生成此特征句的hash值,存入数据库;
所述SimHash算法模块用于将短文本进行分词,分词后过滤去掉标点符号,使用SimHash计算各个文本间的相似度,对相似的文本会赋予相同的ID号,将此ID号存入数据库。
作为优选的,所述长短文本分类器通过海量情报系统的海量文本训练得出。
与现有技术相比,本发明的有益效果在于:本发明能够快速将相似的文本聚合在一起,页面上展现代表性文章的标题和摘要等基本信息,方便用户快速浏览发现自己感兴趣的信息以及在发现感兴趣信息后,点开详细阅读。此系统极大地提高了用户阅读效率以及关键情报信息定位的准确率。
附图说明
图1为本发明实施例的方法流程图;
图2为本发明实施例中topN算法生成长文本流程图;
图3为本发明实施例中系统结构框图;
图4为本发明实施例中长短文本分类器结构示意图。
具体实施方式
下面结合附图和实施例对本发明所述的一种面向大规模数据的情报系统中文本聚合及展现方法及系统作进一步说明。
以下是本发明所述的面向大规模数据的情报系统中文本聚合及展现方法及系统的最佳实例,并不因此限定本发明的保护范围。
图1示出了一种面向大规模数据的情报系统中文本聚合及展现方法,包括以下步骤:
S1、对长短文本进行多维度划分,包括长文本、短文本和无意义文本;
S2、对长文本通过topN相似度算法计算相似度度量;
S3、对短文本进行SimHash算法计算相似度度量;
S4、文本聚合展示,在展示文本时,将相似的文本聚合到一起进行展示。
在本实施例中,所述步骤S1中包括,将来源文本划分成长文本、短文本及无意义文本三种,其中无信息文本会直接抛弃而不做处理。
作为优选的,所述无意义文本为信息量低或无意义信息。
当前查看情报信息是否相似是采用文本精确匹配技术的扫描技术,尽管该方法处理速度快,但是其存在模糊识别能力不强、学习能力不足的缺点,匹配出来文本间并不存在明显的相似性。情报信息中往往存在如新闻类的长文本和如微博、论坛的短文本。SimHash算法在计算文本间相似度上具有优势,但是其在计算长文本时需先分词,然后按照文本中每个词来生成整篇文章的Hash值,造成对于海量的长文本效率不高。
当前相似文档度量算法一般基于精准匹配技术的扫描策略,该方法效率低,准确度也不够理想,更是无法满足海量文本数据的处理需求。为提升相似度测量的效率和准确度,在本实施例中,如图2所示,所述步骤S2具体包括:从文本中提取N句代表性的词语,组成特征词语,将此N个句子按从长到短拼接成一个特征句,使用MD5生成此特征句的hash值,存入数据库,拥有相同hash值的文本被认为是相似文本;在本实施例中,通过基于长文本的topN相似度度量算法,该算法通过提取长文本中最具代表性句子组成内容指纹;topN算法只需要从长文本中提取很少几句话组成特征语句,效率较SimHash要高许多,极大满足了处理海量数据的效率要求。
在本实施例中,所述步骤S3具体包括:将文本进行分词,分词后过滤去掉标点符号,使用SimHash计算各个文本间的相似度,相似的文本会被赋予相同的ID号,将此ID号存入数据库,通过基于短文本的SimHash相似度度量算法,该算法生可用来度量文本间的相似度。topN算法效率较SimHash高,但是在短文本上由于语句太少,没有办法发挥topN算法的优势,同时由于文本短,处理效率显得没那么重要,同时topN算法在长文本上的效率优势弥补了整个系统的处理效率。
在本实施例中,所述步骤S4具体包括:将相似类文本聚合成一个按关注度排序的堆上,展示堆顶上的文本摘要信息,浏览时只有点击率排名最高的文本摘要会展示,点击进入会展示详细的文本列表。
本实施例中还提出了一种根据上述方法进行文本聚合及展现的系统,如图3至图4所示,包括长短文本分类器、topN算法模块和SimHash算法模块和数据库;
如图4所示,所述长短文本分类器用于对长短文本进行分类区别,并将长文本传输到topN算法模块、短文本传输到SimHash算法模块、无意义文本直接抛弃;
所述topN算法模块用于将长文本文本按照标点符号分割成有意义的句子,提取N句代表性的语句,将此N个句子按从长到短拼接成一个特征句,使用MD5生成此特征句的hash值,存入数据库;
所述SimHash算法模块用于将短文本进行分词,分词后过滤去掉标点符号,使用SimHash计算各个文本间的相似度,对相似的文本会赋予相同的ID号,将此ID号存入数据库。
作为优选的,所述长短文本分类器通过海量情报系统的海量文本训练得出。
与现有技术相比,本发明的有益效果在于:本发明能够快速将相似的文本聚合在一起,页面上展现代表性文章的标题和摘要等基本信息,方便用户快速浏览发现自己感兴趣的信息以及在发现感兴趣信息后,点开详细阅读。此系统极大地提高了用户阅读效率以及关键情报信息定位的准确率。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种面向大规模数据的情报系统中文本聚合及展现方法,其特征在于,包括以下步骤:
S1、对长短文本进行多维度划分,包括长文本、短文本和无意义文本;
S2、对长文本通过topN相似度算法计算相似度度量;
S3、对短文本进行SimHash算法计算相似度度量;
S4、文本聚合展示,在展示文本时,将相似的文本聚合到一起进行展示;
其中,所述步骤S2具体包括:从文本中提取N句代表性的词语,组成特征词语,将此N个句子按从长到短拼接成一个特征句,使用MD5生成此特征句的hash值,存入数据库,拥有相同hash值的文本被认为是相似文本。
2.根据权利要求1所述的面向大规模数据的情报系统中文本聚合及展现方法,其特征在于,所述步骤S1中包括,将来源文本划分成长文本、短文本及无意义文本三种,其中无信息文本会直接抛弃而不做处理。
3.根据权利要求2所述的面向大规模数据的情报系统中文本聚合及展现方法,其特征在于,所述无意义文本为信息量低或无意义信息。
4.根据权利要求1所述的面向大规模数据的情报系统中文本聚合及展现方法,其特征在于,所述步骤S3具体包括:将文本进行分词,分词后过滤去掉标点符号,使用SimHash计算各个文本间的相似度,相似的文本会被赋予相同的ID号,将此ID号存入数据库。
5.根据权利要求1所述的面向大规模数据的情报系统中文本聚合及展现方法,其特征在于,所述步骤S4具体包括:将相似类文本聚合成一个按关注度排序的堆上,展示堆顶上的文本摘要信息,浏览时只有点击率排名最高的文本摘要会展示,点击进入会展示详细的文本列表。
6.一种根据权利要求1至5任一所述的方法进行文本聚合及展现的系统,其特征在于,包括长短文本分类器、topN算法模块和SimHash算法模块和数据库;
所述长短文本分类器用于对长短文本进行分类区别,并将长文本传输到topN算法模块、短文本传输到SimHash算法模块、无意义文本直接抛弃;
所述topN算法模块用于将长文本文本按照标点符号分割成有意义的句子,提取N句代表性的语句,将此N个句子按从长到短拼接成一个特征句,使用MD5生成此特征句的hash值,存入数据库;
所述SimHash算法模块用于将短文本进行分词,分词后过滤去掉标点符号,使用SimHash计算各个文本间的相似度,对相似的文本会赋予相同的ID号,将此ID号存入数据库。
7.根据权利要求6所述的文本聚合及展现的系统,其特征在于,所述长短文本分类器通过海量情报系统的海量文本训练得出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610707151.XA CN106294861B (zh) | 2016-08-23 | 2016-08-23 | 面向大规模数据的情报系统中文本聚合及展现方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610707151.XA CN106294861B (zh) | 2016-08-23 | 2016-08-23 | 面向大规模数据的情报系统中文本聚合及展现方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106294861A CN106294861A (zh) | 2017-01-04 |
CN106294861B true CN106294861B (zh) | 2019-08-09 |
Family
ID=57615742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610707151.XA Active CN106294861B (zh) | 2016-08-23 | 2016-08-23 | 面向大规模数据的情报系统中文本聚合及展现方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106294861B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033050B (zh) * | 2018-06-29 | 2019-12-17 | 北京百度网讯科技有限公司 | 文章生成方法、设备及存储介质 |
CN111510369A (zh) * | 2019-01-31 | 2020-08-07 | 中国移动通信集团终端有限公司 | 消息展示方法、装置、设备及介质 |
CN110704615B (zh) * | 2019-09-04 | 2021-01-26 | 北京航空航天大学 | 互联网金融非显性广告识别方法及装置 |
CN112989793B (zh) * | 2021-05-17 | 2021-08-06 | 北京创新乐知网络技术有限公司 | 文章检测方法及装置 |
CN115345176B (zh) * | 2022-10-18 | 2023-01-03 | 中船重工(武汉)凌久高科有限公司 | 一种指挥决策数字信息录入和语义信息识别方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779190A (zh) * | 2012-07-03 | 2012-11-14 | 北京大学 | 一种时序海量网络新闻的热点事件快速检测方法 |
CN103678702A (zh) * | 2013-12-30 | 2014-03-26 | 优视科技有限公司 | 视频去重方法及装置 |
CN103793523A (zh) * | 2014-02-20 | 2014-05-14 | 刘峰 | 一种基于内容相似度计算的自动搜索引擎构建方法 |
CN103902703A (zh) * | 2014-03-31 | 2014-07-02 | 辽宁四维科技发展有限公司 | 基于移动互联网访问的文本内容分类方法 |
CN104809117A (zh) * | 2014-01-24 | 2015-07-29 | 深圳市云帆世纪科技有限公司 | 视频数据聚合处理方法、聚合系统及视频搜索平台 |
US9298782B2 (en) * | 2009-06-19 | 2016-03-29 | International Business Machines Corporation | Combinators |
-
2016
- 2016-08-23 CN CN201610707151.XA patent/CN106294861B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9298782B2 (en) * | 2009-06-19 | 2016-03-29 | International Business Machines Corporation | Combinators |
CN102779190A (zh) * | 2012-07-03 | 2012-11-14 | 北京大学 | 一种时序海量网络新闻的热点事件快速检测方法 |
CN103678702A (zh) * | 2013-12-30 | 2014-03-26 | 优视科技有限公司 | 视频去重方法及装置 |
CN104809117A (zh) * | 2014-01-24 | 2015-07-29 | 深圳市云帆世纪科技有限公司 | 视频数据聚合处理方法、聚合系统及视频搜索平台 |
CN103793523A (zh) * | 2014-02-20 | 2014-05-14 | 刘峰 | 一种基于内容相似度计算的自动搜索引擎构建方法 |
CN103902703A (zh) * | 2014-03-31 | 2014-07-02 | 辽宁四维科技发展有限公司 | 基于移动互联网访问的文本内容分类方法 |
Non-Patent Citations (1)
Title |
---|
一种基于simhash的文本快速去重算法;王源;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140915(第9期);1-8 * |
Also Published As
Publication number | Publication date |
---|---|
CN106294861A (zh) | 2017-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106294861B (zh) | 面向大规模数据的情报系统中文本聚合及展现方法及系统 | |
CN103745000B (zh) | 一种中文微博客的热点话题检测方法 | |
CN108776671A (zh) | 一种网络舆情监控系统及方法 | |
CN101751458A (zh) | 一种网络舆情监控系统及方法 | |
CN101694670A (zh) | 一种基于公共子串的中文Web文档在线聚类方法 | |
Xu et al. | Wikipedia‐based topic clustering for microblogs | |
CN113962293B (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
CN102262670A (zh) | 一种基于移动可视设备的跨媒体信息检索系统及方法 | |
CN106126605B (zh) | 一种基于用户画像的短文本分类方法 | |
Zhang et al. | A novel hot topic detection framework with integration of image and short text information from twitter | |
Khabsa et al. | Chemical entity extraction using CRF and an ensemble of extractors | |
Sun et al. | Towards effective short text deep classification | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
CN109388749A (zh) | 基于多层级地理的精准高效网络舆情检测及预警方法 | |
Lu et al. | Web Entity Detection for Semi-structured Text Data Records with Unlabeled Data. | |
Lei et al. | Automatically classify chinese judgment documents utilizing machine learning algorithms | |
Chen et al. | An improved feature selection method for chinese short texts clustering based on HowNet | |
Zhang et al. | ANDMC: An algorithm for author name disambiguation based on molecular cross clustering | |
Pan et al. | Question classification with semantic tree kernel | |
Sai et al. | Text Analysis On Twitter Data Using LSA and LDA | |
Wang | Finding similar microblogs according to their word similarities and semantic similarities | |
Liang et al. | New word detection and tagging on Chinese Twitter stream | |
Minocha et al. | Generating domain specific sentiment lexicons using the web directory | |
Dong et al. | Subject extraction method of urban complaint data | |
Ravi et al. | Finding spatial-textual clusters in COVID tweets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |