CN105956070A - 一种整合重复记录的方法及系统 - Google Patents
一种整合重复记录的方法及系统 Download PDFInfo
- Publication number
- CN105956070A CN105956070A CN201610277820.4A CN201610277820A CN105956070A CN 105956070 A CN105956070 A CN 105956070A CN 201610277820 A CN201610277820 A CN 201610277820A CN 105956070 A CN105956070 A CN 105956070A
- Authority
- CN
- China
- Prior art keywords
- title
- text
- data base
- multiplicity
- inquiry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种整合重复记录的方法及系统,所述方法包括以下步骤:S1:抓取目标网络的网页内容,并将从所述网页内容中提取的标题和正文存储于数据库中,同时将当前提取的标题和正文作为当前的目标标题和目标正文;S2:基于所述数据库中的数据对所述目标标题进行重复度查询,根据该查询结果选择执行步骤S3;S3:基于所述数据库对所述目标正文进行重复度查询,并基于该查询结果选择整合所述网页内容在所述数据库中的存储。本发明能够快速实现对抓取信息进行查重,并可以消除重复记录。
Description
技术领域
本发明涉及实现资讯采集系统中重复新闻、相似新闻的合并处理,特别涉及一种整合重复记录的方法及系统。
背景技术
对于资讯新闻由于其存在多数据来源、对相同事件的新闻报道。并且,对于非同一时间对多个来源的新闻进行抓取,存在新闻标题重复、新闻正文内容相似的情况。
相似重复新闻指数据集中多条新闻内容描述相同,但因内容语法、语义、拼写导致系统不能正确识别的相似新闻。检查相似重复新闻是检测并最大限度的减少这些语法语义拼写不同但内容相似的新闻。一般不同来源对同一新闻的描述存在相似新闻的占比重较大。因此,检测和消除相似重复新闻是数据加工的重点和难点之一,也是保证数据质量的关键因素,影响日常的资讯采集工作受到加工流程的高度重视。
而目前通常采用人工的方式对新闻数据进行查重处理,而由人工对新闻进行去重、相似新闻合并会比较麻烦,并且还具有工作效率不高的特点。
发明内容
本发明所要解决的技术问题是提供一种能够快速对抓取信息进行查重,并可以消除重复记录的整合重复记录的方法和系统。
为了解决上述技术问题,本发明提供了如下的技术方案:
一种整合重复记录的方法,其包括以下步骤:
S1:抓取目标网络的网页内容,并将从所述网页内容中提取的标题和正文存储于数据库中,同时将当前提取的标题和正文作为当前的目标标题和目标正文;
S2:基于所述数据库中的数据对所述目标标题进行重复度查询,根据该查询结果选择执行步骤S3;
S3:基于所述数据库对所述目标正文进行重复度查询,并基于该查询结果选择整合所述网页内容在所述数据库中的存储。
作为优选,在所述步骤S2还进一步包括:
S21:对所述目标标题进行去除干扰字符处理;
S22:对去除了干扰字符的目标标题进行重复度查询处理。
作为优选,所述步骤S2中,当所述数据库中存在与目标标题重复度大于第一预定值的第一标题时,将所述目标标题与第一标题合并处理,并删除对所述目标正文的存储;否则,执行步骤S3。
作为优选,所述步骤S2中,基于所述数据库中第一时间范围内的标题对所述目标标题进行重复度查询。
作为优选,所述第一标题为多个。
作为优选,在所述步骤S3中,当所述数据库中存在与所述目标正文的重复度大于第二预定值的第二正文时,删除所述第二正文的存储,并将所述目标标题与所述第二正文对应的标题合并处理;否则,正常存储所述目标标题和目标正文。
作为优选,所述步骤S3中,基于所述数据库中第二时间范围内的正文内容对所述目标正文进行重复度查询。
作为优选,所述步骤S3中目标正文的重复度查询的步骤包括:
S31:去除所述目标正文中的干扰字符;
S32:将去除干扰字符的正文进行划分,以划分出多个分句;
S33:进一步划分所述分句,直至将所述分句划分为分词单元;
S34:比较所述分词单元与数据库中的正文信息的分词单元,并基于该比较结果选择整合所述网页内容在所述数据库中的存储。
本发明还提供了一种整合重复记录的系统,其应用如上所述的整合重复记录的方法,且所述系统包括:
抓取模块,其用于抓取目标网络的网页内容,并将从所述网页内容中提取的标题和正文存储于数据库中,并将当前的标题和正文作为当前的目标标题和目标正文;
第一查询模块,其基于所述数据库中的数据对所述目标标题进行重复度查询,
第二查询模块,其基于所述数据库对所述目标正文进行重复度查询,并基于该查询结果选择整合所述网页内容在所述数据库中的存储。
作为优选,所述第一查询模块进一步配置为当所述数据库中存在与所目标标题重复度大于第一预定值的第一标题时,将所述目标标题与第一标题合并处理,并删除对所述目标正文的存储。
本发明具备的有益效果在于,
1、本发明在于有效去除标题重复新闻、新闻内容相似情况进行分析处理,由此提高系统的采集效率;
2、本发明通过两方面对网页内容进行相似度进行处理,第一:对标题进行去除标签、特殊字符、全角字符再进行相似度判断。第二:对标题相似度不相同的新闻再进行正文分词判断,由此可大幅度降低相同标题、相似内容的人工处理及处理数量。
3、本发明最终将信息处理的部分由数据中心采集系统实现,从而在降底人工干预,高性能判断来提高对新闻资讯的采集过程。
附图说明
图1为本发明实施例中的一种整合重复记录的方法的流程图;
图2为本发明实施例中的一种整合重复记录的系统的原理框图。
附图标记说明
具体实施方式
下面结合附图,对本发明的具体实施例进行详细的描述,但不作为本发明的限定。
本发明实施例提供了一种用于消除从网页中抓取的内容的重复信息的方法,即一种整合重复记录的方法,通过本实施例的所述方法可以大大减少人工的工作量,同时由于不需要通过人工的方式进行筛选检查等操作,则大大提高了工作效率。
如图1所示,为本发明实施例中的一种整合重复记录的方法,其包括以下步骤:
S1:抓取目标网络的网页内容,并将从网页内容中提取的标题和正文存储于数据库中,同时将当前抓取的标题和正文作为当前的目标标题和目标正文;此处的抓取目标网络的网页内容可以通过现有技术手段进行实施,并作为本发明的重点,即通过现有技术的各种方式都可以实现该步骤S1。
S2:基于数据库中之前存储的数据信息对目标标题进行重复度查询,根据该查询结果选择执行步骤S3;
S3:基于数据库对目标正文进行重复度查询,并基于该查询结果选择整合所述网页内容在所述数据库中的存储。
根据上述配置,本发明实施例可以有效的去除标题重复的网页新闻、以及对新闻内容相似情况进行分析处理,由此提高系统的采集效率,本实施例中虽然以网页新闻为例,但是也可以是其他的任意的网页内容,如技术刊物、微博论坛等内容。
另外,本实施例中,在步骤S2还可以进一步包括:
S21:对所述目标标题进行去除干扰字符处理;该干扰字符可以包括标签、特殊字符、全角字符等。
S22:对去除了干扰字符的目标标题进行重复度查询处理。具体的,当数据库中存在与目标标题重复度大于第一预定值的第一标题时,将目标标题与第一标题合并处理,并删除对所述目标正文的存储;否则,执行步骤S3。本实施例中即使新正文内容完全不同也优先按标题重复度去重。另外,虽然本实施了中采用删除目标正文的方式进行去重,但是也可以通过合并目标正文与和第一标题对应的正文的方式进行去重。
同时,在本发明另一优选实施例中,在步骤S2中,可以基于数据库中第一时间范围内的标题对所述目标标题进行重复度查询。本实施例中的第一时间范围和第一预定值可以预设的任意值,但是优选的第一预定值应当为一较大的值,而第一时间范围可以是以天、月、小时和年为单位的任意时间范围,可以根据不同的资讯内容进行自定义,如本实施例中的第一预定值可以是80%-90%中的任意值,第一时间范围可以是7天至30天中的一个值。
并且,本实施例中的第一标题可以是多个,当判断出在大于第一预定值的重复度的第一标题时,可以将该目标标题与各第一标题进行相关联的存储。
另外,本实施例中,在所述步骤S3中,当所述数据库中存在于所述目标正文的重复度大于第二预定值的第二正文时,删除所述第二正文的存储,并将所述目标标题与所述第二正文对应的标题合并处理;否则,正常存储所述目标标题和目标正文。同样的,在另一优选实施例中,所述步骤S3中,可以基于所述数据库中第二时间范围内的正文内容对所述目标正文进行重复度查询。本实施例中的第二时间范围和第二预定值可以预设的任意值,但是优选的第二预定值应当为一较大的值,而第二时间范围可以是以天、月、小时和年为单位的任意时间范围,可以根据不同的资讯内容进行自定义,如本实施例中的第二预定值可以是80%-90%中的任意值,第二时间范围可以是7天至30天中的一个值。
优选的,所述步骤S3中目标正文的重复度查询的步骤可以包括:
S31:去除所述目标正文中的干扰字符;
S32:将去除干扰字符的正文进行划分,以划分出多个分句;
S33:进一步划分所述分句,直至将所述分句划分为分词单元;
S34:比较所述分词单元与数据库中的正文信息的分词单元,并基于该比较结果选择整合所述网页内容在所述数据库中的存储。
同样的,其中的干扰字符可以包括标签、特殊字符、全角字符等。对于正文中字符串去标签只保留正文,如果正文中含有HTML标签或英文字符将不会被解析到。本实施例中可以根据设置将取正文内容的前500字符。
本实施例中的步骤S1中,还可以对数据库中的标题和正文的存储,提供索引。
基于上述配置,本发明实施例通过两方面对网页内容进行相似度进行处理,第一:对标题进行去除标签、特殊字符、全角字符再进行相似度判断。第二:对标题相似度不相同的新闻再进行正文分词判断,由此可大幅度降低相同标题、相似内容的人工处理及处理数量。本发明实施例最终将信息处理的部分由数据中心采集系统实现,从而在降底人工干预,高性能判断来提高对新闻资讯的采集过程。
另外,本发明实施例中还提供了一种整合重复记录的系统,其应用如上实施例所描述的整合重复记录的方法,且该系统可以包括:抓取模块1、第一查询模块2、第二查询模块3和数据库4,其中,抓取模块1用于抓取目标网络的网页内容,并将从网页内容中提取的标题和正文存储于数据库中,并将当前的标题和正文作为当前的目标标题和目标正文;第一查询模块2基于数据库4中存储的数据对目标标题进行重复度查询,第二查询模块3基于数据库4对目标正文进行重复度查询,并基于该查询结果选择整合所述网页内容在所述数据库中的存储。从而可以有效的去除标题重复的网页新闻、以及对新闻内容相似情况进行分析处理,由此提高系统的采集效率,本实施例中虽然以网页新闻为例,但是也可以是其他的任意的网页内容,如技术刊物、微博论坛等内容。
另外,本实施例中的第一查询模块2可以进一步配置为当数据库4中存在与所目标标题重复度大于第一预定值的第一标题时,将目标标题与第一标题合并处理,并删除对所述目标正文的存储。而且,在重复度查询时,还可以配置为首先对所述目标标题进行去除干扰字符处理,然后对去除了干扰字符的目标标题进行重复度查询处理。并且可以基于数据库4中第一时间范围内的标题对所述目标标题进行重复度查询。
另外,第二查询模块3还可以配置为当数据库中4存在与目标正文的重复度大于第二预定值的第二正文时,删除所述第二正文的存储,并将所述目标标题与所述第二正文对应的标题合并处理;否则,正常存储所述目标标题和目标正文。另外,本实施例中的第二查询模块3可以基于数据库4中第二时间范围内的正文内容对所述目标正文进行重复度查询。而且,第二查询模块3进行重复度查询的步骤可以包括:去除所述目标正文中的干扰字符;将去除干扰字符的正文进行划分,以划分出多个分句;进一步划分所述分句,直至将所述分句划分为分词单元;比较所述分词单元与数据库中的正文信息的分词单元,并基于该比较结果选择整合所述网页内容在所述数据库中的存储。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
Claims (10)
1.一种整合重复记录的方法,其特征在于,包括以下步骤:
S1:抓取目标网络的网页内容,并将从所述网页内容中提取的标题和正文存储于数据库中,同时将当前提取的标题和正文作为当前的目标标题和目标正文;
S2:基于所述数据库中的数据对所述目标标题进行重复度查询,根据该查询结果选择执行步骤S3;
S3:基于所述数据库对所述目标正文进行重复度查询,并基于该查询结果选择整合所述网页内容在所述数据库中的存储。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S2还进一步包括:
S21:对所述目标标题进行去除干扰字符处理;
S22:对去除了干扰字符的目标标题进行重复度查询处理。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2中,当所述数据库中存在与目标标题重复度大于第一预定值的第一标题时,将所述目标标题与第一标题合并处理,并删除对所述目标正文的存储;否则,执行步骤S3。
4.根据权利要求3所述的方法,其特征在于,所述步骤S2中,基于所述数据库中第一时间范围内的标题对所述目标标题进行重复度查询。
5.根据权利要求2所述的方法,其特征在于,所述第一标题为多个。
6.根据权利要求1所述的方法,其特征在于,在所述步骤S3中,当所述数据库中存在与所述目标正文的重复度大于第二预定值的第二正文时,删除所述目标正文,并将所述目标标题与所述第二正文对应的标题合并处理;否则,正常存储所述目标标题和目标正文。
7.根据权利要求6所述的方法,其特征在于,所述步骤S3中,基于所述数据库中第二时间范围内的正文内容对所述目标正文进行重复度查询。
8.根据权利要求1所述的方法,其特征在于,所述步骤S3中目标正文的重复度查询的步骤包括:
S31:去除所述目标正文中的干扰字符;
S32:将去除干扰字符的正文进行划分,以划分出多个分句;
S33:进一步划分所述分句,直至将所述分句划分为分词单元;
S34:比较所述分词单元与数据库中的正文信息的分词单元,并基于该比较结果选择整合所述网页内容在所述数据库中的存储。
9.一种整合重复记录的系统,其应用如权利要求1-8中任意一项所述的整合重复记录的方法,且所述系统包括:
抓取模块,其用于抓取目标网络的网页内容,并将从所述网页内容中提取的标题和正文存储于数据库中,并将当前的标题和正文作为当前的目标标题和目标正文;
第一查询模块,其基于所述数据库中的数据对所述目标标题进行重复度查询,
第二查询模块,其基于所述数据库对所述目标正文进行重复度查询,并基于该查询结果选择整合所述网页内容在所述数据库中的存储。
10.根据权利要求9所述的系统,其特征在于,所述第一查询模块进一步配置为当所述数据库中存在与所目标标题重复度大于第一预定值的第一标题时,将所述目标标题与第一标题合并处理,并删除对所述目标正文的存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610277820.4A CN105956070A (zh) | 2016-04-28 | 2016-04-28 | 一种整合重复记录的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610277820.4A CN105956070A (zh) | 2016-04-28 | 2016-04-28 | 一种整合重复记录的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105956070A true CN105956070A (zh) | 2016-09-21 |
Family
ID=56916591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610277820.4A Pending CN105956070A (zh) | 2016-04-28 | 2016-04-28 | 一种整合重复记录的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105956070A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106533899A (zh) * | 2016-09-30 | 2017-03-22 | 宇龙计算机通信科技(深圳)有限公司 | 一种信息显示处理的方法、装置及系统 |
CN110363401A (zh) * | 2019-06-26 | 2019-10-22 | 北京百度网讯科技有限公司 | 整合粘性评估方法、装置、计算机设备及存储介质 |
CN110377886A (zh) * | 2019-06-19 | 2019-10-25 | 平安国际智慧城市科技股份有限公司 | 项目查重方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040128285A1 (en) * | 2000-12-15 | 2004-07-01 | Jacob Green | Dynamic-content web crawling through traffic monitoring |
CN101694658A (zh) * | 2009-10-20 | 2010-04-14 | 浙江大学 | 基于新闻去重的网页爬虫的构建方法 |
CN102930038A (zh) * | 2012-11-12 | 2013-02-13 | 江苏外博资讯有限公司 | 一种检索结果相似条目的合并方法及其系统 |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN103970722A (zh) * | 2014-05-07 | 2014-08-06 | 江苏金智教育信息技术有限公司 | 一种文本内容去重的方法 |
CN104951478A (zh) * | 2014-03-31 | 2015-09-30 | 富士通株式会社 | 信息处理方法和信息处理装置 |
CN105279272A (zh) * | 2015-10-30 | 2016-01-27 | 南京未来网络产业创新有限公司 | 一种基于分布式网络爬虫的内容聚合方法 |
-
2016
- 2016-04-28 CN CN201610277820.4A patent/CN105956070A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040128285A1 (en) * | 2000-12-15 | 2004-07-01 | Jacob Green | Dynamic-content web crawling through traffic monitoring |
CN101694658A (zh) * | 2009-10-20 | 2010-04-14 | 浙江大学 | 基于新闻去重的网页爬虫的构建方法 |
CN102930038A (zh) * | 2012-11-12 | 2013-02-13 | 江苏外博资讯有限公司 | 一种检索结果相似条目的合并方法及其系统 |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN104951478A (zh) * | 2014-03-31 | 2015-09-30 | 富士通株式会社 | 信息处理方法和信息处理装置 |
CN103970722A (zh) * | 2014-05-07 | 2014-08-06 | 江苏金智教育信息技术有限公司 | 一种文本内容去重的方法 |
CN105279272A (zh) * | 2015-10-30 | 2016-01-27 | 南京未来网络产业创新有限公司 | 一种基于分布式网络爬虫的内容聚合方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106533899A (zh) * | 2016-09-30 | 2017-03-22 | 宇龙计算机通信科技(深圳)有限公司 | 一种信息显示处理的方法、装置及系统 |
CN106533899B (zh) * | 2016-09-30 | 2019-12-10 | 宇龙计算机通信科技(深圳)有限公司 | 一种信息显示处理的方法、装置及系统 |
CN110377886A (zh) * | 2019-06-19 | 2019-10-25 | 平安国际智慧城市科技股份有限公司 | 项目查重方法、装置、设备及存储介质 |
CN110363401A (zh) * | 2019-06-26 | 2019-10-22 | 北京百度网讯科技有限公司 | 整合粘性评估方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105138652B (zh) | 一种企业关联关系识别方法及系统 | |
MX2011005771A (es) | Metodo y dispositivo para interceptar correo basura. | |
CN102110132A (zh) | 统一资源定位符匹配查找方法、装置和网络侧设备 | |
US9563770B2 (en) | Spammer group extraction apparatus and method | |
CN102999625A (zh) | 一种检索请求语义扩展方法 | |
CN103020043A (zh) | 一种面向web双语平行语料资源的分布式采集系统 | |
CN107547671A (zh) | 一种url匹配方法及装置 | |
CN104112010B (zh) | 一种数据存储方法及装置 | |
CN105718590A (zh) | 面向多租户的SaaS舆情监控系统及方法 | |
CN105700897B (zh) | 一种启动应用程序的方法、装置及终端设备 | |
CN105468744A (zh) | 一种实现税务舆情分析和全文检索的大数据平台 | |
CN107203588A (zh) | 一种数据分类管理系统 | |
CN103279476B (zh) | 一种web应用系统敏感文字的检测方法及系统 | |
CN110175730A (zh) | 一种基于大数据的政府政策智能与企业匹配的系统及方法 | |
CN105956070A (zh) | 一种整合重复记录的方法及系统 | |
Alghamdi et al. | Topic detections in Arabic dark websites using improved vector space model | |
CN102509001A (zh) | 一种自动去除时序数据野值点的方法 | |
CN103530336A (zh) | 统一资源定位符url中无效参数的识别设备及方法 | |
CN104504151A (zh) | 微信舆情监测系统 | |
CN104298714A (zh) | 一种基于异常处理的海量文本自动标注方法 | |
CN104391978A (zh) | 用于浏览器的网页收藏处理方法及装置 | |
CN105335516A (zh) | 一种通用采集系统的构建方法 | |
CN104933168A (zh) | 一种网页内容自动采集方法 | |
CN107193870B (zh) | 网页内容的提取方法和系统 | |
CN108650546A (zh) | 弹幕处理方法、计算机可读存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160921 |