CN107273432A - 一种基于大数据的专利文章整合系统和方法 - Google Patents
一种基于大数据的专利文章整合系统和方法 Download PDFInfo
- Publication number
- CN107273432A CN107273432A CN201710367316.8A CN201710367316A CN107273432A CN 107273432 A CN107273432 A CN 107273432A CN 201710367316 A CN201710367316 A CN 201710367316A CN 107273432 A CN107273432 A CN 107273432A
- Authority
- CN
- China
- Prior art keywords
- article
- patent article
- big data
- target
- effective
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/11—Patent retrieval
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于大数据的专利文章整合系统和方法,所述系统包括:数据获取模块,用于从网络大数据的数据库中下载专利领域的文章,得到专利文章集合Ai;广告隐藏模块,用于隐藏Ai中的广告信息,得到有效专利文章集合Bi;数据筛选模块,用于将Bi中的有效专利文章与本地数据库中文章进行重合度比较,删除Bi中有效专利文章的重合度值大于预设阈值的有效专利文章,得到目标专利文章集合Cj,将Cj中目标专利文章存入本地数据库;数据检索模块,用于向用户提供本地数据库检索界面,并向用户展示通过检索条件检索到的目标专利文章。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于大数据的专利文章整合系统和方法。
背景技术
随着时代的发展,科技的进步,截至2014年,我国知识产权总体发展状况在全世界40个主要国家中居第8位,总体实力与世界一流知识产权强国的距离进一步缩小,由此专利领域的技术的文章数据的产出速度变得很快,专利信息已经正式进入大数据时代。但是一般非专利领域的人员在互联网上搜索专利非常困难,当他们想要进行专利的申请或检索时却无从下手,一些检索平台网上浏览和自主下载会浪费大量的时间,其次,随着互联网的发展,文章中总是出现大量广告、链接等无用信息,这给人们阅读和使用时产生很大的困扰,降低人们的使用体验。
发明内容
基于背景技术存在的技术问题,本发明提出了一种基于大数据的专利文章整合系统和方法;
本发明提出的一种基于大数据的专利文章整合系统,包括:
数据获取模块,用于从网络大数据的数据库中下载专利领域的文章,得到专利文章集合Ai;
广告隐藏模块,用于隐藏Ai中的广告信息,得到有效专利文章集合Bi;
数据筛选模块,用于将Bi中的有效专利文章与本地数据库中文章进行重合度比较,删除Bi中有效专利文章的重合度值大于预设阈值的有效专利文章,得到目标专利文章集合Cj,将Cj中目标专利文章存入本地数据库;
数据检索模块,用于向用户提供本地数据库检索界面,并向用户展示通过检索条件检索到的目标专利文章。
优选地,所述数据获取模块,具体用于:通过互联网爬虫从网络大数据的数据库中下载专利文章。
优选地,所述广告隐藏模块,具体用于:
提取Ai中一篇专利文章的句子,得到所述专利文章的句子集合Dm;
将Dm中各句子进行相互间相似度比较,隐藏所述专利文章中相似度低于预设相似度值的句子;
当Ai中所有专利文章均进行相互间相似度比较和隐藏操作后,得到有效专利文章集合Bi。
优选地,所述数据筛选模块,还用于:在将Cj中目标专利文章存入本地数据库之前,将Cj中各目标专利文章按照文章标题建立索引;和/或,在将Cj中目标专利文章存入本地数据库之前,将Cj中各目标专利文章按照技术领域建立索引。
优选地,还包括任务分配模块,与数据获取模块连接,用于当到达预设时间点时,启动数据获取模块开始工作。
一种基于大数据的专利文章整合方法,包括:
S1、从网络大数据的数据库中下载专利领域的文章,得到专利文章集合Ai;
S2、隐藏Ai中下载的专利文章中的广告信息,得到有效专利文章集合Bi;
S3、将Bi中的有效专利文章与本地数据库中文章进行重合度比较,删除Bi中有效专利文章的重合度值大于预设阈值的有效专利文章,得到目标专利文章集合Cj,将Cj中目标专利文章存入本地数据库;
S4、向用户提供本地数据库检索界面,并向用户展示通过检索条件检索到的目标专利文章。
优选地,步骤S1,具体包括:通过互联网爬虫从网络大数据的数据库中下载专利文章。
优选地,步骤S2,具体包括:
S21、提取Ai中一篇专利文章的句子,得到所述专利文章的句子集合Dm;
S22、将Dm中各句子进行相互间相似度比较,隐藏所述专利文章中相似度低于预设相似度值的句子;
S23、在Ai中所有专利文章均进行步骤S21、S22操作后,得到有效专利文章集合Bi。
优选地,步骤S3中,在将Cj中目标专利文章存入本地数据库之前,将Cj中各目标专利文章按照文章标题建立索引;和/或,步骤S3中,在将Cj中目标专利文章存入本地数据库之前,将Cj中各目标专利文章按照技术领域建立索引。
优选地,步骤S1,还包括:当到达预设时间点时,从网络大数据的数据库中下载专利领域的文章。
本发明从网络大数据的数据库中下载专利领域的文章,再隐藏文章中的无用广告信息,得到有效专利文章,将有效专利文章与本地数据库中文章进行重合度比较,删除重合度值大于预设阈值的有效专利文章,得到目标专利文章集合存入本地数据库,同时用户提供本地数据库检索界面,并向用户展示通过检索条件检索到的目标专利文章。如此,对下载的专利文章的进行广告隐藏,查重、整合、建立索引操作,使得用户可以在本地数据库中进行文章的检索和阅读,方便用户使用,提高用户的使用体验,其次,便于专利公开数据的利用和研究。
附图说明
图1为本发明提出的一种基于大数据的专利文章整合系统的模块示意图;
图2为本发明提出的一种基于大数据的专利文章整合方法的流程示意图。
具体实施方式
参照图1,本发明提出的一种基于大数据的专利文章整合系统,包括:
数据获取模块,用于从网络大数据的数据库中下载专利领域的文章,得到专利文章集合Ai。
在具体方案中,数据获取模块通过互联网爬虫从网络大数据的数据库中下载专利文章,根据预的设情报搜集目标与分析目标,采集专利领域的文章信息,得到专利文章集合Ai。
广告隐藏模块,与数据获取模块连接,用于隐藏Ai中的广告信息,得到有效专利文章集合Bi,具体用于:提取Ai中一篇专利文章中的句子,得到句子集合Dm;将Dm中各句子进行相互间相似度比较,隐藏所述专利文章中相似度低于预设相似度值的句子;在Ai中所有专利文章均进行相互间相似度比较和隐藏操作后,得到有效专利文章集合Bi。
在具体方案中,提取Ai中任一篇专利文章中所有的句子,将这些句子集合进行相互间相似度比较,判断相似度低于预设相似度值的句子为广告信息,隐藏所述广告信息,得到有效专利文章,当Ai中所有专利文章均进行相似度比较和隐藏操作后,得到有效专利文章集合Bi:如此,隐藏文章中无用的广告信息和链接,方便用户的阅读和使用,进一步的,用户可显示隐藏的句子。
数据筛选模块,与广告隐藏模块连接,用于将Bi中的有效专利文章与本地数据库中文章进行重合度比较,删除Bi中有效专利文章的重合度值大于预设阈值的有效专利文章,得到目标专利文章集合Cj,将Cj中目标专利文章存入本地数据库。
在具体方案中,在将Cj中目标专利文章存入本地数据库之前,将Cj中各目标专利文章按照文章标题建立索引;和/或,在将Cj中目标专利文章存入本地数据库之前,将Cj中各目标专利文章按照文章技术领域建立索引,建立索引的目的是方便用户快速查找相关文章信息,大多数用户一般通过文章标题或技术领域作为关键字进行检索。
数据检索模块,与广告隐藏模块连接,用于向用户提供本地数据库检索界面,并向用户展示通过检索条件检索到的目标专利文章。
在具体方案中,用户可通过本地数据库检索界面进行目标专利文章的检索,检索方法可以采用现有的从文章的检索方法,具体检索过程此处不再赘述。
任务分配模块,与数据获取模块连接,用于当到达预设时间点时,启动数据获取模块开始工作。
参照图2,本发明提出的一种基于大数据的专利文章整合方法,包括:
S1、从网络大数据的数据库中下载专利领域的文章,得到专利文章集合Ai;本步骤中,当到达用户预设的时间点时,通过互联网爬虫从网络大数据的数据库中下载专利文章。
在具体方案中,在到达用户预设的时间点时,通过互联网爬虫从网络大数据的数据库中下载专利文章,根据预的设情报搜集目标与分析目标,采集专利领域的文章信息,得到专利文章集合Ai。
S2、隐藏Ai中下载的专利文章中的广告信息,得到有效专利文章集合Bi;本步骤具体包括:S21、提取Ai中一篇专利文章中文字信息的句子,得到文字信息的句子集合Dm;S22、将Dm中各句子进行相互间相似度比较,隐藏所述专利文章中相似度低于预设相似度值的句子;S23、在Ai中所有专利文章均进行步骤S21、S22操作后,得到有效专利文章集合Bi。
在具体方案中,提取Ai中任一篇专利文章中所有的句子,将这些句子集合进行相互间相似度比较,判断相似度低于预设相似度值的句子为广告信息,隐藏所述广告信息,得到有效专利文章,当Ai中所有专利文章均进行相似度比较和隐藏操作后,得到有效专利文章集合Bi:如此,隐藏文章中无用的广告信息和链接,方便用户的阅读和使用,进一步的,用户可显示隐藏的句子。
S3、将Bi中的有效专利文章与本地数据库中文章进行重合度比较,删除Bi中有效专利文章的重合度值大于预设阈值的有效专利文章,得到目标专利文章集合Cj,将Cj中目标专利文章存入本地数据库;
本步骤中,在将Cj中目标专利文章存入本地数据库之前,将Cj中各目标专利文章按照文章标题建立索引;和/或,步骤S3中,在将Cj中目标专利文章存入本地数据库之前,将Cj中各目标专利文章按照文章技术领域建立索引。
在具体方案中,在将Cj中目标专利文章存入本地数据库之前,将Cj中各目标专利文章按照文章标题和/或文章技术领域建立索引,建立索引的目的是方便用户快速查找相关文章信息,大多数用户一般通过文章标题或技术领域作为关键字进行检索。
S4、向用户提供本地数据库检索界面,并向用户展示通过检索条件检索到的目标专利文章;
在具体方案中,用户可通过本地数据库检索界面进行目标专利文章的检索,检索方法可以采用现有的从文章的检索方法,具体检索过程此处不再赘述。本实施方式从网络大数据的数据库中下载专利领域的文章,再隐藏文章中的无用广告信息,得到有效专利文章,将有效专利文章与本地数据库中文章进行重合度比较,删除重合度值大于预设阈值的有效专利文章,得到目标专利文章集合存入本地数据库,同时用户提供本地数据库检索界面,并向用户展示通过检索条件检索到的目标专利文章。如此,对下载的专利文章的进行广告隐藏,查重、整合、建立索引操作,使得用户可以在本地数据库中进行文章的检索和阅读,方便用户使用,提高用户的使用体验,其次,便于专利公开数据的利用和研究。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于大数据的专利文章整合系统,其特征在于,包括:
数据获取模块,用于从网络大数据的数据库中下载专利领域的文章,得到专利文章集合Ai;
广告隐藏模块,用于隐藏Ai中的广告信息,得到有效专利文章集合Bi;
数据筛选模块,用于将Bi中的有效专利文章与本地数据库中文章进行重合度比较,删除Bi中有效专利文章的重合度值大于预设阈值的有效专利文章,得到目标专利文章集合Cj,将Cj中目标专利文章存入本地数据库;
数据检索模块,用于向用户提供本地数据库检索界面,并向用户展示通过检索条件检索到的目标专利文章。
2.根据权利要求1所述的基于大数据的专利文章整合系统,其特征在于,所述数据获取模块,具体用于:通过互联网爬虫从网络大数据的数据库中下载专利文章。
3.根据权利要求1所述的基于大数据的专利文章整合系统,其特征在于,所述广告隐藏模块,具体用于:
提取Ai中一篇专利文章的句子,得到所述专利文章的句子集合Dm;
将Dm中各句子进行相互间相似度比较,隐藏所述专利文章中相似度低于预设相似度值的句子;
当Ai中所有专利文章均进行相互间相似度比较和隐藏操作后,得到有效专利文章集合Bi。
4.根据权利要求1所述的基于大数据的专利文章整合系统,其特征在于,所述数据筛选模块,还用于:在将Cj中目标专利文章存入本地数据库之前,将Cj中各目标专利文章按照文章标题建立索引;和/或,在将Cj中目标专利文章存入本地数据库之前,将Cj中各目标专利文章按照技术领域建立索引。
5.根据权利要求1所述的基于大数据的专利文章整合系统,其特征在于,还包括任务分配模块,与数据获取模块连接,用于当到达预设时间点时,启动数据获取模块开始工作。
6.一种基于大数据的专利文章整合方法,其特征在于,包括:
S1、从网络大数据的数据库中下载专利领域的文章,得到专利文章集合Ai;
S2、隐藏Ai中下载的专利文章中的广告信息,得到有效专利文章集合Bi;
S3、将Bi中的有效专利文章与本地数据库中文章进行重合度比较,删除Bi中有效专利文章的重合度值大于预设阈值的有效专利文章,得到目标专利文章集合Cj,将Cj中目标专利文章存入本地数据库;
S4、向用户提供本地数据库检索界面,并向用户展示通过检索条件检索到的目标专利文章。
7.根据权利要求6所述的基于大数据的专利文章整合方法,其特征在于,步骤S1,具体包括:通过互联网爬虫从网络大数据的数据库中下载专利文章。
8.根据权利要求6所述的基于大数据的专利文章整合方法,其特征在于,步骤S2,具体包括:
S21、提取Ai中一篇专利文章的句子,得到所述专利文章的句子集合Dm;
S22、将Dm中各句子进行相互间相似度比较,隐藏所述专利文章中相似度低于预设相似度值的句子;
S23、在Ai中所有专利文章均进行步骤S21、S22操作后,得到有效专利文章集合Bi。
9.根据权利要求6所述的基于大数据的专利文章整合方法,其特征在于,步骤S3中,在将Cj中目标专利文章存入本地数据库之前,将Cj中各目标专利文章按照文章标题建立索引;和/或,步骤S3中,在将Cj中目标专利文章存入本地数据库之前,将Cj中各目标专利文章按照技术领域建立索引。
10.根据权利要求6所述的基于大数据的专利文章整合方法,其特征在于,步骤S1,还包括:当到达预设时间点时,从网络大数据的数据库中下载专利领域的文章。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710367316.8A CN107273432A (zh) | 2017-05-23 | 2017-05-23 | 一种基于大数据的专利文章整合系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710367316.8A CN107273432A (zh) | 2017-05-23 | 2017-05-23 | 一种基于大数据的专利文章整合系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107273432A true CN107273432A (zh) | 2017-10-20 |
Family
ID=60064188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710367316.8A Pending CN107273432A (zh) | 2017-05-23 | 2017-05-23 | 一种基于大数据的专利文章整合系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107273432A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815395A (zh) * | 2018-12-26 | 2019-05-28 | 北京中科闻歌科技股份有限公司 | 网页垃圾信息过滤方法、装置及存储介质 |
CN111353031A (zh) * | 2020-02-27 | 2020-06-30 | 海南谊之脉科技有限公司 | 基于大数据的论文管理方法、服务器及系统 |
CN111428109A (zh) * | 2020-03-25 | 2020-07-17 | 浙江知多多网络科技有限公司 | 一种基于专利大数据机器学习的专利预警系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040044688A1 (en) * | 2002-08-30 | 2004-03-04 | Brudz John Jason | Patent asset management systems and methods |
CN101751400A (zh) * | 2008-12-09 | 2010-06-23 | 财团法人工业技术研究院 | 技术数据分析的系统与方法以及专利分析的系统 |
CN102945244A (zh) * | 2012-09-24 | 2013-02-27 | 南京大学 | 基于句号特征字串的中文网页重复文档检测和过滤方法 |
CN104933188A (zh) * | 2015-07-07 | 2015-09-23 | 武汉大学 | 一种专利个性化库的数据同步系统及方法 |
-
2017
- 2017-05-23 CN CN201710367316.8A patent/CN107273432A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040044688A1 (en) * | 2002-08-30 | 2004-03-04 | Brudz John Jason | Patent asset management systems and methods |
CN101751400A (zh) * | 2008-12-09 | 2010-06-23 | 财团法人工业技术研究院 | 技术数据分析的系统与方法以及专利分析的系统 |
CN102945244A (zh) * | 2012-09-24 | 2013-02-27 | 南京大学 | 基于句号特征字串的中文网页重复文档检测和过滤方法 |
CN104933188A (zh) * | 2015-07-07 | 2015-09-23 | 武汉大学 | 一种专利个性化库的数据同步系统及方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815395A (zh) * | 2018-12-26 | 2019-05-28 | 北京中科闻歌科技股份有限公司 | 网页垃圾信息过滤方法、装置及存储介质 |
CN111353031A (zh) * | 2020-02-27 | 2020-06-30 | 海南谊之脉科技有限公司 | 基于大数据的论文管理方法、服务器及系统 |
CN111353031B (zh) * | 2020-02-27 | 2023-04-14 | 海南谊之脉科技有限公司 | 基于大数据的论文管理方法、服务器及系统 |
CN111428109A (zh) * | 2020-03-25 | 2020-07-17 | 浙江知多多网络科技有限公司 | 一种基于专利大数据机器学习的专利预警系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10909425B1 (en) | Systems and methods for mobile image search | |
US9483500B2 (en) | Automatic discovery of popular landmarks | |
JP6128661B2 (ja) | 主題ベースのバイタリティ | |
CN104462547B (zh) | 一种可配置的网页数据采集的方法及系统 | |
CN107463591A (zh) | 响应于搜索查询对待与内容匹配的图像动态排序的方法和系统 | |
CN102446225A (zh) | 一种实时搜索的方法、装置和系统 | |
CN110019616A (zh) | 一种poi现势状态获取方法及其设备、存储介质、服务器 | |
CN107766399A (zh) | 用于使图像与内容项目匹配的方法和系统及机器可读介质 | |
CN104484482B (zh) | 网络平台的网页信息更新方法及系统 | |
CN104133877A (zh) | 软件标签的生成方法和装置 | |
CN107273432A (zh) | 一种基于大数据的专利文章整合系统和方法 | |
CN104077707B (zh) | 一种推广呈现方式的优化方法和装置 | |
CN105518644A (zh) | 在地图上实时处理并显示社交数据的方法 | |
CN105574162A (zh) | 关键字自动超级链接的方法 | |
CN109949090B (zh) | 客户推荐方法、装置、电子设备及介质 | |
JP6898542B2 (ja) | 情報処理装置、その制御方法、及びプログラム | |
CN107766398A (zh) | 用于使图像与内容项目匹配的方法、装置和数据处理系统 | |
CN103678601A (zh) | 一种范文检索请求的处理方法和装置 | |
CN110543457A (zh) | 轨迹类文档处理方法和装置、存储介质及电子装置 | |
CN107153712B (zh) | 支持移动终端的时间空间关联的个性化定制图片管理方法 | |
CN107169065B (zh) | 一种特定内容的去除方法和装置 | |
CN111008304B (zh) | 关键词的生成方法和装置、存储介质及电子装置 | |
JP2004341942A (ja) | コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体 | |
CN106326353A (zh) | 一种用于提供呈现信息的方法与设备 | |
JP6622662B2 (ja) | 画像処理装置、画像処理方法、プログラムおよび記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171020 |
|
RJ01 | Rejection of invention patent application after publication |