CN108170761A - 一种基于海量文献信息的可视化分析系统及其方法 - Google Patents
一种基于海量文献信息的可视化分析系统及其方法 Download PDFInfo
- Publication number
- CN108170761A CN108170761A CN201711411611.5A CN201711411611A CN108170761A CN 108170761 A CN108170761 A CN 108170761A CN 201711411611 A CN201711411611 A CN 201711411611A CN 108170761 A CN108170761 A CN 108170761A
- Authority
- CN
- China
- Prior art keywords
- documentation
- info
- data
- magnanimity
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
- G06F16/3323—Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于海量文献信息的可视化分析系统,包括数据获取模块、数据临时存储库、数据处理模块、可视化分析数据库和可视化分析模块;数据获取模块包括爬取单元、分类单元以及查询标记单元;数据临时存储库用于存储经查询、标记后的文献信息;数据处理模块用于将数据临时存储库中的文献信息进行扫描,并对扫描后的文献信息进行处理、分析;可视化分析数据库根据关联度分析的结果进行可视化分析,为用户输出可视化分析结果。本发明通过对海量文献信息进行采集、分类和标记,并将文献信息中的关键词与输入关键词进行关联度分析,为可视化分析提供可靠的参考依据,便于对海量文献信息进行有效的整理,实现可视化分析,为用户提供决策。
Description
技术领域
本发明属于软件开发开发领域,涉及到一种基于海量文献信息的可视化分析系统及其方法。
背景技术
随着信息技术的发展,每个行业都面临着海量数据的问题,人们不仅仅是对数据进行管理,还要从大量的数据里面获得全面的知识和信息,以便对数据进行分析。随着学术研究的蓬勃发展,文献资料数量也越来越大,对于文献数据分析的需求也日益凸显,对于海量科技文献信息的分析,可以帮助用户了解目前热门学科,各领域研究的主要人员和各领域发展动态等等。
但是目前对文献分析的工作通过多个角度进行分析,而分析的结果通常采用表格、图表或其他方式进行展示,由于科学文献网络是复杂的异构数据信息,且信息量大,而现有的分析手段无法对海量的文献信息进行可视化分析,进而导致无法为用户提供直观、可靠的参考依据,且无法实现可视化展示效果。
发明内容
本发明的目的在于提供一种基于海量文献信息的可视化分析系统及其方法,解决了现有分析手段无法对海量文献信息进行可视化分析,进而导致无法为用户提供可靠的参考依据和进行可视化展示效果的问题。
本发明的目的可以通过以下技术方案实现:
一种基于海量文献信息的可视化分析系统,包括数据获取模块、数据临时存储库、数据处理模块和可视化分析数据库;
所述数据获取模块包括爬取单元、分类单元以及查询标记单元,爬取单元用于对数据源中的海量文献信息进行采集,并将采集的海量文献信息发送至分类单元;
所述分类单元用于对采集的海量文献信息按照行业类别的不同进行划分;
所述查询标记单元用于输入关键词对文献信息进行查询,并对查询后的文献信息进行标记;
所述数据临时存储库用于存储经查询、标记后的文献信息;
所述数据处理模块用于将数据临时存储库中的文献信息进行扫描,并对扫描后的文献信息进行处理、分析;
所述可视化分析数据库用于存储数据处理模块分析后的文献信息,根据关联度分析的结果进行可视化分析,为用户输出可视化分析结果。
进一步地,所述数据处理模块包括信息扫描单元、数据预处理单元和关联度分析单元;
所述信息扫描单元用于读取数据临时存储库中的文献信息;
所述数据预处理单元用于对读取的文献信息中的内容进行数据清洗,以提取文献中的关键词;
所述关联度分析单元用于将提取的关键词与输入的关键词进行关联度分析。
一种基于海量文献信息的可视化分析方法,包括以下步骤:
S1、对数据源中的海量文献信息进行采集,并将采集的海量文献信息按照领域不同划分为若干行业类别,并提取行业类别中文献信息的关键词;
S2、在行业类别中输入若干关键词对海量文献信息进行查询,对查询的结果进行标记,并将标记后的文献信息存储至数据临时存储库;
S3、对数据临时存储库中的文献信息进行扫描,并将扫描后的结果发送至数据预处理;
S4、将经数据预处理提取的所有关键词与输入的关键词进行关联度分析,标记关联度数值,并将分析后的文献信息存储至可视化分析数据库;
S5、获取可视化分析数据库中存储的文献信息,进行可视化分析,绘制关联度相关表,为用户输出可视化分析结果。
进一步地,所述步骤S4中经数据预处理提取的所有关键词A[m]={a1,a2,...,am},所述步骤S2中输入的关键词B[n]={b1,b2,...,bn},并将输入的每个关键词分别与每个文献信息中的每个关键词进行一一对比,关联度数值n表示输入的关键词数量,x表示输入的关键词与本文献信息中的关键词相匹配的个数。
本发明的有益效果:
本发明提出了一种基于海量文献信息的可视化分析系统及其方法,通过对海量文献信息进行采集、分类和标记,并按照文献信息中的关键词与输入的关键词进行关联度分析,为可视化分析提供可靠的参考依据,便于对海量文献信息进行有效的整理,实现对数据的可视化分析,保证数据分析的易用性和准确性,为用户提供可靠的决策价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中一种基于海量文献信息的可视化分析系统的示意图;
图2为本发明中一种基于海量文献信息的可视化分析方法的示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种基于海量文献信息的可视化分析系统,包括数据获取模块、数据临时存储库、数据处理模块和可视化分析数据库;
所述数据获取模块包括爬取单元、分类单元以及查询标记单元,所述爬取单元用于对数据源中的海量文献信息进行采集,并将采集的海量文献信息发送至分类单元;分类单元用于对采集的海量文献信息按照行业类别的不同进行划分;查询标记单元用于输入关键词对文献信息进行查询,并对查询后的文献信息进行标记;
数据临时存储库用于存储经查询、标记后的文献信息;
数据处理模块用于将数据临时存储库中的文献信息进行扫描,并对扫描后的文献信息进行处理、分析;数据处理模块包括信息扫描单元、数据预处理单元和关联度分析单元,所述信息扫描单元用于读取数据临时存储库中的文献信息,所述数据预处理单元用于对读取的文献信息中的内容进行数据清洗,以提取文献中的关键词;所述关联度分析单元用于将提取的关键词与输入的关键词进行关联度分析,并将关联度分析后的文献信息发送至可视化分析数据库;
可视化分析数据库用于存储关联度分析单元发送的文献信息,同时可视化分析数据库还包括可视化分析单元,所述可视化分析单元根据关联度分析的结果进行可视化分析,为用户输出可视化分析结果,便于用户对海量的文献信息进行可视化了解。
如图2所示,一种基于海量文献信息的可视化分析方法,包括以下步骤:
S1、对数据源中的海量文献信息进行采集,并将采集的海量文献信息按照领域不同划分为若干行业类别,并提取行业类别中文献信息的关键词;
S2、在行业类别中输入若干关键词对海量文献信息进行查询,对查询的结果进行标记,并将标记后的文献信息存储至数据临时存储库;
S3、对数据临时存储库中的文献信息进行扫描,并将扫描后的结果发送至数据预处理;其中,扫描用于对数据临时存储库中的文献信息的内容进行读取,所述数据预处理用于对扫描的文献信息内容进行数据清洗,提取文献信息中的所有关键词;
S4、将经数据预处理提取的所有关键词与输入的关键词进行关联度分析,标记关联度数值,并将分析后的文献信息存储至可视化分析数据库;
S5、获取可视化分析数据库中存储的文献信息,进行可视化分析,绘制关联度相关表,为用户输出可视化分析结果。
其中,经扫描的文献信息经数据预处理提取出本文献信息中的所有关键词A[m]={a1,a2,...,am},在步骤S2中输入的关键词B[n]={b1,b2,...,bn},并将输入的每个关键词分别与每个文献信息中的每个关键词进行一一对比,关联度数值n表示输入的关键词数量,x表示输入的关键词与本文献信息中的关键词相匹配的个数,关键词匹配的数量与关联度数值呈正比。
其中,关联度相关表中包括多个关联度数值,每个关联度数值可展示该关联度下的所有文献信息,便于为用户提供直观的可视化分析结果。
本发明提出了一种基于海量文献信息的可视化分析系统及其方法,通过对海量文献信息进行采集、分类和标记,并按照文献信息中的关键词与输入的关键词进行关联度分析,为可视化分析提供可靠的参考依据,便于对海量文献信息进行有效的整理,实现对数据的可视化分析,保证数据分析的易用性和准确性,为用户提供可靠的决策价值。
以上内容仅仅是对本发明的构思所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的构思或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (4)
1.一种基于海量文献信息的可视化分析系统,其特征在于:包括数据获取模块、数据临时存储库、数据处理模块和可视化分析数据库;
所述数据获取模块包括爬取单元、分类单元以及查询标记单元,爬取单元用于对数据源中的海量文献信息进行采集,并将采集的海量文献信息发送至分类单元;
所述分类单元用于对采集的海量文献信息按照行业类别的不同进行划分;
所述查询标记单元用于输入关键词对文献信息进行查询,并对查询后的文献信息进行标记;
所述数据临时存储库用于存储经查询、标记后的文献信息;
所述数据处理模块用于将数据临时存储库中的文献信息进行扫描,并对扫描后的文献信息进行处理、分析;
所述可视化分析数据库用于存储数据处理模块分析后的文献信息,根据关联度分析的结果进行可视化分析,为用户输出可视化分析结果。
2.根据权利要求1所述的一种基于海量文献信息的可视化分析系统,其特征在于:所述数据处理模块包括信息扫描单元、数据预处理单元和关联度分析单元;
所述信息扫描单元用于读取数据临时存储库中的文献信息;
所述数据预处理单元用于对读取的文献信息中的内容进行数据清洗,以提取文献中的关键词;
所述关联度分析单元用于将提取的关键词与输入的关键词进行关联度分析。
3.一种基于海量文献信息的可视化分析方法,其特征在于,包括以下步骤:
S1、对数据源中的海量文献信息进行采集,并将采集的海量文献信息按照领域不同划分为若干行业类别,并提取行业类别中文献信息的关键词;
S2、在行业类别中输入若干关键词对海量文献信息进行查询,对查询的结果进行标记,并将标记后的文献信息存储至数据临时存储库;
S3、对数据临时存储库中的文献信息进行扫描,并将扫描后的结果发送至数据预处理;
S4、将经数据预处理提取的所有关键词与输入的关键词进行关联度分析,标记关联度数值,并将分析后的文献信息存储至可视化分析数据库;
S5、获取可视化分析数据库中存储的文献信息,进行可视化分析,绘制关联度相关表,为用户输出可视化分析结果。
4.根据权利要求3所述的一种基于海量文献信息的可视化分析方法,其特征在于:所述步骤S4中经数据预处理提取的所有关键词A[m]={a1,a2,...,am},所述步骤S2中输入的关键词B[n]={b1,b2,...,bn},并将输入的每个关键词分别与每个文献信息中的每个关键词进行一一对比,关联度数值n表示输入的关键词数量,x表示输入的关键词与本文献信息中的关键词相匹配的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711411611.5A CN108170761A (zh) | 2017-12-23 | 2017-12-23 | 一种基于海量文献信息的可视化分析系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711411611.5A CN108170761A (zh) | 2017-12-23 | 2017-12-23 | 一种基于海量文献信息的可视化分析系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108170761A true CN108170761A (zh) | 2018-06-15 |
Family
ID=62523822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711411611.5A Pending CN108170761A (zh) | 2017-12-23 | 2017-12-23 | 一种基于海量文献信息的可视化分析系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108170761A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109213855A (zh) * | 2018-09-12 | 2019-01-15 | 合肥汇众知识产权管理有限公司 | 基于专利撰写的文献标记方法 |
CN109948009A (zh) * | 2019-03-12 | 2019-06-28 | 福建奇点时空数字科技有限公司 | 一种数据可视化引擎系统 |
CN109977076A (zh) * | 2019-03-25 | 2019-07-05 | 段崇楷 | 一种基于大数据分析的历史文献分类存储方法 |
CN112860735A (zh) * | 2020-12-17 | 2021-05-28 | 北京航空航天大学 | 持久性有机污染物暴露的在线数据库查询分析系统及方法 |
CN114168817A (zh) * | 2021-11-05 | 2022-03-11 | 合肥湛达智能科技有限公司 | 一种半监督学习目标识别方法 |
CN116821200A (zh) * | 2023-07-04 | 2023-09-29 | 大师兄(上海)云数据服务有限公司 | 一种人工智能云数据可视化分析系统及其分析方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308498A (zh) * | 2008-07-03 | 2008-11-19 | 上海交通大学 | 文本集合可视化系统 |
US20080301138A1 (en) * | 2007-05-31 | 2008-12-04 | International Business Machines Corporation | Method for Analyzing Patent Claims |
CN103605794A (zh) * | 2013-12-05 | 2014-02-26 | 国家计算机网络与信息安全管理中心 | 一种网站分类方法 |
CN104679728A (zh) * | 2015-02-06 | 2015-06-03 | 中国农业大学 | 一种文本相似度检测方法 |
CN105354325A (zh) * | 2015-11-20 | 2016-02-24 | 上海熠派信息科技有限公司 | 一种文献检索及分析系统 |
CN106919671A (zh) * | 2017-02-20 | 2017-07-04 | 广东省中医院 | 一种中医文本病案挖掘与辅助决策智能系统 |
CN106919689A (zh) * | 2017-03-03 | 2017-07-04 | 中国科学技术信息研究所 | 基于术语释义知识单元的专业领域知识图谱动态构建方法 |
CN107491530A (zh) * | 2017-08-18 | 2017-12-19 | 四川神琥科技有限公司 | 一种基于文件自动标记信息的社会关系挖掘分析方法 |
-
2017
- 2017-12-23 CN CN201711411611.5A patent/CN108170761A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080301138A1 (en) * | 2007-05-31 | 2008-12-04 | International Business Machines Corporation | Method for Analyzing Patent Claims |
CN101308498A (zh) * | 2008-07-03 | 2008-11-19 | 上海交通大学 | 文本集合可视化系统 |
CN103605794A (zh) * | 2013-12-05 | 2014-02-26 | 国家计算机网络与信息安全管理中心 | 一种网站分类方法 |
CN104679728A (zh) * | 2015-02-06 | 2015-06-03 | 中国农业大学 | 一种文本相似度检测方法 |
CN105354325A (zh) * | 2015-11-20 | 2016-02-24 | 上海熠派信息科技有限公司 | 一种文献检索及分析系统 |
CN106919671A (zh) * | 2017-02-20 | 2017-07-04 | 广东省中医院 | 一种中医文本病案挖掘与辅助决策智能系统 |
CN106919689A (zh) * | 2017-03-03 | 2017-07-04 | 中国科学技术信息研究所 | 基于术语释义知识单元的专业领域知识图谱动态构建方法 |
CN107491530A (zh) * | 2017-08-18 | 2017-12-19 | 四川神琥科技有限公司 | 一种基于文件自动标记信息的社会关系挖掘分析方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109213855A (zh) * | 2018-09-12 | 2019-01-15 | 合肥汇众知识产权管理有限公司 | 基于专利撰写的文献标记方法 |
CN109948009A (zh) * | 2019-03-12 | 2019-06-28 | 福建奇点时空数字科技有限公司 | 一种数据可视化引擎系统 |
CN109977076A (zh) * | 2019-03-25 | 2019-07-05 | 段崇楷 | 一种基于大数据分析的历史文献分类存储方法 |
CN109977076B (zh) * | 2019-03-25 | 2023-04-07 | 段崇楷 | 一种基于大数据分析的历史文献分类存储方法 |
CN112860735A (zh) * | 2020-12-17 | 2021-05-28 | 北京航空航天大学 | 持久性有机污染物暴露的在线数据库查询分析系统及方法 |
CN112860735B (zh) * | 2020-12-17 | 2022-06-14 | 北京航空航天大学 | 持久性有机污染物暴露的在线数据库查询分析系统及方法 |
CN114168817A (zh) * | 2021-11-05 | 2022-03-11 | 合肥湛达智能科技有限公司 | 一种半监督学习目标识别方法 |
CN114168817B (zh) * | 2021-11-05 | 2024-07-09 | 合肥湛达智能科技有限公司 | 一种半监督学习目标识别方法 |
CN116821200A (zh) * | 2023-07-04 | 2023-09-29 | 大师兄(上海)云数据服务有限公司 | 一种人工智能云数据可视化分析系统及其分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108170761A (zh) | 一种基于海量文献信息的可视化分析系统及其方法 | |
US11776084B2 (en) | Patent mapping | |
Cafarella et al. | Uncovering the Relational Web. | |
US20140365386A1 (en) | Intellectual Property (IP) Analytics System and Method | |
CN110874414B (zh) | 一种基于数据联勤服务的政策解读方法 | |
Franceschini et al. | Criticism on the hg-index | |
US20100100544A1 (en) | Document searching device, document searching method, and document searching program | |
CN107967290A (zh) | 一种基于海量科研资料的知识图谱网络构建方法及系统、介质 | |
CN103678287B (zh) | 一种关键词翻译统一的方法 | |
CN105095091B (zh) | 一种基于倒排索引技术的软件缺陷代码文件定位方法 | |
US7853595B2 (en) | Method and apparatus for creating a tool for generating an index for a document | |
JP2010224622A (ja) | タグ付与方法およびタグ付与プログラム | |
KR20120021011A (ko) | 통합 법률 정보 서비스 방법 및 시스템 | |
JP2004220215A (ja) | 計算機を利用した業務誘導支援システムおよび業務誘導支援方法 | |
CN107391684B (zh) | 一种威胁情报生成的方法及系统 | |
KR101510647B1 (ko) | 이슈 템플릿 추출 기반의 웹 동향 분석 방법 및 장치 | |
Mehta et al. | DOM tree based approach for web content extraction | |
US20060210171A1 (en) | Image processing apparatus | |
Joo et al. | Topic analysis of the research domain in knowledge organization: A latent Dirichlet allocation approach | |
KR101428981B1 (ko) | 아이템 풀 구축 시스템 및 방법 | |
Vij et al. | Scientometric inspection of research progression in hesitant fuzzy sets | |
Yoon et al. | A conference paper exploring system based on citing motivation and topic | |
Vashisht et al. | Enhanced lexicon E-SLIDE framework for efficient sentiment analysis | |
Nawab et al. | Comparing Medline citations using modified N-grams | |
Ghods et al. | Online Farsi digit recognition using their upper half structure |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180615 |