CN113220672A - 一种军民融合政策信息数据库系统 - Google Patents
一种军民融合政策信息数据库系统 Download PDFInfo
- Publication number
- CN113220672A CN113220672A CN202110452835.0A CN202110452835A CN113220672A CN 113220672 A CN113220672 A CN 113220672A CN 202110452835 A CN202110452835 A CN 202110452835A CN 113220672 A CN113220672 A CN 113220672A
- Authority
- CN
- China
- Prior art keywords
- data
- database
- policy
- military
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims description 16
- 238000004458 analytical method Methods 0.000 claims abstract description 35
- 238000013500 data storage Methods 0.000 claims abstract description 27
- 230000010354 integration Effects 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000004140 cleaning Methods 0.000 claims abstract description 22
- 238000007405 data analysis Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000005516 engineering process Methods 0.000 claims abstract description 12
- 230000009467 reduction Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 11
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 238000007418 data mining Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000013144 data compression Methods 0.000 claims description 6
- 238000013501 data transformation Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000002955 isolation Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000002547 anomalous effect Effects 0.000 claims description 2
- 238000003860 storage Methods 0.000 abstract description 23
- 238000010276 construction Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013480 data collection Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009193 crawling Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Quality & Reliability (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种军民融合政策信息数据库系统,该系统采用的数据清洗与存储方法包括以下步骤:S1.数据接入,采用实时数据接入接口和批量数据接入接口,处理不同类型的数据接入;所述不同类型的数据包括结构化数据和非结构化数据;S2.数据预处理,对数据进行提取、清洗、关联、对比、标识和保护;S3.采集数据分析,处理数据采集阶段抽取的数据生成符合数据分析要求的数据,通过制定统一的数据标准,将结构化数据、非结构化数据分析为可用数据;S4.数据存储,建立基于大数据技术与关系数据库相结合的方式进行数据存储。所述方法和系统能够提供更高质量的数据以及更高针对性和精确性的存储。
Description
技术领域
本发明涉及一种信息技术领域,尤其是一种军民融合政策信息数据库系统。
背景技术
军民融合是国家战略,关乎国家安全和发展全局,既是兴国之举,又是强 军之策。与此同时,军民融合工作政策制度管理体系不健全以及信息化管理辅 助决策手段运用不足,也是困扰政策制度建设的重要原因。
当前,虽然相关政策制度的文件总量已经十分庞大,但不系统、不全面以 及存在“漏项”的问题仍然比较突出。在现有管理模式下,对政策制度研究、 制定和使用者来说,在精准查询、高效使用和对比分析等方面都存在比较大的 困难。
军民融合工作政策数据挖掘平台的基础,是细致而全面的政策制度数据信 息。由于政策制度文件系统庞大、内容复杂、设计主体众多,通过人工方式搜 集整理并进行精准查询、高效使用和对比分析等工作都存在比较大的困难,而 爬虫爬取互联网相关政策制度数据的原始数据存在不完整、含噪声、数据不一 致等问题,因此亟需研发一种系统平台,从数字化角度实现对军民融合政策制 度进行数据清洗与存储,才能顺利实现后期的数据统计与分析以及可视化展示 等功能。
发明内容
针对现有技术存在的问题,本发明的目的在于解决现有技术中由于爬虫爬 取互联网相关政策制度数据的原始数据存在不完整、含噪声、数据不一致等问 题,提供一种军民融合政策信息平台数据清洗与存储方法及系统,提供高质量 的数据和更有针对性的存储,所述高质量数据主要体现在数据的一致性、准确 性、完整性、时效性、可信性及可解释性。
根据本发明提供的一种军民融合政策信息数据库系统,该系统采用的数据 清洗与存储方法包括以下几个步骤:
S1.数据接入,采用实时数据接入接口和批量数据接入接口,处理不同类 型的数据接入;所述不同类型的数据包括结构化数据和非结构化数据;
S2.数据预处理,对数据进行提取、清洗、关联、对比、标识和保护;
S3.采集数据分析,处理数据采集阶段抽取的数据生成符合数据分析要求 的数据,通过制定统一的数据标准,将结构化数据、非结构化数据分析为可用 数据;
S4.数据存储,建立基于大数据技术与关系数据库相结合的方式进行数据 存储。
进一步,将所述结构化数据存入MySQL数据库中;将非结构化数据结构化 后存入MySQL、Hadoop或Elastic Search数据库中。
进一步,所述数据预处理的方法包括:
数据清洗,用于去噪声和无关数据;
数据集成,用于将多个数据源中的数据结合起来存放在一个一致的数据存 储中;
数据变换,用于把原始数据转换成为适合数据挖掘的形式;
数据规约:用于数据立方体聚集、维度归约、数据压缩、数值归约、离散 化和概念分层。
进一步,数据选取参考原则为赋予属性名和属性值明确的含义、统一多数 据源的属性编码、去除唯一属性、去除重复属性、去除可忽略字段和合理选择 关联字段。
进一步,进一步的数据处理包括通过填补遗漏数据、消除异常数据、平滑 噪声数据,以及纠正不一致数据,去掉数据中的噪音、填充空值、丢失值和处 理不一致数据。
进一步,采集数据分析步骤中包括:
词法分析,提供分词、词性标注、命名实体识别三大功能,支撑自然语言 的准确理解;
DNN语言模型,输入中文句子即可获得句子的通顺程度;
文本结构化信息提取,从文本内容中自动提取发布时间、发布主体、实施 范围等结构化信息;
短文本相似度,输入两段中文短文本,即可输出文本间的语义相似度;
文章标签,对政策制度进行核心关键词分析,为新闻个性化推荐、相似文 章聚合、文本内容分析提供技术支持;
文章分类,对政策制度按照内容类型进行自动分类,为政策制度聚类内容 分析提供基础技术支持;
文本纠错,识别文本中有错误的片段,进行错误提示并给出正确的建议文 本内容;
内容摘要,自动提取政策制度文本中的关键信息,进而生成指定长度的政 策制度摘要。
进一步,数据存储步骤中,所述大数据技术为基于HDFS、Hadoop、Spark 的数据技术;所述关系数据库包括政策制度数据库和政策解读数据库;结构上, 数据库构建为公开政策制度数据库和涉密政策制度数据库,并采用物理隔离; 内容上,数据库构建为基础数据库和图计算及信息检索数据库。
进一步,通过爬虫服务按照预设的规则,自动抓取公开军民融合相关的政 策制度信息;并通过接口将由爬虫系统爬取的互联网信息以及手工录入的政策 制度信息按照规则存入文件服务器。
另一方面,本发明提供一种军民融合政策信息数据库系统,包括数据接入 单元、数据预处理单元、采集数据分析单元和数据存储单元。
进一步,所述数据预处理单元还包括如下子单元:
数据清洗子单元,用于去噪声和无关数据;
数据集成子单元,用于将多个数据源中的数据结合起来存放在一个一致的 数据存储中;
数据变换子单元,用于把原始数据转换成为适合数据挖掘的形式;
数据规约子单元,用于数据立方体聚集、维度归约、数据压缩、数值归约、 离散化和概念分层。
通过本发明提供的军民融合政策信息数据库系统,能够通过对爬取数据的 处理和分析,提供一致性、准确性、完整性、时效性、可信性及可解释性高的 数据结构,并分别将不同类型的数据专门进行存储,对于政策制度类型的信息 具有针对性和精确性的处理和存储。
附图说明
图1示出了根据本发明的军民融合政策信息数据库系统的构建结构示意图;
图2示出了根据本发明的军民融合政策信息数据库系统的工作流程图;
图3示出了根据本发明的军民融合政策信息数据库系统的数据存储结构示 意图;
图4出了根据本发明的军民融合政策信息数据库系统的数据库构架图。
具体实施方式
下面将结合附图,对本发明的技术方案进行清楚、完整地描述,显然,所 描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的 实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、 “竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方 位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指 的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解 为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的, 而不能理解为指示或暗示相对重要性。
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此 处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
根据附图1-3,军民融合工作政策数据挖掘平台的基础,是细致而全面的 政策制度数据信息。由于通过数据采集通道采集的政策制度原始数据,往往存 在结构不够清晰、字段缺失或错误、数据非结构化等问题。因此数据清洗和存 储工作尤为重要。
如图1所示,根据本发明的军民融合政策信息数据库系统应用于军民融合 政策制度数据平台。所述平台的构建包括搜集整理政策信息、政策制度分析研 究、搭建平台和迭代优化几个部分。其中搜集整理政策信息用于提供研究基础。 在搭建平台这一模块下,具体包含搭建数据库、数据采集、数据分析、构建模 型几个部分,并且数据分析部分设置有数据清洗模块和数据存储模块,使用本 发明的数据清洗和存储方法与系统对于政策制度类型的信息具有针对性和精 确性的处理和存储。
如图2所示,根据本发明的军民融合政策信息数据库系统,该系统采用的 数据清洗与存储方法包括以下几个步骤:
S1.数据接入,采用实时数据接入接口和批量数据接入接口,处理不同类 型的数据接入;所述不同类型的数据包括结构化数据和非结构化数据;
S2.数据预处理,对数据进行提取、清洗、关联、对比、标识和保护;
S3.采集数据分析,处理数据采集阶段抽取的数据生成符合数据分析要求 的数据,通过制定统一的数据标准,将结构化数据、非结构化数据分析为可用 数据;
S4.数据存储,建立基于大数据技术与关系数据库相结合的方式进行数据 存储。
具体地,所述数据清洗与存储方法的详细处理方式如下:
1)数据接入
针对以上问题,平台设计相应的数据接口,对不同类型的数据进行清洗, 并存入相应的数据库。为解决数据结构化问题,还要对部分数据进行OCR处理, 之后再进行结构化存储。对于不同的数据采集方式,由于对实时性要求不同, 需要采用不同的数据输入接口。项目拟采用实时数据接入接口和批量数据接入 接口,处理不同类型的数据接入。
结构化数据:涵盖系统库、标签库、素材库、知识库、制度内容库在内的 结构化数据的手工录入接口,提供Excel、Word、PDF、图片等方式的导入功能, 并提供人工复检接口。数据存储目标:MySQL数据库。
非结构化数据:手工补录非结构化数据是对爬虫的一个重要补充,提供文 本流、word、PDF等方式补录自动化爬取未能找到的信息从而丰富系统中政策 解读、政策制度、咨询等内容,系统通过知识图谱、机器学习模型对信息进行 解构、分析存储。将非结构化数据结构化后存入MySQL、Hadoop、Elastic Search 等数据库中。
2)数据预处理
高质量的决策必须依赖于高质量的数据。高质量的数据主要体现在数据的 一致性、准确性、完整性、时效性、可信性及可解释性。然而,通过爬虫爬取 互联网相关政策制度数据,原始数据有可能存在不完整、含噪声、数据不一致 等问题。因此通过网络收集整理的数据需要通过数据预处理模块对数据进行提 取、清洗、关联、对比、标识、保护等。
(1)数据预处理的方法:
数据清洗:去噪声和无关数据
数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储 中
数据变换:把原始数据转换成为适合数据挖掘的形式
数据规约:主要方法包括:数据立方体聚集,维度归约,数据压缩,数 值归约,离散化和概念分层等。
(2)数据选取参考原则:
尽可能富余属性名和属性值明确的含义
统一多数据源的属性编码
去除唯一属性
去除重复属性
去除可忽略字段
合理选择关联字段
进一步处理:通过填补遗漏数据、消除异常数据、平滑噪声数据,以及 纠正不一致数据,去掉数据中的噪音、填充空值、丢失值和处理不一致数据。
爬虫获取原始的待清洗数据,然后判断每条所述原始的待清洗数据是否包 括有N个字段。一般情况下采集系统都可以采集到N个字段。但是若存在不符 合预设清洗规则的原始待清洗数据,则可以直接将所述数据过滤掉,或者通过 人工将字段补齐,然后将补齐后的待清洗字段进行字段清洗。当一条数据清洗 完成后,这条数据会生成带有唯一主键ID的数据表根据预设的更新规则,将 每个所述数据表以对应主键ID为索引更新至基础数据库中;
其中,所述预设的更新规则包括:
在根据主键ID判定待更新的数据表已存入所述基础数据库中,且已存入 的数据表中包括有修正字段后,将所述修正字段覆盖所述待更新的数据表对应 的字段后,将所述待更新的数据表以覆盖已存入数据表的方式存入所述基础数 据库中。
由于根据错误数据对存储在数据库中的数据表进行修正,是以字段为基础 单位进行的,因此,在字段清洗之后得到的数据表要更新至基础数据库中时, 需要先判断基础数据库中是否已存入这个数据表(根据主键ID来判断),若基 础数据库中已存入这个数据表,还需要判断已存入的数据表中是否包含有修正 字段(即具有修正标记的字段),若包含修正字段,则将修正字段与待更新字段 进行合并后存入基础数据库中,即将修正字段覆盖待更新的数据表对应的字段, 然后将待更新的数据表以覆盖已存入数据表的方式存入所述基础数据库中。
需要说明的是,所述数据表的主键ID可以根据这个数据表中的具有唯一 性的字段内容生成(例如根据数据表的案件号所述数据表的主键ID),后续采集 系统采集到了相同的案件号的数据(此时的数据是有更新的数据)后,会生成具 有相同的主键ID的数据表,此表明这两个具有相同主键ID的数据表为同一个 数据记录。
3)采集数据分析
采集数据分析的目的是处理数据采集阶段抽取的数据生成符合数据分析 要求的数据。采集过程中的数据由于来源不同、类型不同、标准不同,需要通 过制定统一的数据标准,将结构化数据、非结构化数据分析为高质量可用的数 据。
通过对各类数据进行对象化处理,实现数据的整理、交叉分析、比对,同 时对数据进行深度挖掘,为上层应用提供分析能力。同时实现对非结构化数据 的特征提取,以及半结构化数据的内容检索、理解等。
数据分析采用技术有:
词法分析,提供分词、词性标注、命名实体识别三大功能,支撑自然语 言的准确理解;
DNN语言模型,输入中文句子即可获得句子的通顺程度;
文本结构化信息提取,从文本内容中自动提取发布时间、发布主体、实 施范围等结构化信息;
短文本相似度,输入两段中文短文本,即可输出文本间的语义相似度。 帮助快速实现推荐、检索、排序等应用;
文章标签,对政策制度进行核心关键词分析,为新闻个性化推荐、相似 文章聚合、文本内容分析等提供技术支持;
文章分类,对政策制度按照内容类型进行自动分类,为政策制度聚类内 容分析等应用提供基础技术支持;
文本纠错,识别文本中有错误的片段,进行错误提示并给出正确的建议 文本内容;
内容摘要,自动提取政策制度文本中的关键信息,进而生成指定长度的 政策制度摘要。
4)数据存储
根据附图3,根据大数据存储与分析的需求建立基于HDFS、Hadoop、Spark 等大数据技术与MySQL关系数据库相结合的方式进行数据存储。并建立包括政 策制度数据库、政策解读数据库等在内的一系列军民融合政策制度相关数据库。 数据库通过数据接入层进行实时或批量数据更新,是系统数据检索与分析的基 础。在大数据平台,分别提供网络爬虫服务(包括网页采集模块、网页分析模 块和索引模块)、手工数据服务(包括网页数据上传、FTP/SFTP、索引模块)、 文件服务(包括HDFS文件存储、原生文件存储区、解构文件存储区、挖掘文 件存储区、文本索引存储区、文件标准化存储区等)、模型训练服务(包括知 识图谱、建模分析、机器学、基础算法等)、检索服务(包括全文检索库、查 询文件存储库)、标签配置服务(所述标签为手工标签)、解构结果存储(包括 原生层和指标层)、知识图谱存储(包括原生层和指标层)、和应用服务(包括 微服务、自洽性校验、仿真分析、可操作性分析、实施效果预判、全文检索、 智能问答等)。
另一方面,本发明提供的一种军民融合政策信息数据库系统,包括数据接 入单元、数据预处理单元、采集数据分析单元和数据存储单元。
进一步,所述数据预处理单元还包括如下子单元:
数据清洗子单元,用于去噪声和无关数据;
数据集成子单元,用于将多个数据源中的数据结合起来存放在一个一致的 数据存储中;
数据变换子单元,用于把原始数据转换成为适合数据挖掘的形式;
数据规约子单元,用于数据立方体聚集、维度归约、数据压缩、数值归约、 离散化和概念分层。
要实现政策制度数据库数据统计分析及可视化展示,并依据现有政策制度 数据,对新政策制度进行综合评估,则需要基于大量的已有的政策制度数据以 及其他相关辅助数据。因此数据库的构建,是实现政策制度智能评估分析的基 础。为实现相关政策制度文件的数字化以及政策制度态势分析、数据聚合、数 据管理、统计分析、政策制度评估、综合查询、成效仿真推演等功能,系统中 的数据必须基本覆盖当前军地出台各类涉及军民融合发展的政策制度。因此, 我们需要进行大量的政策制度数据采集工作。同时根据已获取数据,针对数据 的不同结构和类型,设计相应接口进行数据清洗、处理和结构化存储,构建基础数据库来存储采集的源数据,加工分析信息数据等。
根据大数据存储与分析的需求,部分数据更新后需要对已有数据进行大批 量的读取,并重新计算分析模型。这种情况下,传统的关系数据库速度无法满 足需求,需要采用分布式的数据库进行数据存储。同时,对于另外一些类型的 数据,采用传统关系数据库更加方便进行检索。数据库架构如图4所示,本发 明综合采用基于HDFS、Hadoop、Spark等大数据技术与MySQL关系数据库相结 合的方式进行数据存储。数据库通过数据接入层进行实时或批量数据更新,是 系统数据检索与分析的基础。
结构上,数据库构建可分为公开政策制度数据库和涉密政策制度数据库, 并实现物理隔离。内容上,数据库又分为基础数据库和图计算及信息检索数据 库。基础数据库是系统的最底层,包括数据来源库、加工库、标签库、机构库 等基础数据库;图计算及信息检索数据库,是做知识图谱分析的数据基础,它 根据加工库中的政策制度之间的关系、专家解读与政策制度之间的关系、政府 机关与政策制度之间的关系以及机构库中的机构历史沿革情况,提炼知识图谱 并在Neo4j中构建知识图谱网络。
各数据库用途描述如下表:
数据库名称 | 用途 | 描述 |
MySQL | 业务数据库 | 数据来源库、采集库、加工库 |
MySQL | 配置数据库 | 标签库、机构库、用户库 |
Neo4j | 图数据库 | 图计算及信息检索数据库 |
根据图4,系统通过爬虫服务按照一定的规则,自动从数据源中抓取公开 军民融合相关的政策制度信息,数据格式包括HTML、PDF、WORD、EXCEL、图片、 TXT、CSV、DB等。除了网络爬虫,还通过手工结构以及ETL交换接口录入信息 数据,并通过各接口将由爬虫系统爬取的互联网信息以及手工录入的政策制度 信息按照规则存入文件服务器。采用大数据技术(包括Hadoop、HDF、HBae、 ES)和MYSQL数据库,文件服务向下提供数据文件存储服务,向上则为模型服 务器、ElasticSearch搜索引擎提供数据。通过数据标准化服务,构建知识图 谱、构建分析模型以及实现功能分析展示功能。模型训练服务器用于训练和部 署机器学习模型,为系统提供数据分析和评估服务。应用服务用于部署军民融 合政策法规智能分析系统的Web应用,是人机交互的通道,支持系统应用访问。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该 计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输 入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设 备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操 作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机 程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连 接通信。该计算机程序被处理器执行时以实现一种军民融合型的国防动员综合 信息方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该 计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于 一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述 各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、 存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。 非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程 ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机 存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形 式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据 率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路 (Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储 器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的 普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改 进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权 利要求为准。
Claims (10)
1.一种军民融合政策信息数据库系统,其特征在于,该系统采用的数据清洗与存储方法包括步骤为:
S1.数据接入,采用实时数据接入接口和批量数据接入接口,处理不同类型的数据接入;所述不同类型的数据包括结构化数据和非结构化数据;
S2.数据预处理,对数据进行提取、清洗、关联、对比、标识和保护;
S3.采集数据分析,处理数据采集阶段抽取的数据生成符合数据分析要求的数据,通过制定统一的数据标准,将结构化数据、非结构化数据分析为可用数据;
S4.数据存储,建立基于大数据技术与关系数据库相结合的方式进行数据存储。
2.根据权利要求1所述的军民融合政策信息数据库系统,其特征在于,将所述结构化数据存入MySQL数据库中;将非结构化数据结构化后存入MySQL、Hadoop或Elastic Search数据库中。
3.根据权利要求1所述的军民融合政策信息数据库系统,其特征在于,所述数据预处理的方法包括:
数据清洗,用于去噪声和无关数据;
数据集成,用于将多个数据源中的数据结合起来存放在一个一致的数据存储中;
数据变换,用于把原始数据转换成为适合数据挖掘的形式;
数据规约:用于数据立方体聚集、维度归约、数据压缩、数值归约、离散化和概念分层。
4.根据权利要求1所述的军民融合政策信息数据库系统,其特征在于,数据选取参考原则为赋予属性名和属性值明确的含义、统一多数据源的属性编码、去除唯一属性、去除重复属性、去除可忽略字段和合理选择关联字段。
5.根据权利要求1所述的军民融合政策信息数据库系统,其特征在于,进一步的数据处理包括通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致数据,去掉数据中的噪音、填充空值、丢失值和处理不一致数据。
6.根据权利要求1所述的军民融合政策信息数据库系统,其特征在于,采集数据分析步骤中包括:
词法分析,提供分词、词性标注、命名实体识别三大功能,支撑自然语言的准确理解;
DNN语言模型,输入中文句子即可获得句子的通顺程度;
文本结构化信息提取,从文本内容中自动提取发布时间、发布主体、实施范围等结构化信息;
短文本相似度,输入两段中文短文本,即可输出文本间的语义相似度;
文章标签,对政策制度进行核心关键词分析,为新闻个性化推荐、相似文章聚合、文本内容分析提供技术支持;
文章分类,对政策制度按照内容类型进行自动分类,为政策制度聚类内容分析提供基础技术支持;
文本纠错,识别文本中有错误的片段,进行错误提示并给出正确的建议文本内容;
内容摘要,自动提取政策制度文本中的关键信息,进而生成指定长度的政策制度摘要。
7.根据权利要求1所述的军民融合政策信息数据库系统,其特征在于,数据存储步骤中,所述大数据技术为基于HDFS、Hadoop、Spark的数据技术;所述关系数据库包括政策制度数据库和政策解读数据库;结构上,数据库构建为公开政策制度数据库和涉密政策制度数据库,并采用物理隔离;内容上,数据库构建为基础数据库和图计算及信息检索数据库。
8.根据权利要求1所述的军民融合政策信息数据库系统,其特征在于,通过爬虫服务按照预设的规则,自动抓取公开军民融合相关的政策制度信息;并通过接口将由爬虫系统爬取的互联网信息以及手工录入的政策制度信息按照规则存入文件服务器。
9.根据权利要求1所述的军民融合政策信息数据库系统,其特征在于,包括数据接入单元、数据预处理单元、采集数据分析单元和数据存储单元。
10.根据权利要求9所述的军民融合政策信息数据库系统,其特征在于,所述数据预处理单元还包括如下子单元:
数据清洗子单元,用于去噪声和无关数据;
数据集成子单元,用于将多个数据源中的数据结合起来存放在一个一致的数据存储中;
数据变换子单元,用于把原始数据转换成为适合数据挖掘的形式;
数据规约子单元,用于数据立方体聚集、维度归约、数据压缩、数值归约、离散化和概念分层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110452835.0A CN113220672A (zh) | 2021-04-26 | 2021-04-26 | 一种军民融合政策信息数据库系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110452835.0A CN113220672A (zh) | 2021-04-26 | 2021-04-26 | 一种军民融合政策信息数据库系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113220672A true CN113220672A (zh) | 2021-08-06 |
Family
ID=77089081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110452835.0A Pending CN113220672A (zh) | 2021-04-26 | 2021-04-26 | 一种军民融合政策信息数据库系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220672A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114816771A (zh) * | 2022-06-27 | 2022-07-29 | 深圳市乐易网络股份有限公司 | 一种多通道混合云计算系统 |
CN115617840A (zh) * | 2022-12-19 | 2023-01-17 | 江西曼荼罗软件有限公司 | 医疗数据检索平台构建方法、系统、计算机及存储介质 |
CN116483940A (zh) * | 2023-04-26 | 2023-07-25 | 深圳市国房云数据技术服务有限公司 | 拆迁全流程制式文档数据提取与结构化方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN108364124A (zh) * | 2018-01-26 | 2018-08-03 | 天津中科智能识别产业技术研究院有限公司 | 基于大数据的国际产能合作风险评估与决策服务系统 |
CN110703643A (zh) * | 2019-09-25 | 2020-01-17 | 西安天和防务技术股份有限公司 | 军民融合型的国防动员综合信息系统及方法 |
US10592544B1 (en) * | 2019-02-12 | 2020-03-17 | Live Objects, Inc. | Generation of process models in domains with unstructured data |
-
2021
- 2021-04-26 CN CN202110452835.0A patent/CN113220672A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN108364124A (zh) * | 2018-01-26 | 2018-08-03 | 天津中科智能识别产业技术研究院有限公司 | 基于大数据的国际产能合作风险评估与决策服务系统 |
US10592544B1 (en) * | 2019-02-12 | 2020-03-17 | Live Objects, Inc. | Generation of process models in domains with unstructured data |
CN110703643A (zh) * | 2019-09-25 | 2020-01-17 | 西安天和防务技术股份有限公司 | 军民融合型的国防动员综合信息系统及方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114816771A (zh) * | 2022-06-27 | 2022-07-29 | 深圳市乐易网络股份有限公司 | 一种多通道混合云计算系统 |
CN114816771B (zh) * | 2022-06-27 | 2022-09-13 | 深圳市乐易网络股份有限公司 | 一种多通道混合云计算系统 |
CN115617840A (zh) * | 2022-12-19 | 2023-01-17 | 江西曼荼罗软件有限公司 | 医疗数据检索平台构建方法、系统、计算机及存储介质 |
CN115617840B (zh) * | 2022-12-19 | 2023-03-10 | 江西曼荼罗软件有限公司 | 医疗数据检索平台构建方法、系统、计算机及存储介质 |
CN116483940A (zh) * | 2023-04-26 | 2023-07-25 | 深圳市国房云数据技术服务有限公司 | 拆迁全流程制式文档数据提取与结构化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704411B (zh) | 适用于艺术领域的知识图谱搭建方法及装置、电子设备 | |
CN108509482B (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
CN113220672A (zh) | 一种军民融合政策信息数据库系统 | |
US8468167B2 (en) | Automatic data validation and correction | |
CN112749284B (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN112015900B (zh) | 医学属性知识图谱构建方法、装置、设备及介质 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
Clinchant et al. | Comparing machine learning approaches for table recognition in historical register books | |
CN111192176B (zh) | 一种支持教育信息化评估的在线数据采集方法及装置 | |
CN109408578B (zh) | 一种针对异构环境监测数据融合方法 | |
CN112015962A (zh) | 一种政务智能大数据中心体系架构 | |
CN113254630B (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
CN110334343B (zh) | 一种合同中个人隐私信息抽取的方法和系统 | |
CN112825089B (zh) | 文章推荐方法、装置、设备及存储介质 | |
Utamachant et al. | An analysis of high-value datasets: a case study of Thailand’s open government data | |
CN111326236A (zh) | 一种医疗图像自动处理系统 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN108959580A (zh) | 一种标签数据的优化方法及系统 | |
CN116414961A (zh) | 基于军事领域知识图谱的问答方法和系统 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN116775972A (zh) | 基于信息技术的远端资源整理服务方法和系统 | |
CN113505190B (zh) | 地址信息修正方法、装置、计算机设备和存储介质 | |
CN116756392B (zh) | 一种医疗信息溯源方法、云平台及存储介质 | |
CN114168751B (zh) | 一种基于医学知识概念图的医学文本标签识别方法及系统 | |
CN113961811B (zh) | 基于事件图谱的话术推荐方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210806 |
|
RJ01 | Rejection of invention patent application after publication |