CN113297296A - 多样式类型数据的json化处理方法 - Google Patents

多样式类型数据的json化处理方法 Download PDF

Info

Publication number
CN113297296A
CN113297296A CN202110605693.7A CN202110605693A CN113297296A CN 113297296 A CN113297296 A CN 113297296A CN 202110605693 A CN202110605693 A CN 202110605693A CN 113297296 A CN113297296 A CN 113297296A
Authority
CN
China
Prior art keywords
data
json
style type
counted
digital field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110605693.7A
Other languages
English (en)
Other versions
CN113297296B (zh
Inventor
肖国强
陈天宇
王晓蒙
唐小琴
马文卓
勾鑫晔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University
Original Assignee
Southwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University filed Critical Southwest University
Priority to CN202110605693.7A priority Critical patent/CN113297296B/zh
Publication of CN113297296A publication Critical patent/CN113297296A/zh
Application granted granted Critical
Publication of CN113297296B publication Critical patent/CN113297296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种多样式类型数据的JSON化处理方法,包括步骤:S1.对多样式类型数据进行提取,得到提取后的多样式类型数据;S2.对提取后的多样式类型数据进行统计处理,得到统计后的数据;S3.判断统计后的数据是否符合数据标准,若是,则进入步骤S4,若否,则结束;S4.对统计后的数据进行二进制化处理,得到二进制化的数据;S5.对二进制化的数据进行JSON化处理,得到JSON化的数据。本发明的一种多样式类型数据的JSON化处理方法,能够快速将原始数据信息转化为易读性强、存储结构简易以及便于大数据分析的JSON化数据信息。

Description

多样式类型数据的JSON化处理方法
技术领域
本发明涉及数据处理领域,具体涉及一种多样式类型数据的JSON化处理方法。
背景技术
目前,对于原始数据的有效清理筛选工作研究受到了广泛关注,在人工智能大数据深度挖掘方向,数据清理是整体建模过程中至关重要的一环,也是保留数据信息特征,得到最终挖掘数据的重要一环。因此,对于现实世界中的大量原始无序数据进行识别筛选往往能够揭露一些以往未挖掘的重要信息,对于探究大数据背后的深层自然客观原理具有一定的意义。
在现实生活中,对原始大数据进行筛选清理是具有很高应用价值的热门研究领域之一。随着当代互联网技术的普及与信息化时代数据量爆炸式的增长,再进一步获取到真实有效的信息难度越发困难,筛选具有特定作用的信息数据也较难实现,从而海量数据中,得到真实有价值的大数据样本并从中分析出所需内容已经成为制约经济发展的瓶颈之一。
发明内容
有鉴于此,本发明的目的是克服现有技术中的缺陷,提供多样式类型数据的JSON化处理方法,能够快速将原始数据信息转化为易读性强、存储结构简易以及便于大数据分析的JSON化数据信息。
本发明的多样式类型数据的JSON化处理方法,包括如下步骤:
S1.对多样式类型数据进行提取,得到提取后的多样式类型数据;
S2.对提取后的多样式类型数据进行统计处理,得到统计后的数据;
S3.判断统计后的数据是否符合数据标准,若是,则进入步骤S4,若否,则结束;
S4.对统计后的数据进行二进制化处理,得到二进制化的数据;
S5.对二进制化的数据进行JSON化处理,得到JSON化的数据。
进一步,所述步骤S1,具体包括:
S11.对多样式类型数据进行分类,得到非数字字段数据以及数字字段数据;
S12.提取包含目标关键词的非数字字段数据,并将包含目标关键词的非数字字段数据作为有效的非数字字段数据;
S13.提取在目标数值区间内的数字字段数据,并将数值在目标数值区间内的数字字段数据作为有效的数字字段数据;
S14.将有效的非数字字段数据以及有效的数字字段数据作为提取后的多样式类型数据。
进一步,所述步骤S2中,对提取后的多样式类型数据进行统计处理,具体包括:统计所述提取后的多样式类型数据的缺失率、重复率以及失真率。
进一步,所述步骤S3中,判断统计后的数据是否符合数据标准,具体包括:判断统计后的数据的缺失率是否小于设定的缺失率、判断统计后的数据的重复率是否小于设定的重复率以及判断统计后的数据的失真率是否小于设定的失真率,若是,则符合数据标准,若否,则不符合数据标准。
进一步,所述步骤S4中,具体包括:
S41.对统计后的数据中的非数字字段数据进行UTF-8编码处理,得到十进制的数字字段数据;
S42.将所述十进制的数字字段数据与统计后的数据中的数字字段数据进行二进制化处理,得到二进制化的数据。
进一步,还包括步骤:S6.对符合数据标准的统计后的数据进行JSON化处理,得到JSON化的对照数据。
本发明的有益效果是:本发明公开的一种多样式类型数据的JSON化处理方法,通过提取多样式类型原始数据中的有效信息,得到有效数据,并对有效数据进行进一步的筛选统计与判断分析,得到有价值的可利用数据,根据数据格式的不同,分别将数据进行二进制化处理,并进一步进行JSON化处理,进而得到易读性强、存储结构简易以及便于大数据分析的JSON化数据。本发明处理效率高、可靠性强,为人工智能大数据分析提供了有力的数据支撑。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为本发明的方法流程示意图。
具体实施方式
以下结合说明书附图对本发明做出进一步的说明,如图1所示:
本发明的多样式类型数据的JSON化处理方法,包括如下步骤:
S1.对多样式类型数据进行提取,得到提取后的多样式类型数据;
S2.对提取后的多样式类型数据进行统计处理,得到统计后的数据;
S3.判断统计后的数据是否符合数据标准,若是,则进入步骤S4,若否,则结束;
S4.对统计后的数据进行二进制化处理,得到二进制化的数据;
S5.对二进制化的数据进行JSON化处理,得到JSON化的数据。
本实施例中,所述步骤S1,具体包括:
S11.对多样式类型数据进行分类,得到非数字字段数据以及数字字段数据;其中,所述多样式类型数据为原始数据,该原始数据可通过excel表格形式进行存储,并用于后续的分析处理;所述多样式类型数据包括非数字字段数据以及数字字段数据;所述非数字字段数据包括文本、字符串以及日期格式的数据;
S12.提取包含目标关键词的非数字字段数据,并将包含目标关键词的非数字字段数据作为有效的非数字字段数据;其中,所述目标关键词可根据实际的数据分析需求进行设定;
S13.提取在目标数值区间内的数字字段数据,并将数值在目标数值区间内的数字字段数据作为有效的数字字段数据;其中,所述目标数值区间可根据实际的数据分析需求进行设定;
S14.将有效的非数字字段数据以及有效的数字字段数据作为提取后的多样式类型数据。
本实施例中,所述步骤S2中,对提取后的多样式类型数据进行统计处理,具体包括:统计所述提取后的多样式类型数据的缺失率、重复率以及失真率。其中,所述提取后的多样式类型数据分别根据目标数据的缺失程度、重复程度以及失真程度来统计分析,得到所述目标数据对应的缺失率、重复率以及失真率。
本实施例中,所述步骤S3中,判断统计后的数据是否符合数据标准,具体包括:判断统计后的数据的缺失率是否小于设定的缺失率、判断统计后的数据的重复率是否小于设定的重复率以及判断统计后的数据的失真率是否小于设定的失真率,若是,则符合数据标准,若否,则不符合数据标准。其中,所述设定的缺失率、设定的重复率以及设定的失真率均根据实际被处理的目标数据进行设置。
本实施例中,所述步骤S4中,具体包括:
S41.对统计后的数据中的非数字字段数据进行UTF-8编码处理,得到十进制的数字字段数据;其中,统计后的数据中的非数字字段数据通过UTF-8编码规范可映射到十进制范围;
S42.将所述十进制的数字字段数据与统计后的数据中的数字字段数据进行二进制化处理,得到二进制化的数据。其中,一般地,所述统计后的数据中的数字字段数据也为十进制类型数据;将上述两种十进制数据采用现有的二进制转换技术均可转换为二进制数据。
本实施例中,步骤S5中,所述JSON化处理采用现有的JSON格式化处理技术,在此不再赘述。所述JSON化的数据便于人工智能大数据分析,降低了人工智能大数据分析的复杂度、提高了人工智能大数据分析的准确性、保证了人工智能大数据分析的可靠性。
本实施例中,还包括步骤:S6.对符合数据标准的统计后的数据进行JSON化处理,得到JSON化的对照数据。其中,所述JSON化的对照数据,一方面,用于数据备份;另一方面,可以作为所述JSON化的数据的对照数据,也方便对所述JSON化的数据进行校对或排查。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种多样式类型数据的JSON化处理方法,其特征在于:包括如下步骤:
S1.对多样式类型数据进行提取,得到提取后的多样式类型数据;
S2.对提取后的多样式类型数据进行统计处理,得到统计后的数据;
S3.判断统计后的数据是否符合数据标准,若是,则进入步骤S4,若否,则结束;
S4.对统计后的数据进行二进制化处理,得到二进制化的数据;
S5.对二进制化的数据进行JSON化处理,得到JSON化的数据。
2.根据权利要求1所述的多样式类型数据的JSON化处理方法,其特征在于:所述步骤S1,具体包括:
S11.对多样式类型数据进行分类,得到非数字字段数据以及数字字段数据;
S12.提取包含目标关键词的非数字字段数据,并将包含目标关键词的非数字字段数据作为有效的非数字字段数据;
S13.提取在目标数值区间内的数字字段数据,并将数值在目标数值区间内的数字字段数据作为有效的数字字段数据;
S14.将有效的非数字字段数据以及有效的数字字段数据作为提取后的多样式类型数据。
3.根据权利要求1所述的多样式类型数据的JSON化处理方法,其特征在于:所述步骤S2中,对提取后的多样式类型数据进行统计处理,具体包括:统计所述提取后的多样式类型数据的缺失率、重复率以及失真率。
4.根据权利要求1所述的多样式类型数据的JSON化处理方法,其特征在于:所述步骤S3中,判断统计后的数据是否符合数据标准,具体包括:判断统计后的数据的缺失率是否小于设定的缺失率、判断统计后的数据的重复率是否小于设定的重复率以及判断统计后的数据的失真率是否小于设定的失真率,若是,则符合数据标准,若否,则不符合数据标准。
5.根据权利要求1所述的多样式类型数据的JSON化处理方法,其特征在于:所述步骤S4中,具体包括:
S41.对统计后的数据中的非数字字段数据进行UTF-8编码处理,得到十进制的数字字段数据;
S42.将所述十进制的数字字段数据与统计后的数据中的数字字段数据进行二进制化处理,得到二进制化的数据。
6.根据权利要求1所述的多样式类型数据的JSON化处理方法,其特征在于:还包括步骤:S6.对符合数据标准的统计后的数据进行JSON化处理,得到JSON化的对照数据。
CN202110605693.7A 2021-05-31 2021-05-31 多样式类型数据的json化处理方法 Active CN113297296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110605693.7A CN113297296B (zh) 2021-05-31 2021-05-31 多样式类型数据的json化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110605693.7A CN113297296B (zh) 2021-05-31 2021-05-31 多样式类型数据的json化处理方法

Publications (2)

Publication Number Publication Date
CN113297296A true CN113297296A (zh) 2021-08-24
CN113297296B CN113297296B (zh) 2022-08-16

Family

ID=77326443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110605693.7A Active CN113297296B (zh) 2021-05-31 2021-05-31 多样式类型数据的json化处理方法

Country Status (1)

Country Link
CN (1) CN113297296B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105122243A (zh) * 2013-03-15 2015-12-02 亚马逊科技公司 用于半结构化数据的可扩展分析平台
US20170141791A1 (en) * 2015-11-16 2017-05-18 International Business Machines Corporation Compression of javascript object notation data using structure information
CN107092656A (zh) * 2017-03-23 2017-08-25 中国科学院计算技术研究所 一种树状结构数据处理方法及系统
CN107579944A (zh) * 2016-07-05 2018-01-12 南京联成科技发展股份有限公司 基于人工智能和MapReduce安全攻击预测方法
CN108052320A (zh) * 2017-12-11 2018-05-18 上证所信息网络有限公司 一种将二进制结构体转换为json对象的方法
US20180246984A1 (en) * 2017-02-28 2018-08-30 Fujitsu Limited Json data validation
CN109542984A (zh) * 2018-11-02 2019-03-29 浙江大学 一种面向建筑结构试验的异构数据融合方法
CN109902274A (zh) * 2019-02-22 2019-06-18 今天东翼科技有限公司 一种将json字符串转化为thrift二进制流的方法及系统
CN109902070A (zh) * 2019-01-22 2019-06-18 华中师范大学 一种面向WiFi日志数据的解析存储搜索方法
CN110147536A (zh) * 2019-05-24 2019-08-20 深圳市多翼创新科技有限公司 一种基于文件映射的数据处理方法、装置及设备
US20190266170A1 (en) * 2018-02-28 2019-08-29 Chaossearch, Inc. Data normalization using data edge platform
CN110659282A (zh) * 2019-08-14 2020-01-07 中国平安财产保险股份有限公司 数据路由的构建方法、装置、计算机设备和存储介质
CN111046630A (zh) * 2019-12-06 2020-04-21 中国科学院计算技术研究所 一种json数据的语法树提取方法
CN111475558A (zh) * 2020-04-07 2020-07-31 中汇信息技术(上海)有限公司 一种数据转换方法、装置、存储介质和电子设备
CN111800540A (zh) * 2020-06-09 2020-10-20 重庆师范大学附属初级中学校 语音盲文可触摸互译助手
CN112287642A (zh) * 2020-12-30 2021-01-29 华南理工大学 树形结构自增数据节点id及其路径链二进制编码方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105122243A (zh) * 2013-03-15 2015-12-02 亚马逊科技公司 用于半结构化数据的可扩展分析平台
US20170141791A1 (en) * 2015-11-16 2017-05-18 International Business Machines Corporation Compression of javascript object notation data using structure information
US20180375529A1 (en) * 2015-11-16 2018-12-27 International Business Machines Corporation Compression of javascript object notation data using structure information
CN107579944A (zh) * 2016-07-05 2018-01-12 南京联成科技发展股份有限公司 基于人工智能和MapReduce安全攻击预测方法
US20180246984A1 (en) * 2017-02-28 2018-08-30 Fujitsu Limited Json data validation
CN107092656A (zh) * 2017-03-23 2017-08-25 中国科学院计算技术研究所 一种树状结构数据处理方法及系统
CN108052320A (zh) * 2017-12-11 2018-05-18 上证所信息网络有限公司 一种将二进制结构体转换为json对象的方法
US20190266170A1 (en) * 2018-02-28 2019-08-29 Chaossearch, Inc. Data normalization using data edge platform
CN109542984A (zh) * 2018-11-02 2019-03-29 浙江大学 一种面向建筑结构试验的异构数据融合方法
CN109902070A (zh) * 2019-01-22 2019-06-18 华中师范大学 一种面向WiFi日志数据的解析存储搜索方法
CN109902274A (zh) * 2019-02-22 2019-06-18 今天东翼科技有限公司 一种将json字符串转化为thrift二进制流的方法及系统
CN110147536A (zh) * 2019-05-24 2019-08-20 深圳市多翼创新科技有限公司 一种基于文件映射的数据处理方法、装置及设备
CN110659282A (zh) * 2019-08-14 2020-01-07 中国平安财产保险股份有限公司 数据路由的构建方法、装置、计算机设备和存储介质
CN111046630A (zh) * 2019-12-06 2020-04-21 中国科学院计算技术研究所 一种json数据的语法树提取方法
CN111475558A (zh) * 2020-04-07 2020-07-31 中汇信息技术(上海)有限公司 一种数据转换方法、装置、存储介质和电子设备
CN111800540A (zh) * 2020-06-09 2020-10-20 重庆师范大学附属初级中学校 语音盲文可触摸互译助手
CN112287642A (zh) * 2020-12-30 2021-01-29 华南理工大学 树形结构自增数据节点id及其路径链二进制编码方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹文彬 等: "基于事件驱动的高性能WebSocket服务器的设计与实现", 《计算机应用与软件》 *

Also Published As

Publication number Publication date
CN113297296B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN111798312A (zh) 一种基于孤立森林算法的金融交易系统异常识别方法
CN112560468B (zh) 气象预警文本处理方法、相关装置及计算机程序产品
US20160239467A1 (en) Method and system for selecting encoding format for reading target document
CN101794378B (zh) 基于图片编码的垃圾图片过滤方法
CN112835894A (zh) 一种基于地址编码和相似计算的地址匹配方法
CN113297296B (zh) 多样式类型数据的json化处理方法
CN111104159A (zh) 一种基于程序分析和神经网络的注释定位方法
CN117081602B (zh) 基于区块链的资金结算数据优化处理方法
CN114970502A (zh) 一种应用于数字政府的文本纠错方法
CN105608137A (zh) 一种提取身份标识的方法和装置
CN111813834A (zh) 一种数据挖掘系统以及数据挖掘方法
CN114996707B (zh) 图片木马的静态检测方法、装置、电子设备及存储介质
CN108595593B (zh) 基于主题模型的会议研究热点与发展趋势信息分析方法
CN106294292B (zh) 章节目录筛选方法及装置
CN112185572B (zh) 一种肿瘤专病数据库构建系统、方法、电子设备和介质
CN112417886A (zh) 意图实体信息抽取方法、装置、计算机设备及存储介质
CN111401009A (zh) 一种数字表情符识别转换方法、装置、服务器及存储介质
CN111125345A (zh) 数据应用方法和装置
CN110674859A (zh) 基于汉字笔画的汉语短文本相似度检测方法及系统
CN116821319B (zh) 一种基于aigc的快筛式处理系统
CN114047927B (zh) 一种数据库代码转换方法及系统
CN115859984B (zh) 医疗命名实体识别模型训练方法、装置、设备及介质
CN116244661A (zh) 基于空-天-地多源异构监测数据的边坡滑动面识别方法
CN116108226A (zh) 数据处理方法、装置、终端设备及计算机可读存储介质
CN115982419A (zh) 一种文档字符串内容识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant