CN117112499A - 一种数据目录分级的方法、介质及设备 - Google Patents

一种数据目录分级的方法、介质及设备 Download PDF

Info

Publication number
CN117112499A
CN117112499A CN202311390256.3A CN202311390256A CN117112499A CN 117112499 A CN117112499 A CN 117112499A CN 202311390256 A CN202311390256 A CN 202311390256A CN 117112499 A CN117112499 A CN 117112499A
Authority
CN
China
Prior art keywords
data
hierarchical directory
level
grade
hierarchical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311390256.3A
Other languages
English (en)
Other versions
CN117112499B (zh
Inventor
宋志刚
吴强
陈武
郑纪礼
赵文彬
张小丽
陈震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital China Research Institute Fujian
Digital Research Institute Fujian Information Industry Development Co ltd
Original Assignee
Digital China Research Institute Fujian
Digital Research Institute Fujian Information Industry Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital China Research Institute Fujian, Digital Research Institute Fujian Information Industry Development Co ltd filed Critical Digital China Research Institute Fujian
Priority to CN202311390256.3A priority Critical patent/CN117112499B/zh
Publication of CN117112499A publication Critical patent/CN117112499A/zh
Application granted granted Critical
Publication of CN117112499B publication Critical patent/CN117112499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据目录分级的方法、介质及设备,通过获取数据文件中的第一数据内容确定第一数据分享范围,对第一数据分享范围以及第一文件等级按照预设权重进行计算,得出第一分级权重值,通过第一分级权重值获得第一数据内容的第一初始分级目录等级,再通过将该第一初始分级目录等级与置于第一分级权重值的第二分级目录等级进行判断,确定第一分级目录等级,进一步修正第一初始分级目录等级的分级正确率。通过对数据的共享范围以及文件等级进行权重计算,从而得出数据对应的目录等级,用户可根据取用需求对不同等级的数据进行取用,不依赖于用户的身份等级划分,使得整个数据取用适配范围更广泛,也减少用户端的操作,提升用户体验感。

Description

一种数据目录分级的方法、介质及设备
技术领域
本发明涉及数据分级领域,具体涉及一种数据目录分级的方法、介质及设备。
背景技术
随着互联网的发展,各方各业产生的数据集中存储于云端,用户可以根据自身的需求在云端上抓取所需的数据进行分析、评估、建模以及测试等多种操作。然而,数据的类别包括敏感数据和非敏感数据,非敏感数据的共享范围根据数据发布方或数据类别的进一步划分而不同,因此,在不同的用户取用数据时,需要对数据进行分级。已有公开号为CN114567447A的《一种基于云端服务器的数据共享管理方法及装置》给出了针对数据等级进行针对性存储与共享的技术方案,但该技术方案通过对用户的身份认证确定数据下发权限,进而确定数据的共享范围,也即对用户进行分级,从而确认不同级别的用户对应的数据共享范围,这一技术方案存在如下问题:由于该技术方案针对的是涉密数据的取用,因此需要用户提供相关的身份认证数据,针对普通数据的取用,并未给出一个合理有效的方案实现数据的取用管理,使得整个数据取用的适配范围局限。
发明内容
鉴于上述问题,本发明提供了一种数据目录分级的方法、介质及设备,解决了现有的数据取用管理不明确,不便用户使用的问题。
为实现上述目的,在第一方面,本发明提供了一种数据目录分级的方法,包括:
获取数据文件,数据文件包括第一数据内容以及第一数据原始发布平台信息,根据第一数据内容生成第一数据分享范围;
根据第一数据原始发布平台信息生成数据文件的第一文件等级;
对第一数据分享范围以及第一文件等级按照预设权重进行计算,生成第一数据内容对应的第一分级权重值,将第一分级权重值按照预设范围进行划分,生成当前第一数据内容对应的第一初始分级目录等级,将第一分级权重值及第一数据内容映射存储在数据库中;
筛选数据库中与第一分级权重值相同的第二分级权重值对应的第二数据内容,获取第二数据内容对应的第二分级目录等级,判断第一初始分级目录等级与第二分级目录等级是否相同,若是,则将第一初始分级目录等级作为当前第一数据内容的第一分级目录等级,若否,则将第二分级目录等级作为当前第一数据内容的第一分级目录等级,并将第一分级目录等级对应更新至数据库的分级目录中。
在一些实施例中,每一数据内容对应一数据类别;筛选数据库中与第一分级权重值相同的第二分级权重值对应的第二数据内容,获取第二数据内容对应的第二分级目录等级,包括:
获取第一数据内容对应的第一数据类别,以及获取第二数据内容对应的第二数据类别,并将第一数据类别与第二数据类别进行匹配,筛选出与第一数据类别相同的第二数据类别及其对应的第二数据内容,并将第二数据内容对应的第二分级目录等级存储在初始分级目录等级集合中,判断第一初始分级目录等级与该初始分级目录等级集合中的第二分级目录等级是否相同。
在一些实施例中,判断第一初始分级目录等级与第二分级目录等级是否相同包括:
判断初始分级目录等级集合中的第二分级目录等级是否置于同一目录等级,若否,则根据不同的目录等级对初始分级目录等级集合中的第二分级目录等级进行分类,输出不同目录等级的第二分级目录等级在初始分级目录等级集合中的比重值,获取比重值最高的目录等级对应的第二分级目录等级并将其存储至最终分级目录等级集合中;
判断第一初始分级目录等级与最终分级目录等级集合中的第二分级目录等级是否相同。
在一些实施例中,方法还包括:
接收用户输入指令,用户输入指令包括当前第一数据内容对应的第三分级目录等级,将第三分级目录等级作为第一数据内容对应的第一分级目录等级,并将第一分级目录等级对应更新至数据库的分级目录中。
在一些实施例中,根据第一数据内容生成第一数据分享范围包括:
对第一数据内容进行数据清洗,生成第一数据文本;
将第一数据文本与预设标签集合进行匹配,生成第一数据文本对应的标签集合,预设标签集合中包括至少一个预设标签,每一预设标签对应一个数据分享范围;
匹配标签集合对应的最终数据分享范围,并将最终数据分享范围记为第一数据分享范围。
在一些实施例中,匹配标签集合对应的最终数据分享范围包括:
判断标签集合中的标签对应的数据分享范围是否相同,若否,则获取标签数量最多的数据分享范围,并将其作为标签集合对应的最终数据分享范围。
在一些实施例中,数据分享范围包括公开、局部公开以及不公开中的其中一种。
在一些实施例中,根据第一数据原始发布平台信息生成数据文件的第一文件等级包括:
获取第一数据原始发布平台信息中的行政级别信息,匹配行政级别信息在行政等级序列中的行政等级,行政等级序列包括多个行政等级,行政等级按照行政区划从大到小顺序排列;
根据行政等级在行政等级序列中的顺序生成第一文件等级。
在第二方面,本发明还提供一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现在第一方面所述的方法。
在第三方面,本发明还提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现在第一方面所述的方法。
区别于现有技术,上述技术方案中,将云端存储的数据收集至数据库中,并对数据进行分级,生成数据目录,便于用户取用;具体的,通过获取数据文件中的第一数据内容确定第一数据分享范围,以及通过第一数据原始发布平台信息生成数据文件对应的第一文件等级,对第一数据分享范围以及第一文件等级按照预设权重进行计算,从而得出第一分级权重值,通过第一分级权重值获得第一数据内容的第一初始分级目录等级,再通过将该第一初始分级目录等级与置于同一第一分级权重值的第二分级目录等级进行判断,根据判断结果确定第一分级目录等级,进一步修正第一初始分级目录等级的分级正确率,从而实现数据的精确分级。本技术方案通过对数据的共享范围以及文件等级进行权重计算,从而得出数据对应的目录等级,用户可根据取用需求对不同等级的数据进行取用,并不强制用户提供身份认证材料,也不依赖于用户的身份等级划分,使得整个数据取用适配范围更广泛,也减少用户端的操作,提升用户体验感。
上述发明内容相关记载仅是本发明技术方案的概述,为了让本领域普通技术人员能够更清楚地了解本发明的技术方案,进而可以依据说明书的文字及附图记载的内容予以实施,并且为了让本发明的上述目的及其它目的、特征和优点能够更易于理解,以下结合本发明的具体实施方式及附图进行说明。
附图说明
附图仅用于示出本发明具体实施方式以及其他相关内容的原理、实现方式、应用、特点以及效果等,并不能认为是对本发明的限制。
在说明书附图中:
图1为本发明一具体实施方式所述数据目录分级方法第一步骤图;
图2为本发明一具体实施方式所述数据目录分级方法第二步骤图;
图3为本发明一具体实施方式所述数据目录分级方法第三步骤图;
图4为本发明一具体实施方式所述数据目录分级方法第四步骤图;
图5为本发明一具体实施方式所述数据目录分级方法的电子设备示意图。
上述各附图中涉及的附图标记说明如下:
1、电子设备;
11、存储器;
12、处理器。
具体实施方式
为详细说明本发明可能的应用场景,技术原理,可实施的具体方案,能实现目的与效果等,以下结合所列举的具体实施例并配合附图详予说明。本文所记载的实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中各个位置出现的“实施例”一词并不一定指代相同的实施例,亦不特别限定其与其它实施例之间的独立性或关联性。原则上,在本发明中,只要不存在技术矛盾或冲突,各实施例中所提到的各项技术特征均可以以任意方式进行组合,以形成相应的可实施的技术方案。
除非另有定义,本文所使用的技术术语的含义与本发明所属技术领域的技术人员通常理解的含义相同;本文中对相关术语的使用只是为了描述具体的实施例,而不是旨在限制本发明。
在本发明的描述中,用语“和/或”是一种用于描述对象之间逻辑关系的表述,表示可以存在三种关系,例如A和/或B,表示:存在A,存在B,以及同时存在A和B这三种情况。另外,本文中字符“/”一般表示前后关联对象是一种“或”的逻辑关系。
在本发明中,诸如“第一”和“第二”之类的用语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何实际的数量、主次或顺序等关系。
在没有更多限制的情况下,在本发明中,语句中所使用的“包括”、“包含”、“具有”或者其他类似的开放式表述,意在涵盖非排他性的包含,这些表述并不排除在包括所述要素的过程、方法或者产品中还可以存在另外的要素,从而使得包括一系列要素的过程、方法或者产品中不仅可以包括那些限定的要素,而且还可以包括没有明确列出的其他要素,或者还包括为这种过程、方法或者产品所固有的要素。
与《审查指南》中的理解相同,在本发明中,“大于”、“小于”、“超过”等表述理解为不包括本数;“以上”、“以下”、“以内”等表述理解为包括本数。此外,在本发明实施例的描述中“多个”的含义是两个以上(包括两个),与之类似的与“多”相关的表述亦做此类理解,例如“多组”、“多次”等,除非另有明确具体的限定。
在本发明实施例的描述中,所使用的与空间相关的表述,诸如“中心”“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”“右”“竖直”“水平”“垂直”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”“周向”等,所指示的方位或位置关系是基于具体实施例或附图所示的方位或位置关系,仅是为了便于描述本发明的具体实施例或便于读者理解,而不是指示或暗示所指的装置或部件必须具有特定的位置、特定的方位、或以特定的方位构造或操作,因此不能理解为对本发明实施例的限制。
除非另有明确的规定或限定,在本发明实施例的描述中,所使用的“安装”“相连”“连接”“固定”“设置”等用语应做广义理解。例如,所述“连接”可以是固定连接,也可以是可拆卸连接,或成一体设置;其可以是机械连接,也可以是电连接,也可以是通信连接;其可以是直接相连,也可以通过中间媒介间接相连;其可以是两个元件内部的连通或两个元件的相互作用关系。对于本发明所属技术领域的技术人员而言,可以根据具体情况理解上述用语在本发明实施例中的具体含义。
请参阅图1,在第一方面,本发明提供了一种数据目录分级的方法,包括:
S11、获取数据文件,数据文件包括第一数据内容以及第一数据原始发布平台信息,根据第一数据内容生成第一数据分享范围;
S12、根据第一数据原始发布平台信息生成数据文件的第一文件等级;
S13、对第一数据分享范围以及第一文件等级按照预设权重进行计算,生成第一数据内容对应的第一分级权重值,将第一分级权重值按照预设范围进行划分,生成当前第一数据内容对应的第一初始分级目录等级,将第一分级权重值及第一数据内容映射存储在数据库中;
S14、筛选数据库中与第一分级权重值相同的第二分级权重值对应的第二数据内容,获取第二数据内容对应的第二分级目录等级,判断第一初始分级目录等级与第二分级目录等级是否相同,若是,则将第一初始分级目录等级作为当前第一数据内容的第一分级目录等级,若否,则将第二分级目录等级作为当前第一数据内容的第一分级目录等级,并将第一分级目录等级对应更新至数据库的分级目录中。
需要说明的是,本实施例所示目录等级是指用户在取用数据时对应的目录等级,目录等级的不同代表当前数据的取用范围不同,同一取用范围的数据置于同一目录等级中。当取用范围受限时,才需要用户提供进一步身份认证材料,能够适用于现有多类别数据的层次化管理。
本实施例中,数据文件为待分级的数据,需要说明的是,数据文件可以是在网络平台上自动抓取的数据信息。第一数据内容为记录有具体数据的文本信息,第一数据原始发布平台信息是指首次将该第一数据内容发布至网络平台上的网站信息,特别是一些政务相关文件,该第一数据原始发布平台信息也即对应的政府网站。第一数据分享范围为当前第一数据内容对应的共享范围,不同的数据内容对应的共享范围不同。需要说明的是,第一数据分享范围具有分享值,第一数据分享范围越大,则该分享值越大,具体的对应关系可以根据实际情况进行选用,则在权重计算后对应的第一分级权重值越高,其所对应的公开范围越大,具体的计算过程与判断过程见后文表述。
根据第一数据原始发布平台信息生成数据文件的第一文件等级,此处应这样理解:不同的网站的置信度不同,对于置信度低的网站,其所对应的文件等级相对较低。优选的,对于同一置信度区间的网站,进一步判断该网站是否为政府相关网站,若是,则根据政府相关网站对应的行政区划进行划分,进一步获得不同的行政区划对应的文件等级,具体的判断步骤参见后文表述;若该网站不为政府相关网站,则直接取用同一置信度区间对应的文件等级作为第一文件等级,需要说明的是,第一文件等级具有等级值。本实施例中,越低的第一文件等级对应的等级值越大,则在相同权重值的计算下,文件等级越低的等级值在权重计算后对应的第一分级权重值越高,其所对应的公开范围越大,具体的计算过程与判断过程见下文表述。
本实施例中,利用权重计算的方式对第一数据内容进行分级。具体的,预设权重包括第一预设权重以及第二预设权重,第一预设权重对应第一数据分享范围,第二预设权重对应第一文件等级,则关于第一分级权重值可通过公式(1)计算获得,所述公式(1)如下:;
式中,为第一分级权重值,/>为第一预设权重,/>为第二预设权重,/>为第一数据分享范围,/>为第一文件等级。
将第一分级权重值按照预设范围进行划分,生成当前第一数据内容对应的第一初始分级目录等级。优选的,预设范围包括第一预设范围、第二预设范围以及第三预设范围,不同的预设范围对应的分级权重值不同。取用范围包括涉密取用范围、内部取用范围、公开取范围用三个类别,涉密取用范围需要提供用户身份认证材料,在用户满足涉密取用身份时才可以使用该目录等级下的数据;内部取用范围针对不同的企业,其内部取用范围不同,需要提供用户相关的企业或职位认证材料,在用户满足内部取用身份时才可以使用该目录等级下的数据;公开取用范围是指已经在网络上完全公开的数据,用户可以从多个平台中获得,并不局限于本实施例所示的数据库,因此,公开取用范围中的数据无需提供用户身份认证材料,即可直接取用。
按照权重值越小则取用范围越小这一划分原则,预设范围按照权重值从小到大排列:第一预设范围<第二预设范围<第三预设范围。也即,当第一分级权重值置于第一预设范围时,对应的第一数据内容属于涉密取用范围,当第一分级权重值置于第二预设范围时,对应的第一数据内容属于内部取用范围,当第一分级权重值置于第三预设范围时,对应的第一数据内容属于公开取用范围。
第一初始分级目录等级为根据第一分级权重值直接划分得到,但在实际使用过程中,由于数据的多样性,存在第一初始分级目录等级与第一数据内容不匹配的问题,因此,本实施例还新增对第一初始分级目录进行修正的步骤。
具体的,筛选数据库中与第一分级权重值相同的第二分级权重值,以及与第二分级权重值相关联的第二数据内容,获取第二数据内容对应的第二分级目录等级。需要说明的是,本实施例所示第二数据内容为原先存储在数据库中的数据内容,且第二数据内容属于已经更新至数据库中的数据内容,其对应的目录等级分级过程已经结束,因此,第二数据内容对应的第二分级目录等级为正确的第二分级目录等级。此处还应注意,第二分级目录等级对应的是同一分级权重值下的全部数据的全部目录等级,也即第二数据内容对应有多类别数据,并且第二分级目录等级具有多目录等级,此处第二分级目录等级仅是为了便于与第一分级目录等级区分,后文还会对第二分级目录等级进行进一步细分。
以第二分级目录等级为参考基准,对第一初始分级目录等级进行判断与修正,具体的,判断第一初始分级目录等级与第二分级目录等级是否相同,若是,则将第一初始分级目录等级作为当前第一数据内容的第一分级目录等级,若否,则将第二分级目录等级作为当前第一数据内容的第一分级目录等级,并将第一分级目录等级对应更新至数据库的分级目录中。
本实施例通过对数据的共享范围以及文件等级进行权重计算,从而得出数据对应的目录等级,实现对数据的等级划分,并且,用户可根据取用需求对不同等级的数据进行取用,并不强制用户提供身份认证材料,也不依赖于用户的身份等级划分,使得整个数据取用适配范围更广泛,也减少用户端的操作,提升用户体验感。
请参阅图2,在一些实施例中,每一数据内容对应一数据类别;筛选数据库中与第一分级权重值相同的第二分级权重值对应的第二数据内容,获取第二数据内容对应的第二分级目录等级,包括:
S21、获取第一数据内容对应的第一数据类别,以及获取第二数据内容对应的第二数据类别,并将第一数据类别与第二数据类别进行匹配,筛选出与第一数据类别相同的第二数据类别及其对应的第二数据内容,并将第二数据内容对应的第二分级目录等级存储在初始分级目录等级集合中,判断第一初始分级目录等级与该初始分级目录等级集合中的第二分级目录等级是否相同。
本实施例中,数据类别是指具体的数据所属的业务类别,根据实际使用情况的不同而不同,例如,针对金融数据,数据类别包括企业金融数据、政府金融数据、个人账户金融数据等;针对单个企业的数据,数据类别可以包括每个企业所属的行业类别,进一步细分每个企业的营业数据、成本数据、盈利数据等等。
本实施例中,获取第一数据内容对应的第一数据类别,以及获取第二数据内容对应的第二数据类别,当第一数据类别与第二数据类别相同时,将该第二数据内容对应的第二分级目录等级存储在初始分级目录等级集合中,判断第一初始分级目录等级与该初始分级目录等级集合中的第二分级目录等级是否相同。
本实施例能够对第二数据内容进行进一步筛分,使得第二数据内容与第一数据内容数据同一数据类别,进一步提升第二分级目录等级的可参考性,对第一初始分级目录等级进行进一步修正。
请参阅图2,在一些实施例中,判断第一初始分级目录等级与第二分级目录等级是否相同包括:
S22、判断初始分级目录等级集合中的第二分级目录等级是否置于同一目录等级,若否,则根据不同的目录等级对初始分级目录等级集合中的第二分级目录等级进行分类,输出不同目录等级的第二分级目录等级在初始分级目录等级集合中的比重值,获取比重值最高的目录等级对应的第二分级目录等级并将其存储至最终分级目录等级集合中;
S23、判断第一初始分级目录等级与最终分级目录等级集合中的第二分级目录等级是否相同。
在本实施例中,对初始分级目录等级集合中的第二分级目录等级进行进一步细分与判断,具体的,判断第二分级目录等级是否置于同一目录等级,并对不同目录等级的第二分级目录等级进行分类,计算不同目录等级的第二分级目录等级在初始分级目录等级集合中的比重值,获取比重值最高的目录等级对应的第二分级目录等级并将其存储至最终分级目录等级集合中,也即获取初始分级目录等级集合中分布最为广泛的目录等级,将该目录等级下的第二分级目录等级存储至最终分级目录等级集合中,作为第一初始分级目录等级的参照。
本实施例通过对同一数据类别下的第二数据内容对应的第二分级目录等级按照目录等级进行进一步区分,提高第二分级目录等级的可参考性,提高第一分级目录等级的划分正确率。
在一些实施例中,方法还包括:
接收用户输入指令,用户输入指令包括当前第一数据内容对应的第三分级目录等级,将第三分级目录等级作为第一数据内容对应的第一分级目录等级,并将第一分级目录等级对应更新至数据库的分级目录中。
在本实施例中,用户输入指令为用户端输入的指令,具体的,用户输入指令包括当前第一数据内容对应的第三分级目录等级。需要说明的是,此处第三分级目录等级是用户根据第一数据内容作出的关于第一数据内容所属分级目录的最终结论,因此,第三分级目录等级的优先级高于第一初始分级目录等级,可直接作为第一分级目录等级,并将该第一分级目录等级对应更新至数据库的分级目录中。
本实施例给出了人工对数据直接进行分级的方案,进一步修正自动分级时所造成的误差,提升数据分级的正确率。
请参阅图3,在一些实施例中,根据第一数据内容生成第一数据分享范围包括:
S31、对第一数据内容进行数据清洗,生成第一数据文本;
S32、将第一数据文本与预设标签集合进行匹配,生成第一数据文本对应的标签集合,预设标签集合中包括至少一个预设标签,每一预设标签对应一个数据分享范围;
S33、匹配标签集合对应的最终数据分享范围,并将最终数据分享范围记为第一数据分享范围。
本实施例中,数据清洗是指对第一数据内容中的无意义字段、字符、水印、文字格式等进行清洗,获得第一数据文本,此处第一数据文本是纯文本格式,便于后续的段落识别。
具体的,可以通过关键词匹配操作对第一数据文本与预设标签集合进行匹配,生成第一数据文本对应的标签集合。需要说明的是,预设标签集合可以为人工预先输入,也可以为网络平台自动抓取组合的标签数据。
每一预设标签对应一个数据分享范围,不同的预设标签的数据分享范围可以相同,具体的,预设标签所指代的文本信息具有其对应的数据分享范围,例如,以刚发布的某一国家标准文件为例,则该第一数据文本所对应的标签集合包括多个预设标签,预设标签具体包括:国家级、标准发布、关于部件A的测量标准……等一个或多个,则国家级对应的数据分享范围为国家区域,标准发布对应的数据分享范围为对应的国家区域内的某一行业范围,关于部件A的测量标准对应的数据分享范围为与该部件A相关的行业或产品范围。
通过匹配标签集合对应的最终数据分享范围,是指匹配标签集合中的数据分享范围,最终输出一个最终数据分享范围,将该最终数据分享范围记为第一数据分享范围。
在一些实施例中,匹配标签集合对应的最终数据分享范围包括:
判断标签集合中的标签对应的数据分享范围是否相同,若否,则获取标签数量最多的数据分享范围,并将其作为标签集合对应的最终数据分享范围。
具体的,标签集合中的标签通过对第一数据文本与预设标签匹配获得,则标签集合中标签的内容与第一数据文本相关联,则,标签数量最多的数据分享范围也即当前第一数据文本最有可能对应的数据分享范围,本实施例将涵盖标签数量最多的数据分享范围作为标签集合对应的最终数据分享范围,能够提升对第一数据分享范围的划分正确率。
在一些实施例中,数据分享范围包括公开、局部公开以及不公开中的其中一种。
请参阅图4,在一些实施例中,根据第一数据原始发布平台信息生成数据文件的第一文件等级包括:
S41、获取第一数据原始发布平台信息中的行政级别信息,匹配行政级别信息在行政等级序列中的行政等级,行政等级序列包括多个行政等级,行政等级按照行政区划从大到小顺序排列;
S42、根据行政等级在行政等级序列中的顺序生成第一文件等级。
本实施例中,第一文件等级的划分与行政区划的等级划分相关联。具体的,获取数据原始发布平台信息中的行政级别信息,匹配行政级别信息在行政等级序列中的行政等级,具体的,行政等级包括国家级、部级、省级、市级、县级、区级、镇级、乡级以及村级,按照行政区划从大到小排列,则排至末尾的行政等级越小,其对应的第一文件等级越低。
在第二方面,本实施例还提供一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现在第一方面所述的方法。
请参阅图5,在第三方面,本实施例还提供一种电子设备1,包括存储器11和处理器12,所述存储器11用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器12执行以实现在第一方面所述的方法。
所述存储介质/存储器11包括但不限于:RAM、ROM、磁碟、磁带、光盘、闪存、U 盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。所述处理器12包括但不限于 CPU(中央处理器12)、GPU(图像处理器12)、MCU(微处理器12)等。
上述技术方案中,将云端存储的数据收集至数据库中,并对数据进行分级,生成数据目录,便于用户取用;具体的,通过获取数据文件中的第一数据内容确定第一数据分享范围,以及通过第一数据原始发布平台信息生成数据文件对应的第一文件等级,对第一数据分享范围以及第一文件等级按照预设权重进行计算,从而得出第一分级权重值,通过第一分级权重值获得第一数据内容的第一初始分级目录等级,再通过将该第一初始分级目录等级与置于同一第一分级权重值的第二分级目录等级进行判断,根据判断结果确定第一分级目录等级,进一步修正第一初始分级目录等级的分级正确率,从而实现数据的精确分级。本技术方案通过对数据的共享范围以及文件等级进行权重计算,从而得出数据对应的目录等级,用户可根据取用需求对不同等级的数据进行取用,并不强制用户提供身份认证材料,也不依赖于用户的身份等级划分,使得整个数据取用适配范围更广泛,也减少用户端的操作,提升用户体验感。
最后需要说明的是,尽管在本发明的说明书文字及附图中已经对上述各实施例进行了描述,但并不能因此限制本发明的专利保护范围。凡是基于本发明的实质理念,利用本发明说明书文字及附图记载的内容所作的等效结构或等效流程替换或修改产生的技术方案,以及直接或间接地将以上实施例的技术方案实施于其他相关的技术领域等,均包括在本发明的专利保护范围之内。

Claims (10)

1.一种数据目录分级的方法,其特征在于,包括:
获取数据文件,所述数据文件包括第一数据内容以及第一数据原始发布平台信息,根据所述第一数据内容生成第一数据分享范围;
根据所述第一数据原始发布平台信息生成所述数据文件的第一文件等级;
对所述第一数据分享范围以及所述第一文件等级按照预设权重进行计算,生成所述第一数据内容对应的第一分级权重值,将所述第一分级权重值按照预设范围进行划分,生成当前所述第一数据内容对应的第一初始分级目录等级,将所述第一分级权重值及所述第一数据内容映射存储在数据库中;
筛选所述数据库中与第一分级权重值相同的第二分级权重值对应的第二数据内容,获取所述第二数据内容对应的第二分级目录等级,判断所述第一初始分级目录等级与所述第二分级目录等级是否相同,若是,则将所述第一初始分级目录等级作为当前所述第一数据内容的第一分级目录等级,若否,则将所述第二分级目录等级作为当前所述第一数据内容的第一分级目录等级,并将所述第一分级目录等级对应更新至所述数据库的分级目录中。
2.根据权利要求1所述的数据目录分级的方法,其特征在于,每一数据内容对应一数据类别;筛选数据库中与第一分级权重值相同的第二分级权重值对应的第二数据内容,获取所述第二数据内容对应的第二分级目录等级,包括:
获取所述第一数据内容对应的第一数据类别,以及获取所述第二数据内容对应的第二数据类别,并将第一数据类别与所述第二数据类别进行匹配,筛选出与所述第一数据类别相同的第二数据类别及其对应的第二数据内容,并将所述第二数据内容对应的第二分级目录等级存储在初始分级目录等级集合中,判断所述第一初始分级目录等级与该初始分级目录等级集合中的所述第二分级目录等级是否相同。
3.根据权利要求2所述的数据目录分级的方法,其特征在于,判断所述第一初始分级目录等级与所述第二分级目录等级是否相同包括:
判断所述初始分级目录等级集合中的所述第二分级目录等级是否置于同一目录等级,若否,则根据不同的目录等级对所述初始分级目录等级集合中的所述第二分级目录等级进行分类,输出不同目录等级的第二分级目录等级在所述初始分级目录等级集合中的比重值,获取所述比重值最高的目录等级对应的第二分级目录等级并将其存储至最终分级目录等级集合中;
判断所述第一初始分级目录等级与所述最终分级目录等级集合中的第二分级目录等级是否相同。
4.根据权利要求1所述的数据目录分级的方法,其特征在于,所述方法还包括:
接收用户输入指令,所述用户输入指令包括当前所述第一数据内容对应的第三分级目录等级,将所述第三分级目录等级作为所述第一数据内容对应的第一分级目录等级,并将所述第一分级目录等级对应更新至所述数据库的分级目录中。
5.根据权利要求1所述的数据目录分级的方法,其特征在于,根据所述第一数据内容生成第一数据分享范围包括:
对所述第一数据内容进行数据清洗,生成第一数据文本;
将所述第一数据文本与预设标签集合进行匹配,生成所述第一数据文本对应的标签集合,所述预设标签集合中包括至少一个预设标签,每一预设标签对应一个数据分享范围;
匹配所述标签集合对应的最终数据分享范围,并将所述最终数据分享范围记为第一数据分享范围。
6.根据权利要求5所述的数据目录分级的方法,其特征在于,匹配所述标签集合对应的最终数据分享范围包括:
判断所述标签集合中的标签对应的数据分享范围是否相同,若否,则获取标签数量最多的所述数据分享范围,并将其作为所述标签集合对应的最终数据分享范围。
7.根据权利要求5所述的数据目录分级的方法,其特征在于,所述数据分享范围包括公开、局部公开以及不公开中的其中一种。
8.根据权利要求1所述的数据目录分级的方法,其特征在于,根据所述第一数据原始发布平台信息生成所述数据文件的第一文件等级包括:
获取所述第一数据原始发布平台信息中的行政级别信息,匹配所述行政级别信息在所述行政等级序列中的行政等级,所述行政等级序列包括多个行政等级,所述行政等级按照行政区划从大到小顺序排列;
根据所述行政等级在所述行政等级序列中的顺序生成所述第一文件等级。
9.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-8中任一项所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-8中任一项所述的方法。
CN202311390256.3A 2023-10-25 2023-10-25 一种数据目录分级的方法、介质及设备 Active CN117112499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311390256.3A CN117112499B (zh) 2023-10-25 2023-10-25 一种数据目录分级的方法、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311390256.3A CN117112499B (zh) 2023-10-25 2023-10-25 一种数据目录分级的方法、介质及设备

Publications (2)

Publication Number Publication Date
CN117112499A true CN117112499A (zh) 2023-11-24
CN117112499B CN117112499B (zh) 2024-01-02

Family

ID=88806035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311390256.3A Active CN117112499B (zh) 2023-10-25 2023-10-25 一种数据目录分级的方法、介质及设备

Country Status (1)

Country Link
CN (1) CN117112499B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527961A (zh) * 2020-12-18 2021-03-19 杭州叙简科技股份有限公司 一种应急预案应急响应等级、行政单位职责自动抽取方法
CN112668841A (zh) * 2020-12-15 2021-04-16 北京高诚科技发展有限公司 一种基于数据融合的综合交通监测系统及方法
CN112732811A (zh) * 2020-12-31 2021-04-30 广西中科曙光云计算有限公司 一种数据开放平台
CN114567447A (zh) * 2022-04-26 2022-05-31 佳瑛科技有限公司 一种基于云端服务器的数据共享管理方法及装置
CN114826696A (zh) * 2022-04-08 2022-07-29 中国电子科技集团公司第三十研究所 文件内容分级共享方法、装置、设备及介质
US20230018820A1 (en) * 2021-07-16 2023-01-19 EMC IP Holding Company LLC Data security classification for storage systems using security level descriptors
CN116680747A (zh) * 2023-08-03 2023-09-01 江西省国土资源测绘工程总院有限公司 一种国土空间基础信息管理方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668841A (zh) * 2020-12-15 2021-04-16 北京高诚科技发展有限公司 一种基于数据融合的综合交通监测系统及方法
CN112527961A (zh) * 2020-12-18 2021-03-19 杭州叙简科技股份有限公司 一种应急预案应急响应等级、行政单位职责自动抽取方法
CN112732811A (zh) * 2020-12-31 2021-04-30 广西中科曙光云计算有限公司 一种数据开放平台
US20230018820A1 (en) * 2021-07-16 2023-01-19 EMC IP Holding Company LLC Data security classification for storage systems using security level descriptors
CN114826696A (zh) * 2022-04-08 2022-07-29 中国电子科技集团公司第三十研究所 文件内容分级共享方法、装置、设备及介质
CN114567447A (zh) * 2022-04-26 2022-05-31 佳瑛科技有限公司 一种基于云端服务器的数据共享管理方法及装置
CN116680747A (zh) * 2023-08-03 2023-09-01 江西省国土资源测绘工程总院有限公司 一种国土空间基础信息管理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张国明 等: "江苏省健康医疗数据资源目录管理系统的设计", 《医疗卫生装备》, vol. 44, no. 5 *

Also Published As

Publication number Publication date
CN117112499B (zh) 2024-01-02

Similar Documents

Publication Publication Date Title
EP2811418B1 (en) Information processing system and information processing method
US9218568B2 (en) Disambiguating data using contextual and historical information
US9378205B1 (en) System and method for managing and sharing pharmaceutical clinical trial regulatory documents
US20100079464A1 (en) Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products
US20080070205A1 (en) Methods, systems, and computer program products for adjusting readability of reading material to a target readability level
US8589786B2 (en) Trademark report with store layout diagram
US9020988B2 (en) Database aggregation of purchase data
US9047368B1 (en) Self-organizing user-centric document vault
CN110991988A (zh) 基于岗位信息文档的目标简历文件筛选方法和装置
WO2006002179A2 (en) Evaluating the relevance of documents and systems and methods therefor
CN112990715A (zh) 政策信息的推送方法和装置
JP7290391B2 (ja) 情報処理装置及びプログラム
JP2005038402A (ja) 画像データの不正使用調査サービス提供システム、装置、方法、プログラム、及び記録媒体
WO2014084141A1 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
CN117112499B (zh) 一种数据目录分级的方法、介质及设备
CN109214362A (zh) 单据处理方法及相关设备
CN113724059A (zh) 联邦学习模型的训练方法、装置和电子设备
US20110270847A1 (en) Method and system for appraising the extent to which a publication has been reviewed by means of a peer-review process
JP6785693B2 (ja) 情報処理システム、情報処理方法、およびプログラム
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
CN112613775A (zh) 资源质量评价方法及装置、电子设备、存储介质
CN111858499A (zh) 基于黑白名单的档案鉴定方法、系统及装置
CN116150723B (zh) 一种行政审批流程权限的识别方法
US20040024783A1 (en) System and method for managing measurement apparatuses
CN114237460B (zh) 标签显示方法、装置、终端、存储介质及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant