CN117408652A - 一种档案数据分析管理方法及系统 - Google Patents

一种档案数据分析管理方法及系统 Download PDF

Info

Publication number
CN117408652A
CN117408652A CN202311728608.1A CN202311728608A CN117408652A CN 117408652 A CN117408652 A CN 117408652A CN 202311728608 A CN202311728608 A CN 202311728608A CN 117408652 A CN117408652 A CN 117408652A
Authority
CN
China
Prior art keywords
word
archive
frequency
keyword
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311728608.1A
Other languages
English (en)
Inventor
谭志勇
陈家祺
陈鹏
胡敏
章艳
姜珍云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Transportation Technology Co ltd
Original Assignee
Jiangxi Transportation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Transportation Technology Co ltd filed Critical Jiangxi Transportation Technology Co ltd
Priority to CN202311728608.1A priority Critical patent/CN117408652A/zh
Publication of CN117408652A publication Critical patent/CN117408652A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/137Hash-based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种档案数据分析管理方法及系统,具体涉及大数据技术领域,对获取到的档案进行处理,并将经所述处理后得到的档案数据存储在共享数据池中,通过统计每个词在档案中出现的频率,得到词频,通过在获取到的档案中统计包含词的档案数,得到逆文档频率,将词频和逆文档频率相乘得到的值作为每个词的权重,选择权重高的词作为关键词进行提取,将确定出的关键词对应的权重值,作为支持向量机的输入,分类标签作为监督学习的训练数据,训练出一个档案分类模型,选择具有最高权重值的关键词与共享数据池中的每个档案相关联,以监听用户的输入信号,根据用户的输入信号,判断用户是否需要查看某个档案。

Description

一种档案数据分析管理方法及系统
技术领域
本发明涉及大数据技术领域,更具体地说,本发明涉及一种档案数据分析管理方法及系统。
背景技术
随着信息技术的发展和应用,各行各业积累了大量的档案数据。档案数据作为组织和机构的重要资产,对于决策、管理和保护具有重要意义。然而,传统的档案管理方法往往存在信息碎片化、数据冗余、难以查询和利用等问题。因此,研究开发一种高效的档案数据分析管理方法及系统已成为迫切需求。
通过结合数据分析和管理技术,实现对档案数据的全面分析、智能化管理和有效利用,提高档案工作效率和服务质量。
发明内容
为了克服现有技术的上述缺陷,本发明的实施例提供一种档案数据分析管理方法及系统,通过结合数据分析和管理技术,实现对档案数据的全面分析、智能化管理和有效利用,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案,一种档案数据分析管理方法,具体包括以下步骤:
对获取到的档案进行处理,并将经所述处理后得到的档案数据存储在共享数据池中;
对档案数据进行关键词提取,通过统计每个词在档案中出现的频率,得到词频,通过在获取到的档案中统计包含词的档案数,得到逆文档频率,将词频和逆文档频率相乘得到的值作为每个词的权重,选择权重高的词作为关键词进行提取;
将确定出的关键词对应的权重值,作为支持向量机的输入,分类标签作为监督学习的训练数据,训练出一个档案分类模型;
选择具有最高权重值的关键词与共享数据池中的每个档案相关联,以监听用户的输入信号,根据用户的输入信号,判断用户是否需要查看某个档案,对于不同的用户,设定查看档案权限;
其中所述通过统计每个词在档案中出现的频率,得到词频的步骤,包括使用哈希表来记录每个词的频次,统计每个词在档案中出现的频率,创建一个空的哈希表,用于记录每个词的频次,遍历档案中的每个词,对于每个词,检查是否已经在哈希表中出现过,当已经在哈希表中出现过,将对应的频次加一,否则将该词添加到哈希表,并将频次初始化为1,遍历完成后,哈希表中存储了每个词的频次信息,词频计算公式如下:
;其中,/>表示词频,/>表示词t在档案d中出现的次数,d表示档案,N表示档案d中所有词的总数。
在一个优选地实施方式中,所述对获取到的档案进行处理,并将经所述处理后得到的档案数据存储在共享数据池中的步骤,包括通过光学字符识别技术将电子档案中的文字内容进行提取,得到档案,利用文本清洗技术对获取到的档案进行处理,并将处理后的档案数据存储在共享数据池中,具体步骤如下:
步骤A1、对于纸质档案:通过扫描仪将档案转换成电子文件,利用光学字符识别技术将电子文件中的文字内容提取出来;
步骤A2、对于电子档案:当电子档案存储在第三方平台上,通过与平台的接口进行数据集成;
步骤A3、清洗:去除档案文字内容中的特殊符号和标点符号,以及空格、制表符和换行符,并将字母统一转换成小写形式,针对存在的拼写错误,使用拼写检查工具对文字内容进行检查和修正,确保档案中的单词拼写正确。
在一个优选地实施方式中,所述对档案数据进行关键词提取,通过统计每个词在档案中出现的频率,得到词频,通过在获取到的档案中统计包含词的档案数,得到逆文档频率,将词频和逆文档频率相乘得到的值作为每个词的权重,选择权重高的词作为关键词进行提取的步骤,包括使用哈希表来记录每个词的频次,统计每个词在档案中出现的频率,在获取到的档案中统计包含词的档案数,计算出逆文档频率,将词频和逆文档频率相乘得到每个词的值,将每个词的/>值作为每个词的权重,对计算得到的/>进行排序,选择权重高的词作为关键词进行提取,具体步骤如下:
步骤B1、词频统计:使用哈希表来记录每个词的频次,统计每个词在档案中出现的频率,创建一个空的哈希表,用于记录每个词的频次,遍历档案中的每个词,对于每个词,检查是否已经在哈希表中出现过,当已经在哈希表中出现过,将对应的频次加一,否则将该词添加到哈希表,并将频次初始化为1,遍历完成后,哈希表中存储了每个词的频次信息,词频计算公式如下:
其中,表示词频,/>表示词t在档案d中出现的次数,d表示档案,N表示档案d中所有词的总数;
步骤B2、在获取到的档案中统计包含词的档案数,计算出逆文档频率,将词频和逆文档频率相乘得到每个词的值,将每个词的/>值作为每个词的权重,对计算得到的/>进行排序,选择权重高的词作为关键词,具体计算公式如下:
其中,表示词频,/>表示逆文档频率,/>表示词频和逆文档频率相乘得到的值,/>表示词t在档案d中出现的次数,t表示词,d表示档案,N表示档案d中所有词的总数,D表示所有档案的总数,/>表示包含词t的档案数。
在一个优选地实施方式中,所述将确定出的关键词对应的权重值,作为支持向量机的输入,分类标签作为监督学习的训练数据,训练出一个档案分类模型的步骤,包括:
步骤C1、档案分类模型:将得到的权重作为支持向量机的输入进行分类,对于训练集/>,其中/>表示第n个档案的/>权重,/>表示第n个档案的类别标签,使用支持向量机分类器的数学公式进行分类,在最大化分类间隔的同时,减小分类误差和间隔误差支持向量机将找到一个最佳的超平面,使得所有样本点到这个超平面的距离最大化,实现对样本的有效分类,具体计算公式如下:
其中,w是模型的权重向量,b是模型的偏置,表示第i个档案的/>权重,/>表示第i个档案的类别标签,/>是松弛变量,C是惩罚参数,/>表示最小化函数,/>表示约束条件。
在一个优选地实施方式中,所述选择具有最高权重值的关键词与共享数据池中的每个档案相关联,以监听用户的输入信号,根据用户的输入信号,判断用户是否需要查看某个档案,对于不同的用户,设定查看档案权限的步骤,包括,设定一个阈值,表示只有当关键词权重加权平均值高于该阈值,特定权限级别的用户才能够查看档案,具体步骤如下:
步骤D1、关联关键词权重:将每个档案与一组关键词相关联,对于n个关键词,每个关键词的值分别用/>进行表示,对应的出现次数用/>表示,每个用户有一个权限级别L,表示其在组织结构中的级别,通过计算得到加权平均值,代表关键词权重的整体平均水平,具体计算公式如下:
其中,表示关键词权重加权平均值,/>代表第i个关键词的权重,/>代表第i个关键词的出现次数,n代表关键词的总数;
步骤D2、设定阈值:通过对一组关键词权重的样本数据,计算均值和标准差,根据正态分布曲线来设定一个阈值W,表示只有当关键词权重加权平均值高于该阈值,特定权限级别的用户才能够查看档案,具体包括以下步骤:
步骤S1、根据一组关键词权重的样本数据,计算均值和标准差,具体计算公式如下:
其中,表示平均关键词权重,/>表示关键词权重标准差,/>表示每个关键词的权重,n表示关键词的总数;
步骤S2、关键词权重阈值公式如下:
其中,表示平均关键词权重,/>表示关键词权重标准差,/>表示关键词权重上限阈值,/>表示关键词权重下限阈值;
步骤S3、确定是否允许用户查看某个档案,使用以下逻辑判断:
其中,L表示每个用户有一个权限级别,表示每个关键词的权重,函数满足以下条件:
当L表示的权限级别为领导级别,关键词权重加权平均值大于阈值W,允许查看;
当L不是领导级别,无论关键词权重如何,均不允许查看。
本申请还提供了一种档案数据分析管理系统,包括:
档案获取模块:对获取到的档案进行处理,并将经所述处理后得到的档案数据存储在共享数据池中;
关键词提取模块:对档案数据进行关键词提取,通过统计每个词在档案中出现的频率,得到词频,通过在获取到的档案中统计包含词的档案数,得到逆文档频率,将词频和逆文档频率相乘得到的值作为每个词的权重,选择权重高的词作为关键词进行提取;
分类处理模块:将确定出的关键词对应的权重值,作为支持向量机的输入,分类标签作为监督学习的训练数据,训练出一个档案分类模型;
查看档案权限模块:选择具有最高权重值的关键词与共享数据池中的每个档案相关联,以监听用户的输入信号,根据用户的输入信号,判断用户是否需要查看某个档案,对于不同的用户,设定查看档案权限;
其中所述通过统计每个词在档案中出现的频率,得到词频的步骤,包括使用哈希表来记录每个词的频次,统计每个词在档案中出现的频率,创建一个空的哈希表,用于记录每个词的频次,遍历档案中的每个词,对于每个词,检查是否已经在哈希表中出现过,当已经在哈希表中出现过,将对应的频次加一,否则将该词添加到哈希表,并将频次初始化为1,遍历完成后,哈希表中存储了每个词的频次信息,词频计算公式如下:
;其中,/>表示词频,/>表示词t在档案d中出现的次数,d表示档案,N表示档案d中所有词的总数。
本发明的有益效果是:对获取到的档案进行处理,并将经所述处理后得到的档案数据存储在共享数据池中,通过统计每个词在档案中出现的频率,得到词频,通过在获取到的档案中统计包含词的档案数,得到逆文档频率,将词频和逆文档频率相乘得到的值作为每个词的权重,选择权重高的词作为关键词进行提取,将确定出的关键词对应的权重值,作为支持向量机的输入,分类标签作为监督学习的训练数据,训练出一个档案分类模型,选择具有最高权重值的关键词与共享数据池中的每个档案相关联,以监听用户的输入信号,根据用户的输入信号,判断用户是否需要查看某个档案,对于不同的用户,设定查看档案权限,防止未经授权的访问,确保数据的安全性和完整性。
附图说明
图1为本发明的方法流程图;
图2为本发明的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请的描述中,术语“例如”一词用来表示“用作例子、例证或说明”。本申请中被描述为“例如”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本发明。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本发明的描述变得晦涩。因此,本发明并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。
本实施例提供了如图1和图2所示一种档案数据分析方法和管理系统,具体包括档案获取模块、关键词提取模块、分类处理模块,以及查看档案权限模块;
档案获取模块:对获取到的档案进行处理,并将经所述处理后得到的档案数据存储在共享数据池中;
关键词提取模块:对档案数据进行关键词提取,通过统计每个词在档案中出现的频率,得到词频,通过在获取到的档案中统计包含词的档案数,得到逆文档频率,将词频和逆文档频率相乘得到的值作为每个词的权重,选择权重高的词作为关键词进行提取;
分类处理模块:将确定出的关键词对应的权重值,作为支持向量机的输入,分类标签作为监督学习的训练数据,训练出一个档案分类模型;
查看档案权限模块:选择具有最高权重值的关键词与共享数据池中的每个档案相关联,以监听用户的输入信号,根据用户的输入信号,判断用户是否需要查看某个档案,对于不同的用户,设定查看档案权限;
其中所述通过统计每个词在档案中出现的频率,得到词频的步骤,包括使用哈希表来记录每个词的频次,统计每个词在档案中出现的频率,创建一个空的哈希表,用于记录每个词的频次,遍历档案中的每个词,对于每个词,检查是否已经在哈希表中出现过,当已经在哈希表中出现过,将对应的频次加一,否则将该词添加到哈希表,并将频次初始化为1,遍历完成后,哈希表中存储了每个词的频次信息,词频计算公式如下:
;其中,/>表示词频,/>表示词t在档案d中出现的次数,d表示档案,N表示档案d中所有词的总数。
本实施例中,具体需要说明的是档案获取模块,所述档案获取模块,通过光学字符识别技术将电子档案中的文字内容进行提取,得到档案,利用文本清洗技术对获取到的档案进行处理,并将处理后的档案数据存储在共享数据池中,具体步骤如下:
步骤A1、对于纸质档案:通过扫描仪将档案转换成电子文件,利用光学字符识别技术将电子文件中的文字内容提取出来;
步骤A2、对于电子档案:当电子档案存储在第三方平台上,通过与平台的接口进行数据集成;
步骤A3、清洗:去除档案文字内容中的特殊符号和标点符号,以及空格、制表符和换行符,并将字母统一转换成小写形式,针对存在的拼写错误,使用拼写检查工具对文字内容进行检查和修正,确保档案中的单词拼写正确。
本实施例中,具体需要说明的是关键词提取模块,所述关键词提取模块,对档案数据进行关键词提取,使用哈希表来记录每个词的频次,统计每个词在档案中出现的频率,在获取到的档案中统计包含词的档案数,计算出逆文档频率,将词频和逆文档频率相乘得到每个词的值,将每个词的/>值作为每个词的权重,对计算得到的/>进行排序,选择权重高的词作为关键词进行提取,具体步骤如下:
步骤B1、词频统计:使用哈希表来记录每个词的频次,统计每个词在档案中出现的频率,创建一个空的哈希表,用于记录每个词的频次,遍历档案中的每个词,对于每个词,检查是否已经在哈希表中出现过,当已经在哈希表中出现过,将对应的频次加一,否则将该词添加到哈希表,并将频次初始化为1,遍历完成后,哈希表中存储了每个词的频次信息,词频计算公式如下:
其中,表示词频,/>表示词t在档案d中出现的次数,d表示档案,N表示档案d中所有词的总数;
步骤B2、在获取到的档案中统计包含词的档案数,计算出逆文档频率,将词频和逆文档频率相乘得到每个词的值,将每个词的/>值作为每个词的权重,对计算得到的/>进行排序,选择权重高的词作为关键词,具体计算公式如下:
;其中,/>表示词频,/>表示逆文档频率,/>表示词频和逆文档频率相乘得到的值,/>表示词t在档案d中出现的次数,t表示词,d表示档案,N表示档案d中所有词的总数,D表示所有档案的总数,/>表示包含词t的档案数。
本实施例中,具体需要说明的是分类处理模块,所述分类处理模块,将确定出的关键词对应的权重值,作为支持向量机的输入,分类标签作为监督学习的训练数据,训练出一个档案分类模型,具体步骤如下:
步骤C1、档案分类模型:将得到的权重作为支持向量机的输入进行分类,对于训练集/>,其中/>表示第n个档案的/>权重,/>表示第n个档案的类别标签,使用支持向量机分类器的数学公式进行分类,在最大化分类间隔的同时,减小分类误差和间隔误差支持向量机将找到一个最佳的超平面,使得所有样本点到这个超平面的距离最大化,实现对样本的有效分类,具体计算公式如下:
其中,w是模型的权重向量,b是模型的偏置,表示第i个档案的/>权重,/>表示第i个档案的类别标签,/>是松弛变量,C是惩罚参数,/>表示最小化函数,/>表示约束条件。
本实施例中,具体需要说明的是查看档案权限模块,所述查看档案权限模块,选择具有最高值的关键词作为权重最大的关键词与共享数据池中的每个档案相关联,设定一个阈值,表示只有当关键词权重加权平均值高于该阈值,特定权限级别的用户才能够查看档案,具体步骤如下:
步骤D1、关联关键词权重:将每个档案与一组关键词相关联,对于n个关键词,每个关键词的值分别用/>进行表示,对应的出现次数用/>表示,每个用户有一个权限级别L,表示其在组织结构中的级别,通过计算得到加权平均值,代表关键词权重的整体平均水平,具体计算公式如下:
其中,表示关键词权重加权平均值,/>代表第i个关键词的权重,/>代表第i个关键词的出现次数,n代表关键词的总数;
步骤D2、设定阈值:通过对一组关键词权重的样本数据,计算均值和标准差,根据正态分布曲线来设定一个阈值W,表示只有当关键词权重加权平均值高于该阈值,特定权限级别的用户才能够查看档案,具体包括以下步骤:
步骤S1、根据一组关键词权重的样本数据,计算均值和标准差,具体计算公式如下:
其中,表示平均关键词权重,/>表示关键词权重标准差,/>表示每个关键词的权重,n表示关键词的总数;
步骤S2、关键词权重阈值公式如下:
其中,表示平均关键词权重,/>表示关键词权重标准差,/>表示关键词权重上限阈值,/>表示关键词权重下限阈值;
步骤S3、确定是否允许用户查看某个档案,使用以下逻辑判断:
其中,L表示每个用户有一个权限级别,表示每个关键词的权重,函数满足以下条件:
当L表示的权限级别为领导级别,关键词权重加权平均值大于阈值W,允许查看;
当L不是领导级别,无论关键词权重如何,均不允许查看。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (8)

1.一种档案数据分析管理方法,其特征在于,具体包括以下步骤:
对获取到的档案进行处理,并将经所述处理后得到的档案数据存储在共享数据池中;
对档案数据进行关键词提取,通过统计每个词在档案中出现的频率,得到词频,通过在获取到的档案中统计包含词的档案数,得到逆文档频率,将词频和逆文档频率相乘得到的值作为每个词的权重,选择权重高的词作为关键词进行提取;
将确定出的关键词对应的权重值,作为支持向量机的输入,分类标签作为监督学习的训练数据,训练出一个档案分类模型;
选择具有最高权重值的关键词与共享数据池中的每个档案相关联,以监听用户的输入信号,根据用户的输入信号,判断用户是否需要查看某个档案,对于不同的用户,设定查看档案权限;
其中所述通过统计每个词在档案中出现的频率,得到词频的步骤,包括使用哈希表来记录每个词的频次,统计每个词在档案中出现的频率,创建一个空的哈希表,用于记录每个词的频次,遍历档案中的每个词,对于每个词,检查是否已经在哈希表中出现过,当已经在哈希表中出现过,将对应的频次加一,否则将该词添加到哈希表,并将频次初始化为1,遍历完成后,哈希表中存储了每个词的频次信息,词频计算公式如下:
;其中,/>表示词频,/>表示词t在档案d中出现的次数,d表示档案,N表示档案d中所有词的总数。
2.根据权利要求1所述的一种档案数据分析管理方法,其特征在于:所述对获取到的档案进行处理,并将经所述处理后得到的档案数据存储在共享数据池中,包括通过光学字符识别技术将电子档案中的文字内容进行提取,得到档案,利用文本清洗技术对获取到的档案进行处理,并存储在共享数据池中。
3.根据权利要求2所述的一种档案数据分析管理方法,其特征在于:所述对档案数据进行关键词提取的步骤,包括统计包含词的档案数,计算出逆文档频率,将词频和逆文档频率相乘得到每个词的值,作为每个词的权重,对计算得到的/>进行排序,选择权重高的词作为关键词进行提取,具体计算公式如下:
其中,表示词频,/>表示逆文档频率,/>表示词频和逆文档频率相乘得到的值,/>表示词t在档案d中出现的次数,t表示词,d表示档案,N表示档案d中所有词的总数,D表示所有档案的总数,/>表示包含词t的档案数。
4.根据权利要求3所述的一种档案数据分析管理方法,其特征在于:所述将确定出的关键词对应的权重值,作为支持向量机的输入,分类标签作为监督学习的训练数据,训练出一个档案分类模型的步骤,包括:
步骤C1、档案分类模型:将得到的权重作为支持向量机的输入进行分类,对于训练集/>,其中/>表示第n个档案的/>权重,/>表示第n个档案的类别标签,使用支持向量机分类器的数学公式进行分类,在最大化分类间隔的同时,减小分类误差和间隔误差支持向量机将找到一个最佳的超平面,使得所有样本点到这个超平面的距离最大化,具体计算公式如下:
其中,w是模型的权重向量,b是模型的偏置,表示第i个档案的/>权重,/>表示第i个档案的类别标签,/>是松弛变量,C是惩罚参数,/>表示最小化函数,/>表示约束条件。
5.根据权利要求4所述的一种档案数据分析管理方法,其特征在于:所述选择具有最高权重值的关键词与共享数据池中的每个档案相关联的步骤,包括将每个档案与一组关键词相关联,通过设定一个阈值,表示只有当关键词权重加权平均值高于该阈值,特定权限级别的用户才能够查看档案,对于n个关键词,每个关键词的值分别用/>进行表示,对应的出现次数用/>表示,每个用户有一个权限级别L,表示其在组织结构中的级别,通过计算得到加权平均值,代表关键词权重的整体平均水平,具体计算公式如下:
其中,表示关键词权重加权平均值,/>代表第i个关键词的权重,/>代表第i个关键词的出现次数,n代表关键词的总数。
6.根据权利要求5所述的一种档案数据分析管理方法,其特征在于:所述通过设定一个阈值,表示只有当关键词权重加权平均值高于该阈值,特定权限级别的用户才能够查看档案,通过对一组关键词权重的样本数据,计算均值和标准差,根据正态分布曲线来设定一个阈值W,具体包括以下步骤:
步骤S1、根据一组关键词权重的样本数据,计算均值和标准差,具体计算公式如下:
其中,表示平均关键词权重,/>表示关键词权重标准差,/>表示每个关键词的权重,n表示关键词的总数;
步骤S2、关键词权重阈值公式如下:
其中,表示平均关键词权重,/>表示关键词权重标准差,/>表示关键词权重上限阈值,/>表示关键词权重下限阈值。
7.根据权利要求6所述的一种档案数据分析管理方法,其特征在于:所述特定权限级别的用户才能够查看档案的步骤,包括确定是否允许用户查看某个档案,使用以下逻辑判断:
其中,L表示每个用户有一个权限级别,表示每个关键词的权重,函数满足以下条件:
当L表示的权限级别为领导级别,关键词权重加权平均值大于阈值W,允许查看;
当L不是领导级别,无论关键词权重如何,均不允许查看。
8.一种档案数据分析管理系统,其特征在于,包括:
档案获取模块:对获取到的档案进行处理,并将经所述处理后得到的档案数据存储在共享数据池中;
关键词提取模块:对档案数据进行关键词提取,通过统计每个词在档案中出现的频率,得到词频,通过在获取到的档案中统计包含词的档案数,得到逆文档频率,将词频和逆文档频率相乘得到的值作为每个词的权重,选择权重高的词作为关键词进行提取;
分类处理模块:将确定出的关键词对应的权重值,作为支持向量机的输入,分类标签作为监督学习的训练数据,训练出一个档案分类模型;
查看档案权限模块:选择具有最高权重值的关键词与共享数据池中的每个档案相关联,以监听用户的输入信号,根据用户的输入信号,判断用户是否需要查看某个档案,对于不同的用户,设定查看档案权限;
其中所述通过统计每个词在档案中出现的频率,得到词频的步骤,包括使用哈希表来记录每个词的频次,统计每个词在档案中出现的频率,创建一个空的哈希表,用于记录每个词的频次,遍历档案中的每个词,对于每个词,检查是否已经在哈希表中出现过,当已经在哈希表中出现过,将对应的频次加一,否则将该词添加到哈希表,并将频次初始化为1,遍历完成后,哈希表中存储了每个词的频次信息,词频计算公式如下:
;其中,/>表示词频,/>表示词t在档案d中出现的次数,d表示档案,N表示档案d中所有词的总数。
CN202311728608.1A 2023-12-15 2023-12-15 一种档案数据分析管理方法及系统 Pending CN117408652A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311728608.1A CN117408652A (zh) 2023-12-15 2023-12-15 一种档案数据分析管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311728608.1A CN117408652A (zh) 2023-12-15 2023-12-15 一种档案数据分析管理方法及系统

Publications (1)

Publication Number Publication Date
CN117408652A true CN117408652A (zh) 2024-01-16

Family

ID=89487533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311728608.1A Pending CN117408652A (zh) 2023-12-15 2023-12-15 一种档案数据分析管理方法及系统

Country Status (1)

Country Link
CN (1) CN117408652A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648473A (zh) * 2024-01-29 2024-03-05 河北省中医院 档案分类方法及平台

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040016799A (ko) * 2002-08-19 2004-02-25 마츠시타 덴끼 산교 가부시키가이샤 문서 검색 시스템 및 질문 응답 시스템
US20080172371A1 (en) * 2007-01-17 2008-07-17 International Business Machines Corporation Methods and computer program product for searching and providing access to web-searchable documents based on keyword analysis
CN103020213A (zh) * 2012-12-07 2013-04-03 福建亿榕信息技术有限公司 具有明显类别划分的非结构化电子文档的检索方法和系统
CN110413570A (zh) * 2019-06-25 2019-11-05 大唐软件技术股份有限公司 一种文档索引和检索方法及其装置
CN110674289A (zh) * 2019-07-04 2020-01-10 南瑞集团有限公司 基于分词权重判断文章所属分类的方法、装置和存储介质
CN111159410A (zh) * 2019-12-31 2020-05-15 广州广电运通信息科技有限公司 一种文本情感分类方法、系统、装置及存储介质
CN112507068A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 文档查询方法、装置、电子设备和存储介质
CN113806776A (zh) * 2021-09-19 2021-12-17 广州锦源网络科技有限公司 基于区块链的医疗档案查询方法、装置、电子设备及介质
CN114202443A (zh) * 2021-12-14 2022-03-18 深圳壹账通智能科技有限公司 政策分类方法、装置、设备及存储介质
CN114417840A (zh) * 2022-01-19 2022-04-29 上海待兔科技有限责任公司 从编程文章中提取文章标签的方法、设备以及存储介质
CN114443800A (zh) * 2022-01-06 2022-05-06 浪潮软件集团有限公司 基于国产cpu和os的电子文档检索及权限控制系统及方法
CN116934285A (zh) * 2023-09-15 2023-10-24 济南泰格电子技术有限公司 一种实现数字化与实体档案管理的视觉智能系统及设备
CN117076692A (zh) * 2023-07-11 2023-11-17 山东日照发电有限公司 一种档案在线管理方法及系统
CN117113199A (zh) * 2023-10-23 2023-11-24 浙江星汉信息技术股份有限公司 一种基于人工智能的档案安全管理系统及方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040016799A (ko) * 2002-08-19 2004-02-25 마츠시타 덴끼 산교 가부시키가이샤 문서 검색 시스템 및 질문 응답 시스템
US20080172371A1 (en) * 2007-01-17 2008-07-17 International Business Machines Corporation Methods and computer program product for searching and providing access to web-searchable documents based on keyword analysis
CN103020213A (zh) * 2012-12-07 2013-04-03 福建亿榕信息技术有限公司 具有明显类别划分的非结构化电子文档的检索方法和系统
CN110413570A (zh) * 2019-06-25 2019-11-05 大唐软件技术股份有限公司 一种文档索引和检索方法及其装置
CN110674289A (zh) * 2019-07-04 2020-01-10 南瑞集团有限公司 基于分词权重判断文章所属分类的方法、装置和存储介质
CN111159410A (zh) * 2019-12-31 2020-05-15 广州广电运通信息科技有限公司 一种文本情感分类方法、系统、装置及存储介质
CN112507068A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 文档查询方法、装置、电子设备和存储介质
CN113806776A (zh) * 2021-09-19 2021-12-17 广州锦源网络科技有限公司 基于区块链的医疗档案查询方法、装置、电子设备及介质
CN114202443A (zh) * 2021-12-14 2022-03-18 深圳壹账通智能科技有限公司 政策分类方法、装置、设备及存储介质
CN114443800A (zh) * 2022-01-06 2022-05-06 浪潮软件集团有限公司 基于国产cpu和os的电子文档检索及权限控制系统及方法
CN114417840A (zh) * 2022-01-19 2022-04-29 上海待兔科技有限责任公司 从编程文章中提取文章标签的方法、设备以及存储介质
CN117076692A (zh) * 2023-07-11 2023-11-17 山东日照发电有限公司 一种档案在线管理方法及系统
CN116934285A (zh) * 2023-09-15 2023-10-24 济南泰格电子技术有限公司 一种实现数字化与实体档案管理的视觉智能系统及设备
CN117113199A (zh) * 2023-10-23 2023-11-24 浙江星汉信息技术股份有限公司 一种基于人工智能的档案安全管理系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘金花 著: "《文本挖掘与Python实践》", 31 August 2021, 四川大学出版社, pages: 83 - 86 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648473A (zh) * 2024-01-29 2024-03-05 河北省中医院 档案分类方法及平台
CN117648473B (zh) * 2024-01-29 2024-04-16 河北省中医院 档案分类方法及平台

Similar Documents

Publication Publication Date Title
CN111581355B (zh) 威胁情报的主题检测方法、装置和计算机存储介质
US8983826B2 (en) Method and system for extracting shadow entities from emails
US7711673B1 (en) Automatic charset detection using SIM algorithm with charset grouping
CN113377927A (zh) 一种相似文档检测方法、装置、电子设备及存储介质
CN117408652A (zh) 一种档案数据分析管理方法及系统
CN109829151B (zh) 一种基于分层狄利克雷模型的文本分割方法
CN108667678A (zh) 一种基于大数据的运维日志安全检测方法及装置
CN115168345B (zh) 数据库分级分类方法、系统、装置及存储介质
CN114491034B (zh) 一种文本分类方法及智能设备
CN117669513B (zh) 一种基于人工智能的数据管理系统及方法
CN113887191A (zh) 文章的相似性检测方法及装置
CN113011174B (zh) 一种基于文本分析的围标串标识别方法
CN105808602B (zh) 一种垃圾信息的检测方法及装置
CN117392577A (zh) 用于司法视频场景中行为识别方法、存储介质及电子设备
CN115618297A (zh) 识别异常企业的方法及其装置
CN115422556A (zh) 漏洞利用概率预测方法、系统、设备及存储介质
CN115238707A (zh) 基于词向量语义分析的执法视频评价方法及装置
CN109409127B (zh) 网络数据安全策略的生成方法、装置及存储介质
CN110727784B (zh) 基于内容的文章推荐方法及系统
Ma Text classification on imbalanced data: Application to Systematic Reviews Automation
CN115221857B (zh) 一种含数值类型的数据相似性检测方法及装置
CN118333632B (zh) 基于人工智能的国产化数据资产管理系统与方法
CN116306616B (zh) 用于确定文本的关键词的方法和装置
CN112989793B (zh) 文章检测方法及装置
CN116881375A (zh) 数据分类方法、装置、电子设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20240116