CN109299826A - 一种进馆档案数量预测方法、装置、电子设备及存储介质 - Google Patents

一种进馆档案数量预测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN109299826A
CN109299826A CN201811145437.9A CN201811145437A CN109299826A CN 109299826 A CN109299826 A CN 109299826A CN 201811145437 A CN201811145437 A CN 201811145437A CN 109299826 A CN109299826 A CN 109299826A
Authority
CN
China
Prior art keywords
year
archives
initial
influence factors
factors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811145437.9A
Other languages
English (en)
Inventor
张曙华
黄海清
杨安荣
李志卿
姜悦霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI ZHONGXIN INFORMATION DEVELOPMENT Co Ltd
Original Assignee
SHANGHAI ZHONGXIN INFORMATION DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI ZHONGXIN INFORMATION DEVELOPMENT Co Ltd filed Critical SHANGHAI ZHONGXIN INFORMATION DEVELOPMENT Co Ltd
Priority to CN201811145437.9A priority Critical patent/CN109299826A/zh
Publication of CN109299826A publication Critical patent/CN109299826A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供的一种进馆档案数量预测方法、装置、电子设备及存储介质,属于数据处理领域。所述方法首先获取需预测年份的上一年的多个第一影响因子,所述多个第一影响因子为与所述需预测年份的上一年的进馆档案数量有关的数据,然后将所述多个第一影响因子输入到预先创建的多元线性回归模型对所述需预测年份的第一进馆档案数量进行预测,输出所述需预测年份的第一进馆档案数量。本方案中,可以通过获取多项影响因子输入至多元线性回归模型,来实现对进馆的档案数量的精准预测,为档案馆接收档案工作提供重要决策依据支持,达到提高档案馆工作效率、合理控制成本、保障档案进馆工作有序开展的目的。

Description

一种进馆档案数量预测方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理领域,具体而言,涉及一种进馆档案数量预测方法、装置、电子设备及存储介质。
背景技术
档案是人类活动的真实记录,具有特定而广泛的社会价值和经济价值。根据有关规定:机关、团体、企业事业单位和其他组织,应当按照关于档案移交的规定,定期向有关的档案馆移交档案。伴随着照片、声像等多媒体档案纳入档案接收的范围,需要由档案馆来进行永久保存的档案类型不断增加,每年由立档单位向档案馆移交的档案总量也呈现不断增长趋势。
受到多种复杂因素影响,档案馆无法对每年接收进馆的档案数量进行科学精准的预测,在实际过程中,这将在很大程度上影响档案馆的档案接收工作。档案馆的档案库房、密集架、磁盘光盘等物料设备准备不足或者过剩,会直接影响档案的长久保存工作或者造成档案保存成本增大和资源浪费。然而,现阶段我国各级档案馆并未开展进馆档案的数量预测工作,对每年的进馆档案数量的认识多依赖于以往历史经验,局限性较大,很难从众多的影响因素中科学准确地预测档案馆接收进馆的档案数量。
发明内容
有鉴于此,本发明实施例的目的在于提供一种进馆档案数量预测方法、装置、电子设备及存储介质,以解决上述技术问题。
第一方面,本发明实施例提供了一种进馆档案数量预测方法,所述方法包括;获取需预测年份的上一年的多个第一影响因子,所述多个第一影响因子为与所述需预测年份的上一年的进馆档案数量有关的数据;将所述多个第一影响因子输入到预先创建的多元线性回归模型对所述需预测年份的第一进馆档案数量进行预测,输出所述需预测年份的第一进馆档案数量。
进一步地,获取需预测年份的上一年的多个第一影响因子之前,所述方法还包括:
获取n个年份中每年的多个第二影响因子和第二进馆档案数量,建立多元线性回归模型,其中,所述多个第二影响因子为与每年的进馆档案数量有关的数据,n为大于等于1的正整数。
所述多元线性回归模型为:
其中,ε1,ε2,…,εn为误差项;β0为常数项;参数β1,β2,…,β6为回归系数,y1,y2,...,yn为n个年份的第二进馆档案数量,x11,x12,...,x16为n个年份中时间最早的第一年份的多个第二影响因子,x21,x22,...,x26为所述第一年份次年的第二年份的多个第二影响因子,xn1,xn2,...,xn6为n年份中时间最晚的第n年份的多个第二影响因子。
进一步地,所述获取n个年份中每年的多个第二影响因子和第二进馆档案数量,包括:获取n个年份中每年的多个第二初始影响因子和第二初始进馆档案数量;对所述多个第二初始影响因子和所述第二初始进馆档案数量进行筛选,获得与所述多个第二初始影响因子对应的所述多个第二影响因子和与所述第二初始进馆档案数量对应的所述第二进馆档案数量。
进一步地,对所述多个第二初始影响因子和所述第二初始进馆档案数量进行筛选,获得与所述多个第二初始影响因子对应的所述多个第二影响因子和与所述第二初始进馆档案数量对应的所述第二进馆档案数量,包括:
通过皮尔森模型对所述多个第二初始影响因子和所述第二初始进馆档案数量进行计算得到相关程度系数。
根据所述相关程度系数对所述多个第二初始影响因子和所述第二初始进馆档案数量进行筛选,获得与所述多个第二初始影响因子对应的多个所述第二影响因子和与所述第二初始进馆档案数量对应的所述第二进馆档案数量。
进一步地,获取n个年份中每年的多个第二影响因子和第二进馆档案数量,建立多元线性回归模型之后,所述方法还包括:根据预先设定的检验模型对所述多元线性回归模型进行检验,获得检验系数,根据所述检验系数修改所述多元线性回归模型。
第二方面,本发明实施例提供了一种进馆档案数量预测装置,包括:
获取模块,用于获取需预测年份的上一年的多个第一影响因子,所述多个第一影响因子为与所述需预测年份的上一年的进馆档案数量有关的数据。
预测模块,用于将所述多个第一影响因子输入到预先创建的多元线性回归模型对所述需预测年份的第一进馆档案数量进行预测,输出所述需预测年份的第一进馆档案数量。
进一步地,所述装置还包括:建模模块,用于获取n个年份中每年的多个第二影响因子和第二进馆档案数量,建立多元线性回归模型,其中,所述多个第二影响因子为与每年的进馆档案数量有关的数据,n为大于等于1的正整数。
所述多元线性回归模型为:
其中,ε1,ε2,…,εn为误差项;β0为常数项;参数β1,β2,…,β6为回归系数,y1,y2,...,yn为n个年份的第二进馆档案数量,x11,x12,...,x16为n个年份中时间最早的第一年份的多个第二影响因子,x21,x22,...,x26为所述第一年份次年的第二年份的多个第二影响因子,xn1,xn2,...,xn6为n年份中时间最晚的第n年份的多个第二影响因子。
进一步地,所述建模模块还包括:
初始获取单元,用于获取n个年份中每年的多个第二初始影响因子和第二初始进馆档案数量。
筛选单元,用于对所述多个第二初始影响因子和所述第二初始进馆档案数量进行筛选,获得与所述多个第二初始影响因子对应的所述多个第二影响因子和与所述第二初始进馆档案数量对应的所述第二进馆档案数量。
第三方面,本发明实施例提供了一种电子设备,包括:处理器、存储器和总线,其中,所述处理器和所述存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述的方法。
第四方面,本发明实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述的方法。
本发明实施例提供的一种进馆档案数量预测方法、装置、电子设备及存储介质,所述方法首先获取需预测年份的上一年的多个第一影响因子,所述多个第一影响因子为与所述需预测年份的上一年的进馆档案数量有关的数据,然后将所述多个第一影响因子输入到预先创建的多元线性回归模型对所述需预测年份的第一进馆档案数量进行预测,输出所述需预测年份的第一进馆档案数量。本方案中,可以通过获取多项影响因子输入至多元线性回归模型,来实现对进馆的档案数量的精准预测,为档案馆接收档案工作提供重要决策依据和支持,达到提高档案馆工作效率、合理控制成本、保障档案进馆工作有序开展的目的。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种电子设备结构框图;
图2为本发明实施例提供的一种进馆档案数量预测方法的流程示意图;
图3为本发明实施例提供的一种构建多元线性回归模型方法的流程示意图;
图4为本发明实施例提供的一种进馆档案数量预测装置结构示意图;
图5为本发明实施例提供的一种构建模型的装置结构示意图;
图6为本发明实施例提供的一种建模模块的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1示出了一种可应用于本申请实施例中的电子设备10的结构框图。电子设备10可以包括进馆档案数量预测装置100、存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105、音频单元106、显示单元107。
所述存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105、音频单元106、显示单元107各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述进馆档案数量预测装置100包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中或固化在所述进馆档案数量预测装置100的操作系统(operating system,OS)中的软件功能模块。所述处理器103用于执行存储器101中存储的可执行模块,例如所述进馆档案数量预测装置100包括的软件功能模块或计算机程序。
其中,存储器101可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器101用于存储程序,所述处理器103在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的服务器所执行的方法可以应用于处理器103中,或者由处理器103实现。
处理器103可以是一种集成电路芯片,具有信号的处理能力。上述的处理器103可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器103也可以是任何常规的处理器等。
所述外设接口104将各种输入/输出装置耦合至处理器103以及存储器101。在一些实施例中,外设接口104,处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出单元105用于提供给用户输入数据实现用户与所述服务器(或本地终端)的交互。所述输入输出单元105可以是,但不限于,鼠标和键盘等。
音频单元106向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示单元107在所述电子设备100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元107可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器103进行计算和处理。
所述外设接口104将各种输入/输入装置耦合至处理器103以及存储器101。在一些实施例中,外设接口104,处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出单元105用于提供给用户输入数据实现用户与处理终端的交互。所述输入输出单元105可以是,但不限于,鼠标和键盘等。
可以理解,图1所示的结构仅为示意,所述电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
请参照图2,图2为本发明实施例提供的一种进馆档案数量预测方法的流程示意图,如图2所示,本发明实施例提供一种进馆档案数量预测方法,所述方法包括:
步骤S110:获取需预测年份的上一年的多个第一影响因子,所述多个第一影响因子为与所述需预测年份的上一年的进馆档案数量有关的数据。
具体的,可以通过获取档案馆接收档案的数量以及根据统计局公开的信息等渠道,来获取要预测年份的上一年的第一影响因子。如果要预测今年的进馆档案数量,则需要统计去年的第一影响因子;如果要预测明年的进馆档案数量,则需要统计今年全年的第一影响因子。一般需要统计的第一影响因子有:预测年份的上一年的年度重大事件数量、预测年份的上一年的年内机构破产重组数量、预测年份的上一年的年内政府发布的影响本地区档案变化的政策数量;预测年份的上一年的立档单位数量;预测年份的上一年的本地人口规模;预测年份的上一年的本地生产总值。第一影响因子的种类不限定,与进馆档案数量有关的数据都可以进行统计,具体的第一影响因子的种类可以根据需要预测的进馆档案数量的精确度进行调整。
值得说明的是,获得的第一影响因子的数据单位不同,数据单位会根据实际需要的带入模型计算的要求来进行调整,在上述例子的基础上,如:预测年份的上一年的年度重大事件数量的单位为个,预测年份的上一年的年内机构破产重组数量的单位为个,预测年份的上一年的年内政府发布的影响本地区档案变化的政策数量的单位为个,预测年份的上一年的立档单位数量的单位为个,预测年份的上一年的本地人口规模的单位为万人,预测年份的上一年的本地生产总值的单位为亿元。
步骤S120:将所述多个第一影响因子输入到预先创建的多元线性回归模型对所述需预测年份的第一进馆档案数量进行预测,输出所述需预测年份的第一进馆档案数量。
具体的,预先根据以往的影响因子数据建立好多元线性回归模型,之后将统计的第一影响因子输入到多元线性回归模型中,运行多元线性回归模型就可以获得需要预测年份的进馆档案数据。通过这样直接向预先建立的多元线性回归模型输入第一影响因子的方法可以更加简单快捷的得出结果,使得预测结果更为准确。
本发明实施例通过获取多项影响因子输入至多元线性回归模型,来实现对进馆的档案数量的精准预测,为档案馆接收档案工作提供重要决策依据和支持,达到提高档案馆工作效率、合理控制成本、保障档案进馆工作有序开展的目的。
图3为本发明实施例提供的一种构建多元线性回归模型方法的流程示意图,如图3所示,获取需预测年份的上一年的多个第一影响因子之前,所述方法还包括:
步骤S210:获取n个年份中每年的多个第二影响因子和第二进馆档案数量,建立多元线性回归模型,其中,所述多个第二影响因子为与每年的进馆档案数量有关的数据,n为大于等于1的正整数。
所述多元线性回归模型为:
其中,ε1,ε2,…,εn为误差项;β0为常数项;参数β1,β2,…,β6为回归系数,y1,y2,...,yn为n个年份的第二进馆档案数量,x11,x12,...,x16为n个年份中时间最早的第一年份的多个第二影响因子,x21,x22,...,x26为所述第一年份次年的第二年份的多个第二影响因子,xn1,xn2,...,xn6为n年份中时间最晚的第n年份的多个第二影响因子。
具体的,获取的是连续多年的多个第二影响因子和第二进馆档案数量,根据得到的第二影响因子和第二进馆档案数量来构建多元线性回归模型。获取数据的年份可以根据实际对构建的多元线性回归模型的精度需求来进行调整。获取的多个第二影响因子的种类和单位应该与第一影响因子的种类和单位对应,一般需要统计的第二影响因子有:连续多年的年度重大事件数量、连续多年的年内机构破产重组数量、连续多年的年内政府发布的影响本地区档案变化的政策数量;连续多年的立档单位数量;连续多年的本地人口规模;连续多年的本地生产总值。第二影响因子的种类不限定,与进馆档案数量有关的数据都可以进行统计,具体的第二影响因子的种类可以根据需要预测的进馆档案数量的精确度进行调整。
值得说明的是,获得的第二影响因子的数据单位不同,数据单位会根据实际需要的带入模型计算的要求来进行调整,在上述例子的基础上,如:连续多年的年度重大事件数量的单位为个,连续多年的年内机构破产重组数量的单位为个,连续多年的年内政府发布的影响本地区档案变化的政策数量的单位为个,连续多年的立档单位数量的单位为个,连续多年的本地人口规模的单位为万人,连续多年的本地生产总值的单位为亿元。
具体的,其多元线性回归表达式为:
其中,β0是常数项,β1,β2…,βm是m个未知参数,在多元线性回归模型中称为回归系数;ε是均值为零,方差为σ2>0的不可观测的随机变量,称为误差项,并通常假定εi~N(0,σ2)。在得到n年的的多个第二影响因子和第二进馆档案数量,这里我们假设获取了六种第二影响因子,则多元线性回归模型为:
其中,ε1,ε2,…,εn相互独立的,且服从εi~N(0,σ2)分布。
则可以用矩阵形式表示为:
其中,ε1,ε2,…,εn为误差项;β0为常数项;参数β1,β2,…,β6为回归系数,举例来说,获取到了六种第二影响因子:年度重大事件数量,单位为个;年内机构破产重组数量,单位为个;年内政府发布的影响本地区档案变化的政策数量,单位为个;立档单位数量,单位为个;本地人口规模,单位为万人;本地生产总值,单位为亿元。则在n个年份中时间最早的第一年份的六个第二影响因子为:年度重大事件数量为x11,年内机构破产重组数量为x12,年内政府发布的影响本地区档案变化的政策数量为x13,立档单位数量为x14,本地人口规模为x15,本地生产总值为x16。则以此类推,x21,x22,...,x26为所述第一年份次年的第二年份的六个第二影响因子,xn1,xn2,...,xn6为n年份中时间最晚的第n年份的六个第二影响因子。并且y1,y2,...,yn为n个年份的第二进馆档案数量。这里进行假设的影响因子与x的对应关系可以不按假设顺序进行对应,可以根据实际需要进行规定。通过在预测档案进馆档案数量时,创新性地运用回归预测分析方法对档案进馆数量进行精准科学的预测,提高档案部门工作效率。
值得说明的是,在上述多元线性回归模型确定之后,可以根据所述多个第二影响因子和所述第二进馆档案数量来估计回归系数,将多个第二影响因子和所述第二进馆档案数量输入至
运用最小二乘法,输出所述回归系数的最小二乘估计,根据所述回归系数的最小二乘估计可以得到所述回归系数。
其中,X为所述多个第二影响因子构成的矩阵,XT为所述多个第二影响因子构成的矩阵的转置矩阵,(XTX)-1为X和XT的矩阵乘积的逆矩阵,Y为多个第二进馆档案数量构成的矩阵。由于多种影响因子对进馆档案数量的影响的作用大小不同,影响因子的权重也不一样。通过对回归系数的估计,可以考虑多种影响因子的作用及他们对进馆档案数量的权重。
在上述实施例的基础上,所述获取n个年份中每年的多个第二影响因子和第二进馆档案数量,包括:获取n个年份中每年的多个第二初始影响因子和第二初始进馆档案数量;对所述多个第二初始影响因子和所述第二初始进馆档案数量进行筛选,获得与所述多个第二初始影响因子对应的所述多个第二影响因子和与所述第二初始进馆档案数量对应的所述第二进馆档案数量。
具体地,在获取多个第二影响因子和第二进馆档案数量之前,先从档案馆的进馆档案数量和统计局公开的信息等渠道来查阅、统计获取第二初始影响因子和第二初始进馆档案数据。在初次获得第二初始影响因子后要对其中一些与第二初始进馆档案数据相关性较小的影响因子进行删减,对第二初始影响因子和第二初始进馆档案数据进行筛选之后才是可以进行带入多元线性回归模型的第二影响因子和第二进馆档案数量。如果直接把一些相关性太小的数据直接带入会使后续多元线性回归模型的误差过大,不能够较为准确预测的档案馆进馆档案数量。
在上述实施例的基础上,对所述多个第二初始影响因子和所述第二初始进馆档案数量进行筛选,获得与所述多个第二初始影响因子对应的所述多个第二影响因子和与所述第二初始进馆档案数量对应的所述第二进馆档案数量,包括:
通过皮尔森模型对所述多个第二初始影响因子和所述第二初始进馆档案数量进行计算得到相关程度系数。
根据所述相关程度系数对所述多个第二初始影响因子和所述第二初始进馆档案数量进行筛选,获得与所述多个第二初始影响因子对应的多个所述第二影响因子和与所述第二初始进馆档案数量对应的所述第二进馆档案数量。
具体地,这边是采用皮尔森模型对第二初始影响因子和第二初始进馆档案数量进行相关程度系数的计算,通过把所述第二初始影响因子和所述第二初始进馆档案数量输入至输出用于表征多个第二初始影响因子和所述第二初始进馆档案数量之间的线性相关强弱的相关程度系数。
其中,n表示预设年份数目,i表示年份次数,Xi表示第i年获取到的所述多个第二初始影响因子数据,Yi表示第i年获取到的所述第二初始进馆档案数量,为多个预设年份的所述第二初始影响因子数据的均值,为多个预设年份的所述第二初始进馆档案数量的均值,SX为多个预设年份的所述第二初始影响因子的标准差,SY为多个预设年份的所述第二初始进馆档案数量的标准差,r表示所述相关程度系数。其中,
值得说明的是,根据通过皮尔森模型得出的相关程度系数,若相关程度系数的绝对值越大表明相关性越强。可以对相关程度系数大小来确定相关程度,如设定相关程度系数的绝对值在0.70-0.99之间为高度相关,在0.40-0.69之间为中度相关,在0.10-0.39之间为低度相关。在计算得出相关程度系数之后可以通过比较相关系数的范围来确定多个第二初始影响因子和所述第二初始进馆档案数量的相关程度,然后剔除中度相关的第二初始影响因子和低度相关的第二初始影响因子,得到第二影响因子。基于通过皮尔森模型筛选后的第二影响因子和第二进馆档案数量建立的多元线性回归模型,其精确度会更高,减少因预测进馆档案数量不准确导致的设置的容纳空间不足,减少了多余的工作成本。
其中,划分相关程度依据的相关系数的范围,可以根据需要建立的多元线性回归模型的精确度进行调整。要剔除的影响因子的程度也可以根据需要建立的多元线性回归模型的精确度进行划分。这里采用的是皮尔森模型,也可以采用其他公式或者模型进行相关程度的筛选,模型不固定可以根据实际需要进行调整。
在上述实施例的基础上,获得所述多元回归模型之后,所述方法还包括:
步骤S220:根据预先设定的检验模型对所述多元回归模型进行检验,获得检验系数,根据所述检验系数修改所述多元回归模型。
具体地,对建立好的多元回归模型进行检验,根据检验系数确定所述多元模型时候需要进行修改。
举例来说,利用拟合检验模型对所述多个第二影响因子和所述第二进馆档案数量进行检验,将所述第二影响因子和第二进馆档案数量输入拟合检验模型输出判定所述多元回归方程与所述第二进馆档案数量的拟合度的判定系数。拟合度的判定系数的取值范围是0~1,拟合度的判定系数的值越接近于1,表明多元线性回归方程对第二进馆档案数量的拟合度效果越好,相反拟合度的判定系数越接近0,拟合效果越差。可以设定一个数值,如:若拟合度的判定系数低于0.5,则需要重新获取与第二进馆档案数量有关的第二影响因子并且重新建立多元回归方程。所设定的判定系数的数值不固定,可以根据实际需要进行预测的进馆档案数量的精确度进行调整。
其中,为总离差平方和,为回归平方和,它是反映回归效果的参数,为残差平方和,为第二进馆档案数量的平均值。若利用联合假设检验模型对所述回归系数、所述多个第二影响因子和所述第二进馆档案数量进行检验,得出检验结果。采用的是数理统计中的f检验:
H0:β0=β1…=βm=0,
H1:至少有一个βj不为零,j=0,1,2,…,m。
其中H0为原假设,H1为备择假设,应用数理统计理论可以证明:即F检验系数服从以(m,n-m-1)为自由度的F分布。
具体地,需要把回归平方和与残差平方和都输入到中,得到用于判定第二影响因子和所述第二进馆档案数量之间的线性关系是否显著的检验系数。其中,F为检验系数,m为所述第一因变量的种类个数,n为预测年份的数量。若根据设定的显著性水平α,查询F分布表,可以得到在(m,n-m-1)的标准检验系数即为Fα(m,m-n-1),算出的检验系数与标准检验系数相比,若算出的检验系数大于或等于标准检验系数,则假设H0不成立,即证明多个第二影响因子和所述第二进馆档案数量存在线性关系,若算出的检验系数小于标准检验系数,则假设H0成立,即证明多个第二影响因子和所述第二进馆档案数量不存在线性关系,需要重新获取与第二进馆档案数量有关的第二影响因子并且重新建立多元回归方程。
值得说明的是,上述检验模型都是将所有的第二影响因子作为一个整体来检验与所述第二进馆档案数量之间的相关程度和线性关系。通过单总体检验模型可以检验每个第二影响因子与所述第二进馆档案数量之间的影响度,得出影响系数。采用数理统计中的t检验:
H3:βj=0,
H4:βj≠0(其中,j=0,1,2…,m),
其中,H3为原假设,H4为备择假设。应用数理统计理论可以证明:当H3为真时,影响系数ti服从自由度为(n-m-1)的t分布。
具体地,需要把回归系数输入至其中,tj为第j种第二影响因子与第二进馆档案数量之间的表示影响度的影响系数,为第二影响因子对应的回归系数,为回归系数的标准差。若根据设定的显著性水平α,查询t分布表,可以得到在(m,n-m-1)中的标准影响系数即为tα/2(n-m-1),算出的影响系数与标准影响系数相比,若算出的影响系数大于标准影响系数,则假设H3为假,证明这个第二影响因子对所述第二进馆档案数量有显著影响,若算出的影响系数小于或等于标准影响系数,则假设H3为真,证明这个第二影响因子对所述第二进馆档案数量没有显著影响,需要重新获取与第二进馆档案数量有关的第二影响因子并且重新建立多元回归方程。
图4为本发明实施例提供的一种应用进馆档案数量预测方法的装置结构示意图,如图4所示,本发明实施例提供一种进馆档案数量预测装置,包括:
获取模块410,用于获取需预测年份的上一年的多个第一影响因子,所述多个第一影响因子为与所述需预测年份的上一年的进馆档案数量有关的数据。
预测模块420,用于将所述多个第一影响因子输入到预先创建的多元线性回归模型对所述需预测年份的第一进馆档案数量进行预测,输出所述需预测年份的第一进馆档案数量。
本发明实施例提供的装置用于执行上述方法,其具体的实施方式与方法的实施方式一致,此处不再赘述。
图5为本发明实施例提供的一种构建模型的装置结构示意图,如图5所示,所述装置还包括:建模模块430,用于获取n个年份中每年的多个第二影响因子和第二进馆档案数量,建立多元线性回归模型,其中,所述多个第二影响因子为与每年的进馆档案数量有关的数据,n为大于等于1的正整数。
所述多元线性回归模型为:
其中,ε1,ε2,…,εn为误差项;β0为常数项;参数β1,β2,…,β6为回归系数,y1,y2,...,yn为n个年份的第二进馆档案数量,x11,x12,...,x16为n个年份中时间最早的第一年份的多个第二影响因子,x21,x22,...,x26为所述第一年份次年的第二年份的多个第二影响因子,xn1,xn2,...,xn6为n年份中时间最晚的第n年份的多个第二影响因子。
本发明实施例提供的装置用于执行上述方法,其具体的实施方式与方法的实施方式一致,此处不再赘述。
图6为本发明实施例提供的一种建模模块的结构示意图,如图6所示,所述建模模块430还包括:
初始获取单元431,用于获取n个年份中每年的多个第二初始影响因子和第二初始进馆档案数量。
筛选单元432,用于对所述多个第二初始影响因子和所述第二初始进馆档案数量进行筛选,获得与所述多个第二初始影响因子对应的所述多个第二影响因子和与所述第二初始进馆档案数量对应的所述第二进馆档案数量。
本发明实施例提供的装置用于执行上述方法,其具体的实施方式与方法的实施方式一致,此处不再赘述。
在上述实施例的基础上,所述筛选单元432包括:
筛选计算单元,用于通过皮尔森模型对所述多个第二初始影响因子和所述第二初始进馆档案数量进行计算得到相关程度系数。
筛选处理单元,根据所述相关程度系数对所述多个第二初始影响因子和所述第二初始进馆档案数量进行筛选,获得与所述多个第二初始影响因子对应的多个所述第二影响因子和与所述第二初始进馆档案数量对应的所述第二进馆档案数量。
本发明实施例提供的装置用于执行上述方法,其具体的实施方式与方法的实施方式一致,此处不再赘述。
在上述实施例的基础上,所述装置还包括:检验模块440,用于根据预先设定的检验模型对所述多元线性回归模型进行检验,获得检验系数,根据所述检验系数修改所述多元线性回归模型。
本发明实施例提供的装置用于执行上述方法,其具体的实施方式与方法的实施方式一致,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
本发明实施例提供的一种进馆档案数量预测方法、装置、电子设备及存储介质,所述方法首先获取需预测年份的上一年的多个第一影响因子,所述多个第一影响因子为与所述需预测年份的上一年的进馆档案数量有关的数据,然后将所述多个第一影响因子输入到预先创建的多元线性回归模型对所述需预测年份的第一进馆档案数量进行预测,输出所述需预测年份的第一进馆档案数量。本方案中,可以通过获取多项影响因子输入至多元线性回归模型,来实现对进馆的档案数量的精准预测,为档案馆接收档案工作提供重要决策依据和支持,达到提高档案馆工作效率、合理控制成本、保障档案进馆工作有序开展的目的。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种进馆档案数量预测方法,其特征在于,所述方法包括;
获取需预测年份的上一年的多个第一影响因子,所述多个第一影响因子为与所述需预测年份的上一年的进馆档案数量有关的数据;
将所述多个第一影响因子输入到预先创建的多元线性回归模型对所述需预测年份的第一进馆档案数量进行预测,输出所述需预测年份的第一进馆档案数量。
2.根据权利要求1所述的进馆档案数量预测方法,其特征在于,获取需预测年份的上一年的多个第一影响因子之前,所述方法还包括:
获取n个年份中每年的多个第二影响因子和第二进馆档案数量,建立多元线性回归模型,其中,所述多个第二影响因子为与每年的进馆档案数量有关的数据,n为大于等于1的正整数;
所述多元线性回归模型为:
其中,ε1,ε2,…,εn为误差项;β0为常数项;参数β1,β2,…,β6为回归系数,y1,y2,...,yn为n个年份的第二进馆档案数量,x11,x12,...,x16为n个年份中时间最早的第一年份的多个第二影响因子,x21,x22,...,x26为所述第一年份次年的第二年份的多个第二影响因子,xn1,xn2,…,xn6为n年份中时间最晚的第n年份的多个第二影响因子。
3.根据权利要求2所述的进馆档案数量预测方法,其特征在于,所述获取n个年份中每年的多个第二影响因子和第二进馆档案数量,包括:
获取n个年份中每年的多个第二初始影响因子和第二初始进馆档案数量;
对所述多个第二初始影响因子和所述第二初始进馆档案数量进行筛选,获得与所述多个第二初始影响因子对应的所述多个第二影响因子和与所述第二初始进馆档案数量对应的所述第二进馆档案数量。
4.根据权利要求3所述的进馆档案数量预测方法,其特征在于,对所述多个第二初始影响因子和所述第二初始进馆档案数量进行筛选,获得与所述多个第二初始影响因子对应的所述多个第二影响因子和与所述第二初始进馆档案数量对应的所述第二进馆档案数量,包括:
通过皮尔森模型对所述多个第二初始影响因子和所述第二初始进馆档案数量进行计算得到相关程度系数;
根据所述相关程度系数对所述多个第二初始影响因子和所述第二初始进馆档案数量进行筛选,获得与所述多个第二初始影响因子对应的多个所述第二影响因子和与所述第二初始进馆档案数量对应的所述第二进馆档案数量。
5.根据权利要求2所述的进馆档案数量预测方法,其特征在于,获取n个年份中每年的多个第二影响因子和第二进馆档案数量,建立多元线性回归模型之后,所述方法还包括:
根据预先设定的检验模型对所述多元线性回归模型进行检验,获得检验系数,根据所述检验系数修改所述多元线性回归模型。
6.一种进馆档案数量预测装置,其特征在于,所述装置包括:
获取模块,用于获取需预测年份的上一年的多个第一影响因子,所述多个第一影响因子为与所述需预测年份的上一年的进馆档案数量有关的数据;
预测模块,用于将所述多个第一影响因子输入到预先创建的多元线性回归模型对所述需预测年份的第一进馆档案数量进行预测,输出所述需预测年份的第一进馆档案数量。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
建模模块,用于获取n个年份中每年的多个第二影响因子和第二进馆档案数量,建立多元线性回归模型,其中,所述多个第二影响因子为与每年的进馆档案数量有关的数据,n为大于等于1的正整数;
所述多元线性回归模型为:
其中,ε1,ε2,…,εn为误差项;β0为常数项;参数β1,β2,…,β6为回归系数,y1,y2,...,yn为n个年份的第二进馆档案数量,x11,x12,...,x16为n个年份中时间最早的第一年份的多个第二影响因子,x21,x22,...,x26为所述第一年份次年的第二年份的多个第二影响因子,xn1,xn2,...,xn6为n年份中时间最晚的第n年份的多个第二影响因子。
8.根据权利要求7所述的装置,其特征在于,建模模块包括:
初始获取单元,用于获取n个年份中每年的多个第二初始影响因子和第二初始进馆档案数量;
筛选单元,用于对所述多个第二初始影响因子和所述第二初始进馆档案数量进行筛选,获得与所述多个第二初始影响因子对应的所述多个第二影响因子和与所述第二初始进馆档案数量对应的所述第二进馆档案数量。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-5任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1-5任一项所述的方法。
CN201811145437.9A 2018-09-28 2018-09-28 一种进馆档案数量预测方法、装置、电子设备及存储介质 Pending CN109299826A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811145437.9A CN109299826A (zh) 2018-09-28 2018-09-28 一种进馆档案数量预测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811145437.9A CN109299826A (zh) 2018-09-28 2018-09-28 一种进馆档案数量预测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN109299826A true CN109299826A (zh) 2019-02-01

Family

ID=65164982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811145437.9A Pending CN109299826A (zh) 2018-09-28 2018-09-28 一种进馆档案数量预测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN109299826A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100070441A1 (en) * 2007-03-27 2010-03-18 Fujitsu Limited Method, apparatus, and program for generating prediction model based on multiple regression analysis
CN106971310A (zh) * 2017-03-16 2017-07-21 国家电网公司 一种客户投诉数量预测方法及装置
CN107563560A (zh) * 2017-09-07 2018-01-09 顺丰速运有限公司 一种业务量预测方法、装置、设备、存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100070441A1 (en) * 2007-03-27 2010-03-18 Fujitsu Limited Method, apparatus, and program for generating prediction model based on multiple regression analysis
CN106971310A (zh) * 2017-03-16 2017-07-21 国家电网公司 一种客户投诉数量预测方法及装置
CN107563560A (zh) * 2017-09-07 2018-01-09 顺丰速运有限公司 一种业务量预测方法、装置、设备、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
娄文婷 等: "关于档案室藏量的组合预测研究", 《办公室业务》 *
赵金玉 等: "影响专业人才数量的多元线性回归模型的确定", 《沈阳理工大学学报》 *

Similar Documents

Publication Publication Date Title
US11003733B2 (en) Analytic system for fast quantile regression computation
Subramaniyan et al. An algorithm for data-driven shifting bottleneck detection
US11410112B2 (en) Industrial data service, data modeling, and data application platform
CN110866786A (zh) 一种货量预测方法、装置、电子设备及存储介质
JP7556982B2 (ja) 時系列予測
CN110471821A (zh) 异常变更检测方法、服务器及计算机可读存储介质
Li et al. Analysis of approximately balanced production lines
US11422992B2 (en) Auto reinforced anomaly detection
Anderson et al. Firm heterogeneity and export pricing in india
JP6012860B2 (ja) 作業時間推定装置
JP6975086B2 (ja) 品質評価方法および品質評価装置
Kock et al. Effective process times for multi-server flowlines with finite buffers
Wu et al. Sequential detection of common transient signals in high dimensional data stream
CN107832578B (zh) 基于态势变化模型的数据处理方法及装置
Allen et al. Determining resource requirements for elections using indifference-zone generalized binary search
CN109299826A (zh) 一种进馆档案数量预测方法、装置、电子设备及存储介质
US20240020436A1 (en) Automated data quality monitoring and data governance using statistical models
Fallah Nezhad et al. Determining the optimum process mean in a two-stage production system based on conforming run length sampling method
Karavarsamis et al. Comparison of four bootstrap‐based interval estimators of species occupancy and detection probabilities
JP2008305229A (ja) 需要予測方法および装置
Saghir et al. Designing of Gini-chart for exponential, t, logistic and Laplace distributions
Halkos et al. Evaluating alternative frequentist inferential approaches for optimal order quantities in the newsvendor model under exponential demand
Saghir The bivariate dispersion control charts for non-normal processes
Plumlee et al. Learning stochastic model discrepancy
Dhakshayani et al. Demand forecasting model for slow moving items

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 200040, room 710, 302 Changping Road, Shanghai, Jingan District

Applicant after: Shanghai Xinlian Information Development Co., Ltd

Address before: 200040, room 710, 302 Changping Road, Shanghai, Jingan District

Applicant before: SHANGHAI ZHONGXIN INFORMATION DEVELOPMENT Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190201