CN111931031A - 一种用于政策信息匹配度计算的方法 - Google Patents
一种用于政策信息匹配度计算的方法 Download PDFInfo
- Publication number
- CN111931031A CN111931031A CN202010836220.3A CN202010836220A CN111931031A CN 111931031 A CN111931031 A CN 111931031A CN 202010836220 A CN202010836220 A CN 202010836220A CN 111931031 A CN111931031 A CN 111931031A
- Authority
- CN
- China
- Prior art keywords
- policy information
- data
- matching
- calculating
- policy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000007621 cluster analysis Methods 0.000 claims 1
- 230000002085 persistent effect Effects 0.000 claims 1
- 238000012216 screening Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010924 continuous production Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种用于政策信息匹配度计算的方法。本发明实施例所提供的用于政策信息匹配度计算方法能够自动搜集政策信息并对政策信息进行分类、将用户信息与政策信息进行匹配度计算,有效地解决了企业或高校人员面对多渠道、多种类的政策信息,人工筛选和匹配的低效率问题。
Description
技术领域
本发明涉及计算机信息处理的技术领域,特别是涉及一种用于政策信息匹配度计算的方法。
背景技术
随着经济与社会的迅速发展,国家、省、市、区等政府部门制定并出台了一系列扶持高校科研人员及企业创新发展的利好政策。但是,由于各种政策的类型不同、发布时间不同和发布部门不同,造成政策分布较为离散,企业及高校科研人员需要花费大量的时间和精力来搜索政策、验证政策时效性、评估申报可行性。这不利于各类扶持政策的执行和无法达到政策发布时的预期效果,各类申报主体也不能充分、有效地做好项目规划和申报准备。因此,如何从大量的政策信息中筛选出符合自身申报条件的政策成了信息技术处理领域重要的研究方向。
因此,针对上述技术问题,有必要提供一种能够自动搜集政策信息并对政策信息进行分类、将用户信息与政策信息进行匹配度计算的方法。
发明内容
有鉴于此,本发明实施例的目的在于提供一种用于政策信息匹配度计算的方法。本发明实施例所提供的用于政策信息匹配度计算方法能够自动搜集政策信息并对政策信息进行分类、将用户信息与政策信息进行匹配度计算,有效地解决了企业或高校人员面对多渠道、多种类的政策信息,人工筛选和匹配的低效率问题。
为了实现上述目的,本发明一实施例提供的技术方案如下:一种用于政策信息匹配度计算的方法包括:从预设网址或页面上采集政策信息,从而构建数据仓库;对所述数据仓库中的数据进行数据预处理,所述数据预处理包括转换数据格式、丢弃异常数据、提取特征值和选择指标;建立政策信息匹配模型,包括收集历史政策信息,训练匹配模型和收集目标单位的特征值;输出所述目标单位与政策信息的政策匹配度报告。
作为本发明的进一步改进,所述训练匹配模型包括初始化各类特征值的权重、计算各位权重值和计算匹配度。
作为本发明的进一步改进,所述计算各位权重值可由专业政策分析人员对不同类型的政策根据申报经验进行人为的权重值调整。
作为本发明的进一步改进,所述计算匹配度步骤采用变异系数算法。
作为本发明的进一步改进,在采用变异系数算法之前添加松弛变量算法进行数据噪点去除。
作为本发明的进一步改进,所述预设网址包括用于发布政策信息的网址,所述预设页面包括用于发布政策信息的页面。
作为本发明的进一步改进,所述构建数据库步骤为持续性步骤。
作为本发明的进一步改进,所述选择指标采用R型聚类分析法。
本发明具有以下优点:
本发明实施例所提供的用于政策信息匹配度计算方法能够自动搜集政策信息并对政策信息进行分类、将用户信息与政策信息进行匹配度计算,有效地解决了企业或高校人员面对多渠道、多种类的政策信息,人工筛选和匹配的低效率问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种用于政策信息匹配度计算方法流程示意图;
图2为图1所示实施例对应的另一种模块化表示方式的流程示意图;
图3为计算松弛变量过程中的数据噪点显示示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如图1和图2所示,本发明第一实施例提供一种用于政策信息匹配度计算方法流程示意图。在该实施例中,一种用于政策信息匹配度计算的方法包括四个步骤,每个步骤的具体内容如下所示。
步骤S1:从预设网址或页面上采集政策信息,从而构建数据仓库。在该实施例中,所述预设网址包括用于发布政策信息的网址,所述预设页面包括用于发布政策信息的页面。优选地,构建数据库步骤为持续性步骤,即采集政策信息是一个持续性的过程,当预设网址或页面上发布新的政策信息时,政策采集器就进行信息采集,并将采集的政策信息添加至数据仓库中。
步骤S2:对所述数据仓库中的数据进行数据预处理,所述数据预处理包括转换数据格式、丢弃异常数据、提取特征值和选择指标。为了适应政策匹配模型的数据格式要求,需要将数据仓库中的数据格式进行转换。在转换过程中,需要对一些不符合预定规则或者政策匹配模型无需使用的数据进行舍弃。对转换过格式的数据再进行特征值提取,综合政策整体评估指标及各类型政策的特有指标,采用R型聚类算法和变异系数算法,筛选出独立性、区分性高的指标。
R型聚类算法是聚类分析的一种对指标进行分类的算法。
为了防止遗漏某些重要影响因素,在一开始选取指标的时候尽可能考虑所有的相关因素。但是,这样做的结果,会使得变量过多,变量间的相关度较高,给统计分析与建模带来极大不便,按照变量的相似干系把他们聚合成若干类,进而找出影响系统的主要因素,因此引入了R型聚类分析法。
下表X1-X10为列举的特征匹配指标内容以及各指标的相关系数。
变异系数是衡量资料中各观测值变异程度的一个统计量,标准差与平均数的比值称为变异系数,记为C.V,具体的计算公式如式1所示:
C.V.=σ/|μ| (式1)
其中,σ=√∑(xi-u)^2/n,u=(∑xi)/n。
由于样本数据不能够用一个超平面把数据完全分开。数据集中存在噪点,在求超平的时候会出现很大问题。从图3中可看出其中一个点偏差太大,如果把它作为支持向量,所求出来的margin就会比不算入它时要小得多。如果这个点落在了其他点之间,那么就找不出超平面了。
因此,在数据处理过程中,引入一个松弛变量ξ来允许一些数据可以处于分隔面错误的一侧,这时新的约束条件变为式2所示:
yi(wΣxi+b)≥1-ξii=1,2…n (式2)
其中,ξi的含义为允许第i个数据点允许偏离的间隔。如果让ξ任意大的话,那么任意的超平面都是符合条件的了。所以在原有目标的基础之上,尽可能的让ξ的总量也尽可能的小,新的目标函数变为式3所示:
新的拉格朗日函数变为式4所示:
接下来将拉格朗日函数转化为其对偶函数,首先对L分别求w,b,ξ的偏导,并令其为0,结果如式5所示:
经过添加松弛变量的方法,本发明实施例可以解决数据混乱的问题。
步骤S3:建立政策信息匹配模型,包括收集历史政策信息,训练匹配模型和收集目标单位的特征值。在该实施例中,所述训练匹配模型包括初始化各类特征值的权重、计算各位权重值和计算匹配度。优选地,所述计算各位权重值可由专业政策分析人员对不同类型的政策根据申报经验进行人为的权重值调整。图2中,目标单位的特征值仅列举了企业特征值为例。
步骤S4:输出所述目标单位与政策信息的政策匹配度报告。
本发明实施例所提供的用于政策信息匹配度计算方法能够自动搜集政策信息并对政策信息进行分类、将用户信息与政策信息进行匹配度计算,有效地解决了企业或高校人员面对多渠道、多种类的政策信息,人工筛选和匹配的低效率问题。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (8)
1.一种用于政策信息匹配度计算的方法,其特征在于,所述方法包括:
从预设网址或页面上采集政策信息,从而构建数据仓库;
对所述数据仓库中的数据进行数据预处理,所述数据预处理包括转换数据格式、丢弃异常数据、提取特征值和选择指标;
建立政策信息匹配模型,包括收集历史政策信息,训练匹配模型和收集目标单位的特征值;
输出所述目标单位与政策信息的政策匹配度报告。
2.根据权利要求1所述的一种用于政策信息匹配度计算的方法,其特征在于,所述训练匹配模型包括初始化各类特征值的权重、计算各位权重值和计算匹配度。
3.根据权利要求2所述的一种用于政策信息匹配度计算的方法,其特征在于,所述计算各位权重值可由专业政策分析人员对不同类型的政策根据申报经验进行人为的权重值调整。
4.根据权利要求2所述的一种用于政策信息匹配度计算的方法,其特征在于,所述计算匹配度步骤采用变异系数算法。
5.根据权利要求4所述的一种用于政策信息匹配度计算的方法,其特征在于,在采用变异系数算法之前添加松弛变量算法进行数据噪点去除。
6.根据权利要求1所述的一种用于政策信息匹配度计算的方法,其特征在于,所述预设网址包括用于发布政策信息的网址,所述预设页面包括用于发布政策信息的页面。
7.根据权利要求1所述的一种用于政策信息匹配度计算的方法,其特征在于,所述构建数据库步骤为持续性步骤。
8.根据权利要求1所述的一种用于政策信息匹配度计算的方法,其特征在于,所述选择指标采用R型聚类分析法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010836220.3A CN111931031A (zh) | 2020-08-19 | 2020-08-19 | 一种用于政策信息匹配度计算的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010836220.3A CN111931031A (zh) | 2020-08-19 | 2020-08-19 | 一种用于政策信息匹配度计算的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111931031A true CN111931031A (zh) | 2020-11-13 |
Family
ID=73304815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010836220.3A Pending CN111931031A (zh) | 2020-08-19 | 2020-08-19 | 一种用于政策信息匹配度计算的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931031A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541740A (zh) * | 2020-12-18 | 2021-03-23 | 苏州晨功侠科技有限公司 | 一种企业政策匹配和评估算法 |
CN112765338A (zh) * | 2020-12-30 | 2021-05-07 | 江苏风云科技服务有限公司 | 一种政策数据推送方法、政策计算器、计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242326A (zh) * | 2018-09-19 | 2019-01-18 | 江苏风云科技服务有限公司 | 一种基于大数据和人工智能的政策共享系统 |
CN109711929A (zh) * | 2018-12-13 | 2019-05-03 | 中国平安财产保险股份有限公司 | 基于预测模型的业务推荐的方法及装置 |
CN110457696A (zh) * | 2019-07-31 | 2019-11-15 | 福州数据技术研究院有限公司 | 一种面向档案数据的人才与政策智能匹配系统和方法 |
CN110956303A (zh) * | 2019-10-12 | 2020-04-03 | 未鲲(上海)科技服务有限公司 | 信息预测方法、装置、终端及可读存储介质 |
-
2020
- 2020-08-19 CN CN202010836220.3A patent/CN111931031A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242326A (zh) * | 2018-09-19 | 2019-01-18 | 江苏风云科技服务有限公司 | 一种基于大数据和人工智能的政策共享系统 |
CN109711929A (zh) * | 2018-12-13 | 2019-05-03 | 中国平安财产保险股份有限公司 | 基于预测模型的业务推荐的方法及装置 |
CN110457696A (zh) * | 2019-07-31 | 2019-11-15 | 福州数据技术研究院有限公司 | 一种面向档案数据的人才与政策智能匹配系统和方法 |
CN110956303A (zh) * | 2019-10-12 | 2020-04-03 | 未鲲(上海)科技服务有限公司 | 信息预测方法、装置、终端及可读存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541740A (zh) * | 2020-12-18 | 2021-03-23 | 苏州晨功侠科技有限公司 | 一种企业政策匹配和评估算法 |
CN112765338A (zh) * | 2020-12-30 | 2021-05-07 | 江苏风云科技服务有限公司 | 一种政策数据推送方法、政策计算器、计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Analysis of linkage effects among industry sectors in China’s stock market before and after the financial crisis | |
CN109102157A (zh) | 一种基于深度学习的银行工单派单方法及系统 | |
CN111931031A (zh) | 一种用于政策信息匹配度计算的方法 | |
CN110851667A (zh) | 一种多源头大量数据的整合分析方法及工具 | |
CN116644184B (zh) | 基于数据聚类的人力资源信息管理系统 | |
CN112131203A (zh) | 一种数据仓库搭建的方法和系统 | |
CN110544035A (zh) | 一种内控检测方法、系统和计算机可读存储介质 | |
CN114817681B (zh) | 一种基于大数据分析的金融风控系统及其管理设备 | |
CN109657991B (zh) | 元数据质量评估方法、装置、电子设备、存储介质 | |
CN114841598A (zh) | 针对操作风险的决策方法、装置、设备和程序产品 | |
CN106327392A (zh) | 一种基于大数据的考试录取智能预测方法 | |
CN114676749A (zh) | 一种基于数据挖掘的配电网运行数据异常判定方法 | |
CN109165854B (zh) | 空管运行效率等级评估方法及其装置 | |
CN111127186A (zh) | 一种基于大数据技术的客户信用等级评价体系的使用方法 | |
CN116681410A (zh) | 基于云计算的人力资源数据管理系统及管理方法 | |
Scrivner et al. | XD Metrics on Demand Value Analytics: Visualizing the Impact of Internal Information Technology Investments on External Funding, Publications, and Collaboration Networks | |
CN115796585A (zh) | 一种企业经营风险评估方法及系统 | |
CN113642669B (zh) | 基于特征分析的防欺诈检测方法、装置、设备及存储介质 | |
WO2022143431A1 (zh) | 一种反洗钱模型的训练方法及装置 | |
CN112987940A (zh) | 一种基于样本概率量化的输入方法、装置和电子设备 | |
CN113836313B (zh) | 一种基于图谱的审计信息识别方法与系统 | |
Haoru et al. | Risk Assessment of Internet Credit Based on Big Data Analysis | |
De Luca | Models for predicting school district fiscal stress: one size does not fit all | |
Anuar et al. | Reverse Migration Factor in Machine Learning Models | |
Dai | Research on Evaluation and Management Mechanism of Education Management System Based on Clustering Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201113 |
|
RJ01 | Rejection of invention patent application after publication |