CN113723737A - 一种基于企业画像的政策匹配方法、装置、设备及介质 - Google Patents
一种基于企业画像的政策匹配方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113723737A CN113723737A CN202110508290.0A CN202110508290A CN113723737A CN 113723737 A CN113723737 A CN 113723737A CN 202110508290 A CN202110508290 A CN 202110508290A CN 113723737 A CN113723737 A CN 113723737A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- policy
- dimension
- information
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000004458 analytical method Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000012216 screening Methods 0.000 claims abstract description 16
- 238000002372 labelling Methods 0.000 claims abstract description 12
- 238000005516 engineering process Methods 0.000 claims description 13
- 238000011161 development Methods 0.000 claims description 12
- 230000018109 developmental process Effects 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000007726 management method Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000011002 quantification Methods 0.000 claims 1
- 230000003044 adaptive effect Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例公开了一种基于企业画像的政策匹配方法,以使企业更全面的获知企业能够适配的政策。方法包括:分别获取政策信息和企业各维度的数据信息;对企业各维度的数据信息进行筛选评估,获得企业各维度的能量得分,并通过预设的企业维度分析模型量化企业各维度的能力得分;根据企业各维度的能力得分对企业的各个维度进行标签,以获得企业的画像标签;对政策信息按照预设规则进行自动化分类拆解构成多个数据子集;获取与多个数据子集对应的关键词,通过标签提取机制对政策信息的关键词进行规则处理,获得政策标签;根据企业的画像标签与政策标签进行政策匹配,确定出与企业相匹配的政策。
Description
技术领域
本说明书涉及数据分析技术,尤其涉及一种基于企业画像的政策匹配方法。
背景技术
企业画像是大数据时代下的产物,是基于用户画像而产生,它通过企业的基本信息,抽取出标签化的企业模型,使用图表的形式将企业信息全方位展示出来。企业画像标签的建立是通过基础的统计类标签,以及企业用户行为而产生的规则类标签,最后在使用数据挖掘对企业某些属性进行预测判断,挖掘潜在的价值信息,这些标签就组成了企业画像的标签体系。企业画像能够形象展示出一个企业的综合实力,当企业在进行项目合作时,可以将画像信息作为重要依据。同时还可以减少企业之间的竞争,使企业趋利避害。
近年来,在科技、融资、人才、市场等方面出台了各种政策信息以扶持相关企业的发展。但是也面临了许多问题,诸如政策信息知晓度不高,企业不清楚已发行的信息,企业是否符合匹配政策信息的要求等。
因此,如何基于企业画像提供一种方便快捷的政策匹配方法,成为目前亟待解决问题。
发明内容
本说明书一个或多个实施例提供了一种基于企业画像的政策匹配方法、装置、设备及介质,用于解决如下技术问题:如何基于企业画像提供一种方便快捷的政策匹配方法。
本说明书一个或多个实施例采用下述技术方案:
本说明书一个或多个实施例提供一种基于企业画像的政策匹配方法,方法包括:
分别获取政策信息和企业各维度的数据信息;
对所述企业各维度的数据信息进行筛选评估,获得所述企业各维度的能量得分,并通过预设的企业维度分析模型量化所述企业各维度的能力得分;
根据所述企业各维度的能力得分对所述企业的各个维度进行标签,以获得所述企业的画像标签;
对所述政策信息按照预设规则进行自动化分类拆解构成多个数据子集;
获取与所述多个数据子集对应的关键词,通过标签提取机制对所述政策信息的关键词进行规则处理,获得政策标签;
根据所述企业的画像标签与所述政策标签进行政策匹配,确定出与所述企业相匹配的政策。
可选地,本说明书一个或多个实施例中,所述分别获取政策信息和企业各维度的数据信息,具体包括:
根据预设抓取周期,基于网络爬虫技术获取已发布的政策信息;其中,所述政策信息包括:同一领域的行业规定的政策信息、针对某一技术的规范性政策信息;
根据互联网及企业的数据库获取各个企业维度的数据信息,以形成企业各个维度的数据信息;
基于预设的时间范围,过滤已超期的政策信息和已超期的企业数据信息。
可选地,本说明书一个或多个实施例中,所述企业各维度的数据信息包括以下任意一项或多项:企业偿债能力的数据信息、发展能力的数据信息、经营能力的数据信息、履约能力的数据信息、行业的数据信息、区域的数据信息。
可选地,本说明书一个或多个实施例中,所述对所述各维度的数据信息进行筛选评估获得所述企业各维度的能力得分,并通过预设的企业维度分析模型,量化所述企业各维度的能力得分,具体包括:
对所述企业各维度的数据信息进行过滤,以删除冗余数据信息、不真实数据信息,并将过滤后的所述企业各维度的数据信息作为数据样本集;
通过在所述数据样本集中提取或量化企业各维度的数据信息,获得过滤后的所述企业各维度的数据信息的特征值;
根据专家经验模型对所述过滤后的所述企业各维度的数据信息的特征值进行评判,得到第一能力得分;
通过对第一能力得分与过滤后的所述企业各维度的数据信息特征值进行排序,获得与所述第一能力得分高分范围段和低分范围段对应的企业各维度的数据信息;
将所述对应的企业各维度的数据信息作为机器学习算法的数据集,并通过机器学习模型对所述数据集进行训练获得企业维度分析模型;
根据所述企业维度分析模型对所述企业各维度数据信息进行评估,获得量化后的所述企业各维度的能力得分。
可选地,本说明书一个或多个实施例中,所述对所述政策信息按照预设规则进行自动化分类拆解构成多个数据子集,具体包括:
根据预设规则对所述政策信息进行分类聚合,构成多个政策信息的数据子集;
对所述多个政策信息的数据子集进行数据预处理,并进行一定的分词处理,得到与所述政策信息对应的词序列;
根据所述词序列关联与所述数据子集对应的文本信息、地理信息、数据资料,以使所述政策信息与相关数据信息建立链接。
可选地,本说明书一个或多个实施例中,所述获取与所述多个数据子集对应的关键词,通过标签提取机制对所述政策信息的关键词进行规则处理,获得政策标签,具体包括:
通过关键词提取机制获取所述词序列中的关键词序列;
基于所述关键词序列的重复次数与所述关键词序列的权重值,对所述关键词序列进行排序编号;
根据预设数量的标签值选择编号靠前的关键词作为所述政策信息的政策标签。
可选地,本说明书一个或多个实施例中,所述根据所述企业的画像标签与所述政策标签进行政策匹配,具体包括:
根据相似度算法获得与所述企业标签匹配的政策标签的数量;
根据所述企业标签与所述政策标签匹配的数量除以政策标签总量乘以 100%,计算出政策匹配度;
若所述政策匹配度大于预设匹配值,则认为所述政策与企业相匹配,并根据所述政策标签所对应的链接下载所述政策的原文。
本说明书一个或多个实施例提供一种基于企业画像的政策匹配装置,装置包括:
信息获取单元,用于分别获取政策信息和企业各维度的数据信息;
评估单元,用于对所述企业各维度的数据信息进行筛选评估,获得所述企业各维度的能量得分,并通过预设的企业维度分析模型量化所述企业各维度的能力得分;
企业画像单元,用于根据所述企业各维度的能力得分对所述企业的各个维度进行标签,以获得所述企业的画像标签;
分类拆解单元,用于对所述政策信息按照预设规则进行自动化分类拆解构成多个数据子集;
政策标签生成单元,用于获取与所述多个数据子集对应的关键词,通过标签提取机制对所述政策信息的关键词进行规则处理,获得政策标签;
匹配单元,用于根据所述企业的画像标签与所述政策标签进行政策匹配,确定出与所述企业相匹配的政策。
本说明书一个或多个实施例提供一种基于企业画像的政策匹配设备,装置包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
分别获取政策信息和企业各维度的数据信息;
对所述企业各维度的数据信息进行筛选评估,获得所述企业各维度的能量得分,并通过预设的企业维度分析模型量化所述企业各维度的能力得分;
根据所述企业各维度的能力得分对所述企业的各个维度进行标签,以获得所述企业的画像标签;
对所述政策信息按照预设规则进行自动化分类拆解构成多个数据子集;
获取与所述多个数据子集对应的关键词,通过标签提取机制对所述政策信息的关键词进行规则处理,获得政策标签;
根据所述企业的画像标签与所述政策标签进行政策匹配,确定出与所述企业相匹配的政策。
本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
分别获取政策信息和企业各维度的数据信息;
对所述企业各维度的数据信息进行筛选评估,获得所述企业各维度的能量得分,并通过预设的企业维度分析模型量化所述企业各维度的能力得分;
根据所述企业各维度的能力得分对所述企业的各个维度进行标签,以获得所述企业的画像标签;
对所述政策信息按照预设规则进行自动化分类拆解构成多个数据子集;
获取与所述多个数据子集对应的关键词,通过标签提取机制对所述政策信息的关键词进行规则处理,获得政策标签;
根据所述企业的画像标签与所述政策标签进行政策匹配,确定出与所述企业相匹配的政策。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过基于机器学习模型和专家经验融合后的企业维度分析模型,对企业各维度信息进行评估,解决了单一专家经验模型进行评分的不稳定性和单一机器学习模型需要大量训练样本的问题。通过对政策信息进行关键词的提取和关键词权重的排序获得政策标签,可以使得政策标签更加贴合政策原文所反映的主题。通过对企业画像标签与政策标签的匹配,使得企业能够更加全面的获知企业能够适配的政策,有助于企业的发展和规划。同时,也使得政策信息更加全面的被企业所知。使得政策信息可以得到企业的响应,更多的企业能够享受政策红利。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本说明书一个或多个实施例提供的一种基于企业画像的政策匹配方法的方法流程示意图;
图2为本说明书一个或多个实施例提供的一种基于企业画像的政策匹配装置的内部结构示意图;
图3为本说明书一个或多个实施例提供的一种基于企业画像的政策汽配设备的内部结构示意图;
图4为本说明书一个或多个实施例提供的一种非易失性存储介质。
具体实施方式
本说明书实施例提供一种基于企业画像的政策匹配方法、装置、设备以及介质。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
近年来,在科技、融资、人才、市场等方面出台了各种政策以扶持企业的发展。但是也面临了许多问题,诸如政策知晓度不高,企业不清楚已发行的扶持政策,企业是否符合匹配政策的要求等。
因此,在信息时代,如何高效的获取政策信息,以大数据分析为基础,为各政策发行部门和企业提供服务,成为政策供给和企业需求精准匹配的关键问题。
本说明书通过在企业的多个维度筛选评估指标,并通过机器学习与专家经验相融合的企业维度分析模型,量化企业各维度的能力得分,从多维度对企业的综合能力进行展示,对企业的各个维度进行标签画像。同时,对政策信息进行自动化分类拆解成多个数据子集,以便更加快速精确的获取政策信息的标签以及政策信息的原文出处。通过企业的画像标签与政策标签的匹配使得企业获得适合各维度的政策信息,以便企业可以获知适配各维度的政策信息,为企业的发展规划提供了方向,也使得政策信息的推广得到了推动。
本说明书实施例中的执行主体可以是服务器、计算机或者具有处理功能的智能系统。
以下结合附图,详细说明本说明书提供的技术方案。
如图1所述,在本说明书一个或多个实施例中,一种提高交换机堆叠可靠性的实现方法,包括以下步骤:
S101:分别获取政策信息和企业各维度的数据信息
在本说明书一个或多个实施例中,所述分别获取政策信息和企业各维度的数据信息,具体包括:
根据预设抓取周期,基于网络爬虫技术获取已发布的政策信息;其中,所述政策信息包括:同一领域的行业规定的政策信息、针对某一技术的规范性政策信息;
根据互联网及企业的数据库获取各个企业维度的数据信息,以形成企业各个维度的数据信息;
基于预设的时间范围,过滤已超期的政策信息和已超期的企业数据信息。
由于企业数据信息与政策信息都是实时更新的,因此,每间隔一定的时间就会产生新的数据。根据预设抓取周期,通过网络爬虫技术可以获得企业与政策的实时信息,可以使得企业适时调整下一时间节点的发展策略,以便更好的获得政策上的支持。
其中,需要说明的是网络爬虫是一个基于Web的应用程序,可以应用在网页数据抽取、数据挖掘、语义理解等多个领域当中。基于网络爬虫的抓取过程可以根据多种规则进行设定,例如:本说明书中一个或多个实施例可以首先确定一个初始URL链接,其次通过URL获取网页的内容,然后分析网页内容提取所需的有效企业信息、政策信息和下级URL链接,最后选择下一个要处理的URL链接,循环下去,直到爬取完成获得当前时间的企业数据信息和政策信息为止。
在本说明书一个或多个实施例中,所述企业各维度的数据信息包括以下任意一项或多项:企业偿债能力的数据信息、发展能力的数据信息、经营能力的数据信息、履约能力的数据信息、行业的数据信息、区域的数据信息。
在本说明书一个或多个实施例中,所述企业偿债能力的数据信息可以包括以下任意一项或多项:企业营业额、订单数量、业务增长率、毛利润率、企业资质、企业年限、企业注册资金、企业资产总额、公司规模、信用指数;所述企业发展能力的数据信息可以包括以下任意一项或多项:部门完备数据、信息化程度、项目管理数据、风险识别能力、风险分析能力、知识产权及专利数量、创新队伍数量,科技人员占比;所述经营能力的数据信息包括以下任意一项或多项:企业创新力数据信息、企业竞争力数据信息、企业发展动力数据信息;所述履约能力的数据信息包括以下任意一项或多项:业务数据、违约业务数据、失信人信息数据、合伙人变更数据;所述行业的数据信息包括以下任意一项或多项:所属行业的企业的数量、所属行业的专利数据、对外网站数据;所述区域的数据信息包括:所述企业的地址信息、所述企业的地域信息、所述企业的主要受众区域信息。
S102:对所述企业各维度的数据信息进行筛选评估,获得所述企业各维度的能量得分,并通过预设的企业维度分析模型量化所述企业各维度的能力得分。
在本说明书一个或多个实施例中,所述对所述各维度的数据信息进行筛选评估获得所述企业各维度的能力得分,并通过预设的企业维度分析模型,量化所述企业各维度的能力得分,具体包括:
对所述企业各维度的数据信息进行过滤,以删除冗余数据信息、不真实数据信息,并将过滤后的所述企业各维度的数据信息作为数据样本集;
通过在所述数据样本集中提取或量化企业各维度的数据信息,获得过滤后的所述企业各维度的数据信息的特征值;
根据专家经验模型对所述过滤后的所述企业各维度的数据信息的特征值进行评判,得到第一能力得分;
通过对第一能力得分与过滤后的所述企业各维度的数据信息特征值进行排序,获得与所述第一能力得分高分范围段和低分范围段对应的企业各维度的数据信息;
将所述对应的企业各维度的数据信息作为机器学习算法的数据集,并通过机器学习模型对所述数据集进行训练获得企业维度分析模型;
根据所述企业维度分析模型对所述企业各维度数据信息进行评估,获得量化后的所述企业各维度的能力得分。
服务器获取到的所述企业各维度数据中包含冗余信息、虚假数据和超期的无用数据。这些冗余和虚假信息会对企业能力得分的评价产生影响,进而影响企业标签与所述企业的关联度。本说明书一个或多个实施例中,对收集到的所述企业各维度的信息数据进行交叉验证、数据清洗,以便通过关联关系去除不真实数据信息和虚假数据信息和冗余信息,将过滤后的企业各维度的数据信息作为企业维度分析模型的数据样本集。
专家经验模型主要依赖人类专家建立在企业发展分析人员、企业风险分析人员、企业评估人员对企业各维度信息数据的理解、经验和知识积累上。基本形式是,针对每一个企业的不同数据项按照重要程度给予不同的分值,分支越高的维度,说明企业在这一维度的付出成本高,可以作为代表本企业的代表性标签。但是单一的专家经验模型受个人主观因素的影响较大,使得评估的结果不稳定可靠性降低。所以,本说明书一个或多个实施例中,采用专家经验模型融合稳定可行度高的机器学习模型形成企业维度分析模型,来对企业各维度数据信息的评估。
在本说明书一个或多个实施例中,服务器在过滤后的数据样本集中结合以往的经验、相关数据的分布规律,提取与评估最相关的特征数据。通过量化特征数据后形成特征值,专家经验模型通过对特征值进行评分获得第一能力得分数据。同时服务器根据第一能力得分数据将特征值进行排序,并根据得分的比例将特征值数据分别划分到高分段得分数据集、低分段得分数据集、中分段得分数据集中。
通过机器学习模型对高分段得分数据集与低分段得分数据集中的企业数据信息,进行训练。得到一个既可以考虑所有的企业维度数据信息,又不完全依赖样本数据的稳定模型作为企业维度分析模型。通过企业维度分析模型可以获得可靠性高的企业各维度的能力得分。
S103:根据所述企业各维度的能力得分对所述企业的各个维度进行标签,以获得所述企业的画像标签。
服务器根据所述企业各维度的能力得分,获得所述企业各维度的标签指标,并通过画像标签生成模块按照预设规则,生成所述企业各维度的标签。
S104:对所述政策信息按照预设规则进行自动化分类拆解构成多个数据子集。
在本说明书一个或多个实施例中,所述对所述政策信息按照预设规则进行自动化分类拆解构成多个数据子集,具体包括:
根据预设规则对所述政策信息进行分类聚合,构成多个政策信息的数据子集;
对所述多个政策信息的数据子集进行数据预处理,并进行一定的分词处理,得到与所述政策信息对应的词序列;
根据所述词序列关联与所述数据子集对应的文本信息、地理信息、数据资料,以使所述政策信息与相关数据信息建立链接。
服务器通过自动分类规则对收集到的政策信息进行分类,以便针对不同的企业在不同的场景需求下可以更加快速准确的找到对应的政策信息。其中,服务器在对政策信息进行分类后,将同类目的政策信息划分到同一个数据子集当中。划分后的数据子集中的政策信息,可以是针对同一领域的行业规定的政策信息、针对某一地区制定的具有优惠扶持的政策信息、针对某一技术的规范性政策信息等。服务器还可以根据当前的分类数据集,继续进行细化分类,使得企业可以根据组合检索的方式获得对应的政策信息,以满足企业匹配政策过程中基于多方向进行政策匹配的问题。
当对政策信息进行分类后需要经过预处理,以对政策原文中的标点符号、网络标签以及乱码等噪声数据进行数据清理。在本说明书一个或多个实施例中,服务器通过随机森林分类算法进行政策信息的文本分类,并结合专业大词库对文本分词进行切分,得到与所述政策信息的文本相对应的词序列。服务器根据所述词序列分别关联与所述数据子集对应的文本信息、地理信息、数据资料,以使所述政策信息与相关数据信息建立链接,例如:通过某公司的地理数据可以匹配到,相对应的政策信息中的地理信息,从而将关于某区域、某地区中实行的具有优惠扶持的文件信息匹配到该地的企业,使得企业可以更好地进行公司的发展规划并享受政策上的鼓励。
S105:获取与所述多个数据子集对应的关键词,通过标签提取机制对所述政策信息的关键词进行规则处理,获得政策标签。
在本说明书一个或多个实施例中,所述获取与所述多个数据子集对应的关键词,通过标签提取机制对所述政策信息的关键词进行规则处理,获得政策标签,具体包括:
通过关键词提取机制获取所述词序列中的关键词序列;
基于所述关键词序列的重复次数与所述关键词序列的权重值,对所述关键词序列进行排序编号;
根据预设数量的标签值选择编号靠前的关键词作为所述政策信息的政策标签。
服务器对数据子集中的数据进行预处理后,每个政策信息的文本数据都被切成了相应的词序列。服务器需要对这些词序列,进行量化来表示政策信息的特征,而不能简单的将这些词出现的个数作为特征。例如:在收集到的100篇政策原文中,如果“通信技术”在每一个政策原文中都只出现了一次,那么我们就认为“通信技术”这个词的特征权重较低,也就是这个词的重要性不高。所以对特征词被赋予的不同权重,可以提高政策的分类效果。
在本说明书一个或多个实施例中,通过将LDA算法作为关键词提取机制来获取词序列中的关键词序列。
在本说明书一个或多个实施例中,将经过数据预处理的词序列放入LDA 算法中,得到政策原文的主题在原文档中的权重为X1,而一个关键词在政策原文中的权重为X2,那么最终这个关键词在文档中的权重为X1-X2,通过这样的方式来获取政策信息的关键词。通过获得的若干个关键词的权重对关键词进行排序,并选择关键词权重高的若干词组作为政策信息的政策标签。
S106:根据所述企业的画像标签与所述政策标签进行政策匹配,确定出与所述企业相匹配的政策。
在本说明书一个或多个实施例中,所述根据所述企业的画像标签与所述政策标签进行政策匹配,具体包括:
根据相似度算法获得与所述企业标签匹配的政策标签的数量;
根据所述企业标签与所述政策标签匹配的数量除以政策标签总量乘以 100%,计算出政策匹配度;
若所述政策匹配度大于预设匹配值,则认为所述政策与企业相匹配,并根据所述政策标签所对应的链接下载所述政策的原文。
服务器通过对上述企业画像标签和政策标签进行相似度匹配,获得与企业画像标签向匹配的若干数量的政策标签。通过政策匹配度的公式:政策匹配度=企业标签与所述政策标签匹配的数量÷政策标签总量×100%。本说明书一个或多个实施例中,设置预设匹配值为70%,如果计算得到的政策匹配度大于预设值则认为企业和该政策相匹配。服务器根据政策标签的链接将政策信息及政策原文发送给对应的企业。使得企业可以获得适配的政策,使得更多的企业可以方便快捷的享受到政策的福利,并使得政策可以更加全面的得到普及。
如图2所示,本说明书一个或多个实施例提供了一种基于企业画像的政策匹配装置,所述装置包括:
信息获取单元201,用于分别获取政策信息和企业各维度的数据信息;
评估单元202,用于对所述企业各维度的数据信息进行筛选评估,获得所述企业各维度的能量得分,并通过预设的企业维度分析模型量化所述企业各维度的能力得分;
企业画像单元203,用于根据所述企业各维度的能力得分对所述企业的各个维度进行标签,以获得所述企业的画像标签;
分类拆解单元204,用于对所述政策信息按照预设规则进行自动化分类拆解构成多个数据子集;
政策标签生成单元205,用于获取与所述多个数据子集对应的关键词,通过标签提取机制对所述政策信息的关键词进行规则处理,获得政策标签;
匹配单元206,用于根据所述企业的画像标签与所述政策标签进行政策匹配,确定出与所述企业相匹配的政策。
如图3所示,本说明书一个或多个实施例提供了一种基于企业画像的政策匹配设备,所述设备包括:
至少一个处理器301;以及,
与所述至少一个处理器301通信连接的存储器302;其中,
所述存储器302存储有可被至少一个处理器301的执行指令,所述执行指令被所述至少一个处理器301执行,以使所述至少一个处理器301能够:
分别获取政策信息和企业各维度的数据信息;
对所述企业各维度的数据信息进行筛选评估,获得所述企业各维度的能量得分,并通过预设的企业维度分析模型量化所述企业各维度的能力得分;
根据所述企业各维度的能力得分对所述企业的各个维度进行标签,以获得所述企业的画像标签;
对所述政策信息按照预设规则进行自动化分类拆解构成多个数据子集;
获取与所述多个数据子集对应的关键词,通过标签提取机制对所述政策信息的关键词进行规则处理,获得政策标签;
根据所述企业的画像标签与所述政策标签进行政策匹配,确定出与所述企业相匹配的政策。
如图4所示,本说明书一个或多个实施例提供了一种非易失性存储介质,存储有计算机的可执行指令401,所述可执行指令401包括:
分别获取政策信息和企业各维度的数据信息;
对所述企业各维度的数据信息进行筛选评估,获得所述企业各维度的能量得分,并通过预设的企业维度分析模型量化所述企业各维度的能力得分;
根据所述企业各维度的能力得分对所述企业的各个维度进行标签,以获得所述企业的画像标签;
对所述政策信息按照预设规则进行自动化分类拆解构成多个数据子集;
获取与所述多个数据子集对应的关键词,通过标签提取机制对所述政策信息的关键词进行规则处理,获得政策标签;
根据所述企业的画像标签与所述政策标签进行政策匹配,确定出与所述企业相匹配的政策。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (10)
1.一种基于企业画像的政策匹配方法,其特征在于,所述方法包括:
分别获取政策信息和企业各维度的数据信息;
对所述企业各维度的数据信息进行筛选评估,获得所述企业各维度的能量得分,并通过预设的企业维度分析模型量化所述企业各维度的能力得分;
根据所述企业各维度的能力得分对所述企业的各个维度进行标签,以获得所述企业的画像标签;
对所述政策信息按照预设规则进行自动化分类拆解构成多个数据子集;
获取与所述多个数据子集对应的关键词,通过标签提取机制对所述政策信息的关键词进行规则处理,获得政策标签;
根据所述企业的画像标签与所述政策标签进行政策匹配,确定出与所述企业相匹配的政策。
2.根据权利要求1所述的一种基于企业画像的政策匹配方法,其特征在于,所述分别获取政策信息和企业各维度的数据信息,具体包括:
根据预设抓取周期,基于网络爬虫技术获取已发布的政策信息;其中,所述政策信息包括:针对同一领域的行业规定的政策信息、针对某一技术的规范性政策信息;
根据互联网及企业的数据库获取各个企业维度的数据信息,以形成企业各个维度的数据信息;
基于预设的时间范围,过滤已超期的政策信息和已超期的企业数据信息。
3.根据权利要求1所述的一种基于企业画像的政策匹配方法,其特征在于,所述企业各维度的数据信息包括以下任意一项或多项:企业偿债能力的数据信息、发展能力的数据信息、经营能力的数据信息、履约能力的数据信息、行业的数据信息、区域的数据信息。
4.根据权利要求1所述的一种基于企业画像的政策匹配方法,其特征在于,所述对所述各维度的数据信息进行筛选评估获得所述企业各维度的能力得分,并通过预设的企业维度分析模型,量化所述企业各维度的能力得分,具体包括:
对所述企业各维度的数据信息进行过滤,以删除冗余数据信息、不真实数据信息,并将过滤后的所述企业各维度的数据信息作为数据样本集;
通过在所述数据样本集中提取或量化企业各维度的数据信息,获得过滤后的所述企业各维度的数据信息的特征值;
根据专家经验模型对所述过滤后的所述企业各维度的数据信息的特征值进行评判,得到第一能力得分;
通过对第一能力得分与过滤后的所述企业各维度的数据信息特征值进行排序,获得与所述第一能力得分高分范围段和低分范围段对应的企业各维度的数据信息;
将所述对应的企业各维度的数据信息作为机器学习算法的数据集,并通过机器学习模型对所述数据集进行训练获得企业维度分析模型;
根据所述企业维度分析模型对所述企业各维度数据信息进行评估,获得量化后的所述企业各维度的能力得分。
5.根据权利要求1所述的一种基于企业画像的政策匹配方法,其特征在于,所述对所述政策信息按照预设规则进行自动化分类拆解构成多个数据子集,具体包括:
根据预设规则对所述政策信息进行分类聚合,构成多个政策信息的数据子集;
对所述多个政策信息的数据子集进行数据预处理,并进行一定的分词处理,得到与所述政策信息对应的词序列;
根据所述词序列关联与所述数据子集对应的文本信息、地理信息、数据资料,以使所述政策信息与相关数据信息建立链接。
6.根据权利要求5所述的一种基于企业画像的政策匹配方法,其特征在于,所述获取与所述多个数据子集对应的关键词,通过标签提取机制对所述政策信息的关键词进行规则处理,获得政策标签,具体包括:
通过关键词提取机制获取所述词序列中的关键词序列;
基于所述关键词序列的重复次数与所述关键词序列的权重值,对所述关键词序列进行排序编号;
根据预设数量的标签值选择编号靠前的关键词作为所述政策信息的政策标签。
7.根据权利要求1所述的一种基于企业画像的政策匹配方法,其特征在于,所述根据所述企业的画像标签与所述政策标签进行政策匹配,具体包括:
根据相似度算法获得与所述企业标签匹配的政策标签的数量;
根据所述企业标签与所述政策标签匹配的数量除以政策标签总量乘以100%,计算出政策匹配度;
若所述政策匹配度大于预设匹配值,则认为所述政策与企业相匹配,并根据所述政策标签所对应的链接下载所述政策的原文。
8.一种基于企业画像的政策匹配装置,其特征在于,所述装置包括:
信息获取单元,用于分别获取政策信息和企业各维度的数据信息;
评估单元,用于对所述企业各维度的数据信息进行筛选评估,获得所述企业各维度的能量得分,并通过预设的企业维度分析模型量化所述企业各维度的能力得分;
企业画像单元,用于根据所述企业各维度的能力得分对所述企业的各个维度进行标签,以获得所述企业的画像标签;
分类拆解单元,用于对所述政策信息按照预设规则进行自动化分类拆解构成多个数据子集;
政策标签生成单元,用于获取与所述多个数据子集对应的关键词,通过标签提取机制对所述政策信息的关键词进行规则处理,获得政策标签;
匹配单元,用于根据所述企业的画像标签与所述政策标签进行政策匹配,确定出与所述企业相匹配的政策。
9.一种基于企业画像的政策匹配设备,其特征在于,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被至少一个处理器的执行指令,所述执行指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
分别获取政策信息和企业各维度的数据信息;
对所述企业各维度的数据信息进行筛选评估,获得所述企业各维度的能量得分,并通过预设的企业维度分析模型量化所述企业各维度的能力得分;
根据所述企业各维度的能力得分对所述企业的各个维度进行标签,以获得所述企业的画像标签;
对所述政策信息按照预设规则进行自动化分类拆解构成多个数据子集;
获取与所述多个数据子集对应的关键词,通过标签提取机制对所述政策信息的关键词进行规则处理,获得政策标签;
根据所述企业的画像标签与所述政策标签进行政策匹配,确定出与所述企业相匹配的政策。
10.一种非易失性存储介质,存储有计算机的可执行指令,其特征在于,所述可执行指令包括:
分别获取政策信息和企业各维度的数据信息;
对所述企业各维度的数据信息进行筛选评估,获得所述企业各维度的能量得分,并通过预设的企业维度分析模型量化所述企业各维度的能力得分;
根据所述企业各维度的能力得分对所述企业的各个维度进行标签,以获得所述企业的画像标签;
对所述政策信息按照预设规则进行自动化分类拆解构成多个数据子集;
获取与所述多个数据子集对应的关键词,通过标签提取机制对所述政策信息的关键词进行规则处理,获得政策标签;
根据所述企业的画像标签与所述政策标签进行政策匹配,确定出与所述企业相匹配的政策。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110508290.0A CN113723737A (zh) | 2021-05-11 | 2021-05-11 | 一种基于企业画像的政策匹配方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110508290.0A CN113723737A (zh) | 2021-05-11 | 2021-05-11 | 一种基于企业画像的政策匹配方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113723737A true CN113723737A (zh) | 2021-11-30 |
Family
ID=78672733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110508290.0A Pending CN113723737A (zh) | 2021-05-11 | 2021-05-11 | 一种基于企业画像的政策匹配方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723737A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113918707A (zh) * | 2021-12-14 | 2022-01-11 | 中关村科技软件股份有限公司 | 一种政策汇聚与企业画像匹配推荐的方法 |
CN114331686A (zh) * | 2021-12-30 | 2022-04-12 | 鲁信科技股份有限公司 | 一种基于标签的不良资产管理方法、设备及介质 |
CN115982434A (zh) * | 2023-01-05 | 2023-04-18 | 深圳市动能无线传媒有限公司 | 一种基于人工智能的素材信息分类管理方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726905A (zh) * | 2018-12-20 | 2019-05-07 | 北交金科金融信息服务有限公司 | 一种企业价值画像评价的方法和系统 |
CN110275935A (zh) * | 2019-05-10 | 2019-09-24 | 平安科技(深圳)有限公司 | 政策信息的处理方法、装置、及存储介质、电子装置 |
CN110532451A (zh) * | 2019-06-26 | 2019-12-03 | 平安科技(深圳)有限公司 | 针对政策文本的检索方法和装置、存储介质、电子装置 |
CN111782811A (zh) * | 2020-07-03 | 2020-10-16 | 湖南大学 | 一种基于卷积神经网络和支持向量机的电子政务敏感文本检测方法 |
CN111950932A (zh) * | 2020-08-26 | 2020-11-17 | 北京信息科技大学 | 基于多源信息融合的中小微企业综合质量画像方法 |
CN112184525A (zh) * | 2020-09-28 | 2021-01-05 | 上海市浦东新区行政服务中心(上海市浦东新区市民中心) | 通过自然语义分析实现智能匹配推荐的系统及方法 |
CN112380318A (zh) * | 2020-11-12 | 2021-02-19 | 中国科学技术大学智慧城市研究院(芜湖) | 基于标签相似度的企业政策匹配方法 |
CN112632964A (zh) * | 2020-12-24 | 2021-04-09 | 平安科技(深圳)有限公司 | 基于nlp的行业政策信息处理方法、装置、设备及介质 |
-
2021
- 2021-05-11 CN CN202110508290.0A patent/CN113723737A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726905A (zh) * | 2018-12-20 | 2019-05-07 | 北交金科金融信息服务有限公司 | 一种企业价值画像评价的方法和系统 |
CN110275935A (zh) * | 2019-05-10 | 2019-09-24 | 平安科技(深圳)有限公司 | 政策信息的处理方法、装置、及存储介质、电子装置 |
CN110532451A (zh) * | 2019-06-26 | 2019-12-03 | 平安科技(深圳)有限公司 | 针对政策文本的检索方法和装置、存储介质、电子装置 |
CN111782811A (zh) * | 2020-07-03 | 2020-10-16 | 湖南大学 | 一种基于卷积神经网络和支持向量机的电子政务敏感文本检测方法 |
CN111950932A (zh) * | 2020-08-26 | 2020-11-17 | 北京信息科技大学 | 基于多源信息融合的中小微企业综合质量画像方法 |
CN112184525A (zh) * | 2020-09-28 | 2021-01-05 | 上海市浦东新区行政服务中心(上海市浦东新区市民中心) | 通过自然语义分析实现智能匹配推荐的系统及方法 |
CN112380318A (zh) * | 2020-11-12 | 2021-02-19 | 中国科学技术大学智慧城市研究院(芜湖) | 基于标签相似度的企业政策匹配方法 |
CN112632964A (zh) * | 2020-12-24 | 2021-04-09 | 平安科技(深圳)有限公司 | 基于nlp的行业政策信息处理方法、装置、设备及介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113918707A (zh) * | 2021-12-14 | 2022-01-11 | 中关村科技软件股份有限公司 | 一种政策汇聚与企业画像匹配推荐的方法 |
CN114331686A (zh) * | 2021-12-30 | 2022-04-12 | 鲁信科技股份有限公司 | 一种基于标签的不良资产管理方法、设备及介质 |
CN115982434A (zh) * | 2023-01-05 | 2023-04-18 | 深圳市动能无线传媒有限公司 | 一种基于人工智能的素材信息分类管理方法及系统 |
CN115982434B (zh) * | 2023-01-05 | 2023-08-11 | 深圳市动能无线传媒有限公司 | 一种基于人工智能的素材信息分类管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9990356B2 (en) | Device and method for analyzing reputation for objects by data mining | |
CN103154991B (zh) | 信用风险采集 | |
CN104137128B (zh) | 用于使用数据和情绪分析来生成绿色分数的方法及系统 | |
CN103294592B (zh) | 利用用户工具交互来自动分析其服务交付中的缺陷的方法与系统 | |
CN113723737A (zh) | 一种基于企业画像的政策匹配方法、装置、设备及介质 | |
US20080301138A1 (en) | Method for Analyzing Patent Claims | |
Yussupova et al. | Models and methods for quality management based on artificial intelligence applications | |
CN106919619A (zh) | 一种商品聚类方法、装置及电子设备 | |
CN108572967A (zh) | 一种创建企业画像的方法及装置 | |
Moon et al. | Document management system using text mining for information acquisition of international construction | |
US20220343433A1 (en) | System and method that rank businesses in environmental, social and governance (esg) | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN109492097B (zh) | 一种企业新闻数据风险分类方法 | |
Matthies et al. | Computer-aided text analysis of corporate disclosures-demonstration and evaluation of two approaches | |
CN112419029B (zh) | 类金融机构风险监控方法、风险模拟系统及存储介质 | |
Lee et al. | Extraction and visualization of industrial service portfolios by text mining of 10-K annual reports | |
CN114462556A (zh) | 企业关联产业链分类方法、训练方法、装置、设备和介质 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN114969498A (zh) | 一种行业龙头信息的推荐方法及装置 | |
CN111241077A (zh) | 基于互联网数据的金融欺诈行为的识别方法 | |
CN116049243A (zh) | 企业知识产权大数据情报分析系统、方法及存储介质 | |
Schmidt et al. | What is the role of data in jobs in the United Kingdom, Canada, and the United States?: A natural language processing approach | |
Chen et al. | Predicting a corporate financial crisis using letters to shareholders | |
Jishag et al. | Automated review analyzing system using sentiment analysis | |
CN111008038B (zh) | 一种基于逻辑回归模型的pull request被合并概率的计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |