CN116308109A - 一种基于大数据的企业政策智能推荐及政策制定系统 - Google Patents
一种基于大数据的企业政策智能推荐及政策制定系统 Download PDFInfo
- Publication number
- CN116308109A CN116308109A CN202211725250.2A CN202211725250A CN116308109A CN 116308109 A CN116308109 A CN 116308109A CN 202211725250 A CN202211725250 A CN 202211725250A CN 116308109 A CN116308109 A CN 116308109A
- Authority
- CN
- China
- Prior art keywords
- data
- policy
- platform
- recommendation
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000007726 management method Methods 0.000 claims abstract description 25
- 238000011161 development Methods 0.000 claims abstract description 24
- 238000013500 data storage Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000009472 formulation Methods 0.000 claims abstract description 15
- 239000000203 mixture Substances 0.000 claims abstract description 15
- 238000010276 construction Methods 0.000 claims abstract description 11
- 238000004140 cleaning Methods 0.000 claims abstract description 5
- 238000011282 treatment Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 25
- 230000005540 biological transmission Effects 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000002474 experimental method Methods 0.000 claims description 9
- 238000013523 data management Methods 0.000 claims description 7
- 230000008707 rearrangement Effects 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000012800 visualization Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 4
- 230000006399 behavior Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000013215 result calculation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Fuzzy Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Primary Health Care (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于大数据处理技术领域,特别涉及一种基于大数据的企业政策智能推荐及政策制定系统,数据源归集为支撑平台搭建提供所需数据;计算平台采用阿里云的实时数据服务和离线数据服务的相关组件资源处理千万级别的政务数据运转;特征平台构建离线数据仓库和实时数据仓库对离线数据和实时数据进行数据清洗、治理、开发;数据存储平台对特征平台处理过的离线数据和实时数据进行存储;推荐平台包括训练推荐算法模型和构建推荐引擎;标签平台服务于管理端,用户在标签平台上实现标签选择和标签制定;应用平台实现对企业的精准政策推荐和辅助政策的制定。本发明能够实现政策精准推荐,同时有助于政策制定者制定政策。
Description
技术领域
本发明属于大数据处理及人工智能技术领域,特别涉及一种基于大数据的企业政策智能推荐及政策制定系统。
背景技术
政策是政府层面为了实现一些任务目标而采取一些方法的步骤和具体措施。为了促进经济发展和推动行业进步,国家及地方政府时常会发布一些企业奖补。但是对于政务来讲,最核心的两个业务问题就是政策如何制定和制定的政策如何第一时间推送给企业。可是在实现以上的业务问题中,对于政务侧来讲,政务数据是千万级的,对于千万级的数据调度,治理,开发和使用也是需要面对的技术问题。对于企业用户来说,企业用户在业务系统中产生的实时数据,对于实时数据在千万级大数据背景的结合,则是需要考虑到的另一难题。除此之外,政策制定的过程中还需要面对政策分析的场景,面对大量的企业信息如何有效的了解企业关系对于政策制定来说,则是重要环节。而政策制定完成后,如何精准的实现政策推荐并对企业实现“千人千面”这种定制化有针对性的推荐,则更是需要解决的问题。
针对以上问题,现有技术中,目前最为先进且常用方式为搭建标签平台,通过从大数据工具如HIVE、Hbase等获取相关企业信息的数据源,进行数据开发形成特征宽表,再将特征宽表存储到ElasticSearch及Mysql等数据库内。通过在标签平台完成对数据特征的选择和组装后,从ElasticSearch及Mysql中进行相关数据提取,获取完成条件的信息。政府侧根据标签平台选择标签完成政策制定,获取企业推演,从而实现政策制定后符合条件的企业信息推演,管理端也可通过标签平台输入相关标签,了解符合企业信息条件的政策。但是,目前此方法仍存在一些弊端,采用ElasticSearch进行存储,根据特征标签的选择,能够实现秒级获取满足标签的相关企业信息结果。但是决策者在推演过程中,可能还想要掌握制定的标签条件中各个企业哪些标签满足,哪些标签不满足。利用elasticsearch就没办法满足要求。可是不使用elasticsearch存储,利用mysql数据进行计算,面对百万或者千万级别的数据则可能会出现计算时间长,CPU占用率高影响其他业务等问题。而企业侧使用标签平台获取相关政策信息,却只能获取标签平台已有的标签完成政策推荐,过于单一,推荐多样性差等问题。
发明内容
针对现有技术中存在的问题,本发明提出一种基于大数据的企业政策智能推荐及政策制定系统,解决了千万级政务大数据在业务系统中计算和存储的问题,能够实现政策精准推荐,同时有助于政策制定者制定政策。
为了实现上述目的,本发明采用以下的技术方案:
本发明提供了一种基于大数据的企业政策智能推荐及政策制定系统,包括数据源归集、计算平台、特征平台、数据存储平台、推荐平台、标签平台和应用平台;
数据源归集,为支撑平台搭建提供所需数据;
计算平台,采用阿里云的实时数据服务和离线数据服务的相关组件资源处理千万级别的政务数据运转;
特征平台,构建离线数据仓库和实时数据仓库对离线数据和实时数据进行数据清洗、治理、开发;
数据存储平台,对特征平台处理过的离线数据和实时数据进行存储;
推荐平台,训练推荐算法模型和构建推荐引擎;
标签平台,服务于管理端,用户在标签平台上实现标签选择和标签制定;
应用平台,基于以上的平台基础,实现对企业的精准政策推荐和辅助政策的制定。
进一步地,所述数据源归集的数据由三部分来源组成,第一部分为政务数据中市场监督管理局的相关数据,第二部分为企业用户在该系统中自身产生的用户日志信息,第三部分为政策相关信息。
进一步地,所述计算平台包含用于离线计算的MaxCompute和Dataworks,用于实时计算的DataHub和Blink,以及用于数据同步的数据传输服务DTS。
进一步地,离线数据仓库使用的离线数据计算底层为MaxCompute,数据治理及开发工具为Dataworks对数据进行清洗、加工、治理,再进行数据开发生成离线主题特征模型,待离线主题特征模型开发完成,再将离线主题特征模型存储至关系型数据库Mysql中;
所述离线数据仓库分为五层,第一层是原始数据层STG,第二层是基础资源层ODS,第三层是数据主题层DWD,第四层是数据汇总层DWS,第五层是数据应用层ADM。
进一步地,实时数据仓库使用的实时数据计算底层为DataHub,数据治理及开发工具为Blink;利用数据传输服务DTS将数据从数据库Mysql中进行增量拉取,再利用Blink对数据进行实时计算开发,将开发后的实时主题特征模型存储至分析型数据库AnalyticDB中。
进一步地,所述数据存储平台包括关系型数据库Mysql、搜索引擎Elasticsearch、图像数据库Neo4j和分析型数据库AnalyticDB;其中关系型数据库Mysql作为业务库,支撑系统业务数据的存储,搜索引擎Elasticsearch用于标签平台中组合标签的计算及存储,图像数据库Neo4j用于企业知识图谱构建,并在政策制定环节中的企业关系可视化分析中实现透出;分析型数据库AnalyticDB存储实时数据。
进一步地,基于数据存储平台中存储的数据,在服务器ECS上采用深度学习中WDL的模型进行训练,得到推荐算法模型;构建推荐引擎包括冷启动、召回、粗排、精排、重排和AB实验,其中推荐算法模型提供的预测服务在精排中进行透出。
进一步地,标签选择包括:用户通过选择标签,实现对多个标签的组合,系统根据标签组合获取对应数据;标签制定包括:标签制定过程,完成对设计出标签的分析,既可以探查标签下数据的统计分析,也可以完成不同标签组合完成画像的制定;并利用机器学习实现智能标签生成。
进一步地,应用平台实现以下应用流程:
通过用户日志信息和推荐平台,实现对企业的精准政策推荐;
政策制定者通过后台管理端对标签的组合选择,得到满足标签的相关企业明细及统计信息,从而辅助政策的制定;
后台管理端手动通过政策与标签绑定的冷启动方式,实现规则标签推荐,从而满足被绑定标签的企业,被推荐到标签对应的政策。
与现有技术相比,本发明具有以下优点:
1、从业务角度来讲,本发明的整体业务框架将政策推荐和政策制定相结合,既可以服务企业端精准被推荐有关政策,又可以辅助政府端专家政策制定,政策推演和分析。
2、从大数据角度来讲,本发明将大数据场景下的离线数据流转方式和实时数据流转方式相结合,保证数据能够高效快速的进行数据计算和查询,能够有效的支撑目前的业务场景。
3、从智能角度来讲,本发明将深度学习中推荐算法模型应用到政策推荐系统中,实现智能推荐,通过模型不断的学习,能够不断提升推荐准确性,提升企业用户体验。
4、从可视化角度来讲,本发明引用图数据库于政策制定中,构建知识图谱使政策制定者更清晰更明确了解企业之间关系,能够快速分析出企业关系,有利于政策制定。
5、从整体角度讲,本发明将大数据离线流转、实时流转和人工智能等技术相结合,配合知识图谱构建,服务于政策精准推荐和政策制定。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的基于大数据的企业政策智能推荐及政策制定系统的架构图;
图2是组合标签的业务选择示意图;
图3是系统离线数据流转方式的流程示意图;
图4是系统实时数据流转方式的流程示意图;
图5是基于大数据的企业政策智能推荐及政策制定系统的业务流程图;
图6是推荐平台的业务流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例的基于大数据的企业政策智能推荐及政策制定系统包括数据源归集、计算平台、特征平台、数据存储平台、推荐平台、标签平台和应用平台。
数据源归集。为支撑平台搭建提供所需数据。数据由三部分来源组成,第一部分为政务数据中市场监督管理局的相关数据,比如企业登记相关信息、企业信用违法相关信息、企业经营状况信息、企业资质产权信息和企业资产信息等。第二部分为企业用户在该系统中自身产生的用户日志信息,比如用户行为埋点,对各个政策的点击率、搜查政策信息及对用户自己的登记信息等。第三部分为政策相关信息,比如政策类型、政策兑付条件、政策文本信息等。
计算平台。采用阿里云的实时数据服务和离线数据服务的相关组件资源处理千万级别的政务数据运转,包含用于离线计算的MaxCompute和Dataworks,用于实时计算的DataHub和Blink,以及用于数据同步的数据传输服务DTS。
特征平台。构建离线数据仓库和实时数据仓库对离线数据和实时数据进行数据清洗、治理、开发;离线数据仓库使用的离线数据计算底层为MaxCompute,数据治理及开发工具为Dataworks,实现对数据进行清洗、加工、治理,再进行数据开发生成离线主题特征模型,待离线主题特征模型开发完成,再将离线主题特征模型存储至关系型数据库Mysql中。离线数据仓库分为五层,第一层是原始数据层STG,用于对数据源归集进行原始数据的存储,不进行任何操作,第二层是基础资源层ODS,用于对数据进行清洗、加工、治理,原则上结构与STG存储的库表结构大体保持一致。第三层是数据主题层DWD,按照相关主题进行多表关联,实现主题明细数据的存储。第四层是数据汇总层DWS,也可以称为数据服务层,用于对数据进行分析,产生相关的指标或者报表类型的相关数据。第五层是数据应用层ADM,用于开发和存储需要透出的业务系统的数据。另外还有一层是数据维度层DIM,用于存储数据仓库中各维表信息。
实时数据仓库使用的实时数据计算底层为DataHub,数据治理及开发工具为Blink;利用数据传输服务DTS将数据从数据库Mysql中进行增量拉取,再利用Blink对数据进行实时计算开发,将开发后的实时主题特征模型存储至分析型数据库AnalyticDB中,供其他平台使用。
数据存储平台。对数据开发完成后进行数据透出,与业务系统直接连接,直接支撑各个服务应用的数据存储。数据存储平台包括关系型数据库Mysql、搜索引擎Elasticsearch、图像数据库Neo4j和分析型数据库AnalyticDB;其中关系型数据库Mysql作为业务库,支撑系统业务数据的存储,搜索引擎Elasticsearch用于标签平台中组合标签的计算及存储,图像数据库Neo4j用于企业知识图谱构建,并在政策制定环节中的企业关系可视化分析中实现透出;分析型数据库AnalyticDB存储实时数据或者性能要求高的数据。
推荐平台。主要用于训练推荐算法模型和构建推荐引擎。基于数据存储平台中存储的数据,在服务器ECS上采用深度学习中WDL的模型进行训练,得到推荐算法模型;构建推荐引擎包括冷启动、召回、粗排、精排、重排和AB实验,其中推荐算法模型提供的预测服务主要在精排中进行透出。
标签平台,主要是服务于管理端,用户在标签平台上实现标签选择和标签制定。标签选择:用户通过选择标签,实现对多个标签的组合,系统根据标签组合获取对应数据。标签制定:标签制定过程,完成对设计出标签的分析,既可以探查标签下数据的统计分析,也可以完成不同标签组合完成画像的制定。更重要的是,可以在此环节实现智能标签生成,在对用户画像设计标签的时候,经常需要对企业用户进行信用等级评分或者等级分类等画像设计。在设计过程中,可能需要对数据不明确或者依据已有数据,预测用户标签,在这个过程中就需要使用机器学习的相关算法实现用户标签划分。
应用平台,基于以上的平台基础,实现以下应用流程:
通过企业行为信息及企业登记信息等用户日志信息,通过推荐平台,实现对企业的精准政策推荐。
政策制定者通过后台管理端对标签的组合选择,得到满足标签的相关企业明细及统计信息,从而辅助政策的制定。
后台管理端可以手动通过政策与标签绑定的冷启动方式,实现规则标签推荐,从而实现满足被绑定标签的企业,被推荐到标签对应的政策。
基于大数据的企业政策智能推荐及政策制定系统的业务流程如图5所示,具体过程如下:
步骤S11,系统分为后台管理端和企业用户端。其中后台管理端一方面用于政府侧相关专家进行政策制定,另一方面用于管理者通过规则设定,将政策推荐给符合规则的企业,本技术中这里指的规则是通过标签平台实现的。用户端为企业相关用户,登录系统进行对相关政策进行咨询,在咨询过程中,将会有大量的政策信息被推荐给企业用户。
步骤S12,管理端登录后,一方面应用于专家的政策制定,专家在标签平台组合标签,输出符合组合标签对应的企业明细,根据企业明细的统计情况和可视化企业关系辅助完成政策制定。另一方面应用于管理端进行规则配置,根据配置信息实现政策对企业的推荐,这里提到的规则配置是通过标签选择来实现的。通过对目前已存在政策进行政策标签关联。将政策推荐给符合该政策标签的企业。其中,标签平台中标签组合方式业务原型图如图2所示,对于每个标签可以选择的逻辑关系如表1。
表1标签关系的选择
序号 | 字段类型 | 关系 |
1 | 字符串 | 包含/不包含 |
2 | 枚举 | 等于/不等于 |
3 | 数字 | 大于/等于/小于/不大于/不小于 |
4 | 日期 | 大于/等于/小于/不大于/不小于 |
步骤S13,当企业用户通过用户端登录后,会产生自己的用户登记信息和行为数据的日志信息。比如行为数据包括浏览记录、点击记录等用户行为相关的记录。这些信息和政策内容的信息传入数据仓库后,被推荐平台的推荐算法模型进行预测,再将政策信息推荐给合适的企业用户。
下面将详细介绍实现上面业务的具体技术流程,分为离线数据流转方式、实时数据流转方式以及推荐平台的建立。
首先为离线数据的流转方式。如图3所示,离线数据运转流程主要包括数据来源、离线数据仓库构建、数据存储Mysql、搜索引擎Elasticsearch、图数据存储Neo4j、服务部署和WEB应用/管理端后台的功能展示。
步骤S21,数据源归集。所需归集数据源包括从政府侧获取的政务数据中的企业数据,比如企业基本信息、企业信用违法信息、企业税务信息等。包括如上述所提当用户登录系统后所产生的用户行为信息和用户登记信息。还包括一些政策自身的信息,比如政策文本内容、政策类型、政策所在地等相关内容。
步骤S22,离线数据仓库构建。经过步骤S21的数据源内容梳理后,需要构建离线数据仓库进行数据的归集、治理、开发和透出应用。这个过程中使用的离线数据计算底层为MaxCompute,数据治理及开发工具为DataWorks,MaxCompute配合DataWorks,实现对数据的存储、开发和定时调度。
步骤S23,构建数据存储。这里使用到的数据存储为关系型数据库Mysql、搜索引擎Elasticsearch和图像数据库Neo4j,Mysql为关系型数据库,用于存储业务数据,在步骤S22的离线数据仓库中ADM层数据进行透出后,数据传入到Mysql中,其中数据类型包括企业主题画像,企业属性维表,标签数据计算结果,除此以外,还用来存储业务系统中产生的数据,企业用户行为信息就是先存储到Mysql,再被步骤S22的STG层定时调度将数据拉走。搜索引擎Elasticsearch用于标签结果计算,在政策制定和政策后台规则配置中,均会涉及组合标签的计算,对于组合标签的计算使用Elasticsearch能够对百万级的数据量实现秒级查询,高效快速实现结果。图数据存储Neo4j用于存储政务数据中的相关企业信息,通过企业信息构建知识图谱,借此展示企业之间的关系,用于在政策制定的推演中,辅助专家够好的了解各个企业之间的关系。
步骤S24,服务部署。相关的服务部署都是搭建在服务器ECS上的。需要在服务器ECS上进行搭建的服务主要为三部分组成。第一部分为推荐平台的搭建,用于构建推荐算法模型的训练和存储,利用步骤S22数仓当中提供的用户行为埋点数据,企业相关数据和政策相关数据,完成模型训练。再利用推荐算法模型及用户日志信息将推荐结果透出,再在WEB应用端的界面上将推荐政策进行推荐展示。第二部分为标签处理请求及响应。在WEB应用端用户会在界面中选择标签进行组合,此部分用于将标签的组合方式转为Dataworks可以识别的sql语句,利用python脚本,通过pyodps完成在Maxcompute的计算,将数据计算结果透出。再将结果透出到应用端进行界面展示。第三部分为应用及管理后台的搭建,用于搭建整个政策推荐及政策制定的业务系统。
接下来介绍实时数据的流转方式,如图4所示,实时数据运转主要包括数据总线DataHub、数据存储Mysql、分析型数据库AnalyticDB、服务器ECS和WEB应用端。
步骤S31,数据总线Datahub作为流式数据计算的底层。首先将业务系统的数据存储Mysql数据库中的数据使用数据传输工具DTS增量实时传输至Datahub中。其中需要传输的数据包括政务数据中的企业相关信息以及企业用户自身产生的用户行为埋点及登记信息。通常新用户的相关信息收集和对新用户的实时政策推荐对实时性的要求较高。
步骤S32,实时计算。在数据流入DataHub后,采用Blink进行实时数据开发,对于数据开发后的结果存储至分析型数据库AnalyticDB中。主要包括实时标签和实时用户行为信息治理两种类型。
步骤S33,实时数据应用。步骤S32中产生的实时标签用于WEB应用端和后台管理端。一方面用于政策推荐规则中标签推荐的制定,在管理端进行规则设定,绑定政策和企业的关系,用于政策推荐。另一方面用于专家政策制定,作为专家可选择的标签,专家对标签选择后,ECS部署的标签处理请求及响应将标签转化为sql语言,利用AnalyticDB的SDK进行查询,并将查询结果再反馈至业务系统中展示使用。还有一方面用于推荐平台,通过实时数据对企业用户进行推荐,步骤S32中产生的实时用户行为信息被治理过得数据流入推荐算法模型在ECS中计算出推荐结果后,将政策推荐给WEB应用端相关用户。
下面介绍推荐平台,如图6所示,推荐平台分为模型训练和搭建推荐引擎两部分。
步骤S41,模型训练。这里的推荐算法模型使用的是参考2016年谷歌提出的WDL(Wide&Deep Learning for Recommender Systems)。其中Wide的作用是可以使模型具有优良的记忆性,而Deep部分是让模型能够提取到更多的特征信息,具有泛化能力。WDL兼容了更复杂的人工交叉,同时学习到更高阶更复杂的交叉,将特征挖掘结合记忆部分,模型的泛化性能更好。
1.首先将上述提到的处理好的实时数据及离线数据特征进行输入,其中类别特征作为Deep Model,连续特征作为Wide。
3.Deep Model为深度学习模型,将枚举类特征映射到高维空间的向量称之为Embedding。因此首先在枚举类特征进行one-hot之后,进行Embedding操作,这里选用的embedding维度为64。随后在将各个枚举类特征的Embedding进行concat组合,输入到下一层,每层的计算方式如下:
a(l+1)=f(W(l)a(l)+b(l))
本次应用中选用三层,第一层选择神经元为516个,第二次为128个,第三层32个。
4.将Wide与Deep部分结合。在上述Deep部分操作进行到第三层后,将Deep的结果与Wide的部分进行组合,表达式如下:
在训练过程中,会使用到优化器,Wide部分使用的优化器为FTRL,原因是Wide的输入特征均为连续特征,连续特征进行multi-hot后就会变成稀疏的向量,如果多个连续特征进行组合后,将会更加稀疏。所以Wide的权重将是非常海量巨大的。所以采用FTRL,该优化器可以产生稀疏解,有利于Wide部分的模型压缩。Deep部分使用的为AdaGrade,之所谓不像Wide部分使用FTRL,是因为Deep部分在Embedding时已经稠密操作,已经不会发生稀疏特征的情况,所以在深度学习中应用更为广泛的AdaGrade自然而然就列入了选择。
5.模型训练获得算法模型。将用户的所选政策作为目标label,进行迭代训练,获得模型。
步骤S42,搭建推荐引擎。在步骤S41详细介绍了模型训练的全过程。对于训练完成的模型,要至少每三个月完成一次模型的迭代更新,否则训练数据将会与模型的结果逐渐一样,后续的新模型将很难超过,从而进入“老汤模式”。推荐系统的应用场景面对的企业用户可能是千万级别的,同时对于可推荐的政策也是成千上万且定时更新的,一开始就对这个级别的政策和用户选择算法模型进行推荐准确率和推荐速度都会困难。因此推荐引擎通过冷启动、召回、粗排、精排、重排和AB实验几个部分才能实现精准推荐。这里使用到的冷启用包括企业用户冷启用和政策冷启用两个方面。
企业用户冷启用。对于新注册的企业,系统中既没有企业用户的历史日志记录信息,由于政务数据更新不及时,导致政务数据中又没有该企业的信息。通过该企业在系统中自行填写的注册信息进行推荐。在本技术中主要使用行业类型,行业规模,行业所在地将历史中这三类用户点击最高热度最高的相关政策进行推荐。
政策冷启用。本技术的政策冷启用有两个方面。1.在离线数据流转方式和实时数据流转方式中均提到的一个流程就是当新政策进行发布之前,会对新政策关联一批企业标签,对于满足企业标签的企业,会第一时间将新政策推荐给这些企业。2.选择出当前热度最高,被浏览次数最高的top20政策,选择相似度与新发布政策最高的热门政策,再寻找点过这些政策的用户实现推荐。
召回。如果对于冷启用来讲,只是选择部分新政策或者部分新用户考虑推荐,那么召回则是相当于将全部的政策进行考虑,根据目前所有政策中不同类型的政策中热门排行最高的top20至100进行抽取,推入粗排环节进行抽取。其中对于热门的定义选择可以是多方面的,既可以考虑点击率、浏览量、关注度,还可虑根据后端运营管理方临时制定的策略而进行更改。
粗排。粗排在本发明的应用中是根据上一步骤召回的数量决定的,如果召回过后,数量已经控制政策在100个左右了,那么粗排就不是必须的,可以直接进入下一步精排环节中。但是如果召回环节仍旧流入上千的政策需要推荐,那么粗排环节中,可能需要制定筛选规则,再排除一批政策,以保证流入精排的政策是可控的。因此,对于粗排环节的要求一定要是尽可能快的,可以使用一些简化的算法模型,也可以剔除召回里出现的热度不高的政策。只要能尽快挑选出一批高效且不降低推荐质量的政策送入精排中即可。
精排。步骤S41介绍的训练出来的模型,将在精排这一环节中进行使用,对于上一步筛选的结果,进入模型实现最终的推荐结果,推荐给企业用户。因此,精排环节是至关重要,决定推荐效果的环节。
重排。根据运营的需要或者模型调整的需要,对于精排推荐出来的部分结果,需要进行重排调整。本发明中出现的是政务针对不同时期的主体奖补政策存在不同的重视情况,根据这些情况,会对不同类型的政策设置权重。也会人工设置标签,对明显不符合的政策信息过滤,比如所在地和政策覆盖地完全不一致的政策会进行过滤。
AB实验。在介绍完上述推荐流程后,在这个环节介绍如何上述各环节的迭代更新。AB实验是贯穿整个生命周期的,对于冷启动、召回、粗排、精排、重排可以是相互独立的,也称之为功能分层。拿召回环节举例,选择10000个企业,对于所选择的企业尽可能保证企业的主要标签信息尽可能相同,选择2500家企业使用线上在用的方法作为A实验,选择2500家企业使用新的方法,再选用剩下的5000家企业用于之前旧的模型进行对比。对于线上推荐方法的迭代是需要慎重的,经过一段时间的观察,如果B实验的效果明显高于A实验,且波动平稳,那么可以考虑方法的迭代替换。反正则证明新的方法不足以进行替代,之所以选用5000家企业使用旧的模型,是考虑到线上方法是否是由于短暂的热点导致而成,类似疫情、购物节这种非常态化发生的情况。所以旧的模型需要长时间进行保存。所以以上各个步骤的模型迭代均需使用此方案。
步骤S43,政策推荐。经过步骤S41的模型训练和步骤S42的搭建推荐引擎,再根据离线数据流转和实时数据流转获得处理过的离线数据和实时数据,就可以高效快速精准的将政策进行推荐,实现政策推荐的全过程。
总之,本发明通过部署阿里云大数据产品,利用MaxCompute结合Dataworks实现离线数据仓库搭建,解决千万级数据调度、治理和开发的问题。使用DTS进行数据实时传输,利用DataHub结合Blink的实时计算,将实时开发的数据存入分析型数据库AnalyticDB中,完成实时的大数据流转。为了实现政策制定,通过搭建标签平台利用标签推演政策制定后可兑付企业信息,组合标签的查询一方面通过ElasticSearch搜索引擎,另一方面针对需要探查企业对组合标签中各个标签的满足情况通过将组合标签转化为sql语句再利用大数据引擎Maxcompute实现计算查询。对于企业数据关系分析采用图数据存储Neo4j构建图数据库,可视化展示企业关系。最后搭建推荐平台,实现智能推荐,基于企业用户行为,企业用户信息及政策内容信息实现政策的精准推荐。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (9)
1.一种基于大数据的企业政策智能推荐及政策制定系统,其特征在于,包括数据源归集、计算平台、特征平台、数据存储平台、推荐平台、标签平台和应用平台;
数据源归集,为支撑平台搭建提供所需数据;
计算平台,采用阿里云的实时数据服务和离线数据服务的相关组件资源处理千万级别的政务数据运转;
特征平台,构建离线数据仓库和实时数据仓库对离线数据和实时数据进行数据清洗、治理、开发;
数据存储平台,对特征平台处理过的离线数据和实时数据进行存储;
推荐平台,训练推荐算法模型和构建推荐引擎;
标签平台,服务于管理端,用户在标签平台上实现标签选择和标签制定;
应用平台,基于以上的平台基础,实现对企业的精准政策推荐和辅助政策的制定。
2.根据权利要求1所述的基于大数据的企业政策智能推荐及政策制定系统,其特征在于,所述数据源归集的数据由三部分来源组成,第一部分为政务数据中市场监督管理局的相关数据,第二部分为企业用户在该系统中自身产生的用户日志信息,第三部分为政策相关信息。
3.根据权利要求1所述的基于大数据的企业政策智能推荐及政策制定系统,其特征在于,所述计算平台包含用于离线计算的MaxCompute和Dataworks,用于实时计算的DataHub和Blink,以及用于数据同步的数据传输服务DTS。
4.根据权利要求3所述的基于大数据的企业政策智能推荐及政策制定系统,其特征在于,离线数据仓库使用的离线数据计算底层为MaxCompute,数据治理及开发工具为Dataworks对数据进行清洗、加工、治理,再进行数据开发生成离线主题特征模型,待离线主题特征模型开发完成,再将离线主题特征模型存储至关系型数据库Mysql中;
所述离线数据仓库分为五层,第一层是原始数据层STG,第二层是基础资源层ODS,第三层是数据主题层DWD,第四层是数据汇总层DWS,第五层是数据应用层ADM。
5.根据权利要求4所述的基于大数据的企业政策智能推荐及政策制定系统,其特征在于,实时数据仓库使用的实时数据计算底层为DataHub,数据治理及开发工具为Blink;利用数据传输服务DTS将数据从数据库Mysql中进行增量拉取,再利用Blink对数据进行实时计算开发,将开发后的实时主题特征模型存储至分析型数据库AnalyticDB中。
6.根据权利要求5所述的基于大数据的企业政策智能推荐及政策制定系统,其特征在于,所述数据存储平台包括关系型数据库Mysql、搜索引擎Elasticsearch、图像数据库Neo4j和分析型数据库AnalyticDB;其中关系型数据库Mysql作为业务库,支撑系统业务数据的存储,搜索引擎Elasticsearch用于标签平台中组合标签的计算及存储,图像数据库Neo4j用于企业知识图谱构建,并在政策制定环节中的企业关系可视化分析中实现透出;分析型数据库AnalyticDB存储实时数据。
7.根据权利要求1所述的基于大数据的企业政策智能推荐及政策制定系统,其特征在于,基于数据存储平台中存储的数据,在服务器ECS上采用深度学习中WDL的模型进行训练,得到推荐算法模型;构建推荐引擎包括冷启动、召回、粗排、精排、重排和AB实验,其中推荐算法模型提供的预测服务在精排中进行透出。
8.根据权利要求1所述的基于大数据的企业政策智能推荐及政策制定系统,其特征在于,标签选择包括:用户通过选择标签,实现对多个标签的组合,系统根据标签组合获取对应数据;标签制定包括:标签制定过程,完成对设计出标签的分析,既可以探查标签下数据的统计分析,也可以完成不同标签组合完成画像的制定;并利用机器学习实现智能标签生成。
9.根据权利要求2所述的基于大数据的企业政策智能推荐及政策制定系统,其特征在于,应用平台实现以下应用流程:
通过用户日志信息和推荐平台,实现对企业的精准政策推荐;
政策制定者通过后台管理端对标签的组合选择,得到满足标签的相关企业明细及统计信息,从而辅助政策的制定;
后台管理端手动通过政策与标签绑定的冷启动方式,实现规则标签推荐,从而满足被绑定标签的企业,被推荐到标签对应的政策。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211725250.2A CN116308109A (zh) | 2022-12-30 | 2022-12-30 | 一种基于大数据的企业政策智能推荐及政策制定系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211725250.2A CN116308109A (zh) | 2022-12-30 | 2022-12-30 | 一种基于大数据的企业政策智能推荐及政策制定系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116308109A true CN116308109A (zh) | 2023-06-23 |
Family
ID=86778661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211725250.2A Pending CN116308109A (zh) | 2022-12-30 | 2022-12-30 | 一种基于大数据的企业政策智能推荐及政策制定系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116308109A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821246A (zh) * | 2023-07-12 | 2023-09-29 | 深度(山东)数字科技集团有限公司 | 一种基于大数据引擎计算的数据同步方法 |
CN117076516A (zh) * | 2023-10-13 | 2023-11-17 | 橙安(广东)信息技术有限公司 | 一种基于流程市场的项目云平台数据管理方法及其系统 |
-
2022
- 2022-12-30 CN CN202211725250.2A patent/CN116308109A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821246A (zh) * | 2023-07-12 | 2023-09-29 | 深度(山东)数字科技集团有限公司 | 一种基于大数据引擎计算的数据同步方法 |
CN117076516A (zh) * | 2023-10-13 | 2023-11-17 | 橙安(广东)信息技术有限公司 | 一种基于流程市场的项目云平台数据管理方法及其系统 |
CN117076516B (zh) * | 2023-10-13 | 2024-02-06 | 橙安(广东)信息技术有限公司 | 一种基于流程市场的项目云平台数据管理方法及其系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103336793B (zh) | 一种个性化论文推荐方法及其系统 | |
Gozhyj et al. | Web resources management method based on intelligent technologies | |
CN109189904A (zh) | 个性化搜索方法及系统 | |
CN109345302A (zh) | 机器学习模型训练方法、装置、存储介质和计算机设备 | |
CN116308109A (zh) | 一种基于大数据的企业政策智能推荐及政策制定系统 | |
US20190295124A1 (en) | Dynamic predictive similarity grouping based on vectorization of merchant data | |
US20080147630A1 (en) | Recommender and payment methods for recruitment | |
CN104268292A (zh) | 画像系统的标签词库更新方法 | |
US10191985B1 (en) | System and method for auto-curation of Q and A websites for search engine optimization | |
Pérez-Gallardo et al. | Collective intelligence as mechanism of medical diagnosis: The iPixel approach | |
Javan et al. | A hybrid advertising media selection model using AHP and fuzzy-based GA decision making | |
Zhao et al. | Learning and transferring ids representation in e-commerce | |
CN113157752A (zh) | 一种基于用户画像和情境的科技资源推荐方法及系统 | |
Zhong et al. | Design of a personalized recommendation system for learning resources based on collaborative filtering | |
Yang et al. | A novel approach integrating FANP and MOMILP for the collection centre location problem in closed-loop supply chain | |
Chen et al. | Session-based recommendation: Learning multi-dimension interests via a multi-head attention graph neural network | |
CN115619571A (zh) | 一种理财规划方法、系统及装置 | |
CN113672797A (zh) | 一种内容推荐方法及装置 | |
Akila et al. | Opinion mining on food services using topic modeling and machine learning algorithms | |
Wang et al. | A reliable location design of unmanned vending machines based on customer satisfaction | |
CN108182512B (zh) | 一种简历评估方法及装置 | |
CN113946569A (zh) | 一种用户画像构建方法 | |
US11720808B2 (en) | Feature removal framework to streamline machine learning | |
US20200160359A1 (en) | User-experience development system | |
CN117455600A (zh) | 基于爆款挖掘引擎的跨境独立电商SaaS服务平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |