CN115170045B - 一种惠企政策智能分析系统与方法 - Google Patents
一种惠企政策智能分析系统与方法 Download PDFInfo
- Publication number
- CN115170045B CN115170045B CN202210141256.9A CN202210141256A CN115170045B CN 115170045 B CN115170045 B CN 115170045B CN 202210141256 A CN202210141256 A CN 202210141256A CN 115170045 B CN115170045 B CN 115170045B
- Authority
- CN
- China
- Prior art keywords
- enterprise
- information
- policy
- unstructured
- structured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 167
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims description 51
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000007405 data analysis Methods 0.000 claims description 19
- 239000000284 extract Substances 0.000 claims description 15
- 238000005259 measurement Methods 0.000 claims description 14
- 238000004140 cleaning Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 230000009193 crawling Effects 0.000 claims description 4
- 238000007726 management method Methods 0.000 claims description 4
- 210000001503 joint Anatomy 0.000 claims description 3
- 238000012916 structural analysis Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/172—Caching, prefetching or hoarding of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种惠企政策智能分析系统与方法,系统包括:政策信息采集模块、政策信息向量化模块、企业信息采集模块、企业信息向量化模块、企业政策匹配模块。本发明针对政策和企业分别利用原有的结构化数据抽取数据,形成结构化矢量;同时引入基于RNN的人工神经网络技术,实现对非结构化数据的矢量化,将长文本变成可以用距离进行度量的矢量;针对结构化数据的矢量和非结构化数据的矢量,通过混合距离算法进行相似度匹配;匹配精准度高,有效降低人工在政策匹配中的参与度,提升惠企政策直达企业的效率。
Description
技术领域
本发明属于计算机软件技术领域,涉及人工智能和数据处理技术,具体涉及一种惠企政策智能分析系统与方法。
背景技术
针对惠企政策如何快速触达企业,目前已经有很多研究机构进行了探索。现有的技术方式大部分基于大数据的分析技术,将所有的政策信息和企业信息进行结构化处理。结构化的信息存储到海量数据存储介质之后,通过大数据技术进行数据检索得到。在实际的惠企政策推送中,相关政策主要以文本方式呈现,传统方式在对文本做结构化的时候,往往采用语义模板的方式。基于语义模板的抽取,简单容易实现,但是在实际应用中,很难适应政策中灵活的语法表现方式,在应用中依然需要投入大量的人力来进行语义模板的订制,造成每个政策都需要进行单独人工配置的情况,无法适应政策快速增长的需求。
发明内容
为解决上述问题,本发明公开了一种利用人工智能技术进行惠企政策直达企业的系统及方法。
为达到上述目的,本发明的技术方案如下:
一种惠企政策智能分析系统,包括:政策信息采集模块、政策信息向量化模块、企业信息采集模块、企业信息向量化模块、企业政策匹配模块;
所述政策信息采集模块获取政策文件并将政策信息传输至政策信息向量化模块;
所述政策信息向量化模块用于将政策信息按照结构化信息特征和非结构化信息特征进行区分,利用NLP引擎进行信息抽取;对于结构化信息特征利用向量生成器构成结构化特征向量,对于非结构化信息特征利用RNN网络生成非结构化特征向量;
所述企业信息采集模块通过多种方式采集企业信息数据并传输至企业信息向量化模块;
所述企业信息向量化模块用于通过NLP引擎,结合企业信息体系和企业数据清洗规则,实现企业信息提取;针对结构化数据提取后存储到数据库中,非结构化数据提取后存储到文件系统中;对于结构化信息特征利用向量生成器构成结构化特征向量,对于非结构化信息特征利用RNN网络生成非结构化特征向量;
所述企业政策匹配模块通过分别针对结构化数据分析结果向量和非结构化数据分析结果向量构造特征距离函数,构建智能匹配算法计算企业和政策匹配度。
进一步的,还包括相似政策模块,所述相似政策模块通过分别针对政策的结构化数据分析结果向量和非结构化数据分析结果向量构造特征距离函数,构建智能匹配算法计算政策和政策相似度。
进一步的,所述政策信息向量化模块包括:政策信息抽取公共组件、政策结构化信息提取模块、政策结构化信息存储模块、政策结构化信息向量生成器、政策非结构化信息提取模块、政策非结构化信息存储模块、非结构化信息向量生成器;
所述政策信息抽取公共组件用于提供基于NLP引擎的政策信息抽取能力供上层调用;
所述政策结构化信息提取模块通过调用底层政策信息抽取公共组件能力对政策结构化信息进行抽取,将政策的结构化信息存储到政策结构化信息存储模块中;政策结构化信息存储模块利用存储介质,对政策结构化解析结果进行存储;政策结构化信息向量生成器模块基于政策结构化信息存储模块中存储的信息智能生成结构化信息向量,用于表示政策结构化信息;
所述政策非结构化信息提取模块通过调用底层政策信息抽取公共组件能力对政策非结构化信息进行抽取,并存储到政策非结构化信息存储模块中;政策非结构化信息存储模块利用存储介质,对政策非结构化解析结果进行存储;政策非结构化信息向量生成器模块基于政策非结构化信息存储模块中存储的政策非结构化解析结果,利用RNN神经网络,生成1024乘以 1维的向量来进行政策非结构化信息表达。
进一步的,所述企业信息采集模块包括:自主上报模块、系统接口模块、数据交换模块、互联网爬虫模块、企业信息库;
所述自主上报模块用于企业工作人员通过交互式页面将无法自动对接的数据采用人工上报的方式入企业信息库;系统接口模块用于同企业的业务系统对接,将企业业务系统中的企业经营数据上报到企业信息库进行入库;数据交换模块用于同政府的大数据中心对接,将政务系统中的企业数据交换到企业信息库进行入库;互联网爬虫模块用于从涉企业务相关网站获取相关企业信息,存储到企业信息库中进行入库;企业信息库包括企业基本信息、企业经营信息、企业司法信息、企业舆情信息、企业其他专题信息在内,存储介质采用数据库和文件系统方式。
进一步的,所述企业信息向量化模块包括:企业信息抽取公共组件、企业结构化信息提取模块、企业结构化信息存储模块、企业结构化信息向量生成器、企业非结构化信息提取模块、企业非结构化信息存储模块、企业非结构化信息向量生成器;
所述企业信息抽取公共组件提供基于NLP引擎的企业信息抽取能力供上层调用,包含相关的企业信息体系、企业数据清洗规则;
所述企业结构化信息提取模块通过调用底层企业信息抽取公共组件能力对企业结构化信息进行抽取,存储到企业结构化信息存储模块中;企业结构化信息存储模块用于利用存储介质,对企业结构化解析结果进行存储;企业结构化信息向量生成器模块基于企业结构化信息存储模块中的企业结构化解析结果智能生成结构化信息向量,用于表示企业结构化信息;
所述企业非结构化信息提取模块通过调用底层企业信息抽取公共组件能力对企业非结构化信息进行抽取,并存储到企业非结构化信息存储模块中;企业非结构化信息存储模块利用存储介质,对企业非结构化解析结果进行存储;企业非结构化信息向量生成器模块基于企业非结构化信息存储模块中存储的信息利用RNN神经网络,生成1024乘以1维的向量来进行企业非结构化信息表达。
进一步的,企业政策匹配模块包括:企业政策结构化特征距离函数模块、企业政策非结构化特征距离函数模块、智能匹配引擎模块;
所述企业政策结构化特征距离函数模块用于构造面向政策结构化信息特征向量和企业结构化信息特征向量的企业政策结构化特征距离函数,度量企业和政策匹配程度;
所述企业政策非结构化特征距离函数模块用于构造面向政策非结构化信息特征向量和企业非结构化信息特征向量的企业政策非结构化特征距离函数,度量企业和政策匹配程度;
所述智能匹配引擎模块用于混合结构化特征距离和非结构化特征距离,计算政策和企业之间的匹配度。
进一步的,所述智能匹配引擎模块从4个向量中分别抽取R1、R2、R3、R4进行企业政策匹配计算;
R1为度量区域有效性,根据公式R1=Bool(Lcompany∈Lpolicy)计算,满足条件为1,不满足条件得0;
R2为度量时间有效性,根据公式R2=Bool(tnow∈tpolicy)计算,满足条件为1,不满足条件得0;
R3为度量行业相似度,根据公式计算,计算结果为0到1之间的一个整数;
R4为度量文本相似度,根据公式计算,计算结果为0到1之间的一个整数;
匹配度M的计算公式为:
W为对应相似度的权重。
本发明还提供了一种惠企政策智能分析方法,包括如下步骤:
步骤1,政策信息采集及处理,包括:
步骤1-1,获取政策文件及信息;
步骤1-2,将政策信息按照结构化信息特征和非结构化信息特征进行区分,利用NLP引擎进行信息抽取;对于结构化信息特征利用向量生成器构成结构化特征向量;对于非结构化信息特征利用RNN网络生成非结构化特征向量;具体包括如下子步骤:
(3)对政策结构化信息进行抽取,利用存储介质对政策结构化解析结果进行存储,基于政策结构化信息智能生成结构化信息向量,用来表示政策结构化信息;
(4)对政策非结构化信息进行抽取,利用存储介质对政策非结构化解析结果进行存储,基于政策非结构化信息,利用RNN神经网络,生成1024乘以1维的向量来进行政策非结构化信息表达;
步骤2,企业信息采集及处理,包括:
步骤2-1,通过企业自主上报、企业业务系统对接、政府部门数据交换、互联网数据爬取方式中的一种或几种构建企业信息库;具体包括如下子步骤:
(5)企业工作人员通过交互式页面将无法自动对接的数据采用人工上报的方式入企业信息库;
(6)与企业的业务系统对接,将企业业务系统中的企业经营数据上报到企业信息库进行入库;
(7)同政府的大数据中心对接,将政务系统中的企业数据交换到企业信息库进行入库;
(8)从涉企业务相关网站获取相关企业信息,存储到企业信息库中进行入库;
步骤2-2,通过NLP引擎,结合企业信息体系和企业数据清洗规则,实现企业信息提取;针对结构化数据提取后存储到数据库中,非结构化数据提取后存储到文件系统中;对于结构化信息特征利用向量生成器构成结构化特征向量;对于非结构化信息特征利用RNN网络生成非结构化特征向量;具体包括如下子步骤:
(1)对企业结构化信息进行抽取,利用存储介质对企业结构化解析结果进行存储,基于企业结构化信息智能生成结构化信息向量,用来表示企业结构化信息;
(2)对企业非结构化信息进行抽取,利用存储介质对企业非结构化解析结果进行存储,基于企业非结构化信息,利用RNN神经网络,生成1024乘以1维的向量来进行企业非结构化信息表达;
步骤3,政策企业匹配,分别针对结构化数据分析结果向量和非结构化数据分析结果向量构造特征距离函数,构建智能匹配算法计算企业和政策匹配度,具体包括如下过程:
(1)构造面向政策结构化信息特征向量和企业结构化信息特征向量的企业政策结构化特征距离函数,度量企业和政策匹配程度;
(2)构造面向政策非结构化信息特征向量和企业非结构化信息特征向量的企业政策非结构化特征距离函数,度量企业和政策匹配程度;
(3)混合结构化特征距离和非结构化特征距离,计算政策和企业之间的匹配度。
进一步的,所述步骤(3)通过以下方式计算:
分别抽取R1、R2、R3、R4进行企业政策匹配计算;
R1为度量区域有效性,根据公式R1=Bool(Lcompany∈Lpolicy)计算,满足条件为1,不满足条件得0;
R2为度量时间有效性,根据公式R2=Bool(tnow∈tpolicy)计算,满足条件为1,不满足条件得0;
R3为度量行业相似度,根据公式计算,计算结果为0到1之间的一个整数;
R4为度量文本相似度,根据公式计算,计算结果为0到1之间的一个整数;
匹配度M的计算公式为:
W为对应相似度的权重。
作为改进,还包括:
步骤4,相似政策计算
分别针对政策的结构化数据分析结果向量和非结构化数据分析结果向量构造特征距离函数,构建智能匹配算法计算政策和政策相似度。
本发明的有益效果为:
本发明针对政策和企业分别利用原有的结构化数据抽取数据,形成结构化矢量;同时引入基于RNN的人工神经网络技术,实现对非结构化数据的矢量化,将长文本变成可以用距离进行度量的矢量;针对结构化数据的矢量和非结构化数据的矢量,通过混合距离算法进行相似度匹配;匹配精准度高,有效降低人工在政策匹配中的参与度,提升惠企政策直达企业的效率。
附图说明
图1为本发明提供的惠企政策智能分析系统架构示意图。
图2为政策信息向量化模块结构示意图。
图3为企业信息采集模块结构示意图。
图4为企业信息向量化模块结构示意图。
图5为企业政策匹配模块结构示意图。
图6为企业政策匹配模块结构示意图。
图7为相似政策模块结构示意图。
图8为相似政策模块推荐的数据结构示意图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明提供了一种惠企政策智能分析系统,如图1所示,包括:政策信息采集模块、政策信息向量化模块、企业信息采集模块、企业信息向量化模块、企业政策匹配模块、相似政策模块。政策信息采集模块用于获取政策文件并将政策信息传输至政策信息向量化模块,政策信息向量化模块对政策信息进行向量化后传输至相似政策模块和政策企业匹配模块;企业信息采集模块采集企业信息数据并传输至企业信息向量化模块,企业信息向量化模块对企业数据进行向量化后传输至企业政策匹配模块;企业政策匹配模块结合政策数据和企业数据计算匹配度。
具体地说,政策信息采集模块采用PULL和PUSH两种方式进行政策获取。PULL的方式,可以采用爬虫对互联网信息进行采集,也可以通过接口方式获取其他政策平台的政策信息。 PUSH的方式,由其他平台通过API接口提交政策信息,或者由其他平台通过数据库同步引擎进行数据全量和增量更新。
政策信息向量化模块用于将政策信息按照结构化信息特征和非结构化信息特征进行区分,利用NLP引擎进行信息抽取。对于结构化信息特征利用向量生成器构成结构化特征向量。对于非结构化信息特征利用RNN网络生成非结构化特征向量。
政策信息向量化模块的结构如图2所示,包括7个部分,分别为:政策信息抽取公共组件、政策结构化信息提取模块、政策结构化信息存储模块、政策结构化信息向量生成器、政策非结构化信息提取模块、政策非结构化信息存储模块、非结构化信息向量生成器(RNN网络)。政策信息向量化模块最终生成向量1和向量2。其中向量1为结构化特征的表示向量,向量2为非结构化特征的表示向量。
具体地说,政策信息抽取公共组件主要提供基于NLP引擎的政策信息抽取能力供上层调用,包含相关的政策词库、政策规则等。政策结构化信息提取模块通过调用底层政策信息抽取公共组件能力对政策结构化信息进行抽取,政策的结构化信息包括且不限于政策发布时间、政策级别、影响地域等,将政策的结构化信息存储到政策结构化信息存储模块中。政策结构化信息存储模块利用关系数据库等存储介质,对政策结构化解析结果进行存储。政策结构化信息向量生成器模块基于政策结构化信息存储模块中存储的信息智能生成结构化信息向量 (向量1),用来表示政策结构化信息。
政策非结构化信息提取模块通过调用底层政策信息抽取公共组件能力对政策非结构化信息进行抽取,政策的非结构化信息包括且不限于政策标题、政策正文等,并存储到政策非结构化信息存储模块中。政策非结构化信息存储模块利用文件系统等存储介质,对政策非结构化解析结果进行存储。政策非结构化信息向量生成器模块基于政策非结构化信息存储模块中存储的政策非结构化解析结果,利用RNN神经网络,生成1024乘以1维的向量(向量2)来进行政策非结构化信息表达。
企业信息采集模块通过企业自主上报、企业业务系统对接、政府部门数据交换、互联网数据爬取等方式构建企业信息库。企业信息库包括企业基本信息、企业经营信息、企业司法信息、企业舆情信息等多种企业信息。具体如图3所示,企业信息采集模块包括5个部分:自主上报模块、系统接口模块、数据交换模块、互联网爬虫模块、企业信息库。
其中,自主上报模块主要用于企业工作人员通过交互式页面将无法自动对接的数据采用人工上报的方式入企业信息库。系统接口模块主要用于同企业的业务系统对接,将企业业务系统中的企业经营数据上报到企业信息库进行入库。数据交换模块主要用于同政府的大数据中心对接,将政务系统中的企业数据交换到企业信息库进行入库。互联网爬虫模块主要用于从涉企业务相关网站(比如奖惩类、资质类、项目类等)获取相关企业信息,存储到企业信息库中进行入库。企业信息库的主要构件包括企业基本信息、企业经营信息、企业司法信息、企业舆情信息、企业其他专题信息等在内的企业多维信息库,存储介质采用数据库和文件系统的方式。
企业信息向量化模块用于通过NLP引擎,结合企业信息体系和企业数据清洗规则,实现企业信息提取。针对结构化数据提取后存储到数据库中,非结构化数据提取后存储到文件系统中。对于结构化信息特征利用向量生成器构成结构化特征向量。对于非结构化信息特征利用RNN网络生成非结构化特征向量。
企业信息向量化模块的结构如图4所示,包括7个部分,分别为:企业信息抽取公共组件、企业结构化信息提取模块、企业结构化信息存储模块、企业结构化信息向量生成器、企业非结构化信息提取模块、企业非结构化信息存储模块、企业非结构化信息向量生成器(RNN 网络),最终生成向量3和向量4。其中向量3为企业结构化特征的表示向量,向量4为企业非结构化特征的表示向量。
具体地说,企业信息抽取公共组件主要提供基于NLP引擎的企业信息抽取能力供上层调用,包含相关的企业信息体系、企业数据清洗规则等。企业结构化信息提取模块通过调用底层企业信息抽取公共组件能力对企业结构化信息进行抽取,企业的结构化信息包括且不限于企业创建、注册资本、注册地等,存储到企业结构化信息存储模块中。企业结构化信息存储模块:利用关系数据库等存储介质,对企业结构化解析结果进行存储。企业结构化信息向量生成器模块基于企业结构化信息存储模块中的企业结构化解析结果智能生成结构化信息向量 (向量3),用来表示企业结构化信息。
企业非结构化信息提取模块通过调用底层企业信息抽取公共组件能力对企业非结构化信息进行抽取,企业的非结构化信息包括且不限于经营范围、注册地址、企业舆情等,并存储到企业非结构化信息存储模块中。企业非结构化信息存储模块利用文件系统等存储介质,对企业非结构化解析结果进行存储。企业非结构化信息向量生成器模块基于企业非结构化信息存储模块中存储的信息利用RNN神经网络,生成1024乘以1维的向量(向量4)来进行企业非结构化信息表达。
企业政策匹配模块通过分别针对结构化数据分析结果向量和非结构化数据分析结果向量构造特征距离函数。利用包括专家规则、余弦距离、欧式距离、自定义距离等不同方式来构建智能匹配算法计算企业和政策匹配度。
企业政策匹配模块的结构如图5所示,包括3个部分,分别为企业政策结构化特征距离函数模块、企业政策非结构化特征距离函数模块、智能匹配引擎模块。
企业政策结构化特征距离函数模块用于构造面向政策结构化信息特征向量(向量1)和企业结构化信息特征向量(向量3)的企业政策结构化特征距离函数,度量企业和政策匹配程度。
企业政策非结构化特征距离函数模块用于构造面向政策非结构化信息特征向量(向量2) 和企业非结构化信息特征向量(向量4)的企业政策非结构化特征距离函数,度量企业和政策匹配程度。
智能匹配引擎模块:混合结构化特征距离和非结构化特征距离,计算政策和企业之间的匹配度。匹配规则包括且不限于专家规则、余弦距离、欧式距离,用户也可以自定义距离。如图6所示,智能匹配引擎模块分别抽取R1、R2、R3、R4进行企业政策匹配计算。
R1为度量区域有效性,根据公式R1=Bool(Lcompany∈Lpolicy)计算,满足条件为1,不满足条件得0。这里Lcompany是公司的物理空间位置,Lpolicy是政策的覆盖区域范围。
R2为度量时间有效性,根据公式R2=Bool(tnow∈tpolicy)计算,满足条件为1,不满足条件得0。这里tnow是当前时间,tpolicy是政策的有效时间。
R3为度量行业相似度,根据公式计算,计算结果为0到1之间的一个整数。这里/>是公司的行业评估向量,/>是政策的行业评估向量。
R4为度量文本相似度,根据公式计算,计算结果为0到1之间的一个整数。这里/>是公司的文本向量,/>是政策的文本向量。
系统使用者可以根据本功能的应用场景自定义R5-Rn的相似度,相似度要求最终定义为 0-1之间的整数。
W1、W2、W3、W4、W5...Wn为对应引相似度的权重,并满足下面公式要求
这里w0由平台管理人员设置一个经验值,建议该经验值为20。
匹配度M的计算公式为:
相似政策模块用于通过分别针对政策的结构化数据分析结果向量和非结构化数据分析结果向量构造特征距离函数,利用包括专家规则、余弦距离、欧式距离、自定义距离等不同方式来构建智能匹配算法计算政策和政策相似度。在某些场景下,当用户点击某条政策查看的时候,系统可以推荐与当前政策相似的政策给用户进行参考。相关结构如图7所示,包括3 个部分,分别为政策结构化特征距离函数模块、政策非结构化特征距离函数模块、政策相似度评估引擎模块。
其中政策结构化特征距离函数模块用于按照政策结构化信息特征向量(向量1),利用包括欧式距离在内的多种距离函数,计算两条政策的结构化特征之间的距离。政策非结构化特征距离函数模块用于按照政策非结构化信息特征向量(向量2),利用包括欧式距离在内的多种距离函数,计算两条政策的非结构化特征之间的距离。政策相似度评估引擎模块用于利用包括且不限于专家规则、余弦距离、欧式距离在内的多种距离函数,计算结构化特征和非结构化特征的混合距离,作为两个政策的相似度。
相似政策推荐的数据结构如图8所示:
针对每一条政策,构建一个基于链表结构的倒排索引。每次新政策导入的时候计算这条政策的向量1和向量2,然后分别再计算这条政策同其他政策的相似度。将不同政策按照相似度由高到低排列,取TOP 10进行存储。每个单元的数据结构内存储政策相似度(百分制) 和政策索引ID。
基于上述系统,本发明还提供了一种惠企政策智能分析方法,包括以下步骤:
步骤1,政策信息采集及处理,包括:
步骤1-1,获取政策文件及信息;
步骤1-2,将政策信息按照结构化信息特征和非结构化信息特征进行区分,利用NLP引擎进行信息抽取;对于结构化信息特征利用向量生成器构成结构化特征向量;对于非结构化信息特征利用RNN网络生成非结构化特征向量;具体包括如下子步骤:
(5)对政策结构化信息进行抽取,利用存储介质对政策结构化解析结果进行存储,基于政策结构化信息智能生成结构化信息向量,用来表示政策结构化信息;
(6)对政策非结构化信息进行抽取,利用存储介质对政策非结构化解析结果进行存储,基于政策非结构化信息,利用RNN神经网络,生成1024乘以1维的向量来进行政策非结构化信息表达。
步骤2,企业信息采集及处理,包括:
步骤2-1,通过企业自主上报、企业业务系统对接、政府部门数据交换、互联网数据爬取方式中的一种或几种构建企业信息库;具体包括如下子步骤:
(9)企业工作人员通过交互式页面将无法自动对接的数据采用人工上报的方式入企业信息库;
(10)与企业的业务系统对接,将企业业务系统中的企业经营数据上报到企业信息库进行入库;
(11)同政府的大数据中心对接,将政务系统中的企业数据交换到企业信息库进行入库;
(12)从涉企业务相关网站获取相关企业信息,存储到企业信息库中进行入库;
步骤2-2,通过NLP引擎,结合企业信息体系和企业数据清洗规则,实现企业信息提取;针对结构化数据提取后存储到数据库中,非结构化数据提取后存储到文件系统中;对于结构化信息特征利用向量生成器构成结构化特征向量;对于非结构化信息特征利用RNN网络生成非结构化特征向量;具体包括如下子步骤:
(1)对企业结构化信息进行抽取,利用存储介质对企业结构化解析结果进行存储,基于企业结构化信息智能生成结构化信息向量,用来表示企业结构化信息;
(2)对企业非结构化信息进行抽取,利用存储介质对企业非结构化解析结果进行存储,基于企业非结构化信息,利用RNN神经网络,生成1024乘以1维的向量来进行企业非结构化信息表达;
步骤3,政策企业匹配,分别针对结构化数据分析结果向量和非结构化数据分析结果向量构造特征距离函数,构建智能匹配算法计算企业和政策匹配度,具体包括如下过程:
(1)构造面向政策结构化信息特征向量和企业结构化信息特征向量的企业政策结构化特征距离函数,度量企业和政策匹配程度;
(2)构造面向政策非结构化信息特征向量和企业非结构化信息特征向量的企业政策非结构化特征距离函数,度量企业和政策匹配程度;
(3)混合结构化特征距离和非结构化特征距离,计算政策和企业之间的匹配度。本发明提供了一种优选的智能匹配方法如下:
分别抽取R1、R2、R3、R4进行企业政策匹配计算;可采用前段所述的R1-R4;
系统使用者可以根据本功能的应用场景自定义R5-Rn的相似度,相似度要求最终定义为0-1之间的整数;W1、W2、W3、W4、W5...Wn为对应引相似度的权重,并满足下面公式要求
这里w0由平台管理人员设置一个经验值,建议该经验值为20。
匹配度M的计算公式为:
作为改进,还包括:
步骤4,相似政策计算
分别针对政策的结构化数据分析结果向量和非结构化数据分析结果向量构造特征距离函数,构建智能匹配算法计算政策和政策相似度。
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。
Claims (9)
1.一种惠企政策智能分析系统,其特征在于,包括:政策信息采集模块、政策信息向量化模块、企业信息采集模块、企业信息向量化模块、企业政策匹配模块;
所述政策信息采集模块获取政策文件并将政策信息传输至政策信息向量化模块;
所述政策信息向量化模块用于将政策信息按照结构化信息特征和非结构化信息特征进行区分,利用NLP引擎进行信息抽取;对于结构化信息特征利用向量生成器构成结构化特征向量,对于非结构化信息特征利用RNN网络生成非结构化特征向量;
所述政策信息向量化模块包括:政策信息抽取公共组件、政策结构化信息提取模块、政策结构化信息存储模块、政策结构化信息向量生成器、政策非结构化信息提取模块、政策非结构化信息存储模块、非结构化信息向量生成器;
所述政策信息抽取公共组件用于提供基于NLP引擎的政策信息抽取能力供上层调用;
所述政策结构化信息提取模块通过调用底层政策信息抽取公共组件能力对政策结构化信息进行抽取,将政策的结构化信息存储到政策结构化信息存储模块中;政策结构化信息存储模块利用存储介质,对政策结构化解析结果进行存储;政策结构化信息向量生成器模块基于政策结构化信息存储模块中存储的信息智能生成结构化信息向量,用于表示政策结构化信息;
所述政策非结构化信息提取模块通过调用底层政策信息抽取公共组件能力对政策非结构化信息进行抽取,并存储到政策非结构化信息存储模块中;政策非结构化信息存储模块利用存储介质,对政策非结构化解析结果进行存储;政策非结构化信息向量生成器模块基于政策非结构化信息存储模块中存储的政策非结构化解析结果,利用RNN神经网络,生成1024乘以1维的向量来进行政策非结构化信息表达;
所述企业信息采集模块通过多种方式采集企业信息数据并传输至企业信息向量化模块;
所述企业信息向量化模块用于通过NLP引擎,结合企业信息体系和企业数据清洗规则,实现企业信息提取;针对结构化数据提取后存储到数据库中,非结构化数据提取后存储到文件系统中;对于结构化信息特征利用向量生成器构成结构化特征向量,对于非结构化信息特征利用RNN网络生成非结构化特征向量;
所述企业政策匹配模块通过分别针对结构化数据分析结果向量和非结构化数据分析结果向量构造特征距离函数,构建智能匹配算法计算企业和政策匹配度。
2.根据权利要求1所述的惠企政策智能分析系统,其特征在于,还包括相似政策模块,所述相似政策模块通过分别针对政策的结构化数据分析结果向量和非结构化数据分析结果向量构造特征距离函数,构建智能匹配算法计算政策和政策相似度。
3.根据权利要求1所述的惠企政策智能分析系统,其特征在于,所述企业信息采集模块包括:自主上报模块、系统接口模块、数据交换模块、互联网爬虫模块、企业信息库;
所述自主上报模块用于企业工作人员通过交互式页面将无法自动对接的数据采用人工上报的方式入企业信息库;系统接口模块用于同企业的业务系统对接,将企业业务系统中的企业经营数据上报到企业信息库进行入库;数据交换模块用于同政府的大数据中心对接,将政务系统中的企业数据交换到企业信息库进行入库;互联网爬虫模块用于从涉企业务相关网站获取相关企业信息,存储到企业信息库中进行入库;企业信息库包括企业基本信息、企业经营信息、企业司法信息、企业舆情信息、企业其他专题信息在内,存储介质采用数据库和文件系统方式。
4.根据权利要求1所述的惠企政策智能分析系统,其特征在于,所述企业信息向量化模块包括:企业信息抽取公共组件、企业结构化信息提取模块、企业结构化信息存储模块、企业结构化信息向量生成器、企业非结构化信息提取模块、企业非结构化信息存储模块、企业非结构化信息向量生成器;
所述企业信息抽取公共组件提供基于NLP引擎的企业信息抽取能力供上层调用,包含相关的企业信息体系、企业数据清洗规则;
所述企业结构化信息提取模块通过调用底层企业信息抽取公共组件能力对企业结构化信息进行抽取,存储到企业结构化信息存储模块中;企业结构化信息存储模块用于利用存储介质,对企业结构化解析结果进行存储;企业结构化信息向量生成器模块基于企业结构化信息存储模块中的企业结构化解析结果智能生成结构化信息向量,用于表示企业结构化信息;
所述企业非结构化信息提取模块通过调用底层企业信息抽取公共组件能力对企业非结构化信息进行抽取,并存储到企业非结构化信息存储模块中;企业非结构化信息存储模块利用存储介质,对企业非结构化解析结果进行存储;企业非结构化信息向量生成器模块基于企业非结构化信息存储模块中存储的信息利用RNN神经网络,生成1024乘以1维的向量来进行企业非结构化信息表达。
5.根据权利要求1所述的惠企政策智能分析系统,其特征在于,企业政策匹配模块包括:企业政策结构化特征距离函数模块、企业政策非结构化特征距离函数模块、智能匹配引擎模块;
所述企业政策结构化特征距离函数模块用于构造面向政策结构化信息特征向量和企业结构化信息特征向量的企业政策结构化特征距离函数,度量企业和政策匹配程度;
所述企业政策非结构化特征距离函数模块用于构造面向政策非结构化信息特征向量和企业非结构化信息特征向量的企业政策非结构化特征距离函数,度量企业和政策匹配程度;
所述智能匹配引擎模块用于混合结构化特征距离和非结构化特征距离,计算政策和企业之间的匹配度。
6.根据权利要求5所述的惠企政策智能分析系统,其特征在于,所述智能匹配引擎模块分别抽取R1、R2、R3、R4进行企业政策匹配计算;
R1为度量区域有效性,根据公式R1=Bool(Lcompany∈Lpolicy)计算,满足条件为1,不满足条件得0;
R2为度量时间有效性,根据公式R2=Bool(tnow∈tpolicy)计算,满足条件为1,不满足条件得0;
R3为度量行业相似度,根据公式计算,计算结果为0到1之间的一个整数;
R4为度量文本相似度,根据公式计算,计算结果为0到1之间的一个整数;
匹配度M的计算公式为:
W为对应相似度的权重。
7.一种惠企政策智能分析方法,其特征在于,包括如下步骤:
步骤1,政策信息采集及处理,包括:
步骤1-1,获取政策文件及信息;
步骤1-2,将政策信息按照结构化信息特征和非结构化信息特征进行区分,利用NLP引擎进行信息抽取;对于结构化信息特征利用向量生成器构成结构化特征向量;对于非结构化信息特征利用RNN网络生成非结构化特征向量;具体包括如下子步骤:
(1)对政策结构化信息进行抽取,利用存储介质对政策结构化解析结果进行存储,基于政策结构化信息智能生成结构化信息向量,用来表示政策结构化信息;
(2)对政策非结构化信息进行抽取,利用存储介质对政策非结构化解析结果进行存储,基于政策非结构化信息,利用RNN神经网络,生成1024乘以1维的向量来进行政策非结构化信息表达;
步骤2,企业信息采集及处理,包括:
步骤2-1,通过企业自主上报、企业业务系统对接、政府部门数据交换、互联网数据爬取方式中的一种或几种构建企业信息库;具体包括如下子步骤:
(1)企业工作人员通过交互式页面将无法自动对接的数据采用人工上报的方式入企业信息库;
(2)与企业的业务系统对接,将企业业务系统中的企业经营数据上报到企业信息库进行入库;
(3)同政府的大数据中心对接,将政务系统中的企业数据交换到企业信息库进行入库;
(4)从涉企业务相关网站获取相关企业信息,存储到企业信息库中进行入库;
步骤2-2,通过NLP引擎,结合企业信息体系和企业数据清洗规则,实现企业信息提取;针对结构化数据提取后存储到数据库中,非结构化数据提取后存储到文件系统中;对于结构化信息特征利用向量生成器构成结构化特征向量;对于非结构化信息特征利用RNN网络生成非结构化特征向量;具体包括如下子步骤:
(1)对企业结构化信息进行抽取,利用存储介质对企业结构化解析结果进行存储,基于企业结构化信息智能生成结构化信息向量,用来表示企业结构化信息;
(2)对企业非结构化信息进行抽取,利用存储介质对企业非结构化解析结果进行存储,基于企业非结构化信息,利用RNN神经网络,生成1024乘以1维的向量来进行企业非结构化信息表达;
步骤3,政策企业匹配,分别针对结构化数据分析结果向量和非结构化数据分析结果向量构造特征距离函数,构建智能匹配算法计算企业和政策匹配度,具体包括如下过程:
(1)构造面向政策结构化信息特征向量和企业结构化信息特征向量的企业政策结构化特征距离函数,度量企业和政策匹配程度;
(2)构造面向政策非结构化信息特征向量和企业非结构化信息特征向量的企业政策非结构化特征距离函数,度量企业和政策匹配程度;
(3)混合结构化特征距离和非结构化特征距离,计算政策和企业之间的匹配度。
8.根据权利要求7所述的惠企政策智能分析方法,其特征在于,所述步骤(3)通过以下方式计算:
从4个向量中分别抽取R1、R2、R3、R4进行企业政策匹配计算;
R1为度量区域有效性,根据公式R1=Bool(Lcompany∈Lpolicy)计算,满足条件为1,不满足条件得0;
R2为度量时间有效性,根据公式R2=Bool(tnow∈tpolicy)计算,满足条件为1,不满足条件得0;
R3为度量行业相似度,根据公式计算,计算结果为0到1之间的一个整数;
R4为度量文本相似度,根据公式计算,计算结果为0到1之间的一个整数;
匹配度M的计算公式为:
W为对应相似度的权重。
9.根据权利要求7所述的惠企政策智能分析方法,其特征在于,还包括:
步骤4,相似政策计算
分别针对政策的结构化数据分析结果向量和非结构化数据分析结果向量构造特征距离函数,构建智能匹配算法计算政策和政策相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210141256.9A CN115170045B (zh) | 2022-02-16 | 2022-02-16 | 一种惠企政策智能分析系统与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210141256.9A CN115170045B (zh) | 2022-02-16 | 2022-02-16 | 一种惠企政策智能分析系统与方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115170045A CN115170045A (zh) | 2022-10-11 |
CN115170045B true CN115170045B (zh) | 2024-02-27 |
Family
ID=83476116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210141256.9A Active CN115170045B (zh) | 2022-02-16 | 2022-02-16 | 一种惠企政策智能分析系统与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115170045B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112015762A (zh) * | 2019-05-30 | 2020-12-01 | 广州慧睿思通信息科技有限公司 | 案件检索方法、装置、计算机设备和存储介质 |
CN112035653A (zh) * | 2020-11-05 | 2020-12-04 | 北京智源人工智能研究院 | 一种政策关键信息提取方法和装置、存储介质、电子设备 |
CN112380318A (zh) * | 2020-11-12 | 2021-02-19 | 中国科学技术大学智慧城市研究院(芜湖) | 基于标签相似度的企业政策匹配方法 |
KR20210126457A (ko) * | 2020-04-12 | 2021-10-20 | 최영희 | 맞춤형 중소기업 정책사업 정보제공장치 |
CN113918707A (zh) * | 2021-12-14 | 2022-01-11 | 中关村科技软件股份有限公司 | 一种政策汇聚与企业画像匹配推荐的方法 |
CN114036921A (zh) * | 2020-12-18 | 2022-02-11 | 京东科技控股股份有限公司 | 一种政策信息匹配方法和装置 |
-
2022
- 2022-02-16 CN CN202210141256.9A patent/CN115170045B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112015762A (zh) * | 2019-05-30 | 2020-12-01 | 广州慧睿思通信息科技有限公司 | 案件检索方法、装置、计算机设备和存储介质 |
KR20210126457A (ko) * | 2020-04-12 | 2021-10-20 | 최영희 | 맞춤형 중소기업 정책사업 정보제공장치 |
CN112035653A (zh) * | 2020-11-05 | 2020-12-04 | 北京智源人工智能研究院 | 一种政策关键信息提取方法和装置、存储介质、电子设备 |
CN112380318A (zh) * | 2020-11-12 | 2021-02-19 | 中国科学技术大学智慧城市研究院(芜湖) | 基于标签相似度的企业政策匹配方法 |
CN114036921A (zh) * | 2020-12-18 | 2022-02-11 | 京东科技控股股份有限公司 | 一种政策信息匹配方法和装置 |
CN113918707A (zh) * | 2021-12-14 | 2022-01-11 | 中关村科技软件股份有限公司 | 一种政策汇聚与企业画像匹配推荐的方法 |
Non-Patent Citations (1)
Title |
---|
基于政策文本计算的突发公共事件下中小企业扶持政策供需匹配研究――以新冠肺炎疫情为例;盛东方;尹航;;现代情报(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115170045A (zh) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428053B (zh) | 一种面向税务领域知识图谱的构建方法 | |
CN110674840B (zh) | 一种多方证据关联模型构建方法和证据链提取方法及装置 | |
WO2022116418A1 (zh) | 商标侵权的自动化判定方法、装置、电子设备和存储介质 | |
CN110019689A (zh) | 职位匹配方法和职位匹配系统 | |
CN104615687A (zh) | 一种面向知识库更新的实体细粒度分类方法与系统 | |
CN113051927B (zh) | 基于多模态图卷积神经网络的社交网络突发事件检测方法 | |
CN111966787A (zh) | 一种基于知识图谱的智能渔业问答机器人的构建方法 | |
Kejriwal et al. | Investigative knowledge discovery for combating illicit activities | |
CN115757819A (zh) | 裁判文书中引用法条信息获取方法及装置 | |
CN111144453A (zh) | 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备 | |
CN115170045B (zh) | 一种惠企政策智能分析系统与方法 | |
CN116484023A (zh) | 一种基于人工智能的电力行业知识库构建方法及系统 | |
CN117033654A (zh) | 一种面向科技迷雾识别的科技事件图谱构建方法 | |
CN113076468B (zh) | 一种基于领域预训练的嵌套事件抽取方法 | |
Guesmi et al. | Community detection in multi-relational bibliographic networks | |
CN114186068A (zh) | 一种基于多级注意力网络的审计制度依据问答方法 | |
CN113742495A (zh) | 基于预测模型的评级特征权重确定方法及装置、电子设备 | |
Dashdorj et al. | High‐level event identification in social media | |
TWI419071B (zh) | Active knowledge management system, method and computer program product for problem solving | |
Yu et al. | Data service generation framework from heterogeneous printed forms using semantic link discovery | |
CN109388649A (zh) | 一种土地智能推荐方法及系统 | |
ElGindy et al. | Capturing place semantics on the geosocial web | |
CN110750678A (zh) | 监控视频数据关联描述和存储管理的方法及系统 | |
Zhang et al. | Design and implementation of power question answering and visualization system based on knowledge graph | |
CN117972108A (zh) | 一种基于钢厂安全生产知识图谱构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |