CN116737968A - 基于大数据的政策信息智慧管理平台 - Google Patents
基于大数据的政策信息智慧管理平台 Download PDFInfo
- Publication number
- CN116737968A CN116737968A CN202311022785.8A CN202311022785A CN116737968A CN 116737968 A CN116737968 A CN 116737968A CN 202311022785 A CN202311022785 A CN 202311022785A CN 116737968 A CN116737968 A CN 116737968A
- Authority
- CN
- China
- Prior art keywords
- policy
- user
- text file
- policy text
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000012797 qualification Methods 0.000 claims description 21
- 238000012216 screening Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 238000003064 k means clustering Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 2
- 238000007726 management method Methods 0.000 description 8
- 238000011161 development Methods 0.000 description 3
- 241000234295 Musa Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 1
- 235000021015 bananas Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003370 grooming effect Effects 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于大数据的政策信息智慧管理平台,涉及数据处理技术领域,包括:政策收集模块,用于从多个目标网站获取多份样本政策文本文件;政策整理模块,用于对多份样本政策文本文件进行聚类,生成多个政策文本文件聚类簇;用户整理模块,用于获取多个样本用户的用户信息,对多个样本用户信息进行聚类,生成多个用户聚类簇,还用于建立表征多个政策文本文件聚类簇与多个用户聚类簇的关联关系的关系图谱;政策推送模块,用于基于关系图谱将新增政策文本文件推送给目标用户,基于关系图谱推送第一目标政策文件至新增用户,具有可以提供智能而精确的政策匹配服务的优点。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及基于大数据的政策信息智慧管理平台。
背景技术
企业发展是我国经济和社会发展的中流砥柱,为了支持企业的技术研发创新,政府会在公共服务平台和相关网站上发布各种各样的扶持政策。这些政策能够帮助企业快速发展,然而政策发布后企业通常无法清晰地判断自己是否满足申报要求,需要咨询相关工作人员;另外,政府也需要安排人力来处理大量咨询和政策申报的审核工作,面对这种情况,智能而精确的政策匹配能够有效地减少人力工作量,提升申报效率。
因此,需要提供基于大数据的政策信息智慧管理平台,用于提供智能而精确的政策匹配服务,减少大量咨询和政策申报的审核工作所需的人力工作量。
发明内容
本说明书实施例之一提供本发明提供了一种基于大数据的政策信息智慧管理平台,包括:政策收集模块,用于从多个目标网站获取多份样本政策文本文件,还用于从所述多个目标网站获取至少一份新增政策文本文件;政策整理模块,用于对所述多份样本政策文本文件进行聚类,生成多个政策文本文件聚类簇,还用于将所述新增政策文本文件分类至所述多个政策文本文件聚类簇中的至少一个;用户整理模块,用于获取多个样本用户的用户信息,对所述多个样本用户信息进行聚类,生成多个用户聚类,还用于获取至少一个新增用户的用户信息,并基于所述新增用户的用户信息将所述新增用户分类至所述多个用户聚类簇中的至少一个,还用于建立表征所述多个政策文本文件聚类簇与所述多个用户聚类簇的关联关系的关系图谱;政策推送模块,用于在所述政策收集模块将所述新增政策文本文件分类至所述多个政策文本文件聚类簇中的至少一个后,基于所述关系图谱将所述新增政策文本文件推送给目标用户,还用于在所述用户整理模块将所述新增用户分类至所述多个用户聚类簇中的至少一个后,基于所述关系图谱推送第一目标政策文件至所述新增用户。
更进一步地,所述政策收集模块从多个目标网站获取多份样本政策文本文件,包括:按照预设规则基于爬虫从所述至少一个目标网站获取至少一个初始第一URL;对所述至少一个初始第一URL进行筛选,获取至少一个待去重第一URL;去所述至少一个待去重第一URL进行去重,获取至少一个待下载第一URL;从所述至少一个待下载第一URL获取至少一个初始第二URL;对所述至少一个初始第二URL进行筛选,获取至少一个待下载第二URL;对所述至少一个待下载第一URL和所述至少一个待下载第二URL进行去重,获取至少一个目标URL;基于所述至少一个目标URL,获取所述多份样本政策文本文件。
更进一步地,所述政策整理模块对所述多份样本政策文本文件进行聚类,生成多个政策文本文件聚类簇,包括:对于每份所述样本政策文本文件,基于所述样本政策文本文件的标题,生成至少一个标题关键词;基于每份所述样本政策文本文件对应的至少一个标题关键词,对所述多份样本政策文本文件进行筛选,确定所述多份样本政策文本文件中的多份目标政策文本文件;对于每份所述目标政策文本文件,基于所述目标政策文本文件的正文,基于所述目标政策文本文件的至少一个正文关键词;基于每份所述样本政策文本文件对应的至少一个正文关键词,对所述多份目标政策文本文件进行聚类,生成所述多个政策文本文件聚类簇。
更进一步地,所述基于所述至少一个候选词对所述多份样本政策文本文件进行筛选,包括:基于独热编码将所述样本政策文本文件对应的标题关键词转换为数值型数据;基于Word2Vec模型将基于每个所述标题关键词对应的数值型数据生成所述样本政策文本文件对应的标题二维词矩阵,所述标题二维词矩阵由多个词向量构成;通过目标确定模型基于所述标题二维词矩阵及至少一个预设目标二维词矩阵,判断所述样本政策文本文件是否为所述目标政策文本文件。
更进一步地,所述至少一个正文关键词至少包括区域限定类关键词、适用对象限定类关键词及条件限定类关键词;所述政策整理模块基于每份所述样本政策文本文件对应的至少一个正文关键词,对所述多份目标政策文本文件进行聚类,生成所述多个政策文本文件聚类簇,包括:对于任意两份所述目标政策文本文件,基于每份所述目标政策文本文件的区域限定类关键词、适用对象限定类关键词及条件限定类关键词,计算两份所述目标政策文本文件的关键词相似度及关键词关联度;通过k-means聚类算法基于任意两份所述目标政策文本文件的关键词相似度及关键词关联度,对所述多份目标政策文本文件进行聚类,生成所述多个政策文本文件聚类簇。
更进一步地,所述政策整理模块将所述新增政策文本文件分类至所述多个政策文本文件聚类簇中的至少一个,包括:基于所述新增政策文本文件的标题,生成至少一个标题关键词;基于所述新增政策文本文件对应的至少一个标题关键词,判断是否对所述新增政策文本文件进行分类;当判断对所述新增政策文本文件进行分类时,基于所述新增政策文本文件的正文,基于所述新增政策文本文件的至少一个正文关键词;基于每个所述政策文本文件聚类簇的聚类中心对应的至少一个正文关键词及所述新增政策文本文件的至少一个正文关键词,将所述新增政策文本文件分类至所述多个政策文本文件聚类簇中的至少一个。
更进一步地,所述用户信息至少包括经营信息及资质信息,其中,所述经营信息至少包括位置信息、经营范围、注册金额、注册年限和年均收益,所述资质信息至少包括企业资质信息和人才信息;所述用户整理模块对所述多个样本用户信息进行聚类,生成多个用户聚类,包括:对于任意两个所述样本用户信息,基于每个所述样本用户的经营信息及资质信息,计算任意两个所述样本用户之间的用户相似度;通过k-means聚类算法基于两个所述样本用户之间的用户相似度,对所述多个样本用户信息进行聚类,生成所述多个用户聚类。
更进一步地,所述用户整理模块基于所述新增用户的用户信息将所述新增用户分类至所述多个用户聚类簇中的至少一个,包括:基于所述新增用户的经营信息及资质信息及每个所述用户聚类簇的聚类中心对应的经营信息及资质信息,计算所述新增用户与每个所述用户聚类簇的聚类中心的用户相似度;基于所述新增用户与每个所述用户聚类簇的聚类中心的用户相似度,将所述新增用户分类至所述多个用户聚类簇中的至少一个。
更进一步地,所述用户整理模块建立表征所述多个政策文本文件聚类簇与所述多个用户聚类簇的关联关系的关系图谱,包括:建立预设关联规则;基于所述预设关联规则、每个所述个政策文本文件聚类簇的聚类中心画像及每个所述用户聚类簇的聚类中心画像,建立所述关系图谱。
更进一步地,所述系统还包括政策查询模块,用于接收查询用户发起的政策查询请求,基于所述政策查询请求,推送第二目标政策文件至所述查询用户。
相比于现有技术,本说明书提供的基于大数据的政策信息智慧管理平台,至少具备以下有益效果:
1、通过获取多份政策文本文件和多个用户的信息,建立多个政策文本文件聚类簇和多个用户聚类簇,并进一步对多个政策文本文件聚类簇和多个用户聚类簇的关联关系进行分析,建立表征多个政策文本文件聚类簇与多个用户聚类簇的关联关系的关系图谱,实现政策文本文件的自动匹配和推送,从而实现智能而精确的政策匹配服务,减少大量咨询和政策申报的审核工作所需的人力工作量;
2、基于标题关键词对多份样本政策文本文件进行筛选,避免了对无效政策文本文件的聚类,在此基础之上,基于每份样本政策文本文件对应的至少一个正文关键词,对多份目标政策文本文件进行聚类,从而使得确定的多个政策文本文件聚类簇更加准确。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是本申请一实施例中示出的基于大数据的政策信息智慧管理平台的模块图;
图2是本申请一实施例中示出的获取多份样本政策文本文件的流程图;
图3是本申请一实施例中示出的生成多个政策文本文件聚类簇的流程图;
图4是本申请一实施例中示出的将新增政策文本文件分类至多个政策文本文件聚类簇中的至少一个的流程图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。
图1是本申请一实施例中示出的基于大数据的政策信息智慧管理平台的模块图,如图1所示,基于大数据的政策信息智慧管理平台可以包括政策收集模块、政策整理模块、用户整理模块、政策推送模块及政策查询模块。
政策收集模块可以用于从多个目标网站获取多份样本政策文本文件,
图2是本申请一实施例中示出的获取多份样本政策文本文件的流程图,如图2所示,在一些实施例中,政策收集模块从多个目标网站获取多份样本政策文本文件,包括:
按照预设规则基于爬虫从至少一个目标网站获取至少一个初始第一URL;
对至少一个初始第一URL进行筛选,获取至少一个待去重第一URL;
去至少一个待去重第一URL进行去重,获取至少一个待下载第一URL;
从至少一个待下载第一URL获取至少一个初始第二URL;
对至少一个初始第二URL进行筛选,获取至少一个待下载第二URL;
对至少一个待下载第一URL和至少一个待下载第二URL进行去重,获取至少一个目标URL;
基于至少一个目标URL,获取多份样本政策文本文件。
其中,目标网站可以是具备权威性的网线,例如,地方政府官网等。预设规则可以为政策收集模块从至少一个目标网站获取多份样本政策文本文件相关的规则。例如,预设规则可以为只从至少一个目标网站获取发布时间距离当前时间五年以内的多份样本政策文本文件。
政策收集模块还可以用于从多个目标网站获取至少一份新增政策文本文件。
可以理解的,政策收集模块还可以对多个目标网站新发布的政策文本文件进行监控,新增政策文本文件即为多个目标网站在获取多份样本政策文本文件后发布的政策文本文件。
政策整理模块可以用于对多份样本政策文本文件进行聚类,生成多个政策文本文件聚类簇。
图3是本申请一实施例中示出的生成多个政策文本文件聚类簇的流程图,如图3所示,在一些实施例中,政策整理模块对多份样本政策文本文件进行聚类,生成多个政策文本文件聚类簇,包括:
对于每份样本政策文本文件,
基于样本政策文本文件的标题,生成至少一个标题关键词;
基于每份样本政策文本文件对应的至少一个标题关键词,对多份样本政策文本文件进行筛选,确定多份样本政策文本文件中的多份目标政策文本文件;
对于每份目标政策文本文件,
基于目标政策文本文件的正文,基于目标政策文本文件的至少一个正文关键词;
基于每份样本政策文本文件对应的至少一个正文关键词,对多份目标政策文本文件进行聚类,生成多个政策文本文件聚类簇。
在一些实施例中,政策整理模块基于至少一个候选词对多份样本政策文本文件进行筛选,包括:
基于独热编码将样本政策文本文件对应的标题关键词转换为数值型数据,其中,独热(one-hot)编码利用一个向量来表示一句话,这个向量的维数就是由原始句子切分后所得到的词语组成的语料库中字词的个数,这个向量只包含0或1这两个元素。例如,一个句子为“我喜欢香蕉”,在对句子进行切分之后,可以得到“我”、“喜欢”、“香蕉”这3组单词,那么利用独热(one-hot)编码转化成的向量维数度是3,可以观察到“属于”一词的编码向量为[0,1,0],这句话经独热(one-hot)编码后的向量为: ;
基于Word2Vec模型将基于每个标题关键词对应的数值型数据生成样本政策文本文件对应的标题二维词矩阵,标题二维词矩阵由多个词向量构成,二维词矩阵的每一行都表示不同的词向量,假设样本政策文本文件对应的标题关键词的个数为m,每个词是n维的词向量,那么,该二维矩阵的维度为m*n;
通过目标确定模型基于标题二维词矩阵及至少一个预设目标二维词矩阵,判断样本政策文本文件是否为目标政策文本文件。
预设目标二维词矩阵可以为由多个感兴趣关键词(例如,“优惠”、“扶持”、“奖励”等)对应的数值型数据生成的二维词矩阵。
目标确定模型可以为包括但不限于神经网络(Neural Networks,NN)、决策树(Decision Tree, DT)、线性回归(Linear Regression, LR)等一种或多种的组合等。
可以理解的,当目标确定模型判断标题二维词矩阵与至少一个预设目标二维词矩阵的相似度大于预设词矩阵相似度阈值时,判断样本政策文本文件为目标政策文本文件。
在一些实施例中,至少一个正文关键词至少包括区域限定类关键词(例如,上海市、四川省、北京市等)、适用对象限定类关键词(例如,小微企业、高新技术企业等)及条件限定类关键词(例如,“符合享受优惠政策的财务状况”、“符合享受优惠政策的纳税记录和申报情况”、“符合环保、安全、劳动用工等方面的要求等”等)。
在一些实施例中,政策整理模块基于每份样本政策文本文件对应的至少一个正文关键词,对多份目标政策文本文件进行聚类,生成多个政策文本文件聚类簇,包括:
对于任意两份目标政策文本文件,基于每份目标政策文本文件的区域限定类关键词、适用对象限定类关键词及条件限定类关键词,计算两份目标政策文本文件的关键词相似度及关键词关联度;
通过k-means聚类算法基于任意两份目标政策文本文件的关键词相似度及关键词关联度,对多份目标政策文本文件进行聚类,生成多个政策文本文件聚类簇。
具体的,政策整理模块可以先基于目标政策文本文件的标题关键词,确定目标政策文本文件的适用地理区域,根据目标政策文本文件的适用地理区域先将目标政策文本文件分为多组,可以理解的,当A区域属于B区域时,A区域对应的目标政策文本文件也被分到B区域对应的分组内。
对于每个分组,再进行聚类,确定每个分组包括的多个政策文本文件聚类簇。
在确定每个分组包括的多个政策文本文件聚类簇时,可以基于每份目标政策文本文件的区域限定类关键词、适用对象限定类关键词及条件限定类关键词,计算两份目标政策文本文件的关键词相似度及关键词关联度。具体的,可以基于以下公式计算两份目标政策文本文件的关键词相似度:
;
其中,为第m份政策文本文件和第n份政策文本文件之间的关键词相似度,/>为第m份政策文本文件的第i个正文关键词和第n份政策文本文件的第j个正文关键词之间的相似度,/>为第m份政策文本文件中的正文关键词的总个数,/>为第n份政策文本文件中的正文关键词的总个数,/>为预设权重。
;
其中,为第m份政策文本文件和第n份政策文本文件之间的关键词关联度,/>为第m份政策文本文件的第i个正文关键词和第n份政策文本文件的第j个正文关键词之间的关联度,/>为预设权重。
可以理解的,政策整理模块可以预先建立有知识图谱,该知识图谱可以用于记载任意两个正文关键词之间关联度,进行聚类时,可以直接从知识图谱中读取第m份政策文本文件的第i个正文关键词和第n份政策文本文件的第j个正文关键词之间的关联度。
政策整理模块还可以用于将新增政策文本文件分类至多个政策文本文件聚类簇中的至少一个。
图4是本申请一实施例中示出的将新增政策文本文件分类至多个政策文本文件聚类簇中的至少一个的流程图,如图4所示,在一些实施例中,政策整理模块将新增政策文本文件分类至多个政策文本文件聚类簇中的至少一个,包括:
基于新增政策文本文件的标题,生成至少一个标题关键词;
基于新增政策文本文件对应的至少一个标题关键词,判断是否对新增政策文本文件进行分类;
当判断对新增政策文本文件进行分类时,基于新增政策文本文件的正文,基于新增政策文本文件的至少一个正文关键词;
基于每个政策文本文件聚类簇的聚类中心对应的至少一个正文关键词及新增政策文本文件的至少一个正文关键词,将新增政策文本文件分类至多个政策文本文件聚类簇中的至少一个。
具体的,基于独热编码将新增政策文本文件对应的标题关键词转换为数值型数据, 基于Word2Vec模型将基于每个标题关键词对应的数值型数据生成新增政策文本文件对应的标题二维词矩阵,标题二维词矩阵由多个词向量构成;
通过目标确定模型基于新增政策文本文件及至少一个预设目标二维词矩阵,判断新增政策文本文件是否为目标政策文本文件,当判断新增政策文本文件为目标政策文本文件时,需要对新增政策文本文件进行分类。
具体的,基于每个政策文本文件聚类簇的聚类中心对应的至少一个正文关键词及新增政策文本文件的至少一个正文关键词,计算新增政策文本文件的每一个正文关键词与聚类中心对应的每个正文关键词之间的相似度及关联度,进而计算新增政策文本文件与聚类中心的关键词相似度及关键词关联度,将新增政策文本文件分类至关键词相似度和关键词关联度的加权求和值最大的聚类中心对应的政策文本文件聚类簇中。
用户整理模块可以用于获取多个样本用户的用户信息,对多个样本用户信息进行聚类,生成多个用户聚类,
在一些实施例中,用户信息至少包括经营信息及资质信息,其中,经营信息至少包括位置信息、经营范围、注册金额、注册年限和年均收益,资质信息至少包括企业资质信息和人才信息。
在一些实施例中,用户整理模块对多个样本用户信息进行聚类,生成多个用户聚类,包括:
对于任意两个样本用户信息,基于每个样本用户的经营信息及资质信息,计算任意两个样本用户之间的用户相似度;
通过k-means聚类算法基于两个样本用户之间的用户相似度,对多个样本用户信息进行聚类,生成多个用户聚类。
在一些实施例中,可以基于以下公式计算任意两个样本用户之间的用户相似度:
;
其中,为第m个样本用户和第n个样本用户之间的用户相似度,为第m个样本用户和第n个样本用户在经营信息上的相似度,为第m个样本用户和第n个样本用户在企业资质信息上的相似度,为第m个样本用户和第n个样本用户在人才信息上的相似度,/>、、/>均为预设权重。
用户还可以用于获取至少一个新增用户的用户信息,并基于新增用户的用户信息将新增用户分类至多个用户聚类簇中的至少一个。
在一些实施例中,用户整理模块基于新增用户的用户信息将新增用户分类至多个用户聚类簇中的至少一个,包括:
基于新增用户的经营信息及资质信息及每个用户聚类簇的聚类中心对应的经营信息及资质信息,计算新增用户与每个用户聚类簇的聚类中心的用户相似度;
基于新增用户与每个用户聚类簇的聚类中心的用户相似度,将新增用户分类至多个用户聚类簇中的至少一个。
具体的,用户整理模块可以基于新增用户的经营信息及资质信息与每个用户聚类簇的聚类中心对应的经营信息及资质信息,计算新增用户与每个用户聚类簇的聚类中心的用户相似度,并将新增用户分类至用户相似度最大的聚类中心对应的用户聚类簇。
用户还可以用于建立表征多个政策文本文件聚类簇与多个用户聚类簇的关联关系的关系图谱。
在一些实施例中,用户整理模块建立表征多个政策文本文件聚类簇与多个用户聚类簇的关联关系的关系图谱,包括:
建立预设关联规则,例如,预设关联规则可以为当政策文本文件聚类簇的聚类中心画像中适用的区域和对象与用户聚类簇的聚类中心画像符合时,该政策文本文件聚类簇与该用户聚类簇存在关联关系;
基于预设关联规则、每个政策文本文件聚类簇的聚类中心画像及每个用户聚类簇的聚类中心画像,建立关系图谱。
政策推送模块可以用于在政策收集模块将新增政策文本文件分类至多个政策文本文件聚类簇中的至少一个后,基于关系图谱将新增政策文本文件推送给目标用户。
例如,基于关系图谱,将该新增政策文本文件推送与该新增政策文本文件所在的政策文本文件聚类簇存在关联关系的用户聚类簇中的用户(即目标用户)。
政策推送模块还可以用于在用户整理模块将新增用户分类至多个用户聚类簇中的至少一个后,基于关系图谱推送第一目标政策文件至新增用户。
例如,基于关系图谱,将与该新增用户所在的用户聚类簇存在关联关系的政策文本文件聚类簇中的政策文本文件推送该新增用户。
政策查询模块可以用于接收查询用户发起的政策查询请求,基于政策查询请求,推送第二目标政策文件至查询用户。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (10)
1.基于大数据的政策信息智慧管理平台,其特征在于,包括:
政策收集模块,用于从多个目标网站获取多份样本政策文本文件,还用于从所述多个目标网站获取至少一份新增政策文本文件;
政策整理模块,用于对所述多份样本政策文本文件进行聚类,生成多个政策文本文件聚类簇,还用于将所述新增政策文本文件分类至所述多个政策文本文件聚类簇中的至少一个;
用户整理模块,用于获取多个样本用户的用户信息,对所述多个样本用户信息进行聚类,生成多个用户聚类,还用于获取至少一个新增用户的用户信息,并基于所述新增用户的用户信息将所述新增用户分类至所述多个用户聚类簇中的至少一个,还用于建立表征所述多个政策文本文件聚类簇与所述多个用户聚类簇的关联关系的关系图谱;
政策推送模块,用于在所述政策收集模块将所述新增政策文本文件分类至所述多个政策文本文件聚类簇中的至少一个后,基于所述关系图谱将所述新增政策文本文件推送给目标用户,还用于在所述用户整理模块将所述新增用户分类至所述多个用户聚类簇中的至少一个后,基于所述关系图谱推送第一目标政策文件至所述新增用户。
2.根据权利要求1所述的基于大数据的政策信息智慧管理平台,其特征在于,所述政策收集模块从多个目标网站获取多份样本政策文本文件,包括:
按照预设规则基于爬虫从所述至少一个目标网站获取至少一个初始第一URL;
对所述至少一个初始第一URL进行筛选,获取至少一个待去重第一URL;
去所述至少一个待去重第一URL进行去重,获取至少一个待下载第一URL;
从所述至少一个待下载第一URL获取至少一个初始第二URL;
对所述至少一个初始第二URL进行筛选,获取至少一个待下载第二URL;
对所述至少一个待下载第一URL和所述至少一个待下载第二URL进行去重,获取至少一个目标URL;
基于所述至少一个目标URL,获取所述多份样本政策文本文件。
3.根据权利要求2所述的基于大数据的政策信息智慧管理平台,其特征在于,所述政策整理模块对所述多份样本政策文本文件进行聚类,生成多个政策文本文件聚类簇,包括:
对于每份所述样本政策文本文件,基于所述样本政策文本文件的标题,生成至少一个标题关键词;
基于每份所述样本政策文本文件对应的至少一个标题关键词,对所述多份样本政策文本文件进行筛选,确定所述多份样本政策文本文件中的多份目标政策文本文件;
对于每份所述目标政策文本文件,基于所述目标政策文本文件的正文,基于所述目标政策文本文件的至少一个正文关键词;
基于每份所述样本政策文本文件对应的至少一个正文关键词,对所述多份目标政策文本文件进行聚类,生成所述多个政策文本文件聚类簇。
4.根据权利要求3所述的基于大数据的政策信息智慧管理平台,其特征在于,所述基于所述至少一个候选词对所述多份样本政策文本文件进行筛选,包括:
基于独热编码将所述样本政策文本文件对应的标题关键词转换为数值型数据;
基于Word2Vec模型将基于每个所述标题关键词对应的数值型数据生成所述样本政策文本文件对应的标题二维词矩阵,所述标题二维词矩阵由多个词向量构成;
通过目标确定模型基于所述标题二维词矩阵及至少一个预设目标二维词矩阵,判断所述样本政策文本文件是否为所述目标政策文本文件。
5.根据权利要求3所述的基于大数据的政策信息智慧管理平台,其特征在于,所述至少一个正文关键词至少包括区域限定类关键词、适用对象限定类关键词及条件限定类关键词;
所述政策整理模块基于每份所述样本政策文本文件对应的至少一个正文关键词,对所述多份目标政策文本文件进行聚类,生成所述多个政策文本文件聚类簇,包括:
对于任意两份所述目标政策文本文件,基于每份所述目标政策文本文件的区域限定类关键词、适用对象限定类关键词及条件限定类关键词,计算两份所述目标政策文本文件的关键词相似度及关键词关联度;
通过k-means聚类算法基于任意两份所述目标政策文本文件的关键词相似度及关键词关联度,对所述多份目标政策文本文件进行聚类,生成所述多个政策文本文件聚类簇。
6.根据权利要求5所述的基于大数据的政策信息智慧管理平台,其特征在于,所述政策整理模块将所述新增政策文本文件分类至所述多个政策文本文件聚类簇中的至少一个,包括:
基于所述新增政策文本文件的标题,生成至少一个标题关键词;
基于所述新增政策文本文件对应的至少一个标题关键词,判断是否对所述新增政策文本文件进行分类;
当判断对所述新增政策文本文件进行分类时,基于所述新增政策文本文件的正文,基于所述新增政策文本文件的至少一个正文关键词;
基于每个所述政策文本文件聚类簇的聚类中心对应的至少一个正文关键词及所述新增政策文本文件的至少一个正文关键词,将所述新增政策文本文件分类至所述多个政策文本文件聚类簇中的至少一个。
7.根据权利要求1-6中任意一项所述的基于大数据的政策信息智慧管理平台,其特征在于,所述用户信息至少包括经营信息及资质信息,其中,所述经营信息至少包括位置信息、经营范围、注册金额、注册年限和年均收益,所述资质信息至少包括企业资质信息和人才信息;
所述用户整理模块对所述多个样本用户信息进行聚类,生成多个用户聚类,包括:
对于任意两个所述样本用户信息,基于每个所述样本用户的经营信息及资质信息,计算任意两个所述样本用户之间的用户相似度;
通过k-means聚类算法基于两个所述样本用户之间的用户相似度,对所述多个样本用户信息进行聚类,生成所述多个用户聚类。
8.根据权利要求7所述的基于大数据的政策信息智慧管理平台,其特征在于,所述用户整理模块基于所述新增用户的用户信息将所述新增用户分类至所述多个用户聚类簇中的至少一个,包括:
基于所述新增用户的经营信息及资质信息及每个所述用户聚类簇的聚类中心对应的经营信息及资质信息,计算所述新增用户与每个所述用户聚类簇的聚类中心的用户相似度;
基于所述新增用户与每个所述用户聚类簇的聚类中心的用户相似度,将所述新增用户分类至所述多个用户聚类簇中的至少一个。
9.根据权利要求1-6中任意一项所述的基于大数据的政策信息智慧管理平台,其特征在于,所述用户整理模块建立表征所述多个政策文本文件聚类簇与所述多个用户聚类簇的关联关系的关系图谱,包括:
建立预设关联规则;
基于所述预设关联规则、每个所述个政策文本文件聚类簇的聚类中心画像及每个所述用户聚类簇的聚类中心画像,建立所述关系图谱。
10.根据权利要求1-6中任意一项所述的基于大数据的政策信息智慧管理平台,其特征在于,还包括政策查询模块,用于接收查询用户发起的政策查询请求,基于所述政策查询请求,推送第二目标政策文件至所述查询用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311022785.8A CN116737968B (zh) | 2023-08-15 | 2023-08-15 | 基于大数据的政策信息智慧管理平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311022785.8A CN116737968B (zh) | 2023-08-15 | 2023-08-15 | 基于大数据的政策信息智慧管理平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116737968A true CN116737968A (zh) | 2023-09-12 |
CN116737968B CN116737968B (zh) | 2023-10-31 |
Family
ID=87901611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311022785.8A Active CN116737968B (zh) | 2023-08-15 | 2023-08-15 | 基于大数据的政策信息智慧管理平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116737968B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102158352B1 (ko) * | 2020-03-27 | 2020-09-21 | (주)케이엔랩 | 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램 |
CN112184525A (zh) * | 2020-09-28 | 2021-01-05 | 上海市浦东新区行政服务中心(上海市浦东新区市民中心) | 通过自然语义分析实现智能匹配推荐的系统及方法 |
CN112380318A (zh) * | 2020-11-12 | 2021-02-19 | 中国科学技术大学智慧城市研究院(芜湖) | 基于标签相似度的企业政策匹配方法 |
CN114428861A (zh) * | 2022-01-27 | 2022-05-03 | 陕西煤业股份有限公司 | 一种企业政策智能解读方法、系统、设备及存储介质 |
CN114625989A (zh) * | 2022-05-16 | 2022-06-14 | 国能大渡河大数据服务有限公司 | 一种基于卷积神经网络的数据分析方法及系统 |
-
2023
- 2023-08-15 CN CN202311022785.8A patent/CN116737968B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102158352B1 (ko) * | 2020-03-27 | 2020-09-21 | (주)케이엔랩 | 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램 |
CN112184525A (zh) * | 2020-09-28 | 2021-01-05 | 上海市浦东新区行政服务中心(上海市浦东新区市民中心) | 通过自然语义分析实现智能匹配推荐的系统及方法 |
CN112380318A (zh) * | 2020-11-12 | 2021-02-19 | 中国科学技术大学智慧城市研究院(芜湖) | 基于标签相似度的企业政策匹配方法 |
CN114428861A (zh) * | 2022-01-27 | 2022-05-03 | 陕西煤业股份有限公司 | 一种企业政策智能解读方法、系统、设备及存储介质 |
CN114625989A (zh) * | 2022-05-16 | 2022-06-14 | 国能大渡河大数据服务有限公司 | 一种基于卷积神经网络的数据分析方法及系统 |
Non-Patent Citations (2)
Title |
---|
WENDAI LV等: "Enterprise strategy matching of technology merger and performance under competition-cooperation environment", INTERNATIONAL JOURNAL OF TECHNOLOGY MANAGEMENT, pages 248 - 266 * |
张维冲;王芳;黄毅;: "基于图数据库的贵州省大数据政策知识建模研究", 数字图书馆论坛, no. 04, pages 30 - 38 * |
Also Published As
Publication number | Publication date |
---|---|
CN116737968B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107066599B (zh) | 一种基于知识库推理的相似上市公司企业检索分类方法及系统 | |
CN107577688B (zh) | 基于媒体信息采集的原创文章影响力分析系统 | |
US20170235820A1 (en) | System and engine for seeded clustering of news events | |
CN115271635B (zh) | 智慧社区服务平台系统 | |
WO2021004344A1 (zh) | 基于数据分析的风险识别方法及相关设备 | |
CN109165294A (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN104346438A (zh) | 基于大数据数据管理服务系统 | |
CN114003721A (zh) | 矛盾纠纷事件类型分类模型的构建方法、装置及应用 | |
CN106815605B (zh) | 一种基于机器学习的数据分类方法及设备 | |
CN114896305A (zh) | 一种基于大数据技术的智慧互联网安全平台 | |
Christen et al. | A probabilistic geocoding system based on a national address file | |
CN108667678A (zh) | 一种基于大数据的运维日志安全检测方法及装置 | |
CN112307133A (zh) | 安全防护方法、装置、计算机设备及存储介质 | |
CN113487241A (zh) | 企业环保信用等级的分类方法、装置、设备及存储介质 | |
CN115794798A (zh) | 一种市场监管信息化标准管理与动态维护系统及方法 | |
CN109582743B (zh) | 一种针对恐怖袭击事件的数据挖掘系统 | |
CN108959577B (zh) | 基于非主属性离群点检测的实体匹配方法和计算机程序 | |
CN114003783A (zh) | 一种基于智慧城市云平台的数据共享系统 | |
Babu et al. | Geographical address classification without using geolocation coordinates | |
CN116737968B (zh) | 基于大数据的政策信息智慧管理平台 | |
CN113222109A (zh) | 一种基于多源异构数据聚合技术的物联网边缘算法 | |
CN113742495B (zh) | 基于预测模型的评级特征权重确定方法及装置、电子设备 | |
CN113571198B (zh) | 转化率预测方法、装置、设备及存储介质 | |
CN115953041A (zh) | 一种营商政策系统的构建方案及系统 | |
CN116186298A (zh) | 信息检索方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |