CN113468418A - 一种政策数据智能推荐方法及系统 - Google Patents
一种政策数据智能推荐方法及系统 Download PDFInfo
- Publication number
- CN113468418A CN113468418A CN202110687412.7A CN202110687412A CN113468418A CN 113468418 A CN113468418 A CN 113468418A CN 202110687412 A CN202110687412 A CN 202110687412A CN 113468418 A CN113468418 A CN 113468418A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- policy
- similarity
- policy data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000003058 natural language processing Methods 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000013316 zoning Methods 0.000 claims description 9
- 238000012544 monitoring process Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 238000011160 research Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 abstract description 6
- 239000000284 extract Substances 0.000 abstract description 4
- 238000005192 partition Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及智能推荐技术领域,公开了一种政策数据智能推荐方法及系统,该方法包括:获取政策数据及用户数据,基于政策数据及用户数据分别构造政策画像及用户画像,并计算所包含若干子项对应的子相似度,针对若干子项对应的子相似度进行加权求和得到总相似度,再对总相似度进行降序排序,向特定用户输出符合预设概率阈值的政策数据。相比人工进行政策数据的检索,本发明实施例基于自然语言处理及深度学习算法,对政策数据及用户数据进行信息抽取并构造政策画像及用户画像,据此计算总相似度,再降序排序筛查出与用户相适配的政策数据,向用户进行精准推荐,从而可排除众多无效信息,确保用户可及时获取到有效的政策数据,提高办事效率。
Description
技术领域
本发明涉及智能推荐技术领域,尤其涉及一种政策数据智能推荐方法及系统。
背景技术
随着电子政务的推行,各政府部门与机关单位均将政策数据发布于电子政务平台上,用户通过电子政务平台进行政策数据的检索与获取,从而减少了纸质文件与线下流程。
在实际应用中,用户通常仅需符合自身行业与企业规模的政策文件,而长期持续地更新使得电子政务平台上积累了海量的政策数据,且政策数据在获取途径上未进行明确的区分,这使得用户难以获得对自己有用的信息,降低了办事效率,电子政务的优势无法得到体现。
发明内容
本发明实施例公开一种政策数据智能推荐方法及系统,基于自然语言处理及深度学习算法,对政策数据及用户数据进行信息抽取并构造政策画像及用户画像,据此计算总相似度,筛查出与用户相适配的政策数据并向用户进行精准推荐,排除众多无效信息,确保用户可及时获取到有效的政策数据,提高办事效率。
本发明实施例的第一方面公开了一种政策数据智能推荐方法,所述方法包括:
获取政策数据及用户数据;
基于所述政策数据及所述用户数据,分别构造政策画像及用户画像;
计算所述政策画像及所述用户画像所包含若干子项对应的子相似度;
针对所述若干子项对应的子相似度进行加权求和,得到总相似度;
对所述总相似度进行降序排序,向特定用户输出符合预设概率阈值的政策数据。
作为一种可选的实施方式,在本发明实施例的第一方面中,所述基于所述政策数据及所述用户数据,分别构造政策画像及用户画像,包括:
基于自然语言处理及循环神经网络对所述政策数据及所述用户数据进行信息提取,得到对应于所述政策数据及所述用户数据的若干子项,所述若干子项为半结构化数据;
其中,所述自然语言处理包括自研中文分词算法模型、公务文书词库、行业词库、领域词库、关键词匹配模型及隐马尔科夫模型;所述政策数据对应的子项包括公文类型及关键词信息;所述用户数据对应的子项包括区划信息、行业信息、领域信息及企业信息;
对所述半结构化数据进行数据结构化处理,通过抽取关键词构造得到所述政策数据对应的政策画像及所述用户数据对应的用户画像。
作为一种可选的实施方式,在本发明实施例的第一方面中,所述计算所述政策画像及所述用户画像所包含若干子项对应的子相似度,包括:
基于行政区划层级信息、所述区划信息及所述关键词信息,计算得到所述政策数据与所述用户数据的区划相似度;
基于行业代码层级信息及所述行业信息,计算得到所述政策数据的行业相似度及所述用户数据的行业相似度;
基于企业规模量化信息及所述企业信息,计算得到所述用户数据相对所述政策数据的企业规模相似度;
基于所述政策画像及所述用户画像,采用等值映射输出扶持领域相似度、企业类型相似度、知识产权相似度及融资阶段相似度。
作为一种可选的实施方式,在本发明实施例的第一方面中,所述针对所述若干子项对应的子相似度进行加权求和,得到总相似度,包括:
针对所述政策画像及所述用户画像中每一子项,依据专家规则对应设定子项权重值;
基于所述子项权重值对所述若干子项对应的子相似度进行加权求和,得到所述总相似度。
作为一种可选的实施方式,在本发明实施例的第一方面中,所述方法还包括:
监测电子政务平台中的政策数据发布页面;
当监测到所述政策数据发布页面发生更新时,获取新增政策数据;
计算所述新增政策数据相对每一用户画像的总相似度;
基于所述新增政策数据相对每一用户画像的总相似度进行降序排序,向符合所述预设概率阈值的用户画像所对应的用户推送所述新增政策数据。
本发明实施例的第二方面公开了一种政策数据智能推荐方法,所述系统包括:
数据获取单元,用于获取政策数据及用户数据;
画像构造单元,用于基于所述政策数据及所述用户数据,分别构造政策画像及用户画像;
第一计算单元,用于计算所述政策画像及所述用户画像所包含若干子项对应的子相似度;
第二计算单元,用于针对所述若干子项对应的子相似度进行加权求和,得到总相似度;
匹配输出单元,用于对所述总相似度进行降序排序,向特定用户输出符合预设概率阈值的政策数据。
作为一种可选的实施方式,在本发明实施例的第二方面中,所述画像构造单元包括:
提取子单元,用于基于自然语言处理及循环神经网络对所述政策数据及所述用户数据进行信息提取,得到对应于所述政策数据及所述用户数据的若干子项,所述若干子项为半结构化数据;
其中,所述自然语言处理包括自研中文分词算法模型、公务文书词库、行业词库、领域词库、关键词匹配模型及隐马尔科夫模型;所述政策数据对应的子项包括公文类型及关键词信息;所述用户数据对应的子项包括区划信息、行业信息、领域信息及企业信息;
结构化子单元,用于对所述半结构化数据进行数据结构化处理,通过抽取关键词构造得到所述政策数据对应的政策画像及所述用户数据对应的用户画像。
作为一种可选的实施方式,在本发明实施例的第二方面中,所述第一计算单元包括:
第一计算子单元,用于基于行政区划层级信息、所述区划信息及所述关键词信息,计算得到所述政策数据与所述用户数据的区划相似度;
第二计算子单元,用于基于行业代码层级信息及所述行业信息,计算得到所述政策数据的行业相似度及所述用户数据的行业相似度;
第三计算子单元,用于基于企业规模量化信息及所述企业信息,计算得到所述用户数据相对所述政策数据的企业规模相似度;
第四计算子单元,用于基于所述政策画像及所述用户画像,采用等值映射输出扶持领域相似度、企业类型相似度、知识产权相似度及融资阶段相似度。
作为一种可选的实施方式,在本发明实施例的第二方面中,所述第二计算单元包括:
权重设定子单元,用于针对所述政策画像及所述用户画像中每一子项,依据专家规则对应设定子项权重值;
加权求和子单元,用于基于所述子项权重值对所述若干子项对应的子相似度进行加权求和,得到所述总相似度。
作为一种可选的实施方式,在本发明实施例的第二方面中,所述系统还包括:
监测单元,用于监测电子政务平台中的政策数据发布页面;
所述数据获取单元,还用于在监测到所述政策数据发布页面发生更新时,获取新增政策数据;
所述第二计算单元,还用于计算所述新增政策数据相对每一用户画像的总相似度;
推送单元,用于基于所述新增政策数据相对每一用户画像的总相似度进行降序排序,向符合所述预设概率阈值的用户画像所对应的用户推送所述新增政策数据。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,基于自然语言处理及深度学习算法,对政策数据及用户数据进行信息抽取并构造政策画像及用户画像,据此计算总相似度,再降序排序筛查出与用户相适配的政策数据,向用户进行精准推荐,从而可排除众多无效信息,确保用户可及时获取到有效的政策数据,提高办事效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种政策数据智能推荐方法的流程示意图;
图2是本发明实施例公开的一种政策数据智能推荐系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明公开了一种政策数据智能推荐方法及系统,基于自然语言处理及深度学习算法,对政策数据及用户数据进行信息抽取并构造政策画像及用户画像,据此计算总相似度,再降序排序筛查出与用户相适配的政策数据,向用户进行精准推荐,从而可排除众多无效信息,确保用户可及时获取到有效的政策数据,提高办事效率。
实施例一
请参阅图1,图1是本发明实施例公开的一种政策数据智能推荐方法的流程示意图。如图1所示,该政策数据智能推荐方法可以包括以下步骤。
101、获取政策数据及用户数据。
本发明实施例中,政策数据为政府部门发布于电子政务平台的各类政策文件;用户数据为企业用户在知识产权、融资状况、业务规模、企业状态、成立时间、员工信息等方面的资料。
102、基于政策数据及用户数据,分别构造政策画像及用户画像。
本发明实施例中,针对每一政策数据及每一用户数据,分别分析并构造得到政策画像及用户画像,用以揭示每一政策数据及每一用户数据的特征。
作为一种可选的实施方式,基于自然语言处理及循环神经网络对政策数据及用户数据进行信息提取,得到对应于政策数据及用户数据的若干子项,若干子项为半结构化数据;对半结构化数据进行数据结构化处理,通过抽取关键词构造得到政策数据对应的政策画像及用户数据对应的用户画像。具体地,自然语言处理包括自研中文分词算法模型、公务文书词库、行业词库、领域词库、关键词匹配模型及隐马尔科夫模型;政策数据对应的子项包括公文类型及关键词信息;用户数据对应的子项包括区划信息、行业信息、领域信息及企业信息。其中,可采用TensorFlow、Gensim及Sklearn等自然语言学习模型构造中文分词算法及隐马尔科夫模型,根据专家经验编写正则表达式并配合有向无环图进行关键词提取,在分析提取得到政策数据与用户数据的子项之后,即可对半结构化数据类型的子项进一步进行关键词抽取等操作,构造得到结构化的政策画像与用户画像,准确对政策数据及用户数据的特征进行表征,便于后续进行匹配推荐。
103、计算政策画像及用户画像所包含若干子项对应的子相似度。
本发明实施例中,特定政策对应于特定的用户群体,通过政策画像及用户画像中各子项的子相似度进行匹配。
作为一种可选的实施方式,基于行政区划层级信息、区划信息及关键词信息,计算得到政策数据与用户数据的区划相似度;基于行业代码层级信息及行业信息,计算得到政策数据的行业相似度及用户数据的行业相似度;基于企业规模量化信息及企业信息,计算得到用户数据相对政策数据的企业规模相似度;基于政策画像及用户画像,采用等值映射输出扶持领域相似度、企业类型相似度、知识产权相似度及融资阶段相似度。具体地,区划相似度、行业相似度及企业规模相似度的取值区间为[0,1],扶持领域相似度、企业类型相似度、知识产权相似度及融资阶段相似度的数值0或1,从而,实现对政策数据与用户数据匹配程度进行量化表达。
104、针对若干子项对应的子相似度进行加权求和,得到总相似度。
本发明实施例中,总相似度用以衡量政策数据相对用户数据的匹配程度。
作为一种可选的实施方式,针对政策画像及用户画像中每一子项,依据专家规则对应设定子项权重值;基于子项权重值对若干子项对应的子相似度进行加权求和,得到总相似度。具体地,总相似度=区划相似度*区划权重+行业相似度*行业权重+企业规模相似度*企业规模权重+领域相似度*领域权重+企业类型相似度*企业类型权重+知识产权相似度*知识产权权重+融资阶段相似度*融资阶段权重,据此计算得到总相似度,从而获知政策数据相对用户数据的匹配程度。
可以理解的是,以上实施例中仅列举了部分子项及子项权重值,实际情况下,不同的政策数据及用户数据的还可能包括更多的子项,需要灵活调整子项的具体内容及子项权重值,以适应不同类型的政策数据及用户数据。
105、对所述总相似度进行降序排序,向特定用户输出符合预设概率阈值的政策数据。
本发明实施例中,当特定用户在电子政务平台搜索获取政策数据时,将基于特定用户的用户画像向其推送相关的政策数据。
作为一种可选的实施方式,假设存在某一特定用户在电子政务平台检索与自身相关的政策数据,则基于该特定用户的用户画像及电子政务平台上的政务画像进行总相似度计算,并对总相似度进行降序排序,以召回相似度较高的政策数据,得到若干处于预设概率阈值之内的政策数据,则可认定处于预设概率阈值之内的政策数据匹配该特定用户,即排序顺位越高的政策数据,其与用户数据在区划、行业、扶持领域等方面的匹配度也越高;向该特定用户输出相关性达标的政策数据,实现基于政策数据与用户数据的政策内容智能推荐,从而用户无需通过人工逐一查找,即可直接获取到准确有效的政策数据。
作为另一种可选的实施方式,监测电子政务平台中的政策数据发布页面;当监测到政策数据发布页面发生更新时,获取新增政策数据;计算新增政策数据相对每一用户画像的总相似度;基于新增政策数据相对每一用户画像的总相似度进行降序排序,向符合预设概率阈值的用户画像所对应的用户推送新增政策数据。具体地,政策数据具有较高的时效性,在此,对政策数据发布页面进行监测,当新增政策数据在政策数据发布页面上更新时,获取并计算新增政策数据相对每一用户画像的总相似度并降序排序,筛选出符合预设概率阈值的用户画像所对应的用户,并通过邮件等方式向用户推送该新增政策数据,确保新增政策数据可被匹配的用户及时获取到。
综上,基于自然语言处理及深度学习算法,对政策数据及用户数据进行信息抽取并构造政策画像及用户画像,据此计算总相似度,再降序排序筛查出与用户相适配的政策数据,向用户进行精准推荐,从而可排除众多无效信息,确保用户可及时获取到有效的政策数据,提高办事效率。
实施例二
请参阅图2,图2是本发明实施例公开的一种政策数据智能推荐系统的结构示意图。如图2所示,该政策数据智能推荐系统可以包括以下内容。
数据获取单元201,用于获取政策数据及用户数据;
画像构造单元202,用于基于所述政策数据及用户数据,分别构造政策画像及用户画像;
第一计算单元203,用于计算政策画像及用户画像所包含若干子项对应的子相似度;
第二计算单元204,用于针对若干子项对应的子相似度进行加权求和,得到总相似度;
匹配输出单元205,用于对总相似度进行降序排序,向特定用户输出符合预设概率阈值的政策数据;
监测单元206,用于监测电子政务平台中的政策数据发布页面;
数据获取单元201,还用于在监测到政策数据发布页面发生更新时,获取新增政策数据;
第二计算单元204,还用于计算新增政策数据相对每一用户画像的总相似度;
推送单元207,用于基于新增政策数据相对每一用户画像的总相似度进行降序排序,向符合预设概率阈值的用户画像所对应的用户推送新增政策数据。
其中,画像构造单元202包括:
提取子单元2021,用于基于自然语言处理及循环神经网络对政策数据及用户数据进行信息提取,得到对应于政策数据及用户数据的若干子项,若干子项为半结构化数据;
其中,自然语言处理包括自研中文分词算法模型、公务文书词库、行业词库、领域词库、关键词匹配模型及隐马尔科夫模型;政策数据对应的子项包括公文类型及关键词信息;用户数据对应的子项包括区划信息、行业信息、领域信息及企业信息;
结构化子单元2022,用于对半结构化数据进行数据结构化处理,通过抽取关键词构造得到政策数据对应的政策画像及用户数据对应的用户画像。
其中,第一计算单元203包括:
第一计算子单元2031,用于基于行政区划层级信息、区划信息及关键词信息,计算得到政策数据与用户数据的区划相似度;
第二计算子单元2032,用于基于行业代码层级信息及行业信息,计算得到政策数据的行业相似度及用户数据的行业相似度;
第三计算子单元2033,用于基于企业规模量化信息及企业信息,计算得到用户数据相对政策数据的企业规模相似度;
第四计算子单元2034,用于基于政策画像及用户画像,采用等值映射输出扶持领域相似度、企业类型相似度、知识产权相似度及融资阶段相似度。
其中,第二计算单元204包括:
权重设定子单元2041,用于针对政策画像及用户画像中每一子项,依据专家规则对应设定子项权重值;
加权求和子单元2042,用于基于子项权重值对若干子项对应的子相似度进行加权求和,得到总相似度。
作为一种可选的实施方式,提取子单元2021基于自然语言处理及循环神经网络对政策数据及用户数据进行信息提取,得到对应于政策数据及用户数据的若干子项,若干子项为半结构化数据;结构化子单元2022对半结构化数据进行数据结构化处理,通过抽取关键词构造得到政策数据对应的政策画像及用户数据对应的用户画像。具体地,自然语言处理包括自研中文分词算法模型、公务文书词库、行业词库、领域词库、关键词匹配模型及隐马尔科夫模型;政策数据对应的子项包括公文类型及关键词信息;用户数据对应的子项包括区划信息、行业信息、领域信息及企业信息。其中,可采用TensorFlow、Gensim及Sklearn等自然语言学习模型构造中文分词算法及隐马尔科夫模型,根据专家经验编写正则表达式并配合有向无环图进行关键词提取,在分析提取得到政策数据与用户数据的子项之后,即可对半结构化数据类型的子项进一步进行关键词抽取等操作,构造得到结构化的政策画像与用户画像,准确对政策数据及用户数据的特征进行表征,便于后续进行匹配推荐。
作为一种可选的实施方式,第一计算子单元2031基于行政区划层级信息、区划信息及关键词信息,计算得到政策数据与用户数据的区划相似度;第二计算子单元2032基于行业代码层级信息及行业信息,计算得到政策数据的行业相似度及用户数据的行业相似度;第三计算子单元2033基于企业规模量化信息及企业信息,计算得到用户数据相对政策数据的企业规模相似度;第四计算子单元2034基于政策画像及用户画像,采用等值映射输出扶持领域相似度、企业类型相似度、知识产权相似度及融资阶段相似度。具体地,区划相似度、行业相似度及企业规模相似度的取值区间为[0,1],扶持领域相似度、企业类型相似度、知识产权相似度及融资阶段相似度的数值0或1,从而,实现对政策数据与用户数据匹配程度进行量化表达。
作为一种可选的实施方式,权重设定子单元2041针对政策画像及用户画像中每一子项,依据专家规则对应设定子项权重值;加权求和子单元2042基于子项权重值对若干子项对应的子相似度进行加权求和,得到总相似度。具体地,总相似度=区划相似度*区划权重+行业相似度*行业权重+企业规模相似度*企业规模权重+领域相似度*领域权重+企业类型相似度*企业类型权重+知识产权相似度*知识产权权重+融资阶段相似度*融资阶段权重,据此计算得到总相似度,从而获知政策数据相对用户数据的匹配程度。
作为一种可选的实施方式,假设存在某一特定用户在电子政务平台检索与自身相关的政策数据,则第二计算单元204基于该特定用户的用户画像及电子政务平台上的政务画像进行总相似度计算,匹配输出单元205对总相似度进行降序排序,以召回相似度较高的政策数据,得到若干处于预设概率阈值之内的政策数据,则可认定处于预设概率阈值之内的政策数据匹配该特定用户,即排序顺位越高的政策数据,其与用户数据在区划、行业、扶持领域等方面的匹配度也越高;向该特定用户输出相关性达标的政策数据,实现基于政策数据与用户数据的政策内容智能推荐,从而用户无需通过人工逐一查找,即可直接获取到准确有效的政策数据。
作为另一种可选的实施方式,监测单元206监测电子政务平台中的政策数据发布页面;当监测到政策数据发布页面发生更新时,数据获取单元201获取新增政策数据;第二计算单元204计算新增政策数据相对每一用户画像的总相似度;推送单元207基于新增政策数据相对每一用户画像的总相似度进行降序排序,向符合预设概率阈值的用户画像所对应的用户推送新增政策数据。具体地,政策数据具有较高的时效性,在此,对政策数据发布页面进行监测,当新增政策数据在政策数据发布页面上更新时,获取并计算新增政策数据相对每一用户画像的总相似度并降序排序,筛选出符合预设概率阈值的用户画像所对应的用户,并通过邮件等方式向用户推送该新增政策数据,确保新增政策数据可被匹配的用户及时获取到。
综上,基于自然语言处理及深度学习算法,对政策数据及用户数据进行信息抽取并构造政策画像及用户画像,据此计算总相似度,再降序排序筛查出与用户相适配的政策数据,向用户进行精准推荐,从而可排除众多无效信息,确保用户可及时获取到有效的政策数据,提高办事效率。
以上对本发明实施例公开的一种政策数据智能推荐方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种政策数据智能推荐方法,其特征在于,所述方法包括:
获取政策数据及用户数据;
基于所述政策数据及所述用户数据,分别构造政策画像及用户画像;
计算所述政策画像及所述用户画像所包含若干子项对应的子相似度;
针对所述若干子项对应的子相似度进行加权求和,得到总相似度;
对所述总相似度进行降序排序,向特定用户输出符合预设概率阈值的政策数据。
2.根据权利要求1所述的方法,其特征在于,所述基于所述政策数据及所述用户数据,分别构造政策画像及用户画像,包括:
基于自然语言处理及循环神经网络对所述政策数据及所述用户数据进行信息提取,得到对应于所述政策数据及所述用户数据的若干子项,所述若干子项为半结构化数据;
其中,所述自然语言处理包括自研中文分词算法模型、公务文书词库、行业词库、领域词库、关键词匹配模型及隐马尔科夫模型;所述政策数据对应的子项包括公文类型及关键词信息;所述用户数据对应的子项包括区划信息、行业信息、领域信息及企业信息;
对所述半结构化数据进行数据结构化处理,通过抽取关键词构造得到所述政策数据对应的政策画像及所述用户数据对应的用户画像。
3.根据权利要求2所述的方法,其特征在于,所述计算所述政策画像及所述用户画像所包含若干子项对应的子相似度,包括:
基于行政区划层级信息、所述区划信息及所述关键词信息,计算得到所述政策数据与所述用户数据的区划相似度;
基于行业代码层级信息及所述行业信息,计算得到所述政策数据的行业相似度及所述用户数据的行业相似度;
基于企业规模量化信息及所述企业信息,计算得到所述用户数据相对所述政策数据的企业规模相似度;
基于所述政策画像及所述用户画像,采用等值映射输出扶持领域相似度、企业类型相似度、知识产权相似度及融资阶段相似度。
4.根据权利要求3所述的方法,其特征在于,所述针对所述若干子项对应的子相似度进行加权求和,得到总相似度,包括:
针对所述政策画像及所述用户画像中每一子项,依据专家规则对应设定子项权重值;
基于所述子项权重值对所述若干子项对应的子相似度进行加权求和,得到所述总相似度。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
监测电子政务平台中的政策数据发布页面;
当监测到所述政策数据发布页面发生更新时,获取新增政策数据;
计算所述新增政策数据相对每一用户画像的总相似度;
基于所述新增政策数据相对每一用户画像的总相似度进行降序排序,向符合所述预设概率阈值的用户画像所对应的用户推送所述新增政策数据。
6.一种政策数据智能推荐系统,其特征在于,所述系统包括:
数据获取单元,用于获取政策数据及用户数据;
画像构造单元,用于基于所述政策数据及所述用户数据,分别构造政策画像及用户画像;
第一计算单元,用于计算所述政策画像及所述用户画像所包含若干子项对应的子相似度;
第二计算单元,用于针对所述若干子项对应的子相似度进行加权求和,得到总相似度;
匹配输出单元,用于对所述总相似度进行降序排序,向特定用户输出符合预设概率阈值的政策数据。
7.根据权利要求6所述的系统,其特征在于,所述画像构造单元包括:
提取子单元,用于基于自然语言处理及循环神经网络对所述政策数据及所述用户数据进行信息提取,得到对应于所述政策数据及所述用户数据的若干子项,所述若干子项为半结构化数据;
其中,所述自然语言处理包括自研中文分词算法模型、公务文书词库、行业词库、领域词库、关键词匹配模型及隐马尔科夫模型;所述政策数据对应的子项包括公文类型及关键词信息;所述用户数据对应的子项包括区划信息、行业信息、领域信息及企业信息;
结构化子单元,用于对所述半结构化数据进行数据结构化处理,通过抽取关键词构造得到所述政策数据对应的政策画像及所述用户数据对应的用户画像。
8.根据权利要求7所述的系统,其特征在于,所述第一计算单元包括:
第一计算子单元,用于基于行政区划层级信息、所述区划信息及所述关键词信息,计算得到所述政策数据与所述用户数据的区划相似度;
第二计算子单元,用于基于行业代码层级信息及所述行业信息,计算得到所述政策数据的行业相似度及所述用户数据的行业相似度;
第三计算子单元,用于基于企业规模量化信息及所述企业信息,计算得到所述用户数据相对所述政策数据的企业规模相似度;
第四计算子单元,用于基于所述政策画像及所述用户画像,采用等值映射输出扶持领域相似度、企业类型相似度、知识产权相似度及融资阶段相似度。
9.根据权利要求8所述的系统,其特征在于,所述第二计算单元包括:
权重设定子单元,用于针对所述政策画像及所述用户画像中每一子项,依据专家规则对应设定子项权重值;
加权求和子单元,用于基于所述子项权重值对所述若干子项对应的子相似度进行加权求和,得到所述总相似度。
10.根据权利要求9所述的系统,其特征在于,所述系统还包括:
监测单元,用于监测电子政务平台中的政策数据发布页面;
所述数据获取单元,还用于在监测到所述政策数据发布页面发生更新时,获取新增政策数据;
所述第二计算单元,还用于计算所述新增政策数据相对每一用户画像的总相似度;
推送单元,用于基于所述新增政策数据相对每一用户画像的总相似度进行降序排序,向符合所述预设概率阈值的用户画像所对应的用户推送所述新增政策数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110687412.7A CN113468418A (zh) | 2021-06-21 | 2021-06-21 | 一种政策数据智能推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110687412.7A CN113468418A (zh) | 2021-06-21 | 2021-06-21 | 一种政策数据智能推荐方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113468418A true CN113468418A (zh) | 2021-10-01 |
Family
ID=77868958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110687412.7A Pending CN113468418A (zh) | 2021-06-21 | 2021-06-21 | 一种政策数据智能推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468418A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114297515A (zh) * | 2022-03-10 | 2022-04-08 | 成都明途科技有限公司 | 信息推荐方法、装置、电子设备和存储介质 |
CN116523473A (zh) * | 2023-06-29 | 2023-08-01 | 湖南省拾牛网络科技有限公司 | 基于相似企业的项目匹配方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190034751A1 (en) * | 2017-07-26 | 2019-01-31 | Vmware, Inc. | Managing camera actions |
CN110968757A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 政策文件处理方法及装置 |
KR102121901B1 (ko) * | 2020-03-12 | 2020-06-11 | 전주호 | 정책자금 온라인 심사평가 시스템 |
CN112184525A (zh) * | 2020-09-28 | 2021-01-05 | 上海市浦东新区行政服务中心(上海市浦东新区市民中心) | 通过自然语义分析实现智能匹配推荐的系统及方法 |
CN112380318A (zh) * | 2020-11-12 | 2021-02-19 | 中国科学技术大学智慧城市研究院(芜湖) | 基于标签相似度的企业政策匹配方法 |
CN112732995A (zh) * | 2021-01-08 | 2021-04-30 | 云浮市物联网研究院有限公司 | 一种畜牧业新闻资讯推荐系统 |
CN112966966A (zh) * | 2021-03-25 | 2021-06-15 | 上海柏观数据科技有限公司 | 一种用于引进人才匹配的人才可引进指数控制方法 |
-
2021
- 2021-06-21 CN CN202110687412.7A patent/CN113468418A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190034751A1 (en) * | 2017-07-26 | 2019-01-31 | Vmware, Inc. | Managing camera actions |
CN110968757A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 政策文件处理方法及装置 |
KR102121901B1 (ko) * | 2020-03-12 | 2020-06-11 | 전주호 | 정책자금 온라인 심사평가 시스템 |
CN112184525A (zh) * | 2020-09-28 | 2021-01-05 | 上海市浦东新区行政服务中心(上海市浦东新区市民中心) | 通过自然语义分析实现智能匹配推荐的系统及方法 |
CN112380318A (zh) * | 2020-11-12 | 2021-02-19 | 中国科学技术大学智慧城市研究院(芜湖) | 基于标签相似度的企业政策匹配方法 |
CN112732995A (zh) * | 2021-01-08 | 2021-04-30 | 云浮市物联网研究院有限公司 | 一种畜牧业新闻资讯推荐系统 |
CN112966966A (zh) * | 2021-03-25 | 2021-06-15 | 上海柏观数据科技有限公司 | 一种用于引进人才匹配的人才可引进指数控制方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114297515A (zh) * | 2022-03-10 | 2022-04-08 | 成都明途科技有限公司 | 信息推荐方法、装置、电子设备和存储介质 |
CN116523473A (zh) * | 2023-06-29 | 2023-08-01 | 湖南省拾牛网络科技有限公司 | 基于相似企业的项目匹配方法、装置、设备及介质 |
CN116523473B (zh) * | 2023-06-29 | 2023-08-25 | 湖南省拾牛网络科技有限公司 | 基于相似企业的项目匹配方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101814067B (zh) | 对自然语言内容中的信息含量进行定量估算的系统和方法 | |
CN110717034A (zh) | 一种本体构建方法及装置 | |
WO2021051518A1 (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN106776567B (zh) | 一种互联网大数据分析提取方法及系统 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN110543564B (zh) | 基于主题模型的领域标签获取方法 | |
CN108519971B (zh) | 一种基于平行语料库的跨语种新闻主题相似性对比方法 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN113468418A (zh) | 一种政策数据智能推荐方法及系统 | |
CN107329954B (zh) | 一种基于文档内容和相互关系的主题检测方法 | |
CN105069103A (zh) | App搜索引擎利用用户评论的方法及系统 | |
CN114329225B (zh) | 基于搜索语句的搜索方法、装置、设备及存储介质 | |
CN110321466A (zh) | 一种基于语义分析的证券资讯查重方法及系统 | |
KR20030094966A (ko) | 통제학습 기반의 문서 자동분류시스템 및 그 방법 | |
CN113515589A (zh) | 数据推荐方法、装置、设备以及介质 | |
CN101393550A (zh) | 用于计算对象之间竞争性度量的方法与系统 | |
CN111222028B (zh) | 一种数据智能爬取方法 | |
CN105574004B (zh) | 一种网页去重方法和设备 | |
CN117171650A (zh) | 基于网络爬虫技术的文献数据处理方法、系统及介质 | |
CN111898034A (zh) | 新闻内容推送方法、装置、存储介质及计算机设备 | |
CN116719999A (zh) | 文本相似度检测方法和装置、电子设备及存储介质 | |
CN114610838A (zh) | 文本情感分析方法、装置、设备及存储介质 | |
CN112765340A (zh) | 一种确定云服务资源的方法、装置、电子设备及存储介质 | |
Dutta et al. | Comparative Analysis of Various Ensemble Approaches for Web Page Classification | |
JP2000148770A (ja) | 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |