CN113468418A

CN113468418A - 一种政策数据智能推荐方法及系统

Info

Publication number: CN113468418A
Application number: CN202110687412.7A
Authority: CN
Inventors: 黄裕福; 谢健伟; 钱丙健
Original assignee: Guangzhou Government Enterprise Internet Technology Co ltd
Current assignee: Guangzhou Government Enterprise Internet Technology Co ltd
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2021-10-01

Abstract

本发明实施例涉及智能推荐技术领域，公开了一种政策数据智能推荐方法及系统，该方法包括：获取政策数据及用户数据，基于政策数据及用户数据分别构造政策画像及用户画像，并计算所包含若干子项对应的子相似度，针对若干子项对应的子相似度进行加权求和得到总相似度，再对总相似度进行降序排序，向特定用户输出符合预设概率阈值的政策数据。相比人工进行政策数据的检索，本发明实施例基于自然语言处理及深度学习算法，对政策数据及用户数据进行信息抽取并构造政策画像及用户画像，据此计算总相似度，再降序排序筛查出与用户相适配的政策数据，向用户进行精准推荐，从而可排除众多无效信息，确保用户可及时获取到有效的政策数据，提高办事效率。

Description

一种政策数据智能推荐方法及系统

技术领域

本发明涉及智能推荐技术领域，尤其涉及一种政策数据智能推荐方法及系统。

背景技术

随着电子政务的推行，各政府部门与机关单位均将政策数据发布于电子政务平台上，用户通过电子政务平台进行政策数据的检索与获取，从而减少了纸质文件与线下流程。

在实际应用中，用户通常仅需符合自身行业与企业规模的政策文件，而长期持续地更新使得电子政务平台上积累了海量的政策数据，且政策数据在获取途径上未进行明确的区分，这使得用户难以获得对自己有用的信息，降低了办事效率，电子政务的优势无法得到体现。

发明内容

本发明实施例公开一种政策数据智能推荐方法及系统，基于自然语言处理及深度学习算法，对政策数据及用户数据进行信息抽取并构造政策画像及用户画像，据此计算总相似度，筛查出与用户相适配的政策数据并向用户进行精准推荐，排除众多无效信息，确保用户可及时获取到有效的政策数据，提高办事效率。

本发明实施例的第一方面公开了一种政策数据智能推荐方法，所述方法包括：

获取政策数据及用户数据；

基于所述政策数据及所述用户数据，分别构造政策画像及用户画像；

计算所述政策画像及所述用户画像所包含若干子项对应的子相似度；

针对所述若干子项对应的子相似度进行加权求和，得到总相似度；

对所述总相似度进行降序排序，向特定用户输出符合预设概率阈值的政策数据。

作为一种可选的实施方式，在本发明实施例的第一方面中，所述基于所述政策数据及所述用户数据，分别构造政策画像及用户画像，包括：

基于自然语言处理及循环神经网络对所述政策数据及所述用户数据进行信息提取，得到对应于所述政策数据及所述用户数据的若干子项，所述若干子项为半结构化数据；

其中，所述自然语言处理包括自研中文分词算法模型、公务文书词库、行业词库、领域词库、关键词匹配模型及隐马尔科夫模型；所述政策数据对应的子项包括公文类型及关键词信息；所述用户数据对应的子项包括区划信息、行业信息、领域信息及企业信息；

对所述半结构化数据进行数据结构化处理，通过抽取关键词构造得到所述政策数据对应的政策画像及所述用户数据对应的用户画像。

作为一种可选的实施方式，在本发明实施例的第一方面中，所述计算所述政策画像及所述用户画像所包含若干子项对应的子相似度，包括：

基于行政区划层级信息、所述区划信息及所述关键词信息，计算得到所述政策数据与所述用户数据的区划相似度；

基于行业代码层级信息及所述行业信息，计算得到所述政策数据的行业相似度及所述用户数据的行业相似度；

基于企业规模量化信息及所述企业信息，计算得到所述用户数据相对所述政策数据的企业规模相似度；

基于所述政策画像及所述用户画像，采用等值映射输出扶持领域相似度、企业类型相似度、知识产权相似度及融资阶段相似度。

作为一种可选的实施方式，在本发明实施例的第一方面中，所述针对所述若干子项对应的子相似度进行加权求和，得到总相似度，包括：

针对所述政策画像及所述用户画像中每一子项，依据专家规则对应设定子项权重值；

基于所述子项权重值对所述若干子项对应的子相似度进行加权求和，得到所述总相似度。

作为一种可选的实施方式，在本发明实施例的第一方面中，所述方法还包括：

监测电子政务平台中的政策数据发布页面；

当监测到所述政策数据发布页面发生更新时，获取新增政策数据；

计算所述新增政策数据相对每一用户画像的总相似度；

基于所述新增政策数据相对每一用户画像的总相似度进行降序排序，向符合所述预设概率阈值的用户画像所对应的用户推送所述新增政策数据。

本发明实施例的第二方面公开了一种政策数据智能推荐方法，所述系统包括：

数据获取单元，用于获取政策数据及用户数据；

画像构造单元，用于基于所述政策数据及所述用户数据，分别构造政策画像及用户画像；

第一计算单元，用于计算所述政策画像及所述用户画像所包含若干子项对应的子相似度；

第二计算单元，用于针对所述若干子项对应的子相似度进行加权求和，得到总相似度；

匹配输出单元，用于对所述总相似度进行降序排序，向特定用户输出符合预设概率阈值的政策数据。

作为一种可选的实施方式，在本发明实施例的第二方面中，所述画像构造单元包括：

提取子单元，用于基于自然语言处理及循环神经网络对所述政策数据及所述用户数据进行信息提取，得到对应于所述政策数据及所述用户数据的若干子项，所述若干子项为半结构化数据；

结构化子单元，用于对所述半结构化数据进行数据结构化处理，通过抽取关键词构造得到所述政策数据对应的政策画像及所述用户数据对应的用户画像。

作为一种可选的实施方式，在本发明实施例的第二方面中，所述第一计算单元包括：

第一计算子单元，用于基于行政区划层级信息、所述区划信息及所述关键词信息，计算得到所述政策数据与所述用户数据的区划相似度；

第二计算子单元，用于基于行业代码层级信息及所述行业信息，计算得到所述政策数据的行业相似度及所述用户数据的行业相似度；

第三计算子单元，用于基于企业规模量化信息及所述企业信息，计算得到所述用户数据相对所述政策数据的企业规模相似度；

第四计算子单元，用于基于所述政策画像及所述用户画像，采用等值映射输出扶持领域相似度、企业类型相似度、知识产权相似度及融资阶段相似度。

作为一种可选的实施方式，在本发明实施例的第二方面中，所述第二计算单元包括：

权重设定子单元，用于针对所述政策画像及所述用户画像中每一子项，依据专家规则对应设定子项权重值；

加权求和子单元，用于基于所述子项权重值对所述若干子项对应的子相似度进行加权求和，得到所述总相似度。

作为一种可选的实施方式，在本发明实施例的第二方面中，所述系统还包括：

监测单元，用于监测电子政务平台中的政策数据发布页面；

所述数据获取单元，还用于在监测到所述政策数据发布页面发生更新时，获取新增政策数据；

所述第二计算单元，还用于计算所述新增政策数据相对每一用户画像的总相似度；

推送单元，用于基于所述新增政策数据相对每一用户画像的总相似度进行降序排序，向符合所述预设概率阈值的用户画像所对应的用户推送所述新增政策数据。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，基于自然语言处理及深度学习算法，对政策数据及用户数据进行信息抽取并构造政策画像及用户画像，据此计算总相似度，再降序排序筛查出与用户相适配的政策数据，向用户进行精准推荐，从而可排除众多无效信息，确保用户可及时获取到有效的政策数据，提高办事效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种政策数据智能推荐方法的流程示意图；

图2是本发明实施例公开的一种政策数据智能推荐系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明公开了一种政策数据智能推荐方法及系统，基于自然语言处理及深度学习算法，对政策数据及用户数据进行信息抽取并构造政策画像及用户画像，据此计算总相似度，再降序排序筛查出与用户相适配的政策数据，向用户进行精准推荐，从而可排除众多无效信息，确保用户可及时获取到有效的政策数据，提高办事效率。

实施例一

请参阅图1，图1是本发明实施例公开的一种政策数据智能推荐方法的流程示意图。如图1所示，该政策数据智能推荐方法可以包括以下步骤。

101、获取政策数据及用户数据。

本发明实施例中，政策数据为政府部门发布于电子政务平台的各类政策文件；用户数据为企业用户在知识产权、融资状况、业务规模、企业状态、成立时间、员工信息等方面的资料。

102、基于政策数据及用户数据，分别构造政策画像及用户画像。

本发明实施例中，针对每一政策数据及每一用户数据，分别分析并构造得到政策画像及用户画像，用以揭示每一政策数据及每一用户数据的特征。

作为一种可选的实施方式，基于自然语言处理及循环神经网络对政策数据及用户数据进行信息提取，得到对应于政策数据及用户数据的若干子项，若干子项为半结构化数据；对半结构化数据进行数据结构化处理，通过抽取关键词构造得到政策数据对应的政策画像及用户数据对应的用户画像。具体地，自然语言处理包括自研中文分词算法模型、公务文书词库、行业词库、领域词库、关键词匹配模型及隐马尔科夫模型；政策数据对应的子项包括公文类型及关键词信息；用户数据对应的子项包括区划信息、行业信息、领域信息及企业信息。其中，可采用TensorFlow、Gensim及Sklearn等自然语言学习模型构造中文分词算法及隐马尔科夫模型，根据专家经验编写正则表达式并配合有向无环图进行关键词提取，在分析提取得到政策数据与用户数据的子项之后，即可对半结构化数据类型的子项进一步进行关键词抽取等操作，构造得到结构化的政策画像与用户画像，准确对政策数据及用户数据的特征进行表征，便于后续进行匹配推荐。

103、计算政策画像及用户画像所包含若干子项对应的子相似度。

本发明实施例中，特定政策对应于特定的用户群体，通过政策画像及用户画像中各子项的子相似度进行匹配。

作为一种可选的实施方式，基于行政区划层级信息、区划信息及关键词信息，计算得到政策数据与用户数据的区划相似度；基于行业代码层级信息及行业信息，计算得到政策数据的行业相似度及用户数据的行业相似度；基于企业规模量化信息及企业信息，计算得到用户数据相对政策数据的企业规模相似度；基于政策画像及用户画像，采用等值映射输出扶持领域相似度、企业类型相似度、知识产权相似度及融资阶段相似度。具体地，区划相似度、行业相似度及企业规模相似度的取值区间为[0，1]，扶持领域相似度、企业类型相似度、知识产权相似度及融资阶段相似度的数值0或1，从而，实现对政策数据与用户数据匹配程度进行量化表达。

104、针对若干子项对应的子相似度进行加权求和，得到总相似度。

本发明实施例中，总相似度用以衡量政策数据相对用户数据的匹配程度。

作为一种可选的实施方式，针对政策画像及用户画像中每一子项，依据专家规则对应设定子项权重值；基于子项权重值对若干子项对应的子相似度进行加权求和，得到总相似度。具体地，总相似度＝区划相似度*区划权重+行业相似度*行业权重+企业规模相似度*企业规模权重+领域相似度*领域权重+企业类型相似度*企业类型权重+知识产权相似度*知识产权权重+融资阶段相似度*融资阶段权重，据此计算得到总相似度，从而获知政策数据相对用户数据的匹配程度。

可以理解的是，以上实施例中仅列举了部分子项及子项权重值，实际情况下，不同的政策数据及用户数据的还可能包括更多的子项，需要灵活调整子项的具体内容及子项权重值，以适应不同类型的政策数据及用户数据。

105、对所述总相似度进行降序排序，向特定用户输出符合预设概率阈值的政策数据。

本发明实施例中，当特定用户在电子政务平台搜索获取政策数据时，将基于特定用户的用户画像向其推送相关的政策数据。

作为一种可选的实施方式，假设存在某一特定用户在电子政务平台检索与自身相关的政策数据，则基于该特定用户的用户画像及电子政务平台上的政务画像进行总相似度计算，并对总相似度进行降序排序，以召回相似度较高的政策数据，得到若干处于预设概率阈值之内的政策数据，则可认定处于预设概率阈值之内的政策数据匹配该特定用户，即排序顺位越高的政策数据，其与用户数据在区划、行业、扶持领域等方面的匹配度也越高；向该特定用户输出相关性达标的政策数据，实现基于政策数据与用户数据的政策内容智能推荐，从而用户无需通过人工逐一查找，即可直接获取到准确有效的政策数据。

作为另一种可选的实施方式，监测电子政务平台中的政策数据发布页面；当监测到政策数据发布页面发生更新时，获取新增政策数据；计算新增政策数据相对每一用户画像的总相似度；基于新增政策数据相对每一用户画像的总相似度进行降序排序，向符合预设概率阈值的用户画像所对应的用户推送新增政策数据。具体地，政策数据具有较高的时效性，在此，对政策数据发布页面进行监测，当新增政策数据在政策数据发布页面上更新时，获取并计算新增政策数据相对每一用户画像的总相似度并降序排序，筛选出符合预设概率阈值的用户画像所对应的用户，并通过邮件等方式向用户推送该新增政策数据，确保新增政策数据可被匹配的用户及时获取到。

综上，基于自然语言处理及深度学习算法，对政策数据及用户数据进行信息抽取并构造政策画像及用户画像，据此计算总相似度，再降序排序筛查出与用户相适配的政策数据，向用户进行精准推荐，从而可排除众多无效信息，确保用户可及时获取到有效的政策数据，提高办事效率。

实施例二

请参阅图2，图2是本发明实施例公开的一种政策数据智能推荐系统的结构示意图。如图2所示，该政策数据智能推荐系统可以包括以下内容。

数据获取单元201，用于获取政策数据及用户数据；

画像构造单元202，用于基于所述政策数据及用户数据，分别构造政策画像及用户画像；

第一计算单元203，用于计算政策画像及用户画像所包含若干子项对应的子相似度；

第二计算单元204，用于针对若干子项对应的子相似度进行加权求和，得到总相似度；

匹配输出单元205，用于对总相似度进行降序排序，向特定用户输出符合预设概率阈值的政策数据；

监测单元206，用于监测电子政务平台中的政策数据发布页面；

数据获取单元201，还用于在监测到政策数据发布页面发生更新时，获取新增政策数据；

第二计算单元204，还用于计算新增政策数据相对每一用户画像的总相似度；

推送单元207，用于基于新增政策数据相对每一用户画像的总相似度进行降序排序，向符合预设概率阈值的用户画像所对应的用户推送新增政策数据。

其中，画像构造单元202包括：

提取子单元2021，用于基于自然语言处理及循环神经网络对政策数据及用户数据进行信息提取，得到对应于政策数据及用户数据的若干子项，若干子项为半结构化数据；

其中，自然语言处理包括自研中文分词算法模型、公务文书词库、行业词库、领域词库、关键词匹配模型及隐马尔科夫模型；政策数据对应的子项包括公文类型及关键词信息；用户数据对应的子项包括区划信息、行业信息、领域信息及企业信息；

结构化子单元2022，用于对半结构化数据进行数据结构化处理，通过抽取关键词构造得到政策数据对应的政策画像及用户数据对应的用户画像。

其中，第一计算单元203包括：

第一计算子单元2031，用于基于行政区划层级信息、区划信息及关键词信息，计算得到政策数据与用户数据的区划相似度；

第二计算子单元2032，用于基于行业代码层级信息及行业信息，计算得到政策数据的行业相似度及用户数据的行业相似度；

第三计算子单元2033，用于基于企业规模量化信息及企业信息，计算得到用户数据相对政策数据的企业规模相似度；

第四计算子单元2034，用于基于政策画像及用户画像，采用等值映射输出扶持领域相似度、企业类型相似度、知识产权相似度及融资阶段相似度。

其中，第二计算单元204包括：

权重设定子单元2041，用于针对政策画像及用户画像中每一子项，依据专家规则对应设定子项权重值；

加权求和子单元2042，用于基于子项权重值对若干子项对应的子相似度进行加权求和，得到总相似度。

作为一种可选的实施方式，提取子单元2021基于自然语言处理及循环神经网络对政策数据及用户数据进行信息提取，得到对应于政策数据及用户数据的若干子项，若干子项为半结构化数据；结构化子单元2022对半结构化数据进行数据结构化处理，通过抽取关键词构造得到政策数据对应的政策画像及用户数据对应的用户画像。具体地，自然语言处理包括自研中文分词算法模型、公务文书词库、行业词库、领域词库、关键词匹配模型及隐马尔科夫模型；政策数据对应的子项包括公文类型及关键词信息；用户数据对应的子项包括区划信息、行业信息、领域信息及企业信息。其中，可采用TensorFlow、Gensim及Sklearn等自然语言学习模型构造中文分词算法及隐马尔科夫模型，根据专家经验编写正则表达式并配合有向无环图进行关键词提取，在分析提取得到政策数据与用户数据的子项之后，即可对半结构化数据类型的子项进一步进行关键词抽取等操作，构造得到结构化的政策画像与用户画像，准确对政策数据及用户数据的特征进行表征，便于后续进行匹配推荐。

作为一种可选的实施方式，第一计算子单元2031基于行政区划层级信息、区划信息及关键词信息，计算得到政策数据与用户数据的区划相似度；第二计算子单元2032基于行业代码层级信息及行业信息，计算得到政策数据的行业相似度及用户数据的行业相似度；第三计算子单元2033基于企业规模量化信息及企业信息，计算得到用户数据相对政策数据的企业规模相似度；第四计算子单元2034基于政策画像及用户画像，采用等值映射输出扶持领域相似度、企业类型相似度、知识产权相似度及融资阶段相似度。具体地，区划相似度、行业相似度及企业规模相似度的取值区间为[0，1]，扶持领域相似度、企业类型相似度、知识产权相似度及融资阶段相似度的数值0或1，从而，实现对政策数据与用户数据匹配程度进行量化表达。

作为一种可选的实施方式，权重设定子单元2041针对政策画像及用户画像中每一子项，依据专家规则对应设定子项权重值；加权求和子单元2042基于子项权重值对若干子项对应的子相似度进行加权求和，得到总相似度。具体地，总相似度＝区划相似度*区划权重+行业相似度*行业权重+企业规模相似度*企业规模权重+领域相似度*领域权重+企业类型相似度*企业类型权重+知识产权相似度*知识产权权重+融资阶段相似度*融资阶段权重，据此计算得到总相似度，从而获知政策数据相对用户数据的匹配程度。

作为一种可选的实施方式，假设存在某一特定用户在电子政务平台检索与自身相关的政策数据，则第二计算单元204基于该特定用户的用户画像及电子政务平台上的政务画像进行总相似度计算，匹配输出单元205对总相似度进行降序排序，以召回相似度较高的政策数据，得到若干处于预设概率阈值之内的政策数据，则可认定处于预设概率阈值之内的政策数据匹配该特定用户，即排序顺位越高的政策数据，其与用户数据在区划、行业、扶持领域等方面的匹配度也越高；向该特定用户输出相关性达标的政策数据，实现基于政策数据与用户数据的政策内容智能推荐，从而用户无需通过人工逐一查找，即可直接获取到准确有效的政策数据。

作为另一种可选的实施方式，监测单元206监测电子政务平台中的政策数据发布页面；当监测到政策数据发布页面发生更新时，数据获取单元201获取新增政策数据；第二计算单元204计算新增政策数据相对每一用户画像的总相似度；推送单元207基于新增政策数据相对每一用户画像的总相似度进行降序排序，向符合预设概率阈值的用户画像所对应的用户推送新增政策数据。具体地，政策数据具有较高的时效性，在此，对政策数据发布页面进行监测，当新增政策数据在政策数据发布页面上更新时，获取并计算新增政策数据相对每一用户画像的总相似度并降序排序，筛选出符合预设概率阈值的用户画像所对应的用户，并通过邮件等方式向用户推送该新增政策数据，确保新增政策数据可被匹配的用户及时获取到。

以上对本发明实施例公开的一种政策数据智能推荐方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种政策数据智能推荐方法，其特征在于，所述方法包括：

获取政策数据及用户数据；

2.根据权利要求1所述的方法，其特征在于，所述基于所述政策数据及所述用户数据，分别构造政策画像及用户画像，包括：

3.根据权利要求2所述的方法，其特征在于，所述计算所述政策画像及所述用户画像所包含若干子项对应的子相似度，包括：

4.根据权利要求3所述的方法，其特征在于，所述针对所述若干子项对应的子相似度进行加权求和，得到总相似度，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

监测电子政务平台中的政策数据发布页面；

计算所述新增政策数据相对每一用户画像的总相似度；

6.一种政策数据智能推荐系统，其特征在于，所述系统包括：

数据获取单元，用于获取政策数据及用户数据；

7.根据权利要求6所述的系统，其特征在于，所述画像构造单元包括：

8.根据权利要求7所述的系统，其特征在于，所述第一计算单元包括：

9.根据权利要求8所述的系统，其特征在于，所述第二计算单元包括：

10.根据权利要求9所述的系统，其特征在于，所述系统还包括：

监测单元，用于监测电子政务平台中的政策数据发布页面；