CN117743564B

CN117743564B - 一种科技政策信息自动抽取与推荐方法及系统

Info

Publication number: CN117743564B
Application number: CN202410126729.7A
Authority: CN
Inventors: 赖培源; 王增辉; 廖晓东; 李奎; 叶世兵; 周海涛; 廖德章; 刘士雨; 黄俊铮; 谢毅明
Original assignee: Guangdong South China Technology Transfer Center Co ltd
Current assignee: Guangdong South China Technology Transfer Center Co ltd
Priority date: 2024-01-30
Filing date: 2024-01-30
Publication date: 2024-05-10
Anticipated expiration: 2044-01-30
Also published as: CN117743564A

Abstract

本发明公开了一种科技政策信息自动抽取与推荐方法及系统，基于预设爬虫策略对目标网站进行数据采集，得到科技政策源数据；对科技政策源数据进行关键词提取，形成特征词数据；基于科技政策数据库进行文本转化与语义分析，提取科技政策中的实体、属性、关系数据，并构建知识图谱；根据特征词数据与用户特征关键词，基于协同推荐算法，从知识图谱中进行推荐数据检索，得到第一推荐政策数据；根据用户实时网站浏览数据，通过知识图谱判断推荐数据是否需要更新，若是，则基于用户实时数据与知识图谱中进行二次数据检索，得到第二推荐政策数据。通过本发明，能够有效定位推荐数据的更新时间与有效推理出相应的推荐数据，提升用户分析科技政策的效率。

Description

一种科技政策信息自动抽取与推荐方法及系统

技术领域

本发明涉及信息数据分析领域，更具体的，涉及一种科技政策信息自动抽取与推荐方法及系统。

背景技术

政策指导着国民经济行业的发展，对研究者深入分析经济运行、对企业及时了解发展形式起到重要作用。但政策的条文多，并且具有严密的逻辑性和规范性，而且专业术语多，每个条文都有极为丰富的内容，给研究和应用的群体阅读理解带来较大挑战，目前的信息系统大多只能做到信息的收集和录入，且对人工处理的依赖性较大。以“华转网”(sctcc.cn)政策直通车为例，政策条目数已超过70万条，每工作日新增的数量在数百条的规模，如果采用传统的方式，政策数据通过录入后，还需要人工进行信息提取和完整性检查，效率较低且成本较高。

因此，本方案提出了一种科技政策信息自动抽取与推荐方法及系统。

发明内容

本发明克服了现有技术的缺陷，提出了一种科技政策信息自动抽取与推荐方法及系统。

本发明第一方面提供了一种科技政策信息自动抽取与推荐方法，包括：

基于5W1H模型生成科技政策的关键信息种类；

获取用户目标网站信息，基于数据爬虫适配模块，生成爬虫策略，基于所述爬虫策略对目标网站进行数据采集，得到科技政策源数据；

基于语义分析模型与关键信息种类，对科技政策源数据进行关键词提取，并将关键词作为特征词，形成特征词数据；

获取预设历史时间段的用户网页浏览数据，基于所述用户网页浏览数据进行语义分析与政策关键词提取，得到用户特征关键词；

基于科技政策数据库进行文本转化与语义分析，提取科技政策中的实体、属性、关系数据，基于所述实体、属性、关系数据构建基于图结构的知识图谱；

根据所述特征词数据与用户特征关键词，基于协同推荐算法，从知识图谱中进行推荐数据检索，得到第一推荐政策数据，将所述第一推荐政策数据发送至用户终端；

根据用户实时网站浏览数据，通过知识图谱判断推荐数据是否需要更新，若是，则基于用户实时网站浏览数据从知识图谱中进行二次数据检索，并得到第二推荐政策数据。

本方案中，所述基于5W1H模型生成科技政策的关键信息种类中，5W1H模型为预设模型，用于分析出科技政策的关键信息种类，所述关键信息种类包括申报条件、申报地区、发布时间、截止时间、申报对象、申报支持力度。

本方案中，所述获取用户目标网站信息，基于数据爬虫适配模块，生成爬虫策略，基于所述爬虫策略对目标网站进行数据采集，得到科技政策源数据；基于语义分析模型与关键信息种类，对科技政策源数据进行关键词提取，并将关键词作为特征词，形成特征词数据，具体为：

获取用户目标网站信息；

所述用户目标网站信息包括主页网站地址、网站结构信息、链接格式、抓取频率限制信息；

通过数据爬虫适配模块进行数据分析，并设置爬虫策略；

基于所述爬虫策略对目标网站进行数据采集，得到科技政策源数据；

将所述科技政策源数据进行数据清洗与文本格式转换处理；

构建基于CNN的语义分析模型，科技政策源数据导入语义分析模型进行词语分割与关键词提取，关键词作为特征词，形成特征词数据。

本方案中，所述获取预设历史时间段的用户网页浏览数据，基于所述用户网页浏览数据进行语义分析与政策关键词提取，得到用户特征关键词，具体为：

获取预设历史时间段的用户网页浏览数据；

对所述用户网页浏览数据进行文本格式转化，得到用户浏览文本数据；

将所述用户浏览文本数据导入语义分析模型进行语义分析与政策关键词提取，得到用户特征关键词。

本方案中，所述基于科技政策数据库进行文本转化与语义分析，提取科技政策中的实体、属性、关系数据，基于所述实体、属性、关系数据构建基于图结构的知识图谱，具体为：

通过科技政策数据库获取已有科技政策大数据；

将所述科技政策大数据进行数据清洗与文本格式转化；

将所述科技政策大数据导入语义分析模型进行语义分析并提取出其中的实体、属性、关系数据；

基于所述实体、属性、关系数据构建基于图结构的知识图谱。

本方案中，所述根据所述特征词数据与用户特征关键词，基于协同推荐算法，从知识图谱中进行推荐数据检索，得到第一推荐政策数据，将所述第一推荐政策数据发送至用户终端，具体为：

将用户特征关键词作为兴趣特征，基于预设协同推荐算法，从特征词数据中进行兴趣特征词分析与预测，生成兴趣特征词；

将所述兴趣特征词导入语义分析模型生成兴趣实体数据；

基于所述兴趣实体数据，从知识图谱中进行实体数据与关联数据的检索，并得到检索知识数据；

将所述检索知识数据进行政策数据数据转化，得到第一推荐政策数据。

本方案中，所述根据用户实时网站浏览数据，通过知识图谱判断推荐数据是否需要更新，若是，则基于用户实时网站浏览数据从知识图谱中进行二次数据检索，并得到第二推荐政策数据，具体为：

基于用户实时网站浏览数据进行语义分析与政策关键词提取，得到实时特征词；

将实时特征词导入语义分析模型生成当前实体数据；

通过知识图谱的图结构，计算兴趣实体数据与当前实体数据在图结构中的节点平均距离；

判断节点平均距离是否大于预设距离，若是，则基于当前实体数据从知识图谱中得到预设关联实体数据；

基于当前实体数与预设关联实体数据，从知识图谱进行知识数据检索，得到第二检索知识数据；

将所述第二检索知识数据进行政策数据数据转化，得到第二推荐政策数据。

本发明第二方面还提供了一种科技政策信息自动抽取与推荐系统，该系统包括：存储器、处理器，所述存储器中包括科技政策信息自动抽取与推荐程序，所述科技政策信息自动抽取与推荐程序被所述处理器执行时实现如下步骤：

基于5W1H模型生成科技政策的关键信息种类；

获取用户目标网站信息；

通过数据爬虫适配模块进行数据分析，并设置爬虫策略；

将所述科技政策源数据进行数据清洗与文本格式转换处理；

附图说明

图1示出了本发明一种科技政策信息自动抽取与推荐方法的流程图；

图2示出了本发明一种科技政策信息自动抽取与推荐系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种科技政策信息自动抽取与推荐方法的流程图。

如图1所示，本发明第一方面提供了一种科技政策信息自动抽取与推荐方法，包括：

S102，基于5W1H模型生成科技政策的关键信息种类；

S104，获取用户目标网站信息，基于数据爬虫适配模块，生成爬虫策略，基于所述爬虫策略对目标网站进行数据采集，得到科技政策源数据；

S106，基于语义分析模型与关键信息种类，对科技政策源数据进行关键词提取，并将关键词作为特征词，形成特征词数据；

S108，获取预设历史时间段的用户网页浏览数据，基于所述用户网页浏览数据进行语义分析与政策关键词提取，得到用户特征关键词；

S110，基于科技政策数据库进行文本转化与语义分析，提取科技政策中的实体、属性、关系数据，基于所述实体、属性、关系数据构建基于图结构的知识图谱；

S112，根据所述特征词数据与用户特征关键词，基于协同推荐算法，从知识图谱中进行推荐数据检索，得到第一推荐政策数据，将所述第一推荐政策数据发送至用户终端；

S114，根据用户实时网站浏览数据，通过知识图谱判断推荐数据是否需要更新，若是，则基于用户实时网站浏览数据从知识图谱中进行二次数据检索，并得到第二推荐政策数据。

需要说明的是，所述5W1H模型为一种多维度思考模型，通过对科技政策的多维度信息分析，得到相应的信息种类，如：申报条件、申报地区、发布时间、截止时间、申报对象、申报支持力度。在本发明中，关键信息种类包括申报条件、申报地区、发布时间、截止时间、申报对象、申报支持力度。本发明中，通过自动抽取相关政策信息，并将数据进行数据图谱化，能够提高政策数据的存储效率与数据挖掘效率。

所述5W1H中，5W是时间when、地点where、人物who、事情what、哪个which，对于不同的字段(信息种类)，可以有不同的识别提取模型，即不同的实现方式，如下表所示：

通过本发明中基于知识图谱对科技政策数据进行信息抽取、整理与推荐，能够有效解决科技政策文本结构多样、语义复杂情况下的个性化推荐问题，同时，通过知识图谱的数据分析，能够有效对推荐数据进行实时更新，实现高度自动化、个性化的政策数据有效推荐。

值得一提的是，本发明系统包括定时采集控制模块，数据爬虫适配模块，爬虫代码库模块，资源管理模块，协同推荐学习模块，实时推荐模块。

定时采集控制模块，用于对用户目标网站信息、科技政策源数据、特征词数据等信息的采集。

数据爬虫适配模块用于生成适合的爬虫策略与执行网页数据抓取，爬虫代码库模块用于存储相关爬虫代码，资源管理模块用于存储与管理科技政策数据，知识图谱数据等，协同推荐学习模块用于存储推荐算法与执行协同推荐分析过程。实时推荐模块用于分析并生成推荐数据。

根据本发明实施例，所述基于5W1H模型生成科技政策的关键信息种类中，5W1H模型为预设模型，用于分析出科技政策的关键信息种类，所述关键信息种类包括申报条件、申报地区、发布时间、截止时间、申报对象、申报支持力度。

根据本发明实施例，所述获取用户目标网站信息，基于数据爬虫适配模块，生成爬虫策略，基于所述爬虫策略对目标网站进行数据采集，得到科技政策源数据；基于语义分析模型与关键信息种类，对科技政策源数据进行关键词提取，并将关键词作为特征词，形成特征词数据，具体为：

获取用户目标网站信息；

通过数据爬虫适配模块进行数据分析，并设置爬虫策略；

将所述科技政策源数据进行数据清洗与文本格式转换处理；

需要说明的是，所述用户目标网站信息即用户当前需要访问科技政策的网站相关信息，该网站一般为科技类网站。

根据本发明实施例，所述获取预设历史时间段的用户网页浏览数据，基于所述用户网页浏览数据进行语义分析与政策关键词提取，得到用户特征关键词，具体为：

获取预设历史时间段的用户网页浏览数据；

需要说明的是，所述用户网页浏览数据包括浏览网站、浏览点击数据、浏览跳转网站的相关政策条文数据等。通过分析出用户特征关键词，能够掌握用户的兴趣特征数据。

根据本发明实施例，所述基于科技政策数据库进行文本转化与语义分析，提取科技政策中的实体、属性、关系数据，基于所述实体、属性、关系数据构建基于图结构的知识图谱，具体为：

通过科技政策数据库获取已有科技政策大数据；

将所述科技政策大数据进行数据清洗与文本格式转化；

需要说明的是，所述科技政策数据库用于存储用户的所有科技政策数据，包括历史浏览数据与相关网站的全部数据，为已有保存的数据库数据，通过对已有科技政策数据进行知识图谱的构建，能够在后续进行数据快速检索与推荐分析。在知识图谱中，科技政策条文形成了相应实体数据，不同政策数据对应不同的实体数据，且科技政策之间具有一定的相关性，在知识图谱中以边的形式记录实体数据之间的关联性。

根据本发明实施例，所述根据所述特征词数据与用户特征关键词，基于协同推荐算法，从知识图谱中进行推荐数据检索，得到第一推荐政策数据，将所述第一推荐政策数据发送至用户终端，具体为：

将所述兴趣特征词导入语义分析模型生成兴趣实体数据；

需要说明的是，在基于图结构的知识图谱中，实体之间存在关联，实体与实体之间的边为关系的映射，本发明中，一级关联代表实体与另一个实体之间存在一条边，二级关联则代表一个实体与另一个实体之间存在一个中间实体，且由两条边连接三个实体。所述从知识图谱中进行实体数据与关联数据的检索中，关联数据为相应实体数据的一级关联数据，并基于实体数据与关联数据从知识图谱中进行推荐知识数据检索。

所述预设协同推荐算法为基于用户的协同过滤方法。

根据本发明实施例，所述根据用户实时网站浏览数据，通过知识图谱判断推荐数据是否需要更新，若是，则基于用户实时网站浏览数据从知识图谱中进行二次数据检索，并得到第二推荐政策数据，具体为：

将实时特征词导入语义分析模型生成当前实体数据；

需要说明的是，在本发明中，实时分析当前用户浏览数据所对应实体数据在知识图谱的位置，当位置出现一定的变化时，则认定当前用浏览的政策数据出现本质变化，需要在知识图谱中进行推荐数据的更新。

所述预设关联实体数据为以当前实体数据为基准的一级、二级关联实体数据。

例如，用户在浏览的数据为实体1，实体1关联的数据为实体2和实体3，实体2下一级关联了实体4和实体5，实体3关联了实体6和实体7，则此时的推荐数据为实体1和实体2在知识图谱中所对应的知识数据，而当前用户浏览数据发生成变化，如对应浏览的政策数据对应为实体4的知识，则需要基于实体4在知识图谱的位置进行重新分析推荐知识数据。所述当前用户浏览数据发生成变化，为通过计算知识图谱中的实体之间的距离进行判断。

值得一提的是，在知识图谱中，每个实体即图结构中的节点，相连节点之间的存在边权值，边权值为两个节点之前的关联度，即实体之间关联强度，反映到实际科技政策数据即政策信息之间的相关程度。所述节点平均距离，即计算每两个节点的最短距离与所述两个节点边权值的乘积，基于所述全部乘积进行平均计算得到节点平均距离，所述每两个节点即分别从兴趣实体数据与当前实体数据抽取一个节点进行两两计算。

所述节点平均距离能够有效反映两个实体数据之间在知识图谱的距离，通过在知识图谱的距离判断，能够有效分析出用户当前浏览数据与上一个时间节点的偏离度，从而作出推荐判断。

相较于现有技术中的简单数据匹配推荐，本发明能够有效定位推荐数据的更新时间与有效推理出相应的推荐数据，在用户实时浏览网站时，能够基于用户的浏览变化进行相应动态更改，使用户能够实时获取有效的推荐数据，提升用户分析科技政策的效率。

本发明第二方面还提供了一种科技政策信息自动抽取与推荐系统2，该系统包括：存储器21、处理器22，所述存储器中包括科技政策信息自动抽取与推荐程序，所述科技政策信息自动抽取与推荐程序被所述处理器执行时实现如下步骤：

基于5W1H模型生成科技政策的关键信息种类；

获取用户目标网站信息；

通过数据爬虫适配模块进行数据分析，并设置爬虫策略；

将所述科技政策源数据进行数据清洗与文本格式转换处理；

获取预设历史时间段的用户网页浏览数据；

通过科技政策数据库获取已有科技政策大数据；

将所述科技政策大数据进行数据清洗与文本格式转化；

将所述兴趣特征词导入语义分析模型生成兴趣实体数据；

所述预设协同推荐算法为基于用户的协同过滤方法。

将实时特征词导入语义分析模型生成当前实体数据；

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-On ly Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种科技政策信息自动抽取与推荐方法，其特征在于，包括：

基于5W1H模型生成科技政策的关键信息种类；

根据用户实时网站浏览数据，通过知识图谱判断推荐数据是否需要更新，若是，则基于用户实时网站浏览数据从知识图谱中进行二次数据检索，并得到第二推荐政策数据；

其中，所述根据所述特征词数据与用户特征关键词，基于协同推荐算法，从知识图谱中进行推荐数据检索，得到第一推荐政策数据，将所述第一推荐政策数据发送至用户终端，具体为：

将所述兴趣特征词导入语义分析模型生成兴趣实体数据；

将所述检索知识数据进行政策数据数据转化，得到第一推荐政策数据；

其中，所述根据用户实时网站浏览数据，通过知识图谱判断推荐数据是否需要更新，若是，则基于用户实时网站浏览数据从知识图谱中进行二次数据检索，并得到第二推荐政策数据，具体为：

将实时特征词导入语义分析模型生成当前实体数据；

2.根据权利要求1所述的一种科技政策信息自动抽取与推荐方法，其特征在于，所述基于5W1H模型生成科技政策的关键信息种类中，5W1H模型为预设模型，用于分析出科技政策的关键信息种类，所述关键信息种类包括申报条件、申报地区、发布时间、截止时间、申报对象、申报支持力度。

3.根据权利要求1所述的一种科技政策信息自动抽取与推荐方法，其特征在于，所述获取用户目标网站信息，基于数据爬虫适配模块，生成爬虫策略，基于所述爬虫策略对目标网站进行数据采集，得到科技政策源数据；基于语义分析模型与关键信息种类，对科技政策源数据进行关键词提取，并将关键词作为特征词，形成特征词数据，具体为：

获取用户目标网站信息；

通过数据爬虫适配模块进行数据分析，并设置爬虫策略；

将所述科技政策源数据进行数据清洗与文本格式转换处理；

4.根据权利要求3所述的一种科技政策信息自动抽取与推荐方法，其特征在于，所述获取预设历史时间段的用户网页浏览数据，基于所述用户网页浏览数据进行语义分析与政策关键词提取，得到用户特征关键词，具体为：

获取预设历史时间段的用户网页浏览数据；

5.根据权利要求4所述的一种科技政策信息自动抽取与推荐方法，其特征在于，所述基于科技政策数据库进行文本转化与语义分析，提取科技政策中的实体、属性、关系数据，基于所述实体、属性、关系数据构建基于图结构的知识图谱，具体为：

通过科技政策数据库获取已有科技政策大数据；

将所述科技政策大数据进行数据清洗与文本格式转化；

6.一种科技政策信息自动抽取与推荐系统，其特征在于，该系统包括：存储器、处理器，所述存储器中包括科技政策信息自动抽取与推荐程序，所述科技政策信息自动抽取与推荐程序被所述处理器执行时实现如下步骤：

基于5W1H模型生成科技政策的关键信息种类；

将所述兴趣特征词导入语义分析模型生成兴趣实体数据；

将实时特征词导入语义分析模型生成当前实体数据；

7.根据权利要求6所述的一种科技政策信息自动抽取与推荐系统，其特征在于，所述获取用户目标网站信息，基于数据爬虫适配模块，生成爬虫策略，基于所述爬虫策略对目标网站进行数据采集，得到科技政策源数据；基于语义分析模型与关键信息种类，对科技政策源数据进行关键词提取，并将关键词作为特征词，形成特征词数据，具体为：

获取用户目标网站信息；

通过数据爬虫适配模块进行数据分析，并设置爬虫策略；

将所述科技政策源数据进行数据清洗与文本格式转换处理；