CN117648444A

CN117648444A - 基于图卷积属性聚合的专利聚类方法和系统

Info

Publication number: CN117648444A
Application number: CN202410122918.7A
Authority: CN
Inventors: 赖培源; 廖德章; 廖晓东; 李奎; 叶世兵; 周海涛; 蔡焕涛; 翁锦标; 张跃; 黄俊铮
Original assignee: Guangdong South China Technology Transfer Center Co ltd
Current assignee: Guangdong South China Technology Transfer Center Co ltd
Priority date: 2024-01-30
Filing date: 2024-01-30
Publication date: 2024-03-05
Anticipated expiration: 2044-01-30
Also published as: CN117648444B

Abstract

本发明公开了基于图卷积属性聚合的专利聚类方法和系统，基于AGNN算法，对专利知识图谱中的属性数据进行数据聚合，将聚合后的数据作为专利表征数据；基于当前专利数据生成第一检索信息，通过第一检索信息进行检索得到初始专利大数据；根据所述初始专利大数据，对权利要求信息进行语义分析与向量化，形成初始特征数据；根据专利表征数据与初始特征数据进行基于余弦相似度的数据相似度计算，基于相似度，对初始专利大数据进行排序，形成专利检索推荐数据；将所述专利检索推荐数据发送至预设终端设备。通过本发明，能够对专利数据实现精准化表征的用户特征化的数据推荐，提高检索效率与用户体验。

Description

基于图卷积属性聚合的专利聚类方法和系统

技术领域

本发明涉及文本语义分析领域，更具体的，涉及基于图卷积属性聚合的专利聚类方法和系统。

背景技术

随着技术发明专利的文本数量与日俱增，在用户进行技术查新以避免技术侵权，或者审查员进行专利审查中，通常需要查找相关或相似的专利。但现有技术中，缺少通过专利文本的语义解析进行精准化表征的过程，对专利的检索过于简单，得到的检索结果往往不符合预期，或得到较少的检索结果，因此，如何通过现代化信息手段进行专利文本的高效分析与检索，是目前仍需解决的重要问题。

发明内容

本发明克服了现有技术的缺陷，提出了基于图卷积属性聚合的专利聚类方法和系统。

本发明第一方面提供了一种基于图卷积属性聚合的专利聚类方法，包括：

获取当前专利数据，将所述当前专利数据转化为文本数据并基于语义进行三元组信息抽取，以专利数据中的权利要求作为属性元，基于抽取的三元组信息构建专利知识图谱；

基于AGNN算法，对专利知识图谱中的属性数据进行数据聚合，将聚合后的数据作为专利表征数据；

基于当前专利数据生成第一检索信息，通过第一检索信息进行检索得到初始专利大数据；

根据所述初始专利大数据，对权利要求信息进行语义分析与向量化，形成初始特征数据；

根据专利表征数据与初始特征数据进行基于余弦相似度的数据相似度计算，基于相似度，对初始专利大数据进行排序，形成专利检索推荐数据；

将所述专利检索推荐数据发送至预设终端设备。

本方案中，所述获取当前专利数据，将所述当前专利数据转化为文本数据并基于语义进行三元组信息抽取，以专利数据中的权利要求作为属性元，基于抽取的三元组信息构建专利知识图谱，具体为：

获取当前专利数据，将所述当前专利数据进行文本格式转化，得到当前文本数据；

对当前文本数据进行语义分析与技术关键词提取，并以关键词作为实体、权利要求作为属性，进行基于实体、属性、关系的三元组信息抽取，形成三元组数据；

基于所述三元组数据构建专利知识图谱。

本方案中，所述基于AGNN算法，对专利知识图谱中的属性数据进行数据聚合，将聚合后的数据作为专利表征数据，之前包括：

基于专利知识图谱进行属性数据抽取，并基于知识图谱中原有数据结构，对抽取的属性数据进行图结构搭建，形成属性图；

基于AGNN算法，对属性图进行节点学习，计算出每个属性节点的在图结构中的重要度，并将重要度作为属性节点的复杂度，重要度计算基于属性节点所在图中的位置、连接边数量、边权值；

基于属性图，对属性节点数据进行语义分析与语义特征提取，得到每个属性节点的特征向量。

本方案中，所述基于AGNN算法，对专利知识图谱中的属性数据进行数据聚合，将聚合后的数据作为专利表征数据，具体为：

获取每个属性节点的复杂度与特征向量；

基于谱聚类算法，对属性节点数据进行聚类分析；

所述聚类分析过程中，聚类的单位数据为每个属性节点，聚类过程中数据之间相似度计算为基于节点的之间的特征向量相似度与复杂度；

通过聚类分析，生成多个属性组，每个属性组包括至少一个属性节点；

基于一个属性组，将对应属性数据进行语义表征分析，形成表征数据；

分析所有属性组，并将得到的所有表征数据进行整合，形成专利表征数据。

本方案中，所述基于当前专利数据生成第一检索信息，通过第一检索信息进行检索得到初始专利大数据，具体为：

基于当前专利数据得到专利基础信息，将专利基础信息作为第一检索信息；

基于第一检索信息在预设检索终端进行数据检索，得到专利检索结果；

将所述专利检索结果进行数据清洗预处理，形成初始专利大数据。

本方案中，所述根据专利表征数据与初始特征数据进行基于余弦相似度的数据相似度计算，基于相似度，对初始专利大数据进行排序，形成专利检索推荐数据，具体为：

将初始特征数据进行专利数据文本格式化与语义特征分析，形成专利特征数据；

根据专利表征数据与专利特征数据进行相似度计算，基于相似度结果，对初始专利大数据进行检索数据排序，得到专利检索推荐数据；

所述相似度计算为基于余弦相似度计算法；

将所述专利检索推荐数据发送至预设终端设备。

本发明第二方面还提供了一种基于图卷积属性聚合的专利聚类系统，该系统包括：存储器、处理器，所述存储器中包括基于图卷积属性聚合的专利聚类程序，所述基于图卷积属性聚合的专利聚类程序被所述处理器执行时实现如下步骤：

将所述专利检索推荐数据发送至预设终端设备。

基于所述三元组数据构建专利知识图谱。

附图说明

图1示出了本发明一种基于图卷积属性聚合的专利聚类方法的流程图；

图2示出了本发明构建专利知识图谱流程图；

图3示出了本发明一种基于图卷积属性聚合的专利聚类系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种基于图卷积属性聚合的专利聚类方法的流程图。

如图1所示，本发明第一方面提供了一种基于图卷积属性聚合的专利聚类方法，包括：

S102，获取当前专利数据，将所述当前专利数据转化为文本数据并基于语义进行三元组信息抽取，以专利数据中的权利要求作为属性元，基于抽取的三元组信息构建专利知识图谱；

S104，基于AGNN算法，对专利知识图谱中的属性数据进行数据聚合，将聚合后的数据作为专利表征数据；

S106，基于当前专利数据生成第一检索信息，通过第一检索信息进行检索得到初始专利大数据；

S108，根据所述初始专利大数据，对权利要求信息进行语义分析与向量化，形成初始特征数据；

S110，根据专利表征数据与初始特征数据进行基于余弦相似度的数据相似度计算，基于相似度，对初始专利大数据进行排序，形成专利检索推荐数据；

S112，将所述专利检索推荐数据发送至预设终端设备。

需要说明的是，所述基于相似度，对初始专利大数据进行排序，形成专利检索推荐数据中，在进行用户推荐显示过程中，可以基于设定阈值将相似度最高的专利数据作为一类的聚类结果，如前N条推荐专利数据，并将所述聚类结果发送至预设终端设备进行显示，提高对用户的推荐预期效果。

根据本发明实施例，所述获取当前专利数据，将所述当前专利数据转化为文本数据并基于语义进行三元组信息抽取，以专利数据中的权利要求作为属性元，基于抽取的三元组信息构建专利知识图谱，具体为：

S202，获取当前专利数据，将所述当前专利数据进行文本格式转化，得到当前文本数据；

S204，对当前文本数据进行语义分析与技术关键词提取，并以关键词作为实体、权利要求作为属性，进行基于实体、属性、关系的三元组信息抽取，形成三元组数据；

S206，基于所述三元组数据构建专利知识图谱。

需要说明的是，所述当前专利数据为当前需要检索对比的数据，所述技术关键词即专利文本数据中出现的相关技术领域的技术专有名词、特征等词组，用于作为实体数据，从而连接整篇专利文件数据的属性数据。在本发明中，以权利要求作为属性数据，在后续基于AGNN（属性图神经网络）进行数据聚合。

根据本发明实施例，所述基于AGNN算法，对专利知识图谱中的属性数据进行数据聚合，将聚合后的数据作为专利表征数据，之前包括：

需要说明的是，所述属性图中，各属性之间的关系、结构与原有的专利知识图谱中的关系、结构、位置等相一致。在属性图中，所述重要度计算基于属性节点所在图中的位置、连接边数量、边权值中，具体为计算节点的连接边的数量与连接边的权值，权值代表节点之间关联的相关度，所述数量与权值越大，则对应节点重要度越大，同时，该节点的复杂度也越高。所述属性节点数据即专利数据中的权利要求数据在图谱格式化后的数据，通过语义分析能够得到对应的语义特征向量。

根据本发明实施例，所述基于AGNN算法，对专利知识图谱中的属性数据进行数据聚合，将聚合后的数据作为专利表征数据，具体为：

获取每个属性节点的复杂度与特征向量；

基于谱聚类算法，对属性节点数据进行聚类分析；

需要说明的是，所述聚类过程的数据之间相似度计算具体为将特征向量相似度与复杂度差值进行加权平均计算，得到数据相似度，在聚类过程中，具体为通过计算每个属性节点之间的相似度进行聚类分组，节点间的复杂度与能够有效反映数据之间的相似性，相较于现有技术通过简单的数据余弦距离等方法计算相似度，本发明大大提高了对复杂数据的聚合分析，有助于在后续进行精准化的数据表征，从而提高检索符合预期的概率。所述数据聚合即本发明聚类过程。

谱聚类算法是一种将数据转换为图表示，通过图划分来进行聚类的算法，适用于本发明中的属性数据（即权利要求数据），通过谱聚类对属性数据进行聚合分析，能够大大减少后续特征数据分析的复杂度，提高专利检索效率与结果的匹配度。

根据本发明实施例，所述基于当前专利数据生成第一检索信息，通过第一检索信息进行检索得到初始专利大数据，具体为：

需要说明的是，所述预设检索终端包括网页、计算机、移动等终端平台，用于对接专利数据库与用户交互。所述专利基础信息包括专利技术领域、技术特征、专利名称等信息。

根据本发明实施例，所述根据专利表征数据与初始特征数据进行基于余弦相似度的数据相似度计算，基于相似度，对初始专利大数据进行排序，形成专利检索推荐数据，具体为：

所述相似度计算为基于余弦相似度计算法；

将所述专利检索推荐数据发送至预设终端设备。

需要说明的是，所述专利表征数据能够有效反映当前专利数据的特征，并通过表征数据进行相似度分析，能够提高检索效率。

根据本发明实施例，还包括：

在预设历史时间段中，获取用户在预设检索终端的浏览记录数据；

基于所述浏览记录数据进行浏览文本数据提取，得到用户浏览文本数据；

对所述用户浏览文本数据进行基于CNN的语义分析并提取实体、属性、关系数据，得到用户三元组数据，其中，实体数据为技术关键词；

根据所述用户三元组数据构建基于图结构的用户记录知识图谱；

通过专利检索推荐数据获取专利排序信息；

基于专利检索推荐数据，以专利为单位提取每份专利数据的关键词，得到技术关键词信息；

基于技术关键词信息，分析关键词在用户记录知识图谱中的重要度，基于重要度，对专利检索推荐数据进行二次排序，并生成对应的二次排序信息；

基于二次排序信息对专利检索推荐数据进行二次排序，生成二次检索数据；

实时获取用户在预设检索终端的浏览记录数据，并标记为实时记录数据；

基于所述实时记录数据进行文本数据提取、文本语义分析与关键词提取，得到实时关键词；

将所述实时关键词进行实体数据转化，形成实时实体数据；

基于用户记录知识图谱，获取重要度最高的实体数据，并标记为关键实体数据；

基于实时实体数据与关键实体数据，通过用户记录知识图谱进行基于知识的语义分析与语义特征差异度的计算，并得到两者的语义差异度，若差异度大于预设阈值，则基于实时实体数据动态更新用户记录知识图谱。

需要说明的是，所述浏览记录数据包括用户的搜索记录、标注内容数据、框选内容数据、点击数据等。所述浏览记录数据为反映用户兴趣特征的重要指标数据，通过对数据的进一步分析，能够有效提取用户兴趣特征信息。所述专利排序信息为基于当前专利数据进行检索分析得到的初次排序信息，以当前专利的相似性作为分析准则，二次排序信息中，结合了当前用户浏览特征进行二次排序，生成二次排序后的检索数据，使检索数据更加贴合用户的兴趣特征。所述基于技术关键词信息，分析关键词在用户记录知识图谱中的重要度中，具体为通过将技术关键词信息转化为对应在知识图谱的实体（即节点）数据，并分析实体的重要度，重要度与在属性图中计算的方法一致。所述语义差异度基于知识图谱中的两者实体数据的关系、属性等进行差异性分析，差异度越高，代表两者实体之间关联度越小，新增的用户实时浏览数据具有一定的价值。所述关键实体数据可以包括一个或多个。

值得一提的是，用户在进行检索浏览时，往往会出现在某一领域内的专利分析，此时，通过本发明进行用户浏览数据的分析构建用户记录知识图谱，能够对用的兴趣特征进行知识学习与特征记录，进一步地，通过本发明中实时获取用户浏览记录数据，通过知识图谱分析新增的浏览记录是否与原有知识图谱中的实体数据具有一定的差异性，若有差异性，则实时更新用户记录知识图谱，实现用户兴趣特征的实时分析与更新，保证检索推荐的适用性。

本发明第二方面还提供了一种基于图卷积属性聚合的专利聚类系统3，该系统包括：存储器31、处理器32，所述存储器中包括基于图卷积属性聚合的专利聚类程序，所述基于图卷积属性聚合的专利聚类程序被所述处理器执行时实现如下步骤：

将所述专利检索推荐数据发送至预设终端设备。

基于所述三元组数据构建专利知识图谱。

获取每个属性节点的复杂度与特征向量；

基于谱聚类算法，对属性节点数据进行聚类分析；

所述相似度计算为基于余弦相似度计算法；

将所述专利检索推荐数据发送至预设终端设备。

根据本发明实施例，还包括：

通过专利检索推荐数据获取专利排序信息；

将所述实时关键词进行实体数据转化，形成实时实体数据；

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于图卷积属性聚合的专利聚类方法，其特征在于，包括：

将所述专利检索推荐数据发送至预设终端设备。

2.根据权利要求1所述的一种基于图卷积属性聚合的专利聚类方法，其特征在于，所述获取当前专利数据，将所述当前专利数据转化为文本数据并基于语义进行三元组信息抽取，以专利数据中的权利要求作为属性元，基于抽取的三元组信息构建专利知识图谱，具体为：

基于所述三元组数据构建专利知识图谱。

3.根据权利要求1所述的一种基于图卷积属性聚合的专利聚类方法，其特征在于，所述基于AGNN算法，对专利知识图谱中的属性数据进行数据聚合，将聚合后的数据作为专利表征数据，之前包括：

4.根据权利要求3所述的一种基于图卷积属性聚合的专利聚类方法，其特征在于，所述基于AGNN算法，对专利知识图谱中的属性数据进行数据聚合，将聚合后的数据作为专利表征数据，具体为：

获取每个属性节点的复杂度与特征向量；

基于谱聚类算法，对属性节点数据进行聚类分析；

5.根据权利要求4所述的一种基于图卷积属性聚合的专利聚类方法，其特征在于，所述基于当前专利数据生成第一检索信息，通过第一检索信息进行检索得到初始专利大数据，具体为：

6.根据权利要求5所述的一种基于图卷积属性聚合的专利聚类方法，其特征在于，所述根据专利表征数据与初始特征数据进行基于余弦相似度的数据相似度计算，基于相似度，对初始专利大数据进行排序，形成专利检索推荐数据，具体为：

所述相似度计算为基于余弦相似度计算法；

将所述专利检索推荐数据发送至预设终端设备。

7.一种基于图卷积属性聚合的专利聚类系统，其特征在于，该系统包括：存储器、处理器，所述存储器中包括基于图卷积属性聚合的专利聚类程序，所述基于图卷积属性聚合的专利聚类程序被所述处理器执行时实现如下步骤：

将所述专利检索推荐数据发送至预设终端设备。

8.根据权利要求7所述的一种基于图卷积属性聚合的专利聚类系统，其特征在于，所述获取当前专利数据，将所述当前专利数据转化为文本数据并基于语义进行三元组信息抽取，以专利数据中的权利要求作为属性元，基于抽取的三元组信息构建专利知识图谱，具体为：

基于所述三元组数据构建专利知识图谱。