CN117874026A

CN117874026A - 基于大型自然语言模型的专利数据管理方法及其系统

Info

Publication number: CN117874026A
Application number: CN202311825450.XA
Authority: CN
Inventors: 张晨晨; 杨海涛; 吴兴旺; 赵小军; 黄伟民; 高树国; 童超; 胡啸宇; 吴杰; 谢一鸣; 李昊达; 李心; 姚翔宇
Original assignee: Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; iFlytek Co Ltd; Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd; North China Electric Power University; State Grid Anhui Electric Power Co Ltd
Current assignee: Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; iFlytek Co Ltd; Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd; North China Electric Power University; State Grid Anhui Electric Power Co Ltd
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-04-12

Abstract

本申请适用于数据处理的技术领域，提供了一种基于大型自然语言模型的专利数据管理方法及其系统，其方法包括先基于预设的专利数据库，获取目标企业的第一专利集信息和至少一个指定企业的第二专利集信息，然后根据第一专利集信息和第二专利集信息，生成技术发展树信息，再根据技术发展树信息，生成侵权风险警示信息。本申请能够结合大型自然语言模型，智能警示企业是否存在潜在的侵权风险，有利于在海量的专利中快速排查出侵权风险，进一步提高专利管理的智能化水平。

Description

基于大型自然语言模型的专利数据管理方法及其系统

技术领域

本申请涉及数据处理的技术领域，具体而言，涉及一种基于大型自然语言模型的专利数据管理方法及其系统。

背景技术

企业通常会针对现有或者未来计划开发的产品或技术进行专利申请，譬如针对现有产品的全部技术特征进行1比1的专利设计，故产品与专利之间存在着紧密的关联。而专利侵权纠纷可能给企业带来巨大的经济风险，譬如诉讼费用或高额赔偿，为了减少这些潜在风险，企业通常会对现有专利进行专利侵权风险排查工作，以确定是否存在与产品或技术相冲突的专利，并采取相应的预防措施。

一种常见的专利侵权风险排查工作是：企业先找出与自家专利相似度较高的其他企业的专利，然后将其视为自己专利对应产品的潜在风险。

目前，企业通常采用人工的方式进行专利侵权风险排查工作，当企业已经拥有大量专利的时候，需要耗费较长的时间，存在专利侵权风险排查效率较低的问题，有待进一步改进。

发明内容

基于此，本申请实施例提供了一种基于大型自然语言模型的专利数据管理方法及其系统，以解决现有技术中专利侵权风险排查效率较低的问题。

第一方面，本申请实施例提供了一种基于大型自然语言模型的专利数据管理方法，所述方法包括：

基于预设的专利数据库，获取目标企业的第一专利集信息和至少一个指定企业的第二专利集信息，其中，所述专利数据库储存有所述第一专利集信息和所述第二专利集信息，所述第一专利集信息用于描述所述目标企业的第一公开专利的集合，所述第二专利集信息用于描述所述至少一个指定企业的第二公开专利的集合；

根据所述第一专利集信息和所述第二专利集信息，生成技术发展树信息；

根据所述技术发展树信息，生成侵权风险警示信息。

与现有技术相比存在的有益效果是：本申请实施例提供的基于大型自然语言模型的专利数据管理方法，终端设备可以先基于预设的专利数据库，获取目标企业的第一专利集信息和至少一个指定企业的第二专利集信息，然后根据第一专利集信息和第二专利集信息，生成技术发展树信息，再根据技术发展树信息，生成侵权风险警示信息，从而利用技术发展树信息，快速地排查其他企业已公开的专利是否存在潜在的专利侵权风险，并且找出其他企业具有潜在专利侵权风险的专利，提高专利侵权风险排查效率，在一定程度上解决了当前专利侵权风险排查效率较低的问题。

第二方面，本申请实施例提供了一种基于大型自然语言模型的专利数据管理系统，所述系统包括：

第一专利集信息获取模块：用于基于预设的专利数据库，获取目标企业的第一专利集信息和至少一个指定企业的第二专利集信息，其中，所述专利数据库储存有所述第一专利集信息和所述第二专利集信息，所述第一专利集信息用于描述所述目标企业的第一公开专利的集合，所述第二专利集信息用于描述所述至少一个指定企业的第二公开专利的集合；

技术发展树信息生成模块：用于根据所述第一专利集信息和所述第二专利集信息，生成技术发展树信息；

侵权风险警示信息生成模块：用于根据所述技术发展树信息，生成侵权风险警示信息。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面的方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。

可以理解的是，上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是本申请一实施例提供的专利数据管理方法的流程示意图；

图2是本申请一实施例提供的专利数据管理方法中步骤S200的流程示意图；

图3是本申请一实施例提供的专利数据管理方法中步骤S230的流程示意图；

图4是本申请一实施例提供的目标专利序列信息的示意图；

图5是本申请一实施例提供的主干信息的示意图；

图6是本申请一实施例提供的专利数据管理方法中步骤S260的流程示意图；

图7是本申请一实施例提供的技术发展树信息的示意图；

图8是本申请一实施例提供的专利数据管理方法中步骤S300的流程示意图；

图9是本申请一实施例提供的专利数据管理系统的模块框图；

图10是本申请一实施例提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

请参阅图1，图1是本申请实施例提供的基于大型自然语言模型的专利数据管理方法的流程示意图。在本实施例中，专利数据管理方法的执行主体为终端设备。可以理解的是，终端设备的类型包括但不限于手机、平板电脑、笔记本电脑、超级移动个人计算机(Ultra-Mobile Personal Computer，UMPC)、上网本、个人数字助理(Personal DigitalAssistant，PDA)等，本申请实施例对终端设备的具体类型不作任何限制。

请参阅图1，本申请实施例提供的专利数据管理方法包括但不限于以下步骤：

在S100中，基于预设的专利数据库，获取目标企业的第一专利集信息和至少一个指定企业的第二专利集信息。

不失一般性地，专利数据库储存有第一专利集信息和第二专利集信息；第一专利集信息用于描述目标企业的第一公开专利的集合，第一公开专利用于描述目标企业已经公开的专利；第二专利集信息用于描述至少一个指定企业的第二公开专利的集合，指定企业用于描述除目标企业外的其他企业，目标企业和指定企业均可以由人工预先设定，第二公开专利用于描述指定企业已经公开的专利。

具体来说，终端设备可以基于预设的专利数据库，获取目标企业的第一专利集信息和至少一个指定企业的第二专利集信息。

在S200中，根据第一专利集信息和第二专利集信息，生成技术发展树信息。

具体来说，终端设备可以根据第一专利集信息和第二专利集信息，生成技术发展树信息，技术发展树信息用于描述不同专利所代表的技术之间的关联关系与发展趋势，类似于一棵树的形状，从一个起始节点开始，分支出不同的子节点，每个子节点为一个专利，并代表一种技术。

在一些可能的实现方式中，技术发展树信息分为主干信息和多个支干信息，主干信息为技术发展树信息的核心部分，支干信息为主干信息的延伸部分。

在一些可能的实现方式中，为了有利于高效且准确地排查出潜在的侵权风险，请参阅图2，步骤S200包括但不限于以下步骤：

在S210中，基于预设的技术词数据库和预设的词语匹配算法，获取各个第一公开专利对应的第一相同词集信息和各个第二专利集信息对应的第二相同词集信息。

示例性地，该专利数据管理方法可以基于大型自然语言模型,大型自然语言模型可以调用技术词数据库，技术词数据库可以由运维人员预先创建，技术词数据库储存有多个技术词信息，技术词信息用于描述与目标企业的现有产品或者未来计划开发的产品相关联的词语，譬如：“变压器”、“GIS隔离开关”和“硅钢片磁芯”。词语匹配算法是用于寻找相同词语的算法，词语匹配算法可以是正向最大匹配法、逆向最大匹配法和双向最大匹配法。

不失一般性地，第一相同词集信息用于描述第一相同词信息的集合，第一相同词信息用于描述第一公开专利中与任意一个技术词信息相同的词语，第二相同词集信息用于描述第二相同词信息的集合，第二相同词信息用于描述第二公开专利中与任意一个技术词信息相同的词语。示例性地，当第一公开专利中包含具体为“GIS隔离开关”的词语，技术词数据库中预存的技术词信息之一为“GIS隔离开关”的时候，第一公开专利中具体为“GIS隔离开关”的词语即为第一相同词信息。

具体来说，终端设备可以基于预设的词语匹配算法，将预设的技术词数据库中的技术词信息与第一公开专利中的词语进行匹配，同时将技术词数据库中的技术词信息与第二公开专利中的词语进行匹配，获取各个第一公开专利对应的第一相同词集信息和各个第二专利集信息对应的第二相同词集信息。第一相同词集信息可以是“雷电特征”、“GIS隔离开关”、“耐电水平”、“电网雷害”和“雷击故障数据库”。

在S220中，根据各个第一公开专利对应的第一相同词集信息，确定各个第一公开专利对应的第一相同词数量信息，并根据各个第二专利集信息对应的第二相同词集信息确定各个第二公开专利对应的第二相同词数量信息。

不失一般性地，第一相同词数量信息用于描述第一公开专利中第一相同词信息的数量，示例性地，当某一个第一公开专利对应的第一相同词集信息为“雷电特征”、“GIS隔离开关”、“耐电水平”、“电网雷害”和“雷击故障数据库”的时候，第一相同词数量信息为5。第二相同词数量信息用于描述第二公开专利中第二相同词信息的数量。

具体来说，终端设备可以根据各个第一公开专利对应的第一相同词集信息，确定各个第一公开专利对应的第一相同词数量信息，同时根据各个第二专利集信息对应的第二相同词集信息，确定各个第二公开专利对应的第二相同词数量信息。

在S230中，针对每一个申请年：根据第一相同词数量信息和第二相同词数量信息，确定目标专利信息。

具体来说，终端设备可以先根据各个第一公开专利对应的具体申请年和各个第二公开专利对应的具体申请年，确定出所涉及的申请年，示例性地，当若干第一公开专利对应的具体申请年为“2020年”、“2022年”、“2023年”，若干第二公开专利对应的具体申请年为“2019年”、“2021年”、“2022年”的时候，所涉及的申请年为“2019年”、“2020年”、“2021年”、“2022年”、“2023年”。终端设备可以针对每一个所涉及的申请年进行如下处理：根据第一相同词数量信息和第二相同词数量信息，确定目标专利信息。由于技术词数据库所提供的技术词强关联于现有产品或者未来计划开发的产品，而目标专利信息用于描述最关联于技术词数据库的专利，故目标专利信息能够表征最能关联于现有产品或者未来计划开发产品的专利。

在一些可能的实现方式中，为了有利于确定出有效的目标专利信息，请参阅图3，步骤S230包括但不限于以下步骤：

在S231中，依次比对各个第一公开专利对应的第一相同词数量信息，确定第一备选专利信息。

具体来说，第一备选专利信息用于描述第一专利集信息中第一相同词数量信息最多的第一公开专利。终端设备可以依次比对各个第一公开专利对应的第一相同词数量信息，确定出第一备选专利信息。示例性地，当某一个第一公开专利对应的第一相同词数量信息为15，另一个第一公开专利对应的第一相同词数量信息为18，再另外一个第一公开专利对应的第一相同词数量信息为16的时候，终端设备可以确定第一相同词数量信息为18的第一公开专利为第一备选专利信息。

在S232中，依次比对各个第二公开专利对应的第二相同词数量信息，确定第二备选专利信息。

具体来说，第二备选专利信息用于描述第二专利集信息中第二相同词数量信息最多的第二公开专利。终端设备可以依次比对各个第二公开专利对应的第二相同词数量信息，确定出第二备选专利信息，具体的确定过程可以参考步骤S231中的相似内容。

在S233中，比对第一备选专利信息的第三相同词数量信息与第二备选专利信息的第四相同词数量信息。

具体来说，第三相同词数量信息用于描述第一备选专利信息中与任意一个技术词信息相同的词语的数量，第四相同词数量信息用于描述第二备选专利信息中与任意一个技术词信息相同的词语的数量。终端设备可以将第一备选专利信息的第三相同词数量信息与第二备选专利信息的第四相同词数量信息进行比对。

在S234中，若第三相同词数量信息大于第四相同词数量信息，则确定第一备选专利信息为目标专利信息。

具体来说，如果第三相同词数量信息大于第四相同词数量信息，则终端设备可以确定第一备选专利信息为目标专利信息。

在S235中，若第三相同词数量信息小于第四相同词数量信息，则确定第二备选专利信息为目标专利信息。

具体来说，如果第三相同词数量信息小于第四相同词数量信息，则终端设备可以确定第二备选专利信息为目标专利信息。

在S236中，若第三相同词数量信息等于第四相同词数量信息，则确定第一备选专利信息或第二备选专利信息为目标专利信息。

具体来说，如果第三相同词数量信息等于第四相同词数量信息，则终端设备可以确定第一备选专利信息或第二备选专利信息为目标专利信息。

在S240中，根据目标专利信息，生成目标专利序列信息。

具体来说，目标专利序列信息用于描述按照申请年从先到后的时间顺序排列的多个目标专利信息。示例性地，请参阅图4，终端设备可以根据多个目标专利信息，生成目标专利序列信息，图4中的“第一目标专利信息”、“第二目标专利信息”和“第三目标专利信息”均表示目标专利信息。

在S250中，根据目标专利序列信息中各个目标专利信息对应的第三相同词集信息，生成主干信息。

具体来说，终端设备可以根据目标专利序列信息中各个目标专利信息对应的第三相同词集信息，生成主干信息，示例性地，请参阅图5，当第一目标专利信息对应的第三相同词集信息为“雷电特征、GIS隔离开关、耐电水平、电网雷害、雷击故障数据库、输电线路构架和电网电压等级”、第二目标专利信息对应的第三相同词集信息为“电力变压器、光纤光栅创拿起、绕组变形仪、变压器绕组温度、绕组内部线圈温度”且第三目标专利信息对应的第三相同词集信息为“大型光伏电站、光伏电池、电网侧电压、电路等值阻抗、二极管漏电阻”的时候，主干信息可以为“雷电特征、GIS隔离开关、耐电水平、电网雷害、雷击故障数据库、输电线路构架和电网电压等级”、“电力变压器、光纤光栅创拿起、绕组变形仪、变压器绕组温度、绕组内部线圈温度”和“大型光伏电站、光伏电池、电网侧电压、电路等值阻抗、二极管漏电阻”。

在S260中，根据总剩余专利信息，生成支干信息。

具体来说，总剩余专利信息包括第一剩余专利集信息和第二剩余专利集信息，第一剩余专利集信息用于描述第一专利集信息剔除目标专利信息后的第一剩余专利的集合，第二剩余专利集信息用于描述第二专利集信息剔除目标专利信息后的第二剩余专利的集合。终端设备可以根据总剩余专利信息，生成支干信息。

在一些可能的实现方式中，为了有利于高效确定出有效的支干信息，请参阅图6，步骤S260包括但不限于以下步骤：

在S261中，将第一剩余专利与目标专利序列信息中同一申请年的目标专利信息进行绑定，并将第二剩余专利与目标专利序列信息中同一申请年的目标专利信息进行绑定。

具体来说，支干信息包括第一分支信息和第二分支信息。终端设备可以将第一剩余专利与目标专利序列信息中同一申请年的目标专利信息进行绑定，并将第二剩余专利与目标专利序列信息中同一申请年的目标专利信息进行绑定，从而实现对不同申请年的划分及归类。

在S262中，比对第一剩余专利对应的第五相同词数量信息和预设的第一数量阈值信息。

具体来说，终端设备可以将第一剩余专利对应的第五相同词数量信息和预设的第一数量阈值信息进行比对，通过第一数量阈值信息作为衡量剩余专利与技术词数据库的关联程度，作为界定专利与现有产品或者未来计划开发的产品的关联程度的基准。

在S263中，若第五相同词数量信息大于或等于第一数量阈值信息，则根据第一剩余专利对应的第五相同词数量信息和主干信息中的第三相同词集信息，生成第一分支信息。

具体来说，第五相同词数量信息用于描述第一剩余专利中与任意一个技术词信息相同的词语的数量。如果第五相同词数量信息大于或等于第一数量阈值信息，则终端设备可以根据第一剩余专利对应的第五相同词数量信息和主干信息中的第三相同词集信息，生成第一分支信息。

示例性地，请参阅图7，终端设备根据第一剩余专利对应的第五相同词数量信息和主干信息中的第三相同词集信息，生成第一分支信息、

在S264中，若第五相同词数量信息小于第一数量阈值信息，则比对第一剩余专利对应的第五相同词数量信息和预设的第二数量阈值信息。

具体来说，第二数量阈值信息小于第一数量阈值信息；如果第五相同词数量信息小于第一数量阈值信息，则终端设备可以比对第一剩余专利对应的第五相同词数量信息和预设的第二数量阈值信息。

在S265中，若第五相同词数量信息大于或等于第二数量阈值信息，则根据第一剩余专利对应的第五相同词数量信息和主干信息中的第三相同词集信息，生成第二分支信息。

示例性地，请参阅图7，如果第五相同词数量信息大于或等于第二数量阈值信息，则终端设备可以根据第一剩余专利对应的第五相同词数量信息和主干信息中的第三相同词集信息，生成第二分支信息。

在S266中，比对第二剩余专利对应的第六相同词数量信息和第一数量阈值信息。

具体来说，终端设备可以将第二剩余专利对应的第六相同词数量信息和第一数量阈值信息进行比对。

在S267中，若第六相同词数量信息大于或等于第一数量阈值信息，则根据第二剩余专利对应的第六相同词数量信息和主干信息中的第三相同词集信息，生成第一分支信息。

具体来说，如果第六相同词数量信息大于或等于第一数量阈值信息，则终端设备可以根据第二剩余专利对应的第六相同词数量信息和主干信息中的第三相同词集信息，生成第一分支信息。

在S268中，若第六相同词数量信息小于第一数量阈值信息，则比对第二剩余专利对应的第六相同词数量信息和第二数量阈值信息。

具体来说，如果第六相同词数量信息小于第一数量阈值信息，则终端设备可以将第二剩余专利对应的第六相同词数量信息和第二数量阈值信息进行比对。

在S269中，若第六相同词数量信息大于或等于第二数量阈值信息，则根据第二剩余专利对应的第六相同词数量信息和主干信息中的第三相同词集信息，生成第二分支信息。

具体来说，如果第六相同词数量信息大于或等于第二数量阈值信息，则终端设备可以根据第二剩余专利对应的第六相同词数量信息和主干信息中的第三相同词集信息，生成第二分支信息。

在S300中，根据技术发展树信息，生成侵权风险警示信息。

具体来说，终端设备可以根据技术发展树信息，生成侵权风险警示信息，侵权风险警示信息用于描述潜在的侵权风险，从而实现基于技术发展树信息快速匹配技术层面相关联的不同专利，快速排查出潜在的侵权风险，大幅度地提高专利侵权风险排查效率，需要说明的是，当其他企业围绕某一个技术所布局的专利数量越多，潜在的侵权风险也会越高。

在一些可能的实现方式中，为了有利于进一步提高专利侵权风险排查效率且直观地得知侵权风险严重程度，请参阅图8，步骤S300包括但不限于以下步骤：

在S310中，获取技术发展树信息的目标企业第一分支数量信息、目标企业第二分支数量信息、指定企业第一分支数量信息和指定企业第二分支数量信息。

不失一般性地，侵权风险警示信息包括高度风险信息和一般风险信息，其中，高度风险信息用于描述严重的侵权风险，一般风险信息用于描述一般的侵权风险。目标企业第一分支数量信息用于描述目标企业的第一分支的数量，即基于第一剩余专利所生成的第一分支信息的数量，目标企业第二分支数量信息用于描述目标企业的第二分支的数量，即基于第一剩余专利所生成的第二分支信息的数量，指定企业第一分支数量信息用于描述指定企业的第一分支的数量，即基于第二剩余专利所生成的第一分支信息的数量，指定企业第二分支数量信息用于描述指定企业的第二分支的数量，即基于第二剩余专利所生成的第二分支信息的数量。

具体来说，终端设备可以获取技术发展树信息的目标企业第一分支数量信息、目标企业第二分支数量信息、指定企业第一分支数量信息和指定企业第二分支数量信息。

在S320中，根据目标企业第一分支数量信息减去指定企业第一分支数量信息之差，生成第一分支差信息。

具体来说，终端设备可以根据目标企业第一分支数量信息减去指定企业第一分支数量信息之差，生成第一分支差信息。

在S330中，比对第一分支差信息与预设的第一分支数差异阈值信息。

具体来说，终端设备可以将第一分支差信息与预设的第一分支数差异阈值信息进行比对。

在S340中，若第一分支差信息大于或等于第一分支数差异阈值信息，则生成高度风险信息。

具体来说，如果第一分支差信息大于或等于第一分支数差异阈值信息，则生成高度风险信息。

在S350中，根据目标企业第二分支数量信息减去指定企业第二分支数量信息之差，生成第二分支差信息。

具体来说，终端设备可以根据目标企业第二分支数量信息减去指定企业第二分支数量信息之差，生成第二分支差信息。

在S360中，比对第二分支差信息与预设的第二分支数差异阈值信息。

具体来说，终端设备可以将第二分支差信息与预设的第二分支数差异阈值信息进行比对，需要说明的是，第二分支数差异阈值信息与第一分支数差异阈值信息的具体取值并无关联，即第二分支数差异阈值信息可以大于、等于或者小于第一分支数差异阈值信息。

在S370中，若第二分支差信息大于或等于第二分支数差异阈值信息，则生成一般风险信息。

具体来说，如果第二分支差信息大于或等于第二分支数差异阈值信息，则终端设备可以生成一般风险信息。

本申请实施例基于大型自然语言模型的专利数据管理方法的实施原理为：终端设备可以先基于预设的专利数据库，获取目标企业的第一专利集信息和至少一个指定企业的第二专利集信息，然后根据第一专利集信息和第二专利集信息，生成技术发展树信息，再根据技术发展树信息，生成侵权风险警示信息，从而实现利用技术发展树信息，快速地检索其他企业的专利，找出具有潜在专利侵权风险的其他企业的专利，快速且准确地排查出专利侵权风险，提高专利侵权风险排查效率。

需要说明的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本申请的实施例还提供了一种基于大型自然语言模型的专利数据管理系统，为便于说明，仅示出与本申请相关的部分，如图9所示，该系统90包括：

第一专利集信息获取模块91：用于基于预设的专利数据库，获取目标企业的第一专利集信息和至少一个指定企业的第二专利集信息，其中，专利数据库储存有第一专利集信息和第二专利集信息，第一专利集信息用于描述目标企业的第一公开专利的集合，第二专利集信息用于描述至少一个指定企业的第二公开专利的集合；

技术发展树信息生成模块92：用于根据第一专利集信息和第二专利集信息，生成技术发展树信息；

侵权风险警示信息生成模块93：用于根据技术发展树信息，生成侵权风险警示信息。

可选的，技术发展树信息分为主干信息和多个支干信息，多个支干信息均与主干信息相关联；上述技术发展树信息生成模块92包括：

第一相同词集信息获取子模块：用于基于预设的技术词数据库和预设的词语匹配算法，获取各个第一公开专利对应的第一相同词集信息和各个第二专利集信息对应的第二相同词集信息，其中，技术词数据库储存有多个技术词信息，第一相同词集信息用于描述第一相同词信息的集合，第一相同词信息用于描述第一公开专利中与任意一个技术词信息相同的词语，第二相同词集信息用于描述第二相同词信息的集合，第二相同词信息用于描述第二公开专利中与任意一个技术词信息相同的词语；

第一相同词数量信息确定子模块：用于根据各个第一公开专利对应的第一相同词集信息，确定各个第一公开专利对应的第一相同词数量信息，并根据各个第二专利集信息对应的第二相同词集信息确定各个第二公开专利对应的第二相同词数量信息，其中，第一相同词数量信息用于描述第一公开专利中第一相同词信息的数量，第二相同词数量信息用于描述第二公开专利中第二相同词信息的数量；

目标专利信息确定子模块：用于针对每一个申请年：根据第一相同词数量信息和第二相同词数量信息，确定目标专利信息；

目标专利序列信息生成子模块：用于根据目标专利信息，生成目标专利序列信息，其中，目标专利序列信息用于描述按照申请年从先到后的时间顺序排列的多个目标专利信息；

主干信息生成子模块：用于根据目标专利序列信息中各个目标专利信息对应的第三相同词集信息，生成主干信息；

支干信息生成子模块：用于根据总剩余专利信息，生成支干信息，其中，总剩余专利信息包括第一剩余专利集信息和第二剩余专利集信息，第一剩余专利集信息用于描述第一专利集信息剔除目标专利信息后的第一剩余专利的集合，第二剩余专利集信息用于描述第二专利集信息剔除目标专利信息后的第二剩余专利的集合。

可选的，上述目标专利信息确定子模块包括：

第一备选专利信息确定单元：用于依次比对各个第一公开专利对应的第一相同词数量信息，确定第一备选专利信息，其中，第一备选专利信息用于描述第一专利集信息中第一相同词数量信息最多的第一公开专利；

第二备选专利信息确定单元：用于依次比对各个第二公开专利对应的第二相同词数量信息，确定第二备选专利信息，其中，第二备选专利信息用于描述第二专利集信息中第二相同词数量信息最多的第二公开专利；

第三相同词数量信息比对单元：用于比对第一备选专利信息的第三相同词数量信息与第二备选专利信息的第四相同词数量信息；

目标专利信息第一确定单元：用于若第三相同词数量信息大于第四相同词数量信息，则确定第一备选专利信息为目标专利信息；

目标专利信息第二确定单元：用于若第三相同词数量信息小于第四相同词数量信息，则确定第二备选专利信息为目标专利信息；

目标专利信息第三确定单元：用于若第三相同词数量信息等于第四相同词数量信息，则确定第一备选专利信息或第二备选专利信息为目标专利信息。

可选的，支干信息包括第一分支信息和第二分支信息；上述支干信息生成子模块包括：

目标专利信息绑定单元：用于将第一剩余专利与目标专利序列信息中同一申请年的目标专利信息进行绑定，并将第二剩余专利与目标专利序列信息中同一申请年的目标专利信息进行绑定；

第五相同词数量信息比对单元：用于比对第一剩余专利对应的第五相同词数量信息和预设的第一数量阈值信息；

第一分支信息第一生成单元：用于若第五相同词数量信息大于或等于第一数量阈值信息，则根据第一剩余专利对应的第五相同词数量信息和主干信息中的第三相同词集信息，生成第一分支信息；

第五相同词数量信息第二比对单元：用于若第五相同词数量信息小于第一数量阈值信息，则比对第一剩余专利对应的第五相同词数量信息和预设的第二数量阈值信息，其中，第二数量阈值信息小于第一数量阈值信息；

第二分支第一生成单元：用于若第五相同词数量信息大于或等于第二数量阈值信息，则根据第一剩余专利对应的第五相同词数量信息和主干信息中的第三相同词集信息，生成第二分支信息；

第六相同词数量信息第一比对单元：用于比对第二剩余专利对应的第六相同词数量信息和第一数量阈值信息；

第一分支信息第二生成单元：用于若第六相同词数量信息大于或等于第一数量阈值信息，则根据第二剩余专利对应的第六相同词数量信息和主干信息中的第三相同词集信息，生成第一分支信息；

第六相同词数量信息第二比对单元：用于若第六相同词数量信息小于第一数量阈值信息，则比对第二剩余专利对应的第六相同词数量信息和第二数量阈值信息；

第二分支第二生成单元：用于若第六相同词数量信息大于或等于第二数量阈值信息，则根据第二剩余专利对应的第六相同词数量信息和主干信息中的第三相同词集信息，生成第二分支信息。

可选的，侵权风险警示信息包括高度风险信息和一般风险信息；上述侵权风险警示信息生成模块93包括：

目标企业第一分支数量信息获取子模块：用于获取技术发展树信息的目标企业第一分支数量信息、目标企业第二分支数量信息、指定企业第一分支数量信息和指定企业第二分支数量信息；

第一分支差信息生成子模块：用于根据目标企业第一分支数量信息减去指定企业第一分支数量信息之差，生成第一分支差信息；

第一分支差信息比对子模块：用于比对第一分支差信息与预设的第一分支数差异阈值信息；

高度风险信息生成子模块：用于若第一分支差信息大于或等于第一分支数差异阈值信息，则生成高度风险信息；

第二分支差信息生成子模块：用于根据目标企业第二分支数量信息减去指定企业第二分支数量信息之差，生成第二分支差信息；

第二分支差信息比对子模块：用于比对第二分支差信息与预设的第二分支数差异阈值信息；

一般风险信息生成子模块：用于若第二分支差信息大于或等于第二分支数差异阈值信息，则生成一般风险信息。

需要说明的是，上述模块之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

本申请实施例还提供了一种终端设备，如图10所示，该实施例的终端设备100包括：处理器101、存储器102以及存储在存储器102中并可在处理器101上运行的计算机程序103。处理器101执行计算机程序103时实现上述流量处理方法实施例中的步骤，例如图1所示的步骤S100至S300；或者，处理器101执行计算机程序103时实现上述装置中各模块的功能，例如图9所示模块91至93的功能。

该终端设备100可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备，该终端设备100包括但不仅限于处理器101、存储器102。本领域技术人员可以理解，图10仅仅是终端设备100的示例，并不构成对终端设备100的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备100还可以包括输入输出设备、网络接入设备、总线等。

其中，处理器101可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等；通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器102可以是终端设备100的内部存储单元，例如终端设备100的硬盘或内存，存储器102也可以是终端设备100的外部存储设备，例如终端设备100上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital，SD)卡，闪存卡(FlashCard)等；进一步地，存储器102还可以既包括终端设备100的内部存储单元也包括外部存储设备，存储器102还可以存储计算机程序103以及终端设备100所需的其它程序和数据，存储器102还可以用于暂时地存储已经输出或者将要输出的数据。

本申请的一个实施例还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等；计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的方法、原理、结构所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种基于大型自然语言模型的专利数据管理方法，其特征在于，所述方法包括：

根据所述技术发展树信息，生成侵权风险警示信息。

2.根据权利要求1所述的方法，其特征在于，所述技术发展树信息分为主干信息和多个支干信息，所述多个支干信息均与所述主干信息相关联；所述根据所述第一专利集信息和所述第二专利集信息，生成技术发展树信息，包括：

基于预设的技术词数据库和预设的词语匹配算法，获取各个所述第一公开专利对应的第一相同词集信息和各个所述第二专利集信息对应的第二相同词集信息，其中，所述技术词数据库储存有多个技术词信息，所述第一相同词集信息用于描述第一相同词信息的集合，所述第一相同词信息用于描述所述第一公开专利中与任意一个所述技术词信息相同的词语，所述第二相同词集信息用于描述第二相同词信息的集合，所述第二相同词信息用于描述所述第二公开专利中与任意一个所述技术词信息相同的词语；

根据各个所述第一公开专利对应的第一相同词集信息，确定各个所述第一公开专利对应的第一相同词数量信息，并根据各个所述第二专利集信息对应的第二相同词集信息，确定各个所述第二公开专利对应的第二相同词数量信息，其中，所述第一相同词数量信息用于描述所述第一公开专利中所述第一相同词信息的数量，所述第二相同词数量信息用于描述所述第二公开专利中所述第二相同词信息的数量；

针对每一个申请年：根据所述第一相同词数量信息和所述第二相同词数量信息，确定目标专利信息；

根据所述目标专利信息，生成目标专利序列信息，其中，所述目标专利序列信息用于描述按照申请年从先到后的时间顺序排列的多个目标专利信息；

根据所述目标专利序列信息中各个所述目标专利信息对应的第三相同词集信息，生成主干信息；

根据总剩余专利信息，生成所述支干信息，其中，所述总剩余专利信息包括第一剩余专利集信息和第二剩余专利集信息，第一剩余专利集信息用于描述所述第一专利集信息剔除所述目标专利信息后的第一剩余专利的集合，第二剩余专利集信息用于描述所述第二专利集信息剔除所述目标专利信息后的第二剩余专利的集合。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一相同词数量信息和所述第二相同词数量信息，确定目标专利信息，包括：

依次比对各个所述第一公开专利对应的所述第一相同词数量信息，确定第一备选专利信息，其中，所述第一备选专利信息用于描述所述第一专利集信息中所述第一相同词数量信息最多的所述第一公开专利；

依次比对各个所述第二公开专利对应的所述第二相同词数量信息，确定第二备选专利信息，其中，所述第二备选专利信息用于描述所述第二专利集信息中所述第二相同词数量信息最多的所述第二公开专利；

比对所述第一备选专利信息的第三相同词数量信息与所述第二备选专利信息的第四相同词数量信息；

若所述第三相同词数量信息大于所述第四相同词数量信息，则确定所述第一备选专利信息为目标专利信息；

若所述第三相同词数量信息小于所述第四相同词数量信息，则确定所述第二备选专利信息为目标专利信息；

若所述第三相同词数量信息等于所述第四相同词数量信息，则确定第一备选专利信息或所述第二备选专利信息为目标专利信息。

4.根据权利要求2所述的方法，其特征在于，所述支干信息包括第一分支信息和第二分支信息；所述根据总剩余专利信息，生成所述支干信息，包括：

将所述第一剩余专利与所述目标专利序列信息中同一申请年的所述目标专利信息进行绑定，并将所述第二剩余专利与所述目标专利序列信息中同一申请年的所述目标专利信息进行绑定；

比对所述第一剩余专利对应的第五相同词数量信息和预设的第一数量阈值信息；

若所述第五相同词数量信息大于或等于所述第一数量阈值信息，则根据所述第一剩余专利对应的所述第五相同词数量信息和所述主干信息中的第三相同词集信息，生成第一分支信息；

若所述第五相同词数量信息小于所述第一数量阈值信息，则比对所述第一剩余专利对应的第五相同词数量信息和预设的第二数量阈值信息，其中，所述第二数量阈值信息小于所述第一数量阈值信息；

若所述第五相同词数量信息大于或等于所述第二数量阈值信息，则根据所述第一剩余专利对应的所述第五相同词数量信息和所述主干信息中的第三相同词集信息，生成第二分支信息；

比对所述第二剩余专利对应的第六相同词数量信息和所述第一数量阈值信息；

若所述第六相同词数量信息大于或等于所述第一数量阈值信息，则根据所述第二剩余专利对应的所述第六相同词数量信息和所述主干信息中的第三相同词集信息，生成第一分支信息；

若所述第六相同词数量信息小于所述第一数量阈值信息，则比对所述第二剩余专利对应的第六相同词数量信息和所述第二数量阈值信息；

若所述第六相同词数量信息大于或等于所述第二数量阈值信息，则根据所述第二剩余专利对应的所述第六相同词数量信息和所述主干信息中的第三相同词集信息，生成第二分支信息。

5.根据权利要求4所述的方法，其特征在于，所述侵权风险警示信息包括高度风险信息和一般风险信息；所述根据所述技术发展树信息，生成侵权风险警示信息，包括：

获取所述技术发展树信息的目标企业第一分支数量信息、目标企业第二分支数量信息、指定企业第一分支数量信息和指定企业第二分支数量信息；

根据所述目标企业第一分支数量信息减去所述指定企业第一分支数量信息之差，生成第一分支差信息；

比对所述第一分支差信息与预设的第一分支数差异阈值信息；

若所述第一分支差信息大于或等于所述第一分支数差异阈值信息，则生成高度风险信息；

根据所述目标企业第二分支数量信息减去所述指定企业第二分支数量信息之差，生成第二分支差信息；

比对所述第二分支差信息与预设的第二分支数差异阈值信息；

若所述第二分支差信息大于或等于所述第二分支数差异阈值信息，则生成一般风险信息。

6.一种基于大型自然语言模型的专利数据管理系统，其特征在于，所述系统包括：

7.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。