CN113821646A

CN113821646A - 基于语义检索的智能化专利相似度搜索方法及装置

Info

Publication number: CN113821646A
Application number: CN202111372547.0A
Authority: CN
Inventors: 许华伟; 徐红; 昝云飞; 陈运文; 纪达麒; 王百含
Original assignee: Daguan Technology Beijing Co ltd
Current assignee: Daguan Technology Beijing Co ltd
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2021-12-21

Abstract

本发明公开一种基于语义检索的智能化专利相似度搜索方法及装置。该方法通过获取目标专利的专利文本相关字段，对目标专利的专利文本相关字段进行分词，通过预先训练的同义词扩展模型，对目标专利的专利文本相关字段分词的结果进行同义词扩展；根据目标专利的专利文本相关字段分词的结果以及同义词扩展的结果，构建Elasticsearch的Query，从而基于Elasticsearch得到粗召回的专利数据；计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度；根据余弦相似度，对粗召回的专利数据中的每条专利文本进行排序，返回最终排序结果；与现有技术相比，专利相似度搜索的检索效率更高效，专利相似度搜索的召回准确度更高，且同义词扩展模型可以根据增量数据不断优化。

Description

基于语义检索的智能化专利相似度搜索方法及装置

技术领域

本发明涉及智能搜索技术领域，尤其涉及一种基于语义检索的智能化专利相似度搜索方法及装置。

背景技术

专利相似度搜索实质是专利检索的一种智能化体现，就是根据一项或数项特征，从海量的专利文献或专利数据库中挑选符合某一特定要求的文献或信息的过程，并且提供基于专利文档相似度大小的排序召回。

专利CN106372226B公开了一种信息检索装置及方法，该装置包括：接收单元，接收用户输入的特定专利号；关键词获取单元，从上述特定专利号对应专利信息中自动抽取关键词；比较单元，按照关键词与上述特定专利之间的相关程度，将所抽取关键词分为多个优先级；分类号获取单元，从上述特定专利号对应专利信息中提取分类号，并将所提取的多个分类号分为多个优先级；检索式构建单元，将关键词和分类号按优先级从高到低的顺序构建检索式，直到构建出检索结果满足预定阈值条件的检索式。该专利可以更精确且高效地自动检索出与期望检索的主题相似的专利信息，但并未给出在具体的专利检索中如何对检索到的专利进行相似度的准确排序。

专利CN107247780A公开了一种基于知识本体的专利文献相似性度量方法，该方法依据专利文献结构特点、位置特征和关键词特征提取核心技术方案；构建专利分类号主题词词间关系模型；根据分类号主题词词间关系模型构建领域词典并以之对核心技术方案分词和去停用词；主题词词间关系结合以TF-IDF作为TextRank词初始权重提取关键词和权重；训练FastText模型，生成词向量；根据关键词、词权重和词向量，计算EMD距离，得出语义距离。该专利解决了传统专利文献相似性度量方法未充分考虑专利文本结构特点，领域特点，词间关系特点及语义近似表述不一致导致的相似度低的问题，但基于EMD距离的相似度算法较为负责，运行效率较低，降低了专利的检索速率。

专利CN107492052A公开了一种基于专利交易的检索匹配方法，包括如下步骤：获取用户在检索页面输入的多个关键词；识别所述关键词的语义，为所述关键词匹配多个同义词，将所有关键词及其同义词排列组合为多个检索式，在检索页面的第一显示区显示所述检索式的链接；接收用户对任意检索式链接的选中指令，对用户选中的检索式进行检索，在检索页面显示相应的检索结果，将用户选中的检索式链接移动至检索页面的第二显示区。该专利公开了为关键词匹配多个同义词，但对于同义词的匹配较为粗略，没有提供有效的同义词扩展手段，使得相似专利召回率仍有待提升。

专利CN102999625A公开一种检索请求语义扩展方法，包括如下步骤：接收用户的检索请求；对检索请求进行分词处理，生成关键词；基于知识树对关键词进行语义扩展，生成扩展后的关键词组合；对关键词组合，结合检索组合库进行最优匹配组合查询，得到有效检索组合；将有效检索组合与用户已经输入的检索请求合并，生成有效检索组合集。该专利公开了检索请求语义扩展的方案，但并未给出在具体的专利检索中如何对检索到的专利进行相似度的准确排序。

发明内容

本发明提供一种基于语义检索的智能化专利相似度搜索方法及装置，以解决现有技术在专利相似度排序准确度、相似专利召回率、检索速率方面还有所不足的问题。

第一方面，本发明提供一种基于语义检索的智能化专利相似度搜索方法，包括：

获取目标专利的专利文本相关字段；

对目标专利的专利文本相关字段进行分词；

通过预先训练的同义词扩展模型，对所述目标专利的专利文本相关字段分词的结果进行同义词扩展；其中，所述同义词扩展模型通过以下方式训练得到：获取样本专利文档；按照专利文档结构，对所述样本专利文档拆分数据字段，所述数据字段包括样本专利文本相关字段和样本专利信息相关字段；将所述样本专利文本相关字段进行分词；将所述样本专利文本相关字段分词的结果、所述样本专利信息相关字段存入Elasticsearch，将全部数据字段存入Redis；基于样本专利文本相关字段分词的结果，使用word2vec训练同义词扩展模型；

根据所述目标专利的专利文本相关字段分词的结果以及同义词扩展的结果，构建Elasticsearch的Query，从而基于Elasticsearch得到粗召回的专利数据；

计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度；

根据所述余弦相似度，对粗召回的专利数据中的每条专利文本进行排序，返回最终排序结果。

进一步地，所述样本专利文本相关字段包括：标题、摘要、权利要求以及说明书中的技术领域、背景技术、发明内容、附图说明和具体实施方式。

进一步地，所述样本专利信息相关字段包括：原始申请号ID、原始公开号ID、申请人、分类号，以及法律状态、同族专利信息和引证信息。

进一步地，对目标专利的专利文本相关字段进行分词的步骤中，采用jieba分词器对目标专利的专利文本相关字段进行分词。

进一步地，基于样本专利文本相关字段分词的结果，使用word2vec训练同义词扩展模型之后，还包括：根据增量数据对同义词扩展模型进行补充训练，从而不断优化同义词扩展模型。

进一步地，计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度的步骤中，计算余弦相似度的文本包括标题、摘要、权利要求以及说明书中的技术领域、背景技术和发明内容。

进一步地，计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度的步骤中，基于TF-IDF法计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度。

进一步地，根据所述余弦相似度，对粗召回的专利数据中的每条专利文本进行排序，返回最终排序结果的步骤中，采用下式计算专利数据中的每条专利文本与目标专利的最终相似度，根据所述最终相似度返回最终排序结果：

（余弦相似度 / 余弦最高相似度）* n + （es_score / es最高score）* （1-n），其中，0<=n<=1，es_score为粗召回的专利数据中的每条专利文本的打分。

第二方面，本发明提供一种基于语义检索的智能化专利相似度搜索装置，包括：

获取单元，用于获取目标专利的专利文本相关字段；

分词单元，用于对目标专利的专利文本相关字段进行分词；

扩展单元，用于通过预先训练的同义词扩展模型，对所述目标专利的专利文本相关字段分词的结果进行同义词扩展；其中，所述同义词扩展模型通过以下方式训练得到：获取样本专利文档；按照专利文档结构，对所述样本专利文档拆分数据字段，所述数据字段包括样本专利文本相关字段和样本专利信息相关字段；将所述样本专利文本相关字段进行分词；将所述样本专利文本相关字段分词的结果、所述样本专利信息相关字段存入Elasticsearch，将全部数据字段存入Redis；基于样本专利文本相关字段分词的结果，使用word2vec训练同义词扩展模型；

粗召回单元，用于根据所述目标专利的专利文本相关字段分词的结果以及同义词扩展的结果，构建Elasticsearch的Query，从而基于Elasticsearch得到粗召回的专利数据；

计算单元，用于计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度；

排序单元，用于根据所述余弦相似度，对粗召回的专利数据中的每条专利文本进行排序，返回最终排序结果。

本发明的有益效果如下：本发明提供的一种基于语义检索的智能化专利相似度搜索方法及装置，通过获取目标专利的专利文本相关字段，对目标专利的专利文本相关字段进行分词，通过预先训练的同义词扩展模型，对目标专利的专利文本相关字段分词的结果进行同义词扩展；根据目标专利的专利文本相关字段分词的结果以及同义词扩展的结果，构建Elasticsearch的Query，从而基于Elasticsearch得到粗召回的专利数据；计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度；根据余弦相似度，对粗召回的专利数据中的每条专利文本进行排序，返回最终排序结果；与现有技术相比，专利相似度搜索的检索效率更高效，专利相似度搜索的召回准确度更高，且同义词扩展模型可以根据增量数据不断优化。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于语义检索的智能化专利相似度搜索方法的流程图；

图2为训练同义词扩展模型的流程图；

图3为本发明实施例提供的基于语义检索的智能化专利相似度搜索方法的架构图；

图4为本发明实施例提供的基于语义检索的智能化专利相似度搜索装置的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。以下结合附图，详细说明本发明各实施例提供的技术方案。

请参阅图1，本发明提供一种基于语义检索的智能化专利相似度搜索方法，包括：

步骤S101，获取目标专利的专利文本相关字段。

具体地，目标专利的专利文本相关字段可以包括：Title（标题）、Abstract（摘要）、ClaimsText（权利要求）以及Description中TechnicalField（技术领域）、BackgroundArt（背景技术）、Disclosure（发明内容）、DrawingsDescription（附图说明）、InventionMode（具体实施方式）等字段。

步骤S102，对目标专利的专利文本相关字段进行分词。

具体地，可采用jieba分词器对目标专利的专利文本相关字段进行分词。

步骤S103，通过预先训练的同义词扩展模型，对所述目标专利的专利文本相关字段分词的结果进行同义词扩展。

步骤S104，根据所述目标专利的专利文本相关字段分词的结果以及同义词扩展的结果，构建Elasticsearch的Query，从而基于Elasticsearch得到粗召回的专利数据。

具体地，构建Elasticsearch的Query时，本发明方案主要根据实际的审查习惯，对不同字段赋予不同的权重、对关键词词性赋予不同权重、对分类号进行加权的方式进行构建Query，从而基于Elasticsearch得到粗召回。

步骤S105，计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度。

具体地，计算余弦相似度的文本包括标题、摘要、权利要求以及说明书中的技术领域、背景技术和发明内容。基于TF-IDF法计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度。

步骤S106，根据所述余弦相似度，对粗召回的专利数据中的每条专利文本进行排序，返回最终排序结果。

具体地，可采用下式计算专利数据中的每条专利文本与目标专利的最终相似度，根据所述最终相似度返回最终排序结果：

（余弦相似度 / 余弦最高相似度）* n + （es_score / es最高score）* （1-n），其中，0<=n<=1。此公式采用加权平均的方式，对粗召回排序结果（es_score即为粗召回的专利数据中的每条专利文本的打分的打分）和二次排序结果（即粗召回每条数据的余弦相似度）进行计算最终相似度。采用该公式计算每条数据的最终相似度，可以灵活利用粗召回排序以及余弦相似度排序的结果，并调整n值进行测试优化。经过测试得到n=0.4排序效果最优。

其中，如图2所示，所述同义词扩展模型通过以下方式训练得到：

步骤S201，获取样本专利文档。

步骤S202，按照专利文档结构，对所述样本专利文档拆分数据字段，所述数据字段包括样本专利文本相关字段和样本专利信息相关字段。

具体地，所述样本专利文本相关字段包括：标题、摘要、权利要求以及说明书中的技术领域、背景技术、发明内容、附图说明和具体实施方式。所述样本专利信息相关字段包括：原始申请号ID、原始公开号ID、申请人、分类号，以及法律状态、同族专利信息和引证信息。专利信息相关字段仅为部分示例，并未完全列出。

步骤S203，将所述样本专利文本相关字段进行分词。

其中，采用jieba分词器对样本专利文本相关字段经过分词，并载入专利全领域词典（约800万词条）。

步骤S204，将所述样本专利文本相关字段分词的结果、所述样本专利信息相关字段存入Elasticsearch，将全部数据字段存入Redis。

本发明采用Elasticsearch作为基础的搜索引擎作为第一次的粗排召回，并使用缓存数据库（Redis）作为全量字段存储以提高检索效率。

步骤S205，基于样本专利文本相关字段分词的结果，使用word2vec训练同义词扩展模型。

如图3所示，为基于本发明提供的一种基于语义检索的智能化专利相似度搜索方法的一种构架设计。

由以上实施例可知，本发明提供的一种基于语义检索的智能化专利相似度搜索方法，通过获取目标专利的专利文本相关字段，对目标专利的专利文本相关字段进行分词，通过预先训练的同义词扩展模型，对目标专利的专利文本相关字段分词的结果进行同义词扩展；根据目标专利的专利文本相关字段分词的结果以及同义词扩展的结果，构建Elasticsearch的Query，从而基于Elasticsearch得到粗召回的专利数据；计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度；根据余弦相似度，对粗召回的专利数据中的每条专利文本进行排序，返回最终排序结果；与现有技术相比，专利相似度搜索的检索效率更高效，专利相似度搜索的召回准确度更高，且同义词扩展模型可以根据增量数据不断优化。

如图4所示，本发明提供一种基于语义检索的智能化专利相似度搜索装置，包括：

获取单元301，用于获取目标专利的专利文本相关字段。

分词单元302，用于对目标专利的专利文本相关字段进行分词。

扩展单元303，用于通过预先训练的同义词扩展模型，对所述目标专利的专利文本相关字段分词的结果进行同义词扩展；其中，所述同义词扩展模型通过以下方式训练得到：获取样本专利文档；按照专利文档结构，对所述样本专利文档拆分数据字段，所述数据字段包括样本专利文本相关字段和样本专利信息相关字段；将所述样本专利文本相关字段进行分词；将所述样本专利文本相关字段分词的结果、所述样本专利信息相关字段存入Elasticsearch，将全部数据字段存入Redis；基于样本专利文本相关字段分词的结果，使用word2vec训练同义词扩展模型。

粗召回单元304，用于根据所述目标专利的专利文本相关字段分词的结果以及同义词扩展的结果，构建Elasticsearch的Query，从而基于Elasticsearch得到粗召回的专利数据。

计算单元305，用于计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度。

排序单元306，用于根据所述余弦相似度，对粗召回的专利数据中的每条专利文本进行排序，返回最终排序结果。

本发明提供的一种基于语义检索的智能化专利相似度搜索装置，采用一种新型的专利相似度检索的方案，通过分词预处理提高专利相似度搜索的检索效率，通过分词词典的优化、同义词扩展模型、粗排、精排等方案提高了专利相似度排序准确度、相似专利召回率。

本发明实施例还提供一种存储介质，本发明实施例还提供一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现本发明提供的基于语义检索的智能化专利相似度搜索方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体（英文：Read-OnlyMemory，简称：ROM）或随机存储记忆体（英文：RandomAccessMemory，简称：RAM）等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于基于语义检索的智能化专利相似度搜索装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种基于语义检索的智能化专利相似度搜索方法，其特征在于，包括：

获取目标专利的专利文本相关字段；

对目标专利的专利文本相关字段进行分词；

2.如权利要求1所述的方法，其特征在于，所述样本专利文本相关字段包括：标题、摘要、权利要求以及说明书中的技术领域、背景技术、发明内容、附图说明和具体实施方式。

3.如权利要求1所述的方法，其特征在于，所述样本专利信息相关字段包括：原始申请号ID、原始公开号ID、申请人、分类号，以及法律状态、同族专利信息和引证信息。

4.如权利要求1所述的方法，其特征在于，对目标专利的专利文本相关字段进行分词的步骤中，采用jieba分词器对目标专利的专利文本相关字段进行分词。

5.如权利要求1所述的方法，其特征在于，基于样本专利文本相关字段分词的结果，使用word2vec训练同义词扩展模型之后，还包括：根据增量数据对同义词扩展模型进行补充训练，从而不断优化同义词扩展模型。

6.如权利要求1所述的方法，其特征在于，计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度的步骤中，计算余弦相似度的文本包括标题、摘要、权利要求以及说明书中的技术领域、背景技术和发明内容。

7.如权利要求1所述的方法，其特征在于，计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度的步骤中，基于TF-IDF法计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度。

8.如权利要求1所述的方法，其特征在于，根据所述余弦相似度，对粗召回的专利数据中的每条专利文本进行排序，返回最终排序结果的步骤中，采用下式计算专利数据中的每条专利文本与目标专利的最终相似度，根据所述最终相似度返回最终排序结果：

9.一种基于语义检索的智能化专利相似度搜索装置，其特征在于，包括：

获取单元，用于获取目标专利的专利文本相关字段；

分词单元，用于对目标专利的专利文本相关字段进行分词；