CN114780690B

CN114780690B - 基于多模态矩阵向量表示的专利文本检索方法及装置

Info

Publication number: CN114780690B
Application number: CN202210694893.9A
Authority: CN
Inventors: 许林; 李一君; 郑倩; 蒋涛; 刘甲甲; 袁建英; 谢昱锐
Original assignee: Shanxi Inspection And Testing Center Shanxi Institute Of Standard Measurement Technology; Chengdu University of Information Technology; Zhengzhou University of Light Industry
Current assignee: Shanxi Inspection And Testing Center Shanxi Institute Of Standard Measurement Technology; Chengdu University of Information Technology; Zhengzhou University of Light Industry
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-09-09
Anticipated expiration: 2042-06-20
Also published as: CN114780690A

Abstract

本发明公开了一种基于多模态矩阵向量表示的专利文本检索方法及装置，根据已有专利数据集，训练得到所有词的词向量集合，可以使得词向量中包含所有关键词的信息，并且通过已有专利数据集训练得到图像向量化表示模型，对专利中的附图进行提取，得到对应附图的图向量，将图向量和词向量相结合，在专利检索时，充分利用专利中的附图包含有大量有用信息，同时满足了当前市场上存在一些以图搜文，或以文搜图，以及以图搜图的检索需求，并且还使得专利检索的结果更加精确。

Description

基于多模态矩阵向量表示的专利文本检索方法及装置

技术领域

本发明涉及文本检索技术领域，具体的说，涉及一种基于多模态矩阵向量表示的专利文本检索方法及装置。

背景技术

传统文本检索通过正则化匹配完成，当用户采用了与文档中关键词语的同义词或相近意思的词语进行检索时，则会检索不到记录。而且，基于LDA主题模型的算法，通过无监督方式对大规模文档语料进行训练，从而能得到每篇文档的主题模型，从而可以完成基于文档主题的检索。

近年来，基于词向量的语义检索技术出现，通过海量文本进行无监督的训练便能获得。word2vec在捕捉词汇之间的词法关系方面能力很强，但是生成的向量在很大程度上无法解释，并且很难表征文档。

而另一方面，LDA可以被很好地被理解，但是不能像word2vec这样对本局部词汇关系进行建模。

现有语义检索通过一个高维向量表示整个文档。当前训练方法中，只有通过求平均、求和、或平方和方式将文档中每个词的词向量联合起来才能获得整个文档的向量表示。这种向量表示对于文档中信息分散，涉及技术较多的无法准确进行表示，而且在不同词向量之前在同一个维度上联合可能还会引起相互抵消的情况，最后得到的向量表示无法包含所有关键词的信息。

此外，专利文本中，除了专利文本外，专利中的附图包含有大量有用信息，因此，当前市场上存在一些以图搜文，或以文搜图，以及以图搜图的检索需求。

发明内容

本发明提供一种基于多模态矩阵向量表示的专利文本检索方法及装置，以使得向量可以包含更多关键词的信息，并且专利矩阵中包含图向量，满足市场上存在一些以图搜文，或以文搜图，以及以图搜图的检索需求。

本发明的具体技术方案如下：

根据本发明的第一技术方案，提供一种基于多模态矩阵向量表示的专利文本检索方法，所述方法包括：基于专利数据集，去除所述专利数据集中的各个专利文本中的停用词，并进行分词得到语料集合，根据所述语料集合确定所有词的词向量集合；根据所有词的词向量集合以及确定的关键词，得到关键词的词向量；向量长度设定为n；提取专利文本中的至少一个主题词，利用所有词的词向量集合得到对应主题词的词向量；利用专利数据集对图像向量化表示模型进行训练：所述图像向量化表示模型包括CNN网络和LSTM网络；将专利附图中的图像利用CNN网络进行编码得到第一编码向量，将图像的文本说明用LSTM网络进行编码得到第二编码向量，将第一编码向量和第二编码向量进行乘积，获得一个矩阵；根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时，表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则，确定训练的损失函数，对所述图像向量化表示模型进行训练；利用训练好的图像向量化表示模型将专利附图中包含的各个图像转化为对应的附图向量，向量长度设定为n；将关键词的词向量、主题词的词向量和附图向量分别按另一维连接在一起，构成一个n行c列的专利矩阵M；c为关键词、主题词和附图的总数；根据检索信息确定检索矩阵S；S的大小为n行q列；度量检索矩阵与每个专利矩阵之间的相似性程度；根据检索矩阵与每个专利矩阵之间的相似性程度，选出相应的专利文本。

根据本发明的第二技术方案，提供一种基于多模态矩阵向量表示的专利文本检索装置，所述装置包括处理器，所述处理器配置为：基于专利数据集，去除所述专利数据集中的各个专利文本中的停用词，并进行分词得到语料集合，根据所述语料集合确定所有词的词向量集合；根据所有词的词向量集合以及确定的关键词，得到关键词的词向量；向量长度设定为n；提取专利文本中的至少一个主题词，利用所有词的词向量集合得到对应主题词的词向量；利用专利数据集对图像向量化表示模型进行训练：所述图像向量化表示模型包括CNN网络和LSTM网络；将专利附图中的图像利用CNN网络进行编码得到第一编码向量，将图像的文本说明用LSTM网络进行编码得到第二编码向量，将第一编码向量和第二编码向量进行乘积，获得一个矩阵；根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时，表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则，确定训练的损失函数，对所述图像向量化表示模型进行训练；利用训练好的图像向量化表示模型将专利附图中包含的各个图像转化为对应的附图向量，向量长度设定为n；将关键词的词向量、主题词的词向量和附图向量分别按另一维连接在一起，构成一个n行c列的专利矩阵M；c为关键词、主题词和附图的总数；根据检索信息确定检索矩阵S；S的大小为n行q列；度量检索矩阵与每个专利矩阵之间的相似性程度；根据检索矩阵与每个专利矩阵之间的相似性程度，选出相应的专利文本。

根据本发明各个实施例公开的一种基于多模态矩阵向量表示的专利文本检索方法及装置，根据已有专利数据集，训练得到所有词的词向量集合，可以使得词向量中包含所有关键词的信息，并且通过已有专利数据集训练得到图像向量化表示模型，对专利中的附图进行提取，得到对应附图的图向量，将图向量和词向量相结合，在专利检索时，充分利用专利中的附图包含有大量有用信息，同时满足了当前市场上存在一些以图搜文，或以文搜图，以及以图搜图的检索需求，并且还使得专利检索的结果更加精确。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了根据本发明实施例的一种基于云边协同计算的姿态分析方法的流程图。

图2示出了根据发明实施例的一种基于多模态矩阵向量表示的专利文本检索方法的图像向量化表示模型的训练流程图。

图3示出了根据发明实施例的一种基于多模态矩阵向量表示的专利文本检索方法的附图向量的提取过程。

图4示出了根据本发明实施例的一种基于多模态矩阵向量表示的专利文本检索方法的专利矩阵M的确定过程。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定发明。

现在结合说明书附图对本发明做进一步的说明。

图1示出了根据本发明实施例的一种基于多模态矩阵向量表示的专利文本检索方法的流程图。本发明实施例提供一种基于多模态矩阵向量表示的专利文本检索方法，如图1所示，所述方法包括：

步骤S100，基于专利数据集，去除所述专利数据集中的各个专利文本中的停用词，并进行分词得到语料集合，根据所述语料集合确定所有词的词向量集合。需要说明的是，所述专利数据集指的是目前已经公布的专利，可以通过国家知识产权局网站或者其他国外的官方网站能够检索到的专利，即包括有国内专利和国外专利。其中，专利包括实用新型、发明以及外观。在进行步骤S100，可以对已有所有公布的专利进行如上操作以确定词向量集合，也可以选择预设数量的公开专利进行操作以确定词向量集合。确定的词向量集合用于对后续提取到的关键词和主题词进行向量转化，本实施例基于大数据，将众多数据均考虑在内，可以使得词向量中包含所有关键词的信息。

步骤S200，根据所有词的词向量集合以及确定的关键词，得到关键词的词向量，向量长度设定为n。需要注意，关键词的确定可以基于现有的关键词提取方法来实现，例如CN111444712A、CN111159389A、CN112818661A、CN106372226A等公布的相关方法，本实施例对具体的关键词的确定方式不作限制。

步骤S300，提取专利文本中的至少一个主题词，利用所有词的词向量集合得到对应主题词的词向量，向量长度设定为n。仅作为示例，如图4所示，利用TF-IDF算法提取专利文本中p个主题词，利用词向量模型W得到每个主题词的词向量。其中，TF-IDF算法是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词。当然，也可以采用其他的提取方法来提取专利文本中的主题词。需要注意，专利文本中的主题词可以从对应专利的专利名称和权利要求主题中进行提取得到。

步骤S400，利用专利数据集对图像向量化表示模型进行训练。

如图2所示，示出了根据发明实施例的一种基于多模态矩阵向量表示的专利文本检索方法的图像向量化表示模型的训练流程图。所述图像向量化表示模型包括CNN网络和LSTM网络；利用专利数据集对图像向量化表示模型进行训练，包括如下步骤：

步骤S401，将专利附图中的图像利用CNN网络进行编码得到第一编码向量；

步骤S402，将图像的文本说明用LSTM网络进行编码得到第二编码向量；

步骤S403，将第一编码向量和第二编码向量进行乘积，获得一个矩阵；

步骤S404，根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时，表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则，确定训练的损失函数，对所述图像向量化表示模型进行训练。

示例性的，如图3所示，将摘要附图中的图像利用CNN网络进行编码得到第一编码向量，然后将专利摘要用LSTM网络进行编码得到第二编码向量，然后将第一编码向量和第二编码向量进行乘积，获得一个矩阵，最后根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时，表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则，确定训练的损失函数，对所述图像向量化表示模型进行训练。得到训练后的图像向量化表示模型可以提取到附图的图向量。需要说明的是，图3所显示的仅仅只是举例，如图4所示，所述专利附图中的图像可以是说明书附图中的任意一个附图。图像的文本说明可以是在说明书中的附图说明部分，找到附图说明部分的方式例如可以是通过关键词“附图说明”以及“具体实施方式”确定要选取的文本片段，然后基于该文本片段进行关键词或特征词提取。当然，上述仅仅只是举例，本发明包括但不限于如上找到图像文本说明的方式。

在一些实施例中，所述确定训练的损失函数为矩阵进行归一化操作后的迹，归一化是将矩阵中所有元素的值变为0到1之间，利用如下公式（2）实现：

（2）

式中，

表示矩阵中的第i个元素，

表示矩阵归一化后的第i个元素，

和

分别表示矩阵元素中的最大值和最小值；

矩阵A的迹记为Tr(A)，如下公式（3）所示：

（3）

式中，k为矩阵的阶数，

为对角线上的元素。

通过如上步骤可以对图像向量化表示模型进行训练，训练后的图像向量化表示模型可以识别专利附图中的各个图像的附图向量，识别方法与训练方法一致。

步骤S500，利用训练好的图像向量化表示模型将专利附图中包含的各个图像转化为对应的附图向量。

步骤S600，将关键词的词向量、主题词的词向量和附图向量分别按另一维连接在一起，构成一个n行c列的专利矩阵M。c为关键词、主题词和附图的总数。所获得的专利矩阵M请参考图4所示。

步骤S700，根据检索信息确定检索矩阵S。S的大小为n行q列；

在一些实施例中，所述检索信息包括检索词、检索句子、检索段落和检索图像中的一种及其组合。例如可以是单独的检索词、检索句子、检索段落和检索图像，还可以是检索词+检索句子/检索段落/检索图像，或者是检索句子+检索图像，或者是检索词+检索句子/检索段落+检索图像等等。其中，检索信息由用户输入得到。

所述根据检索信息确定检索矩阵，包括：若检索信息中存在检索句子或检索段落时，对所述检索句子或检索段落进行分词并提取主题词，利用词向量集合得到对应主题词的词向量；若检索信息中存在检索词，则利用词向量集合得到对应检索词的词向量；若检索信息中存在检索图像，则利用图像向量化表示模型得到对应检索图像的图向量；将得到的词向量和图向量连接在一起组成检索矩阵。

具体来说，本实施例可以对用户输入的句子或段落进行提取，得到相应的主题词，以此转换成对应的词向量。在存在图文共存的检索信息时，本实施例会获得一个具有词向量和图向量的检索矩阵。

步骤S800，度量检索矩阵与每个专利矩阵之间的相似性程度。

在一些实施例中，通过如下公式（1）度量检索矩阵与每个专利矩阵之间的相似性程度：

（1）

其中，d(S,M)表示检索矩阵S与专利矩阵M之间的相似性程度，

，I为单位矩阵，e为全为1的向量，上标T表示矩阵的转置；P表示矩阵S中行向量的格拉姆矩阵，

；Q表示矩阵M中行向量的格拉姆矩阵，

；Tr表示矩阵的迹。d值越大则表示两者越接近。

步骤S900，根据检索矩阵与每个专利矩阵之间的相似性程度，选出相应的专利文本。最终输出检索结果，检索结果至少包括有检索出来的专利。在具体实施时，可以预设一个阈值，当检索矩阵与专利矩阵之间的相似性程度大于该阈值时，则标记该专利矩阵所对应的专利，否则就计算与下一个专利矩阵之间的相似性程度。通过上述循环后，直到与所有的专利矩阵的相似性程度都计算完，将标记的专利作为检索结果输出。在输出的检索结果中，可以通过相似性程度来进行排序，按照相似度程度由高到低排列显示对应专利。

在一些实施例中，所述度量检索矩阵与每个专利矩阵之间的相似性程度，包括：根据检索词确定分类号，并度量检索矩阵与在确定的分类号下所对应的各个专利进行矩阵相似度计算。以此既提高检索速度又提高命中率。

本发明实施例还提供一种基于多模态矩阵向量表示的专利文本检索装置，所述装置包括处理器，所述处理器配置为：基于专利数据集，去除所述专利数据集中的各个专利文本中的停用词，并进行分词得到语料集合，根据所述语料集合确定所有词的词向量集合；根据所有词的词向量集合以及确定的关键词，得到关键词的词向量；向量长度设定为n；提取专利文本中的至少一个主题词，利用所有词的词向量集合得到对应主题词的词向量；利用专利数据集对图像向量化表示模型进行训练：所述图像向量化表示模型包括CNN网络和LSTM网络；将专利附图中的图像利用CNN网络进行编码得到第一编码向量，将图像的文本说明用LSTM网络进行编码得到第二编码向量，将第一编码向量和第二编码向量进行乘积，获得一个矩阵；根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时，表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则，确定训练的损失函数，对所述图像向量化表示模型进行训练；利用训练好的图像向量化表示模型将专利附图中包含的各个图像转化为对应的附图向量，向量长度设定为n；将关键词的词向量、主题词的词向量和附图向量分别按另一维连接在一起，构成一个n行c列的专利矩阵M；c为关键词、主题词和附图的总数；根据检索信息确定检索矩阵S；S的大小为n行q列；度量检索矩阵与每个专利矩阵之间的相似性程度；根据检索矩阵与每个专利矩阵之间的相似性程度，选出相应的专利文本。

需要说明的是，本发明实施例中所述的处理器可以是包括一个以上通用处理设备的处理设备，诸如微处理器、中央处理单元（CPU）、图形处理单元（GPU）等。更具体地，处理器可以是复杂指令集计算（CISC）微处理器、精简指令集计算（RISC）微处理器、超长指令字（VLIW）微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。处理器还可以是一个以上专用处理设备，诸如专用集成电路（ASIC）、现场可编程门阵列（FPGA）、数字信号处理器（DSP）、片上系统（SoC）等。

在一些实施例中，所述检索信息包括检索词、检索句子、检索段落和检索图像中的一种及其组合，所述处理器被进一步配置为：若检索信息中存在检索句子或检索段落时，对所述检索句子或检索段落进行分词并提取主题词，利用词向量集合得到对应主题词的词向量；若检索信息中存在检索词，则利用词向量集合得到对应检索词的词向量；若检索信息中存在检索图像，则利用图像向量化表示模型得到对应检索图像的图向量；将得到的词向量和图向量连接在一起组成检索矩阵。

在一些实施例中，所述处理器被进一步配置为：通过如下公式（1）度量检索矩阵与每个专利矩阵之间的相似性程度：

（1）

其中，d(S,M)表示检索矩阵S与专利矩阵M之间的相似性程度，

；Q表示矩阵M中行向量的格拉姆矩阵，

；Tr表示矩阵的迹。

在一些实施例中，所述处理器被进一步配置为：所述确定训练的损失函数为矩阵进行归一化操作后的迹，归一化是将矩阵中所有元素的值变为0到1之间，利用如下公式（2）实现：

（2）

式中，

表示矩阵中的第i个元素，

表示矩阵归一化后的第i个元素，

和

分别表示矩阵元素中的最大值和最小值；

矩阵A的迹记为Tr(A)，如下公式（3）所示：

（3）

式中，k为矩阵的阶数，

为对角线上的元素。

在一些实施例中，所述处理器被进一步配置为：根据检索词确定分类号，并度量检索矩阵与在确定的分类号下所对应的各个专利进行矩阵相似度计算。

本发明实施例所提供的一种基于多模态矩阵向量表示的专利文本检索装置与在前阐述的方法的技术效果基本一致，此处不赘述。

下面本发明实施例将结合具体的实施案例来进一步说明本发明的可行性和进步性。其中，如下实施案例所涉及到的算法或者模型，如无特殊描述，均为现有的算法和模型。

第一步，搜集500万发明专利数据，去除发明摘要、发明内容和权利要求中的停用词，利用分词算法完成分词，然后使用BOW算法，将每个词表示成256维的词向量，通过在500万份发明专利数据上训练得到一份涵盖绝大多数词汇的词向量表示模型W。

第二步，提取每件专利的摘要附图和摘要，说明书中的附图及对应说明。每张图像与文本说明一一对应，将图像输入一个多层的CNN网络，本实施例中采用resnet50网络，最后一层为去掉分类层，输出256维向量。同时，将文本先进行分词，然后利用词向量模型C得到每个词的词向量表示，然后输入进LSTM网络，最后输出一个256维的向量。通过batch进行训练，batch的大小为256，即每次用256张图和对应的文本进行训练，如成的文本向量和图像向量分别两两相乘，最后构成256*256的矩阵，最后矩阵的主对角元素要远大于非对角元素，其矩阵应该满足严格对角占优矩阵的性质。因此，其损失函数为矩阵进行归一化操作后的迹，其中，归一化是将矩阵中所有元素的值变为0到1之间，利用如下公式（2）：

（2）

式中，

表示矩阵中的第i个元素，

表示矩阵归一化后的第i个元素，

和

分别表示矩阵元素中的最大值和最小值。矩阵A的迹记为Tr(A)，定义为：

（3）

式中k为矩阵的阶数，

为对角线上的元素。

最后，通过ADMM算法进行训练，得到图像向量化表示模型R。

第三步，将专利文本利用TF-IDF算法提取K个主题词，在本实例中，K选取为8。

第四步，利用词向量模型W，将专利文本中的关键词和主题词转化为词向量，将专利附图转化为向量表示，构造成矩阵M。

第五步，在数据库建立索引，并存储每件专利的M和Q，其中

；

第六步，对于用户搜索时，输入的检索词转化成词向量；如果是输入的句子或段落，则进行分词并提取主题操作，并用词向量模型W得到每个词和词向量，对于图像输入；同样的方法转化成向量表示，然后，将这些向量连接在一起构成n行k列的检索矩阵S。

采用The Hilbert-Schmidt Independence Criterion (HSIC)进行度量检索矩阵与每个专利矩阵之间的相似性程度，

（1）

其中，

；Q表示矩阵M中行向量的格拉姆矩阵，

；Tr表示矩阵的迹。这里，d的值越大表示两者越接近。

最后，通过排序算法选出语义最接近的专利文本，返回检索结果。

优选地，可以在数据库中存储专利的分类号，对用户输入的检索词进行分类，然后在该分类号下对每件专利进行矩阵相似度计算，这样既提高检索速度又提高命中率。

以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于多模态矩阵向量表示的专利文本检索方法，其特征在于，所述方法包括：

基于专利数据集，去除所述专利数据集中的各个专利文本中的停用词，并进行分词得到语料集合，根据所述语料集合确定所有词的词向量集合；

根据所有词的词向量集合以及确定的关键词，得到关键词的词向量；向量长度设定为n；

提取专利文本中的至少一个主题词，利用所有词的词向量集合得到对应主题词的词向量；

利用专利数据集对图像向量化表示模型进行训练：

所述图像向量化表示模型包括CNN网络和LSTM网络；将专利附图中的图像利用CNN网络进行编码得到第一编码向量，将图像的文本说明用LSTM网络进行编码得到第二编码向量，将第一编码向量和第二编码向量进行乘积，获得一个矩阵；根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时，表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则，确定训练的损失函数，对所述图像向量化表示模型进行训练；

利用训练好的图像向量化表示模型将专利附图中包含的各个图像转化为对应的附图向量；向量长度设定为n；

将关键词的词向量、主题词的词向量和附图向量分别按另一维连接在一起，构成一个n行c列的专利矩阵M；c为关键词、主题词和附图的总数；

根据检索信息确定检索矩阵S；S的大小为n行q列；

度量检索矩阵与每个专利矩阵之间的相似性程度；

根据检索矩阵与每个专利矩阵之间的相似性程度，选出相应的专利文本。

2.根据权利要求1所述的方法，其特征在于，所述检索信息包括检索词、检索句子、检索段落和检索图像中的一种及其组合，所述根据检索信息确定检索矩阵，包括：

若检索信息中存在检索句子或检索段落时，对所述检索句子或检索段落进行分词并提取主题词，利用词向量集合得到对应主题词的词向量；

若检索信息中存在检索词，则利用词向量集合得到对应检索词的词向量；

若检索信息中存在检索图像，则利用图像向量化表示模型得到对应检索图像的图向量；

将得到的词向量和图向量连接在一起组成检索矩阵。

3.根据权利要求1所述的方法，其特征在于，通过如下公式（1）度量检索矩阵与每个专利矩阵之间的相似性程度：