CN114780690A - 基于多模态矩阵向量表示的专利文本检索方法及装置 - Google Patents

基于多模态矩阵向量表示的专利文本检索方法及装置 Download PDF

Info

Publication number
CN114780690A
CN114780690A CN202210694893.9A CN202210694893A CN114780690A CN 114780690 A CN114780690 A CN 114780690A CN 202210694893 A CN202210694893 A CN 202210694893A CN 114780690 A CN114780690 A CN 114780690A
Authority
CN
China
Prior art keywords
matrix
vector
word
image
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210694893.9A
Other languages
English (en)
Other versions
CN114780690B (zh
Inventor
许林
李一君
郑倩
蒋涛
刘甲甲
袁建英
谢昱锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Inspection And Testing Center Shanxi Institute Of Standard Measurement Technology
Chengdu University of Information Technology
Zhengzhou University of Light Industry
Original Assignee
Shanxi Inspection And Testing Center Shanxi Institute Of Standard Measurement Technology
Chengdu University of Information Technology
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Inspection And Testing Center Shanxi Institute Of Standard Measurement Technology, Chengdu University of Information Technology, Zhengzhou University of Light Industry filed Critical Shanxi Inspection And Testing Center Shanxi Institute Of Standard Measurement Technology
Priority to CN202210694893.9A priority Critical patent/CN114780690B/zh
Publication of CN114780690A publication Critical patent/CN114780690A/zh
Application granted granted Critical
Publication of CN114780690B publication Critical patent/CN114780690B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多模态矩阵向量表示的专利文本检索方法及装置,根据已有专利数据集,训练得到所有词的词向量集合,可以使得词向量中包含所有关键词的信息,并且通过已有专利数据集训练得到图像向量化表示模型,对专利中的附图进行提取,得到对应附图的图向量,将图向量和词向量相结合,在专利检索时,充分利用专利中的附图包含有大量有用信息,同时满足了当前市场上存在一些以图搜文,或以文搜图,以及以图搜图的检索需求,并且还使得专利检索的结果更加精确。

Description

基于多模态矩阵向量表示的专利文本检索方法及装置
技术领域
本发明涉及文本检索技术领域,具体的说,涉及一种基于多模态矩阵向量表示的专利文本检索方法及装置。
背景技术
传统文本检索通过正则化匹配完成,当用户采用了与文档中关键词语的同义词或相近意思的词语进行检索时,则会检索不到记录。而且,基于LDA主题模型的算法,通过无监督方式对大规模文档语料进行训练,从而能得到每篇文档的主题模型,从而可以完成基于文档主题的检索。
近年来,基于词向量的语义检索技术出现,通过海量文本进行无监督的训练便能获得。word2vec在捕捉词汇之间的词法关系方面能力很强,但是生成的向量在很大程度上无法解释,并且很难表征文档。
而另一方面,LDA可以被很好地被理解,但是不能像word2vec这样对本局部词汇关系进行建模。
现有语义检索通过一个高维向量表示整个文档。当前训练方法中,只有通过求平均、求和、或平方和方式将文档中每个词的词向量联合起来才能获得整个文档的向量表示。这种向量表示对于文档中信息分散,涉及技术较多的无法准确进行表示,而且在不同词向量之前在同一个维度上联合可能还会引起相互抵消的情况,最后得到的向量表示无法包含所有关键词的信息。
此外,专利文本中,除了专利文本外,专利中的附图包含有大量有用信息,因此,当前市场上存在一些以图搜文,或以文搜图,以及以图搜图的检索需求。
发明内容
本发明提供一种基于多模态矩阵向量表示的专利文本检索方法及装置,以使得向量可以包含更多关键词的信息,并且专利矩阵中包含图向量,满足市场上存在一些以图搜文,或以文搜图,以及以图搜图的检索需求。
本发明的具体技术方案如下:
根据本发明的第一技术方案,提供一种基于多模态矩阵向量表示的专利文本检索方法,所述方法包括:基于专利数据集,去除所述专利数据集中的各个专利文本中的停用词,并进行分词得到语料集合,根据所述语料集合确定所有词的词向量集合;根据所有词的词向量集合以及确定的关键词,得到关键词的词向量;向量长度设定为n;提取专利文本中的至少一个主题词,利用所有词的词向量集合得到对应主题词的词向量;利用专利数据集对图像向量化表示模型进行训练:所述图像向量化表示模型包括CNN网络和LSTM网络;将专利附图中的图像利用CNN网络进行编码得到第一编码向量,将图像的文本说明用LSTM网络进行编码得到第二编码向量,将第一编码向量和第二编码向量进行乘积,获得一个矩阵;根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时,表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则,确定训练的损失函数,对所述图像向量化表示模型进行训练;利用训练好的图像向量化表示模型将专利附图中包含的各个图像转化为对应的附图向量,向量长度设定为n;将关键词的词向量、主题词的词向量和附图向量分别按另一维连接在一起,构成一个n行c列的专利矩阵M;c为关键词、主题词和附图的总数;根据检索信息确定检索矩阵SS的大小为n行q列;度量检索矩阵与每个专利矩阵之间的相似性程度;根据检索矩阵与每个专利矩阵之间的相似性程度,选出相应的专利文本。
根据本发明的第二技术方案,提供一种基于多模态矩阵向量表示的专利文本检索装置,所述装置包括处理器,所述处理器配置为:基于专利数据集,去除所述专利数据集中的各个专利文本中的停用词,并进行分词得到语料集合,根据所述语料集合确定所有词的词向量集合;根据所有词的词向量集合以及确定的关键词,得到关键词的词向量;向量长度设定为n;提取专利文本中的至少一个主题词,利用所有词的词向量集合得到对应主题词的词向量;利用专利数据集对图像向量化表示模型进行训练:所述图像向量化表示模型包括CNN网络和LSTM网络;将专利附图中的图像利用CNN网络进行编码得到第一编码向量,将图像的文本说明用LSTM网络进行编码得到第二编码向量,将第一编码向量和第二编码向量进行乘积,获得一个矩阵;根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时,表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则,确定训练的损失函数,对所述图像向量化表示模型进行训练;利用训练好的图像向量化表示模型将专利附图中包含的各个图像转化为对应的附图向量,向量长度设定为n;将关键词的词向量、主题词的词向量和附图向量分别按另一维连接在一起,构成一个n行c列的专利矩阵M;c为关键词、主题词和附图的总数;根据检索信息确定检索矩阵SS的大小为n行q列;度量检索矩阵与每个专利矩阵之间的相似性程度;根据检索矩阵与每个专利矩阵之间的相似性程度,选出相应的专利文本。
根据本发明各个实施例公开的一种基于多模态矩阵向量表示的专利文本检索方法及装置,根据已有专利数据集,训练得到所有词的词向量集合,可以使得词向量中包含所有关键词的信息,并且通过已有专利数据集训练得到图像向量化表示模型,对专利中的附图进行提取,得到对应附图的图向量,将图向量和词向量相结合,在专利检索时,充分利用专利中的附图包含有大量有用信息,同时满足了当前市场上存在一些以图搜文,或以文搜图,以及以图搜图的检索需求,并且还使得专利检索的结果更加精确。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了根据本发明实施例的一种基于云边协同计算的姿态分析方法的流程图。
图2示出了根据发明实施例的一种基于多模态矩阵向量表示的专利文本检索方法的图像向量化表示模型的训练流程图。
图3示出了根据发明实施例的一种基于多模态矩阵向量表示的专利文本检索方法的附图向量的提取过程。
图4示出了根据本发明实施例的一种基于多模态矩阵向量表示的专利文本检索方法的专利矩阵M的确定过程。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
现在结合说明书附图对本发明做进一步的说明。
图1示出了根据本发明实施例的一种基于多模态矩阵向量表示的专利文本检索方法的流程图。本发明实施例提供一种基于多模态矩阵向量表示的专利文本检索方法,如图1所示,所述方法包括:
步骤S100,基于专利数据集,去除所述专利数据集中的各个专利文本中的停用词,并进行分词得到语料集合,根据所述语料集合确定所有词的词向量集合。需要说明的是,所述专利数据集指的是目前已经公布的专利,可以通过国家知识产权局网站或者其他国外的官方网站能够检索到的专利,即包括有国内专利和国外专利。其中,专利包括实用新型、发明以及外观。在进行步骤S100,可以对已有所有公布的专利进行如上操作以确定词向量集合,也可以选择预设数量的公开专利进行操作以确定词向量集合。确定的词向量集合用于对后续提取到的关键词和主题词进行向量转化,本实施例基于大数据,将众多数据均考虑在内,可以使得词向量中包含所有关键词的信息。
步骤S200,根据所有词的词向量集合以及确定的关键词,得到关键词的词向量,向量长度设定为n。需要注意,关键词的确定可以基于现有的关键词提取方法来实现,例如CN111444712A、CN111159389A、CN112818661A、CN106372226A等公布的相关方法,本实施例对具体的关键词的确定方式不作限制。
步骤S300,提取专利文本中的至少一个主题词,利用所有词的词向量集合得到对应主题词的词向量,向量长度设定为n。仅作为示例,如图4所示,利用TF-IDF算法提取专利文本中p个主题词,利用词向量模型W得到每个主题词的词向量。其中,TF-IDF算法是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词。当然,也可以采用其他的提取方法来提取专利文本中的主题词。需要注意,专利文本中的主题词可以从对应专利的专利名称和权利要求主题中进行提取得到。
步骤S400,利用专利数据集对图像向量化表示模型进行训练。
如图2所示,示出了根据发明实施例的一种基于多模态矩阵向量表示的专利文本检索方法的图像向量化表示模型的训练流程图。所述图像向量化表示模型包括CNN网络和LSTM网络;利用专利数据集对图像向量化表示模型进行训练,包括如下步骤:
步骤S401,将专利附图中的图像利用CNN网络进行编码得到第一编码向量;
步骤S402,将图像的文本说明用LSTM网络进行编码得到第二编码向量;
步骤S403,将第一编码向量和第二编码向量进行乘积,获得一个矩阵;
步骤S404,根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时,表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则,确定训练的损失函数,对所述图像向量化表示模型进行训练。
示例性的,如图3所示,将摘要附图中的图像利用CNN网络进行编码得到第一编码向量,然后将专利摘要用LSTM网络进行编码得到第二编码向量,然后将第一编码向量和第二编码向量进行乘积,获得一个矩阵,最后根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时,表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则,确定训练的损失函数,对所述图像向量化表示模型进行训练。得到训练后的图像向量化表示模型可以提取到附图的图向量。需要说明的是,图3所显示的仅仅只是举例,如图4所示,所述专利附图中的图像可以是说明书附图中的任意一个附图。图像的文本说明可以是在说明书中的附图说明部分,找到附图说明部分的方式例如可以是通过关键词“附图说明”以及“具体实施方式”确定要选取的文本片段,然后基于该文本片段进行关键词或特征词提取。当然,上述仅仅只是举例,本发明包括但不限于如上找到图像文本说明的方式。
在一些实施例中,所述确定训练的损失函数为矩阵进行归一化操作后的迹,归一化是将矩阵中所有元素的值变为0到1之间,利用如下公式(2)实现:
Figure 121450DEST_PATH_IMAGE001
(2)
式中,
Figure 722195DEST_PATH_IMAGE002
表示矩阵中的第i个元素,
Figure 982275DEST_PATH_IMAGE003
表示矩阵归一化后的第i个元素,
Figure 592248DEST_PATH_IMAGE004
Figure 621384DEST_PATH_IMAGE005
分别表示矩阵元素中的最大值和最小值;
矩阵A的迹记为Tr(A),如下公式(3)所示:
Figure 393031DEST_PATH_IMAGE006
(3)
式中,k为矩阵的阶数,
Figure 140407DEST_PATH_IMAGE007
为对角线上的元素。
通过如上步骤可以对图像向量化表示模型进行训练,训练后的图像向量化表示模型可以识别专利附图中的各个图像的附图向量,识别方法与训练方法一致。
步骤S500,利用训练好的图像向量化表示模型将专利附图中包含的各个图像转化为对应的附图向量。
步骤S600,将关键词的词向量、主题词的词向量和附图向量分别按另一维连接在一起,构成一个n行c列的专利矩阵M。c为关键词、主题词和附图的总数。所获得的专利矩阵M请参考图4所示。
步骤S700,根据检索信息确定检索矩阵SS的大小为n行q列;
在一些实施例中,所述检索信息包括检索词、检索句子、检索段落和检索图像中的一种及其组合。例如可以是单独的检索词、检索句子、检索段落和检索图像,还可以是检索词+检索句子/检索段落/检索图像,或者是检索句子+检索图像,或者是检索词+检索句子/检索段落+检索图像等等。其中,检索信息由用户输入得到。
所述根据检索信息确定检索矩阵,包括:若检索信息中存在检索句子或检索段落时,对所述检索句子或检索段落进行分词并提取主题词,利用词向量集合得到对应主题词的词向量;若检索信息中存在检索词,则利用词向量集合得到对应检索词的词向量;若检索信息中存在检索图像,则利用图像向量化表示模型得到对应检索图像的图向量;将得到的词向量和图向量连接在一起组成检索矩阵。
具体来说,本实施例可以对用户输入的句子或段落进行提取,得到相应的主题词,以此转换成对应的词向量。在存在图文共存的检索信息时,本实施例会获得一个具有词向量和图向量的检索矩阵。
步骤S800,度量检索矩阵与每个专利矩阵之间的相似性程度。
在一些实施例中,通过如下公式(1)度量检索矩阵与每个专利矩阵之间的相似性程度:
Figure 554071DEST_PATH_IMAGE008
(1)
其中,d(S,M)表示检索矩阵S与专利矩阵M之间的相似性程度,
Figure 437713DEST_PATH_IMAGE009
I为单 位矩阵,e为全为1的向量,上标T表示矩阵的转置;P表示矩阵S中行向量的格拉姆矩阵,
Figure 645841DEST_PATH_IMAGE010
Q表示矩阵M中行向量的格拉姆矩阵,
Figure 614934DEST_PATH_IMAGE011
;Tr表示矩阵的迹。d值越大则表示 两者越接近。
步骤S900,根据检索矩阵与每个专利矩阵之间的相似性程度,选出相应的专利文本。最终输出检索结果,检索结果至少包括有检索出来的专利。在具体实施时,可以预设一个阈值,当检索矩阵与专利矩阵之间的相似性程度大于该阈值时,则标记该专利矩阵所对应的专利,否则就计算与下一个专利矩阵之间的相似性程度。通过上述循环后,直到与所有的专利矩阵的相似性程度都计算完,将标记的专利作为检索结果输出。在输出的检索结果中,可以通过相似性程度来进行排序,按照相似度程度由高到低排列显示对应专利。
在一些实施例中,所述度量检索矩阵与每个专利矩阵之间的相似性程度,包括:根据检索词确定分类号,并度量检索矩阵与在确定的分类号下所对应的各个专利进行矩阵相似度计算。以此既提高检索速度又提高命中率。
本发明实施例还提供一种基于多模态矩阵向量表示的专利文本检索装置,所述装置包括处理器,所述处理器配置为:基于专利数据集,去除所述专利数据集中的各个专利文本中的停用词,并进行分词得到语料集合,根据所述语料集合确定所有词的词向量集合;根据所有词的词向量集合以及确定的关键词,得到关键词的词向量;向量长度设定为n;提取专利文本中的至少一个主题词,利用所有词的词向量集合得到对应主题词的词向量;利用专利数据集对图像向量化表示模型进行训练:所述图像向量化表示模型包括CNN网络和LSTM网络;将专利附图中的图像利用CNN网络进行编码得到第一编码向量,将图像的文本说明用LSTM网络进行编码得到第二编码向量,将第一编码向量和第二编码向量进行乘积,获得一个矩阵;根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时,表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则,确定训练的损失函数,对所述图像向量化表示模型进行训练;利用训练好的图像向量化表示模型将专利附图中包含的各个图像转化为对应的附图向量,向量长度设定为n;将关键词的词向量、主题词的词向量和附图向量分别按另一维连接在一起,构成一个n行c列的专利矩阵M;c为关键词、主题词和附图的总数;根据检索信息确定检索矩阵SS的大小为n行q列;度量检索矩阵与每个专利矩阵之间的相似性程度;根据检索矩阵与每个专利矩阵之间的相似性程度,选出相应的专利文本。
需要说明的是,本发明实施例中所述的处理器可以是包括一个以上通用处理设备的处理设备,诸如微处理器、中央处理单元(CPU)、图形处理单元(GPU)等。更具体地,处理器可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。处理器还可以是一个以上专用处理设备,诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等。
在一些实施例中,所述检索信息包括检索词、检索句子、检索段落和检索图像中的一种及其组合,所述处理器被进一步配置为:若检索信息中存在检索句子或检索段落时,对所述检索句子或检索段落进行分词并提取主题词,利用词向量集合得到对应主题词的词向量;若检索信息中存在检索词,则利用词向量集合得到对应检索词的词向量;若检索信息中存在检索图像,则利用图像向量化表示模型得到对应检索图像的图向量;将得到的词向量和图向量连接在一起组成检索矩阵。
在一些实施例中,所述处理器被进一步配置为:通过如下公式(1)度量检索矩阵与每个专利矩阵之间的相似性程度:
Figure 301130DEST_PATH_IMAGE012
(1)
其中,d(S,M)表示检索矩阵S与专利矩阵M之间的相似性程度,
Figure 304858DEST_PATH_IMAGE013
I为单位 矩阵,e为全为1的向量,上标T表示矩阵的转置;P表示矩阵S中行向量的格拉姆矩阵,
Figure 683887DEST_PATH_IMAGE014
Q表示矩阵M中行向量的格拉姆矩阵,
Figure 140276DEST_PATH_IMAGE015
;Tr表示矩阵的迹。
在一些实施例中,所述处理器被进一步配置为:所述确定训练的损失函数为矩阵进行归一化操作后的迹,归一化是将矩阵中所有元素的值变为0到1之间,利用如下公式(2)实现:
Figure 630163DEST_PATH_IMAGE016
(2)
式中,
Figure 488398DEST_PATH_IMAGE017
表示矩阵中的第i个元素,
Figure 38328DEST_PATH_IMAGE018
表示矩阵归一化后的第i个元素,
Figure 982013DEST_PATH_IMAGE019
Figure 275591DEST_PATH_IMAGE020
分别表示矩阵元素中的最大值和最小值;
矩阵A的迹记为Tr(A),如下公式(3)所示:
Figure 722753DEST_PATH_IMAGE021
(3)
式中,k为矩阵的阶数,
Figure 709164DEST_PATH_IMAGE022
为对角线上的元素。
在一些实施例中,所述处理器被进一步配置为:根据检索词确定分类号,并度量检索矩阵与在确定的分类号下所对应的各个专利进行矩阵相似度计算。
本发明实施例所提供的一种基于多模态矩阵向量表示的专利文本检索装置与在前阐述的方法的技术效果基本一致,此处不赘述。
下面本发明实施例将结合具体的实施案例来进一步说明本发明的可行性和进步性。其中,如下实施案例所涉及到的算法或者模型,如无特殊描述,均为现有的算法和模型。
第一步,搜集500万发明专利数据,去除发明摘要、发明内容和权利要求中的停用词,利用分词算法完成分词,然后使用BOW算法,将每个词表示成256维的词向量,通过在500万份发明专利数据上训练得到一份涵盖绝大多数词汇的词向量表示模型W。
第二步,提取每件专利的摘要附图和摘要,说明书中的附图及对应说明。每张图像与文本说明一一对应,将图像输入一个多层的CNN网络,本实施例中采用resnet50网络,最后一层为去掉分类层,输出256维向量。同时,将文本先进行分词,然后利用词向量模型C得到每个词的词向量表示 ,然后输入进LSTM网络,最后输出一个256维的向量。通过batch进行训练,batch的大小为256,即每次用256张图和对应的文本进行训练,如成的文本向量和图像向量分别两两相乘,最后构成256*256的矩阵,最后矩阵的主对角元素要远大于非对角元素,其矩阵应该满足严格对角占优矩阵的性质。因此,其损失函数为矩阵进行归一化操作后的迹,其中,归一化是将矩阵中所有元素的值变为0到1之间,利用如下公式(2):
Figure 140145DEST_PATH_IMAGE023
(2)
式中,
Figure 971835DEST_PATH_IMAGE024
表示矩阵中的第i个元素,
Figure 539082DEST_PATH_IMAGE025
表示矩阵归一化后的第i个元素,
Figure 713972DEST_PATH_IMAGE026
Figure 632250DEST_PATH_IMAGE027
分别表示矩阵元素中的最大值和最小值。矩阵A的迹记为Tr(A),定义为:
Figure 2051DEST_PATH_IMAGE028
(3)
式中k为矩阵的阶数,
Figure 689384DEST_PATH_IMAGE029
为对角线上的元素。
最后,通过ADMM算法进行训练,得到图像向量化表示模型R。
第三步,将专利文本利用TF-IDF算法提取K个主题词,在本实例中,K选取为8。
第四步,利用词向量模型W,将专利文本中的关键词和主题词转化为词向量,将专利附图转化为向量表示,构造成矩阵M。
第五步,在数据库建立索引,并存储每件专利的M和Q,其中
Figure 17598DEST_PATH_IMAGE030
第六步,对于用户搜索时,输入的检索词转化成词向量;如果是输入的句子或段落,则进行分词并提取主题操作,并用词向量模型W得到每个词和词向量,对于图像输入;同样的方法转化成向量表示,然后,将这些向量连接在一起构成n行k列的检索矩阵S。
采用The Hilbert-Schmidt Independence Criterion (HSIC)进行度量检索矩阵 与每个专利矩阵之间的相似性程度,
Figure 892013DEST_PATH_IMAGE031
(1)
其中,
Figure 596663DEST_PATH_IMAGE032
I为单位矩阵,e为全为1的向量,上标T表示矩阵的转置;P表示 矩阵S中行向量的格拉姆矩阵,
Figure 138503DEST_PATH_IMAGE033
Q表示矩阵M中行向量的格拉姆矩阵,
Figure 372038DEST_PATH_IMAGE034
Tr 表示矩阵的迹。这里,d的值越大表示两者越接近。
最后,通过排序算法选出语义最接近的专利文本,返回检索结果。
优选地,可以在数据库中存储专利的分类号,对用户输入的检索词进行分类,然后在该分类号下对每件专利进行矩阵相似度计算,这样既提高检索速度又提高命中率。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种基于多模态矩阵向量表示的专利文本检索方法,其特征在于,所述方法包括:
基于专利数据集,去除所述专利数据集中的各个专利文本中的停用词,并进行分词得到语料集合,根据所述语料集合确定所有词的词向量集合;
根据所有词的词向量集合以及确定的关键词,得到关键词的词向量;向量长度设定为n;
提取专利文本中的至少一个主题词,利用所有词的词向量集合得到对应主题词的词向量;
利用专利数据集对图像向量化表示模型进行训练:
所述图像向量化表示模型包括CNN网络和LSTM网络;将专利附图中的图像利用CNN网络进行编码得到第一编码向量,将图像的文本说明用LSTM网络进行编码得到第二编码向量,将第一编码向量和第二编码向量进行乘积,获得一个矩阵;根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时,表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则,确定训练的损失函数,对所述图像向量化表示模型进行训练;
利用训练好的图像向量化表示模型将专利附图中包含的各个图像转化为对应的附图向量;向量长度设定为n;
将关键词的词向量、主题词的词向量和附图向量分别按另一维连接在一起,构成一个n行c列的专利矩阵M;c为关键词、主题词和附图的总数;
根据检索信息确定检索矩阵SS的大小为n行q列;
度量检索矩阵与每个专利矩阵之间的相似性程度;
根据检索矩阵与每个专利矩阵之间的相似性程度,选出相应的专利文本。
2.根据权利要求1所述的方法,其特征在于,所述检索信息包括检索词、检索句子、检索段落和检索图像中的一种及其组合,所述根据检索信息确定检索矩阵,包括:
若检索信息中存在检索句子或检索段落时,对所述检索句子或检索段落进行分词并提取主题词,利用词向量集合得到对应主题词的词向量;
若检索信息中存在检索词,则利用词向量集合得到对应检索词的词向量;
若检索信息中存在检索图像,则利用图像向量化表示模型得到对应检索图像的图向量;
将得到的词向量和图向量连接在一起组成检索矩阵。
3.根据权利要求1所述的方法,其特征在于,通过如下公式(1)度量检索矩阵与每个专利矩阵之间的相似性程度:
Figure 751400DEST_PATH_IMAGE001
(1)
其中,
Figure 199699DEST_PATH_IMAGE003
表示检索矩阵S与专利矩阵M之间的相似性程度,
Figure 635228DEST_PATH_IMAGE004
I为单位矩 阵,e为全为1的向量,上标T表示矩阵的转置;P表示矩阵S中行向量的格拉姆矩阵,
Figure 764858DEST_PATH_IMAGE005
Q表示矩阵M中行向量的格拉姆矩阵,
Figure 782493DEST_PATH_IMAGE006
;Tr表示矩阵的迹。
4.根据权利要求1所述的方法,其特征在于,所述确定训练的损失函数为矩阵进行归一化操作后的迹,归一化是将矩阵中所有元素的值变为0到1之间,利用如下公式(2)实现:
Figure 339376DEST_PATH_IMAGE007
(2)
式中,
Figure 137568DEST_PATH_IMAGE009
表示矩阵中的第i个元素,
Figure 992260DEST_PATH_IMAGE008
表示矩阵归一化后的第i个元素,
Figure 457877DEST_PATH_IMAGE010
Figure 857765DEST_PATH_IMAGE012
分别 表示矩阵元素中的最大值和最小值;
矩阵A的迹记为Tr(A),如下公式(3)所示:
Figure 143253DEST_PATH_IMAGE013
(3)
式中,k为矩阵的阶数,
Figure 614686DEST_PATH_IMAGE014
为对角线上的元素。
5.根据权利要求4所述的方法,其特征在于,所述度量检索矩阵与每个专利矩阵之间的相似性程度,包括:
根据检索词确定分类号,并度量检索矩阵与在确定的分类号下所对应的各个专利进行矩阵相似度计算。
6.一种基于多模态矩阵向量表示的专利文本检索装置,其特征在于,所述装置包括处理器,所述处理器配置为:
基于专利数据集,去除所述专利数据集中的各个专利文本中的停用词,并进行分词得到语料集合,根据所述语料集合确定所有词的词向量集合;
根据所有词的词向量集合以及确定的关键词,得到关键词的词向量;向量长度设定为n;
提取专利文本中的至少一个主题词,利用所有词的词向量集合得到对应主题词的词向量;
利用专利数据集对图像向量化表示模型进行训练:
所述图像向量化表示模型包括CNN网络和LSTM网络;将专利附图中的图像利用CNN网络进行编码得到第一编码向量,将图像的文本说明用LSTM网络进行编码得到第二编码向量,将第一编码向量和第二编码向量进行乘积,获得一个矩阵;根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时,表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则,确定训练的损失函数,对所述图像向量化表示模型进行训练;
利用训练好的图像向量化表示模型将专利附图中包含的各个图像转化为对应的附图向量;向量长度设定为n;
将关键词的词向量、主题词的词向量和附图向量分别按另一维连接在一起,构成一个n行c列的专利矩阵M;c为关键词、主题词和附图的总数;
根据检索信息确定检索矩阵SS的大小为n行q列;
度量检索矩阵与每个专利矩阵之间的相似性程度;
根据检索矩阵与每个专利矩阵之间的相似性程度,选出相应的专利文本。
7.根据权利要求6所述的装置,其特征在于,所述检索信息包括检索词、检索句子、检索段落和检索图像中的一种及其组合,所述处理器被进一步配置为:
若检索信息中存在检索句子或检索段落时,对所述检索句子或检索段落进行分词并提取主题词,利用词向量集合得到对应主题词的词向量;
若检索信息中存在检索词,则利用词向量集合得到对应检索词的词向量;
若检索信息中存在检索图像,则利用图像向量化表示模型得到对应检索图像的图向量;
将得到的词向量和图向量连接在一起组成检索矩阵。
8.根据权利要求1所述的装置,其特征在于,所述处理器被进一步配置为:通过如下公式(1)度量检索矩阵与每个专利矩阵之间的相似性程度:
Figure 793863DEST_PATH_IMAGE015
(1)
其中,d(S,M)表示检索矩阵S与专利矩阵M之间的相似性程度,
Figure 20445DEST_PATH_IMAGE016
I为单位矩阵,e为全为1的向量,上标T表示矩阵的转置;P表示矩阵S中行向量的格拉姆矩阵,
Figure 668595DEST_PATH_IMAGE017
Q表 示矩阵M中行向量的格拉姆矩阵,
Figure 678140DEST_PATH_IMAGE018
;Tr表示矩阵的迹。
9.根据权利要求1所述的装置,其特征在于,所述处理器被进一步配置为:所述确定训练的损失函数为矩阵进行归一化操作后的迹,归一化是将矩阵中所有元素的值变为0到1之间,利用如下公式(2)实现:
Figure 852769DEST_PATH_IMAGE019
(2)
式中,
Figure 843728DEST_PATH_IMAGE020
表示矩阵中的第i个元素,
Figure 369387DEST_PATH_IMAGE021
表示矩阵归一化后的第i个元素,
Figure 854726DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
分别 表示矩阵元素中的最大值和最小值;
矩阵A的迹记为Tr(A),如下公式(3)所示:
Figure 618283DEST_PATH_IMAGE024
(3)
式中,k为矩阵的阶数,
Figure DEST_PATH_IMAGE025
为对角线上的元素。
10.根据权利要求4所述的装置,其特征在于,所述处理器被进一步配置为:根据检索词确定分类号,并度量检索矩阵与在确定的分类号下所对应的各个专利进行矩阵相似度计算。
CN202210694893.9A 2022-06-20 2022-06-20 基于多模态矩阵向量表示的专利文本检索方法及装置 Expired - Fee Related CN114780690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210694893.9A CN114780690B (zh) 2022-06-20 2022-06-20 基于多模态矩阵向量表示的专利文本检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210694893.9A CN114780690B (zh) 2022-06-20 2022-06-20 基于多模态矩阵向量表示的专利文本检索方法及装置

Publications (2)

Publication Number Publication Date
CN114780690A true CN114780690A (zh) 2022-07-22
CN114780690B CN114780690B (zh) 2022-09-09

Family

ID=82421766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210694893.9A Expired - Fee Related CN114780690B (zh) 2022-06-20 2022-06-20 基于多模态矩阵向量表示的专利文本检索方法及装置

Country Status (1)

Country Link
CN (1) CN114780690B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115617956A (zh) * 2022-12-16 2023-01-17 北京知呱呱科技服务有限公司 一种基于多模态注意力图谱的专利检索方法及系统
CN115858793A (zh) * 2023-02-20 2023-03-28 知呱呱(天津)大数据技术有限公司 基于图注意力机制的专利多层级分类方法及计算机设备
CN116522011A (zh) * 2023-05-16 2023-08-01 深圳九星互动科技有限公司 一种基于大数据的推送方法及推送系统
CN117113281A (zh) * 2023-10-20 2023-11-24 光轮智能(北京)科技有限公司 多模态数据的处理方法、设备、智能体和介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004133564A (ja) * 2002-10-09 2004-04-30 Fujitsu Ltd 文書検索装置
JP2008310811A (ja) * 2007-05-16 2008-12-25 Atelosoft Co Ltd 情報検索システム、情報検索方法および情報検索サーバ
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
WO2017210949A1 (zh) * 2016-06-06 2017-12-14 北京大学深圳研究生院 一种跨媒体检索方法
CN109992686A (zh) * 2019-02-24 2019-07-09 复旦大学 基于多角度自注意力机制的图像-文本检索系统及方法
CN110008312A (zh) * 2019-04-10 2019-07-12 成都信息工程大学 一种文档写作助手实现方法、系统及电子设备
CN112036177A (zh) * 2020-07-28 2020-12-04 中译语通科技股份有限公司 基于多模型融合的文本语义相似度信息处理方法及系统
CN112115716A (zh) * 2020-09-17 2020-12-22 陕西师范大学 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN112507109A (zh) * 2020-12-11 2021-03-16 重庆知识产权大数据研究院有限公司 一种基于语义分析与关键词识别的检索方法和装置
CN113177132A (zh) * 2021-06-30 2021-07-27 中国海洋大学 基于联合语义矩阵的深度跨模态哈希的图像检索方法
CN113220919A (zh) * 2021-05-17 2021-08-06 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
WO2021253873A1 (zh) * 2020-06-15 2021-12-23 语联网(武汉)信息技术有限公司 相似文档检索方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004133564A (ja) * 2002-10-09 2004-04-30 Fujitsu Ltd 文書検索装置
JP2008310811A (ja) * 2007-05-16 2008-12-25 Atelosoft Co Ltd 情報検索システム、情報検索方法および情報検索サーバ
WO2017210949A1 (zh) * 2016-06-06 2017-12-14 北京大学深圳研究生院 一种跨媒体检索方法
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN109992686A (zh) * 2019-02-24 2019-07-09 复旦大学 基于多角度自注意力机制的图像-文本检索系统及方法
CN110008312A (zh) * 2019-04-10 2019-07-12 成都信息工程大学 一种文档写作助手实现方法、系统及电子设备
WO2021253873A1 (zh) * 2020-06-15 2021-12-23 语联网(武汉)信息技术有限公司 相似文档检索方法及装置
CN112036177A (zh) * 2020-07-28 2020-12-04 中译语通科技股份有限公司 基于多模型融合的文本语义相似度信息处理方法及系统
CN112115716A (zh) * 2020-09-17 2020-12-22 陕西师范大学 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN112507109A (zh) * 2020-12-11 2021-03-16 重庆知识产权大数据研究院有限公司 一种基于语义分析与关键词识别的检索方法和装置
CN113220919A (zh) * 2021-05-17 2021-08-06 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN113177132A (zh) * 2021-06-30 2021-07-27 中国海洋大学 基于联合语义矩阵的深度跨模态哈希的图像检索方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
XIAOJUAN LIU 等: ""A Patent recommendation algorithm based on topic classification and semantic similarity"", 《2021 INTERNATIONAL CONFERENCE ON WIRELESS COMMUNICATIONS AND SMART GRID (ICWCSG)》 *
唐忠: ""支持产品概念设计的专利知识挖掘方法及其原型系统研究"", 《中国博士学位论文全文数据库 工程科技Ⅱ辑》 *
范佳佳等: "生物医药产业专利与标准数字信息资源整合研究", 《图书馆论坛》 *
袁银池: ""用户专利文献阅读兴趣拓扑研究及在主动推送微服务中的应用"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
齐乐: ""基于关键词及问题主题的问题相似度计算"", 《HTTPS://WWW.JIQIZHIXIN.COM/ARTICLES/2017-06-12-7》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115617956A (zh) * 2022-12-16 2023-01-17 北京知呱呱科技服务有限公司 一种基于多模态注意力图谱的专利检索方法及系统
CN115858793A (zh) * 2023-02-20 2023-03-28 知呱呱(天津)大数据技术有限公司 基于图注意力机制的专利多层级分类方法及计算机设备
CN115858793B (zh) * 2023-02-20 2023-05-09 知呱呱(天津)大数据技术有限公司 基于图注意力机制的专利多层级分类方法及计算机设备
CN116522011A (zh) * 2023-05-16 2023-08-01 深圳九星互动科技有限公司 一种基于大数据的推送方法及推送系统
CN116522011B (zh) * 2023-05-16 2024-02-13 深圳九星互动科技有限公司 一种基于大数据的推送方法及推送系统
CN117113281A (zh) * 2023-10-20 2023-11-24 光轮智能(北京)科技有限公司 多模态数据的处理方法、设备、智能体和介质
CN117113281B (zh) * 2023-10-20 2024-01-26 光轮智能(北京)科技有限公司 多模态数据的处理方法、设备、智能体和介质

Also Published As

Publication number Publication date
CN114780690B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN114780690B (zh) 基于多模态矩阵向量表示的专利文本检索方法及装置
CN112000818B (zh) 一种面向文本和图像的跨媒体检索方法及电子装置
Lin et al. A structured self-attentive sentence embedding
Wang et al. Self-constraining and attention-based hashing network for bit-scalable cross-modal retrieval
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN112687388B (zh) 一种基于文本检索的可解释性智慧医疗辅助诊断系统
CN110704621A (zh) 文本处理方法、装置及存储介质和电子设备
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN113656660B (zh) 跨模态数据的匹配方法、装置、设备及介质
CN110489551B (zh) 一种基于写作习惯的作者识别方法
CN111291188A (zh) 一种智能信息抽取方法及系统
CN113051368B (zh) 双塔模型训练方法、检索方法、装置及电子设备
CN116611024A (zh) 一种基于事实和情感对立性的多模态反讽检测方法
CN113220862A (zh) 标准问识别方法、装置及计算机设备及存储介质
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN116304307A (zh) 一种图文跨模态检索网络训练方法、应用方法及电子设备
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
CN115775349A (zh) 基于多模态融合的假新闻检测方法和装置
CN116450883A (zh) 基于视频内容细粒度信息的视频时刻检索方法
CN115455226A (zh) 一种文本描述驱动的行人搜索方法
CN116246279A (zh) 一种基于clip背景知识的图文特征融合方法
CN113792594B (zh) 一种基于对比学习的视频中语言片段定位方法及装置
CN110569355A (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN114781348B (zh) 一种基于词袋模型的文本相似度计算方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220909