CN114780690B - 基于多模态矩阵向量表示的专利文本检索方法及装置 - Google Patents
基于多模态矩阵向量表示的专利文本检索方法及装置 Download PDFInfo
- Publication number
- CN114780690B CN114780690B CN202210694893.9A CN202210694893A CN114780690B CN 114780690 B CN114780690 B CN 114780690B CN 202210694893 A CN202210694893 A CN 202210694893A CN 114780690 B CN114780690 B CN 114780690B
- Authority
- CN
- China
- Prior art keywords
- matrix
- vector
- word
- image
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000013598 vector Substances 0.000 title claims abstract description 253
- 239000011159 matrix material Substances 0.000 title claims abstract description 183
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000010606 normalization Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 10
- 239000004576 sand Substances 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computational Mathematics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多模态矩阵向量表示的专利文本检索方法及装置,根据已有专利数据集,训练得到所有词的词向量集合,可以使得词向量中包含所有关键词的信息,并且通过已有专利数据集训练得到图像向量化表示模型,对专利中的附图进行提取,得到对应附图的图向量,将图向量和词向量相结合,在专利检索时,充分利用专利中的附图包含有大量有用信息,同时满足了当前市场上存在一些以图搜文,或以文搜图,以及以图搜图的检索需求,并且还使得专利检索的结果更加精确。
Description
技术领域
本发明涉及文本检索技术领域,具体的说,涉及一种基于多模态矩阵向量表示的专利文本检索方法及装置。
背景技术
传统文本检索通过正则化匹配完成,当用户采用了与文档中关键词语的同义词或相近意思的词语进行检索时,则会检索不到记录。而且,基于LDA主题模型的算法,通过无监督方式对大规模文档语料进行训练,从而能得到每篇文档的主题模型,从而可以完成基于文档主题的检索。
近年来,基于词向量的语义检索技术出现,通过海量文本进行无监督的训练便能获得。word2vec在捕捉词汇之间的词法关系方面能力很强,但是生成的向量在很大程度上无法解释,并且很难表征文档。
而另一方面,LDA可以被很好地被理解,但是不能像word2vec这样对本局部词汇关系进行建模。
现有语义检索通过一个高维向量表示整个文档。当前训练方法中,只有通过求平均、求和、或平方和方式将文档中每个词的词向量联合起来才能获得整个文档的向量表示。这种向量表示对于文档中信息分散,涉及技术较多的无法准确进行表示,而且在不同词向量之前在同一个维度上联合可能还会引起相互抵消的情况,最后得到的向量表示无法包含所有关键词的信息。
此外,专利文本中,除了专利文本外,专利中的附图包含有大量有用信息,因此,当前市场上存在一些以图搜文,或以文搜图,以及以图搜图的检索需求。
发明内容
本发明提供一种基于多模态矩阵向量表示的专利文本检索方法及装置,以使得向量可以包含更多关键词的信息,并且专利矩阵中包含图向量,满足市场上存在一些以图搜文,或以文搜图,以及以图搜图的检索需求。
本发明的具体技术方案如下:
根据本发明的第一技术方案,提供一种基于多模态矩阵向量表示的专利文本检索方法,所述方法包括:基于专利数据集,去除所述专利数据集中的各个专利文本中的停用词,并进行分词得到语料集合,根据所述语料集合确定所有词的词向量集合;根据所有词的词向量集合以及确定的关键词,得到关键词的词向量;向量长度设定为n;提取专利文本中的至少一个主题词,利用所有词的词向量集合得到对应主题词的词向量;利用专利数据集对图像向量化表示模型进行训练:所述图像向量化表示模型包括CNN网络和LSTM网络;将专利附图中的图像利用CNN网络进行编码得到第一编码向量,将图像的文本说明用LSTM网络进行编码得到第二编码向量,将第一编码向量和第二编码向量进行乘积,获得一个矩阵;根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时,表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则,确定训练的损失函数,对所述图像向量化表示模型进行训练;利用训练好的图像向量化表示模型将专利附图中包含的各个图像转化为对应的附图向量,向量长度设定为n;将关键词的词向量、主题词的词向量和附图向量分别按另一维连接在一起,构成一个n行c列的专利矩阵M;c为关键词、主题词和附图的总数;根据检索信息确定检索矩阵S;S的大小为n行q列;度量检索矩阵与每个专利矩阵之间的相似性程度;根据检索矩阵与每个专利矩阵之间的相似性程度,选出相应的专利文本。
根据本发明的第二技术方案,提供一种基于多模态矩阵向量表示的专利文本检索装置,所述装置包括处理器,所述处理器配置为:基于专利数据集,去除所述专利数据集中的各个专利文本中的停用词,并进行分词得到语料集合,根据所述语料集合确定所有词的词向量集合;根据所有词的词向量集合以及确定的关键词,得到关键词的词向量;向量长度设定为n;提取专利文本中的至少一个主题词,利用所有词的词向量集合得到对应主题词的词向量;利用专利数据集对图像向量化表示模型进行训练:所述图像向量化表示模型包括CNN网络和LSTM网络;将专利附图中的图像利用CNN网络进行编码得到第一编码向量,将图像的文本说明用LSTM网络进行编码得到第二编码向量,将第一编码向量和第二编码向量进行乘积,获得一个矩阵;根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时,表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则,确定训练的损失函数,对所述图像向量化表示模型进行训练;利用训练好的图像向量化表示模型将专利附图中包含的各个图像转化为对应的附图向量,向量长度设定为n;将关键词的词向量、主题词的词向量和附图向量分别按另一维连接在一起,构成一个n行c列的专利矩阵M;c为关键词、主题词和附图的总数;根据检索信息确定检索矩阵S;S的大小为n行q列;度量检索矩阵与每个专利矩阵之间的相似性程度;根据检索矩阵与每个专利矩阵之间的相似性程度,选出相应的专利文本。
根据本发明各个实施例公开的一种基于多模态矩阵向量表示的专利文本检索方法及装置,根据已有专利数据集,训练得到所有词的词向量集合,可以使得词向量中包含所有关键词的信息,并且通过已有专利数据集训练得到图像向量化表示模型,对专利中的附图进行提取,得到对应附图的图向量,将图向量和词向量相结合,在专利检索时,充分利用专利中的附图包含有大量有用信息,同时满足了当前市场上存在一些以图搜文,或以文搜图,以及以图搜图的检索需求,并且还使得专利检索的结果更加精确。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了根据本发明实施例的一种基于云边协同计算的姿态分析方法的流程图。
图2示出了根据发明实施例的一种基于多模态矩阵向量表示的专利文本检索方法的图像向量化表示模型的训练流程图。
图3示出了根据发明实施例的一种基于多模态矩阵向量表示的专利文本检索方法的附图向量的提取过程。
图4示出了根据本发明实施例的一种基于多模态矩阵向量表示的专利文本检索方法的专利矩阵M的确定过程。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
现在结合说明书附图对本发明做进一步的说明。
图1示出了根据本发明实施例的一种基于多模态矩阵向量表示的专利文本检索方法的流程图。本发明实施例提供一种基于多模态矩阵向量表示的专利文本检索方法,如图1所示,所述方法包括:
步骤S100,基于专利数据集,去除所述专利数据集中的各个专利文本中的停用词,并进行分词得到语料集合,根据所述语料集合确定所有词的词向量集合。需要说明的是,所述专利数据集指的是目前已经公布的专利,可以通过国家知识产权局网站或者其他国外的官方网站能够检索到的专利,即包括有国内专利和国外专利。其中,专利包括实用新型、发明以及外观。在进行步骤S100,可以对已有所有公布的专利进行如上操作以确定词向量集合,也可以选择预设数量的公开专利进行操作以确定词向量集合。确定的词向量集合用于对后续提取到的关键词和主题词进行向量转化,本实施例基于大数据,将众多数据均考虑在内,可以使得词向量中包含所有关键词的信息。
步骤S200,根据所有词的词向量集合以及确定的关键词,得到关键词的词向量,向量长度设定为n。需要注意,关键词的确定可以基于现有的关键词提取方法来实现,例如CN111444712A、CN111159389A、CN112818661A、CN106372226A等公布的相关方法,本实施例对具体的关键词的确定方式不作限制。
步骤S300,提取专利文本中的至少一个主题词,利用所有词的词向量集合得到对应主题词的词向量,向量长度设定为n。仅作为示例,如图4所示,利用TF-IDF算法提取专利文本中p个主题词,利用词向量模型W得到每个主题词的词向量。其中,TF-IDF算法是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词。当然,也可以采用其他的提取方法来提取专利文本中的主题词。需要注意,专利文本中的主题词可以从对应专利的专利名称和权利要求主题中进行提取得到。
步骤S400,利用专利数据集对图像向量化表示模型进行训练。
如图2所示,示出了根据发明实施例的一种基于多模态矩阵向量表示的专利文本检索方法的图像向量化表示模型的训练流程图。所述图像向量化表示模型包括CNN网络和LSTM网络;利用专利数据集对图像向量化表示模型进行训练,包括如下步骤:
步骤S401,将专利附图中的图像利用CNN网络进行编码得到第一编码向量;
步骤S402,将图像的文本说明用LSTM网络进行编码得到第二编码向量;
步骤S403,将第一编码向量和第二编码向量进行乘积,获得一个矩阵;
步骤S404,根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时,表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则,确定训练的损失函数,对所述图像向量化表示模型进行训练。
示例性的,如图3所示,将摘要附图中的图像利用CNN网络进行编码得到第一编码向量,然后将专利摘要用LSTM网络进行编码得到第二编码向量,然后将第一编码向量和第二编码向量进行乘积,获得一个矩阵,最后根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时,表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则,确定训练的损失函数,对所述图像向量化表示模型进行训练。得到训练后的图像向量化表示模型可以提取到附图的图向量。需要说明的是,图3所显示的仅仅只是举例,如图4所示,所述专利附图中的图像可以是说明书附图中的任意一个附图。图像的文本说明可以是在说明书中的附图说明部分,找到附图说明部分的方式例如可以是通过关键词“附图说明”以及“具体实施方式”确定要选取的文本片段,然后基于该文本片段进行关键词或特征词提取。当然,上述仅仅只是举例,本发明包括但不限于如上找到图像文本说明的方式。
在一些实施例中,所述确定训练的损失函数为矩阵进行归一化操作后的迹,归一化是将矩阵中所有元素的值变为0到1之间,利用如下公式(2)实现:
矩阵A的迹记为Tr(A),如下公式(3)所示:
通过如上步骤可以对图像向量化表示模型进行训练,训练后的图像向量化表示模型可以识别专利附图中的各个图像的附图向量,识别方法与训练方法一致。
步骤S500,利用训练好的图像向量化表示模型将专利附图中包含的各个图像转化为对应的附图向量。
步骤S600,将关键词的词向量、主题词的词向量和附图向量分别按另一维连接在一起,构成一个n行c列的专利矩阵M。c为关键词、主题词和附图的总数。所获得的专利矩阵M请参考图4所示。
步骤S700,根据检索信息确定检索矩阵S。S的大小为n行q列;
在一些实施例中,所述检索信息包括检索词、检索句子、检索段落和检索图像中的一种及其组合。例如可以是单独的检索词、检索句子、检索段落和检索图像,还可以是检索词+检索句子/检索段落/检索图像,或者是检索句子+检索图像,或者是检索词+检索句子/检索段落+检索图像等等。其中,检索信息由用户输入得到。
所述根据检索信息确定检索矩阵,包括:若检索信息中存在检索句子或检索段落时,对所述检索句子或检索段落进行分词并提取主题词,利用词向量集合得到对应主题词的词向量;若检索信息中存在检索词,则利用词向量集合得到对应检索词的词向量;若检索信息中存在检索图像,则利用图像向量化表示模型得到对应检索图像的图向量;将得到的词向量和图向量连接在一起组成检索矩阵。
具体来说,本实施例可以对用户输入的句子或段落进行提取,得到相应的主题词,以此转换成对应的词向量。在存在图文共存的检索信息时,本实施例会获得一个具有词向量和图向量的检索矩阵。
步骤S800,度量检索矩阵与每个专利矩阵之间的相似性程度。
在一些实施例中,通过如下公式(1)度量检索矩阵与每个专利矩阵之间的相似性程度:
其中,d(S,M)表示检索矩阵S与专利矩阵M之间的相似性程度,,I为
单位矩阵,e为全为1的向量,上标T表示矩阵的转置;P表示矩阵S中行向量的格拉姆矩阵,;Q表示矩阵M中行向量的格拉姆矩阵,;Tr表示矩阵的迹。d值越大则表
示两者越接近。
步骤S900,根据检索矩阵与每个专利矩阵之间的相似性程度,选出相应的专利文本。最终输出检索结果,检索结果至少包括有检索出来的专利。在具体实施时,可以预设一个阈值,当检索矩阵与专利矩阵之间的相似性程度大于该阈值时,则标记该专利矩阵所对应的专利,否则就计算与下一个专利矩阵之间的相似性程度。通过上述循环后,直到与所有的专利矩阵的相似性程度都计算完,将标记的专利作为检索结果输出。在输出的检索结果中,可以通过相似性程度来进行排序,按照相似度程度由高到低排列显示对应专利。
在一些实施例中,所述度量检索矩阵与每个专利矩阵之间的相似性程度,包括:根据检索词确定分类号,并度量检索矩阵与在确定的分类号下所对应的各个专利进行矩阵相似度计算。以此既提高检索速度又提高命中率。
本发明实施例还提供一种基于多模态矩阵向量表示的专利文本检索装置,所述装置包括处理器,所述处理器配置为:基于专利数据集,去除所述专利数据集中的各个专利文本中的停用词,并进行分词得到语料集合,根据所述语料集合确定所有词的词向量集合;根据所有词的词向量集合以及确定的关键词,得到关键词的词向量;向量长度设定为n;提取专利文本中的至少一个主题词,利用所有词的词向量集合得到对应主题词的词向量;利用专利数据集对图像向量化表示模型进行训练:所述图像向量化表示模型包括CNN网络和LSTM网络;将专利附图中的图像利用CNN网络进行编码得到第一编码向量,将图像的文本说明用LSTM网络进行编码得到第二编码向量,将第一编码向量和第二编码向量进行乘积,获得一个矩阵;根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时,表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则,确定训练的损失函数,对所述图像向量化表示模型进行训练;利用训练好的图像向量化表示模型将专利附图中包含的各个图像转化为对应的附图向量,向量长度设定为n;将关键词的词向量、主题词的词向量和附图向量分别按另一维连接在一起,构成一个n行c列的专利矩阵M;c为关键词、主题词和附图的总数;根据检索信息确定检索矩阵S;S的大小为n行q列;度量检索矩阵与每个专利矩阵之间的相似性程度;根据检索矩阵与每个专利矩阵之间的相似性程度,选出相应的专利文本。
需要说明的是,本发明实施例中所述的处理器可以是包括一个以上通用处理设备的处理设备,诸如微处理器、中央处理单元(CPU)、图形处理单元(GPU)等。更具体地,处理器可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。处理器还可以是一个以上专用处理设备,诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等。
在一些实施例中,所述检索信息包括检索词、检索句子、检索段落和检索图像中的一种及其组合,所述处理器被进一步配置为:若检索信息中存在检索句子或检索段落时,对所述检索句子或检索段落进行分词并提取主题词,利用词向量集合得到对应主题词的词向量;若检索信息中存在检索词,则利用词向量集合得到对应检索词的词向量;若检索信息中存在检索图像,则利用图像向量化表示模型得到对应检索图像的图向量;将得到的词向量和图向量连接在一起组成检索矩阵。
在一些实施例中,所述处理器被进一步配置为:通过如下公式(1)度量检索矩阵与每个专利矩阵之间的相似性程度:
其中,d(S,M)表示检索矩阵S与专利矩阵M之间的相似性程度,,I为
单位矩阵,e为全为1的向量,上标T表示矩阵的转置;P表示矩阵S中行向量的格拉姆矩阵,;Q表示矩阵M中行向量的格拉姆矩阵,;Tr表示矩阵的迹。
在一些实施例中,所述处理器被进一步配置为:所述确定训练的损失函数为矩阵进行归一化操作后的迹,归一化是将矩阵中所有元素的值变为0到1之间,利用如下公式(2)实现:
矩阵A的迹记为Tr(A),如下公式(3)所示:
在一些实施例中,所述处理器被进一步配置为:根据检索词确定分类号,并度量检索矩阵与在确定的分类号下所对应的各个专利进行矩阵相似度计算。
本发明实施例所提供的一种基于多模态矩阵向量表示的专利文本检索装置与在前阐述的方法的技术效果基本一致,此处不赘述。
下面本发明实施例将结合具体的实施案例来进一步说明本发明的可行性和进步性。其中,如下实施案例所涉及到的算法或者模型,如无特殊描述,均为现有的算法和模型。
第一步,搜集500万发明专利数据,去除发明摘要、发明内容和权利要求中的停用词,利用分词算法完成分词,然后使用BOW算法,将每个词表示成256维的词向量,通过在500万份发明专利数据上训练得到一份涵盖绝大多数词汇的词向量表示模型W。
第二步,提取每件专利的摘要附图和摘要,说明书中的附图及对应说明。每张图像与文本说明一一对应,将图像输入一个多层的CNN网络,本实施例中采用resnet50网络,最后一层为去掉分类层,输出256维向量。同时,将文本先进行分词,然后利用词向量模型C得到每个词的词向量表示 ,然后输入进LSTM网络,最后输出一个256维的向量。通过batch进行训练,batch的大小为256,即每次用256张图和对应的文本进行训练,如成的文本向量和图像向量分别两两相乘,最后构成256*256的矩阵,最后矩阵的主对角元素要远大于非对角元素,其矩阵应该满足严格对角占优矩阵的性质。因此,其损失函数为矩阵进行归一化操作后的迹,其中,归一化是将矩阵中所有元素的值变为0到1之间,利用如下公式(2):
最后,通过ADMM算法进行训练,得到图像向量化表示模型R。
第三步,将专利文本利用TF-IDF算法提取K个主题词,在本实例中,K选取为8。
第四步,利用词向量模型W,将专利文本中的关键词和主题词转化为词向量,将专利附图转化为向量表示,构造成矩阵M。
第六步,对于用户搜索时,输入的检索词转化成词向量;如果是输入的句子或段落,则进行分词并提取主题操作,并用词向量模型W得到每个词和词向量,对于图像输入;同样的方法转化成向量表示,然后,将这些向量连接在一起构成n行k列的检索矩阵S。
最后,通过排序算法选出语义最接近的专利文本,返回检索结果。
优选地,可以在数据库中存储专利的分类号,对用户输入的检索词进行分类,然后在该分类号下对每件专利进行矩阵相似度计算,这样既提高检索速度又提高命中率。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种基于多模态矩阵向量表示的专利文本检索方法,其特征在于,所述方法包括:
基于专利数据集,去除所述专利数据集中的各个专利文本中的停用词,并进行分词得到语料集合,根据所述语料集合确定所有词的词向量集合;
根据所有词的词向量集合以及确定的关键词,得到关键词的词向量;向量长度设定为n;
提取专利文本中的至少一个主题词,利用所有词的词向量集合得到对应主题词的词向量;
利用专利数据集对图像向量化表示模型进行训练:
所述图像向量化表示模型包括CNN网络和LSTM网络;将专利附图中的图像利用CNN网络进行编码得到第一编码向量,将图像的文本说明用LSTM网络进行编码得到第二编码向量,将第一编码向量和第二编码向量进行乘积,获得一个矩阵;根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时,表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则,确定训练的损失函数,对所述图像向量化表示模型进行训练;
利用训练好的图像向量化表示模型将专利附图中包含的各个图像转化为对应的附图向量;向量长度设定为n;
将关键词的词向量、主题词的词向量和附图向量分别按另一维连接在一起,构成一个n行c列的专利矩阵M;c为关键词、主题词和附图的总数;
根据检索信息确定检索矩阵S;S的大小为n行q列;
度量检索矩阵与每个专利矩阵之间的相似性程度;
根据检索矩阵与每个专利矩阵之间的相似性程度,选出相应的专利文本。
2.根据权利要求1所述的方法,其特征在于,所述检索信息包括检索词、检索句子、检索段落和检索图像中的一种及其组合,所述根据检索信息确定检索矩阵,包括:
若检索信息中存在检索句子或检索段落时,对所述检索句子或检索段落进行分词并提取主题词,利用词向量集合得到对应主题词的词向量;
若检索信息中存在检索词,则利用词向量集合得到对应检索词的词向量;
若检索信息中存在检索图像,则利用图像向量化表示模型得到对应检索图像的图向量;
将得到的词向量和图向量连接在一起组成检索矩阵。
5.根据权利要求4所述的方法,其特征在于,所述度量检索矩阵与每个专利矩阵之间的相似性程度,包括:
根据检索词确定分类号,并度量检索矩阵与在确定的分类号下所对应的各个专利进行矩阵相似度计算。
6.一种基于多模态矩阵向量表示的专利文本检索装置,其特征在于,所述装置包括处理器,所述处理器配置为:
基于专利数据集,去除所述专利数据集中的各个专利文本中的停用词,并进行分词得到语料集合,根据所述语料集合确定所有词的词向量集合;
根据所有词的词向量集合以及确定的关键词,得到关键词的词向量;向量长度设定为n;
提取专利文本中的至少一个主题词,利用所有词的词向量集合得到对应主题词的词向量;
利用专利数据集对图像向量化表示模型进行训练:
所述图像向量化表示模型包括CNN网络和LSTM网络;将专利附图中的图像利用CNN网络进行编码得到第一编码向量,将图像的文本说明用LSTM网络进行编码得到第二编码向量,将第一编码向量和第二编码向量进行乘积,获得一个矩阵;根据一张图像的向量和对应的文本描述的向量之间的乘积大于此图像向量与其不相关文本向量的乘积时,表示此图像的向量表达的语义与对应的文本向量表达的语义最接近的原则,确定训练的损失函数,对所述图像向量化表示模型进行训练;
利用训练好的图像向量化表示模型将专利附图中包含的各个图像转化为对应的附图向量;向量长度设定为n;
将关键词的词向量、主题词的词向量和附图向量分别按另一维连接在一起,构成一个n行c列的专利矩阵M;c为关键词、主题词和附图的总数;
根据检索信息确定检索矩阵S;S的大小为n行q列;
度量检索矩阵与每个专利矩阵之间的相似性程度;
根据检索矩阵与每个专利矩阵之间的相似性程度,选出相应的专利文本。
7.根据权利要求6所述的装置,其特征在于,所述检索信息包括检索词、检索句子、检索段落和检索图像中的一种及其组合,所述处理器被进一步配置为:
若检索信息中存在检索句子或检索段落时,对所述检索句子或检索段落进行分词并提取主题词,利用词向量集合得到对应主题词的词向量;
若检索信息中存在检索词,则利用词向量集合得到对应检索词的词向量;
若检索信息中存在检索图像,则利用图像向量化表示模型得到对应检索图像的图向量;
将得到的词向量和图向量连接在一起组成检索矩阵。
10.根据权利要求9所述的装置,其特征在于,所述处理器被进一步配置为:根据检索词确定分类号,并度量检索矩阵与在确定的分类号下所对应的各个专利进行矩阵相似度计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210694893.9A CN114780690B (zh) | 2022-06-20 | 2022-06-20 | 基于多模态矩阵向量表示的专利文本检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210694893.9A CN114780690B (zh) | 2022-06-20 | 2022-06-20 | 基于多模态矩阵向量表示的专利文本检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114780690A CN114780690A (zh) | 2022-07-22 |
CN114780690B true CN114780690B (zh) | 2022-09-09 |
Family
ID=82421766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210694893.9A Expired - Fee Related CN114780690B (zh) | 2022-06-20 | 2022-06-20 | 基于多模态矩阵向量表示的专利文本检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114780690B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115617956A (zh) * | 2022-12-16 | 2023-01-17 | 北京知呱呱科技服务有限公司 | 一种基于多模态注意力图谱的专利检索方法及系统 |
CN115858793B (zh) * | 2023-02-20 | 2023-05-09 | 知呱呱(天津)大数据技术有限公司 | 基于图注意力机制的专利多层级分类方法及计算机设备 |
CN116522011B (zh) * | 2023-05-16 | 2024-02-13 | 深圳九星互动科技有限公司 | 一种基于大数据的推送方法及推送系统 |
CN117113281B (zh) * | 2023-10-20 | 2024-01-26 | 光轮智能(北京)科技有限公司 | 多模态数据的处理方法、设备、智能体和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017210949A1 (zh) * | 2016-06-06 | 2017-12-14 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
CN109992686A (zh) * | 2019-02-24 | 2019-07-09 | 复旦大学 | 基于多角度自注意力机制的图像-文本检索系统及方法 |
CN113220919A (zh) * | 2021-05-17 | 2021-08-06 | 河海大学 | 一种大坝缺陷图像文本跨模态检索方法及模型 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4177070B2 (ja) * | 2002-10-09 | 2008-11-05 | 富士通株式会社 | 文書検索装置 |
JP5277499B2 (ja) * | 2007-05-16 | 2013-08-28 | 株式会社アテロソフト | 情報検索装置 |
CN106156272A (zh) * | 2016-06-21 | 2016-11-23 | 北京工业大学 | 一种基于多源语义分析的信息检索方法 |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
CN110008312A (zh) * | 2019-04-10 | 2019-07-12 | 成都信息工程大学 | 一种文档写作助手实现方法、系统及电子设备 |
CN111813930B (zh) * | 2020-06-15 | 2024-02-20 | 语联网(武汉)信息技术有限公司 | 相似文档检索方法及装置 |
CN112036177A (zh) * | 2020-07-28 | 2020-12-04 | 中译语通科技股份有限公司 | 基于多模型融合的文本语义相似度信息处理方法及系统 |
CN112115716A (zh) * | 2020-09-17 | 2020-12-22 | 陕西师范大学 | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 |
CN112507109A (zh) * | 2020-12-11 | 2021-03-16 | 重庆知识产权大数据研究院有限公司 | 一种基于语义分析与关键词识别的检索方法和装置 |
CN113177132B (zh) * | 2021-06-30 | 2021-09-14 | 中国海洋大学 | 基于联合语义矩阵的深度跨模态哈希的图像检索方法 |
-
2022
- 2022-06-20 CN CN202210694893.9A patent/CN114780690B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017210949A1 (zh) * | 2016-06-06 | 2017-12-14 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
CN109992686A (zh) * | 2019-02-24 | 2019-07-09 | 复旦大学 | 基于多角度自注意力机制的图像-文本检索系统及方法 |
CN113220919A (zh) * | 2021-05-17 | 2021-08-06 | 河海大学 | 一种大坝缺陷图像文本跨模态检索方法及模型 |
Also Published As
Publication number | Publication date |
---|---|
CN114780690A (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114780690B (zh) | 基于多模态矩阵向量表示的专利文本检索方法及装置 | |
CN112000818B (zh) | 一种面向文本和图像的跨媒体检索方法及电子装置 | |
Lin et al. | A structured self-attentive sentence embedding | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
CN111259127B (zh) | 一种基于迁移学习句向量的长文本答案选择方法 | |
CN108009148B (zh) | 基于深度学习的文本情感分类表示方法 | |
CN112687388B (zh) | 一种基于文本检索的可解释性智慧医疗辅助诊断系统 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN109933792B (zh) | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 | |
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
CN110489551B (zh) | 一种基于写作习惯的作者识别方法 | |
CN112800292A (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
CN113761890B (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN111291188A (zh) | 一种智能信息抽取方法及系统 | |
CN110765755A (zh) | 一种基于双重选择门的语义相似度特征提取方法 | |
CN113656660B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN113392191B (zh) | 一种基于多维度语义联合学习的文本匹配方法和装置 | |
CN113204611A (zh) | 建立阅读理解模型的方法、阅读理解方法及对应装置 | |
CN113220862A (zh) | 标准问识别方法、装置及计算机设备及存储介质 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220909 |
|
CF01 | Termination of patent right due to non-payment of annual fee |