CN115269882B - 基于语义理解的知识产权检索系统及其方法 - Google Patents
基于语义理解的知识产权检索系统及其方法 Download PDFInfo
- Publication number
- CN115269882B CN115269882B CN202211190179.2A CN202211190179A CN115269882B CN 115269882 B CN115269882 B CN 115269882B CN 202211190179 A CN202211190179 A CN 202211190179A CN 115269882 B CN115269882 B CN 115269882B
- Authority
- CN
- China
- Prior art keywords
- understanding
- feature vector
- training
- semantic
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims description 369
- 238000012549 training Methods 0.000 claims description 114
- 238000000605 extraction Methods 0.000 claims description 49
- 238000013527 convolutional neural network Methods 0.000 claims description 33
- 230000011218 segmentation Effects 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 20
- 238000000354 decomposition reaction Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 8
- 230000003416 augmentation Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 20
- 238000005065 mining Methods 0.000 description 16
- 230000006978 adaptation Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 9
- 239000000126 substance Substances 0.000 description 7
- 230000004927 fusion Effects 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Biophysics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及知识产权智能检索的领域,其具体地公开了一基于语义理解的知识产权检索系统及其方法,其通过使用深度神经网络模型来对于不同模态的数据,即专利数据库中各个专利文本的文本数据和专利附图以及用户的专利检索请求中的文本数据和图像数据进行深层特征挖掘并进行融合,接着通过度量的方式来评估检索请求与专利文本之间的适配度,通过这样的方式来提升专利检索的匹配精准度和查询便利性。
Description
技术领域
本申请涉及知识产权智能检索领域,且更为具体地,涉及一种基于语义理解的知识产权检索系统及其方法。
背景技术
在大数据时代,人工智能在各个行业都有着广泛的应用。对于知识产权的检索来说,知识网络规模巨大、连接复杂,知识节点具有异质性。面对海量信息,基于分类目录和关键词的搜索方式越来越难以适应用户的搜索需求,迫切需要将检索方式从基于词层面提高到基于语义层面,研发高增量、高时效、多模态知识产权超图网络建模技术能准确地捕捉到用户所输入语句后面的真正意图,并以此进行搜索,从而更准确地向用户返回最符合其需求的搜索结果。
知识产权检索是实现将用户的片段输入去检索,返回给用户最符合其需求的搜索结果的一种技术应用。现有的技术应用大多数是以文本搜文本的方式进行知识产权检索的。但是由于这种技术是单模态的,用户的片段输入往往很难准确表达出用户的检索需求。这时候就需要多模态的建模技术,来准确捕捉用户的真正意图。
多模态知识检索是一种应用于知识产权检索的多模态检索技术,所谓的多模态检索,就是用户可以输入不同类型的输入进行检索,比如用文本搜图,用图搜文本等。在知识产权的检索当中,用户可以输入自己的检索字段以及跟自己搜索意图相关的图片,通过搜索引擎结合对这两种类型的输入信息检索,得到最符合自己需求的搜索结果。但是受限于人工智能相关技术的发展,搜索引擎难以很好地将这两种不同类型的输入进行融合分析,返回的检索结果往往会带有一定的偏向性,会影响最终的检索结果。
目前的现有技术之一,一种通过分析用户搜索词生成相关搜索结果的方法,该方法获取用户输入的搜索词,根据搜索词确定用户需求类型,并根据需求类型确定对应的引导策略;根据引导策略和搜索词生成论文的相关搜索结果并展现在搜索结果页面,将搜索结果页面提供给用户。该方案的缺点是这种技术是单模态的,用户的片段输入往往难以准确表达用户的检索需要。
目前的现有技术之二,基于百科的中文知识搜索系统的设计与实现的方法。该方法通过分词、词性标注,同义词转换,问题词转换,核心实体识别、检索、结果重排等流程,实现了基于百科实体的知识搜索。该方法的缺点是在检索时还是以同义词转换等方式来计算查询文本和待检索文本的相似度,并没有在词向量嵌入特征空间中计算相似度,要通过百科内的同义词词表实现,需要百科知识库的介入。
因此,期望一种基于语义理解的知识产权检索系统,以基于多模态的数据融合方式来对用户输入的专利检索请求以及专利数据库中各篇专利进行更为精准地理解,进而更为准确地评估检索请求与专利文本之间的适配度。
目前,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。
近年来,深度学习尤其是神经网络的发展给知识产权检索提供了新的解决思路和方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于语义理解的知识产权检索系统及其方法,其通过使用深度神经网络模型来对于不同模态的数据,即专利数据库中各个专利文本的文本数据和专利附图以及用户的专利检索请求中的文本数据和图像数据进行深层特征挖掘并进行融合,接着通过度量的方式来评估检索请求与专利文本之间的适配度,通过这样的方式来提升专利检索的匹配精准度和查询便利性。
根据本申请的一个方面,提供了一种基于语义理解的知识产权检索系统,其包括:专利数据采集单元,用于提取专利数据库中各篇专利的文本数据和图片数据;专利数据编码单元,用于基于所述各篇专利的文本数据和图片数据生成对应于各篇专利的专利理解特征向量;检索请求获取单元,用于获取用户输入的专利检索请求;检索请求文本编码单元,用于将所述专利检索请求中的文本数据通过经训练完成的包含嵌入层的上下文编码器以得到检索请求文本理解特征向量;检索请求图像编码单元,用于将所述专利检索请求中的图像数据通过经训练完成的作为过滤器的卷积神经网络以得到检索请求图像理解特征向量;级联单元,用于将所述检索请求文本理解特征向量和所述检索请求图像理解特征向量进行级联以得到检索请求理解特征向量;度量单元,用于分别计算所述检索请求理解特征向量和对应于各篇专利的专利理解特征向量之间的距离;以及检索结果生成单元,用于基于所述距离,返回专利检索结果。
在上述基于语义理解的知识产权检索系统中,所述专利数据编码单元,包括:分段子单元,用于对所述各篇专利的文本数据进行分段处理以得到对应于各篇专利的段序列;段语义编码子单元,用于将所述对应于各篇专利的段序列中各个段进行分词处理后通过所述包含嵌入层的上下文编码器以得到对应于各个段的段语义特征向量;专利图像特征提取子单元,用于将所述各篇专利的图片数据通过所述作为过滤器的卷积神经网络以得到图片理解特征向量;上下文增广子单元,用于以所述图片理解特征向量作为插值单元插入到每两个所述段语义特征向量之间以得到多模态特征向量;以及,多尺度理解子单元,用于将所述多模态特征向量通过多尺度邻域特征提取模块以得到所述专利理解特征向量。
在上述基于语义理解的知识产权检索系统中,所述段语义编码子单元,进一步用于:将所述对应于各篇专利的段序列中各个段进行分词处理以得到对应于各个段的词序列;使用所述上下文编码器的嵌入层将所述对应于各个段的词序列中各个词分别转化为词嵌入向量以得到词嵌入向量的序列;以及,使用所述上下文编码器的基于转换器的Bert模型对所述词嵌入向量的序列进行基于全局的上下文语义编码以得到多个词语义特征向量;以及将所述多个词语义特征向量进行级联以得到所述对应于各个段的段语义特征向量。
在上述基于语义理解的知识产权检索系统中,所述多尺度理解子单元,包括:第一尺度理解二级子单元,用于将所述多模态特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一邻域尺度专利理解特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;第二尺度理解二级子单元,用于将所述多模态特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二邻域尺度专利理解特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及,多尺度级联二级子单元,用于将所述第一邻域尺度专利理解特征向量和所述第二邻域尺度专利理解特征向量进行级联以得到所述专利理解特征向量。
在上述基于语义理解的知识产权检索系统中,所述多尺度理解子单元,包括:所述第一尺度理解二级子单元,进一步用于:使用所述多尺度邻域特征提取模块的第一卷积层以如下公式对所述多模态特征向量进行一维卷积编码以得到第一邻域尺度专利理解特征向量;其中,所述公式为:其中,a为第一卷积核在x方向上的宽度、为第一卷积核参数向量、为与卷积核函数运算的局部向量矩阵,w为第一卷积核的尺寸,X表示所述多模态特征向量;所述第一尺度理解二级子单元,进一步用于:使用所述多尺度邻域特征提取模块的第二卷积层以如下公式对所述多模态特征向量进行一维卷积编码以得到所述第二邻域尺度专利理解特征向量;其中,所述公式为:其中,b为第二卷积核在x方向上的宽度、为第二卷积核参数向量、为与卷积核函数运算的局部向量矩阵,m为第二卷积核的尺寸,X表示所述多模态特征向量。
在上述基于语义理解的知识产权检索系统中,所述多尺度理解子单元,包括:所述度量单元,进一步用于分别计算所述检索请求理解特征向量和所述对应于各篇专利的专利理解特征向量之间的欧式距离。
在上述基于语义理解的知识产权检索系统中,所述检索结果生成单元,进一步用于:基于所述欧式距离与预定阈值之间的比较,返回所述专利检索结果。
根据本申请的另一方面,提供了一种基于语义理解的知识产权检索方法,其包括:提取专利数据库中各篇专利的文本数据和图片数据;基于所述各篇专利的文本数据和图片数据生成对应于各篇专利的专利理解特征向量;获取用户输入的专利检索请求;将所述专利检索请求中的文本数据通过经训练完成的包含嵌入层的上下文编码器以得到检索请求文本理解特征向量;将所述专利检索请求中的图像数据通过经训练完成的作为过滤器的卷积神经网络以得到检索请求图像理解特征向量;将所述检索请求文本理解特征向量和所述检索请求图像理解特征向量进行级联以得到检索请求理解特征向量;分别计算所述检索请求理解特征向量和对应于各篇专利的专利理解特征向量之间的距离;以及基于所述距离,返回专利检索结果。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于语义理解的知识产权检索方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的基于语义理解的知识产权检索方法。
与现有技术相比,本申请提供的一种基于语义理解的知识产权检索系统及其方法,其通过使用深度神经网络模型来对于不同模态的数据,即专利数据库中各个专利文本的文本数据和专利附图以及用户的专利检索请求中的文本数据和图像数据进行深层特征挖掘并进行融合,接着通过度量的方式来评估检索请求与专利文本之间的适配度,通过这样的方式来提升专利检索的匹配精准度和查询便利性。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的基于语义理解的知识产权检索系统的框图;
图2为根据本申请实施例的基于语义理解的知识产权检索系统的框图;
图3为根据本申请实施例的基于语义理解的知识产权检索系统中推断模块的系统架构图;
图4为根据本申请实施例的基于语义理解的知识产权检索系统中专利数据编码单元的框图;
图5为根据本申请实施例的基于语义理解的知识产权检索系统中段语义编码过程的流程图;
图6为根据本申请实施例的基于语义理解的知识产权检索系统中训练模块的系统架构图;
图7为根据本申请实施例的基于语义理解的知识产权检索方法的流程图;
图8为根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
场景概述:如上所述,经研究发现在目前的现有技术中,检索技术的单模态性和检索方式的数据处理不准确性是影响最终检索结果的重要要素,因此,本申请的技术方案中期望通过将不同类型的数据在高维特征空间中进行融合分析以基于多模态的特征分析方法来进行更为准确地专利检索。这本质上也是一个分类匹配的问题,也就是,在本申请的技术方案中,使用深度神经网络模型来对于不同模态的数据,即专利数据库中各个专利文本的文本数据和专利附图以及用户的专利检索请求中的文本数据和图像数据进行深层特征挖掘,并在融了各个多模态特征后,通过度量的方式来评估检索请求与专利文本之间的适配度,进而基于评估出的适配度来进行专利检索的分类匹配。
具体地,在本申请的技术方案中,首先,对于专利数据库中各篇专利,提取专利数据库中各篇专利的文本数据和图片数据。然后,基于专利文本中的文本数据和专利附图对所述专利进行编码,也就是,将所述各篇专利中的文本数据和图片数据分开进行编码来分别提取各自的深层特征信息。
具体地,对于所述各篇专利的文本数据,将其进行分段处理以得到对应于各篇专利的段序列,这样能够便于后续的语义特征挖掘,进而提高对于所述文本数据的语义理解的准确性。然后,考虑到所述对应于各篇专利的段序列存在着语义特征关联,因此,为了能够准确地提取出其在高维特征空间中的全局语义特征信息,进一步再将所述对应于各篇专利的段序列中各个段进行分词处理以防止语序混乱后,通过所述包含嵌入层的上下文编码器中进行编码,以提取出所述文本数据中基于全局的高维语义特征从而得到对应于各个段的段语义特征向量。
然后,对于所述各篇专利的图片数据,将其通过在高维隐含特征提取方面具有优异表现的作为过滤器的卷积神经网络中进行深层特征挖掘,以提取出所述图片数据中的局部高维隐含特征分布信息,以得到图片理解特征向量。特别地,在特征融合的过程中,以所述图像理解特征向量作为插值单元插入到所述各个段语义理解特征向量中,其实质上是在所述各个段语义理解特征向量之间插入所述图像理解特征向量来丰富段与段之间的上下文信息以提高对于专利理解与表达的丰富度和精准度,从而得到多模态特征向量。
进一步地,考虑到在所述各篇专利的多模态语义理解中,不仅会在各个相邻的词或语句之间存在着相互的关联性,不相邻的词和语句以及不同跨度的词句之间也会存在着关联性,也就是说,在对于所述各篇专利的多模态语义理解特征进行提取时,不仅需要提取出基于全局性的高维语义特征信息,还需要根据不同的尺度跨度来提取出所述各篇专利的多模态语义理解中的多尺度邻域语义理解关联特征。具体地,将所述多模态特征向量通过多尺度邻域特征提取模块以得到所述专利理解特征向量。在本申请的一个具体示例中,所述多尺度邻域特征提取模块能够使用具有不同尺度的一维卷积核的卷积层分别对所述多模态特征向量进行一维卷积编码,再将得到的对应于两个所述不同尺度的一维卷积核的特征向量进行级联以得到多尺度的所述专利理解特征特征向量。值得一提的是,在本申请的其他示例中,所述多尺度邻域特征提取模块还可以包含更多数量的一维卷积层,其使用不同长度的一维卷积核进行所述多模态特征向量的不同尺度的多模态语义理解特征提取,对此,并不为本申请所局限。
应可以理解,考虑到在用户输入的专利检索请求中也存在着文本数据和图像数据,因此,在本申请的技术方案中,也将所述文本数据和所述图像数据分别进行特征挖掘。具体地,对于所述专利检索请求中的文本数据,同样地,使用包含嵌入层的上下文编码器对其进行编码,以提取出所述专利检索请求中的文本数据中基于全局的高维语义特征以更适于表征所述专利检索请求中的文本数据的语义理解特征。对于所述专利检索请求中的图像数据,使用作为过滤器的卷积神经网络来对其进行深层隐含特征挖掘,以提取出所述所述专利检索请求中的图像数据的局部特征在高维空间中的特征分布表示,从而得到检索请求图像理解特征向量。特别地,这里,使用所述作为过滤器的卷积神经网络来进行特征挖掘,不仅能够很好地提取到所述检索请求图像中的局部高维特征信息,还能够降低参数的数量,防止过拟合,进而提高分类的准确性。
这样,就可以进一步通过级联的方式来融合所述用户输入的专利检索请求中的文本数据语义特征信息和图像数据局部隐含特征信息,以得到检索请求理解特征向量。
进一步地,分别计算所述检索请求理解特征向量和对应于各篇专利的专利理解特征向量之间的距离,以通过度量的方式来评估检索请求与专利文本之间的适配度。相应地,在本申请的一个具体示例中,可以分别计算所述检索请求理解特征向量和所述对应于各篇专利的专利理解特征向量之间的欧式距离。应可以理解,通过分别计算所述检索请求理解特征向量和所述对应于各篇专利的专利理解特征向量之间的欧氏距离,可以从数值维度上反映出所述检索请求理解特征向量和所述对应于各篇专利的专利理解特征向量的每个位置之间的差异,也就是所述户输入的专利检索请求与所述专利数据库中各篇专利的匹配度,从而在最终检索结果中排除掉从数值维度上差异过大的部分,保留匹配度较高的专利检索结果。这样,就能够基于所述距离,返回专利检索结果。在本申请的其他示例中,还可以基于距离进行排序,并返回预定数量的专利,对此并不为本申请所局限。
特别地,在本申请的技术方案中,以所述图像理解特征向量作为插值单元插入到所述各个段语义理解特征向量中可以丰富段与段之间的上下文信息,但是,由于所获得的所述多模态特征向量需要通过多尺度邻域特征提取模块以得到专利理解特征向量,因此期望所述多模态特征向量能够在级联的各向量之间具有维度单调性,以避免所述专利理解特征向量的维度发散,影响后续距离计算的准确性。
由此,对所述图像理解特征向量和各个段语义理解特征向量引入用于提高维度单调性的对象的节俭分解(parsimonious decomposition)鼓励损失函数,表示为:
其中,到分别表示所述训练图片理解特征向量和各个所述训练段语义特征向量中的每个特征向量,表示所述训练图片理解特征向量和各个所述训练段语义特征向量中的每个特征向量的第个位置的特征值,表示二范数,表示函数激活,表示惩罚因数。
也就是,对所述图像理解特征向量和各个段语义理解特征向量中的每个特征向量,即到,在特征向量的维度方向上对其进行分组,并以共同的惩罚因数对组内元素的重叠施加惩罚,并将对于每个特征向量所获得的值排列为的向量,以函数激活后计算向量的二范数,并以此作为损失函数来更新卷积神经网络模型和上下文编码的参数。这样,就可以通过计算符号化函数的距离式联合来促进级联的特征向量所表示的高维流形的节俭分解,这可以理解为基于凸多面体的集合来构建高维流形的几何形状,由此提高级联的特征向量所表示的高维流形,即所述多模态特征向量的高维流形的维度单调性,进而提高分类的准确性。这样,能够对用户输入的专利检索请求以及专利数据库中各篇专利进行更为精准地理解,进而更为准确地评估检索请求与专利文本之间的适配度,以返回给用户更为精准的检索结果。
基于此,本申请提出了一种基于语义理解的知识产权检索系统,其包括:专利数据采集单元,用于提取专利数据库中各篇专利的文本数据和图片数据;专利数据编码单元,用于基于所述各篇专利的文本数据和图片数据生成对应于各篇专利的专利理解特征向量;检索请求获取单元,用于获取用户输入的专利检索请求;检索请求文本编码单元,用于将所述专利检索请求中的文本数据通过经训练完成的包含嵌入层的上下文编码器以得到检索请求文本理解特征向量;检索请求图像编码单元,用于将所述专利检索请求中的图像数据通过经训练完成的作为过滤器的卷积神经网络以得到检索请求图像理解特征向量;级联单元,用于将所述检索请求文本理解特征向量和所述检索请求图像理解特征向量进行级联以得到检索请求理解特征向量;度量单元,用于分别计算所述检索请求理解特征向量和对应于各篇专利的专利理解特征向量之间的距离;以及,检索结果生成单元,用于基于所述距离,返回专利检索结果。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性系统:图1为根据本申请实施例的基于基于语义理解的知识产权检索系统的框图。如图1所示,根据本申请实施例的基于基于语义理解的知识产权检索系统300包括推断模块,其中,所述推断模块包括:专利数据采集单元310;专利数据编码单元320;检索请求获取单元330;检索请求文本编码单元340;检索请求图像编码单元350;级联单元360;度量单元370;以及检索结果生成单元380。
其中,所述专利数据采集单元310,用于提取专利数据库中各篇专利的文本数据和图片数据;所述专利数据编码单元320,用于基于所述各篇专利的文本数据和图片数据生成对应于各篇专利的专利理解特征向量;所述检索请求获取单元330,用于获取用户输入的专利检索请求;所述检索请求文本编码单元340,用于将所述专利检索请求中的文本数据通过经训练完成的包含嵌入层的上下文编码器以得到检索请求文本理解特征向量;所述检索请求图像编码单元350,用于将所述专利检索请求中的图像数据通过经训练完成的作为过滤器的卷积神经网络以得到检索请求图像理解特征向量;所述级联单元360,用于将所述检索请求文本理解特征向量和所述检索请求图像理解特征向量进行级联以得到检索请求理解特征向量;所述度量单元370,用于分别计算所述检索请求理解特征向量和对应于各篇专利的专利理解特征向量之间的距离;以及,所述检索结果生成单元380,用于基于所述距离,返回专利检索结果。
图3为根据本申请实施例的基于语义理解的知识产权检索系统300的系统架构图。如图3所示,在所述基于语义理解的知识产权检索系统300的系统架构中,在推断过程中,首先通过所述专利数据采集单元310提取专利数据库中各篇专利的文本数据和图片数据;然后,所述专利数据编码单元320基于所述各篇专利的文本数据和图片数据生成对应于各篇专利的专利理解特征向量;所述检索请求获取单元330获取用户输入的专利检索请求;接着,所述检索请求文本编码单元340将所述检索请求获取单元330获取到的专利检索请求中的文本数据通过经训练完成的包含嵌入层的上下文编码器以得到检索请求文本理解特征向量;同时,所述检索请求图像编码单元350将所述专利检索请求中的图像数据通过经训练完成的作为过滤器的卷积神经网络以得到检索请求图像理解特征向量;所述级联单元360将所述检索请求文本理解特征向量和所述检索请求图像理解特征向量进行级联以得到检索请求理解特征向量;所述度量单元370,用于分别计算所述检索请求理解特征向量和对应于各篇专利的专利理解特征向量之间的距离;进而,所述检索结果生成单元380,用于基于所述度量单元370计算所得的距离,返回专利检索结果。
具体地,在所述基于语义理解的知识产权检索系统300的运行过程中,所述专利数据采集单元310,用于提取专利数据库中各篇专利的文本数据和图片数据。由于所述专利数据库中各篇专利之间存在不同的语义特征,因此将专利数据库中各个专利文本的文本数据和专利附图以及用户的专利检索请求中的文本数据和图像数据进行深层特征挖掘,并在融了各个多模态特征后,通过度量的方式来评估检索请求与专利文本之间的适配度,进而基于评估出的适配度来进行专利检索的分类匹配。首先,对于专利数据库中各篇专利,提取专利数据库中各篇专利的文本数据和图片数据。然后,基于专利文本中的文本数据和专利附图对所述专利进行编码,也就是,将所述各篇专利中的文本数据和图片数据分开进行编码来分别提取各自的深层特征信息。
进一步地,在所述基于语义理解的知识产权检索系统300的运行过程中,所述专利数据编码单元320,用于基于所述各篇专利的文本数据和图片数据生成对应于各篇专利的专利理解特征向量。
图4为根据本申请实施例的基于语义理解的知识产权检索系统中文本专利数据编码单元320的框图。如图4所示,所述专利数据编码单元,包括:分段子单元321,用于对所述各篇专利的文本数据进行分段处理以得到对应于各篇专利的段序列;段语义编码子单元322,用于将所述对应于各篇专利的段序列中各个段进行分词处理后通过所述包含嵌入层的上下文编码器以得到对应于各个段的段语义特征向量;专利图像特征提取子单元323,用于将所述各篇专利的图片数据通过所述作为过滤器的卷积神经网络以得到图片理解特征向量;上下文增广子单元324,用于以所述图片理解特征向量作为插值单元插入到每两个所述段语义特征向量之间以得到多模态特征向量;以及,多尺度理解子单元325,用于将所述多模态特征向量通过多尺度邻域特征提取模块以得到所述专利理解特征向量。
其中,所述段语义编码子单元,进一步用于:将所述对应于各篇专利的段序列中各个段进行分词处理以得到对应于各个段的词序列;使用所述上下文编码器的嵌入层将所述对应于各个段的词序列中各个词分别转化为词嵌入向量以得到词嵌入向量的序列;以及,使用所述上下文编码器的基于转换器的Bert模型对所述词嵌入向量的序列进行基于全局的上下文语义编码以得到多个词语义特征向量;以及,将所述多个词语义特征向量进行级联以得到所述对应于各个段的段语义特征向量。所述多尺度理解子单元,包括:第一尺度理解二级子单元,用于将所述多模态特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一邻域尺度专利理解特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;第二尺度理解二级子单元,用于将所述多模态特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二邻域尺度专利理解特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及,多尺度级联二级子单元,用于将所述第一邻域尺度专利理解特征向量和所述第二邻域尺度专利理解特征向量进行级联以得到所述专利理解特征向量。所述第一尺度理解二级子单元,进一步用于:使用所述多尺度邻域特征提取模块的第一卷积层以如下公式对所述多模态特征向量进行一维卷积编码以得到第一邻域尺度专利理解特征向量;其中,所述公式为:其中,a为第一卷积核在x方向上的宽度、为第一卷积核参数向量、为与卷积核函数运算的局部向量矩阵,为第一卷积核的尺寸,表示所述多模态特征向量;所述第一尺度理解二级子单元,进一步用于:使用所述多尺度邻域特征提取模块的第二卷积层以如下公式对所述多模态特征向量进行一维卷积编码以得到所述第二邻域尺度专利理解特征向量;其中,所述公式为:其中,为第二卷积核在x方向上的宽度、为第二卷积核参数向量、为与卷积核函数运算的局部向量矩阵,m为第二卷积核的尺寸,表示所述多模态特征向量。
图5为根据本申请实施例的基于语义理解的知识产权检索系统中段语义编码过程的流程图。如图5所示,在所述段语义编码的过程中,包括:S210,将所述对应于各篇专利的段序列中各个段进行分词处理以得到对应于各个段的词序列;S220,使用所述上下文编码器的嵌入层将所述对应于各个段的词序列中各个词分别转化为词嵌入向量以得到词嵌入向量的序列;以及,S230,使用所述上下文编码器的基于转换器的Bert模型对所述词嵌入向量的序列进行基于全局的上下文语义编码以得到多个词语义特征向量;以及,S240,将所述多个词语义特征向量进行级联以得到所述对应于各个段的段语义特征向量。
进一步地,在所述基于语义理解的知识产权检索系统300的运行过程中,所述检索请求获取单元330,用于获取用户输入的专利检索请求。应可以理解,考虑到在用户输入的专利检索请求中也存在着文本数据和图像数据,因此,在本申请的技术方案中,也将所述文本数据和所述图像数据分别进行特征挖掘。具体地,对于所述专利检索请求中的文本数据,同样地,使用包含嵌入层的上下文编码器对其进行编码,以提取出所述专利检索请求中的文本数据中基于全局的高维语义特征以更适于表征所述专利检索请求中的文本数据的语义理解特征。对于所述专利检索请求中的图像数据,使用作为过滤器的卷积神经网络来对其进行深层隐含特征挖掘,以提取出所述所述专利检索请求中的图像数据的局部特征在高维空间中的特征分布表示,从而得到检索请求图像理解特征向量。特别地,这里,使用所述作为过滤器的卷积神经网络来进行特征挖掘,不仅能够很好地提取到所述检索请求图像中的局部高维特征信息,还能够降低参数的数量,防止过拟合,进而提高分类的准确性。
也就是,对于所述用户输入的知识产权检索请求中的文本数据,考虑到所述文本数据的上下文之间存在着语义关联,因此,为了能够准确地提取出所述文本数据的全局语义特征信息,进一步使用包含嵌入层的上下文编码器对所述文本数据进行编码,以提取出所述文本数据的基于全局的高维语义特征,从而获得多个语义特征向量。
进一步地,在所述基于语义理解的知识产权检索系统300的运行过程中,所述检索请求文本编码单元340,用于将所述专利检索请求中的文本数据通过经训练完成的包含嵌入层的上下文编码器以得到检索请求文本理解特征向量。具体地,对于所述各篇专利的文本数据,将其进行分段处理以得到对应于各篇专利的段序列,这样能够便于后续的语义特征挖掘,进而提高对于所述文本数据的语义理解的准确性。然后,考虑到所述对应于各篇专利的段序列存在着语义特征关联,因此,为了能够准确地提取出其在高维特征空间中的全局语义特征信息,进一步再将所述对应于各篇专利的段序列中各个段进行分词处理以防止语序混乱后,通过所述包含嵌入层的上下文编码器中进行编码,以提取出所述文本数据中基于全局的高维语义特征从而得到对应于各个段的段语义特征向量。
进一步地,在所述基于语义理解的知识产权检索系统300的运行过程中,所述检索请求图像编码单元350,用于将所述专利检索请求中的图像数据通过经训练完成的作为过滤器的卷积神经网络以得到检索请求图像理解特征向量。具体地,对于所述各篇专利的图片数据,将其通过在高维隐含特征提取方面具有优异表现的作为过滤器的卷积神经网络中进行深层特征挖掘,以提取出所述图片数据中的局部高维隐含特征分布信息,以得到图片理解特征向量。特别地,在特征融合的过程中,以所述图像理解特征向量作为插值单元插入到所述各个段语义理解特征向量中,其实质上是在所述各个段语义理解特征向量之间插入所述图像理解特征向量来丰富段与段之间的上下文信息以提高对于专利理解与表达的丰富度和精准度,从而得到多模态特征向量。
进一步地,在所述基于语义理解的知识产权检索系统300的运行过程中,所述级联单元360,用于将所述检索请求文本理解特征向量和所述检索请求图像理解特征向量进行级联以得到检索请求理解特征向量。进一步地,考虑到在所述各篇专利的多模态语义理解中,不仅会在各个相邻的词或语句之间存在着相互的关联性,不相邻的词和语句以及不同跨度的词句之间也会存在着关联性,也就是说,在对于所述各篇专利的多模态语义理解特征进行提取时,不仅需要提取出基于全局性的高维语义特征信息,还需要根据不同的尺度跨度来提取出所述各篇专利的多模态语义理解中的多尺度邻域语义理解关联特征。
具体地,将所述多模态特征向量通过多尺度邻域特征提取模块以得到所述专利理解特征向量。在本申请的一个具体示例中,所述多尺度邻域特征提取模块能够使用具有不同尺度的一维卷积核的卷积层分别对所述多模态特征向量进行一维卷积编码,再将得到的对应于两个所述不同尺度的一维卷积核的特征向量进行级联以得到多尺度的所述专利理解特征特征向量。值得一提的是,在本申请的其他示例中,所述多尺度邻域特征提取模块还可以包含更多数量的一维卷积层,其使用不同长度的一维卷积核进行所述多模态特征向量的不同尺度的多模态语义理解特征提取,对此,并不为本申请所局限。
这样,就可以进一步通过级联的方式来融合所述用户输入的专利检索请求中的文本数据语义特征信息和图像数据局部隐含特征信息,以得到检索请求理解特征向量。
进一步地,在所述基于语义理解的知识产权检索系统300的运行过程中,所述度量单元370,用于分别计算所述检索请求理解特征向量和对应于各篇专利的专利理解特征向量之间的距离。应可以理解,通过分别计算所述检索请求理解特征向量和所述对应于各篇专利的专利理解特征向量之间的欧氏距离,可以从数值维度上反映出所述检索请求理解特征向量和所述对应于各篇专利的专利理解特征向量的每个位置之间的特征差异,也就是所述户输入的专利检索请求与所述专利数据库中各篇专利的相似度,从而在最终检索结果中排除掉从数值维度上差异过大的部分,保留相似度较大的专利检索结果。这样,就能够基于所述距离,返回专利检索结果。在本申请的其他示例中,还可以基于距离进行排序,并返回预定数量的专利,对此并不为本申请所局限。
具体地,分别计算所述检索请求理解特征向量和对应于各篇专利的专利理解特征向量之间的距离,以通过度量的方式来评估检索请求与专利文本之间的适配度。相应地,在本申请的一个具体示例中,可以分别计算所述检索请求理解特征向量和所述对应于各篇专利的专利理解特征向量之间的欧式距离。分别计算所述检索请求理解特征向量和所述对应于各篇专利的专利理解特征向量之间的欧式距离,以如下公式计算:
其中X表示检索请求理解特征向量,Y表示对应于各篇专利的专利理解特征向量,其中表示检索请求理解特征向量中各个位置的特征值,表示专利理解特征向量中各个位置的特征值。在本申请的技术方案中,越小表示两个向量在高维特征空间中的距离越小,越大则表示两个特征向量在高维特征空间中的距离越大,以此来表示专利检索请求与待匹配专利文本之间的匹配度。
进一步地,在所述基于语义理解的知识产权检索系统300的运行过程中,所述检索结果生成单元380,用于基于所述距离,返回专利检索结果。例如,可返回预定数量的专利文本,再如还可以基于距离来进行排序。
应可以理解,在利用上述神经网络模型进行推断之前,需要对所述包含嵌入层的上下文编码器、所述多尺度邻域提取模块、所述作为过滤器的卷积神经网络进行训练。也就是说,在本申请的基于语义理解的知识产权检索系统中,还包括训练模块,用于对所述包含嵌入层的上下文编码器、所述多尺度邻域提取模块、所述作为过滤器的卷积神经网络进行训练。
图2为根据本申请实施例的基于基于语义理解的知识产权检索系统的框图。如图2所示,根据本申请实施例的基于基于语义理解的知识产权检索系统300,还包括训练模块,所述训练模块包括:训练数据获取单元3010;训练分段子单元3020;训练段语义编码单元3030;训练专利图像特征提取单元3040;训练上下文增广单元3050;训练多尺度理解单元3060;训练检索请求编码单元3070;训练度量单元3080;距离损失单元3090;节俭分解鼓励损失单元3100;以及,训练单元3110。
其中,所述训练数据获取单元3010,用于获取训练数据,所述训练数据为专利数据库中各篇专利和训练用专利检索请求;所述训练分段子单元3020,用于对所述各篇专利的文本数据进行分段处理以得到对应于各篇专利的段序列;所述训练段语义编码单元3030,用于将所述对应于各篇专利的段序列中各个段进行分词处理后通过所述包含嵌入层的上下文编码器以得到对应于各个段的训练段语义特征向量;所述训练专利图像特征提取单元3040,用于将所述各篇专利的图片数据通过所述作为过滤器的卷积神经网络以得到训练图片理解特征向量;所述训练上下文增广单元3050,用于以所述训练图片理解特征向量作为插值单元插入到每两个所述训练段语义特征向量之间以得到训练多模态特征向量;以及,所述训练多尺度理解单元3060,用于将所述训练多模态特征向量通过多尺度邻域特征提取模块以得到训练专利理解特征向量;所述训练检索请求编码单元3070,用于通过所述包含嵌入层的上下文编码器和所述作为过滤器的卷积神经网络将所述训练用专利检索请求转化为训练检索请求理解特征向量;所述训练度量单元3080,用于计算所述训练检索请求理解特征向量和所述训练专利理解特征向量之间的距离;所述距离损失单元3090,用于计算所述训练检索请求理解特征向量和所述训练专利理解特征向量之间的距离与真实距离之间的方差作为距离损失函数值;所述节俭分解鼓励损失单元3100,用于计算所述训练图片理解特征向量和所述训练段语义特征向量之间节俭分解鼓励损失值;以及,所述训练单元3110,用于基于所述节俭分解鼓励损失值和所述距离损失函数值的加权和对所述包含嵌入层的上下文编码器、所述多尺度邻域提取模块、所述作为过滤器的卷积神经网络进行训练。
图6为根据本申请实施例的基于语义理解的知识产权检索系统300中训练模块的系统架构图。如图6所示,在所述基于语义理解的知识产权检索系统300的系统架构中,在训练过程中,首先通过首先通过所述训练数据获取单元3010获取训练数据,所述训练数据为专利数据库中各篇专利和训练用专利检索请求;然后,所述训练分段子单元3020对所述各篇专利的文本数据进行分段处理以得到对应于各篇专利的段序列;所述训练段语义编码单元3030将所述对应于各篇专利的段序列中各个段进行分词处理后通过所述包含嵌入层的上下文编码器以得到对应于各个段的训练段语义特征向量;接着,所述训练专利图像特征提取单元3040将所述各篇专利的图片数据通过所述作为过滤器的卷积神经网络以得到训练图片理解特征向量;同时,所述训练上下文增广单元3050以所述训练图片理解特征向量作为插值单元插入到每两个所述训练段语义特征向量之间以得到训练多模态特征向量;所述训练多尺度理解单元3060将所述训练多模态特征向量通过多尺度邻域特征提取模块以得到训练专利理解特征向量;所述训练检索请求编码单元3070,用于分别计算所述检索请求理解特征向量和对应于各篇专利的专利理解特征向量之间的距离;所述训练度量单元3080用于计算所述训练检索请求理解特征向量和所述训练专利理解特征向量之间的距离;所述距离损失单元3090计算所述训练检索请求理解特征向量和所述训练专利理解特征向量之间的距离与真实距离之间的方差作为距离损失函数值;所述节俭分解鼓励损失单元3100,用于计算所述训练图片理解特征向量和所述训练段语义特征向量之间节俭分解鼓励损失值;所述训练单元3100基于所述节俭分解鼓励损失值和所述距离损失函数值的加权和对所述包含嵌入层的上下文编码器、所述多尺度邻域提取模块、所述作为过滤器的卷积神经网络进行训练。
特别地,在本申请的技术方案中,以所述图像理解特征向量作为插值单元插入到所述各个段语义理解特征向量中可以丰富段与段之间的上下文信息,但是,由于所获得的所述多模态特征向量需要通过多尺度邻域特征提取模块以得到专利理解特征向量,因此期望所述多模态特征向量能够在级联的各向量之间具有维度单调性,以避免所述专利理解特征向量的维度发散,影响后续距离计算的准确性。
由此,对所述图像理解特征向量和各个段语义理解特征向量引入用于提高维度单调性的对象的节俭分解(parsimonious decomposition)鼓励损失函数,表示为:
其中,到分别表示所述训练图片理解特征向量和各个所述训练段语义特征向量中的每个特征向量,表示所述训练图片理解特征向量和各个所述训练段语义特征向量中的每个特征向量的第个位置的特征值,表示二范数,表示函数激活,表示惩罚因数。
也就是,对所述图像理解特征向量和各个段语义理解特征向量中的每个特征向量,即到,在特征向量的维度方向上对其进行分组,并以共同的惩罚因数对组内元素的重叠施加惩罚,并将对于每个特征向量所获得的值排列为的向量,以函数激活后计算向量的二范数,并以此作为损失函数来更新卷积神经网络模型和上下文编码的参数。这样,就可以通过计算符号化函数的距离式联合来促进级联的特征向量所表示的高维流形的节俭分解,这可以理解为基于凸多面体的集合来构建高维流形的几何形状,由此提高级联的特征向量所表示的高维流形,即所述多模态特征向量的高维流形的维度单调性,进而提高分类的准确性。这样,能够对用户输入的专利检索请求以及专利数据库中各篇专利进行更为精准地理解,进而更为准确地评估检索请求与专利文本之间的适配度,以返回给用户更为精准的检索结果。
综上,根据本申请实施例的基于基于语义理解的知识产权检索系统300被阐明,其通过使用深度神经网络模型来对于不同模态的数据,即专利数据库中各个专利文本的文本数据和专利附图以及用户的专利检索请求中的文本数据和图像数据进行深层特征挖掘并进行融合,接着通过度量的方式来评估检索请求与专利文本之间的适配度,通过这样的方式来提升专利检索的匹配精准度和查询便利性。
如上所述,根据本申请实施例的基于语义理解的知识产权检索系统可以实现在各种终端设备中。在一个示例中,根据本申请实施例的基于语义理解的知识产权检索系统300可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该基于语义理解的知识产权检索系统300可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于语义理解的知识产权检索系统300同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基于语义理解的知识产权检索系统300与该终端设备也可以是分立的设备,并且该基于语义理解的知识产权检索系统300可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性方法:图7为根据本申请实施例的基于语义理解的知识产权检索方法的流程图。如图7所示,根据本申请实施例的基于语义理解的知识产权检索方法,包括步骤:S110,提取专利数据库中各篇专利的文本数据和图片数据;S120,基于所述各篇专利的文本数据和图片数据生成对应于各篇专利的专利理解特征向量;S130,获取用户输入的专利检索请求;S140,将所述专利检索请求中的文本数据通过经训练完成的包含嵌入层的上下文编码器以得到检索请求文本理解特征向量;S150,将所述专利检索请求中的图像数据通过经训练完成的作为过滤器的卷积神经网络以得到检索请求图像理解特征向量;S160,将所述检索请求文本理解特征向量和所述检索请求图像理解特征向量进行级联以得到检索请求理解特征向量;S170,分别计算所述检索请求理解特征向量和对应于各篇专利的专利理解特征向量之间的距离;以及,S180,基于所述距离,返回专利检索结果。
在一个示例中,在上述基于语义理解的知识产权检索方法中,所述步骤S120,包括:对所述各篇专利的文本数据进行分段处理以得到对应于各篇专利的段序列;将所述对应于各篇专利的段序列中各个段进行分词处理后通过所述包含嵌入层的上下文编码器以得到对应于各个段的段语义特征向量;将所述各篇专利的图片数据通过所述作为过滤器的卷积神经网络以得到图片理解特征向量;以所述图片理解特征向量作为插值单元插入到每两个所述段语义特征向量之间以得到多模态特征向量;以及,将所述多模态特征向量通过多尺度邻域特征提取模块以得到所述专利理解特征向量。其中,所述段语义编码子单元,进一步用于:将所述对应于各篇专利的段序列中各个段进行分词处理以得到对应于各个段的词序列;使用所述上下文编码器的嵌入层将所述对应于各个段的词序列中各个词分别转化为词嵌入向量以得到词嵌入向量的序列;以及,使用所述上下文编码器的基于转换器的Bert模型对所述词嵌入向量的序列进行基于全局的上下文语义编码以得到多个词语义特征向量;以及,将所述多个词语义特征向量进行级联以得到所述对应于各个段的段语义特征向量。所述多尺度理解子单元,包括:第一尺度理解二级子单元,用于将所述多模态特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一邻域尺度专利理解特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;第二尺度理解二级子单元,用于将所述多模态特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二邻域尺度专利理解特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及,多尺度级联二级子单元,用于将所述第一邻域尺度专利理解特征向量和所述第二邻域尺度专利理解特征向量进行级联以得到所述专利理解特征向量。所述第一尺度理解二级子单元,进一步用于:使用所述多尺度邻域特征提取模块的第一卷积层以如下公式对所述多模态特征向量进行一维卷积编码以得到第一邻域尺度专利理解特征向量;其中,所述公式为:
其中,a为第一卷积核在x方向上的宽度、为第一卷积核参数向量、为与卷积核函数运算的局部向量矩阵,为第一卷积核的尺寸,表示所述多模态特征向量;所述第一尺度理解二级子单元,进一步用于:使用所述多尺度邻域特征提取模块的第二卷积层以如下公式对所述多模态特征向量进行一维卷积编码以得到所述第二邻域尺度专利理解特征向量;其中,所述公式为:其中,为第二卷积核在方向上的宽度、为第二卷积核参数向量、为与卷积核函数运算的局部向量矩阵,为第二卷积核的尺寸,表示所述多模态特征向量。
在一个示例中,在上述基于语义理解的知识产权检索方法中,所述步骤S180,进一步用于:基于所述欧式距离与预定阈值之间的比较,返回所述专利检索结果。
综上,根据本申请实施例的基于语义理解的知识产权检索方法被阐明,其通过使用深度神经网络模型来对于不同模态的数据,即专利数据库中各个专利文本的文本数据和专利附图以及用户的专利检索请求中的文本数据和图像数据进行深层特征挖掘,并在融了各个多模态特征后,通过度量的方式来评估检索请求与专利文本之间的适配度,基于评估出的适配度来进行专利检索的分类匹配,进而提高分类的准确性。
示例性电子设备:下面,参考图8来描述根据本申请实施例的电子设备。
图8为根据本申请实施例的电子设备的框图。
如图8所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的基于语义理解的知识产权检索系统中的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如检索请求图像理解特征向量等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括检索结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图8中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质:除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性系统”部分中描述的根据本申请各种实施例的基于语义理解的知识产权检索方法中的功能中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性系统”部分中描述的根据本申请各种实施例的基于语义理解的知识产权检索方法中的功能中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (9)
1.一种基于语义理解的知识产权检索系统,其特征在于,包括:
专利数据采集单元,用于提取专利数据库中各篇专利的文本数据和图片数据;
专利数据编码单元,用于基于所述各篇专利的文本数据和图片数据生成对应于各篇专利的专利理解特征向量;
检索请求获取单元,用于获取用户输入的专利检索请求;
检索请求文本编码单元,用于将所述专利检索请求中的文本数据通过经训练完成的包含嵌入层的上下文编码器以得到检索请求文本理解特征向量;
检索请求图像编码单元,用于将所述专利检索请求中的图像数据通过经训练完成的作为过滤器的卷积神经网络以得到检索请求图像理解特征向量;
级联单元,用于将所述检索请求文本理解特征向量和所述检索请求图像理解特征向量进行级联以得到检索请求理解特征向量;
度量单元,用于分别计算所述检索请求理解特征向量和对应于各篇专利的专利理解特征向量之间的距离;以及
检索结果生成单元,用于基于所述距离,返回专利检索结果;
其中,所述专利数据编码单元,包括:
分段子单元,用于对所述各篇专利的文本数据进行分段处理以得到对应于各篇专利的段序列;
段语义编码子单元,用于将所述对应于各篇专利的段序列中各个段进行分词处理后通过所述包含嵌入层的上下文编码器以得到对应于各个段的段语义特征向量;
专利图像特征提取子单元,用于将所述各篇专利的图片数据通过所述作为过滤器的卷积神经网络以得到图片理解特征向量;
上下文增广子单元,用于以所述图片理解特征向量作为插值单元插入到每两个所述段语义特征向量之间以得到多模态特征向量;以及
多尺度理解子单元,用于将所述多模态特征向量通过多尺度邻域特征提取模块以得到所述专利理解特征向量。
2.根据权利要求1所述的基于语义理解的知识产权检索系统,其特征在于,所述段语义编码子单元,进一步用于:
将所述对应于各篇专利的段序列中各个段进行分词处理以得到对应于各个段的词序列;
使用所述上下文编码器的嵌入层将所述对应于各个段的词序列中各个词分别转化为词嵌入向量以得到词嵌入向量的序列;以及
使用所述上下文编码器的基于转换器的Bert模型对所述词嵌入向量的序列进行基于全局的上下文语义编码以得到多个词语义特征向量;以及
将所述多个词语义特征向量进行级联以得到所述对应于各个段的段语义特征向量。
3.根据权利要求2所述的基于语义理解的知识产权检索系统,其特征在于,所述多尺度理解子单元,包括:
第一尺度理解二级子单元,用于将所述多模态特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一邻域尺度专利理解特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;
第二尺度理解二级子单元,用于将所述多模态特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二邻域尺度专利理解特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及
多尺度级联二级子单元,用于将所述第一邻域尺度专利理解特征向量和所述第二邻域尺度专利理解特征向量进行级联以得到所述专利理解特征向量。
4.根据权利要求3所述的基于语义理解的知识产权检索系统,其特征在于,所述第一尺度理解二级子单元,进一步用于:使用所述多尺度邻域特征提取模块的第一卷积层以如下公式对所述多模态特征向量进行一维卷积编码以得到第一邻域尺度专利理解特征向量;
其中,所述公式为:
其中,a为第一卷积核在x方向上的宽度、F(a)为第一卷积核参数向量、G(x-a)为与卷积核函数运算的局部向量矩阵,w为第一卷积核的尺寸,X表示所述多模态特征向量;
所述第一尺度理解二级子单元,进一步用于:使用所述多尺度邻域特征提取模块的第二卷积层以如下公式对所述多模态特征向量进行一维卷积编码以得到所述第二邻域尺度专利理解特征向量;
其中,所述公式为:
其中,b为第二卷积核在x方向上的宽度、F(b)为第二卷积核参数向量、G(x-b)为与卷积核函数运算的局部向量矩阵,m为第二卷积核的尺寸,X表示所述多模态特征向量。
5.根据权利要求4所述的基于语义理解的知识产权检索系统,其特征在于,所述度量单元,进一步用于分别计算所述检索请求理解特征向量和所述对应于各篇专利的专利理解特征向量之间的欧式距离。
6.根据权利要求5所述的基于语义理解的知识产权检索系统,其特征在于,所述检索结果生成单元,进一步用于:基于所述欧式距离与预定阈值之间的比较,返回所述专利检索结果。
7.根据权利要求6所述的基于语义理解的知识产权检索系统,其特征在于,还包括训练模块,用于对所述包含嵌入层的上下文编码器、所述多尺度邻域提取模块、所述作为过滤器的卷积神经网络进行训练;
其中,所述训练模块,包括:
训练数据获取单元,用于获取训练数据,所述训练数据为专利数据库中各篇专利和训练用专利检索请求;
训练分段子单元,用于对所述各篇专利的文本数据进行分段处理以得到对应于各篇专利的段序列;
训练段语义编码单元,用于将所述对应于各篇专利的段序列中各个段进行分词处理后通过所述包含嵌入层的上下文编码器以得到对应于各个段的训练段语义特征向量;
训练专利图像特征提取单元,用于将所述各篇专利的图片数据通过所述作为过滤器的卷积神经网络以得到训练图片理解特征向量;
训练上下文增广单元,用于以所述训练图片理解特征向量作为插值单元插入到每两个所述训练段语义特征向量之间以得到训练多模态特征向量;以及
训练多尺度理解单元,用于将所述训练多模态特征向量通过多尺度邻域特征提取模块以得到训练专利理解特征向量;
训练检索请求编码单元,用于通过所述包含嵌入层的上下文编码器和所述作为过滤器的卷积神经网络将所述训练用专利检索请求转化为训练检索请求理解特征向量;
训练度量单元,用于计算所述训练检索请求理解特征向量和所述训练专利理解特征向量之间的距离;
距离损失单元,用于计算所述训练检索请求理解特征向量和所述训练专利理解特征向量之间的距离与真实距离之间的方差作为距离损失函数值;
节俭分解鼓励损失单元,用于计算所述训练图片理解特征向量和所述训练段语义特征向量之间节俭分解鼓励损失值;以及
训练单元,用于基于所述节俭分解鼓励损失值和所述距离损失函数值的加权和对所述包含嵌入层的上下文编码器、所述多尺度邻域提取模块、所述作为过滤器的卷积神经网络进行训练。
9.一种基于语义理解的知识产权检索方法,其特征在于,包括:
提取专利数据库中各篇专利的文本数据和图片数据;
基于所述各篇专利的文本数据和图片数据生成对应于各篇专利的专利理解特征向量;
获取用户输入的专利检索请求;
将所述专利检索请求中的文本数据通过经训练完成的包含嵌入层的上下文编码器以得到检索请求文本理解特征向量;
将所述专利检索请求中的图像数据通过经训练完成的作为过滤器的卷积神经网络以得到检索请求图像理解特征向量;
将所述检索请求文本理解特征向量和所述检索请求图像理解特征向量进行级联以得到检索请求理解特征向量;
分别计算所述检索请求理解特征向量和对应于各篇专利的专利理解特征向量之间的距离;以及
基于所述距离,返回专利检索结果;
其中,所述基于所述各篇专利的文本数据和图片数据生成对应于各篇专利的专利理解特征向量,包括:
对所述各篇专利的文本数据进行分段处理以得到对应于各篇专利的段序列;
将所述对应于各篇专利的段序列中各个段进行分词处理后通过所述包含嵌入层的上下文编码器以得到对应于各个段的段语义特征向量;
将所述各篇专利的图片数据通过所述作为过滤器的卷积神经网络以得到图片理解特征向量;
以所述图片理解特征向量作为插值单元插入到每两个所述段语义特征向量之间以得到多模态特征向量;以及
将所述多模态特征向量通过多尺度邻域特征提取模块以得到所述专利理解特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211190179.2A CN115269882B (zh) | 2022-09-28 | 2022-09-28 | 基于语义理解的知识产权检索系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211190179.2A CN115269882B (zh) | 2022-09-28 | 2022-09-28 | 基于语义理解的知识产权检索系统及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115269882A CN115269882A (zh) | 2022-11-01 |
CN115269882B true CN115269882B (zh) | 2022-12-30 |
Family
ID=83757190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211190179.2A Active CN115269882B (zh) | 2022-09-28 | 2022-09-28 | 基于语义理解的知识产权检索系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115269882B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115617956A (zh) * | 2022-12-16 | 2023-01-17 | 北京知呱呱科技服务有限公司 | 一种基于多模态注意力图谱的专利检索方法及系统 |
CN116467485B (zh) * | 2023-03-31 | 2024-06-04 | 沈阳甄视智能科技有限公司 | 一种视频图像检索构建系统及其方法 |
CN117421393B (zh) * | 2023-12-18 | 2024-04-09 | 知呱呱(天津)大数据技术有限公司 | 一种用于专利的生成式检索方法及系统 |
CN118069818B (zh) * | 2024-04-22 | 2024-07-12 | 华南理工大学 | 一种基于大语言模型增强的知识问答方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076433A (zh) * | 2021-04-26 | 2021-07-06 | 支付宝(杭州)信息技术有限公司 | 具有多模态信息的检索对象的检索方法和装置 |
CN113297410A (zh) * | 2021-07-26 | 2021-08-24 | 广东众聚人工智能科技有限公司 | 一种图像检索方法、装置、计算机设备及存储介质 |
EP3896581A1 (en) * | 2020-04-14 | 2021-10-20 | Naver Corporation | Learning to rank with cross-modal graph convolutions |
CN114461890A (zh) * | 2021-12-15 | 2022-05-10 | 中山大学 | 分层多模态的知识产权搜索引擎方法与系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210012061A1 (en) * | 2019-07-12 | 2021-01-14 | Nec Laboratories America, Inc. | Supervised cross-modal retrieval for time-series and text using multimodal triplet loss |
-
2022
- 2022-09-28 CN CN202211190179.2A patent/CN115269882B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3896581A1 (en) * | 2020-04-14 | 2021-10-20 | Naver Corporation | Learning to rank with cross-modal graph convolutions |
CN113076433A (zh) * | 2021-04-26 | 2021-07-06 | 支付宝(杭州)信息技术有限公司 | 具有多模态信息的检索对象的检索方法和装置 |
CN113297410A (zh) * | 2021-07-26 | 2021-08-24 | 广东众聚人工智能科技有限公司 | 一种图像检索方法、装置、计算机设备及存储介质 |
CN114461890A (zh) * | 2021-12-15 | 2022-05-10 | 中山大学 | 分层多模态的知识产权搜索引擎方法与系统 |
Non-Patent Citations (1)
Title |
---|
基于外观设计专利的多模态图像检索;李晴晴等;《计算机工程与设计》;20160916(第09期);197-202 * |
Also Published As
Publication number | Publication date |
---|---|
CN115269882A (zh) | 2022-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | A survey on deep learning for named entity recognition | |
CN115269882B (zh) | 基于语义理解的知识产权检索系统及其方法 | |
CN115203380B (zh) | 基于多模态数据融合的文本处理系统及其方法 | |
CN113792818B (zh) | 意图分类方法、装置、电子设备及计算机可读存储介质 | |
Wang et al. | Self-constraining and attention-based hashing network for bit-scalable cross-modal retrieval | |
Ayesha et al. | Automatic medical image interpretation: State of the art and future directions | |
Liu et al. | Sentiment analysis for e-commerce product reviews by deep learning model of Bert-BiGRU-Softmax | |
KR101754473B1 (ko) | 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템 | |
CN110704621A (zh) | 文本处理方法、装置及存储介质和电子设备 | |
CN113887215A (zh) | 文本相似度计算方法、装置、电子设备及存储介质 | |
US20230368256A1 (en) | Methods and systems for predicting a price of any subtractively manufactured part utilizing artificial intelligence at a computing device | |
CN112734881A (zh) | 基于显著性场景图分析的文本合成图像方法及系统 | |
CN113886571A (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
US20230138014A1 (en) | System and method for performing a search in a vector space based search engine | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN114358020A (zh) | 疾病部位识别方法、装置、电子设备及存储介质 | |
CN114639109A (zh) | 一种图像处理方法、装置、电子设备和存储介质 | |
Du et al. | From plane to hierarchy: Deformable transformer for remote sensing image captioning | |
Sabri | Arabic image captioning using deep learning with attention | |
CN112800217A (zh) | 基于向量关联性矩阵的政务事务处理报告的智能评估方法 | |
CN117018632A (zh) | 游戏平台智能管理方法、系统及存储介质 | |
Agarwal et al. | From methods to datasets: A survey on Image-Caption Generators | |
CN113157892A (zh) | 用户意图处理方法、装置、计算机设备及存储介质 | |
CN112948536A (zh) | 网页简历页面的信息抽取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |