CN112836010A - 用于专利的检索方法、存储介质及装置 - Google Patents
用于专利的检索方法、存储介质及装置 Download PDFInfo
- Publication number
- CN112836010A CN112836010A CN202011141538.6A CN202011141538A CN112836010A CN 112836010 A CN112836010 A CN 112836010A CN 202011141538 A CN202011141538 A CN 202011141538A CN 112836010 A CN112836010 A CN 112836010A
- Authority
- CN
- China
- Prior art keywords
- patents
- neural network
- feature vector
- retrieved
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 111
- 238000003062 neural network model Methods 0.000 claims abstract description 43
- 230000004927 fusion Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims description 29
- 238000010606 normalization Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Tourism & Hospitality (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Technology Law (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了用于专利的检索方法、存储介质及装置,涉及计算机技术领域。该方法包括:根据预先建立的神经网络模型分别对待检索专利进行语义和表面信息的特征抽取,将得到的语义特征向量和表面信息特征向量进行拼接,得到融合特征向量;根据融合特征向量从预设的特征数据库中匹配相似度满足预设相似度条件的专利,得到检索结果。本发明适用于专利文件的相似文本的检索,能够得到准确的检索结果,能够充分挖掘不同专利之间的关联性,从而提高检索结果的可信度。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及用于专利的检索方法、存储介质 及装置。
背景技术
目前,专利文本的检索主要是通过构建检索式进行的检索,检索式通常 由核心关键词构成,目前的检索方式是基于检索式中的核心关键词,匹配包 含这些核心关键词的专利,而不同的关键词可能存在一定的层级和等效关 系,如检索“机器”,其等效替换词可以为“装置、器械、设备、机械”等, 如果在检索时不能全面覆盖这些等效替换词和存在上下位关系的替换词的 各种组合,就可能存在检索不够全面的问题,导致检索结果不够准确,仅靠 专利中是否包含核心关键词的方式进行检索,找到的也仅仅是核心关键词存 在重叠的专利,其实质内容可能关联度不大,导致检索结果可信度低。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供用于专利的检 索方法、存储介质及装置。
本发明解决上述技术问题的技术方案如下:
一种用于专利的检索方法,包括:
根据预先建立的神经网络模型分别对待检索专利进行语义和表面信息 的特征抽取,将得到的语义特征向量和表面信息特征向量进行拼接,得到融 合特征向量;
根据所述融合特征向量从预设的特征数据库中匹配相似度满足预设相 似度条件的专利,得到检索结果。
作为本发明的一个较佳实现方式,所述神经网络模型包括深度神经网络 模型、浅层神经网络模型和特征融合层,所述深度神经网络模型用于提取所 述待检索专利的语义特征向量;所述浅层神经网络模型用于提取所述待检索 专利的文本表面信息特征向量,所述文本表面信息特征向量包括词频向量和 词向量;所述特征融合层用于将所述语义特征向量、所述词频向量和所述词 向量按照预设拼接规则进行拼接,得到融合特征向量。
其中,在神经网络模型中将浅层模型和深层模型进行组合,浅层模型负 责挖掘待检索专利的文本的表面信息,深层模型负责挖掘待检索专利的深层 语义信息,二者相结合可以达到最优的效果,从而提高检索准确率。
作为本发明的另一个较佳实现方式,根据预先建立的神经网络模型分别 对待检索专利进行语义和表面信息的特征抽取之前,还可以从专利库中选择 hard正样本和semi-hard负样本作为训练集,对所述神经网络模型进行训练, 并通过对比损失函数计算损失值,根据所述损失值调整优化所述神经网络模 型。
优选地,作为训练使用的正样本,可以更有针对性的选择神经网络模型 当前判断效果不佳的作为训练样本。
例如,对于semi-hard负样本,可以利用专利的IPC分类号,在不同领 域选择负例,保证训练样本覆盖到专利的不同领域。
还可以更有针对性的选择训练数据,例如,分别在不同的领域选择负例, 以防止在同一个领域选择太多相似的负例,从而让模型更快的收敛。
本发明解决上述技术问题的另一种技术方案如下:
一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时, 使所述计算机执行如上述技术方案所述的用于专利的检索方法。
一种用于专利的检索装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,实现如权上述技术方案所述的用于 专利的检索方法。
本发明的有益效果是:本发明提供的检索方法,适用于专利文件的相似 文本的检索,通过抽取专利文本的语义和表面信息的特征,将得到的特征进 行拼接,以拼接得到的融合的特征向量作为检索依据,预设的特征数据库中 匹配相似的专利,能够得到准确的检索结果,由于融合特征向量中既包含语 义信息,又包含词的表面信息,因此能够充分挖掘不同专利之间的关联性, 从而提高检索结果的可信度。
本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的 描述中变得明显,或通过本发明实践了解到。
附图说明
图1为本发明用于专利的检索方法的实施例提供的检索流程示意图;
图2为本发明用于专利的检索方法的其他实施例提供的模型训练流程示 意图;
图3为本发明用于专利的检索方法的其他实施例提供的整体流程示意 图;
图4为本发明用于专利的检索装置的实施例提供的结构框架图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实施例只用于解释 本发明,并非用于限定本发明的范围。
如图1所示,为本发明用于专利的检索方法的实施例提供的检索流程示 意图,该检索方法用于专利的检索,包括:
S1,根据预先建立的神经网络模型分别对待检索专利进行语义和表面信 息的特征抽取,将得到的语义特征向量和表面信息特征向量进行拼接,得到 融合特征向量。
需要说明的是,可以使用深层网络挖掘不同的专利在语义上的相似程 度,使用浅层网络根据文本的表面信息判断文本的相似程度,文本的表面信 息可以为每个独立的词在某篇专利中出现的频率,或者同一个独立的词在不 同专利中出现的频率等表明文本表面的信息而非语义的信息。例如,如果两 篇专利文本的词语分布越接近,相似度越高,但是难以发掘到语序以及深层 的语义信息。
如表1所示,给出了不同的模型的召回率对比,可以看出,将浅层模型 和深层模型进行组合,可以达到最优的效果。
表1
其中,BERT模型为深层模型,word2vec模型和tfidf模型为浅层模型。
基于此,本发明对于语义的挖掘可以使用预训练的BERT模型,BERT 模型是谷歌推出的基于transformer的深度模型,在大规模的语料上做了预训 练,使用最后一层的向量作为输出,输出包含语义信息的特征向量。
对于表面信息的挖局可以使用word2vec模型和tfidf模型,可以使用 word2vec模型得到词向量,使用tfidf模型得到词频向量,词频向量和词向 量就是表面信息。
对于word2vec模型,可以使用专利文本数据进行训练,利用word2vec 模型可以得到从词到词向量的映射关系,然后通过卷积层和池化层,可以将 词向量转换为文档向量。
应理解,池化层可以为广义平均池化,本发明可以使用一维的池化层, 在文档长度方向求平均,用到广义平均,可以将p值作为一个可调参数,应 用在全局池化层,通过训练数据自动调整p的取值,从而实现自动权衡全局 特征与局部特征的重要性,达到既考虑全局特征,也自适应强化感兴趣局部 区域的目的。
下面对于p的取值进行说明。
假设p是一个为零实数,那么可以定义实数x1,…,xn的p次幂平均为:
其中,p的取值不同代表不同的效果:
从上式可以看出,当p取负无穷时,效果相当于取min最小值,p取1 时相当于average算术平均,p取正无穷时相当于max最大值。因此,通过 引入p值,可以解决最大池化层过分关注局部、平均池化层过分关注全局的 问题,能够针对训练数据分布情况,自动平衡对全局/局部的关注度。
通过引入p值,可以解决最大池化层过分关注局部、平均池化层过分关 注全局的问题,能够针对我们的训练数据分布情况,自动平衡对全局/局部的 关注度。
对于tfidf模型,可以分别计算词频、文档频、文档长度归一值,然后计 算得到词频向量。
词频tf(t):
tf(t)=sqrt(frequency(t))
其中,frequency(t)为词语t在当前文本中出现的个数,sqrt为平方根计 算。
文档频idf(t):
其中,numDocs为文档总数,docFreq(t)为词语t一共在几个文档中出现 过,文档总数可以为专利库中的所有专利总数,例如,以国内专利库为例, 可以为发明和实用新型的总数。
文档长度归一值fieldNorm:
其中,numTerms为文档的长度。
然后可以将词频、文档频和文档长度归一值进行拼接,从而得到词频向 量,例如,可以直接将词频、文档频和文档长度归一值相乘,得到词频向量, 将三者相乘:tf*idf*fieldNorm,得到的向量再用全连接层降维,便得到词频 向量。
如图2所示,在分别通过BERT模型、word2vec模型和tfidf模型得到 对应的语义向量、词向量和词频向量后,可以将三个向量进行拼接,从而得 到融合向量。
其中textcnn模型用于词向量的卷积。
例如,可以将语义向量、词向量和词频向量首尾相接,得到融合向量; 也可以将语义向量、词向量和词频向量相乘,得到融合向量;也可以使用不 同的权重将三者加权后相乘或相加,得到融合特征向量。
S2,根据融合特征向量从预设的特征数据库中匹配相似度满足预设相似 度条件的专利,得到检索结果。
需要说明的是,预设的特征数据库中存储有一定数量专利的融合特征向 量,融合特征向量与专利是一一对应的关系。通过特征匹配的方式,就能够 确定两篇专利之间的相似度,可以通过预先开发的检索插件实现特征匹配。
如图3所示,提供了一种示例性的整体流程示意图,本发明分为离线阶 段和在先阶段两部分,离线阶段构建特征数据库,在先阶段可以检索专利。
离线阶段:预处理->神经网络模型抽特征->构建特征数据库
在线阶段:待检索文本->预处理->神经网络模型抽特征->在数据库中做 相似度计算->排序得到检索结果
本实施例提供的检索方法,适用于专利文件的相似文本的检索,通过抽 取专利文本的语义和表面信息的特征,将得到的特征进行拼接,以拼接得到 的融合的特征向量作为检索依据,预设的特征数据库中匹配相似的专利,能 够得到准确的检索结果,由于融合特征向量中既包含语义信息,又包含词的 表面信息,因此能够充分挖掘不同专利之间的关联性,从而提高检索结果的 可信度。
可选地,在一些可能的实施方式中,神经网络模型包括深度神经网络模 型、浅层神经网络模型和特征融合层,深度神经网络模型用于提取待检索专 利的语义特征向量;浅层神经网络模型用于提取待检索专利的文本表面信息 特征向量,文本表面信息特征向量包括词频向量和词向量;特征融合层用于 将语义特征向量、词频向量和词向量按照预设拼接规则进行拼接,得到融合 特征向量。
通过在神经网络模型中将浅层模型和深层模型进行组合,可以达到最优 的效果,提高检索准确率。
可选地,深度神经网络模型可以为BERT模型,浅层神经网络模型可以 为word2vec模型和tfidf模型,word2vec模型用于提取词向量,tfidf模型用 于提取词频向量。
优选地,可以通过首尾相连的方式进行拼接,假设BERT模型输出的语 义向量为001,word2vec模型输出的词向量为426,tfidf模型输出的词向量 为789,那么拼接后的融合特征向量可以为001426789。
可选地,在一些可能的实施方式中,浅层神经网络模型用于根据以下步 骤提取待检索专利的词频向量:
检测预设词在待检索专利中出现的次数,得到词频;
检测预设词在专利库中除待检索专利之外的其他专利中出现的次数,得 到文档频;
检测待检索专利的文本长度,得到文本长度归一值;
根据词频、文档频和文本长度归一值计算得到待检索专利的词频向量。
优选地,可以将词频、文档频和文本长度归一值相乘,得到词频向量。 通过这种方式计算词频向量,得到的词频向量能够充分反应出三者对词频的 影响,提高检索结果的准确度。
词频、文档频和文本长度归一值的计算方式在先实施例已经说明,不再 赘述。
可选地,在一些可能的实施方式中,如图2所示,根据预先建立的神经 网络模型分别对待检索专利进行语义和表面信息的特征抽取值之前,还包 括:
去除待检索专利的高频词、低频词、停用词以及jieba分词中的至少一 项。
可选地,在一些可能的实施方式中,根据融合特征向量从预设的特征数 据库中匹配相似度满足预设相似度条件的专利,得到检索结果,具体包括:
根据融合特征向量计算预设的特征数据库中全部特征向量对应的专利 与待检索专利的相似度;
将相似度满足预设相似度条件的专利作为待检索专利的相似专利;
将相似专利按照相似度的降序排序,作为检索结果。
需要说明的是,预设相似度条件在先实施例已说明,在此不再赘述。
可选地,在一些可能的实施方式中,如图2所示,根据预先建立的神经 网络模型分别对待检索专利进行语义和表面信息的特征抽取之前,还包括:
从专利库中选择hard正样本和semi-hard负样本作为训练集,对神经网 络模型进行训练,并通过对比损失函数计算损失值,根据损失值调整优化神 经网络模型。
通常,大多数训练任务都需要类别标签,每段文本给一个标签,通过将 模型预测值与实际标签之间的差距作为损失值,来更新网络。
而本发明中使用的对比损失函数,通过正例对、负例对进行训练,每次 训练使用多段文本之间的距离来计算得到损失值,再通过损失值来更新网 络。
优选地,可以使用申请驳回文件中的引证专利号,作为正例;在库中随 机选择非引证专利作为负例,便能完成训练。此损失函数可以使得模型对不 同文本的区分度更高。
如图2所示,在通过对比损失函数更新网络后,还包括反向传播过程, 每一批数据反向传播后,神经网络中各个参数的权重先缓存下来,并进行累 加。当累加的批次数达到一定数目后,再更新权重,防止权重更新频繁导致 神经网络动荡。
最后通过预先设置的验证集进行验证,根据验证结果决定继续下一轮训 练或停止训练。
可选地,在一些可能的实施方式中,从专利库中选择hard正样本和 semi-hard负样本作为训练集,具体包括:
根据预设选取规则从专利库中选择一篇目标专利,确定用于评价目标专 利的新颖性和/或创造性的被引证专利,分别计算每篇被引证专利与目标专利 之间的相似度,将相似度距离最远的被引证专利作为hard正样本;
确定目标专利的IPC分类号,确定目标分类层级和目标专利的领域,在 目标分类层级下,与目标专利的领域不同的其他领域分别选择目标专利的非 被引证专利,作为semi-hard负样本。
应理解,被引证专利指的是可能破坏目标专利新颖性和/或创造性的专 利,通常可以为对比文件,非被引证专利指的是不能破坏目标专利新颖性和 /或创造性的专利。
需要说明的是,预设选取规则可以根据实际需求选择设置,例如,可以 随机选取,也可以按照申请人的先后顺序依次选取。
被引证专利与目标专利之间的相似度可以通过在先实施例说明的方法 进行计算,在此不再赘述。
分类层级指的是部、分部、大类、小类、大组或小组。例如,假设目标 分类层级为部,那么对应的领域为A~H部,假设目标专利的领域为B部, 即作业、运输领域,那么可以在除B部外的其他部分别选择目标专利的非被 引证专利,作为semi-hard负样本。
本发明利用了专利的分类号标签结合hard负例来进行采样,对检索效果 提升贡献很大,通过在训练集中选择hard正样本和semi-hard负样本,使得 训练更具有针对性,从而提高了检索结果的可信度。
可选地,在一些可能的实施方式中,在目标分类层级下,与目标专利的 领域不同的其他领域分别选择目标专利的非被引证专利,作为semi-hard负 样本,具体包括:
从专利库中随机选择预设数量的目标专利的非被引证专利,其中,预设 数量大于目标分类层级下的领域数量;
通过神经网络模型计算每个非被引证专利的第一融合特征向量、目标专 利的第二融合特征向量和被引证专利的第三融合特征;
根据第一融合特征向量和第二融合特征向量计算每个非被引证专利与 目标专利之间的第一距离,并根据第二融合特征向量和第三融合特征向量计 算被引证专利与目标专利之间的第二距离;
根据第一距离的升序对全部非被引证专利排序,并去除第一距离小于第 二距离的非被引证专利,按照顺序从剩余的非被引证专利中挑选所属IPC分 类号的领域互不相同的专利,作为semi-hard负样本。
应理解,为了防止选择到太难的负例,导致模型过拟合,需要保证选择 的负例和待检索专利的距离要大于待检索专利和正例的距离。因此将所有小 于正例距离的负例去掉。
应理解,只有非被引证专利的IPC分类号还未被选择过,才选择他作为 新的负例。这样保证选择的负例足够难的同时,还能保证负例涉及的领域足 够全面,从而提高训练精度。
应理解,对于一篇专利Q,会有对应的多篇被引证专利P(Q)。在被引证 专利中,通过判断被引证专利与待检索专利的相似度,选择距离最远的作为 正样本:
Mp(Q)=argmax(||M(i)-M(Q)||)
其中i∈P(Q),即所有的引证专利。
M(i)为所有的引证专利特征向量;M(Q)为待检索专利的特征向量; Mp(Q)为选择的hard正例的特征向量。
作为训练使用的正样本,可以更有针对性的选择神经网络模型当前判断 效果不佳的作为训练样本。
对于semi-hard负样本,可以利用专利的IPC分类号,在不同领域选择 负例,保证训练样本覆盖到专利的不同领域。可以更有针对性的选择训练数 据,防止在同一个领域选择太多相似的负例,从而让模型更快的收敛。
同时为了防止选择到的负样本太难,保证选择的负样本比正样本要简 单,因此可以选择semi-hard负样本。
需要说明的是,特征向量可以通过在先实施例公开的神经网络模型处理 得到,在此不再赘述。
可以理解,在一些实施例中,可以包含如上述各实施方式中的部分或全 部。
需要说明的是,上述各实施方式是与在先方法实施例对应的产品实施 例,对于产品实施方式的说明可以参考上述各方法实施方式中的对应说明, 在此不再赘述。
在本发明的其他实施方式中还提供一种存储介质,存储介质中存储有指 令,当计算机读取指令时,使计算机执行如上述任意实施方式的用于专利的 检索方法。
如图4所示,为本发明用于专利的检索装置的实施例提供的结构框架图, 该检索装置用于专利的检索装置,可以为诸如手机、电脑、平板电脑等终端, 包括:
存储器1,用于存储计算机程序;
处理器2,用于执行计算机程序,实现如权上述任意实施方式的用于专 利的检索方法。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些 实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该 实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一 个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是 相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在 任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不 同实施例或示例的特征进行结合和组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法, 可以通过其它的方式实现。例如,以上所描述的方法实施例仅仅是示意性的, 例如,步骤的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划 分方式,例如多个步骤可以结合或者可以集成到另一个步骤,或一些特征可 以忽略,或不执行。
上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使 用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明 的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全 部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存 储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服 务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而 前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM, Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、 磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各 种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。 因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种用于专利的检索方法,其特征在于,包括:
根据预先建立的神经网络模型分别对待检索专利进行语义和表面信息的特征抽取,将得到的语义特征向量和表面信息特征向量进行拼接,得到融合特征向量;
根据所述融合特征向量从预设的特征数据库中匹配相似度满足预设相似度条件的专利,得到检索结果。
2.根据权利要求1所述的用于专利的检索方法,其特征在于,所述神经网络模型包括深度神经网络模型、浅层神经网络模型和特征融合层,所述深度神经网络模型用于提取所述待检索专利的语义特征向量;所述浅层神经网络模型用于提取所述待检索专利的文本表面信息特征向量,所述文本表面信息特征向量包括词频向量和词向量;所述特征融合层用于将所述语义特征向量、所述词频向量和所述词向量按照预设拼接规则进行拼接,得到融合特征向量。
3.根据权利要求2所述的用于专利的检索方法,其特征在于,所述浅层神经网络模型用于根据以下步骤提取所述待检索专利的词频向量:
检测预设词在所述待检索专利中出现的次数,得到词频;
检测所述预设词在专利库中除所述待检索专利之外的其他专利中出现的次数,得到文档频;
检测所述待检索专利的文本长度,得到文本长度归一值;
根据所述词频、所述文档频和所述文本长度归一值计算得到所述待检索专利的词频向量。
4.根据权利要求1所述的用于专利的检索方法,其特征在于,根据预先建立的神经网络模型分别对待检索专利进行语义和表面信息的特征抽取值之前,还包括:
去除所述待检索专利的高频词、低频词、停用词以及jieba分词中的至少一项。
5.根据权利要求1所述的用于专利的检索方法,其特征在于,根据所述融合特征向量从预设的特征数据库中匹配相似度满足预设相似度条件的专利,得到检索结果,具体包括:
根据所述融合特征向量计算预设的特征数据库中全部特征向量对应的专利与所述待检索专利的相似度;
将相似度满足预设相似度条件的专利作为所述待检索专利的相似专利;
将所述相似专利按照相似度的降序排序,作为检索结果。
6.根据权利要求1至5中任一项所述的用于专利的检索方法,其特征在于,根据预先建立的神经网络模型分别对待检索专利进行语义和表面信息的特征抽取之前,还包括:
从专利库中选择hard正样本和semi-hard负样本作为训练集,对所述神经网络模型进行训练,并通过对比损失函数计算损失值,根据所述损失值调整优化所述神经网络模型。
7.根据权利要求6所述的用于专利的检索方法,其特征在于,从专利库中选择hard正样本和semi-hard负样本作为训练集,具体包括:
根据预设选取规则从专利库中选择一篇目标专利,确定用于评价所述目标专利的新颖性和/或创造性的被引证专利,分别计算每篇所述被引证专利与所述目标专利之间的相似度,将相似度距离最远的被引证专利作为hard正样本;
确定所述目标专利的IPC分类号,确定目标分类层级和所述目标专利的领域,在所述目标分类层级下,与所述目标专利的领域不同的其他领域分别选择所述目标专利的非被引证专利,作为semi-hard负样本。
8.根据权利要求7所述的用于专利的检索方法,其特征在于,在所述目标分类层级下,与所述目标专利的领域不同的其他领域分别选择所述目标专利的非被引证专利,作为semi-hard负样本,具体包括:
从专利库中随机选择预设数量的所述目标专利的非被引证专利,其中,所述预设数量大于所述目标分类层级下的领域数量;
通过所述神经网络模型计算每个所述非被引证专利的第一融合特征向量、所述目标专利的第二融合特征向量和所述被引证专利的第三融合特征;
根据所述第一融合特征向量和所述第二融合特征向量计算每个所述非被引证专利与所述目标专利之间的第一距离,并根据所述第二融合特征向量和所述第三融合特征向量计算所述被引证专利与所述目标专利之间的第二距离;
根据所述第一距离的升序对全部所述非被引证专利排序,并去除第一距离小于所述第二距离的非被引证专利,按照顺序从剩余的非被引证专利中挑选所属IPC分类号的领域互不相同的专利,作为semi-hard负样本。
9.一种存储介质,其特征在于,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如权利要求1至8中任一项所述的用于专利的检索方法。
10.一种用于专利的检索装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,实现如权利要求1至8中任一项所述的用于专利的检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011141538.6A CN112836010B (zh) | 2020-10-22 | 2020-10-22 | 用于专利的检索方法、存储介质及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011141538.6A CN112836010B (zh) | 2020-10-22 | 2020-10-22 | 用于专利的检索方法、存储介质及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836010A true CN112836010A (zh) | 2021-05-25 |
CN112836010B CN112836010B (zh) | 2024-04-05 |
Family
ID=75923817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011141538.6A Active CN112836010B (zh) | 2020-10-22 | 2020-10-22 | 用于专利的检索方法、存储介质及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836010B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516094A (zh) * | 2021-07-28 | 2021-10-19 | 中国科学院计算技术研究所 | 一种用于为文档匹配评议专家的系统以及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010118050A (ja) * | 2008-10-17 | 2010-05-27 | Toyohashi Univ Of Technology | 特許文献自動検索システムおよび特許文献自動検索方法 |
CN106528826A (zh) * | 2016-11-18 | 2017-03-22 | 广东技术师范学院 | 一种基于深度学习的多视图外观专利图像检索方法 |
CN109376352A (zh) * | 2018-08-28 | 2019-02-22 | 中山大学 | 一种基于word2vec和语义相似度的专利文本建模方法 |
CN109840321A (zh) * | 2017-11-29 | 2019-06-04 | 腾讯科技(深圳)有限公司 | 文本推荐方法、装置及电子设备 |
CN110569351A (zh) * | 2019-09-02 | 2019-12-13 | 北京猎云万罗科技有限公司 | 一种约束性用户偏好的网络媒体新闻分类方法 |
CN110750987A (zh) * | 2019-10-28 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置及存储介质 |
WO2020124959A1 (zh) * | 2018-12-21 | 2020-06-25 | 平安科技(深圳)有限公司 | 基于交叉注意力机制的语义相似度匹配方法及其装置 |
-
2020
- 2020-10-22 CN CN202011141538.6A patent/CN112836010B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010118050A (ja) * | 2008-10-17 | 2010-05-27 | Toyohashi Univ Of Technology | 特許文献自動検索システムおよび特許文献自動検索方法 |
CN106528826A (zh) * | 2016-11-18 | 2017-03-22 | 广东技术师范学院 | 一种基于深度学习的多视图外观专利图像检索方法 |
CN109840321A (zh) * | 2017-11-29 | 2019-06-04 | 腾讯科技(深圳)有限公司 | 文本推荐方法、装置及电子设备 |
WO2019105432A1 (zh) * | 2017-11-29 | 2019-06-06 | 腾讯科技(深圳)有限公司 | 文本推荐方法、装置及电子设备 |
CN109376352A (zh) * | 2018-08-28 | 2019-02-22 | 中山大学 | 一种基于word2vec和语义相似度的专利文本建模方法 |
WO2020124959A1 (zh) * | 2018-12-21 | 2020-06-25 | 平安科技(深圳)有限公司 | 基于交叉注意力机制的语义相似度匹配方法及其装置 |
CN110569351A (zh) * | 2019-09-02 | 2019-12-13 | 北京猎云万罗科技有限公司 | 一种约束性用户偏好的网络媒体新闻分类方法 |
CN110750987A (zh) * | 2019-10-28 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
俞琰等: "结合词向量和统计特征的专利相似度测量方法", 数据分析与知识发现, vol. 03, no. 09 * |
白宇;王裴岩;蔡东风;董燕举;: "专利信息检索技术", 沈阳航空工业学院学报, no. 04 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516094A (zh) * | 2021-07-28 | 2021-10-19 | 中国科学院计算技术研究所 | 一种用于为文档匹配评议专家的系统以及方法 |
CN113516094B (zh) * | 2021-07-28 | 2024-03-08 | 中国科学院计算技术研究所 | 一种用于为文档匹配评议专家的系统以及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112836010B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106815252B (zh) | 一种搜索方法和设备 | |
CN109918657B (zh) | 一种从文本中提取目标关键词的方法 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN108288067A (zh) | 图像文本匹配模型的训练方法、双向搜索方法及相关装置 | |
CN108132927B (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN107239497B (zh) | 热门内容搜索方法和系统 | |
CN112035658B (zh) | 基于深度学习的企业舆情监测方法 | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN109408802A (zh) | 一种提升句向量语义的方法、系统及存储介质 | |
CN111813930B (zh) | 相似文档检索方法及装置 | |
CN108427686A (zh) | 文本数据查询方法及装置 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN110795613A (zh) | 商品搜索方法、装置、系统及电子设备 | |
CN111274366A (zh) | 搜索推荐方法及装置、设备、存储介质 | |
CN115248839A (zh) | 一种基于知识体系的长文本检索方法以及装置 | |
CN112836010B (zh) | 用于专利的检索方法、存储介质及装置 | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
CN114328800A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 | |
Sharma et al. | Resume Classification using Elite Bag-of-Words Approach | |
CN113505196B (zh) | 基于词性的文本检索方法、装置、电子设备及存储介质 | |
CN116127060A (zh) | 一种基于提示词的文本分类方法及系统 | |
CN115905695A (zh) | 一种结合Doc2vec和Faiss的个性化文献推荐方法 | |
CN109189915A (zh) | 一种基于深度相关匹配模型的信息检索方法 | |
CN115062135A (zh) | 一种专利筛选方法与电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100190 17-19 / F, building a 1, 66 Zhongguancun East Road, Haidian District, Beijing Applicant after: New Great Wall Technology Co.,Ltd. Address before: 100190 17-19 / F, building a 1, 66 Zhongguancun East Road, Haidian District, Beijing Applicant before: GREAT WALL COMPUTER SOFTWARE & SYSTEMS Inc. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |