CN107577799A

CN107577799A - 一种基于潜在语义检索模型的大数据专利检索方法

Info

Publication number: CN107577799A
Application number: CN201710856756.XA
Authority: CN
Inventors: 盛时永
Original assignee: Hefei Hownet Intellectual Property Operation Co Ltd
Current assignee: Hefei Hownet Intellectual Property Operation Co Ltd
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2018-01-12

Abstract

本发明提出了一种基于潜在语义检索模型的大数据专利检索方法，该方法通过从专利数据库中生成索引词‑文档矩阵，并利用奇异值分解理论对矩阵进行奇异值分解；同时对奇异值分解后的矩阵进行低阶近似；并将专利数据库中的所有文档转化为文档向量，计算出文档向量在潜在语义中的坐标；将用户提交的专利索引词转化为文档向量；最后计算出坐标与专利数据库中所有文档的坐标的相似度；排序相似度后输出前N个结果提供给用户；用户根据呈现的结果，选择所需专利，或者添加或重新输入专利检索词进行二次检索过滤。该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性，并通过相似度计算函数提高了专利检索结果的匹配度。

Description

一种基于潜在语义检索模型的大数据专利检索方法

技术领域

本发明涉及一种大数据专利检索方法，属于专利检索技术领域，具体涉及一种基于潜在语义检索模型的大数据专利检索方法。

背景技术

20世纪80年代以来，随着世界经济的发展和新技术革命的到来，专利文献作为一种既可以体现科技创新力，又可以保护科研成果不受侵犯的科技法律文献，其重要性越来越受到重视。据世界知识产权组织(WorldIntellectualPropertyOrganization)报道，专利文献包含全世界每年90％～95％的最新科研成果，其中有70％左右的发明技术从未在其他非专利文献上发表。专利文献指导技术创新，将可以节约40％的研究经费和60％的研究时间，专利已经成为了企业科技创新和投资者商业战略决策的重要科技参考文献。

中国专利数据截止到2013年底达到了600万条，超过了美国和日本，跃居世界第一。面对如此大量的专利信息，用户获取有价值信息的代价也越来越高，正是这种需求导致了专利数据各种研究工作的开展以及各种商业专利服务平台的出现。

相对传统文本而言，专利文献有其特殊性，主要表现在5个方面：

(1)复杂性。专利文献记载着技术解决方案，确定了专利权保护范围，包含很多专业性和细节性的说明，特别是专利中描述技术细节和组成结构的句子表达非常复杂，涉及多种并列结构、依存结构和嵌套结构，在做句法语义分析时也比普通文本遇到更多的挑战。

(2)规范化。专利文献相对网页有更规整的结构化信息，一是它具有统一的分类，二是专利权利说明书遵循一定的写作规范，有效地利用这些规范化信息将有助于对专利的分析。

(3)抽象性。专利作为一种技术上受保护的文献，专利发明人为了垄断技术，会使用更加抽象的上位词表达保护的覆盖范围，这些词包含各种技术术语甚至是自定义词汇，从而增加了词法处理的难度。

(4)唯一性。专利是一种独一无二的信息资源，相对于网页，专利间的文本重叠度往往很小，因此在计算专利相似度时，基于词语重叠的方法并不适用。

(5)多主题多语言。一篇专利文献经常包括多个主题，而且不同国家采用不同的语言描述专利，所以专利检索更加注重跨语言多主题的检索。

对比文件1(一种专利检索的系统和方法，CN201410787225.6)公开了一种专利检索的系统和方法，专利检索的系统包括用户信息管理模块、检索类型选择模块、检索输入模块、检索配对模块和检索输出模块,专利检索的方法包括：S1,从简单检索、高级检索和表达式检索中选择适合本次检索的检索方式,并且进入该检索的窗口；S2,在选择进入的检索方式的窗口中输入检索词,点击检索窗口进入显示窗口；S3,在检索窗口选择专利呈现的形式,并弹出呈现窗口,或者选择二次检索过滤后再次呈现；S4,选择对专利进行保存或则结束进程。该发明中的专利检索主要从功能性模块出发，并没有进行实质性的提出高效率的检索方法。

针对以上缺点，有必要设计出一种新的专利检索方法，避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性，提高专利检索结果的匹配度和关联度。

发明内容

(一)要解决的技术问题

为了解决现有技术存在的上述问题，本发明提供了一种基于潜在语义检索模型的大数据专利检索方法，该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性，提高专利检索结果的匹配度和关联度。

(二)技术方案

本发明提出了一种基于潜在语义检索模型的大数据专利检索方法，该方法包括如下步骤：

步骤S1：从专利数据库中生成一个M*N的索引词-文档矩阵W，其中M代表索引词个数，N代表所有文档数目；

步骤S2：利用奇异值分解理论对矩阵W进行奇异值分解；

步骤S3：配置k值并对奇异值分解后的矩阵进行低阶近似；

步骤S4：将专利数据库中的所有文档转化为文档向量d_j，计算出文档向量在潜在语义中的坐标X_d；

步骤S5：将用户提交的专利索引词转化为文档向量q，并计算出q在潜在语义中的坐标X_q；

步骤S6：计算坐标X_q与专利数据库中所有文档的坐标的相似度；

步骤S7：对步骤S6中计算出的相似度进行排序，输出前N个结果提供给用户；

步骤S8：用户根据呈现的结果，选择所需专利，或者添加或重新输入专利检索词进行二次检索过滤。

优选的，所述步骤S1中，矩阵W表示如下：

W＝(w_ij)

其中，w_ij代表索引词k_i在文档中的权值。w_ij由两种权值决定，分别是局部权值和全局权值。所谓“局部权值”是指第i个索引词此在文档d_j中多的权值f_ij，其中fr_ij为索引词K_i在文档中d_j中出现的次数；maxfr_j表示文档d_j中所有索引词出现次数的最大值。所谓“全局权值”是指第i个索引词在整个系统中的权值idf_i。idf_i＝log(N/n_i),其中N为专利数据库文档总数；n_i为专利数据库中含有索引词K_i的文档数。最终定义w_ij＝f_ij*idf_i。

优选的，所述骤S2中，利用矩阵理论中的“奇异值分解(SVD)”理论，对矩阵W进行奇异值分解，从而有：W＝UΣV^T，V^T是矩阵V的转置。U代表索引词之间的关联矩阵，矩阵W的奇异值按照递减顺序构成对角矩阵Σ，V为文档之间的关联矩阵，并且有UU^T＝VV^T＝I(单位矩阵)。矩阵W的奇异分解图如下：

即：W＝UΣV^T。

优选的，所述步骤S3中，矩阵Σ的前k行记为Σ_k，取U和V的前k列，分别记为U_k、V_k，重新构建W的近似矩阵W_k：W≈W_k＝U_kΣ_kV_k ^T。

优选的，所述步骤S4中，所述文档向量d_j在潜在语义中坐标计算公式如下：

X_d＝d_j ^TU_kΣ_k ^-1

优选的，所述步骤S5中，所述文档向量q在潜在语义中坐标计算公式如下：

X_q＝q^TU_kΣ_k ^-1

优选的，所述步骤S6中，所述相似度计算公式如下：

进一步的，定义阈值λ，将相似度超过阈值的文档归为一个集合。

进一步的，所述阈值λ取值范围为0.5～1.0。

优选的，所述步骤S7中N的取值范围为5～20。

(三)有益效果

从上述技术方案可以看出，本发明提出的基于潜在语义检索模型的大数据专利检索方法具有以下有益效果：

1、该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性。

2、该方法通过相似度计算函数提高了专利检索结果的匹配度和关联度。

附图说明

图1显示了本发明优选实施例的基于潜在语义检索模型的大数据专利检索方法流程图。

具体实施方式

下面结合附图，对本发明做的实施例作详细说明：本实施例在以本发明技术方案前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本发明优选实施例的基于潜在语义检索模型的大数据专利检索方法包括如下步骤：

步骤S1：从专利数据库中生成一个M*N的索引词-文档矩阵W，其中M代表索引词个数，N代表所有文档数目；其中矩阵W表示如下：

W＝(w_ij)

步骤S2：利奇异值分解理论对矩阵W进行奇异值分解；利用矩阵理论中的“奇异值分解(SVD)”理论，对矩阵W进行奇异值分解，从而有：W＝UΣV^T，V^T是矩阵V的转置。U代表索引词之间的关联矩阵，矩阵W的奇异值按照递减顺序构成对角矩阵Σ，V为文档之间的关联矩阵，并且有UU^T＝VV^T＝I(单位矩阵)。矩阵W的奇异分解图如下：

即：W＝UΣV^T。

步骤S3：配置k值并对奇异值分解后的矩阵进行低阶近似；矩阵Σ的前k行记为Σ_k，取U和V的前k列，分别记为U_k、V_k，重新构建W的近似矩阵W_k：W≈W_k＝U_kΣ_kV_k ^T。

步骤S4：将专利数据库中的所有文档转化为文档向量d_j，计算出文档向量在潜在语义中的坐标X_d；所述文档向量d_j在潜在语义中坐标计算公式如下：

X_d＝d_j ^TU_kΣ_k ^-1

步骤S5：将用户提交的专利索引词转化为文档向量q，并计算出q在潜在语义中的坐标X_q；所述文档向量q在潜在语义中坐标计算公式如下：

X_q＝q^TU_kΣ_k ^-1

步骤S6：计算坐标X_q与专利数据库中所有文档的坐标的相似度；所述相似度计算公式如下：

同时定义阈值λ，将相似度超过阈值的文档归为一个集合，且阈值λ取值范围为0.5～1.0。

步骤S7：对步骤S6中计算出的相似度进行排序，输出前N个结果提供给用户；本发明具体实施例中N的取值范围为5～20。

综上所述，本发明提出了一种基于潜在语义检索模型的大数据专利检索方法，该方法通过从专利数据库中生成一个M*N的索引词-文档矩阵，并利用奇异值分解理论对矩阵进行奇异值分解；同时配置k值并对奇异值分解后的矩阵进行低阶近似；并将专利数据库中的所有文档转化为文档向量，计算出文档向量在潜在语义中的坐标；将用户提交的专利索引词转化为文档向量q，并计算出q在潜在语义中的坐标；最后计算出坐标与专利数据库中所有文档的坐标的相似度；排序相似度后输出前N个结果提供给用户；用户根据呈现的结果，选择所需专利，或者添加或重新输入专利检索词进行二次检索过滤。该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性，并通过相似度计算函数提高了专利检索结果的匹配度和关联度。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于潜在语义检索模型的大数据专利检索方法，其特征在于，所述方法包括如下步骤：

步骤S2：利用奇异值分解理论对矩阵W进行奇异值分解；

步骤S3：配置k值并对奇异值分解后的矩阵进行低阶近似；

步骤S5：将用户提交的专利索引词转化为文档向量q，并计算出q在潜在语义中的坐标Xq；

步骤S6：计算坐标Xq与专利数据库中所有文档的坐标的相似度；

2.根据权利要求1所述的一种基于潜在语义检索模型的大数据专利检索方法，其特征在于，所述步骤S1中矩阵W表示如下：

W＝(w_ij)

其中，w_ij代表索引词k_i在文档中的权值，w_ij由两种权值决定，分别是局部权值和全局权值，所述“局部权值”是指第i个索引词此在文档d_j中多的权值f_ij，其中fr_ij为索引词K_i在文档中d_j中出现的次数；maxfr_j表示文档d_j中所有索引词出现次数的最大值，所述“全局权值”是指第i个索引词在整个系统中的权值idf_i，其中idf_i＝log(N/n_i),其中N为专利数据库文档总数；n_i为专利数据库中含有索引词K_i的文档数，且定义w_ij＝f_ij*idf_i。

3.根据权利求1所述的一种基于潜在语义检索模型的大数据专利检索方法，其特征在于，所述步骤S2中矩阵W奇异值分解具体如下：

W＝UΣV^T

其中，V^T是矩阵V的转置，U代表索引词之间的关联矩阵，矩阵W的奇异值按照递减顺序构成对角矩阵Σ，V为文档之间的关联矩阵，并且有UU^T＝VV^T＝I，I代表单位矩阵，矩阵W的奇异分解图如下：

即：W＝UΣV^T。

4.根据权利要求1所述的一种基于潜在语义检索模型的大数据专利检索方法，其特征在于，所述步骤S3中，矩阵Σ的前k行记为Σ_k，取U和V的前k列，分别记为U_k、V_k，重新构建W的近似矩阵W_k：W≈W_k＝U_kΣ_kV_k ^T。

5.根据权利要求1所述的一种基于潜在语义检索模型的大数据专利检索方法，其特征在于，所述步骤S4中，所述文档向量d_j在潜在语义中坐标计算公式如下：

X_d＝d_j ^TU_kΣ_k ^-1。

6.根据权利要求1所述的一种基于潜在语义检索模型的大数据专利检索方法，其特征在于，所述步骤S5中，所述文档向量q在潜在语义中坐标计算公式如下：

X_q＝q^TU_kΣ_k ^-1。

7.根据权利要求1所述的一种基于潜在语义检索模型的大数据专利检索方法，其特征在于，所述步骤S6中，所述相似度计算公式如下：

<mrow> <mi>S</mi> <mi>I</mi> <mi>M</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>q</mi> </msub> <mo>,</mo> <msub> <mi>X</mi> <mi>d</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>X</mi> <mi>q</mi> </msub> <mo>&CenterDot;</mo> <mi>X</mi> </mrow> <mrow> <mrow> <mo>|</mo> <msub> <mi>X</mi> <mi>q</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>X</mi> <mo>|</mo> </mrow> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>t</mi> </msubsup> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>q</mi> </mrow> </msub> </mrow> <msup> <mrow> <mo>(</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>t</mi> </msubsup> <msubsup> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> <mo>*</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>t</mi> </msubsup> <msubsup> <mi>x</mi> <mrow> <mi>i</mi> <mi>q</mi> </mrow> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> <mrow> <mn>1</mn> <mo>/</mo> <mn>2</mn> </mrow> </msup> </mfrac> <mo>.</mo> </mrow>

8.根据权利要求1所述的一种基于潜在语义检索模型的大数据专利检索方法，其特征在于，所述步骤S7中N的取值范围为5～20。