CN107577799A - 一种基于潜在语义检索模型的大数据专利检索方法 - Google Patents
一种基于潜在语义检索模型的大数据专利检索方法 Download PDFInfo
- Publication number
- CN107577799A CN107577799A CN201710856756.XA CN201710856756A CN107577799A CN 107577799 A CN107577799 A CN 107577799A CN 201710856756 A CN201710856756 A CN 201710856756A CN 107577799 A CN107577799 A CN 107577799A
- Authority
- CN
- China
- Prior art keywords
- mrow
- matrix
- potential applications
- retrieval
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于潜在语义检索模型的大数据专利检索方法,该方法通过从专利数据库中生成索引词‑文档矩阵,并利用奇异值分解理论对矩阵进行奇异值分解;同时对奇异值分解后的矩阵进行低阶近似;并将专利数据库中的所有文档转化为文档向量,计算出文档向量在潜在语义中的坐标;将用户提交的专利索引词转化为文档向量;最后计算出坐标与专利数据库中所有文档的坐标的相似度;排序相似度后输出前N个结果提供给用户;用户根据呈现的结果,选择所需专利,或者添加或重新输入专利检索词进行二次检索过滤。该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性,并通过相似度计算函数提高了专利检索结果的匹配度。
Description
技术领域
本发明涉及一种大数据专利检索方法,属于专利检索技术领域,具体涉及一种基于潜在语义检索模型的大数据专利检索方法。
背景技术
20世纪80年代以来,随着世界经济的发展和新技术革命的到来,专利文献作为一种既可以体现科技创新力,又可以保护科研成果不受侵犯的科技法律文献,其重要性越来越受到重视。据世界知识产权组织(WorldIntellectualPropertyOrganization)报道,专利文献包含全世界每年90%~95%的最新科研成果,其中有70%左右的发明技术从未在其他非专利文献上发表。专利文献指导技术创新,将可以节约40%的研究经费和60%的研究时间,专利已经成为了企业科技创新和投资者商业战略决策的重要科技参考文献。
中国专利数据截止到2013年底达到了600万条,超过了美国和日本,跃居世界第一。面对如此大量的专利信息,用户获取有价值信息的代价也越来越高,正是这种需求导致了专利数据各种研究工作的开展以及各种商业专利服务平台的出现。
相对传统文本而言,专利文献有其特殊性,主要表现在5个方面:
(1)复杂性。专利文献记载着技术解决方案,确定了专利权保护范围,包含很多专业性和细节性的说明,特别是专利中描述技术细节和组成结构的句子表达非常复杂,涉及多种并列结构、依存结构和嵌套结构,在做句法语义分析时也比普通文本遇到更多的挑战。
(2)规范化。专利文献相对网页有更规整的结构化信息,一是它具有统一的分类,二是专利权利说明书遵循一定的写作规范,有效地利用这些规范化信息将有助于对专利的分析。
(3)抽象性。专利作为一种技术上受保护的文献,专利发明人为了垄断技术,会使用更加抽象的上位词表达保护的覆盖范围,这些词包含各种技术术语甚至是自定义词汇,从而增加了词法处理的难度。
(4)唯一性。专利是一种独一无二的信息资源,相对于网页,专利间的文本重叠度往往很小,因此在计算专利相似度时,基于词语重叠的方法并不适用。
(5)多主题多语言。一篇专利文献经常包括多个主题,而且不同国家采用不同的语言描述专利,所以专利检索更加注重跨语言多主题的检索。
对比文件1(一种专利检索的系统和方法,CN201410787225.6)公开了一种专利检索的系统和方法,专利检索的系统包括用户信息管理模块、检索类型选择模块、检索输入模块、检索配对模块和检索输出模块,专利检索的方法包括:S1,从简单检索、高级检索和表达式检索中选择适合本次检索的检索方式,并且进入该检索的窗口;S2,在选择进入的检索方式的窗口中输入检索词,点击检索窗口进入显示窗口;S3,在检索窗口选择专利呈现的形式,并弹出呈现窗口,或者选择二次检索过滤后再次呈现;S4,选择对专利进行保存或则结束进程。该发明中的专利检索主要从功能性模块出发,并没有进行实质性的提出高效率的检索方法。
针对以上缺点,有必要设计出一种新的专利检索方法,避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性,提高专利检索结果的匹配度和关联度。
发明内容
(一)要解决的技术问题
为了解决现有技术存在的上述问题,本发明提供了一种基于潜在语义检索模型的大数据专利检索方法,该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性,提高专利检索结果的匹配度和关联度。
(二)技术方案
本发明提出了一种基于潜在语义检索模型的大数据专利检索方法,该方法包括如下步骤:
步骤S1:从专利数据库中生成一个M*N的索引词-文档矩阵W,其中M代表索引词个数,N代表所有文档数目;
步骤S2:利用奇异值分解理论对矩阵W进行奇异值分解;
步骤S3:配置k值并对奇异值分解后的矩阵进行低阶近似;
步骤S4:将专利数据库中的所有文档转化为文档向量dj,计算出文档向量在潜在语义中的坐标Xd;
步骤S5:将用户提交的专利索引词转化为文档向量q,并计算出q在潜在语义中的坐标Xq;
步骤S6:计算坐标Xq与专利数据库中所有文档的坐标的相似度;
步骤S7:对步骤S6中计算出的相似度进行排序,输出前N个结果提供给用户;
步骤S8:用户根据呈现的结果,选择所需专利,或者添加或重新输入专利检索词进行二次检索过滤。
优选的,所述步骤S1中,矩阵W表示如下:
W=(wij)
其中,wij代表索引词ki在文档中的权值。wij由两种权值决定,分别是局部权值和全局权值。所谓“局部权值”是指第i个索引词此在文档dj中多的权值fij,其中frij为索引词Ki在文档中dj中出现的次数;maxfrj表示文档dj中所有索引词出现次数的最大值。所谓“全局权值”是指第i个索引词在整个系统中的权值idfi。idfi=log(N/ni),其中N为专利数据库文档总数;ni为专利数据库中含有索引词Ki的文档数。最终定义wij=fij*idfi。
优选的,所述骤S2中,利用矩阵理论中的“奇异值分解(SVD)”理论,对矩阵W进行奇异值分解,从而有:W=UΣVT,VT是矩阵V的转置。U代表索引词之间的关联矩阵,矩阵W的奇异值按照递减顺序构成对角矩阵Σ,V为文档之间的关联矩阵,并且有UUT=VVT=I(单位矩阵)。矩阵W的奇异分解图如下:
即:W=UΣVT。
优选的,所述步骤S3中,矩阵Σ的前k行记为Σk,取U和V的前k列,分别记为Uk、Vk,重新构建W的近似矩阵Wk:W≈Wk=UkΣkVk T。
优选的,所述步骤S4中,所述文档向量dj在潜在语义中坐标计算公式如下:
Xd=dj TUkΣk -1
优选的,所述步骤S5中,所述文档向量q在潜在语义中坐标计算公式如下:
Xq=qTUkΣk -1
优选的,所述步骤S6中,所述相似度计算公式如下:
进一步的,定义阈值λ,将相似度超过阈值的文档归为一个集合。
进一步的,所述阈值λ取值范围为0.5~1.0。
优选的,所述步骤S7中N的取值范围为5~20。
(三)有益效果
从上述技术方案可以看出,本发明提出的基于潜在语义检索模型的大数据专利检索方法具有以下有益效果:
1、该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性。
2、该方法通过相似度计算函数提高了专利检索结果的匹配度和关联度。
附图说明
图1显示了本发明优选实施例的基于潜在语义检索模型的大数据专利检索方法流程图。
具体实施方式
下面结合附图,对本发明做的实施例作详细说明:本实施例在以本发明技术方案前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
图1显示了本发明优选实施例的基于潜在语义检索模型的大数据专利检索方法流程图。
如图1所示,本发明优选实施例的基于潜在语义检索模型的大数据专利检索方法包括如下步骤:
步骤S1:从专利数据库中生成一个M*N的索引词-文档矩阵W,其中M代表索引词个数,N代表所有文档数目;其中矩阵W表示如下:
W=(wij)
其中,wij代表索引词ki在文档中的权值。wij由两种权值决定,分别是局部权值和全局权值。所谓“局部权值”是指第i个索引词此在文档dj中多的权值fij,其中frij为索引词Ki在文档中dj中出现的次数;maxfrj表示文档dj中所有索引词出现次数的最大值。所谓“全局权值”是指第i个索引词在整个系统中的权值idfi。idfi=log(N/ni),其中N为专利数据库文档总数;ni为专利数据库中含有索引词Ki的文档数。最终定义wij=fij*idfi。
步骤S2:利奇异值分解理论对矩阵W进行奇异值分解;利用矩阵理论中的“奇异值分解(SVD)”理论,对矩阵W进行奇异值分解,从而有:W=UΣVT,VT是矩阵V的转置。U代表索引词之间的关联矩阵,矩阵W的奇异值按照递减顺序构成对角矩阵Σ,V为文档之间的关联矩阵,并且有UUT=VVT=I(单位矩阵)。矩阵W的奇异分解图如下:
即:W=UΣVT。
步骤S3:配置k值并对奇异值分解后的矩阵进行低阶近似;矩阵Σ的前k行记为Σk,取U和V的前k列,分别记为Uk、Vk,重新构建W的近似矩阵Wk:W≈Wk=UkΣkVk T。
步骤S4:将专利数据库中的所有文档转化为文档向量dj,计算出文档向量在潜在语义中的坐标Xd;所述文档向量dj在潜在语义中坐标计算公式如下:
Xd=dj TUkΣk -1
步骤S5:将用户提交的专利索引词转化为文档向量q,并计算出q在潜在语义中的坐标Xq;所述文档向量q在潜在语义中坐标计算公式如下:
Xq=qTUkΣk -1
步骤S6:计算坐标Xq与专利数据库中所有文档的坐标的相似度;所述相似度计算公式如下:
同时定义阈值λ,将相似度超过阈值的文档归为一个集合,且阈值λ取值范围为0.5~1.0。
步骤S7:对步骤S6中计算出的相似度进行排序,输出前N个结果提供给用户;本发明具体实施例中N的取值范围为5~20。
步骤S8:用户根据呈现的结果,选择所需专利,或者添加或重新输入专利检索词进行二次检索过滤。
综上所述,本发明提出了一种基于潜在语义检索模型的大数据专利检索方法,该方法通过从专利数据库中生成一个M*N的索引词-文档矩阵,并利用奇异值分解理论对矩阵进行奇异值分解;同时配置k值并对奇异值分解后的矩阵进行低阶近似;并将专利数据库中的所有文档转化为文档向量,计算出文档向量在潜在语义中的坐标;将用户提交的专利索引词转化为文档向量q,并计算出q在潜在语义中的坐标;最后计算出坐标与专利数据库中所有文档的坐标的相似度;排序相似度后输出前N个结果提供给用户;用户根据呈现的结果,选择所需专利,或者添加或重新输入专利检索词进行二次检索过滤。该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性,并通过相似度计算函数提高了专利检索结果的匹配度和关联度。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (8)
1.一种基于潜在语义检索模型的大数据专利检索方法,其特征在于,所述方法包括如下步骤:
步骤S1:从专利数据库中生成一个M*N的索引词-文档矩阵W,其中M代表索引词个数,N代表所有文档数目;
步骤S2:利用奇异值分解理论对矩阵W进行奇异值分解;
步骤S3:配置k值并对奇异值分解后的矩阵进行低阶近似;
步骤S4:将专利数据库中的所有文档转化为文档向量dj,计算出文档向量在潜在语义中的坐标Xd;
步骤S5:将用户提交的专利索引词转化为文档向量q,并计算出q在潜在语义中的坐标Xq;
步骤S6:计算坐标Xq与专利数据库中所有文档的坐标的相似度;
步骤S7:对步骤S6中计算出的相似度进行排序,输出前N个结果提供给用户;
步骤S8:用户根据呈现的结果,选择所需专利,或者添加或重新输入专利检索词进行二次检索过滤。
2.根据权利要求1所述的一种基于潜在语义检索模型的大数据专利检索方法,其特征在于,所述步骤S1中矩阵W表示如下:
W=(wij)
其中,wij代表索引词ki在文档中的权值,wij由两种权值决定,分别是局部权值和全局权值,所述“局部权值”是指第i个索引词此在文档dj中多的权值fij,其中frij为索引词Ki在文档中dj中出现的次数;maxfrj表示文档dj中所有索引词出现次数的最大值,所述“全局权值”是指第i个索引词在整个系统中的权值idfi,其中idfi=log(N/ni),其中N为专利数据库文档总数;ni为专利数据库中含有索引词Ki的文档数,且定义wij=fij*idfi。
3.根据权利求1所述的一种基于潜在语义检索模型的大数据专利检索方法,其特征在于,所述步骤S2中矩阵W奇异值分解具体如下:
W=UΣVT
其中,VT是矩阵V的转置,U代表索引词之间的关联矩阵,矩阵W的奇异值按照递减顺序构成对角矩阵Σ,V为文档之间的关联矩阵,并且有UUT=VVT=I,I代表单位矩阵,矩阵W的奇异分解图如下:
即:W=UΣVT。
4.根据权利要求1所述的一种基于潜在语义检索模型的大数据专利检索方法,其特征在于,所述步骤S3中,矩阵Σ的前k行记为Σk,取U和V的前k列,分别记为Uk、Vk,重新构建W的近似矩阵Wk:W≈Wk=UkΣkVk T。
5.根据权利要求1所述的一种基于潜在语义检索模型的大数据专利检索方法,其特征在于,所述步骤S4中,所述文档向量dj在潜在语义中坐标计算公式如下:
Xd=dj TUkΣk -1。
6.根据权利要求1所述的一种基于潜在语义检索模型的大数据专利检索方法,其特征在于,所述步骤S5中,所述文档向量q在潜在语义中坐标计算公式如下:
Xq=qTUkΣk -1。
7.根据权利要求1所述的一种基于潜在语义检索模型的大数据专利检索方法,其特征在于,所述步骤S6中,所述相似度计算公式如下:
<mrow>
<mi>S</mi>
<mi>I</mi>
<mi>M</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>q</mi>
</msub>
<mo>,</mo>
<msub>
<mi>X</mi>
<mi>d</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>X</mi>
<mi>q</mi>
</msub>
<mo>&CenterDot;</mo>
<mi>X</mi>
</mrow>
<mrow>
<mrow>
<mo>|</mo>
<msub>
<mi>X</mi>
<mi>q</mi>
</msub>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<mi>X</mi>
<mo>|</mo>
</mrow>
</mrow>
</mfrac>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>t</mi>
</msubsup>
<msub>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>*</mo>
<msub>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mi>q</mi>
</mrow>
</msub>
</mrow>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>t</mi>
</msubsup>
<msubsup>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
<mn>2</mn>
</msubsup>
<mo>*</mo>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>t</mi>
</msubsup>
<msubsup>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mi>q</mi>
</mrow>
<mn>2</mn>
</msubsup>
<mo>)</mo>
</mrow>
<mrow>
<mn>1</mn>
<mo>/</mo>
<mn>2</mn>
</mrow>
</msup>
</mfrac>
<mo>.</mo>
</mrow>
8.根据权利要求1所述的一种基于潜在语义检索模型的大数据专利检索方法,其特征在于,所述步骤S7中N的取值范围为5~20。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710856756.XA CN107577799A (zh) | 2017-09-21 | 2017-09-21 | 一种基于潜在语义检索模型的大数据专利检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710856756.XA CN107577799A (zh) | 2017-09-21 | 2017-09-21 | 一种基于潜在语义检索模型的大数据专利检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107577799A true CN107577799A (zh) | 2018-01-12 |
Family
ID=61036090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710856756.XA Pending CN107577799A (zh) | 2017-09-21 | 2017-09-21 | 一种基于潜在语义检索模型的大数据专利检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107577799A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143510A (zh) * | 2019-12-10 | 2020-05-12 | 广东电网有限责任公司 | 基于潜在语义分析模型的搜索方法 |
CN111651580A (zh) * | 2020-06-04 | 2020-09-11 | 天启黑马信息科技(北京)有限公司 | 一种用于文献检索的方法与设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251841A (zh) * | 2007-05-17 | 2008-08-27 | 华东师范大学 | 基于语义的Web文档的特征矩阵的建立和检索方法 |
US20090037390A1 (en) * | 2005-05-12 | 2009-02-05 | Xerox Corporation | Method of analyzing documents |
CN101807211A (zh) * | 2010-04-30 | 2010-08-18 | 南开大学 | 一种面向海量小规模xml文档融合路径约束的xml检索方法 |
CN104199933A (zh) * | 2014-09-04 | 2014-12-10 | 华中科技大学 | 一种多模态信息融合的足球视频事件检测与语义标注方法 |
CN104636449A (zh) * | 2015-01-27 | 2015-05-20 | 厦门大学 | 基于lsa-gcc的分布式大数据系统风险识别方法 |
-
2017
- 2017-09-21 CN CN201710856756.XA patent/CN107577799A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090037390A1 (en) * | 2005-05-12 | 2009-02-05 | Xerox Corporation | Method of analyzing documents |
CN101251841A (zh) * | 2007-05-17 | 2008-08-27 | 华东师范大学 | 基于语义的Web文档的特征矩阵的建立和检索方法 |
CN101807211A (zh) * | 2010-04-30 | 2010-08-18 | 南开大学 | 一种面向海量小规模xml文档融合路径约束的xml检索方法 |
CN104199933A (zh) * | 2014-09-04 | 2014-12-10 | 华中科技大学 | 一种多模态信息融合的足球视频事件检测与语义标注方法 |
CN104636449A (zh) * | 2015-01-27 | 2015-05-20 | 厦门大学 | 基于lsa-gcc的分布式大数据系统风险识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143510A (zh) * | 2019-12-10 | 2020-05-12 | 广东电网有限责任公司 | 基于潜在语义分析模型的搜索方法 |
CN111651580A (zh) * | 2020-06-04 | 2020-09-11 | 天启黑马信息科技(北京)有限公司 | 一种用于文献检索的方法与设备 |
CN111651580B (zh) * | 2020-06-04 | 2024-05-03 | 天启黑马信息科技(北京)有限公司 | 一种用于文献检索的方法与设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Inoue et al. | Layoutdm: Discrete diffusion model for controllable layout generation | |
Pfeiffer et al. | Adapterfusion: Non-destructive task composition for transfer learning | |
CN109766524B (zh) | 一种并购重组类公告信息抽取方法及系统 | |
Wang et al. | Graph-based dependency parsing with bidirectional LSTM | |
Ren et al. | Sustainable finance and blockchain: A systematic review and research agenda | |
CN103646088A (zh) | 基于CRFs和SVM的产品评论细粒度情感要素提取 | |
Liang et al. | BERT enhanced neural machine translation and sequence tagging model for Chinese grammatical error diagnosis | |
CN103246687A (zh) | 基于特征信息的Blog自动摘要方法 | |
Kolte et al. | Word sense disambiguation using wordnet domains | |
Litvinova et al. | Overview of the RUSProfiling PAN at FIRE Track on Cross-genre Gender Identification in Russian. | |
Zhao et al. | Text-to-remote-sensing-image generation with structured generative adversarial networks | |
Alowisheq et al. | MARSA: Multi-domain Arabic resources for sentiment analysis | |
CN107577799A (zh) | 一种基于潜在语义检索模型的大数据专利检索方法 | |
CN113761114A (zh) | 短语生成方法、装置和计算机可读存储介质 | |
Agirre et al. | UBC-ALM: Combining k-nn with SVD for WSD | |
Wang et al. | Aggregating multiple heuristic signals as supervision for unsupervised automated essay scoring | |
Hu et al. | Rst discourse parsing as text-to-text generation | |
CN107609142A (zh) | 一种基于扩展布尔检索模型的大数据专利检索方法 | |
Wang et al. | Cort: A new baseline for comparative opinion classification by dual prompts | |
CN106569997B (zh) | 一种基于隐式马尔科夫模型的科技类复合短语识别方法 | |
CN107644080A (zh) | 一种基于概率检索模型的大数据专利检索方法 | |
Atanassova et al. | Criticalminds: Enhancing ml models for esg impact analysis categorisation using linguistic resources and aspect-based sentiment analysis | |
CN107577800A (zh) | 一种基于模糊集合模型的大数据专利检索方法 | |
CN114880521A (zh) | 基于视觉和语言语义自主优化对齐的视频描述方法及介质 | |
Jeon et al. | Evaluation of Criteria for Mapping Characters Using an Automated Hangul Font Generation System based on Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180112 |