CN103064982A - 一种专利检索时智能推荐专利的方法 - Google Patents

一种专利检索时智能推荐专利的方法 Download PDF

Info

Publication number
CN103064982A
CN103064982A CN2013100219531A CN201310021953A CN103064982A CN 103064982 A CN103064982 A CN 103064982A CN 2013100219531 A CN2013100219531 A CN 2013100219531A CN 201310021953 A CN201310021953 A CN 201310021953A CN 103064982 A CN103064982 A CN 103064982A
Authority
CN
China
Prior art keywords
retrieval
word
group
collection
characteristic vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100219531A
Other languages
English (en)
Inventor
张晓宇
彭文乐
文益民
曾德森
汪华登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN2013100219531A priority Critical patent/CN103064982A/zh
Publication of CN103064982A publication Critical patent/CN103064982A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明所提出的一种专利检索时智能推荐专利的方法,是经过专利检索式输入和专利数据获取后,生成目标专利特征向量,智能生成推荐专利集,并进行推荐专利排序,该方法可以向专利检索者智能推荐通过检索式不能检索到的相关专利,减少漏检。对非专业检索人员能给予很大的帮助,即使对专业检索,也提供了一种新的工具,可以大大降低漏检率。

Description

一种专利检索时智能推荐专利的方法
技术领域
本发明涉及智能信息处理技术,更进一步是关于信息智能推荐的技术,具体是一种专利检索时智能推荐专利的方法。
背景技术
在我国,较有权威和影响力的专利检索网络平台包括:中国国家知识产权局网站(www.sipo.gov.com)、中国知识产权网(www.cnipr.com)、中国专利网(www.cnpatent. Com)、中国专利信息网(www.patent.com.cn)、Soopat专利搜索(www.soopat.com)和Patentics(www.patentics.com)以及中国期刊网(www.cnki.net)。这七大专利检索平台采用的检索形式与传统信息检索类似,采用字段检索,输入检索词或按照“*” (与)、“+”(或)、“一”(非)等组成字段内或字段间逻辑关系式。这些字段包括:专利号、专利名称、摘要、国际分类号、发明人、申请人、公开日等。
随着科技的迅速发展和经济的全球化,专利的作用越来越得到人们的重视。如今,从某种程度上说,国家之间的竞争等同于科学技术之间的竞争。进入21世纪以来,专利信息增长尤为迅速。全世界每年出版的专利说明书在百万件以上;我国每年公布的专利说明书也呈快速增长趋势。根据国家统计局的数据——2007年受理国内外发明专利申请24.5万件,2008年受理国内外发明专利申请29.0万件,2009年受理国内外专利申请97.7万件,2010年受理国内外专利申请122.2万件。专利信息的如此快速增长带来了信息超载,即科技研发人员从以上专利检索平台的海量专利信息里寻找自己感兴趣的专利将成为一件不轻松的工作。专利推荐算法作为一种信息过滤的重要手段,是解决专利信息超载的一种重要的、有潜力的方法。
目前主流的推荐算法主要包含以下几大类(许海玲, 吴潇, 李晓东等. 互联网推荐系统比较研究[J]. 软件学报,2009, 20(2): 350-362):基于内容的推荐,协同过滤的推荐,基于知识的推荐和组合推荐。仲伟炜通过跟踪和记录用户的访问操作行为,分析专利查询者经常一起查阅的专利文献,利用关联规则来分析专利文献的相关性,以实现专利文献的个性化推荐(仲伟炜. 专利文献分类及关联推荐技术应用研究[D]. 南京, 南京航空航天大学,2009)。该算法本质上属于协同过滤推荐,需要跟踪大量用户的专利检索行为,所推荐专利是一群专利用户的共同兴趣。而对于科技研发人员来所,经常需要检索与本身研究目的相关的专利。通过专利检索,了解当前研究现状,同时拓展研究思路。在这种情况下文献(仲伟炜. 专利文献分类及关联推荐技术应用研究[D]. 南京, 南京航空航天大学,2009)中提出的算法将变得不再适应。
发明内容
本发明的目的是提供一种在专利检索时智能推荐专利的方法。本发明可以解决的技术问题是在已有专利检索平台的基础上根据专利检索者提供的检索式,实现对与专利检索平台返回结果相关的其他专利的智能推荐,可用于解决科研技术人员在进行专利检索时的相关专利的推荐问题。
本发明所提出的一种专利检索时智能推荐专利的方法,是经过专利检索式输入和专利数据获取后,生成目标专利特征向量,智能生成推荐专利集,并进行推荐专利排序,具体步骤包含:
(1)根据用户输入的检索式,通过专利检索平台获取得到一个包括全部专利数据的专利集合,称为                                                
Figure 2013100219531100002DEST_PATH_IMAGE001
,提取
Figure 27554DEST_PATH_IMAGE001
中各专利的专利名称、专利分类号、专利摘要;
(2)提取C中全部专利的专利分类号所覆盖的最长的公共部分,设此字符串为
Figure 473579DEST_PATH_IMAGE002
,设此类字符串的数量为m个,并根据中各专利分成各组[X1] ,
Figure 2013100219531100002DEST_PATH_IMAGE003
,也就是有
Figure 467577DEST_PATH_IMAGE004
(3)根据中专利的分组,分别提取各组
Figure 2013100219531100002DEST_PATH_IMAGE005
中各个专利的摘要,然后对各摘要实施分词,留下名词和动词,然后统计每个词语出现的频次,按从高到低排序,取前K个词语对应的频次,构成各组C i的目标专利特征向量
Figure 751501DEST_PATH_IMAGE006
,将这K个词语构成的集合分别定义为各组C i的词表
Figure 2013100219531100002DEST_PATH_IMAGE007
(4)分别提取各组
Figure 389156DEST_PATH_IMAGE005
中各个专利的标题实施分词,留下名词和动词,构成各组C i对应的检索词集合
Figure 194300DEST_PATH_IMAGE008
(5)利用各组C i对应的检索词集合
Figure 982128DEST_PATH_IMAGE008
中的各个检索词,在专利检索平台以专利分类号加通配符*再进行检索,得到专利集合
Figure 2013100219531100002DEST_PATH_IMAGE009
,从而得到与各组C i相对应的推荐专利集
Figure 974672DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
中专利数量为m i个;
(6)在推荐专利集
Figure 470375DEST_PATH_IMAGE011
中提取各个专利的摘要,然后对各摘要实施分词,留下名词和动词,然后统计每个词语出现的频次,根据词表
Figure 435795DEST_PATH_IMAGE007
中词语的顺序,定义一个K维向量,若词表中的某词不在分词结果中,则填入0,否则填入该词的频次,用
Figure 984905DEST_PATH_IMAGE012
表示推荐专利集
Figure 889276DEST_PATH_IMAGE011
中第
Figure DEST_PATH_IMAGE013
篇专利的专利特征向量,1≤jm i,按下式计算第
Figure 487747DEST_PATH_IMAGE013
篇专利与目标专利特征向量
Figure 380748DEST_PATH_IMAGE006
之间的关联度:
(7)依次计算每个推荐专利集
Figure 204665DEST_PATH_IMAGE011
中各个推荐专利与该组的专利目标特征向量
Figure 997040DEST_PATH_IMAGE006
之间的关联度,最后将
Figure DEST_PATH_IMAGE015
中所有推荐专利的关联度按照从高到低的顺序排序。
上述所述的专利是指专利检索平台可输出的专利,包括已经授予专利权的和没有授予专利权的。
为了高效准确地完成任务,本发明涉及的具体过程最好是通过在计算机上运行程序来完成。
本发明定义:目标专利特征向量表示使用某个检索式在某个专利检索平台上检索得到的专利集合的内容的特征。
本发明的方法可以向专利检索者智能推荐通过检索式不能检索到的相关专利,减少漏检。对非专业检索人员给予很大的帮助,即使对专业检索,也提供了一种新的工具,可以大大降低漏检率。
附图说明:
图1是本发明的流程示意图;
图2是本发明中专利数据获取流程示意图;
图3是本发明中目标专利特征向量生成流程示意图;
图4 是本发明中推荐专利集生成流程示意图;
图5是本发明中推荐专利排序流程示意图。
具体实施方式
下面结合附图对本发明作进一步的描述。
第一、专利数据获取
根据用户输入的检索式通过某个专利在线检索平台检索得到专利集合
Figure 869181DEST_PATH_IMAGE016
,并获取
Figure 967938DEST_PATH_IMAGE016
中专利的专利名、专利分类号、专利摘要等信息。专利数据获取流程如图2所示。在此图中,选取的专利在线检索平台可为前面提及的七大专利检索平台中的任何一个。
第二、目标专利特征向量生成
目标专利特征向量的计算方法见图3,主要步骤如下:
(1)取
Figure 456688DEST_PATH_IMAGE001
中各专利的专利分类号最长的公共部分,设此字符串为
Figure 787175DEST_PATH_IMAGE002
,设此类字符串的数量为m,并根据
Figure 44981DEST_PATH_IMAGE002
中专利进行分组,也就是有
Figure 529500DEST_PATH_IMAGE004
(2)根据
Figure 804624DEST_PATH_IMAGE001
中专利的分组,分别提取各组中各个专利的摘要;然后对各摘要实施分词;过滤掉量词和副词等词语后,留下名词和动词两类词语;然后统计各个词语出现的总频率;按词频从高到低排序,取前K个词语对应的词频,构成各组对应的目标专利特征向量。构成
Figure 182515DEST_PATH_IMAGE006
,这K个词语构成的集合分别定义为词表
Figure 252102DEST_PATH_IMAGE007
。取K=10。
第三、推荐专利集生成
见图4,主要步骤如下:
(1)对各个专利分组
Figure 574499DEST_PATH_IMAGE005
Figure 387735DEST_PATH_IMAGE003
)中的各专利的标题进行中文分词,过滤掉量词、副词等语义表达能力不强的词语,留下的词性为动词和名词的词构成专利分组对应的检索词集合
Figure 234523DEST_PATH_IMAGE008
Figure 919582DEST_PATH_IMAGE003
);
(2)利用检索词集合
Figure 536508DEST_PATH_IMAGE008
中的各个词通过专利在线检索引擎平台在专利分类号=
Figure 748047DEST_PATH_IMAGE002
+* (,*表示通配符)条件下再进行检索,得到专利集合
Figure 331792DEST_PATH_IMAGE009
Figure 362196DEST_PATH_IMAGE003
)。从而得到推荐专利集合
Figure 569186DEST_PATH_IMAGE010
Figure 151477DEST_PATH_IMAGE003
),
Figure 811129DEST_PATH_IMAGE011
中专利数量为m i个。
第四、推荐专利排序
见图5。
用于描述推荐专利的内容特征的10维向量被称为专利特征向量。专利特征向量的构造方法是:在推荐专利集合
Figure 628912DEST_PATH_IMAGE011
Figure 690409DEST_PATH_IMAGE003
)中提取第
Figure 709180DEST_PATH_IMAGE013
篇(1≤jm i)专利的摘要;对其进行中文分词,过滤掉量词和副词等词语,留下名词和动词两类词语;然后统计各个词语的词频,根据词表
Figure 232959DEST_PATH_IMAGE007
中词语的顺序,定义一个10维向量。若词表
Figure 464220DEST_PATH_IMAGE007
中的某词不在分词结果中,则填入0,否则填入该词的词频。用表示专利集合
Figure 694530DEST_PATH_IMAGE011
Figure 63195DEST_PATH_IMAGE003
)中第
Figure 363726DEST_PATH_IMAGE013
篇专利的专利特征向量,则该推荐专利与目标专利特征向量之间的关联度S k(1
Figure DEST_PATH_IMAGE017
[X2] )计算如下式所示:
S k
依次计算每个推荐专利集合
Figure 839018DEST_PATH_IMAGE011
Figure 819612DEST_PATH_IMAGE003
)中各个推荐专利与该组的专利目标特征向量之间的关联度,最后将
Figure 658255DEST_PATH_IMAGE015
中所有推荐专利的关联度S k (1≤k
Figure 548851DEST_PATH_IMAGE017
[X3] )按照从高到低的顺序排序输出。

Claims (3)

1.一种专利检索时智能推荐专利的方法,包括专利检索式输入、专利数据获取、专利排序,其特征在于:经过专利检索式输入和专利数据获取后,生成目标专利特征向量,智能生成推荐专利集,并进行推荐专利排序,具体步骤包含:
(1)根据用户输入的检索式通过专利检索平台获取一个包括检索到的全部专利数据的专利集合,称为                                               ,提取中各专利的专利名称、专利分类号、专利摘要;
(2)提取C中全部专利的专利分类号所覆盖的最长的公共部分,设此字符串为
Figure 2013100219531100001DEST_PATH_IMAGE004
,设此类字符串的数量为m个,并根据
Figure 179107DEST_PATH_IMAGE004
Figure 883758DEST_PATH_IMAGE002
中各专利分成各组C i,也就是有
Figure 2013100219531100001DEST_PATH_IMAGE008
(3)根据
Figure 97701DEST_PATH_IMAGE002
中专利的分组,分别提取各组
Figure 2013100219531100001DEST_PATH_IMAGE010
中各个专利的摘要,然后对各摘要实施分词,留下名词和动词,然后统计每个词语出现的频次,按从高到低排序,取前K个词语对应的频次,构成各组C i的目标专利特征向量
Figure 2013100219531100001DEST_PATH_IMAGE012
,将这K个词语构成的集合分别定义为各组C i的词表
Figure 2013100219531100001DEST_PATH_IMAGE014
(4)分别提取各组中各个专利的标题实施分词,留下名词和动词,构成各组C i的检索词集合
Figure 2013100219531100001DEST_PATH_IMAGE016
(5)利用各组C i的检索词集合
Figure 679566DEST_PATH_IMAGE016
中的各个检索词,在专利检索平台以专利分类号为加通配符*再进行检索,得到专利集合
Figure 2013100219531100001DEST_PATH_IMAGE018
,从而得到与各组C i相对应的推荐专利集
Figure 2013100219531100001DEST_PATH_IMAGE020
, 
Figure 2013100219531100001DEST_PATH_IMAGE022
中专利数量为m i个;
(6)在推荐专利集
Figure 630259DEST_PATH_IMAGE022
中提取各个专利的摘要,然后对各摘要实施分词,留下名词和动词,然后统计每个词语出现的频次,根据词表
Figure 34696DEST_PATH_IMAGE014
中词语的顺序,定义一个K维向量,若词表
Figure 883703DEST_PATH_IMAGE014
中的某词不在分词结果中,则填入0,否则填入该词的频次,用
Figure 2013100219531100001DEST_PATH_IMAGE024
表示推荐专利集
Figure 805522DEST_PATH_IMAGE022
中第
Figure 2013100219531100001DEST_PATH_IMAGE026
篇专利的专利特征向量,1≤jm i,按下式计算第
Figure 462900DEST_PATH_IMAGE026
篇专利与目标专利特征向量之间的关联度:
Figure 2013100219531100001DEST_PATH_IMAGE028
(7)依次计算每个推荐专利集
Figure 781066DEST_PATH_IMAGE022
中各个推荐专利与该组的目标专利特征向量之间的关联度,最后将
Figure 2013100219531100001DEST_PATH_IMAGE030
中所有推荐专利的关联度按照从高到低的顺序排序。
2.如权利要求1的专利检索时智能推荐专利的方法,其特征在于:所述专利为专利检索平台可输出的专利,包括已经授予专利权的和没有授予专利权的。
3.如权利要求1的专利检索时智能推荐专利的方法,其特征在于:具体过程通过在计算机上运行程序完成。
CN2013100219531A 2013-01-22 2013-01-22 一种专利检索时智能推荐专利的方法 Pending CN103064982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013100219531A CN103064982A (zh) 2013-01-22 2013-01-22 一种专利检索时智能推荐专利的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013100219531A CN103064982A (zh) 2013-01-22 2013-01-22 一种专利检索时智能推荐专利的方法

Publications (1)

Publication Number Publication Date
CN103064982A true CN103064982A (zh) 2013-04-24

Family

ID=48107612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100219531A Pending CN103064982A (zh) 2013-01-22 2013-01-22 一种专利检索时智能推荐专利的方法

Country Status (1)

Country Link
CN (1) CN103064982A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324722A (zh) * 2013-06-27 2013-09-25 苏州创智宏云信息科技有限公司 一种信息搜索系统
CN105096224A (zh) * 2015-08-21 2015-11-25 湖南亿谷科技发展股份有限公司 志愿推荐方法和系统
CN105389344A (zh) * 2015-10-21 2016-03-09 南方电网科学研究院有限责任公司 一种自助式查新方法及系统
CN105426546A (zh) * 2015-12-28 2016-03-23 上海交通大学 专利智能检索方法及系统
CN105550200A (zh) * 2015-12-02 2016-05-04 北京信息科技大学 一种面向专利摘要的中文分词方法
CN109656951A (zh) * 2018-12-18 2019-04-19 北京华电天仁电力控制技术有限公司 基于表达式查询数据的方法及查询系统
CN113221000A (zh) * 2021-05-17 2021-08-06 上海博亦信息科技有限公司 一种人才数据智能检索及推荐方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251854A (zh) * 2008-03-19 2008-08-27 深圳先进技术研究院 一种生成检索词条的方法及数据检索方法和系统
US20130007034A1 (en) * 2011-06-28 2013-01-03 Shih-Chun Lu Method for automatically generating analytical reports of patent bibliographic data and system thereof

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251854A (zh) * 2008-03-19 2008-08-27 深圳先进技术研究院 一种生成检索词条的方法及数据检索方法和系统
US20130007034A1 (en) * 2011-06-28 2013-01-03 Shih-Chun Lu Method for automatically generating analytical reports of patent bibliographic data and system thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
辛阳等: "一种专利智能推荐算法设计与软件实现", 《计算机系统应用》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324722A (zh) * 2013-06-27 2013-09-25 苏州创智宏云信息科技有限公司 一种信息搜索系统
CN105096224A (zh) * 2015-08-21 2015-11-25 湖南亿谷科技发展股份有限公司 志愿推荐方法和系统
CN105096224B (zh) * 2015-08-21 2018-11-02 湖南亿谷科技发展股份有限公司 志愿推荐方法和系统
CN105389344A (zh) * 2015-10-21 2016-03-09 南方电网科学研究院有限责任公司 一种自助式查新方法及系统
CN105550200A (zh) * 2015-12-02 2016-05-04 北京信息科技大学 一种面向专利摘要的中文分词方法
CN105426546A (zh) * 2015-12-28 2016-03-23 上海交通大学 专利智能检索方法及系统
CN109656951A (zh) * 2018-12-18 2019-04-19 北京华电天仁电力控制技术有限公司 基于表达式查询数据的方法及查询系统
CN113221000A (zh) * 2021-05-17 2021-08-06 上海博亦信息科技有限公司 一种人才数据智能检索及推荐方法
CN113221000B (zh) * 2021-05-17 2023-02-28 上海博亦信息科技有限公司 一种人才数据智能检索及推荐方法

Similar Documents

Publication Publication Date Title
CN103064982A (zh) 一种专利检索时智能推荐专利的方法
CN104834735B (zh) 一种基于词向量的文档摘要自动提取方法
JP6231668B2 (ja) キーワード拡張方法及びシステム並びに分類コーパス注釈方法及びシステム
Deshpande et al. Text summarization using clustering technique
CN104111941B (zh) 信息展示的方法及设备
CN103294681B (zh) 一种搜索结果的生成方法和装置
CN105095281B (zh) 一种基于日志挖掘的网站分类目录优化分析方法
CN104298715B (zh) 一种基于tf‑idf的多索引结果合并排序方法
KR20150036117A (ko) 쿼리 확장
CN105373546B (zh) 一种用于知识服务的信息处理方法及系统
CN105528437A (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN106547864A (zh) 一种基于查询扩展的个性化信息检索方法
CN106844571A (zh) 识别同义词的方法、装置和计算设备
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN103246685B (zh) 将对象实例的属性规则化为特征的方法和设备
Watanabe et al. A paper recommendation mechanism for the research support system papits
CN108932247A (zh) 一种优化文本搜索的方法及装置
Wang et al. Fashionklip: Enhancing e-commerce image-text retrieval with fashion multi-modal conceptual knowledge graph
Gao et al. ICST Math Retrieval System for NTCIR-11 Math-2 Task.
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
CN110083686A (zh) 一种专利自动推荐方法的算法设计
Prakash et al. Human aided text summarizer" saar" using reinforcement learning
TWI636370B (zh) Establishing chart indexing method and computer program product by text information
Wu et al. Clustering results of image searches by annotations and visual features
CN103177053B (zh) 教案编辑的动态资源推荐方法以及其教案编辑系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130424