CN105320772B - 一种专利查重的关联论文查询方法 - Google Patents
一种专利查重的关联论文查询方法 Download PDFInfo
- Publication number
- CN105320772B CN105320772B CN201510734108.8A CN201510734108A CN105320772B CN 105320772 B CN105320772 B CN 105320772B CN 201510734108 A CN201510734108 A CN 201510734108A CN 105320772 B CN105320772 B CN 105320772B
- Authority
- CN
- China
- Prior art keywords
- association
- collection
- paper
- candidate
- thesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种专利查重的关联论文查询方法,本发明针对当前专利审查面临的人工查询效率低下、需要具备较好的专业技能、审核意见主观性强的现实情况,通过综合利用自然语言处理、文本挖掘等技术来研究专利与论文之间的关联性,从而提出了一种专利查重的关联论文查询方法,旨在以半自动化的方式实现专利查重过程中关联论文的查找。
Description
技术领域
本发明属于数据管理领域,涉及一种专利查重的关联论文查询方法,尤其涉及关联专利提取、专利发明人-论文作者关联论文提取、基于关联论文的专利扩展词的提取以及实施相应的扩展查询。
背景技术
专利文献是一种受法律保护的特殊文献,这就导致了多数专利撰写人在撰写专利时大量使用上位词和复杂的词语组合来保护其发明的技术,这种现象在一定程度上使得计算专利之间、专利和论文之间的相似度变得相对困难。为了还原专利的技术关键词,使之能够成功用于论文的查询检索,一般需要对输入的查询专利技术主题词集进行相应的扩展。目前,针对专利查询的扩展技术主要有基于查询结果反馈和领域分类技术词库两种专利扩展查询方法。
基于查询结果反馈的专利扩展查询方法,是一种基于迭代方法从前一次查询结果中抽取相应的技术主题词用于第二轮的扩展查询,只有当查询结果符合一定的查询条件,方可中止该专利的查询,并向用户反馈最终的查询结果。该方法实现了专利的扩展查询,丰富了查询语义,但是,该方法存在明显的不足,一个是查询周期一般比较长,在全局范围内很难实现即时的查询,另一个不足则是查询的参数设置在很大程度上影响着查询结果,即迭代不一定是收敛的,造成了较低的文献准确率。
基于领域分类技术词库的专利扩展查询方法,该方法一般借助于专利分类的IPC描述信息或者各种信息资源库(例如Free Base、Wikipedia等等)来实现对输入的查询专利技术主题词集进行扩展查询。这种方法最大的亮点则是借助了知识库来实现专利的扩展查询,具有较高的准确性,但是,由于知识库反应的是既定之事实,不可能体现最新的技术融合方向,使的该方法在信息扩展广度上存在较大的不足,造成了较低的相关文献的召回率,这严重影响了专利查询的查全率。
发明内容
为了解决上述的技术问题,本发明提出了一种专利查重的关联论文查询方法。
本发明所采用的技术方案是:一种专利查重的关联论文查询方法,包括:
步骤1:从查询专利中抽取技术主题词形成查询专利技术主题词集,进行专利检索,获取关联专利集,对通过专利发明人-论文作者获取的候选论文集进行关联因子计算,获取具有较高关联因子的排序靠前的K个元素TOP-K个关联论文作为关联论文集;
步骤2:通过关联论文集中关联论文和查询专利技术主题词集之间的关联性,从关联论文集中挖掘用于检索论文的论文检索概念术语集,并利用该检索概念术语集进行论文的查询。
进一步的,所述的步骤1包括如下步骤:
步骤1.1:根据输入的查询专利或查询专利技术主题词集通过相似性查询,检索出与之相关的初始检索专利集,对其按照文本相似度进行排序,取排序结果相似度较高的Top-K作为关联专利集;
步骤1.2:对于步骤1.1得到的关联专利集的每条专利,提取出专利发明人,从论文数据库中查找该专利发明人以作者身份发表过的论文,组成该专利的候选论文集;
步骤1.3:计算步骤1.1获得的关联专利集与步骤1.2获得的专利候选论文集之间的文本相似关联度;
步骤1.4:计算步骤1.1获得的关联专利集与步骤1.2获得的专利候选论文集之间的关联影响因子;
步骤1.5:通过将步骤1.3获得的文本相似关联度与步骤1.4获得的关联影响因子相结合计算最终的关联因子,确定最终的关联论文集。
进一步的,所述的步骤1.1包括如下步骤:
步骤1.1.1:在专利数据库中,利用查询专利技术主题词集WSopat进行检索得到初始检索专利集PSpat;
步骤1.1.2:对于步骤1.1.1得到的初始检索专利集PSpat,采用词频-逆向文件频率TF-IDF对每一件专利进行专利技术主题词的提取,得到该专利技术主题词集WSnpat;词频-逆向文件频率TF-IDF的公式解释如下:
公式的TFi,j为专利技术主题词ti在专利dj中的词频,公式的ni,j为专利技术主题词ti在专利dj中出现的次数,右边的分母则表示专利dj中所有专利技术主题词出现的次数总和;
D表示专利的总数目,{j:ti∈dj}表示包含专利技术主题词ti的专利数目,TF表示专利技术主题词相对于某一件特定专利的权重,而IDF则表示专利技术主题词相对于所有专利的权重,因此,词频-逆向文件频率TF-IDF的计算公式如下:
TF-IDFi,j=TFi,j×IDFi
步骤1.1.3:通过余弦相似度公式cosine计算查询专利技术主题词集WSopat与初始检索专利集的每一件专利技术主题词集WSnpat的文本相似关联度,取文本相似关联度较高的TOP-K专利,形成关联专利集,余弦公式如下:
其中,wopat(k)和wnpat(k)分别表示专利技术主题词k在查询专利技术主题词集WSopat和初始检索专利技术主题词集WSnpat中的权重。
进一步的,所述的步骤1.3包括如下步骤:
步骤1.3.1:对于步骤1.2获取的专利候选论文集,采用词频-逆向文件频率TF-IDF对每一篇论文进行论文概念术语的提取,得到该论文的论文概念术语集WSnpp;
步骤1.3.2:通过余弦相似度公式cosine计算关联专利集中的每一件专利的专利技术主题词集WSnpat和对应的专利候选论文集中的每一篇论文的论文概念术语集WSnpp之间的文本相似关联度,并形成关联专利集与相应的专利候选论文集之间的文本相似度序列,记为其中,表示关联专利集中第i件专利与相应的专利候选论文集之间的文本相似度序列,pti表示关联专利集中的第i件专利,而pp1、pp2…ppn则表示关联专利集中pti专利相应的专利候选论文集。
进一步的,所述的步骤1.4包括如下步骤:
步骤1.4.1:对于步骤1.1获得的关联专利集中的每一件专利x形成该专利的发明人集合,记为Inventorx={in1,in2,in3,...,inn};
步骤1.4.2:对于步骤1.2确定的专利候选论文集中的每一篇论文y形成该论文的作者集合,记为Authory={au1,au2,au3...,aum};
步骤1.4.3:对于步骤1.4.1提取的关联专利集中每一件专利x的发明人集合Inventorx与步骤1.4.2提取的关联专利对应的专利候选论文集中的论文作者集合Authory的交集,记为IN_AU(x,y)={z∈Inventorx∩Authory};
步骤1.4.4:计算关联专利与对应的专利候选论文之间的关联影响因子τ,其计算公式如下:
τ(IN_AU(x,y))=1-Patent(IN_AU(x,y))×Paper(IN_AU(x,y))
其中,Patent(IN_AU(x,y))表示以发明人-作者集合IN_AU(x,y)为专利发明人发表的专利数目与以Inventorx为专利发明人发表的专利数目的比值,而Patent(IN_AU(x,y))表示以发明人-作者集合IN_AU(x,y)为论文作者发表的论文数目与以Authory为论文作者发表的论文数目的比值;
步骤1.4.5:由步骤1.4.4计算关联专利集中的每一专利与关联专利对应的专利候选论文集之间的关联影响因子,并形成相应的关联影响因子序列,记为τ_pti={τ1(pti,pp1),τ2(pti,pp2),τ3(pti,pp3),...,τn(pti,ppn)},其中,τ_pti表示关联专利集中的第i件专利与相应的专利候选论文集之间的关联影响因子序列,pti表示关联专利集中的第i件专利,而pp1、pp2…ppn则表示关联专利集中pti专利相应的专利候选论文集。
进一步的,所述的步骤1.5包括如下步骤:
步骤1.5.1:根据步骤1.3与步骤1.4获得的关联专利与对应专利候选论文集之间的文本相似关联度序列与关联影响因子序列来计算关联专利与对应专利候选论文集之间的关联因子,记为μ_pti={μ1(pti,pp1),μ2(pti,pp2),μ3(pti,pp3),...,μn(pti,ppn)},其中,μj(pti,ppj)由下式计算所得,表示关联专利集中的第i件专利与相应的专利候选论文集中的第j篇论文之间的关联因子;pti表示关联专利集中的第i件专利,而pp1、pp2…ppn则表示关联专利集中pti专利相应的专利候选论文集;
步骤1.5.2:对于关联专利集中的每一专利所对应的专利候选论文集,选取步骤1.5.1获得的关联因子较高的前TOP-K的专利候选论文集中的候选论文作为该关联专利的关联论文集。
进一步的,所述的步骤2包括如下步骤:
步骤2.1:根据步骤1.5获得的关联论文集与查询专利技术主题词集获得关联强度,选取关联强度较高的TOP-K个候选论文检索概念术语集作为最终的论文检索概念术语集;
步骤2.2:将论文检索概念术语集与查询专利技术主题词集组合,进行专利关联论文的扩展检索。
进一步的,所述的步骤2.1包括如下步骤:
步骤2.1.1:关联专利的关联论文集中的每一篇论文提取的概念术语组成该论文的候选论文检索概念术语集,计算候选论文检索概念术语集中的第i个术语ppki与查询专利技术主题词集pt_kw={ptk1,ptk2,...,ptkn}之间的关联强度,记为其中,count(pt_kw)表示查询专利技术主题词集的规模,而simk(ppki,ptkj)表示第i个候选论文检索概念术语词ppki与第j个查询专利技术主题词ptkj之间的关联度。下面给出simk的形式化的定义,simk(A,B)表示关键词A和关键词B之间的关联度,其计算公式如下所示:
simk(A,B)=ρP(A→B)+(1-ρ)P(B→A)
其中,系数ρ的设定取决于对关键词A和关键词B重要程度的考虑,在权重均等的情况下其值设为0.5,而P(A→B)表示关键词A对关键词B的依赖程度,P(B→A)表示关键词B对关键词A的依赖程度,可分别由下面公式计算得到:
条件概率p(B|A)表示一个文档集合中,同时出现关键词A和B的文档数目与出现关键词A的文档数目的比值;
条件概率p(A|B)表示一个文档集合中,同时出现关键词A和B的文档数目与出现关键词B的文档数目的比值;
步骤2.1.2:计算第i个候选论文检索概念术语词ppki与其他候选论文检索概念术
语集pp_kw={ppk1,ppk2,...ppki-1,ppki+1,...ppkn}之间的关联强度,记为其中,count(pp_kw)-1表示除了候选论文检索概
念术语词ppki的候选论文检索概念术语集的规模,而simk(ppki,ppkj)表示第i个候选论文
检索概念术语词ppki与第j个候选论文检索概念术语词ppkj之间的关联度;
步骤2.1.3:基于步骤2.1.1与步骤2.1.2来计算第i个候选论文检索概念术语词ppki(ppki∈pp_kw)的扩展概率,即选择候选关键词ppki为论文检索概念术语集的概率,记为choose(ppki)=γSIM_P(ppki)+(1-γ)SIM_C(ppki),其中,γ为SIM_P与SIM_C的平衡因子,其值取决于对两者重要程度的考虑,在均等对待的情况下取值为0.5;
步骤2.1.4:基于步骤2.1.3计算获得的候选论文检索概念术语词的扩展概率,选取具有前Top-K扩展概率的候选论文检索概念术语词组成最终的论文检索概念术语集。
进一步的,所述的步骤2.2包括如下步骤:
步骤2.2.1:循环完成专利关联论文的扩展查询,在每一轮循环中,不重合的选取论文检索概念术语集中的一组扩展词与查询专利技术主题词集组成查询关键词集合来完成专利扩展关联论文的查询,并选取相似度较高的TOP-K的论文组成此轮扩展查询结果集;
步骤2.2.2:依据扩展词扩展概率的次序对所有的扩展查询结果集进行排序,并形成相应的论文查询结果反馈给用户。
本发明的有益效果是:本发明针对当前专利审查面临的人工查询效率低下、需要具备较好的专业技能、审核意见主观性强的现实情况,通过综合利用自然语言处理、文本挖掘等技术来研究专利与论文之间的关联性,从而提出了一种专利查重的关联论文查询方法,旨在以半自动化的方式实现专利查重过程中关联论文的查找。
附图说明
图1:本发明的流程图;
图2:本发明的扩展阶段示意图;
图3:本发明的查询阶段示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供了一种专利查重的关联论文查询方法,是基于发明人、作者合作网络的专利扩展查询关联论文的方法;整个扩展查询过程区分为扩展和查询两个阶段,在扩展阶段,根据查询专利技术主题词集获得关联专利集,借助专利发明人-论文作者纽带获取候选论文集,综合文本相似性和关联影响因子而形成关联因子,获取关联因子较高的TOP-K(排序前K个元素)论文作为关联论文集。在查询阶段,根据扩展得到的关联论文,提取出相应的候选论文检索概念术语集,通过分析候选论文检索概念术语集与查询专利技术主题词集的关联性,挖掘出用于检索论文的论文检索概念术语集,并利用该检索概念术语集进行论文的检索。该方法实现了专利的自由扩展,保证了专利扩展查询的有效性和稳定性。一种专利查重的关联论文查询方法,包括以下步骤:
扩展阶段如图2所示:
步骤1:从查询专利中抽取技术主题词形成查询专利技术主题词集,进行专利检索,获取关联专利集,对通过专利发明人-论文作者获取的候选论文集进行关联因子计算,获取具有较高关联因子的关联论文集。
步骤1.1:根据输入的查询专利或查询专利技术主题词集(下面统称为“查询专利技术主题词集”)通过相似性查询,检索出与之相关的初始检索专利集,对其按照文本相似度进行排序,取排序结果相似度较高的Top-K(排序前K个元素)作为关联专利集。
步骤1.1.1:在专利数据库中,利用查询专利技术主题词集WSopat进行检索得到初始检索专利集PSpat;
步骤1.1.2:对于步骤1.1.1得到的初始检索专利集PSpat,采用TF-IDF(词频-逆向文件频率)对每一件专利进行专利技术主题词的提取,得到该专利技术主题词集WSnpat;TF-IDF(词频-逆向文件频率)的公式解释如下:
公式左边的TFi,j为专利技术主题词ti在专利dj中的词频,公式右边的ni,j为专利技术主题词ti在专利dj中出现的次数,右边的分母则表示专利dj中所有专利技术主题词出现的次数总和。
D表示专利的总数目,{j:ti∈dj}表示包含专利技术主题词ti的专利数目,TF表示专利技术主题词相对于某一件特定专利的权重,而IDF则表示专利技术主题词相对于所有专利的权重,因此,TF-IDF(词频-逆向文件频率)的计算公式如下:
TF-IDFi,j=TFi,j×IDFi
步骤1.1.3:通过余弦相似度公式(cosine)计算查询专利技术主题词集WSopat与初始检索专利集的每一件专利技术主题词集WSnpat的文本相似关联度,取文本相似关联度较高的TOP-K(排序前K个元素)专利,形成关联专利集,余弦公式如下:
其中,wopat(k)和wnpat(k)分别表示专利技术主题词k在查询专利技术主题词集WSopat和初始检索专利技术主题词集WSnpat中的权重。
步骤1.2:对于步骤1.1得到的关联专利集的每条专利,提取出专利发明人,从论文数据库中查找该专利发明人以作者身份发表过的论文,组成该专利的候选论文集。
步骤1.3:计算步骤1.1获得的关联专利集与步骤1.2获得的专利候选论文集之间的文本相似关联度。
步骤1.3.1:对于步骤1.2获取的专利候选论文集,采用TF-IDF(词频-逆向文件频率)对每一篇论文进行论文概念术语的提取,得到该论文的论文概念术语集WSnpp。
步骤1.3.2:通过余弦相似度公式(cosine)计算关联专利集中的每一件专利的专利技术主题词集WSnpat和对应的专利候选论文集中的每一篇论文的论文概念术语集WSnpp之间的文本相似关联度(余弦公式与步骤1.1.3类似),并形成关联专利集与相应的专利候选论文集之间的文本相似度序列,记为其中,表示关联专利集中第i件专利与相应的专利候选论文集之间的文本相似度序列,pti表示关联专利集中的第i件专利,而pp1、pp2…ppn则表示关联专利集中pti专利相应的专利候选论文集。
步骤1.4:计算步骤1.1获得的关联专利集与步骤1.2获得的专利候选论文集之间的关联影响因子。
步骤1.4.1:对于步骤1.1获得的关联专利集中的每一件专利x形成该专利的发明人集合,记为Inventorx={in1,in2,in3,...,inn};
步骤1.4.2:对于步骤1.2确定的专利候选论文集中的每一篇论文y形成该论文的作者集合,记为Authory={au1,au2,au3...,aum};
步骤1.4.3:对于步骤1.4.1提取的关联专利集中每一件专利x的发明人集合Inventorx与步骤1.4.2提取的关联专利对应的专利候选论文集中的论文作者集合Authory的交集,记为IN_AU(x,y)={z∈Inventorx∩Authory};
步骤1.4.4:计算关联专利 与对应的专利候选论文 之间的关联影响因子τ,其计算公式如下:
τ(IN_AU(x,y))=1-Patent(IN_AU(x,y))×Paper(IN_AU(x,y))
其中,Patent(IN_AU(x,y))表示以发明人-作者集合IN_AU(x,y)为专利发明人发表的专利数目与以Inventorx为专利发明人发表的专利数目的比值,而Patent(IN_AU(x,y))表示以发明人-作者集合IN_AU(x,y)为论文作者发表的论文数目与以Authory为论文作者发表的论文数目的比值。
步骤1.4.5:由步骤1.4.4计算关联专利集中的每一专利与关联专利对应的专利候选论文集之间的关联影响因子,并形成相应的关联影响因子序列,记为τ_pti={τ1(pti,pp1),τ2(pti,pp2),τ3(pti,pp3),...,τn(pti,ppn)},其中,τ_pti表示关联专利集中的第i件专利与相应的专利候选论文集之间的关联影响因子序列,pti表示关联专利集中的第i件专利,而pp1、pp2…ppn则表示关联专利集中pti专利相应的专利候选论文集。
步骤1.5:通过将步骤1.3获得的文本相似关联度与步骤1.4获得的关联影响因子相结合计算最终的关联因子,确定最终的关联论文集。
步骤1.5.1:根据步骤1.3与步骤1.4获得的关联专利与对应专利候选论文集之间的文本相似关联度序列与关联影响因子序列来计算关联专利与对应专利候选论文集之间的关联因子,记为μ_pti={μ1(pti,pp1),μ2(pti,pp2),μ3(pti,pp3),...,μn(pti,ppn)},其中,μj(pti,ppj)由下式计算所得,表示关联专利集中的第i件专利与相应的专利候选论文集中的第j篇论文之间的关联因子;pti表示关联专利集中的第i件专利,而pp1、pp2…ppn则表示关联专利集中pti专利相应的专利候选论文集。
步骤1.5.2:对于关联专利集中的每一专利所对应的专利候选论文集,选取步骤1.5.1获得的关联因子较高的前TOP-K(排序前K个元素)的专利候选论文集中的候选论文作为该关联专利的关联论文集。
查询如图2所示:
步骤2:通过关联论文集中关联论文和查询专利技术主题词集的关联性,从关联论文集中挖掘用于检索论文的论文检索概念术语集,并利用该检索概念术语集进行论文的查询。
步骤2.1:根据步骤1.5获得的关联论文集与查询专利技术主题词集获得关联强度,选取关联强度较高的TOP-K个候选论文检索概念术语集作为最终的论文检索概念术语集。
步骤2.1.1:关联专利的关联论文集中的每一篇论文提取的概念术语组成该论文的候选论文检索概念术语集。计算候选论文检索概念术语集中的第i个术语ppki与查询专利技术主题词集pt_kw={ptk1,ptk2,...,ptkn}之间的关联强度,记为其中,count(pt_kw)表示查询专利技术主题词集的规模,而simk(ppki,ptkj)表示第i个候选论文检索概念术语词ppki与第j个查询专利技术主题词ptkj之间的关联度。下面给出simk的形式化的定义,simk(A,B)表示关键词A和关键词B之间的关联度,其计算公式如下所示:
simk(A,B)=ρP(A→B)+(1-ρ)P(B→A)
其中,系数ρ的设定取决于对关键词A和关键词B重要程度的考虑,在权重均等的情况下其值设为0.5,而P(A→B)表示关键词A对关键词B的依赖程度,P(B→A)表示关键词B对关键词A的依赖程度,可分别由下面公式计算得到:
条件概率p(B|A)表示一个文档集合中,同时出现关键词A和B的文档数目与出现关键词A的文档数目的比值。
条件概率p(A|B)表示一个文档集合中,同时出现关键词A和B的文档数目与出现关键词B的文档数目的比值。
步骤2.1.2:计算第i个候选论文检索概念术语词ppki与其他候选论文检索概念术
语集pp_kw={ppk1,ppk2,...ppki-1,ppki+1,...ppkn}之间的关联强度,记为其中,count(pp_kw)-1表示除了候选论文检索概念
术语词ppki的候选论文检索概念术语集的规模,而simk(ppki,ppkj)表示第i个候选论文检
索概念术语词ppki与第j个候选论文检索概念术语词ppkj之间的关联度。
步骤2.1.3:基于步骤2.1.1与步骤2.1.2来计算第i个候选论文检索概念术语词ppki(ppki∈pp_kw)的扩展概率,即选择候选关键词ppki为论文检索概念术语集的概率,记为choose(ppki)=γSIM_P(ppki)+(1-γ)SIM_C(ppki),其中,γ为SIM_P与SIM_C的平衡因子,其值取决于对两者重要程度的考虑,在均等对待的情况下取值为0.5。
步骤2.1.4:基于步骤2.1.3计算获得的候选论文检索概念术语词的扩展概率,选取具有前Top-K(排序前K个元素)扩展概率的候选论文检索概念术语词组成最终的论文检索概念术语集。
步骤2.2:将步骤2.1.4获得的论文检索概念术语集与查询专利技术主题词集组合,进行专利关联论文的扩展检索。
步骤2.2.1:循环完成专利关联论文的扩展查询,在每一轮循环中,不重合的选取论文检索概念术语集中的一组扩展词与查询专利技术主题词集组成查询关键词集合来完成专利扩展关联论文的查询,并选取相似度较高的TOP-K(排序前K个元素)的论文组成此轮扩展查询结果集。
步骤2.2.2:依据扩展词扩展概率的次序对所有的扩展查询结果集进行排序,并形成相应的论文查询结果反馈给用户。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (7)
1.一种专利查重的关联论文查询方法,其特征在于,包括:
步骤1:从查询专利中抽取技术主题词形成查询专利技术主题词集,进行专利检索,获取关联专利集,对通过专利发明人-论文作者获取的候选论文集进行关联因子计算,获取具有较高关联因子的排序靠前的K个元素TOP-K个关联论文作为关联论文集;
步骤2:通过关联论文集中关联论文和查询专利技术主题词集之间的关联性,从关联论文集中挖掘用于检索论文的论文检索概念术语集,并利用该检索概念术语集进行论文的查询;
所述的步骤1包括如下步骤:
步骤1.1:根据输入的查询专利或查询专利技术主题词集通过相似性查询,检索出与之相关的初始检索专利集,对其按照文本相似度进行排序,取排序结果相似度较高的Top-K作为关联专利集;
步骤1.2:对于步骤1.1得到的关联专利集的每条专利,提取出专利发明人,从论文数据库中查找该专利发明人以作者身份发表过的论文,组成该专利的候选论文集;
步骤1.3:计算步骤1.1获得的关联专利集与步骤1.2获得的专利候选论文集之间的文本相似关联度;
步骤1.4:计算步骤1.1获得的关联专利集与步骤1.2获得的专利候选论文集之间的关联影响因子;
步骤1.5:通过将步骤1.3获得的文本相似关联度与步骤1.4获得的关联影响因子相结合计算最终的关联因子,确定最终的关联论文集;
所述的步骤1.1包括如下步骤:
步骤1.1.1:在专利数据库中,利用查询专利技术主题词集WSopat进行检索得到初始检索专利集PSpat;
步骤1.1.2:对于步骤1.1.1得到的初始检索专利集PSpat,采用词频-逆向文件频率TF-IDF对每一件专利进行专利技术主题词的提取,得到该专利技术主题词集WSnpat;词频-逆向文件频率TF-IDF的公式解释如下:
公式的TFi,j为专利技术主题词ti在专利dj中的词频,公式的ni,j为专利技术主题词ti在专利aj中出现的次数,右边的分母则表示专利dj中所有专利技术主题词出现的次数总和;
D表示专利的总数目,{j:ti∈dj}表示包含专利技术主题词ti的专利数目,TF表示专利技术主题词相对于某一件特定专利的权重,而IDF则表示专利技术主题词相对于所有专利的权重,因此,词频-逆向文件频率TF-IDF的计算公式如下:
TF-IDFi,j=TFi,j×IDFi
步骤1.1.3:通过余弦相似度公式cosine计算查询专利技术主题词集WSopat与初始检索专利集的每一件专利技术主题词集WSnpat的文本相似关联度,取文本相似关联度转高的TOP-K专利,形成关联专利集,余弦公式如下:
其中,wopat(k)和wnpat(k)分别表示专利技术主题词k在查询专利技术主题词集WSopat和初始检索专利技术主题词集WSnpat中的权重。
2.根据权利要求1所述的一种专利查重的关联论文查询方法,其特征在于,所述的步骤1.3包括如下步骤:
步骤1.3.1:对于步骤1.2获取的专利候选论文集,采用词频-逆向文件频率TF-IDF对每一篇论文进行论文概念术语的提取,得到该论文的论文概念术语集WSnpp;
步骤1.3.2:通过余弦相似度公式cosine计算关联专利集中的每一件专利的专利技术主题词集WSnpat和对应的专利候选论文集中的每一篇论文的论文概念术语集WSnpp之间的文本相似关联度,并形成关联专利集与相应的专利候选论文集之间的文本相似度序列,记为其中,表示关联专利集中第i件专利与相应的专利候选论文集之间的文本相似度序列,pti表示关联专利集中的第i件专利,而pp1、pp2...ppn则表示关联专利集中pti专利相应的专利候选论文集。
3.根据权利要求1所述的一种专利查重的关联论文查询方法,其特征在于,所述的步骤1.4包括如下步骤:
步骤1.4.1:对于步骤1.1获得的关联专利集中的每一件专利x形成该专利的发明人集合,记为Inventorx={in1,in2,in3,...,inn};
步骤1.4.2:对于步骤1.2确定的专利候选论文集中的每一篇论文y形成该论文的作者集合,记为Authory={au1,au2,au3...,aum};
步骤1.4.3:对于步骤1.4.1提取的关联专利集中每一件专利x的发明人集合Inventorx与步骤1.4.2提取的关联专利对应的专利候选论文集中的论文作者集合Authory的交集,记为IN_AU(x,y)={z∈Inventorx∩Authory};
步骤1.4.4:计算关联专利与对应的专利候选论文之间的关联影响因子τ,其计算公式如下:
τ(IN_AU(x,y))=1-Patent(IN_AU(x,y))×Paper(IN_AU(x,y))
其中,Patent(IN_AU(x,y))表示以发明人-作者集合IN_AU(x,y)为专利发明人发表的专利数目与以Inventorx为专利发明人发表的专利数目的比值,而Paper(IN_AU(x,y))表示以发明人-作者集合IN_AU(x,y)为论文作者发表的论文数目与以Authory为论文作者发表的论文数目的比值;
步骤1.4.5:由步骤1.4.4计算关联专利集中的每一专利与关联专利对应的专利候选论文集之间的关联影响因子,并形成相应的关联影响因子序列,记为τ_pti={τ1(pti,pp1),τ2(pti,pp2),τ3(pti,pp3),...,τn(pti,ppn)},其中,τ_pti表示关联专利集中的第i件专利与相应的专利候选论文集之间的关联影响因子序列,pti表示关联专利集中的第i件专利,而pp1、pp2...ppn则表示关联专利集中pti专利相应的专利候选论文集。
4.根据权利要求1所述的一种专利查重的关联论文查询方法,其特征在于,所述的步骤1.5包括如下步骤:
步骤1.5.1:根据步骤1.3与步骤1.4获得的关联专利与对应专利候选论文集之间的文本相似关联度序列与关联影响因子序列来计算关联专利与对应专利候选论文集之间的关联因子,记为μ_pti={μ1(pti,pp1),μ2(pti,pp2),μ3(pti,pp3),...,μn(pti,ppn)},其中,μj(pti,ppj)由下式计算所得,表示关联专利集中的第i件专利与相应的专利候选论文集中的第j篇论文之间的关联因子;pti表示关联专利集中的第i件专利,而pp1、pp2...ppn则表示关联专利集中pti专利相应的专利候选论文集;
步骤1.5.2:对于关联专利集中的每一专利所对应的专利候选论文集,选取步骤1.5.1获得的关联因子较高的前TOP-K的专利候选论文集中的候选论文作为该关联专利的关联论文集。
5.根据权利要求1所述的一种专利查重的关联论文查询方法,其特征在于,所述的步骤2包括如下步骤:
步骤2.1:根据步骤1.5获得的关联论文集与查询专利技术主题词集获得关联强度,选取关联强度较高的TOP-K个候选论文检索概念术语集作为最终的论文检索概念术语集;
步骤2.2:将论文检索概念术语集与查询专利技术主题词集组合,进行专利关联论文的扩展检索。
6.根据权利要求5所述的一种专利查重的关联论文查询方法,其特征在于,所述的步骤2.1包括如下步骤:
步骤2.1.1:关联专利的关联论文集中的每一篇论文提取的概念术语组成该论文的候选论文检索概念术语集,计算候选论文检索概念术语集中的第i个术语ppki与查询专利技术主题词集pt_kw={ptk1,ptk2,...,ptkn}之间的关联强度,记为其中,count(pt_kw)表示查询专利技术主题词集的规模,而Simk(ppki,ptkj)表示第i个候选论文检索概念术语词ppki与第j个查询专利技术主题词ptkj之间的关联度;下面给出simk的形式化的定义,simk(A,B)表示关键词A和关键词B之间的关联度,其计算公式如下所示:
simk(A,B)=pP(A→B)+(1-ρ)P(B→A)
其中,系数ρ的设定取决于对关键词A和关键词B重要程度的考虑,在权重均等的情况下其值设为0.5,而P(A→B)表示关键词A对关键词B的依赖程度,P(B→A)表示关键词B对关键词A的依赖程度,可分别由下面公式计算得到:
条件概率p(B|A)表示一个文档集合中,同时出现关键词A和B的文档数目与出现关键词A的文档数目的比值;
条件概率p(A|B)表示一个文档集合中,同时出现关键词A和B的文档数目与出现关键词B的文档数目的比值;
步骤2.1.2:计算第i个候选论文检索概念术语词ppki与其他候选论文检索概念术语集pp_kw={ppk1,ppk2,...ppki-1,ppki+1,...,ppkn}之间的关联强度,记为其中,count(pp_kw)-1表示除了候选论文检索概念术语词ppki的候选论文检索概念术语集的规模,而simk(ppki,ppkj)表示第i个候选论文检索概念术语词ppki与第j个候选论文检索概念术语词ppkj之间的关联度;
步骤2.1.3:基于步骤2.1.1与步骤2.1.2来计算第i个候选论文检索概念术语词ppki(ppki∈pp_kw)的扩展概率,即选择候选关键词ppki为论文检索概念术语集的概率,记为choose(ppki)=γSIM_P(ppki)+(1-γ)SIM_C(ppki),其中,γ为SIM_P与SIM_C的平衡因子,其值取决于对两者重要程度的考虑,在均等对待的情况下取值为0.5;
步骤2.1.4:基于步骤2.1.3计算获得的候选论文检索概念术语词的扩展概率,选取具有前Top-K扩展概率的候选论文检索概念术语词组成最终的论文检索概念术语集。
7.根据权利要求5所述的一种专利查重的关联论文查询方法,其特征在于,所述的步骤2.2包括如下步骤:
步骤2.2.1:循环完成专利关联论文的扩展查询,在每一轮循环中,不重合的选取论文检索概念术语集中的一组扩展词与查询专利技术主题词集组成查询关键词集合来完成专利扩展关联论文的查询,并选取相似度较高的TOP-K的论文组成此轮扩展查询结果集;
步骤2.2.2:依据扩展词扩展概率的次序对所有的扩展查询结果集进行排序,并形成相应的论文查询结果反馈给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510734108.8A CN105320772B (zh) | 2015-11-02 | 2015-11-02 | 一种专利查重的关联论文查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510734108.8A CN105320772B (zh) | 2015-11-02 | 2015-11-02 | 一种专利查重的关联论文查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105320772A CN105320772A (zh) | 2016-02-10 |
CN105320772B true CN105320772B (zh) | 2019-03-26 |
Family
ID=55248158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510734108.8A Active CN105320772B (zh) | 2015-11-02 | 2015-11-02 | 一种专利查重的关联论文查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105320772B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956125A (zh) * | 2016-05-06 | 2016-09-21 | 长沙市麓智信息科技有限公司 | 专利监控系统及其方法 |
CN106022564A (zh) * | 2016-05-06 | 2016-10-12 | 长沙市麓智信息科技有限公司 | 专利布局分析系统及其方法 |
CN105956954A (zh) * | 2016-05-06 | 2016-09-21 | 长沙市麓智信息科技有限公司 | 重复提案监控系统及其监控方法 |
CN105956121A (zh) * | 2016-05-06 | 2016-09-21 | 长沙市麓智信息科技有限公司 | 专利检索分析辅助系统及其辅助方法 |
CN107562753B (zh) * | 2016-06-30 | 2020-04-17 | 索意互动(北京)信息技术有限公司 | 一种基于索引词的分析方法与装置 |
CN106294639B (zh) * | 2016-08-01 | 2020-04-21 | 金陵科技学院 | 基于语义的跨语言专利新创性预判分析方法 |
WO2018102995A1 (zh) * | 2016-12-06 | 2018-06-14 | 深圳市唯德科创信息有限公司 | 一种邮件的管理方法及系统 |
CN106649749B (zh) * | 2016-12-26 | 2019-07-16 | 浙江传媒学院 | 一种基于汉语音位特征的文本查重方法 |
CN107730408A (zh) * | 2017-11-03 | 2018-02-23 | 王少琼 | 一种知识产权运营管理服务系统 |
CN108804421B (zh) * | 2018-05-28 | 2022-04-15 | 中国科学技术信息研究所 | 文本相似性分析方法、装置、电子设备及计算机存储介质 |
CN112307055A (zh) * | 2019-07-26 | 2021-02-02 | 傲为信息技术(江苏)有限公司 | 技术类开放式数字资产的检索方法 |
CN112307009B (zh) * | 2019-07-26 | 2024-07-09 | 傲为有限公司 | 技术类数字资产的查询方法 |
CN111241239B (zh) * | 2020-01-07 | 2022-12-02 | 科大讯飞股份有限公司 | 重题检测方法、相关设备及可读存储介质 |
CN116842137A (zh) * | 2023-07-18 | 2023-10-03 | 北京智信佳科技有限公司 | 一种审核专家提交评审意见差异性的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049470A (zh) * | 2012-09-12 | 2013-04-17 | 北京航空航天大学 | 基于情感相关度的观点检索方法 |
CN103473283A (zh) * | 2013-08-29 | 2013-12-25 | 中国测绘科学研究院 | 一种文本案例匹配方法 |
CN103605665A (zh) * | 2013-10-24 | 2014-02-26 | 杭州电子科技大学 | 一种基于关键词的评审专家智能检索与推荐方法 |
US20140317000A1 (en) * | 2013-04-19 | 2014-10-23 | Steven W. Lundberg | System and method for management of a patent portfolio |
-
2015
- 2015-11-02 CN CN201510734108.8A patent/CN105320772B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049470A (zh) * | 2012-09-12 | 2013-04-17 | 北京航空航天大学 | 基于情感相关度的观点检索方法 |
US20140317000A1 (en) * | 2013-04-19 | 2014-10-23 | Steven W. Lundberg | System and method for management of a patent portfolio |
CN103473283A (zh) * | 2013-08-29 | 2013-12-25 | 中国测绘科学研究院 | 一种文本案例匹配方法 |
CN103605665A (zh) * | 2013-10-24 | 2014-02-26 | 杭州电子科技大学 | 一种基于关键词的评审专家智能检索与推荐方法 |
Non-Patent Citations (2)
Title |
---|
寻"人"启"示"--浅谈非专利库追踪检索过程中的拓展技巧;洪川;《科技展望》;20140920(第18期);第245-246页 |
面向专利本体的语义检索分析系统的设计与实现;许鑫 等;《图书情报工作》;20140531;第58卷(第9期);第96-103页 |
Also Published As
Publication number | Publication date |
---|---|
CN105320772A (zh) | 2016-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105320772B (zh) | 一种专利查重的关联论文查询方法 | |
CN106991092B (zh) | 基于大数据挖掘相似裁判文书的方法和设备 | |
CN104376406B (zh) | 一种基于大数据的企业创新资源管理与分析方法 | |
CN105488024B (zh) | 网页主题句的抽取方法及装置 | |
Egozi et al. | Concept-based information retrieval using explicit semantic analysis | |
CN104199857B (zh) | 一种基于多标签分类的税务文档层次分类方法 | |
Sheldon et al. | LambdaMerge: merging the results of query reformulations | |
Liu et al. | Full-text based context-rich heterogeneous network mining approach for citation recommendation | |
El-Fishawy et al. | Arabic summarization in twitter social network | |
CN103838833A (zh) | 基于相关词语语义分析的全文检索系统 | |
CN102314519A (zh) | 一种基于公安领域知识本体模型的信息搜索方法 | |
CN104281565B (zh) | 语义词典构建方法和装置 | |
CN103324700A (zh) | 一种基于Web信息的本体概念属性学习方法 | |
Roul et al. | Web document clustering and ranking using tf-idf based apriori approach | |
Raviv et al. | A ranking framework for entity oriented search using markov random fields | |
CN106547864A (zh) | 一种基于查询扩展的个性化信息检索方法 | |
Fu et al. | Patent citation recommendation for examiners | |
Kanapala et al. | Passage-based text summarization for legal information retrieval | |
Suanmali et al. | Genetic algorithm based sentence extraction for text summarization | |
KR101179613B1 (ko) | 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법 | |
Sharaff et al. | Document Summarization by Agglomerative nested clustering approach | |
CN104217026A (zh) | 一种基于图模型的中文微博客倾向性检索方法 | |
Wu et al. | An improved contextual advertising matching approach based on wikipedia knowledge | |
CN105426490A (zh) | 一种基于树形结构的索引方法 | |
Aswini et al. | Pattern discovery for text mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |