CN111930946A - 一种基于相似性度量的专利分类方法 - Google Patents
一种基于相似性度量的专利分类方法 Download PDFInfo
- Publication number
- CN111930946A CN111930946A CN202010832816.6A CN202010832816A CN111930946A CN 111930946 A CN111930946 A CN 111930946A CN 202010832816 A CN202010832816 A CN 202010832816A CN 111930946 A CN111930946 A CN 111930946A
- Authority
- CN
- China
- Prior art keywords
- similarity
- abstract
- patents
- sao
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000005259 measurement Methods 0.000 title claims abstract description 22
- 238000007635 classification algorithm Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000000295 complement effect Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- PZINFSHCXYXHOY-UHFFFAOYSA-N (2,5-dioxopyrrolidin-1-yl) 5-iodopyridine-3-carboxylate Chemical compound IC1=CN=CC(C(=O)ON2C(CCC2=O)=O)=C1 PZINFSHCXYXHOY-UHFFFAOYSA-N 0.000 claims description 2
- 238000011524 similarity measure Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 5
- 238000000691 measurement method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于相似性度量的专利分类方法,它属于文本分类技术领域。本发明解决了采用现有的专利分类方法对专利分类的准确率低的问题。本发明考虑专利说明书摘要的特征,将CHI统计量和余弦相似度相结合后,再结合IPC分类号的相似性,提出一种基于混合相似度的专利分类方法。针对权利要求书,提出一种基于权利要求书相似度的专利分类方法。根据抽取出来的SAO‑x多维结构,计算权利要求书相似度,基于相似度结果采用KNN分类算法对专利进行分类。与现有的专利分类方法相比,本发明进行专利自动分类的准确率达到70%以上,降低了人工分类在主观层面上产生的分类误差。本发明可以应用于文本分类技术领域。
Description
技术领域
本发明属于文本分类技术领域,具体涉及一种基于相似性度量的专利分类方法。
背景技术
在全球致力发展经济的浪潮中,科技成为第一生产力,是推动现代生产力发展的关键因素和重要力量。科技的创新和发展促进了企业和政府的发展。专利作为包含各领域下的科技和技术的知识载体,其已作为企业和政府衡量创新能力的一种体现。因此,专利数据的多少和优劣代表着各国的科技和经济发展水平。如何从这些专利文本中得到为之有效的创新技术信息,为企业和政府的发展提供科技和创新支持,是国内外相关研究人员研究的重点。而最基础的研究内容就是专利文本的分类,做好专利文本的分类,才能进一步挖掘专利文本信息,从而实现对某一个领域内技术的创新与预测。
目前,专利文本的分类主要以人工分类方式为主,这种人工分类方式会耗费大量的时间和精力。随着计算机科学技术的发展,专利文本的半自动和自动分类方式已经逐步呈现在专利文本分类中。采用计算机技术自动或半自动地分类方式,可以降低耗费的时间和精力。刘玉琴、周磊等以文本挖掘,信息检索等现代信息处理技术为工具,基于IPC的结构层次特点,构建不同层次下的专利相似度计算方法。Chen S H等使用专利互引关系计算专利相似度,利用得到的相似度创建一个专利引用网络,进一步考虑时间演化,创建动态的引文网络,从而发现新的技术机会,预测未来前景。Madani F等人筛选关键词来创建关键词矩阵,通过聚类分析方法预测未来技术趋势。Lee S等通过关键词计算专利相似度,进一步描绘出专利地图。但这几种方法存在未考虑专利自身文本内容的缺陷,导致对专利的分类准确率较低。因此,综合专利的结构和非结构化信息来计算专利之间的相似度正成为研究的重点和热点。
发明内容
本发明的目的是为解决采用现有的专利分类方法对专利分类的准确率低的问题,而提出了一种基于相似性度量的专利分类方法。
本发明为解决上述技术问题采取的技术方案是:
一种基于相似性度量的专利分类方法,该方法包括以下步骤:
步骤一、针对专利说明书摘要的文本元素,通过将CHI统计量和余弦相似度相结合,计算专利说明书摘要的相似度;
步骤二、基于专利的IPC分类号,结合步骤一计算出的说明书摘要相似度计算专利的混合相似度;
步骤三、根据步骤二计算出的专利混合相似度,采用KNN分类方法对专利进行分类。
一种基于相似性度量的专利分类方法,该方法包括以下步骤:
步骤一、将技术主题相似的一组专利组成的集合记为集合P,并对集合P中的专利权利要求书文本进行预处理;
步骤二、将专利权利要求书中描述专利特征的句子转换成SAO结构,从转换后的句子中提取出SAO-x结构;
步骤三、根据提取出的SAO-x结构,分别计算每两个专利的SAO-x结构的相似度;
步骤四、根据步骤三中计算出的相似度,采用KNN分类方法对专利进行分类。
本发明的有益效果是:
本发明考虑专利说明书摘要的特征,将CHI统计量和余弦相似度相结合后,再结合IPC分类号的相似性,提出了一种基于混合相似度的专利分类方法。针对权利要求书,提出一种基于权利要求书相似度的专利分类方法。对于抽取出来的SAO-x多维结构,基于Jaccard距离和马氏距离的多维相似性度量计算方法,有效地计算SAO-x结构相似度,基于相似度结果采用KNN分类算法对专利进行分类。能够综合专利的结构和非结构化信息来计算专利之间的相似度,降低人工分类在主观层面上产生的分类误差。与现有的专利分类方法的技术相比,本发明进行专利自动分类的准确率达到70%以上。
本发明采用相似性度量的方法,结合专利文本的结构和语义特征,对专利文本中包含的信息进行分析和应用。专利相似度计算是对专利分类和分析的基本方法,专利相似度计算能够得到专利之间的“距离”,从而进一步对专利开展分析和研究。
附图说明
图1为本发明涉及的基于混合相似度的专利分类方法框架图;
图2为本发明涉及的不同参数α下的分类准确率比较图;
图3为本发明涉及的对比实验结果图;
图4为本发明涉及的基于权利要求书相似度的专利分类方法框架图;
图5为本发明基于SAO-x结构的专利相似度方法涉及的五个阶段示意图;
图6为本发明涉及的SAO-x结构模型图;
图7为基于权利要求书相似度的专利分类方法与传统方法的对比实验结果图。
具体实施方式
具体实施方式一:结合图1说明本实施方式。本实施方式所述的一种基于相似性度量的专利分类方法,该方法具体通过以下步骤实现:
步骤一、针对专利说明书摘要的文本元素,通过将CHI统计量和余弦相似度相结合,计算专利说明书摘要的相似度,解决部分特征性具有高CHI值但是不具有分类信息的问题;
步骤二、基于专利的IPC分类号,结合步骤一计算出的说明书摘要相似度计算专利的混合相似度;
步骤三、根据步骤二计算出的专利混合相似度,采用KNN分类方法对专利进行分类。
具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤一中,针对专利说明书摘要的文本元素,通过将CHI统计量和余弦相似度相结合,计算专利说明书摘要的相似度,其具体为:
步骤一一、将技术主题相似的一组专利组成的集合记为集合P,P={p1,p2,...,pn},n是集合P中包含的专利数量;
步骤一二、分别提取出集合P中每篇专利的IPC分类号和说明书摘要,说明书摘要的集合为A={a1,a2,...,an},a1为专利p1的说明书摘要,a2为专利p2的说明书摘要,an为专利pn的说明书摘要;
步骤一三、分别计算出集合P中第i篇专利pi的说明书摘要与第j篇专利pj的说明书摘要之间的CHI统计量以及第i篇专利pi的说明书摘要与第j篇专利pj的说明书摘要之间的余弦相似度Scos(pi,pj);其中:i=1,2,…,n,j=1,2,…,n,i≠j;
第i篇专利pi的说明书摘要与第j篇专利pj的说明书摘要之间的余弦相似度Scos(pi,pj)的计算公式为:
其中:S(pi,pj)代表第i篇专利pi的说明书摘要与第j篇专利pj的说明书摘要相似度。
CHI统计量的计算方法为:
其中,A表示包含特征项t且属于类别Cj的文本数量,B表示包含特征项t且不属于类别Cj的文本数量,C表示不包含特征项t且属于类别Cj的文本数量,D表示不包含特征项t且不属于类别Cj的文本数量。
具体实施方式三:本实施方式与具体实施方式二不同的是:所述步骤二的具体过程为:
步骤二一、计算IPC分类号相似度:
IPC分类号相似度为两个专利的IPC相同的层次数量与样本的IPC总层次的比值,假设第i篇专利的IPC分类号为IPCi,第j篇专利的IPC分类号为IPCj,则IPCi与IPCj的相似度SIPC(pi,pj)的计算公式如(4)所示:
步骤二二、计算专利的混合相似度:
通过计算的说明书摘要相似度和IPC分类号相似度得到专利的混合相似度,混合相似度的计算公式如(5)所示:
Sw(pi,pj)=α×SIPC(pi,pj)+(1-α)×S(pi,pj) (5)
其中,α为权重,Sw(pi,pj)为第i篇专利与第j篇专利的混合相似度。
按照IPC分类标准,共可以分为部、大类、小类、大组和小组五个层次。
相似性度量是判断专利集合关联程度的基本方法。该方法使用TF-IDF作为摘要特征筛选方法,同时考虑余弦值相似性度量和CHI统计量,结合IPC专利分类号方法,本发明提出了一种基于多指标的混合相似性度量方法。该方法同时考虑IPC专利号和专利摘要相似性,进一步提升专利分类的准确性。使用单一的传统的欧式距离和余弦值相似度度量方法,得到的分类结果没有明显的差异,但是本发明提出的基于余弦值和CHI统计量的相似性度量算法(Cosine-CHI算法),在准确率、召回率、F值三个指标上明显高于传统的欧式距离方法和余弦值相似性度量方法。可以认为该方法在传统专利相似度方法的基础上得到了改进和优化,验证了该方法对专利分类的有效性。与最小哈希算法比较,准确率、召回率、F值三个指标也均有提升,可以验证提出的方法是一种优秀的专利摘要相似性度量方法。在本发明提出的基于混合相似度的专利分类方法中,将基于摘要相似度的专利分类方法和基于IPC的专利分类方法相结合,综合考虑专利文本的结构特征和非结构化特征,使得专利分类的结果更为准确。首先,讨论参数α的选择,如图2所示。对于参数α选择的实验,类别的评判标准为专利对应的IPC号,以IPC主分类号的大类和小组作为专利类别的标准。以准确率作为专利分类结果的评价指标。从图2可以看出,当α∈(0.6,0.7)时,该混合模型的分类准确率较高,并且当α>0.5时,该混合模型的以IPC小组为标准的分类准确率超过了以IPC大类为标准的分类准确率,但是当α>0.7时出现了一个明显的下降趋势。因此α取值为0.6。由图3可知,本发明提出的基于混合相似度的专利分类方法,在结合了IPC专利号和基于摘要相似度的专利分类方法后,在准确率、召回率和F值三种指标上都好于单独使用IPC专利号方法。因为基于混合相似度的专利分类方法考虑了专利文本的结构化和非结构化特征,更全面地展示了专利信息,计算出更准确的相似度,从而使得专利分类的准确性有了提升。综上可以说明结合专利的结构化特征和非结构化特征可以更全面地得到专利相似度,从而得到更好的分类效果,并且专利的非结构化内容更能突显专利的所属类别。
具体实施方式四、本实施方式与具体实施方式三不同的是:所述权重α由实验研究得到最优值,KNN分类算法的k值根据数据集的样本分布进行选择最优值。
具体实施方式五、本实施方式与具体实施方式一不同的是:所述步骤三的具体过程为:
将步骤二计算出的专利混合相似度按降序排列,将排在最靠前的k个专利分为一类。
具体实施方式六:结合图4说明本实施方式。本实施方式所述的一种基于相似性度量的专利分类方法,该方法具体通过以下步骤实现:
步骤一、将技术主题相似的一组专利组成的集合记为集合P,并对集合P中的专利权利要求书文本进行预处理;
步骤二、将专利权利要求书中描述专利特征的句子转换成SAO结构,从转换后的句子中提取出SAO-x结构;
步骤三、根据提取出的SAO-x结构,分别计算每两个专利的SAO-x结构的相似度;
步骤四、根据步骤三中计算出的相似度,采用KNN分类方法对专利进行分类。
针对专利权利要求书,通过抽取SAO-x结构,结合Jaccard距离和马氏距离的相似度计算权利要求书的相似度;所述的一组SAO-x结构是在SAO结构抽取的基础上,添加宾语补足语的内容,x表示宾语“O”之后的表示功能和目的的词语或句子结构。本实施方式的基于权利要求书相似度的专利分类方法的具体研究框架如图4所示。
具体实施方式七、本实施方式与具体实施方式六不同的是:所述步骤一的具体过程为:
将技术主题相似的一组专利组成的集合记为集合P,P={p1,p2,...,pn},n是集合P中包含的专利数量;
分别对每篇专利的权利要求书文本进行预处理,预处理的方法包括:消除标点符号,大写转换为小写,词形还原,消除停用词。停用词包括特殊字母、文章、连词等。
具体实施方式八、本实施方式与具体实施方式六不同的是:所述SAO-x结构中,S代表主语,A代表谓语,O代表宾语,x代表宾语补足语。
SAO确定:
将那些准确描述该专利特征的句子转换成SAO结构。将第一句“本发明”等表述直接作为该专利要求保护的发明的特征;将第二句提供的内容作为关于本发明的附加和可选信息,以及解释本领域技术的一般特征。
SAO分析:
在SAO中,A表示S和O之间的关系,或者表示S对O的影响;当S和O被设置为发明和工程参数时,A用于根据S和O之间的关系将来自SAO的信息分类为两类:元素或者字段类,以及目的或者效果类;
SAOx分析:
信息的目的和效果句子的其他部分中提取,两个最典型的部分包括:“for”或“to”修饰对象项的短语,以及以动名词短语形式的对象项。
构建一组SAO-x,能够识别有意义的技术信息,同时最大限度地减少噪声信息。根据专利文献的撰写特征,采用一组指定的技术术语作为一组SAO结构的主语,以这些技术术语开头的句子包含了关于专利发明的关键信息,并可以描述研究目的、效果和涉及领域等内容。基于SAO-x结构的专利相似度方法的研究过程包括五个阶段,如图5所示。第一阶段,收集所需要的专利数据集。对这些专利进行预处理,提取专利权利要求书中与描述有关的部分。然后,分析这些预处理的结果,以便在第二阶段构建SAO结构。第二阶段,构建SAO结构。第三阶段涉及SAO结构中的信息提取。S设置为专利的核心词语或者“该专利”、“此发明”等概括词语,而AO则是两种类型信息相关联的部分:1)技术/领域和2)目的/效果。第四阶段是扩展与目的/效果相关的SAO信息。通过分析宾语“O”之后的表示功能和目的的词语或句子结构,SAO-x结构模型图如图6。第五阶段基于上述的SAO-x结构上进行相似性度量,提出一种基于权利要求书相似度的专利分类方法。其中,所述的作为一组SAO结构的主语的技术术语包括:本发明、该装置、该专利、具体实施方式。
最后基于计算出的SAO-x结构相似度,使用KNN分类方法作为统一的分类方法,最后对同一数据集分别使用本发明方法和传统方法,实验结果如图7所示,验证本发明提出的专利分类方法与传统方法相比在准确率得到了提升。
具体实施方式九、本实施方式与具体实施方式六不同的是:所述步骤三的具体过程为:
其中:p1代表第1篇专利提取出的SAO-x结构的特征,p2代表第2篇专利提取出的SAO-x结构的特征,d(p1,p2)代表第1篇专利与第2篇专利的SAO-x结构的相似度,M为协方差矩阵(M可以取为单位矩阵);
p1={s1,a1,o1,x1},s1代表第1篇专利提取出的SAO-x结构中的主语特征,a1代表第1篇专利提取出的SAO-x结构中的谓语特征,o1代表第1篇专利提取出的SAO-x结构中的宾语特征,x1代表第1篇专利提取出的SAO-x结构中的宾语补足语特征;p2={s2,a2,o2,x2},s2代表第2篇专利提取出的SAO-x结构中的主语特征,a2代表第2篇专利提取出的SAO-x结构中的谓语特征,o2代表第2篇专利提取出的SAO-x结构中的宾语特征,x2代表第2篇专利提取出的SAO-x结构中的宾语补足语特征;
其中,ds(p1,p2)代表s1与s2之间的相似度,do(p1,p2)代表o1与o2之间的相似度,da(p1,p2)代表a1与a2之间的相似度,dx(p1,p2)代表x1与x2之间的相似度;
同理,计算出任意两个专利的SAO-x结构的相似度。
具体实施方式十、本实施方式与具体实施方式六不同的是:所述步骤四的具体过程为:
将步骤三计算出的相似度按降序排列,将排在最靠前的k个专利分为一类。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (10)
1.一种基于相似性度量的专利分类方法,其特征在于,该方法包括以下步骤:
步骤一、针对专利说明书摘要的文本元素,通过将CHI统计量和余弦相似度相结合,计算专利说明书摘要的相似度;
步骤二、基于专利的IPC分类号,结合步骤一计算出的说明书摘要相似度计算专利的混合相似度;
步骤三、根据步骤二计算出的专利混合相似度,采用KNN分类方法对专利进行分类。
2.根据权利要求1所述的一种基于相似性度量的专利分类方法,其特征在于,所述步骤一中,针对专利说明书摘要的文本元素,通过将CHI统计量和余弦相似度相结合,计算专利说明书摘要的相似度,其具体为:
步骤一一、将技术主题相似的一组专利组成的集合记为集合P,P={p1,p2,...,pn},n是集合P中包含的专利数量;
步骤一二、分别提取出集合P中每篇专利的IPC分类号和说明书摘要,说明书摘要的集合为A={a1,a2,...,an},a1为专利p1的说明书摘要,a2为专利p2的说明书摘要,an为专利pn的说明书摘要;
步骤一三、分别计算出集合P中第i篇专利pi的说明书摘要与第j篇专利pj的说明书摘要之间的CHI统计量以及第i篇专利pi的说明书摘要与第j篇专利pj的说明书摘要之间的余弦相似度Scos(pi,pj);其中:i=1,2,…,n,j=1,2,…,n,i≠j;
第i篇专利pi的说明书摘要与第j篇专利pj的说明书摘要之间的余弦相似度Scos(pi,pj)的计算公式为:
其中:S(pi,pj)代表第i篇专利pi的说明书摘要与第j篇专利pj的说明书摘要相似度。
3.根据权利要求2所述的一种基于相似性度量的专利分类方法,其特征在于,所述步骤二的具体过程为:
步骤二一、计算IPC分类号相似度:
IPC分类号相似度为两个专利的IPC相同的层次数量与样本的IPC总层次的比值,假设第i篇专利的IPC分类号为IPCi,第j篇专利的IPC分类号为IPCj,则IPCi与IPCj的相似度SIPC(pi,pj)的计算公式如(4)所示:
步骤二二、计算专利的混合相似度:
通过计算的说明书摘要相似度和IPC分类号相似度得到专利的混合相似度,混合相似度的计算公式如(5)所示:
Sw(pi,pj)=α×SIPC(pi,pj)+(1-α)×S(pi,pj) (5)
其中,α为权重,Sw(pi,pj)为第i篇专利与第j篇专利的混合相似度。
4.根据权利要求3所述的一种基于相似性度量的专利分类方法,其特征在于,所述KNN分类算法的k值根据数据集的样本分布进行选择最优值。
5.根据权利要求1所述的一种基于相似性度量的专利分类方法,其特征在于,所述步骤三的具体过程为:
将步骤二计算出的专利混合相似度按降序排列,将排在最靠前的k个专利分为一类。
6.一种基于相似性度量的专利分类方法,其特征在于,该方法包括以下步骤:
步骤一、将技术主题相似的一组专利组成的集合记为集合P,并对集合P中的专利权利要求书文本进行预处理;
步骤二、将专利权利要求书中描述专利特征的句子转换成SAO结构,从转换后的句子中提取出SAO-x结构;
步骤三、根据提取出的SAO-x结构,分别计算每两个专利的SAO-x结构的相似度;
步骤四、根据步骤三中计算出的相似度,采用KNN分类方法对专利进行分类。
7.根据权利要求6所述的一种基于相似性度量的专利分类方法,其特征在于,所述步骤一的具体过程为:
将技术主题相似的一组专利组成的集合记为集合P,P={p1,p2,...,pn},n是集合P中包含的专利数量;
分别对每篇专利的权利要求书文本进行预处理,预处理的方法包括:消除标点符号,大写转换为小写,词形还原,消除停用词。
8.根据权利要求6所述的一种基于相似性度量的专利分类方法,其特征在于,所述SAO-x结构中,S代表主语,A代表谓语,O代表宾语,x代表宾语补足语。
9.根据权利要求6所述的一种基于相似性度量的专利分类方法,其特征在于,所述步骤三的具体过程为:
其中:p1代表第1篇专利提取出的SAO-x结构的特征,p2代表第2篇专利提取出的SAO-x结构的特征,d(p1,p2)代表第1篇专利与第2篇专利的SAO-x结构的相似度,M为协方差矩阵;
p1={s1,a1,o1,x1},s1代表第1篇专利提取出的SAO-x结构中的主语特征,a1代表第1篇专利提取出的SAO-x结构中的谓语特征,o1代表第1篇专利提取出的SAO-x结构中的宾语特征,x1代表第1篇专利提取出的SAO-x结构中的宾语补足语特征;p2={s2,a2,o2,x2},s2代表第2篇专利提取出的SAO-x结构中的主语特征,a2代表第2篇专利提取出的SAO-x结构中的谓语特征,o2代表第2篇专利提取出的SAO-x结构中的宾语特征,x2代表第2篇专利提取出的SAO-x结构中的宾语补足语特征;
其中,ds(p1,p2)代表s1与s2之间的相似度,do(p1,p2)代表o1与o2之间的相似度,da(p1,p2)代表a1与a2之间的相似度,dx(p1,p2)代表x1与x2之间的相似度;
同理,计算出任意两个专利的SAO-x结构的相似度。
10.根据权利要求6所述的一种基于相似性度量的专利分类方法,其特征在于,所述步骤四的具体过程为:
将步骤三计算出的相似度按降序排列,将排在最靠前的k个专利分为一类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010832816.6A CN111930946A (zh) | 2020-08-18 | 2020-08-18 | 一种基于相似性度量的专利分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010832816.6A CN111930946A (zh) | 2020-08-18 | 2020-08-18 | 一种基于相似性度量的专利分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111930946A true CN111930946A (zh) | 2020-11-13 |
Family
ID=73304582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010832816.6A Pending CN111930946A (zh) | 2020-08-18 | 2020-08-18 | 一种基于相似性度量的专利分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111930946A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255324A (zh) * | 2021-03-09 | 2021-08-13 | 西安循数信息科技有限公司 | 一种用于专利数据中发明人姓名消歧的方法 |
CN115858793A (zh) * | 2023-02-20 | 2023-03-28 | 知呱呱(天津)大数据技术有限公司 | 基于图注意力机制的专利多层级分类方法及计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104516986A (zh) * | 2015-01-16 | 2015-04-15 | 青岛理工大学 | 一种语句识别方法及装置 |
CN107122382A (zh) * | 2017-02-16 | 2017-09-01 | 江苏大学 | 一种基于说明书的专利分类方法 |
CN108549634A (zh) * | 2018-04-09 | 2018-09-18 | 北京信息科技大学 | 一种中文专利文本相似度计算方法 |
CN109684630A (zh) * | 2018-12-05 | 2019-04-26 | 南京邮电大学 | 专利相似性的对比分析方法 |
CN110134925A (zh) * | 2019-05-15 | 2019-08-16 | 北京信息科技大学 | 一种中文专利文本相似度计算方法 |
CN110895586A (zh) * | 2018-08-22 | 2020-03-20 | 腾讯科技(深圳)有限公司 | 生成新闻页面的方法、装置、计算机设备及存储介质 |
-
2020
- 2020-08-18 CN CN202010832816.6A patent/CN111930946A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104516986A (zh) * | 2015-01-16 | 2015-04-15 | 青岛理工大学 | 一种语句识别方法及装置 |
CN107122382A (zh) * | 2017-02-16 | 2017-09-01 | 江苏大学 | 一种基于说明书的专利分类方法 |
CN108549634A (zh) * | 2018-04-09 | 2018-09-18 | 北京信息科技大学 | 一种中文专利文本相似度计算方法 |
CN110895586A (zh) * | 2018-08-22 | 2020-03-20 | 腾讯科技(深圳)有限公司 | 生成新闻页面的方法、装置、计算机设备及存储介质 |
CN109684630A (zh) * | 2018-12-05 | 2019-04-26 | 南京邮电大学 | 专利相似性的对比分析方法 |
CN110134925A (zh) * | 2019-05-15 | 2019-08-16 | 北京信息科技大学 | 一种中文专利文本相似度计算方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255324A (zh) * | 2021-03-09 | 2021-08-13 | 西安循数信息科技有限公司 | 一种用于专利数据中发明人姓名消歧的方法 |
CN113255324B (zh) * | 2021-03-09 | 2022-02-18 | 西安循数信息科技有限公司 | 一种用于专利数据中发明人姓名消歧的方法 |
CN115858793A (zh) * | 2023-02-20 | 2023-03-28 | 知呱呱(天津)大数据技术有限公司 | 基于图注意力机制的专利多层级分类方法及计算机设备 |
CN115858793B (zh) * | 2023-02-20 | 2023-05-09 | 知呱呱(天津)大数据技术有限公司 | 基于图注意力机制的专利多层级分类方法及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107193801B (zh) | 一种基于深度信念网络的短文本特征优化及情感分析方法 | |
CN106407406B (zh) | 一种文本处理方法和系统 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN108376131A (zh) | 基于seq2seq深度神经网络模型的关键词抽取方法 | |
Likhitha et al. | A detailed survey on topic modeling for document and short text data | |
CN106484797B (zh) | 基于稀疏学习的突发事件摘要抽取方法 | |
CN108763348B (zh) | 一种扩展短文本词特征向量的分类改进方法 | |
CN111930946A (zh) | 一种基于相似性度量的专利分类方法 | |
CN111144106A (zh) | 一种不平衡数据集下的两阶段文本特征选择方法 | |
Yin et al. | Maximum entropy model for mobile text classification in cloud computing using improved information gain algorithm | |
Li et al. | An improved KNN algorithm for text classification | |
Yang et al. | Leveraging global and local topic popularities for LDA-based document clustering | |
CN114997288A (zh) | 一种设计资源关联方法 | |
Naserasadi et al. | Extractive multi-document summarization based on textual entailment and sentence compression via knapsack problem | |
Wang et al. | Improving short text classification through better feature space selection | |
CN115879901A (zh) | 一种智能人事自助服务平台 | |
Naji et al. | Text classification for arabic words using Rep-Tree | |
Zeng | Exploration and study of multilingual thesauri automation construction for digital libraries in China | |
Yang et al. | A hot topic detection approach on Chinese microblogging | |
Sawadogo et al. | Benchmarking data lakes featuring structured and unstructured data with dlbench | |
Hu et al. | Study on Similar Engineering Decision Problem Identification Based on Combination of Improved Edit-Distance and Skeletal Dependency Tree with POS | |
CN111259150A (zh) | 一种基于词频共现分析的文献表示方法 | |
Lou et al. | Massive Ship Fault Data Retrieval Algorithm Supporting Complex Query in Cloud Computing. | |
Jia et al. | Digital media hotspot mining algorithm implementation with complex systems in the mobile internet environment | |
Qu et al. | A news event detection algorithm based on key elements recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201113 |
|
RJ01 | Rejection of invention patent application after publication |