CN104881401A - 一种专利文献聚类方法 - Google Patents
一种专利文献聚类方法 Download PDFInfo
- Publication number
- CN104881401A CN104881401A CN201510278103.9A CN201510278103A CN104881401A CN 104881401 A CN104881401 A CN 104881401A CN 201510278103 A CN201510278103 A CN 201510278103A CN 104881401 A CN104881401 A CN 104881401A
- Authority
- CN
- China
- Prior art keywords
- attribute
- word
- clustering
- abstract
- cluster analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 123
- 238000004458 analytical method Methods 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 238000007621 cluster analysis Methods 0.000 claims description 109
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 5
- 238000002474 experimental method Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 7
- 238000000354 decomposition reaction Methods 0.000 description 5
- 230000000052 comparative effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种专利文献聚类方法,包括以下步骤:S1、语料集采集及预处理;S2、聚类分析语料的特征词提取;S3、基于词向量的聚类分析数据专利向量表示;S4、聚类;S5、聚类结果评价。本发明的专利文献聚类方法综合考虑了专利文献的标题和摘要信息,通过将专利摘要信息从不同角度进行利用,考虑专利摘要文本的整体信息,同时考虑专利摘要中属性和属性值的信息,充分挖掘了专利文本摘要中隐含的语义信息;充分利用大规模语料中隐藏的信息,利用大规模的语料进行特征训练,将词语表示成低纬度的向量形式,避免了维灾难的同时更好地提取了文本中的信息;设置不同的权重,将标题、摘要和摘要的属性值对三种形式的数据进行融合,得到很好的专利聚类效果。
Description
技术领域
本发明涉及一种专利文献语料的聚类方法,尤其是一种专利文献聚类方法。
背景技术
当下经济环境中,专利对于提升企业价值的作用愈来愈重要。通过申请专利可以保护企业的知识产权,进而保护企业的核心竞争力。目前学者们已经进行针对专利文献进行了很多研究,如对专利摘要的标注,对专利关键技术的抽取,对专利进行聚类分析等。
近年来,在数据挖掘领域中,对文本聚类的研究取得了很多成果。其中很多方法均以将文档表示成向量形式为基础,利用聚类算法对文档进行聚类分析。专利文献中包含大量非结构的信息形式,因此可以将聚类应用于专利分析。目前,已经有很多关于专利聚类分析的研究,如基于词向量的专利聚类分析,基于技术功效矩阵的聚类分析等。目前,基于词向量的专利聚类研究,主要是将关键词的文档和词频信息加入到文档向量表示中。这种特征表示形式容易造成维灾难,应用与降维的方法有设置阈值和矩阵分解,常用的矩阵分解方法有奇异值分解和非负矩阵分解。这些方法虽然可以达到降维的目的,却还是没有将特征词上下文信息加入。深度学习可以被应用到文本的向量表示,该方法在降维的同时将文本上下文信息加入到文档向量中,可以很好地提升文档向量包含的信息。
目前对专利文本聚类的研究中,大部分是对专利摘要的文本进行研究,这些研究都取得了不错的效果。选择一种聚类因素进行专利聚类分析,可能对专利分析不够全面。另一方面,仅使用同一种形式的语料进行聚类融合,可能会遗漏很多隐含信息。
发明内容
本发明的目的是提供一种充分挖掘专利文本摘要中隐含的语义信息、充分利用大规模语料中隐藏信息的专利文献聚类方法。
本发明解决现有技术问题所采用的技术方案:一种专利文献聚类方法,包括以下步骤:
S1、语料集采集及预处理:
a1、语料集采集:选定预定领域,从专利文献数据库中按照专利IPC分类号在每个类别中采集专利文献信息组成语料集,所述专利文献信息包括专利文献的专利标题、IPC分类号和专利摘要;从所述语料集中提取所有专利文献的专利摘要并存储为词向量训练语料集;从语料集中提取部分专利文献的专利摘要并存储为属性和属性值模型训练语料集;从语料集中提取部分专利文献的专利标题、专利摘要和IPC分类号并存储为聚类分析语料集;从聚类分析语料集中抽取所有专利摘要并将其分成两个部分,一部分作为聚类分析摘要集,另一部分作为聚类分析属性和属性值抽取集;从聚类分析语料集中抽取所有专利标题并存储为聚类分析标题集;
a2、分词处理及标注:采用分词模型对词向量训练语料集、聚类分析标题集、聚类分析摘要集、属性和属性值模型训练语料集、聚类分析属性和属性值抽取集进行分词处理分别得到相对应的词向量训练词语集、聚类分析标题词语集、聚类分析摘要词语集、属性和属性值模型训练词语集、聚类分析属性和属性值抽取词语集,同时对属性和属性值模型训练词语集和属性值抽取词语集进行词性标注及属性标注;所述属性标注以属性和属性值组成的数据组的形式进行标注;
S2、聚类分析语料的特征词提取:对步骤S1中得到的与聚类分析摘要集相对应的聚类分析摘要词语集,统计聚类分析摘要词语集中每个词语在聚类分析摘要集的每篇摘要中出现的频率和聚类分析摘要集中包含该词语的专利摘要的数量,计算每个词语的TFIDF值:
其中,N为聚类分析语料集的语料总数,nk,i为第k个词语在聚类分析摘要集中的第i篇专利摘要中出现的次数,nk,d为聚类分析摘要集中包含第k个词语的专利摘要的数量;预设阈值,对于与聚类分析摘要集的每条摘要所对应的聚类分析摘要词语集中的词语将TFIDF值大于阈值的词语作为与该专利摘要的特征词,每条专利摘要的特征词组成聚类分析摘要特征词集合;遍历步骤S1得到的聚类分析标题词语集,对于每一条专利标题,将属于对应聚类分析摘要特征词集合中的词语提取并保存为聚类分析专利标题特征词集;
S3、基于词向量的聚类分析数据专利向量表示:
包括如下步骤:
b1、获取词向量:利用词向量技术,得到所述词向量训练词语集中每个词语的词向量;
b2、属性和属性值抽取:将属性和属性值作为命名实体,利用序列标注技术,通过步骤a2得到的经过属性标注后的属性和属性值模型训练词语集所对应的属性和属性值模型训练语料集训练得到的条件随机场模型,并将训练得到的条件随机场模型应用于聚类分析属性和属性值抽取集,完成对聚类分析属性和属性值抽取集中的每个专利摘要的标签预测;对于经过标签预测的聚类分析属性和属性值抽取集,提取聚类分析属性和属性值抽取集中的每一篇专利摘要中被赋予标签的词语,并将上述词语保存为聚类分析摘要属性和属性值集;
b3、专利摘要属性和属性值的向量表示:利用词向量技术将步骤b2得到的聚类分析摘要属性和属性值集中词语表示为词向量形式,将每篇专利摘要所对应的聚类分析摘要属性和属性值集中的词向量进行线性加和作为该专利摘要属性和属性值的向量表示;
b4、专利标题的向量表示:利用步骤b1,将聚类分析标题集中包含的专利标题特征词替换成对应的词向量;将聚类分析标题集中每一调专利标题所对应的所有专利标题特征词的词向量进行线性相加,得到该条专利标题的向量表示;
b5、专利摘要文本的向量表示:利用步骤b4的方法得到专利摘要文本的向量表示;
b6、加权融合:将步骤b3-b5得到专利摘要属性和属性值的向量表示、专利标题的向量表示和专利摘要文本的向量表示进行加权线性求和,求和之后得到的和向量即为聚类分析数据专利向量表示;
S4、聚类:针对步骤S3得到的聚类分析数据专利向量,利用聚类分析法通过计算聚类分析数据专利向量之间的相似度完成初次聚类;再结合具体的阈值,对初始聚类结果进行不断调整,最后得到聚类分析数据中专利的聚类结果;
S5、聚类结果评价:根据预设的评价指标对聚类结果进行评价。
步骤S1中抽取属性和属性值模型训练语料集和聚类分析语料集的方法为:按照专利IPC分类号在语料集中在每个类别中分别抽取相同数量的专利摘要组成属性和属性值模型训练语料集;按照专利IPC分类号在语料集中在每个类别中分别抽取相同数量的专利标题、专利摘要和IPC分类号组成聚类分析语料集。
所述词向量训练语料集、属性和属性值模型训练语料集和聚类分析语料集中的专利文献信息以分行形式进行存储,其中每行专利文献信息对应一篇专利文献。
所述属性标注的具体方法为:对于完成词性标注后的属性和属性值模型训练词语集,对于标注标签集合{属性的开始部分,属性的中间部分,属性的结束部分,属性值的开始部分,属性值的中间部分,属性值的结束部分,其他},判断完成词性标注后的属性和属性值模型训练词语集中每个词对应于标注标签集合中的对应属性标签,并标记为相应的标签,而将无法在标注标签中对应的词标记为{其他};将完成词性标注的聚类分析属性和属性值抽取词语集中的词语均标注为{其他}
分词处理的方法采用隐马尔科夫模型。
步骤b6中加权融合的方法如下:
其中,为专利文档向量,为一种形式的文档向量,为特征词对应的词向量,wi为第i种信息形式对应文档向量的权重,qj第j个关键词在一篇文档中出现的次数,di表示关键词对应的实数向量的一个维度
步骤S4中的聚类方法包括如下步骤:
c1、选定k个专利文献作为聚类中心;
c2、计算其他专利文献与所述聚类中心的距离,比较得到距离最近的中心,将所述其他专利文献标记为类别i,得到多个类簇;
c3、选定k个类簇并计算该K个类簇的中心,求出每个类簇的平均值,得到新的聚类中心;
c4、重复步骤c2-c3,直到两次中心的差异度小于预设阈值。
步骤S5中,预设的评价指标包括聚类结果的准确率、召回率和F值;聚类结果的准确率通过如下公式获得:
P(ci)=max{P(f1,ci),P(f2,ci),...,P(fj,ci),...,P(fk,ci)}
其中,P为聚类结果的准确率,P(ci)为第i个类簇的准确率,分别计算k个类别在类簇i中的准确率,选择最大的准确率作为类簇i的准确率;为类簇i和类别k中相同的专利的个数,为类簇i中专利的个数;
聚类结果的召回率通过如下公式获得:
R(ci)=max{R(f1,ci),R(f2,ci),...,R(fj,ci),...,R(fk,ci)}
其中,R为聚类结果的召回率,R(ci)为第i个类簇的召回率,分别计算k个类别在类簇i中的召回率,选择最大的召回率作为类簇i的召回率;为类簇i和类别k中相同的专利的个数,为类别k中专利的个数;
聚类结果的F值通过如下公式获得:
本发明的有益效果在于:本发明的专利文献聚类方法综合考虑了专利文献的标题和摘要信息,取得很好的专利聚类效果;通过将专利摘要信息从不同角度进行利用,考虑专利摘要文本的整体信息,同时考虑专利摘要中属性和属性值的信息,充分挖掘了专利文本摘要中隐含的语义信息;充分利用大规模语料中隐藏的信息,利用大规模的语料进行特征训练,将词语表示成低纬度的向量形式,避免了维灾难的同时更好地提取了文本中的信息;设置不同的权重,将标题、摘要和摘要的属性值对三种形式的数据进行融合,得到很好的专利聚类效果;在相同的语料上,本发明的聚类结果的准确率、召回率和F值分别是0.5912、0.4656和0.5208,对比实验准确率、召回率和F值分别是0.5208,0.1859,0.2739。
附图说明
图1为本发明的逻辑原理图。
具体实施方式
以下结合附图及具体实施例对本发明进行说明:
实施例
S1、语料集采集及预处理:
a1、语料集采集:
选定汽车领域,从“国家知识产权局专利数据库”中利用爬虫技术按照专利IPC分类号A-H八个类别在每个类别中爬取专利文献信息组成语料集。专利文献信息包含专利标题、IPC分类号和专利摘要;抽取语料集中所有专利文献的专利摘要存储为词向量训练语料集;抽取语料集中1000篇专利文献的专利摘要存储为属性和属性值模型训练语料集,属性和属性值模型训练语料集中包含A-H八个类别的专利摘要且每一个类别的抽取125篇专利摘要;从语料集中抽取640篇专利文献的专利标题、专利摘要和IPC分类号并存储为聚类分析语料集,同样的,所抽取的聚类分析语料集中包含A-H八个类别的专利文献信息,且每一个类别中抽取80篇专利文献的专利标题、专利摘要和IPC分类号;从聚类分析语料集抽取所有的专利摘要将其分成两个部分,一部分作为聚类分析摘要集,另一部分作为聚类分析属性和属性值抽取集;聚类分析语料集中抽取所有专利标题并存储为聚类分析标题集;为了便于数据处理,词向量训练语料集、属性和属性值模型训练语料集、聚类分析语料集及聚类分析标题集中的专利文献信息以分行形式进行存储,其中每行专利文献信息对应一篇专利文献。即每一行数据对应一篇专利文献的专利摘要;聚类分析标题集中每一行数据对应一篇专利的标题,聚类分析语料集中的每一行数据对应一篇专利的标题、IPC分类号和摘要;
a2、分词处理及标注:采用隐马尔科夫模型对词向量训练语料集、聚类分析标题集、聚类分析摘要集、属性和属性值模型训练语料集、聚类分析属性和属性值抽取集进行分词处理,分别得到相对应的词向量训练词语集、聚类分析标题词语集、聚类分析摘要词语集、属性和属性值模型训练词语集、聚类分析属性和属性值抽取词语集,同时对属性和属性值模型训练词语集和聚类分析属性和属性值抽取词语集进行词性标注及属性标注;所述属性标注以属性和属性值组成的数据组的形式进行标注;
其中,属性标注的具体方法为:对于完成词性标注后的属性和属性值模型训练词语集,设定标注标签集合为{B-A,M-A,E-A,B-V,M-V,E-V,O},分别表示{属性的开始部分,属性的中间部分,属性的结束部分,属性值的开始部分,属性值的中间部分,属性值的结束部分,其他},判断完成词性标注后的属性和属性值模型训练词语集中每个词对应于标注标签集合中的对应属性标签,并标记为相应的标签,而将无法在标注标签中对应的词标记为{其他}(即标签“O”);将完成词性标注的聚类分析属性和属性值抽取词语集中的词语均标注为{其他}(即标签“O”);将属性标记完成的属性和属性值模型训练词语集和聚类分析属性和属性值抽取词语集进行处理,使得处理后性和属性值模型训练词语集和聚类分析属性和属性值抽取词语集的每一行只包含一个词、该词的词性和标签,彼此之间用“\t”(Tab键)分开,同时数据文件中的每一篇专利摘要的数据之间用空行隔开。
S2、聚类分析语料的特征词提取:对步骤S1中得到的与聚类分析摘要集相对应的聚类分析摘要词语集,统计聚类分析摘要词语集中每个词语在聚类分析摘要集的每篇摘要中出现的频率和聚类分析摘要集中包含该词语的专利摘要的数量,计算每个词语的TFIDF值:
其中,N为聚类分析语料集的语料总数,nk,i为第k个词语在聚类分析摘要集中的第i篇专利摘要中出现的次数,nk,d为聚类分析摘要集中包含第k个词语的专利摘要的数量;预设阈值,对于与聚类分析摘要集的每条摘要所对应的聚类分析摘要词语集中的词语将TFIDF值大于阈值的词语作为与该专利摘要的特征词,每条专利摘要的特征词组成聚类分析摘要特征词集合;遍历步骤S1得到的聚类分析标题词语集,对于每一条专利标题,将属于对应聚类分析摘要特征词集合中的词语提取并保存为聚类分析专利标题特征词集。
S3、基于词向量的聚类分析数据专利向量表示:
包括如下步骤:
b1、获取词向量:利用词向量word2vec技术,得到所述词向量训练词语集中每个词语的词向量;词向量的维度是200。
b2、属性和属性值抽取:将属性和属性值作为命名实体,利用序列标注技术,通过步骤a2得到的经过属性标注后的属性和属性值模型训练词语集所对应的属性和属性值模型训练语料集训练得到的条件随机场模型,并将训练得到的条件随机场模型应用于聚类分析属性和属性值抽取集,完成对聚类分析属性和属性值抽取集中的每个专利摘要的标签预测;对于经过标签预测的聚类分析属性和属性值抽取集,提取聚类分析属性和属性值抽取集中的每一篇专利摘要中被赋予标签的词语,并将上述词语保存为聚类分析摘要属性和属性值集;聚类分析摘要属性和属性值集优选采取分行存储的方式,每行存储的数据表示一篇专利摘要的属性和属性值信息,并保证聚类分析摘要属性和属性值集中每行数据与聚类分析摘要集相对应,即聚类分析摘要属性和属性值集和聚类分析摘要集在相同的行号所对应的数据来自同一篇专利文献。
b3、专利摘要属性和属性值的向量表示:利用词向量技术将步骤b2得到的聚类分析摘要属性和属性值集中词语表示为词向量形式,即遍历聚类分析摘要属性和属性值集的每一行,在一行中从前往后逐次将每个词替换为对应的词向量形式,假如某个词没有对应的词向量,则忽略该词。然后将每篇专利摘要所对应的聚类分析摘要属性和属性值集中的词向量进行线性加和作为该专利摘要属性和属性值的向量表示;
b4、专利标题的向量表示:利用步骤b1,将聚类分析标题集中包含的专利标题特征词替换成对应的词向量;即遍历聚类分析标题集中的每一行,在一行中从前往后逐次将专利标题特征词替换成为对应的词向量,假如某个专利标题特征词没有对应的词向量,则忽略该特征词。然后将聚类分析标题集中每一条专利标题所对应的所有专利标题特征词的词向量进行线性相加,得到该条专利标题的向量表示;
b5、专利摘要文本的向量表示:利用步骤b4的方法得到专利摘要文本的向量表示;遍历S2得到的完成特征词提取的聚类分析摘要集,遍历每一行数据,在一行中从前往后逐次将专利摘要的特征词替换成对应的词向量,假如某个专利摘要的特征词没有对应的词向量,则忽略该特征词;将每一篇摘要的所有词向量进行线性相加,每一篇摘要的和向量就是该篇摘要文本对应的向量。
b6、加权融合:将步骤b3-b5得到专利摘要属性和属性值的向量表示、专利标题的向量表示和专利摘要文本的向量表示进行加权线性求和,求和之后得到的和向量即为聚类分析数据专利向量表示;加权融合的方法如下:
其中,为专利文档向量,为一种形式的文档向量,为特征词对应的词向量,wi为第i种信息形式对应文档向量的权重,qj第j个关键词在一篇文档中出现的次数,di表示关键词对应的实数向量的一个维度。
S4、聚类:针对步骤S3得到的聚类分析数据专利向量,利用聚类分析法通过计算聚类分析数据专利向量之间的相似度完成初次聚类;再结合具体的阈值,对初始聚类结果进行不断调整,最后得到聚类分析数据中专利的聚类结果;
聚类算法的思想是,从实验语料数据中选择k个文档向量作为中心,k为预定义的聚类最终产生的类簇个数;分别计算实验语料数据中其他文档向量与这k个中心的相似度,将实验语料数据中的所述其他文档向量划分到最相近的中心所在的类簇;重新选定k个类簇计算每个类簇的中心,计算方法是计算每个类簇的平均值,将平均值作为聚类中心;一直重复进行中心选择和类簇划分,一直到开始收敛。这里我们选择标准差作为测度函数,但不限于标准差。
具体地,聚类方法包括如下步骤:
c1、选定k个专利文献作为聚类中心;
c2、计算其他专利文献与所述聚类中心的距离,比较得到距离最近的中心,将所述其他专利文献标记为类别i,得到多个类簇;
c3、选定k个类簇并计算该K个类簇的中心,求出每个类簇的平均值,得到新的聚类中心;
c4、重复步骤c2-c3,直到两次中心的差异度小于预设阈值。
S5、聚类结果评价:根据步骤S4,聚类分析数据被聚成k个类别,根据聚类结果的准确率、召回率和F值对聚类结果进行评价。
其中,聚类结果的准确率通过如下公式获得:
P(ci)=max{P(f1,ci),P(f2,ci),...,P(fj,ci),...,P(fk,ci)}
其中,P为聚类结果的准确率,P(ci)为第i个类簇的准确率,分别计算k个类别在类簇i中的准确率,选择最大的准确率作为类簇i的准确率;为类簇i和类别k中相同的专利的个数,为类簇i中专利的个数;
聚类结果的召回率通过如下公式获得:
R(ci)=max{R(f1,ci),R(f2,ci),...,R(fj,ci),...,R(fk,ci)}
其中,R为聚类结果的召回率,R(ci)为第i个类簇的召回率,分别计算k个类别在类簇i中的召回率,选择最大的召回率作为类簇i的召回率;为类簇i和类别k中相同的专利的个数,为类别k中专利的个数;
聚类结果的F值通过如下公式获得:
实验结果如下:
表1聚类结果评价
对比实验 | 实验结果 | |
准确率 | 0.5208 | 0.5912 |
召回率 | 0.1859 | 0.4656 |
F值 | 0.2739 | 0.5208 |
通过分析表1,我们聚类结果较对比实验的实验结果均有所提高。实验结果证明本方法可以更好的实验专利数据的聚类。本实验效果提升的原因是,相比较对比实验选择奇异值分解的方法,本发明选择更好的基于深度学习的词向量表示形式;对比实验只考虑了专利摘要的信息,本发明将摘要信息通过两种形式进行表示,同时本文加入了专利标题信息。本发明选择与类别个数相同的类簇个数,对聚类中心的选择没有做特殊的预处理,这些因素使得本发明的聚类结果较对比实验的结果稍差。本发明考虑到对比实验选择110以上的类簇个数,类别标签还是选择了IPC分类号,这样的聚类结果可解释性稍差,本发明没有选择加到类簇个数来提升实验结果。
以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (8)
1.一种专利文献聚类方法,其特征在于,包括以下步骤:
S1、语料集采集及预处理:
a1、语料集采集:选定预定领域,从专利文献数据库中按照专利IPC分类号在每个类别中采集专利文献信息组成语料集,所述专利文献信息包括专利文献的专利标题、IPC分类号和专利摘要;从所述语料集中提取所有专利文献的专利摘要并存储为词向量训练语料集;从语料集中提取部分专利文献的专利摘要并存储为属性和属性值模型训练语料集;从语料集中提取部分专利文献的专利标题、专利摘要和IPC分类号并存储为聚类分析语料集;从聚类分析语料集中抽取所有专利摘要并将其分成两个部分,一部分作为聚类分析摘要集,另一部分作为聚类分析属性和属性值抽取集;从聚类分析语料集中抽取所有专利标题并存储为聚类分析标题集;
a2、分词处理及标注:采用分词模型对词向量训练语料集、聚类分析标题集、聚类分析摘要集、属性和属性值模型训练语料集、聚类分析属性和属性值抽取集进行分词处理分别得到相对应的词向量训练词语集、聚类分析标题词语集、聚类分析摘要词语集、属性和属性值模型训练词语集、聚类分析属性和属性值抽取词语集,同时对属性和属性值模型训练词语集和属性值抽取词语集进行词性标注及属性标注;所述属性标注以属性和属性值组成的数据组的形式进行标注;
S2、聚类分析语料的特征词提取:对步骤S1中得到的与聚类分析摘要集相对应的聚类分析摘要词语集,统计聚类分析摘要词语集中每个词语在聚类分析摘要集的每篇摘要中出现的频率和聚类分析摘要集中包含该词语的专利摘要的数量,计算每个词语的TFIDF值:
其中,N为聚类分析语料集的语料总数,nk,i为第k个词语在聚类分析摘要集中的第i篇专利摘要中出现的次数,nk,d为聚类分析摘要集中包含第k个词语的专利摘要的数量;预设阈值,对于与聚类分析摘要集的每条摘要所对应的聚类分析摘要词语集中的词语将TFIDF值大于阈值的词语作为与该专利摘要的特征词,每条专利摘要的特征词组成聚类分析摘要特征词集合;遍历步骤S1得到的聚类分析标题词语集,对于每一条专利标题,将属于对应聚类分析摘要特征词集合中的词语提取并保存为聚类分析专利标题特征词集;
S3、基于词向量的聚类分析数据专利向量表示:
包括如下步骤:
b1、获取词向量:利用词向量技术,得到所述词向量训练词语集中每个词语的词向量;
b2、属性和属性值抽取:将属性和属性值作为命名实体,利用序列标注技术,通过步骤a2得到的经过属性标注后的属性和属性值模型训练词语集所对应的属性和属性值模型训练语料集训练得到的条件随机场模型,并将训练得到的条件随机场模型应用于聚类分析属性和属性值抽取集,完成对聚类分析属性和属性值抽取集中的每个专利摘要的标签预测;对于经过标签预测的聚类分析属性和属性值抽取集,提取聚类分析属性和属性值抽取集中的每一篇专利摘要中被赋予标签的词语,并将上述词语保存为聚类分析摘要属性和属性值集;
b3、专利摘要属性和属性值的向量表示:利用词向量技术将步骤b2得到的聚类分析摘要属性和属性值集中词语表示为词向量形式,将每篇专利摘要所对应的聚类分析摘要属性和属性值集中的词向量进行线性加和作为该专利摘要属 性和属性值的向量表示;
b4、专利标题的向量表示:利用步骤b1,将聚类分析标题集中包含的专利标题特征词替换成对应的词向量;将聚类分析标题集中每一调专利标题所对应的所有专利标题特征词的词向量进行线性相加,得到该条专利标题的向量表示;
b5、专利摘要文本的向量表示:利用步骤b4的方法得到专利摘要文本的向量表示;
b6、加权融合:将步骤b3-b5得到专利摘要属性和属性值的向量表示、专利标题的向量表示和专利摘要文本的向量表示进行加权线性求和,求和之后得到的和向量即为聚类分析数据专利向量表示;
S4、聚类:针对步骤S3得到的聚类分析数据专利向量,利用聚类分析法通过计算聚类分析数据专利向量之间的相似度完成初次聚类;再结合具体的阈值,对初始聚类结果进行不断调整,最后得到聚类分析数据中专利的聚类结果;
S5、聚类结果评价:根据预设的评价指标对聚类结果进行评价。
2.根据权利要求1所述的一种专利文献聚类方法,其特征在于,步骤S1中抽取属性和属性值模型训练语料集和聚类分析语料集的方法为:按照专利IPC分类号在语料集中在每个类别中分别抽取相同数量的专利摘要组成属性和属性值模型训练语料集;按照专利IPC分类号在语料集中在每个类别中分别抽取相同数量的专利标题、专利摘要和IPC分类号组成聚类分析语料集。
3.根据权利要求1所述的一种专利文献聚类方法,其特征在于,所述词向量训练语料集、属性和属性值模型训练语料集和聚类分析语料集中的专利文献信息以分行形式进行存储,其中每行专利文献信息对应一篇专利文献。
4.根据权利要求1所述的一种专利文献聚类方法,其特征在于,所述属性标注的具体方法为:对于完成词性标注后的属性和属性值模型训练词语集,对 于标注标签集合{属性的开始部分,属性的中间部分,属性的结束部分,属性值的开始部分,属性值的中间部分,属性值的结束部分,其他},判断完成词性标注后的属性和属性值模型训练词语集中每个词对应于标注标签集合中的对应属性标签,并标记为相应的标签,而将无法在标注标签中对应的词标记为{其他};将完成词性标注的聚类分析属性和属性值抽取词语集中的词语均标注为{其他}。
5.根据权利要求1所述的一种专利文献聚类方法,其特征在于,分词处理的方法采用隐马尔科夫模型。
6.根据权利要求1所述的一种专利文献聚类方法,其特征在于,步骤b6中加权融合的方法如下:
其中,为专利文档向量,为一种形式的文档向量,为特征词对应的词向量,wi为第i种信息形式对应文档向量的权重,qj第j个关键词在一篇文档中出现的次数,di表示关键词对应的实数向量的一个维度。
7.根据权利要求1所述的一种专利文献聚类方法,其特征在于,步骤S4中的聚类方法包括如下步骤:
c1、选定k个专利文献作为聚类中心;
c2、计算其他专利文献与所述聚类中心的距离,比较得到距离最近的中心, 将所述其他专利文献标记为类别i,得到多个类簇;
c3、选定k个类簇并计算该K个类簇的中心,求出每个类簇的平均值,得到新的聚类中心;
c4、重复步骤c2-c3,直到两次中心的差异度小于预设阈值。
8.根据权利要求1所述的一种专利文献聚类方法,其特征在于,步骤S5中,预设的评价指标包括聚类结果的准确率、召回率和F值;聚类结果的准确率通过如下公式获得:
P(ci)=max{P(f1,ci),P(f2,ci),...,P(fj,ci),...,P(fk,ci)}
其中,P为聚类结果的准确率,为第i个类簇的准确率,分别计算k个类别在类簇i中的准确率,选择最大的准确率作为类簇i的准确率;为类簇i和类别k中相同的专利的个数,为类簇i中专利的个数;
聚类结果的召回率通过如下公式获得:
R(ci)=max{R(f1,ci),R(f2,ci),...,R(fj,ci),...,R(fk,ci)}
其中,R为聚类结果的召回率,为第i个类簇的召回率,分别计算k个类别在类簇i中的召回率,选择最大的召回率作为类簇i的召回率;为类簇i和类别k中相同的专利的个数,为类别k中专利的个数;
聚类结果的F值通过如下公式获得:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510278103.9A CN104881401B (zh) | 2015-05-27 | 2015-05-27 | 一种专利文献聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510278103.9A CN104881401B (zh) | 2015-05-27 | 2015-05-27 | 一种专利文献聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104881401A true CN104881401A (zh) | 2015-09-02 |
CN104881401B CN104881401B (zh) | 2017-10-17 |
Family
ID=53948896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510278103.9A Active CN104881401B (zh) | 2015-05-27 | 2015-05-27 | 一种专利文献聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104881401B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095758A (zh) * | 2016-06-17 | 2016-11-09 | 北京理工大学 | 一种基于词向量模型的文学作品竞猜方法 |
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106502394A (zh) * | 2016-10-18 | 2017-03-15 | 哈尔滨工业大学深圳研究生院 | 基于脑电信号的词向量计算方法及装置 |
CN106815198A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和语句业务类型的识别方法及装置 |
CN106897392A (zh) * | 2017-02-04 | 2017-06-27 | 同济大学 | 一种基于知识发现的技术竞争及专利预警分析方法 |
WO2017162134A1 (zh) * | 2016-03-22 | 2017-09-28 | 索尼公司 | 用于文本处理的电子设备和方法 |
CN107315759A (zh) * | 2016-04-26 | 2017-11-03 | 百度(美国)有限责任公司 | 归类关键字的方法、装置和处理系统、分类模型生成方法 |
CN108090098A (zh) * | 2016-11-22 | 2018-05-29 | 科大讯飞股份有限公司 | 一种文本处理方法及装置 |
CN108363716A (zh) * | 2017-12-28 | 2018-08-03 | 广州索答信息科技有限公司 | 领域信息分类模型生成方法、分类方法、设备及存储介质 |
CN108804422A (zh) * | 2018-05-28 | 2018-11-13 | 中山大学 | 一种科技论文文本建模方法 |
CN108932239A (zh) * | 2017-05-24 | 2018-12-04 | 西安科技大市场创新云服务股份有限公司 | 一种专利地图建模方法和装置 |
CN109344248A (zh) * | 2018-07-27 | 2019-02-15 | 中山大学 | 一种基于科技文献摘要聚类的学术主题生命周期分析方法 |
CN109376352A (zh) * | 2018-08-28 | 2019-02-22 | 中山大学 | 一种基于word2vec和语义相似度的专利文本建模方法 |
CN109446300A (zh) * | 2018-09-06 | 2019-03-08 | 厦门快商通信息技术有限公司 | 一种语料预处理方法、语料预标注方法及电子设备 |
CN109522410A (zh) * | 2018-11-09 | 2019-03-26 | 北京百度网讯科技有限公司 | 文档聚类方法及平台、服务器和计算机可读介质 |
CN109522549A (zh) * | 2018-10-30 | 2019-03-26 | 云南电网有限责任公司信息中心 | 基于Web采集与文本特征均衡分布的语料库构建方法 |
CN109902168A (zh) * | 2019-01-25 | 2019-06-18 | 北京创新者信息技术有限公司 | 一种专利评价方法和系统 |
CN109992773A (zh) * | 2019-03-20 | 2019-07-09 | 华南理工大学 | 基于多任务学习的词向量训练方法、系统、设备及介质 |
CN110162773A (zh) * | 2018-02-15 | 2019-08-23 | 柯尼卡美能达美国研究所有限公司 | 标题推断器 |
CN111753514A (zh) * | 2020-03-19 | 2020-10-09 | 北京信聚知识产权有限公司 | 一种专利申请文本的自动生成方法和装置 |
CN113221535A (zh) * | 2021-05-31 | 2021-08-06 | 南方电网数字电网研究院有限公司 | 情报处理方法、装置、计算机设备和存储介质 |
CN113420112A (zh) * | 2021-06-21 | 2021-09-21 | 中国科学院声学研究所 | 一种基于无监督学习的新闻实体分析方法及装置 |
CN113590861A (zh) * | 2020-04-30 | 2021-11-02 | 北京搜狗科技发展有限公司 | 一种图片信息的处理方法、装置及电子设备 |
CN114676796A (zh) * | 2022-05-27 | 2022-06-28 | 浙江清大科技有限公司 | 一种基于大数据的聚类采集与识别的系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092443A (ja) * | 2003-09-16 | 2005-04-07 | Mitsubishi Research Institute Inc | クラスター分析装置およびクラスター分析方法 |
EP1860578A1 (en) * | 2006-05-22 | 2007-11-28 | Caterpillar Inc. | System for analyzing patents |
CN101819601A (zh) * | 2010-05-11 | 2010-09-01 | 同方知网(北京)技术有限公司 | 学术文献自动分类的方法 |
CN104216979A (zh) * | 2014-09-01 | 2014-12-17 | 西北工业大学 | 中文工艺专利自动分类系统及利用该系统进行专利分类的方法 |
-
2015
- 2015-05-27 CN CN201510278103.9A patent/CN104881401B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092443A (ja) * | 2003-09-16 | 2005-04-07 | Mitsubishi Research Institute Inc | クラスター分析装置およびクラスター分析方法 |
EP1860578A1 (en) * | 2006-05-22 | 2007-11-28 | Caterpillar Inc. | System for analyzing patents |
CN101819601A (zh) * | 2010-05-11 | 2010-09-01 | 同方知网(北京)技术有限公司 | 学术文献自动分类的方法 |
CN104216979A (zh) * | 2014-09-01 | 2014-12-17 | 西北工业大学 | 中文工艺专利自动分类系统及利用该系统进行专利分类的方法 |
Non-Patent Citations (4)
Title |
---|
CHEN XU ET AL: "Technology and Effect Matrix for Patent Clustering", 《WEB INFORMATION SYSTEM AND APPLICATION CONFERENCE(WISA),2013 10TH》 * |
ZHONGQUAN XIE ET AL: "Evaluating the effectiveness of keyword search strategy for patent identification", 《WORLD PATENT INFORMATION》 * |
姚长青 等: "降维技术在专利文本聚类中的应用研究", 《情报学报》 * |
郭剑毅 等: "领域本体概念实例、属性和属性值的抽取及关系预测", 《南京大学学报:自然科学版》 * |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815198A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和语句业务类型的识别方法及装置 |
CN108475262A (zh) * | 2016-03-22 | 2018-08-31 | 索尼公司 | 用于文本处理的电子设备和方法 |
WO2017162134A1 (zh) * | 2016-03-22 | 2017-09-28 | 索尼公司 | 用于文本处理的电子设备和方法 |
US10860798B2 (en) | 2016-03-22 | 2020-12-08 | Sony Corporation | Electronic device and method for text processing |
CN107315759A (zh) * | 2016-04-26 | 2017-11-03 | 百度(美国)有限责任公司 | 归类关键字的方法、装置和处理系统、分类模型生成方法 |
CN106095758A (zh) * | 2016-06-17 | 2016-11-09 | 北京理工大学 | 一种基于词向量模型的文学作品竞猜方法 |
CN106095758B (zh) * | 2016-06-17 | 2018-12-04 | 北京理工大学 | 一种基于词向量模型的文学作品竞猜方法 |
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106227722B (zh) * | 2016-09-12 | 2019-07-05 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106502394A (zh) * | 2016-10-18 | 2017-03-15 | 哈尔滨工业大学深圳研究生院 | 基于脑电信号的词向量计算方法及装置 |
CN106502394B (zh) * | 2016-10-18 | 2019-06-25 | 哈尔滨工业大学深圳研究生院 | 基于脑电信号的词向量计算方法及装置 |
CN108090098A (zh) * | 2016-11-22 | 2018-05-29 | 科大讯飞股份有限公司 | 一种文本处理方法及装置 |
CN108090098B (zh) * | 2016-11-22 | 2022-02-25 | 科大讯飞股份有限公司 | 一种文本处理方法及装置 |
CN106897392A (zh) * | 2017-02-04 | 2017-06-27 | 同济大学 | 一种基于知识发现的技术竞争及专利预警分析方法 |
CN108932239A (zh) * | 2017-05-24 | 2018-12-04 | 西安科技大市场创新云服务股份有限公司 | 一种专利地图建模方法和装置 |
CN108363716B (zh) * | 2017-12-28 | 2020-04-24 | 广州索答信息科技有限公司 | 领域信息分类模型生成方法、分类方法、设备及存储介质 |
CN108363716A (zh) * | 2017-12-28 | 2018-08-03 | 广州索答信息科技有限公司 | 领域信息分类模型生成方法、分类方法、设备及存储介质 |
CN110162773B (zh) * | 2018-02-15 | 2023-04-07 | 柯尼卡美能达美国研究所有限公司 | 标题推断器 |
CN110162773A (zh) * | 2018-02-15 | 2019-08-23 | 柯尼卡美能达美国研究所有限公司 | 标题推断器 |
CN108804422A (zh) * | 2018-05-28 | 2018-11-13 | 中山大学 | 一种科技论文文本建模方法 |
CN108804422B (zh) * | 2018-05-28 | 2020-12-01 | 中山大学 | 一种科技论文文本建模方法 |
CN109344248A (zh) * | 2018-07-27 | 2019-02-15 | 中山大学 | 一种基于科技文献摘要聚类的学术主题生命周期分析方法 |
CN109344248B (zh) * | 2018-07-27 | 2021-10-22 | 中山大学 | 一种基于科技文献摘要聚类的学术主题生命周期分析方法 |
CN109376352B (zh) * | 2018-08-28 | 2022-11-29 | 中山大学 | 一种基于word2vec和语义相似度的专利文本建模方法 |
CN109376352A (zh) * | 2018-08-28 | 2019-02-22 | 中山大学 | 一种基于word2vec和语义相似度的专利文本建模方法 |
CN109446300A (zh) * | 2018-09-06 | 2019-03-08 | 厦门快商通信息技术有限公司 | 一种语料预处理方法、语料预标注方法及电子设备 |
CN109446300B (zh) * | 2018-09-06 | 2021-04-20 | 厦门快商通信息技术有限公司 | 一种语料预处理方法、语料预标注方法及电子设备 |
CN109522549A (zh) * | 2018-10-30 | 2019-03-26 | 云南电网有限责任公司信息中心 | 基于Web采集与文本特征均衡分布的语料库构建方法 |
CN109522549B (zh) * | 2018-10-30 | 2022-06-10 | 云南电网有限责任公司信息中心 | 基于Web采集与文本特征均衡分布的语料库构建方法 |
CN109522410A (zh) * | 2018-11-09 | 2019-03-26 | 北京百度网讯科技有限公司 | 文档聚类方法及平台、服务器和计算机可读介质 |
CN109902168A (zh) * | 2019-01-25 | 2019-06-18 | 北京创新者信息技术有限公司 | 一种专利评价方法和系统 |
CN109902168B (zh) * | 2019-01-25 | 2022-02-11 | 北京创新者信息技术有限公司 | 一种专利评价方法和系统 |
US11847152B2 (en) | 2019-01-25 | 2023-12-19 | Beijing Innovator Information Technology Co., Ltd. | Patent evaluation method and system that aggregate patents based on technical clustering |
CN109992773B (zh) * | 2019-03-20 | 2020-10-27 | 华南理工大学 | 基于多任务学习的词向量训练方法、系统、设备及介质 |
CN109992773A (zh) * | 2019-03-20 | 2019-07-09 | 华南理工大学 | 基于多任务学习的词向量训练方法、系统、设备及介质 |
CN111753514A (zh) * | 2020-03-19 | 2020-10-09 | 北京信聚知识产权有限公司 | 一种专利申请文本的自动生成方法和装置 |
CN113590861A (zh) * | 2020-04-30 | 2021-11-02 | 北京搜狗科技发展有限公司 | 一种图片信息的处理方法、装置及电子设备 |
CN113221535A (zh) * | 2021-05-31 | 2021-08-06 | 南方电网数字电网研究院有限公司 | 情报处理方法、装置、计算机设备和存储介质 |
CN113420112A (zh) * | 2021-06-21 | 2021-09-21 | 中国科学院声学研究所 | 一种基于无监督学习的新闻实体分析方法及装置 |
CN114676796A (zh) * | 2022-05-27 | 2022-06-28 | 浙江清大科技有限公司 | 一种基于大数据的聚类采集与识别的系统 |
CN114676796B (zh) * | 2022-05-27 | 2022-09-06 | 浙江清大科技有限公司 | 一种基于大数据的聚类采集与识别的系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104881401B (zh) | 2017-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104881401B (zh) | 一种专利文献聚类方法 | |
CN111177374B (zh) | 一种基于主动学习的问答语料情感分类方法及系统 | |
CN111966917B (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN105589844B (zh) | 一种用于多轮问答系统中缺失语义补充的方法 | |
CN104951548B (zh) | 一种负面舆情指数的计算方法及系统 | |
CN109697285A (zh) | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 | |
CN107330011A (zh) | 多策略融合的命名实体的识别方法及装置 | |
CN109241255A (zh) | 一种基于深度学习的意图识别方法 | |
CN110489523B (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN111931490B (zh) | 文本纠错方法、装置及存储介质 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN107895000B (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
CN110705247B (zh) | 基于χ2-C的文本相似度计算方法 | |
CN107451278A (zh) | 基于多隐层极限学习机的中文文本分类方法 | |
CN104217226A (zh) | 基于深度神经网络与条件随机场的对话行为识别方法 | |
CN105183833A (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN112561718A (zh) | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
CN112784602A (zh) | 基于远程监督的新闻情感实体抽取方法 | |
CN115238040A (zh) | 一种钢铁材料学知识图谱构建方法及系统 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |