CN111126062A - 一种产业自动分类方法及系统 - Google Patents

一种产业自动分类方法及系统 Download PDF

Info

Publication number
CN111126062A
CN111126062A CN201911358987.3A CN201911358987A CN111126062A CN 111126062 A CN111126062 A CN 111126062A CN 201911358987 A CN201911358987 A CN 201911358987A CN 111126062 A CN111126062 A CN 111126062A
Authority
CN
China
Prior art keywords
industry
classification
target
node
ipc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911358987.3A
Other languages
English (en)
Other versions
CN111126062B (zh
Inventor
李卫宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haixinrui Artificial Intelligence Technology Co ltd
Original Assignee
Beijing Tecchina& Huaruan S&t Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tecchina& Huaruan S&t Service Co ltd filed Critical Beijing Tecchina& Huaruan S&t Service Co ltd
Priority to CN201911358987.3A priority Critical patent/CN111126062B/zh
Priority to EP20906169.6A priority patent/EP4080400A4/en
Priority to US17/788,303 priority patent/US20220374462A1/en
Priority to PCT/CN2020/073042 priority patent/WO2021128521A1/zh
Publication of CN111126062A publication Critical patent/CN111126062A/zh
Application granted granted Critical
Publication of CN111126062B publication Critical patent/CN111126062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7625Hierarchical techniques, i.e. dividing or merging patterns to obtain a tree-like representation; Dendograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Operations Research (AREA)
  • Technology Law (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种产业自动分类方法及系统,其中方法包括确定目标专利范围,还包括以下步骤:定义目标行业树;在所述目标行业树上生成标记;使用所述标记进行目标专利粗分类;根据所述粗分类结果进行目标专利细分类。本发明提出的产业自动分类方法及系统,使用了直推学习的方法,以实现对小标注量信息的充分挖掘;使用了IPC的信息,丰富了信息维度、降低了计算量;使用了摘要、权利要求和说明书生成的层次化向量,保留了词序关系方面的信息,对专利文本进行了更为深入地挖掘。

Description

一种产业自动分类方法及系统
技术领域
本发明涉及文献分析的技术领域,特别是一种产业自动分类方法及系统。
背景技术
科学技术的飞速发展带来专利文本的激增和新行业的不断涌现。为了分析行业背景下的技术发展,需要给专利打上行业标签。人工标注的方法速度慢、成本高,但准确率高。因此需要一种标注量较小、计算效率较高、更充分挖掘标注信息的自动分类方法。
现有方法要么需要较大量的人工标注,要么完全不用人工标注从而不能直接建立起与目标行业的对应关系。现有方法一般使用专利文本进行自然语言处理,计算量大且遗漏了ipc维度的重要信息。现有方法使用的自然语言处理方法一般从单个词的角度进行挖掘,丢失了词序关系方面的信息。现有方法使用的自然语言处理方法一般对标题、摘要、权利要求和说明书中的一种或几种进行挖掘,但没有使用摘要、权利要求和说明书生成的层次化向量,遗漏了专利文本蕴含的深入信息。
公开号为CN105808524A的发明专利公开了一种基于专利文献摘要的专利自动分类方法,该方法包括词典构建、IPC各层次类别特征向量的生成、专利文本特征选择、专利文本的向量化、基于SVM的分类模型构建、待分类专利的分类。该方法的缺点是使用的自然语言处理方法丢失了词序关系方面的信息,没有使用摘要、权利要求和说明书生成的层次化向量,遗漏了专利文本蕴含的深入信息。
发明内容
为了解决上述的技术问题,本发明提出的产业自动分类方法及系统,使用了直推学习的方法,以实现对小标注量信息的充分挖掘;使用了IPC的信息,丰富了信息维度、降低了计算量;使用了摘要、权利要求和说明书生成的层次化向量,保留了词序关系方面的信息,对专利文本进行了更为深入地挖掘。
本发明的第一目的是提供了一种产业自动分类方法,包包括确定目标专利范围,还包括以下步骤:
步骤1:定义目标行业树;
步骤2:在所述目标行业树上生成标记;
步骤3:使用所述标记进行目标专利粗分类;
步骤4:根据所述粗分类结果目标专利细分类。
优选的是,所述步骤1包括根据需要定义行业树:I={i1,…,ij,…,in},其中,ij∈I为一级行业,j为一级行业编号,1≤j≤n,n为I下所有叶节点的个数。
在上述任一方案中优选的是,所述步骤1还包括设定I的任一非叶节点ijkl…={ijkl…1,…,ijkl…t},叶节点外的其它节点的度≥2,其中,k为二级行业编号,l为三级行业编号,t为倒数第二级行业编号。
在上述任一方案中优选的是,所述确定目标专利范围步骤为根据需要人工确定待划分的专利范围。
在上述任一方案中优选的是,所述步骤2包括根据资源约束确定能够标记的专利数量p,p≥N,行业树内每个叶节点至少标记一个属于该节点的专利,其中,N为最末一级行业个数。
在上述任一方案中优选的是,所述步骤3为确定所述叶节点之上的节点。
在上述任一方案中优选的是,所述步骤3包括以下子步骤:
步骤31:生成图的节点集V;
步骤32:整理标记;
步骤33:生成图的边集E;
步骤34:生成邻接矩阵;
步骤35:进行节点划分。
在上述任一方案中优选的是,所述步骤31包括定义每个目标专利的IPC分类号为一个IPC组合IPCv={ipc1,…,iqcq},目标专利的所有不同的IPC组合构成节点集V。
在上述任一方案中优选的是,所述步骤32包括取已标记专利对应的叶节点之上的行业作为对应节点的分类
Figure BDA0002336681060000031
设已标记节点l个,调整节点顺序,将已标记节点都调整到前面,则1≤i≤l。
在上述任一方案中优选的是,所述步骤32还包括验证是否满足l<<未标记节点数量u,不满足则调整标记专利,满足则V={IPC1,…,IPCl,IPCl+1…,IPCl+u}。
在上述任一方案中优选的是,所述边集E为矩阵,两个顶点间的边的权重eij为每两个顶点的ipc的并集IPCi∪IPCj的专利个数,其中,eij为矩阵E中的数值。
一方案中优选的是,所述步骤34包括以下子步骤:
步骤341:生成距离矩阵S;
步骤342:利用所述距离矩阵S生成邻接矩阵W。
在上述任一方案中优选的是,所述距离矩阵S的计算公式为sij=||ei-ej||2,其中,ei和ej分别为边集E的第i行和第j行。
上述任一方案中优选的是,所述步骤35包括以下子步骤:
步骤351:生成度矩阵,D=diag(d1,d2,…,dl+u),其对角元素
Figure BDA0002336681060000032
其中,u为未标注节点的数量,Wij为邻接矩阵W中的元素;
步骤352:生成标记矩阵,
Figure BDA0002336681060000033
的非负标记矩阵
Figure BDA0002336681060000034
Figure BDA0002336681060000035
其第i行元素
Figure BDA0002336681060000036
为节点集中IPCi的标记向量,分类规则为
Figure BDA0002336681060000037
其中,
Figure BDA0002336681060000038
为行业组成的集合,T代表矩阵的转置;
步骤353:初始化所述标记矩阵F,对i=1,2,…,m和
Figure BDA0002336681060000039
Figure BDA0002336681060000041
步骤354:构造传播矩阵
Figure BDA0002336681060000042
其中,
Figure BDA0002336681060000043
d为度矩阵D的对角元素;
步骤355:生成迭代计算式,F(t+1)=αBF(t)+(1-α)Y,其中α∈(0,1)为参数,F(t)为第t次的迭代结果,Y为初始矩阵;
步骤356:迭代所述计算式至收敛,得到收敛时的状态F*=limt→∞F(t)=(1-α)(M-αB)-1Y,其中,M为单位矩阵;
步骤357:进行未标记节点的预测
Figure BDA0002336681060000044
其中,l+1≤i≤l+u。
在上述任一方案中优选的是,所述步骤4包括以下子步骤:
步骤41:设定分类对象;
步骤42:提取专利文本信息;
步骤43:生成待训练文本集;
步骤44:进行文本向量化;
步骤45:进行专利划分;
步骤46:在所述步骤45的划分出的任何叶节点内识别不属于树中任何叶节点行业的专利。
在上述任一方案中优选的是,所述步骤41包括将所述步骤3分出的每一类别的专利节点视为一组,即标记为
Figure BDA0002336681060000045
的节点对应的专利为一组,共
Figure BDA0002336681060000046
组。
在上述任一方案中优选的是,所述步骤42包括每组内提取每件专利的摘要、权利要求和说明书,用现有工具对专利文本信息进行分词,生成文本集G={g1,…,gn},其中gi=(pi1,pi2,pi3),pi1、pi2、pi3分别为第i件专利的摘要、权利要求和说明书分分词所得序列。
在上述任一方案中优选的是,所述待训练文本集包括文本集G、G1={p11,…,pn1}、G2={p12,…,pn2}和G3={p13,…,pn3},分别由组内专利的全部文本、摘要、权利要求、说明书内的分词结果构成。
在上述任一方案中优选的是,所述步骤44包括以下子步骤:
步骤441:向量化所述待训练文本集内的文本;
步骤442:生成文本矩阵。
在上述任一方案中优选的是,所述步骤441包括在每个待训练文本集内,任一元素P=(t1,…,tm)为一个m元分词序列,ti∈P由其前后的w个词ti,context={ti-w,…,ti-2,ti-1,ti+1,ti+2,…,ti+w}决定,通过最大化
Figure BDA0002336681060000051
其中,pid为ti在p中的段落序号,
Figure BDA0002336681060000052
Figure BDA0002336681060000053
U和b为softmax的参数,通过随机梯度下降训练训练数据,得到P对应的向量。
在上述任一方案中优选的是,所述步骤442包括设G={d1,…,dn}、G1={p11,…,pn1}、G2={p12,…,pn2}、G3={p13,…,pn3}向量化的结果分别为H1={h11,…,hn1}、H2={h12,…,hn2}、H3={h13,…,hn3}、H4={h14,…,hn4},则生成的目标专利文本的矩阵集为H={h1,…,hn},其中hi=(hi1,hj2,hi3,hi4)。
在上述任一方案中优选的是,所述步骤45包括设标记专利为
Figure BDA0002336681060000054
其中
Figure BDA0002336681060000055
为隶属于第j个行业树叶节点的标记专利,用标记专利初始化k均值算法的j个聚类中心,并且在聚类簇迭代更新过程中不改变标记专利的簇隶属关系。
在上述任一方案中优选的是,所述步骤46包括以下子步骤:
步骤461:计算专利p的k距离,设专利p的第k距离为k-distance(o),在划分到行业树某个叶节点专利中,存在专利o,它与专利p之间的距离为d(p,o);
步骤462:计算专利p的第k距离领域:与专利p之间距离≤k-distance(o)的专利集合称为专利p的第k距离领域Nk(p);
步骤463:计算专利p相对于专利o的可达距离reachdist(p,o)=max{k-distance(o),‖p-o‖};
步骤464:计算局部可达密度
Figure BDA0002336681060000061
步骤465:计算局部离群点因子
Figure BDA0002336681060000062
步骤466:当LOF(p)大于阈值,则判断p为离群点,不属于该叶节点。
在上述任一方案中优选的是,当满足以下两个条件,则k-distance(o)=d(p,o):
①在该叶节点中,至少存在k个专利q,使得d(p,q)≤d(p,o);
②在该叶节点中,至多存在k-1个专利q,使得d(p,q)<d(p,o)。
本发明的第二目的是提供了一种产业自动分类系统,包括用于确定目标专利范围的确认模块,还包括以下模块:
行业树生成模块:用于定义目标行业树;
标记生成模块:用于在所述目标行业树上生成标记;
粗分类模块:用于使用所述标记进行目标专利粗分类;
细分类模块:用于根据所述粗分类结果目标专利细分类;
所述系统通过执行如第一目的所述的方法对产业进行自动分类。
本发明提出了一种产业自动分类方法及系统,在降低标注量的同时,提高计算效率和分类准确率。
附图说明
图1为按照本发明的产业自动分类方法的一优选实施例的流程图。
图1A为按照本发明的产业自动分类方法的如图1所示实施例的目标专利粗分类方法流程图。
图1B为按照本发明的产业自动分类方法的如图1所示实施例的邻接矩阵的生成方法流程图。
图1C为按照本发明的产业自动分类方法的如图1所示实施例的节点划分方法流程图。
图1D为按照本发明的产业自动分类方法的如图1所示实施例的目标专利细分类方法流程图。
图1E为按照本发明的产业自动分类方法的如图1所示实施例的文本向量化方法流程图。
图1F为按照本发明的产业自动分类方法的如图1所示实施例的专利划分方法流程图。
图2为按照本发明的产业自动分类系统的一优选实施例的模块图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
如图1、2所示,执行步骤1000,使用行业树生成模块200定义目标行业树,根据需要人工确定待划分的专利范围。
执行步骤1100,使用确认模块210确定目标专利范围。根据需要定义行业树:I={i1,…,ij,…,in},其中,ij∈I为一级行业j为一级行业编号,1≤j≤n,n为I下所有叶节点的个数。设定I的任一非叶节点ijkl…={ijkl…1,…,ijkl…t},叶节点外的其它节点的度≥2,其中,k为二级行业编号,l为三级行业编号,t为倒数第二级行业编号。
执行步骤1200,使用标记生成模块220在所述目标行业树上生成标记,根据资源约束确定能够标记的专利数量p,p≥N,行业树内每个叶节点至少标记一个属于该节点的专利,其中,N为最末一级行业个数。
执行步骤1300,使用粗分类模块230使用标记进行目标专利粗分类,确定所述叶节点之上的节点。如图1A所示,执行步骤1310,生成图的节点集V。定义每个目标专利的IPC分类号为一个IPC组合IPCv={ipc1,…,ipcq},目标专利的所有不同的IPC组合构成节点集V。
执行步骤1320,整理标记。取已标记专利对应的叶节点之上的行业作为对应节点的分类
Figure BDA0002336681060000081
设已标记节点l个,调整节点顺序,将已标记节点都调整到前面,则1≤i≤l。验证是否满足l<<未标记节点数量u,不满足则调整标记专利,满足则V={IPC1,…,IPCl,IPCl+1…,IPCl+u}。
执行步骤1330,生成图的边集E。边集E为矩阵,两个顶点间的边的权重eij为每两个顶点的ipc的并集IPCi∪IPCj的专利个数,其中,eij为矩阵E中的数值。
执行步骤1340,生成邻接矩阵。如图1B所示,执行步骤1341,生成距离矩阵S,距离矩阵S的计算公式为sij=||ei-ej||2,其中,ei和ej分别为边集E的第i行和第j行。
执行步骤1342,利用所述距离矩阵S生成邻接矩阵W。
执行步骤1350,进行节点划分。如图1C所示,执行步骤1351,生成度矩阵,D=diag(d1,d2,…,dl+u),其对角元素
Figure BDA0002336681060000082
其中,u为未标注节点的数量,Wij为邻接矩阵。
执行步骤1352,生成标记矩阵,
Figure BDA0002336681060000083
的非负标记矩阵
Figure BDA0002336681060000084
其第i行元素
Figure BDA0002336681060000085
为节点集中IPCi的标记向量,分类规则为
Figure BDA0002336681060000086
其中,
Figure BDA0002336681060000087
为行业组成的集合,T代表矩阵的转置。
执行步骤1353,初始化所述标记矩阵F,对i=1,2,…,m和
Figure BDA0002336681060000088
执行步骤1354,构造传播矩阵
Figure BDA0002336681060000091
其中,
Figure BDA0002336681060000092
Figure BDA0002336681060000093
d为度矩阵D的对角元素。
执行步骤1355,成迭代计算式,F(t+1)=αBF(t)+(1-α)Y,其中α∈(0,1)为参数,F(t)为第t次的迭代结果,Y为初始矩阵。
执行步骤1356,迭代所述计算式至收敛,得到收敛时的状态F*=limt→∞F(t)=(1-α)(M-αB)-1Y,其中,M为单位矩阵。
执行步骤1357,进行未标记节点的预测
Figure BDA0002336681060000094
其中,l+1≤i≤l+u。
执行步骤1400,使用细分类模块240根据所述粗分类结果进行目标专利细分类。如图1D所示,执行步骤1410,设定分类对象。将所述步骤1300分出的每一类别的专利节点视为一组,即标记为
Figure BDA0002336681060000095
的节点对应的专利为一组,共
Figure BDA0002336681060000096
组。
执行步骤1420,提取专利文本信息。每组内提取每件专利的摘要、权利要求和说明书,用现有工具对专利文本信息进行分词,生成文本集G={g1,…,gn},其中gi=(pi1,pi2,pi3),pi1、pi2、pi3分别为第i件专利的摘要、权利要求和说明书分分词所得序列。
执行步骤1430,生成待训练文本集。待训练文本集包括文本集G、G1={p11,…,pn1}、G2={p12,…,pn2}和G3={p13,…,pn3},分别由组内专利的全部文本、摘要、权利要求、说明书内的分词结果构成。
执行步骤1440,进行文本向量化。如图1E所示,执行步骤1441,向量化所述待训练文本集内的文本。在每个待训练文本集内,任一元素P=(t1,…,tm)为一个m元分词序列,ti∈P由其前后的w个词ti,context={ti-w,…,ti-2,ti-1,ti+1,ti+2,…,ti+w}决定,通过最大化
Figure BDA0002336681060000097
其中,pid为ti在p中的段落序号,
Figure BDA0002336681060000101
Figure BDA0002336681060000104
U和b为softmax的参数,通过随机梯度下降训练训练数据,得到P对应的向量,其中,Φ为映射运算。
执行步骤1442,生成文本矩阵。设G={d1,…,dn}、G1={p11,…,pn1}、G2={p12,…,pn2}、G3={p13,…,pn3}向量化的结果分别为H1={h11,…,hn1}、H2={h12,…,hn2}、H3={h13,…,hn3}、H4={h14,…,hn4},则生成的目标专利文本的矩阵集为H={h1,…,hn},其中hi=(hi1,hi2,hi3,hi4)。
执行步骤1450,进行专利划分。设标记专利为
Figure BDA0002336681060000102
其中
Figure BDA0002336681060000103
为隶属于第j个行业树叶节点的标记专利,用标记专利初始化k均值算法的j个聚类中心,并且在聚类簇迭代更新过程中不改变标记专利的簇隶属关系。
执行步骤1460,在所述步骤45的划分出的任何叶节点内识别不属于树中任何叶节点行业的专利。如图1F所示,执行步骤1461,计算专利p的k距离,设专利p的第k距离为k-distance(o),在划分到行业树某个叶节点专利中,存在专利o,它与专利p之间的距离为d(p,o)。
执行步骤1462,计算专利p的第k距离领域:与专利p之间距离≤k-distance(o)的专利集合称为专利p的第k距离领域Nk(p)。
执行步骤1463,计算专利p相对于专利o的可达距离reachdist(p,o)=max{k-distance(o),‖p-o‖}。当满足以下两个条件,则k-distance(o)=d(p,o):①在该叶节点中,至少存在k个专利q,使得d(p,q)≤d(p,o);②在该叶节点中,至多存在k-1个专利q,使得d(p,q)<d(p,o)。
执行步骤1464,计算局部可达密度
Figure BDA0002336681060000111
执行步骤1465,计算局部离群点因子
Figure BDA0002336681060000112
执行步骤1466,当LOF(p)大于阈值,则判断p为离群点,不属于该叶节点。
实施例二
一种产业自动分类的方法,包括以下步骤:
1、定义目标行业树。根据需要定义行业树:I={i1,…,in},其中ij∈I为一级行业,可以继续分为二级行业,ij={ij1,…,ijm},以此类推,I的任一非叶节点ijkl…={ijkl…1,…,ijkl…t}。根据行业划分的一般做法,叶节点外的其它节点的度≥2。设N为I下所有叶节点的个数。
2、确定目标专利范围。根据需要人工确定待划分的专利范围,比如在某个国家申请或在某些年份申请。
3、生成标记。根据资源约束确定能够标记的专利数量p,p≥N,行业树内每个叶节点至少标记一个属于该节点的专利。
4、目标专利粗分类——确定所述叶节点之上的节点。
(1)生成图的节点集V:定义每个目标专利的ipc(可能为多个)为一个ipc组合IPCv={ipc1,…,ipcq},目标专利的所有不同的ipc组合构成节点集V,
(2)整理标记:取已标记专利对应的叶节点之上的行业作为对应节点的分类
Figure BDA0002336681060000113
设已标记节点l个,调整节点顺序,将已标记节点都调整到前面,则1≤i≤l,验证是否满足l《未标记节点数量u,否则调整标记专利,直至满足。则V={IPC1,…,IPCl,IPCl+1…,IPCl+u};
(3)生成图的边集E:E可以表示为矩阵,每两个顶点的ipc的并集为IPCi∪IPCj,则这两个顶点间的边的权重,即eij=目标专利中ipc为IPCi∪IPCj的专利个数。
(4)生成邻接矩阵:
(4.1)生成距离矩阵S,sij=||ei-ej||2,如使用欧式距离;
(4.2)利用距离矩阵S生成邻接矩阵W,如使用高斯核函数的全连接法。
(5)节点划分
(5.1)生成度矩阵:
D=diag(d1,d2,…,dl+u),其对角元素
Figure BDA0002336681060000121
(5.2)生成标记矩阵:
Figure BDA0002336681060000122
的非负标记矩阵
Figure BDA0002336681060000123
Figure BDA0002336681060000124
其第i行元素
Figure BDA0002336681060000125
为节点集中IPCi的标记向量,分类规则为
Figure BDA0002336681060000126
(5.3)F初始化:
对i=1,2,…,m,
Figure BDA0002336681060000127
Figure BDA0002336681060000128
(5.4)构造传播矩阵
Figure BDA0002336681060000129
其中
Figure BDA00023366810600001210
(5.5)生成迭代计算式F(t+1)=αBF(t)+(1-α)Y,其中α∈(0,1)为参数
(5.6)迭代(9)中计算式至收敛,得
Figure BDA00023366810600001211
(5.7)未标记节点的类别预测
Figure BDA00023366810600001212
其中l+1≤i≤l+u
5、目标专利细分类——确定所述叶节点
(1)分类对象:每组专利,步骤4分出的每一个类别的节点对应的专利视为一组,即标记为
Figure BDA0002336681060000131
的节点对应的专利为一组,共
Figure BDA0002336681060000132
组。
(2)专利文本信息提取:每组内提取每件专利的摘要、权利要求和说明书(以下简称“全部文本”),用现有工具对专利文本信息进行分词,生成文本集G={d1,…,dn},其中di=(pi1,pi2,pi3),pi1,pi2,pi3分别为第i件专利的摘要、权利要求、说明书分分词所得序列。
(3)由此可生成4个待训练文本集:G、G1={p11,…,pn1}、G2={p12,…,pn2}、G3={p13,…,pn3},分别由组内专利的全部文本、摘要、权利要求、说明书内的分词结果构成。
(4)文本向量化:
(4.1)4个训练集内文本向量化:在每个待训练文本集内,任一元素P=(t1,…,tm)为一个m元分词序列,ti∈P由其前后的w个词ti,context={ti-w,…,ti-2,ti-1,ti+1,ti+2,…,ti+w}决定,通过最大化
Figure BDA0002336681060000133
其中,pid为ti在p中的段落序号,又
Figure BDA0002336681060000134
Figure BDA0002336681060000135
U和b为softmax的参数,通过随机梯度下降训练训练数据,得到P对应的向量。
(4.2)生成文本矩阵:设G={d1,…,dn}、G1={p11,…,pn1}、G2={p12,…,pn2}、G3={p13,…,pn3}向量化的结果分别为H1={h11,…,hn1}、H2={h12,…,hn2}、H3={h13,…,hn3}、H4={h14,…,hn4},则生成的目标专利文本的矩阵集为H={h1,…,hn},其中hi=(hi1,hi2,hi3,hi4)。
(5)专利划分:设标记专利为
Figure BDA0002336681060000141
其中
Figure BDA0002336681060000142
为隶属于第j个行业树叶节点的标记专利,用标记专利初始化k均值算法的j个聚类中心,并且在聚类簇迭代更新过程中不改变标记专利的簇隶属关系。
(6)识别不属于树中任何叶节点行业的专利,在(5)划分出的任何叶节点内
(6.1)专利p的k距离:
对于正整数k,设专利p的第k距离为k-distance(o),在划分到行业树某个叶节点专利中,存在专利o,它与专利p之间的距离为d(p,o);。如果满足以下两个条件,则k-distance(o)=d(p,o):
①在该叶节点中,至少存在k个专利q,使得d(p,q)≤d(p,o);
②在该叶节点中,至多存在k-1个专利q,使得d(p,q)<d(p,o)。
(6.2)专利p的第k距离领域:
与专利p之间距离≤k-distance(p)的专利集合称为专利p的第k距离领域,记作:Nk(p);
(6.3)专利p相对于专利o的可达距离:reachdsit(p,o)=max{k-distance(o),‖p-o‖};
(6.4)局部可达密度:
Figure BDA0002336681060000143
(6.5)局部离群点因子:
Figure BDA0002336681060000144
(6.6)LOF(p)大于阈值,则判断p为离群点,不属于该叶节点。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (10)

1.一种产业自动分类方法,包括确定目标专利范围,其特征在于,还包括以下步骤:
步骤1:定义目标行业树;
步骤2:在所述目标行业树上生成标记;
步骤3:使用所述标记进行目标专利粗分类;
步骤4:根据所述粗分类结果进行目标专利细分类。
2.如权利要求1所述的产业自动分类方法,其特征在于,所述步骤1包括根据需要定义行业树:I={i1,...,ij,...,in},其中,ij∈I为一级行业,j为一级行业编号,1≤j≤n,n为I下所有叶节点的个数。
3.如权利要求2所述的产业自动分类方法,其特征在于,所述步骤1还包括设定I的任一非叶节点ijkl...={ijkl...1,...,ijkl...t},叶节点外的其它节点的度≥2,其中,k为二级行业编号,l为三级行业编号,t为倒数第二级行业编号。
4.如权利要求1所述的产业自动分类方法,其特征在于,所述确定目标专利范围步骤为根据需要人工确定待划分的专利范围。
5.如权利要求1所述的产业自动分类方法,其特征在于,所述步骤2包括根据资源约束确定能够标记的专利数量p,p≥N,行业树内每个叶节点至少标记一个属于该节点的专利,其中,N为最末一级行业个数。
6.如权利要求1所述的产业自动分类方法,其特征在于,所述步骤3为确定所述叶节点之上的节点。
7.如权利要求6所述的产业自动分类方法,其特征在于,所述步骤3包括以下子步骤:
步骤31:生成图的节点集V;
步骤32:整理标记;
步骤33:生成图的边集E;
步骤34:生成邻接矩阵;
步骤35:进行节点划分。
8.如权利要求7所述的产业自动分类方法,其特征在于,所述步骤31包括定义每个目标专利的IPC分类号为一个IPC组合IPCv={ipc1,...,ipcq},目标专利的所有不同的IPC组合构成节点集V。
9.如权利要求7所述的产业自动分类方法,其特征在于,所述步骤32包括取已标记专利对应的叶节点之上的行业作为对应节点的分类
Figure FDA0002336681050000021
设已标记节点1个,调整节点顺序,将已标记节点都调整到前面,则1≤i≤l。
10.一种产业自动分类系统,包括用于确定目标专利范围的确认模块,其特征在于,还包括以下模块:
行业树生成模块:用于定义目标行业树;
标记生成模块:用于在所述目标行业树上生成标记;
粗分类模块:用于使用所述标记进行目标专利粗分类;
细分类模块:用于根据所述粗分类结果目标专利细分类;
所述系统通过执行如权利要求1所述的方法对产业进行自动分类。
CN201911358987.3A 2019-12-25 2019-12-25 一种产业自动分类方法及系统 Active CN111126062B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201911358987.3A CN111126062B (zh) 2019-12-25 2019-12-25 一种产业自动分类方法及系统
EP20906169.6A EP4080400A4 (en) 2019-12-25 2020-01-19 METHOD AND SYSTEM FOR AUTOMATIC CLASSIFICATION OF ?INDUSTRIES
US17/788,303 US20220374462A1 (en) 2019-12-25 2020-01-19 Automatic industry classification method and system
PCT/CN2020/073042 WO2021128521A1 (zh) 2019-12-25 2020-01-19 一种产业自动分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911358987.3A CN111126062B (zh) 2019-12-25 2019-12-25 一种产业自动分类方法及系统

Publications (2)

Publication Number Publication Date
CN111126062A true CN111126062A (zh) 2020-05-08
CN111126062B CN111126062B (zh) 2021-09-24

Family

ID=70502369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911358987.3A Active CN111126062B (zh) 2019-12-25 2019-12-25 一种产业自动分类方法及系统

Country Status (4)

Country Link
US (1) US20220374462A1 (zh)
EP (1) EP4080400A4 (zh)
CN (1) CN111126062B (zh)
WO (1) WO2021128521A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701633B (zh) * 2023-06-14 2024-06-18 上交所技术有限责任公司 一种基于专利大数据的行业分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1494013A (zh) * 2002-11-01 2004-05-05 鸿富锦精密工业(深圳)有限公司 专利分析与展示系统及方法
CN101430708A (zh) * 2008-11-21 2009-05-13 哈尔滨工业大学深圳研究生院 一种基于标签聚类的博客层次分类树构建方法
CN105808524A (zh) * 2016-03-11 2016-07-27 江苏畅远信息科技有限公司 一种基于专利文献摘要的专利自动分类方法
CN106845798A (zh) * 2016-12-29 2017-06-13 兰州大学淮安高新技术研究院 一种基于多叉树的跨领域专利预警信息分析方法
WO2018083467A1 (en) * 2016-11-02 2018-05-11 Ucl Business Plc Method of detecting tumour recurrence

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102141978A (zh) * 2010-02-02 2011-08-03 阿里巴巴集团控股有限公司 一种文本分类的方法及系统
CN102567464B (zh) * 2011-11-29 2015-08-05 西安交通大学 基于扩展主题图的知识资源组织方法
CN103902591B (zh) * 2012-12-27 2019-04-23 中国科学院深圳先进技术研究院 构建决策树分类器的方法及装置
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
CN117251571A (zh) * 2016-08-08 2023-12-19 中国科学院文献情报中心 专利数据和产业数据的映射方法和装置
EP3422245B1 (en) * 2017-06-28 2022-02-16 NXP USA, Inc. Methods, processing engines, and microprocessors for classifying data according to decision trees
CN108304865A (zh) * 2018-01-19 2018-07-20 同济大学 一种基于循环神经网络的图节点分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1494013A (zh) * 2002-11-01 2004-05-05 鸿富锦精密工业(深圳)有限公司 专利分析与展示系统及方法
CN101430708A (zh) * 2008-11-21 2009-05-13 哈尔滨工业大学深圳研究生院 一种基于标签聚类的博客层次分类树构建方法
CN105808524A (zh) * 2016-03-11 2016-07-27 江苏畅远信息科技有限公司 一种基于专利文献摘要的专利自动分类方法
WO2018083467A1 (en) * 2016-11-02 2018-05-11 Ucl Business Plc Method of detecting tumour recurrence
EP3535419A1 (en) * 2016-11-02 2019-09-11 UCL Business Plc. Method of detecting tumour recurrence
CN106845798A (zh) * 2016-12-29 2017-06-13 兰州大学淮安高新技术研究院 一种基于多叉树的跨领域专利预警信息分析方法

Also Published As

Publication number Publication date
EP4080400A4 (en) 2023-06-07
US20220374462A1 (en) 2022-11-24
CN111126062B (zh) 2021-09-24
WO2021128521A1 (zh) 2021-07-01
EP4080400A1 (en) 2022-10-26

Similar Documents

Publication Publication Date Title
CN110532542B (zh) 一种基于正例与未标注学习的发票虚开识别方法及系统
Ristin et al. Incremental learning of ncm forests for large-scale image classification
Chong et al. Simultaneous image classification and annotation
Mouchere et al. Icdar 2013 crohme: Third international competition on recognition of online handwritten mathematical expressions
CN103425996B (zh) 一种并行分布式的大规模图像识别方法
CN114021799A (zh) 风电场日前风电功率预测方法及系统
Zhao et al. Hierarchical Feature Selection with Recursive Regularization.
CN109034186B (zh) 基于da-rbm分类器模型的手写数据识别方法
CN115410026A (zh) 基于标签传播对比半监督学习的图像分类方法与系统
CN103020167B (zh) 一种计算机中文文本分类方法
CN111859983B (zh) 基于人工智能的自然语言标注方法及相关设备
Niu et al. Knowledge-based topic model for unsupervised object discovery and localization
CN110008365B (zh) 一种图像处理方法、装置、设备及可读存储介质
CN111159332A (zh) 一种基于bert的文本多意图识别方法
CN106601235A (zh) 一种半监督多任务特征选择的语音识别方法
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN108009156B (zh) 一种基于部分监督学习的中文概括性文本切分方法
CN112766400A (zh) 高维数据基于多个数据变换空间的半监督分类集成方法
Alalyan et al. Model-based hierarchical clustering for categorical data
CN111126062B (zh) 一种产业自动分类方法及系统
Shen et al. Equiangular basis vectors
CN113204975A (zh) 一种基于远程监督的敏感文风识别方法
CN111950652A (zh) 一种基于相似度的半监督学习数据分类算法
CN115344693B (zh) 一种基于传统算法和神经网络算法融合的聚类方法
CN111275125A (zh) 一种面向低秩图像特征分析的类别标签恢复方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Room 1204, 12 / F, No. 67, North Fourth Ring West Road, Haidian District, Beijing 100080

Patentee after: Beijing Benying Technology Co.,Ltd.

Address before: Room 1204, 12 / F, No. 67, North Fourth Ring West Road, Haidian District, Beijing 100080

Patentee before: BEIJING TECCHINA& HUARUAN S&T SERVICE Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240318

Address after: Room 503, 5th Floor, No. 67 North Fourth Ring West Road, Haidian District, Beijing, 100080

Patentee after: Beijing Haixinrui Artificial Intelligence Technology Co.,Ltd.

Country or region after: China

Address before: Room 1204, 12 / F, No. 67, North Fourth Ring West Road, Haidian District, Beijing 100080

Patentee before: Beijing Benying Technology Co.,Ltd.

Country or region before: China