CN116805059A - 一种基于大数据的专利分类方法 - Google Patents
一种基于大数据的专利分类方法 Download PDFInfo
- Publication number
- CN116805059A CN116805059A CN202310763656.8A CN202310763656A CN116805059A CN 116805059 A CN116805059 A CN 116805059A CN 202310763656 A CN202310763656 A CN 202310763656A CN 116805059 A CN116805059 A CN 116805059A
- Authority
- CN
- China
- Prior art keywords
- node
- vector
- word
- data
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 125
- 230000004927 fusion Effects 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 230000004913 activation Effects 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 25
- 238000012706 support-vector machine Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Technology Law (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及自然语言处理和人工智能领域,具体涉及一种基于大数据的专利分类方法,包括获取专利文本数据并进行预处理得到预处理数据;通过Bert模型获取预处理数据中每个字的词向量,并根据词向量计算每两个字间的相似度;根据相似度构建一个图结构输入图卷积神经网络,得到一个文本融合向量表示;将文本融合向量表示输入概率化SVM分类器,得到预处理数据的分类结果。
Description
技术领域
本发明涉及自然语言处理和人工智能领域,具体涉及一种基于大数据的专利分类方法。
背景技术
随着大数据和机器学习技术的快速发展,利用大数据进行自动化的专利分类成为可能。大数据技术可以处理海量的专利文献数据,并从中提取出有用的特征和模式,为专利分类提供有力支持。同时,机器学习算法能够通过训练和学习,自动发现和应用分类规则,以实现高效准确的专利分类。
然而,现有的基于大数据的专利分类方法仍然存在一些局限性和挑战。在现有的分类技术中,并没有关注专利文本的图像性质所带来的关键信息,某些方法在处理复杂的专利文献语义和结构时可能存在误差,导致分类结果不够精准。此外,随着技术和领域的不断演进,现有的分类模型可能难以适应新兴领域和交叉学科的专利分类需求。
发明内容
为解决上述问题,本发明提供了一种基于大数据的专利分类方法,包括以下步骤:
S1.获取专利文本数据并进行预处理得到预处理数据;
S2.通过Bert模型获取预处理数据中每个字的词向量,并根据词向量计算每两个字间的相似度;
S3.根据相似度构建一个图结构输入图卷积神经网络,得到一个文本融合向量表示;
S4.将文本融合向量表示输入概率化SVM分类器,得到预处理数据的分类结果。
进一步的,步骤S1获取专利文本数据并进行预处理得到预处理数据,包括:
S11.获取完整的专利文本数据,从中提取出专利名称、专利权人和专利摘要;
S12.将专利名称、专利权人和专利摘要拼接得到一个预处理数据。
进一步的,步骤S2根据词向量计算每两个字间的相似度,表示为:
其中,表示预处理数据中第i个字xi的词向量,K(xi,xj)表示第i个字xi的词向量/>与第j个字xj的词向量/>间的相似度,/>表示第i个字xi的词向量/>与第j个字xj的词向量/>间的相似性特征权重,T表示转置操作,A表示词向量的维度。
进一步的,步骤S3根据相似度构建一个图结构,包括:
S301.将预处理数据中每个字看作一个节点,采用对应的词向量作为每个节点的特征向量,将每两个字间的相似度作为对应两个节点间的特征相似度;
S302.设置边连接阈值,若两个节点间的特征相似度大于边连接阈值,则将这两个节点连接起来,并采用特征相似度作为边权重;
S303.通过混合池函数获取每个节点的混合池特征向量,表示为:
其中,hi′表示第i个节点vi的混合池特征向量,K(i,j)表示第i个节点vi与第j个节点vj的特征相似度,hj表示第j个节点vj的的特征向量,N(i)表示第i个节点vi的邻居节点集合,hmean表示节点vi的所有邻居节点的平均池特征向量;
S304.将每个节点的特征向量和混合池特征向量拼接,得到每个节点的融合向量,最终得到图结构。
进一步的,步骤S3将一个图结构输入图卷积神经网络得到一个文本融合向量表示,包括:
S311.获取图结构中每个节点在图卷积神经网络的第l层的向量表示;
S312.对于图结构中第i个节点vi,根据向量表示计算节点vi与其每一个邻居节点在第l层的上下文相似度;
S312.根据上下文相似度计算节点vi在第l层的激活函数权重;
S313.采用激活函数权重计算更新节点vi的向量表示;
S314.直至图结构中所有节点的向量表示更新完成,判断每个节点的向量表示的变化量绝对值是否都小于变化阈值,若不是,则执行步骤S315;若是,则执行步骤S316;
S315.判断当前层数l是否小于最大层数,若满足,则令l=l+1并返回步骤S311;若不满足,则执行步骤S316;
S316.输出图结构中所有节点当前的向量表示并进行混合池化,得到一个文本融合向量表示。
进一步的,步骤S313采用激活函数权重计算更新节点vi的向量表示,计算公式为:
其中,表示图结构中第i个节点vi在第l层的向量表示,/>表示图结构中第i个节点vi在第l层的激活函数权重,N(i)表示第i个节点vi的邻居节点集合,|N(i)|表示第i个节点vi的邻居节点数量,cij表示归一化因子,f表示激活函数。
进一步的,步骤S315输出图结构中所有节点当前的向量表示并进行混合池化,得到一个文本融合向量表示,如下:
其中,zi表示第i条预处理数据的文本融合向量表示,M(i)表示第i条预处理数据的字集合,为第i条预处理数据中第i个字经过卷积神经网络后的向量表示,nj表示第i条预处理数据中第j个字的出现次数。
进一步的,采用损失函数计算概率化SVM分类器的训练损失,表示为:
其中,N是样本数;M是标签数,yij是专利i的标签j的真实值;fij是模型预测的标签j在第i个预处理数据上的得分。
本发明的有益效果:
本发明采用了GCN(图卷积神经网络)作为核心模型,利用GCN在专利文献之间构建图结构,并通过图卷积操作从图中提取特征信息。这样可以更好地捕捉专利文献之间的关联和语义信息,提高分类准确度。
此外,本发明还设计了各种池化操作,用于对GCN提取的特征进行聚合和压缩。这些池化操作能够帮助提取关键信息,减少特征维度,并提高分类效果。通过不同的池化策略,可以适应不同类型和规模的专利文献数据,增强分类模型的鲁棒性和泛化能力。
在分类阶段,本发明采用了one-vs-all的方法,结合SVM(支持向量机)分类器来进行多类别分类。通过将每个类别与其他类别进行区分,可以实现高效的分类决策,并进一步提高分类的准确性和可靠性。
附图说明
图1为本发明实施例提供的一种基于大数据的专利说明书智能分类方法流程图;
图2为本发明实施例提供的基于Bert模型的输出以及字之间的相似度将其中出现的所有字作为节点构建的图结构的例图;
图3为本发明实施例提供的图卷积网络卷积过程的例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于大数据的专利分类方法,如图1所示,包括以下步骤:
S1.获取专利文本数据并进行预处理得到预处理数据。
具体地,步骤S1获取专利文本数据并进行预处理得到预处理数据,包括:
S11.获取完整的专利文本数据,从专利文本数据中提取出专利名称、专利权人和专利摘要;在训练过程中,一条完整的专利文本数据包括专利序号ID、专利名称title、专利权人assignee、专利摘要abstract和专利分类标签label;
S12.将专利名称、专利权人和专利摘要拼接得到一个预处理数据。
S2.通过Bert模型获取预处理数据中每个字的词向量,并根据词向量计算每两个字间的相似度。
具体地,通过Bert模型获取预处理数据中每个字的词向量,包括:
S21.通过Bert的tokenizer对输入的预处理数据X进行分词处理,得到对应的token序列,表示为:
X*={x1,x2,…,xm+
其中,X*为预处理数据X转化得到的token序列,xi,i=1,2,…,m表示token序列中第i个字,m表示token序列的字数量。
S22.将token序列X*输入Bert模型学习每个字的表示,得到词向量序列E,表示为:
其中,表示第i个字xi的词向量;hcls表示句子标识;hsep表示句子间的分隔符(可能不止一个)。
具体地,通过携带特征权重的核函数方法,根据词向量计算每两个字间的相似度,计算公式为:
其中,表示预处理数据中第i个字xi的词向量,所有词向量的维度相同;K(xi,xj)表示第i个字xi的词向量/>与第j个字xj的词向量/>间的相似度,/>表示第i个字xi的词向量/>与第j个字xj的词向量/>间的相似性特征权重,T表示转置操作,A表示词向量的维度。上述公式既考虑了向量之间的非线性相似度,又结合了向量之间的距离和角度信息,并且引入了可调节的相似性特征权重,可以更灵活的表示字之间的相似度。
S3.根据相似度构建一个图结构输入图卷积神经网络,得到一个文本融合向量表示。
具体地,步骤S3根据预处理数据X中的所有相似度构建一个图结构,包括:
S301.将预处理数据X中的每一个字看作一个节点,并采用每一个节点所对应的词向量作为每一个节点的特征向量;即将预处理数据X对应的token序列X*={x1,x2,…,xm+中的每个字看做一个节点得到节点集合V={v1,v2,…,vm+,基于token序列X*的词向量序列将每一个字的词向量作为对应节点的特征向量,得到特征向量集合H={h1,h2,…,hm+;同时将每两个字间的相似度K(xi,xj)作为对应两个节点间的特征相似度K(i,j)。
S302.设置边连接阈值,若两个节点间的特征相似度K(i,j)大于边连接阈值,则将这两个节点(vi,vj)连接起来,并采用特征相似度K(i,j)作为边权重;本发明实施例中边连接阈值为0.6。
S303.通过混合池函数获取每个节点的混合池特征向量,表示为:
其中,hi′表示第i个节点vi的混合池特征向量,K(i,j)表示第i个节点与第j个节点的特征相似度,hj表示第j个节点的的特征向量,N(i)表示第i个节点的邻居节点集合,hmean表示节点vi的所有邻居节点的平均池特征向量;
该混合池函数考虑了每个节点与其邻居节点之间的特征相似度,根据邻居节点的信息对当前节点进行池化。这种个体化的池化方式可以捕捉到节点之间的局部关系和交互,更加准确地表达节点的特征。引入hmean这种局部平均化的方式可以降低噪音的影响。
S304.将每个节点的特征向量和混合池特征向量拼接,得到每个节点的融合向量,表示为:
其中,表示第i个节点vi的融合向量,最终得到图结构GX。
为了利用字之间的语义关联性,将专利说明书中的文本信息转化为图形结构,如图2所示,以便更好地表示和捕捉文本之间的关系。
具体地,步骤S3将图结构GX输入图卷积神经网络得到一个文本融合向量表示,如图3所示,包括:
S311.获取图结构GX中每个节点在图卷积神经网络的第l层的向量表示;
S312.对于图结构GX中第i个节点vi,根据向量表示计算节点vi与其每一个邻居节点在第l层的上下文相似度;
具体地,步骤S312的计算公式为:
其中,表示节点vi在图卷积神经网络的第l层的向量表示,K(l)(i,j)表示节点vi与节点vj在第l层的上下文相似度,/>表示节点vi与节点vj在第l层的相似性特征权重,,A’为向量表示的长度。
S312.根据上下文相似度计算节点vi在第l层的激活函数权重;
具体地,计算公式为:
其中,表示节点vi在第l层的激活函数权重;N(i)表示第i个节点vi的邻居节点集合。
S313.采用激活函数权重计算更新节点i的向量表示;
具体地,计算公式为:
其中,表示节点vi更新后的向量表示,更新后的向量表示可以作为节点vi在第l+1层的向量表示;/>表示节点vi在第l层的激活函数权重;/>表示节点vj在第l层的激活函数权重;cij表示归一化因子,f表示激活函数;N(i)表示第i个节点vi的邻居节点集合。通过综合邻居节点和自身节点的特征,以及动态调整权重和非线性变换,可以有效地结合全局和局部信息。
S314.直至图结构中所有节点的向量表示更新完成,判断每个节点的向量表示的变化量绝对值是否都小于变化阈值,若不是,则执行步骤S315;若是,则执行步骤S316;
S315.判断当前层数l是否小于最大层数,若满足,则令l=l+1并返回步骤S311;若不满足,则执行步骤S316;
S316.输出图结构中所有节点当前的向量表示并进行混合池化,得到一个文本融合向量表示。
具体地,文本融合向量表示的计算公式为:
其中,zi表示第i条预处理数据的文本融合向量表示,M(i)表示第i条预处理数据的字集合,为第i条预处理数据中第i个字经过卷积神经网络后的向量表示,nj表示第i条预处理数据中第j个字的出现次数。通过这个池化函数可以引入考虑字的频率权重对专利文本向量的影响,并且保留了GCN卷积的信息。
S4.将文本融合向量表示输入概率化SVM分类器,得到预处理数据的分类结果。
具体地,概率化SVM分类器的训练过程包括:
S41.定义一个能将输入的文本融合向量表示映射到高维空间的映射函数φ(z),映射函数φ(z)的具体公式表示为:
其中,z表示一个输入的文本融合,D表示映射后的向量维度。
S42.采用一对多(one-vs-all)策略训练多标签SVM分类器:将标签j看做一个二分类问题,并训练一个关于标签j的SVM分类器Sj;通过这种方式为每种标签构建相应的分类器,得到M个SVM分类器,其中SVM分类器Sj的决策函数表示为:
其中,αij是第i个预处理数据在第j个SVM分类器中的权重向量;bj是第j个SVM分类器的偏置项;hj(zi)表示第i个预处理数据在第j个SVM分类器中被划分为标签j的概率;yij表示第i个预处理数据是否属于标签j,如果属于则为1,反之为-1。
S43.采用损失函数计算上述多标签分类器的损失,表示为:
其中,N是样本数;M是标签数;fij是模型预测的标签j在第i个预处理数据上的得分,即第i个预处理数据在SVM分类器Sj中被划分为标签j的概率hj(zi)。该损失函数综合考虑了正类和负类样本的损失,通过ln2和cosπ/2函数的组合,使得正类样本和负类样本在损失计算中获得平衡。使用该损失函数通过梯度下降算法来更新权重向量αij和偏置项bj来逐步减小损失函数,来得到最优的分类器。
S44.将每个样本的文本融合向量表示zi送入M个SVM分类器中,得到M个分类结果h1(zi),h2(zi),…,hM(zi)。然后将这M个分类结果拼接成一个M维向量fi,并预测最终的分类结果li:
fi=[h1(zi),h2(zi),…,hM(zi)]
li=round(WTfi-bi)
bi=max(h1(zi),h2(zi),…,hM(zi))
W=[1,2,…,M]
其中,hj(zi)表示第i个预处理数据在SVM分类器Sj中被划分为标签j的概率;W是权重向量;bi表示fi中的最大值;round为四舍五入函数。通过这个方法可以靠考虑到多个标签概率的综合信息,li表示第i个专利文本数据的最终预测结果。
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种基于大数据的专利分类方法,其特征在于,包括以下步骤:
S1.获取专利文本数据并进行预处理得到预处理数据;
S2.通过Bert模型获取预处理数据中每个字的词向量,并根据词向量计算每两个字间的相似度;
S3.根据相似度构建一个图结构输入图卷积神经网络,得到一个文本融合向量表示;
S4.将文本融合向量表示输入概率化SVM分类器,得到预处理数据的分类结果。
2.根据权利要求1所述的一种基于大数据的专利分类方法,其特征在于,步骤S1获取专利文本数据并进行预处理得到预处理数据,包括:
S11.获取专利文本数据,从中提取出专利名称、专利权人和专利摘要;
S12.将专利名称、专利权人和专利摘要拼接得到一个预处理数据。
3.根据权利要求1所述的一种基于大数据的专利分类方法,其特征在于,步骤S2根据词向量计算每两个字间的相似度,表示为:
其中,表示预处理数据中第i个字xi的词向量,K(xi,xj)表示第i个字xi的词向量/>与第j个字xj的词向量/>间的相似度;/>表示第i个字xi的词向量/>与第j个字xj的词向量/>间的相似性特征权重;T表示转置操作;A表示词向量的维度。
4.根据权利要求1所述的一种基于大数据的专利分类方法,其特征在于,步骤S3根据相似度构建一个图结构,包括:
S301.将预处理数据中每个字看作一个节点,采用对应的词向量作为每个节点的特征向量,将每两个字间的相似度作为对应两个节点间的特征相似度;
S302.设置边连接阈值,若两个节点间的特征相似度大于边连接阈值,则将这两个节点连接起来,并采用特征相似度作为边权重;
S303.通过混合池函数获取每个节点的混合池特征向量,表示为:
其中,hi′表示第i个节点vi的混合池特征向量,K(i,j)表示第i个节点vi与第j个节点vj的特征相似度,hj表示第j个节点vj的的特征向量,N(i)表示第i个节点vi的邻居节点集合,hmean表示节点vi的所有邻居节点的平均池特征向量;
S304.将每个节点的特征向量和混合池特征向量拼接,得到每个节点的融合向量,最终得到图结构。
5.根据权利要求1所述的一种基于大数据的专利分类方法,其特征在于,步骤S3将一个图结构输入图卷积神经网络得到一个文本融合向量表示,包括:
S311.获取图结构中每个节点在图卷积神经网络的第l层的向量表示;
S312.对于图结构中第i个节点vi,根据向量表示计算节点vi与其每一个邻居节点在第l层的上下文相似度;
S312.根据上下文相似度计算节点vi在第l层的激活函数权重;
S313.采用激活函数权重计算更新节点vi的向量表示;
S314.直至图结构中所有节点的向量表示更新完成,判断每个节点的向量表示的变化量绝对值是否都小于变化阈值,若不是,则执行步骤S315;若是,则执行步骤S316;
S315.判断当前层数l是否小于最大层数,若满足,则令l=l+1并返回步骤S311;若不满足,则执行步骤S316;
S316.输出图结构中所有节点当前的向量表示并进行混合池化,得到一个文本融合向量表示。
6.根据权利要求5所述的一种基于大数据的专利分类方法,其特征在于,步骤S313采用激活函数权重计算更新节点vi的向量表示,计算公式为:
其中,表示图结构中第i个节点vi在第l层的向量表示,/>表示图结构中第i个节点vi在第l层的激活函数权重,N(i)表示第i个节点vi的邻居节点集合,|N(i)|表示第i个节点vi的邻居节点数量,cij表示归一化因子,f表示激活函数。
7.根据权利要求5所述的一种基于大数据的专利分类方法,其特征在于,步骤S315输出图结构中所有节点当前的向量表示并进行混合池化,得到一个文本融合向量表示,如下:
其中,zi表示第i条预处理数据的文本融合向量表示,M(i)表示第i条预处理数据的字集合,为第i条预处理数据中第i个字经过卷积神经网络后的向量表示,nj表示第i条预处理数据中第j个字的出现次数。
8.根据权利要求1所述的一种基于大数据的专利分类方法,其特征在于,采用损失函数计算概率化SVM分类器的训练损失,表示为:
其中,N是样本数;M是标签数,yij表示第i个预处理数据是否属于标签j,如果属于则为1,反之为-1;fij是模型预测的标签j在第i个预处理数据上的得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310763656.8A CN116805059B (zh) | 2023-06-26 | 2023-06-26 | 一种基于大数据的专利分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310763656.8A CN116805059B (zh) | 2023-06-26 | 2023-06-26 | 一种基于大数据的专利分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116805059A true CN116805059A (zh) | 2023-09-26 |
CN116805059B CN116805059B (zh) | 2024-04-09 |
Family
ID=88080513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310763656.8A Active CN116805059B (zh) | 2023-06-26 | 2023-06-26 | 一种基于大数据的专利分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116805059B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210034812A1 (en) * | 2019-07-30 | 2021-02-04 | Imrsv Data Labs Inc. | Methods and systems for multi-label classification of text data |
CN112784051A (zh) * | 2021-02-05 | 2021-05-11 | 北京信息科技大学 | 专利术语抽取方法 |
CN113254648A (zh) * | 2021-06-22 | 2021-08-13 | 暨南大学 | 一种基于多层次图池化的文本情感分析方法 |
CN114491029A (zh) * | 2022-01-18 | 2022-05-13 | 四川大学 | 基于图神经网络的短文本相似度计算方法 |
CN114528374A (zh) * | 2022-01-19 | 2022-05-24 | 浙江工业大学 | 一种基于图神经网络的电影评论情感分类方法及装置 |
CN114880428A (zh) * | 2022-03-07 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于图神经网络的语篇成分识别方法 |
CN115858793A (zh) * | 2023-02-20 | 2023-03-28 | 知呱呱(天津)大数据技术有限公司 | 基于图注意力机制的专利多层级分类方法及计算机设备 |
CN116304061A (zh) * | 2023-05-17 | 2023-06-23 | 中南大学 | 基于层次文本图结构学习的文本分类方法、装置及介质 |
-
2023
- 2023-06-26 CN CN202310763656.8A patent/CN116805059B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210034812A1 (en) * | 2019-07-30 | 2021-02-04 | Imrsv Data Labs Inc. | Methods and systems for multi-label classification of text data |
CN112784051A (zh) * | 2021-02-05 | 2021-05-11 | 北京信息科技大学 | 专利术语抽取方法 |
CN113254648A (zh) * | 2021-06-22 | 2021-08-13 | 暨南大学 | 一种基于多层次图池化的文本情感分析方法 |
US20220405480A1 (en) * | 2021-06-22 | 2022-12-22 | Jinan University | Text sentiment analysis method based on multi-level graph pooling |
CN114491029A (zh) * | 2022-01-18 | 2022-05-13 | 四川大学 | 基于图神经网络的短文本相似度计算方法 |
CN114528374A (zh) * | 2022-01-19 | 2022-05-24 | 浙江工业大学 | 一种基于图神经网络的电影评论情感分类方法及装置 |
CN114880428A (zh) * | 2022-03-07 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于图神经网络的语篇成分识别方法 |
CN115858793A (zh) * | 2023-02-20 | 2023-03-28 | 知呱呱(天津)大数据技术有限公司 | 基于图注意力机制的专利多层级分类方法及计算机设备 |
CN116304061A (zh) * | 2023-05-17 | 2023-06-23 | 中南大学 | 基于层次文本图结构学习的文本分类方法、装置及介质 |
Non-Patent Citations (2)
Title |
---|
YANG XUE等: "BERTGACN: Text Classification by Combining BERT and GCN and GAT", 《2023 3RD INTERNATIONAL CONFERENCE ON NEURAL NETWORKS, INFORMATION AND COMMUNICATION ENGINEERING (NNICE)》 * |
杨奎河;刘智鹏;: "基于BERT-BiLSTM的短文本情感分析", 信息通信, no. 06 * |
Also Published As
Publication number | Publication date |
---|---|
CN116805059B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN106407333B (zh) | 基于人工智能的口语查询识别方法及装置 | |
CN112733866B (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN106980608A (zh) | 一种中文电子病历分词和命名实体识别方法及系统 | |
CN111126040B (zh) | 一种基于深度边界组合的生物医学命名实体识别方法 | |
CN110532558B (zh) | 一种基于句子结构深层解析的多意图识别方法及系统 | |
CN111782769B (zh) | 基于关系预测的知识图谱智能问答方法 | |
CN113806494B (zh) | 一种基于预训练语言模型的命名实体识别方法 | |
CN110555084A (zh) | 基于pcnn和多层注意力的远程监督关系分类方法 | |
CN111858940A (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN111914556A (zh) | 基于情感语义转移图谱的情感引导方法及系统 | |
CN116932661A (zh) | 一种面向网络安全的事件知识图谱构建方法 | |
CN109741824A (zh) | 一种基于机器学习的医疗问诊方法 | |
CN112988970A (zh) | 一种服务于智能问答系统的文本匹配算法 | |
CN116842194A (zh) | 一种电力语义知识图谱系统及方法 | |
CN112328748A (zh) | 一种用于保险配置意图识别的方法 | |
CN114841151B (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN113032601A (zh) | 一种基于判别性提升的零样本草图检索方法 | |
CN115392254A (zh) | 一种基于目标任务可解释性认知预测与判别方法及其系统 | |
CN114756678A (zh) | 一种未知意图文本的识别方法及装置 | |
CN117891958A (zh) | 一种基于知识图谱的标准数据处理方法 | |
CN117151069B (zh) | 一种保障方案生成系统 | |
CN116757195B (zh) | 一种基于提示学习的隐性情感识别方法 | |
CN116805059B (zh) | 一种基于大数据的专利分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240613 Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province Patentee after: Dragon totem Technology (Hefei) Co.,Ltd. Country or region after: China Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS Country or region before: China |