CN113849655A - 一种专利文本多标签分类方法 - Google Patents

一种专利文本多标签分类方法 Download PDF

Info

Publication number
CN113849655A
CN113849655A CN202111455951.4A CN202111455951A CN113849655A CN 113849655 A CN113849655 A CN 113849655A CN 202111455951 A CN202111455951 A CN 202111455951A CN 113849655 A CN113849655 A CN 113849655A
Authority
CN
China
Prior art keywords
label
ipc
text
matrix
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111455951.4A
Other languages
English (en)
Other versions
CN113849655B (zh
Inventor
李辉
马勇
钱辉
徐凡
曾锦山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Normal University
Original Assignee
Jiangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Normal University filed Critical Jiangxi Normal University
Priority to CN202111455951.4A priority Critical patent/CN113849655B/zh
Publication of CN113849655A publication Critical patent/CN113849655A/zh
Application granted granted Critical
Publication of CN113849655B publication Critical patent/CN113849655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种专利文本多标签分类方法,首先将IPC标签文本描述向量化来表示IPC标签向量,将训练集中的IPC标签共线关系矩阵作为标签之间的关联矩阵,再基于上述矩阵得到融合标签关联关系的IPC标签表示矩阵;最后将专利文本的不同角度的特征表示融合后得到文本特征矩阵与IPC标签矩阵相乘得到标签分数矩阵,通过激活层归一化后得到各个标签的概率。通过上述方式,本发明能够提取到专利文本的全局信息表示、局部信息表示和序列信息表示并进行信息整合来充分提取专利文本的语义信息,充分利用IPC标签描述的语义信息来挖掘IPC标签之间的关联关系,提高了专利文本多标签分类的分类效果。

Description

一种专利文本多标签分类方法
技术领域
本发明涉及自然语言处理文本分类领域,特别是涉及一种专利文本多标签分类方法。
背景技术
多标签文本分类是对数据集中的每个输入文本分配一个或多个标签的任务,是自然语言处理中一个具有挑战性任务。多标签文本分类有很多实际应用场景,例如文本分类、标签推荐、信息检索等,也可以用在专利文本分类任务上。
专利文本分类是一个多标签文本分类问题。现有技术一般使用卷积神经网络、循环神经网络来提取专利文本特征,使用独热码(one-hot)来表示每个专利文本的IPC标签,最后修改输出层的激活函数来进行多标签文本分类,在IPC标签层级较浅、IPC标签数量较少时能够使模型学东西到专利文本与IPC标签的关系,从而达到较好效果。
但是这种方法只考虑了如何更好的得到专利文本的表示,简单地将IPC标签作为一个无意义的符号处理,忽略了IPC标签背后丰富的技术分类描述信息和IPC标签之间的关联关系。
发明内容
本发明主要解决的技术问题是提供一种专利文本多标签分类方法,能够解决现有技术中未能充分利用标签文本描述和忽略标签之间的关联关系的问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种专利文本多标签分类方法,包括:
S1预处理输入数据得到IPC标签描述数据集和包含专利文本的训练集;
S2将所述IPC标签描述数据集中的所有IPC标签向量化得到第一标签表示矩阵;
S3根据所述训练集中IPC标签的共现关系得到标签关联矩阵;
S4根据所述第一标签表示矩阵,将所述训练集中IPC标签向量化得到第二标签表示矩阵;
S5将所述第二标签表示矩阵、标签关联矩阵输入到图神经网络中得到融合标签关联信息的第三标签表示矩阵;
S6提取专利文本特征得到文本特征编码表示E;
S7将所述文本特征编码表示E与所述第三标签表示矩阵进行矩阵乘法运算得到标签分数矩阵,将所述标签分数矩阵输入到激活层得到每个标签的概率;
S8将所有概率大于设定阈值x的标签预测序列作为多标签分类结果;
S9将所述标签预测序列与训练集中对应文本的原始标签序列代入损失函数中计算误差,并利用反向传播算法优化模型参数,并保存参数优化后的模型;
S10待分类专利文本经过S5-S8得到多标签分类结果;
所述IPC标签描述数据集,格式为{IPC标签,标签描述};
所述训练集的格式为{IPC标签,专利文本};
所述输入数据包括IPC描述数据和专利数据,其中,IPC描述数据包括不同层级的IPC标签及对应的标签描述;专利数据包括专利IPC标签、标题、摘要、权利要求和说明书。
本发明的有益效果是:
首先,本专利申请提供的方案能够提取到专利文本的全局信息表示、局部信息表示和序列信息表示并进行信息整合来充分提取专利文本的语义信息;
其次,通过利用IPC文本描述来构建标签表示矩阵,充分利用了IPC标签的文本描述信息,使模型能够获得更多的先验知识来进行文本分类;
最后,通过构建标签关联矩阵,使用图网络充分利用IPC标签描述的语义信息来挖掘IPC标签之间的关联关系,提高了专利文本多标签分类的分类效果。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本申请,并不构成对本公开的不当限定。
图1是一种专利文本多标签分类方法的模型结构图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1,本发明实施例包括:
一种专利文本多标签分类方法,包括:
S1预处理输入数据得到IPC标签描述数据集和包含专利文本的训练集;
S2将所述IPC标签描述数据集中的所有IPC标签向量化得到第一标签表示矩阵;
S3根据所述训练集中IPC标签的共现关系得到标签关联矩阵;
S4根据所述第一标签表示矩阵,将所述训练集中IPC标签向量化得到第二标签表示矩阵;
S5将所述第二标签表示矩阵、标签关联矩阵输入到图神经网络中得到融合标签关联信息的第三标签表示矩阵;
S6提取专利文本特征得到文本特征编码表示E;
S7将所述文本特征编码表示E与所述第三标签表示矩阵进行矩阵乘法运算得到标签分数矩阵,将所述标签分数矩阵输入到激活层得到每个标签的概率;
S8将所有概率大于设定阈值x的标签预测序列作为多标签分类结果;
S9将所述标签预测序列与训练集中对应文本的原始标签序列代入损失函数中计算误差,并利用反向传播算法优化模型参数,并保存参数优化后的模型;
S10待分类专利文本经过S5-S8得到多标签分类结果;
所述IPC标签描述数据集,格式为{IPC标签,标签描述};
所述训练集的格式为{IPC标签,专利文本};
所述输入数据包括IPC描述数据和专利数据,其中,IPC描述数据包括不同层级的IPC标签及对应的标签描述;专利数据包括专利IPC标签、标题、摘要、权利要求和说明书;
其中,预训练语言模型、第一标签矩阵、第二标签矩阵在模型迭代的过程参数不会更新,而图神经网络、卷积神经网络、循环神经网络、激活层的参数在模型迭代过程中会更新参数。
所述S1预处理输入数据得到IPC标签描述数据集和包含专利文本的训练集,包括:
选择用于多标签分类的IPC标签层级、专利文本小节;
根据所述IPC标签层级对输入的IPC描述数据进行数据清洗得到IPC标签描述数据集;
根据所述IPC标签层级、专利文本小节对输入的专利数据进行数据清洗、抽取得到专利文本的训练集;
所述IPC标签层级为部、大类、小类、大组、小组中的任意一个;
所述专利文本小节为标题、摘要、权利要求书、说明书中的任意一个或多个的组合。
在本实施例中,IPC标签层级为“小类”、专利文本小节为“摘要”。
所述对输入的IPC描述数据进行数据清洗,包括:
删除IPC描述中的与其他类别区分的注释、版本信息;
根据所述IPC标签层级,将IPC标签层级之前的IPC标签对应的标签描述进行叠加形成更长的文字描述作为标签描述。
将IPC描述数据进行数据清洗:
A,人类生活必需品;A01,农业;林业;畜牧业;狩猎;诱捕;捕鱼;A01B,农业或林业的整地;一般农业机械或农具的部件、零件或附件(用于播种、种植或施厩肥的开挖沟穴或覆盖沟穴入A01C5/00;收获根作物的机械入A01D;可变换成整地设备或能够整地的割草机入A01D42/0);
得到IPC标签描述数据集中的一个数据:{A01B,人类生活必需品农业;林业;畜牧业;狩猎;诱捕;捕鱼农业或林业的整地;一般农业机械或农具的部件、零件或附件}。
所述对输入的专利数据进行数据清洗、抽取,包括:
使用中文停用词表和自定义词典去除专利文本中的停用词;
根据所述专利文本小节从标题、摘要、权利要求和说明书选择出用于多标签分类的文本内容;
将IPC标签与所述IPC标签层级进行对齐得到与所述IPC标签层级一致的IPC标签。
在本实施例中,用于清洗专利文本的摘要的自定义词典包括:本发明,本申请,提供,提出,一种;
用于清洗专利文本的权利要求的自定义词典包括:其特征在于,该方法包括,其中,所述,如权利要求所述。
所述S2将所述IPC标签描述数据集中的所有IPC标签向量化得到第一标签表示矩阵,包括:
使用预训练语言模型将所述IPC标签描述数据集中所有IPC标签对应的标签描述进行向量表示得到第一标签表示矩阵。
所述标签关联矩阵,还可以将对角线数值化为1。
所述图神经网络,为图卷积网络或图注意力网络。
当选择的IPC标签层级较高时,选择图卷积网络来挖掘标签之间的关联关系;IPC标签层级较低时,例如IPC标签层级为小组、大组、小类,使用图注意力网络来挖据标签之间的关联关系。
所述S6 提取专利文本特征得到文本特征编码表示E,包括:
读取训练集中的专利文本并使用预训练语言模型进行向量表示,得到原始文本编码表示E1;
将所述E1输入到双向循环神经网络中得到序列编码表示E2;
将所述E1输入到卷积神经网络中得到局部编码表示E3;
将所述E1、E2和E3进行编码拼接作为文本特征编码表示E。
本实施例中编码拼接方式如下:E=[E1+E2,E3]。
本实施例选择的专利文本是摘要,长度最长为300字符,经过前述数据清洗、抽取后,平均长度约为250字符。
用于多标签分类的专利文本小节可为标题、摘要、权利要求和说明书中的一个或多个的组合,其中标题的文本长度一般不超过30,提供可用于分类的信息很少,分类效果有限;而摘要、权利要求、说明书的文本长度都远远超出了短文本分类的范围。
选择摘要进行文本分类可以在最大程度保留专利技术信息的同时,降低模型的运训复杂度,能够提高分类效率,因此本实施例中择优选择摘要作为专利文本小节。
本实施例从3个角度来提取专利文本特征:使用预训练语言模型进行向量表示得到原始文本编码表示E1;将所述E1输入到双向循环神经网络中得到序列编码表示;将所述E1输入到卷积神经网络中得到局部编码表示E3。
E1是专利文本较为直接、朴素的特征表示;E2能够保留专利文本关键词语的顺序信息,有助于正确预测多标签分类结果中IPC标签的出现顺序;E3能够保留专利文本中对多标签分类影响较大的关键词语信息。
所述双向循环神经网络,为BiRNN(Bi-directional recurrent neural network,双向循环神经网络)、BiLSTM(Bi-directional Long-short term memory,双向长短期记忆网络)或BiGRU(Bi-directional Gated Recurrent Unit 双向门控循环单元)。
本实施例中的双向循环神经网络使用BiLSTM。
所述S2和S6中的预训练语言模型是相同的预训练语言模型。
所述S2和S6中的预训练语言模型,可选择上下文无关的预训练语言模型或上下文相关的预训练语言模型。
上下文无关的预训练语言模型包括:Word2vec,Glove;上下文相关的预训练语言模型包括:Bert,ALBERT,XLNet,RoBERTa。本实施例采用上下相关的预训练语言模型Bert,损失函数是二元交叉熵损失函数,激活层的激活函数是sigmoid函数。
所述S10之后还包括:
使用多个不同的预训练语言模型分别进行S1-S10得到多个多标签分类结果和所述多标签分类结果中各个标签的概率;
使用集成学习策略来利用多个多标签分类结果和所述多标签分类结果中各个标签的概率得到待分类专利文本的最终多标签分类结果。
例如待分类文本一的第一个分类结果为{G08G:0.4136,G06F: 0.3241},第二个分类结果为{G06F:0.6317,G16H:0.5241},第三个分类结果为{G06F:0.6127};
使用集成学习策略中的简单平均法计算每个标签的概率:{G08G:0.4136,G06F:0.5228,G16H:0.5141};按照概率排序,得到最终分类结果:{G08G,G06,G16H}。
使用单个模型多待分类专利文本进行多标签分类,可能会受限于预训练语言模型的先验知识而出现多标签分类结果中IPC标签缺失、顺序错误,通过采用集成学习策略来综合利用不同模型的分类结果能够修正标签预测中出现标签缺失问题,调整标签出现的顺序,提高多标签分类结果的效果。
所述设定阈值x,取值范围是0.5≤x<1;
其中,IPC标签层级越高,设定阈值x的取值范围越接近1;IPC标签层级越低,设定阈值x的取值范围越接近0.5。
在本实施例中,设定阈值为0.6。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (13)

1.一种专利文本多标签分类方法,其特征在于,包括:
S1预处理输入数据得到IPC标签描述数据集和包含专利文本的训练集;
S2将所述IPC标签描述数据集中的所有IPC标签向量化得到第一标签表示矩阵;
S3根据所述训练集中IPC标签的共现关系得到标签关联矩阵;
S4根据所述第一标签表示矩阵,将所述训练集中IPC标签向量化得到第二标签表示矩阵;
S5将所述第二标签表示矩阵、标签关联矩阵输入到图神经网络中得到融合标签关联信息的第三标签表示矩阵;
S6提取专利文本特征得到文本特征编码表示E;
S7将所述文本特征编码表示E与所述第三标签表示矩阵进行矩阵乘法运算得到标签分数矩阵,将所述标签分数矩阵输入到激活层得到每个标签的概率;
S8将所有概率大于设定阈值x的标签预测序列作为多标签分类结果;
S9将所述标签预测序列与训练集中对应文本的原始标签序列代入损失函数中计算误差,并利用反向传播算法优化模型参数,并保存参数优化后的模型;
S10待分类专利文本经过S5-S8得到多标签分类结果;
所述IPC标签描述数据集,格式为{IPC标签,标签描述};
所述训练集的格式为{IPC标签,专利文本};
所述输入数据包括IPC描述数据和专利数据,其中,IPC描述数据包括不同层级的IPC标签及对应的标签描述;专利数据包括专利IPC标签、标题、摘要、权利要求和说明书。
2.如权利要求1所述的一种专利文本多标签分类方法,其特征在于,所述S1预处理输入数据得到IPC标签描述数据集和包含专利文本的训练集,包括:
选择用于多标签分类的IPC标签层级、专利文本小节;
根据所述IPC标签层级对输入的IPC描述数据进行数据清洗得到IPC标签描述数据集;
根据所述IPC标签层级、专利文本小节对输入的专利数据进行数据清洗、抽取得到专利文本的训练集;
所述IPC标签层级为部、大类、小类、大组、小组中的任意一个;
所述专利文本小节为标题、摘要、权利要求书、说明书中的任意一个或多个的组合。
3.如权利要求2所述的一种专利文本多标签分类方法,其特征在于,所述对输入的IPC描述数据进行数据清洗,包括:
删除IPC描述中的与其他类别区分的注释、版本信息;
根据所述IPC标签层级,将IPC标签层级之前的IPC标签对应的标签描述进行叠加形成更长的文字描述作为标签描述。
4.如权利要求3所述的一种专利文本多标签分类方法,其特征在于,所述对输入的专利数据进行数据清洗、抽取,包括:
使用中文停用词表和自定义词典去除专利文本中的停用词;
根据所述专利文本小节从标题、摘要、权利要求和说明书选择出用于多标签分类的文本内容;
将IPC标签与所述IPC标签层级进行对齐得到与所述IPC标签层级一致的IPC标签。
5.如权利要求4所述的一种专利文本多标签分类方法,其特征在于,所述S2将所述IPC标签描述数据集中的所有IPC标签向量化得到第一标签表示矩阵,包括:
使用预训练语言模型将所述IPC标签描述数据集中所有IPC标签对应的标签描述进行向量表示得到第一标签表示矩阵。
6.如权利要求5所述的一种专利文本多标签分类方法,其特征在于,所述标签关联矩阵,还可以将对角线数值化为1。
7.如权利要求6所述的一种专利文本多标签分类方法,其特征在于,所述图神经网络,为图卷积网络或图注意力网络。
8.如权利要求7所述的一种专利文本多标签分类方法,其特征在于,所述S6提取专利文本特征得到文本特征编码表示E,包括:
读取训练集中的专利文本并使用预训练语言模型进行向量表示,得到原始文本编码表示E1;
将所述E1输入到双向循环神经网络中得到序列编码表示E2;
将所述E1输入到卷积神经网络中得到局部编码表示E3;
将所述E1、E2和E3进行编码拼接得到文本特征编码表示E。
9.如权利要求8所述的一种专利文本多标签分类方法,其特征在于,所述双向循环神经网络,为BiRNN、BiLSTM或BiGRU。
10.如权利要求9所述的一种专利文本多标签分类方法,其特征在于,所述S2和S6中的预训练语言模型是相同的预训练语言模型。
11.如权利要求10所述的一种专利文本多标签分类方法,其特征在于,所述S2和S6中的预训练语言模型,可选择上下文无关的预训练语言模型或上下文相关的预训练语言模型。
12.如权利要求1~11任一所述的一种专利文本多标签分类方法,其特征在于,还包括:
使用多个不同的预训练语言模型分别进行S1-S10得到多个多标签分类结果和所述多标签分类结果中各个标签的概率;
使用集成学习策略来利用多个多标签分类结果和所述多标签分类结果中各个标签的概率得到待分类专利文本的最终多标签分类结果。
13.如权利要求12所述的一种专利文本多标签分类方法,其特征在于,所述设定阈值x,取值范围是0.5≤x<1;
其中,IPC标签层级越高,设定阈值x的取值范围越接近1;IPC标签层级越低,设定阈值x的取值范围越接近0.5。
CN202111455951.4A 2021-12-02 2021-12-02 一种专利文本多标签分类方法 Active CN113849655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111455951.4A CN113849655B (zh) 2021-12-02 2021-12-02 一种专利文本多标签分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111455951.4A CN113849655B (zh) 2021-12-02 2021-12-02 一种专利文本多标签分类方法

Publications (2)

Publication Number Publication Date
CN113849655A true CN113849655A (zh) 2021-12-28
CN113849655B CN113849655B (zh) 2022-02-18

Family

ID=78982651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111455951.4A Active CN113849655B (zh) 2021-12-02 2021-12-02 一种专利文本多标签分类方法

Country Status (1)

Country Link
CN (1) CN113849655B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579749A (zh) * 2022-03-11 2022-06-03 北京中知智慧科技有限公司 专利数据的cpc分类方法及装置
CN115858793A (zh) * 2023-02-20 2023-03-28 知呱呱(天津)大数据技术有限公司 基于图注意力机制的专利多层级分类方法及计算机设备
CN116932765A (zh) * 2023-09-15 2023-10-24 中汽信息科技(天津)有限公司 一种基于图神经网络的专利文本多级分类方法和设备
CN117591969A (zh) * 2024-01-18 2024-02-23 知呱呱(天津)大数据技术有限公司 一种基于ipc标签共现的规则检核方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200846949A (en) * 2007-05-28 2008-12-01 Univ Nat Taiwan Science Tech Method of classifying patent information
US20140012849A1 (en) * 2012-07-06 2014-01-09 Alexander Ulanov Multilabel classification by a hierarchy
KR101507521B1 (ko) * 2014-03-31 2015-03-31 주식회사 솔샘넷 IPC 자동 분류 방법 및 F-Term 추천 방법과 그 장치
KR101768807B1 (ko) * 2016-04-12 2017-08-17 고려대학교 산학협력단 특허분석 및 전문가 설문조사를 이용한 기술 예측 방법
CN107122382A (zh) * 2017-02-16 2017-09-01 江苏大学 一种基于说明书的专利分类方法
CN108536677A (zh) * 2018-04-09 2018-09-14 北京信息科技大学 一种专利文本相似度计算方法
CN110008342A (zh) * 2019-04-12 2019-07-12 智慧芽信息科技(苏州)有限公司 文献分类方法、装置、设备及存储介质
CN110209823A (zh) * 2019-06-12 2019-09-06 齐鲁工业大学 一种多标签文本分类方法及系统
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
WO2021068339A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 文本分类方法、装置及计算机可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200846949A (en) * 2007-05-28 2008-12-01 Univ Nat Taiwan Science Tech Method of classifying patent information
US20140012849A1 (en) * 2012-07-06 2014-01-09 Alexander Ulanov Multilabel classification by a hierarchy
KR101507521B1 (ko) * 2014-03-31 2015-03-31 주식회사 솔샘넷 IPC 자동 분류 방법 및 F-Term 추천 방법과 그 장치
KR101768807B1 (ko) * 2016-04-12 2017-08-17 고려대학교 산학협력단 특허분석 및 전문가 설문조사를 이용한 기술 예측 방법
CN107122382A (zh) * 2017-02-16 2017-09-01 江苏大学 一种基于说明书的专利分类方法
CN108536677A (zh) * 2018-04-09 2018-09-14 北京信息科技大学 一种专利文本相似度计算方法
CN110008342A (zh) * 2019-04-12 2019-07-12 智慧芽信息科技(苏州)有限公司 文献分类方法、装置、设备及存储介质
CN110209823A (zh) * 2019-06-12 2019-09-06 齐鲁工业大学 一种多标签文本分类方法及系统
WO2021068339A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 文本分类方法、装置及计算机可读存储介质
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KIM,KIYONG等: "Automatic IPC Classification of Patent Documents Using Word2Vec and Two Layers Bidirectional Long Short Term Memory Network", 《THE JOURNAL OF KOREAN INSTITUTE OF NEXT GENERATION COMPUTING》 *
SAINAN PI等: "A Comparative Study on Three Multi-Label Classification Tools", 《IMMS 2020: PROCEEDINGS OF THE 2020 3RD INTERNATIONAL CONFERENCE ON INFORMATION MANAGEMENT AND MANAGEMENT SCIENCE》 *
侯延行: "基于WEW-LDA模型的专利挖掘方法及应用", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *
张旭: "专利大数据分析系统关键技术与应用", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579749A (zh) * 2022-03-11 2022-06-03 北京中知智慧科技有限公司 专利数据的cpc分类方法及装置
CN115858793A (zh) * 2023-02-20 2023-03-28 知呱呱(天津)大数据技术有限公司 基于图注意力机制的专利多层级分类方法及计算机设备
CN116932765A (zh) * 2023-09-15 2023-10-24 中汽信息科技(天津)有限公司 一种基于图神经网络的专利文本多级分类方法和设备
CN116932765B (zh) * 2023-09-15 2023-12-08 中汽信息科技(天津)有限公司 一种基于图神经网络的专利文本多级分类方法和设备
CN117591969A (zh) * 2024-01-18 2024-02-23 知呱呱(天津)大数据技术有限公司 一种基于ipc标签共现的规则检核方法及系统
CN117591969B (zh) * 2024-01-18 2024-04-05 北京知呱呱科技有限公司 一种基于ipc标签共现的规则检核方法及系统

Also Published As

Publication number Publication date
CN113849655B (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
CN113849655B (zh) 一种专利文本多标签分类方法
CN112115995B (zh) 一种基于半监督学习的图像多标签分类方法
CN107526785B (zh) 文本分类方法及装置
CN109871538A (zh) 一种中文电子病历命名实体识别方法
US11860932B2 (en) Scene graph embeddings using relative similarity supervision
CN111177383B (zh) 一种融合文本语法结构和语义信息的文本实体关系自动分类方法
Coulibaly et al. Explainable deep convolutional neural networks for insect pest recognition
CN109829478B (zh) 一种基于变分自编码器的问题分类方法和装置
CN109271527A (zh) 一种需求功能点智能识别方法
CN111476038A (zh) 长文本生成方法、装置、计算机设备和存储介质
CN113705196A (zh) 基于图神经网络的中文开放信息抽取方法和装置
CN112530584A (zh) 一种医疗诊断辅助方法及系统
CN111563161B (zh) 一种语句识别方法、语句识别装置及智能设备
CN110909174B (zh) 一种基于知识图谱的简单问答中实体链接的改进方法
Patil et al. Krushi sahyog: Plant disease identification and crop recommendation using artificial intelligence
CN115376008A (zh) 病虫害识别方法、装置、电子设备和存储介质
CN113673246A (zh) 语义融合和知识蒸馏的农业实体识别方法和装置
CN115510864A (zh) 一种融合领域词典的中文农作物病虫害命名实体识别方法
CN115223021A (zh) 一种基于视觉问答的果树全生长期农事作业决策方法
Li et al. Agricultural text classification method based on dynamic fusion of multiple features
CN113869066A (zh) 一种基于农业领域文本的语义理解方法及系统
CN114021546A (zh) 迁移语境网络的大桃生产知识开放问答方法及装置
Dunnmon et al. Predicting us state-level agricultural sentiment as a measure of food security with tweets from farming communities
CN113221125B (zh) 基于TreeGAN的生成带有漏洞智能合约的方法及系统
CN114936327A (zh) 元素识别模型的获取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant