CN112463972A - 一种基于类别不均衡的样本分类方法 - Google Patents

一种基于类别不均衡的样本分类方法 Download PDF

Info

Publication number
CN112463972A
CN112463972A CN202110114681.4A CN202110114681A CN112463972A CN 112463972 A CN112463972 A CN 112463972A CN 202110114681 A CN202110114681 A CN 202110114681A CN 112463972 A CN112463972 A CN 112463972A
Authority
CN
China
Prior art keywords
sample
vector
samples
classification
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110114681.4A
Other languages
English (en)
Other versions
CN112463972B (zh
Inventor
张发展
刘世林
罗镇权
祝凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN202110114681.4A priority Critical patent/CN112463972B/zh
Publication of CN112463972A publication Critical patent/CN112463972A/zh
Application granted granted Critical
Publication of CN112463972B publication Critical patent/CN112463972B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于类别不均衡的样本分类方法,包括以下步骤:将M个多样本类别作为一个类别整体进行训练,得到第一分类器;联合M个多样本类别形成的一个类别整体和N个少样本类别进行训练,得到第二分类器;将待分类样本输入第二分类器,输出第一次分类结果;若第一次分类结果与少样本类别相似,则直接输出本次分类结果为最终分类结果;若第一次分类结果与多样本类别相似,则将待分类样本再输入第一分类器,输出第二次分类结果为最终分类结果。本方案相比传统的依次二分类方法,提高了文本分类的效率,降低文本分类成本,并且也能达到对类别不均衡文本的准确分类。

Description

一种基于类别不均衡的样本分类方法
技术领域
本发明涉及文本分类技术领域,特别涉及一种基于类别不均衡的样本分类方法。
背景技术
文本分类是指给文本数据(即样本)打上特定的标签,通常需要各个类别的训练样本尽量均衡,才能使文本数据被分类到确切的类别。但是实际数据分布往往存在不均衡的现象。比如,“事件”类别的样本数据中,“企业合作”的文本数据相比“企业破产”的文本数据会多很多。再比如,“体育”类别的样本数据中,有“篮球”、“足球”、“羽毛球”等样本,在不同的时期也会存在不均衡的现象。
现有对数据不均衡的处理方法有过采样或欠采样,过采样就是对文本数据量较少的类别进行多次采样;欠采样就是对文本数据较多的类别减少采样。但过采样会导致训练样本存在线性相关现象,欠采样会对收集的文本数据不充分利用。因此,现有对数据不均衡的处理方法还不成熟。
有学者使用二分类的方法对不均衡类别进行分类,是每次将待分类文本与一个少样本类别和一个多样本类别进行分类比较,下一次继续与另一少样本类别和另一多样本类别进行分类比较,这样使得分类效率极低。
发明内容
本发明的目的在于对不均衡样本数据进行分类,且提高分类效率,提供一种基于类别不均衡的样本分类方法。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一种基于类别不均衡的样本分类方法,包括以下步骤:
将M个多样本类别作为一个类别整体进行训练,得到第一分类器;联合M个多样本类别形成的一个类别整体和N个少样本类别进行训练,得到第二分类器;
将待分类样本输入第二分类器,输出第一次分类结果;若第一次分类结果与少样本类别相似,则直接输出本次分类结果为最终分类结果;若第一次分类结果与多样本类别相似,则将待分类样本再输入第一分类器,输出第二次分类结果为最终分类结果。
在本方案中,对于文本分类中的类别不均衡的问题,特别是包含多个少样本类别时,类别不均衡的问题,首先对多个多样本作为一个整体进行训练得到第一分类器,再联合多个多样本类别的整体类别与多个少样本类别同时进行训练,得到第二分类器,将待分类样本输入第二分类器,如果输出结果为任一少样本类别,则说明该待分类样本属于该少样本类别,如果输出结果为多样本类别的整体类别,则说明该待分类样本属于任一多样本类别,则再将待分类样本输入第一分类器,输出的结果即为任一多样本类别。本方案可同时将待分类样本与所有的少样本类别和多个多样本类别合成的一个整体类别进行分类比较,解决了传统将待分类样本与每个少样本类别和每个多样本类别进行依次分类比较所带来的麻烦,降低了文本分类的成本,相比传统的依次二分类方法,提高了文本分类的效率,并且也能达到对类别不均衡文本的准确分类。
所述联合M个多样本类别形成的一个类别整体和N个少样本类别进行训练,得到第二分类器的步骤,包括:
在每一个少样本类别中选取一个代表样本,则有N个代表样本;
将N个代表样本以向量的形式表示,作为N个少样本类别的向量,则有N个向量;
将M个多样本类别中的抽样样本分别与少样本类别的N个代表样本做比较,得到N个多样本的代表样本;将N个多样本的代表样本以向量的形式表示,则有N个多样本的向量;
对N个多样本的向量求均值,得到M个多样本类别形成的一个类别整体的向量。
所述在每一个少样本类别中选取一个代表样本的步骤,包括:
将每一个少样本类别中的抽样样本以向量编码的形式表示,求抽样样本的向量编码的均值,将最接近该均值的向量编码所对应的样本作为该少样本类别的代表样本。
所述将M个多样本类别中的抽样样本分别与少样本类别的N个代表样本做比较,得到N个多样本的代表样本的步骤,包括:
将M个多样本类别中的抽样样本以向量编码的形式表示,将抽样样本的向量编码分别与少样本类别中每一个代表样本的向量做差值,并对这些差值求均值,得到M个多样本类别作为一个类别整体时,相对于每一个少样本类别的代表样本,则有N个相对于少样本类别的代表样本。
所述将待分类样本输入第二分类器,输出第一次分类结果的步骤,包括:
将所述待分类样本以向量的形式表示为待分类样本向量;
将所述待分类样本向量与N个少样本类别的向量以及M个多样本类别形成的一个类别整体的向量进行比较,输出与该待分类样本最接近的向量。
所述将M个多样本类别作为一个类别整体进行训练,得到第一分类器的步骤,包括:
使用预训练模型BERT fine-tuning对M个多样本类别进行训练,将[cls]作为特殊标记输入BERT,将tok作为输入样本进行分词后的单词输入BERT,[cls]、tok以向量表示为E_[cls]、E_tok;经过BERT后单词的向量表示为C、T_tok,将[cls]的向量C输入到全连接层FC进行分类,从而得到训练后的第一分类器。
与现有技术相比,本发明的有益效果:
本方案可同时将待分类样本与所有的少样本类别和多个多样本类别合成的一个整体类别进行分类比较,解决了传统需将待分类样本与每个少样本类别和每个多样本类别进行依次分类比较所带来的麻烦,降低了文本分类的成本,相比传统的依次二分类方法,提高了文本分类的效率,并且也能达到对类别不均衡文本的准确分类。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍, 应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例样本分类方法流程图;
图2为本发明实施例选取少样本类别的代表样本的示意图;
图3为本发明实施例得到多样本类别的向量表示的示意图;
图4为本发明实施例训练第一分类器的示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性,或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
本发明通过下述技术方案实现,一种基于类别不均衡的样本分类方法,包括以下方法:
步骤S1:将M个多样本类别作为一个类别整体进行训练,得到第一分类器;联合M个多样本类别形成的一个类别整体和N个少样本类别进行训练,得到第二分类器。
假设现一共有十个样本类别的文本数据,表示为Q1、Q2、Q3、Q4、Q5、Q6、Q7、Q8、Q9、Q10,其中Q1、Q2、Q3为少样本类别,Q4、Q5、Q6、Q7、Q8、Q9、Q10为多样本类型,即N=3,M=7。
将7个多样本类别作为一个类别整体进行训练,请参见图4,使用预训练模型BERTfine-tuning对M个多样本类别进行训练,其中[cls]是BERT输入中的特殊标记,经过BERT后,该字符的向量可代表整个句子含义,tok1~tokn是输入文本分词后的单词,一般按字进行分割;E_[cls]、E_tok1~E_tokn是[cls]、tok1~tokn的向量表示,为词嵌入向量加位置嵌入向量;C、T_tok1~T_tokn为经过BERT后单词的向量表示,将[cls]的向量输入到全连接层(FC)进行分类,最终回归函数(softmax)从而得到训练后的第一分类器,可将第一分类器标记为BERT_Maj。
在联合M个多样本类别形成的一个类别整体和N个少样本类别进行训练时,首先在每一个少样本类别中选取一个代表样本,则有3个代表样本。请参见图2,圆形即表示少样本类别中的样本,其中少样本类别Q1、Q2、Q3可分别表示为Min1、Min2、Min3,7个多样本类别形成的一个类别整体可表示为Maj。
在少样本类别Min1、Min2、Min3中选取代表样本时,将每一个少样本类别中的一个或若干样本以向量编码的形式表示,求这些样本的向量编码的均值,将最接近该均值的向量编码所对应的样本作为该少样本类别的代表样本。
请继续参见图2,五角形即表示少样本类别中的代表样本,分别为Anchor1、Anchor2、Anchor3,其代表样本的向量编码分别为Y1、Y2、Y3。假设少样本类别Min1中有若干样本,分别以圆形表示,提取其中两个样本的向量编码为X1、X2,求出均值后选出最接近均值的样本作为代表样本,选出的最接近均值的样本即为少样本类别Min1中最具代表性的一个样本Anchor1。同理,选择出少样本类别Min2、Min3中的代表样本Anchor2、Anchor3。基于SetConv Layer(卷积层),可以得到少样本类别Min1的向量表示Min Re1;同理,也得到少样本类别Min2、Min3的向量表示Min Re2、Min Re3,在图2中分别以菱形表示,比如以g(Y1-X1)来表示SetConv Layer卷积层,从而得到向量表示的形式。
将7个多样本类别中的抽样样本分别与少样本类别的这3个代表样本Anchor1、Anchor2、Anchor3做比较,以得到3个多样本的代表样本。请参见图3,将7个多样本类别中抽样样本的向量编码X1、X2、X3、X4、X5输入SetConv Layer,得到7个多样本作为一个类别整体时,相对于少样本类别Min1的代表样本,在图3中以三角形表示;同理,得到相对于少样本类别Min2的代表样本,以及相对于少样本类别Min3的代表样本。
则7个多样本类别作为一个类别整体时,得到相对于3个少样本类别的代表样本,均以三角形表示。将这3个多样本的代表样本以向量的形式表示,然后对3个多样本的向量求均值,得到这7个多样本类别形成的一个类别整体时的向量Maj Re,在图3中以六边形表示。
此时便得到了以菱形表示的3个少样本类别的向量Min Re1、Min Re2、Min Re3,以及以六边形表示的7个多样本类别形成的一个类别整体的向量Maj Re。
步骤S2:将待分类样本输入第二分类器,输出第一次分类结果;若第一次分类结果与少样本类别相似,则直接输出本次分类结果为最终分类结果;若第一次分类结果与多样本类别相似,则将待分类样本再输入第一分类器,输出第二次分类结果为最终分类结果。
请参见图1,待分类样本以圆形表示,将待分类样本输入第二分类器进行分类,同时将待分类样本以向量的形式表示,即图1中的椭圆形,进入分类层(ClassificationLayer),在第二分类器中进行分类时,计算待分类样本的向量与向量Min Re1、Min Re2、MinRe3、Maj Re的距离,若待分类样本的向量与向量Min Re1、Min Re2、Min Re3中的任一向量距离最近,则判断该待分类样本与该向量对应的样本类别相似。比如,若待分类样本的向量与向量Min Re2的距离最近,则判断该待分类样本与样本类别Min2相似,此时则直接输出该待分类样本属于样本类别Min2。若待分类样本的向量与向量Maj的距离最近,则判断该待分类样本与7个多样本类别相似,此时则将待分类样本再输入第一分类器,即可直接输出该待分类样本具体属于这7个多样本类别中的哪一个样本。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (6)

1.一种基于类别不均衡的样本分类方法,其特征在于:包括以下步骤:
将M个多样本类别作为一个类别整体进行训练,得到第一分类器;联合M个多样本类别形成的一个类别整体和N个少样本类别进行训练,得到第二分类器;
将待分类样本输入第二分类器,输出第一次分类结果;若第一次分类结果与少样本类别相似,则直接输出本次分类结果为最终分类结果;若第一次分类结果与多样本类别相似,则将待分类样本再输入第一分类器,输出第二次分类结果为最终分类结果。
2.根据权利要求1所述的一种基于类别不均衡的样本分类方法,其特征在于:所述联合M个多样本类别形成的一个类别整体和N个少样本类别进行训练,得到第二分类器的步骤,包括:
在每一个少样本类别中选取一个代表样本,则有N个代表样本;
将N个代表样本以向量的形式表示,作为N个少样本类别的向量,则有N个向量;
将M个多样本类别中的抽样样本分别与少样本类别的N个代表样本做比较,得到N个多样本的代表样本;将N个多样本的代表样本以向量的形式表示,则有N个多样本的向量;
对N个多样本的向量求均值,得到M个多样本类别形成的一个类别整体的向量。
3.根据权利要求2所述的一种基于类别不均衡的样本分类方法,其特征在于:所述在每一个少样本类别中选取一个代表样本的步骤,包括:
将每一个少样本类别中的抽样样本以向量编码的形式表示,求抽样样本的向量编码的均值,将最接近该均值的向量编码所对应的样本作为该少样本类别的代表样本。
4.根据权利要求2所述的一种基于类别不均衡的样本分类方法,其特征在于:所述将M个多样本类别中的抽样样本分别与少样本类别的N个代表样本做比较,得到N个多样本的代表样本的步骤,包括:
将M个多样本类别中的抽样样本以向量编码的形式表示,将抽样样本的向量编码分别与少样本类别中每一个代表样本的向量做差值,并对这些差值求均值,得到M个多样本类别作为一个类别整体时,相对于每一个少样本类别的代表样本,则有N个相对于少样本类别的代表样本。
5.根据权利要求2所述的一种基于类别不均衡的样本分类方法,其特征在于:所述将待分类样本输入第二分类器,输出第一次分类结果的步骤,包括:
将所述待分类样本以向量的形式表示为待分类样本向量;
将所述待分类样本向量与N个少样本类别的向量以及M个多样本类别形成的一个类别整体的向量进行比较,输出与该待分类样本最接近的向量。
6.根据权利要求1-5任一项所述的一种基于类别不均衡的样本分类方法,其特征在于:所述将M个多样本类别作为一个类别整体进行训练,得到第一分类器的步骤,包括:
使用预训练模型BERT fine-tuning对M个多样本类别进行训练,将[cls]作为特殊标记输入BERT,将tok作为输入样本进行分词后的单词输入BERT,[cls]、tok以向量表示为E_[cls]、E_tok;经过BERT后单词的向量表示为C、T_tok,将[cls]的向量C输入到全连接层FC进行分类,从而得到训练后的第一分类器。
CN202110114681.4A 2021-01-28 2021-01-28 一种基于类别不均衡的文本样本分类方法 Active CN112463972B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110114681.4A CN112463972B (zh) 2021-01-28 2021-01-28 一种基于类别不均衡的文本样本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110114681.4A CN112463972B (zh) 2021-01-28 2021-01-28 一种基于类别不均衡的文本样本分类方法

Publications (2)

Publication Number Publication Date
CN112463972A true CN112463972A (zh) 2021-03-09
CN112463972B CN112463972B (zh) 2021-05-18

Family

ID=74802771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110114681.4A Active CN112463972B (zh) 2021-01-28 2021-01-28 一种基于类别不均衡的文本样本分类方法

Country Status (1)

Country Link
CN (1) CN112463972B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587493A (zh) * 2009-06-29 2009-11-25 中国科学技术大学 文本分类方法
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN105468713A (zh) * 2015-11-19 2016-04-06 西安交通大学 一种多模型融合的短文本分类方法
CN105760889A (zh) * 2016-03-01 2016-07-13 中国科学技术大学 一种高效的不均衡数据集分类方法
CN107766860A (zh) * 2017-10-31 2018-03-06 武汉大学 基于级联卷积神经网络的自然场景图像文本检测方法
CN108628971A (zh) * 2018-04-24 2018-10-09 深圳前海微众银行股份有限公司 不均衡数据集的文本分类方法、文本分类器及存储介质
CN110032737A (zh) * 2019-04-10 2019-07-19 贵州大学 一种基于神经网络的边界组合命名实体识别方法
CN110109969A (zh) * 2019-04-16 2019-08-09 公安部第三研究所 一种用于类不均衡应用的集成数据流挖掘方法和系统
CN110309306A (zh) * 2019-06-19 2019-10-08 淮阴工学院 一种基于wsd层级记忆网络的文档建模分类方法
CN110781675A (zh) * 2019-09-25 2020-02-11 苏宁云计算有限公司 文本分类方法和装置
CN111209977A (zh) * 2020-01-16 2020-05-29 北京百度网讯科技有限公司 分类模型的训练和使用方法、装置、设备和介质
CN111475622A (zh) * 2020-04-08 2020-07-31 广东工业大学 一种文本分类方法、装置、终端及存储介质
CN111581385A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种不平衡数据采样的中文文本类别识别系统及方法
CN111626371A (zh) * 2020-05-29 2020-09-04 歌尔科技有限公司 一种图像分类方法、装置、设备及可读存储介质
CN111767399A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 一种基于不均衡文本集的情感分类器构方法、装置、设备和介质
WO2020224403A1 (zh) * 2019-05-07 2020-11-12 腾讯科技(深圳)有限公司 分类任务模型的训练方法、装置、设备及存储介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587493A (zh) * 2009-06-29 2009-11-25 中国科学技术大学 文本分类方法
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN105468713A (zh) * 2015-11-19 2016-04-06 西安交通大学 一种多模型融合的短文本分类方法
CN105760889A (zh) * 2016-03-01 2016-07-13 中国科学技术大学 一种高效的不均衡数据集分类方法
CN107766860A (zh) * 2017-10-31 2018-03-06 武汉大学 基于级联卷积神经网络的自然场景图像文本检测方法
CN108628971A (zh) * 2018-04-24 2018-10-09 深圳前海微众银行股份有限公司 不均衡数据集的文本分类方法、文本分类器及存储介质
CN110032737A (zh) * 2019-04-10 2019-07-19 贵州大学 一种基于神经网络的边界组合命名实体识别方法
CN110109969A (zh) * 2019-04-16 2019-08-09 公安部第三研究所 一种用于类不均衡应用的集成数据流挖掘方法和系统
WO2020224403A1 (zh) * 2019-05-07 2020-11-12 腾讯科技(深圳)有限公司 分类任务模型的训练方法、装置、设备及存储介质
CN110309306A (zh) * 2019-06-19 2019-10-08 淮阴工学院 一种基于wsd层级记忆网络的文档建模分类方法
CN110781675A (zh) * 2019-09-25 2020-02-11 苏宁云计算有限公司 文本分类方法和装置
CN111209977A (zh) * 2020-01-16 2020-05-29 北京百度网讯科技有限公司 分类模型的训练和使用方法、装置、设备和介质
CN111475622A (zh) * 2020-04-08 2020-07-31 广东工业大学 一种文本分类方法、装置、终端及存储介质
CN111581385A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种不平衡数据采样的中文文本类别识别系统及方法
CN111626371A (zh) * 2020-05-29 2020-09-04 歌尔科技有限公司 一种图像分类方法、装置、设备及可读存储介质
CN111767399A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 一种基于不均衡文本集的情感分类器构方法、装置、设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SIMONA081: "处理文本分类中样本不均衡的问题", 《HTTPS://BLOG.CSDN.NET/SIMONA081/ARTICLE/DETAILS/80275506》 *

Also Published As

Publication number Publication date
CN112463972B (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN112561910B (zh) 一种基于多尺度特征融合的工业表面缺陷检测方法
CN107423278B (zh) 评价要素的识别方法、装置及系统
CN111428504B (zh) 一种事件抽取方法和装置
CN111681681A (zh) 语音情绪识别方法、装置、电子设备及存储介质
CN113051929A (zh) 一种基于细粒度语义信息增强的实体关系抽取的方法
CN110287329A (zh) 一种基于商品文本分类的电商类目属性挖掘方法
CN112100380A (zh) 一种基于知识图谱的生成式零样本预测方法
CN113505225B (zh) 一种基于多层注意力机制的小样本医疗关系分类方法
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN110837568A (zh) 实体对齐方法及装置、电子设备、存储介质
CN110751191A (zh) 一种图像的分类方法及系统
CN111402014A (zh) 一种基于胶囊网络的电商缺陷产品的预测方法
CN116304120A (zh) 多媒体检索方法、装置、计算设备和存储介质
CN115437952A (zh) 一种基于深度学习的语句级软件缺陷检测方法
CN112463972B (zh) 一种基于类别不均衡的文本样本分类方法
CN113314188B (zh) 图结构增强的小样本学习方法、系统、设备及存储介质
CN112508108B (zh) 一种基于字根的零样本汉字识别方法
CN114550153A (zh) 一种端子排图像检测识别方法
CN104281569A (zh) 构建装置和方法、分类装置和方法以及电子设备
CN113239659A (zh) 一种融合规则的文本数字抽取装置
CN117516937A (zh) 基于多模态特征融合增强的滚动轴承未知故障检测方法
CN116304845A (zh) 一种建筑物料的层次分类识别方法
CN115146653B (zh) 对话剧本构建方法、装置、设备及存储介质
CN113591881B (zh) 基于模型融合的意图识别方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant