CN112364912B - 信息分类方法、装置、设备及存储介质 - Google Patents
信息分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112364912B CN112364912B CN202011239261.0A CN202011239261A CN112364912B CN 112364912 B CN112364912 B CN 112364912B CN 202011239261 A CN202011239261 A CN 202011239261A CN 112364912 B CN112364912 B CN 112364912B
- Authority
- CN
- China
- Prior art keywords
- information
- identified
- classification model
- category
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 238000003860 storage Methods 0.000 title claims abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 314
- 238000000605 extraction Methods 0.000 claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000006243 chemical reaction Methods 0.000 claims abstract description 16
- 238000013145 classification model Methods 0.000 claims description 326
- 238000012549 training Methods 0.000 claims description 273
- 230000006870 function Effects 0.000 claims description 150
- 230000008569 process Effects 0.000 claims description 30
- 230000004044 response Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 20
- 238000005516 engineering process Methods 0.000 description 19
- 238000010801 machine learning Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 10
- 201000010099 disease Diseases 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 241000283070 Equus zebra Species 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种信息分类方法、装置、设备及存储介质,属于人工智能技术领域。所述方法包括:获取待识别信息;对待识别信息进行特征提取处理,得到待识别信息的特征向量;基于特征向量对待识别信息进行分类处理,得到待识别信息的第一分类结果;基于所特征向量转换得到的语义向量对待识别信息进行分类处理,得到待识别信息的第二分类结果;从第一分类结果和第二分类结果中确定待识别信息的类别。本申请中,一方面,增量学习有效增加了可识别的类别数量,另一方面,针对增量分类不可识别的数据类别能够通过零样本分类方式进行分类,提高了针对各种类别的识别能力。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种信息分类方法、装置、设备及存储介质。
背景技术
目前,随着人工智能的发展,对机器学习模型的功能要求越来越大。
在相关技术中,技术人员可以通过大量训练样本集对机器学习模型进行训练,使得该模型能够在后续的使用过程中对训练样本集对应的样本类别进行识别。例如,在图像识别模型的训练过程中,技术人员在获取大量图像之后,为了使图像识别模型具有针对小猫的识别能力,对图像中是否存在小猫进行标注,得到训练样本集(如包括标注有存在小猫的正样本和不存在小猫的负样本),并基于该训练样本集对图像识别模型进行训练。此时,完成训练后的图像识别模型能够对图像中是否存在小猫进行识别。
然而,在上述相关技术中,模型仅仅能够识别训练样本集对应的样本类别,无法对未见过的数据类别进行识别,例如上述训练得到图像识别模型仅仅能够识别出图像中的小猫,无法识别出图像中的小狗,识别能力弱。
发明内容
本申请实施例提供了一种信息分类方法、装置、设备及存储介质,能够在待识别信息为未见过的数据类别时依旧能够对待识别信息进行分类,提高了针对各种信息的识别能力。所述技术方案如下:
根据本申请实施例的一个方面,提供了一种信息分类方法,所述方法包括:
获取待识别信息;
对所述待识别信息进行特征提取处理,得到所述待识别信息的特征向量;
基于所述特征向量对所述待识别信息进行分类处理,得到所述待识别信息的第一分类结果,所述第一分类结果中包括所述待识别信息属于各个可见类别的概率;
基于所述特征向量转换得到的语义向量对所述待识别信息进行分类处理,得到所述待识别信息的第二分类结果,所述第二分类结果中包括所述待识别信息属于各个不可见类别的概率;
从所述第一分类结果和所述第二分类结果中确定所述待识别信息的类别。
根据本申请实施例的一个方面,提供了一种信息分类模型的训练方法,所述方法包括:
获取原有的信息分类模型;其中,所述原有的信息分类模型是采用第一训练样本集训练得到的模型,所述原有的信息分类模型中包括增量分类器和零样本分类器,所述原有的信息分类模型中的所述增量分类器用于对所述第一训练样本集对应的可见类别进行识别,所述原有的信息分类模型中的所述零样本分类器用于对所述第一训练样本集对应的不可见类别进行识别;
生成更新的信息分类模型,所述更新的信息分类模型与所述原有的信息分类模型相同;
采用第二训练样本集对所述更新的信息分类模型进行训练,所述第二训练样本集对应的样本类别和所述第一训练样本集对应的样本类别不同;
其中,所述更新的信息分类模型中的所述增量分类器用于对所述第一训练样本集和所述第二训练样本集对应的可见类别进行识别,所述更新的信息分类模型中的所述零样本分类器用于对所述第一训练样本集和所述第二训练样本集对应的不可见类别进行识别。
根据本申请实施例的一个方面,提供了一种信息分类装置,所述装置包括:
信息获取模块,用于获取待识别信息;
特征获取模块,用于对所述待识别信息进行特征提取处理,得到所述待识别信息的特征向量;
第一获取模块,用于基于所述特征向量对所述待识别信息进行分类处理,得到所述待识别信息的第一分类结果,所述第一分类结果中包括所述待识别信息属于各个可见类别的概率;
第二获取模块,用于基于所述特征向量转换得到的语义向量对所述待识别信息进行分类处理,得到所述待识别信息的第二分类结果,所述第二分类结果中包括所述待识别信息属于各个不可见类别的概率;
类别确定模块,用于从所述第一分类结果和所述第二分类结果中确定所述待识别信息的类别。
根据本申请实施例的一个方面,提供了一种信息分类模型的训练装置,所述装置包括:
模型获取模块,用于获取原有的信息分类模型;其中,所述原有的信息分类模型是采用第一训练样本集训练得到的模型,所述原有的信息分类模型中包括增量分类器和零样本分类器,所述原有的信息分类模型中的所述增量分类器用于对所述第一训练样本集对应的可见类别进行识别,所述原有的信息分类模型中的所述零样本分类器用于对所述第一训练样本集对应的不可见类别进行识别;
模型生成模块,用于生成更新的信息分类模型,所述更新的信息分类模型与所述原有的信息分类模型相同;
模型训练模块,用于采用第二训练样本集对所述更新的信息分类模型进行训练,所述第二训练样本集对应的样本类别和所述第一训练样本集对应的样本类别不同;
其中,所述更新的信息分类模型中的所述增量分类器用于对所述第一训练样本集和所述第二训练样本集对应的可见类别进行识别,所述更新的信息分类模型中的所述零样本分类器用于对所述第一训练样本集和所述第二训练样本集对应的不可见类别进行识别。
根据本申请实施例的一个方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述信息分类方法,或实现上述信息分类模型的训练方法。
根据本申请实施例的一个方面,本申请实施例提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述信息分类方法,或实现上述信息分类模型的训练方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述信息分类方法,或实现上述信息分类模型的训练方法。
本申请实施例提供的技术方案可以带来如下有益效果:
通过零样本分类方式对待识别信息进行分类,使得在待识别信息为未见过的数据类别时依旧能够对待识别信息进行分类,提高了针对各种信息的识别能力;通过增量分类方式对待识别信息进行分类,增量学习能够有效地解决可识别的待识别信息种类少的问题,不断地增量学习在增加可识别的待识别信息的类别数量的同时,在使用过程中能够保证待识别信息的分类的准确率;根据第一分类结果和第二分类结果确定待识别信息的类别,且第一分类结果为通过增量分类方式获取的分类结果,第二分类结果为通过零样本分类方式获取的分类结果,一方面,增量学习有效增加了可识别的类别数量,另一方面,针对增量分类不可识别的数据类别能够通过零样本分类方式进行分类,提高了针对各种类别的识别能力。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的信息分类方法的流程图;
图2是本申请另一个实施例提供的信息分类方法的流程图;
图3示例性示出了一种极值分析器中概率模型的示意图;
图4示例性示出了一种信息分类模型的结构的示意图;
图5是本申请一个实施例提供的信息分类模型的训练方法的流程图;
图6示例性示出了一种更新的信息分类模型的示意图;
图7是本申请一个实施例提供的信息分类装置的框图;
图8是本申请另一个实施例提供的信息分类装置的框图;
图9是本申请一个实施例提供的信息分类模型的训练装置的框图;
图10是本申请另一个实施例提供的信息分类模型的训练装置的框图;
图11是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的机器学习等技术,采用机器学习训练得到信息分类模型,进而使用该信息分类模型对待识别信息进行分类,获取待识别信息的类别。在训练过程中,信息分类模型中包括增量分类器和零样本分类器。其中,增量分类器是通过针对信息分类模型的增量训练得到的,该增量分类器用于对属于可见类别的待识别信息进行分类,该可见类别是指上述机器训练过程中各个训练样本集对应的样本类别;零样本分类器是指依据语义嵌入对待识别信息进行分类的分类器,该零样本分类器用于对属于不可见类别的待识别信息进行分类。在相关技术中,为了解决增量学习过程中的“灾难性遗忘问题”,在进行增量训练时,需要将之前的训练样本集与本次的训练样本集混合后对信息分类模型进行训练,即计算机设备需要存储每一个训练的训练样本集,存储开销大,在增量分类器学习新知识时,需要使用大量之前的训练样本集对增量分类器进行训练,训练负荷大。可选地,在本申请实施例中,采用不同类别的训练样本集依次对上述信息分类模型进行训练,且每一次训练只需要采用新类别对应的训练样本集进行训练,不需要将新类别对应的训练样本集与旧类别对应的训练样本集混合进行训练,使得增量分类器在通过增量学习以识别各个可见类别的待识别信息的同时,降低增量分类器的训练成本。需要说明的是,在增量学习的过程中,为了同时保证信息分类模型在新可见类别和旧可见类别的识别能力,需要平衡第一损失函数与第二损失函数之间的权重来获取信息分类模型的总体损失函数。其中,第一损失函数用于指示信息分类模型针对上述新可见类别的识别能力,第二损失函数用于指示信息分类模型在旧可见类别的识别能力。在实际使用过程中,信息分类模型中还包括极值分析器,该极值分析器用于判断待识别信息的所属类别。若该所属类别为可见类别,则依据增量分类器对待识别信息进行分类;若所属类别为不可见类别,则依据零样本分类器对待识别信息进行分类。也就是说,在信息分类模型的实际运用中,信息分类模型可以对各种类别的待识别信息进行识别,即使该待识别信息对应的类别为信息分类模型未训练过的类别,信息分类模型也可以根据零样本分类器对该待识别信息进行分类,有效地保证了信息分类模型的识别能力。其中,上述零样本分类器中包括语义嵌入,该语义嵌入是通过大量文本语料训练得到的,该语义嵌入中包括各个类别的标签向量,零样本分类器可以基于该标签向量与待识别信息的语义向量确定该待识别信息的类别。
可选地,在本申请实施例中,上述信息分类模型中还可以包括位置检测器。其中,位置检测器用于确定待识别信息中待识别目标的位置,此时,信息分类模型能够在对待识别信息进行分类的同时,确定待识别目标在待识别信息中的位置。其中,针对不同类型的待识别信息,位置检测器输出的位置信息不同。例如,待识别信息为图像信息,位置检测器输出包含待识别目标的图像框的参数(图像框在图像信息中的位置坐标、图像框的长度和宽度等);待识别信息为文本信息,位置检测器输出文本中各个关键字的位置信息(关键字所在的行、列、字数等)。
需要说明的一点是,本申请提供的信息分类模型,可以广泛应用于各个领域。具体如下:
(1)在人工智能领域,在智能机器人中设置有信息分类模型,该信息分类模型中包括用于识别可见类别的增量分类器、用于识别不可见类别的零样本分类器和用于判断待识别信息为可见类别还是不可见类别的极值分析器。其中,增量分类器是通过不同类别的训练样本集增量学习获取的,零样本分类器中包括各个类别的语义嵌入。此时,智能机器人在运行过程中,可以不断从周围环境中获取待识别图像,并通过信息分类模型对待识别图像中的目标进行类别检测,进而基于目标的类别,确定后续的动作,如主动避开障碍物、向行人打招呼或运动至目的地为用户提供服务等。当然,在智能机器人的使用过程中,信息分类模型在对不可识别的目标进行类别检测之后,可以从网络环境中获取该不可识别目标的训练样本集,并根据该训练样本集对信息分类模型进行训练更新,在训练完成之后,该不可见类别成为信息分类模型的可见类别;
(2)在自动驾驶领域,在车载终端中设置有信息分类模型,该信息分类模型中包括用于识别可见类别的增量分类器、用于识别不可见类别的零样本分类器和用于判断待识别信息为可见类别还是不可见类别的极值分析器。其中,增量分类器是通过不同类别的训练样本集增量学习获取的,零样本分类器中包括各个类别的语义嵌入。此时,车辆在自动驾驶过程中,可以不断从周围环境中获取待识别图像,并通过信息分类模型对待识别图像中的目标进行类别检测,进而基于目标的类别,对已规划好的行车路线进行调整,如在斑马线附近自动减速行驶、主动避让行人和动物、绕开突然发生故障的道路等。当然,在车辆的自动行驶过程中,信息分类模型在对不可识别的目标进行类别检测之后,可以从网络环境中获取该不可识别目标的训练样本集,并根据该训练样本集,在车辆未行驶时对信息分类模型进行训练更新,在训练完成之后,该不可见类别成为信息分类模型的可见类别;
(3)在医疗领域,在某个应用程序的后台服务器中设置有信息分类模型,该信息分类模型中包括用于识别可见类别的增量分类器、用于识别不可见类别的零样本分类器和用户判断待识别信息为可见类别还是不可见类别的极值分析器。其中,增量分类器是通过不同类别的训练样本集增量学习获取的,零样本分类器中包括各个类别的语义嵌入。此时,在该应用程序启动之后,用户可以根据自身实际情况向应用程序提供病症信息,之后,该应用程序的后台服务器通过信息分类模型对病症信息进行类别检测,进而基于该病症信息的类别,向用户提供对应的治疗信息,如提供病症名称、向用户提供针对该病症的治疗药物、建议用户去某个医院查看病症等。当然,在应用程序的运行过程中,信息分类模型在对不可识别的病症信息进行类别检测之后,可以从网络环境中获取该不可识别的病症信息的训练样本集,并根据该训练样本集对信息分类模型进行训练更新,在训练完成之后,该不可见类别成为信息分类模型的可见类别。
当然,本申请中的信息分类方法还可以运用于其它各个领域,在此不一一举例。除此之外,在实际运用中,可以同时使用多个信息分类模型对待识别信息进行分类,例如,使用第一个信息分类模型确定待识别信息所属领域,并基于该所属领域选择该领域对应的信息识别模型对待识别信息进行分类。
为了便于说明,在下述方法实施例中,仅以各步骤的执行主体为计算机设备为例进行介绍说明,计算机设备可以是任何具备计算和存储能力的电子设备。例如,该计算机设备可以是服务器,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。再例如,该计算机设备也可以是终端,该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。需要说明的一点是,在本申请实施例中,各步骤的执行主体可以是同一计算机设备,也可以由多个不同的计算机设备交互配合执行,此处不作限定。还需要说明的一点是,在本申请实施例中,下述信息分类方法的执行主体与下述信息分类模型的训练方法的执行主体可以是相同的计算机设备,也可以是不同的计算机设备,本申请实施例对此不作限定。
下面,将结合几个实施例对本申请技术方案进行详细的介绍说明。
请参考图1,其示出了本申请一个实施例提供的信息分类方法的流程图。该方法可以包括以下几个步骤(101~105):
步骤101,获取待识别信息。
待识别信息是指未知类别的信息,即未分类的信息。可选地,该待识别信息可以是图像信息、文字信息或语音信息等,本申请实施例对此不作限定。其中,该待识别信息中包括一个或多个待识别目标。可选地,该待识别目标可以是待识别信息中的部分内容,也可以是待识别信息本身;即计算机设备在对待识别信息进行分类时,可以对待识别信息中的待识别目标进行分类,也可以直接对待识别信息进行分类。在本申请实施例中,计算机设备在进行信息识别之前,获取待识别信息。可选地,待识别信息可以是实时获取的信息,也可以是之前获取并存储在计算机设备中的信息。
在一种可能的实施方式中,由用户主动向计算机设备提供上述待识别信息。可选地,用户根据实际情况确定待识别信息,并向计算机设备或计算机设备的关联设备输入该待识别信息,进一步地,计算机设备获取该待识别信息。其中,待识别信息的输入方式可以是文字输入、语音输入、图像输入或手势输入,等等,本申请实施例对此不作限定。
在另一种可能的实施方式中,由计算机设备主动获取上述待识别信息。可选地,计算机设备可以按照一定的时间间隔从网络环境中获取上述待识别信息,在这种情况下,计算机设备在对待识别信息进行分类之后,可以依据待识别信息的类别将该待识别信息存储至合适的位置,如分类数据库。其中,上述时间间隔可以是1s、1h、1天或1周等。当然,计算机设备也可以从周围环境中自动获取上述待识别信息,在这种情况下,计算机设备在对待识别信息进行分类之后,可以依据待识别信息的类别对周围环境做出对应的反馈。例如,计算机设备为车载终端,在自动行驶过程中,从周围环境中获取待识别图像,并在确定待识别图像中包括人时,主动避让。
步骤102,对待识别信息进行特征提取处理,得到待识别信息的特征向量。
特征向量是指上述待识别信息中的特征对应的向量。在本申请实施例中,计算机设备在获取上述待识别信息之后,对该待识别信息进行特征提取处理,得到该待识别信息的特征向量。
在一种可能的实施方式中,上述待识别信息中的待识别目标为该待识别信息的部分内容。可选地,计算机设备在获取上述待识别信息之后,对该待识别信息进行特征提取处理,得到候选特征信息。其中,该候选特征信息对应有概率信息,该概率信息用于指示候选特征信息中包括待识别目标的概率。进一步地,将该概率信息大于目标值的候选特征信息,确定为目标特征信息,并将目标特征信息转换为向量,得到上述特征向量。示例性地,若该待识别信息为图像信息,则计算机设备在获取该图像信息之后,对该图像信息进行图像处理,如边缘轮廓检测等,从该图像信息中获取候选特征图像,并基于各个候选特征图像对应的概率信息,将概率信息大于目标值的候选特征图像确定为目标特征图像,进而将该目标特征图像转换为向量,得到图像信息对应的特征向量。其中,上述目标值可以是任意数值,本申请实施例对此不作限定。
在另一种可能的实施方式中,上述待识别信息中的待识别目标为该待识别信息本身。可选地,计算机设备在获取上述待识别信息之后,对该待识别信息进行特征提取处理,得到该待识别信息的特征信息,进而将该特征信息转换为向量,得到上述特征向量。示例性地,若该待识别信息为文字信息,则计算机设备在获取该文字信息之后,对该文字信息进行信息提取处理,如将出现频率大于某个数值的实体作为关键词,从该文字信息中获取关键词,进而将该关键词转换为向量,得到文字信息对应的特征向量。
步骤103,基于特征向量对待识别信息进行分类处理,得到待识别信息的第一分类结果。
在本申请实施例中,计算机设备在获取上述特征向量之后,基于该特征向量对待识别信息进行分类处理,得到该待识别信息的第一分类结果。可选地,计算机设备可以采用增量分类方式基于上述特征向量对待识别信息进行分类处理,进而得到第一分类结果。其中,增量分类方式是指依据上述特征向量直接对待识别信息进行分类的方式;第一分类结果中包括上述待识别信息属于各个可见类别的概率,可见类别是指进行过机器学习的类别,如训练样本集对应的样本类别。
可选地,在本申请实施例中,计算机设备可以通过增量分类器来实现上述增量分类方式。计算机设备在获取上述特征向量之后,将该特征向量输入至增量分类器,进而通过增量分类器对特征向量进行处理,输出待识别信息的第一分类结果。其中,上述增量分类器是通过增量学习训练得到的分类器。可选地,在对增量分类器进行训练时,将该增量分类器对应的训练样本集进行类别分类,不同的训练样本集对应的样本类别不同,在针对增量分类器的训练时,每次采用不同的训练样本集对增量分类器进行增量训练。
示例性地,在采用某个训练样本集对增量分类器进行训练之后,训练后的增量分类器对应的可见类别为该训练样本集对应的样本类别,之后,生成与该训练后的增量分类器相同的新的增量分类器,并选择与上述训练样本集对应的样本类别不同的其它训练样本集,并基于该其它训练样本集对新的增量分类器进行训练,此时,训练后的增量分类器对应的可见类别为上述训练样本对应的样本类别,以及上述其它训练样本对应的样本类别。
步骤104,基于特征向量转换得到的语义向量对待识别信息进行分类处理,得到待识别信息的第二分类结果。
在本申请实施例中,计算机设备在获取上述特征向量之后,将该特征向量转换为语义向量,并基于该特征向量转换得到的语义向量对待识别信息进行分类处理,得到该待识别信息的第二分类结果。其中,语义向量是指从语义角度对待识别信息的特征进行描述的向量,即语义向量用于从语义角度表征待识别信息的类别。可选地,计算机设备可以采用零样本分类方式基于特征向量对待识别信息进行分类处理,得到第二分类结果。其中,零样本分类方式是指依据上述特征向量转换为的语义向量对待识别信息进行分类的方式;第二分类结果中包括上述待识别信息属于各个类别的概率,该类别中包括可见类别和不可见类别,不可见类别是指未进行过机器学习的类别。
在一种可能的实施方式中,计算机设备可以通过零样本分类器来实现上述零样本分类方式。其中,零样本分类器是依据各个不可见类别的标签向量进行分类的分类器。可选地,计算机设备在获取上述特征向量之后,将该特征向量转换为语义向量,并将特征向量对应的语义向量输入至零样本分类器,通过零样本分类器获取语义向量与各个不可见类别的标签向量之间的相似度,得到上述第二分类结果。其中,语义向量用于从语义角度表征待识别信息的类别。可选地,零样本分类器在获取上述语义向量之后,确定该语义向量与各个类别的标签向量之间的相似度,并根据该相似度确定待识别信息属于各个类别的概率,进而得到上述第二分类结果。其中,上述概率与相似度呈正比,即若语义向量与某个标签向量之间的相似度大,则待识别信息属于该标签向量所指示的类别的概率大。
在另一种可能的实施方式中,计算机设备通过特征向量直接获取上述第二分类结果。可选地,计算机设备在获取上述特征向量之后,直接对该特征向量进行处理,将特征向量转换为语义向量,并基于语义向量与各个标签向量之间的相似度获取上述第二分类结果。
可选地,上述标签向量是指用于指示某个类别的语义嵌入,该语义嵌入可以是从该类别对应的大量文本语料中训练得到的。在本申请实施例中,上述零样本分类器中包括语义嵌入,该语义嵌入中包括各个类别的语义向量,即标签向量。当然,在实际运用中,可以由工作人员按照一定的时间间隔对上述语义嵌入进行更新,如增加新的类别的标签向量、对分类结果不准确的标签向量进行调整、删除可见类别的标签向量等。其中,上述时间间隔可以是1s、1h、1天或1周等。
需要说明的一点是,上述针对步骤103和步骤104的执行顺序的介绍只是示例性的,在实际运用中,步骤103和步骤104的执行顺序可以为先执行步骤103后执行步骤104,或先执行步骤104后执行步骤103,或同时执行步骤103和步骤104。
步骤105,从第一分类结果和第二分类结果中确定待识别信息的类别。
在本申请实施例中,计算机设备在获取上述第一分类结果和上述第二分类结果之后,从该第一分类结果和第二分类结果中确定待识别信息的类别。其中,上述第一分类结果中包括上述待识别信息属于各个可见类别的概率,上述第二分类结果中包括上述待识别信息属于各个类别的概率。
在一种可能的实施例中,计算机设备从上述第一分类结果或上述第二分类结果中确定待识别信息的类别。可选地,计算机设备在获取上述待识别信息的特征向量之后,可以根据将该特征向量确定该待识别信息的所属类别。进一步地,若该所属类别为可见类别,则根据增量分类方式获取的第一分类结果确定该待识别信息的类别,如从第一分类结果中选择最大概率对应的类别作为待识别信息的类别;若该所属类别为不可见类别,则根据零样本分类方式获取的第二分类结果确定该待识别信息的类别,如从第二分类结果中选择最大概率对应的类别。其中,计算机设备在确定上述所属类别时,可以将特征向量转换为语义向量,并根据该语义向量确定待识别信息的所属类别。
在另一种可能的实施例中,计算机设备从上述第一分类结果或上述第二分类结果中确定待识别信息的类别。可选地,计算机设备在获取上述第一分类结果和上述第二分类结果之后,选择概率最大的类别作为待识别信息的类别。
综上所述,本申请实施例提供的技术方案中,通过零样本分类方式对待识别信息进行分类,使得在待识别信息为未见过的数据类别时依旧能够对待识别信息进行分类,提高了针对各种信息的识别能力;通过增量分类方式对待识别信息进行分类,增量学习能够有效地解决可识别的待识别信息种类少的问题,不断地增量学习在增加可识别的待识别信息的类别数量的同时,在使用过程中能够保证待识别信息的分类的准确率;根据第一分类结果和第二分类结果确定待识别信息的类别,且第一分类结果为通过增量分类方式获取的分类结果,第二分类结果为通过零样本分类方式获取的分类结果,一方面,增量学习有效增加了可识别的类别数量,另一方面,针对增量分类不可识别的数据类别能够通过零样本分类方式进行分类,提高了针对各种类别的识别能力。
请参考图2,其示出了本申请另一个实施例提供的信息分类方法的流程图。该方法可以包括以下几个步骤(201~208):
步骤201,获取待识别信息。
步骤202,对待识别信息进行特征提取处理,得到待识别信息的特征向量。
步骤203,基于特征向量对待识别信息进行分类处理,得到待识别信息的第一分类结果。
步骤204,基于特征向量转换得到的语义向量对待识别信息进行分类处理,得到待识别信息的第二分类结果。
上述步骤201-204与图1实施例中的步骤101-104相同,具体参见图1实施例,在此不作赘述。
步骤205,对特征向量进行向量转换处理,得到特征向量对应的语义向量。
语义向量用于从语义角度表征待识别信息的类别。可选地,计算机设备在获取上述用于表征待识别信息的特征信息的特征向量之后,基于该特征向量获取该待识别信息的语义向量,即将待识别信息的特征信息转换为语义信息。
在本申请实施例中,计算机设备在获取上述特征向量之后,对该特征向量进行向量转换处理,得到特征向量对应的语义向量。可选地,计算机设备可以通过零样本分类器中的全连接层将特征向量转换为语义向量。
需要说明的一点是,上述关于步骤204和步骤205的执行顺序的介绍只是示例性和解释性的,在实际运用中,步骤204中的语义向量即可以为步骤205所获取的语义向量。也就是说,计算机设备在通过特征向量获取语义向量之后,一方面执行下述步骤206,基于语义向量确定待识别信息对应的判别概率;另一方面执行上述步骤204,基于语义向量获取第二分类结果。
步骤206,基于语义向量确定待识别信息对应的判别概率。
判别概率用于指示待识别信息的类别为不可见类别的概率。其中,不可见类别是指未进行机器学习的类别,该属于该不可见类别的待识别信息无法通过特征向量直接获取准确的类别,即上述增量分类方式不适用于该不可见类别对应的待识别信息。在本申请实施例中,计算机设备在获取上述语义特征之后,基于该语义特征确定待识别信息对应的判别概率。
在一种可能的实施方式中,计算机设备通过极值分析器获取上述判别概率。可选地,计算机设备在获取上述语义特征之后,将该语义特征输入至极值分析器。其中,该极值分析器中包括各个可见类别的概率模型,该概率模型用于基于语义特征判断上述待识别信息不属于各个可见类别的概率。可选地,极值分析器在获取上述语义特征之后,可以基于该语义特征和各个概率模型,输出待识别信息的判别概率。
示例性地,假设一独立同分布随机变量序列为X1、X2.......Xn,累计分布函数为F,X-u是超出量,定义X超过阈值u的条件超出量分布函数为Fu(x)为:
当阈值u足够大时,超出量条件分布函数Fu(x)可以很好近似为广义Pareto(帕累托)分布,即:
Fu(x)→G(x,σ,ξ),as u→∞;
概率模型GPD定义为:
其中,σ是尺度参数,且大于0,ξ是形状参数。
如图3所示,在极值分析器中,对每个可见类别进行向量建模,得到G1、G2、G3和G4。具体地,如果一个语义向量到某个类别的平均语义向量(标签想向量)的距离超过一个阈值,则可以认为该语义向量是一个极端语义向量。因此,可以基于超过阈值的超出量拟合GPD。首先计算第j类别语义向量sj i和平均投影语义向量的距离/>sj i和/>都是规范化的。然后通过最大似然估计在超过阈值uj的超出量估计第j类别的GPD参数/>和/>在进行分类时,计算距离超过阈值的超出量/>然后将超出量带入GPD中导出该语义向量不属于第j类别的概率。然后在所有可见类别的GPD计算得到上述判别概率Pmin为:
可选地,极值分析器在获取上述判别概率之后,可以基于该判别概率判断上述待识别信息是属于可见类别还是不可见类别,判别公式如下:
其中,δ是阈值,可以设置为0.02。Pi ic是指第一分类结果中的各个概率,Pi zsc是指第二分类结果中的各个概率。如果Pmin≥δ,则待识别信息的语义向量对于所有可见类别都是一个极端语义向量,即该待识别信息属于不可见类别。相反,如果Pmin<δ,则该待识别信息属于可见类别。
在另一种可能的实施方式中,计算机设备通过各个可见类别的概率模型获取上述判别概率。可选地,计算机设备在获取上述特征向量之后,将该特征向量转换为语义向量,并基于该语义向量与各个可见类别的概率模型,获取上述判别概率。
步骤207,在判别概率属于第一取值范围的情况下,基于第一分类结果确定待识别信息的类别。
在本申请实施例中,计算机设备在获取上述判别概率之后,基于该判断概率确定获取上述待识别信息的类别的方式。在判别概率属于第一取值范围的情况下,基于上述第一分类结果确定待识别信息的类别。其中,上述第一取值范围是指用于指示待识别信息属于可见类别的判别概率的取值范围。
可选地,上述第一分类结果中包括待识别信息属于各个可见类别的概率。计算机设备在确定上述判别概率属于第一取值范围的情况下,将第一分类结果中的最大概率所对应的可见类别,确定为待识别信息的类别。
步骤208,在判别概率属于第二取值范围的情况下,基于第二分类结果确定待识别信息的类别。
在本申请实施例中,计算机设备在获取上述判别概率之后,基于该判断概率确定获取上述待识别信息的类别的方式。在判别概率属于第二取值范围的情况下,基于上述第二分类结果确定待识别信息的类别。其中,上述第二取值范围是指用于指示待识别信息属于不可见类别的判别概率的取值范围。
可选地,上述第二分类结果中包括待识别信息属于各个类别的概率。其中,该类别包括各个可见类别和各个不可见类别。计算机设备在确定上述判别概率属于第二取值范围的情况下,将第二分类结果中的最大概率所对应的不可见类别,确定为待识别信息的类别。
综上所述,本申请实施例提供的技术方案中,通过特征向量对应的语义向量判断待识别信息属于可见类别还是不可见类别,进一步地,在待识别信息属于可见类别时,确定能够直接根据特征向量对待识别信息进行分类,进而从第一分类结果中确定待识别信息的类别,在待识别信息属于不可见类别时,确定无法直接根据特征向量对待识别信息进行分类,需要借助特征向量对应的语义向量对待识别信息进行分类,进而从第二分类结果中确定待识别信息的类别,在有效地提高待识别信息的识别能力的同时,能够保证针对待识别信息的类别识别的准确性。
上文是针对信息分类方法的详细介绍,然而,在实际运用中,可以采用信息分类模型识别待识别性的类别,即上述类别可以由信息分类模型得到。其中,该信息分类模型包括输入层、特征提取层、增量分类器、零样本分类器、极值分析器和输出层。
上述输入层用于获取输入的待识别信息。可选地,该待识别信息可以是由用户主动输入至输入层的,也可以是计算机设备从网络环境或周围环境中获取并输入至输入层的。其中,该待识别信息可以是文字信息、图像信息或语音信息等,本申请实施例对此不作限定。
上述特征提取层用于对待识别信息进行特征提取处理,得到待识别信息的特征向量。其中,不同类型的待识别信息对应的特征提取方式不同,例如,对于文字信息,通过关键字提取获取特征信息;对于图像信息,通过关键点提取获取特征信息。
上述增量分类器用于采用增量分类方式基于特征向量对待识别信息进行分类处理,得到待识别信息的第一分类结果。其中,增量分类方式是针对属于可见类别的待识别信息的分类方式,第一分类结果中可以包括待识别信息属于各个可见类别的概率。
上述零样本分类器用于采用零样本分类方式基于特征向量对待识别信息进行分类处理,得到待识别信息的第二分类结果。其中,零样本分类方式是针对属于不可见类别的待识别信息的分类方式,第二分类结果中可以包括待识别信息属于各个类别的概率,该类别中包括不可见类别和可见类别。
上述极值分析器用于基于特征向量对应的语义向量,确定待识别信息对应的判别概率,并基于判别概率从第一分类结果和第二分类结果中确定待识别信息的类别。其中,语义向量用于从语义角度表征待识别信息的类别,判别概率用于指示待识别信息的类别为不可见类别的概率。可选地,在判别概率属于第一取值范围的情况下,极值分析器确定从第一分类结果中获取待识别信息的类别;在判别概率属于第二取值范围的情况下,极值分析器确定从第二分类结果中获取待识别信息的类别。上述第一取值范围上限值小于或等于第二取值范围的下限值。
上述输出层用于输出上述待识别信息的类别。
示例性地,结合参考图4,以待识别信息为待识别图像为例,信息分类模型40通过输入层41获取待识别图像,并根据特征提取层42获取待识别图像的特征向量。其中,特征提取层42中可以包括Resnet-101、RPN(Region Proposal Network,区域生成网络)、ROIPooling和链路层FCs。可选地,特征提取层42获取上述待识别图像之后,根据Resnet-101获取该待识别图像的特征图,进一步地,根据RPN,基于特征图,获取待识别图像至少一个待识别目标的图像框,进而根据ROI Pooling对该至少一个待识别目标的图像框中的图像进行调整,使得每个待识别目标的图像尺寸相同,之后,根据FCs,获取待识别目标的特征向量,即待识别图像的特征向量。进一步地,将待识别图像的特征向量分别输入至增量分类器43和零样本分类器44中。之后,极值分类器45获取零样本分类器44获取的特征向量对应的语义向量,并基于该语义向量获取待识别图像的判别概率。在该判别概率属于第一取值范围的情况下,从增量分类器43输出的第一分类结果中确定待识别图像的类别;在判别概率属于第二取值范围的情况下,从零样本分类器44输出的第二分类结果中确定待识别图像的类别。其中,第二分类结果是零样本分类器通过语义向量和语义嵌入块获取的结果,该语义嵌入块中包括用于指示各个类别的标签向量。最后,输出层46输出该待识别图像的类别。
当然,在实际运用中,上述信息分类模型中还可以包括位置检测器,该位置检测器用于确定待识别目标在待识别信息中的位置,如待识别目标在待识别图像中的位置、关键字在待识别文本中的位置。示例性地,如图4所示,在获取上述特征向量之后,向位置检测器47输入该特征向量,进而获取位置检测器47输出的待识别目标的图像框属性,如图像框的位置坐标、长度和宽度。之后,该图像框属性与上述类别共同由输出层46输出。
请参考图5,其示出了本申请一个实施例提供的信息分类模型的训练方法的流程图。该方法可以包括以下几个步骤(501~503):
步骤501,获取原有的信息分类模型。
原有的信息分类模型是采用第一训练样本集训练得到的模型,原有的信息分类模型中包括增量分类器和零样本分类器,原有的信息分类模型中的增量分类器用于对第一训练样本集对应的可见类别进行识别,原有的信息分类模型中的零样本分类器用于对第一训练样本集对应的不可见类别进行识别。其中,上述第一训练样本集对应的可见类别可以为第一训练样本集对应的样本类别,上述第一训练样本集对应的不可见类别可以为除第一训练样本集对应的样本类别之外的其它类别。
在本申请实施例中,为了提高信息分类模型的识别能力,计算机设备可以获取原有的信息分类模型,并使用不同类别的训练样本集对信息分类模型进行增量训练。
其中,上述原有的信息分类模型为通过第一训练样本获取的信息分类模型。可选地,上述步骤501包括以下几个步骤:
1、基于第一训练样本集,获取原有的信息分类模型中的增量分类器输出的类别,以及原有的信息分类模型中的零样本分类器输出的语义向量。
在本申请实施例中,计算机设备在获取第一训练样本集之后,将该第一训练集中的训练样本输入至原有的信息分类模型中,并获取该原有的信息分类模型中的增量分类器输出的类别,以及原有的信息分类模型中的零样本分类器输出的语义向量。其中,上述第一训练样本集中的各个训练样本对应有类别标注,该类别标注用于指示训练样本的实际类别。
2、根据类别、语义向量,以及第一训练样本集的类别标注,确定原有的信息分类模型的损失函数。
在本申请实施例中,计算机设备在获取上述类别和语义向量之后,根据类别、语义向量和第一训练样本集的类别标志,确定原有的信息分类模型的损失函数。
3、基于语义向量中的有效向量和无效向量,确定原有的信息分类模型的特征损失函数。
有效向量是指待识别目标的语义向量。无效向量是指非待识别目标的语义向量,例如,图像信息中的背景对应的语义向量。特征损失函数用于指示原有的信息分类模型中特征提取的准确度,即原有的信息分类模型中特征提取层的准确率。
在本申请实施例中,为了保证特征提取的准确度,可以采用计算机设备在获取上述语义向量之后,基于该语义向量中的有效向量和无效向量,确定原有的信息分类模型的特征损失函数。示例性地,特征损失函数Lt的公式如下:
其中,和/>分别用于指示待识别信息中包含背景信息(无效信息)和待识别目标,Nbg表示无效向量的数量,Nobj表示有效向量的数量,yi是待识别信息的真实标签,α是超参数,可以设置为5,si是指零样本分类器输出的语义向量,E0是指背景信息对应的标签向量,/>是指各个类别的信息对应的标签向量。
4、响应于原有的信息分类模型的损失函数与特征损失函数收敛,确定原有的信息分类模型训练完成。
在本申请实施例中,计算机设备在采用第一训练样本集对原有的信息分类模型进行训练的过程中,基于上述特征损失函数和损失函数对原有的信息分类模型的参数进行调整,在原有的信息分类模型的损失函数与特征损失函数收敛时,确定该原有的信息分类模型训练完成。
步骤502,生成更新的信息分类模型。
更新的信息分类模型与上述原有的信息分类模型相同。在本申请实施例中,计算机设备对信息分类模型进行增量训练时,可以在获取上述原有的信息分类模型之后,生成与该原有的信息分类模型相同的更新的信息分类模型。可选地,计算机设备可以将原有的信息分类模型的模型参数进行复制,进而生成更新的信息分类模型。
步骤503,采用第二训练样本集对更新的信息分类模型进行训练。
在本申请实施例中,计算机设备在获取原有的信息分类模型之后,获取第二训练样本集,并采用第二训练样本集对更新的信息分类模型进行训练。其中,第二训练样本集对应的样本类别和第一训练样本集对应的样本类别不同。其中,更新的信息分类模型中的增量分类器用于对第一训练样本集和第二训练样本集对应的可见类别进行识别,更新的信息分类模型中的零样本分类器用于对第一训练样本集和第二训练样本集对应的不可见类别进行识别。
需要说明的一点是,在更新的信息分类模型训练完成后,计算机设备可以删除上述原有的信息分类模型,并将更新的信息分类模型作为下次增量学习对应的原有的信息分类模型。
综上所述,本申请实施例提供的技术方案中,通过增量学习使得信息分类模型能够识别的类别数量增多,提高信息分类模型的识别能力,在增量学习的过程中,只需要采用第二训练样本集对信息分类模型进行训练,训练数据简便,减少模型训练过程中的处理开销;而且,信息分类模型中包括能够识别不可见类别的零样本分类器,保证信息分类模型能够对各种信息进行类别识别。
下面,对更新的信息分类模型的训练过程进行具体介绍。
在示例性实施例中,上述步骤503包括以下几个步骤:
1、基于第二训练样本集,获取更新的信息分类模型的第一损失函数。
第一损失函数用于衡量更新的信息分类模型针对第二训练样本集对应的样本类别的识别能力。
在本申请实施例中,计算机设备获取第二训练样本集之后,基于该第二训练样本集,获取更新的信息分类模型的第一损失函数。可选地,计算机设备在获取第一损失函数时,可以将第二训练样本集中的训练样本输入至上述更新的信息分类模型中,获取该更新的信息分类模型中增量分类器输出的类别,与第一训练样本集对用的类别标注进行计算,得到第一损失函数。示例性地,第一损失函数L1的公式如下:
其中,y表示第二训练样本集对应的类别标注,yn表示更新的信息分类模型中增量分类器输出的类别,CE表示交叉熵损失。
2、基于第二训练样本集、原有的信息分类模型和更新的信息分类模型,确定更新的信息分类模型的第二损失函数。
第二损失函数用于衡量更新的信息分类模型针对第一训练样本集对应的样本类别的识别能力。
在本申请实施例中,计算机设备在获取第二训练样本集之后,基于第二训练样本集、原有的信息分类模型和更新的信息分类模型,确定更新的信息分类模型的第二损失函数。
可选地,第二损失函数中包括更新的信息分类模型中的特征提取层的损失函数、更新的信息分类模型中的零样本分类器的损失函数,以及更新的信息分类模型中的增量分类器的损失函数。计算机设备可以将第二训练样本集分别输入至更新的信息分类模型和原有的信息分类模型,获取更新的信息分类模型中的特征提取层的损失函数,以及更新的信息分类模型中的零样本分类器的损失函数;进一步地,将第二训练样本集输入至更新的信息分类模型,获取更新的信息分类模型中的增量分类器的损失函数。
示例性地,更新的信息分类模型中的特征提取层的损失函数Lfd为:
其中,|f(x;Θo)|表示原有的信息分类模型对应的特征向量,|f(x;Θn)|表示新的信息分类模型对应的特征向量,x表示输入的训练样本,Θ表示网络结构的权重,||·||F表示Frobenius范数;
更新的信息分类模型中的零样本分类器的损失函数Lpd为:
其中,so表示原有的信息分类模型对应的语义向量,sn表示更新的信息分类模型对应的语义向量;
更新的信息分类模型中的增量分类器的损失函数Lcls为:
其中,表示更新的信息分类模型针对第一训练样本集的样本类别的预估输出,/>表示更新的信息分类模型在第二训练样本集上的输出,T是温度标量,CE表示交叉熵损失。
示例性地,结合参考图6,在信息分类模型的增量训练时,基于原有的信息分类模型61生成更新的信息分类模型62,并在针对更新的信息分类模型62的训练过程中,采用损失函数Lfd对特征提取层进行约束,采用损失函数Lpd对零样本分类器进行约束,采用损失函数Lcls对增量分类器进行约束。另外,更新的信息分类模型62与原有的信息分类模型61相比,增加了针对第二训练样本集对应的样本类别的输出节点。
3、基于第一训练样本集对应的样本类别的数量和第二训练样本集对应的样本类比的数量,确定更新的信息分类模型的函数权重。
函数权重用于指示第一损失函数与第二损失函数在更新的信息分类模型的总体损失函数中所占的权重。
在本申请实施例中,为了保证更新的信息分类模型在训练后能够同时识别第一训练样本集对应的样本类别,以及第二训练样本集对应的样本类别,计算机设备可以基于第一训练样本集对应的样本类别的数量和第二训练样本集对应的样本类别的数量,确定更新的信息分类模型的函数权重。可选地,若第一训练样本集对应的样本类别的数量大于第二训练样本集对应的样本类别的数量,则更新的信息分类模型中的零样本分类器的损失函数与更新的信息分类模型中的增量分类器的损失函数对应的函数权重较大,第一损失函数对应的函数权重较小;若第一训练样本集对应的样本类别的数量小于第二训练样本集对应的样本类别的数量,则更新的信息分类模型中的零样本分类器的损失函数与更新的信息分类模型中的增量分类器的损失函数对应的函数权重较小,第一损失函数对应的函数权重较大。
4、根据第一损失函数、第二损失函数和函数权重,确定更新的信息分类模型的总体损失函数。
在本申请实施例中,计算机设备在获取上述第一损失函数、第二损失函数和函数权重之后,根据第一损失函数、第二损失函数和函数权重,确定更新的信息分类模型的总体损失函数。
示例性地,更新的信息分类模型的总体损失函数Lz为:
其中,NO、NN和NC分别表示第一训练样本集对应的样本类别的数量、第二训练样本集对应的样本类别的数量、所有类别的数量。γ是超参数,可以设为2。
需要说明的一点是,上述各个损失函数的获取时间没有前后顺序之分,即在将第二训练样本集输入至原有的信息分类模型和更新的信息分类模型之后,即可获取上述各个损失函数,不需要将第二训练样本集分步骤输入。
5、响应于总体损失函数收敛,确定更新的信息分类模型训练完成。
在本申请实施例中,计算机设备在获取上述整体损失函数之后,根据该总体损失函数对更新的信息分类模型的模型参数进行调整,在总体损失函数收敛时,确定更新的信息分类模型训练完成。
需要说明的一点是,上述关于增量学习的介绍是在训练过程中的,在实际运用中,计算机设备也可以对信息分类模型进行增量学习,例如,计算机设备在检测到属于不可见类别的待识别信息的分类过程之后,获取该不可见类别对应的训练样本集,并基于该训练样本集对信息分类模型进行训练,使得信息分类模型在下次获取对应类别的待识别信息之后,能够直接根据特征向量对该待识别信息进行分类。
上文是以待识别信息的角度对信息分类模型的介绍,下面,以待识别信息为图像的角度对信息分类模型的具体使用过程进行介绍。具体如下:
步骤701,获取待识别图像。
待识别图像是指未知类别的图像,即未分类的图像。在本申请实施例中,计算机设备可以从网络环境或周围环境中获取待识别图像。可选地,不同领域对应的待识别图像不同。例如,在人工智能领域中,该待识别图像可以是智能机器人周围环境中的图像,计算机设备在获取该待识别图像之后,可以对该待识别图像进行分类,确定待识别图像中待识别目标的类别,进而确定智能机器人的后续动作,如主动避障、打招呼或提供服务等。再例如,在自动驾驶领域中,该待识别图像可以是行驶状态的车辆周围环境中的图像,计算机设备在获取该待识别图像之后,可以对该待识别图像进行分类,确定待识别图像中待识别目标的类别,进而确定车辆的后续行驶路线,如在斑马线附近自动减速行驶、主动避让行人和动物、绕开突然发生故障的道路等。还例如,在医疗领域中,该待识别图像可以是从网络环境中获取的病症图像,计算机设备在获取该待识别图像之后,可以对该待识别图像进行分类,确定待识别图像所指示的病症类别,进而将待识别图像进行分类存储,便于该待识别图像后续在医疗教育等方面的使用。
步骤702,对待识别图像进行特征提取处理,得到待识别图像的特征向量。
在本申请实施例中,计算机设备在获取上述待识别图像之后,对该待识别图像进行图像处理,得到待识别图像的特征向量。可选地,计算机设备可以通过针对待识别图像的边缘轮廓处理、特征点提取等图像处理方式,获取该待识别图像的特征点,获取待识别图像的特征向量。
步骤703,基于特征向量对待识别图像进行分类处理,得到待识别图像的第一分类结果。
第一分类结果中包括待识别图像属于各个可见类别的概率,可见类别是指进行过机器学习的类别,如训练样本集对应的样本类别。
在本申请实施例中,计算机设备在获取上述特征向量之后,基于该特征向量对待识别图像进行分类处理,得到待识别图像的第一分类结构。
可选地,计算机设备可以通过增量分类器来获取上述第一分类结果。其中,上述增量分类器是通过增量学习训练得到的分类器。计算机设备在获取上述特征向量之后,将该特征向量输入至增量分类器,进而通过增量分类器对特征向量进行处理,输出待识别图像的第一分类结果。
步骤704,基于特征向量转换得到的语义向量对待识别图像进行分类处理,得到待识别图像的第二分类结果。
第二分类结果中包括上述待识别图像属于各个类别的概率,该类别中包括可见类别和不可见类别,不可见类别是指未进行过机器学习的类别。
在本申请实施例中,计算机设备在获取上述特征向量之后,对该特征向量进行转换处理,得到语义向量。其中,该语义向量用于从语义角度对待识别图像的特征进行描述,即语义向量用于从语义角度表征待识别图像的类别。进一步地,计算机设备基于特征向量转换得到的语义向量对待识别图像进行分类处理,得到待识别图像的第二分类结果。
可选地,计算机设备可以通过零样本分类器来获取上述第二分类结果。其中,零样本分类器是依据各个不可见类别的标签向量进行分类的分类器。可选地,计算机设备将特征向量对应的语义向量输入至零样本分类器,通过零样本分类器获取语义向量与各个不可见类别的标签向量之间的相似度,得到上述第二分类结果。进一步地,零样本分类器在获取上述语义向量之后,确定该语义向量与各个类别的标签向量之间的相似度,并根据该相似度确定待识别图像属于各个类别的概率,进而得到上述第二分类结果。其中,上述概率与相似度呈正比,即若语义向量与某个标签向量之间的相似度大,则待识别图像属于该标签向量所指示的类别的概率大。
步骤705,基于特征向量对应的语义向量确定待识别图像对应的判别概率。
判别概率用于指示待识别图像的类别为不可见类别的概率,该属于该不可见类别的待识别图像无法通过特征向量直接获取准确的类别,即上述增量分类器不适用于该不可见类别对应的待识别图像。
在本申请实施例中,计算机设备在获取上述特征向量对应的语义特征之后,基于该语义特征确定待识别图像对应的判别概率。
可选地,计算机设备通过极值分析器获取上述判别概率其中,该极值分析器中包括各个可见类别的概率模型,该概率模型用于基于语义特征判断上述待识别图像不属于各个可见类别的概率。计算机设备在获取上述语义特征之后,将该语义特征输入至极值分析器,进一步地,极值分析器基于该语义特征和各个概率模型,输出待识别图像的判别概率。
可选地,计算机设备在获取上述判别概率之后,基于该判别概率确定待识别图像的类别。若判别概率属于第一取值范围的情况下,则确定待识别图像属于可见类别,基于上述第一分类结果确定待识别图像的类别;若判别概率属于第二取值范围的情况下,则确定待识别图像属于不可见类别,基于第二分类结果确定待识别图像的类别。
需要说明的一点是,在本申请实施例中,上述信息分类模型中还可以包括用于检测待识别目标在待识别图像中位置的位置检测器。可选地,计算机设备在获取上述特征向量之后,将该特征向量输入至位置检测器,进而通过位置检测器输出待识别目标在待识别图像中的位置信息,该位置信息中可以包括包含待识别目标的图像框的参数(图像框在图像信息中的位置坐标、图像框的长度和宽度等)。在这种情况下,信息分类模型能够在对待识别图像进行分类的同时,确定待识别目标在待识别图像中的位置,提高了信息分类模型在实际运用中的作用。例如,在人工智能领域中,智能机器人确定待识别图像中待识别目标的类别的位置之后,可以主动针对不同的待识别目标执行不同的动作,如主动避开位于某个位置的障碍物、主动向距离小于阈值的行人打招呼或主动为处于特殊位置的用户提供服务等。再例如,在自动驾驶领域中,车载终端在确定待识别图像中待识别目标的类别之后,可以主动针对不同的待识别目标执行不同的操作,如在斑马线附近自动减速行驶、主动避让行人和动物、绕开突然发生故障的道路等。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图7,其示出了本申请一个实施例提供的信息分类装置的框图。该装置具有实现上述信息分类方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置计算机设备中。该装置700可以包括:信息获取模块710、特征获取模块720、第一获取模块730、第二获取模块740和类别确定模块750。
信息获取模块710,用于获取待识别信息。
特征获取模块720,用于对所述待识别信息进行特征提取处理,得到所述待识别信息的特征向量。
第一获取模块730,用于基于所述特征向量对所述待识别信息进行分类处理,得到所述待识别信息的第一分类结果,所述第一分类结果中包括所述待识别信息属于各个可见类别的概率。
第二获取模块740,用于基于所述特征向量转换得到的语义向量对所述待识别信息进行分类处理,得到所述待识别信息的第二分类结果,所述第二分类结果中包括所述待识别信息属于各个不可见类别的概率。
类别确定模块750,用于从所述第一分类结果和所述第二分类结果中确定所述待识别信息的类别。
在示例性实施例中,如图8所示,所述类别确定模块750,包括:语义获取单元751、概率确定单元752和类别确定单元753。
语义获取单元751,用于对所述特征向量进行向量转换处理,得到所述特征向量对应的语义向量,所述语义向量用于从语义角度表征所述待识别信息的类别。
概率确定单元752,用于基于所述语义向量确定所述待识别信息对应的判别概率,所述判别概率用于指示所述待识别信息的类别为不可见类别的概率。
类别确定单元753,用于在所述判别概率属于第一取值范围的情况下,基于所述第一分类结果确定所述待识别信息的类别;或者,在所述判别概率属于第二取值范围的情况下,基于所述第二分类结果确定所述待识别信息的类别。
在示例性实施例中,所述类别确定单元753,用于将所述第一分类结果中的最大概率所对应的可见类别,确定为所述待识别信息的类别;或者,将所述第二分类结果中的最大概率所对应的不可见类别,确定为所述待识别信息的类别。
在示例性实施例中,所述第一获取模块730,用于将所述特征向量输入至增量分类器,通过所述增量分类器对所述特征向量进行处理,输出所述待识别信息的第一分类结果;其中,所述增量分类器是通过增量学习训练得到的分类器。
在示例性实施例中,所述第二获取模块740,用于将所述特征向量对应的语义向量输入至零样本分类器,通过所述零样本分类器获取所述语义向量与各个不可见类别的标签向量之间的相似度,得到所述第二分类结果;其中,所述语义向量用于从语义角度表征所述待识别信息的类别;其中,所述零样本分类器是依据所述各个不可见类别的标签向量进行分类的分类器。
在示例性实施例中,所述待识别信息中包括至少一个待识别目标;如图8所示,所述特征获取模块720,包括:特征获取单元721、目标获取单元722和向量获取单元723。
特征获取单元721,用于对所述待识别信息进行特征提取处理,得到候选特征信息;其中,所述候选特征信息对应有概率信息,所述概率信息用于指示所述候选特征信息中包括所述待识别目标的概率。
目标获取单元722,用于将所述概率信息大于目标值的候选特征信息,确定为目标特征信息。
向量获取单元723,用于将所述目标特征信息转换为向量,得到所述特征向量。
在示例性实施例中,所述待识别信息的类别由信息分类模型得到,所述信息分类模型包括输入层、特征提取层、增量分类器、零样本分类器、极值分析器和输出层;其中,所述输入层用于获取输入的所述待识别信息;所述特征提取层用于对所述待识别信息进行特征提取处理,得到所述待识别信息的特征向量;所述增量分类器用于采用所述增量分类方式基于所述特征向量对所述待识别信息进行分类处理,得到所述待识别信息的第一分类结果;所述零样本分类器用于采用所述零样本分类方式基于所述特征向量对所述待识别信息进行分类处理,得到所述待识别信息的第二分类结果;所述极值分析器用于基于所述特征向量对应的语义向量,确定所述待识别信息对应的判别概率,并基于所述判别概率从所述第一分类结果和所述第二分类结果中确定所述待识别信息的类别;其中,所述语义向量用于从语义角度表征所述待识别信息的类别,所述判别概率用于指示所述待识别信息的类别为不可见类别的概率;所述输出层用于输出所述待识别信息的类别。
综上所述,本申请实施例提供的技术方案中,通过零样本分类方式对待识别信息进行分类,使得在待识别信息为未见过的数据类别时依旧能够对待识别信息进行分类,提高了针对各种信息的识别能力;通过增量分类方式对待识别信息进行分类,增量学习能够有效地解决可识别的待识别信息种类少的问题,不断地增量学习在增加可识别的待识别信息的类别数量的同时,在使用过程中能够保证待识别信息的分类的准确率;根据第一分类结果和第二分类结果确定待识别信息的类别,且第一分类结果为通过增量分类方式获取的分类结果,第二分类结果为通过零样本分类方式获取的分类结果,一方面,增量学习有效增加了可识别的类别数量,另一方面,针对增量分类不可识别的数据类别能够通过零样本分类方式进行分类,提高了针对各种类别的识别能力。
请参考图9,其示出了本申请一个实施例提供的信息分类模型的训练装置的框图。该装置具有实现上述信息分类模型的训练方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置计算机设备中。该装置900可以包括:模型获取模块910、模型生成模块920和模型训练模块930。
模型获取模块910,用于获取原有的信息分类模型;其中,所述原有的信息分类模型是采用第一训练样本集训练得到的模型,所述原有的信息分类模型中包括增量分类器和零样本分类器,所述原有的信息分类模型中的所述增量分类器用于对所述第一训练样本集对应的可见类别进行识别,所述原有的信息分类模型中的所述零样本分类器用于对所述第一训练样本集对应的不可见类别进行识别。
模型生成模块920,用于生成更新的信息分类模型,所述更新的信息分类模型与所述原有的信息分类模型相同。
模型训练模块930,用于采用第二训练样本集对所述更新的信息分类模型进行训练,所述第二训练样本集对应的样本类别和所述第一训练样本集对应的样本类别不同;其中,所述更新的信息分类模型中的所述增量分类器用于对所述第一训练样本集和所述第二训练样本集对应的可见类别进行识别,所述更新的信息分类模型中的所述零样本分类器用于对所述第一训练样本集和所述第二训练样本集对应的不可见类别进行识别。
在示例性实施例中,如图10所示,所述模型训练模块930,包括:第一获取单元931、第二获取单元932、权重获取单元933、函数获取单元934和模型训练单元935。
第一获取单元931,用于基于所述第二训练样本集,获取所述更新的信息分类模型的第一损失函数;其中,所述第一损失函数用于衡量所述更新的信息分类模型针对所述第二训练样本集对应的样本类别的识别能力。
第二获取单元932,用于基于所述第二训练样本集、所述原有的信息分类模型和所述更新的信息分类模型,确定所述更新的信息分类模型的第二损失函数;其中,所述第二损失函数用于衡量所述更新的信息分类模型针对所述第一训练样本集对应的样本类别的识别能力。
权重获取单元933,用于基于所述第一训练样本集对应的样本类别的数量和所述第二训练样本集对应的样本类别的数量,确定所述更新的信息分类模型的函数权重,所述函数权重用于指示所述第一损失函数与所述第二损失函数在所述更新的信息分类模型的总体损失函数中所占的权重。
函数获取单元934,用于根据所述第一损失函数、所述第二损失函数和所述函数权重,确定所述更新的信息分类模型的总体损失函数。
模型训练单元935,用于响应于所述总体损失函数收敛,确定所述更新的信息分类模型训练完成。
在示例性实施例中,所述第二损失函数中包括所述更新的信息分类模型中的特征提取层的损失函数、所述更新的信息分类模型中的零样本分类器的损失函数,以及所述更新的信息分类模型中的增量分类器的损失函数。所述第二获取单元932,用于将所述第二训练样本集分别输入至所述更新的信息分类模型和所述原有的信息分类模型,获取所述更新的信息分类模型中的特征提取层的损失函数,以及所述更新的信息分类模型中的零样本分类器的损失函数;将所述第一训练样本集和所述第二训练样本集分别输入至所述更新的信息分类模型,获取所述更新的信息分类模型中的增量分类器的损失函数。
在示例性实施例中,如图10所示,所述模型获取模块910,包括:输出获取单元911、损失获取单元912和模型获取单元913。
输出获取单元911,用于基于所述第一训练样本集,获取所述原有的信息分类模型中的增量分类器输出的类别,以及所述原有的信息分类模型中的零样本分类器输出的语义向量。
损失获取单元912,用于根据所述类别、所述语义向量,以及所述第一训练样本集的类别标注,确定所述原有的信息分类模型的损失函数;基于所述语义向量中的有效向量和无效向量,确定所述原有的信息分类模型的特征损失函数;其中,所述有效向量是指待识别目标的语义向量,所述无效向量是指非待识别目标的语义向量,所述特征损失函数用于指示所述原有的信息分类模型中特征提取的准确度。
模型获取单元913,用于响应于所述原有的信息分类模型的损失函数与所述特征损失函数收敛,确定所述原有的信息分类模型训练完成。
综上所述,本申请实施例提供的技术方案中,通过增量学习使得信息分类模型能够识别的类别数量增多,提高信息分类模型的识别能力,在增量学习的过程中,只需要采用第二训练样本集对信息分类模型进行训练,训练数据简便,减少模型训练过程中的处理开销;而且,信息分类模型中包括能够识别不可见类别的零样本分类器,保证信息分类模型能够对各种信息进行类别识别。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图11,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可用于实现上述信息分类方法或信息分类模型的训练方法的功能。具体来讲:
计算机设备1100包括中央处理单元(Central Processing Unit,CPU)1101、包括随机存取存储器(Random Access Memory,RAM)1102和只读存储器(Read Only Memory,ROM)1103的系统存储器1104,以及连接系统存储器1104和中央处理单元1101的系统总线1105。计算机设备1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)1106,和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。
基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。大容量存储设备1107及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说,大容量存储设备1107可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。
根据本申请的各种实施例,计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在系统总线1105上的网络接口单元1111连接到网络1112,或者说,也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述信息分类方法,或实现上述信息分类模型的训练方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述信息分类方法,或实现上述信息分类模型的训练方法。
可选地,该计算机可读存储介质可以包括:ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取记忆体)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述信息分类方法,或实现上述信息分类模型的训练方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (14)
1.一种信息分类方法,其特征在于,所述方法包括:
获取待识别信息,所述待识别信息为图像信息、文字信息或语音信息;
对所述待识别信息进行特征提取处理,得到所述待识别信息的特征向量;
利用信息分类模型中的增量分类器基于所述特征向量对所述待识别信息进行分类处理,得到所述待识别信息的第一分类结果,所述第一分类结果中包括所述待识别信息属于各个可见类别的概率,所述信息分类模型是利用第二训练样本集对原有的信息分类模型训练得到的;
基于所述特征向量转换得到的语义向量对所述待识别信息进行分类处理,得到所述待识别信息的第二分类结果,所述第二分类结果中包括所述待识别信息属于各个不可见类别的概率;
从所述第一分类结果和所述第二分类结果中确定所述待识别信息的类别;
其中,所述原有的信息分类模型的训练过程,包括:
基于第一训练样本集,获取所述原有的信息分类模型中的增量分类器输出的类别,以及所述原有的信息分类模型中的零样本分类器输出的语义向量;
根据所述类别、所述语义向量,以及所述第一训练样本集的类别标注,确定所述原有的信息分类模型的损失函数;
基于所述语义向量中的有效向量和无效向量,确定所述原有的信息分类模型的特征损失函数;其中,所述有效向量是指待识别目标的语义向量,所述无效向量是指非待识别目标的语义向量,所述特征损失函数用于指示所述原有的信息分类模型中特征提取的准确度;
响应于所述原有的信息分类模型的损失函数与所述特征损失函数收敛,确定所述原有的信息分类模型训练完成。
2.根据权利要求1所述的方法,其特征在于,所述从所述第一分类结果和所述第二分类结果中确定所述待识别信息的类别,包括:
对所述特征向量进行向量转换处理,得到所述特征向量对应的语义向量,所述语义向量用于从语义角度表征所述待识别信息的类别;
基于所述语义向量确定所述待识别信息对应的判别概率,所述判别概率用于指示所述待识别信息的类别为不可见类别的概率;
在所述判别概率属于第一取值范围的情况下,基于所述第一分类结果确定所述待识别信息的类别;
在所述判别概率属于第二取值范围的情况下,基于所述第二分类结果确定所述待识别信息的类别。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一分类结果确定所述待识别信息的类别,包括:
将所述第一分类结果中的最大概率所对应的可见类别,确定为所述待识别信息的类别;
所述基于所述第二分类结果确定所述待识别信息的类别,包括:
将所述第二分类结果中的最大概率所对应的不可见类别,确定为所述待识别信息的类别。
4.根据权利要求1所述的方法,其特征在于,所述基于所述特征向量对所述待识别信息进行分类处理,得到所述待识别信息的第一分类结果,包括:
将所述特征向量输入至增量分类器,通过所述增量分类器对所述特征向量进行处理,输出所述待识别信息的第一分类结果;
其中,所述增量分类器是通过增量学习训练得到的分类器。
5.根据权利要求1所述的方法,其特征在于,所述基于所述特征向量转换得到的语义向量对所述待识别信息进行分类处理,得到所述待识别信息的第二分类结果,包括:
将所述特征向量对应的语义向量输入至零样本分类器,通过所述零样本分类器获取所述语义向量与各个不可见类别的标签向量之间的相似度,得到所述第二分类结果;其中,所述语义向量用于从语义角度表征所述待识别信息的类别;
其中,所述零样本分类器是依据所述各个不可见类别的标签向量进行分类的分类器。
6.根据权利要求1所述的方法,其特征在于,所述待识别信息中包括至少一个待识别目标;
所述对所述待识别信息进行特征提取处理,得到所述待识别信息的特征向量,包括:
对所述待识别信息进行特征提取处理,得到候选特征信息;其中,所述候选特征信息对应有概率信息,所述概率信息用于指示所述候选特征信息中包括所述待识别目标的概率;
将所述概率信息大于目标值的候选特征信息,确定为目标特征信息;
将所述目标特征信息转换为向量,得到所述特征向量。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述待识别信息的类别由信息分类模型得到,所述信息分类模型包括输入层、特征提取层、增量分类器、零样本分类器、极值分析器和输出层;其中,
所述输入层用于获取输入的所述待识别信息;
所述特征提取层用于对所述待识别信息进行特征提取处理,得到所述待识别信息的特征向量;
所述增量分类器用于采用增量分类方式基于所述特征向量对所述待识别信息进行分类处理,得到所述待识别信息的第一分类结果;
所述零样本分类器用于采用零样本分类方式基于所述特征向量对所述待识别信息进行分类处理,得到所述待识别信息的第二分类结果;
所述极值分析器用于基于所述特征向量对应的语义向量,确定所述待识别信息对应的判别概率,并基于所述判别概率从所述第一分类结果和所述第二分类结果中确定所述待识别信息的类别;其中,所述语义向量用于从语义角度表征所述待识别信息的类别,所述判别概率用于指示所述待识别信息的类别为不可见类别的概率;
所述输出层用于输出所述待识别信息的类别。
8.一种信息分类模型的训练方法,其特征在于,所述方法包括:
获取原有的信息分类模型;其中,所述原有的信息分类模型是采用第一训练样本集训练得到的模型,所述原有的信息分类模型中包括增量分类器和零样本分类器,所述原有的信息分类模型中的所述增量分类器用于对所述第一训练样本集对应的可见类别进行识别,所述原有的信息分类模型中的所述零样本分类器用于对所述第一训练样本集对应的不可见类别进行识别;
生成更新的信息分类模型,所述更新的信息分类模型与所述原有的信息分类模型相同;
采用第二训练样本集对所述更新的信息分类模型进行训练,所述第一训练样本集和所述第二训练样本集分别为图像信息、文字信息或语音信息,且所述第二训练样本集对应的样本类别和所述第一训练样本集对应的样本类别不同;
其中,所述更新的信息分类模型中的所述增量分类器用于对所述第一训练样本集和所述第二训练样本集对应的可见类别进行识别,所述更新的信息分类模型中的所述零样本分类器用于对所述第一训练样本集和所述第二训练样本集对应的不可见类别进行识别;
其中,所述获取原有的信息分类模型,包括:
基于所述第一训练样本集,获取所述原有的信息分类模型中的增量分类器输出的类别,以及所述原有的信息分类模型中的零样本分类器输出的语义向量;
根据所述类别、所述语义向量,以及所述第一训练样本集的类别标注,确定所述原有的信息分类模型的损失函数;
基于所述语义向量中的有效向量和无效向量,确定所述原有的信息分类模型的特征损失函数;其中,所述有效向量是指待识别目标的语义向量,所述无效向量是指非待识别目标的语义向量,所述特征损失函数用于指示所述原有的信息分类模型中特征提取的准确度;
响应于所述原有的信息分类模型的损失函数与所述特征损失函数收敛,确定所述原有的信息分类模型训练完成。
9.根据权利要求8所述的方法,其特征在于,所述采用第二训练样本集对所述更新的信息分类模型进行训练,包括:
基于所述第二训练样本集,获取所述更新的信息分类模型的第一损失函数;其中,所述第一损失函数用于衡量所述更新的信息分类模型针对所述第二训练样本集对应的样本类别的识别能力;
基于所述第二训练样本集、所述原有的信息分类模型和所述更新的信息分类模型,确定所述更新的信息分类模型的第二损失函数;其中,所述第二损失函数用于衡量所述更新的信息分类模型针对所述第一训练样本集对应的样本类别的识别能力;
基于所述第一训练样本集对应的样本类别的数量和所述第二训练样本集对应的样本类别的数量,确定所述更新的信息分类模型的函数权重,所述函数权重用于指示所述第一损失函数与所述第二损失函数在所述更新的信息分类模型的总体损失函数中所占的权重;
根据所述第一损失函数、所述第二损失函数和所述函数权重,确定所述更新的信息分类模型的总体损失函数;
响应于所述总体损失函数收敛,确定所述更新的信息分类模型训练完成。
10.根据权利要求9所述的方法,其特征在于,所述第二损失函数中包括所述更新的信息分类模型中的特征提取层的损失函数、所述更新的信息分类模型中的零样本分类器的损失函数,以及所述更新的信息分类模型中的增量分类器的损失函数;
所述基于所述第二训练样本集、所述原有的信息分类模型和所述更新的信息分类模型,确定所述更新的信息分类模型的第二损失函数,包括:
将所述第二训练样本集分别输入至所述更新的信息分类模型和所述原有的信息分类模型,获取所述更新的信息分类模型中的特征提取层的损失函数,以及所述更新的信息分类模型中的零样本分类器的损失函数;
将所述第二训练样本集输入至所述更新的信息分类模型,获取所述更新的信息分类模型中的增量分类器的损失函数。
11.一种信息分类装置,其特征在于,所述装置包括:
信息获取模块,用于获取待识别信息,所述待识别信息为图像信息、文字信息或语音信息;
特征获取模块,用于对所述待识别信息进行特征提取处理,得到所述待识别信息的特征向量;
第一获取模块,用于利用信息分类模型中的增量分类器基于所述特征向量对所述待识别信息进行分类处理,得到所述待识别信息的第一分类结果,所述第一分类结果中包括所述待识别信息属于各个可见类别的概率,所述信息分类模型是利用第二训练样本集对原有的信息分类模型训练得到的;
第二获取模块,用于基于所述特征向量转换得到的语义向量对所述待识别信息进行分类处理,得到所述待识别信息的第二分类结果,所述第二分类结果中包括所述待识别信息属于各个不可见类别的概率;
类别确定模块,用于从所述第一分类结果和所述第二分类结果中确定所述待识别信息的类别;
其中,所述第一获取模块,还用于:
基于第一训练样本集,获取所述原有的信息分类模型中的增量分类器输出的类别,以及所述原有的信息分类模型中的零样本分类器输出的语义向量;
根据所述类别、所述语义向量,以及所述第一训练样本集的类别标注,确定所述原有的信息分类模型的损失函数;
基于所述语义向量中的有效向量和无效向量,确定所述原有的信息分类模型的特征损失函数;其中,所述有效向量是指待识别目标的语义向量,所述无效向量是指非待识别目标的语义向量,所述特征损失函数用于指示所述原有的信息分类模型中特征提取的准确度;
响应于所述原有的信息分类模型的损失函数与所述特征损失函数收敛,确定所述原有的信息分类模型训练完成。
12.一种信息分类模型的训练装置,其特征在于,所述装置包括:
模型获取模块,用于获取原有的信息分类模型;其中,所述原有的信息分类模型是采用第一训练样本集训练得到的模型,所述原有的信息分类模型中包括增量分类器和零样本分类器,所述原有的信息分类模型中的所述增量分类器用于对所述第一训练样本集对应的可见类别进行识别,所述原有的信息分类模型中的所述零样本分类器用于对所述第一训练样本集对应的不可见类别进行识别;
模型生成模块,用于生成更新的信息分类模型,所述更新的信息分类模型与所述原有的信息分类模型相同;
模型训练模块,用于采用第二训练样本集对所述更新的信息分类模型进行训练,所述第一训练样本集和所述第二训练样本集分别为图像信息、文字信息或语音信息,且所述第二训练样本集对应的样本类别和所述第一训练样本集对应的样本类别不同;
其中,所述更新的信息分类模型中的所述增量分类器用于对所述第一训练样本集和所述第二训练样本集对应的可见类别进行识别,所述更新的信息分类模型中的所述零样本分类器用于对所述第一训练样本集和所述第二训练样本集对应的不可见类别进行识别;
其中,所述模型获取模块,包括:输出获取单元、损失获取单元和模型获取单元;
所述输出获取单元用于基于第一训练样本集,获取所述原有的信息分类模型中的增量分类器输出的类别,以及所述原有的信息分类模型中的零样本分类器输出的语义向量;
所述损失获取单元用于根据所述类别、所述语义向量,以及所述第一训练样本集的类别标注,确定所述原有的信息分类模型的损失函数;基于所述语义向量中的有效向量和无效向量,确定所述原有的信息分类模型的特征损失函数;其中,所述有效向量是指待识别目标的语义向量,所述无效向量是指非待识别目标的语义向量,所述特征损失函数用于指示所述原有的信息分类模型中特征提取的准确度;
所述模型获取单元用于响应于所述原有的信息分类模型的损失函数与所述特征损失函数收敛,确定所述原有的信息分类模型训练完成。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的信息分类方法,或实现如权利要求8至10任一项所述的信息分类模型的训练方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一项所述的信息分类方法,或实现如权利要求8至10任一项所述的信息分类模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011239261.0A CN112364912B (zh) | 2020-11-09 | 2020-11-09 | 信息分类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011239261.0A CN112364912B (zh) | 2020-11-09 | 2020-11-09 | 信息分类方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364912A CN112364912A (zh) | 2021-02-12 |
CN112364912B true CN112364912B (zh) | 2023-10-13 |
Family
ID=74509900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011239261.0A Active CN112364912B (zh) | 2020-11-09 | 2020-11-09 | 信息分类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364912B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966739B (zh) * | 2021-03-04 | 2024-06-25 | 南方科技大学 | 图像分类模型自学习的方法、装置、电子设备及存储介质 |
CN113642294B (zh) * | 2021-08-13 | 2023-08-04 | 百度在线网络技术(北京)有限公司 | 用于生成会议纪要的方法、装置、设备、介质和产品 |
CN114648980A (zh) * | 2022-03-03 | 2022-06-21 | 科大讯飞股份有限公司 | 数据分类和语音识别方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292349A (zh) * | 2017-07-24 | 2017-10-24 | 中国科学院自动化研究所 | 基于百科知识语义增强的零样本分类方法、装置 |
CN110309875A (zh) * | 2019-06-28 | 2019-10-08 | 哈尔滨工程大学 | 一种基于伪样本特征合成的零样本目标分类方法 |
CN111368893A (zh) * | 2020-02-27 | 2020-07-03 | Oppo广东移动通信有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN111461025A (zh) * | 2020-04-02 | 2020-07-28 | 同济大学 | 一种自主进化的零样本学习的信号识别方法 |
CN111563554A (zh) * | 2020-05-08 | 2020-08-21 | 河北工业大学 | 基于回归变分自编码器的零样本图像分类方法 |
CN111860674A (zh) * | 2020-07-28 | 2020-10-30 | 平安科技(深圳)有限公司 | 样本类别识别方法、装置、计算机设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11531876B2 (en) * | 2017-03-29 | 2022-12-20 | University Of Florida Research Foundation, Incorporated | Deep learning for characterizing unseen categories |
US11328221B2 (en) * | 2019-04-09 | 2022-05-10 | International Business Machines Corporation | Hybrid model for short text classification with imbalanced data |
-
2020
- 2020-11-09 CN CN202011239261.0A patent/CN112364912B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292349A (zh) * | 2017-07-24 | 2017-10-24 | 中国科学院自动化研究所 | 基于百科知识语义增强的零样本分类方法、装置 |
CN110309875A (zh) * | 2019-06-28 | 2019-10-08 | 哈尔滨工程大学 | 一种基于伪样本特征合成的零样本目标分类方法 |
CN111368893A (zh) * | 2020-02-27 | 2020-07-03 | Oppo广东移动通信有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN111461025A (zh) * | 2020-04-02 | 2020-07-28 | 同济大学 | 一种自主进化的零样本学习的信号识别方法 |
CN111563554A (zh) * | 2020-05-08 | 2020-08-21 | 河北工业大学 | 基于回归变分自编码器的零样本图像分类方法 |
CN111860674A (zh) * | 2020-07-28 | 2020-10-30 | 平安科技(深圳)有限公司 | 样本类别识别方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
零样本图像分类综述;刘婧祎;计算机科学与探索;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112364912A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797893B (zh) | 一种神经网络的训练方法、图像分类系统及相关设备 | |
CN111767405B (zh) | 文本分类模型的训练方法、装置、设备及存储介质 | |
CN112084331B (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN111783902B (zh) | 数据增广、业务处理方法、装置、计算机设备和存储介质 | |
CN112364912B (zh) | 信息分类方法、装置、设备及存储介质 | |
US12094247B2 (en) | Expression recognition method and related apparatus | |
CN110555481B (zh) | 一种人像风格识别方法、装置和计算机可读存储介质 | |
KR102548732B1 (ko) | 신경망 학습 방법 및 이를 적용한 장치 | |
CN112183577A (zh) | 一种半监督学习模型的训练方法、图像处理方法及设备 | |
CN111708873A (zh) | 智能问答方法、装置、计算机设备和存储介质 | |
CN110659723B (zh) | 基于人工智能的数据处理方法、装置、介质及电子设备 | |
US10937417B2 (en) | Systems and methods for automatically categorizing unstructured data and improving a machine learning-based dialogue system | |
CN112131883B (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN113039555A (zh) | 通过使用基于注意力的神经网络在视频剪辑中进行动作分类 | |
CN113807399A (zh) | 一种神经网络训练方法、检测方法以及装置 | |
CN111783903B (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
CN114298122B (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
CN113722474A (zh) | 文本分类方法、装置、设备及存储介质 | |
Ajagbe et al. | Investigating the efficiency of deep learning models in bioinspired object detection | |
KR20210081805A (ko) | 이종 도메인 데이터 간의 변환을 수행하는 gan의 학습 방법 및 장치 | |
CN113609233B (zh) | 一种实体对象编码方法、装置、电子设备和存储介质 | |
US20230020965A1 (en) | Method and apparatus for updating object recognition model | |
WO2023231753A1 (zh) | 一种神经网络的训练方法、数据的处理方法以及设备 | |
CN115131604A (zh) | 一种多标签图像分类方法、装置、电子设备及存储介质 | |
CN115063585A (zh) | 一种无监督语义分割模型的训练方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40038799 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |