CN114048802A - 分类方法、装置、设备及计算机存储介质 - Google Patents
分类方法、装置、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN114048802A CN114048802A CN202111264958.8A CN202111264958A CN114048802A CN 114048802 A CN114048802 A CN 114048802A CN 202111264958 A CN202111264958 A CN 202111264958A CN 114048802 A CN114048802 A CN 114048802A
- Authority
- CN
- China
- Prior art keywords
- preset
- recognized
- text
- labels
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种分类方法、装置、设备及计算机存储介质。本发明属于人工智能识别、人工智能语言和自然语言理解领域。通过将多个一级标签和二级标签输入到第一预设模型中,得到多个一级标签和二级标签对应的第一特征数组和第二特征数组,将待识别文本输入到第一预设模型中得到第三特征数组。然后通过计算第一特征数组和第二特征数组分别与第三特征数组的相似度来确定待识别文本对应的一级标签和二级标签。由此,通过训练模型对待识别文本进行标签的自动标注避免了接线员对待识别文本进行人工标注所造成的标注的标签不准确的问题。
Description
技术领域
本发明属于人工智能识别、人工智能语言和自然语言理解领域,尤其涉及一种分类方法、装置、设备及计算机存储介质。
背景技术
为了提高服务水平。不同的公司、平台和政务部门均设置了服务热线来获取用户的问题和反馈。在热线服务的过程中,接线员通常都是采用手动记录的方式来对用户的问题和反馈进行记录。为了便于记录,接线员通常会对用户的问题和反馈标注不同的标签,但是由于标签种类过多,接线员任务繁重的问题,致使对用户问题和反馈标注的标签不准确。
发明内容
本发明实施例提供一种分类方法、装置、设备及计算机存储介质,能够提高对用户问题和反馈标注标签的准确性。
第一方面,本发明实施例提供一种分类方法,方法包括:
将预设的多个一级标签和二级标签分别输入到第一预设模型,得到与一级标签对应的第一特征数组和与二级标签对应的第二特征数组;
将待识别文本输入到第一预设模型,得到第三特征数组;
基于预设算法对第一特征数组与第三特征数组进行运算,得到第一运算结果;第一运算结果表征待识别文本与多个一级标签的相似度;
基于预设算法对第二特征数组与第三特征数组进行运算,得到第二运算结果;第二运算结果表征待识别文本与多个二级标签的相似度;
基于待识别文本与多个一级标签和多个二级标签的相似度确定待识别文本对应的一级标签和二级标签。
作为一种可选地实施方式,在将预设的多个一级标签和二级标签分别输入到第一预设模型之前,方法还包括:
对第二预设模型进行多次训练,得到多次训练对应的第一训练结果;
根据评估函数对训练结果的准确度进行评估,获取多个评估结果中准确度最高的第一评估结果对应的目标训练结果;
将目标训练结果对应的训练后的第二预设模型确定为第一预设模型。
作为一种可选地实施方式,在对第二预设模型进行多次训练之前,方法还包括:
将训练样本输入第三预设模型,得到第二训练结果;
根据第二训练结果确定损失函数对应的损失函数值;
在损失函数不满足预设条件的情况下,根据预设策略对第三预设模型进行优化;
重复对第三预设模型的训练过程,直至损失函数值满足预设条件;将所述损失函数值满足所述预设条件的第三预设模型确定为第二预设模型。
作为一种可选地实施方式,损失函数包括:
其中,Ωneg为训练结果中训练样本对应一级标签和二级标签,Ωpos为训练结果中训练样本不对应的一级标签或二级标签,S为训练结果中一级标签或二级标签对应的数值,A为权重,K为标签的级别,L为损失函数值;权重包括根据训练次数确定的预设权重。
作为一种可选地实施方式,每个一级标签均对应至少一个二级标签。
作为一种可选地实施方式,基于预设算法对第一特征数组与第三特征数组进行运算,得到第一运算结果,具体包括:
将第一特征数组与第三特征数组进行点乘,得到点乘后的第四特征数组;将第四特征数组作为第一运算结果;
基于预设算法对第二特征数组与第三特征数组进行运算,得到第二运算结果,具体包括:
将第一特征数组与第三特征数组进行点乘,得到点乘后的第五特征数组;将第五特征数组作为第二运算结果。
作为一种可选地实施方式,基于第一运算结果与第二运算结果确定待识别文本对应的一级标签与二级标签,具体包括:
在第四特征数组指示一级标签对应的数据满足预设阈值的情况下,将数据满足阈值对应的一级标签确定为待识别文本对应的一级标签;
在第五特征数组指示二级标签对应的数据满足预设阈值的情况下,将数据满足阈值对应的二级标签确定为待识别文本对应的二级标签。
作为一种可选地实施方式,将待识别文本输入到第一预设模型,得到第三特征数组,具体包括:将待识别文本整理为预设格式的待识别文本;
将预设格式的待识别文本输入到第一预设模型,得到第三特征数组。
第二方面,本发明实施例提供了一种分类装置,装置包括:第一输入模块,用于将预设的多个一级标签和二级标签分别输入到第一预设模型,得到与一级标签对应的第一特征数组和与二级标签对应的第二特征数组;
第二输入模块,用于将待识别文本输入到第一预设模型,得到第三特征数组;
第一运算模块,用于基于预设算法对第一特征数组与第三特征数组进行运算,得到第一运算结果;第一运算结果表征待识别文本与多个一级标签的相似度;
第二运算模块,用于基于预设算法对第二特征数组与第三特征数组进行运算,得到第二运算结果;第二运算结果表征待识别文本与多个二级标签的相似度;
确定模块,用于基于待识别文本与多个一级标签和多个二级标签的相似度确定待识别文本对应的一级标签和二级标签。
第三方面,本申请实施例提供了一种分类设备,分类设备可以包括:处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如第一方面中任一实施例的分类方法的步骤。
第四方面,本申请实施例提供了一种计算机存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如第一方面中任一实施例的分类方法的步骤。
与现有技术相比,本申请至少具有以下有益效果:
本申请实施例提供的分类方法中,通过将多个一级标签和二级标签输入到第一预设模型中,得到多个一级标签和二级标签对应的第一特征数组和第二特征数组,将待识别文本输入到第一预设模型中得到第三特征数组。然后通过计算第一特征数组和第二特征数组分别与第三特征数组的相似度来确定待识别文本对应的一级标签和二级标签。由此,通过训练模型对待识别文本进行标签的自动标注避免了接线员对待识别文本进行人工标注所造成的标注的标签不准确的问题,同时标签可编辑,提升了标签标注的易用性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种分类方法的流程示意图;
图2是本发明实施例提供的另一种分类方法的流程示意图;
图3是本发明实施例提供的又一种分类方法的流程示意图;
图4是本发明实施例提供的一种分类装置的结构示意图;
图5是本发明实施例提供的一种分类设备的结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本发明,而不是限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
当前存在着以下几种可以用于多级标签分类的模型,一种是通过将多及标签分类模型转化为与多级标签对应的多个单级标签,然后对多个单级标签分别进行训练。一种是设立多个独立的模型来对不同层级的标签进行训练。但是,以上两种训练模型由于破坏来不用层级的标签之间的关联关系,所以致使由分类模型分类出的结果并不准确。还有一种是保留多级标签之间的层级关系,将多级标签作为一个整体来使用分类模型进行训练。这种训练方法训练出的模型中由于包含了多级标签之间的关联关系,所以在进行某一层级的标签的更改时,为了避免由于某一层级的标签进行的更改导致的关联关系的更改而进一步导致的训练结果的不准确,需要对分类模型进行重新训练。使得训练的过程繁琐,整体训练效率较低。
为了解决现有技术问题,本发明实施例提供了一种分类方法100,图1示出了本申请实施例提供的一种分类方法100的流程示意图,如图1所示方法可以包括:
S110、将预设的多个一级标签和二级标签分别输入到第一预设模型,得到与一级标签对应的第一特征数组和与二级标签对应的第二特征数组。
S120、将待识别文本输入到第一预设模型,得到第三特征数组。
S130、基于预设算法对第一特征数组与第三特征数组进行运算,得到第一运算结果;第一运算结果表征待识别文本与多个一级标签的相似度。
S140、基于预设算法对第二特征数组与第三特征数组进行运算,得到第二运算结果;第二运算结果表征待识别文本与多个二级标签的相似度。
S150、基于待识别文本与多个一级标签和多个二级标签的相似度确定待识别文本对应的一级标签和二级标签。
上述各步骤的具体实现方式将在下文进行详细描述。
首先介绍S110,一级标签与二级标签可以包括对待识别文本内进行分类标识的关键的字词。第一特征数组可以包括与一级标签的数量的和待识别文本数量对应的数组。第二特征数组可以包括与二级标签的数量和待识别文本数量对应的数组。一级标签和二级标签均可以包括由用户设定的标签。
作为一种示例,一级标签有7个(最长10个字符),二级标签有157个(最长15个字符),待识别文本有64个字符(长度超过64的截断,不足64个字符的补齐),则一级标签可以为7*10维向量,二级标签可以为157*15维向量,长度不足的填充为0。经过第一预设模型后,第一特征数组可以包括7*768数组,第二特征数组可以包括157*768数组。作为一种示例,一级标签与二级标签可以作为两种相互独立的标签。
作为一种示例,一级标签与二级标签可以包含关联关系。每个一级标签均对应至少一个二级标签。通过分别将一级标签、二级标签和待识别文本进行训练,能够在不破坏一级标签与二级标签的关联关系的情况下将一级标签和二级标签分别与待识别文本进行匹配。得到待识别文本与第一标签与第二标签的对应的关系,能够使得在一级标签和二级标签中的额任意一个在进行更改的情况下,即使不对模型进行重新训练,也能使得一级标签与二级标签的对应关系保留。从而使得模型分类准确。
与S110类似,在S120中,将待识别文本也输入到第一预设模型中,得到第三特征数组。
其中,待识别文本可以包括语音、文本或由语音转换成的文本中的至少一个。第三特征数组可以包括与待识别文本的字符个数对应的特征数组。
作为一种示例,待识别文本有64个字符,则对应的待识别文本为1*64维向量。第三特征数组可以包括768*1的特征数组。
在得到第一特征数组、第二特征数组和第三特征数组之后,执行S130。
在S130中,预设算法可以包括DotProduct向量点乘算法,第一运算结果可以包括第一特征数组和第三特征数组点乘之后得到的特征数组。
作为一种示例,S130具体可以包括:采用DotProduct向量点乘算法,将第一特征数组与第三特征数组进行点乘,得到点乘后的第四特征数组;将第四特征数组作为第一运算结果。
作为一种示例,利用点乘算法将第一特征数组和第三特征数组点乘之后,得到的第四特征可以包括将7*768的第一特征数组与768*1的第三特征数组进行点乘,输出7*1维度第四特征数组。
作为一种示例,第四特征数组是由第一特征数组和第三特征数组经过点乘得到的,则在第四特征数组中当点乘结果为大于0时,则表示第一特征数组与第三特征数组对应的位置上的数据具有相似性。
做一个具体实例,得到的7*1维度的第四特征数组可以包括[-0.2,0.33,-0.3,0.4,-0.15,-0.23,-0.44]并且,第一特征数组对应的一级标签可以包括[交通,教育,医疗,保险,住房,卫生,安全],则可以确定第三特征数组对应的待识别文本与一级标签中的教育和保险具有相似性。
在S140中,与S130类似,S140具体可以包括将第一特征数组与第三特征数组进行点乘,得到点乘后的第五特征数组;将第五特征数组作为第二运算结果。
作为一种示例,利用点乘算法将第二特征数组和第三特征数组点乘之后,得到的第五特征数组可以包括将157*768的第二特征数组与768*1的第三特征数组进行点乘,输出157*1维度的第五特征数组。
作为一种示例,第五特征数组是由第二特征数组和第三特征数组经过点乘得到的,则在第五特征数组中当点乘结果为大于0时,则表示第二特征数组与第三特征数组对应的位置上的数据具有相似性。
在得到第四特征数组和第五特征数组之后,根据第四特征数组和第五特征数组来执行步骤S150。
在S150中,基于待识别文本和多个一级标签、多个二级标签的相似度确定待识别文本对应的一级标签和二级标签可以包括:
作为一种示例,S150具体可以包括,在第四特征数组指示一级标签对应的数据满足预设阈值的情况下,将数据满足阈值对应的一级标签确定为待识别文本对应的一级标签;
在第五特征数组指示二级标签对应的数据满足预设阈值的情况下,将数据满足阈值对应的二级标签确定为待识别文本对应的二级标签。
获取的第四特征数组为7*1维度的第四特征数组,示例性的,第四数组包括[-0.2,0.33,-0.3,0.4,-0.15,-0.23,-0.44]其中每一个数字上面对应有一个一级标签,当一级标签对应的数字小于0时,则代表将第一特征数组与第三特征数组点乘得到的相似度小于0,进一步的,待识别文本与这个数字对应的一级标签不相似。当一级标签对应的数字大于0时。则代表第一特征数组与第三特征数组点乘得到的相似度大于0,进一步的,待识别文本与这个数字对应的一级标签相似,表示待识别文本与这个一级标签对应。
同理,获取的第五特征数组为157*1维度的第四特征数组,示例性的,第四数组包括[0.2,-0.2,0.3,0.44,0.5……]其中每一个数字上面对应有一个二级标签,当二级标签对应的数大于0时,则代表将第二特征数组与第三特征数组点乘得到的相似度大于0,进一步的,待识别文本与这个数字对应的二级标签相似。当二级标签对应的数字小于0时。则代表第二特征数组与第三特征数组点乘得到的相似度小于0,进一步的,待识别文本与这个数字对应的二级标签的不相似,表示待识别文本与这个二级标签不对应。
本申请实施例提供的分类方法中,通过将多个一级标签和二级标签输入到第一预设模型中,得到多个一级标签和二级标签对应的第一特征数组和第二特征数组,将待识别文本输入到第一预设模型中得到第三特征数组。然后通过计算第一特征数组和第二特征数组分别与第三特征数组的相似度来确定待识别文本对应的一级标签和二级标签。由此,通过训练模型对待识别文本进行标签的自动标注避免了接线员对待识别文本进行人工标注所造成的标注的标签不准确的问题。
在一些实施中,为了使得待识别文本更加容易被第一预设模型进行分类,S120具体可以包括:将待识别文本整理为预设格式的待识别文本。
将预设格式的待识别文本输入到第一预设模型,得到第三特征数组。
其中,设格式可以包括预设字符数量的格式。示例性的,原待识别文本有69个字符,则将待识别文本整理成前64个字符为一组,剩余5个字符后面补充0,凑满64个字符作为第二组。通过对待识别文本的格式进行整理使得待识别文本转换为标准格式的待识别文本,有利于在模型训练后得到与标准格式的待识别文本字符数量对应的第三特征数组,进一步的,有利于简化之后步骤中第一特征数组或第二特征数组与第三特征数组的运算。
为了使第一预设模型分类的结果更加准确,本申请实施例还提供了另一种分类方法200,图1示出了另一种分类方法的流程示意图,如图2所示,方法200与100的区别在于,200还可以包括:
S210、对第二预设模型进行多次训练,得到多次训练对应的第一训练结果。
S220、根据评估函数对训练结果的准确度进行评估,获取多个评估结果中准确度最高的第一评估结果对应的目标训练结果。
S230、将目标训练结果对应的训练后的第二预设模型确定为第一预设模型。
上述各步骤的具体实现方式将在下文进行详细描述。
在S210中,第二预设模型可以包括优化结束后的第三预设模型。多次训练对应的第一训练结果可以包括多次训练对应的多个第一训练结果。
作为一种示例,S210具体可以包括:
使用训练样本对第二预设模型进行多次训练,示例性的,可以进行50次训练。然后得到多次训练对应的多个第一训练结果。
在得到多个第一训练结果之后,执行步骤S220。
在S220中,评估函数可以包括对训练结果的准确度进行评估的函数。示例性的,评估函数可以包括:
其中,P为精准率,表示正确预测正样本占实际预测正样本的比例R召回率表征正确预测正样本占正样本的比例F为综合指标。
第一评估结果可以包括评估函数得到的最高的准确度对应的评估结果。目标训练结果可以包括第一评估结果对应的训练结果。
作为一种示例,分类装置在得到多个第一训练结果之后,将多个第一结果中对应的数值分别输入至上述评估函数,得到多个第一训练结果对应的评估结果,然后将多个评估结果中准确度最高的评估结果作为第一评估结果,将第一评估结果对应的训练结果作为目标训练结果。
在得到多个目标训练结果之后,执行步骤S230。
S230具体可以包括:
分类装置将得到的目标训练结果对应的训练后的第二预设模型确定为第一预设模型。
在本申请实施例提供的分类方法中,通过对第二预设模型进行多次训练,然后将准确度最高的训练结果对应的训练后的第二预设模型确定为第一预设模型,能够使得第一预设模型在对待识别文本进行分类时,分类的结果更加准确。
为了得到第二预设模型,本申请实施例还提供了另一种分类方法300,图3示出了另一种分类方法的流程示意图,如图3所示,方法300与200的区别在于,300还可以包括:
S310、将训练样本输入第三预设模型,得到第二训练结果。
S320、根据第二训练结果确定损失函数对应的损失函数值。
S330、在损失函数不满足预设条件的情况下,根据预设策略对第三预设模型进行优化。
S340、重复对第三预设模型的训练过程,直至损失函数值满足预设条件;将将所述损失函数值满足所述预设条件的第三预设模型确定为第二预设模型。
上述各步骤的具体实现方式将在下文进行详细描述。
首先对S310进行介绍,第三预设模型可以包括bert模型。其中,Bert模型本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在以后特定的自然语言处理(Natural Language Processing,NLP)任务中,我们可以直接使用Bert的特征表示作为该任务的词嵌入特征。所以Bert提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器。Bert最大的特点是抛弃了传统的循环神经网络(Recurrent Neural Network,RNN)和卷积神经网络(Convolutionlal Neural Networks,CNN),通过Attention机制将任意位置的两个单词的距离转换成1,有效的解决了NLP中棘手的长期依赖问题。在S310中训练样本可以包括正样本和负样本,正样本可以包括待识别文本对应的一级标签和二级标签。负样本可以包括待识别文本不对应的一级标签和二级标签。第二训练结果可以包括将上述一级标签和二级标签输入第三预设模型中得到的训练结果。第三预设模型可以包括未训练的第一预设模型。
作为一种示例,训练模块包含正样本和负样本的训练样本输入第三预设模型,然后得到训练结果,作为第二训练结果。
在得到第二训练结果之后,根据第二训练结果执行步骤S320。
在S320中,损失函数包括:
其中,Ωneg为训练结果中训练样本对应一级标签和二级标签,Ωpos为训练结果中训练样本不对应的一级标签或二级标签,S为训练结果中一级标签或二级标签对应的数值,A为权重,K为标签的级别,L为损失函数值;权重包括根据训练次数确定的预设权重。
其中,模型训练过程中引入分支训练策略,分支损失函数的权重A随Epoch变化而变化,初始权重为[0.8,0.2],Epoch为20时为[0.1,0.9],epoch为40时[0,1],其中Epoch为总训练次数。权重变化如下表1所示:
Epoch | 一级标签权重 | 二级标签权重 |
0 | 0.8 | 0.2 |
20 | 0.1 | 0.9 |
40 | 0 | 1 |
表1
S320具体可以包括:在得到训练结果后,将训练结果的对应的数值输入到上述损失函数中,可以得到对应的损失函数值。
在得到对应的损失函数值之后,分类装置执行步骤S330。
在S330中,预设条件可以包括预设的阈值,此处不对预设的阈值做具体限定。预设策略可以包括对第三预设模型的参数进行调整,对第三预设模型的参数进行调整可以包括多种方式,此处不做具体限定。
作为一种示例,S330具体可以包括在分类装置将训练结果中对应的数字输入上述损失函数,在得到的损失函数值不满足的预设阈值的情况下,对第三预设模型的参数进行调整,得到调整后的第三预设模型。
在得到调整后的第三预设模型之后,执行步骤S340。
S340具体可以包括:
将训练样本输入调整后的第三预设模型,得到调整后的第三预设模型输出的训练结果,将训练结果的对应数值输入到上述损失函数中买得到调整后的第三预设模型对应的损失函数值。然后将调整后的第三预设模型对应的损失函数值与预设条件进行比对,在得到的损失函数值不满足预设条件的情况下,再一次重复上述训练过程,与优化过程。直到得到的损失函数值满足预设条件,停止训练过程和优化过程。
本申请实施例提供的分类方法中,通过对第三预设模型进行重复训练和优化,直到优化后的训练模型对应的损失函数值满足预设条件的情况下,停止训练。能够使得第三预设模型的分类更加精准,进一步的,挺高了待识别文本标注标签的准确性。
基于相同的发明构思,本申请实施例还提供了一种分类装置。图4示出了本申请实施例提供的一种分类装置400的结构示意图,如图4所示装置可以包括:
第一输入模块410可以用于将预设的多个一级标签和二级标签分别输入到第一预设模型,得到与一级标签对应的第一特征数组和与二级标签对应的第二特征数组;
第二输入模块420可以用于将待识别文本输入到第一预设模型,得到第三特征数组;
第一运算模块430可以用于基于预设算法对第一特征数组与第三特征数组进行运算,得到第一运算结果;第一运算结果表征待识别文本与多个一级标签的相似度;
第二运算模块440可以用于基于预设算法对第二特征数组与第三特征数组进行运算,得到第二运算结果;第二运算结果表征待识别文本与多个二级标签的相似度;
确定模块450可以用于基于待识别文本与多个一级标签和多个二级标签的相似度确定待识别文本对应的一级标签和二级标签。
本申请实施例提供的分类装置中,通过将多个一级标签和二级标签输入到第一预设模型中,得到多个一级标签和二级标签对应的第一特征数组和第二特征数组,将待识别文本输入到第一预设模型中得到第三特征数组。然后通过计算第一特征数组和第二特征数组分别与第三特征数组的相似度来确定待识别文本对应的一级标签和二级标签。由此,通过训练模型对待识别文本进行标签的自动标注避免了接线员对待识别文本进行人工标注所造成的标注的标签不准确的问题。
在一些实施例中,损失函数可以包括:
其中,Ωneg为训练结果中训练样本对应一级标签和二级标签,Ωpos为训练结果中训练样本不对应的一级标签或二级标签,S为训练结果中一级标签或二级标签对应的数值,A为权重,K为标签的级别,L为损失函数值;权重包括根据训练次数确定的预设权重。
作为一种示例,每个一级标签均对应至少一个二级标签。
通过分别将一级标签、二级标签和待识别文本进行训练,能够在不破坏一级标签与二级标签的关联关系的情况下将一级标签和二级标签分别与待识别文本进行匹配。得到待识别文本与第一标签与第二标签的对应的关系,能够使得在一级标签和二级标签中的额任意一个在进行更改的情况下,即使不对模型进行重新训练,也能使得一级标签与二级标签的对应关系保留。从而使得模型分类准确。
作为一种示例,第一运算模块430具体可以用于:
将第一特征数组与第三特征数组进行点乘,得到点乘后的第四特征数组;将第四特征数组作为第一运算结果;
作为一种示例,第二运算模块440具体可以用于:
将第一特征数组与第三特征数组进行点乘,得到点乘后的第五特征数组;将第五特征数组作为第二运算结果。
作为一种示例,确定模块450具体可以用于:
在第四特征数组指示一级标签对应的数据满足预设阈值的情况下,将数据满足阈值对应的一级标签确定为待识别文本对应的一级标签;
在第五特征数组指示二级标签对应的数据满足预设阈值的情况下,将数据满足阈值对应的二级标签确定为待识别文本对应的二级标签。
在一些实施例中,装置还可以包括:
第一训练模块460可以用于对第二预设模型进行多次训练,得到多次训练对应的第一训练结果。
评估模块470可以用于根据评估函数对训练结果的准确度进行评估,获取多个评估结果中准确度最高的第一评估结果对应的目标训练结果。
第二确定模块480可以用于将目标训练结果对应的训练后的第二预设模型确定为第一预设模型。
在本申请实施例提供的分类装置中,通过对第二预设模型进行多次训练,然后将准确度最高的训练结果对应的训练后的第二预设模型确定为第一预设模型,能够使得第一预设模型在对待识别文本进行分类时,分类的结果更加准确。
在一些实施例中,装置还可以包括:
第二训练模块490可以用于将训练样本输入第三预设模型,得到第二训练结果。
第三确定模块4100可以用于根据第二训练结果确定损失函数对应的损失函数值。
优化模块4110可以用于在损失函数不满足预设条件的情况下,根据预测策略对第三预设模型进行优化。
第三训练模块4120可以用于重复对第三预设模型的训练过程,直至损失函数值满足预设条件。
本申请实施例中,通过对第三预设模型进行重复训练和优化,直到优化后的训练模型对应的损失函数值满足预设条件的情况下,停止训练。能够使得第三预设模型的分类更加精准,进一步的,挺高了待识别文本标注标签的准确性。
图5示出了本发明实施例提供的分类设备的硬件结构示意图。
在分类设备可以包括处理器501以及存储有计算机程序指令的存储器502。
具体地,上述处理器501可以包括中央处理器(Central Processing Unit,CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器502可以包括可以用于数据或指令的大容量存储器。举例来说而非限制,存储器502可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在一个实例中,存储器502可以包括可移除或不可移除(或固定)的介质,或者存储器502是非易失性固态存储器。存储器502可在综合网关容灾设备的内部或外部。
在一个实例中,存储器502可以是只读存储器(Read Only Memory,ROM)。在一个实例中,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
存储器502可以包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器501通过读取并执行存储器502中存储的计算机程序指令,以实现图1所示实施例中的方法/步骤S110至S150,并达到图1-3所示实例执行其方法/步骤达到的相应技术效果,为简洁描述在此不再赘述。
在一个示例中,分类设备还可包括通信接口505和总线510。其中,如图5所示,处理器501、存储器502、通信接口505通过总线510连接并完成相互间的通信。
通信接口505,主要可以用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线510包括硬件、软件或两者,将分类设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,EISA)总线、前端总线(Front Side Bus,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(IndustryStandard Architecture,ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线510可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
另外,结合上述实施例中的分类方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种分类方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被可以用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RadioFrequency,RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (11)
1.一种分类方法,其特征在于,所述方法包括:
将预设的多个一级标签和二级标签分别输入到第一预设模型,得到与所述一级标签对应的第一特征数组和与所述二级标签对应的第二特征数组;
将待识别文本输入到第一预设模型,得到第三特征数组;
基于预设算法对所述第一特征数组与第三特征数组进行运算,得到第一运算结果;第一运算结果表征所述待识别文本与所述多个一级标签的相似度;
基于预设算法对所述第二特征数组与第三特征数组进行运算,得到第二运算结果;第二运算结果表征所述待识别文本与所述多个二级标签的相似度;
基于所述待识别文本与所述多个一级标签和多个二级标签的相似度确定所述待识别文本对应的一级标签和二级标签。
2.根据权利要求1所述的方法,其特征在于,在将预设的多个一级标签和二级标签分别输入到第一预设模型之前,所述方法还包括:
对第二预设模型进行多次训练,得到多次训练对应的第一训练结果;
根据评估函数对所述训练结果的准确度进行评估,获取多个评估结果中所述准确度最高的第一评估结果对应的目标训练结果;
将所述目标训练结果对应的训练后的第二预设模型确定为第一预设模型。
3.根据权利要求2所述的方法,其特征在于,在对所述第二预设模型进行多次训练之前,所述方法还包括:
将训练样本输入第三预设模型,得到第二训练结果;
根据所述第二训练结果确定损失函数对应的损失函数值;
在所述损失函数不满足预设条件的情况下,根据所述预设策略对所述第三预设模型进行优化;
重复对所述第三预设模型的训练过程,直至所述损失函数值满足所述预设条件;将所述损失函数值满足所述预设条件的第三预设模型确定为所述第二预设模型。
5.根据权利要求1所述的方法,其特征在于,每个所述一级标签均对应至少一个二级标签。
6.根据权利要求1所述的方法,其特征在于,所述基于预设算法对所述第一特征数组与第三特征数组进行运算,得到第一运算结果,具体包括:
将所述第一特征数组与所述第三特征数组进行点乘,得到点乘后的第四特征数组;将所述第四特征数组作为第一运算结果;
基于预设算法对所述第二特征数组与第三特征数组进行运算,得到第二运算结果,具体包括:
将所述第一特征数组与所述第三特征数组进行点乘,得到点乘后的第五特征数组;将所述第五特征数组作为第二运算结果。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一运算结果与所述第二运算结果确定所述待识别文本对应的一级标签与二级标签,具体包括:
在所述第四特征数组指示所述一级标签对应的数据满足预设阈值的情况下,将所述数据满足阈值对应的一级标签确定为所述待识别文本对应的一级标签;
在所述第五特征数组指示所述二级标签对应的数据满足预设阈值的情况下,将所述数据满足阈值对应的二级标签确定为所述待识别文本对应的二级标签。
8.根据权利要求1所述的方法,其特征在于,所述将待识别文本输入到第一预设模型,得到第三特征数组,具体包括:将所述待识别文本整理为预设格式的待识别文本;
将所述预设格式的待识别文本输入到所述第一预设模型,得到第三特征数组。
9.一种分类装置,其特征在于,所述装置包括:
第一输入模块,用于将预设的多个一级标签和二级标签分别输入到第一预设模型,得到与所述一级标签对应的第一特征数组和与所述二级标签对应的第二特征数组;
第二输入模块,用于将待识别文本输入到第一预设模型,得到第三特征数组;
第一运算模块,用于基于预设算法对所述第一特征数组与第三特征数组进行运算,得到第一运算结果;第一运算结果表征所述待识别文本与所述多个一级标签的相似度;
第二运算模块,用于基于预设算法对所述第二特征数组与第三特征数组进行运算,得到第二运算结果;第二运算结果表征所述待识别文本与所述多个二级标签的相似度;
确定模块,用于基于所述待识别文本与所述多个一级标签和多个二级标签的相似度确定所述待识别文本对应的一级标签和二级标签。
10.一种分类设备,其特征在于,所述设备包括:处理器,以及存储有计算机程序指令的存储器;所述处理器读取并执行所述计算机程序指令,以实现如权利要求1-8任意一项所述的分类方法。
11.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-8任意一项所述的分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111264958.8A CN114048802A (zh) | 2021-10-28 | 2021-10-28 | 分类方法、装置、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111264958.8A CN114048802A (zh) | 2021-10-28 | 2021-10-28 | 分类方法、装置、设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114048802A true CN114048802A (zh) | 2022-02-15 |
Family
ID=80206625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111264958.8A Pending CN114048802A (zh) | 2021-10-28 | 2021-10-28 | 分类方法、装置、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114048802A (zh) |
-
2021
- 2021-10-28 CN CN202111264958.8A patent/CN114048802A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109034368B (zh) | 一种基于dnn的复杂设备多重故障诊断方法 | |
CN108280542B (zh) | 一种用户画像模型的优化方法、介质以及设备 | |
CN109635108B (zh) | 一种基于人机交互的远程监督实体关系抽取方法 | |
CN111447574B (zh) | 短信分类方法、装置、系统和存储介质 | |
CN107341143A (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN116629275A (zh) | 一种基于大数据的智能决策支持系统及方法 | |
CN111538823A (zh) | 信息处理方法、模型训练方法、装置、设备及介质 | |
CN109993183B (zh) | 网络故障评估方法、装置、计算设备及存储介质 | |
CN117436815B (zh) | 基于自然语言大模型的流程智能审批方法 | |
CN104809229A (zh) | 一种文本特征词提取方法及系统 | |
CN112800232B (zh) | 一种基于大数据的案件自动分类方法 | |
CN114692623A (zh) | 一种环境类网络舆情的情感分析方法 | |
CN111753546B (zh) | 文书信息抽取方法、装置、计算机设备及存储介质 | |
CN115357718B (zh) | 主题集成服务重复材料发现方法、系统、设备和存储介质 | |
CN114048802A (zh) | 分类方法、装置、设备及计算机存储介质 | |
CN111144575A (zh) | 舆情预警模型的训练方法、预警方法、装置、设备及介质 | |
CN115545533A (zh) | 数据处理方法、装置、设备、介质及产品 | |
CN115496630A (zh) | 一种基于自然语言算法的专利撰写质量核检方法以及系统 | |
CN115204166A (zh) | 文本校对方法、装置、设备、介质及程序产品 | |
CN114239606A (zh) | 一种信息处理方法、装置、设备及计算机存储介质 | |
CN113849637A (zh) | 一种低噪声干扰的有监督关系抽取方法及装置 | |
CN112115229A (zh) | 文本意图识别方法、装置、系统以及文本分类系统 | |
CN113254596B (zh) | 基于规则匹配和深度学习的用户质检需求分类方法及系统 | |
CN116610798A (zh) | 文本分类方法、装置、设备、介质及产品 | |
CN115905511A (zh) | 摘要抽取模型确定方法、装置、设备、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |