CN111428032B - 内容质量评价方法及装置、电子设备、存储介质 - Google Patents
内容质量评价方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN111428032B CN111428032B CN202010201888.0A CN202010201888A CN111428032B CN 111428032 B CN111428032 B CN 111428032B CN 202010201888 A CN202010201888 A CN 202010201888A CN 111428032 B CN111428032 B CN 111428032B
- Authority
- CN
- China
- Prior art keywords
- category
- content
- loss
- coefficient
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013145 classification model Methods 0.000 claims abstract description 64
- 238000012549 training Methods 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000007635 classification algorithm Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本公开是关于一种内容质量评价方法及装置、电子设备、存储介质。一种内容质量评价方法包括:获取待识别多媒体,得到表征所述多媒体内容的文本内容;将所述文本内容输入到预设的内容分类模型,由所述内容分类模型确定所述文本内容为各类别的概率;根据所述各类别的概率和所述各类别的类别权重系数确定所述文本内容的质量评价数据;所述类别权重系数用于表征各类别相对于其他类别的重要程度。本实施例中通过类别权重系数能够体现出各类别相对于正常类别的代价,可以使各类别的概率与类别更匹配,进而得到更合适的质量评价数据,有利于提升识别正确率。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及一种内容质量评价方法及装置、电子设备、存储介质。
背景技术
目前,随着互联网技术的迅速发展,多媒体的内容也呈爆炸式增长,可以丰富用户的工作和生活。但是,现实中多媒体的内容繁杂且质量不一,当中会存在一些低俗内容,因此,需要对多媒体中的低俗内容进行过滤,以提高业务数据质量和高效管理内容质量。
相关技术中通常采用二分类算法对内容进行分类,计算出各内容属于低俗类别的概率,在概率大于阈值时,识别结果为低俗内容,在概率小于阈值时,识别结果为正常内容。在采用二分类算法识别出正常内容后,会包括部分较低程度的低俗内容,若分发给用户则存在一定的风险。
发明内容
本公开提供一种内容质量评价方法及装置、电子设备、存储介质,以解决相关技术的不足。
根据本公开实施例的第一方面,提供一种内容质量评价方法,包括:
确定待识别文本内容;
将所述文本内容输入到预设的内容分类模型,由所述内容分类模型确定所述文本内容为各类别的概率;
根据所述各类别的概率和所述各类别的类别权重系数确定所述文本内容的质量评价数据;所述类别权重系数用于表征各类别相对于其他类别的重要程度。
可选地,针对待识别内容为非文本多媒体的情况,确定待识别文本内容,包括:
获取待识别多媒体;
识别所述多媒体,得到表征所述多媒体内容的文本内容。
可选地,所述类别权重系数通过以下公式获取:
其中,dm是第m类别归一化后的损失,表征类别权重系数;Cmx表示第m类别的内容被识别为第x类别的损失系数;Cix表示第i类别的内容被识别为第x类别的损失系数;n表示预先划分的低俗程度类别的数量,且i值越大表征低俗程度越高。
可选地,所述损失系数通过统计文本内容类别的历史识别结果获得,或者所述损失系数采用经验值实现。
可选地,文本内容的低俗程度越高,其被识别为正常类别的损失系数越大。
可选地,所述方法还包括训练内容分类模型的步骤,在训练过程中内容分类模型包括损失函数,所述损失函数包括损失和系数,所述损失和系数用于表征一个类别的内容被识别为剩余类别所得全部损失系数的和。
可选地,所述损失和系数通过以下公式获取:
其中,n表示预先划分的低俗程度类别的数量,且i值越大表征低俗程度越高;Li表示第i类别的损失和系数;Cim表示第i类别被识别为第m类别的损失系数。
可选地,所述方法还包括训练所述内容分类模型的步骤,包括:
获取训练数据;
将所述训练数据输入到待训练内容分类模型,由所述待训练内容分类模型中的损失函数计算损失值;
响应于所述损失值小于预设的损失值阈值,停止训练,获得完成训练的目标内容分类模型。
根据本公开实施例的第二方面,提供一种内容质量评价装置,包括:
文本内容确定模块,用于确定文本内容;
类别概率确定模块,用于将所述文本内容输入到预设的内容分类模型,由所述内容分类模型确定所述文本内容为各类别的概率;
评价数据确定模块,用于根据所述各类别的概率和所述各类别的类别权重系数确定所述文本内容的质量评价数据;所述类别权重系数用于表征各类别相对于其他类别的重要程度。
可选地,针对待识别内容为非文本多媒体的情况,所述文本内容确定模块包括:
多媒体获取单元,用于获取待识别多媒体;
文本内容获取单元,用于识别所述多媒体,得到表征所述多媒体内容的文本内容。
可选地,所述类别权重系数通过以下公式获取:
其中,dm是第m类别归一化后的损失,表征类别权重系数;Cmx表示第m类别的内容被识别为第x类别的损失系数;Cix表示第i类别的内容被识别为第x类别的损失系数;n表示预先划分的低俗程度类别的数量,且i值越大表征低俗程度越高。
可选地,所述损失系数通过统计文本内容类别的历史识别结果获得,或者所述损失系数采用经验值实现。
可选地,文本内容的低俗程度越高,其被识别为正常类别的损失系数越大。
可选地,所述装置还包括分类模型训练模块,所述分类模型训练模块包括损失函数,所述损失函数包括损失和系数,所述损失和系数用于表征一个类别的内容被识别为剩余类别所得全部损失系数的和。
可选地,所述损失和系数通过以下公式获取:
其中,n表示预先划分的低俗程度类别的数量,且i值越大表征低俗程度越高;Li表示第i类别的损失和系数;Cim表示第i类别被识别为第m类别的损失系数。
可选地,所述装置还包括模型训练模块,所述模型训练模块包括:
训练数据获取单元,用于获取训练数据;
损失值计算单元,用于将所述训练数据输入到待训练内容分类模型,由所述待训练内容分类模型中的损失函数计算损失值;
分类模型获取单元,用于响应于所述损失值小于预设的损失值阈值,停止训练,获得完成训练的目标内容分类模型。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行的计算机程序的存储器;
所述处理器被配置为执行所述存储器中的计算机程序以实现上述任一项所述方法的步骤。
根据本公开实施例的第四方面,提供一种可读存储介质,其上存储有可执行的计算机程序,该计算机程序被执行时实现上述任一项所述方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本公开实施例中通过确定文本内容,可以将文本内容输入到预设的内容分类模型,由内容分类模型确定文本内容为各类别的概率;之后,根据各类别的概率和各类别的类别权重系数确定文本内容的质量评价数据;类别权重系数用于表征各类别相对于其他类别的重要程度。本实施例中通过类别权重系数能够体现出各类别相对于正常类别的代价,可以使各类别的概率与类别更匹配,进而得到更合适的质量评价数据,有利于提升识别正确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种内容质量评价方法的流程图。
图2是根据一示例性实施例示出的另一种内容质量评价方法的流程图。
图3是根据一示例性实施例示出的训练内容分类模型的流程图。
图4是根据一示例性实施例示出的一种应用场景图。
图5~图6是根据一示例性实施例示出的一种内容质量评价装置的框图
图7是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性所描述的实施例并不代表与本公开相一致的所有实施例。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置例子。
相关技术中采用二分类算法对内容进行分类,计算出各内容属于低俗类别的概率,在概率大于阈值时,识别结果为低俗内容,在概率小于阈值时,识别结果为正常内容。在采用二分类算法识别出正常内容后,会包括部分较低程度的低俗内容,若分发给用户则存在一定的风险。
为解决上述技术问题,本公开实施例提供了一种内容质量评价方法,其发明构思在于,预先确定各类别的类别权重系数,该类别权重系数与相应的类别匹配,可以体现出各类别相对于正常类别的代价,这样在内容分类模型计算出文本属于各类别的概率后,结合上述类别权重系数可以得到文本内容的质量评价数据,从而有利于提升识别正确率。
图1是根据一示例性实施例示出的一种内容质量评价方法的流程图,可以应用于如智能手机、平板电脑、个人计算机、服务器等电子设备。参见图1,一种内容质量评价方法,包括步骤11~步骤13,其中:
在步骤11中,确定文本内容。
本实施例中,电子设备开机后,可以播放视频、音频,显示图像和文本等多媒体文件。考虑到上述多媒体文件可能包括色情、血腥、暴力等低俗内容,因此需要在分发给用户,或者下载到本地后而显示之前,进行内容质量管理。
对于文本,电子设备可以直接获取该文本内容,对于非文本的多媒体,电子设备可以获取待识别多媒体,并识别该多媒体,得到表征该多媒体内容的文本内容,在一个实施例中,对于视频和图像,电子设备可以采用预设的图像识别和语义分析等算法识别出视频和图像中的内容并形成文本内容;在另一个实施例中,对于音频,电子设备可以采用语音识别算法识别出语音内容并形成文本内容。在又一个实施例中,对于如聊天内容等文本,可以直接解析出文本内容。
在步骤12中,将所述文本内容输入到预设的内容分类模型,由所述内容分类模型确定所述文本内容为各类别的概率。
本实施例中,电子设备内可以预先存储一个已经训练好的内容分类模型,用于输出文本内容属于各个类别的概率。其中,该内容分类模型可以采用如逻辑回归(LR)、神经网络(RNN、CNN)等算法实现,在此不作限定。
本实施例中,电子设备可以将上述文本内容输入预设的内容分类模型,由内容分类模型对该文本内容进行分类,得到该文本内容属于各个类别的概率。例如,类别的数量为三个,包括正常类别、泛色情类别和色情类别,则内容分类模型可以输出各类别的概率为:正常类别(90%)、泛低俗类别(10%)和色情类别(0)。
需要说明的是,本实施例中采用3个类别来示例性说明,实际应用中,技术人员可以根据具体场景进行调整类别的数量和各类别的含义,相应方案落入本公开的保护范围。
在步骤13中,根据所述各类别的概率和所述各类别的类别权重系数确定所述文本内容的质量评价数据;所述类别权重系数用于表征各类别相对于其他类别的重要程度。
本实施例中,电子设备内可以预先存储各类别的类别权重系数,该类别权重系数用于表征各类别相对于其他类别的重要程度,获取方式如下:
首先,建立一个代价矩阵,如表1所示:
表1
正确答案\识别结果 | 正常类别(0) | 泛低俗类别(1) | 色情类别(2) |
正常类别(0) | C00 | C01 | C02 |
泛低俗类别(1) | C10 | C11 | C12 |
色情类别(2) | C20 | C21 | C22 |
注:表1中示出了3个类别的情形,技术人员可以根据具体场景增加类别的数量以及各类别与其他类别之间的损失系数。
在表1中,采用0表征正常类别,1表征泛低俗类别,2表征色情类别。则Cxy表征x类别被识别为y类别的损失系数,此例中,x和y取值均为0~2,且当x=y时,Cxy表征文本内容分类正确时的损失系数,可以为0,也可以设置一个损失系数,如负值相当于一个奖励系数,后续以取值为0来描述方案。那么:
正常类别被识别为正常类别的情况下,损失系数C00为0;正常类别被识别为泛低俗类别的损失系数为C01;正常类别被识别为色情类别的损失系数为C02。
泛低俗类别被识别为正常类别的损失系数为C10;泛低俗类别被识别为泛低俗类别的损失系数C11为0;泛低俗类别被识别为色情类别的损失系数为C12。
色情类别被识别为正常类别的损失系数为C20;色情类别被识别为泛低俗类别的损失系数为C21;色情类别被识别为色情类别的损失系数C22为0。
本实施例中,损失系数用于表征不同类别被错误地识别为其他类别时所引起的损失,可以通过文本内容类别的识别结果获得。
在一示例中,损失系数可以通过统计文本内容类别的历史识别结果获得,例如获取一个月之内对全部文本内容的识别结果进行统计,统计的参数可以包括但不限于金钱、浏览时长、点击数量、投诉数量、评论数量等。以浏览时长为例,统计得到每个类别的文本内容被识别为其他类别时的浏览时长,通过正确识别的浏览时长和错误识别的浏览时长,将浏览时长差值作为各类别的损失,即可以得到损失系数。例如,当文本内容为色情内容被正确识别时,由于确定是色情内容,则业务会将该色情内容屏蔽,其浏览时长T1为0;当被错误识别为正确类别时,会被业务分发给用户,此时浏览时长T2可能为数百分钟,那么浏览时长的差值为(T2-T1),此时可以将(T2-T1)作为损失系数。可理解的是,由于泛低俗类别介于色情和正常之间,识别存在困难,所以分发可能受到不同业务的影响,有可能会被分发,也有可能不被分发,其浏览时长T3会介于T1和T2之间,因此浏览时长差值(T3-T1)会小于浏览时长差值(T2-T1),即色情内容被识别为正常类别的损失系数会大于泛低俗类别被识别为正常类别的损失系数。
实际应用中,还可以对浏览时长差值做归一化处理,可以得到损失系数,从而减小其数值,方便计算。
在另一示例中,技术人员可以根据具体场景,分析该场景下的对内容质量的评述指标,如金钱、浏览时长、点击数量、投诉数量、评论数量等,结合评述指标和场景的经验值来确定损失系数。
实际应用中,考虑到色情内容被识别为正常内容并分发给用户(漏召回),比正常内容被识别为色情内容被召回(误召回),带来的影响更严重。因此,本实施例中设置如下限定条件以对对表1中的损失系数作调整,从而使损失系数更匹配使用场景,包括:
C20>C21,表示色情类别被识别为正常类别比被识别为泛低俗类别带来的损失更大;
C10>C12,表示泛低俗类别被识别为正常类别比被识别为色情类别带来的损失更大;
C02>C01,表示正常类别被识别为色情类别比被识别为低俗类别带来的损失更大;
C20>C02,表示色情类别被识别为正常类别比正常类别被识别为色情类别的损失更大。
或者说,各类别的内容被识别为第一类别的损失系数大于被识别为第二类别的损失系数;其中,在内容类别从正常类别到最高等级的低俗类别的顺序下,所述第一类别与所述正常类别的距离大于所述第二类别与所述正常类别的距离。例如,色情类别被识别为正常类别比被识别为泛低俗类别带来的损失更大。
其次,在获得表1所示的代价矩阵以后,可以获取类别权重系数,公式如下:
其中,dm是第m类别归一化后的损失,表征类别权重系数;Cmx表示第m类别的内容被识别为第x类别的损失系数;Cix表示第i类别的内容被识别为第x类别的损失系数;n表示预先划分的低俗程度类别的数量,且i值越大表征低俗程度越高。i的取值可以从0至n-1。
本实施例中,电子设备在获取到各类别的概率后,获取类别的类别权重系数,并根据概率和类别权重系数计算各类别的质量评价数据,将所有类别的质量评价数据的和值作为待识别多媒体的文本内容的质量评价数据。可见,Cmx越大,对应的dm越大,根据前面对Cmx取值的定义,低俗程度越高,其对应类别的类别权重系数越大,那么,就使最后的分类结果值上有所偏向,从而降低将色情类别被识别为其他类别的损失,也降低将泛低俗类别被识别为正常类别的损失,使分类结果更加合理、准确。
文本内容的质量评价数据公式如下:
其中,D表示文本内容低俗程度的质量评价数据,i表示第i个类别,i的取值可以从0至n-1,pi表示内容分类模型输出的各类别的概率,di表示类别加权系数。
可理解的是,本实施例中通过类别权重系数能够体现出各类别相对于正常类别的损失,能够体现中不同类别之间的程度强弱;并且,该类别权重系数能够使各类别的概率与类别更匹配,进而得到更合适的质量评价数据。
在一些实施例时,电子设备中的业务程序内可以设定阈值,基于设定阈值和质量评价数据确定屏蔽文本内容或者分发文本内容。
至此,本公开实施例中通过获取多媒体内容的文本内容,可以将文本内容输入到预设的内容分类模型,由内容分类模型获取文本内容为各类别的概率;之后,根据各类别的概率和各类别的类别权重系数获取文本内容的质量评价数据;类别权重系数用于表征各类别相对于其他类别的重要程度。本实施例中通过类别权重系数能够体现出各类别相对于正常类别的代价,可以使各类别的概率与类别更匹配,进而得到更合适的质量评价数据,有利于提升识别正确率。
图2是根据一示例性实施例示出的另一种内容质量评价方法的流程图,可以应用于如智能手机、平板电脑、个人计算机、服务器等电子设备。参见图2,一种内容质量评价方法,包括步骤21~步骤23,其中:
在步骤21中,获取待识别多媒体,得到表征所述多媒体内容的文本内容。
步骤21所示实施例的内容和步骤11所示实施例的内容相同,可以参见步骤11的内容,在此不再赘述。
在步骤22中,将所述文本内容输入到预设的内容分类模型,由所述内容分类模型确定所述文本内容为各类别的概率,内容分类模型内损失函数包括损失和系数。
步骤22所示实施例的内容和步骤12所示实施例的内容相近,可以参见步骤12的内容,在此重点描述步骤22和步骤12的不同之处:
本实施例中,内容分类模型包括损失函数,与相关技术的区别在于,该损失函数包括损失和系数,其中损失和系数用于表征一个类别的内容被识别为剩余类别所得全部损失系数的和。
以损失函数采用交叉熵损失函数为例,相关技术中交叉熵损失函数的公式如下:
本实施例中,交叉熵损失函数的公式如下:
即公式(4)较公式(3)增设了损失和系数Li,通过损失和系数Li可以调整内容分类模型中各类别的权重,使内容分类模型对色情类别的关注度更高,对泛低俗类别的关注度次之,对正常类别的关注度最低,达到权重与各类别具有较高的拟合效果。
本实施例中,上述损失和系数Li可以结合步骤12中表1所示的代价矩阵来获取,公式如下:
其中,n表示n+1个类别中最大的标号,Li表示第i类别的损失和系数,Cim表示第i类别被识别为第m类别的损失系数,m的取值可以从0至n-1。
需要说明的是,由于Cii取值可以为零,即考虑到第i类别的文本内容被识别为第i类别的场景,此时公式(5)中可以排除i=m的情况;由于Cii取值可以不为零即是一个奖励系数,此时公式(5)中可以保留i=m的情况。技术人员可以根据具体场景来选择,在此不作限定。
本实施例中,在调整为损失系数后,可以对内容分类模型进行训练,参见图3,在步骤31中,电子设备可以获取若干训练数据,训练数据内包括文本内容和该文本内容的标注信息。在步骤32中,电子设备可以将训练数据输入到待训练内容分类模型,由该待训练内容分类模型中的损失函数计算出各训练数据对应的损失值。在步骤33中,电子设备可以对比损失值与预设的损失值阈值,响应于损失值小于预设的损失值阈值,停止训练,获得完成训练的目标内容分类模型,后续可以利用该目标内容分类模型对文本内容进行分类。
可理解的是,重新训练的内容分类模型由于增设损失和系数Li,可以调整模型内参数的取值,达到调整其输出类别概率的效果。即,重新训练的内容分类模型对低俗内容更关注,所输出的类别概率也更准确。
在步骤23中,根据所述各类别的概率和所述各类别的类别权重系数确定所述文本内容的质量评价数据;所述类别权重系数用于表征各类别相对于其他类别的重要程度。
步骤23所示实施例的内容和步骤13所示实施例的内容相同,可以参见步骤13的内容,在此不再赘述。
至此,本公开实施例中通过在内容分类模型内增设损失和系数,使其输出的类别概率更准确,结合类别权重系数,能够得到更加准确的质量评价数据和最终的类别结果,有利于提升识别正确率。
下面结合色情内容识别场景,描述本公开提供的一种内容质量评价方法,参见图4,首先,建立色情内容识别分类体系,形成如表1所示例的分类错误代价矩阵;然后,根据该代价矩阵计算出损失和系数Li,以及类别权重系数dm。之后,将损失和系数Li增设到内容分类算法的损失函数内;基于新的损失函数重新训练内容分类算法。
最后,获取待处理的文本内容,将文本内容输入到重新训练的内容分类算法,得到文本内容属于各类别的概率。结合上述的类别权重系数dm,计算出质量评价数据,并将该质量评价数据作为文本内容的一个参数,供后续的程序使用。
图5是根据一示例性实施例示出的另一种内容质量评价装置的流程图,可以应用于如智能手机、平板电脑、个人计算机、服务器等电子设备。参见图5,一种内容质量评价装置,包括:
文本内容确定模块51,用于确定文本内容;
类别概率确定模块52,用于将所述文本内容输入到预设的内容分类模型,由所述内容分类模型确定所述文本内容为各类别的概率;
评价数据确定模块53,用于根据所述各类别的概率和所述各类别的类别权重系数确定所述文本内容的质量评价数据;所述类别权重系数用于表征各类别相对于其他类别的重要程度。
在一实施例中,针对待识别内容为非文本多媒体的情况,确定待识别文本内容,包括:
获取待识别多媒体;
识别所述多媒体,得到表征所述多媒体内容的文本内容。
在一实施例中,所述类别权重系数通过以下公式获取:
其中,dm是第m类别归一化后的损失,表征类别权重系数;Cmx表示第m类别的内容被识别为第x类别的损失系数;Cix表示第i类别的内容被识别为第x类别的损失系数;n表示预先划分的低俗程度类别的数量,且i值越大表征低俗程度越高。
在一实施例中,所述损失系数通过统计文本内容类别的历史识别结果获得,或者所述损失系数采用经验值实现。
在一实施例中,文本内容的低俗程度越高,其被识别为正常类别的损失系数越大。
在一实施例中,所述装置还包括分类模型训练模块,所述分类模型训练模块包括损失函数,所述损失函数包括损失和系数,所述损失和系数用于表征一个类别的内容被识别为剩余类别所得全部损失系数的和。
在一实施例中,所述损失和系数通过以下公式获取:
其中,n表示预先划分的低俗程度类别的数量,且i值越大表征低俗程度越高;Li表示第i类别的损失和系数;Cim表示第i类别被识别为第m类别的损失系数。
在一实施例中,参见图6,所述装置还包括模型训练模块,所述模型训练模块包括:
训练数据获取单元61,用于获取训练数据;
损失值计算单元62,用于将所述训练数据输入到待训练内容分类模型,由所述待训练内容分类模型中的损失函数计算损失值;
分类模型获取单元63,用于响应于所述损失值小于预设的损失值阈值,停止训练,获得完成训练的目标内容分类模型。
可理解的是,本公开实施例提供的装置与上述方法实施例相对应,具体内容可以参考方法各实施例的内容,在此不再赘述。
图7是根据一示例性实施例示出的一种电子设备的框图。例如,电子设备700可以是智能手机,计算机,数字广播终端,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,电子设备700可以包括以下一个或多个组件:处理组件702,存储器704,电源组件706,多媒体组件708,音频组件710,输入/输出(I/O)的接口712,传感器组件714,通信组件716,以及图像采集组件718。
处理组件702通常电子设备700的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行计算机程序。此外,处理组件702可以包括一个或多个模块,便于处理组件702和其他组件之间的交互。例如,处理组件702可以包括多媒体模块,以方便多媒体组件708和处理组件702之间的交互。
存储器704被配置为存储各种类型的数据以支持在电子设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的计算机程序,联系人数据,电话簿数据,消息,图片,视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件706为电子设备700的各种组件提供电力。电源组件706可以包括电源管理系统,一个或多个电源,及其他与为电子设备700生成、管理和分配电力相关联的组件。电源组件706可以包括电源芯片,控制器可以电源芯片通信,从而控制电源芯片导通或者断开开关器件,使电池向主板电路供电或者不供电。
多媒体组件708包括在电子设备700和目标对象之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示屏(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自目标对象的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
音频组件710被配置为输出和/或输入音频信号。例如,音频组件710包括一个麦克风(MIC),当电子设备700处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中,音频组件710还包括一个扬声器,用于输出音频信号。
I/O接口712为处理组件702和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。
传感器组件714包括一个或多个传感器,用于为电子设备700提供各个方面的状态评估。例如,传感器组件714可以检测到电子设备700的打开/关闭状态,组件的相对定位,例如组件为电子设备700的显示屏和小键盘,传感器组件714还可以检测电子设备700或一个组件的位置改变,目标对象与电子设备700接触的存在或不存在,电子设备700方位或加速/减速和电子设备700的温度变化。
通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件716还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现。
在示例性实施例中,还提供了一种包括可执行的计算机程序的非临时性可读存储介质,例如包括指令的存储器704,上述可执行的计算机程序可由处理器执行。其中,可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本公开旨在涵盖任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (14)
1.一种内容质量评价方法,其特征在于,包括:
确定待识别文本内容;
将所述文本内容输入到预设的内容分类模型,由所述内容分类模型确定所述文本内容为各类别的概率;
根据所述各类别的概率和所述各类别的类别权重系数确定所述文本内容的质量评价数据;所述类别权重系数用于表征各类别相对于其他类别的重要程度;
其中,所述内容分类模型通过下述方式训练得到:
将获取的训练数据输入到待训练的内容分类模型,由所述待训练内容分类模型中的损失函数计算损失值,所述损失函数包括损失和系数,所述损失和系数用于表征一个类别的内容被识别为剩余类别所得全部损失系数的和;
响应于所述损失值小于预设的损失值阈值,停止训练,获得完成训练的目标内容分类模型。
2.根据权利要求1所述的内容质量评价方法,其特征在于,针对待识别内容为非文本多媒体的情况,确定待识别文本内容,包括:
获取待识别多媒体;
识别所述多媒体,得到表征所述多媒体内容的文本内容。
3.根据权利要求1所述的内容质量评价方法,其特征在于,所述类别权重系数通过以下公式获取:
其中,dm是第m类别归一化后的损失,表征类别权重系数;Cmx表示第m类别的内容被识别为第x类别的损失系数;Cix表示第i类别的内容被识别为第x类别的损失系数;n表示预先划分的低俗程度类别的数量,且i值越大表征低俗程度越高。
4.根据权利要求3所述的内容质量评价方法,其特征在于,所述损失系数通过统计文本内容类别的历史识别结果获得,或者所述损失系数采用经验值实现。
5.根据权利要求3所述的内容质量评价方法,其特征在于,文本内容的低俗程度越高,其被识别为正常类别的损失系数越大。
6.根据权利要求1所述的内容质量评价方法,其特征在于,所述损失和系数通过以下公式获取:
其中,n表示预先划分的低俗程度类别的数量,且i值越大表征低俗程度越高;Li表示第i类别的损失和系数;Cim表示第i类别被识别为第m类别的损失系数。
7.一种内容质量评价装置,其特征在于,包括:
文本内容确定模块,用于确定文本内容;
类别概率确定模块,用于将所述文本内容输入到预设的内容分类模型,由所述内容分类模型确定所述文本内容为各类别的概率;
评价数据确定模块,用于根据所述各类别的概率和所述各类别的类别权重系数确定所述文本内容的质量评价数据;所述类别权重系数用于表征各类别相对于其他类别的重要程度;
其中,所述装置还包括模型训练模块,所述模型训练模块包括:
训练数据获取单元,用于获取训练数据;
损失值计算单元,用于将所述训练数据输入到待训练内容分类模型,由所述待训练内容分类模型中的损失函数计算损失值;所述损失函数包括损失和系数,所述损失和系数用于表征一个类别的内容被识别为剩余类别所得全部损失系数的和;
分类模型获取单元,用于响应于所述损失值小于预设的损失值阈值,停止训练,获得完成训练的目标内容分类模型。
8.根据权利要求7所述的内容质量评价装置,其特征在于,针对待识别内容为非文本多媒体的情况,所述文本内容确定模块包括:
多媒体获取单元,用于获取待识别多媒体;
文本内容获取单元,用于识别所述多媒体,得到表征所述多媒体内容的文本内容。
9.根据权利要求7所述的内容质量评价装置,其特征在于,所述类别权重系数通过以下公式获取:
其中,dm是第m类别归一化后的损失,表征类别权重系数;Cmx表示第m类别的内容被识别为第x类别的损失系数;Cix表示第i类别的内容被识别为第x类别的损失系数;n表示预先划分的低俗程度类别的数量,且i值越大表征低俗程度越高。
10.根据权利要求9所述的内容质量评价装置,其特征在于,所述损失系数通过统计文本内容类别的历史识别结果获得,或者所述损失系数采用经验值实现。
11.根据权利要求9所述的内容质量评价装置,其特征在于,文本内容的低俗程度越高,其被识别为正常类别的损失系数越大。
12.根据权利要求7所述的内容质量评价装置,其特征在于,所述损失和系数通过以下公式获取:
其中,n表示预先划分的低俗程度类别的数量,且i值越大表征低俗程度越高;Li表示第i类别的损失和系数;Cim表示第i类别被识别为第m类别的损失系数。
13.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行的计算机程序的存储器;
所述处理器被配置为执行所述存储器中的计算机程序以实现权利要求1~6任一项所述方法的步骤。
14.一种可读存储介质,其上存储有可执行的计算机程序,其特征在于,该计算机程序被执行时实现权利要求1~6任一项所述方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010201888.0A CN111428032B (zh) | 2020-03-20 | 2020-03-20 | 内容质量评价方法及装置、电子设备、存储介质 |
US16/994,323 US11475879B2 (en) | 2020-03-20 | 2020-08-14 | Method and device for evaluating quality of content, electronic equipment, and storage medium |
EP20193305.8A EP3882787A1 (en) | 2020-03-20 | 2020-08-28 | Method and device for evaluating quality of content, electronic equipment, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010201888.0A CN111428032B (zh) | 2020-03-20 | 2020-03-20 | 内容质量评价方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111428032A CN111428032A (zh) | 2020-07-17 |
CN111428032B true CN111428032B (zh) | 2024-03-29 |
Family
ID=71548403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010201888.0A Active CN111428032B (zh) | 2020-03-20 | 2020-03-20 | 内容质量评价方法及装置、电子设备、存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11475879B2 (zh) |
EP (1) | EP3882787A1 (zh) |
CN (1) | CN111428032B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112233108A (zh) * | 2020-11-05 | 2021-01-15 | 深圳市丽湖软件有限公司 | 一种基于递归算法的质量评价方法 |
CN113288452B (zh) * | 2021-04-23 | 2022-10-04 | 北京大学 | 手术质量检测方法及装置 |
CN115545042B (zh) * | 2022-11-25 | 2023-04-28 | 北京优幕科技有限责任公司 | 演讲稿质量评估方法及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9454524B1 (en) * | 2015-12-04 | 2016-09-27 | Adobe Systems Incorporated | Determining quality of a summary of multimedia content |
CN109492124A (zh) * | 2018-11-22 | 2019-03-19 | 北京工业大学 | 选择性注意线索指导的不良主播检测方法、装置及电子设备 |
WO2020000779A1 (zh) * | 2018-06-28 | 2020-01-02 | 平安科技(深圳)有限公司 | 质量评价模型获取方法及装置、计算机设备与存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5371807A (en) | 1992-03-20 | 1994-12-06 | Digital Equipment Corporation | Method and apparatus for text classification |
CN102163286B (zh) | 2010-02-24 | 2013-03-20 | 中国科学院自动化研究所 | 一种色情图像评价方法 |
US20120032783A1 (en) * | 2010-08-09 | 2012-02-09 | Samsung Electronics Co., Ltd. | Electronic reader system with external display interface and method of operation thereof |
CN104933055B (zh) | 2014-03-18 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 网页识别方法及网页识别装置 |
US20170046510A1 (en) * | 2015-08-14 | 2017-02-16 | Qualcomm Incorporated | Methods and Systems of Building Classifier Models in Computing Devices |
US10628474B2 (en) * | 2016-07-06 | 2020-04-21 | Adobe Inc. | Probabalistic generation of diverse summaries |
CN106202394B (zh) * | 2016-07-07 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 文本资讯的推荐方法及系统 |
US11107463B2 (en) * | 2018-08-01 | 2021-08-31 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
-
2020
- 2020-03-20 CN CN202010201888.0A patent/CN111428032B/zh active Active
- 2020-08-14 US US16/994,323 patent/US11475879B2/en active Active
- 2020-08-28 EP EP20193305.8A patent/EP3882787A1/en not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9454524B1 (en) * | 2015-12-04 | 2016-09-27 | Adobe Systems Incorporated | Determining quality of a summary of multimedia content |
WO2020000779A1 (zh) * | 2018-06-28 | 2020-01-02 | 平安科技(深圳)有限公司 | 质量评价模型获取方法及装置、计算机设备与存储介质 |
CN109492124A (zh) * | 2018-11-22 | 2019-03-19 | 北京工业大学 | 选择性注意线索指导的不良主播检测方法、装置及电子设备 |
Non-Patent Citations (2)
Title |
---|
贾红雨 ; 王宇涵 ; 丛日晴 ; 林岩 ; .结合自注意力机制的神经网络文本分类算法研究.计算机应用与软件.2020,(02),全文. * |
鲜晴羽 ; 仇文革 ; 王泓颖 ; 许炜萍 ; 孙克国 ; .基于卷积神经网络的隧道掌子面图像质量评价方法研究.铁道科学与工程学报.2020,(03),全文. * |
Also Published As
Publication number | Publication date |
---|---|
US11475879B2 (en) | 2022-10-18 |
EP3882787A1 (en) | 2021-09-22 |
US20210295827A1 (en) | 2021-09-23 |
CN111428032A (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2649294C2 (ru) | Способ и устройство для построения шаблона и способ и устройство для идентификации информации | |
CN111428032B (zh) | 内容质量评价方法及装置、电子设备、存储介质 | |
CN111859020B (zh) | 推荐方法、装置、电子设备及计算机可读存储介质 | |
CN111539443A (zh) | 一种图像识别模型训练方法及装置、存储介质 | |
CN111461304B (zh) | 分类神经网络的训练方法、文本分类方法、装置及设备 | |
CN111210844B (zh) | 语音情感识别模型的确定方法、装置、设备及存储介质 | |
CN112148923B (zh) | 搜索结果的排序方法、排序模型的生成方法、装置及设备 | |
CN116090817A (zh) | 一种风险评估方法、装置、电子设备及存储介质 | |
CN108509406B (zh) | 一种语料抽取方法、装置和电子设备 | |
CN111753917A (zh) | 数据处理方法、装置及存储介质 | |
WO2020062803A1 (zh) | 基于模型树算法的异常流量分析方法、装置、电子设备及非易失性可读存储介质 | |
CN113779257A (zh) | 文本分类模型的解析方法、装置、设备、介质及产品 | |
CN113723995A (zh) | 一种确定营销任务的方法和装置 | |
CN111813932B (zh) | 文本数据的处理方法、分类方法、装置及可读存储介质 | |
CN111209429A (zh) | 用于度量语音数据库覆盖性的无监督模型训练方法及装置 | |
CN116541238A (zh) | 日志文件采集方法、装置、电子设备及可读存储介质 | |
CN111539617B (zh) | 数据处理方法和装置、电子设备、交互系统和存储介质 | |
CN111241284B (zh) | 文章内容识别方法、装置及计算机存储介质 | |
CN113643068A (zh) | 商品购买意图确定方法、装置、存储介质及电子设备 | |
CN115225702B (zh) | 信息推送方法、装置、电子设备及存储介质 | |
CN113190725B (zh) | 对象的推荐及模型训练方法和装置、设备、介质和产品 | |
CN114338587B (zh) | 一种多媒体数据处理方法、装置、电子设备及存储介质 | |
CN111428806B (zh) | 图像标签确定方法、装置、电子设备及存储介质 | |
CN112036507B (zh) | 图像识别模型的训练方法、装置、存储介质和电子设备 | |
CN111898019B (zh) | 信息推送方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |