CN108563731A - 一种情感分类方法及装置 - Google Patents

一种情感分类方法及装置 Download PDF

Info

Publication number
CN108563731A
CN108563731A CN201810305893.9A CN201810305893A CN108563731A CN 108563731 A CN108563731 A CN 108563731A CN 201810305893 A CN201810305893 A CN 201810305893A CN 108563731 A CN108563731 A CN 108563731A
Authority
CN
China
Prior art keywords
white text
pair
text
white
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810305893.9A
Other languages
English (en)
Inventor
余咸国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810305893.9A priority Critical patent/CN108563731A/zh
Publication of CN108563731A publication Critical patent/CN108563731A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请实施例提供一种情感分类方法及装置,通过获取确定包括与待测视频中的对应的至少一条对白文本的对白信息(对白信息包括待测视频对应的至少一条对白文本);对至少一条对白文本中的每条对白文本进行数据清洗,得到分别与每条对白文本对应的第一对白文本;确定分别与每条第一对白文本对应的满足预设对白规则的第二对白文本;分别确定每条第二对白文本的文本向量;将每条第二对白文本的文本向量作为预设的情感分类模型的输入信息输入至情感分类模型,得到分别与每条第二对白文本对应的对白文本的情感分类结果的方式,实现了基于对白文本的视频人物情感分类,降低了从计算机视觉的角度对视频中的人物进行情感分类时,所导致的对视频中人物情感分类不准确的情况的发生。

Description

一种情感分类方法及装置
技术领域
本发明涉及计算机领域,特别是涉及一种情感分类方法及装置。
背景技术
影视作品(如,电影、电视剧人物等)的情感总是跌宕起伏的,通过分析视频中人物的情感,可以让观众更好的把握影视作品的节奏。
目前,通常是从计算机视觉的角度对视频中的人物进行情感分类,比如,识别视频中的关键场景、视频中的人物表情等。但是,由于视频中的人物过多、场景复杂,故往往存在对视频中人物情感分类不准确的问题。
有鉴于此,提供一种情感分类方法及装置,以提高对视频中人物情感分类的准确性,是亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种情感分类方法及装置,以提高对视频中人物情感分类的准确性,具体实施方案如下:
一种情感分类方法,包括:
确定待测视频中的对白信息,所述对白信息包括所述待测视频对应的至少一条对白文本;
对所述至少一条对白文本中的每条对白文本进行数据清洗,得到分别与每条对白文本对应的第一对白文本;
确定分别与每条所述第一对白文本对应的满足预设对白规则的第二对白文本;
分别确定每条所述第二对白文本的文本向量;
将每条所述第二对白文本的文本向量作为预设的情感分类模型的输入信息输入至所述情感分类模型,得到分别与每条所述第二对白文本对应的对白文本的情感分类结果。
可选的,所述确定待测视频中的对白信息,包括:
确定所述待测视频对应的至少一条字幕信息;
确定预先设置的语言模型分别对每条所述字幕信息的评分结果;
针对每条所述字幕信息,若所述字幕信息的评分结果在预先设置的评分阈值内,将所述字幕信息确定为一条对白文本。
可选的,所述确定待测视频对应的至少一条字幕信息,包括:
采用OCR识别方法识别所述待测视频中的每一帧图像的字幕信息;
将识别到各条所述字幕信息确定为与所述待测视频对应的至少一条字幕信息。
可选的,所述对所述至少一条对白文本中的每条对白文本进行数据清洗,得到分别与每条对白文本对应的第一对白文本,包括:
将满足预设的删除条件的字符删除后的所述对白文本中的文本内容,确定为与所述对白文本对应的第一对白文本。
可选的,所述确定分别与每条所述第一对白文本对应的满足预设对白规则的第二对白文本,包括:
确定所述第一对白文本中的字符数;
若所述第一对白文本中的字符数超过预设对白字符数时,从所述第一对白文本中选取所述预设对白字符数的字符,并将由选取到的各字符组成的文本确定为与所述第一对白文本对应的第二对白文本;
若所述第一对白文本中的字符数未超过预设对白字符数时,在所述第一对白文本中添加预设字符,生成与所述第一对白文本对应的第二对白文本,其中,生成的与所述第一对白文本对应的第二对白文本包括的字符数与所述预设对白字符数相同。
可选的,所述分别确定每条所述第二对白文本的文本向量,包括:
根据所述第二对白文本中字符的顺序,依次确定所述第二对白文本中的每个字符的向量;
由依次确定的各向量构成所述第二对白文本的文本向量。
可选的,还包括:
确定所述待测视频中的每条所述对白文本在所述待测视频中的播放时间点;
基于所述待测视频中的每条所述对白文本的情感分类结果和播放时间点,生成与所述待测视频对应的情感分析曲线图。
可选的,所述预设的情感分类模型的构建方法包括:
确定至少一条训练对白文本;
对所述至少一条训练对白文本中的每条训练对白文本进行数据清洗,得到分别与每条训练对白文本对应的第一训练对白文本;
确定分别与每条所述第一训练对白文本对应的满足所述预设对白规则的第二训练对白文本;
分别确定每条所述第二训练对白文本的文本向量;
将所述训练对白文本对应的文本向量和所述训练对白文本所属的情感类别,作为预先设置的情感分类生成算法的输入信息输入至所述情感分类生成算法,以生成情感分类模型。
一种情感分类装置,包括:
对白信息确定单元,用于确定待测视频中的对白信息,所述对白信息包括所述待测视频对应的至少一条对白文本;
数据清洗单元,用于对所述至少一条对白文本中的每条对白文本进行数据清洗,得到分别与每条对白文本对应的第一对白文本;
第二对白文本确定单元,用于确定分别与每条所述第一对白文本对应的满足预设对白规则的第二对白文本;
文本向量确定单元,用于分别确定每条所述第二对白文本的文本向量;
情感分类结果确定单元,用于将每条所述第二对白文本的文本向量作为预设的情感分类模型的输入信息输入至所述情感分类模型,得到分别与每条所述第二对白文本对应的对白文本的情感分类结果。
可选的,所述对白信息确定单元,包括:
字幕信息确定单元,用于确定所述待测视频对应的至少一条字幕信息;
评分结果确定单元,用于确定预先设置的语言模型分别对每条所述字幕信息的评分结果;
对白信息确定子单元,用于针对每条所述字幕信息,若所述字幕信息的评分结果在预先设置的评分阈值内,将所述字幕信息确定为一条对白文本。
本申请实施例提供一种情感分类方法及装置,通过获取确定包括与待测视频中的对应的至少一条对白文本的对白信息(对白信息包括待测视频对应的至少一条对白文本);对至少一条对白文本中的每条对白文本进行数据清洗,得到分别与每条对白文本对应的第一对白文本;确定分别与每条第一对白文本对应的满足预设对白规则的第二对白文本;分别确定每条第二对白文本的文本向量;将每条第二对白文本的文本向量作为预设的情感分类模型的输入信息输入至情感分类模型,得到分别与每条第二对白文本对应的对白文本的情感分类结果的方式,实现了基于对白文本的视频人物情感分类,降低了从计算机视觉的角度对视频中的人物进行情感分类时,所导致的对视频中人物情感分类不准确的情况的发生。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种情感分类方法流程图;
图2为本申请实施例提供的另一种情感分类方法流程图;
图3为本申请实施例提供的一种待测视频的情感分析曲线图;
图4为本申请实施例提供的一种情感分类模型的构建方法流程图;
图5为本申请实施例提供的一种情感分类装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
图1为本申请实施例提供的一种情感分类方法流程图。
如图1所示,该方法包括:
S101、确定待测视频中的对白信息,对白信息包括待测视频对应的至少一条对白文本;
在本申请实施例中,优选的,确定待测视频中的对白信息,包括:确定待测视频对应的至少一条字幕信息;确定预先设置的语言模型分别对每条字幕信息的评分结果;针对每条字幕信息,若该字幕信息的评分结果在预先设置的评分阈值内,将该字幕信息确定为一条对白文本。
可选的,确定待测视频对应的至少一条字幕信息,包括:采用OCR识别方法识别待测视频中的每一帧图像的字幕信息;将识别到各条字幕信息确定为与待测视频对应的至少一条字幕信息。
在本申请实施例中,优选的,采用OCR识别方法,分别识别待测视频中的每一帧图像的字幕信息,以得到待测视频中的每帧图像的字幕信息;其中,可以将识别到的每帧图像的字幕信息确定为一条与待测视频对应的一条字幕信息。
可选的,从所确定的与待测视频对应的至少一条字幕信息中,确定与待测视频对应的至少一条对白文本的方式包括:针对所确定的与待测视频对应的每一条字幕信息,基于预先设置的语言模型对该条字幕信息进行评分,得到该条字幕信息的评分结果;若该条字幕信息的评分结果在预先设置的评分阈值内时,则确定该条字幕信息为一条与待测视频对应的对白文本;若该条字幕信息的评分结果不在预先设置的评分阈值内时,则对该条字幕信息进行纠错;基于预先设置的语言模型对该条纠错后的字幕信息进行评分;若该条纠错后的字幕信息的评分结果在预先设置的评分阈值内时,则确定该条纠错后的字幕信息为一条与待测视频对应的对白文本;若该条纠错后的字幕信息的评分结果不在预先设置的评分阈值内时,则确定该条纠错后的字幕信息不为与待测视频对应的对白文本。
在本申请实施例中,优选的,从所确定的与待测视频对应的至少一条字幕信息中,确定出的与待测视频对应的至少一条对白文本;此处的确定出的至少一条对白文本可以认为是确定的待测视频中的对白信息。
S102、对至少一条对白文本中的每条对白文本进行数据清洗,得到分别与每条对白文本对应的第一对白文本;
在本申请实施例中,优选的,对至少一条对白文本中的每条对白文本进行数据清洗,得到分别与每条对白文本对应的第一对白文本,包括:将满足预设的删除条件的字符删除后的对白文本中的文本内容,确定为与对白文本对应的第一对白文本。具体的,分别对至少一条对白文本中的每条对白文本,执行以下过程:将满足预设的删除条件的字符删除后的对白文本中的文本内容,确定为与对白文本对应的第一对白文本。
可选的,满足预设的删除条件的字符包括:表示的内容是数字的字符(比如,字符“1”、字符“80”等)、表示的内容是标点符号的字符(比如,字符“,”、字符“;”等),和/或表示的内容是预设内容的字符(比如,字符“人人影视”、字符“字幕站”、字符“宋体”、字符“楷体”等)。
以上仅仅是本申请实施例提供的满足预设的删除条件的字符的优选方式,发明人可根据自己的需求任意设置满足预设的删除条件的字符的具体内容,在此不做限定。
S103、确定分别与每条第一对白文本对应的满足预设对白规则的第二对白文本;
在本申请实施例中,优选的,确定分别与每条第一对白文本对应的满足预设对白规则的第二对白文本,包括:确定第一对白文本中的字符数;若第一对白文本中的字符数超过预设对白字符数时,从第一对白文本中选取预设对白字符数的字符,并将由选取到的各字符组成的文本确定为与第一对白文本对应的第二对白文本;若第一对白文本中的字符数未超过预设对白字符数时,在第一对白文本中添加预设字符,生成与第一对白文本对应的第二对白文本,其中,所生成的与第一对白文本对应的第二对白文本包括的字符数与预设对白字符数相同。
可选的,确定与第一对白文本对应的第二对白文本的方式包括:确定第一对白文本中的字符数是否超过预设对白字符数;若是超过,按照第一对白文本的文本内容的先后顺序,从第一对白文本中截取字符串,所截取到的字符串包括的字符数与预设对白字符数相同,将截取到的字符串确定为与第一对白文本对应的第二对白文本;若未超过,在第一对白文本的文本内容的末尾添加至少一个预设字符(确定预设对白字符数和第一对白文本中字符数的差值,该至少一个预设字符指示的预设字符的数量与该差值指示的字符的数量相同),并将添加预设字符后的第一对白文本确定为与该第一对白文本对应的第二对白文本。
以上仅仅是本申请实施例提供的一种确定分别与每条第一对白文本对应的满足预设对白规则的第二对白文本的优选方式,发明人可根据自己的需求任意设置确定分别与每条第一对白文本对应的满足预设对白规则的第二对白文本的方式,在此不做限定。
S104、分别确定每条第二对白文本的文本向量;
可选的,分别确定每条第二对白文本的文本向量,包括:根据第二对白文本中字符的顺序,依次确定第二对白文本中的每个字符的向量;由依次确定的各向量构成第二对白文本的文本向量。
在本申请实施例中,优选的,针对每条第二对白文本执行以下过程:依次确定该第二对白文本的文本内容中的每个字符的向量,由依次确定的各个向量构成该第二对白文本的文本向量。
可选的,第二对白文本的文本向量可以是一个矩阵,该矩阵中的每一列元素对应一个字符的向量,矩阵中的各列元素可以由依次确定的第二对白文本中的每个字符的向量构成。比如,若第二对白文本由字符1、字符2和字符3构成,并且,各个字符在第二对白文本中的顺序依次为字符3、字符1和字符2;则可以依次确定出字符3的向量、字符1的向量和字符2的向量;进而由依次确定的各个向量构成矩阵,该矩阵的第一列元素为字符3的向量,矩阵的第二列元素为字符1的向量,矩阵的第三列元素为字符2的向量。
可选的,基于word2vec分别确定每个字符的向量,比如,每个字符对应一个200维的向量。以上仅仅是本申请实施例提供的确定字符的向量的优选方式,发明人可根据自己的需求任意设置确定字符对应的向量的具体方式,在此不做限定。
S105、将每条第二对白文本的文本向量作为预设的情感分类模型的输入信息输入至情感分类模型,得到分别与每条第二对白文本对应的对白文本的情感分类结果。
可选的,预先设置有情感分类模型,将第二对白文本的文本向量作为输入信息输入至情感分类模型后,便可得到与该第二对白文本对应的对白文本的情感分类结果。
图2为本申请实施例提供的另一种情感分类方法流程图。
如图2所示,该方法包括:
S201、确定待测视频中的对白信息,对白信息包括待测视频对应的至少一条对白文本;
S202、对至少一条对白文本中的每条对白文本进行数据清洗,得到分别与每条对白文本对应的第一对白文本;
S203、确定分别与每条第一对白文本对应的满足预设对白规则的第二对白文本;
S204、分别确定每条第二对白文本的文本向量;
S205、将每条第二对白文本的文本向量作为预设的情感分类模型的输入信息输入至情感分类模型,得到分别与每条第二对白文本对应的对白文本的情感分类结果;
本申请实施例中的步骤S201-S205的执行过程与上述实施例提供的步骤S101-S105的执行过程相同,有关步骤S201-S205的具体执行方式请参见上述实施例提供的步骤S101-S105的执行方式,在此不做赘述。
S206、确定待测视频中的每条对白文本在待测视频中的播放时间点;
可选的,确定待测视频中的每条对白文本在待测视频中的播放时间点包括分别针对待测视频中的每条对白文本执行以下过程:确定该对白文本对应的字幕信息,将该对白文本对应的字幕信息在待测视频中的播放时间点,确定为该对白文本在待测视频中的播放时间点。
S207、基于待测视频中的每条对白文本的情感分类结果和播放时间点,生成与待测视频对应的情感分析曲线图。
在本申请实施例中,优选的,对白文本的情感分类结果以数值的形式表示,对白文本的情感分类结果为0-1之间的任意一个数值;其中,对白文本的情感分类结果为大于等于0、且小于0.5之间的数值时,说明此对白文本对应的情感类别为负面情感,且数值越低说明负面情感越严重;对白文本的情感分类结果为大于0.5、且小于等于1之间的数值时,说明此对白文本对应的情感类别为正面情感,且数值越高说明正面情感越高;对白文本的情感分类结果为0.5时,表明此对白文本对应的情感类别为中性。
图3为本申请实施例提供的一种待测视频的情感分析曲线图。
在本申请实施例中,优选的,如图3所示,可将待测视频的播放时间作为横坐标,待测视频中对白文本的情感分类结果作为纵坐标,构建与待测视频对应的情感分析曲线图。
基于本申请实施例提供的一种待测视频的情感分析曲线图,可便于用户清楚的了解该待测视频中的人物情感,并从该待测视频中选取感兴趣的时间段进行视频播放。
进一步的,为了使得本申请实施例提供的一种情感分类方法更加清楚,在此对本申请实施例提供的情感分类方法中的字幕信息、第一对白文本和第二对白文本之间的关系进行说明:
在本申请实施例中,优选的,针对视频中的一帧图像而言,可以采用ORC识别方法对该帧图像中的指定区域进行识别,以得到该帧图像中的字幕,此处所得到的字幕便可认为是一条字幕信息。
可选的,指定区域可以是位于图像底部的用于显示字幕的区域。以上仅仅是本申请实施例提供的指定区域的优选方式,有关指定区域的具体内容发明人可根据自己的需求任意设置,在此不做限定。
进一步的,针对一条字幕信息而言,若预先设置的语言模型对该条字幕信息的评分结果在预先设置的评分阈值内,则该条字幕信息可以被确定为一条对白文本。可选的,采用OCR识别方法对图像中指定区域进行识别,可能存在OCR无法有效识别出图像中指定区域中的字幕的情况(比如,图像背景与图像指定区域中字幕的颜色相近或相同时,OCR极有可能会出现无法有效识别出图像指定区域中的字幕的情况),故需要基于语言模型对OCR的识别结果(OCR对图像中指定区域的识别结果为字幕,该字幕可以看成一条字幕信息)进行评分的方式,确定该OCR的识别结果是否可以作为一条对白文本。在本申请实施例中,优选的,若语言模型对字幕信息的评分结果在预先设置的评分阈值内,则可以将该字幕信息确定为一条对白文本。
更进一步的,对该条对白文本进行数据清洗后,可以得到与该条对白文本对应的第一对白文本(即,针对一条对白文本而言,可以将进行数据清洗后的该对白文本确定为与该对白文本对应的第一对白文本);更进一步的,可以确定与该条第一对白文本对应的满足预设对白规则的第二对白文本(其中,确定与第一对白文本对应的第二对白文本的方式可以为:确定该第一对白文本中的字符数;若该第一对白文本中的字符数超过预设对白字符数时,从该第一对白文本中选取预设对白字符数的字符,并将由选取到的各字符组成的文本确定为与该第一对白文本对应的第二对白文本;若该第一对白文本中的字符数未超过预设对白字符数时,在该第一对白文本中添加预设字符,生成与该第一对白文本对应的第二对白文本,其中,生成的与该第一对白文本对应的第二对白文本包括的字符数与预设对白字符数相同)。
在本申请实施例中,优选的,语言模型的具体算法可以是条件概率,其中,条件概率可以是指一条语句(每条字幕信息可以看成一条语句)出现的概率,本申请上述实施例所提到的语言模型对字幕信息的评分可以理解成这条字幕信息的条件概率。比如,“我想吃饭”这条语句的条件概率为0.6。可以理解的是,每一条语句都是有条件概率的,有的语句的条件概率大,有的语句条件概率小。可选的,条件概率大的语句可以理解为是按一定规则表达的,符合语言逻辑的语句;条件概率小的语句可以理解为没有逻辑关系的表达,也就是乱码或者非正常交流的语句。即,条件概率大的字幕信息可以理解为是按一定规则表达的,符合语言逻辑的语句,条件概率小的字幕信息可以理解为没有逻辑关系的表达,也就是乱码或者非正常交流的语句。
图4为本申请实施例提供的一种情感分类模型的构建方法流程图。
如图4所示,该方法包括:
S401、确定至少一条训练对白文本;
可选的,从《字幕库》抓取8w条训练对白文本作为至少一条训练对白文本。以上仅仅是本申请实施例提供的一种确定至少一条训练对白文本的优选方式,发明人可根据自己的需求任意设置确定至少一条训练对白文本的具体方式,在此不做限定。
在本申请实施例中,优选的,针对至少一条训练对白文本中的每条训练对白文本而言,为该训练对白文本标定该训练对白文本所属的情感类别,比如,标定该训练对白文本属于正面情感类别/负面情感类别/中性情感类别。
S402、对至少一条训练对白文本中的每条训练对白文本进行数据清洗,得到分别与每条训练对白文本对应的第一训练对白文本;
S403、确定分别与每条第一训练对白文本对应的满足预设对白规则的第二训练对白文本;
S404、分别确定每条第二训练对白文本的文本向量;
S405、将训练对白文本对应的文本向量和训练对白文本所属的情感类别,作为预先设置的情感分类生成算法的输入信息输入至情感分类生成算法,以生成情感分类模型。
在本申请实施例中,优选的,针对至少一条训练对白文本中每条训练对白文本,将该训练对白文本对应的文本向量和该训练对白文本所属的情感类别作为输入信息,输入至预先设置的情感分类生成算法中,使得情感分类生成算法基于输入信息进行学习,生成情感分类模型。可选的,训练对白文本对应的文本向量可以是训练对白文本对应的第二训练对白文本的文本向量。
本申请实施例提供一种情感分类方法,通过确定待测视频中的对白信息,对白信息包括待测视频对应的至少一条对白文本;对至少一条对白文本中的每条对白文本进行数据清洗,得到分别与每条对白文本对应的第一对白文本;确定分别与每条第一对白文本对应的满足预设对白规则的第二对白文本;分别确定每条第二对白文本的文本向量;将每条第二对白文本的文本向量作为预设的情感分类模型的输入信息输入至情感分类模型,得到分别与每条第二对白文本对应的对白文本的情感分类结果的方式,实现了基于对白文本的视频人物情感分类,降低了从计算机视觉的角度对视频中的人物进行情感分类时,所导致的对视频中人物情感分类不准确的情况的发生。
图5为本申请实施例提供的一种情感分类装置的结构示意图。
如图5所示,该装置包括:
对白信息确定单元51,用于确定待测视频中的对白信息,对白信息包括待测视频对应的至少一条对白文本;
数据清洗单元52,用于对至少一条对白文本中的每条对白文本进行数据清洗,得到分别与每条对白文本对应的第一对白文本;
第二对白文本确定单元53,用于确定分别与每条第一对白文本对应的满足预设对白规则的第二对白文本;
文本向量确定单元54,用于分别确定每条第二对白文本的文本向量;
情感分类结果确定单元55,用于将每条第二对白文本的文本向量作为预设的情感分类模型的输入信息输入至情感分类模型,得到分别与每条第二对白文本对应的对白文本的情感分类结果。
在本申请实施例中,优选的,对白信息确定单元,包括:字幕信息确定单元,用于确定待测视频对应的至少一条字幕信息;评分结果确定单元,用于确定预先设置的语言模型分别对每条字幕信息的评分结果;对白信息确定子单元,用于针对每条字幕信息,若该字幕信息的评分结果在预先设置的评分阈值内,将该字幕信息确定为一条对白文本。
在本申请实施例中,优选的,字幕信息确定单元,包括:采用OCR识别方法识别待测视频中的每一帧图像的字幕信息;将识别到各条字幕信息确定为与待测视频对应的至少一条字幕信息。
在本申请实施例中,优选的,数据清洗单元具体用于:将满足预设的删除条件的字符删除后的对白文本中的文本内容,确定为与对白文本对应的第一对白文本。
在本申请实施例中,优选的,第二对白文本确定单元,包括:字符数确定单元,用于确定第一对白文本中的字符数;比较单元,用于若第一对白文本中的字符数超过预设对白字符数时,从第一对白文本中选取预设对白字符数的字符,并将由选取到的各字符组成的文本确定为与第一对白文本对应的第二对白文本;确定单元,用于若第一对白文本中的字符数未超过预设对白字符数时,在第一对白文本中添加预设字符,生成与第一对白文本对应的第二对白文本,其中,生成的与第一对白文本对应的第二对白文本包括的字符数与预设对白字符数相同。
在本申请实施例中,优选的,文本向量确定单元,包括:字符向量确定单元,用于根据第二对白文本中字符的顺序,依次确定第二对白文本中的每个字符的向量;文本向量确定子单元,用于由依次确定的各向量构成第二对白文本的文本向量。
进一步的,在本申请实施例提供的一种情感分类方法中,还包括生成单元,用于:确定待测视频中的每条对白文本在待测视频中的播放时间点;基于待测视频中的每条对白文本的情感分类结果和播放时间点,生成与待测视频对应的情感分析曲线图。
进一步的,在本申请实施例提供的一种情感分类方法中,还包括模型构建单元,用于:确定至少一条训练对白文本;对至少一条训练对白文本中的每条训练对白文本进行数据清洗,得到分别与每条训练对白文本对应的第一训练对白文本;确定分别与每条第一训练对白文本对应的满足预设对白规则的第二训练对白文本;分别确定每条第二训练对白文本的文本向量;将训练对白文本对应的文本向量和训练对白文本所属的情感类别,作为预先设置的情感分类生成算法的输入信息输入至情感分类生成算法,以生成情感分类模型。
本申请实施例提供一种情感分类装置,通过获取确定包括与待测视频中的对应的至少一条对白文本的对白信息(对白信息包括待测视频对应的至少一条对白文本);对至少一条对白文本中的每条对白文本进行数据清洗,得到分别与每条对白文本对应的第一对白文本;确定分别与每条第一对白文本对应的满足预设对白规则的第二对白文本;分别确定每条第二对白文本的文本向量;将每条第二对白文本的文本向量作为预设的情感分类模型的输入信息输入至情感分类模型,得到分别与每条第二对白文本对应的对白文本的情感分类结果的方式,实现了基于对白文本的视频人物情感分类,降低了从计算机视觉的角度对视频中的人物进行情感分类时,所导致的对视频中人物情感分类不准确的情况的发生。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种情感分类方法,其特征在于,包括:
确定待测视频中的对白信息,所述对白信息包括所述待测视频对应的至少一条对白文本;
对所述至少一条对白文本中的每条对白文本进行数据清洗,得到分别与每条对白文本对应的第一对白文本;
确定分别与每条所述第一对白文本对应的满足预设对白规则的第二对白文本;
分别确定每条所述第二对白文本的文本向量;
将每条所述第二对白文本的文本向量作为预设的情感分类模型的输入信息输入至所述情感分类模型,得到分别与每条所述第二对白文本对应的对白文本的情感分类结果。
2.根据权利要求1所述的方法,其特征在于,所述确定待测视频中的对白信息,包括:
确定所述待测视频对应的至少一条字幕信息;
确定预先设置的语言模型分别对每条所述字幕信息的评分结果;
针对每条所述字幕信息,若所述字幕信息的评分结果在预先设置的评分阈值内,将所述字幕信息确定为一条对白文本。
3.根据权利要求2所述的方法,其特征在于,所述确定待测视频对应的至少一条字幕信息,包括:
采用OCR识别方法识别所述待测视频中的每一帧图像的字幕信息;
将识别到各条所述字幕信息确定为与所述待测视频对应的至少一条字幕信息。
4.根据权利要求1所述的方法,其特征在于,所述对所述至少一条对白文本中的每条对白文本进行数据清洗,得到分别与每条对白文本对应的第一对白文本,包括:
将满足预设的删除条件的字符删除后的所述对白文本中的文本内容,确定为与所述对白文本对应的第一对白文本。
5.根据权利要求1所述的方法,其特征在于,所述确定分别与每条所述第一对白文本对应的满足预设对白规则的第二对白文本,包括:
确定所述第一对白文本中的字符数;
若所述第一对白文本中的字符数超过预设对白字符数时,从所述第一对白文本中选取所述预设对白字符数的字符,并将由选取到的各字符组成的文本确定为与所述第一对白文本对应的第二对白文本;
若所述第一对白文本中的字符数未超过预设对白字符数时,在所述第一对白文本中添加预设字符,生成与所述第一对白文本对应的第二对白文本,其中,生成的与所述第一对白文本对应的第二对白文本包括的字符数与所述预设对白字符数相同。
6.根据权利要求1所述的方法,其特征在于,所述分别确定每条所述第二对白文本的文本向量,包括:
根据所述第二对白文本中字符的顺序,依次确定所述第二对白文本中的每个字符的向量;
由依次确定的各向量构成所述第二对白文本的文本向量。
7.根据权利要求1所述的方法,其特征在于,还包括:
确定所述待测视频中的每条所述对白文本在所述待测视频中的播放时间点;
基于所述待测视频中的每条所述对白文本的情感分类结果和播放时间点,生成与所述待测视频对应的情感分析曲线图。
8.根据权利要求1-7任意一项所述的方法,其特征在于,所述预设的情感分类模型的构建方法包括:
确定至少一条训练对白文本;
对所述至少一条训练对白文本中的每条训练对白文本进行数据清洗,得到分别与每条训练对白文本对应的第一训练对白文本;
确定分别与每条所述第一训练对白文本对应的满足所述预设对白规则的第二训练对白文本;
分别确定每条所述第二训练对白文本的文本向量;
将所述训练对白文本对应的文本向量和所述训练对白文本所属的情感类别,作为预先设置的情感分类生成算法的输入信息输入至所述情感分类生成算法,以生成情感分类模型。
9.一种情感分类装置,其特征在于,包括:
对白信息确定单元,用于确定待测视频中的对白信息,所述对白信息包括所述待测视频对应的至少一条对白文本;
数据清洗单元,用于对所述至少一条对白文本中的每条对白文本进行数据清洗,得到分别与每条对白文本对应的第一对白文本;
第二对白文本确定单元,用于确定分别与每条所述第一对白文本对应的满足预设对白规则的第二对白文本;
文本向量确定单元,用于分别确定每条所述第二对白文本的文本向量;
情感分类结果确定单元,用于将每条所述第二对白文本的文本向量作为预设的情感分类模型的输入信息输入至所述情感分类模型,得到分别与每条所述第二对白文本对应的对白文本的情感分类结果。
10.根据权利要求9所述的装置,其特征在于,所述对白信息确定单元,包括:
字幕信息确定单元,用于确定所述待测视频对应的至少一条字幕信息;
评分结果确定单元,用于确定预先设置的语言模型分别对每条所述字幕信息的评分结果;
对白信息确定子单元,用于针对每条所述字幕信息,若所述字幕信息的评分结果在预先设置的评分阈值内,将所述字幕信息确定为一条对白文本。
CN201810305893.9A 2018-04-08 2018-04-08 一种情感分类方法及装置 Pending CN108563731A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810305893.9A CN108563731A (zh) 2018-04-08 2018-04-08 一种情感分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810305893.9A CN108563731A (zh) 2018-04-08 2018-04-08 一种情感分类方法及装置

Publications (1)

Publication Number Publication Date
CN108563731A true CN108563731A (zh) 2018-09-21

Family

ID=63534358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810305893.9A Pending CN108563731A (zh) 2018-04-08 2018-04-08 一种情感分类方法及装置

Country Status (1)

Country Link
CN (1) CN108563731A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614488A (zh) * 2018-12-04 2019-04-12 广西大学 基于文本分类和图像识别的配网带电作业条件判别方法
CN111144097A (zh) * 2019-12-25 2020-05-12 华中科技大学鄂州工业技术研究院 一种对话文本的情感倾向分类模型的建模方法和装置
CN111178068A (zh) * 2019-12-25 2020-05-19 华中科技大学鄂州工业技术研究院 一种基于对话情绪检测的催收暴力倾向评价方法和装置
CN111723198A (zh) * 2019-03-18 2020-09-29 北京京东尚科信息技术有限公司 一种文本情绪识别方法、装置及存储介质
CN112270198A (zh) * 2020-10-27 2021-01-26 北京百度网讯科技有限公司 角色确定方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN106604125A (zh) * 2016-12-29 2017-04-26 北京奇艺世纪科技有限公司 一种视频字幕的确定方法及装置
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN107491435A (zh) * 2017-08-14 2017-12-19 深圳狗尾草智能科技有限公司 基于计算机自动识别用户情感的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN106604125A (zh) * 2016-12-29 2017-04-26 北京奇艺世纪科技有限公司 一种视频字幕的确定方法及装置
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN107491435A (zh) * 2017-08-14 2017-12-19 深圳狗尾草智能科技有限公司 基于计算机自动识别用户情感的方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614488A (zh) * 2018-12-04 2019-04-12 广西大学 基于文本分类和图像识别的配网带电作业条件判别方法
CN111723198A (zh) * 2019-03-18 2020-09-29 北京京东尚科信息技术有限公司 一种文本情绪识别方法、装置及存储介质
CN111723198B (zh) * 2019-03-18 2023-09-01 北京汇钧科技有限公司 一种文本情绪识别方法、装置及存储介质
CN111144097A (zh) * 2019-12-25 2020-05-12 华中科技大学鄂州工业技术研究院 一种对话文本的情感倾向分类模型的建模方法和装置
CN111178068A (zh) * 2019-12-25 2020-05-19 华中科技大学鄂州工业技术研究院 一种基于对话情绪检测的催收暴力倾向评价方法和装置
CN111178068B (zh) * 2019-12-25 2023-05-23 华中科技大学鄂州工业技术研究院 一种基于对话情绪检测的催收暴力倾向评价方法和装置
CN111144097B (zh) * 2019-12-25 2023-08-18 华中科技大学鄂州工业技术研究院 一种对话文本的情感倾向分类模型的建模方法和装置
CN112270198A (zh) * 2020-10-27 2021-01-26 北京百度网讯科技有限公司 角色确定方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108563731A (zh) 一种情感分类方法及装置
JP5510167B2 (ja) ビデオ検索システムおよびそのためのコンピュータプログラム
CN112533051B (zh) 弹幕信息显示方法、装置、计算机设备和存储介质
WO2018177139A1 (zh) 一种视频摘要生成方法、装置、服务器及存储介质
US20080300872A1 (en) Scalable summaries of audio or visual content
CN106933808A (zh) 基于人工智能的文章标题生成方法、装置、设备及介质
TWI707296B (zh) 智慧教學顧問生成方法、系統、設備及儲存介質
TWI661319B (zh) 根據文本產生控制指令之裝置、方法及其電腦程式產品
CN113824972B (zh) 直播视频的处理方法、装置、设备及计算机可读存储介质
Biswas et al. Mmtoc: A multimodal method for table of content creation in educational videos
CN112911326B (zh) 弹幕信息处理方法、装置、电子设备和存储介质
CN110782511A (zh) 动态改变虚拟主播形象的方法、系统、装置和存储介质
CN110198482A (zh) 一种视频重点桥段标注方法、终端及存储介质
CN112163560A (zh) 一种视频信息处理方法、装置、电子设备及存储介质
US20140161423A1 (en) Message composition of media portions in association with image content
CN114095749A (zh) 推荐及直播界面展示方法、计算机存储介质、程序产品
CN108536676A (zh) 数据处理方法、装置、电子设备及存储介质
CN107977359A (zh) 一种影视剧本场景信息的提取方法
WO2022083132A1 (zh) 一种基于文字段落的动画草稿生成方法与装置
CN110933456A (zh) 一种基于视频的交互系统、方法、装置及电子设备
CN113038053A (zh) 一种数据合成方法、装置、电子设备以及存储介质
WO2023131016A1 (zh) 教程数据的展示方法、装置、计算机设备以及存储介质
CN117114475A (zh) 基于多维度人才评估策略的综合能力测评系统
WO2021097629A1 (zh) 数据处理方法、装置、电子设备和存储介质
CN116541114A (zh) 一种信息展示方法、装置、计算机设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180921