CN101963972A - 情感关键词提取方法及系统 - Google Patents

情感关键词提取方法及系统 Download PDF

Info

Publication number
CN101963972A
CN101963972A CN2010102168121A CN201010216812A CN101963972A CN 101963972 A CN101963972 A CN 101963972A CN 2010102168121 A CN2010102168121 A CN 2010102168121A CN 201010216812 A CN201010216812 A CN 201010216812A CN 101963972 A CN101963972 A CN 101963972A
Authority
CN
China
Prior art keywords
lyrics
class
word frequency
emotion
happy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102168121A
Other languages
English (en)
Inventor
王苗
谢湘
刘轶
黄石磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN RAISOUND TECHNOLOGY Co Ltd
Shenzhen Research Institute Beijing Institute Of Technology
SHENGANG MANUFACTURE-LEARNING-RESEARCH BASE INDUSTRY DEVELOPMENT CENTER
Original Assignee
SHENZHEN RAISOUND TECHNOLOGY Co Ltd
Shenzhen Research Institute Beijing Institute Of Technology
SHENGANG MANUFACTURE-LEARNING-RESEARCH BASE INDUSTRY DEVELOPMENT CENTER
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN RAISOUND TECHNOLOGY Co Ltd, Shenzhen Research Institute Beijing Institute Of Technology, SHENGANG MANUFACTURE-LEARNING-RESEARCH BASE INDUSTRY DEVELOPMENT CENTER filed Critical SHENZHEN RAISOUND TECHNOLOGY Co Ltd
Priority to CN2010102168121A priority Critical patent/CN101963972A/zh
Publication of CN101963972A publication Critical patent/CN101963972A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供了一种情感关键词提取方法及系统,所述方法包括:从歌词库中获取歌词;对所述歌词进行预处理,得到处理后的歌词文本;获取基于情感分类模型对所述歌词文本的情感程度标注;根据所述情感程度标注统计歌词文本中的词的词频度;根据所述词频度提取情感关键词。本发明提供的方法及系统能应用在音乐情感识别中,从而提高音乐情感识别的效果。

Description

情感关键词提取方法及系统
【技术领域】
本发明涉及信息处理技术领域,尤其涉及一种情感关键词提取方法及系统。
【背景技术】
音乐作为多媒体信息资源,在人们的生活中非常重要。充分利用已有的音乐资源,实现基于内容的音乐检索与分类技术已经成为近年的研究热点。情感内涵是音乐的本质属性,利用计算机辅助人利用情感感知音乐是唯一可以精确表示自身需要的方式,可以有效的实现自然的人机交互,其在3G娱乐类业务中有广阔的应用前景。
除了音乐本身之外,文字诗词等文本中也含有强烈的情感,我们可以通过文字来表达情感,例如日记、日志等。而一首歌曲除了音乐内容可以表达作者的情绪外,更需要透过歌词来表达歌曲所要带给听众的感受。因此在音乐情感识别中,除了可通过音乐内容来对情感进行识别外,还能结合歌词提高识别效果,因此要提高音乐识别效果,从歌词中提取情感关键词是必不可少的。
【发明内容】
基于此,有必要提供一种情感关键词提取方法,能应用于音乐情感识别中并提高识别效果。
一种情感关键词提取方法,包括以下步骤:从歌词库中获取歌词;对所述歌词进行预处理,得到处理后的歌词文本;获取基于情感分类模型对所述歌词文本的情感程度标注;根据所述情感程度标注统计歌词文本中的词的词频度;根据所述词频度提取情感关键词。
优选的,所述对歌词数据进行预处理的步骤具体是:将歌词分为两组以上,对每组歌词基于情感分类模型的压力维度的两类情感进行情感平衡化选曲,使得每组歌词中均衡的包含两类情感;提取每组中歌词的歌名,对所述歌名进行随机排序;按照歌名的排序结果将每组中歌名对应的歌词拼接成歌词文本。
优选的,获取基于情感分类模型对歌词文本的情感程度标注的步骤包括:获取两个以上的用户按照情感分类模型的压力维度对每个歌词文本进行的类别打分,所述打分对应于歌词的类别强度。
优选的,所述情感分类模型的压力维度的两类情感包括快乐类和悲伤类;所述根据情感程度标注统计歌词文本中的词的词频度的步骤具体是:根据所述类别强度确定歌词所属类别;对同一歌词计算其类别强度的平均值;将歌词所属类别为快乐类的歌词的类别强度平均值与预设快乐强度阈值比较,提取类别强度平均值大于所述预设快乐强度阈值的歌词,生成快乐类歌词库;将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲伤强度阈值比较,提取类别强度平均值小于所述预设悲伤强度阈值的歌词,生成悲伤类歌词库;分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理,利用词频统计工具,统计所有词的词频度。
优选的,在根据词频度提取情感关键词的步骤之前还包括:去除快乐类歌词库和悲伤类歌词库中词频度小于等于预设词频度阈值的词以及预先设定的非情感类词语,分别生成快乐类词频度表和悲伤类词频度表。
优选的,所述根据词频度提取情感关键词的步骤具体是:分别获取每个词在快乐类词频表中的词频度和在悲伤类词频表中的词频度;定义快乐和悲伤两个模糊集;分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶属度及属于悲伤模糊集的隶属度;根据所述隶属度分别计算快乐类词频表和悲伤类词频表中每个词的模糊熵;根据所述模糊熵提取情感关键词。
优选的,所述根据模糊熵提取情感关键词的步骤具体是:从所述快乐类词频表中提取模糊熵小于等于预设第一阈值的词为快乐类情感关键词,从所述悲伤类词频表中提取模糊熵小于等于预设第二阈值的词为悲伤类情感关键词。
此外,还有必要提供一种情感关键词提取系统,能应用于音乐情感识别中并提高识别效果。
一种情感关键词提取系统,包括:歌词获取模块,用于从歌词库中获取歌词;预处理模块,对所述歌词进行预处理,得到处理后的歌词文本;标注模块,获取基于情感分类模型对所述歌词文本的情感程度标注;词频统计模块,根据所述情感程度标注统计歌词文本中的词的词频度;提取模块,根据所述词频度提取情感关键词。
优选的,所述预处理模块包括:分类模块,将歌词分为两组以上,对每组歌词基于情感分类模型的压力维度的两类情感进行情感平衡化选曲,使得每组歌词中均衡的包含两类情感;排序模块,提取每组中歌词的所属歌曲名,对所述歌曲名进行随机排序;歌词文本生成模块,按照歌曲名的排序结果将每组相应的歌词拼接成歌词文本。
优选的,所述标注模块进一步用于根据情感分类模型的压力维度设置歌词的类别强度,获取两个以上的用户按照情感分类模型的压力维度对每个歌词文本进行的类别打分,所述打分对应于歌词的类别强度。
优选的,所述情感分类模型的压力维度的两类情感包括快乐类和悲伤类;所述词频统计模块包括:均值计算模块,根据所述类别强度确定歌词所属类别,并对同一歌词计算其类别强度的平均值;快乐类歌词库生成模块,将歌词所属类别为快乐类的歌词的类别强度平均值与预设快乐强度阈值比较,提取类别强度平均值大于所述预设快乐强度阈值的歌词,生成快乐类歌词库;悲伤类歌词库生成模块,将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲伤强度阈值比较,提取类别强度平均值小于所述预设悲伤强度阈值的歌词;词频度统计模块,分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理,利用词频统计工具,统计所有词的词频度。
优选的,还包括:词频度表生成模块,用于去除所述快乐类歌词库和悲伤类歌词库中词频度小于等于预设词频度阈值的词以及预先设定的非情感类词语,分别生成快乐类词频度表和悲伤类词频度表。
优选的,所述提取模块包括:词频度获取模块,用于分别获取每个词在快乐类词频表的词频度和在悲伤类词频表中的词频度;模糊集定义模块,定义快乐和悲伤两个模糊集;隶属度计算模块,分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶属度及属于悲伤模糊集的隶属度;模糊熵计算模块,根据所述隶属度分别计算快乐类词频表和悲伤类词频表中每个词的模糊熵;关键词提取模块,根据所述模糊熵提取情感关键词。
优选的,所述关键词提取模块进一步用于从所述快乐类词频表中提取模糊熵小于等于预设第一阈值的词为快乐类情感关键词,从所述悲伤类词频表中提取模糊熵小于等于预设第二阈值的词为悲伤类情感关键词。
上述情感关键词提取方法及系统,通过对歌词进行预处理以及基于情感分类模型对歌词文本进行情感程度标注,根据歌词的情感程度标注统计其中的词的词频度,从而能够提取歌词中的情感关键词;该方法及系统简单明确,能应用于音乐情感识别中,从而提高音乐情感的识别效果。
【附图说明】
图1为一个实施例中情感关键词提取方法的流程图;
图2为一个实施例中对歌词数据进行预处理的方法流程图;
图3为一个实施例中情感分类模型的示意图;
图4为一个实施例中提取情感关键词的方法流程图;
图5为一个实施例中隶属度与模糊熵的关系图;
图6为一个实施例中情感关键词提取系统的结构示意图;
图7为一个实施例中预处理模块的结构示意图;
图8为一个实施例中词频统计模块的结构示意图;
图9为一个实施例中提取模块的结构示意图。
【具体实施方式】
如图1所示,一种情感关键词提取方法,具体过程如下:
步骤S10,从歌词库中获取歌词。可以应不同的需求构建不同规模的歌词库,歌词库中的数据为IRC格式的歌词文本。在一个实施例中,构建的歌词库中包含568个歌词文本。
步骤S20,对歌词进行预处理,得到处理后的歌词文本。在一个实施例中,如图2所示,步骤S20的具体过程为:
步骤S201,将歌词分为两组以上,对每组歌词基于情感分类模型的压力维度的两类情感进行情感平衡化选曲,使得每组歌词中均衡的包含两类情感。图3为Thayer情感分类模型的示意图,其中,其横轴压力维度从快乐到悲伤,纵轴压力维度从平静到活力。在一个实施例中,根据歌词的总数将歌词分为两组以上,每组歌词的数量尽量均衡,例如对于歌词库中的568个歌词,可分为3组,分别为190个、190个和188个。对每组歌词基于Thayer情感分类模型的压力维度的两类情感进行情感平衡化选曲,优选的是基于横轴压力维度的两类情感即快乐类情感和悲伤类情感进行情感平衡化选曲,使得每组歌词中均衡的包含快乐和悲伤这两类情感。
步骤S202,提取每组中歌词的歌名,对歌名进行随机排序。
步骤S203,按照歌名的排序结果将每组中歌名对应的歌词拼接成歌词文本。对歌词库中的568个歌词文本,分组时均衡的分为3组,则拼接成歌词文本后得到3个歌词文本,每个歌词文本中相邻的两首歌词之间加入一行星号进行相隔。
步骤S30,获取基于情感分类模型对歌词文本的情感程度标注。该实施例中,根据Thayer情感分类模型的横轴压力维度设置歌词的类别强度,获取两个以上的用户按照Thayer情感分类模型的横轴压力维度对每个歌词文本中的歌词进行的类别打分,类别打分即对应于歌词的类别强度。优选的,获取8位用户的类别打分,即每个歌词文本中的歌词都由8位用户进行类别打分。如图3所示,根据Thayer情感分类模型的横轴压力维度,设置供用户进行类别打分的评测表如表1所示:
表1
Figure BSA00000168077600051
其中,“-2”、“-1”、“0”、“1”、“2”都为设置的类别强度,若用户对类别强度为“-2”打勾,则该歌词为悲伤类歌词,且其类别强度为“2”;若用户对类别强度为“0”打勾,则表明该歌词很难区分两类,即很难区分快乐类和悲伤类。
步骤S40,根据情感程度标注统计歌词文本中的词的词频度。在一个实施例中,步骤S40的具体过程包括:
(1)根据类别强度确定歌词所属类别。如上所述,类别强度为“-2”或“-1”,则为悲伤类;类别强度为“1”或“2”,则为快乐类;类别强度为“0”,则该歌曲既不属于快乐类也不属于悲伤类。
(2)对同一歌词计算其类别强度的平均值。对于第i个歌词文本,设获取到8位用户对它的情感程度标注,标注的类别强度分别为:x1、x2...x8,则该歌词的类别强度的平均值的计算公式为:
Xi=(x1+x2+......+x8)/8
其中,Xi为歌词在某类情感中的情感程度。若Xi>0,表示该歌词属于快乐类,其数值大小即反映其快乐程度。反之,若Xi<0,则表示该歌词属于悲伤类,其数值的绝对值大小反映其悲伤程度。
(3)将歌词所属类别为快乐类的歌词的类别强度平均值与预设快乐强度阈值比较,提取类别强度平均值大于预设快乐强度阈值的歌词,生成快乐类歌词库。当获取到8位用户对歌词的类别打分后,对于快乐类歌词,以平均值的最小值为准,当8位用户中6个人的打分结果均为“1”,另两个人的打分结果均为“-2”,则计算得到Xi为0.25,因此预设的快乐强度阈值为0.25。提取所有歌词中所属类别为快乐类且类别强度平均值大于0.25的歌词,生成快乐类歌词库。
(4)将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲伤强度阈值比较,提取类别强度平均值小于预设悲伤强度阈值的歌词,生成悲伤类歌词库。对于悲伤类歌词,以平均值的最大值为准,当8位用户中6个人的打分结果均为“-1”,另两个人的打分结果均为“2”,则计算得到Xi为-0.25,因此预设悲伤强度阈值为-0.25。提取所有歌词中所属类别为悲伤类且类别强度平均值小于-0.25的歌词,生成悲伤类歌词库。
(5)分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理,利用词频统计工具,统计其中所有词的词频度,词频度即为词在歌词中出现的次数。在一个实施例中,统计词频度之后,去除快乐类歌词库和悲伤类歌词库中词频度小于预设词频度阈值的词以及预先设定的非情感类词语。优选的,词频度阈值设定为2,非情感类词语为与情感无关的助词和副词等,例如“的”、“之”、“着”、“吗”、“什么”等等。去除这些词后,分别生成快乐类词频度表和悲伤类词频度表,其中,快乐类词频度表中记录了快乐类词库中的词与其词频度的对应关系,悲伤类词频度表记录了悲伤类词库中的词与其词频度的对应关系。
步骤S50,根据词频度提取情感关键词。在一个实施例中,如图4所示,步骤S50的具体过程为:
步骤S501,分别获取每个词在快乐类词频表中的词频度和在悲伤类词频表中的词频度。设上述得到的快乐类词频表为表X,悲伤类词频表为表Y。对于快乐类词频表X中的每个词,Xi1为第i个词在快乐类词频表X中的词频度,Xi2为该词在悲伤类词频表Y中的词频度。同理,对于悲伤类词频表Y中的每个词,Yj1为第j个词在悲伤类词频表X中的词频度,Yj2为该词在快乐类词频表中的词频度。
步骤S502,定义快乐和悲伤两个模糊集。定义的两个模糊集分别为{快乐}和{悲伤}。
步骤S503,分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶属度及属于悲伤模糊集的隶属度。对于快乐类词频表X中的每个词,第i个词属于模糊集{快乐}的隶属度为:
Figure BSA00000168077600071
其属于模糊集{悲伤}的隶属度为:
Figure BSA00000168077600072
同理,对于悲伤类词频表Y中的每个词,第j个词属于模糊集{快乐}的隶属度为:其术语模糊集{悲伤}的隶属度为:
Figure BSA00000168077600074
并满足条件:0≤u≤1,u为隶属度,规定当u=0时,ulog2u=0。
步骤S504中,根据隶属度分别计算快乐类词频表和悲伤类词频表中每个词的模糊熵。在快乐类词频表X中,第i个词的模糊熵的计算公式为: H X i = - u X i log 2 u X i - u Y i log 2 u Y i , 由于 u X i + u Y i = 1 , 因此有: H X i = - u X i log 2 u X i - ( 1 - u X i ) log 2 ( 1 - u X i ) . 同理,在悲伤类词频表Y中,第j个词的模糊熵为: H Y j = - u Y j log 2 u Y j - ( 1 - u Y j ) log 2 ( 1 - u Y j ) .
步骤S505中,根据模糊熵提取情感关键词。图5示出了一个实施例中计算得到的隶属度和模糊熵的关系,由图5可知,当隶属度
Figure BSA00000168077600085
或者
Figure BSA00000168077600086
取值越靠近曲线两端时,模糊熵H越小,即不确定性越小,模糊熵H越小,则表明该词在快乐类情感和悲伤类情感中的词频度相差越大,所以该词可以对这两类情感起到区分作用。反之,隶属度或者
Figure BSA00000168077600088
取值在中间0.5左右时,模糊熵H越小,不确定性越大,表明该词在两类情感中的词频度相近,所以该词对两类情感的区分起不到什么作用。
在一个实施例中,从快乐类词频表中提取模糊熵小于等于预设第一阈值的词为快乐类情感关键词,从悲伤类词频表中提取模糊熵小于等于预设第二阈值的词为悲伤类情感关键词。该实施例中,预先设定某个词在快乐类词频表和悲伤类词频表的两个词频度值之比大于等于2时,则认为该词可以对区分两类情感起到作用。因此,对于快乐类词频表,当Xi1=2Xi2时,
Figure BSA00000168077600089
同理,对于悲伤类词频表,当Yj1=2Yj2时,可得
Figure BSA000001680776000811
因此第一阈值和第二阈值可设定为0.9183。从快乐类词频表X中提取模糊熵小于等于0.9183的词以及从悲伤类词频表Y中提取模糊熵小于等于0.9183的词,从而得到快乐类和悲伤类这两类情感的关键词表。所得到的情感关键词表能够应用在音乐情感识别中,从而提高音乐情感的识别效果。
如图6所示,一种情感关键词提取系统,包括歌词获取模块10、预处理模块20、标注模块30、词频统计模块40和提取模块50,其中:歌词获取模块10用于从歌词库中获取歌词;预处理模块20用于对歌词进行预处理,得到处理后的歌词文本;标注模块30用于获取基于情感分类模型对歌词文本的情感程度标注;词频统计模块40用于根据情感程度标注统计歌词文本中的词的词频度;提取模块50用于根据词频度提取情感关键词。
如图7所示,在一个实施例中,预处理模块20包括分类模块201、排序模块202和歌词文本生成模块203,其中:分类模块201用于将歌词分为两组以上,对每组歌词基于情感分类模型的压力维度的两类情感进行情感平衡化选曲,使得每组歌词中均衡的包含两类情感;排序模块202用于提取每组中歌词的歌名,对所述歌名进行随机排序;歌词文本生成模块203用于按照歌名的排序结果将每组中歌名对应的歌词拼接成歌词文本。
在一个实施例中,标注模块30进一步用于根据情感分类模型的压力维度设置歌词的类别强度,获取两个以上的用户按照情感分类模型的压力维度对每个歌词文本进行的类别打分,该打分对应于歌词的类别强度。
如图8所示,在一个实施例中,词频统计模块40包括均值计算模块401、快乐类歌词库生成模块402、悲伤类歌词库生成模块403和词频度统计模块404,其中:均值计算模块401用于根据类别强度确定歌词所属类别,并对同一歌词计算其类别强度的平均值;快乐类歌词库生成模块402用于将歌词所属类别为快乐类的歌词的类别强度平均值与预设快乐强度阈值比较,提取类别强度平均值大于所述预设快乐强度阈值的歌词,生成快乐类歌词库;悲伤类歌词库生成模块403用于将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲伤强度阈值比较,提取类别强度平均值小于所述预设悲伤强度阈值的歌词;词频度统计模块404用于分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理,利用词频统计工具,统计所有词的词频度。
在一个实施例中,该系统还包括词频度表生成模块(图中未示出),用于去除所述快乐类歌词库和悲伤类歌词库中词频度小于等于预设词频度阈值的词以及预先设定的非情感类词语,分别生成快乐类词频度表和悲伤类词频度表。
如图9所示,在一个实施例中,提取模块50包括词频度获取模块501、模糊集定义模块502、隶属度计算模块503、模糊熵计算模块504和关键词提取模块505,其中:词频度获取模块501用于分别获取每个词在快乐类词频表的词频度和在悲伤类词频表中的词频度;模糊集定义模块502用于定义快乐和悲伤两个模糊集;隶属度计算模块503用于分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶属度及属于悲伤模糊集的隶属度;模糊熵计算模块504用于根据所述隶属度分别计算快乐类词频表和悲伤类词频表中每个词的模糊熵;关键词提取模块505用于根据所述模糊熵提取情感关键词。在一个优选的实施例中,关键词提取模块505进一步用于从快乐类词频表中提取模糊熵小于等于预设第一阈值的词为快乐类情感关键词,从悲伤类词频表中提取模糊熵小于等于预设第二阈值的词为悲伤类情感关键词,从而得到快乐类和悲伤类这两类情感的关键词表。所得到的情感关键词表能够应用在音乐情感识别中,从而提高音乐情感的识别效果。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (14)

1.一种情感关键词提取方法,包括以下步骤:
从歌词库中获取歌词;
对所述歌词进行预处理,得到处理后的歌词文本;
获取基于情感分类模型对所述歌词文本的情感程度标注;
根据所述情感程度标注统计歌词文本中的词的词频度;
根据所述词频度提取情感关键词。
2.根据权利要求1所述的情感关键词提取方法,其特征在于,所述对歌词数据进行预处理的步骤具体是:
将歌词分为两组以上,对每组歌词基于情感分类模型的压力维度的两类情感进行情感平衡化选曲,使得每组歌词中均衡的包含两类情感;
提取每组中歌词的歌名,对所述歌名进行随机排序;
按照歌名的排序结果将每组中歌名对应的歌词拼接成歌词文本。
3.根据权利要求2所述的情感关键词提取方法,其特征在于,获取基于情感分类模型对歌词文本的情感程度标注的步骤包括:
获取两个以上的用户按照情感分类模型的压力维度对每个歌词文本进行的类别打分,所述打分对应于歌词的类别强度。
4.根据权利要求3所述的情感关键词提取方法,其特征在于,所述情感分类模型的压力维度的两类情感包括快乐类和悲伤类;
所述根据情感程度标注统计歌词文本中的词的词频度的步骤具体是:
根据所述类别强度确定歌词所属类别;
对同一歌词计算其类别强度的平均值;
将歌词所属类别为快乐类的歌词的类别强度平均值与预设快乐强度阈值比较,提取类别强度平均值大于所述预设快乐强度阈值的歌词,生成快乐类歌词库;
将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲伤强度阈值比较,提取类别强度平均值小于所述预设悲伤强度阈值的歌词,生成悲伤类歌词库;
分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理,利用词频统计工具,统计所有词的词频度。
5.根据权利要求4所述的情感关键词提取方法,其特征在于,在根据词频度提取情感关键词的步骤之前还包括:去除快乐类歌词库和悲伤类歌词库中词频度小于等于预设词频度阈值的词以及预先设定的非情感类词语,分别生成快乐类词频度表和悲伤类词频度表。
6.根据权利要求5所述的情感关键词提取方法,其特征在于,所述根据词频度提取情感关键词的步骤具体是:
分别获取每个词在快乐类词频表中的词频度和在悲伤类词频表中的词频度;
定义快乐和悲伤两个模糊集;
分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶属度及属于悲伤模糊集的隶属度;
根据所述隶属度分别计算快乐类词频表和悲伤类词频表中每个词的模糊熵;
根据所述模糊熵提取情感关键词。
7.根据权利要求6所述的情感关键词提取方法,其特征在于,所述根据模糊熵提取情感关键词的步骤具体是:从所述快乐类词频表中提取模糊熵小于等于预设第一阈值的词为快乐类情感关键词,从所述悲伤类词频表中提取模糊熵小于等于预设第二阈值的词为悲伤类情感关键词。
8.一种情感关键词提取系统,其特征在于,包括:
歌词获取模块,用于从歌词库中获取歌词;
预处理模块,对所述歌词进行预处理,得到处理后的歌词文本;
标注模块,获取基于情感分类模型对所述歌词文本的情感程度标注;
词频统计模块,根据所述情感程度标注统计歌词文本中的词的词频度;
提取模块,根据所述词频度提取情感关键词。
9.根据权利要求8所述的情感关键词提取系统,其特征在于,所述预处理模块包括:
分类模块,将歌词分为两组以上,对每组歌词基于情感分类模型的压力维度的两类情感进行情感平衡化选曲,使得每组歌词中均衡的包含两类情感;
排序模块,提取每组中歌词的歌名,对所述歌名进行随机排序;
歌词文本生成模块,按照歌名的排序结果将每组中歌名对应的歌词拼接成歌词文本。
10.根据权利要求9所述的情感关键词提取系统,其特征在于,所述标注模块进一步用于根据情感分类模型的压力维度设置歌词的类别强度,获取两个以上的用户按照情感分类模型的压力维度对每个歌词文本进行的类别打分,所述打分对应于歌词的类别强度。
11.根据权利要求10所述的情感关键词提取系统,其特征在于,所述情感分类模型的压力维度的两类情感包括快乐类和悲伤类;所述词频统计模块包括:
均值计算模块,根据所述类别强度确定歌词所属类别,并对同一歌词计算其类别强度的平均值;
快乐类歌词库生成模块,将歌词所属类别为快乐类的歌词的类别强度平均值与预设快乐强度阈值比较,提取类别强度平均值大于所述预设快乐强度阈值的歌词,生成快乐类歌词库;
悲伤类歌词库生成模块,将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲伤强度阈值比较,提取类别强度平均值小于所述预设悲伤强度阈值的歌词;
词频度统计模块,分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理,利用词频统计工具,统计所有词的词频度。
12.根据权利要求11所述的情感关键词提取系统,其特征在于,还包括:
词频度表生成模块,用于去除所述快乐类歌词库和悲伤类歌词库中词频度小于等于预设词频度阈值的词以及预先设定的非情感类词语,分别生成快乐类词频度表和悲伤类词频度表。
13.根据权利要求12所述的情感关键词提取系统,其特征在于,所述提取模块包括:
词频度获取模块,用于分别获取每个词在快乐类词频表的词频度和在悲伤类词频表中的词频度;
模糊集定义模块,定义快乐和悲伤两个模糊集;
隶属度计算模块,分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶属度及属于悲伤模糊集的隶属度;
模糊熵计算模块,根据所述隶属度分别计算快乐类词频表和悲伤类词频表中每个词的模糊熵;
关键词提取模块,根据所述模糊熵提取情感关键词。
14.根据权利要求13所述的情感关键词提取系统,其特征在于,所述关键词提取模块进一步用于从所述快乐类词频表中提取模糊熵小于等于预设第一阈值的词为快乐类情感关键词,从所述悲伤类词频表中提取模糊熵小于等于预设第二阈值的词为悲伤类情感关键词。
CN2010102168121A 2010-07-01 2010-07-01 情感关键词提取方法及系统 Pending CN101963972A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102168121A CN101963972A (zh) 2010-07-01 2010-07-01 情感关键词提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102168121A CN101963972A (zh) 2010-07-01 2010-07-01 情感关键词提取方法及系统

Publications (1)

Publication Number Publication Date
CN101963972A true CN101963972A (zh) 2011-02-02

Family

ID=43516845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102168121A Pending CN101963972A (zh) 2010-07-01 2010-07-01 情感关键词提取方法及系统

Country Status (1)

Country Link
CN (1) CN101963972A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336806A (zh) * 2013-06-24 2013-10-02 北京工业大学 一种基于词出现间距的内在与外在模式熵差的关键词排序方法
CN103530789A (zh) * 2012-07-03 2014-01-22 百度在线网络技术(北京)有限公司 一种用于确定重点索引词的方法、装置和设备
CN103605658A (zh) * 2013-10-14 2014-02-26 北京航空航天大学 一种基于文本情感分析的搜索引擎系统
CN103970806A (zh) * 2013-02-05 2014-08-06 百度在线网络技术(北京)有限公司 一种建立歌词感情分类模型的方法及装置
CN106228977A (zh) * 2016-08-02 2016-12-14 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法
CN106898341A (zh) * 2017-01-04 2017-06-27 清华大学 一种基于共同语义空间的个性化音乐生成方法及装置
CN109063069A (zh) * 2018-07-23 2018-12-21 天翼爱音乐文化科技有限公司 歌曲标签确定方法、装置、计算机设备和可读存储介质
CN109783800A (zh) * 2018-12-13 2019-05-21 北京百度网讯科技有限公司 情感关键词的获取方法、装置、设备及存储介质
CN111883101A (zh) * 2020-07-13 2020-11-03 北京百度网讯科技有限公司 一种模型训练及语音合成方法、装置、设备和介质

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530789B (zh) * 2012-07-03 2018-09-07 百度在线网络技术(北京)有限公司 一种用于确定重点索引词的方法、装置和设备
CN103530789A (zh) * 2012-07-03 2014-01-22 百度在线网络技术(北京)有限公司 一种用于确定重点索引词的方法、装置和设备
CN103970806B (zh) * 2013-02-05 2019-02-05 北京音之邦文化科技有限公司 一种建立歌词感情分类模型的方法及装置
CN103970806A (zh) * 2013-02-05 2014-08-06 百度在线网络技术(北京)有限公司 一种建立歌词感情分类模型的方法及装置
CN103336806B (zh) * 2013-06-24 2016-08-10 北京工业大学 一种基于词出现间距的内在与外在模式熵差的关键词排序方法
CN103336806A (zh) * 2013-06-24 2013-10-02 北京工业大学 一种基于词出现间距的内在与外在模式熵差的关键词排序方法
CN103605658B (zh) * 2013-10-14 2016-08-10 北京航空航天大学 一种基于文本情感分析的搜索引擎系统
CN103605658A (zh) * 2013-10-14 2014-02-26 北京航空航天大学 一种基于文本情感分析的搜索引擎系统
CN106228977A (zh) * 2016-08-02 2016-12-14 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法
CN106228977B (zh) * 2016-08-02 2019-07-19 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法
CN106898341A (zh) * 2017-01-04 2017-06-27 清华大学 一种基于共同语义空间的个性化音乐生成方法及装置
CN109063069A (zh) * 2018-07-23 2018-12-21 天翼爱音乐文化科技有限公司 歌曲标签确定方法、装置、计算机设备和可读存储介质
CN109783800A (zh) * 2018-12-13 2019-05-21 北京百度网讯科技有限公司 情感关键词的获取方法、装置、设备及存储介质
CN109783800B (zh) * 2018-12-13 2024-04-12 北京百度网讯科技有限公司 情感关键词的获取方法、装置、设备及存储介质
CN111883101A (zh) * 2020-07-13 2020-11-03 北京百度网讯科技有限公司 一种模型训练及语音合成方法、装置、设备和介质
CN111883101B (zh) * 2020-07-13 2024-02-23 北京百度网讯科技有限公司 一种模型训练及语音合成方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN101963972A (zh) 情感关键词提取方法及系统
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN101599071B (zh) 对话文本主题的自动提取方法
CN102207948B (zh) 一种事件陈述句素材库的生成方法
CN111460213B (zh) 一种基于多模态学习的音乐情感分类方法
US20120029908A1 (en) Information processing device, related sentence providing method, and program
CN103106287B (zh) 一种用户检索语句的处理方法及系统
CN101833579B (zh) 一种自动检测学术不端文献的方法及系统
EP1590798A2 (en) Method for automatic and semi-automatic classification and clustering of non-deterministic texts
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
Li et al. Music artist style identification by semi-supervised learning from both lyrics and content
CN109299272B (zh) 一种用于神经网络输入的大信息量文本表示方法
CN111737414A (zh) 一种歌曲推荐方法及装置、服务器、存储介质
CN104778157A (zh) 一种多文档摘要句的生成方法
CN103942328A (zh) 一种视频检索方法及视频装置
He et al. Language feature mining for music emotion classification via supervised learning from lyrics
CN115618014A (zh) 一种应用大数据技术的标准文献分析管理系统及方法
CN101470699B (zh) 信息提取模型训练装置、信息提取装置和信息提取系统及其方法
KR101179613B1 (ko) 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법
CN114491034A (zh) 一种文本分类方法及智能设备
CN102750338A (zh) 面向迁移学习的文本处理方法及其文本特征提取方法
Swamy et al. Nit-agartala-nlp-team at semeval-2020 task 8: Building multimodal classifiers to tackle internet humor
CN113297844B (zh) 一种基于doc2vec模型与最小编辑距离的重复性数据检测方法
Srinilta et al. Lyric-based sentiment polarity classification of Thai songs
CN102207947B (zh) 一种直接引语素材库的生成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110202