CN106708789B - 一种文本处理方法及装置 - Google Patents
一种文本处理方法及装置 Download PDFInfo
- Publication number
- CN106708789B CN106708789B CN201510784305.0A CN201510784305A CN106708789B CN 106708789 B CN106708789 B CN 106708789B CN 201510784305 A CN201510784305 A CN 201510784305A CN 106708789 B CN106708789 B CN 106708789B
- Authority
- CN
- China
- Prior art keywords
- voice
- word
- emotion
- word segmentation
- emotional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 14
- 230000008451 emotion Effects 0.000 claims abstract description 170
- 230000011218 segmentation Effects 0.000 claims abstract description 79
- 230000002996 emotional effect Effects 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000015572 biosynthetic process Effects 0.000 claims description 27
- 238000003786 synthesis reaction Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 26
- 230000001360 synchronised effect Effects 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 3
- 230000002194 synthesizing effect Effects 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000007935 neutral effect Effects 0.000 description 6
- 238000001308 synthesis method Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000033764 rhythmic process Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例提供一种文本处理方法及装置,其中的方法可包括:获取即时通讯应用中与目标用户关联的文本消息;将所述文本消息划分为至少一个分词;分别计算所述至少一个分词中每一个分词的情感极性;将每一个所述分词按照所述分词的情感极性对应的情感语音进行播放。本发明可将即时通讯应用中的文本消息采用情感语音进行播放,不仅提高了文本消息展示的趣味性,而且减少用户的用眼时间,使用极其方便。
Description
技术领域
本发明涉及通信技术领域,具体涉及一种文本处理方法及装置。
背景技术
随着通信技术的发展,各种即时通讯应用应运而生,用户之间可以利用即时通讯应用进行文本信息交互,例如,用户之间可以利用即时通讯应用进行聊天信息的交互;用户也可以利用即时通讯应用发表文本消息,例如,用户可以在自己的朋友圈发表各种文本消息。然而目前,各种即时通讯应用中的文本消息均是以文本的形式进行显示的,用户必须打开终端屏幕才能查看到相应的文本消息,这种方式使用起来极其不方便,增加用户的用眼时间。
发明内容
本发明实施例提供一种文本处理方法及装置,可将即时通讯应用中的文本消息采用情感语音进行播放,不仅提高了文本消息展示的趣味性,而且减少用户的用眼时间,使用极其方便。
本发明第一方面提供一种文本处理方法,可包括:
获取即时通讯应用中与目标用户关联的文本消息;
将所述文本消息划分为至少一个分词;
分别计算所述至少一个分词中每一个分词的情感极性;
将每一个所述分词按照所述分词的情感极性对应的情感语音进行播放。
本发明第二方面提供一种文本处理装置,可包括:
第一获取模块,用于获取即时通讯应用中与目标用户关联的文本消息;
划分模块,用于将所述文本消息划分为至少一个分词;
计算模块,用于分别计算所述至少一个分词中每一个分词的情感极性;
播放模块,用于将每一个所述分词按照所述分词的情感极性对应的情感语音进行播放。
实施本发明实施例,具有如下有益效果:
本发明实施例,获取即时通讯应用中与目标用户关联的文本消息,将该文本消息划分为至少一个分词,分别计算该至少一个分词中每一个分词的情感极性,将每一个分词按照该分词的情感极性对应的情感语音进行播放,这种方式可将即时通讯应用中的文本消息采用情感语音进行播放,不仅提高了文本消息展示的趣味性,而且减少用户的用眼时间,使用极其方便。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文本处理方法的流程图;
图2为本发明实施例提供的另一种文本处理方法的流程图;
图3为本发明实施例提供的又一种文本处理方法的流程图;
图4为本发明实施例提供的一种义原相似度算法流程图;
图5为本发明实施例提供的一种词语相似度算法流程图;
图6为本发明实施例提供的一种情感语音合成框图;
图7为本发明实施例提供的一种文本处理装置的结构示意图;
图8为本发明实施例提供的一种计算模块的结构示意图;
图9为本发明实施例提供的一种播放模块的结构示意图;
图10为本发明实施例提供的另一种文本处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面将结合附图1-附图6,对本发明实施例提供的文本处理方法进行详细介绍。
请参照图1,为本发明实施例提供的一种文本处理方法的流程图;该方法可包括以下步骤S100-步骤S103。
S100,获取即时通讯应用中与目标用户关联的文本消息;
具体实施例中,与目标用户关联的文本消息可以是,与目标用户交互的聊天信息,也可以是目标用户在朋友圈发布的更新消息、动态消息等等。
S101,将所述文本消息划分为至少一个分词;
具体实施例中,使用ANSJ系统将所获取的文本消息进行分词,划分为至少一个分词,例如,若文本信息为“我爱母校”,则可以将该文本消息划分为三个分词,分别为“我”、“爱”、“母校”。
S102,分别计算所述至少一个分词中每一个分词的情感极性;
具体实施例中,分别计算所划分的至少一个分词中每一个分词的情感极性,情感极性用于表明该分词的感情色彩,情感极性可以包括高兴、悲伤、厌恶以及发怒等等。
分别计算所划分的至少一个分词中每一个分词的情感极性,针对每一个分词的情感极性计算方法可以是首先获取该分词的词性,词性可以包括名词、形容词、动词、副词等等,然后在Hownet词库中选择具有代表意义且与该分词的词性相同的正向情感词与反向情感词各5个(这里5个仅为举例),将选择出的10个代表词语分别与该分词进行比较计算,获得与该分词的相似度,最后将相似度最大的代表词对应的情感极性确定为该分词的情感极性。
具体的,针对分词与某一个代表词之间词语相似度的计算如图5所示,假设分词与代表词分别为W1和W2,将W1的所有概念和W2的所有概念两两计算概念相似度,这里以W1的其中一个概念C1与W2的其中一个概念C2计算为例进行说明,计算C1与C2的第一基本义原相似度Sim1,通过集合计算方式计算C1与C2的其他基本义原相似度Sim2,通过特征结构计算方式计算C1与C2的关系基本义原相似度Sim3,通过以特征结构为元素的集合计算方式计算C1与C2的符号基本义原相似度Sim4,通过综合Sim1,Sim2,Sim3,Sim4计算得到概念C1与C2的概念相似度。按照上述方法将W1的所有概念和W2的所有概念两两计算概念相似度,取最大的概念相似度作为该分词与该代表词的词语相似度。
需要说明的是,上述方法在计算义原相似度时,可以采用图4的计算方法,通过对Hownet自带文件semdict.dat,计算义原之间的相互关系,hownet通过符号定义包含、空间、可能等15种关系。若义原之间有相互关系则直接返回预设的逻辑距离,若无相互关系则根据义原在层次树中的位置来确定逻辑距离,具体的根据义原的位置确定逻辑距离的方式为,根据义原在树中的深度(距离跟结点的边数)、密度(兄弟节点的多寡)、两义原在层次树上的物理距离(义原之间的边数),来计算义原之间的逻辑距离。最后,根据逻辑距离计算义原相似度。
S103,将每一个所述分词按照所述分词的情感极性对应的情感语音进行播放。
具体实施例中,当计算出每一个分词的情感极性后,即按照该分词的情感极性对应的情感语音播放该分词,例如,若某一个分词的情感极性为高兴,则按照高兴的情感语音进行播放,若某一个分词的情感极性为悲伤,则按照悲伤的情感语音进行播放。需要说明的是,对于情感语音的合成,可以采用基于隐马尔科夫模型的情感语音合成方法进行合成,也可以采用基音同步叠加技术算法合成情感语音。
本发明实施例,获取即时通讯应用中与目标用户关联的文本消息,将该文本消息划分为至少一个分词,分别计算该至少一个分词中每一个分词的情感极性,将每一个分词按照该分词的情感极性对应的情感语音进行播放,这种方式可将即时通讯应用中的文本消息采用情感语音进行播放,不仅提高了文本消息展示的趣味性,而且减少用户的用眼时间,使用极其方便。
请参照图2,为本发明实施例提供的另一种文本处理方法的流程图;该方法可包括以下步骤S200-步骤S206。
S200,获取即时通讯应用中与目标用户关联的文本消息;
S201,将所述文本消息划分为至少一个分词;
本发明实施例步骤S200-S201,请参照图1的实施例步骤S100-S101,在此不再赘述。
S202,针对每一个所述分词,获取所述分词的目标词性;
具体实施例中,在对分词进行情感极性计算时,首先获取分词的目标词性,词性可以包括名词、形容词、动词、副词等等。
S203,从预设数据库中选择与所述目标词性相同的预设个数的代表词,每个所述代表词对应不同的情感极性;
具体实施例中,从预设数据库中选择与目标词性相同的预设个数的代表词,该代表词可以包括具有代表意义的正向情感词与反向情感词各5个,将该分词与对应词性的10个代表词进行比较计算,得到该分词的情感极性。
S204,计算所述分词与每个所述代表词之间的词语相似度;
具体实施例中,各个代表词都具有相应的情感极性,为了获取分词的情感极性,需要计算该分词与每个代表词之间的词语相似度。
可选的,所述计算所述分词与每个所述代表词之间的词语相似度,包括:
S20,针对所述分词与每一个所述代表词,分别获取所述分词的多个概念与所述代表词的多个概念;
具体实施例中,如图5所示,在计算两个词语(比如为W1和W2)的相似度时,首先需要获取W1的多个概念和W2的多个概念。
S21,计算所述分词的多个概念中每个概念与所述代表词的多个概念中每个概念之间的相似度,并选取其中最大的相似度作为所述分词与所述代表词之间的词语相似度。
具体实施例中,计算W1的多个概念中每个概念和W2的多个概念中每个概念之间的相似度,这里以计算W1的多个概念中的C1和W2的多个概念中的C2之间的相似度为例进行说明,如图5所示,计算C1和与C2的第一基本义原相似度Sim1,通过集合计算方式计算C1与C2的其他基本义原相似度Sim2,通过特征结构计算方式计算C1与C2的关系基本义原相似度Sim3,通过以特征结构为元素的集合计算方式计算C1与C2的符号基本义原相似度Sim4,通过综合Sim1,Sim2,Sim3,Sim4计算得到概念C1与C2的概念相似度。按照上述方法将W1的所有概念和W2的所有概念两两计算概念相似度,取最大的概念相似度作为该分词与该代表词的词语相似度。
S205,将与所述分词之间词语相似度最大的代表词所对应的情感极性确定为所述分词的情感极性。
具体实施例,计算出某个分词与所有代表词之间的词语相似度后,将相似度最大的代表词所对应的情感极性确定为该分词的情感极性。各个代表词的情感极性可以由用户根据具体应用进行预先设置。
S206,基于隐马尔科夫模型将每一个所述分词转化为所述分词的情感极性对应的情感语音,并播放所述情感语音;或者,
基于基音同步叠加技术将每一个所述分词转化为所述分词的情感极性对应的情感语音,并播放所述情感语音。
具体实施例中,对于情感语音的合成,可以采用基于隐马尔科夫模型(HiddenMarkov Model,HMM)的情感语音合成方法或基音同步叠加算法合成情感语音。如图6所示,为基于隐马尔可夫模型的情感语音合成方法的基本结构,情感语音合成方法分为三个模块:基于HMM的语音合成模块、韵律参数修改模块和情感语句生成模块。
在本系统中,首先由基于HMM的语音合成系统合成出"中立"状态的语音语句,然后对合成出的"中立"情感状态的语句进行韵律参数提取。按照不同情感极性下韵律参数的变化规律,对"中立"情感的韵律参数进行修改。最后根据修改好的情感韵律参数,合成带有情感的语音,并播放该语音。
基音同步叠加技术是用波形编辑合成语音技术中对合成语音的韵律进行修改的一种算法,既保持原始语音的主要音段特征,又可以在语音拼接时灵活调整其基音、能量和音长等韵律特征,因而很适合于汉语语音的规则合成。
可选的,所述基于隐马尔科夫模型将每一个所述分词转化为所述分词的情感极性对应的情感语音,包括:
S22,基于隐马尔科夫模型的语音合成系统,将每一个所述分词转换为备选语音;
具体实施例中,基于HMM的语音合成系统将每一个分词转换为备选语音,HMM的语音合成系统由特征提取部分、模型训练部分、上下文标注序列以及合成引擎几部分组成。
S23,获取所述分词的情感极性对应的目标韵律参数;
具体实施例中,各种情感极性对应不同的韵律参数,获取该分词的情感极性对应的目标韵律参数。根据研究,韵律参数中基频、语速和能量强度为三个基本情感特征。
S24,将所述备选语音的韵律参数修改为所述目标韵律参数,并将修改后的所述备选语音确定为所述分词的情感极性对应的情感语音。
具体实施例中,合成情感语音的关键在于韵律参数修改模块。人之所以能从语音中辨别出不同的情感,是因为语音包含有能体现情感的韵律参数,情感的变化通过韵律参数的差异而体现。通常认为韵律参数是表征语音情感最典型也是最简单的特征。根据研究,基频、语速和能量强度为三个基本情感特征,并总结出以下几条规律:
①基频的规律:“高兴”情感的基频平均值较高,基频范围较宽,表现为说话时声音的尖锐;“生气”时基频的平均值很高,基频范围也较宽,表现为在极为生气的状况下声音刺耳;“悲伤”情感时基频的平均值非常低,基频范围略窄,表现为声音很低沉。
②语速的规律:“高兴”情感的语速较快;“生气”时语速比“高兴”时略慢;“悲伤”情感时语速缓慢。
③能量强度的规律:“高兴”情感与“生气”情感的能量都交高,表现为处于这两种情感时的音量的较大,尤其是在“生气”情感时,每个重音都表现的比较明显;“悲伤”情感能量较低,表现为此时说话声音较小。
根据基频、语速、及能量强度在“高兴”、“生气”和“悲伤”三种情感中的规律,修改每种备选语音对应的韵律参数。其中基频、语速参数利用Praat软件修改,能量强度利用Cooledit软件修改。将修改后的韵律参数分别送入合成系统,最终合成出“高兴”、“生气”和“悲伤”这些情感语音。
本发明实施例,获取即时通讯应用中与目标用户关联的文本消息,将该文本消息划分为至少一个分词,分别计算该至少一个分词中每一个分词的情感极性,将每一个分词按照该分词的情感极性对应的情感语音进行播放,这种方式可将即时通讯应用中的文本消息采用情感语音进行播放,不仅提高了文本消息展示的趣味性,而且减少用户的用眼时间,使用极其方便。
请参照图3,为本发明实施例提供的又一种文本处理方法的流程图;该方法可包括以下步骤S300-步骤S304。
S300,从预设语音特征数据库中获取所述目标用户对应的目标语音特征,所述预设语音特征数据库中预先存储多个用户中每个用户的语音特征;
具体实施例中,在预设语音特征数据库中为每个用户建立语音特征集合,具体的当某个用户发送语音时,系统自动基于Hilbert(希尔伯特变换)谱估计的语音特征提取方法提取每个用户的语音特征,并保存在预设语音特征数据库的该用户对应的集合中。基于Hilbert谱估计的特征提取过程主要包括预加重、分帧与加窗及特征提取过程。
本实施例中需要播放目标用户的文本消息,自动从预设语音特征数据库中调出该目标用户的目标语音特征。
S301,获取即时通讯应用中与目标用户关联的文本消息;
S302,将所述文本消息划分为至少一个分词;
S303,分别计算所述至少一个分词中每一个分词的情感极性;
S304,利用所述目标语音特征,将每一个所述分词按照所述分词的情感极性对应的情感语音进行播放。
具体实施例中,在采用各个分词的情感极性播放时,系统用类似目标用户的目标语音特征进行播放。
本发明实施例,获取即时通讯应用中与目标用户关联的文本消息,将该文本消息划分为至少一个分词,分别计算该至少一个分词中每一个分词的情感极性,将每一个分词按照该分词的情感极性对应的情感语音进行播放,这种方式可将即时通讯应用中的文本消息采用情感语音进行播放,不仅提高了文本消息展示的趣味性,而且减少用户的用眼时间,使用极其方便。
下面将结合附图7-附图10,对本发明实施例提供的一种文本处理装置进行详细介绍。
请参阅图7,为本发明实施例提供的一种文本处理装置的结构示意图;该装置可包括:第一获取模块100、划分模块101、计算模块102以及播放模块103;
第一获取模块100,用于获取即时通讯应用中与目标用户关联的文本消息;
具体实施例中,与目标用户关联的文本消息可以是,与目标用户交互的聊天信息,也可以是目标用户在朋友圈发布的更新消息、动态消息等等。
划分模块101,用于将所述文本消息划分为至少一个分词;
具体实施例中,划分模块101使用ANSJ系统将所获取的文本消息进行分词,划分为至少一个分词,例如,若文本信息为“我爱母校”,则可以将该文本消息划分为三个分词,分别为“我”、“爱”、“母校”。
计算模块102,用于分别计算所述至少一个分词中每一个分词的情感极性;
具体实施例中,计算模块102分别计算所划分的至少一个分词中每一个分词的情感极性,情感极性用于表明该分词的感情色彩,情感极性可以包括高兴、悲伤、厌恶以及发怒等等。
分别计算所划分的至少一个分词中每一个分词的情感极性,针对每一个分词的情感极性计算方法可以是首先获取该分词的词性,词性可以包括名词、形容词、动词、副词等等,然后在Hownet词库中选择具有代表意义且与该分词的词性相同的正向情感词与反向情感词各5个(这里5个仅为举例),将选择出的10个代表词语分别与该分词进行比较计算,获得与该分词的相似度,最后将相似度最大的代表词对应的情感极性确定为该分词的情感极性。
具体的,针对分词与某一个代表词之间词语相似度的计算如图5所示,假设分词与代表词分别为W1和W2,将W1的所有概念和W2的所有概念两两计算概念相似度,这里以W1的其中一个概念C1与W2的其中一个概念C2计算为例进行说明,计算C1与C2的第一基本义原相似度Sim1,通过集合计算方式计算C1与C2的其他基本义原相似度Sim2,通过特征结构计算方式计算C1与C2的关系基本义原相似度Sim3,通过以特征结构为元素的集合计算方式计算C1与C2的符号基本义原相似度Sim4,通过综合Sim1,Sim2,Sim3,Sim4计算得到概念C1与C2的概念相似度。按照上述方法将W1的所有概念和W2的所有概念两两计算概念相似度,取最大的概念相似度作为该分词与该代表词的词语相似度。
需要说明的是,上述方法在计算义原相似度时,可以采用图4的计算方法,通过对Hownet自带文件semdict.dat,计算义原之间的相互关系,hownet通过符号定义包含、空间、可能等15种关系。若义原之间有相互关系则直接返回预设的逻辑距离,若无相互关系则根据义原在层次树中的位置来确定逻辑距离,具体的根据义原的位置确定逻辑距离的方式为,根据义原在树中的深度(距离跟结点的边数)、密度(兄弟节点的多寡)、两义原在层次树上的物理距离(义原之间的边数),来计算义原之间的逻辑距离。最后,根据逻辑距离计算义原相似度。
可选的,如图8所示,计算模块102可以包括第一获取单元1020、选择单元1021、计算单元1022、确定单元1023;
第一获取单元1020,用于针对每一个所述分词,获取所述分词的目标词性;
具体实施例中,在对分词进行情感极性计算时,首先获取分词的目标词性,词性可以包括名词、形容词、动词、副词等等。
选择单元1021,用于从预设数据库中选择与所述目标词性相同的预设个数的代表词,每个所述代表词对应不同的情感极性;
具体实施例中,选择单元1021从预设数据库中选择与目标词性相同的预设个数的代表词,该代表词可以包括具有代表意义的正向情感词与反向情感词各5个,将该分词与对应词性的10个代表词进行比较计算,得到该分词的情感极性。
计算单元1022,用于计算所述分词与每个所述代表词之间的词语相似度;
具体实施例中,各个代表词都具有相应的情感极性,为了获取分词的情感极性,计算单元1022需要计算该分词与每个代表词之间的词语相似度。
进一步的,计算单元可以包括获取子单元和计算子单元;
获取子单元,用于针对所述分词与每一个所述代表词,分别获取所述分词的多个概念与所述代表词的多个概念;
具体实施例中,如图5所示,在计算两个词语(比如为W1和W2)的相似度时,首先需要获取W1的多个概念和W2的多个概念。
计算子单元,用于计算所述分词的多个概念中每个概念与所述代表词的多个概念中每个概念之间的相似度,并选取其中最大的相似度作为所述分词与所述代表词之间的词语相似度。
具体实施例中,计算W1的多个概念中每个概念和W2的多个概念中每个概念之间的相似度,这里以计算W1的多个概念中的C1和W2的多个概念中的C2之间的相似度为例进行说明,如图5所示,计算C1和与C2的第一基本义原相似度Sim1,通过集合计算方式计算C1与C2的其他基本义原相似度Sim2,通过特征结构计算方式计算C1与C2的关系基本义原相似度Sim3,通过以特征结构为元素的集合计算方式计算C1与C2的符号基本义原相似度Sim4,通过综合Sim1,Sim2,Sim3,Sim4计算得到概念C1与C2的概念相似度。按照上述方法将W1的所有概念和W2的所有概念两两计算概念相似度,取最大的概念相似度作为该分词与该代表词的词语相似度。
确定单元1023,用于将与所述分词之间词语相似度最大的代表词所对应的情感极性确定为所述分词的情感极性。
具体实施例,计算出某个分词与所有代表词之间的词语相似度后,将相似度最大的代表词所对应的情感极性确定为该分词的情感极性。各个代表词的情感极性可以由用户根据具体应用进行预先设置。
播放模块103,用于将每一个所述分词按照所述分词的情感极性对应的情感语音进行播放。
具体实施例中,当计算出每一个分词的情感极性后,播放模块103即按照该分词的情感极性对应的情感语音播放该分词,例如,若某一个分词的情感极性为高兴,则按照高兴的情感语音进行播放,若某一个分词的情感极性为悲伤,则按照悲伤的情感语音进行播放。需要说明的是,对于情感语音的合成,可以采用基于隐马尔科夫模型的情感语音合成方法进行合成,也可以采用基音同步叠加技术算法合成情感语音。
具体可选的,所述播放模块103用于基于隐马尔科夫模型将每一个所述分词转化为所述分词的情感极性对应的情感语音,并播放所述情感语音;或者,
所述播放模块103用于基于基音同步叠加技术将每一个所述分词转化为所述分词的情感极性对应的情感语音,并播放所述情感语音。
具体实施例中,对于情感语音的合成,可以采用基于隐马尔科夫模型(HiddenMarkov Model,HMM)的情感语音合成方法或基音同步叠加算法合成情感语音。如图6所示,为基于隐马尔可夫模型的情感语音合成方法的基本结构,情感语音合成方法分为三个模块:基于HMM的语音合成模块、韵律参数修改模块和情感语句生成模块。
在本系统中,首先由基于HMM的语音合成系统合成出"中立"状态的语音语句,然后对合成出的"中立"情感状态的语句进行韵律参数提取。按照不同情感极性下韵律参数的变化规律,对"中立"情感的韵律参数进行修改。最后根据修改好的情感韵律参数,合成带有情感的语音,并播放该语音。
基音同步叠加技术是用波形编辑合成语音技术中对合成语音的韵律进行修改的一种算法,既保持原始语音的主要音段特征,又可以在语音拼接时灵活调整其基音、能量和音长等韵律特征,因而很适合于汉语语音的规则合成。
如图9所示,播放模块103可以包括转换单元1030、第二获取单元1031以及修改单元1032;
转换单元1030,用于基于隐马尔科夫模型的语音合成系统,将每一个所述分词转换为备选语音;
具体实施例中,转换单元1030基于HMM的语音合成系统将每一个分词转换为备选语音,HMM的语音合成系统由特征提取部分、模型训练部分、上下文标注序列以及合成引擎几部分组成。
第二获取单元1031,用于获取所述分词的情感极性对应的目标韵律参数;
具体实施例中,各种情感极性对应不同的韵律参数,第二获取单元1031获取该分词的情感极性对应的目标韵律参数。根据研究,韵律参数中基频、语速和能量强度为三个基本情感特征。
修改单元1032,用于将所述备选语音的韵律参数修改为所述目标韵律参数,并将修改后的所述备选语音确定为所述分词的情感极性对应的情感语音。
具体实施例中,合成情感语音的关键在于韵律参数修改模块。人之所以能从语音中辨别出不同的情感,是因为语音包含有能体现情感的韵律参数,情感的变化通过韵律参数的差异而体现。通常认为韵律参数是表征语音情感最典型也是最简单的特征。根据研究,基频、语速和能量强度为三个基本情感特征,并总结出以下几条规律:
①基频的规律:“高兴”情感的基频平均值较高,基频范围较宽,表现为说话时声音的尖锐;“生气”时基频的平均值很高,基频范围也较宽,表现为在极为生气的状况下声音刺耳;“悲伤”情感时基频的平均值非常低,基频范围略窄,表现为声音很低沉。
②语速的规律:“高兴”情感的语速较快;“生气”时语速比“高兴”时略慢;“悲伤”情感时语速缓慢。
③能量强度的规律:“高兴”情感与“生气”情感的能量都交高,表现为处于这两种情感时的音量的较大,尤其是在“生气”情感时,每个重音都表现的比较明显;“悲伤”情感能量较低,表现为此时说话声音较小。
根据基频、语速、及能量强度在“高兴”、“生气”和“悲伤”三种情感中的规律,修改每种备选语音对应的韵律参数。其中基频、语速参数利用Praat软件修改,能量强度利用Cooledit软件修改。将修改后的韵律参数分别送入合成系统,最终合成出“高兴”、“生气”和“悲伤”这些情感语音。
本发明实施例,获取即时通讯应用中与目标用户关联的文本消息,将该文本消息划分为至少一个分词,分别计算该至少一个分词中每一个分词的情感极性,将每一个分词按照该分词的情感极性对应的情感语音进行播放,这种方式可将即时通讯应用中的文本消息采用情感语音进行播放,不仅提高了文本消息展示的趣味性,而且减少用户的用眼时间,使用极其方便。
请参阅图10,为本发明实施例提供的另一种文本处理装置的结构示意图,如图所示,该文本处理装置包括第一获取模块200、划分模块201、计算模块202、播放模块203以及第二获取模块204,其中,第一获取模块200、划分模块201、计算模块202、播放模块203请参照图9的描述,在此不再赘述。
第二获取模块204,用于从预设语音特征数据库中获取所述目标用户对应的目标语音特征,所述预设语音特征数据库中预先存储多个用户中每个用户的语音特征;
具体实施例中,在预设语音特征数据库中为每个用户建立语音特征集合,具体的当某个用户发送语音时,系统自动基于Hilbert(希尔伯特变换)谱估计的语音特征提取方法提取每个用户的语音特征,并保存在预设语音特征数据库的该用户对应的集合中。基于Hilbert谱估计的特征提取过程主要包括预加重、分帧与加窗及特征提取过程。
本实施例中需要播放目标用户的文本消息,第二获取模块204自动从预设语音特征数据库中调出该目标用户的目标语音特征。
所述播放模块203具体用于利用所述目标语音特征,将每一个所述分词按照所述分词的情感极性对应的情感语音进行播放。
具体实施例中,在采用各个分词的情感极性播放时,系统用类似目标用户的目标语音特征进行播放。
本发明实施例,获取即时通讯应用中与目标用户关联的文本消息,将该文本消息划分为至少一个分词,分别计算该至少一个分词中每一个分词的情感极性,将每一个分词按照该分词的情感极性对应的情感语音进行播放,这种方式可将即时通讯应用中的文本消息采用情感语音进行播放,不仅提高了文本消息展示的趣味性,而且减少用户的用眼时间,使用极其方便。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,附图7-附图10所示文本处理装置的模块对应的程序可存储在文本处理装置的可读存储介质内,并被该文本处理装置中的至少一个处理器执行,以实现上述文本处理方法,该方法包括图1至图6中各方法实施例所述的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (9)
1.一种文本处理方法,其特征在于,包括:
当接收到用户发送的语音时,从所述语音中提取所述用户的语音特征并保存在预设语音特征数据库中所述用户对应的集合中;
获取即时通讯应用中与目标用户关联的文本消息;
将所述文本消息划分为至少一个分词;
针对每一个所述分词,获取所述分词的目标词性;
从预设数据库中选择与所述目标词性相同的多个代表词,所述代表词包括正向情感词和反向情感词,每个所述代表词对应不同的情感极性;
计算所述分词与每个所述代表词之间的词语相似度;
将与所述分词之间词语相似度最大的代表词所对应的情感极性确定为所述分词的情感极性,其中,所述目标词性包括名词、形容词、动词和副词;
从预设语音特征数据库中所述目标用户对应的集合中,获取所述目标用户对应的目标语音特征,其中,所述预设语音特征数据库与所述预设数据库不同;
利用所述目标语音特征,将每一个所述分词按照所述分词的情感极性对应的情感语音进行播放。
2.如权利要求1所述的方法,其特征在于,所述计算所述分词与每个所述代表词之间的词语相似度,包括:
针对所述分词与每一个所述代表词,分别获取所述分词的多个概念与所述代表词的多个概念;
计算所述分词的多个概念中每个概念与所述代表词的多个概念中每个概念之间的相似度,并选取其中最大的相似度作为所述分词与所述代表词之间的词语相似度。
3.如权利要求1所述的方法,其特征在于,所述将每一个所述分词按照所述分词的情感极性对应的情感语音进行播放,包括:
基于隐马尔科夫模型将每一个所述分词转化为所述分词的情感极性对应的情感语音,并播放所述情感语音;或者,
基于基音同步叠加技术将每一个所述分词转化为所述分词的情感极性对应的情感语音,并播放所述情感语音。
4.如权利要求3所述的方法,其特征在于,所述基于隐马尔科夫模型将每一个所述分词转化为所述分词的情感极性对应的情感语音,包括:
基于隐马尔科夫模型的语音合成系统,将每一个所述分词转换为备选语音;
获取所述分词的情感极性对应的目标韵律参数;
将所述备选语音的韵律参数修改为所述目标韵律参数,并将修改后的所述备选语音确定为所述分词的情感极性对应的情感语音。
5.一种文本处理装置,其特征在于,包括:
第一获取模块,用于当接收到用户发送的语音时,从所述语音中提取所述用户的语音特征并保存在预设语音特征数据库中所述用户对应的集合中,并获取即时通讯应用中与目标用户关联的文本消息;
划分模块,用于将所述文本消息划分为至少一个分词;
计算模块,用于针对每一个所述分词,获取所述分词的目标词性,从预设数据库中选择与所述目标词性相同的预设个数的代表词,所述代表词包括正向情感词和反向情感词,每个所述代表词对应不同的情感极性,计算所述分词与每个所述代表词之间的词语相似度,将与所述分词之间词语相似度最大的代表词所对应的情感极性确定为所述分词的情感极性,其中,所述目标词性包括名词、形容词、动词和副词;
第二获取模块,用于从预设语音特征数据库中所述目标用户对应的集合中,获取所述目标用户对应的目标语音特征,所述预设语音特征数据库中预先存储多个用户中每个用户的语音特征,其中,所述预设语音特征数据库与所述预设数据库不同;
播放模块,用于利用所述目标语音特征,将每一个所述分词按照所述分词的情感极性对应的情感语音进行播放。
6.如权利要求5所述的装置,其特征在于,所述计算模块包括:
获取子单元,用于针对所述分词与每一个所述代表词,分别获取所述分词的多个概念与所述代表词的多个概念;
计算子单元,用于计算所述分词的多个概念中每个概念与所述代表词的多个概念中每个概念之间的相似度,并选取其中最大的相似度作为所述分词与所述代表词之间的词语相似度。
7.如权利要求5所述的装置,其特征在于,
所述播放模块用于基于隐马尔科夫模型将每一个所述分词转化为所述分词的情感极性对应的情感语音,并播放所述情感语音;或者,
所述播放模块用于基于基音同步叠加技术将每一个所述分词转化为所述分词的情感极性对应的情感语音,并播放所述情感语音。
8.如权利要求7所述的装置,其特征在于,所述播放模块包括:
转换单元,用于基于隐马尔科夫模型的语音合成系统,将每一个所述分词转换为备选语音;
第二获取单元,用于获取所述分词的情感极性对应的目标韵律参数;
修改单元,用于将所述备选语音的韵律参数修改为所述目标韵律参数,并将修改后的所述备选语音确定为所述分词的情感极性对应的情感语音。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510784305.0A CN106708789B (zh) | 2015-11-16 | 2015-11-16 | 一种文本处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510784305.0A CN106708789B (zh) | 2015-11-16 | 2015-11-16 | 一种文本处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106708789A CN106708789A (zh) | 2017-05-24 |
CN106708789B true CN106708789B (zh) | 2020-07-14 |
Family
ID=58931545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510784305.0A Active CN106708789B (zh) | 2015-11-16 | 2015-11-16 | 一种文本处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106708789B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818787B (zh) * | 2017-10-31 | 2021-02-05 | 努比亚技术有限公司 | 一种语音信息的处理方法、终端及计算机可读存储介质 |
US11282497B2 (en) | 2019-11-12 | 2022-03-22 | International Business Machines Corporation | Dynamic text reader for a text document, emotion, and speaker |
CN111274807B (zh) * | 2020-02-03 | 2022-05-10 | 华为技术有限公司 | 文本信息的处理方法及装置、计算机设备和可读存储介质 |
CN112184858B (zh) * | 2020-09-01 | 2021-12-07 | 魔珐(上海)信息科技有限公司 | 基于文本的虚拟对象动画生成方法及装置、存储介质、终端 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102385858B (zh) * | 2010-08-31 | 2013-06-05 | 国际商业机器公司 | 情感语音合成方法和系统 |
GB2505400B (en) * | 2012-07-18 | 2015-01-07 | Toshiba Res Europ Ltd | A speech processing system |
CN103761963A (zh) * | 2014-02-18 | 2014-04-30 | 大陆汽车投资(上海)有限公司 | 包含情感类信息的文本的处理方法 |
CN104102626B (zh) * | 2014-07-07 | 2017-08-15 | 厦门推特信息科技有限公司 | 一种用于短文本语义相似度计算的方法 |
-
2015
- 2015-11-16 CN CN201510784305.0A patent/CN106708789B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106708789A (zh) | 2017-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110688911B (zh) | 视频处理方法、装置、系统、终端设备及存储介质 | |
CN106653052B (zh) | 虚拟人脸动画的生成方法及装置 | |
CN106486121B (zh) | 应用于智能机器人的语音优化方法及装置 | |
US20210158795A1 (en) | Generating audio for a plain text document | |
CN111260761B (zh) | 一种生成动画人物口型的方法及装置 | |
CN106708789B (zh) | 一种文本处理方法及装置 | |
CN109801349B (zh) | 一种声音驱动的三维动画角色实时表情生成方法和系统 | |
JP2016004267A (ja) | 大規模コーパスに基づく音声合成方法及び装置 | |
CN111883137B (zh) | 基于语音识别的文本处理方法及装置 | |
CN103632663B (zh) | 一种基于hmm的蒙古语语音合成前端处理的方法 | |
JP5913394B2 (ja) | 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム | |
CN115700772A (zh) | 人脸动画生成方法及装置 | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
CN112185341A (zh) | 基于语音合成的配音方法、装置、设备和存储介质 | |
CN108831503A (zh) | 一种口语评测方法及装置 | |
JP6222465B2 (ja) | アニメーション生成装置、アニメーション生成方法およびプログラム | |
US20230215417A1 (en) | Using token level context to generate ssml tags | |
Reddy et al. | Indian sign language generation from live audio or text for tamil | |
Le et al. | Emotional Vietnamese Speech Synthesis Using Style-Transfer Learning. | |
Augello et al. | An Emotional Talking Head for a Humoristic Chatbot | |
CN112733546A (zh) | 表情符号生成方法、装置、电子设备及存储介质 | |
CN114678006B (zh) | 一种基于节奏的语音合成方法及系统 | |
CN116580721B (zh) | 表情动画的生成方法、装置和数字人平台 | |
CN113515952B (zh) | 一种用于蒙古语对话模型联合建模方法、系统及设备 | |
CN113823329B (zh) | 数据处理方法以及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |