CN109545245A

CN109545245A - 语音处理方法及装置

Info

Publication number: CN109545245A
Application number: CN201811567986.5A
Authority: CN
Inventors: 付雪涛
Original assignee: Zebra Network Technology Co Ltd
Current assignee: Zebra Network Technology Co Ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2019-03-29

Abstract

本发明实施例提供一种语音处理方法及装置，该方法包括：确定第一文本信息中每个词汇的情感分类；根据每个词汇的情感分类，确定每个词汇的声音特性，所述声音特性包括响度、音调、语速、音色中的至少一种；根据每个词汇的声音特性，确定所述第一文本信息的语音信息。提高了语音信息处理的真实性。

Description

语音处理方法及装置

技术领域

本发明实施例涉及音频技术领域，尤其涉及一种语音处理方法及装置。

背景技术

目前，随着计算机技术以及语音识别技术的不断发展，语音识别的应用越来越广泛。

在实际应用过程中，在很多应用场景(例如智能人机对话场景、)中，电子设备(例如，手机电脑等设备)可以将文本信息转换成语音并进行播放。在现有技术中，电子设备通常对文本信息进行识别处理，以获取文本信息中每个文字标准发音，并根据每个文字的标准发音对文本信息进行播放。然而，通过上述方法播放的语音信息很不自然，导致现有技术中的语音信息处理的真实性较差。

发明内容

本发明实施例提供一种语音处理方法及装置，提高了语音信息处理的真实性。

第一方面，本发明实施例提供一种语音处理方法，包括：

确定第一文本信息中每个词汇的情感分类；

根据每个词汇的情感分类，确定每个词汇的声音特性，所述声音特性包括响度、音调、语速、音色中的至少一种；

根据每个词汇的声音特性，确定所述第一文本信息的语音信息。

在一种可能的实施方式中，所述确定第一文本信息中每个词汇的情感分类，包括：

获取所述第一文本信息的上下文信息；

根据所述上下文信息，确定所述第一文本信息的情感分类；

根据所述第一文本信息的情感分类和每个词汇的语义信息，确定所述第一文本信息中每个词汇的情感分类。

在一种可能的实施方式中，针对所述第一文本信息中的任意一个第一词汇；根据所述第一文本信息的情感分类和所述第一词汇的语义信息，确定所述第一词汇的情感分类，包括：

获取所述第一词汇的语义信息对应的情感分类；

根据所述第一文本信息的情感分类和所述第一词汇的语义信息对应的情感分类，确定所述第一词汇的情感分类。

在一种可能的实施方式中，所述根据所述上下文信息，确定所述第一文本信息的情感分类，包括：

在所述上下文信息中获取所述第一文本信息之前第二文本信息的情感分类；

根据所述第二文本信息的情感分类，确定所述第一文本信息的情感分类。

在一种可能的实施方式中，所述根据每个词汇的情感分类，确定每个词汇的声音特性，包括：

获取每个词汇的词性，词汇的词性包括名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词、拟声词中的至少一种；

根据每个词汇的情感分类和每个词汇的词性，确定每个词汇的声音特性。

第二方面，本发明实施例提供一种语音处理装置，包括第一确定模块、第二确定模块和第三确定模块，其中，

所述第一确定模块用于，确定第一文本信息中每个词汇的情感分类；

所述第二确定模块用于，根据每个词汇的情感分类，确定每个词汇的声音特性，所述声音特性包括响度、音调、语速、音色中的至少一种；

所述第三确定模块用于，根据每个词汇的声音特性，确定所述第一文本信息的语音信息。

在一种可能的实施方式中，所述第一确定模块具体用于：

获取所述第一文本信息的上下文信息；

根据所述上下文信息，确定所述第一文本信息的情感分类；

在一种可能的实施方式中，所述第一确定模块具体用于：

针对所述第一文本信息中的任意一个第一词汇，获取所述第一词汇的语义信息对应的情感分类；

在一种可能的实施方式中，所述第一确定模块具体用于：

在一种可能的实施方式中，所述第二确定模块用于：

第三方面，本发明实施例提供一种终端设备，包括：处理器，所述处理器与存储器耦合；

所述存储器用于，存储计算机程序；

所述处理器用于，执行所述存储器中存储的计算机程序，以使得所述终端设备执行上述第一方面任一项所述的方法。

第四方面，本发明实施例提供一种可读存储介质，包括程序或指令，当所述程序或指令在计算机上运行时，如上述第一方面任意一项所述的方法被执行。

本发明实施例提供的语音处理方法、装置及设备，在确定第一文件信息对应的语音信息时，确定第一文本信息中每个词汇的情感分类；根据每个词汇的情感分类，确定每个词汇的声音特性，声音特性包括响度、音调、语速、音色中的至少一种；根据每个词汇的声音特性，确定第一文本信息的语音信息。在上述过程中，当文本信息中不同词汇的情感分类不同时，不同词汇的语音特性不同，使得不同词汇播放的语音效果(响度、音调、语速、音色等)也不同，进而使得播放的语音信息更贴近人类的说话，提高了语音信息处理的真实性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音处理方法的架构图；

图2为本发明实施例提供的一种语音处理方法的流程示意图；

图3为本发明实施例提供的确定词汇的情感分类方法的流程示意图；

图4为本发明实施例提供的另一种语音处理方法的流程示意图；

图5为本发明实施例提供的语音处理装置的结构示意图；

图6为本发明实施例提供的语音处理装置的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的语音处理方法的架构图。请参见图1，电子设备可以对文本信息进行识别处理，以输出文本信息对应的语音信息。可选的，电子设备可以为手机、电脑、车载设备等设备。

在本申请中，在电子设备接收到需要转换成语音信息的文本信息之后，电子设备可以获取文本信息中的词汇，并确定文本信息中每个词汇的情感分类。可选的，情感分类可以包括开心、生气、难过、愤怒、褒义、贬义、中性等。电子设备可以根据词汇的情感分类确定词汇的声音特性，可选的，声音特性可以包括响度、音调、语速、音色等。可以根据文本信息中每个词汇的声音特性生成文本信息的语音信息。在上述过程中，当文本信息中不同词汇的情感分类不同时，不同词汇的语音特性不同，使得不同词汇播放的语音效果(响度、音调、语速、音色等)也不同，进而使得播放的语音信息更贴近人类的说话，提高了语音信息处理的真实性。

下面，通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是，下面几个具体实施例可以相互结合，对于相同或相似的内容，在不同的实施例中不再进行重复说明。

图2为本发明实施例提供的一种语音处理方法的流程示意图。请参见图2，该方法可以包括：

S201、确定第一文本信息中每个词汇的情感分类。

本发明实施例的执行主体可以为电子设备，也可以为电子设备中的语音处理装置。可选的，语音处理装置可以通过软件实现，也可以通过软件和硬件的结合实现。

可选的，电子设备可以为手机、电脑等设备。

可选的，第一文本信息可以为一个或多个语句。

可选的，第一文本信息可以包括预设个字符。

例如，第一文本信息中可以包括10个字符、20个字符等。

当然，在实际应用过程中，可以根据实际需要设置第一文本信息。

可选的，可以对第一文本信息进行分词处理，以得到第一文本信息中的多个词汇。

可选的，可以通过现有的任意分词算法对第一语句进行分词，以得到第一信息中的词汇。

例如，假设第一文本信息为“今天天气真不错呀”，可以对该第一语句进行如下分词处理“今天/天气/真不错/呀”，得到的多个词汇包括：“今天”、“天气”、“真不错”、“呀”。

可选的，情感分类可以包括开心、生气、难过、恐怖、失望、惊喜、愤怒、褒义、贬义、中性等。

当然，在实际应用过程中，情感分类还可以包括其它，本发明实施例对此不作具体限定。

可选的，第一文本信息中不同词汇的情感分类可以相同，也可以不同。

例如，假设第一文本信息为“亲爱的，我们晚上一起吃饭吧。为什么不行？你真讨厌，滚蛋。”该第一文本信息中包括的词汇，以及每个词汇的情感分类可以如表1所示：

表1

词汇	情感分类
		亲爱的	开心
我们	开心
		晚上	开心
一起	开心
		吃饭	开心
吧	开心
		为什么	疑惑
不行	失望
		你	生气
真讨厌	愤怒
		滚蛋	愤怒

可选的，可以根据第一文本信息的上下文信息和词汇的语音信息确定词汇的情感分类。

需要说明的是，在图3所示的实施例中对确定词汇的情感分类的过程进行详细说明，此处不再进行赘述。

S202、根据每个词汇的情感分类，确定每个词汇的声音特性。

其中，声音特性包括响度、音调、语速、音色中的至少一种。

当然，声音特性还可以包括其它，本发明实施例对此不作具体限定。

可选的，可以预先设置情感分类和声音特性之间的对应关系，相应的，可以根据词汇的情感分类和该对应关系，确定词汇的声音特性。

可选的，假设声音特性包括响度、音调和语速，则情感分类和声音特征之间的对应关系可以如表2所示：

表2

需要说明的是，表2只是以示例的形式示意情感分类和声音特性的对应关系，并非对该对应关系进行的限定，在实际应用过程中，可以根据实际需要设置该对应关系，本发明实施例对此不作具体限定。

可选的，还可以获取词汇的词性，并根据词汇的情感分类和每个词汇的词性，确定每个词汇的声音特性。

可选的，词汇的词性包括名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词、拟声词中的至少一种。

可选的，可以预先设置情感分类、词性和声音特性之间的对应关系，相应的，可以根据词汇的情感分类、词汇的词性和该对应关系，确定词汇的声音特性。

可选的，假设声音特性包括响度、音调和语速，则情感分类和、词性和声音特征之间的对应关系可以如表3所示：

表3

需要说明的是，表3只是以示例的形式示意情感分类、词性和声音特性的对应关系，并非对该对应关系进行的限定，在实际应用过程中，可以根据实际需要设置该对应关系，本发明实施例对此不作具体限定。

S203、根据每个词汇的声音特性，确定第一文本信息的语音信息。

可选的，可以获取词汇对应的发音，并根据词汇的发音和词汇的声音特性确定词汇对应的语音信息，并根据每个词汇对应的语音信息确定第一文本信息的语音信息。

例如，假设第一文本信息为“亲爱的，我们晚上一起吃饭吧。为什么不行？你真讨厌，滚蛋”，再假设第一文本信息中每个词汇的情感分类如表1所示，则在播放该第一文本信息对应的语音信息时，以较低的响度、较低的音调和较低的语速播放“亲爱的，我们晚上一起吃饭吧”，以较高的响度、较高的音调和较高的语速播放“为什么不行？你真讨厌，滚蛋”。

本发明实施例提供的语音处理方法，在确定第一文件信息对应的语音信息时，确定第一文本信息中每个词汇的情感分类；根据每个词汇的情感分类，确定每个词汇的声音特性，声音特性包括响度、音调、语速、音色中的至少一种；根据每个词汇的声音特性，确定第一文本信息的语音信息。在上述过程中，当文本信息中不同词汇的情感分类不同时，不同词汇的语音特性不同，使得不同词汇播放的语音效果(响度、音调、语速、音色等)也不同，进而使得播放的语音信息更贴近人类的说话，提高了语音信息处理的真实性。

在上述任意一个实施例的基础上，下面，通过图3所示的实施例，对确定第一文本信息中每个词汇的情感分类(图2实施例中的S201)的过程进行详细说明。

图3为本发明实施例提供的确定词汇的情感分类方法的流程示意图。请参见图3，该方法可以包括：

S301、获取第一文本信息的上下文信息。

可选的，第一文本信息的上下文信息可以包括第一文本信息之前的文本信息和/或第一文本信息之后的文本信息。

S302、根据上下文信息，确定第一文本信息的情感分类。

可选的，第一文本信息的情感分类是指第一文本信息的整体情感类型。

例如，假设第一文本信息中的多数内容为愉快的交谈，则第一文本信息的情感分类为开心。假设第一文本信息中的多数内容为吵架的内容，则第一文本信息的情感分类为生气。假设第一文本信息中多数内容为一个人的哭诉，则第一文本信息的情感分类为伤心。

可选的，可以在上下文信息中获取第一文本信息之前第二文本信息的情感分类；根据第二文本信息的情感分类，确定第一文本信息的情感分类。

可选的，可以将第二文本信息的情感分类确定为第一文本信息的情感分类。

S303、根据第一文本信息的情感分类和第一文本信息中每个词汇的语义信息，确定第一文本信息中每个词汇的情感分类。

可选的，针对第一文本信息中的任意一个第一词汇，可以通过如下可行的实现方式根据第一文本信息的情感分类和第一词汇的语义信息，确定第一词汇的情感分类：获取第一词汇的语义信息对应的情感分类，根据第一文本信息的情感分类和第一词汇的语义信息对应的情感分类，确定第一词汇的情感分类。

可选的，第一词汇可以对应一种或多种语义信息。

当第一词汇对应一种语义信息时，则第一词汇的语义信息对应一种情感分类。

例如，对于第一词汇“喜欢”，对应一种语义信息“喜爱、欣赏”，则该第一词汇的语义信息对应的情感分类为开心。

当第一词汇对应多种语义信息时，则第一词汇的语义信息对应多种情感分类。

例如，对于第一词汇“讨厌”，至少对应如下两种语义信息：第一种语义信息为“撒娇语句”，第二种语义信息为“厌恶、厌烦”，则第一种语义信息“撒娇语句”对应的情感分类为开心，第二种语义信息“厌恶、厌烦”对应的情感分类为生气。

可选的，当第一词汇的语义信息对应一种情感分类时，可以判断第一词汇的语义信息对应的情感分类和第一文本信息的情感分类是否相同，若是，则将第一文本信息的情感分类确定为第一词汇的情感分类，若否，则将第一词汇的情感分类确定为中性，或者，将第一词汇的语义信息对应的情感分类确定为第一词汇的情感分类。

可选的，当第一词汇的语义信息对应多种情感分类时，可以根据第一文本信息的情感分类，在第一词汇的语音信息对应的多种情感分类中确定目标情感分类，并根据第一文本信息的情感分类和目标情感分类，确定第一词汇的情感分类。

例如，可以判断目标情感分类和第一文本信息的情感分类是否相同，若是，则将第一文本信息的情感分类确定为第一词汇的情感分类，若否，则将第一词汇的情感分类确定为中性，或者，将目标情感分类确定为第一词汇的情感分类。

在图3所示的实施例中，在确定词汇的情感类型的过程中，结合了词汇的上下文信息和词汇的语义信息，因此，可以准确的确定得到词汇的情感类型。

在上述任意一个实施例的基础上，下面，结合图4所示的实施例对语音处理方法进行详细说明。

图4为本发明实施例提供的另一种语音处理方法的流程示意图。请参见图4，该方法可以包括：

S401、获取第一文本信息的上下文信息。

S402、根据上下文信息，确定第一文本信息的情感分类。

S403、根据第一文本信息的情感分类和第一文本信息中每个词汇的语义信息，确定第一文本信息中每个词汇的情感分类。

需要说明的是，S401-S403的执行过程可以参见S301-S303的执行过程，此处不再进行赘述。

S404、根据第一文本信息中每个词汇的情感分类和每个词汇的词性，确定每个词汇的声音特性。

需要说明的是，S404的执行过程可以参见S202的执行过程，此处不再进行赘述。

S405、根据每个词汇的声音特性，确定第一文本信息的语音信息。

需要说明的是，S405的执行过程可以参见S203的执行过程，此处不再进行赘述。

在上述过程中，当文本信息中不同词汇的情感分类不同时，不同词汇的语音特性不同，使得不同词汇播放的语音效果(响度、音调、语速、音色等)也不同，进而使得播放的语音信息更贴近人类的说话，提高了语音信息处理的真实性。

图5为本发明实施例提供的语音处理装置的结构示意图。请参见图5，该语音处理装置10可以包括第一确定模块11、第二确定模块12和第三确定模块13，其中，

所述第一确定模块11用于，确定第一文本信息中每个词汇的情感分类；

所述第二确定模块12用于，根据每个词汇的情感分类，确定每个词汇的声音特性，所述声音特性包括响度、音调、语速、音色中的至少一种；

所述第三确定模块13用于，根据每个词汇的声音特性，确定所述第一文本信息的语音信息。

本发明实施例提供的语音处理装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

在一种可能的实施方式中，所述第一确定模块11具体用于：

获取所述第一文本信息的上下文信息；

根据所述上下文信息，确定所述第一文本信息的情感分类；

在一种可能的实施方式中，所述第一确定模块11具体用于：

在一种可能的实施方式中，所述第二确定模块12用于：

图6为本发明实施例提供的语音处理装置的硬件结构示意图，如图6所示，该语音处理装置20包括：至少一个处理器21和存储器22。其中，处理器21、存储器22通过总线23连接。

可选的，语音处理装置20还包括通信部件。例如，通信部件可以包括发送器和/或接收器。

在具体实现过程中，至少一个处理器21执行所述存储器22存储的计算机执行指令，使得至少一个处理器21执行如上的语音处理方法。

处理器21的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述图6所示的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的语音处理方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音处理方法，其特征在于，包括：

确定第一文本信息中每个词汇的情感分类；

2.根据权利要求1所述的方法，其特征在于，所述确定第一文本信息中每个词汇的情感分类，包括：

获取所述第一文本信息的上下文信息；

根据所述上下文信息，确定所述第一文本信息的情感分类；

3.根据权利要求2所述的方法，其特征在于，针对所述第一文本信息中的任意一个第一词汇；根据所述第一文本信息的情感分类和所述第一词汇的语义信息，确定所述第一词汇的情感分类，包括：

获取所述第一词汇的语义信息对应的情感分类；

4.根据权利要求2所述的方法，其特征在于，所述根据所述上下文信息，确定所述第一文本信息的情感分类，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据每个词汇的情感分类，确定每个词汇的声音特性，包括：

6.一种语音处理装置，其特征在于，包括第一确定模块、第二确定模块和第三确定模块，其中，

7.根据权利要求6所述的装置，其特征在于，所述第一确定模块具体用于：

获取所述第一文本信息的上下文信息；

根据所述上下文信息，确定所述第一文本信息的情感分类；

8.根据权利要求7所述的装置，其特征在于，所述第一确定模块具体用于：

9.根据权利要求7所述的装置，其特征在于，所述第一确定模块具体用于：

10.根据权利要求6-9任一项所述的装置，其特征在于，所述第二确定模块用于：