CN109712646A

CN109712646A - 语音播报方法、装置和终端

Info

Publication number: CN109712646A
Application number: CN201910127222.2A
Authority: CN
Inventors: 赵涛涛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-02-20
Filing date: 2019-02-20
Publication date: 2019-05-03
Also published as: US20200265843A1

Abstract

本发明提出一种语音播报方法、装置和终端，所述方法包括：获取当前对话语音；根据语气识别模型识别当前对话语音的语气类型；根据当前对话语音的语气类型选择播报语气；根据选择的播报语气生成播报语音。通过语气识别模型识别当前对话语音的语气类型，并选择对应的播报语气来进行播报，从而使得利用播报语气生成的播报语音符合用户的情绪，增强了交互亲切感，以及具有更加人性化的交互体验。

Description

语音播报方法、装置和终端

技术领域

本发明涉及智能播报技术领域，具体涉及一种语音播报方法、装置和终端。

背景技术

在日常生活中，人与人之间在对话时，会根据对方的表情、语气和动作等来判断对方的情绪，并会根据对方的情绪来做出反应。比如，对方如果很开心，一般也会以轻快的语气来回答；对方如果比较伤心，情绪比较低落，一般会进行安慰，使用慢速轻柔的语气进行回答。目前，智能音箱能够实现与用户之间的对话，采用统一的语音播报方式回复用户。然而，对用户的不同情绪的语音并没有做出相应语气的回应。统一的语音播报方式导致智能音箱的播报方式比较呆板，缺少人与人之间交互的亲切感。

发明内容

本发明实施例提供语音播报方法、装置和终端，以至少解决现有技术中的以上技术问题。

第一方面，本发明实施例提供了一种语音播报方法，包括：

获取当前对话语音；

根据语气识别模型识别所述当前对话语音的语气类型；

根据所述当前对话语音的语气类型选择播报语气；

根据选择的播报语气生成播报语音。

在一种实施方式中，根据语气识别模型识别所述当前对话语音的语气类型之前，还包括：

从样本对话语音中提取对话语音特征，所述对话语音特征包括语速、语调以及音量中的至少一项；

根据所述对话语音特征训练所述语气识别模型。

从样本唤醒语音中提取唤醒语音特征，所述唤醒语音特征包括语速、语调以及音量中的至少一项；

根据所述唤醒语音特征训练所述语气识别模型。

在一种实施方式中，根据所述当前对话语音的语气类型选择播报语气，包括：

当所述当前对话语音的语气类型为平缓语气时，选择平缓的播报语气；

当所述当前对话语音的语气类型为轻快语气时，选择轻快的播报语气；

当所述当前对话语音的语气类型为低沉语气时，选择低沉的播报语气。

本发明还提供了一种语音播报装置，包括：

对话语音获取模块，用于获取当前对话语音；

语气类型识别模块，用于根据语气识别模型识别所述当前对话语音的语气类型；

播报语气选择模块，用于根据所述当前对话语音的语气类型选择播报语气；

播报语音生成模块，用于根据选择的播报语气生成播报语音。

在一种实施方式中，还包括：

对话语音特征提取模块，用于从样本对话语音中提取对话语音特征，所述对话语音特征包括语速、语调以及音量中的至少一项；

第一模型训练模块，用于根据所述对话语音特征训练所述语气识别模型。

在一种实施方式中，还包括：

唤醒语音特征提取模块，用于从样本唤醒语音中提取唤醒语音特征，所述唤醒语音特征包括语速、语调以及音量中的至少一项；

第二模型训练模块，用于根据所述唤醒语音特征训练所述语气识别模型。

在一种实施方式中，所述播报语气选择模块包括：

平缓语气选择单元，用于当所述当前对话语音的语气类型为平缓语气时，选择平缓的播报语气；

轻快语气选择单元，用于当所述当前对话语音的语气类型为轻快语气时，选择轻快的播报语气；

低沉语气选择单元，用于当所述当前对话语音的语气类型为低沉语气时，选择低沉的播报语气。

第三方面，本发明实施例提供了一种语音播报终端，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，语音播报终端的结构中包括处理器和存储器，所述存储器用于存储支持语音播报终端执行上述第一方面中语音播报方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述语音播报终端还可以包括通信接口，用于语音播报终端与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储语音播报装置所用的计算机软件指令，其包括用于执行上述第一方面中语音播报方法为语音播报装置所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：本方案提供的语音播报方法，通过语气识别模型识别当前对话语音的语气类型，并选择对应的播报语气来进行播报，从而使得利用播报语气生成的播报语音符合用户的情绪，增强了交互亲切感，以及具有更加人性化的交互体验。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明实施例提供的一种语音播报方法流程图；

图2为本发明实施例提供的另一种语音播报方法示意图；

图3为本发明实施例提供的另一种语音播报方法流程图；

图4为本发明实施例提供的一种语音播报装置框图；

图5为本发明实施例提供的另一种语音播报装置框图；

图6为本发明实施例提供的另一种语音播报装置框图；

图7为本发明实施例提供的另一种语音播报装置框图；

图8为本发明实施例提供的一种语音遥播报终端示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

实施例一

在一种具体实施方式中，如图1所示，提供的一种语音播报方法流程图，所述方法包括：

步骤S10：获取当前对话语音；

步骤S20：根据语气识别模型识别当前对话语音的语气类型；

步骤S30：根据当前对话语音的语气类型选择播报语气；

步骤S40：根据选择的播报语气生成播报语音。

在一种示例中，可以应用于智能音箱等交互设备中，预先通过用户与智能音箱在交互过程中的对话来训练语气识别模型，之后，智能音箱每次接收到当前对话语音时，都能够利用语气识别模型对当前对话语音的语气类型进行识别。通常情况下，识别出的当前对话语音的语气类型能够反映出用户在唤醒智能音箱时或者向智能音箱发出需求时的情绪。根据识别出的当前对话语音的语气类型，在数据库中检索与当前对话语音的语气类型对应的播报语气。然后，利用检索到的播报语气生成播报语音。通过前述一系列的过程，使得智能音箱的播报语音在语气上与用户的情绪更加对应。例如，当用户是低沉的语气类型时，则智能音箱等交互设备可以选择低沉的播报语气回复用户；当用户是轻快的语气类型时，则智能音箱等交互设备可以选择轻快的播报语气回复用户；当用户是平缓的语气类型时则智能音箱等交互设备可以选择平缓的播报语气回复用户。

本实施方式的语音播报方法可以让智能音箱等交互设备更人性化，能够针对用户的不同语气类型，使用对应的播报语气回复用户，让用户和智能音箱的交互更加流畅，同时，由于智能音箱的回复能够基本符合用户的情绪，提升了用户和智能音箱交谈的兴趣。

在一种实施方式中，如图2所示，步骤S20之前，还包括：

步骤S11：从样本对话语音中提取对话语音特征，对话语音特征包括语速、语调以及音量中的至少一项；

步骤S12：根据对话语音特征训练得到语气识别模型。

在一种示例中，样本对话语音可以包括智能音箱唤醒后，对智能音箱自动执行一些功能的需求语音，例如，“我要听歌”、“要出差了，我想知道上海未来三天的天气”、“我想做菜，请提供食谱和做菜步骤”等。从样本对话语音中提取对话语音特征，例如，样本对话语音为“我要听歌”，大量用户分别利用低沉语气、愉悦语气以及平缓语气等语气类型输出“我要听歌”，构成了样本对话语音。从样本对话语音中提取的对话语音特征中包括缓慢语速的数据范围、低沉语调的数据范围、较小音量的数据范围，还包括较快语速的数据范围、上扬语调的数据范围、较大音量的数据范围，还包括中等语速的数据范围、平缓语调的数据范围、中等音量的数据范围，利用前述的对话语音特征训练语气识别模型，此语气识别模型能够识别出用户郁闷的情绪，语气类型为低沉语气，用户开心的情绪，语气类型为愉悦语气，用户平缓的情绪，语气类型为平缓语气。

需要指出的是，训练的语气识别模型包括但不限于上述三种语气类型，根据实际需要训练的语气识别模型可以识别更多更具体的语气类型，均在本实施方式的保护范围内。

在一种实施方式中，如图3所示，步骤S20之前，还包括：

步骤S13：从样本唤醒语音中提取唤醒语音特征，唤醒语音特征包括语速、语调以及音量中的至少一项；

步骤S14：根据唤醒语音特征训练语气识别模型。

在一种示例中，样本唤醒语音可以是唤醒智能音箱等智能设备的语音，可以包括预设的唤醒词，通过识别唤醒词来唤醒智能音箱。例如，样本唤醒语音可以为“小度、小度”等。当然，也可以根据用户需求自行设置其它唤醒词，例如，样本唤醒语音还可以是“你好”、“开启智能音箱”等，均在本实施例的保护范围内。从样本唤醒语音中提取对话语音特征，例如，样本唤醒语音为“小度、小度”，大量用户分别利用低沉语气、愉悦语气以及平缓语气等语气类型输出“小度、小度”，构成了样本唤醒语音。从样本唤醒语音中提取的唤醒语音特征中包括缓慢语速的数据范围、低沉语调的数据范围、较小音量的数据范围，还包括较快语速的数据范围、上扬语调的数据范围、较大音量的数据范围，还包括中等语速的数据范围、平缓语调的数据范围、中等音量的数据范围，利用前述的对话语音特征训练语气识别模型，此语气识别模型能够识别出用户郁闷的情绪，语气类型为低沉语气，用户开心的情绪，语气类型为愉悦语气，用户平缓的情绪，语气类型为平缓语气。

需要指出的是，用于训练语气识别模型的样本既可以是样本对话语音，也可以是样本唤醒语音，当然，还可以是样本对话语音和样本唤醒语音的结合，均可用来训练对应的语气识别模型，均在本实施方式的保护范围内。

在一种示例中，智能音箱等设备回应用户需求时，为了使其与用户的情绪更加对应，从而提高用户的交流兴趣等，智能音箱等设备通过对当前对话语音的语气类型识别时候，在数据库中选择对应的播报语气，其中，数据库中可存储有当前对话语音的语气类型与播报语气之间的对应关系，以便于提高检索速度。需要指出的是，包括但不限于上述三种语气类型，根据需求可对语气类型进行更详细的划分，均在本实施方式的保护范围内。

实施例二

在一种具体的实施方式中，如图4所示，提供了一种语音播报装置，包括：

对话语音获取模块10，用于获取当前对话语音；

语气类型识别模块20，用于根据语气识别模型识别当前对话语音的语气类型；

播报语气选择模块30，用于根据当前对话语音的语气类型选择播报语气；

播报语音生成模块40，用于根据选择的播报语气生成播报语音。

在一种实施方式中，如图5所示，还包括：

对话语音特征提取模块11，用于从样本对话语音中提取对话语音特征，对话语音特征包括语速、语调以及音量中的至少一项；

第一模型训练模块12，用于根据对话语音特征训练得到语气识别模型。

在一种实施方式中，如图6所示，还包括：

唤醒语音特征提取模块13，用于从样本唤醒语音中提取唤醒语音特征，唤醒语音特征包括语速、语调以及音量中的至少一项；

第二模型训练模块14，用于根据唤醒语音特征训练语气识别模型。

在一种实施方式中，如图7所示，播报语气选择模块30包括：

平缓语气选择单元301，用于当当前对话语音的语气类型为平缓语气时，选择平缓的播报语气；

轻快语气选择单元302，用于当当前对话语音的语气类型为轻快语气时，选择轻快的播报语气；

低沉语气选择单元303，用于当当前对话语音的语气类型为低沉语气时，选择低沉的播报语气。

实施例三

本发明实施例提供了一种语音播报终端，如图8所示，包括：

存储器400和处理器500，存储器400内存储有可在处理器500上运行的计算机程序。处理器500执行所述计算机程序时实现上述实施例中的语音播报方法。存储器400和处理器500的数量可以为一个或多个。

通信接口600，用于存储器400和处理器500与外部进行通信。

存储器400可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器400、处理器500以及通信接口600独立实现，则存储器400、处理器500以及通信接口600可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器400、处理器500以及通信接口600集成在一块芯片上，则存储器400、处理器500及通信接口600可以通过内部接口完成相互间的通信。

实施例四

一种计算机可读存储介质，其存储有计算机程序，所述程序被处理器执行时实现如实施例一包括的任一所述的语音播报方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音播报方法，其特征在于，包括：

获取当前对话语音；

根据语气识别模型识别所述当前对话语音的语气类型；

根据所述当前对话语音的语气类型选择播报语气；

根据选择的播报语气生成播报语音。

2.根据权利要求1所述的方法，其特征在于，根据语气识别模型识别所述当前对话语音的语气类型之前，还包括：

根据所述对话语音特征训练所述语气识别模型。

3.根据权利要求1所述的方法，其特征在于，根据语气识别模型识别所述当前对话语音的语气类型之前，还包括：

根据所述唤醒语音特征训练所述语气识别模型。

4.根据权利要求1至3任一项所述的方法，其特征在于，根据所述当前对话语音的语气类型选择播报语气，包括：

5.一种语音播报装置，其特征在于，包括：

对话语音获取模块，用于获取当前对话语音；

6.根据权利要求5所述的装置，其特征在于，还包括：

7.根据权利要求5所述的装置，其特征在于，还包括：

8.根据权利要求5至7任一项所述的装置，其特征在于，所述播报语气选择模块包括：

9.一种语音播报终端，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

10.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的方法。