CN109686362A

CN109686362A - 语音播报方法、装置和计算机可读存储介质

Info

Publication number: CN109686362A
Application number: CN201910002527.0A
Authority: CN
Inventors: 赵涛涛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-01-02
Filing date: 2019-01-02
Publication date: 2019-04-26
Anticipated expiration: 2039-01-02
Also published as: CN109686362B

Abstract

本发明实施例提供了一种语音播报方法、装置和计算机可读存储介质，其中所述方法包括：对输入语音进行口音识别，得到所述输入语音的口音级别，其中，所述口音级别表示一种口音相对于目标语言的口音的相似程度；利用所述输入语音的口音级别确定播报方式；利用所述播报语音的播报方式输出播报语音。本发明的一个实施例能够使智能音箱的语音交互更加个性化，从而提升用户的体验；本发明的另一个实施例利用接收到所述输入语音的装置的所在位置确定地区信息；利用所述地区信息对所述输入语音的口音级别进行校准，从而使确定口音级别更为准确。

Description

语音播报方法、装置和计算机可读存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种语音播报方法、装置和计算机可读存储介质。

背景技术

随着互联网技术的不断发展，当今人们的生活已经逐渐走入智能时代。人工智能技术为人们生活的诸多方面都提供了方便快捷的服务。其中，智能语音交互是基于语音输入的智能交互模式。用户向智能设备说话就可以得到反馈结果。在日常生活中，当用户使用智能音箱的时候，播报的声音大多以普通话为主，一般可选的播报模式为童声/成人模式，或者男声/女声模式。然而现有技术中的上述智能音箱容易使用户产生过于正式的感觉，从而导致用户和智能音箱之间存在一种距离感。

发明内容

本发明实施例提供了一种语音播报方法、装置和计算机可读存储介质，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种语音播报方法，包括：

对输入语音进行口音识别，得到所述输入语音的口音级别，其中，所述口音级别表示一种口音相对于目标语言的口音的相似程度；

利用所述输入语音的口音级别确定播报方式；

利用所述播报语音的播报方式输出播报语音。

在一种实施方式中，所述对输入语音进行口音识别，得到所述输入语音的口音级别，包括：

对所述输入语音进行特征提取，得到所述输入语音的特征信息；

将所述特征信息输入到口音分级模型中，得到所述输入语音的口音级别。

在一种实施方式中，所述利用所述输入语音的口音级别确定播报方式，包括以下方式的至少一种：

如果所述输入语音的口音级别为第一级别，则将所述播报方式确定为以目标语言的口音进行播报；

如果所述输入语音的口音级别为第二级别，则将所述播报方式确定为以第一设定区域语言的口音进行播报；

如果所述输入语音的口音级别为第三级别，则将所述播报方式确定为以第二设定区域语言的口音进行播报；

其中，第一设定区域语言与所述目标语言的口音相似度高于第二设定区域语言与所述目标语言的口音相似度。

在一种实施方式中，所述利用所述播报语音的播报方式输出播报语音，包括：

对所述输入语音进行语义识别，得到需求信息；

利用需求信息查找需要播报的内容；

利用所述播报语音的播报方式，输出与所述需要播报的内容对应的播报语音。

在一种实施方式中，还包括：

利用接收到所述输入语音的装置的所在位置确定地区信息；

利用所述地区信息对所述输入语音的口音级别进行校准。

第二方面，本发明实施例提供了一种语音播报装置，包括：

识别模块，用于对输入语音进行口音识别，得到所述输入语音的口音级别，其中，所述口音级别表示一种口音相对于目标语言的口音的相似程度；

确定模块，用于利用所述输入语音的口音级别确定播报方式；

输出模块，用于利用所述播报语音的播报方式输出播报语音。

在一种实施方式中，所述识别模块包括：

特征提取子模块，用于对所述输入语音进行特征提取，得到所述输入语音的特征信息；

分级子模块，用于将所述特征信息输入到口音分级模型中，得到所述输入语音的口音级别。

在一种实施方式中，所述输出模块还包括：

语义识别子模块，用于对所述输入语音进行语义识别，得到需求信息；

查找子模块，用于利用需求信息查找需要播报的内容；

输出子模块，用于利用所述播报语音的播报方式，输出与所述需要播报的内容对应的播报语音。

在一种实施方式中，所述装置还包括：

地区信息确定模块，用于利用接收到所述输入语音的装置的所在位置确定地区信息；

校准模块，用于利用所述地区信息对所述输入语音的口音级别进行校准。

第三方面，本发明实施例提供了一种语音播报装置，所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述装置的结构中包括处理器和存储器，所述存储器用于存储支持所述装置执行上述方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述装置还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储语音播报装置所用的计算机软件指令，其包括用于执行上述语音播报方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：

对输入语音进行口音识别，得到所述输入语音的口音级别，利用所述输入语音的口音级别所确定的播报方式输出播报语音。其中，口音级别可以表示一种口音相对于目标语言的口音的相似程度，因此该技术方案能够使智能音箱的语音交互更加个性化，从而提升用户的体验。

上述技术方案中的另一个技术方案具有如下优点或有益效果：

利用接收到所述输入语音的装置的所在位置确定地区信息；利用所述地区信息对所述输入语音的口音级别进行校准，从而使所确定的口音级别更为准确。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的语音播报方法的流程图。

图2示出根据本发明实施例的语音播报方法的流程图。

图3示出根据本发明实施例的语音播报方法的利用所述播报语音的播报方式输出播报语音步骤的流程图。

图4示出根据本发明实施例的语音播报方法的流程图。

图5示出根据本发明实施例的语音播报装置的结构框图。

图6示出根据本发明实施例的语音播报装置的识别模块的结构框图。

图7示出根据本发明实施例的语音播报装置的输出模块的结构框图。

图8示出根据本发明实施例的语音播报装置的结构框图。

图9示出根据本发明实施例的语音播报装置的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本发明实施例的语音播报方法的流程图。如图1所示，该方法可以包括：

步骤S11、对输入语音进行口音识别，得到所述输入语音的口音级别，其中，所述口音级别表示一种口音相对于目标语言的口音的相似程度；

步骤S12、利用所述输入语音的口音级别确定播报方式；

步骤S13、利用所述播报语音的播报方式输出播报语音。

在一种示例中，用户可以通过终端设备输入语音。例如，用户对着终端设备的拾音设备例如麦克风说话。其中，所述终端设备包括具有语音交互功能的智能设备，可以包括但不限于手机、台式机、笔记本电脑、个人数字助理、智能音箱等。例如，用户对智能音箱输入语音“播放一首摇滚乐”。

在一种示例中，终端设备接收到用户的语音后，对接收到的语音进行口音识别。口音识别可以包括语音识别和语义识别两种方式。此外，口音识别可以在终端设备上进行，也可以在服务器上进行。所述服务器可以在云端。对输入语音进行口音识别后，可以得到所述输入语音的口音级别，其中，所述口音级别表示一种口音相对于目标语言的口音的相似程度。

在一种示例中，目标语言可以为某些国家官方语言。例如，所述目标语言可以为中国的普通话。不同区域的语言可能带有不同的口音特点，例如，带有特定地方、特定民族的语言特征。

在一种示例中，可以利用用户的口音与普通话的相似程度，预先划分口音级别，为每一种口音级别设定对应的语音播报方式。例如，将普通话的口音级别设置为第一级别。将北京口音、天津口音等接近于普通话的语言的口音级别设置为第二级别。将东北口音、广东口音、福建口音等与普通话差别较大的语言的口音级别设置为第三级别。其中，第一级别对应的播报方式为普通话播报。第二级别对应的播放方式为北京话播报。第三级别对应的播报方式为广东普通话播报。

这种情况下，如果智能音箱识别出北京口音，则以第二级别对应的语音播报方式进行播报语音。例如，智能音箱可以回复用户“下面播放摇滚乐了您呐”，并播放经过查询得到的摇滚乐。其中“您呐”为北京口音中常带有的特征词。

在上述实施方式的技术方案中，通过对输入语音进行口音识别，得到所述输入语音的口音级别；利用所述输入语音的口音级别确定播报方式；利用所述播报语音的播报方式输出播报语音，能够使智能音箱的语音交互更加个性化，从而提升用户的体验。

图2示出根据本发明实施例的语音播报方法的流程图。

如图2所示，在一种实施方式中，所述对输入语音进行口音识别，得到所述输入语音的口音级别，包括：

步骤S21、对所述输入语音进行特征提取，得到所述输入语音的特征信息；

步骤S22、将所述特征信息输入到口音分级模型中，得到所述输入语音的口音级别。

在一种示例中，确定口音级别可以包括以下方式：

方式一：通过语音直接确定口音级别。获取输入语音，将输入语音从模拟信号转化为数字信号，对被转化为数字信号的输入语音进行特征提取，得到输入语音的波形。将输入语音的波形输入到口音分级模型中进行分类，从而得到输入语音的口音级别。其中，所述口音分级模型可以包括人工神经网络、支持向量机等分类模型。所述口音分级模型通过波形匹配的方式，对输入语音的口音相对于目标语言(如普通话)的口音的相似程度进行判断分类。

方式二：将语音转换为文本后再确定口音级别。获取输入语音，将输入语音从模拟信号转化为数字信号，将被转化为数字信号的输入语音转化为文本，对所述文本进行解析，得到对应的关键词。将输入语音的所述关键词输入到口音分级模型中进行分类，从而得到输入语音的口音级别。其中，所述口音分级模型可以包括人工神经网络、支持向量机等分类模型。所述口音分级模型通过文本匹配的方式，对输入语音的口音相对于目标语言(如普通话)的口音的相似程度进行判断分类。例如：当输入语音“播放摇滚乐”时，可识别输入语音的口音为第一级别——普通话口音；当输入语音“播放摇滚乐了您呐”时，通过解析出的关键词“您呐”，可识别输入语音的口音为第二级别——北京口音；当输入语音“给整几首老开心的音乐”时，通过解析出的关键词“整”“老”，可识别输入语音的口音为第三级别——东北吉林口音。

在一种示例中，所述目标语音可以包括中国的普通话。

在一种示例中，如果所述输入语音为普通话，则将输入语音的口音级别确定为第一级别(即普通话级别)，进而将所述播报方式确定为以普通话的口音进行播报。如果所述输入语音为带有方言口音的普通话，则将输入语音的口音级别确定为第二级别(即方言版普通话级别，也就是带有方言口音特色的普通话级别)，进而将所述播报方式确定为以第一设定区域语言的口音进行播报。其中，所述第一设定区域可以包括某些设定的省、自治区、直辖市、港澳台等。例如，第二级别的口音可以包括：北京话、四川版普通话、台湾版普通话、东北版普通话、天津版普通话等。如果所述输入语音为方言，则将输入语音的口音级别确定为第三级别(即方言级别)，进而将所述播报方式确定为以第二设定区域语言的口音进行播报。第二级别比第三级别更接近于普通话。其中，所述第二设定区域可以包括市级行政区等。例如，第三级别的口音可以包括：唐山话、沈阳话、太原话等。

在一种示例中，可以按照不同区域的口音之间的相似程度划分口音级别，将口音相似程度高的区域划分为同一个口音级别。例如：东北三省对应一个口音级别，两广福建对应一个口音级别，湖南湖北四川对应一个口音级别。

上述的第一级别、第二级别、第三级别仅是示例，而非限制。本发明实施例中不限定口音级别的数量，可以按照实际应用的需求进行划分。此外，可以按照不同国家的不同区域的口音特点进行划分。

如图3所示，在一种实施方式中，所述利用所述播报语音的播报方式输出播报语音，包括：

步骤S31、对所述输入语音进行语义识别，得到需求信息；

步骤S32、利用需求信息查找需要播报的内容；

步骤S33、利用所述播报语音的播报方式，输出与所述需要播报的内容对应的播报语音。

在一种示例中，终端设备接收用户的输入语音，对所述输入语音进行语义识别，得到用户的需求信息。终端设备也可以将输入语音发送到服务器，由服务器对所述输入语音进行语义识别，得到用户的需求信息。服务器将所述需求信息发送回终端设备。终端设备利用用户的需求信息查找需要播报的内容，例如“下面为您播放音乐”或“下面为您播放天气预报”等。终端设备利用确定的播报语音的口音级别(例如：普通话级别、方言版普通话级别、方言级别)来播放所述播报的内容，例如“下面播放天气预报了您呐”。

图4示出根据本发明实施例的语音播报方法的流程图。如图4所示，在一种实施方式中，所述方法还包括：

步骤S41、利用接收到所述输入语音的装置的所在位置确定地区信息；

步骤S42、利用所述地区信息对所述输入语音的口音级别进行校准。

在一种示例中，利用终端设备的所在位置确定地区信息，例如可以根据智能音箱的全球定位系统来确定终端设备所在的位置，根据位置确定相应的地区信息。终端设备可以利用所述地区信息对所述输入语音的口音级别进行校准。例如，输入语音的口音级别确定为河北版的普通话，对应的口音级别为二级。而利用智能音箱的所在位置确定的地区信息为唐山市，属于河北省，对应的口音级别为三级。表明本次识别的口音级别准确。再如，利用输入语音确定的口音级别为二级。而利用智能音箱的所在位置确定的地区信息确定的口音级别为三级。表明本次识别的口音级别可能不准确，可以重新利用新的输入语音再确定一遍口音级别。再如，利用输入语音与地区信息确定的口音级别不同，可以向用户发出提醒，请用户选择用哪种级别对应的语音数据进行播报。

在一种示例中，利用终端设备的地区信息，还可以下载该地区信息对应的语音数据。然后，利用该地区信息对应的语音数据进行个性化播报。例如根据智能音箱的经纬度坐标确定该音箱处于河北省唐山市。智能音箱根据所述地区信息从数据库中下载唐山话口音的语音数据。如果识别出用户的语音中包括唐山口音，则选择唐山口音对应的口音级别的播放方式。在该播放方式下，智能音箱利用下载的用唐山话口音的语音数据进行播报。如果识别出用户的语音不包括唐山口音，而是其他区域的口音，则智能音箱可以用普通话进行播报。采用这种方式，更加有利于针对不同的区域进行个性化播报。由于每个区域需要的数量较小，只需要本地口音对应的数据库即可，因此实现起来更加简单。

图5示出根据本发明实施例的语音播报装置的结构框图。如图5所示，所述装置包括：

识别模块51，用于对输入语音进行口音识别，得到所述输入语音的口音级别，其中，所述口音级别表示一种口音相对于目标语言的口音的相似程度；

确定模块52，用于利用所述输入语音的口音级别确定播报方式；

输出模块53，用于利用所述播报语音的播报方式输出播报语音。

图6示出根据本发明实施例的语音播报装置的识别模块的结构框图。如图6所示，在一种实施方式中，所述识别模块51包括：

特征提取子模块511，用于对所述输入语音进行特征提取，得到所述输入语音的特征信息；

分级子模块512，用于将所述特征信息输入到口音分级模型中，得到所述输入语音的口音级别。

图7示出根据本发明实施例的语音播报装置的输出模块的结构框图。如图7所示，在一种实施方式中，所述输出模块53还包括：

语义识别子模块531，用于对所述输入语音进行语义识别，得到需求信息；

查找子模块532，用于利用需求信息查找需要播报的内容；

输出子模块533，用于利用所述播报语音的播报方式，输出与所述需要播报的内容对应的播报语音。

图8示出根据本发明实施例的语音播报装置的结构框图。如图8所示，在一种实施方式中，所述装置还包括：

地区信息确定模块81，用于利用接收到所述输入语音的装置的所在位置确定地区信息；

校准模块82，用于利用所述地区信息对所述输入语音的口音级别进行校准。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

图9示出根据本发明实施例的语音播报装置的结构框图。如图9所示，该装置包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的方法。所述存储器910和处理器920的数量可以为一个或多个。

该装置还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音播报方法，其特征在于，包括：

利用所述输入语音的口音级别确定播报方式；

利用所述播报语音的播报方式输出播报语音。

2.根据权利要求1所述的方法，其特征在于，所述对输入语音进行口音识别，得到所述输入语音的口音级别，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用所述输入语音的口音级别确定播报方式，包括以下方式的至少一种：

4.根据权利要求1所述的方法，其特征在于，所述利用所述播报语音的播报方式输出播报语音，包括：

对所述输入语音进行语义识别，得到需求信息；

利用需求信息查找需要播报的内容；

5.根据权利要求1至4中任一项所述的方法，其特征在于，还包括：

利用接收到所述输入语音的装置的所在位置确定地区信息；

利用所述地区信息对所述输入语音的口音级别进行校准。

6.一种语音播报装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述识别模块包括：

8.根据权利要求6所述的装置，其特征在于，所述利用所述输入语音的口音级别确定播报方式，包括以下方式的至少一种：

9.根据权利要求6所述的装置，其特征在于，所述输出模块还包括：

查找子模块，用于利用需求信息查找需要播报的内容；

10.根据权利要求6至9中任一项所述的装置，其特征在于，所述装置还包括：

11.一种语音播报装置，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至5中任一项所述的方法。

12.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5中任一项所述的方法。