CN106205602A

CN106205602A - 语音播放方法和系统

Info

Publication number: CN106205602A
Application number: CN201510228084.9A
Authority: CN
Inventors: 郝飞; 刘旺; 石英乔
Original assignee: SAIC Motor Corp Ltd
Current assignee: SAIC Motor Corp Ltd
Priority date: 2015-05-06
Filing date: 2015-05-06
Publication date: 2016-12-07

Abstract

一种语音播放方法和系统，所述方法包括：确定待播放语音对应的文本信息；判断预设的目标主体语音库中是否存在所述文本信息对应的语音；其中，采用所述目标主体的语音文件对预设的语音库进行重建得到所述目标主体语音库；当确定所述预设的目标主体语音库中存在所述文本信息对应的语音时，将所述语音作为待播放语音进行播放；当确定所述预设的目标主体语音库中不存在所述文本信息对应的语音时采用所述目标主体的语音特征和所述文本信息进行语音合成，得到所述待播放语音并播放。上述的方案可以提高语音播放的个性化程度，提升用户的使用体验。

Description

语音播放方法和系统

技术领域

本发明涉及语音技术领域，特别是涉及一种语音播放方法和系统。

背景技术

车载信息娱乐系统(In-Vehicle Infotainment，IVI)，是采用车载专用中央处理器，基于车身总线系统和互联网服务，形成的车载综合信息处理系统。车载信息娱乐系统能够实现包括三维导航、实时路况、交互式网络电视(IPTV)、辅助驾驶、故障检测、车辆信息、车身控制、移动办公、无线通讯、基于在线的娱乐功能及关键服务提供者(Telematics Service Provider，TSP)服务等一系列应用，极大的提升的车辆电子化、网络化和智能化水平。

随着车载信息娱乐系统的功能的发展，车载信息娱乐系统中的语音交互也变得越来越频繁。除了传统的导航语音之外，车载信息娱乐系统中还增加了诸如语音搜索交互、车与外界(Vehicle to X，V2X)语音交互等不同的需求。众多的语音交互场景，使得驾驶员和乘客对于语音交互的流畅度、准确性和使用体验的要求也逐步提高。

现有技术中，已经出现使用明星声音进行语音交互的车载信息娱乐系统，例如，车载导航系统。但是，这种车载信息娱乐系统语音，无法满足不同用户的个性化需求。因此，现有技术中的车载语音交互系统存在着个性化程度较差的问题。

发明内容

本发明实施例解决的是如何提高语音播放的个性化程度，提升用户的使用体验。

为解决上述问题，本发明实施例提供了一种语音播放方法，所述方法包括：

确定待播放语音对应的文本信息；

判断预设的目标主体语音库中是否存在所述文本信息对应的语音；其中，采用所述目标主体的语音文件对预设的语音库进行重建得到所述目标主体语音库；

当确定所述预设的目标主体语音库中存在所述文本信息对应的语音时，将所述语音作为待播放语音进行播放；

当确定所述预设的目标主体语音库中不存在所述文本信息对应的语音时，采用所述目标主体的语音特征和所述文本信息进行语音合成，得到所述待播放语音并播放。

可选地，所述采用所述目标主体的语音文件对预设的语音库进行重建得到所述目标用户语音库，包括：

采集所述目标主体的语音数据，构成所述目标主体的语音训练样本集；

对所采集的所述目标用户的语音训练样本集进行训练，得到所述目标主体的语音特征，并采用所得到的目标主体的语音特征对预设的语音库进行语音分析合成处理，得到所述目标主体的语音库。

可选地，所述采集所述目标主体的语音数据，包括：采用车载信息娱乐系统的麦克风、移动终端或者个人电脑采集所述目标主体的语音数据。

可选地，所述对所采集的所述目标用户的语音训练样本集进行训练，得到所述目标主体的语音特征，并采用所得到的目标主体的语音特征对预设的语音库进行语音分析合成处理，得到所述目标主体的语音库，包括：采用车载信息娱乐系统或者云端服务器对所采集的所述目标用户的语音训练样本集进行训练，得到所述目标主体的语音特征，并采用所得到的目标主体的语音特征对预设的语音库进行语音分析合成处理，得到所述目标主体的语音库。

可选地，所述采用所述目标主体的语音文件对预设的语音库进行重建得到所述目标用户语音库，还包括：

获取用户对所述目标主体语音库中语音的调节参数的信息；

采用所获取的调节参数的信息，对所述目标主体语音库中的语音进行调节，得到最终的目标主体语音库中的语音。

可选地，所述调节参数包括以下至少一种：基频、频谱、语速和断句间隔。

本发明实施中的一种语音播放系统，所述系统包括：

确定单元，适于确定待播放语音对应的文本信息；

判断单元，适于判断预设的目标主体语音库中是否存在所述文本信息对应的语音；

语音库生成单元，适于采用所述目标主体的语音文件对预设的语音库进行重建得到所述目标主体语音库；

播放单元，适于当确定所述预设的目标主体语音库中存在所述文本信息对应的语音时，将所述语音作为待播放语音进行播放；当确定所述预设的目标主体语音库中不存在所述文本信息对应的语音时，采用合成单元得到的所述待播放语音并播放；

合成单元，适于当确定所述预设的目标主体语音库中不存在所述文本信息对应的语音时，采用所述目标主体的语音特征和所述文本信息进行语音合成，得到所述待播放语音并播放。

可选地，所述语音库生成单元包括：

采集子单元，适于采集所述目标主体的语音数据，构成所述目标主体的语音训练样本集；

训练生成子单元，适于对所采集的所述目标主体的语音训练样本集进行训练，得到所述目标主体的语音特征，并采用所得到的目标主体的语音特征对预设的语音库进行语音分析合成处理，得到所述目标主体的语音库。

可选地，所述语音库生成单元还包括：

获取子单元，适于获取用户对所述目标主体语音库中语音的调节参数的信息；

调节子单元，适于采用所获取的调节参数的信息，对所述目标主体语音库中的语音进行调节，得到最终的目标用户语音库中的语音。

可选地，所述训练生成子单元、获取子单元和调节子单元集成于车载信息娱乐系统或者云端服务器中。

可选地，所述采集子单元为车载信息娱乐系统的麦克风、移动终端或者个人电脑。

与现有技术相比，本发明的技术方案具有以下的优点：

上述的方案，使用目标主体的语音作为车载信息娱乐系统的语音进行播放，可以根据用户的不同需求，制作出不同的目标主体的语音库进行车载信息娱乐系统的语音播放，可以满足不同用户对于语音播放的需求，提升用户的使用体验。

进一步地，当使用目标主体的语音文件生成所述目标用户的语音库之后，接收并采用用户对所述目标主体的语音库中的语音的调节参数的信息，对所述目标主体语音库中的语音进行调节，得到最终的目标主体语音库中的语音，使得所述目标主体语音库中的语音更能满足用户的需求，因而可以进一步提升用户的使用体验。

进一步地，使用云端服务器采用目标主体的语音文件对预设的语音库进行重建得到所述目标主体的语音库，并传输至车载信息娱乐系统中进行存储，以用户车载信息娱乐系统的语音播放，可以节省车载信息娱乐系统的资源。

附图说明

图1是本发明实施例中的一种语音播放方法的流程图；

图2是本发明实施例中的采用所述目标主体的语音文件对预设的语音库进行重建得到所述目标用户语音库的流程图；

图3是本发明实施例中的一种语音播放系统的结构示意图；

图4是本发明实施例中的另一种语音播放系统的结构示意图；

图5是本发明实施例中的又一种语音播放系统的结构示意图。

具体实施方式

现有技术中，已经出现使用明星声音进行语音交互的车载信息娱乐系统，例如，车载导航系统。但是，这种车载信息娱乐系统语音，无法满足不同用户的个性化需求。因此，现有技术中的车载语音交互系统存在着个性化程度较低的问题。

为解决现有技术中存在的上述问题，本发明实施例采用的技术方案使用目标用户的语音作为车载信息娱乐系统的语音进行播放，可以根据用户的不同需求，制作出不同的目标用户的语音库进行车载信息娱乐系统的语音播放，可以满足不同用户对于语音播放的需求，提升用户的使用体验。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例作详细的说明。

图1示出了本发明实施例中的一种语音播放方法的流程图。如图1所示的语音播放方法，可以包括：

步骤S101：确定待播放语音对应的文本信息。

在具体实施中，用户在使用车载信息娱乐系统中的导航、音乐播放等功能时，车载信息娱乐系统可以不同的应用场景，得到当前待播放语音对应的文本信息。例如，用户在使用车载导航仪将用户从起始位置出发导航至目的位置的过程中，车载导航仪可以根据用户驾驶车辆的实时位置、驾驶和路况等信息，首先可以确定待播放语音对应的文本信息，例如，“直行100米后左转”、“当前路段限速80公里，您已超速，请减速慢行”等文本信息。

步骤S102：判断预设的目标主体语音库中是否存在所述文本信息对应的语音。

在具体实施中，所述目标主体语音库为用户事先选定的目标主体的语音库。例如，目标主体语音库中可以包括多个不同的语音主体的语音库，用户在车辆行驶前，或者在需要使用车载信息娱乐系统的某个功能时，首先选取特定的目标主体对应的目标主体语音库。当用户选取要使用的目标主体语音库后，用户在车辆运行过程中并可以使用所选确定的目标主体的语音库，进行相应的语音播放。

具体而言，目标主体语音库中的语音文件与文本信息之间具有相应的对应关系，当车载信息娱乐系统确定待播放的语音对应的文本信息之后，便可以通过所述文本信息与待播放语音之间的对应关系，确定在用户所选取的目标主体语音库中是否存在对应的语音。

在具体实施中，当判断结果为是时，可以执行步骤S103，反之，则可以执行步骤S104。

步骤S103：将所述语音作为待播放语音进行播放。

在具体实施中，当预设的目标主体语音库中存在所述文本信息对应的语音时，则可以播放所述语音。

步骤S104：采用所述目标主体的语音特征和所述文本信息进行语音合成，得到所述待播放语音并播放。

在具体实施中，当确定所述预设的目标主体语音库中不存在所述文本信息对应的语音时，可以采用从文本到语音(Text To Speech，TTS)芯片采用用户所选取的目标主体的语音特征和所述文本信息进行语音分析合成，得到所述文本信息对应的所述目标主体的语音并播放。

在具体实施中，本发明实施例中的目标主体语音库可以根据用户的实际需要进行生成，下面将进行详细的介绍。

图2示出了本发明实施例中的采用所述目标主体的语音文件对预设的语音库进行重建得到所述目标用户语音库的流程图。如图2所示的采用所述目标主体的语音文件对预设的语音库进行重建得到所述目标用户语音库，可以包括：

步骤201：采集所述目标主体的语音数据，构成所述目标主体的语音训练样本集。

在具体实施中，为了满足不同用户的语音播放需求，生成不同目标主体对应的语音库，及目标主体语音库。

其中，所述目标主体可以为用户的家人、亲戚或者朋友等。例如，当用户希望在导航过程中听见使用自己儿子声音的导航语音时，则用户可以首先采集多条自己儿子的声音数据，形成自己儿子的语音训练样本集。

在具体实施中，为了提高所生成的目标主体语音库中的语音的质量，在采集目标主体的语音数据时，可以让目标主体在无环境噪音，无背景音乐的情况下，大声清晰的朗读给定语音文本模板上的文字信息。其中，所述语音文本模板中可以包括车载信息娱乐系统中常用语音，例如车载导航、通讯以及用户与车载信息娱乐交互时的常用语音。当采集得到所述目标主体的语音训练样本集时，可以通过蓝牙、无线网络(Wireless-Fidelity，WIFI)、通用串行总线(Universal Serial Bus，USB)等将目标主体的语音训练样本集导入相应的语音训练模块中，语音训练样本集的语音数据支持mp3、音频压缩格式(ogg)、数字音乐无损压缩格式(ape)等格式。

在具体实施中，为了使得所得到的目标主体语音库中的语音更加贴合目标主体的语音特征，当采集得到目标主体用户的语音数据时，可以根据所得到的目标主体的语音数据的质量进行判断，例如，可以通过对所得到的各条语音数据的语音长度、噪声掩蔽比、谐波失真结构等参数，对相应的语音数据的音频质量进行判断。当判断目标主体的语音数据的质量达到预设的质量阈值时，将所得到的语音数据用于语音训练，反之，则舍弃所得到的语音数据，并生成相应的重新录制提醒信息。这样，便可以使得所采集到的语音数据更加贴合相应目标主体的语音特征，从而使得训练得到的目标主体语音库中的语音更能贴合目标主体的语音特征，进而可以提升用户的使用体验。

步骤202：对所采集的所述目标主体的语音训练样本集进行训练，得到所述目标主体的语音特征，并采用所得到的目标主体的语音特征对预设的语音库进行语音分析合成处理，得到所述目标主体的语音库。

在具体实施中，当得到目标主体的语音训练样本集之后，便可以采用所得到的目标主体的语音训练样本集进行语音训练，得到目标主体语音库。

在具体实施中，可以根据实际的需要采用不同的语音训练方法对目标主体的语音训练样本集进行训练。在本发明一实施例中，采用神经网络的方法对目标主体的语音训练样本集进行训练，得到目标主体语音库。具体而言，将目标主体的各个语音文件划分得到多段语音片段，例如，划分得到100段语音片段。其中，采用其中80％数量的语音片段作为训练样本，20％数量的语音片段作为对比样本，利用神经网络智能语音训练方式，得到目标主体的语音特征，包含基频、频谱、平均语速、平均断句间隔时间等。

在具体实施中，当得到目标主体的语音特征之后，可以采用所得到的目标主体的语音特征对预设的标准语音库进行重建，得到所述目标主体对应的目标主体语音库。具体而言，根据所得到的目标主体的语音特征，并用基于(Speech Transformation And Representation Based On Adaptive Interpolation OfWeighted Spectrogram，STRAIGHT)分析的语音合成算法对预设的标准语音库进行重建，得到目标主体语音库。

在具体实施中，本发明实施例中的采用所述目标主体的语音文件对预设的语音库进行重建得到所述目标用户语音库，还可以包括：

步骤203：获取用户对所述目标主体语音库中语音的调节参数的信息。

在具体实施中，由于采用目标主体的语音特征对预设的语音库进行重建得到的语音，与实际的目标主体的语音之间会存在一定的差别。为了使得所述目标主体语音库中的语音更加贴合目标主体的语音特征，可以将经过语音训练后得到的目标主体的语音库中的语音播放展示给用户，并提供相应的语音参数调节界面，接收用户对各条语音的调节参数，如基频、频谱、语速和断句间隔等，以在后续的步骤中对相应的语音进行调节。

步骤204：采用所获取的调节参数的信息，对所述目标主体语音库中的语音进行调节，得到最终的目标主体语音库中的语音。

在具体实施中，当获取到用户对目标主体语音库中的相应的语音的调节参数时，并可以采用所述调节参数对相应的语音进行调节，从而可以使得最终得到的目标主体语音库中的语音更加贴合相应目标主体的语音特征，从而可以提升用户的使用体验。

图3示出了本发明实施例中的一种语音播放系统的结构示意图。如图3所示的语音播放系统300，可以包括确定单元301、判断单元302、语音库生成单元303、播放单元304和合成单元305，其中：

确定单元301，适于确定待播放语音对应的文本信息。

判断单元302，适于判断预设的目标主体语音库中是否存在所述文本信息对应的语音。

语音库生成单元303，适于采用所述目标主体的语音文件对预设的语音库进行重建得到所述目标主体语音库。

播放单元304，适于当确定所述预设的目标主体语音库中存在所述文本信息对应的语音时，将所述语音作为待播放语音进行播放；当确定所述预设的目标主体语音库中不存在所述文本信息对应的语音时，采用合成单元得到的所述待播放语音并播放；

合成单元305，适于当确定所述预设的目标主体语音库中不存在所述文本信息对应的语音时，采用所述目标主体的语音特征和所述文本信息进行语音合成，得到所述待播放语音并播放。

在具体实施中，本发明实施例中的语音库生成单元303可以包括：

采集子单元3031，适于采集所述目标主体的语音数据，构成所述目标主体的语音训练样本集。

训练生成子单元3032，适于对所采集的所述目标用户的语音训练样本集进行训练，得到所述目标主体的语音特征，并采用所得到的目标主体的语音特征对预设的语音库进行语音分析合成处理，得到所述目标主体的语音库。

获取子单元3033，适于获取用户对所述目标主体语音库中语音的调节参数的信息。

调节子单元3034，适于采用所获取的调节参数的信息，对所述目标主体语音库中的语音进行调节，得到最终的目标用户语音库中的语音。

在具体实施中，根据语音库生成单元中的采集子单元、训练生成子单元、获取子单元和调节子单元所在的主体不同，可以分别得到如图4和图5所示的语音播放系统。

图4示出了本发明实施例中的一种语音播放系统的结构示意图。如图4所述的语音播放系统，为在图3所示的语音播放系统的基础上，将语音库生成单元中采集子单元4011、训练生成子单元4012、获取子单元4013和调节子单元4014。其中，采集子单元4011可以为车载信息娱乐系统400的麦克风、训练生成子单元4012、获取子单元4013和调节子单元4014可以集成在车载信息娱乐系统400的中央处理器(Central Processing Unit，CPU)中，训练生成子单元4032得到的目标主体语音库可以存储在载信息娱乐系统400的存储器4015中。

图5示出了本发明实施例中的另一种语音播放系统的结构示意图。其中，图5所示的语音播放系统与如4所示的语音播放系统不同的是，语音库生成单元的采集子单元可以集成于移动终端(或者个人电脑)500中，同时，语音库生成单元中的训练生成子单元、获取子单元和调节子单元则均集成于云端服务器501上，当云端服务器501得到目标主体语音库中以后，车载信息娱乐系统502可以通过蓝牙、WIFI或者USB等下载云端中的目标主体语音库，以备使用。

这里需要指出的是，如图4和图5所示的语音播放系统中各个组成单元或者子单元的工作原理请参照图3中的相应介绍，在此不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上对本发明实施例的方法及系统做了详细的介绍，本发明并不限于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音播放方法，其特征在于，包括：

确定待播放语音对应的文本信息；

2.根据权利要求1所述的语音播放方法，其特征在于，所述采用所述目标主体的语音文件对预设的语音库进行重建得到所述目标用户语音库，包括：

采集所述目标主体的语音数据，构成所述目标主体的语音训练样本集；对所采集的所述目标用户的语音训练样本集进行训练，得到所述目标主体的语音特征，并采用所得到的目标主体的语音特征对预设的语音库进行语音分析合成处理，得到所述目标主体的语音库。

3.根据权利要求2所述的语音播放方法，其特征在于，所述采集所述目标主体的语音数据，包括：采用车载信息娱乐系统的麦克风、移动终端或者个人电脑采集所述目标主体的语音数据。

4.根据权利要求2所述的语音播放方法，其特征在于，所述对所采集的所述目标主体的语音训练样本集进行训练，得到所述目标主体的语音特征，并采用所得到的目标主体的语音特征对预设的语音库进行语音分析合成处理，得到所述目标主体的语音库，包括：采用车载信息娱乐系统或者云端服务器对所采集的所述目标用户的语音训练样本集进行训练，得到所述目标主体的语音特征，并采用所得到的目标主体的语音特征对预设的语音库进行语音分析合成处理，得到所述目标主体的语音库。

5.根据权利要求2所述的语音播放方法，其特征在于，所述采用所述目标用户的语音文件对预设的语音库进行重建得到所述目标用户语音库，还包括：

获取用户对所述目标主体语音库中语音的调节参数的信息；

6.根据权利要求5所述的语音播放方法，其特征在于，所述调节参数包括以下至少一种：基频、频谱、语速和断句间隔。

7.一种语音播放系统，其特征在于，包括：

确定单元，适于确定待播放语音对应的文本信息；

8.根据权利要求7所述的语音播放系统，其特征在于，所述语音库生成单元包括：

9.根据权利要求8所述的语音播放系统，其特征在于，所述语音库生成单元还包括：

10.根据权利要求9所述的语音播放系统，其特征在于，所述训练生成子单元、获取子单元和调节子单元集成于车载信息娱乐系统或者云端服务器中。

11.根据权利要求9所述的语音播放系统，其特征在于，所述调节参数包括以下至少一种：基频、频谱、语速和断句间隔。

12.根据权利要求8所述的语音播放系统，其特征在于，所述采集子单元为车载信息娱乐系统的麦克风、移动终端或者个人电脑。