CN106652996B

CN106652996B - 一种提示音生成方法和装置、移动终端

Info

Publication number: CN106652996B
Application number: CN201611209801.4A
Authority: CN
Inventors: 曾庆庚
Original assignee: Beijing Anyun Century Technology Co Ltd
Current assignee: Beijing Anyun Century Technology Co Ltd
Priority date: 2016-12-23
Filing date: 2016-12-23
Publication date: 2020-02-07
Anticipated expiration: 2036-12-23
Also published as: CN106652996A

Abstract

本发明提供了一种提示音生成方法和装置、移动终端，该方法包括：获取应用程序中需要播放的原始提示信息；提取所述原始提示信息所对应的文字信息；根据提取的文字信息和选定模拟用户信息，从全局语音库中获取所述文字信息中每个文字的选定模拟用户的发音；所述全局语音库中包括每个模拟用户对应的各文字的发音；将获取的每个文字的选定模拟用户的发音进行声音合成，生成以模拟用户声音播放的模拟提示音。能够方便用户随心所欲的将应用程序中的提示音转化成自己希望的声音，实现简单方便，灵活性强。

Description

一种提示音生成方法和装置、移动终端

技术领域

本发明涉及语音处理技术领域，特别是涉及一种基于语音合成的提示音生成方法和装置、移动终端。

背景技术

随着科学技术的发展，语音应用越来越广泛，在各种各样的用户移动终端中，各种各样的应用软件都会使用语音技术向用户播报一些信息，比如：天气插件播放天气预报，导航软件播放路况信息，一些应用软件播放相关的提示音等等，这些语音播放一般采用系统默认的声音进行播报，而不能由用户随意设置或选择所采用的播报声音。比如，用户期待用自己熟悉的某个人的声音进行播报，老人希望用自己儿女的声音进行播报等等。

目前，虽然也有一些根据已有声音再现声音的技术方案，但是其应用场景很少，技术也不太成熟。以天气语言播报举例，如果想听某种语言的声音播报，需要专门有人读一遍应用中包含的所有文字文本，应用程序再将这些声音根据不同场景判断播报给用户，显得非常麻烦。

可见，上述现有声音再现实现方法，需要有人通读所有文字文本，声音输入繁琐、麻烦；需要人工设置各个应用，逐一把默认声音替换，声音再现的使用过程也很麻烦，效率低，必须让需要再现声音的用户本人去诵读，再现的应用范围受到很大的限制，不能满足用户随心所欲设置自己所期望再现的声音这一声音再现需求。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的提示音生成方法和装置、移动终端。

特别地，本发明提供了一种提示音生成方法，包括：

获取应用程序中需要播放的原始提示信息；

提取所述原始提示信息所对应的文字信息；

根据提取的文字信息和选定模拟用户信息，从全局语音库中获取所述文字信息中每个文字的选定模拟用户的发音；所述全局语音库中包括每个模拟用户对应的各文字的发音；

将获取的每个文字的选定模拟用户的发音进行声音合成，生成以模拟用户声音播放的模拟提示音。

进一步地，其中，所述原始提示信息包括文本原始提示信息和音频原始提示信息中的至少一种。

进一步地，其中，提取所述原始提示信息所对应的文字信息，具体包括：

对文本原始提示信息进行分词，根据分词结果提取出文本原始提示信息中所包含的文字；

对音频原始提示信息进行语音识别，识别出音频所对应的文字。

进一步地，从全局语音库中获取所述文字信息中每个文字的选定模拟用户的发音，具体包括:

逐一获取所述文字信息中的每一个文字，针对获取的文字：

根据选定模拟用户的信息，查找全局语音库中存储的选定模拟用户的各文字的发音，提取出获取的文字的发音；

直到获取完所述文字信息中的所有文字，得到所述文字信息中每个文字的选定模拟用户的发音。

进一步地，将获取的每个文字的选定模拟用户的发音进行声音合成，生成以模拟用户声音播放的模拟提示音，具体包括:

根据原始提示信息的文字顺序，采用预设的提示音合成模板，对每个文字的选定模拟用户的发音进行合成，生成与所述原始提示信息的文字顺序一致的模拟提示音。

进一步地，生成全局语音库的过程包括:

获取模拟用户的输入声音，提取输入声音的语音特征；

分析提取的语音特征，合成所述输入声音中不包含的文字的发音；

将所述输入声音中包含的文字发音和合成的文字发音，作为所述模拟用户对应的各文字的发音，存储到全局语音库。

进一步地，输入声音的语音特征包括下列特征中的至少一种：

输入声音的音色、输入声音的音调、输入声音的语速、输入声音的频率、输入声音的幅度、输入声音的平均能量。

进一步地，获取模拟用户的输入声音，具体包括：

启动录音功能，录入模拟用户的声音，作为模拟用户的输入声音；和/或

从其他应用程序中获取模拟用户的声音，作为模拟用户的输入声音。

进一步地，当获取到模拟用户的输入声音有多个时，对输入声音进行筛选，从多个输入声音中筛选出音质最好的一个或多个输入声音。

本发明实施例还提供一种提示音生成装置，包括：

信息获取模块，用于获取应用程序中需要播放的原始提示信息；

文字提取模块，用于提取所述原始提示信息所对应的文字信息；

发音匹配模块，用于根据提取的文字信息和选定模拟用户信息，从全局语音库中获取所述文字信息中每个文字的选定模拟用户的发音；所述全局语音库中包括每个模拟用户对应的各文字的发音；

声音合成模块，用于将获取的每个文字的选定模拟用户的发音进行声音合成，生成以模拟用户声音播放的模拟提示音。

进一步地，所述信息获取模块，具体用于：

获取包括文本原始提示信息和音频原始提示信息中的至少一种的原始提示信息。

进一步地，所述文字提取模块，具体用于：

进一步地，所述发音匹配模块，具体用于：

逐一获取所述文字信息中的每一个文字，针对获取的文字：

进一步地，所述声音合成模块，具体用于：

进一步地，上述装置还包括：

语音库生成模块，用于获取模拟用户的输入声音，提取输入声音的语音特征；分析提取的语音特征，合成所述输入声音中不包含的文字的发音；将所述输入声音中包含的文字发音和合成的文字发音，作为所述模拟用户对应的各文字的发音，存储到全局语音库。

进一步地，所述语音库生成模块，具体用于：提取的语音特征包括下列特征中的至少一种：

进一步地，所述语音库生成模块，具体用于：

进一步地，所述语音库生成模块，还用于：

当获取到模拟用户的输入声音有多个时，对输入声音进行筛选，从多个输入声音中筛选出音质最好的一个或多个输入声音。

本发明实施例还提供一种移动终端，包括处理器和存储器：

所述存储器用于存储执行上述方法的程序；

所述处理器被配置为用于执行所述存储器中存储的程序。

本发明的提示音生成方法和装置、移动终端，使用全局语音库实现对选定模拟用户发音的记录存储，当需要生成提示音时，根据全局语音库对提示信息中的文字信息进行语音转换，合成选定模拟用户的发音，从而方便用户进行提示音转换，随心所欲的转换成自己所希望的声音，其实现简单方便，灵活性强；不需要人工设置各个应用，其应用范围广泛，不需要繁琐、麻烦的输入操作，效率高。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例一中提示音生成方法的流程图；

图2是本发明实施例二中生成全局语音库的流程图；

图3是本发明实施例三中提示音生成方法的原理示意图；

图4是本发明实施例中提示音生成装置的结构示意图；

图5是本发明实施例中移动终端的结构示例图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中存在的提示音合成麻烦，需要复杂的输入操作，且不能随心所欲的合成期望用户的提示音的问题，本发明实施例提供一种提示音生成方法，能够随心所欲的合成自己所希望合成的用户声音，不需要繁琐的语音输入操作，实现过程简单、方便，合成效率高。

下面通过具体的实施例进行详细描述。

实施例一

本发明实施例一提供一种提示音生成方法，基于语音合成实现提示音的生成，其流程如图1所示，包括如下步骤：

步骤S101：获取应用程序中需要播放的原始提示信息。

其中，原始提示信息包括文本原始提示信息和音频原始提示信息中的至少一种。

针对移动终端中的各种应用中的声音，除了终端自带的应用，还有可能有第三方的应用，比如地图软件等，就有可能涉及到文本播报，软件自带的这个文本播报可能是默认语音也可能是文本信息。将这个默认语音或文本信息获取出来，作为要播放的原始提示信息。

步骤S102：提取获取的原始提示信息所对应的文字信息。

该步骤中，对文本原始提示信息进行分词，根据分词结果提取出文本原始提示信息中所包含的文字；对音频原始提示信息进行语音识别，识别出音频所对应的文字。

将原始提示信息中的文字信息提取出来，以便针对每个文字进行语音配置，以便替换成用户想要的声音。

步骤S103：根据提取的文字信息和选定模拟用户信息，从全局语音库中获取文字信息中每个文字的选定模拟用户的发音。

全局语音库为预先建立的包括各文字发音的语音库。针对每一个可模拟的用户，分别存储这些可模拟的用户的文字发音。即全局语音库中包括每个模拟用户对应的各文字的发音。

从全局语音库中获取文字信息中每个文字的选定模拟用户的发音，具体包括:

逐一获取文字信息中的每一个文字，针对获取的文字：根据选定模拟用户的信息，查找全局语音库中存储的选定模拟用户的各文字的发音，提取出获取的文字的发音；直到获取完文字信息中的所有文字，得到文字信息中每个文字的选定模拟用户的发音。

在获取到文字信息后，选择一个想要模拟的用户，从全局语音库中查找想要模拟的用户的文字发音，将获取的文字信息中每个文字的发音提取出来。

步骤S104：将获取的每个文字的选定模拟用户的发音进行声音合成，生成以模拟用户声音播放的模拟提示音。

该步骤中，根据原始提示信息的文字顺序，采用预设的提示音合成模板，对每个文字的选定模拟用户的发音进行合成，生成与原始提示信息的文字顺序一致的模拟提示音。

声音的合成可以通过解调、再调制的方式实现，属于对声音信号的处理，可选的方式很多，此处不再一一赘述。

比如，地图软件中的语音播报，将其原始提示信息中每个文字对应的发音提取出来后，进行声音合成，实现使用想要模拟的用户声音进行播报，并替换软件原本默认的声音。

实施例二

本发明实施例二提供上述提示音生成方法中，生成全局语音库的实现过程，其流程如图2所示，包括如下步骤：

步骤S201：获取模拟用户的输入声音，提取输入声音的语音特征。

获取模拟用户的输入声音，具体包括：启动录音功能，录入模拟用户的声音，作为模拟用户的输入声音；和/或从其他应用程序中获取模拟用户的声音，作为模拟用户的输入声音。

用户声音的输入可以有多种方式，比如直接录音，从其他应用程序中获取，比如社交软件中的声音，通话记录中的声音等等，将这些声音进行存储。采集的时候，以每个用户为一个采集对象，将其所有相关的声音提炼出来，以便形成该用户的语音库。

当获取到模拟用户的输入声音有多个时，对输入声音进行筛选，从多个输入声音中筛选出音质最好的一个或多个输入声音。当一个模拟用户输入有多个声音时，可以根据音质进行筛选，选取音质较好的声音来提取特征；也可以进行平滑处理，实现筛选好的声音来提取特征。

输入声音的语音特征包括下列特征中的至少一种：输入声音的音色、输入声音的音调、输入声音的语速、输入声音的频率、输入声音的幅度、输入声音的平均能量。

步骤S202：分析提取的语音特征，合成提取的输入声音中不包含的文字的发音。

提取的用户的声音一般只包含一部分文字的发音，对于不包含的文字的发音，可以根据提取的语音特征进行合成。

步骤S203：将提取的输入声音中包含的文字发音和合成的文字发音，作为模拟用户对应的各文字的发音，存储到全局语音库。

将提取的文字发音和合成的文字发音都存储起来，这样针对每个可模拟的用户，形成的全局语音库中包含有这个可模拟用户对所有文字的发音。

实施例三

本发明实施例二提供上述提示音生成方法的一种具体实现过程，其原理如图3所示。

本发明中的语音合成方法，可以解决某些声音使用场景的输入/使用麻烦等问题，比如：父母子女之间、情侣之间等等。可以实现终端中的应用软件的提示音采用子女、情侣的声音进行播报。

如图3所示的，采集子女、情侣等可模拟用户的声音，以输入声音为例，在输入这些可模拟用户的声音之后，进行特征提取，根据特征信息合成语音库，语音库包含各种文字/语言发音，不再局限于原语音内容。例如根据某个人说的几句话，合成汉字语音库，库中包含所有汉字发音。比如

比如：用户A对着用户B的手机输入声音，软件自动分析并提取用户A所输入的声音的特征，把声音的音色、频率等特征提取出来，根据提取的声音特征，合成全局语音库，包括A用户的各种语言字库中的所有文字发音。当一个用户输入的声音越多时，其提取特征的精准读也会越高。

从声音当中提取特征是一个拆分的过程，而后续模拟这些可模拟用户的声音，则是一个反向的语音合成过程，相当于是一个解调→调制的过程，这是声音使用的过程。

可以对终端中的各种应用，比如闹铃、来电提醒、天气语言播报、其他声音等进行替换，这是声音使用的过程，比如父母、情侣可以使用语音库中子女、情侣的声音，来替换自己移动终端中的各种声音，使其播报时，子女、情侣的声音。例如，用户B要使用用户A声音进行提示音播报，则从语音库中将存储的用户A的各文字发音提取出来进行匹配、调制、合成。比如，父母将自己使用的移动终端中的闹铃、来电提醒、天气语言播报、其他声音的声音均替换成子女的声音。

以来电铃声为例，如果是歌曲的话，歌曲里面是有文字的，涉及到文字的地方就可以从库里获取其发音。闹铃不一定含有文字，这种情况就可以从语音库随机获取。

例如：电话录音、微信对讲、QQ电话、网络电话等都可以和一个电话号码(可以用电话号码标识一个用户)进行绑定，从这些应用程序当中提取用户的语音。比如播报短消息，从应用程序当中提取了5000个字形成一个用户的语音库，短消息当中使用了20个字，播报的时候就是从5000个字当中提取20个字，凑成一句话的形式，是片段的，是一段音频数据。

如果应用程序中有现有的语音包，也可以对这些语音包进行替换。这种替换可以由用户触发，也可以全局语音库中样本足够丰富，满足一定条件时，有系统主动触发。

基于同一发明构思，本发明实施例还提供一种提示音生成装置，可以设置在移动终端中，其结构如图4所示，包括：信息获取模块401、文字提取模块402、发音匹配模块403和声音合成模块404。

信息获取模块401，用于获取应用程序中需要播放的原始提示信息。

文字提取模块402，用于提取原始提示信息所对应的文字信息。

发音匹配模块403，用于根据提取的文字信息和选定模拟用户信息，从全局语音库中获取文字信息中每个文字的选定模拟用户的发音；其中，全局语音库中包括每个模拟用户对应的各文字的发音。

声音合成模块404，用于将获取的每个文字的选定模拟用户的发音进行声音合成，生成以模拟用户声音播放的模拟提示音。

优选的，上述信息获取模块401，具体用于获取包括文本原始提示信息和音频原始提示信息中的至少一种的原始提示信息。

优选的，上述文字提取模块402，具体用于对文本原始提示信息进行分词，根据分词结果提取出文本原始提示信息中所包含的文字；对音频原始提示信息进行语音识别，识别出音频所对应的文字。

优选的，上述发音匹配模块403，具体用于逐一获取所述文字信息中的每一个文字，针对获取的文字：根据选定模拟用户的信息，查找全局语音库中存储的选定模拟用户的各文字的发音，提取出获取的文字的发音；直到获取完文字信息中的所有文字，得到文字信息中每个文字的选定模拟用户的发音。

优选的，上述声音合成模块404，具体用于根据原始提示信息的文字顺序，采用预设的提示音合成模板，对每个文字的选定模拟用户的发音进行合成，生成与原始提示信息的文字顺序一致的模拟提示音。

优选的，上述装置还包括：

语音库生成模块405，用于获取模拟用户的输入声音，提取输入声音的语音特征；分析提取的语音特征，合成输入声音中不包含的文字的发音；将输入声音中包含的文字发音和合成的文字发音，作为模拟用户对应的各文字的发音，存储到全局语音库。

优选的，上述语音库生成模块405，具体用于提取的语音特征包括下列特征中的至少一种：输入声音的音色、输入声音的音调、输入声音的语速、输入声音的频率、输入声音的幅度、输入声音的平均能量。

优选的，上述语音库生成模块405，具体用于启动录音功能，录入模拟用户的声音，作为模拟用户的输入声音；和/或从其他应用程序中获取模拟用户的声音，作为模拟用户的输入声音。

优选的，上述语音库生成模块405，还用于当获取到模拟用户的输入声音有多个时，对输入声音进行筛选，从多个输入声音中筛选出音质最好的一个或多个输入声音。

本发明实施例提供的移动终端的一个结构示例如图5所示，包括：一个或多个处理器580；

存储器520；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器520中并被配置为由一个或多个处理器580执行，一个或多个程序配置用于执行上述任意一个优选实施例或其组合所提供的应用属性的自动唤醒方法。

为了便于说明，图5仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该移动终端可以包括手机、平板电脑、PDA(PersonalDigital Assistant，个人数字处理)、POS(Point of Sales，销售终端)、车载电脑等任意终端设备，以终端为手机为例：

图5示出的是与本发明实施例提供的移动终端相关的手机的部分结构的框图。参考图5，手机包括：射频(Radio Frequency，RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity，WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图5中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图5对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图5中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理单元；优选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池)，优选的，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的提示音生成方法和移动终端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

至此，本领域技术人员应认识到，虽然本文已详尽示出和描述了本发明的多个示例性实施例，但是，在不脱离本发明精神和范围的情况下，仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此，本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims

1.一种提示音生成方法，包括：

获取应用程序中需要播放的原始提示信息；

提取所述原始提示信息所对应的文字信息；

将获取的每个文字的选定模拟用户的发音进行声音合成，生成以模拟用户声音播放的模拟提示音；

其中，生成全局语音库的过程包括：

获取模拟用户的输入声音，提取输入声音的语音特征；

2.根据权利要求1所述的方法，其中，所述原始提示信息包括文本原始提示信息和音频原始提示信息中的至少一种。

3.根据权利要求2所述的方法，其中，提取所述原始提示信息所对应的文字信息，具体包括：

4.根据权利要求1所述的方法，其中，从全局语音库中获取所述文字信息中每个文字的选定模拟用户的发音，具体包括:

逐一获取所述文字信息中的每一个文字，针对获取的文字：

5.根据权利要求1所述的方法，其中，将获取的每个文字的选定模拟用户的发音进行声音合成，生成以模拟用户声音播放的模拟提示音，具体包括:

6.根据权利要求1所述的方法，其中，输入声音的语音特征包括下列特征中的至少一种：

7.根据权利要求1所述的方法，其中，获取模拟用户的输入声音，具体包括：

8.根据权利要求7所述的方法，其中，当获取到模拟用户的输入声音有多个时，对输入声音进行筛选，从多个输入声音中筛选出音质最好的一个或多个输入声音。

9.一种提示音生成装置，包括：

声音合成模块，用于将获取的每个文字的选定模拟用户的发音进行声音合成，生成以模拟用户声音播放的模拟提示音；

10.根据权利要求9所述的装置，其中，所述信息获取模块，具体用于：

11.根据权利要求10所述的装置，其中，所述文字提取模块，具体用于：

12.根据权利要求9所述的装置，其中，所述发音匹配模块，具体用于：

逐一获取所述文字信息中的每一个文字，针对获取的文字：

13.根据权利要求9所述的装置，其中，所述声音合成模块，具体用于：

14.根据权利要求9所述的装置，其中，所述语音库生成模块，具体用于：提取的语音特征包括下列特征中的至少一种：

15.根据权利要求9所述的装置，其中，所述语音库生成模块，具体用于：

16.根据权利要求15所述的装置，其中，所述语音库生成模块，还用于：

17.一种移动终端，包括处理器和存储器：

所述存储器用于存储执行权利要求1至8任一项方法的程序；

所述处理器被配置为用于执行所述存储器中存储的程序。