CN103856626A

CN103856626A - 个性声音的定制方法和装置

Info

Publication number: CN103856626A
Application number: CN201210551673.7A
Authority: CN
Inventors: 胡嵩
Original assignee: Beijing Oak Pacific Interactive Technology Development Co Ltd
Current assignee: Beijing Oak Pacific Interactive Technology Development Co Ltd
Priority date: 2012-11-29
Filing date: 2012-11-29
Publication date: 2014-06-11

Abstract

本发明的实施方式提供了个性声音的定制方法和装置。其中，所述定制方法包括移动终端在通话过程中采集来自所述移动终端话筒的语音输入；处理所述采集的语音，积累专属于个人声音的特征库；和利用所述特征库执行语音输出和/或匹配。根据发明的方法和装置提出了针对语音合成技术而言新的语音采集模式，利用该新的语音采集模式极大了便利了用户的个人声音的采集，提高了语音合成输出的精确性。

Description

个性声音的定制方法和装置

技术领域

本发明的各实施方式涉及语音技术，并且更具体地，涉及一种个性声音的定制方法和装置。

背景技术

近几十年来，随着语音技术的发展，关于语音方面的应用取得了显著进步，开始逐渐从实验室走向市场。预计未来10年之内，语音识别和合成技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

现有的语音技术主要包括语音识别和语音合成。其中语音识别技术的软件例如有微软语音识别系统SpeechSDK V5.1、IBM语音识别输入系统ViaVoice Pro 9.1等。语音合成，又称文语转换(Text toSpeech或TTS)，能够将将任意文字信息实时转化为标准流畅的语音输出。目前中文TTS系统，比较著名的有：IBM，Microsoft，Fujitsu，科大讯飞，捷通华声等研究的系统。上述的这些系统在一定程度上满足了人们对于实现语音识别和合成的需求，然而随着社会的发展，人们越来越追求个性化，不仅希望自己的声音能够被机器识别，而且希望能够合成输出带有自己印记(例如口音)的个性化声音。像上述语音合成系统的不足之处即在于其通常仅提供专业的男生和女生的语音输出，从而不能满足人们的个性化需求。

为了更好地促进语音技术的应用，吸引用户，改善用户体验，软件开发商正积极开发各种新功能以丰富已有的各种服务。

发明内容

鉴于上述现状，本发明的目的至少部分地在于提供一种个人声音的定制方法和装置。该装置通过采集通话过程中的语音，提供了采集语音的新模式；处理所述采集的语音，实现了特征库的积累，从而克服了现有技术无法高效采集、精确合成输出个人语音的缺陷。根据本发明的上述采集方式，极大地便利了采集过程，节省了大量的时间。

根据本发明的一个方面，提供了一种个性声音的定制方法，包括：移动终端在通话过程中采集来自所述移动终端话筒的语音输入；处理所述采集的语音，积累专属于个人声音的特征库；利用所述特征库执行语音输出和/或匹配。

根据本发明优选的实施例，移动终端在通话过程中采集符合预定质量要求的语音输入。

根据本发明优选的实施例，所述特征库包括个人声音的字词句语音库、个人声音的音素库和/或个人声音的特征值库。

根据本发明优选的实施例，设置所述特征库中各个库的优先级。

根据本发明优选的实施例，所述处理所述采集的语音包括对采集的语音执行音素分解。

根据本发明优选的实施例，所述移动终端响应于其话筒的激活而自动启动所述采集。

根据本发明优选的实施例，执行所述语音输出包括实现从文本到语音的个人声音输出。

根据本发明优选的实施例，执行所述语音匹配包括语音登录或解锁。

根据本发明的另一方面，提供了一种个性声音的定制装置，包括采集部，用于在通话过程中采集来自所述移动终端话筒的语音输入；处理和存储部，用于处理所述采集的语音，积累专属于个人声音的特征库；执行部，利用所述特征库执行语音输出和/或匹配。

根据本发明优选的实施例，所述采集部在通话过程中采集符合预定质量要求的语音输入。

根据本发明优选的实施例，所述处理和存储部设置所述特征库中各个库的优先级。

根据本发明优选的实施例，所述采集部响应于移动终端话筒的激活而自动启动所述采集。

根据本发明优选的实施例，所述执行部执行所述语音输出包括实现从文本到语音的个人声音输出。

根据本发明优选的实施例，所述执行部执行所述语音匹配包括语音登录或解锁。

附图说明

当结合附图阅读下文对示范性实施方式的详细描述时，这些以及其他目的、特征和优点将变得显而易见，在附图中：

图1是本发明的各实施方式可以在其中实现的示例性系统10的概览图；

图2示出了根据本发明优选实施方式的个人声音的定制方法的流程图；

图3示出了根据本发明优选实施方式的个人声音的定制装置的方框图；以及

图4示出了根据本发明的各实施方式可在其中实现的移动通信设备的配置图。

具体实施方式

附图中的流程图和框图，图示了按照本发明各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

现在将仅通过示例性方式来详细地描述本发明的各种实施方式。

图1是本发明的实施方式可以在其中实现的示例性系统10的概览图。系统10可以包括有线或无线网络的任意组合，其中这些网络包括但不限于移动电话网络、无线局域网(LAN)、蓝牙个人局域网、以太网LAN、令牌环LAN、广域网、互联网等。

例如，图1中所示系统10包括移动电话网络11和互联网28。通往互联网28的连接可以包括但不限于远程无线连接、短程无线连接，以及各种有线连接，有线连接包括但不限于电话线、电缆线路、电力线、TV广播等。

系统10的示例性移动通信设备可以包括但不限于组合式PDA和移动电话14、移动电话12、PDA 16、集成消息传递设备(IMD)18和平板电脑(未示出)等。移动通信设备可以通过通往基站24的无线连接25发送和接收呼叫和消息，并且通过通往基站24的无线连接25与服务提供商进行通信。基站24可以耦合至网络服务器26，该服务器26允许移动电话网络11和互联网28之间的通信。系统10还包括社交网站的服务器20，其通过有线或无线链路连接到互联网28。系统10可以包括附加的通信设备和不同类型的通信设备。

移动通信设备可以使用各种传输技术进行通信，包括但不限于，码分多址(CDMA)、全球移动通信系统(GSM)、通用移动通信系统(UMTS)、时分多址(TDMA)、频分多址(FDMA)、传输控制协议/互联网协议(TCP/IP)、短消息传递服务(SMS)、多媒体消息传递服务(MMS)、电子邮件、即时消息传递服务(IMS)、蓝牙、IEEE 802.11等。在实现本发明的各种实施方式中所涉及的通信设备可以使用各种介质进行通信，包括但不限于无线电、红外、激光、线缆连接等。

图2示意性示出了根据本发明优选实施方式的个性声音的定制方法流程图。该方法可以全部或部分地由移动通信终端来执行，其开始于步骤S201。

步骤S210，移动终端在通话过程中采集来自所述移动终端话筒的语音输入；

所述移动终端优选为移动通信终端，其能够建立与其他通信终端的语音连接。所述移动终端还优选包括智能移动终端，其操作系统包括但不限于苹果的IOS系统、谷歌的Android系统和微软的Window Phone 7系统。本领域技术人员根据下面的描述，还将理解本发明并不仅限于所述移动终端，其他适于在通话过程中采集语音的任何装置均在本发明的教导范围之内。

其中，在通话过程中采集移动终端话筒的语音输入，也就是说，可以在通话过程中的任意点启动所述采集语音的操作。例如可以响应于移动终端话筒的激活，开始启动所述语音输入的采集；可以在通话过程的中间，手动启动所述语音输入的采集等等。

根据本发明优选的实施方式，还可以设置预定的采集时间，例如响应于话筒激活后30秒内执行语音采集。还可以在预定的话筒质量和/或周围环境条件下执行上述采集，所述预定的话筒质量包括例如话筒音量的大小等，而所述周围环境条件例如包括传感器监测到周围的嘈杂程度。例如，当监测到周围的嘈杂程度超过预定值时，则不执行或停止或中断所述语音采集。

本领域技术人员可以理解，尽管上述对通过移动终端话筒进行语音采集设置了各种的采集条件，但可以采用各种现有的语音采集技术实现上述语音的采集，对此本申请不再赘述。

本领域技术人员还应理解，步骤S210实际上提出了针对语音合成技术而言非常独特的语音采集模式。该语音采集模式的有利之处在于一方面巧妙地利用通话过程来实现语音采集，避免了传统语音合成输出前的大批量语音采集环节，从而为用户节省了大量的时间，另一方面获取了大量的个性化语音(专属于移动终端用户的个人声音)，而且这些语音不同于传统语音合成中需要采集的语音词汇，它们显然更加贴近生活，属于生活中的语言，为后续构建专属于个人声音的特征库提供了最原始的基础。

步骤S220，处理所述采集的语音，积累属于个人声音的特征库；

本发明所述的处理所述采集的语音首先可以包括对采集的语音进行过滤、去噪、放大等；具体而言，例如可以直接删除低于预定音量要求的语音，而对保留的语音进行去噪，以及放大所采集的语音等等。这一步骤可以确保所述采集语音的品质。

根据本发明进一步优选的实施例，处理所述采集的语音还可以包括执行对语音音素的分解，从而构建专属于个人声音的音素库。仅以中文语音为例，虽然音节是最自然的语音单位，但音素才是最小的语音单位。音素包括10个元音，22个辅音，总共有32个。一个音节，至少有一个音素，至多有四个音素。如“普通话”，由三个音节组成，可以被处理分解成“p，u，t，o，ng，h，u，a”八个音素。这样的音素分解例如可以利用微软的SAPI 5的技术完成，目前已经有相关记载。如本领域技术人员所清楚地，小量样本的音素分解可能不是精确的，然而对于利用通话过程采集语音的模式而言，由于可以提供用于音素分解的大批量样本，在例如通过筛选、比较、统计、和/或训练之后，则可以得到比较可靠的个人语音音素，从而构建专属于个人声音的音素库。根据本发明进一步优选的实施例，还可以对上述音素库的音素执行人工校正，从而确保分解出个人声音音素的正确性。根据本发明的各实施例，所述特征库可以包括上述专属于个人的音素库。

根据本发明进一步优选的实施例，处理所述采集的语音还可以包括执行语音识别，从而获得专属于个人声音的字词句语音库。所述字词句语音库由于是对长期通话过程的语音采集，构建大部分特别是常用的字词句语音库成为可能。例如所述字词句语音库可以包括常用字、常用词和常用句等。根据本发明的各实施例，所述特征库可以包括上述专属于个人声音的字词句语音库。

另外，本发明处理所述采集的语音还可以获得包括与语音的音高(声音频率)、音强、音长和/或音色等相关的特征值信息。本领域技术人员清楚，语音的音高、音强、音长和音色等特征值信息反映了个人语音的特色。本领域技术人员可以存储上述特征值信息来构建上述专属于个人声音的特征值库。为了获得上述特征值的准确结果，可以对获得的特征值多次测量求平均值或者数学建模。例如，可以获得和存储在不同场景下(比如平和状态、激动状态下)的个人声音主频率值或范围。

因而根据本发明的各实施例，上述专属于个人声音的特征库可以包括专属于个人声音的音素库、专属于个人声音的字词句语音库和/或专属于个人声音的特征值库等。

如步骤S220中所述的，积累专属于个人声音的特征库。积累即意味着其是在通话过程中逐渐积累。根据本发明的各实施例，所述积累的时间优选为较长的一段时间，例如至少一个月。本领域技术人员可以理解，可以设置其他的积累时间，例如半年、1年等等。上述积累的时间虽然相对于传统的语音应用软件需要的采集时间更长，但上述优势也是显而易见的，即用户可以在不经意间实现了包含大量数据或信息的特征库的积累，而且所述积累的特征库中的数据和/或信息是专属于个人声音的数据和/或信息。

步骤S230，利用所述特征库执行语音输出或匹配。

当拥有了上述特征库后，可以将所述特征库应用于各种场景。例如，可以将所述特征库上传到网上(例如人人网)、可以内置在移动通信终端(手机)内、可以内置在台式机中等。

根据本发明优选的实施例，可以在上述各种场景中，利用所述特征库执行语音输出或匹配。

所述语音输出，包括从文本到语音的合成输出。该语音输出例如可以实现短信的语音播报、新鲜事的语音播报等等。按照这样的方式，语音播报不再千篇一律，而完全是个人语音的播报，体现了鲜明的个人特征，必然地会让身边的朋友感觉更加亲切，也同时增加了网站的吸引力。

所述语音匹配，包括在各种场景的语音匹配。例如，可以通过特征库比对检测到的语音(类似于验证码)来完成用户的登录、移动终端的锁屏或解锁等等。

根据本发明的特征库，至少具有个人声音的音素库、个人字词句的语音库和个人声音的特征值库中的一个或多个。当具有上述多个库时，特别地至少具有上述语音库和音素库时，本领域可以设置所述库之间的优先级，例如优先选择音素库时，则优先利用该音素库实现语音的输出和/或匹配；而优先选择字词句语音库时，则优先使用语音库实现语音的输出和/或匹配。在某些特定情况下，也可以优先使用个人声音的特征值库来实现语音的输出和/或匹配。

根据本发明的优选实施例，实现语音输出和/或匹配的优先级顺序是个人声音的字词句语音库-个人声音的音素库-个人声音的特征值库。本领域技术人员可以明白，这样的有利之处在于可以最精确地再现个人的语音，因为字词句语音库相对于音素库再现的语音会更加地精确且更加地原汁原味。而个人声音的音素库和/或个人声音的特征值库则可以作为个人声音的字词句语音库的良好补充。

步骤S240，结束。

图3示意性示出了根据本发明优选实施方式的个性声音的定制装置的方框图。定制装置300包括采集部310、处理和存储部320和执行部330。这些装置可以全部或部分集成在移动终端内。其中，

采集部310，用于在通话过程中采集来自所述移动终端话筒的语音输入；处理和存储部320，用于处理所述采集的语音，积累专属于个人声音的特征库；执行部330，利用所述特征库执行语音输出和/或匹配。

由于根据本发明的个性声音的定制装置和个性声音的定制方法实质上相互对应，因此，前述定制方法中记载的方式或功能，可以相应地在定制装置中通过相应的部件实现。为了避免重复，下面仅作简单的说明。然而本领域技术人员应明白，下述简单说明不应作为本发明装置的限制。

根据本发明优选的实施例，所述采集部310在通话过程中采集符合预定质量要求的语音输入。根据本发明优选的实施例，所述特征库包括个人声音的字词句语音库、个人声音的音素库和/或个人声音的特征值库。

根据本发明优选的实施例，所述处理和存储部320设置所述特征库中各个库的优先级。

根据本发明优选的实施例，所述采集部310响应于移动终端话筒的激活而自动启动所述采集。

根据本发明优选的实施例，所述执行部330执行所述语音输出包括实现从文本到语音的个人声音输出。

根据本发明优选的实施例，所述执行部330执行所述语音匹配包括语音登录或解锁。

图4示意性示出了根据本发明的各实施方式可在其中实现的移动通信设备的配置图。

移动通信终端具有控制器400，其负责移动终端的整体操作，并且可以利用任何商业可得CPU(“中央处理单元”)、DSP(“数字信号处理器”)或任何其他电子可编程逻辑器件实现。控制器400具有关联电子存储器402，诸如RAM存储器、ROM存储器、EEPROM存储器、闪存或其任何组合。存储器402由控制器400用于各种目的，其中之一在于为移动通信终端中各种软件存储程序指令和数据。软件包括实时操作系统420、用于人机界面(MMI)434的驱动器、应用处理机432和各种应用。应用可以包括消息文本编辑器450、手写识别(HWR)应用460和各种其他应用470，诸如，用于语音呼叫、视频呼叫、发送和接收短消息服务(SMS)消息、多媒体消息服务(MMS)或电子邮件、web浏览、即时消息收发应用、电话簿应用、日历应用、控制面板应用、照相机应用、一个或多个视频游戏、记事本应用等。应当注意，上述应用的两个或更多可以作为同一应用执行。

MMI 434还包括一个或多个硬件控制器，其与MMI驱动器一起与第一显示器436，小键盘438和各种其他I/O设备(诸如麦克风、扬声器、振动器、响铃发生器、LED指示器等)协作。如所公知的，用户可以通过这样形成的人机界面来操作移动终端。

软件还可以包括各种模块、协议栈、驱动器等，其被共同标记为430，并且为RF接口406以及可选地为蓝牙接口408和/或IrDA接口410提供通信服务(诸如，传输、网络和连通性)，以用于本地连通性。RF接口406包括内部或外部天线以及用于建立和维护通往基站的无线链路的适当无线电电路。如本领域技术人员公知的，无线电电路包括一系列模拟和数字电子组件，其一起形成无线电接收机和发射机。这些组件例如包括带通滤波器、放大器、混频器、本地振荡器、低通滤波器、AD/DA转换器等。

移动通信终端还可以包括SIM卡404和相关联的读出器。如所公知的，SIM卡404包括处理器以及本地工作和数据存储器。

本发明的实施方式可以体现为一种程序包和一种应用程序编程接口API。移动应用软件的开发者可以通过包含、引用、导入本程序包的方式或者调用本应用程序编程接口的方式为移动应用软件增加传播移动应用软件的功能。

本发明还提供一种包含计算机可读程序的存储介质，当计算机可读程序由处理器执行时，其使得处理器按照本发明的实施方式来实现扩展移动通信终端的功能的方法。存储介质可以为任何有形媒介，例如软盘、CD-ROM、DVD、硬盘驱动器、甚至网络介质等。

上述描述的各种方面可以单独使用或者在各种组合中使用。本申请的教导可以通过硬件和软件的组合实现，但是也可以以硬件或软件实现。本申请的教导还可以具体化为计算机可读介质上的计算机程序产品，其可以是任何材料介质，诸如软盘、CD-ROM、DVD、硬盘驱动器乃至网络介质等。

已经出于示出和描述的目的给出了本发明的说明书，但是其并不意在是穷举的或者限制于所公开形式的发明。本领域技术人员可以想到很多修改和变体。本领域技术人员应当理解，本发明实施方式中的方法和装置可以以软件、硬件、固件或其组合实现。

因此，实施方式是为了更好地说明本发明的原理、实际应用以及使本领域技术人员中的其他人员能够理解以下内容而选择和描述的，即，在不脱离本发明精神的前提下，做出的所有修改和替换都将落入所附权利要求定义的本发明保护范围内。

Claims

1.一种个性声音的定制方法，其特征在于：

移动终端在通话过程中采集来自所述移动终端话筒的语音输入；

处理所述采集的语音，积累专属于个人声音的特征库；

利用所述特征库执行语音输出和/或匹配。

2.根据权利要求1所述的方法，其进一步在于：

移动终端在通话过程中采集符合预定质量要求的语音输入。

3.根据权利要求1所述的方法，其进一步在于：

所述特征库包括个人声音的字词句语音库、个人声音的音素库和/或个人声音的特征值库。

4.根据权利要求3所述的方法，其进一步在于：

设置所述特征库中各个库的优先级。

5.根据权利要求1所述的方法，其进一步在于：

所述处理所述采集的语音包括对采集的语音执行音素分解。

6.根据权利要求1所述的方法，其进一步在于：

所述移动终端响应于其话筒的激活而自动启动所述采集。

7.根据权利要求1所述的方法，其进一步在于：

执行所述语音输出包括实现从文本到语音的个人声音输出。

8.根据权利要求1所述的方法，其进一步在于：

执行所述语音匹配包括语音登录或解锁。

9.一种个性声音的定制装置，其特征在于：

采集部，用于在通话过程中采集来自所述移动终端话筒的语音输入；

处理和存储部，用于处理所述采集的语音，积累专属于个人声音的特征库；

执行部，利用所述特征库执行语音输出和/或匹配。

10.根据权利要求9所述的方法，其进一步在于：

所述采集部在通话过程中采集符合预定质量要求的语音输入。

11.根据权利要求9所述的方法，其进一步在于：

12.根据权利要求11所述的方法，其进一步在于：

所述处理和存储部设置所述特征库中各个库的优先级。

13.根据权利要求1所述的方法，其进一步在于：

所述处理所述采集的语音包括对采集的语音执行音素分解。

14.根据权利要求1所述的方法，其进一步在于：

所述采集部响应于移动终端话筒的激活而自动启动所述采集。

15.根据权利要求1所述的方法，其进一步在于：

所述执行部执行所述语音输出包括实现从文本到语音的个人声音输出。

16.根据权利要求1所述的方法，其进一步在于：

所述执行部执行所述语音匹配包括语音登录或解锁。