CN104347065A

CN104347065A - 依据使用者语音产生合适语音信号的装置及其方法

Info

Publication number: CN104347065A
Application number: CN201310320691.9A
Authority: CN
Inventors: 刘晓安
Original assignee: Inventec Pudong Technology Corp; Inventec Corp
Current assignee: Inventec Pudong Technology Corp; Inventec Corp
Priority date: 2013-07-26
Filing date: 2013-07-26
Publication date: 2015-02-11

Abstract

本发明公开一种依据使用者语音产生合适语音信号的装置及其方法，其通过收集人声语音以及相对应的文字数据，并建立文字数据所包含的语音文字在人声语音中的位置索引后，依据目标信息中与语音文字相同的信息文字的位置索引，由人声语音中获取出与信息文字对应的声音信号，并结合所获取出的声音信号的技术手段，可以无需特别建立语音数据库，达成以使用者的语音合成语音信号的技术功效。

Description

依据使用者语音产生合适语音信号的装置及其方法

技术领域

本发明涉及一种语音信号的产生装置及其方法，特别是指一种依据使用者语音产生合适语音信号的装置及其方法。

背景技术

文字转语音（text-to-speech，TTS）系统则是将一般语言的文字转换为人类的语音信号，一般而言，文字转语音系统会连接预先储存在语音数据库内的语音，因此，必须提供大量的储存空间，而且，部分经过转换后的语音信号所表达的语意可能无法被清楚的辨识。

语音信号无法被清楚辨识的原因之一是经过转换后的语音信号与人声的相似度差异过大。这通常是因为使用者不可能特地建立语音数据库，所以，目前语音数据库所储存的语音大多为机械语音，如此，在文字转语音系统连接语音数据库内的语音时，便可能因为连结时没有与机械语音合适的声道模型或是特征参数，而无法连接出与人声相似的语音信号。

综上所述，可知现有技术中长期以来一直存在机械语音可能无法合成与人声相似的语音信号的问题，因此有必要提出改进的技术手段，来解决此一问题。

发明内容

有鉴于现有技术存在机械语音可能无法合成与人声相似的语音信号的问题，本发明遂揭露一种依据使用者语音产生合适语音信号的装置及其方法，其中：

本发明所揭露的依据使用者语音产生合适语音信号的装置，至少包含：收集模块，用以收集多个人声语音及对应的文字数据，每一文字数据都包含语音文字；索引建立模块，用以建立语音文字于人声语音中的位置索引；响应模块，用以产生目标信息，目标信息包含信息文字，且信息文字为语音文字其中之一；音频选取模块，用以依据信息文字的位置索引，由人声语音中分别获取信息文字所对应的声音信号；音频结合模块，用以依据信息文字于目标信息中的顺序，依序结合与信息文字对应的被选出的声音信号为结果信号；输出模块，用以输出结果信号。

本发明所揭露的依据使用者语音产生合适语音信号的方法，应用于装置上，其步骤至少包括：收集多个人声语音及对应的文字数据，文字数据包含语音文字；建立语音文字于人声语音中的位置索引；提供目标信息，目标信息包含信息文字，且信息文字为语音文字其中之一；依据信息文字的位置索引，由人声语音中分别获取信息文字所对应的声音信号；依据信息文字于目标信息中的顺序，依序结合与信息文字对应的被选出的声音信号为结果信号；输出结果信号。

本发明所揭露的装置与方法如上，与现有技术之间的差异在于本发明通过收集人声语音以及相对应的文字数据，并建立文字数据所包含的语音文字在人声语音中的位置索引后，依据目标信息中与语音文字相同的信息文字的位置索引，由人声语音中获取出与信息文字对应的声音信号，并结合所获取出的声音信号，藉以解决现有技术所存在的问题，并可以达成无需特别建立语音数据库即可以以使用者的语音合成语音信号的技术功效。

附图说明

图1为本发明所提的依据使用者语音产生合适语音信号的装置的元件示意图。

图2A为本发明所提的依据使用者语音产生合适语音信号的方法流程图。

图2B为本发明所提的取得与信息文字对应的声音信号的详细方法流程图。

【符号说明】

100装置

101储存媒体

110收集模块

120索引建立模块

140响应模块

160音频选取模块

170音频结合模块

180输出模块

具体实施方式

以下将配合图式及实施例来详细说明本发明的特征与实施方式，内容足以使任何熟习相关技艺者能够轻易地充分理解本发明解决技术问题所应用的技术手段并据以实施，藉此实现本发明可达成的功效。

本发明可以依据目标信息，由使用者在进行语音输入时被输入的人声语音中获取出与目标信息中的信息文字对应的声音信号，并将所获取出的多个声音信号组合为与目标信息对应的完整的结果信号。其中，与信息文字对应的声音信号被播放后会发出表示信息文字的声音。

以下先以「图1」本发明所提的依据使用者语音产生合适语音信号的装置的元件示意图来说明本发明的系统运作。如「图1」所示，本发明的装置100含有收集模块110、索引建立模块120、响应模块140、音频选取模块160、音频结合模块170、以及输出模块180。

收集模块110负责收集在语音输入时被输入的人声语音。其中，文字数据包含一个或多个语音文字，依照文字数据中的语音文字的排列顺序被人所念出来而产生的声音即为人声语音。

收集模块110也负责收集由被输入的人声语音转换为与人声语音对应的文字数据。一般而言，将人声语音转换为相对应的文字数据是由提供语音输入的系统所完成，收集模块110可以勾（hook）上语音输入系统，也可以勾上执行本发明的作业系统或是由语音输入系统输入文字数据的软件，藉以获得语音输入系统进行输入的文字数据，但收集模块110收集与人声语音对应的文字数据的方式并不以上述为限。

索引建立模块120负责建立与人声语音对应的文字数据所包含的语音文字在人声语音中的位置索引，被索引建立模块建立的位置索引与该语音文字对应。一般而言，每一个语音文字在人声语音中的位置索引为可以由该人声语音中迅速取得表示该语音文字的声音的数据，例如，人声语音被产生或播放时发出表示该语音文字的声音的时间，也可以是记录该人声语音的档案中开始播放出表示该语音文字的声音的位元组，但本发明所提的位置索引并不以上述为限。

在部分的实施例中，索引建立模块120可以依据预先储存于储存媒体101中的语音文字的机械语音判断表示各语音文字的声音在人声语音中的起始位置，并以所判断出的起始位置作为文字语音在人声语音中的位置索引。例如，在收集模块110所收集的人声语音的波形中搜寻与语音文字的机械语音的波形相似的部分，当索引建立模块120在人声语音中搜寻到波形相似的部分时，可以将人声语音的波形中开始与语音文字的机械语音的波形相似的部分的时间作为该语音文字在该人声语音中的位置索引。但索引建立模块120建立语音文字在人声语音中的位置索引的方式并不以上述为限。

在上述的实施例中，由于波形的比对往往会增加装置100的负载，因此，索引建立模块120更可以在侦测执行装置100的负载后，判断装置100的负载低于一定值时才会执行建立语音文字在人声语音中的位置索引的工作。

响应模块140负责产生目标信息。响应模块140所产生的目标信息包含一个或多个信息文字。

一般而言，响应模块140会在装置100需要进行数据或信号的输出时产生目标信息，例如，响应输入信号或产生警告信号等，但本发明并不以此为限。例如，响应模块140所产生的目标信息也可以是被响应模块140读取的文字数据。

音频选取模块160负责取得与响应模块140所产生的目标信息中的信息文字对应的声音信号。一般而言，音频选取模块160可以将响应模块140所产生的目标信息所包含的各个信息文字作为语音文字，依据索引建立模块120所建立的位置索引，由收集模块110所收集的人声语音中获取出各个信息文字所对应的声音信号。

在部分的实施例中，音频选取模块160可以判断目标信息所包含的信息文字是否已经被索引建立模块120建立位置索引，也就是判断信息文字是否为已被索引建立模块120建立位置索引的语音文字，若是，则依据已建立的位置索引，由建立该位置索引的人声语音中获取出与信息文字对应的声音信号，若否，则可以由储存媒体101中读取预先建立的与信息文字对应的机械语音作为与信息文字对应的声音信号。

音频选取模块160也可以在一个信息文字对应多个位置索引时，先由建立各个位置索引的人声语音中选出一个人声语音，再依据由被选出的人声语音所建立的位置索引，由被选出的人声语音中获取出声音信号，或是先由建立各个位置索引的人声语音中获取出与信息文字对应的声音信号，并由所获取出的多个声音信号中选择一个使用。一般而言，音频选取模块160会选择符合目标信息的语调的声音信号，例如，选择信息文字在与人声语音对应的文字数据中的前后文的句型结构与目标信息相似的人声语音，但音频选取模块160由建立各个位置索引的人声语音中选出一个人声语音或由各个人声语音中所获取出的声音信号中选出一个声音信号的方式并不以此为限，音频选取模块160也可使用如随机等方式选择人声语音或声音信号。

音频结合模块170负责依据响应模块140所产生的目标信息中各个信息文字的先后顺序，依序结合被音频选取模块160所选出的与各个信息文字对应的声音信号，在结合音频选取模块160所获取出的所有声音信号后，包含被音频选取模块160所选出的所有声音信号的结果信号会被产生。音频结合模块170所产生的结果信号即为与响应模块140所提供的目标信息对应的语音信号。

输出模块180负责输出音频结合模块170所产生的结果信号。其中，输出模块180可以将结果信号写入储存媒体101中，或是播放结果信号等，但本发明并不以此为限。

接着以一个实施例来解说本发明的运作系统与方法，并请参照「图2A」本发明所提的依据使用者语音产生合适语音信号的方法流程图。

首先，在使用者使用语音输入时，收集模块110可以收集使用者所输入的人声语音以及与被使用者输入的人声语音对应的文字数据（步骤210）。在本实施例中，假设收集模块110可以将所收集到的人声语音以及与所收集的人声语音对应的文字数据储存到设置于装置100的储存媒体101中。

在收集模块110收集使用者所输入的人声语音以及与人声语音对应的文字数据（步骤210）后，索引建立模块120可以为收集模块110所收集的文字数据中的各个语音文字建立在收集模块110所收集的人声语音中的位置索引（步骤220）。在本实施例中，假设索引建立模块120会先侦测装置100的负载，并判断所侦测到的负载符合预定条件时，例如装置100的处理器的使用率低于35%，才会依据收集模块110所收集的文字数据中的各个语音文字的机械语音判断表示语音文字的声音在收集模块110所收集的人声语音中的起始位置，藉以建立语音文字在人声语音中的位置索引。

之后，响应模块140可以提供目标信息（步骤240）。在本实施例中，假设响应模块140是在装置100需要以人声进行输出时，取得由装置100所提供的与需要输出的人声对应的数据，此一数据即为本发明所提的目标信息。

在响应模块140提供目标信息（步骤240）后，音频选取模块160可以将目标信息中的信息文字作为语音文字，依据索引建立模块120为各个信息文字所建立的位置索引，由收集模块110所收集的人声语音中获取出与信息文字相对应的声音信号（步骤266）。

更详细的说，音频选取模块160可以如「图2B」的流程所示，取得与信息文字相对应的声音信号。音频选取模块160可以先判断目标信息中是否包含尚未处理过的信息文字（步骤251），也就是判断目标信息中是否还包含未取得相对应的声音信号的信息文字，若是，则音频选取模块160可以读取一个尚未处理过的信息文字（步骤255），并判断索引建立模块120是否曾经为所读取出的信息文字建立过位置索引，也就是判断所读取的信息文字是否为经过索引建立模块120建立过位置索引的语音文字（步骤259），若是，才可以依据目标信息中的信息文字的位置索引，由建立该位置索引的人声语音中获取出与信息文字相对应的声音信号（步骤266），若否，也就是索引建立模块120并未对所读取出的信息文字建立过位置索引，则音频选取模块160可以选择预先储存于储存媒体101中的与信息文字对应的机械语音作为声音信号（步骤262）。接着，继续判断目标信息中是否包含尚未处理过的信息文字（步骤251），若否，则结束取得与信息文字相对应的声音信号的程序。其中，若索引建立模块120为目标信息中的信息文字所建立的位置索引有多个，也就是与信息文字对应的声音信号包含在多个人声语音中时，音频选取模块160可以由多个人声语音中获取出与信息文字对应的声音信号（步骤266），之后，可以由所获取出的各个声音信号中选择与目标信息的语调对应的声音信号（步骤268）。音频选取模块160也可以先由多个人声语音中选择一个人声语音，再由所选出的人声语音中获取出与信息文字对应的声音信号。

继续回到「图2A」，在音频选取模块160取得与目标信息中的各个信息文字相对应的声音信号后，音频结合模块170可以依据各个信息文字排列在目标信息中的顺序，依序结合与各个信息文字对应的声音信号（步骤270），藉以在结合后产生结果信号，输出模块180可以将音频结合模块170所产生的结果信号输出（步骤280）。如此，本发明便可以在使用者没有建立专属于自己的语音数据库的情况下，以使用者的声音输出与目标信息对应的语音信号。

综上所述，可知本发明与现有技术之间的差异在于具有通过收集人声语音以及相对应的文字数据，并建立文字数据所包含的语音文字在人声语音中的位置索引后，依据目标信息中与语音文字相同的信息文字的位置索引，由人声语音中获取出与信息文字对应的声音信号，并结合所获取出的声音信号的技术手段，藉由此一技术手段可以解决现有技术所存在机械语音可能无法合成与人声相似的语音信号的问题，进而达成无需特别建立语音数据库即可以使用者的语音合成语音信号的技术功效。

再者，本发明的依据使用者语音产生合适语音信号的方法，可实现于硬件、软件或硬件与软件的组合中，亦可在电脑系统中以集中方式实现或以不同元件散布于若干互连的电脑系统的分散方式实现。

虽然本发明所揭露的实施方式如上，惟所述的内容并非用以直接限定本发明的专利保护范围。任何本发明所属技术领域中具有通常知识者，在不脱离本发明所揭露的精神和范围的前提下，对本发明的实施的形式上及细节上作些许的更动润饰，均属于本发明的专利保护范围。本发明的专利保护范围，仍须以所附的申请专利范围所界定者为准。

Claims

1.一种依据使用者语音产生合适语音信号的方法，应用于一装置中，其特征在于，该方法至少包含下列步骤：

收集多个人声语音及对应的文字数据，每一该文字数据都包含至少一语音文字；

建立各该语音文字于各该人声语音中的位置索引；

提供一目标信息，该目标信息包含至少一信息文字，且至少一该信息文字为该些语音文字其中之一；

依据各该信息文字的各该位置索引，由各该人声语音中分别获取各该信息文字所对应的声音信号；

依据该些信息文字于该目标信息中的顺序，依序结合与各该信息文字对应的各该被选出的声音信号为一结果信号；及

输出该结果信号。

2.如权利要求1所述的依据使用者语音产生合适语音信号的方法，其特征在于，该方法更包含当一该信息文字不存在该些语音文字中时，选择该信息文字对应的一机械语音为该被选出的声音信号的步骤。

3.如权利要求1所述的依据使用者语音产生合适语音信号的方法，其特征在于，建立各该语音文字于各该人声语音中的位置索引的步骤是依据各该语音文字的一机械语音判断各该语音文字的声音于各该人声语音中的起始位置，并以各该起始位置作为各该文字语音于各该人声语音中的位置索引。

4.如权利要求1所述的依据使用者语音产生合适语音信号的方法，其特征在于，依据各该信息文字的各该位置索引，由各该人声语音中分别获取各该信息文字所对应的声音信号的步骤，更包含分别由每一该信息文字所对应的各该声音信号中选出其中之一，其中该被选出的声音信号符合该目标信息的语调的步骤。

5.如权利要求1所述的依据使用者语音产生合适语音信号的方法，其特征在于，提供该目标信息的步骤是于该装置响应一输入信号时被执行。

6.如权利要求1所述的依据使用者语音产生合适语音信号的方法，其特征在于，建立各该语音文字于各该人声语音中的位置索引的步骤是在该装置的负载低于一定值时执行。

7.一种依据使用者语音产生合适语音信号的装置，其特征在于，该装置至少包含：

一收集模块，用以收集多个人声语音及对应的文字数据，每一该文字数据都包含至少一语音文字；

一索引建立模块，用以建立各该语音文字于各该人声语音中的位置索引；

一响应模块，用以产生一目标信息，该目标信息包含至少一信息文字，且至少一该信息文字为该些语音文字其中之一；

一音频选取模块，用以依据各该信息文字的各该位置索引，由各该人声语音中分别获取各该信息文字所对应的声音信号；

一音频结合模块，用以依据该些信息文字于该目标信息中的顺序，依序结合与各该信息文字对应的各该被选出的声音信号为一结果信号；及

一输出模块，用以输出该结果信号。

8.如权利要求7所述的依据使用者语音产生合适语音信号的装置，其特征在于，该音频选取模块更用以于一该信息文字不存在该些语音文字中时，选择该信息文字对应的一机械语音为该被选出的声音信号。

9.如权利要求7所述的依据使用者语音产生合适语音信号的装置，其特征在于，该索引建立模块是依据各该语音文字的一机械语音判断各该语音文字的声音于各该人声语音中的起始位置，并以各该起始位置作为各该文字语音于各该人声语音中的位置索引。

10.如权利要求7所述的依据使用者语音产生合适语音信号的装置，其中该音频选取模块更用以分别由每一该信息文字所对应的各该声音信号中选出其中之一，该被选出的声音信号符合该目标信息的语调。