CN1416053A

CN1416053A - 语音合成系统和语音合成方法

Info

Publication number: CN1416053A
Application number: CN02149812A
Authority: CN
Inventors: 福里笃司
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-11-02
Filing date: 2002-11-04
Publication date: 2003-05-07
Anticipated expiration: 2022-11-04
Also published as: JP2003140674A; CN1208714C; GB2383502A; US20030088419A1; GB2383502B; GB0224901D0; JP3589216B2; US7313522B2; HK1053221A1

Abstract

本发明提供一种包括便携式终端和服务器的语音合成系统，以提高真实性。便携式终端12提供有接收文本数据的文本数据接收单元121，在接收的文本数据中添加语音采样名称并将其传输到服务器13的文本数据传输单元122，从服务器13接收语音合成数据的语音合成数据接收单元123，将接收的语音合成数据复制为语音的语音复制单元124。服务器13提供有接收文本数据和语音采样名称的文本数据接收单元131，语音合成单元132，它通过使用对应接收的语音采样名称的语音采样数据，将接收的文本数据转换成语音合成数据，和向便携式终端12传输语音合成数据的语音合成数据传输单元133。

Description

语音合成系统和语音合成方法

技术领域

本发明涉及一种语音合成系统，它提供通过通信线可相互连接的便携式终端和服务器。更具体地，本发明涉及一种语音合成系统，其中从便携式终端向服务器传输的文本数据由服务器转换为语音合成数据，并传输回便携式终端。

发明背景

用于蜂窝电话如“i-mode”(商标)的互联网连接服务的最近流行趋势已经增加了分布在文本数据中的信息数量。除了交换电子邮件之外，如可移动银行，在线交易和车票购买之类的各种服务对于蜂窝电话来说也变为可行。

另一方面，文本数据中的信息具有下列缺点：(1)很难读取蜂窝电话小屏幕上的信息，特别对于老年人来说很难读取该信息；(2)对于丧失视力的人来说，这些信息是没有用处的。

因此，已经有建议制造具有读出文本数据功能的蜂窝电话。例如，在日本专利中申请号为2000-339137的已公开申请中描述了一种蜂窝电话，用户可以选择一种预定的语音数据种类(如男人，女人，老人或小孩)，因此这种蜂窝电话根据所选的语音数据，将文本数据转换成语音。

然而，由于语音合成数据再现的语音不同于发送文本数据的那个人的语音，上述文件中描述的蜂窝电话会引起对该用户产生不适当的感觉。

发明内容

因此，本发明的目的是提供一种语音合成系统和一种语音合成方法，以增加真实性。

向便携式终端传输转换的语音合成数据。

根据本发明的语音合成系统，它包括通过通信线可相互连接的便携式终端和服务器。且便携式终端包括接收文本数据的文本数据接收单元，在接收的文本数据中添加语音采样名称和向服务器传输该文本数据的文本数据传输单元，以及从服务器接收语音合成数据的语音合成数据接收单元和将接收的语音合成数据复制为语音的语音复制单元。服务器包括从便携式终端接收文本数据和语音采样名称的文本数据接收单元，语音合成单元，通过使用对应于接收的语音采样名称的语音采样数据将接收的文本数据转换成语音合成数据，以及向便携式终端传输转换的语音合成数据的语音合成数据传输单元。

根据本发明的语音合成系统，其中包括多个便携式终端。

根据本发明的语音合成系统，其中各个便携式终端还包括收集每个用户语音采样数据的语音采样数据收集单元，以及向服务器传输收集的语音采样数据的语音采样数据传输单元。服务器还包括从各个便携式终端接收语音采样数据的语音采样数据接收单元，数据库构造单元，它在接收的语音采样数据上添加语音采样名称，以构造数据库。

本发明的语音合成方法应用于本发明的语音合成系统中。

换句话来说，本发明使用了在JAVA应用程序和通信系统主机终端之间的数据协议，以便将接收的文本数据合成为语音数据，并在蜂窝电话中再现该数据。此外，可以指定数据协议中用来语音合成的语音采样数据，以输出所需的语音合成数据。用户的语音采样数据可以通过便携式终端由用户在谈话时收集，之后该数据可能传输给其它用户。

此外，本发明是一种系统，它通过使用便携式终端的JAVA应用程序来再现语音合成数据，以及它具有下列特征：(1)在JAVA应用程序和通信系统主机终端之间的数据协议是唯一的；(2)接收并自动再现语音合成数据；(3)根据语音采样数据，在通信系统主机终端将文本数据转换为语音数据，以产生语音合成数据；(4)通过蜂窝电话由用户在谈话时收集语音采样数据，以产生具有用户语音采样数据特征的数据库；以及(5)提供单元，以使该用户产生的数据库对于其他的用户来说是可以访问的。

附图说明

图1是根据本发明表示语音合成系统一个实施例功能的方框图；

图2是表示如图1所示的语音合成系统操作例的序列图表；

图3是根据本发明表示语音合成系统一个例子的示意图；

图4A是表示如图3所示的便携式终端软件配置例子的方框图；

图4B是表示如图3所示的便携式终端硬件配置例子的方框图；

图5是表示当在如图3所示的语音合成系统中接收文本数据时，便携式终端操作的流程图；

图6是表示如图3所示的语音合成系统中便携式终端访问服务器的操作的序列图表；

图7是表示如图3所示的语音合成系统中复制语音采样数据的数据库操作的序列图表；

图8是序列图表，表示如图3所示的语音合成系统中形成由用户拥有的语音采样数据数据库的操作，其中该数据库可为其他用户访问；以及

图9是序列图表，表示如图3所示的语音合成系统中形成由用户拥有的语音采样数据数据库的操作，其中该数据库可为其他用户访问。

具体实施方式

图1是根据本发明表示语音合成系统一个实施例的功能的方框图。下面，将参考附图描述该实施例。同样也将描述本发明语音合成方法的实施例。

根据本发明的实施例，语音合成系统10包括通过通信线11相互连接的便携式终端12和服务器13。虽然只显示了一个便携式终端12，实际上具有多个便携式终端12。

每个便携式终端12提供有接收文本数据的文本数据接收单元121，在接收的文本数据中添加语音采样名称并将其传输到服务器13的文本数据传输单元122，从服务器13接收语音合成数据的语音合成数据接收单元123，将接收的语音合成数据复制为语音的语音复制单元124，收集便携式终端12用户语音采样数据的语音采样数据收集单元125，和向服务器13传输收集的语音采样数据的语音采样数据传输单元126。

服务器13提供有接收文本数据和语音采样名称的文本数据接收单元131，语音合成单元132，它通过使用对应接收的语音采样名称的语音采样数据，将接收的文本数据转换成语音合成数据，向便携式终端12传输转换的语音合成数据，从便携式终端12中接收语音采样数据的语音采样数据接收单元134，以及命名接收的语音采样数据的数据库构造单元136和构成的数据库135。

通信线11可以是诸如电话线或者互联网之类。便携式终端12可以是蜂窝电话或结合计算机的个人数字助理(PDA)。服务器13可以是诸如个人电脑的计算机。用于便携式终端12和服务器13的各个上述单元通过计算机程序实现。数据通过诸如发射机/接收机(未显示)之类的硬件来传输和/或接收。

图2是显示语音合成系统10的操作例子的序列图表。下面，参考图1和图2将描述该操作。每个便携式终端12A和12B具有和便携式终端12等同的结构。

第一步，在便携式终端12A，由语音采样数据收集单元125收集用户A的语音采样数据(步骤101)，然后由语音采样数据传输单元126将其向服务器13传输(步骤102)。服务器13的语音采样数据接收单元134接收该语音采样数据(步骤103)，以及数据库构造单元136在语音采样数据中添加语音采样名称A’，以构成数据库135(步骤104)。相似地，在便携式终端12B，收集用户B的语音采样数据b(步骤105)，然后向服务器13传输(步骤106)。服务器13接收语音采样数据b(步骤107)，并在语音采样数据b中添加语音采样名称B’，以构成数据库135(步骤108)。

当便携式终端12A的文本数据接收单元121接收从便携式终端12B中传输的文本数据b1时(步骤109，110)，文本数据传输单元122在文本数据b1中添加语音采样名称B’，并将其传输到服务器13(步骤111)。然后，服务器13的文本数据接收单元131接收文本数据b1和语音采样名称B’(步骤112)。语音合成单元132使用对应于语音采样名称B’的语音采样数据b1，以将文本数据b1转换为语音合成数据b2(步骤113)。语音合成数据传输单元133向便携式终端12A传输语音合成数据b2(步骤114)，以及便携式终端12A的语音合成数据接收单元123接收该语音合成数据b2(步骤115)。然后，语音再现单元124在语音b3中再现语音合成数据b2(步骤116)。

根据语音合成系统10，服务器13存储数据库，该数据库是便携式终端12A和12B的用户A和B的语音采样数据a和b的。

因此，当来自便携式终端12B的文本数据b1从便携式终端12A向服务器13传输时，服务器13返回包括便携式终端12B的用户B语音的语音合成数据b2，而文本数据b1可以以用户B的语音读出。结果是，可以进一步提高语音的真实性。

每个便携式终端12A、12B...向服务器13收集并传输用户A，B...的语音采样数据a、b...，并且服务器13依次存储该语音采样数据a、b...作为数据库，因此自动便捷地扩展了语音合成系统10。例如，新的便携式终端12C的用户C可以加入语音合成系统10并很快地享有上述服务。

可以省略语音采样数据收集单元125，语音采样数据传输单元126，语音采样数据接收单元134和数据库构造单元136。在这种情况下，数据库135需要由其它的单元构造。

有关个人语音的研究最初是关于频谱频率和音调频率。当研究是有关音调频率在时间过程中的变化或平均音调频率的变化时，例如，已经有报导关于在语言辨识中作诗法的信息(也就是，在时间过程中音调频率的改变)的效果，由三个短音节的字提取并控制时间过程中音调频率的个人变化。另一方面，关于频谱的研究，已经有报导是关于基于共振峰频率和频带宽度的声域特性和个体之间的关系，以及根据单元音的频谱包络分量对个体的分析。

下面，将要描述语音合成系统10的更具体的例子。

图3是根据本例表示语音合成系统结构的示意图。

仅显示了多个分组信息接收终端其中的一个便携式终端12。服务器13包括网关服务器137和任意服务器138。便携式终端12和网关服务器137通过通信线111连接，而网关服务器137和服务器138通过通信线112连接。通过网关服务器137向任意服务器138传输来自便携式终端12的通信请求作为中继，响应该请求，任意服务器138通过网关服务器137向便携式终端12传输信息。

便携式终端12接收来自服务器13的信息并向服务器13发送信息。网关服务器137置于便携式终端12和138之间的中继点，以向便携式终端12传输响应信息。任意服务器138响应从便携式终端12传输的信息请求返回合适的数据，以用来向便携式终端12自动推进传输。

图4A是显示便携式终端12软件配置的方框图。图4B是显示便携式终端12硬件配置的方框图。下面，参考图3和图4A和4B描述这些软件和硬件。

如图4A所示，便携式终端12的软件20有五层配置，包括OS(操作系统)21，通信模块22，JAVA管理模块23，JAVA VM(虚拟机器)24和JAVA应用程序25。“JAVA”是一种面向对象的编程语言。称为JAVA VM的层填补了OS和CPU之间的差异，使得该操作可在任意一种具有单一二进制应用的环境下执行。

OS21表示一个平台。由于JAVA具有不依赖于平台的优点，并没有特别指定OS21。通信模块22是用来传输和接收分组通信数据的模块。JAVA管理模块23，JAVA VM24和JAVA应用程序25通过通信模块22识别已经接收的分组数据。JAVA管理模块23管理例如，JAVA VM24的操作的控制。JAVA管理模块23在实际便携式终端12控制JAVA应用程序25的运转状况。没有特别地定义JAVA VM24的功能。然而，如果JAVA VM直接设置在便携式终端12中，并入目前个人计算机等的JAVA VM将会缺少存储空间。因此，JAVA VM24只有对于使用的便携式终端12来说的必须功能。JAVA应用程序25是根据由通信模块22接收的数据而产生操作的应用程序。

如图4B所示，便携式终端12的硬件30提供有系统控制器31，存储器32，语音识别器37，无线控制器38和音频单元39。无线控制器38提供有通信数据接收机33和通信数据发射机34。音频单元39提供有扬声器35和麦克风36。

系统控制器31进行对便携式终端12主要操作的控制以及用计算机程序实现如图1所示的便携式终端12的每个单元。存储器32可以用做存储JAVA应用程序25收集的语音采样数据的区域，或者用做存储从服务器13中获得的语音合成数据。通信数据接收机33接收通信数据并输入到便携式终端12。通信数据发射机34从便携式终端12中输出通信数据。扬声器35向外部输出接收的语音合成数据作为语音。麦克风36将用户的语音输入到便携式终端12。语音识别器37识别从麦克风36输入的语音数据并通知JAVA应用程序25。

下面，将参考图5到9描述根据本例的语音合成系统的操作。下面，“数据库”提供给便携式终端的各个用户，及当没有该用户的许可时，其他的用户不能访问该数据库。

图5是当接收文本数据时，便携式终端的操作的流程图。参考此图描述这一操作。

首先，接收文本数据(步骤41)，判断是否进行语音合成(步骤42)。根据用户的选择或者根据预定数据(例如，进行或不进行语音合成)作出判断。当要进行语音合成时，确定用于语音合成所要使用的语音采样数据(步骤43)。采样数据单元要确定出是使用存储在用户便携式终端数据库的语音采样数据，还是使用存储在其他用户数据库中的语音采样数据。因此，在用户便携式终端上再现的语音合成数据不仅涉及到由用户拥有的语音采样数据也涉及到由其他用户拥有的语音采样数据。当访问服务器的数据库时，访问许可需要使用唯一访问标识符获得。当访问其他用户的数据库时，应该要求数据库参考许可，下面将参考图8到9描述。

在确定要使用的采样数据之后，向存储语音采样数据的数据库发出访问请求(步骤44，45)。服务器和便携式终端的访问顺序将参考图6随后描述。当允许访问数据库时，传输用于语音合成的文本数据(步骤46，47)。从服务器传输的语音合成数据由便携式终端接收(步骤48)。因此，可以再现接收的语音合成数据(步骤49)。

图6表示便携式终端访问服务器的操作序列图表。这一操作将参考该图描述。

首先，便携式终端向服务器发送具有便携式终端的访问标识符的数据库参考请求(步骤51到53)。响应该请求，服务器查找服务器的数据库，以判断用户是否有权进行访问(步骤54)。如果用户有权进行访问，服务器向便携式终端传输访问ID，因此，仅通过在便携式终端传输的报头信息中确认该访问ID，则下一次，服务器就能够许可参考数据库。换句话来说，当允许对数据库进行访问时，从服务器向便携式终端传输的访问ID给出来自服务器的访问ID，便携式终端将访问ID及访问标识符输入到数据的报头，并传输该文本数据用于语音合成(步骤56到60)。

通过识别访问ID，服务器检查用户的访问许可，然后开始合成接收的文本数据的语音(步骤61)。根据访问ID，从指定数据库中获得用于这种语音合成的语音采样数据。在语音合成之后，服务器向便携式终端传输该语音合成数据(步骤62)。然后便携式终端通知JAVA应用程序，已经接收数据，并传输给JAVA应用程序该语音合成数据(步骤63)。通过这种操作，JAVA应用程序识别出语音合成数据已经接收，并再现接收的语音合成数据(步骤64)。

图7表示产生语音采样数据的数据库操作的序列图表。这一操作将参考该图进行描述。

首先，当JAVA应用程序激活时，在谈话期间，由用户输入到麦克风的语音数据输入给JAVA应用程序作为语音采样数据(步骤71)。该语音采样数据存储在便携式终端的存储介质中(步骤72)。当在存储介质中存储了一定数量的语音采样数据时，JAVA应用程序自动地进行图6所示的服务器访问顺序(参见图6步骤51到61)，并将语音采样数据存储在服务器自己的数据库的存储器中(步骤74到84)。因此，该用户可以构造他/她的语音采样数据作为服务器中的数据库，并使他/她的语音采样数据可为其他用户访问，所以在其他用户的便携式终端上，语音合成数据可以复制成他/她自己的语音。

图8和9是序列图表，表示用于构造由用户拥有的语音采样数据的数据库，该数据库可被其他用户访问。这一操作将参考这些图进行描述。

首先，希望访问数据库的便携式终端B的邮件地址输入到便携式终端A的JAVA应用程序中，其中的数据库是便携式终端A用户拥有的(步骤141)。然后，向服务器发送该邮件地址(步骤142到144)。当便携式终端A向服务器发送具有请求的邮件地址，以允许访问便携式终端A的用户的数据库时，服务器向具有数据库访问点(服务器)的便携式终端B的邮件地址发布并发送临时数据库访问许可ID(步骤145到153)。

当便携式终端B接收该邮件以及便携式终端B的用户在邮件屏幕上选择临时数据库访问许可ID时，通过邮寄者和JAVA应用程序之间的协作，临时数据库访问许可ID和数据库访问点(服务器)送到JAVA应用程序(步骤161到164)。通过这种操作，JAVA应用程序向数据库访问点(服务器)传输它自己的访问标识符和临时数据库访问许可ID(步骤165到167)。当接收到访问标识符和临时数据库访问许可ID时，服务器更新数据库，以使在下一次时，允许来自便携式终端B的访问(步骤168)。

根据本发明的语音合成系统和语音合成方法，多个便携式终端用户的语音采样数据存储在服务器中作为数据库。当向服务器传输从其他便携式终端传输的文本数据时，根据传输该文本数据的用户的语音，服务器返回产生的语音合成数据。因此，可以以文本数据发送者的语音读出该文本数据，由此增加了语音的真实性。

每个便携式终端可以收集并向服务器传输用户的语音采样数据，而根据语音采样数据，服务器依次产生数据库，由此自动便捷地扩展了该语音合成系统。因此，新的便携式终端的用户可以加入该语音合成系统并很快地享受到上述服务。

换句话来说，根据本发明，由电子邮件等发送的文本文件根据用户的选择而转换成语音数据，所以它可以根据用户选择的语音数据来再现，因此用户不用必须读出文件的内容。因此，本发明可以为丧失视力的人们提供方便。

本发明可以包括其它具体的形式，而不会偏离其思想和本质特征。因此可以认为本实施例在所有方面是说明性的而非限制性的，本发明的范围由附后的权利要求表述，而不是由上述的描述表述，因此，等效权利要求的含义和范围内的所有变化也包括在其内。

日本专利申请，申请号2001-337617(2001年2月申请)中全部的公开包括说明书，权利要求书，附图和摘要合并在此作为参考。

Claims

1.一种语音合成系统，包括通过通信线可相互连接的便携式终端和服务器，其中：

便携式终端包括接收文本数据的文本数据接收单元，在接收的文本数据中添加语音采样名称和向服务器传输该文本数据的文本数据传输单元，以及从服务器接收语音合成数据的语音合成数据接收单元和将接收的语音合成数据复制为语音的语音复制单元；以及

服务器包括从便携式终端接收文本数据和语音采样名称的文本数据接收单元，语音合成单元，通过使用对应于接收的语音采样名称的语音采样数据，该单元将接收的文本数据转换成语音合成数据，以及向便携式终端传输转换的语音合成数据的语音合成数据传输单元。

2.根据权利要求1所述的语音合成系统，其特征在于包括多个便携式终端。

3.根据权利要求2所述的语音合成系统，其特征在于：

每个便携式终端还包括收集每个用户语音采样数据的语音采样数据收集单元，以及向服务器传输收集的语音采样数据的语音采样数据传输单元，以及

服务器还包括从各个便携式终端接收语音采样数据的语音采样数据接收单元，数据库构造单元，它在接收的语音采样数据上添加语音采样名称，以构造数据库。

4.一种用于语音合成系统的语音合成方法，其中语音合成系统包括通过通信线可相互连接的便携式终端和服务器，其中：

便携式终端执行文本数据接收步骤，用来接收文本数据，文本数据传输步骤，用来在接收的文本数据中添加语音采样名称并向服务器传输该文本数据，语音合成数据接收步骤，用来从服务器接收语音合成数据，语音再现步骤，用来将接收的语音数据再现为语音；以及

服务器执行文本数据接收步骤，用来从便携式终端接收文本数据和语音采样名称，语音合成步骤，通过使用对应于接收的语音采样名称的语音采样数据，用来将接收的文本数据转换成语音合成数据，以及语音合成数据传输步骤，用来向便携式终端传输转换的语音合成数据。

5.根据权利要求4所述的语音合成方法，其特征在于有多个便携式终端。

6.根据权利要求5所述的语音合成方法，其特征在于：

各个便携式终端还包括执行语音采样数据收集步骤，用来收集每个用户的语音采样数据，和语音采样数据传输步骤，用来向服务器传输收集的语音采样数据；以及

该服务器还包括执行语音采样数据接收步骤，用来从各个便携式终端接收语音采样数据，和数据库构造步骤，用来在接收的语音采样数据上添加语音采样名称，以构造数据库。

7.一种用于语音合成系统的便携式终端，包括预置的服务器，该便携式终端包括：

接收文本数据的文本数据接收单元，在接收的文本数据中添加语音采样名称和向服务器传输该文本数据的文本数据传输单元，以及从服务器接收语音合成数据的语音合成数据接收单元和将接收的语音合成数据再现为语音的语音再现单元。

8.根据权利要求7所述的便携式终端，其特征在于：

该便携式终端还包括收集每个用户语音采样数据的语音采样数据收集单元，以及向服务器传输收集的语音采样数据的语音采样数据传输单元。

9.一种用于语音合成系统的服务器，包括预置的便携式终端，该服务器包括：

从便携式终端接收文本数据和语音采样名称的文本数据接收单元，语音合成单元，通过使用对应于接收的语音采样名称的语音采样数据，该单元将接收的文本数据转换成语音合成数据，以及向便携式终端传输转换的语音合成数据的语音合成数据传输单元。

10.根据权利要求9所述的服务器，其特征在于：

该服务器还包括从各个便携式终端接收语音采样数据的语音采样数据接收单元，和数据库构造单元，它在接收的语音采样数据上添加语音采样名称，以构造数据库。