CN102246225B

CN102246225B - 用于合成语音的方法和设备

Info

Publication number: CN102246225B
Application number: CN2009801504258A
Authority: CN
Inventors: F.J.H.M.穆伦布罗克斯
Original assignee: TP Vision Holding BV
Current assignee: TP Vision Holding BV
Priority date: 2008-12-15
Filing date: 2009-12-07
Publication date: 2013-03-27
Anticipated expiration: 2029-12-07
Also published as: EP2377122A1; US20110243447A1; BRPI0917739A2; WO2010070519A1; CN102246225A; JP2012512424A; KR20110100649A; RU2011129330A

Abstract

从多个文本数据部分合成语音的方法和设备，每个部分具有至少一个关联的属性。本发明通过对于所述文本数据部分的每一个确定（25，35，45）属性的值、基于所述确定的属性值从多个候选话音中选择（27，37，47）选择话音并且使用所述对应的选择的话音将每个文本数据部分转换（29，39，49）成合成语音而实现。

Description

用于合成语音的方法和设备

技术领域

本发明涉及一种用于合成语音、特别是从多个文本数据部分合成语音的方法和设备。

背景技术

语音合成，特别是文本-语音转换，在本领域中是公知的并且包括从例如源文本人工产生人类语音。通过这种方式，将文本转换成语音，这对于文盲或弱视者是有用的。与源文本的机器翻译相结合，文本-语音转换也可以允许外语文本在用户母语中的音频复现（reproduction）。

可以转换成语音的一种形式的文本是字幕。字幕是诸如电视节目或电影之类的视频项目回放期间显示的文本部分。字幕有本领域技术人员公知的三种主要类型：“开放式（open）”字幕，其中字幕文本与来自原始视频流的视频帧合并以产生随后以常规方式显示的最终视频流；“预再现（prerendered）”字幕，其中字幕存储为单独的视频帧，其可选地可以叠加到原始视频流上以便一起观看；以及“封闭式（closed）”字幕，其中字幕文本存储为标记文本（即像XML或HTML中的具有标记注释的文本）并且由允许与原始视频流同步回放的专用系统复现，例如图文字幕或封闭字幕信息。

已知将各种不同的符号和风格应用到字幕文本以便向观看者传递附加的信息，例如是否正在说或唱文本部分，或者文本部分是否涉及不同于语音的声音（例如门砰击或叹息）。此外，已知以各种不同的颜色复现字幕，每种颜色代表给定的说话者或者一群说话者。因此，耳背者可以在电视广播期间通过将颜色与每个说话者关联来区分说话者。

字幕也用于翻译的目的。例如，包含第一语言的语音的电影可以具有施加于其上的第二语言的字幕，从而允许第二语言的读者理解该电影。然而，该解决方案对于阅读困难（例如由于弱视或文盲）的第二语言的那些说话者是不够的。电影制作者广泛使用的一个选项是雇佣演员对原始语音“配音”，但这是昂贵且耗时的过程。

当前设置中没有一个允许阅读困难的用户区分以文本形式呈现的不同类别的信息。

发明内容

本发明意在通过对于每个文本类别或者每组文本类别提供对应话音的语音合成而使得用户能够区分不同类别的文本。

依照本发明的第一方面，提供一种合成语音的方法，该方法包括：接收多个文本数据部分，每个文本数据部分具有与其关联的至少一个属性；对于所述文本数据部分的每一个确定至少一个属性的值；基于所述确定的属性值的每一个从多个候选话音中选择话音；以及使用所述对应选择的话音将每个文本数据部分转换成合成语音。所述至少一个属性包括用于与对应图像中文本部分的视觉表示之一同时复现的音频信号的音高（pitch）（例如第一语言的说话者话音的音高，第一语言的文本部分是第二语言的译文）。

通过这种方式，有可能将不同类别的文本（例如涉及不同的说话者或者不同类别的信息内容，例如标题和章节标题与章节内容）彼此区分。

所述多个文本数据部分可以包含在封闭式字幕中（例如作为标记文本数据）。此外，对于所述文本数据部分的每一个确定至少一个属性的值可包括，对于所述文本数据部分的每一个，确定包含在与文本数据的对应部分关联的封闭式字幕内的代码（例如通过标识标记文本数据的注释）。

可替换地，接收多个文本数据部分可以包括对多幅图像（例如视频帧）执行光学字符识别（OCR）或者类似的模式匹配技术以便提供多个文本数据部分，每幅图像包含包括封闭式字幕、预再现字幕或开放式字幕的文本部分的至少一个视觉表示。此外，所述多个文本数据部分之一的所述至少一个属性可以包括：文本部分的视觉表示之一的文本特征（例如颜色、字样、字体、字体粗细、大小或宽度、字形，如斜体或粗体，等等）；文本部分的视觉表示之一在图像中的位置（例如视频帧或者图像中相邻的另一文本部分的左边或右边，或者顶部或底部）；或者用于与对应图像中文本部分的视觉表示之一同时复现的音频信号的音高（例如第一语言的说话者话音的音高，第一语言的文本部分是第二语言的译文）。

候选话音可以包括男性和女性的话音、具有不同口音的话音和/或在其对应音高或音量上不同的话音。

选择话音可以包括从所述多个候选话音中选择最佳的（即最合适的）话音。例如，如果与文本数据部分关联的属性指示该文本大写，那么可以以较高音量合成语音，或者以更迫切响亮的话音合成语音。类似地，如果属性是文本部分之前的项（例如“[耳语]”）的形式，那么可以以较低的音量合成语音。另一方面，如果与文本部分关联的属性与用于同时复现的音频信号的音量或音高相应，那么话音可以被选择成使得合成语音的音量或音高相应。可替换地，适当话音的选择可以由用户进行，而不是或者覆盖自动选择。

依照本发明的第二方面，提供一种计算机程序产品，其包括用于执行上面的方法的多个程序代码部分。

依照本发明的第三方面，提供一种用于从多个文本数据部分合成语音的设备，每个文本数据部分具有与其关联的至少一个属性，该设备包括：值确定单元，其用于对于多个文本数据部分的每一个确定至少一个属性的值；话音选择单元，其用于基于所述确定的属性值的每一个从多个候选话音中选择话音；以及文本-语音转换器，其用于使用所述对应选择的话音将每个文本数据部分转换成合成语音。所述至少一个属性包括用于与对应图像中文本部分的视觉表示之一同时复现的音频信号的音高（例如第一语言的说话者话音的音高，第一语言的文本部分是第二语言的译文）。

所述值确定单元可以包括代码确定构件，该构件用于对于所述文本数据部分的每一个确定与对应的文本数据部分关联且包含在封闭式字幕中的代码。

可替换地，所述设备可以进一步包括文本数据提取单元，该单元用于对多幅图像执行光学字符识别（OCR）或者类似的模式匹配技术以便提供所述多个文本数据部分，每幅图像包含包括封闭式字幕、预再现字幕或开放式字幕的文本部分的至少一个视觉表示。此外，所述多个文本数据部分之一的所述至少一个属性可以包括：文本部分的视觉表示之一的文本特征（例如颜色、字样、字体、字体粗细、大小或宽度、字形，如斜体或粗体，等等）；文本部分的视觉表示之一在图像中的位置；或者用于与对应图像中文本部分的视觉表示之一同时复现的音频信号的音高。

附图说明

为了更好地理解本发明并且更清楚地显示可以如何实现本发明，现在将通过实例的方式参照附图，在附图中：

图1a示出依照本发明第一实施例的设备；

图1b示出依照本发明第二实施例的设备；

图1c示出依照本发明第三实施例的设备；

图2示出依照本发明第四实施例的设备；

图3a为描述依照本发明第五实施例的方法的流程图；

图3b为描述依照本发明第六实施例的方法的流程图；

图3c为描述依照本发明第七实施例的方法的流程图。

具体实施方式

参照图1a，依照本发明实施例的设备1包括文本数据提取单元3、值确定单元5、话音选择单元9、存储单元11和文本-语音转换器13。

设备1的输入终端15连接到文本数据提取单元3的输入端以及值确定单元5的输入端。值确定单元5的输出端连接到话音选择单元9的输入端。话音选择单元9和存储单元11可操作地彼此耦合。文本数据提取单元3和话音选择单元9的输出端连接到文本-语音转换器13的输入端。文本-语音转换器13的输出端连接到设备1的输出终端17。

操作时，文本数据提取单元3经由输入终端15接收数据。文本数据提取单元3被配置成处理接收的数据以便提取文本部分，该文本部分然后传送到文本-语音转换器13。例如，如果数据为视听流或视频流（从其获取包含文本部分的视觉表示的图像），或者只是包含文本部分的视觉表示的图像，那么文本数据提取单元3被配置成对图像执行光学字符识别以便提取文本部分，该文本部分然后传送到文本-语音转换器13。可替换地或者此外，如果数据为标记有注释的文本的形式，那么文本提取单元3被配置成从注释的（标记的）文本提取文本，并且然后将该文本部分传送到文本-语音转换器13。

值确定单元5也被配置成经由输入终端15直接接收数据。值确定单元5被配置成基于来自输入终端15的数据确定提取的文本部分的至少一个属性的值。例如，如果数据为视听流或视频流（从其获取包含文本部分的视觉表示的图像），或者只是包含文本部分的视觉表示的图像，那么值确定单元5被配置成标识图像中的文本特征，并且给该文本特征赋值。如果数据为视听流，那么值确定单元5被配置成标识该视听流的音频分量的音高并且选择与音高关联的值。如果数据为标记有注释的文本的形式，那么值确定单元5被配置成标识特定的注释并且给该注释赋值。该值然后传输到话音选择单元9。

话音选择单元9基于该值从存储在存储单元11中的多个候选话音中选择话音。文本-语音转换器13使用选择的话音采用标准的技术将文本数据提取单元3输送给它的文本部分转换成语音，该语音然后在输出终端17处输出。

图1b示出依照本发明实施例的设备1’，其与图1a的设备1相似。设备1’具有文本数据提取单元3’、值确定单元5’、话音选择单元9、存储单元11和文本-语音转换器13。

设备1’的输入终端15连接到文本数据提取单元3’的输入端。文本数据提取单元3’的一个输出端连接到值确定单元5’的输入端。值确定单元5’的输出端连接到话音选择单元9的输入端。话音选择单元9和存储单元11可操作地彼此耦合。文本数据提取单元3’的第二输出端和话音选择单元9的输出端连接到文本-语音转换器13的输入端。文本-语音转换器13的输出端连接到设备1’的输出终端17。

操作时，文本数据提取单元3’经由输入终端15接收数据。文本数据提取单元3’被配置成处理接收的数据以便提取文本部分，该文本部分然后传送到文本-语音转换器13。文本数据提取单元3’也被配置成标识与文本部分关联的属性，该属性然后传送到值确定单元5’。例如，如果数据为视听流或视频流（从其获取包含文本部分的视觉表示的图像），或者只是包含文本部分的视觉表示的图像，那么文本数据提取单元3’被配置成对图像执行光学字符识别以便提取文本部分，该文本部分然后传送到文本-语音转换器13。此外，文本数据提取单元3’被配置成标识与经由光学字符识别获得的文本关联的属性，例如图像中的文本的文本特征、图像中的文本的位置或者伴随图像的视听流的音频分量，并且然后将该属性传送到值确定单元5’。

可替换地或者此外，如果数据为标记有注释的文本的形式，那么文本提取单元3’被配置成从注释的（标记的）文本提取文本，并且然后将该文本部分传送到文本-语音转换器13。此外，文本数据提取单元3’被配置成标识与经由提取获得的文本关联的注释并且然后将该注释传送到值确定单元5’。

值确定单元5’被配置成确定文本提取单元3’传送给它的属性的值。

话音选择单元9基于该值从存储在存储单元11中的多个候选话音中选择话音。文本-语音转换器13使用该话音将文本数据提取单元3输送给它的文本部分转换成语音，该语音然后在输出终端17处输出。

可以设想上面两个实施例的各种不同的修改和组合。例如，图1c示出依照本发明实施例的设备1’’，该设备包括文本数据提取单元3’’、值确定单元5’’、话音选择单元9、存储单元11以及文本-语音转换器13。

设备1’’的输入终端15连接到文本数据提取单元3’’的输入端以及值确定单元5’’的一个输入端。文本数据提取单元3’’的一个输出端连接到值确定单元5’’的第二输入端。值确定单元5’’的输出端连接到话音选择单元9的输入端。话音选择单元9和存储单元11可操作地彼此耦合。文本数据提取单元3’’的第二输出端和话音选择单元9的输出端连接到文本-语音转换器13的输入端。文本-语音转换器13的输出端连接到设备1’’的输出终端17。

在该实施例中，文本数据提取单元3’’和值确定单元5’’被配置成取决于用户偏好或者经由输入端15接收的数据形式而表现为图1a或图1b的设置中的任一个。

图2示出本发明另一可替换的实施例，其为具有值确定单元5、话音选择单元9、存储单元11和文本-语音转换器19的设备2的形式。

设备2的输入终端15连接到文本-语音转换器19的第一输入端和值确定单元5的输入端。值确定单元5的输出端连接到话音选择单元9的输入端。话音选择单元9和存储单元11可操作地彼此耦合。话音选择单元9的输出端连接到文本-语音转换器19的第二输入端。文本-语音转换器19的输出端连接到设备2的输出终端17。

在操作时，文本-语音转换器19被配置成直接解释经由输入端15接收的数据，从而避免对于文本提取单元的需要。

尽管在附图中未示出，但是本发明的各个实施例此外包括用于用户与设备交互的用户接口装置。这样的交互可以包括操作话音选择单元9以便从存储在存储单元11中的多个候选话音中选择最佳的（即最合适的）话音，用于值确定单元的给定输出。可替换地，最佳话音的选择可以由话音选择单元基于值确定单元的输出而自动地实现。

图3a的流程图中示出依照本发明实施例的一个示例性的合成语音的方法。在21处，接收标记有注释的文本部分。在23处，标识与标记的文本部分关联的注释。在25处，确定注释的值。在27处，基于该值从多个候选话音中选择话音。在28处，从标记的文本部分提取纯文本以便产生纯文本部分。在29处，使用选择的话音将该纯文本部分转换成合成语音。然后，对于具有与其关联的不同值的注释的新的标记文本部分重复上面的步骤。

图3b中示出依照本发明实施例的另一个示例性的合成语音的方法。在31处，对视频帧执行光学字符识别以便提供文本数据部分和关联的属性。在36处，确定该属性的值。在37处，基于该值从多个候选话音中选择话音。在39处，使用选择的话音将该文本数据部分转换成合成语音。然后，对于新的视频帧重复上面的步骤。

图3c中示出依照本发明实施例的另一示例性的合成语音的方法。在41处，对视听流的视频分量的图像执行光学字符识别以便提供文本数据部分。在45处，确定用于与帧同时复现的视听流的音频分量的对应音高。在47处，基于确定的音高从多个候选话音中选择话音。在49处，使用选择的话音将该文本数据部分转换成合成语音。然后，对于新的图像和关联的音频分量重复上面的步骤。

尽管在附图中示出并且在前面的详细说明中描述了本发明的实施例，但是应当理解的是，本发明并不限于所公开的实施例，而是能够在不脱离以下权利要求书中阐述的本发明的范围的情况下做出许多修改。

本领域技术人员应当清楚的是，“构件(means)”意在包括操作时复现或者被设计成复现规定的功能的任何硬件（例如分立或集成电路或者电子元件）或软件（例如程序或程序部分），无论它是单独地还是与其他功能结合地，无论是隔离地还是与其它单元合作地都可。本发明可以借助于包括若干不同元件的硬件以及借助于经过适当编程的计算机来实现。在列举若干构件的设备权利要求中，这些构件中的一些可以由同一硬件项实施。“计算机程序产品”应当被理解为表示计算机可读介质（例如软盘）上存储的、可经由网络（例如因特网）下载的或者可以任何其他方式营销的任何软件产品。

Claims

1.一种合成与多幅图像关联的语音的方法，该方法包括：

接收（21，31，41）多个文本数据部分，每个文本数据部分具有与其关联的至少一个属性；

对于所述文本数据部分的每一个确定（25，35，45）至少一个属性的值，所述至少一个属性包括用于与对应图像中文本部分的视觉表示之一同时复现的音频信号的音高；

基于所述确定的属性值的每一个从多个候选话音中选择（27，37，47）话音；和

使用所述对应选择的话音将每个文本数据部分转换（29，39，49）成合成语音。

2.权利要求1的方法，其中接收（21，31，41）多个文本数据部分包括接收（21）包含多个文本数据部分的封闭式字幕。

3.权利要求2的方法，其中对于所述文本数据部分的每一个确定（25，35，45）至少一个属性的值包括：对于所述文本数据部分的每一个，确定（25）包含在与文本数据的对应部分关联的封闭式字幕内的代码。

4.权利要求1的方法，其中接收（21，31，41）多个文本数据部分包括对所述多幅图像执行（31，41）光学字符识别（OCR）或者类似的模式匹配技术以便提供多个文本数据部分，每幅图像包含包括封闭式字幕、预再现字幕或开放式字幕的文本部分的至少一个视觉表示。

5.权利要求4的方法，其中所述多个文本数据部分之一的所述至少一个属性包括：

文本部分的视觉表示之一的文本特征；

文本部分的视觉表示之一在图像中的位置。

6.权利要求1的方法，其中所述候选话音包括男性和女性的话音和/或在其对应音量上不同的话音。

7.权利要求1的方法，其中选择话音包括从所述多个候选话音中选择最佳的话音。

8.一种用于从多个文本数据部分合成与多幅图像关联的语音的设备（1，1’，1’’，2），每个文本数据部分具有与其关联的至少一个属性，该设备包括：

值确定单元（5，5’，5’’），其用于对于多个文本数据部分的每一个确定至少一个属性的值，所述至少一个属性包括用于与对应图像中文本部分的视觉表示之一同时复现的音频信号的音高；

话音选择单元（9），其用于基于所述确定的属性值的每一个从多个候选话音中选择话音；和

文本-语音转换器（13，19），其用于使用所述对应选择的话音将每个文本数据部分转换成合成语音。

9.权利要求8的设备（1，1’，1’’，2），其中值确定单元（5，5’，5’’）包括代码确定构件，其用于对于所述文本数据部分的每一个确定与对应的文本数据部分关联且包含在封闭式字幕内的代码。

10.权利要求8的设备（1，1’，1’’，2），进一步包括文本数据提取单元（3，3’，3’’），其用于对所述多幅图像执行光学字符识别（OCR）或者类似的模式匹配技术以便提供所述多个文本数据部分，每幅图像包含包括封闭式字幕、预再现字幕或开放式字幕的文本部分的至少一个视觉表示。

11.权利要求10的设备（1，1’，1’’，2），其中所述多个文本数据部分之一的所述至少一个属性包括：

文本部分的视觉表示之一的文本特征；

文本部分的视觉表示之一在图像中的位置。

12.权利要求8的设备（1，1’，1’’，2），其中所述候选话音包括男性和女性的话音和/或在其对应音量上不同的话音。

13.权利要求8的设备（1，1’，1’’，2），其中话音选择单元（9）用于基于所述确定的属性值的每一个从多个候选话音中选择最佳的话音。

14.一种视听显示装置，包括权利要求8-13的设备（1，1’，1’’，2）。