CN104115222A

CN104115222A - 用于将包含文字的数据组转为语音的方法和装置

Info

Publication number: CN104115222A
Application number: CN201380008815.8A
Authority: CN
Inventors: 延斯·瓦尔特
Original assignee: Continental Automotive GmbH
Current assignee: Continental Automotive GmbH
Priority date: 2012-02-16
Filing date: 2013-02-11
Publication date: 2014-10-22
Anticipated expiration: 2033-02-11
Also published as: DE102012202391A1; EP2815395A1; US20150302001A1; US9436675B2; CN104115222B; WO2013120794A1

Abstract

本发明涉及一种用于将包含文本的数据组(2)语音化的方法和一种设置用于执行该方法的装置，其中，作为字素存在的数据组(2)被转换成音素，并且作为语音化的数据组(8)存储，其中，在预处理中为语音化准备字素，特别是通过按语言定义和/或按用户定义地修正字素的方式。设计的是，字素的预处理和字素到音素的转换在不同的计算单元(5，6)上或者计算单元(5，6)的不同部分上并行地进行。

Description

用于将包含文字的数据组转为语音的方法和装置

技术领域

本发明涉及一种用于将包含文字的数据组转为语音的方法和装置，特别是不同的内容，例如音乐标题、音乐表演者、音乐专辑或电话号码簿、联系人名称或者诸如此类，它们在由语音控制的用户端口中被用于控制特定的流程，在这些流程中，使用者将包含这些内容的语音指令转达给用户端口。本发明的一种优选的应用场合是机动车控制装置领域，特别是机动车内的多媒体控制单元中，它们用于机动车内的信息、娱乐和/或通信，同时本发明不局限于这一种优选的应用场合。这类控制单元特别是可以包含音乐播放和电话功能。

背景技术

在根据本发明提出的方法中，作为字素、作为成串的单个的字素符号、特别是作为字母串或者标准化的字母串存在的数据组被转化成音素，也就是成串的单个音素符号，并且作为语音化的数据组存储起来，特别是存储在语音化的数据列表中。“音素”这个概念在本文中特别是理解为成串的多个单个的音素符号。相应地，对于在本文中特别是理解为成串的单个字素符号的概念“字素”就是如此。类似于音素，字素(字素符号)是文本的图形表达中最小的、区分语义的单元，并且通常是文字的字母。

在所提出的方法中，在预处理中为真正的语音化准备字素，特别是为此在转化为音素之前，通过语言定义地和/或由用户定义地修正字素的方法。例如语音化的数据组形式的语音化的数据列表就能够以公知的方式例如在由语音控制的用户端口的语言识别中使用。

预处理的前提背景是，字素(还有音素)和语言有关，具体视当前使用的语言而定。然而在数据组中恰恰经常有不同的语言的条目，为了被语音化，它们必须被标识出来并且进行匹配。相应地，可以通过识别外语文本、但也可以通过替换缩略词、删除前缀(如“先生”“女士”“博士”，英文冠词“the”或诸如此类)、扩展首字母缩略词和/或提供表达变化方案实现预处理，这些都可以由用户挑选。

通过替换这些不被用于预处理的、与语言相关的不被声学模型支持的字素的字符，这种预处理可以至少部分地消除仅支持一定的预设数量的数字和需要用字母拼写的字符串的从字素到音素的转换中的主要与语言有关的局限。

然而，在现有的系统中，在预处理时存在以下问题，即，这些方法步骤是放在真正的字素到音素转换步骤之前的，需要用于预处理的时间增加了用于字素到音素的转换的总时间延迟。

因为预处理根据运行耗费也可能需要大量的计算，所以或者会带来长的时间延迟或者会局限预处理的工作能力，例如因为在语音化过程中忽略了字素表达的不被支持的字符。由于在预处理时的资源匮乏，所以公知的预处理的实施也只能在特定的情况下才能够适应具体的应用要求，并且特别是被固定地编程，特别是在变化方案和提供的替换方案或修正方案的数量方面。

发明内容

因此，本发明的目的是提出一种语音化的方法，其中，用于预处理和接下来从字素到音素的转换所需要的时间减少。

根据本发明，该目的通过具有权利要求1所述特征的方法、具有权利要求7所述特征的装置和具有权利要求8所述特征的计算机程序产品得以解决。

在提出的方法中特别是设计的是，并行地在不同的计算单元或计算单元的各个分部上，特别是在不同的处理器上或者处理器分部上进行字素的预处理和从字素到音素的转换。不同的计算单元可以在不同的计算装置中或者在一个计算装置中实现为双核或者多核计算单元，特别是它们的双核或多核处理器。

特别是可以如下地完成字素的预处理和字素到音素的转换的并行实施，即，在第一步骤中在第一计算单元中预处理为了语音化而提供的字素，将其传输给第二计算单元并且在第二计算单元中被语音化，也就是转换成音素。然后，在第二计算单元中语音化字素期间，紧接着可以在第一计算单元中处理为了语音化而提供的字素。

正如已经提及的那样，这些数据组大部分作为字素存在，也就是作为成串的单个字素符号(特别是字母)，所以根据各个计算单元的容量，在每个计算单元中分别可以处理一部分字素符号串，例如以FIFO缓存的方式(先进先出first-in-first-out)。在特定情况下，根据本发明可以在第一和第二计算单元之间设计中间存储器，用于在时间上相互协调两个计算单元的计算处理工作，并且能够通过中间存储预处理过的字素短期地补偿两个计算单元的计算能力的波动。

根据本发明提出的方法的一种特别有利的应用是在动态的语言识别中，其中在应用期间才从不断改变的、包含文本的数据组中生成字素，这与利用静态的数据库的应用不同，在利用静态的数据库的应用中，是一次性完成字素的语音化，然后语言控制系统引用固定存储的音素。

根据提出的方法的一种特别优选的实施方式，作为字素的、也就是作为成串的单个字素符号存在的数据组被分解成字素分包(Graphem-Teilpakte)，它们也可以被称为字素分串包，其中，分别在第一计算单元中预处理一个字素分包，并且紧接着在另一个第二计算单元中被语音化，转换成音素，此时，两个计算单元被设置用于并行地(特别是同时地)处理不同的字素分包。以数据包的形式划分需要处理的数据使得能够特别有效地利用提供的处理器资源，使得能够在时间上最优化地完成包含预处理和转换在内的语音化工作。

其中，根据本发明特别有利的是，当预定了字素分包的大小，例如根据计算单元提供的计算能力(也就是说与平台有关)。例如可以规定最大长度为50个条目(相当于字素符号)的字素分包。已经发现的是，大小与平台(计算单元)相适应的字素分包能够特别有效地进行预处理并且被转换，因为在这种情况下，需要进行处理的数据数量与报文开销(Messaging Overhead)之间存在最佳的比例关系。因为不同的计算单元或计算单元的各个分部之间交换数据包(字素分包)，并且这些交换工作必须相互协调进行，所以产生了报文开销。因为两个计算单元都必须中间存储数据，所以此外还必须限定分别被处理的字素分包的数据量，从而能够在所有计算单元内实现有效且迅速的处理。

在这个背景下，根据本发明也可以特别有利的是，通过运用定义的规则，特别是在进行预处理之前或者在刚开始时确定包的大小，从而在进行预处理和进行转换时考虑到单个字素符号的内容相关的前后关联。这些规则例如可以代表识别特定的字素符号、空格符或分隔符，和/或包含内容上的评估，在特定的情况下与分串的最大(也有可能是最小)的预设长度，也就是说用于分串的长度限定或者长度区间结合起来。通过最大预设的长度可以特别是虑到计算单元的计算能力。预设的最小长度确保了对前后关联敏感的预处理和/或转换，在这个过程中也可以从内容上评估并考虑连续的字素。

在提出的方法的一种特别的实施方式中，预处理根据本发明可以包括基于语法的语法分析器，它特别是包括用于文本修订和/或表达变化的规则，其中，在特定情况下可以考虑到不同的语言。特别优选地例如可以通过预先确定包含规则的文件使这个基于语法的语法分析器参数化。结果是，根据本发明能够轻松地编辑、扩展并更换用于模式匹配的规则和/或规则的关联。为此可以采用现有的软件模块，例如GNU语法分析器生成器Flex和Bison，它们的应用特别是对于动态的数据库来说要通过根据本发明提出的对单个字符分串进行并行的预处理和转换才有可能。

提出的预处理的根据本发明的另一个方面在于，它可以包括将字素到音素转换的声学模型(例如由于缺少语言支持)不支持的字符(例如另一种语言)到这种声学模型支持的字素符号转换，特别是转换成拉丁语的基础字符或字母。由此能够实现用于内容不同的数据库的灵活的语言支持，语言支持特别优选地也可以根据前述方面被参数化和/或调整，从而当预设的数据内容和因此被设计用于语音化的包含文本的数据组发生变化时，预处理(例如在固件升级的框架内)就可以自动调节。

本发明还涉及一种用于使包含文本的数据组语音化的装置，例如在由语音控制的用户端口中，或者运用在其中，如机动车的多媒体控制单元，特别是带有音乐控制系统、车上电话和/或免提通话装置，其中，多媒体控制单元通过例如数据库数据存储器的使用包含文本的数据组，其在特定情况下也可以在图像类的用户端口中显示。该装置配有用于输入或读取例如列表条目形式的、包含文本的数据组的数据端口，并且具有计算装置，它被设置用于将以字素的形式存在的数据组转换成音素，并且用于实现进行预处理。根据本发明，该计算装置具有至少一个第一计算单元和一个第二计算单元，其中，第一和第二计算单元被设置用于执行预定的方法或其中的一部分。

相应地，本发明还涉及一种包含程序产品工具的计算机程序，这些程序产品装置适合用于设置具有两个计算单元的、用于语音化包含文本的数据组的装置的计算装置，特别是如前面所述的那样，用于执行先前所述的方法或者其中的一部分。

从下面对实施例和附图的描述中也可以得到本发明的其他优点、特征和应用可能性。其中，所有描述的和/或用图表示的特征本身或者以任意的组合方式都构成本发明的对象，无论在权利要求中或在引用它们时是如何对它们进行总结的。

附图说明

唯一的图1示意性地示出提出的装置的一种实施方式，包含用于语音化包含文本的数据组2的方法的流程。

具体实施方式

图1示出用于使包含文本的数据组2语音化的装置1的一种特别优选的实施方式，这些数据组包含在数据存储器或数据库中。用于语音化的装置1可以集成到由语音控制的用户端口中，如机动车的多媒体控制单元，并且具有用于输入或者用于读取包含文本的数据组2的数据端口3。此外，在这个装置1中设计了计算装置4，其被设置用于转换以字素的形式存在的、包含文本的数据组2，并且用于在转换成音素之前预处理这些字素。在图1中，为了清楚起见在装置1旁边示出了计算装置4的这个方面，尽管这个计算装置4是装置1或包含这个装置的用户端口的一部分。

计算装置4具有第一计算单元5和第二计算单元6，它们根据本发明适合用于并行地、相互独立地处理数据。

要指出的是，在图1中所示的计算装置4仅仅是根据本发明的解决方案的下面仍需要更详尽地进行描述的功能，并且不反映所有在计算装置4中或计算装置4的计算单元5，6中运行的流程和方法。

第一计算单元5被设置用于预处理字素，第二计算单元6被设置用于将字素转换为音素，其中，第二计算单元6优选地也可以具有语音识别器，其通过由语音控制的用户端口得以应用，并且引用存储的、语音化的、例如语音化的数据列表形式的数据组。

其中，如下地描述根据本发明提出的、用于语音化的方法：

在通过数据端口3将包含文本的数据组2读入用于语音化的装置1以后，这些字素(也就是成串的单个字素符号)首先被分解成例如有50个字素符号或单元的、预定长度的字素分串。这用箭头7示出，这个箭头在图1中位于计算装置4以外，尽管在计算装置4的可能也是附加的计算单元内也进行了分解7的流程，并且例如可以理解为预处理的第一处理步骤。

紧接着向第一计算单元5导入字素分串，第一计算单元负责字素的预处理。其中，任何字素分串的字素都可以由语言定义地和/或由用户定义地进行修正，例如通过替换缩略词、识别外语文本、删除前缀、扩展首字母缩略词和/或提供表达变化方案实现预处理，这些都可以由用户挑选。

在第一计算单元5内实施的预处理工作优选地包括基于语法的语法分析，它包括用于文本修正和/或表达变化方案的规则，其中，在特定情况下可以考虑不同的语言。此外，在第一计算单元5内实施的预处理中，字素音素转换的声学模型不支持的字符被转换成被声学模型支持的字素符号。

在第一计算单元5中进行了预处理以后，向第二计算单元6中输入(经过了预处理的)字素分串，在这里发生了真正的字素到音素的转换。这种方法被普遍公知，因此在这里不必详尽描述。

作为在第二计算单元6内将字素音素转换的结果，生成了语音化的数据列表8，并且将其存储在计算装置4内或用于语音化的装置1的存储装置内，使得由语音控制的用户端口能够引用这个语音化的数据列表8。于是，这个语音化的数据列表8就是语音化的数据组。

因此，通过在不同的独立计算单元内并行地进行预处理和转换工作，在用于语音化包含文本的数据组的总时间延迟上仅增加了用于第一数据包的等待时间，即使进行了繁琐的预处理，预处理除了替换首字母缩略词及诸如此类还可以包括将其他语言的、语音化的语言模块不支持的字符，根据语言转换成拉丁基础字符。通过并行处理还能够进行全面的预处理，并且对其进行可参数化的设置，使得能够简单地引导预处理规则进入该系统。此外，很好地记录了这些规则，并且这些规则作出的改变很容易理解。

此外，根据本发明在语音化时能够有效地充分利用处理器资源，使得尽管预处理工作很繁琐，但是用于准备用来语音控制的语音化数据列表的等待时间的增加是非常不明显的。

接下来还会描述一种具体的实施例，其中，在汽车娱乐设备中使用了根据本发明的方法。汽车娱乐设备具有用于蓝牙设备、USB数据载体、iPod设备或者诸如此类的端口。其中包含的乐曲由汽车娱乐设备的被称为HeadUnit(主机)的中央单元所读取，其中，乐曲的元属性(Metaattribute)被存放在数据库中。可以通过图像端口搜索这个数据库，并且可以播放单个或多个标题。除了通过触摸选择乐曲之外还可以基于语言操作这个汽车娱乐设备，其中，应该是通过它们的名称完成对乐曲(专辑、歌手)的选择。

乐曲的元属性经常不适合用于语音操作，所以对于系统的使用者来说不可能或者只能以不自然的方式输入他的选择。一种公知的用于解决这个问题的方案在于比较在系统上播放的数据库中的语音信号的特征，该数据库向语音识别器提供元属性，使得用户能够简单地选择标题。这种解决方案的缺点在于，数据库不认识新的标题，因此必须常常更新。此外需要支付许可证费用，并且对于嵌入式系统提出很高的存储要求，这种要求可能会提高这种产品的固定成本。

作为代替，采用了根据本发明的预处理法，它特别是具有以下方法步骤：

1在车辆娱乐设备识别了插入的USB设备或诸如此类以后，用乐曲及其元属性的索引填充设备内部的数据库。

2元属性在按类别排序的情况下从车辆娱乐设备的数据库中读入车辆娱乐设备的由语音控制的用户端口。

3利用通过由语音控制的用户端口，将计算单元4合适地设置为用于语音化的装置1，它以数据包的形式读取这些数据，或者说将这些数据分解成预定义大小的单个数据包，也就是说分解成字素分串或字素分包。字素分包被提供给预处理器(第一计算单元5)。

4第一计算单元5(预处理器)主要由语法分析模块构成，它根据一定的模式搜索这些数据。这个模式部分地与语言有关，因此根据所选择的语言可以更换。作为输入内容，第一计算单元5(也就是预处理器)获得来自数据库的字素(原始字素)以及实时的分类标识符(Kategoriebezeichner)。

5然后在预处理时，第一计算单元5提供备选文本，并且纠正原始字素。于是，例如原始字素的经常出现的后缀“feat.<Artist>”被扩展成“featuring<Artist>”。在代替方案中，原始字素“feat.<Artist>”被去除。属性通常包含标题、专辑上的索引以及艺术家和专辑名称。然后清除原始字素中不必要的部分。这种情况没有可代替方案。

6预处理的字素分包被传输给语音识别器，它优选地存在于另一个第二计算单元6上。

7与第二计算单元6内繁琐的语音化工作(g2p)并行地，在预处理器上(也就是在第一计算单元5内)处理第二分包，或者一般化而言处理另一个字素分包。

8与预处理器(第一计算单元5)和带有字素到音素转换功能的语音识别器(第二计算单元6)并行地，由语言控制的用户端口1在数据库处询问接下来的数据包，使得由语言控制的用户端口1上连接一连串的数据包处理。数据库询问、预处理和语音化这些并行的工作步骤中，语音化是进行的最慢的。由于预处理器和语音识别器是并行工作的，所以不会产生比第一分包的预处理更长的附加的时间延迟。

结果是，在该实施例中形成为用户改良的操作，而不会造成时间延迟显著的恶化或者存储消耗量的提升。

Claims

1.一种用于使包含文本的数据组(2)语音化的方法，其中，作为字素存在的数据组(2)转换成音素，并且作为语音化的数据组(8)存储下来，其中，为了语音化在预处理中准备所述字素，特别是通过语言定义和/或用户定义地修正所述字素，其特征在于，所述字素的所述预处理和所述字素到音素的所述转换在不同的计算单元(5，6)上或者在所述计算单元(5，6)的不同部分上并行地进行。

2.根据权利要求1所述的方法，其特征在于，作为字素存在的所述数据组(2)分解成字素分包，其中，在一个计算单元(5)中预处理相应的字素分包，并且紧接着在另一个计算单元(6)中语音化，并且两个计算单元(5，6)设置用于并行地处理不同的字素分串。

3.根据权利要求2所述的方法，其特征在于，预定分包的大小，特别是通过与所述计算单元(5)有关的、所述字素分包的数据量相对于在两个所述计算单元(5，6)之间进行通信时形成的报文开销的恒量。

4.根据权利要求2或3所述的方法，其特征在于，通过采用定义的规则确定数据包的大小。

5.根据前述权利要求中任一项所述的方法，其特征在于，所述预处理包括基于语法的语法分析器。

6.根据前述权利要求中任一项所述的方法，其特征在于，所述预处理包括将不由字素音素转换的声学模型支持的字符转换成所述声学模型的字素符号。

7.一种用于使包含文本的数据组(2)语音化的装置，其具有用于输入所述包含文本的数据组(2)的数据端口(3)，并且具有设置用于使作为字素存在的数据组转换成音素并且预处理这所述字素的计算装置(4),其特征在于，所述计算装置(4)具有至少一个第一计算单元(5)和第二计算单元(6)，其中，所述第一计算单元和所述第二计算单元(5，6)设置用于执行根据权利要求1至6中任一项所述的方法。

8.一种具有程序代码工具的计算机程序产品，所述计算机程序产品适合用于设置一种具有至少两个计算单元(5，6)的、用于使包含文本的数据组(2)语音化的装置(1)的计算装置(4)，用于执行根据权利要求1至6中任一项所述的方法。