CN104106113A

CN104106113A - 用于使数据列表语音化的方法与语音控制的用户界面

Info

Publication number: CN104106113A
Application number: CN201380008818.1A
Authority: CN
Inventors: 延斯·瓦尔特
Original assignee: Continental Automotive GmbH
Current assignee: Continental Automotive Technologies GmbH
Priority date: 2012-02-16
Filing date: 2013-02-11
Publication date: 2014-10-15
Anticipated expiration: 2033-02-11
Also published as: DE102012202407B4; US9405742B2; DE102012202407A1; EP2815396A1; EP2815396B1; US20150012261A1; CN104106113B; WO2013120796A1

Abstract

本发明涉及一种用于使具有包含文本的列表条目的数据列表(2)语音化的方法，其中数据列表(2)中的每个列表条目划分为至少两个数据字段并且应当供语音控制的用户界面(1)使用，在该方法中列表条目从文本表达转换为语音并作为音素存储在语音化的数据列表(6)中。设置成，在列表条目的文本中，分隔符插入相应的列表条目的数据字段之间，分隔符一同转换为语音并作为音素符号一同存储，并且音素存储在语音数据库(7)中，其中由存储在语音数据库(7)中的音素生成语音化的数据列表(6)。此外本发明还涉及一种相应地设置的语音控制的用户界面。

Description

用于使数据列表语音化的方法与语音控制的用户界面

技术领域

本发明涉及一种用于使具有包含文本的列表条目的数据列表语音化的方法，其中数据列表中的每个列表条目划分为至少两个数据字段，以及一种设置用于执行该方法的语音控制的用户界面。

背景技术

对于语音控制的用户界面来说，需要将大部分存在于数据库内的数据列表语音化，以便为语音控制装置输送数据系统中的内容，其中用户通过说出用户界面上中的数据列表的内容来激活确定的动作。

典型的应用领域，也是本发明优选涉及的应用领域，是机动车的多媒体单元中的语音控制的用户界面的应用，其特别地并且类似地可以具有车载电话和/或机动车的免提通话设备作为语音控制的用户界面，因此机动车驾驶员可以通过给出姓名来使用语音控制的用户界面以用于呼叫和通话。当然，语音控制装置也可以用于控制多媒体单元的其他功能。原则上优选地可以在语音控制的界面中使用本发明，其中能够重新排序基于文本的数据项。

例如构造为数据库的数据列表在这种情况下特别地可以包括电话薄或联系人列表中的姓名。在这种应用实例中，数据列表的两个数据字段特别地是名和姓，对于该名和姓存储了电话号码和/或其他的联系方法或信息。

即使上述应用描述了本发明的优选应用情况，但是本发明并不仅局限于该功能，而是可以普遍地用于语音控制的用户界面，其中以文本形式存在的数据列表应当通过语音控制装置来语音化以便被识别，其中数据列表的每个列表条目优选地具有至少两个数据字段。

在数据库内可以存储已经划分为两个数据字段、例如名和姓的数据项。在其他应用情况中，数据项也可以通过适当的软件划分为两个数据字段。

如同在此类语音控制的用户界面中已经普遍使用的，语音控制的用户界面的数据列表的列表条目可以供语音识别系统使用，以便能够辨别用户的语音指令中的确定的列表条目。在对于上述必需的用于语音化数据列表的方法中，一个或每个的列表条目作为字素，即例如可以与字母表达或标准化字母表达相对应的一系列单个字素符号或字符，从文本设置转换为语音并且作为音素、即一系列单个的音素符号来存储。根据普遍的定义，音素符号是声音表达，其形成了语言中的最小的区分语义的单位，即实现区分同类的功能。

这个作为音素，即作为一系列单个的音素符号存在的语音化的数据列表，在所选择的基本原理的意义上是转换成语音的包含文本的列表条目，因此在语音识别时，其在语音控制的用户界面中可以用于使用户说出的单词与包含文本的列表条目产生联系，并且因此执行相应的预定功能。通常在这种语音化的数据列表中，音素作为关联的语音词被存储而不带有单独的数据字段并且特别地供语音控制用户界面中的语音设备装置或其语音识别器所用，因此这样可以简单地访问语音化数据列表。

通常用户习惯于，他们可以简单地改变或者重新排序数据库的图形(文本)表达，特别地是电话簿或联系人列表中的姓名，以便更快地找到确定的列表条目或将数据库变为用户所期望的形式。对于电话簿或联系人列表，此时通常可以根据姓或名进行排序，即使本发明不局限于此种情况。

对于语音控制的用户界面来说，当语音化的列表条目具有一定的长度时会极其有效，因为较长的列表条目导致了明显更好的语音识别的识别率。因此对于电话簿或联系人列表来说，组合地输入名和姓是有效且有意义的。这也是因为当一个姓或名更频繁地出现时，仅提到名或姓也可以导致数据列表中的歧义，因此没有良好的识别率。通过组合名和姓可以明显降低这种重复现象的概率。

出于这种实践经验，在语音化的数据列表中组合名和姓或者多个列表条目的一般数据字段，在改变数据字段的表达时(下面也称为重新排序)，例如在字母上从姓到名或者与之相反地重新排序时，有以下问题，即在语音控制的用户界中必须再次设置对于语音识别必需的姓名的音素。这可以在存在于语音控制的用户界面中的语音识别系统中或语音识别器中进行。

在现有系统中，新建语音或者语音控制的数据列表可以通过对重组的数据组再次语音化来实现。然而由于语音化需要极其大量的运算，并且进而需要大量的资源，在重新语音化更大的数据列表时，对于用户有可察觉的延迟时间或者等待时间，直到语音控制的用户界面可以用于从数据列表或者一般的列表条目中识别姓名。因此这是特别不利的，因为用户习惯于，在具有数据库功能的移动数据设备中、例如具有联系人数据库的移动电话中，在确定的情况中于使用前立刻以图片形式重新排序姓名列表条目，以便可以更简单地访问确定的列表条目。一旦在用户想利用车载电话和/或免提通话装置进行通话之前执行上述过程，用于重新语音化列表条目的延迟时间是极其有干扰性的。

发明内容

因此，本发明的目的在于，提出一种可能性，即在根据一个数据字段改变了具有多个数据字段的列表条目的表达之后，加速建立语音化的数据列表。

根据本发明，利用根据权利要求1的方法、根据权利要求7的语音控制的用户界面和根据权利要求8的计算机程序产品来实现该目的。

在此，根据开头所述的方法特别地设置成，即在列表条目的文本中，特别是在每个列表条目的文本中，在列表条目的相应的数据字段之间插入分隔符，其与转换为语音并在那里作为语音符号的构成列表条目的音素一起存储。与列表条目相对应的音素存储在语音数据库中，特别是语音控制的用户界面中，其中，由存储在语音数据库中的音素生成语音化的数据列表。在生成语音化数据列表时，象征列表条目的文本中的分隔符的音素符号相反地不予考虑，即不集成到语音化的数据列表中的列表条目的音素中。由此避免了必须一起说出象征分隔符的音素符号。

在具有在包含文本的列表条目的相应数据字段之间的分隔符的数据库中的音素的存储实现了，由这个语音数据库建立语音化的数据列表，而在根据至少两个数据字段中的一个数据字段重新排序数据列表时，不需要必须再次执行耗费资源的语音化。相反的，仅仅在语音化的数据列表中再次组合存储在语音数据库中的音素就足够了。这有着以下优点，具有包含文本的列表条目的数据列表的表达的变化，即重组数据字段、例如以其他来排序的文本字段(名和姓)的顺序，实现了语音控制的用户界面中的快速响应时间。因此能够几乎在实现用户界面的图形表达中重新排序包含文本的列表条目的时间的同一时间内实现语音化的数据列表。这基本上由此来实现，即分隔符一起转换为语音并且作为特殊的音素符号在相应于列表条目的音素内被寻找、辨别并且可以用于改建语音化的数据列表的音素。

根据所提出的方法的优选实施形式设置成，数据列表的包含文本列表条目对应于数据字段地，例如以字母顺序或者根据其他的排序标准来重新排序，其中在重新排序列表条目之后(即用语言发出表达改变的通知)在对应于该列表条目或每个列表条目的音素中辨识对应于在数据字段之间的分隔符的音素符号，并且其中调换所辨识的音素符号之前和之后的音素部分，从而在重新语音化的数据列表中存储了重组的音素。

这种数据列表再次包含了全部列表条目而没有语音干扰的分隔符号，并且在语音控制的位置中可以利用较短的延迟时间来产生，而不需要例如在语音控制的用户界面的语音识别器中执行重新语音化。数据库因此可以生成语音化的数据列表，其与重新排序后的文本字段的表达变化相对应。该列表替代了已存储在语音识别器中的列表。因此，通过使用一个或多个分隔符相应地重组与象征分隔符的音素符号一同存储在语音数据库内的音素的方式，并且通过在数据列表中储存所述音素的方式，建立语音化的数据列表。此时，一同存储的分隔符允许了对与文本表达中的各个数据字段相应的音素或音素子序列的访问。当然，因为没有说出分隔符，在重新语音化的数据列表中不用一起设定分隔符。随后存储重新语音化的数据列表，并且该数据列表替代了先前所存储的语音化的数据列表。语音控制的用户界面，特别是它的语音识别器，这时可以访问语音化的姓名列表或者数据列表，以便识别所说出的语音指令。由此避免了在与不同设置的数据字段相对应地改变列表条目的表达(重新排序)之后的运算量很大的字素-到-音素-转换(Graphem-zu-Phonem-Konvertierung)。

继续前述的思路可以补充地设置成，特别是对于在与包含文本的列表条目相对应地重新排序数据字段之后重组音素，在与一个或每个列表条目相对应的音素中测定音素符号的存储位置，该音素符号与转换为语音的分隔符相对应，例如标号“\t”并且调换在所测定的存储位置之前与之后的音素的存储内容。可以简单地通过指针在实行了所述方法的微处理器的存储区域中实现存储位置，从而总体上仅通过处理器执行简单的运算任务。

为了进一步加速音素的重组与语音化的数据列表的生成，根据本发明可以设置成，即对于一个或者特别是所有与列表条目相对应的音素来说，对应于转换为语音的分隔符的音素符号的存储位置存储在语音数据库中。优选地既可以在首次测定之后也可以在重组音素时进行上述过程。由此可以更进一步地加速重复的重新排序。

在有两个可排序的数据字段时，例如名或姓时，一个分隔符便足够了。在根据本发明的优选地应用姓名列表或者联系人列表时可能是这种情况，即该应用具有仅可以根据名或姓排序的数据字段并且此外仅包含附属于这两个可排序的数据字段的信息，例如联系数据或者联系地址。

但是因为本发明并不局限于这种情况，可以普遍地设置成，特别是当存在多个可排序的数据字段时，特别地为列表条目的每个可排序的数据字段分配独有的，即分别不同的分隔符，该分隔符被一同转换为语音并且在那里作为独有的，即分别不同的音素符号一同存储在音素中。这种音素与对应于分隔符的音素符号一起存储在语音数据库内，其中可选择的-如上所述的-对应于每个对应于分隔符的音素符号的存储位置也可以一同存储在数据库中，以便在有多个可排序的数据字段的情况下也实现快速的音素重组。优选地上述情况适用于每个列表条目。

根据本发明可以提出，即当具有包括包含文本的列表条目的数据列表的设备、特别是车载电话或者其他的包括数据库的数据设备，特别是例如通过无线通讯接口，如蓝牙，首次或者在改变或重新排序数据列表之后连接到语音控制的用户界面上、特别是机动车的车载电话和/或免提通话装置时，执行语音化过程。

优选地，语音控制的用户界面此时具有附带访问语音数据库的语音识别系统或语音识别器，其中用户界面设置用于，识别数据列表的重新排序，并且其中在识别到重新排序后如前所述地重组语音化的数据列表。

此外，本发明还涉及一种语音控制的用户界面，特别是机动车的车载电话和/或免提通话装置，具有例如在语音识别器中实现了的语音识别系统、用于连接具有带有包含文本的列表条目的数据列表的数据接口和用于控制用户界面并且特别是用于控制语音识别系统和数据接口的计算单元，特别是处理器或微处理器。根据本发明，计算单元设置用于执行前述方法或其中的一部分。根据本发明，语音控制的用户界面具有语音数据库，其可以在用户界面的计算单元中一起实现。

最后本发明涉及一种具有程序代码工具的计算机程序产品，用于设置计算单元特别是语音控制的用户界面以执行前述方法或其中的一部分。如下地构造程序代码工具，即在计算单元上装载该程序代码工具时将其设置用于执行根据本发明的方法。

附图说明

本发明的其他优点、特征和应用可能性也由下面对实施例及附图的说明给出。在此所有被说明的和/或形象示出的特征，即使其与在权利要求中的或权利要求的相关援引中的对它们的总结无关，都单独地和/或以任意的组合构成本发明的内容。

附图示出：

图1示意性示出用于使语音控制的用户界面中的数据列表语音化的方法流程图；

图2是在对包含文本的数据列表重新排序之后的根据本发明所提出的方法的实施方式；和

图3是语音数据库中的实例性条目。

具体实施方式

图1中说明了用于通过语音控制的用户界面1使具有包含文本的列表条目的数据列表语音化的基本过程，其中特别的可以涉及特别是具有电话和/或免提通话功能的机动车的多媒体-控制单元。

通常，这类语音控制的用户界面1通过其他的设备、例如移动电话或其他存储设备，来传递包含文本的数据列表2。这例如可以是以下情况，即具有包含文本的数据列表2的设备通过数据接口3，例如通过蓝牙或无线网络以无线方式或者以有线连接的方式，联接到语音控制的用户界面。在包含文本的数据列表2通过数据接口3连接到语音控制的用户界面1之后，由后者读取数据列表2，其中数据列表的列表条目至少划分为两个数据字段。

划分可以在读取时通过适当的软件来进行或者该划分例如通过合并在列表条目的各个数据字段之间的分隔符而已经存储在数据列表中。在优选的、特定的应用中，此时特别地可以涉及姓名列表或联系人列表，其中名和姓由相应的数据字段代表，其中既可以根据第一个也可以根据第二个数据字段来排序列表。此外，其他的数据字段包含了所期望的联系地址，例如电话号码或邮箱，或者其他的信息。

包含文本的数据列表2在读取语音控制的用户界面1之后，作为字素，即一系列单个的字素符号提供在文本表达中。字素符号中特别地可以涉及至少在应用方案中的标准化字母或者一般的具有唯一的文本内容的文字符号。

为了可以执行语音控制，语音控制的用户界面1必须从这种文本表达中生成语音，以便将该语音与用户的语音输入相比较并且可以执行相应的动作。此时使包含文本的列表条目的各个数据字段聚集在一起，以便提高语音识别系统中的识别率。

然后在语音控制的用户界面1的计算单元4中，每个列表条目根据通常与语音相关的规则转换为语音并且作为音素存储在语音化的数据列表内。对此，在语音控制的用户界面1的计算单元4中集成了语音识别器5或语音识别系统。这些已经是公知的并且因此无需进一步阐述，其中作为补充的参考下面结合附图3说明的具体实施例。

一旦在语音控制的用户界面1的特别是其中集成了语音识别器5的计算单元4中开始了语音化，如果语音指令以语音化的数据列表2的形式给出，也就是说，特别是以所选择的对各个数据字段的排序的形式，语音控制的用户界面1就可以接受语音指令。如此在常用设备中实行该过程。

在现有技术条件中，只要包含文本的数据列表2例如根据另外的数据字段来排序，就会重复前述过程，因此改变了各个要语音化的列表条目。这例如是以下情况，即在姓名列表或联系人列表中，在姓和名之间进行重新排序，从而列表条目一次以“姓，名”的形式并且另一次以“名，姓”的形式存在，这相应地导致了列表条目的其他音素。

但是这样是运算量极其庞大的。因此本发明如图1中所示的提出，即每个列表条目作为音素存储在语音控制的用户界面中，也存储在图2中所示的语音数据库7内，其当然也可以设置在计算单元4中或对应于计算单元4的未示出的存储单元中。

这些对应于列表条目的并且存储在语音数据库7中的音素此时还包括了来自包含文本的列表条目的转换为音素符号的分隔符，其中优选地测定在语音化的列表条目的音素中的音素符号的位置并且该位置一同存储在语音数据库7中。

这有着以下优点，即在将内容相同、但是重新排序的数据列表2输入到语音控制的用户界面1中时，通过语音控制的用户界面1在语音数据库中相应地辨识对应于分隔符的音素符号并且通过调换位于该音素符号之前或之后的音素重组列表条目。

这些新产生的音素，(即由各个音素构成的音素序列)，由计算单元4或语音识别器5设定到语音化的数据列表6中，其中删除旧的音素或者删除旧的语音化的数据列表6。

由此根据本发明，重组可以变得特别简单，而不必执行新的语音化。

下面再说明具体的实施例，其中在具有语音控制的用户界面1的车载-娱乐设备中应用根据本发明的方法。该车载-娱乐设备包括用于蓝牙设备的数据接口3。车载-娱乐设备的核心功能是通过如下地连接的车载电话建立通话连接。电话号码的选择可以通过触碰或语音-输入电话号码以及通过从移动设备的电话簿中选择联系人姓名来实现。此外还支持办公功能，如信息列表或日程表功能。

在输入电话簿姓名时，在实施例中应当可行的是，以在屏幕上显示的形式给出姓名。为此支持两种表达：或者输入其后跟随了姓的名或者反序地进行输入，即输入其后跟随了名的姓。图形的用户界面在小于100毫秒之内支持作为第一次输入的名和姓之间的表达的转变。

语音控制的用户界面1应该尽可能同时地实现上述过程。为了实现上述过程，人们在同步电话簿列表条目时可以将两种输入变体都作为语音化的姓名列表寄存在语音识别器处。然而这样会意味着加倍的数据量以及因此意味着加倍的存储消耗，以及会导致在生成姓名列表时的延迟时间(等待或处理时间)的加倍。当在转变列表的表达时才生成重新语音化的数据列表时，可以避免初始延迟时间的变长。但是在已知的方法中然后必须完整地重新建立对列表的语音化。这意味着列表的可读出性的延迟，这个延迟超出图形表达的转换的好几倍。

为了避免上面示出的局限，使用根据本发明的方法，在具体的实施例中，该方法具有如下步骤：

1在具有语音控制的用户界面1的车载-娱乐设备已经通过蓝牙-数据接口3建立了到具有包含文本的数据列表的移动设备连接之后，以移动设备的(包含文本)电话簿列表条目填充车载-娱乐设备的内部数据库。

2语音控制的用户界面1从内部数据库中读取数据。此时区分名和姓，其中在名之下也可以存储其他的中间名。

3以数据包的形式读取数据并且在名和姓之间插入分隔符(ˊ\tˊ)。

4如同一发明人的同系列的专利申请中所说明的对数据进行预处理来提高识别率。预处理特别地用于，以语音定义的形式和/或用户定义的形式修改也标记为字素的列表条目的文本表达。这可以例如利用解析器来进行。此时包含分隔符(ˊ\tˊ)。

5在将每个单独的数据组插入到语音化的列表中之前，去掉分隔符。

6在其他的与用于缓存的内部数据库不同的语音数据库7中存储音素，其中也一同存储用于每个音素的分隔符的位置。

7在改变电话簿列表的表达时，现在删除当前的语音化的姓名列表(数据列表)并且使用语音数据库中的列表条目建立重新语音化姓名或数据列表7。对于语音数据库7的内容的实例，在图3中示出具有发明人的名和姓的列表条目的实例。其示出了以LH+编码的英语音素。

8用来自语音数据库7的数据填充重新语音化的姓名或数据列表7，其中这些数据以相反的顺序-相对于在同步期间(步骤1至7)所存储的顺序-输入到列表中。

因为数据输入到语音化的列表中的进程不需语音化过程，在图形表达后的很短时间内也能语音地操作语音化的姓名或数据列表7，而无需产生提高的存储需求。

Claims

1.一种用于使具有包含文本的列表条目的数据列表(2)语音化的方法，其中，所述数据列表(2)中的每个列表条目划分为至少两个数据字段并且应当供语音控制的用户界面(1)使用，在所述方法中列表条目从文本表达转换为语音并且作为音素存储在语音化的数据列表(6)中，其特征在于，在列表条目的所述文本中，分隔符插入所述列表条目的相应的所述数据字段之间，所述分隔符一同转换为所述语音并且在那里作为音素符号一同存储，并且所述音素存储在语音数据库(7)中，其中由存储在所述语音数据库(7)中的所述音素生成语音化的所述数据列表(6)。

2.根据权利要求1所述的方法，其特征在于，所述数据列表(2)的包含文本的所述列表条目能够相对应于所述数据字段重新排序，其中在改变所述列表条目的表达之后或重新排序所述列表条目之后，在对应于列表条目的所述音素中辨识与所述分隔符相对应的所述音素符号，并且其中调换在所辨识的所述音素符号之前和之后的所述音素的部分，并且这样重组的所述音素存储在新的语音化的数据列表中。

3.根据权利要求2所述的方法，其特征在于，在对应于列表条目的所述音素中测定对应于转换为所述语音的所述分隔符的所述音素符号的存储位置，并且调换在测定的所述存储位置之前和之后的存储内容。

4.根据权利要求3所述的方法，其特征在于，与转换为所述语音的所述分隔符相对应的所述音素符号的所述存储位置存储在所述语音数据库中。

5.根据前述权利要求中任一项所述的方法，其特征在于，为列表条目的每个数据字段分配独有的分隔符，所述分隔符一同转换为语音并且作为独有的音素符号一同存储。

6.根据前述权利要求中任一项所述的方法，其特征在于，当具有带有包含文本的所述列表条目的所述数据列表(2)的设备连接到语音控制的用户界面(1)上时，执行所述语音化，其中语音控制的所述用户界面包括访问所述语音数据库(7)的语音识别系统，其中所述用户界面(1)设置用于识别所述数据列表(2)的所述列表条目的表达的改变或者重新排序，并且其中在识别所述改变或所述重新排序之后重组语音化的所述数据列表。

7.一种语音控制用户界面，具有语音识别系统(5)、用于连接具有包含文本的列表条目的数据列表(2)的数据接口(3)和用于控制用户界面(1)的计算单元，其特征在于，所述计算单元设置用于执行根据权利要求1至6中任一项所述的方法。

8.一种具有程序代码工具的计算机程序产品，用于设置语音控制的用户界面(1)的计算单元以便执行根据权利要求1至6中任一项所述的方法。