CN1359512A

CN1359512A - 用于语音处理的方法及装置

Info

Publication number: CN1359512A
Application number: CN00809905A
Authority: CN
Inventors: G·尼德迈尔
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1999-07-06
Filing date: 2000-04-11
Publication date: 2002-07-17
Anticipated expiration: 2020-04-11
Also published as: DE50005605D1; HUP0201881A2; CN1160697C; EP1194921A1; WO2001003111A1; EP1194921B1

Abstract

本发明涉及语音处理方法,其中在第一转换步骤中进行正字输入到音标的转换及设有一个由用户进行的转换结果的检验及校正步骤,及具有一个由音标转换成似正字表示的及以该表示输出第二转换步骤。

Description

用于语音处理的方法及装置

多年来日用语音识别及语音控制系统的发展体现为计算机技术的主要发展路线。在该发展过程中取得了显著的进步及建立了有市场的语音识别系统，它在实际使用中也被证实是经受了考验的。该技术取得进展的系统也基本适用于计算机及所连接的外围装置的语音控制。仅用相对少的词汇可处理的简单语音识别系统也已用于消费电子装置领域及机动车设备以及其它领域，在这些领域中根据有限的词汇可进行装置有意义的声音控制。

在语音识别系统中通常具有工具，借助它可输入要由语音识别系统识别的词汇。通常词或表达通过计算机程序的相应表面软件以正字的描述方式输入及自动地转换成语音识别系统的内部描述方式(通常为语音的书写(音标)的变型)。在该自动的及通过字典查找所支持的转换过程中可能在语音的音标书写上产生错误，它们由不充分的转换规则和/或不完整的词汇引起。因为该语音识别系统将其识别过程建立在这样地产生的语音音标的基础上，因此通过错误的音标书写在语音识别时也产生错误。

为了保证最佳的性能，对此将要关注：尽可能无误地校正音标书写。

迄今这样地解决该问题，即用户在输入正字的(正确)描述方式后，可人工地检验由系统产生的音标书写。但通常对于未培训人员这是困难的。因此使用了不同的辅助措施，它们以市场畅销的软件(SW)方式提供：

1.用户可对于不同的发言符号被告知包含这些符号的典型词，及手工地校正该音标书写方式。在此情况下在某些系统中用户还应得到以下支持：不可能使用音标书写的错误的符号顺序，其方式是通过所使用的软件仅可输入这样的符号序列：它们对于所使用的音标符号组为合适的ASCII序列。

2.由音标书写方式借助市场畅销的文本-语音软件系统、即语音合成系统使音标书写再转换成可听的语音。这用于由系统对一个字自动产生的符号序列的声音似真性检验。这种听觉检验仅可消除明显的错误并从属于声音通道的不完善性。此外，应保证语音识别及语音合成所使用的发音字母的一致性，它是以最少情况给出的。

因此本发明的目的是：给出一种语音处理的改进方法及装置，它们尤其可通过实质性改进的用户适用性及与此相关地通过提高了的精确性及可靠性而显出其特色。

该目的在其方法方面将通过权利要求1的特征来实现，及在其装置方面将通过权利要求6的特征来实现。

本发明具有其基本构思，即考虑用一种在语音书写(音标)上简单及可靠的可处理输出来取代对于语音科学未受训练的用户不习惯并难以处理的、转换成语音书写的字的输出。本发明还包括这样的构思，即对此选择一种被称为“似正字”(pseudo-orthographisch)的输出形式，它不要求用户具有语音书写的特殊符号的知识及其专门规则。简言之，“如人们说出它那样”实现转换字的输出。

这对于外行来说易于理解及很好处理的转换成语音书写的语音似正字输出也需要语音处理方法中的一个附加步骤，即由语音书写转换成该似正字表示的转换步骤。该附加步骤包括一种方法，其中以自学习方式或通过对预定调准单元的访问由字的语音单位转换成所述书写的简单字单位。在一个简单及合乎要求的实施形式中，该转换通过对一个已存储的音位-字位表的访问来进行，该表至少借助配置规则使原来的存储初始化及必要时在系统使用期间的自学习过程中根据用户的附加输入来扩展。

在一个特别适用的及在所述自学习处理意义上有利的实施形式中，该方法还包括另一个反向转换的步骤，即由(通过用户在输入用于校正原始转换结果时使用的)似正字表示转换成语音书写。在该步骤上亦可使用所述的表配置及在必要时通过自学习处理来补充及细化。

根据上述方法特征，实施所述方法的装置除了具有一个用于将似正字输入转换成音标的本身公知的第一转换单元外，还具有一个将音标转换成似正字表示的第二转换单元及一个用于以该表示形式输出的输出单元。

对于该方法的进一步构型，即借助似正字表示可实现校正用户的输入，该装置具有一个相应的第三转换单元。

为了使用所述的音位-字位配置表，在一个优选实施形式中，该装置设有一个相应的存储器，在该存储器中可存取地保持用于第二和/或第三转换单元的配置表。

本发明的其它优点及目的将由从属权利要求及以下借助附图对优选实施例的描述中得出。

附图以功能框图的形式表示用于实施根据本发明的方法的语音处理装置1的一个实施形式的概图。该语音处理装置1包括一个声音输入单元3，在其输出端提供一个预处理的语音流S1，该语音流被输送给一个语音识别单元5，后者输出一个被描述的文本S2。该语音识别单元5包括一个词汇存储器5a，其中存储语音识别单元的词汇，-而在传统的语音识别系统中存储语音标记。

词汇存储器5a将通过借助字母数字输入单元7输入附加的概念词被不断地修改，该概念词在第一转换单元9中由正字输入格式转换成语音书写(音标)。一个词典存储器11支持第一转换单元9中的转换过程。为了检验及校正已进行的输入，设有第二转换单元13，用于将语音书写转换成似正写表示。这将在一个图象屏上15上对用户显示出来。

此外还设有一个第三转换单元17，用于通过字母数字输入单元7将似正写输入转换成语音标记，其输出端与语音识别单元5的词汇存储器5a相连接。第二及第三转换单元13，17被配置给以一个查找表的形式布置的配置存储器19，用于预定的音位-字位配置。

一个通过用户实现的以正确的正字标记输入的新概念字将在第一转换单元9中转换成音标，-视该形式的系统的具体组织而定被传送到词汇存储器5a。但在任何情况下，被转换成音标的字被传送到第二转换单元13，在该单元中进行对似正字表示的另一转换，这被显示在图象屏15上及必要时引起用户通过输入单元7(现在为似正字表示，这也可显示在图象屏上)作出校正的输入或确认所显示的似正字表示。该似正字输入将在第三转换单元17中转换成音标及这时(第一次、或当字已在首次输入时以校正模式接收在词汇存储器5a中)传送到词汇存储器5a。由此它的内容被扩展了在语音标记上被检验的词汇。

以下用两个例子来解释上述的方案：

例1

通过字母数字输入单元7以正字书写方式输入“Jacques Chrac”。在第一转换单元9中将由它构成发音标记：“sh a xk sh i：rr a xk”。第二转换单元由它构成“sch a k sch i r a k”，及以该标记将输入的名字显示在图象屏15上。由该标记(不用知道在第一转换中使用的发音字母)可识别出：由系统产生的发音标记是适合的。用户可认可该转换结果，及该新输入的名字将(以发音标记的形式)到达词汇存储器5a中。

例2

通过输入单元7输入“Professional Service”。第一转换单元9由它产生发音标记：“P r o：f ae sh o n：e：ll s oe r v i：cc：e”。在第二转换单元13的另一转换结果中将以似正字标记得到：“Profaschonell Sorwieke”，及该表示将又被显示在图象屏上。

用户可直接确认出：由系统产生的产生的音标是不正确的，-只要它不对应于输入字组合的通常发音的话。现在用户将借助输入单元使用显示在屏上的似正字标记进行校正，及该校正结果将在第三转换单元17中由似正字又转换成发音标记，及以该方式存储在词汇存储器5a中。在该给出的例中，用户将输入“Profaschonnell Sorwis”，及相应地将该新字组合(以发音标记方式)存储在词汇存储器5a中。

可以看出，所给出的方法也可多级地实施，其方式是在第一次校正后通过用户再次由发音标记转换成似正字及以该表示显示出来，以使得必要时可交互地消除系统的错误。这里最好是使用一个(本身公知的)神经网结构的自学习系统，通过它可进行第一转换过程(正字-音标)的配置存储器19和/或配置规程存储器内容的自适配。

本发明的实施并不被限制在上述例子上，而可具有专业人员能力范围中的许多变化。

Claims

1.用于语音处理的方法，其中在第一转换步骤中进行正字输入到音标的转换及设有一个由用户进行的转换结果的检验及校正步骤，其特征在于：具有一个由音标转换成似正字表示的及以该表示输出第二转换步骤。

2.根据权利要求1的方法，其特征在于：具有一个以似正字表示进行的输入转换成音标的第三转换步骤。

3.根据权利要求1或2的方法，其特征在于：第二和/或第三转换步骤包括语音字单位向简单语义字单位转换或相反的转换。

4.根据权利要求3的方法，其特征在于：第二和/或第三转换步骤通过在一个已存储的音位-字位表(19)上的访问来进行。

5.根据权利要求3或4的方法，其特征在于：第二和/或第三转换步骤借助一种自学习方法，尤其通过使用一个不断修改音位-字位表(19)的神经网来进行。

6.用于实施根据以上权利要求中一项的装置(1)，具有一个字母数字输入单元(7)，及一个在输入侧与它连接的第一转换单元、用于将正字输入转换成音标，以及一个显示单元(15)用于已输入字的光学显示，其特征在于：具有一个用于将音标转换成似正字表示的第二转换单元(13)，其输出端与显示单元连接。

7.根据权利要求6的装置，其特征在于：具有一个用于将以似正字表示进行的输入转换成音标的第三转换单元。

8.根据权利要求6或7的装置，其特征在于：第二和/或第三转换单元(13，17)与一个用于存储音位-字位表的存储器(19)相连接。

9.根据权利要求6至8中一项的装置，其特征在于：第二转换单元(13)在输出侧与一个语音识别单元(5)的词汇存储器(5a)相连接。