CN1359512A - 用于语音处理的方法及装置 - Google Patents

用于语音处理的方法及装置 Download PDF

Info

Publication number
CN1359512A
CN1359512A CN00809905A CN00809905A CN1359512A CN 1359512 A CN1359512 A CN 1359512A CN 00809905 A CN00809905 A CN 00809905A CN 00809905 A CN00809905 A CN 00809905A CN 1359512 A CN1359512 A CN 1359512A
Authority
CN
China
Prior art keywords
input
phonetic symbol
word
unit
orthography
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN00809905A
Other languages
English (en)
Other versions
CN1160697C (zh
Inventor
G·尼德迈尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN1359512A publication Critical patent/CN1359512A/zh
Application granted granted Critical
Publication of CN1160697C publication Critical patent/CN1160697C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及语音处理方法,其中在第一转换步骤中进行正字输入到音标的转换及设有一个由用户进行的转换结果的检验及校正步骤,及具有一个由音标转换成似正字表示的及以该表示输出第二转换步骤。

Description

用于语音处理的方法及装置
多年来日用语音识别及语音控制系统的发展体现为计算机技术的主要发展路线。在该发展过程中取得了显著的进步及建立了有市场的语音识别系统,它在实际使用中也被证实是经受了考验的。该技术取得进展的系统也基本适用于计算机及所连接的外围装置的语音控制。仅用相对少的词汇可处理的简单语音识别系统也已用于消费电子装置领域及机动车设备以及其它领域,在这些领域中根据有限的词汇可进行装置有意义的声音控制。
在语音识别系统中通常具有工具,借助它可输入要由语音识别系统识别的词汇。通常词或表达通过计算机程序的相应表面软件以正字的描述方式输入及自动地转换成语音识别系统的内部描述方式(通常为语音的书写(音标)的变型)。在该自动的及通过字典查找所支持的转换过程中可能在语音的音标书写上产生错误,它们由不充分的转换规则和/或不完整的词汇引起。因为该语音识别系统将其识别过程建立在这样地产生的语音音标的基础上,因此通过错误的音标书写在语音识别时也产生错误。
为了保证最佳的性能,对此将要关注:尽可能无误地校正音标书写。
迄今这样地解决该问题,即用户在输入正字的(正确)描述方式后,可人工地检验由系统产生的音标书写。但通常对于未培训人员这是困难的。因此使用了不同的辅助措施,它们以市场畅销的软件(SW)方式提供:
1.用户可对于不同的发言符号被告知包含这些符号的典型词,及手工地校正该音标书写方式。在此情况下在某些系统中用户还应得到以下支持:不可能使用音标书写的错误的符号顺序,其方式是通过所使用的软件仅可输入这样的符号序列:它们对于所使用的音标符号组为合适的ASCII序列。
2.由音标书写方式借助市场畅销的文本-语音软件系统、即语音合成系统使音标书写再转换成可听的语音。这用于由系统对一个字自动产生的符号序列的声音似真性检验。这种听觉检验仅可消除明显的错误并从属于声音通道的不完善性。此外,应保证语音识别及语音合成所使用的发音字母的一致性,它是以最少情况给出的。
因此本发明的目的是:给出一种语音处理的改进方法及装置,它们尤其可通过实质性改进的用户适用性及与此相关地通过提高了的精确性及可靠性而显出其特色。
该目的在其方法方面将通过权利要求1的特征来实现,及在其装置方面将通过权利要求6的特征来实现。
本发明具有其基本构思,即考虑用一种在语音书写(音标)上简单及可靠的可处理输出来取代对于语音科学未受训练的用户不习惯并难以处理的、转换成语音书写的字的输出。本发明还包括这样的构思,即对此选择一种被称为“似正字”(pseudo-orthographisch)的输出形式,它不要求用户具有语音书写的特殊符号的知识及其专门规则。简言之,“如人们说出它那样”实现转换字的输出。
这对于外行来说易于理解及很好处理的转换成语音书写的语音似正字输出也需要语音处理方法中的一个附加步骤,即由语音书写转换成该似正字表示的转换步骤。该附加步骤包括一种方法,其中以自学习方式或通过对预定调准单元的访问由字的语音单位转换成所述书写的简单字单位。在一个简单及合乎要求的实施形式中,该转换通过对一个已存储的音位-字位表的访问来进行,该表至少借助配置规则使原来的存储初始化及必要时在系统使用期间的自学习过程中根据用户的附加输入来扩展。
在一个特别适用的及在所述自学习处理意义上有利的实施形式中,该方法还包括另一个反向转换的步骤,即由(通过用户在输入用于校正原始转换结果时使用的)似正字表示转换成语音书写。在该步骤上亦可使用所述的表配置及在必要时通过自学习处理来补充及细化。
根据上述方法特征,实施所述方法的装置除了具有一个用于将似正字输入转换成音标的本身公知的第一转换单元外,还具有一个将音标转换成似正字表示的第二转换单元及一个用于以该表示形式输出的输出单元。
对于该方法的进一步构型,即借助似正字表示可实现校正用户的输入,该装置具有一个相应的第三转换单元。
为了使用所述的音位-字位配置表,在一个优选实施形式中,该装置设有一个相应的存储器,在该存储器中可存取地保持用于第二和/或第三转换单元的配置表。
本发明的其它优点及目的将由从属权利要求及以下借助附图对优选实施例的描述中得出。
附图以功能框图的形式表示用于实施根据本发明的方法的语音处理装置1的一个实施形式的概图。该语音处理装置1包括一个声音输入单元3,在其输出端提供一个预处理的语音流S1,该语音流被输送给一个语音识别单元5,后者输出一个被描述的文本S2。该语音识别单元5包括一个词汇存储器5a,其中存储语音识别单元的词汇,-而在传统的语音识别系统中存储语音标记。
词汇存储器5a将通过借助字母数字输入单元7输入附加的概念词被不断地修改,该概念词在第一转换单元9中由正字输入格式转换成语音书写(音标)。一个词典存储器11支持第一转换单元9中的转换过程。为了检验及校正已进行的输入,设有第二转换单元13,用于将语音书写转换成似正写表示。这将在一个图象屏上15上对用户显示出来。
此外还设有一个第三转换单元17,用于通过字母数字输入单元7将似正写输入转换成语音标记,其输出端与语音识别单元5的词汇存储器5a相连接。第二及第三转换单元13,17被配置给以一个查找表的形式布置的配置存储器19,用于预定的音位-字位配置。
一个通过用户实现的以正确的正字标记输入的新概念字将在第一转换单元9中转换成音标,-视该形式的系统的具体组织而定被传送到词汇存储器5a。但在任何情况下,被转换成音标的字被传送到第二转换单元13,在该单元中进行对似正字表示的另一转换,这被显示在图象屏15上及必要时引起用户通过输入单元7(现在为似正字表示,这也可显示在图象屏上)作出校正的输入或确认所显示的似正字表示。该似正字输入将在第三转换单元17中转换成音标及这时(第一次、或当字已在首次输入时以校正模式接收在词汇存储器5a中)传送到词汇存储器5a。由此它的内容被扩展了在语音标记上被检验的词汇。
以下用两个例子来解释上述的方案:
例1
通过字母数字输入单元7以正字书写方式输入“Jacques Chrac”。在第一转换单元9中将由它构成发音标记:“sh a xk sh i:rr a xk”。第二转换单元由它构成“sch a k sch i r a k”,及以该标记将输入的名字显示在图象屏15上。由该标记(不用知道在第一转换中使用的发音字母)可识别出:由系统产生的发音标记是适合的。用户可认可该转换结果,及该新输入的名字将(以发音标记的形式)到达词汇存储器5a中。
例2
通过输入单元7输入“Professional Service”。第一转换单元9由它产生发音标记:“P r o:f ae sh o n:e:ll s oe r v i:cc:e”。在第二转换单元13的另一转换结果中将以似正字标记得到:“Profaschonell Sorwieke”,及该表示将又被显示在图象屏上。
用户可直接确认出:由系统产生的产生的音标是不正确的,-只要它不对应于输入字组合的通常发音的话。现在用户将借助输入单元使用显示在屏上的似正字标记进行校正,及该校正结果将在第三转换单元17中由似正字又转换成发音标记,及以该方式存储在词汇存储器5a中。在该给出的例中,用户将输入“Profaschonnell Sorwis”,及相应地将该新字组合(以发音标记方式)存储在词汇存储器5a中。
可以看出,所给出的方法也可多级地实施,其方式是在第一次校正后通过用户再次由发音标记转换成似正字及以该表示显示出来,以使得必要时可交互地消除系统的错误。这里最好是使用一个(本身公知的)神经网结构的自学习系统,通过它可进行第一转换过程(正字-音标)的配置存储器19和/或配置规程存储器内容的自适配。
本发明的实施并不被限制在上述例子上,而可具有专业人员能力范围中的许多变化。

Claims (9)

1.用于语音处理的方法,其中在第一转换步骤中进行正字输入到音标的转换及设有一个由用户进行的转换结果的检验及校正步骤,其特征在于:具有一个由音标转换成似正字表示的及以该表示输出第二转换步骤。
2.根据权利要求1的方法,其特征在于:具有一个以似正字表示进行的输入转换成音标的第三转换步骤。
3.根据权利要求1或2的方法,其特征在于:第二和/或第三转换步骤包括语音字单位向简单语义字单位转换或相反的转换。
4.根据权利要求3的方法,其特征在于:第二和/或第三转换步骤通过在一个已存储的音位-字位表(19)上的访问来进行。
5.根据权利要求3或4的方法,其特征在于:第二和/或第三转换步骤借助一种自学习方法,尤其通过使用一个不断修改音位-字位表(19)的神经网来进行。
6.用于实施根据以上权利要求中一项的装置(1),具有一个字母数字输入单元(7),及一个在输入侧与它连接的第一转换单元、用于将正字输入转换成音标,以及一个显示单元(15)用于已输入字的光学显示,其特征在于:具有一个用于将音标转换成似正字表示的第二转换单元(13),其输出端与显示单元连接。
7.根据权利要求6的装置,其特征在于:具有一个用于将以似正字表示进行的输入转换成音标的第三转换单元。
8.根据权利要求6或7的装置,其特征在于:第二和/或第三转换单元(13,17)与一个用于存储音位-字位表的存储器(19)相连接。
9.根据权利要求6至8中一项的装置,其特征在于:第二转换单元(13)在输出侧与一个语音识别单元(5)的词汇存储器(5a)相连接。
CNB008099057A 1999-07-06 2000-04-11 用于语音处理的方法及装置 Expired - Fee Related CN1160697C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19931050.5 1999-07-06
DE19931050 1999-07-06

Publications (2)

Publication Number Publication Date
CN1359512A true CN1359512A (zh) 2002-07-17
CN1160697C CN1160697C (zh) 2004-08-04

Family

ID=7913749

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB008099057A Expired - Fee Related CN1160697C (zh) 1999-07-06 2000-04-11 用于语音处理的方法及装置

Country Status (5)

Country Link
EP (1) EP1194921B1 (zh)
CN (1) CN1160697C (zh)
DE (1) DE50005605D1 (zh)
HU (1) HUP0201881A2 (zh)
WO (1) WO2001003111A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1315108C (zh) * 2004-03-17 2007-05-09 财团法人工业技术研究院 对易标错形素重新评分以提高准确率的文字转音标的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE517836C2 (sv) * 1995-02-14 2002-07-23 Telia Ab Metod och anordning för fastställande av talkvalitet

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1315108C (zh) * 2004-03-17 2007-05-09 财团法人工业技术研究院 对易标错形素重新评分以提高准确率的文字转音标的方法

Also Published As

Publication number Publication date
WO2001003111A1 (de) 2001-01-11
EP1194921A1 (de) 2002-04-10
EP1194921B1 (de) 2004-03-10
HUP0201881A2 (en) 2002-09-28
CN1160697C (zh) 2004-08-04
DE50005605D1 (de) 2004-04-15

Similar Documents

Publication Publication Date Title
US6785650B2 (en) Hierarchical transcription and display of input speech
US6853971B2 (en) Two-way speech recognition and dialect system
EP2126900B1 (en) Method and system for creating entries in a speech recognition lexicon
US20050144003A1 (en) Multi-lingual speech synthesis
JP4145796B2 (ja) テキストファイルのディクテーションを筆記するための及びテキストを修正するための方法及びシステム
US20030130847A1 (en) Method of training a computer system via human voice input
CN109461436B (zh) 一种语音识别发音错误的纠正方法及系统
MXPA06003431A (es) Metodo para sintetizar voz.
CN111508479A (zh) 一种语音识别方法、装置、设备及存储介质
CN1160697C (zh) 用于语音处理的方法及装置
CN109859746B (zh) 一种基于tts的语音识别语料库生成方法及系统
US20030055642A1 (en) Voice recognition apparatus and method
CN1127898A (zh) 智慧型国语语音输入方法及国语听写机
CN115762471A (zh) 一种语音合成方法、装置、设备及存储介质
Goh Discourse intonation of English in Malaysia and Singapore: Implications for wider communication and teaching
JP3438869B2 (ja) 音声認識システム、方法及び記録媒体
JP2006139162A (ja) 語学学習装置
JP2007535692A (ja) 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法
CN1979636B (zh) 一种音标到语音的转换方法
US7676366B2 (en) Adaptation of symbols
CN109686141B (zh) 一种语言学习的发音口型矫正系统
CN112988955B (zh) 多语语音识别及主题语意分析方法与装置
CN113421543B (zh) 一种数据标注方法、装置、设备及可读存储介质
CN109671308B (zh) 一种发音口型矫正系统的生成方法
KR20020048357A (ko) 오디오 플레이어에서의 텍스트/음성 변환 및 자동 음성인식 구현 방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
C10 Entry into substantive examination
PB01 Publication
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040804

Termination date: 20140411