JPH0850498A - 音声をテキストに変換するための方法および装置 - Google Patents

音声をテキストに変換するための方法および装置

Info

Publication number
JPH0850498A
JPH0850498A JP7137215A JP13721595A JPH0850498A JP H0850498 A JPH0850498 A JP H0850498A JP 7137215 A JP7137215 A JP 7137215A JP 13721595 A JP13721595 A JP 13721595A JP H0850498 A JPH0850498 A JP H0850498A
Authority
JP
Japan
Prior art keywords
words
word
model
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7137215A
Other languages
English (en)
Inventor
Bertil Lyberg
リュベルグ ベルティル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telia AB
Original Assignee
Telia AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia AB filed Critical Telia AB
Publication of JPH0850498A publication Critical patent/JPH0850498A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Abstract

(57)【要約】 【目的】音声のイントネーションパターンまたは音の高
低を用いて音声をテキストに変換するための方法および
装置を提供する。 【構成】音声認識ユニット1は入力音声から音素を識別
し、単語解釈ユニット2は音素を単語、句又は文として
解釈し音声モデルを確立する。分析ユニット9は音声モ
デルの基本的な音の高低変化のイントネーションパター
ンを決定する。抽出ユニット5は入力音声から基本的な
音の高低変化を抽出し、分析ユニット6は入力音声の基
本的な音の高低変化のイントネーションパターンを決定
する。コンパレータユニット7、8は入力音声と音声モ
デルとのイントネーションパターンを比較し、入力音声
の単語、句等のイントネーションパターンに最もよく一
致するイントネーションパターンをもつ音声モデルの単
語、句等を識別する。テキスト選択ユニット10は入力
音声に最もよく一致する単語、句等の表現を選択する。

Description

【発明の詳細な説明】
【0001】
【発明の背景】本発明は、音声をテキストに変換するた
めの方法および装置に関する。
【0002】本発明は話されたシーケンスからテキスト
列を生成し、単語および句を選択するために言語のイン
トネーションパターン、すなわち抑揚、または音の高低
を用いる。
【0003】種々の音声認識法が既に知られている。例
えば、いくつかの周知の音声認識システムにおいては、
音声認識装置は数人の異なる人間の音声を認識するよう
にトレーニングされ、この音声認識の過程で形成された
単語および句のライブラリーが、音声認識を行うために
システムによって用いられる。
【0004】1970年代以来、音声認識において基本
的な音の高低変化の情報を用いることは文献的に知られ
ている。基本的な音の高低変化の情報は、単語が基本的
な音の高低変化曲線に依存して異なる意味をもちうるよ
うな言語の場合に特に重要である。
【0005】しかしながら、基本的な音の高低変化曲線
は、例えば無声音を考慮に入れると一般に連続的ではな
い。例えば、“s”や“p”のようないくつかの無声音
については、基本的な音の高低変化は存在しない。加え
て、基本的な音の高低変化曲線は、それに続く一定の無
音休止によって著しく混乱せしめられる。このため、基
準パターンにマッチングせしめることによって基本的な
音の高低変化曲線から情報を直接引き出すことは一般に
実現不可能である。
【0006】さらに、単語の強勢は文の内容に依存す
る。米国特許第5,220,639号の特許明細書に
は、基本的な音の高低変化を用いることによって、5つ
の音の高低変化に対する隠れたマルコフモデル(Hidden
Markov model) を確立すること、そして、音の高低変化
の情報の助けによって識別されうるにすぎない音節の認
識のために統計的な抑揚を用いることが記載されてい
る。この米国特許明細書には、隠れたマルコフ法を用い
ることによって個々の音節を認識するために、一連の音
節が、音節の個々の認識、マルコフの音の高低変化およ
び認識された各部分の組み合わせによっていかにして認
識されるのかが記載されている。認識された個々の音節
は、その後、対応する漢字を決定するべく言語デコーダ
においてマルコフ中国語モデルによって用いられる。特
に、音の高低の周波数検出器が未知の音声信号の音の高
低の周波数に関係する特性を検出するために使用され、
検出された特性は、音の高低認識装置に含まれたパーソ
ナルコンピュータに送られる。そして、このパーソナル
コンピュータによって、5つの異なる音の高低の隠れた
マルコフモデル確立が計算される。本質的には、音声信
号がライブラリーと比較され、個々の音節における異な
る強勢の確立が計算される。このシステムの価値は、多
音節語を特徴とする言語においては限られたものとな
る。さらには、このシステムによれば、異なる単語およ
び強勢の大きなライブラリーが形成されなければなら
ず、また、各分析毎にこのライブラリーにアクセスされ
なければならない。実際、このシステムは中国の特定の
地方に対してだけでなく、メッセージをシステムにアド
レスする特定の人間に対しても適応せしめられている。
したがって、各ユーザーは自己の音声によってシステム
をトレーニングさせなればならない。加えて、このシス
テムはそれぞれの言語毎に変更せしめられなければなら
ない。それ故、このシステムの応用範囲は非常に限られ
てしまう。
【0007】テレックス装置を用いる音声情報伝送は、
米国特許第4,489,433号の特許明細書に記載さ
れている。米国特許第4,489,433号に係る発明
においては、音声は、伝送された後読み取り可能な文字
メッセージに変換され、主として日本語への適用が意図
されている。日本語のアクセントは音の高低のアクセン
トであり、音の高低の周波数が突然に低周波数側に変化
した瞬間における音節間の位置の関数として識別され得
る。単語アクセントコードが、一般に単語の特定の音節
におけるアクセントによって引き起こされる音の高低の
周波数および基本的な音の高低の周波数における突然の
変化を表す。米国特許第4,489,433号に係る発
明は、異なる単語のアクセントに対する多数の記憶され
たテンプレートを用いることに基礎をおいており、一連
のパルスを、藤崎モデルが入力信号に適合せしめられる
ように適合せしめるコンパレータを使用する(図7を参
照されたい)。そのとき、パルスの大きさおよび位置は
アクセントを意味する。このモデルは、パルスが喉頭の
筋肉におけるEMG(筋電図的)活動に対応するという
アイデアに基づいている。記憶されたテンプレートから
基本的な音の高低曲線を生成することは不可能である。
なぜなら、単語のアクセントは文の内容に依存して変化
するからである。さらには、基本的な音の高低曲線は不
連続であるという事実を全く考慮に入れることができな
い。
【0008】音声認識において、話されたシーケンスを
簡単かつ迅速に、正確に認識しうる方法を見いだすこと
が望ましい。これに関連する1つの問題は、発音が同じ
単語を認識し、これらを識別することである。別の問題
は、文の強勢を識別することである。同一の単語を用い
て構成されているが異なる強勢をもった文は、種々の言
語において異なった意味をもち得る。さらに別の問題
は、方法が当該話者に対して適応せしめられる必要がな
く、方法がいずれの話者によっても使用され得ることよ
うにすることである。
【0009】米国特許第5,220,639号の特許明
細書には、明細書中に記載されたシステムが、メッセー
ジをシステムに対してアドレスするユーザーに対して適
応せしめられていることが記載されている。システムを
利用するユーザーはそれぞれ、自己の音声を用いてシス
テムをトレーニングせしめなければならない。米国特許
第5,220,639号に係る発明は、中国の特定の地
方に対してのみ適応せしめられている。この発明が他の
言語に適用せしめられる場合には、モデルはそれぞれの
言語に対して変更せしめられねばならない。
【0010】したがって、一般に種々の言語に適用可能
な方法を見い出すことが要請されている。適用言語に依
存しない方法は、米国特許第5,220,639号の特
許明細書中に開示されておらず、示唆もされていない。
上述のように、米国特許第4,489,433号は、テ
レックス装置を用いた音声情報伝送に関するものである
が、日本語の音声認識にのみ関係しており、基本的な音
の高低曲線が不連続であるという事実が全く考慮されて
いない。上述のように、無声音においてはいかなる音の
高低も存在しない。すなわち、基準パターンにマッチン
グせしめることによって基本的な音の高低曲線から情報
を直接引き出すことは一般に不可能である。なぜなら、
基本的な音の高低曲線は、一般にそれに続く一定の無声
休止によって著しく混乱せしめられるからである。
【0011】加えて、単語のアクセントは文の内容に大
きく依存する。上述のような解決法において適用され得
る一般化された方法を案出することは困難である。
【0012】本発明の課題は、簡単かつ迅速に音声を認
識する手段として音声のイントネーションパターン、す
なわち抑揚、または音の高低を用いて、音声をテキスト
に変換するための方法および装置を提供することによっ
て上に概説した問題を解決することにある。
【0013】
【発明の要約】上記の課題を解決すべく、本発明によれ
ば、音声をテキストに変換するための方法であって、テ
キストに変換すべき入力音声のセグメントから多数個の
音素を識別するステップと、音素を可能な単語または単
語の組み合わせとして解釈することによって音声モデル
を確立するステップと、音声モデルの基本的な音の高低
変化のイントネーションパターンを決定することによっ
て基本的な音の高低変化の最大値および最小値と、最大
値および最小値のそれぞれの位置を決定するステップ
と、入力音声の基本的な音の高低変化を決定するステッ
プと、入力音声の基本的な音の高低変化のイントネーシ
ョンパターンを決定することによって基本的な音の高低
変化の最大値および最小値と、最大値および最小値のそ
れぞれの位置を決定するステップと、入力音声のイント
ネーションパターンと音声モデルのイントネーションパ
ターンとを比較することによって、入力音声の対応する
単語および/または単語の組み合わせのイントネーショ
ンパターンに最もよく一致するイントネーションパター
ンをもつ音声モデルの単語および/または単語の組み合
わせを識別するステップと、入力音声に最もよく一致す
る単語または単語の組み合わせの表現を与えるステップ
とからなることを特徴とする方法が構成される。音声モ
デルから形成された単語および/または単語の組み合わ
せの表現は、関係するテキストのプリントアウトの形式
によって与えられる。入力音声からの多数個の音素の識
別は隠れたマルコフモデルを用いることによってなされ
る。
【0014】好ましくは、識別された音素は組み合わせ
られて異音列を形成し、確立された音声モデルは単語の
異なる音または音の組み合わせ、および無声音部分を含
んでいる。
【0015】好ましくは、音声モデルにおける単語は語
義的にチェックされ、音声モデルにおける句は構文的に
チェックされ、言語として成り立たない単語および句は
音声モデルから排除される。また好ましくは、音声モデ
ルにおける単語の綴りおよび発音記号がチェックされ
る。
【0016】本発明による方法は、発音は同じであるが
異なった音の強勢をもった単語の意味を識別し、意味が
文の強勢に依存して変化する句を識別するように適合せ
しめられていることが好ましい。
【0017】さらに、本発明による方法は、トレーニン
グなしに種々の言語において生じる音素を識別し、特定
の言語において存在しない音素を排除するように適合せ
しめられていることが好ましい。
【0018】上記の課題を解決すべく、さらに本発明に
よれば、音声をテキストに変換するための装置であっ
て、テキストに変換すべき入力音声のセグメントから多
数個の音素を識別する音声認識手段と、音素を可能な単
語または単語の組み合わせとして解釈することによって
音声モデルを確立する単語解釈手段と、音声モデルの基
本的な音の高低変化のイントネーションパターンを決定
することによって基本的な音の高低変化の最大値および
最小値と、最大値および最小値のそれぞれの位置を決定
する第1分析手段と、入力音声から基本的な音の高低変
化を抽出する抽出手段と、入力音声の基本的な音の高低
変化のイントネーションパターンを決定することによっ
て基本的な音の高低変化の最大値および最小値と、最大
値および最小値のそれぞれの位置を決定する第2分析手
段と、入力音声のイントネーションパターンと音声モデ
ルのイントネーションパターンとを比較することによっ
て、入力音声の対応する単語および/または単語の組み
合わせのイントネーションパターンに最もよく一致する
イントネーションパターンをもつ音声モデルの単語およ
び/または単語の組み合わせを識別する比較手段と、入
力音声に最もよく対応する単語および/または単語の組
み合わせの表現を選択し、与えるテキスト選択手段を有
することを特徴とする装置が構成される。テキスト選択
手段は、好ましくは、入力音声に最もよく一致する単語
および/または単語の組み合わせをプリントアウトする
ためのプリンタを有している。入力音声から多数個の音
素を識別することは、隠れたマルコフモデルを用いてな
されることが好ましい。
【0019】好ましくは、音声認識手段によって識別さ
れた音素は、音声認識手段によって組み合わせられて異
音列を形成し、単語解釈手段によって確立された音声モ
デルは単語の異なる音または音の組み合わせ、および無
声音部分を含んでいる。
【0020】本発明による音声をテキストに変換するた
めの装置は、また、音声モデルにおける単語を語義的に
チェックし、音声モデルにおける句を構文的にチェック
し、言語として成り立たない単語および句を前記音声モ
デルから排除するチェック手段を有していることが好ま
しい。チェック手段は音声モデルにおける単語の綴りお
よび発音記号をチェックするものであることが好まし
い。
【0021】さらに好ましくは、本発明による装置の比
較手段は、発音は同じであるが異なる強勢をもつ単語の
意味を識別し、また、意味が文の強勢に依存して変化す
る句を識別すべく適合せしめられている。
【0022】さらに好ましくは、本発明による装置の音
声認識手段は、トレーニングなしに、種々の言語におい
て生じる音素を識別することによって特定の言語におい
て存在しない音素を排除するべく適合せしめられてい
る。
【0023】さらに本発明によれば、上述した音声をテ
キストに変換するための装置を含み、または上述した音
声をテキストに変換するための方法に従って作動する話
された単語に応答するシステムが構成される。このシス
テムは、好ましくは、話された単語からテキスト情報を
生成するための音声応答単語処理ユニットを有してい
る。また、このシステムは、好ましくは、通信システ
ム、あるいは通信システムの一部をなしている。このシ
ステムは、例えば、音声応答テレックス装置を有してい
る。
【0024】本発明による方法および装置によれば、異
なる単語の意味を強勢の関数として識別することができ
る。さらには、本発明による方法および装置によれば、
文の意味を文の強勢の関数として識別することができ
る。基本的な音の高低の情報が本発明による方法および
装置によって用いられる方法は、これまでに開示されて
はいない。基本的な音の高低の情報を用いることによっ
て、一方で当該言語には存在せず、他方でテキストに変
換されるべき入力音声のセグメントにおいて現れた強勢
に一致しない単語および句を排除することが可能とな
る。これによって音声を正確に一義的に認識することが
可能となる。音声認識手段による異なる音素の識別は、
音声モデルに対する可能な単語および句の構造の識別を
容易にする。この情報は、その後、語義的および構文的
な基準、入力音声において可能な単語および句を見つけ
出すために用いられる。本発明によれば、発音は同じで
あるが異なった音の強勢をもった多数の単語および句を
記憶する必要なく、異なる単語および句を強勢の位置の
関数として識別される。すなわち、本発明によれば、単
語および句の実際の意味を識別する可能性が著しく増大
する。また、本発明によれば、従来技術と比較して、著
しく短時間で単語および句を識別することができる。加
えて、発明によれば、音声をより正確に識別することが
でき、また、望ましくない結果を引き起こし得る誤訳の
危険性を著しく減少せしめることができる。
【0025】本発明による方法および装置は、また、通
常の(正常な)音声を受けるように適合せしめられてお
り、例えば、米国特許第5,220,639号が適用さ
れる場合のように、音節が個々に発音されることを必要
としない。
【0026】従来のシステム、例えば、米国特許第5,
220,639号によるシステムにおいては、多数個の
単語がシステム内にプログラムされている。このシステ
ムはまた、情報をシステムに入力することが予定される
多数の話者に適合せしめられている。これに対して、本
発明によれば、不特定の話者がランダムに音声情報を入
力することができ、システムは関係する人間に適合せし
められる必要がない。また本発明による方法および装置
によれば、種々の言語において存在する知られた音素の
すべてに対してプログラムされ得る。また、特定の言語
において存在しない音素は排除され得る。これは、本発
明がかなり広範囲にわたって適用可能であることを意味
する。
【0027】例えば、米国特許第5,220,639号
に係る発明によれば、多数の統計的モデルがプログラム
されており、これらのモデルは音声と比較されて、ポン
製に最もよく一致するモデルが選択される。すなわち、
この形式の従来のシステムは、本発明によるシステムと
は異なり、単語または文の強勢を考慮しない。したがっ
て、従来のシステムによれば単語および句の誤訳が生じ
るおそれがある。
【0028】
【実施例】以下、添付図面を参照しながら本発明の好ま
しい実施例につき説明する。図2は、本発明による音声
をテキストに変換するための装置の構成の概要を説明す
る簡単なブロック図である。図2において、テキストに
変換されるべき入力音声のセグメントが、第1ユニット
Aの入力に適用される。入力音声のセグメントはまた第
2ユニットBの入力にも接続されている。第1ユニット
Aの出力は、第2ユニットBの別の入力に接続されてい
る。第2ユニットBの出力は入力音声に対応するテキス
トであり、すなわち本発明によれば、入力音声の対応す
る単語およびそれらの組み合わせのイントネーションパ
ターンに最もよく一致するイントネーションパターンを
有する音声モデルが、後述する方法で、第2ユニットB
からテキストの形式でプリントアウトされる。
【0029】第1ユニットAの入力に適用された入力音
声のセグメントは、多数個の音素として認識される。ユ
ニットAはこれらの音素を可能な単語およびそれらの組
み合わせとして解釈することによって音声のモデルを確
立するように適合せしめられている。音声モデルの基本
的な音の高低のイントネーションパターン、そしてそれ
によって基本的な音の高低の最大値および最小値、並び
にこれら最大値および最小値のそれぞれの位置が決定さ
れる。入力音声の基本的な音の高低のイントネーション
パターン、そしてそれによって基本的な音の高低の最大
値および最小値、並びにこれら最大値および最小値のそ
れぞれの位置が第2ユニットBによって抽出される。抽
出された入力音声のイントネーションパターンは音声モ
デルのイントネーションパターンと比較される。そし
て、入力音声のイントネーションパターンに対応しない
音声モデルの単語およびそれらの組み合わせ、並びに文
が音声モデルから排除される。単語の解釈がまたユニッ
トAによって実行される。本質的に、ユニットAによっ
て実行される単語の解釈の過程において、音素および/
または発音されなかった音素のどれかが判読される。こ
の単語解釈過程の結果は、音声モデルの多数の可能な解
釈となる。音声モデルを形成する可能な単語がまた、単
語解釈過程において、綴り字法および発音記号への書換
えを備えた辞書によってチェックされる。当該言語には
存在しない単語は排除される。音声モデルを形成する可
能な句および文の構文、すなわち文法的構造がまたチェ
ックされ、当該言語の原則と矛盾する句および文を排除
する。さらには、強勢とは関係のない単語および句の意
味が第2ユニットBによって決定される。最後に、第2
ユニットBは、プリントアウトの形式で、入力音声に一
致するテキストを生成する。
【0030】図1は、上で図2を参照して概説した音声
からテキストへの変換装置の構成をより詳細に説明した
ブロック図である。図1において、テキストに変換され
るべき入力音声のセグメントが、音声認識ユニット1お
よび抽出ユニット5に対してパラレルに適用される。そ
して、これらのユニットにおいて入力音声の基本的な音
の高低が抽出される。音声認識ユニット1は、例えば、
隠れたマルコフモデルまたは等価モデル(equivalent mo
del)を用いることによって周知の方法で作動し、入力音
声から多数個の音素を識別する。そして、識別された音
素は組み合わせられて異音列、すなわち、同一の音素の
2つまたはそれ以上の発声学的および音響学的に異なる
形式のうちの1つを形成する。異音列は、音声認識ユニ
ット1から出力された後、単語解釈ユニット2の入力に
適用される。単語解釈ユニット2において、音素は入力
音声の単語モデルの確立に対して可能な単語またはそれ
らの組み合わせとして解釈される。可能な単語およびそ
れらの組み合わせ、すなわち句は、綴り字法および発音
記号への書換えを備えた辞書3に適用される。そしてこ
こで、単語は語義的にチェックされる。当該言語には存
在しない可能な単語はすべて排除される。この過程によ
って確立され、単語の異なる発音またはそれらの組み合
わせ、並びに無声音部分から形成された音声の単語モデ
ルは、音声認識ユニット1および分析ユニット9に適用
される。分析ユニット9はモデルの基本的な音の高低の
イントネーションパターン、そしてそれによって基本的
な音の高低の最大値および最小値、並びにこれら最大値
および最小値のそれぞれの位置を決定すべく適合せしめ
られている。基本的な音の高低の最大値および最小値、
並びにこれら最大値および最小値のそれぞれの位置は、
それからモデルが形成される可能な単語のイントネーシ
ョンの記述を与える。語義的に生成された情報から分析
ユニット9によって形成された単語レベルイントネーシ
ョンパターンは、分析ユニット9の単語レベル部9’を
経てコンパレータユニット7に適用される。
【0031】音声認識ユニット1は、辞書3によってそ
れに適用された単語モデルから、1つまたはそれ以上の
当該単語が入力音声の対応する音に一致するかどうかを
決定する。
【0032】抽出ユニット5によって入力音声から抽出
された基本的な音の高低は、分析ユニット6に適用され
る。単語解釈ユニット2に適用された音声認識ユニット
1の出力、すなわち異音列はまた分析ユニット6にも適
用される。分析ユニット6は入力音声の基本的な音の高
低のイントネーションパターン、そしてそれによって基
本的な音の高低の最大値および最小値、並びにこれら最
大値および最小値のそれぞれの位置を決定すべく適合せ
しめられている。音声認識ユニット1の出力を分析ユニ
ット6に適用することによって、イントネーションパタ
ーンの最大値および最小値の異音列における位置が決定
され得る。上述のように、基本的な音の高低の最大値お
よび最小値、並びにそれら最大値および最小値のそれぞ
れの位置は、入力音声の単語および句のイントネーショ
ンの記述を与える。この記述は、図1に示したように、
コンパレータユニット7およびコンパレータユニット8
に適用される。
【0033】コンパレータユニット7は、入力音声のイ
ントネーションパターンと単語モデルのイントネーショ
ンパターンとの間において、単語レベルでの比較を行う
べく適合せしめられている。入力音声のイントネーショ
ンパターンに一致しないイントネーションパターンをも
つモデルの単語は排除される。この排除がなされたこと
は単語解釈ユニット2に報告され、単語解釈ユニット2
は、その後、辞書3と協同して残りの単語について単語
解釈を続行し、これらの単語を組み合わせて句を形成す
る。
【0034】この過程によって生じる、すなわち辞書3
から出力される句モデルは、構文分析ユニット4によっ
てチェックされる。その構文が当該言語に一致しない句
モデルは、この構文チェックの間に排除される。排除さ
れた句に関する情報は辞書3にフィードバックされる。
辞書3は、この情報を受け取ると、次の処理のために構
文分析ユニット4に対して新たな句モデル案を送る。本
質的に当該言語において可能な句、すなわち構文分析ユ
ニット4によって受入れ可能であると判定された句は分
析ユニット9に送られ、そしてここで、基本的な音の高
低曲線のイントネーションパターンの記述、すなわち、
その曲線の最大値および最小値、並びにそれら最大値お
よび最小値のそれぞれの位置が得られる。イントネーシ
ョンパターンの記述は、分析ユニット9に送られ、そし
てそこから分析ユニット9の句レベル部9”を経てコン
パレータユニット8に送られる。
【0035】コンパレータユニット8は、句モデルの文
強勢を、入力音声の基本的な音の高低において検出され
た強勢と比較する。入力音声のイントネーションパター
ンに一致しないイントネーションパターンをもつ句モデ
ルは排除される。排除された句に関する情報はコンパレ
ータユニット8からテキスト選択ユニット10に送られ
る。テキスト選択ユニット10の入力は単語解釈ユニッ
ト2の出力に接続されている。すなわち、単語解釈ユニ
ット2から出力されたテキスト列は、テキスト選択ユニ
ット10に適用される。図1に示したように、構文分析
ユニット4によって生成されたテキスト列もまたテキス
ト選択ユニット10に適用される。
【0036】テキスト選択ユニット10は単語解釈ユニ
ット2からのテキスト列を構文分析ユニット4によって
生成されたテキスト列を比較する。この過程の結果、入
力音声に一致するテキストが生成されてテキスト選択ユ
ニット10から出力される。
【0037】こうして、テキスト選択ユニット10の出
力は、入力音声の対応する単語およびそれらの組み合わ
せのイントネーションパターンに最もよく一致するイン
トネーションパターンをもつ音声モデルとなる。テキス
ト選択ユニット10の音声モデルの出力は、好ましく
は、それらから音声モデルが形成される単語およびそれ
らの組み合わせのプリントアウトの形式でなされる。テ
キスト選択ユニット10の出力は、別の形式、例えば、
単語およびそれらの組み合わせのビジュアルディスプレ
イの形式でも行われ得る。
【0038】本発明による音声をテキストに変換するた
めの方法および装置は、簡単かつ迅速に音声を認識する
手段として、基本的な音の高低の最大値および最小値、
並びにそれら最大値および最小値のそれぞれの位置、す
なわちイントネーションパターンを用いるものであり、
従来の音声認識の技術において重要な発展をもたらすも
のである。従来技術は、音声を認識する手段として言語
のイントネーションパターンを用いることを開示してい
ないし、示唆もしていない。
【0039】イントネーションパターンを音声認識過程
において用いることは、種々の単語および文の意味が強
勢の関数として識別され得るという長所を有している。
これは重要なことである。なぜなら、種々の言語におい
て、同一の単語によって構成されるが異なる強勢をもつ
文は異なる意味をもち得るからである。上述のように、
これまでに当業者によって開示されていない基本的な音
の高低の情報を用いることにより、簡単、迅速かつ効率
的に音声の正確な識別を行うことが可能となる。従来技
術と本発明との別の重要な差異は、本発明による音声を
テキストに変換するための方法および装置が特定の話者
に対して適合せしめられる必要がなく、よって、特別の
トレーニングなしにすべての話者に対して使用され得る
ということにある。さらに、本発明は、種々の言語にお
いて現れる既知の音素のすべてに対してプログラムさ
れ、特定の言語に存在しない音素を特に排除する。本発
明はその適用において非常にフレキシブルである。本発
明と従来技術との間のこれらの差異は、実用上において
も技術的にも重要であり、そしてそれ故、音声をテキス
トに変換することに使用された時に著しい効果をもたら
す。
【0040】本発明が種々の言語において適用され、音
声を、簡単、迅速かつ効率的に正確に識別し、テキスト
に変換することを可能にするという事実は、音声をテキ
ストに変換する周知のシステムに関する技術的かつ商業
的重要性を増大せしめる。
【0041】本発明が広範囲にわたって使用され得ると
いうことは、当業者にとって自明であろう。特に、本発
明は、話された単語に応答するシステム、例えば、通信
システムあるいは音声応答コンピュータシステムにおい
て適用され得る。
【0042】通信の分野において、音声応答システム
は、通信システム、例えば、音声応答テレックス装置の
少なくとも一部を構成しており、そしてこの場合、話さ
れた単語は意図された受取人に伝送すべく対応するテキ
ストに翻訳される。
【0043】話された命令に応答する音声応答コンピュ
ータシステム、例えば、ワードプロセッサーにおいて、
音声認識システムによって生成されたテキストは多数の
アプリケーション、とりわけ、レポートまたはテキスト
メッセージの形成、あるいは言語変換技術を用いた別の
言語への翻訳に対して使用されうる。本発明はまた、教
育システムまたは言語トレーニングシステムに対しても
適用され得る。
【0044】本発明は、これらの実施例に限定されるも
のではなく、特許請求の範囲に記載した事項の範囲内に
おいて種々の変形例を案出することができることは言う
までもない。
【図面の簡単な説明】
【図1】本発明による音声をテキストに変換するための
装置の構成を説明するブロック図である。
【図2】本発明による音声をテキストに変換するための
装置の構成の概要を説明する簡単なブロック図である。
【符号の説明】
1 音声認識ユニット 2 単語解釈ユニット 3 辞書 4 構文分析ユニット 5 抽出ユニット 6 分析ユニット 7 コンパレータユニット 8 コンパレータユニット 9 分析ユニット 10 テキスト選択ユニット A 第1ユニット B 第2ユニット

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 音声をテキストに変換するための方法で
    あって、 テキストに変換すべき入力音声のセグメントから多数個
    の音素を識別するステップと、 前記音素を可能な単語または単語の組み合わせとして解
    釈することによって音声モデルを確立するステップと、 前記音声モデルの基本的な音の高低変化のイントネーシ
    ョンパターンを決定することによって前記基本的な音の
    高低変化の最大値および最小値と、前記最大値および最
    小値のそれぞれの位置を決定するステップと、 前記入力音声の基本的な音の高低変化を決定するステッ
    プと、 前記入力音声の基本的な音の高低変化のイントネーショ
    ンパターンを決定することによって前記基本的な音の高
    低変化の最大値および最小値と、前記最大値および最小
    値のそれぞれの位置を決定するステップと、 前記入力音声の前記イントネーションパターンと前記音
    声モデルの前記イントネーションパターンとを比較する
    ことによって、前記入力音声の対応する単語および/ま
    たは単語の組み合わせのイントネーションパターンに最
    もよく一致するイントネーションパターンをもつ前記音
    声モデルの単語および/または単語の組み合わせを識別
    するステップと、 前記入力音声に最もよく一致する単語または単語の組み
    合わせの表現を与えるステップとからなることを特徴と
    する方法。
  2. 【請求項2】 それによって前記音声モデルが形成され
    る前記単語および/または単語の組み合わせの前記表現
    が、プリントアウトの形式で与えられることを特徴とす
    る請求項1に記載の方法。
  3. 【請求項3】 前記識別された音素は組み合わせられて
    異音列を形成し、前記確立された音声モデルは単語の異
    なる音または音の組み合わせ、および無声音部分を含ん
    でいることを特徴とする請求項1または請求項2に記載
    の方法。
  4. 【請求項4】 前記識別された音素は組み合わせられて
    異音列を形成し、前記異音列から音声モデルが確立さ
    れ、前記音声モデルにおける単語は語義的にチェックさ
    れ、前記音声モデルにおける句は構文的にチェックさ
    れ、言語として成り立たない単語および句は前記音声モ
    デルから排除されることを特徴とする請求項1〜請求項
    3のいずれかに記載の方法。
  5. 【請求項5】 前記音声モデルにおける単語の綴りおよ
    び発音記号がチェックされることを特徴とする請求項4
    に記載の方法。
  6. 【請求項6】 発音は同じであるが異なった音の強勢を
    もった単語の意味を識別し、意味が文の強勢に依存して
    変化する句を識別するように適合せしめられていること
    を特徴とする請求項1〜請求項5のいずれかに記載の方
    法。
  7. 【請求項7】 トレーニングなしに種々の言語において
    生じる音素を識別し、特定の言語において存在しない音
    素を排除するように適合せしめられていることを特徴と
    する請求項1〜請求項6のいずれかに記載の方法。
  8. 【請求項8】 前記入力音声から多数個の音素を識別す
    るステップは、隠れたマルコフモデルを用いることによ
    って実行されることを特徴とする請求項1〜請求項7の
    いずれかに記載の方法。
  9. 【請求項9】 音声をテキストに変換するための装置で
    あって、 テキストに変換すべき入力音声のセグメントから多数個
    の音素を識別する音声認識手段と、 前記音素を可能な単語または単語の組み合わせとして解
    釈することによって音声モデルを確立する単語解釈手段
    と、 前記音声モデルの基本的な音の高低変化のイントネーシ
    ョンパターンを決定することによって前記基本的な音の
    高低変化の最大値および最小値と、前記最大値および最
    小値のそれぞれの位置を決定する第1分析手段と、 前記入力音声から基本的な音の高低変化を抽出する抽出
    手段と、 前記入力音声の基本的な音の高低変化のイントネーショ
    ンパターンを決定することによって前記基本的な音の高
    低変化の最大値および最小値と、前記最大値および最小
    値のそれぞれの位置を決定する第2分析手段と、 前記入力音声の前記イントネーションパターンと前記音
    声モデルの前記イントネーションパターンとを比較する
    ことによって、前記入力音声の対応する単語および/ま
    たは単語の組み合わせのイントネーションパターンに最
    もよく一致するイントネーションパターンをもつ前記音
    声モデルの単語および/または単語の組み合わせを識別
    する比較手段と、 前記入力音声に最もよく対応する単語および/または単
    語の組み合わせの表現を選択し、与えるテキスト選択手
    段を有することを特徴とする装置。
  10. 【請求項10】 前記テキスト選択手段は、前記入力音
    声に最もよく一致する単語および/または単語の組み合
    わせをプリントアウトするためのプリンタを有している
    ことを特徴とする請求項9に記載の装置。
  11. 【請求項11】 前記音声認識手段によって識別された
    前記音素は、前記音声認識手段によって組み合わせられ
    て異音列を形成し、前記単語解釈手段によって確立され
    た前記音声モデルは単語の異なる音または音の組み合わ
    せ、および無声音部分を含んでいることを特徴とする請
    求項9または請求項10に記載の装置。
  12. 【請求項12】 前記音声モデルにおける単語を語義的
    にチェックし、前記音声モデルにおける句を構文的にチ
    ェックし、言語として成り立たない単語および句を前記
    音声モデルから排除するチェック手段を有していること
    を特徴とする請求項9〜請求項11のいずれかに記載の
    装置。
  13. 【請求項13】 前記チェック手段は前記音声モデルに
    おける単語の綴りおよび発音記号をチェックすることを
    特徴とする請求項12に記載の装置。
  14. 【請求項14】 前記比較手段は、発音は同じであるが
    異なる強勢をもつ単語の意味を識別し、また、意味が文
    の強勢に依存して変化する句を識別すべく適合せしめら
    れていることを特徴とする請求項9〜請求項13のいず
    れかに記載の装置。
  15. 【請求項15】 前記音声認識手段は、トレーニングな
    しに、種々の言語において生じる音素を識別することに
    よって特定の言語において存在しない音素を排除するべ
    く適合せしめられていることを特徴とする請求項9〜請
    求項14のいずれかに記載の装置。
  16. 【請求項16】 前記入力音声から多数個の音素を識別
    することが、隠れたマルコフモデルを用いることによっ
    てなされることを特徴とする請求項9〜請求項15のい
    ずれかに記載の装置。
  17. 【請求項17】 請求項9〜請求項16のいずれかに記
    載の装置を含み、または請求項1〜請求項8のいずれか
    に記載の方法に従って作動する話された単語に応答する
    システム。
  18. 【請求項18】 話された単語からテキスト情報を生成
    するための音声応答単語処理ユニットを有していること
    を特徴とする請求項17に記載のシステム。
  19. 【請求項19】 通信システム、あるいは前記通信シス
    テムの一部をなしていることを特徴とする請求項17に
    記載のシステム。
  20. 【請求項20】 音声応答テレックス装置を有している
    ことを特徴とする請求項19に記載のシステム。
JP7137215A 1994-05-10 1995-05-10 音声をテキストに変換するための方法および装置 Pending JPH0850498A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SE9401613A SE513456C2 (sv) 1994-05-10 1994-05-10 Metod och anordning vid tal- till textomvandling
SE9401613-6 1994-05-10

Publications (1)

Publication Number Publication Date
JPH0850498A true JPH0850498A (ja) 1996-02-20

Family

ID=20393956

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7137215A Pending JPH0850498A (ja) 1994-05-10 1995-05-10 音声をテキストに変換するための方法および装置

Country Status (6)

Country Link
US (1) US5752227A (ja)
EP (1) EP0683483B1 (ja)
JP (1) JPH0850498A (ja)
DE (1) DE69519328T2 (ja)
ES (1) ES2153021T3 (ja)
SE (1) SE513456C2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005326677A (ja) * 2004-05-14 2005-11-24 Toshiba Tec Corp 音声メモプリンタ
JP2006039342A (ja) * 2004-07-29 2006-02-09 Toshiba Tec Corp 音声メモプリンタ
KR101100191B1 (ko) * 2005-01-28 2011-12-28 엘지전자 주식회사 멀티미디어 재생장치와 이를 이용한 멀티미디어 자료검색방법

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE516526C2 (sv) * 1993-11-03 2002-01-22 Telia Ab Metod och anordning vid automatisk extrahering av prosodisk information
US6067520A (en) * 1995-12-29 2000-05-23 Lee And Li System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
CA2269778A1 (en) * 1996-09-16 1998-03-19 Advanced Research Solutions, Llc Data correlation and analysis tool
JPH10162065A (ja) * 1996-11-28 1998-06-19 Hitachi Ltd 配送管理システム
DE19721008A1 (de) * 1997-05-20 1998-11-26 Hanjo Dr Kreitz Sprechschreibmaschine
US6490561B1 (en) * 1997-06-25 2002-12-03 Dennis L. Wilson Continuous speech voice transcription
US6064957A (en) * 1997-08-15 2000-05-16 General Electric Company Improving speech recognition through text-based linguistic post-processing
US6603835B2 (en) 1997-09-08 2003-08-05 Ultratec, Inc. System for text assisted telephony
US6219641B1 (en) * 1997-12-09 2001-04-17 Michael V. Socaciu System and method of transmitting speech at low line rates
US6157905A (en) * 1997-12-11 2000-12-05 Microsoft Corporation Identifying language and character set of data representing text
US6754631B1 (en) 1998-11-04 2004-06-22 Gateway, Inc. Recording meeting minutes based upon speech recognition
DE19857070A1 (de) * 1998-12-10 2000-06-15 Michael Mende Verfahren und Vorrichtung zur Ermittlung einer orthographischen Wiedergabe eines Textes
JP2000196730A (ja) * 1998-12-25 2000-07-14 Nec Saitama Ltd 無線通信機
CA2366057C (en) 1999-03-05 2009-03-24 Canon Kabushiki Kaisha Database annotation and retrieval
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US7212968B1 (en) * 1999-10-28 2007-05-01 Canon Kabushiki Kaisha Pattern matching method and apparatus
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
US6789060B1 (en) * 1999-11-01 2004-09-07 Gene J. Wolfe Network based speech transcription that maintains dynamic templates
JP2001166789A (ja) * 1999-12-10 2001-06-22 Matsushita Electric Ind Co Ltd 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
US20060074664A1 (en) * 2000-01-10 2006-04-06 Lam Kwok L System and method for utterance verification of chinese long and short keywords
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
US7075671B1 (en) * 2000-09-14 2006-07-11 International Business Machines Corp. System and method for providing a printing capability for a transcription service or multimedia presentation
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
GB0027178D0 (en) * 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) * 2000-11-20 2001-01-03 Canon Kk Speech processing system
US8416925B2 (en) 2005-06-29 2013-04-09 Ultratec, Inc. Device independent text captioned telephone service
US20030050777A1 (en) * 2001-09-07 2003-03-13 Walker William Donald System and method for automatic transcription of conversations
WO2003025904A1 (en) * 2001-09-17 2003-03-27 Koninklijke Philips Electronics N.V. Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
US7286987B2 (en) * 2002-06-28 2007-10-23 Conceptual Speech Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
US7614880B2 (en) * 2002-10-03 2009-11-10 James Bennett Method and apparatus for a phoneme playback system for enhancing language learning skills
US7412392B1 (en) 2003-04-14 2008-08-12 Sprint Communications Company L.P. Conference multi-tasking system and method
US7275032B2 (en) 2003-04-25 2007-09-25 Bvoice Corporation Telephone call handling center where operators utilize synthesized voices generated or modified to exhibit or omit prescribed speech characteristics
JP4713111B2 (ja) * 2003-09-19 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法
US8515024B2 (en) 2010-01-13 2013-08-20 Ultratec, Inc. Captioned telephone service
US20050221142A1 (en) * 2004-03-23 2005-10-06 Narayanan Sekharipuram R Composite polymer electrolytes based on organosilica hybrid proton conductors for fuel cells
US20060092291A1 (en) * 2004-10-28 2006-05-04 Bodie Jeffrey C Digital imaging system
US11258900B2 (en) 2005-06-29 2022-02-22 Ultratec, Inc. Device independent text captioned telephone service
WO2007129316A2 (en) 2006-05-07 2007-11-15 Varcode Ltd. A system and method for improved quality management in a product logistic chain
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
WO2008135962A2 (en) 2007-05-06 2008-11-13 Varcode Ltd. A system and method for quality management utilizing barcode indicators
CN101802812B (zh) 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
EP2218055B1 (en) 2007-11-14 2014-07-16 Varcode Ltd. A system and method for quality management utilizing barcode indicators
US8856003B2 (en) * 2008-04-30 2014-10-07 Motorola Solutions, Inc. Method for dual channel monitoring on a radio device
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
KR20120125310A (ko) * 2010-02-01 2012-11-14 진저 소프트웨어 인코퍼레이티드 특히 소형 키보드 디바이스를 위한 인터넷 코퍼스를 사용하는 자동 문맥 감응식 언어 교정
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
US20180034961A1 (en) 2014-02-28 2018-02-01 Ultratec, Inc. Semiautomated Relay Method and Apparatus
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US10878721B2 (en) 2014-02-28 2020-12-29 Ultratec, Inc. Semiautomated relay method and apparatus
CN107615027B (zh) 2015-05-18 2020-03-27 发可有限公司 用于可激活质量标签的热致变色墨水标记
WO2017006326A1 (en) 2015-07-07 2017-01-12 Varcode Ltd. Electronic quality indicator
US11539900B2 (en) 2020-02-21 2022-12-27 Ultratec, Inc. Caption modification and augmentation systems and methods for use by hearing assisted user
CN111862954B (zh) * 2020-05-29 2024-03-01 北京捷通华声科技股份有限公司 一种语音识别模型的获取方法及装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
JPS5919358B2 (ja) * 1978-12-11 1984-05-04 株式会社日立製作所 音声内容伝送方式
FR2547146B1 (fr) * 1983-06-02 1987-03-20 Texas Instruments France Procede et dispositif pour l'audition de messages parles synthetises et pour la visualisation de messages graphiques correspondants
US4695962A (en) * 1983-11-03 1987-09-22 Texas Instruments Incorporated Speaking apparatus having differing speech modes for word and phrase synthesis
US4802223A (en) * 1983-11-03 1989-01-31 Texas Instruments Incorporated Low data rate speech encoding employing syllable pitch patterns
US4797930A (en) * 1983-11-03 1989-01-10 Texas Instruments Incorporated constructed syllable pitch patterns from phonological linguistic unit string data
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
US4829580A (en) * 1986-03-26 1989-05-09 Telephone And Telegraph Company, At&T Bell Laboratories Text analysis system with letter sequence recognition and speech stress assignment arrangement
US5384701A (en) * 1986-10-03 1995-01-24 British Telecommunications Public Limited Company Language translation system
US4852170A (en) * 1986-12-18 1989-07-25 R & D Associates Real time computer speech recognition system
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US5146405A (en) * 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
SE500277C2 (sv) * 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
SE516526C2 (sv) * 1993-11-03 2002-01-22 Telia Ab Metod och anordning vid automatisk extrahering av prosodisk information

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005326677A (ja) * 2004-05-14 2005-11-24 Toshiba Tec Corp 音声メモプリンタ
JP2006039342A (ja) * 2004-07-29 2006-02-09 Toshiba Tec Corp 音声メモプリンタ
JP4544933B2 (ja) * 2004-07-29 2010-09-15 東芝テック株式会社 音声メモプリンタ
KR101100191B1 (ko) * 2005-01-28 2011-12-28 엘지전자 주식회사 멀티미디어 재생장치와 이를 이용한 멀티미디어 자료검색방법

Also Published As

Publication number Publication date
DE69519328D1 (de) 2000-12-14
US5752227A (en) 1998-05-12
EP0683483A3 (en) 1997-08-27
DE69519328T2 (de) 2001-05-23
SE9401613L (sv) 1995-11-11
SE513456C2 (sv) 2000-09-18
ES2153021T3 (es) 2001-02-16
EP0683483A2 (en) 1995-11-22
SE9401613D0 (sv) 1994-05-10
EP0683483B1 (en) 2000-11-08

Similar Documents

Publication Publication Date Title
US5752227A (en) Method and arrangement for speech to text conversion
Holmes Speech synthesis and recognition
Mary et al. Extraction and representation of prosodic features for language and speaker recognition
US5806033A (en) Syllable duration and pitch variation to determine accents and stresses for speech recognition
US10163436B1 (en) Training a speech processing system using spoken utterances
JP4536323B2 (ja) 音声−音声生成システムおよび方法
US7280968B2 (en) Synthetically generated speech responses including prosodic characteristics of speech inputs
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
CN111862954B (zh) 一种语音识别模型的获取方法及装置
JPH09500223A (ja) 多言語音声認識システム
US11302329B1 (en) Acoustic event detection
EP0767950B1 (en) Method and device for adapting a speech recognition equipment for dialectal variations in a language
KR20230056741A (ko) 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강
Chittaragi et al. Acoustic-phonetic feature based Kannada dialect identification from vowel sounds
Burileanu Basic research and implementation decisions for a text-to-speech synthesis system in Romanian
van Heuven et al. Quality evaluation of synthesized speech
EP0919052B1 (en) A method and a system for speech-to-speech conversion
EP0976026A1 (en) Improvements in, or relating to, speech-to-speech conversion
Akinwonmi Development of a prosodic read speech syllabic corpus of the Yoruba language
CN115424604B (zh) 一种基于对抗生成网络的语音合成模型的训练方法
KR102358087B1 (ko) 발달 장애인 음성 인식 점수 산출 장치 및 그 방법
JP6517417B1 (ja) 評価システム、音声認識装置、評価プログラム、及び音声認識プログラム
Vaissiere Speech recognition programs as models of speech perception
Hoge et al. Syllable-based acoustic-phonetic decoding and wordhypotheses generation in fluently spoken speech
Potisuk et al. Using stress to disambiguate spoken Thai sentences containing syntactic ambiguity

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050126

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050706