JPH0922297A

JPH0922297A - 音声‐テキスト変換のための方法および装置

Info

Publication number: JPH0922297A
Application number: JP8175484A
Authority: JP
Inventors: Bertil Lyberg; リュベルグベルティル
Original assignee: Telia AB
Current assignee: Telia AB
Priority date: 1995-06-16
Filing date: 1996-06-14
Publication date: 1997-01-21
Also published as: EP0749109A3; SE9502202L; NO962463L; DE69618503D1; EP0749109B1; SE9502202D0; NO316847B1; EP0749109A2; NO962463D0; US5806033A; SE514684C2; DK0749109T3; DE69618503T2

Abstract

(57)【要約】【課題】与えられた音声の正確な意味を識別するための
方法および装置を提供する。【解決手段】与えられた音声から基本トーンが抽出され
る。さらに、音声から音声モデルが生成される。そのモ
デルにおいて、単語および文章中の継続時間の再生が得
られる。継続時間の生成は、音声中の分節の継続時間と
比較される。その比較から、存在するアクセントの形式
を決定する情報が得られる。そして、文アクセント情報
を備えたテキストが生成される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声‐テキスト変
換に関するものである。特に、本発明は、与えられた音
声を分析し、これら音声中の異なるアクセント、並びに
ストレスのあるシラブルおよびストレスのないシラブル
に関する情報を得ることに関するものである。この情報
は、与えられた音声の解釈に際して重要である。

【０００２】

【従来の技術】たとえば、ＨＭＭ (Hidden Markov Mode
ls) を伴った現在使用されている音声認識システムにお
いては、基本トーンおよび継続時間に関する情報は、邪
魔なものとみなされている。文アクセントの形式および
ストレスのあるシラブルまたはストレスのないシラブル
に関する情報は、周知のアプリケーションにおいては統
計的な方法に基づいて処理されている。音声中における
アクセントのつけ方によって得られた情報は、そのとき
識別され得ない。

【０００３】特許文献ＵＳ５２２０６３９には、標準中
国語の音声認識についての記載がなされている。隠れた
マルコフモデルの使用の下に、単一シラブルのシーケン
スが、シラブルおよび標準トーンを独立に認識し、認識
された部分を集めることによって認識され、それによっ
て単一シラブルが認識される。認識された単一シラブル
は、言語デコーダ部において、マルコフ中国語モデルに
よって使用され、対応する中国文字が決定される。トー
ンピッチ周波数検出器が用いられる。トーンピッチ周波
数検出器は、未知のシグナルのピッチ周波数に関する特
性を検出し、それをパーソナルコンピュータを含むトー
ン認識のための装置に伝送する。そして、この装置にお
いて５つの異なるトーンに対するマルコフモデル確率が
計算される。

【０００４】特許文献ＵＳ４８５２１７０には、音声認
識および音声合成の使用下における言語翻訳についての
記載がなされている。音声の各分節は、音素分類親近性
の指示のために論理的に分析される。その後、分節の周
波数スペクトルが、その形式における特定の音素の指示
のために分析される。

【０００５】特許文献ＵＳ４４８９４３３には、テレッ
クス装置による音声情報伝送に関する記載がなされてい
る。伝送の後、音声データは、文字からなる読み取り可
能なメッセージに変換され得る。この文献による技術
は、主として日本語に適用されることを意図されてい
る。日本語の単語のアクセント形式は、トーンピッチア
クセントであり、トーンピッチ周波数が低周波数側に突
然変化するときのシラブル間の時刻の差に依存して識別
され得る。単語アクセントコードは、通常、１つの単語
中の１つの特定のシラブルのアクセントによって生じ、
トーンピッチおよび基本トーン周波数における突然の変
化を指示する。

【０００６】特許文献ＵＳ４１７８４７２は、シラブル
の音における変化のパターンの検討によってコマンドを
提案する音声指示識別システムについて記載している。
基本トーン周波数は、音声／音に対する象徴的な値とし
て使用されている。

【０００７】特許文献ＥＰ１８００４７は、話されたテ
キストの認識およびそれに続くプリントに関係してい
る。認識された話されたテキストのそれぞれの分節に対
して対応する文字列が記憶される。語彙情報が用いられ
る。

【０００８】

【発明が解決しようとする課題】音声認識に際して、単
語および文章中における異なる文アクセント、並びにス
トレスのあるシラブルおよびストレスのないシラブルを
識別する必要がある。異なる形式のアクセント、および
ストレスのある／ストレスのないシラブルのそれぞれを
一般的に指定する方法または装置は、これまでなかっ
た。韻律情報が、これまで認識の際に用いられてきた
が、用いられる統計的方法においては、邪魔ものとみな
されてきていた。韻律情報は、音声−音声変換の際のよ
り進んだ音声認識システムにおいて必要とされる。韻律
情報を分析し、単語および文章中のアクセントの位置、
ならびにアクセントの形式を指定することによって、与
えられた音声をより正確に認識することができ、また、
異なる言語間における翻訳の可能性をより大きくするこ
とができる。さらに、問題は、単語および文章中におけ
るストレスのある／ストレスのないシラブルを指定する
ことにある。単語および文章中における、ストレスのあ
る／ストレスのないシラブルのそれぞれの位置の識別を
可能にすることによって、また、文章の正確な意味を識
別する可能性が増大する。その結果、前述のパラメータ
を識別し、音声認識との関係でこれらを用いることが必
要である。

【０００９】本発明の目的は、与えられた音声の正確な
意味を識別するための方法および装置を提供することに
ある。

【００１０】

【課題を解決するための手段】本発明は、基本トーンが
音声が抽出されるようにした音声−テキスト変換におい
て使用される方法に関する。音声から音声モデルが生成
される。そのモデルから単語および文章中の継続時間の
再生が得られる。この継続時間の再生は、音声中の分節
の継続時間と比較される。この比較から存在するアクセ
ントがどのような形式のものであるかが決定され、文ア
クセント情報を伴ったテキストが生成される。第１アク
セントおよび第２アクセントが認識され得る。さらに
は、ストレスのあるシラブルおよびストレスのないシラ
ブルが認識され得る。そのモデルから単語および文章中
の基本トーンに関するモデルが形成される。本発明によ
れば、さらに、基本トーンは、可能なアクセントに対す
る指示が得られたとき、モデル化された基本トーンと比
較される。基本トーンの比較ならびに継続時間の比較の
際に、可能なアクセントが比較され、アクセントがどの
ような形式のものであるか、またはストレスのある／ス
トレスのないシラブルが存在するかどうかに関する決定
がなされる。この決定は、モデルを調節するために用い
られる。そのとき、高い確率で音声に対応する意味を有
するテキストが再生される。そして、それによって音声
に対応する意味を備えたテキストが得られる。モデルの
生成の際に、語彙情報が用いられる。この語彙情報は、
単語中の別のアクセントを指示する。この語彙情報はさ
らに、認識された単語中における種々の分節に対する別
の継続時間を指示する。モデルの構文分析が、文章のモ
デル化の際に用いられる。

【００１１】本発明はさらに、音声−テキスト変換のた
めの装置に関する。基本トーンが、音声認識装置におい
て音声から抽出される。音声認識装置において、音声モ
デルが生成される。このモデルから単語および文章中の
継続時間の再生が得られる。装置は、さらに、継続時間
の再生を音声中の分節継続時間と比較する。アクセント
の形式に関する決定が、その比較に基づいて実行され
る。文アクセント情報を伴ったテキストが再生される。
第１アクセントおよび第２アクセントが認識され、さら
に、ストレスのあるシラブルおよびストレスのないシラ
ブルが認識され得る。このモデルから単語および文章中
の基本トーンに関するモデルが生成される。抽出された
基本トーンは、モデル化された基本トーンと比較され、
アクセントの可能な位置に関する指示が得られる。基本
トーンの比較に際し、可能なアクセントが比較され、ア
クセントがどのような形式のものであるか、またはスト
レスのある／ストレスのないシラブルが存在するかどう
かに関する決定がなされる。この決定は、モデルの修正
のために用いられる。高い確率をもって音声に対応する
意味を有するテキストが再生される。語彙情報が、モデ
ルの再生の際に用いられる。語彙情報には、種々の単語
および文章中の種々の形式のアクセントおよびストレス
のある／ストレスのないシラブル等々に関する情報が含
まれている。この語彙情報によって、別のアクセントお
よびアクセント位置が、語彙情報から得られた単語中に
おいて得られる。認識された単語中の異なる分節に対す
る別の継続時間が、この語彙情報から得られる。文章中
の基本トーンのモデル化に際し、モデルの構文分析が用
いられる。文章のモデル化に際し、モデルの構文分析が
用いられる。

【００１２】

【発明の実施の形態】以下、添付図面を参照して、本発
明の好ましい実施例について説明する。再生された音声
は、音声認識装置１内に送られる。音声認識装置におい
て、音声は、その成分に関して分析される。このとき、
種々の認識されたシーケンスが現れ、それらは、単語お
よび文章から形成されている。音声認識装置において実
行される分析方法は、当業者に周知の技術によって実行
される。したがって、例えば、隠れたマルコフモデル，
ＨＭＭが用いられ得る。この形式の分析においては、基
本トーンおよび継続時間に関する情報は、邪魔なものと
みなされる。しかしながら、分節の継続時間に関する情
報は、マルコフモデル中において得られ得る。音声認識
装置における分析によって、単語および文章の形に組み
合わされる多数の認識された音が得られる。その結果、
種々の単語の形に組み合わすことができる１組のシラブ
ルの組み合わせが得られる。前記単語は、当該言語中の
存在する単語と当該言語中に存在しない単語からなって
いる。

【００１３】認識された単語の第１のチェックにおい
て、可能な組み合わせが辞書２に伝送される。辞書２
は、発音およびストレスに関する情報を備えた通常の辞
書からなっている。辞書中において、種々の可能な単語
がチェックされ、認識された音声の分節から生成され得
る。辞書情報から認識された音声に基づいて存在し得る
可能な単語に関する情報が送り返される。

【００１４】その後、音声認識装置において、単語の編
集がなされ、節および文章が形成される。この情報は、
構文分析手段３に送られる。構文分析手段においては、
出現した節および文章に対する提案が、言語学的観点か
ら当該言語において許容され得るか否かがチェックされ
る。

【００１５】語彙および構文情報は、その後、基本トー
ン調節ユニット５および継続時間調節ユニット６に送ら
れる。基本トーン調節ユニットにおいて、基本トーン
は、語彙および構文情報に基づいて調節される。そのと
き、単語および文章中の基本トーンの調節が得られる。
得られた情報は、コンパレータ７に送られる。コンパレ
ータ７は、また、基本トーン抽出手段４において、抽出
された音声の基本トーンに関する情報を得る。コンパレ
ータ７における比較の際に、文の第１アクセントおよび
第２アクセントの可能な位置に関する情報が得られる。

【００１６】語彙および構文分析から、単語および文章
における継続時間のモデルが、また生成される。そのと
き、辞書は、音声分析の際に得られた可能な単語中の種
々のシラブルの継続時間に関する情報を含んでいる。構
文分析手段においては、また、可能な文章中および種々
の単語中における異なる部分に対する可能な継続時間が
生成される。すべての情報から、母音およびそれに続く
子音の継続時間が重要とされる分節の継続時間が得られ
る。

【００１７】こうして得られた情報は、第２のコンパレ
ータ８に送られる。第２のコンパレータ８は、また、音
声認識装置から実際の音声中の分節の継続時間に関する
情報を得る。第２のコンパレータ８における比較の際
に、第１アクセント、第２アクセント、およびストレス
のある／スレトスのないシラブル、および文アクセント
の可能な位置に関する情報が得られる。

【００１８】この情報は、意思決定手段９に送られる。
意思決定手段９は、第１のコンパレータ７から、基本ト
ーン情報からの第１アクセントおよび第２アクセントお
よび文アクセントに関する情報を受け取る。その後、意
思決定手段が２つのコンパレータからの情報をコンパイ
ルし、第１アクセント、第２アクセント、ストレスのあ
るまたはストレスのないシラブル、または文アクセント
が存在するかどうかを決定する。得られた情報は、その
後、音声認識装置に送り返され、音声認識装置は、元の
モデルを変更し、その後、文アクセントを備えたテキス
トを出力する。

【００１９】本発明によって提案された手段によれば、
音声を認識し、従来の方法より精度の高い方法で当該音
声を再生することが可能になる。元の音声中において与
えられた意味は、そのとき正確に再生され得る。加え
て、与えられた音声が、別の言語に翻訳されるような場
合には、その情報が用いられ得る。さらには、正しい単
語および表現を正確に見つけ出し、単語および文章の分
析の際に用いられる意味がいずれであるかを決定するこ
とが可能となる。従来の方法、とりわけ統計的な方法を
用いた際の種々の単語の正確な意味を決定される際の不
正確さは、本発明による方法によってドラステックに解
消される。

【００２０】本発明の構成は、前述の実施例に限定され
るものではなく、特許請求の範囲の各請求項に記載され
た構成の範囲内で種々の変形例を考案することができ
る。

【００２１】

【発明の効果】本発明によれば、韻律情報が音声分析に
際して用いられる得る。このとき、より向上した音声認
識が実現される。このより向上した認識は、異なる分
野、たとえば、自動音声翻訳における１つの言語から別
の言語への翻訳において話された情報を用いる可能性を
増大させる。さらに、本発明によれば、通信ネットワー
クにおける種々のサービスの制御に関する種々の分野、
種々の装置、コンピュータ等の制御に関する種々の分野
において、話された情報を利用する可能性が広がる。

【図面の簡単な説明】

【図１】本発明の構成を示すブロック図である。

【符号の説明】

１音声認識装置２辞書３構文分析手段４基本トーン抽出手段５基本トーン調節ユニット６継続時間調節ユニット７第１のコンパレータ８第２のコンパレータ

Claims

【特許請求の範囲】

【請求項１】音声‐テキスト変換のための方法であっ
て、基本トーンが音声から抽出され、その音声から音声
のモデルが生成されるようにした方法において、前記モ
デルから単語および文章における継続時間の再生が得ら
れ、前記継続時間の再生は音声中における分節の継続時
間と比較され、その比較から存在するアクセントが如何
なる形式のものであるかが決定され、文アクセント情報
を備えたテキストが生成されることを特徴とする方法。
【請求項２】第１アクセント、第２アクセントおよび
文アクセントが認識されることを特徴とする請求項１に
記載の方法。
【請求項３】ストレスのあるシラブルおよびストレス
のないシラブルが認識されることを特徴とする請求項１
に記載の方法。
【請求項４】前記モデルから、単語および文章におけ
る基本トーンのモデルが生成されることを特徴とする請
求項１〜請求項３のいずれかに記載の方法。
【請求項５】抽出された前記基本トーンが、可能なア
クセントに対する指示の得られた時点で、モデル化され
た基本トーンと比較されることを特徴とする請求項１〜
請求項４のいずれかに記載の方法。
【請求項６】可能なアクセントが、基本トーンの比較
および継続時間の比較の際に比較され、アクセントがど
のような形式のものであるか、あるいはストレスのある
シラブル／ストレスのないシラブルが存在するかどうか
の決定がなされることを特徴とする請求項１〜請求項５
のいずれかに記載の方法。
【請求項７】前記決定は、生成されたテキストが、高
い確率で音声に対応する意味を有するテキストとして得
られたとき、モデルを補正するために用いられることを
特徴とする請求項１〜請求項６のいずれかに記載の方
法。
【請求項８】前記モデルの生成の際に語彙情報が用い
られることを特徴とする請求項１〜請求項７のいずれか
に記載の方法。
【請求項９】前記語彙情報は、単語中の別のアクセン
トを示すことを特徴とする請求項１〜請求項８のいずれ
かに記載の方法。
【請求項１０】前記語彙情報は、認識された単語中の
異なる分節に対する別の継続時間を示すことを特徴とす
る請求項１〜請求項９のいずれかに記載の方法。
【請求項１１】前記モデルの構文分析は、文章中の基
本トーンのモデル化に際して用いられることを特徴とす
る請求項１〜請求項１０のいずれかに記載の方法。
【請求項１２】前記モデルの構文分析は、文章のモデ
ル化の際に用いることを特徴とする請求項１〜請求項１
１に記載の方法。
【請求項１３】音声‐テキスト変換のための装置であ
って、基本トーンが音声認識装置において音声から抽出
され、音声モデルが前記音声認識装置において生成され
るようにした装置において、前記モデルから単語および
文章における継続時間の再生が得られ、前記継続時間の
再生は、前記音声中における分節の継続時間と比較さ
れ、アクセントの形式に関する決定が前記比較に基づい
て実行され、文アクセント情報を備えたテキストが生成
されることを特徴とする装置。
【請求項１４】第１アクセント、第２アクセントおよ
び文アクセントが認識されることを特徴とする請求項１
３に記載の装置。
【請求項１５】ストレスのあるシラブルおよびストレ
スのないシラブルが認識されることを特徴とする請求項
１３に記載の装置。
【請求項１６】前記モデルから、単語および文章にお
ける基本トーンのモデルが生成されることを特徴とする
請求項１３〜請求項１５のいずれかに記載の装置。
【請求項１７】前記抽出された基本トーンがモデル化
された基本トーンと比較され、アクセントの可能な位置
に関する指示が得られることを特徴とする請求項１３〜
請求項１６のいずれかに記載の装置。
【請求項１８】可能なアクセントが前記基本トーンの
比較の際に比較され、アクセントがどのような形式のも
のであるか、またはストレスのあるシラブル／ストレス
のないシラブルが存在するかどうかについて決定がなさ
れることを特徴とする請求項１３〜請求項１７のいずれ
かに記載の装置。
【請求項１９】前記決定はモデルの修正のために用い
られ、高い確率で音声の意味に対応するテキストが生成
されることを特徴とする請求項１３〜請求項１８のいず
れかに記載の装置。
【請求項２０】語彙情報が、前記モデルの生成の際に
用いられることを特徴とする請求項１３〜請求項１９の
いずれかに記載の装置。
【請求項２１】単語中の別のアクセントが、前記語彙
情報から得られることを特徴とする請求項１３〜請求項
２０のいずれかに記載の装置。
【請求項２２】前記認識された単語中の異なる分節に
対する別の継続時間が、前記語彙情報から得られること
を特徴とする請求項１３〜請求項２１のいずれかに記載
の装置。
【請求項２３】前記基本トーンのモデル化の際に、前
記モデルの構文分析が用いられることを特徴とする請求
項１３〜請求項２２のいずれかに記載の装置。
【請求項２４】文章のモデル化の際に、前記モデルの
構文分析が用いられることを特徴とする請求項１３〜請
求項２３に記載の装置。