JPH0922297A - 音声‐テキスト変換のための方法および装置 - Google Patents

音声‐テキスト変換のための方法および装置

Info

Publication number
JPH0922297A
JPH0922297A JP8175484A JP17548496A JPH0922297A JP H0922297 A JPH0922297 A JP H0922297A JP 8175484 A JP8175484 A JP 8175484A JP 17548496 A JP17548496 A JP 17548496A JP H0922297 A JPH0922297 A JP H0922297A
Authority
JP
Japan
Prior art keywords
model
speech
accent
duration
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8175484A
Other languages
English (en)
Inventor
Bertil Lyberg
リュベルグ ベルティル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telia AB
Original Assignee
Telia AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia AB filed Critical Telia AB
Publication of JPH0922297A publication Critical patent/JPH0922297A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】与えられた音声の正確な意味を識別するための
方法および装置を提供する。 【解決手段】与えられた音声から基本トーンが抽出され
る。さらに、音声から音声モデルが生成される。そのモ
デルにおいて、単語および文章中の継続時間の再生が得
られる。継続時間の生成は、音声中の分節の継続時間と
比較される。その比較から、存在するアクセントの形式
を決定する情報が得られる。そして、文アクセント情報
を備えたテキストが生成される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声‐テキスト変
換に関するものである。特に、本発明は、与えられた音
声を分析し、これら音声中の異なるアクセント、並びに
ストレスのあるシラブルおよびストレスのないシラブル
に関する情報を得ることに関するものである。この情報
は、与えられた音声の解釈に際して重要である。
【0002】
【従来の技術】たとえば、HMM (Hidden Markov Mode
ls) を伴った現在使用されている音声認識システムにお
いては、基本トーンおよび継続時間に関する情報は、邪
魔なものとみなされている。文アクセントの形式および
ストレスのあるシラブルまたはストレスのないシラブル
に関する情報は、周知のアプリケーションにおいては統
計的な方法に基づいて処理されている。音声中における
アクセントのつけ方によって得られた情報は、そのとき
識別され得ない。
【0003】特許文献US5220639には、標準中
国語の音声認識についての記載がなされている。隠れた
マルコフモデルの使用の下に、単一シラブルのシーケン
スが、シラブルおよび標準トーンを独立に認識し、認識
された部分を集めることによって認識され、それによっ
て単一シラブルが認識される。認識された単一シラブル
は、言語デコーダ部において、マルコフ中国語モデルに
よって使用され、対応する中国文字が決定される。トー
ンピッチ周波数検出器が用いられる。トーンピッチ周波
数検出器は、未知のシグナルのピッチ周波数に関する特
性を検出し、それをパーソナルコンピュータを含むトー
ン認識のための装置に伝送する。そして、この装置にお
いて5つの異なるトーンに対するマルコフモデル確率が
計算される。
【0004】特許文献US4852170には、音声認
識および音声合成の使用下における言語翻訳についての
記載がなされている。音声の各分節は、音素分類親近性
の指示のために論理的に分析される。その後、分節の周
波数スペクトルが、その形式における特定の音素の指示
のために分析される。
【0005】特許文献US4489433には、テレッ
クス装置による音声情報伝送に関する記載がなされてい
る。伝送の後、音声データは、文字からなる読み取り可
能なメッセージに変換され得る。この文献による技術
は、主として日本語に適用されることを意図されてい
る。日本語の単語のアクセント形式は、トーンピッチア
クセントであり、トーンピッチ周波数が低周波数側に突
然変化するときのシラブル間の時刻の差に依存して識別
され得る。単語アクセントコードは、通常、1つの単語
中の1つの特定のシラブルのアクセントによって生じ、
トーンピッチおよび基本トーン周波数における突然の変
化を指示する。
【0006】特許文献US4178472は、シラブル
の音における変化のパターンの検討によってコマンドを
提案する音声指示識別システムについて記載している。
基本トーン周波数は、音声/音に対する象徴的な値とし
て使用されている。
【0007】特許文献EP180047は、話されたテ
キストの認識およびそれに続くプリントに関係してい
る。認識された話されたテキストのそれぞれの分節に対
して対応する文字列が記憶される。語彙情報が用いられ
る。
【0008】
【発明が解決しようとする課題】音声認識に際して、単
語および文章中における異なる文アクセント、並びにス
トレスのあるシラブルおよびストレスのないシラブルを
識別する必要がある。異なる形式のアクセント、および
ストレスのある/ストレスのないシラブルのそれぞれを
一般的に指定する方法または装置は、これまでなかっ
た。韻律情報が、これまで認識の際に用いられてきた
が、用いられる統計的方法においては、邪魔ものとみな
されてきていた。韻律情報は、音声−音声変換の際のよ
り進んだ音声認識システムにおいて必要とされる。韻律
情報を分析し、単語および文章中のアクセントの位置、
ならびにアクセントの形式を指定することによって、与
えられた音声をより正確に認識することができ、また、
異なる言語間における翻訳の可能性をより大きくするこ
とができる。さらに、問題は、単語および文章中におけ
るストレスのある/ストレスのないシラブルを指定する
ことにある。単語および文章中における、ストレスのあ
る/ストレスのないシラブルのそれぞれの位置の識別を
可能にすることによって、また、文章の正確な意味を識
別する可能性が増大する。その結果、前述のパラメータ
を識別し、音声認識との関係でこれらを用いることが必
要である。
【0009】本発明の目的は、与えられた音声の正確な
意味を識別するための方法および装置を提供することに
ある。
【0010】
【課題を解決するための手段】本発明は、基本トーンが
音声が抽出されるようにした音声−テキスト変換におい
て使用される方法に関する。音声から音声モデルが生成
される。そのモデルから単語および文章中の継続時間の
再生が得られる。この継続時間の再生は、音声中の分節
の継続時間と比較される。この比較から存在するアクセ
ントがどのような形式のものであるかが決定され、文ア
クセント情報を伴ったテキストが生成される。第1アク
セントおよび第2アクセントが認識され得る。さらに
は、ストレスのあるシラブルおよびストレスのないシラ
ブルが認識され得る。そのモデルから単語および文章中
の基本トーンに関するモデルが形成される。本発明によ
れば、さらに、基本トーンは、可能なアクセントに対す
る指示が得られたとき、モデル化された基本トーンと比
較される。基本トーンの比較ならびに継続時間の比較の
際に、可能なアクセントが比較され、アクセントがどの
ような形式のものであるか、またはストレスのある/ス
トレスのないシラブルが存在するかどうかに関する決定
がなされる。この決定は、モデルを調節するために用い
られる。そのとき、高い確率で音声に対応する意味を有
するテキストが再生される。そして、それによって音声
に対応する意味を備えたテキストが得られる。モデルの
生成の際に、語彙情報が用いられる。この語彙情報は、
単語中の別のアクセントを指示する。この語彙情報はさ
らに、認識された単語中における種々の分節に対する別
の継続時間を指示する。モデルの構文分析が、文章のモ
デル化の際に用いられる。
【0011】本発明はさらに、音声−テキスト変換のた
めの装置に関する。基本トーンが、音声認識装置におい
て音声から抽出される。音声認識装置において、音声モ
デルが生成される。このモデルから単語および文章中の
継続時間の再生が得られる。装置は、さらに、継続時間
の再生を音声中の分節継続時間と比較する。アクセント
の形式に関する決定が、その比較に基づいて実行され
る。文アクセント情報を伴ったテキストが再生される。
第1アクセントおよび第2アクセントが認識され、さら
に、ストレスのあるシラブルおよびストレスのないシラ
ブルが認識され得る。このモデルから単語および文章中
の基本トーンに関するモデルが生成される。抽出された
基本トーンは、モデル化された基本トーンと比較され、
アクセントの可能な位置に関する指示が得られる。基本
トーンの比較に際し、可能なアクセントが比較され、ア
クセントがどのような形式のものであるか、またはスト
レスのある/ストレスのないシラブルが存在するかどう
かに関する決定がなされる。この決定は、モデルの修正
のために用いられる。高い確率をもって音声に対応する
意味を有するテキストが再生される。語彙情報が、モデ
ルの再生の際に用いられる。語彙情報には、種々の単語
および文章中の種々の形式のアクセントおよびストレス
のある/ストレスのないシラブル等々に関する情報が含
まれている。この語彙情報によって、別のアクセントお
よびアクセント位置が、語彙情報から得られた単語中に
おいて得られる。認識された単語中の異なる分節に対す
る別の継続時間が、この語彙情報から得られる。文章中
の基本トーンのモデル化に際し、モデルの構文分析が用
いられる。文章のモデル化に際し、モデルの構文分析が
用いられる。
【0012】
【発明の実施の形態】以下、添付図面を参照して、本発
明の好ましい実施例について説明する。再生された音声
は、音声認識装置1内に送られる。音声認識装置におい
て、音声は、その成分に関して分析される。このとき、
種々の認識されたシーケンスが現れ、それらは、単語お
よび文章から形成されている。音声認識装置において実
行される分析方法は、当業者に周知の技術によって実行
される。したがって、例えば、隠れたマルコフモデル,
HMMが用いられ得る。この形式の分析においては、基
本トーンおよび継続時間に関する情報は、邪魔なものと
みなされる。しかしながら、分節の継続時間に関する情
報は、マルコフモデル中において得られ得る。音声認識
装置における分析によって、単語および文章の形に組み
合わされる多数の認識された音が得られる。その結果、
種々の単語の形に組み合わすことができる1組のシラブ
ルの組み合わせが得られる。前記単語は、当該言語中の
存在する単語と当該言語中に存在しない単語からなって
いる。
【0013】認識された単語の第1のチェックにおい
て、可能な組み合わせが辞書2に伝送される。辞書2
は、発音およびストレスに関する情報を備えた通常の辞
書からなっている。辞書中において、種々の可能な単語
がチェックされ、認識された音声の分節から生成され得
る。辞書情報から認識された音声に基づいて存在し得る
可能な単語に関する情報が送り返される。
【0014】その後、音声認識装置において、単語の編
集がなされ、節および文章が形成される。この情報は、
構文分析手段3に送られる。構文分析手段においては、
出現した節および文章に対する提案が、言語学的観点か
ら当該言語において許容され得るか否かがチェックされ
る。
【0015】語彙および構文情報は、その後、基本トー
ン調節ユニット5および継続時間調節ユニット6に送ら
れる。基本トーン調節ユニットにおいて、基本トーン
は、語彙および構文情報に基づいて調節される。そのと
き、単語および文章中の基本トーンの調節が得られる。
得られた情報は、コンパレータ7に送られる。コンパレ
ータ7は、また、基本トーン抽出手段4において、抽出
された音声の基本トーンに関する情報を得る。コンパレ
ータ7における比較の際に、文の第1アクセントおよび
第2アクセントの可能な位置に関する情報が得られる。
【0016】語彙および構文分析から、単語および文章
における継続時間のモデルが、また生成される。そのと
き、辞書は、音声分析の際に得られた可能な単語中の種
々のシラブルの継続時間に関する情報を含んでいる。構
文分析手段においては、また、可能な文章中および種々
の単語中における異なる部分に対する可能な継続時間が
生成される。すべての情報から、母音およびそれに続く
子音の継続時間が重要とされる分節の継続時間が得られ
る。
【0017】こうして得られた情報は、第2のコンパレ
ータ8に送られる。第2のコンパレータ8は、また、音
声認識装置から実際の音声中の分節の継続時間に関する
情報を得る。第2のコンパレータ8における比較の際
に、第1アクセント、第2アクセント、およびストレス
のある/スレトスのないシラブル、および文アクセント
の可能な位置に関する情報が得られる。
【0018】この情報は、意思決定手段9に送られる。
意思決定手段9は、第1のコンパレータ7から、基本ト
ーン情報からの第1アクセントおよび第2アクセントお
よび文アクセントに関する情報を受け取る。その後、意
思決定手段が2つのコンパレータからの情報をコンパイ
ルし、第1アクセント、第2アクセント、ストレスのあ
るまたはストレスのないシラブル、または文アクセント
が存在するかどうかを決定する。得られた情報は、その
後、音声認識装置に送り返され、音声認識装置は、元の
モデルを変更し、その後、文アクセントを備えたテキス
トを出力する。
【0019】本発明によって提案された手段によれば、
音声を認識し、従来の方法より精度の高い方法で当該音
声を再生することが可能になる。元の音声中において与
えられた意味は、そのとき正確に再生され得る。加え
て、与えられた音声が、別の言語に翻訳されるような場
合には、その情報が用いられ得る。さらには、正しい単
語および表現を正確に見つけ出し、単語および文章の分
析の際に用いられる意味がいずれであるかを決定するこ
とが可能となる。従来の方法、とりわけ統計的な方法を
用いた際の種々の単語の正確な意味を決定される際の不
正確さは、本発明による方法によってドラステックに解
消される。
【0020】本発明の構成は、前述の実施例に限定され
るものではなく、特許請求の範囲の各請求項に記載され
た構成の範囲内で種々の変形例を考案することができ
る。
【0021】
【発明の効果】本発明によれば、韻律情報が音声分析に
際して用いられる得る。このとき、より向上した音声認
識が実現される。このより向上した認識は、異なる分
野、たとえば、自動音声翻訳における1つの言語から別
の言語への翻訳において話された情報を用いる可能性を
増大させる。さらに、本発明によれば、通信ネットワー
クにおける種々のサービスの制御に関する種々の分野、
種々の装置、コンピュータ等の制御に関する種々の分野
において、話された情報を利用する可能性が広がる。
【図面の簡単な説明】
【図1】本発明の構成を示すブロック図である。
【符号の説明】
1 音声認識装置 2 辞書 3 構文分析手段 4 基本トーン抽出手段 5 基本トーン調節ユニット 6 継続時間調節ユニット 7 第1のコンパレータ 8 第2のコンパレータ

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】 音声‐テキスト変換のための方法であっ
    て、基本トーンが音声から抽出され、その音声から音声
    のモデルが生成されるようにした方法において、前記モ
    デルから単語および文章における継続時間の再生が得ら
    れ、前記継続時間の再生は音声中における分節の継続時
    間と比較され、その比較から存在するアクセントが如何
    なる形式のものであるかが決定され、文アクセント情報
    を備えたテキストが生成されることを特徴とする方法。
  2. 【請求項2】 第1アクセント、第2アクセントおよび
    文アクセントが認識されることを特徴とする請求項1に
    記載の方法。
  3. 【請求項3】 ストレスのあるシラブルおよびストレス
    のないシラブルが認識されることを特徴とする請求項1
    に記載の方法。
  4. 【請求項4】 前記モデルから、単語および文章におけ
    る基本トーンのモデルが生成されることを特徴とする請
    求項1〜請求項3のいずれかに記載の方法。
  5. 【請求項5】 抽出された前記基本トーンが、可能なア
    クセントに対する指示の得られた時点で、モデル化され
    た基本トーンと比較されることを特徴とする請求項1〜
    請求項4のいずれかに記載の方法。
  6. 【請求項6】 可能なアクセントが、基本トーンの比較
    および継続時間の比較の際に比較され、アクセントがど
    のような形式のものであるか、あるいはストレスのある
    シラブル/ストレスのないシラブルが存在するかどうか
    の決定がなされることを特徴とする請求項1〜請求項5
    のいずれかに記載の方法。
  7. 【請求項7】 前記決定は、生成されたテキストが、高
    い確率で音声に対応する意味を有するテキストとして得
    られたとき、モデルを補正するために用いられることを
    特徴とする請求項1〜請求項6のいずれかに記載の方
    法。
  8. 【請求項8】 前記モデルの生成の際に語彙情報が用い
    られることを特徴とする請求項1〜請求項7のいずれか
    に記載の方法。
  9. 【請求項9】 前記語彙情報は、単語中の別のアクセン
    トを示すことを特徴とする請求項1〜請求項8のいずれ
    かに記載の方法。
  10. 【請求項10】 前記語彙情報は、認識された単語中の
    異なる分節に対する別の継続時間を示すことを特徴とす
    る請求項1〜請求項9のいずれかに記載の方法。
  11. 【請求項11】 前記モデルの構文分析は、文章中の基
    本トーンのモデル化に際して用いられることを特徴とす
    る請求項1〜請求項10のいずれかに記載の方法。
  12. 【請求項12】 前記モデルの構文分析は、文章のモデ
    ル化の際に用いることを特徴とする請求項1〜請求項1
    1に記載の方法。
  13. 【請求項13】 音声‐テキスト変換のための装置であ
    って、基本トーンが音声認識装置において音声から抽出
    され、音声モデルが前記音声認識装置において生成され
    るようにした装置において、前記モデルから単語および
    文章における継続時間の再生が得られ、前記継続時間の
    再生は、前記音声中における分節の継続時間と比較さ
    れ、アクセントの形式に関する決定が前記比較に基づい
    て実行され、文アクセント情報を備えたテキストが生成
    されることを特徴とする装置。
  14. 【請求項14】 第1アクセント、第2アクセントおよ
    び文アクセントが認識されることを特徴とする請求項1
    3に記載の装置。
  15. 【請求項15】 ストレスのあるシラブルおよびストレ
    スのないシラブルが認識されることを特徴とする請求項
    13に記載の装置。
  16. 【請求項16】 前記モデルから、単語および文章にお
    ける基本トーンのモデルが生成されることを特徴とする
    請求項13〜請求項15のいずれかに記載の装置。
  17. 【請求項17】 前記抽出された基本トーンがモデル化
    された基本トーンと比較され、アクセントの可能な位置
    に関する指示が得られることを特徴とする請求項13〜
    請求項16のいずれかに記載の装置。
  18. 【請求項18】 可能なアクセントが前記基本トーンの
    比較の際に比較され、アクセントがどのような形式のも
    のであるか、またはストレスのあるシラブル/ストレス
    のないシラブルが存在するかどうかについて決定がなさ
    れることを特徴とする請求項13〜請求項17のいずれ
    かに記載の装置。
  19. 【請求項19】 前記決定はモデルの修正のために用い
    られ、高い確率で音声の意味に対応するテキストが生成
    されることを特徴とする請求項13〜請求項18のいず
    れかに記載の装置。
  20. 【請求項20】 語彙情報が、前記モデルの生成の際に
    用いられることを特徴とする請求項13〜請求項19の
    いずれかに記載の装置。
  21. 【請求項21】 単語中の別のアクセントが、前記語彙
    情報から得られることを特徴とする請求項13〜請求項
    20のいずれかに記載の装置。
  22. 【請求項22】 前記認識された単語中の異なる分節に
    対する別の継続時間が、前記語彙情報から得られること
    を特徴とする請求項13〜請求項21のいずれかに記載
    の装置。
  23. 【請求項23】 前記基本トーンのモデル化の際に、前
    記モデルの構文分析が用いられることを特徴とする請求
    項13〜請求項22のいずれかに記載の装置。
  24. 【請求項24】 文章のモデル化の際に、前記モデルの
    構文分析が用いられることを特徴とする請求項13〜請
    求項23に記載の装置。
JP8175484A 1995-06-16 1996-06-14 音声‐テキスト変換のための方法および装置 Pending JPH0922297A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SE9502202-6 1995-06-16
SE9502202A SE514684C2 (sv) 1995-06-16 1995-06-16 Metod vid tal-till-textomvandling

Publications (1)

Publication Number Publication Date
JPH0922297A true JPH0922297A (ja) 1997-01-21

Family

ID=20398649

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8175484A Pending JPH0922297A (ja) 1995-06-16 1996-06-14 音声‐テキスト変換のための方法および装置

Country Status (7)

Country Link
US (1) US5806033A (ja)
EP (1) EP0749109B1 (ja)
JP (1) JPH0922297A (ja)
DE (1) DE69618503T2 (ja)
DK (1) DK0749109T3 (ja)
NO (1) NO316847B1 (ja)
SE (1) SE514684C2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6249763B1 (en) 1997-11-17 2001-06-19 International Business Machines Corporation Speech recognition apparatus and method

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1039895A (ja) * 1996-07-25 1998-02-13 Matsushita Electric Ind Co Ltd 音声合成方法および装置
KR100238189B1 (ko) * 1997-10-16 2000-01-15 윤종용 다중 언어 tts장치 및 다중 언어 tts 처리 방법
US6377927B1 (en) 1998-10-07 2002-04-23 Masoud Loghmani Voice-optimized database system and method of using same
US6941273B1 (en) * 1998-10-07 2005-09-06 Masoud Loghmani Telephony-data application interface apparatus and method for multi-modal access to data applications
US7283973B1 (en) 1998-10-07 2007-10-16 Logic Tree Corporation Multi-modal voice-enabled content access and delivery system
WO2001003112A1 (en) * 1999-07-06 2001-01-11 James Quest Speech recognition system and method
AU763362B2 (en) * 1999-07-06 2003-07-17 James Quest Speech recognition system and method
US6526382B1 (en) 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
US8000320B2 (en) * 2001-02-08 2011-08-16 Logic Tree Corporation System for providing multi-phased, multi-modal access to content through voice and data devices
US6948129B1 (en) 2001-02-08 2005-09-20 Masoud S Loghmani Multi-modal, multi-path user interface for simultaneous access to internet data over multiple media
US7200142B1 (en) 2001-02-08 2007-04-03 Logic Tree Corporation System for providing multi-phased, multi-modal access to content through voice and data devices
ATE310302T1 (de) * 2001-09-28 2005-12-15 Cit Alcatel Kommunikationsvorrichtung und verfahren zum senden und empfangen von sprachsignalen unter kombination eines spracherkennungsmodules mit einer kodiereinheit
GB2381688B (en) 2001-11-03 2004-09-22 Dremedia Ltd Time ordered indexing of audio-visual data
GB2388738B (en) * 2001-11-03 2004-06-02 Dremedia Ltd Time ordered indexing of audio data
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
US7280968B2 (en) * 2003-03-25 2007-10-09 International Business Machines Corporation Synthetically generated speech responses including prosodic characteristics of speech inputs
US20050055197A1 (en) * 2003-08-14 2005-03-10 Sviatoslav Karavansky Linguographic method of compiling word dictionaries and lexicons for the memories of electronic speech-recognition devices
JP4264841B2 (ja) * 2006-12-01 2009-05-20 ソニー株式会社 音声認識装置および音声認識方法、並びに、プログラム
CN101785051B (zh) * 2007-08-22 2012-09-05 日本电气株式会社 语音识别装置和语音识别方法
US8401856B2 (en) * 2010-05-17 2013-03-19 Avaya Inc. Automatic normalization of spoken syllable duration
US9009049B2 (en) * 2012-06-06 2015-04-14 Spansion Llc Recognition of speech with different accents
US9966064B2 (en) 2012-07-18 2018-05-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
KR102084646B1 (ko) * 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
US10468050B2 (en) 2017-03-29 2019-11-05 Microsoft Technology Licensing, Llc Voice synthesized participatory rhyming chat bot
US11809958B2 (en) * 2020-06-10 2023-11-07 Capital One Services, Llc Systems and methods for automatic decision-making with user-configured criteria using multi-channel data inputs

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0356736B2 (ja) * 1979-05-28 1991-08-29
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
SE500277C2 (sv) * 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
SE516526C2 (sv) * 1993-11-03 2002-01-22 Telia Ab Metod och anordning vid automatisk extrahering av prosodisk information
SE504177C2 (sv) * 1994-06-29 1996-12-02 Telia Ab Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6249763B1 (en) 1997-11-17 2001-06-19 International Business Machines Corporation Speech recognition apparatus and method

Also Published As

Publication number Publication date
EP0749109A3 (en) 1998-04-29
SE9502202L (sv) 1996-12-17
NO962463L (no) 1996-12-17
DE69618503D1 (de) 2002-02-21
EP0749109B1 (en) 2002-01-16
SE9502202D0 (sv) 1995-06-16
NO316847B1 (no) 2004-06-01
EP0749109A2 (en) 1996-12-18
NO962463D0 (no) 1996-06-12
US5806033A (en) 1998-09-08
SE514684C2 (sv) 2001-04-02
DK0749109T3 (da) 2002-03-25
DE69618503T2 (de) 2002-08-29

Similar Documents

Publication Publication Date Title
JP7500020B2 (ja) 多言語テキスト音声合成方法
JPH0922297A (ja) 音声‐テキスト変換のための方法および装置
US6085160A (en) Language independent speech recognition
EP0683483B1 (en) A method and arrangement for speech to text conversion
US7502739B2 (en) Intonation generation method, speech synthesis apparatus using the method and voice server
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
EP0833304B1 (en) Prosodic databases holding fundamental frequency templates for use in speech synthesis
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
US7962341B2 (en) Method and apparatus for labelling speech
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
US20030069729A1 (en) Method of assessing degree of acoustic confusability, and system therefor
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
JPH10504404A (ja) 音声認識のための方法および装置
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
JP2000029492A (ja) 音声翻訳装置、音声翻訳方法、音声認識装置
KR20150030337A (ko) 음성인식을 위한 언어모델 생성 장치 및 방법
KR100373329B1 (ko) 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법
Chou et al. Automatic segmental and prosodic labeling of Mandarin speech database
JP7406418B2 (ja) 声質変換システムおよび声質変換方法
Liang et al. An hmm-based bilingual (mandarin-english) tts
KR20080011859A (ko) 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
Demenko et al. Prosody annotation for unit selection TTS synthesis
JP2001343987A (ja) 音声合成方法、および音声合成装置
Ali et al. Automatic segmentation of Arabic speech