JPH0554959B2 - - Google Patents

Info

Publication number
JPH0554959B2
JPH0554959B2 JP59234856A JP23485684A JPH0554959B2 JP H0554959 B2 JPH0554959 B2 JP H0554959B2 JP 59234856 A JP59234856 A JP 59234856A JP 23485684 A JP23485684 A JP 23485684A JP H0554959 B2 JPH0554959 B2 JP H0554959B2
Authority
JP
Japan
Prior art keywords
speech
dictionary
phoneme
stored
templates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP59234856A
Other languages
English (en)
Other versions
JPS60123000A (ja
Inventor
Bikutoorubenbasa Jeraaru
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JPS60123000A publication Critical patent/JPS60123000A/ja
Publication of JPH0554959B2 publication Critical patent/JPH0554959B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
〈産業上の利用分野〉 本発明は、音声認識システムに関し、さらに詳
しくは、不特定話者の音声を認識する装置に関連
する。 〈従来の技術及び発明が解決しようとする問題
点〉 音声認識の分野では、話者に対する独立性の問
題が解決すべき重要な問題である。 特定話者の音声認識には、非常に有効である今
日一般に知られる音声認識プロセスは、不特定話
者の音声認識に用いる場合には、必要となる情報
処理システムの負担が大きく、満足のゆく解決方
法を提供することはできない。 実際は、話者の特性に左右されない音声認識シ
ステムを提供する為、認識すべき単語に対し10個
のテンプレートデータを必要とする方法が既に発
表されている。(これは、1979年4月発行のIEEE
トランスアクシヨン オブASFP27巻2号掲載の
F.E.レブンソン他の「個々の単語認識の為の不特
定話者に対し参照テンプレートを選択する音声相
互結合技術」に示されている。) この技術では、データ処理上の負担及びランダ
ムアクセスメモリ(RAM)のサイズが既にかな
り増大することになり、さらに、困つたことに
は、このテンプレートデータは、多数の注意深く
選択した話者によつて発声される多数の語句から
抽出して得たものでなくてはならなかつた。 この為に要求にあわせて語いを構成するごとに
非常に大変な、登録の為の作業が必要となつた。
これによつてこのようなシステムを使う可能性
は、限られてしまう。 更に、音声入力を音声ユニツト列に変換しよう
とする分析による解決策で、いまだに高いレベル
の成果を得たものはない。 この理由としては以下の点が考えられる。 いくつもの開発計画において、分析による手法
が連続する音声の認識に関し、利用されてきた。
(1977年5月のプロシーデイング1977IEEEインタ
ーナシヨナル コンフアレンス オンASFP ヘ
ートフオードシテイ、799頁から802頁に掲載され
るL.D.エルマンの論文「HEARSAYシステムの
機能的説明」及び1978年11月13〜15日2巻コング
レス オブ ザAFCETアツト ジフサー イベ
ツトの304〜314頁に掲載されるメリルその他の論
文「音声対話の為のシステム」に示される。) 当然ながら、これによつてその他の困難な問題
点が加わる。 重大な問題点としては、使用される語いに制限
のない(又は、語いが非常に広い)場合には音声
ユニツトへのセグメンテーシヨンを必要とし、こ
の段階でおこるエラーをとり除くことは非常に困
難であるという点があげられる。 〈問題点を解決する為の手段及び作用〉 従つてこの問題を解決するため、本発明では、
特に語いが限られる分析方法を使つてダイナミツ
ク プログラム アルゴリズムによつて語いの中
の各単語に対し最適なセグメンテーシヨンを行う
ことを提案するものである。 他の問題点は、見つけるべき音声ユニツトを示
す音声テンプレートを作りだすことに関して生じ
る。 通常は、上記テンプレートは、任意の音声空間
(acoustic space)に音声ユニツトをマツピング
し、各々の音声空間について最適な代表領域を見
つけることによつて得られる。さらにこれらの領
域の重心は、それぞれ対応する音声ユニツトと結
びつけられる。 (1人の話者についてのみならず多数の異なる
話者についてさえも)各領域の多くは重なりあう
ので、この音響空間に通常一点が決まり、これに
よつて音声ユニツトを表示している可能性が計算
される。この可能性は、対応する領域の重心から
この音声ユニツトまでの距離と比例する。 これによつて使用される音響距離が各音の間に
知覚される距離と密接に関連することが仮定され
る。 最短距離を見つけることは、あまり難しくはな
いが、最短でなく長めの距離に関しても関連性を
認めることができる関連を示す距離を持つ音声空
間にては残念ながら知られていない。 故に従来の方法を使用すると、音声距離が常に
充分に短くなるように、より適当な音素表示又は
満足のゆくテンプレートをみつけださなくてはな
らない。 これらは、どちらにしても、同じ位、困難であ
る。 このような困難な作業を省くための簡単な方法
としては、本発明に従うと、音声空間のいずれの
領域も数個の音声ユニツトを表示するようにする
ことが提案される。 さらに、各々の領域において音声ユニツトと関
連する可能性が試験用語句を発声した音声から計
算される。 領域は、音響基礎(acoustic basis)によつ
て、任意の数の領域を設定することによつて規定
される。 故にこれたの領域によつて望み通りの正確さで
「枠」を音声空間内に設定する。 任意の点を与えられた領域と結びつけ従つて所
定数の音声ユニツトと結びつける為に使用される
最大距離は、必要な限り短くすることができる。 この技術を使うことによつて音声距離を厳密に
認識と関連させる必要性は従来よりずつと少なく
なり各々の音声ユニツトに対し多数の正確なテン
プレートを設定する必要はなくなつた。 この様な解決方法を実行するには、以前より多
くの領域を使うことになる。しかしながら、これ
によつて、不特定話者の音声認識装置の能力がか
なり向上される。 〈実施例〉 第1図の装置は、ベクトル量子化装置1を有す
る。ベクトル装置は、入力のうちの1つで分析が
行われる音声信号を受けとつている。 ベクトル量子化装置1の他の入力は、メモリ2
に接続している。メモリ2は、スペクトルテンプ
レートの辞書データを記憶する。各々のテンプレ
ートと関連する音素の分布テーフルのグループを
記憶する装置の各グループは、各々のテンプレー
トと関連を持つ。 量子化装置1の出力及び音声分布テーブルのグ
ループ記憶装置3の出力は、ダイナミツクプログ
ラミングによつて、その単語である可能性を決定
する装置4のそれぞれ対応する入力に接続され
る。 この装置4は、音素の形式で単語辞書を記憶し
ているメモリ5と共働する。 単語を発声した音声信号は、ベクトル量子化装
置1に於いて分析される。ベクトル量子化装置1
では、音響パラメータ(この中では、線形予測法
によつて得られるスペクトル係数)が、10〜
20msの時間フレームごとに計算される。このパ
ラメータは、この場合ではコークリツド距離を用
いて距離の計算が行われ、辞書の各々テンプレー
トについて比較し、最も近いものを見つけだされ
る。故に、音声入力信号はテンプレートアドレス
の列に変換される。 この辞書のテンプレート列は、単語辞書5に記
憶される各々の単語と比較され、単純な音声表示
の形式で記憶される。 音声表示と列内に含まれる辞書のテンプレート
との関連する可能性を用いることでダイナミツク
プログラミング アルゴリズムによつて、特定さ
れるべき上記テンプレート列を辞書5内の音素チ
エインに対応させる関連可能性の計算が可能にな
る。 関連可能性が所定の閾値以上の値であれば、最
も高い可能性を持つ単語が話者によつて発音され
た単語であるとして選択される。 ダイナミツクプログラム アルゴリズムによつ
て単語辞書5内の各々の単語とマツチさせる最適
な積分路を見つけている。このマツチング工程
は、単語マツチング装置4に於て行われる。 この工程は、第2図のグラフで示される。この
図で横軸は特定すべき辞書内の単語縦軸は、音素
を示す。 最適積分路は、おれ線6で示される。ここで
は、DPマツチングを行う上で考慮しなくてはな
らない最適パスを探すための領域制限の枠が7で
示される。 この枠を使う技術によつて与えれられた1つの
音素片に関連するテンプレートの数を制限しなく
てもよくなる点に注意してほしい。しかし音素の
一定している部分も変化している部分もこの枠を
こえることができる。 マツチングの可能性が最も高いパス6は、ダイ
ナミツクプログラミングによつて決定される。 比較工程ごとに(x軸上に)テンプレートによ
つて示される音素片が(y軸上の)音素の一部で
ある可能性が関連する表Tの中から見つけられ
る。 7cで示す点に到達するためには、DPパス制
限の枠7によつて最適パス6は点7aからすぐに
左にのびるか(従つて水平にのびる部分のパスと
なる)または対角線上の点7bからのびるか(従
つて垂直にのびるパス部分を作ることがないよう
に)のいずれかに決まる。 これらの各々のパスのマツチング可能性は、点
7aからのパスと点7bからのパスの各々の可能
性をテーブルTでみつけた点7cの可能性を掛け
ることによつて計算される。本実施例では、音素
片7xが音素0を示す可能性はF1である。 7cに到達する路として選択される路は、最大
の可能性値を持つパスである。 行列内に存在しうる各点に対しこのような工程
を行つてゆくと最大の可能性値を持つパス6にで
あう。 水平方向に延びるパスの長さは、DPマツチン
グ制限の枠によつて制限されることはないが、実
際には、この長さは、可能性の計算をする上で列
内の音素片と与えられた音素との関連が上記関連
可能性と無関係でないことも考え合わせて各々の
音素の長さを統計にとつた分布を用いることで制
限されうる。 そこで第3図に関連して辞書手段の構造とその
組合せの為の試験工程を示す。 音響テンプレートの辞書は、同じ数の音素を含
み、多数の異なる話者によつて発音された試験用
の句のグループをもとに線形予測符号化法によつ
て分析を行い作りだされる。 辞書が、平均的ゆがみを計測し、これに基づ
き、与えられた数のテンプレートに関し、最もよ
く試験用語句のグループを示す表示を提供できる
ようにテンプレートが選択される。 第3図は、ダイナミツクグループ アルゴリズ
ムに従う選択方法を示す。第3図では、試験用の
語句のグループ8とスペクトルテンプレート辞書
9が図示される。選択オペレーシヨンは、試験用
語句のグループ8の中のスペクトルテンプレート
10を選択することから始まる。ここでは、辞書
内で最も近い近隣のテンプレートからの距離が所
定の閾値以上であるスペクトルテンプレート10
が選択される。辞書のサイズは、ただ辞書を作る
為のプロセスを適当に中断することによつて望み
通りに大きさを制限できる。 故に、試験用語句のグループに含まれる全ての
スペクトルテンプレートは、辞書内で最も近い点
を使つてクラス11内にクラスター化される。そ
の後、各々のクラス11の重心(クラスターセン
ター)がテンプレートとして選択される。 同様の工程が平均距離が所定の閾値より小さく
なるまで、または距離の変化が計算処理が収束し
たことを示す非常に小さい値に達するまでくり返
し続けられる。 故に、スペクトルテンプレート13を含む辞書
9は、試験用語句のグルーブ内のスペクトルテン
プレートのクラス11の重心12の像によつて構
成される。 第4図の行14は、文を音素で示した表示の例
を示す。 行15は、変化する部分と変化しない部分に分
けるマニユアルによるセグメンテーシヨンを示
す。 行16は線形予測符号化音素片を示す。 これらの符号化音素片17は、スペクトルテン
プレート辞書19内にこれに対応する音素片13
を有している。これらの音素片のマツチングは、
スペクトル距離を用いてベクトルを符号化するこ
とによつて行われる。 最後に、第4図の下の方には、各々のスペクト
ルテンプレートに関連する音素分布テーブル20
が示されている。これらのテーブルが構成される
段階を示す第2図のテーブルTにこれらのテーブ
ルが相当する。 (第3図に示す)各々のクラス11に現われる
音素の数を数えることによつてこれらの音声周波
数テーブルが得られる。 このことは試験用語句のグルーブが音素にセグ
メンテーシヨンされ表示がつけられたことを意味
する。第1の試験用語句のグループに関しては、
上記オペレーシヨンは全くマニユアル操作で行な
わなくてはならないが、「満足ゆく程度の」辞書
が作られた後は、認識アルゴリズム自体を使つ
て、他の試験用語句も自動的なセグメンテーシヨ
ンが可能となりマニユアル操作は、その検証のみ
になる。 辞書形成の為の試験工程のオペレーシヨンは、
第5A図及び第5B図を参照して説明する。 第5A図は音素表示をつけるオペレーシヨンを
図示する。 これらのオペレーシヨンは、試験用語句のグル
ープの音声のアナログからデジタルへの変換21
及び線形予測法によるデジタル信号の分析23工
程を含む。デジタル信号は、スペクトル データ
フアイル24内に記憶される。 分析結果は、分析結果フアイル25に入力され
さらに26では音素表示を付与する操作が行わ
れ、これは、スピーカ27で音声出力され、又
は、デイスプレイ28でグラフ表示される。この
表示は第6図に示される。これらの結果は、音素
表示フアイル29に記憶される。 第5B図に示す通り、音素表示フアイル29内
の音素表示は、最適のスペクトル テンプレート
の選択オペレーシヨン30を行う間に、分析結果
フアイル25内の分析結果と組合せられる。 この選択オペレーシヨンの結果は、辞書フアイ
ル31に転送される。音素と辞書内の音素片との
間の周波数の関連性が32で計算され、これをも
とに33で音素分布テーブルを作る。 第5図で行われる方法は音素検出の為の特別な
プログラムを必要とする。 この方法は、可能な限り正確に、かつ速く容易
にセグメンテーシヨンを行う為の、非常に融通性
の高いコマンドを持つオーデイオグラフ表示フイ
ードバツク装置を含んでいる。 第6図のグラフ表示は、時間の関数で波形を示
し、同時に周波数、帯域、フオルマント周波数を
示している。 プログラムは、音素及びそのフレームさらにそ
の他音声表示に関する何らかの情報を含む音素表
示フアイルを作りだす。 この後の組のプログラムは、音素表示フアイル
と線形予測符号化法による分析オペレーシヨンの
結果を記憶する分析結果フアイル25(第5A
図)を、使つて上記のアルゴリズムと関連する音
素の周波数に従いテンプレート辞書を構成する。 出力プログラムは結果を分類し、これをヒスト
グラムの形式で表示する。 例えば以下で示すような試験用語句のグループ
は、計算される可能性がかたよることがないよう
な、音素分布を含むように選択される。 試験用語句のグループ 各々が10個の句を含む2つのリストは、各々の
音素の発生する数が平均して(平均16回)現われ
るように選択されている。
【表】
【表】
【表】 これらの句は、全部で568の音素を含み10msの
フレームの63000の音素片からなる。 男性または女性のアクセントが音調の異なる話
者が選択されこれらの語句を登録する。 以下に、第1図の音声認識システム及び第5A
図及び第5B図の試験用手段の構成部の実施例を
示す。 第1図の音声認識システム 1……A/D変換器+TMS320、2……約32か
ら64KビツトのROMメモリ、3……約16Kビツ
トのROMメモリ、4……スタンダードマイクロ
プロセツサ例えばテキサス・インスツルメンツの
TMS7000、5……RAM又はIPROMメモリ 第5A図及び第5B図の試験用手段 21……A/D変換器、23,26,30,3
2……ミニコンピユータ例えば適当にプログラム
されたデキサス・インスツルメンツのDS990−
12、24,25,29……RAMメモリ、磁気メ
モリ、31,33……磁気メモリ。 〈効果〉 以上の様な構成により要求にあわせた語いの辞
書を形成するための登録の作業は簡単になり、か
つ音声ユニツトへの正確なセグメンテーシヨンが
可能になる。 また、本発明の方法によると。音声から音声テ
ンプレートを作りだす作業が容易になる。 従つて音声認識装置の能力は向上し応用可能な
範囲が広がる。
【図面の簡単な説明】
第1図は、不特定話者単語認識システムの主要
部分のブロツク図である。第2図は、認識すべき
単語と、音素片の形式で表示される辞書の単語と
を対応させる方法を示す図である。第3図は、本
発明に従う音声認識の為のベクトル辞書の形成工
程を示す図である。第4図は、テンプレート辞書
がそこから形成される領域に音素表示を付与する
工程を示す。第5A図及び第5B図は本発明に従
う不特定話者音声認識の試験手段を示す図であ
る。第6図は、分析された信号を波形で示したも
の及び信号及び信号の音素片表示を構成するパラ
メータを示す図である。

Claims (1)

  1. 【特許請求の範囲】 1 入力アナログ音声信号を解析することと、 解析された音声信号を複数の音声単位に分割す
    ることと、 前記解析された音声信号の前記複数の音声単位
    を、音素辞書に格納された複数の基準テンプレー
    トと比較することと、ここで、各基準テンプレー
    トは、音素の少なくとも一部を表し、及び準備モ
    ードにおいて準備期間中に発せられた複数の音声
    単位を表す音響空間を複数の音響区に分割するこ
    とにより準備され、各音響区は複数の音声単位を
    表し、 前記音素辞書に格納された前記複数の基準テン
    プレートの各々と関連する複数の音声分布テーブ
    ルを複数の頻度テーブルとして提供することと、
    特定音声単位がある音響区に含まれる確率は前記
    複数の頻度テーブルにより定義され、 前記複数の頻度テーブルに従つて、前記解析さ
    れた音声信号の前記複数の音声単位を、音声形式
    で語彙辞書に格納された複数の語と比較すること
    と、及び 認識されるべき音声のうち、前記語彙辞書に格
    納された語に対応し、かつその構成音声単位の最
    大確率を有する特定の語を前記複数の頻度テーブ
    ルに従つて認識することと を具備することを特徴とする話者に影響を受けな
    い音声認識方法。 2 前記入力アナログ音声信号はベクトル量子化
    器で解析されて複数の音響パラメータを提供し、
    該複数の音響パラメータは、予め決められた値の
    各時間間隔に対して計算され、距離計算を利用し
    て、前記語彙辞書に格納された各基準テンプレー
    トと比較されることを特徴とする特許請求の範囲
    第1項に記載の音声認識方法。 3 前記音素辞書は、 最近接のものからの距離がしきい値より大きい
    ものであるように、スペクトルテンプレートの準
    備組内で複数のスペクトルテンプレートを選択す
    ることと、 前記スペクトルテンプレートの準備組内の最近
    接のものの関数として、前記準備組のスペクトル
    テンプレートを複数のクラスにグループ化するこ
    とと、 スペクトルテンプレートの辞書に、前記スペク
    トルテンプレートの準備組からの前記スペクトル
    テンプレートの各クラスの重心を基準テンプレー
    トとして挿入することと、 互いに最近接のスペクトルテンプレート間の平
    均距離がしきい値距離より小さくなるまで、ある
    いは該平均距離の変分が小さい基準値より小さく
    なるまで、前記選択するステツプ、前記グループ
    化するステツプ、及び前記挿入するステツプを繰
    り返すこと により生成されることを特徴とする特許請求の範
    囲第1項に記載の音声認識方法。 4 前記準備モードは、 異なるアクセントと音調を有する予め決められ
    た数の話者により発せられ、及びデジタル音声信
    号に変換された語の準備組の語の音声から解析イ
    ンデツクスとマーキングインデツクスを作り出す
    ことと、 前記解析インデツクスと前記マーキングインデ
    ツクスから前記頻度テーブルを作り出すことを含
    むことを特徴とする特許請求の範囲第1項に記載
    の音声認識方法。
JP59234856A 1983-11-08 1984-11-07 話者に影響を受けない音声認識方法 Granted JPS60123000A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR8317738 1983-11-08
FR8317738A FR2554623B1 (fr) 1983-11-08 1983-11-08 Procede d'analyse de la parole independant du locuteur

Publications (2)

Publication Number Publication Date
JPS60123000A JPS60123000A (ja) 1985-07-01
JPH0554959B2 true JPH0554959B2 (ja) 1993-08-13

Family

ID=9293893

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59234856A Granted JPS60123000A (ja) 1983-11-08 1984-11-07 話者に影響を受けない音声認識方法

Country Status (5)

Country Link
US (1) US4975959A (ja)
EP (1) EP0146434B1 (ja)
JP (1) JPS60123000A (ja)
DE (1) DE3477857D1 (ja)
FR (1) FR2554623B1 (ja)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62220998A (ja) * 1986-03-22 1987-09-29 工業技術院長 音声認識装置
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
JP3045510B2 (ja) * 1989-12-06 2000-05-29 富士通株式会社 音声認識処理装置
EP0438662A2 (en) * 1990-01-23 1991-07-31 International Business Machines Corporation Apparatus and method of grouping utterances of a phoneme into context-de-pendent categories based on sound-similarity for automatic speech recognition
JP2852298B2 (ja) * 1990-07-31 1999-01-27 日本電気株式会社 標準パターン適応化方式
US5222188A (en) * 1990-08-21 1993-06-22 Emerson & Stern Associates, Inc. Method and apparatus for speech recognition based on subsyllable spellings
US5208897A (en) * 1990-08-21 1993-05-04 Emerson & Stern Associates, Inc. Method and apparatus for speech recognition based on subsyllable spellings
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
US5212730A (en) * 1991-07-01 1993-05-18 Texas Instruments Incorporated Voice recognition of proper names using text-derived recognition models
DE4131387A1 (de) * 1991-09-20 1993-03-25 Siemens Ag Verfahren zur erkennung von mustern in zeitvarianten messsignalen
US5546499A (en) * 1994-05-27 1996-08-13 Kurzweil Applied Intelligence, Inc. Speech recognition system utilizing pre-calculated similarity measurements
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5920837A (en) * 1992-11-13 1999-07-06 Dragon Systems, Inc. Word recognition system which stores two models for some words and allows selective deletion of one such model
US6092043A (en) * 1992-11-13 2000-07-18 Dragon Systems, Inc. Apparatuses and method for training and operating speech recognition systems
US5668929A (en) * 1993-01-21 1997-09-16 Hirsch Electronics Corporation Speech activated security systems and methods
US5625748A (en) * 1994-04-18 1997-04-29 Bbn Corporation Topic discriminator using posterior probability or confidence scores
US5706398A (en) * 1995-05-03 1998-01-06 Assefa; Eskinder Method and apparatus for compressing and decompressing voice signals, that includes a predetermined set of syllabic sounds capable of representing all possible syllabic sounds
US5640488A (en) * 1995-05-05 1997-06-17 Panasonic Technologies, Inc. System and method for constructing clustered dictionary for speech and text recognition
US5754977A (en) * 1996-03-06 1998-05-19 Intervoice Limited Partnership System and method for preventing enrollment of confusable patterns in a reference database
DE19610848A1 (de) * 1996-03-19 1997-09-25 Siemens Ag Rechnereinheit zur Spracherkennung und Verfahren zur rechnergestützten Abbildung eines digitalisierten Sprachsignals auf Phoneme
US5865626A (en) * 1996-08-30 1999-02-02 Gte Internetworking Incorporated Multi-dialect speech recognition method and apparatus
US5946653A (en) * 1997-10-01 1999-08-31 Motorola, Inc. Speaker independent speech recognition system and method
JP3075250B2 (ja) * 1998-03-04 2000-08-14 日本電気株式会社 話者認識方法及び装置
AU777693B2 (en) 1999-03-05 2004-10-28 Canon Kabushiki Kaisha Database annotation and retrieval
JP2001117579A (ja) * 1999-10-21 2001-04-27 Casio Comput Co Ltd 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US7212968B1 (en) 1999-10-28 2007-05-01 Canon Kabushiki Kaisha Pattern matching method and apparatus
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
GB0027178D0 (en) * 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) * 2000-11-20 2001-01-03 Canon Kk Speech processing system
KR100406307B1 (ko) * 2001-08-09 2003-11-19 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
US7640164B2 (en) * 2002-07-04 2009-12-29 Denso Corporation System for performing interactive dialog
EP1524650A1 (en) * 2003-10-06 2005-04-20 Sony International (Europe) GmbH Confidence measure in a speech recognition system
DE102004055230B3 (de) * 2004-11-16 2006-07-20 Siemens Ag Verfahren zur Spracherkennung aus einem vorgebbaren Vokabular
JP5103907B2 (ja) * 2005-01-17 2012-12-19 日本電気株式会社 音声認識システム、音声認識方法及び音声認識プログラム
KR100744288B1 (ko) * 2005-12-28 2007-07-30 삼성전자주식회사 음성 신호에서 음소를 분절하는 방법 및 그 시스템
KR100717393B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 음성 인식기의 음성 인식에 대한 신뢰도 측정 방법 및 그장치
WO2009084000A1 (en) * 2007-12-31 2009-07-09 Onmobile Global Limited Method and system for searching preferred multimedia content
WO2012075640A1 (en) * 2010-12-10 2012-06-14 Panasonic Corporation Modeling device and method for speaker recognition, and speaker recognition system
CN102779510B (zh) * 2012-07-19 2013-12-18 东南大学 基于特征空间自适应投影的语音情感识别方法
CN103531198B (zh) * 2013-11-01 2016-03-23 东南大学 一种基于伪说话人聚类的语音情感特征规整化方法
WO2016133501A1 (en) * 2015-02-18 2016-08-25 Middle River Aircraft Systems Acoustic liners and method of shaping an inlet of an acoustic liner
CN117456999B (zh) * 2023-12-25 2024-04-30 广州小鹏汽车科技有限公司 音频识别方法、音频识别装置、车辆、计算机设备和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58132299A (ja) * 1982-02-01 1983-08-06 日本電信電話株式会社 不特定話者単語音声認識方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4059725A (en) * 1975-03-12 1977-11-22 Nippon Electric Company, Ltd. Automatic continuous speech recognition system employing dynamic programming
US4394538A (en) * 1981-03-04 1983-07-19 Threshold Technology, Inc. Speech recognition system and method
JPS57147781A (en) * 1981-03-06 1982-09-11 Nec Corp Pattern matching device
JPS58100195A (ja) * 1981-12-10 1983-06-14 日本電気株式会社 連続音声認識装置
JPS58105295A (ja) * 1981-12-18 1983-06-23 株式会社日立製作所 音声標準パタン作成方法
JPS58145998A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声過渡点検出方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58132299A (ja) * 1982-02-01 1983-08-06 日本電信電話株式会社 不特定話者単語音声認識方法

Also Published As

Publication number Publication date
FR2554623A1 (fr) 1985-05-10
JPS60123000A (ja) 1985-07-01
EP0146434A1 (en) 1985-06-26
DE3477857D1 (en) 1989-05-24
US4975959A (en) 1990-12-04
EP0146434B1 (en) 1989-04-19
FR2554623B1 (fr) 1986-08-14

Similar Documents

Publication Publication Date Title
JPH0554959B2 (ja)
JP3337233B2 (ja) 音声符号化方法及び装置
US4972485A (en) Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
JP2002366187A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
CN112349289B (zh) 一种语音识别方法、装置、设备以及存储介质
JPH07503559A (ja) 子供用音声訓練補助装置
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
US5307442A (en) Method and apparatus for speaker individuality conversion
EP4078571A1 (en) A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score
JPH0713594A (ja) 音声合成において音声の質を評価するための方法
CN116092473A (zh) 韵律标注模型、韵律预测模型的训练方法及相关设备
US4918731A (en) Speech recognition method and apparatus
JP3403838B2 (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JP2003005785A (ja) 音源の分離方法および分離装置
JP2004177551A (ja) 音声認識用未知発話検出装置及び音声認識装置
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JPH10254473A (ja) 音声変換方法及び音声変換装置
JP3440840B2 (ja) 音声認識方法及びその装置
JP2886118B2 (ja) 隠れマルコフモデルの学習装置及び音声認識装置
US6934680B2 (en) Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis
JP3584002B2 (ja) 音声認識装置および音声認識方法
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JP2543584B2 (ja) 音声標準パタン登録方式
JPH08211893A (ja) 音声認識装置
JP2000122693A (ja) 話者認識方法および話者認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees