JP5062171B2 - 音声認識システム、音声認識方法および音声認識用プログラム - Google Patents
音声認識システム、音声認識方法および音声認識用プログラム Download PDFInfo
- Publication number
- JP5062171B2 JP5062171B2 JP2008506329A JP2008506329A JP5062171B2 JP 5062171 B2 JP5062171 B2 JP 5062171B2 JP 2008506329 A JP2008506329 A JP 2008506329A JP 2008506329 A JP2008506329 A JP 2008506329A JP 5062171 B2 JP5062171 B2 JP 5062171B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- application
- data
- processing
- applications
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 82
- 238000012545 processing Methods 0.000 claims description 214
- 230000006978 adaptation Effects 0.000 claims description 82
- 230000003044 adaptive effect Effects 0.000 claims description 62
- 238000013500 data storage Methods 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 20
- 230000014509 gene expression Effects 0.000 claims description 14
- 238000013523 data management Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 208000027765 speech disease Diseases 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
音声入力手段より入力された音声の特徴量を抽出する特徴抽出手段と、
前記特徴抽出手段で抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する認識結果仮説生成手段と、を有する共通データ処理手段と、
それぞれが、前記認識結果仮説を基に、前記記憶装置に記憶された適応処理に関するデータを用いてアプリケーションに個別に特化した認識結果を生成し、複数の提供先の複数のアプリケーションに提供する適応手段を備えた適応用データ処理手段と、を備え、前記複数のアプリケーションに対して、認識結果仮説を生成する認識結果仮説生成手段を共通化してなるものである。
音声入力手段より入力された音声の特徴量を抽出する特徴抽出手段と、
前記特徴抽出手段で抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する認識結果仮説生成手段と、
を有する共通データ処理手段と、
前記記憶装置から音声認識処理用のデータを取得し、さらに、アプリケーション毎の適応処理に関するデータを前記記憶装置から取得し、適応先のアプリケーションとその適応処理に対応するデータを生成する適応データ管理手段と、
前記認識結果仮説を受け取り、前記適応データ管理手段で生成された適応処理に対応するデータに基づき、前記認識結果仮説に対してアプリケーションに応じた適応処理を行い、認識結果を複数の提供先に提供する共通適応手段と、
を有する適応用データ処理手段と、
を備え、前記複数のアプリケーションに対して前記共通適応手段を共通化した構成としてもよい。
音声入力手段より入力された音声の特徴量を抽出する工程と、
前記抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する工程と、
それぞれが、前記認識結果仮説を基に、前記記憶装置に記憶された適応処理に関するデータを用いて、アプリケーション向けの認識結果を生成し、対応するアプリケーションに適した認識結果を生成し、複数のアプリケーションに供給する工程と、
を含む。
前記第1の工程が、音声入力手段より入力された音声の特徴量を抽出する工程と、
前記抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する工程と、
を含み、
前記第2の工程が、前記記憶装置から音声認識用のデータを取得し、アプリケーション毎の適応処理に関するデータを前記記憶装置から取得し、適応先のアプリケーションとその適応処理に対応するデータを生成する工程と、
前記生成された適応処理に対応するデータに基づき、前記認識結果仮説を受け取り、適応処理を行い、認識結果を複数のアプリケーションにそれぞれ供給する工程と、
を含む。
音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶保持する記憶装置を備え、音声認識装置を構成するコンピュータに、
音声入力手段より入力された音声の特徴量を抽出する処理と、
前記抽出された特徴量に対して、前記記憶装置から読み込んだ音声認識用のデータを用いて、認識結果仮説を生成する処理と、
前記認識結果仮説を基に、前記記憶装置から読み込んだ適応処理に関するデータを用いて、アプリケーション向けの認識結果を生成し、対応するアプリケーションに適した認識結果を生成し、対応するアプリケーションにそれぞれ供給する処理と、
を実行させるプログラムよりなる。
音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶保持する記憶装置を備え、音声認識装置を構成するコンピュータに、
音声入力手段より入力された音声の特徴量を抽出する処理と、
前記抽出された特徴量に対して、前記記憶装置から読み込んだ、複数のアプリケーションに共通の処理に関する音声認識用データを用いて、認識結果仮説を生成する処理と、
前記記憶装置から音声認識用のデータを取得し、アプリケーション毎の適応処理に関するデータを前記記憶装置から取得し、適応先のアプリケーションとその適応処理に適切なデータを生成する処理と、
前記生成された適応処理に適切なデータに基づき、前記認識結果仮説を受け取り、適応処理を行い、認識結果を複数のアプリケーションにそれぞれ供給する処理と、
を実行させるプログラムよりなる。
11 メッセージ処理部
12 音声認識部
13 応用プログラム管理テーブル
100 音声入力手段
200 データ処理装置
210 共通データ処理手段
211 特徴抽出手段
212 認識結果仮説生成手段
220 適応用データ処理手段
221〜22N 適応手段
231 共通適応手段
232 適応データ管理手段
241 音声認識用データ加工手段
300 記憶装置
301 音声認識用データ記憶部
302 適応用データ記憶部
401〜40N アプリケーション
600 音声認識プログラム
700 データ処理装置
・HMMなどで表現される音響モデル、
・Nグラムなどで表現される言語モデル
などを記憶する。
・単語グラフや、
・Nベスト単語列
などで表現される認識結果仮説を生成する。
・複数の言語モデルの重み付け合成や、
・特定の認識語彙の言語スコアの底上げ
のような処理が適用される。
・HMM(Hidden Markov Model)などで表現される音響モデル、
・Nグラムなどで表現される言語モデル、
などを記憶する。
・各アプリケーションで使用する語彙の単語重み情報や、
・認識結果仮説のリスコアのためのパラメタ、
などを記憶する。
・オペレータの端末上で、現在の自らの通話を文字化して表示するアプリケーションや、
・オペレータの端末上で、同じく通話からキーワードを抽出して情報検索するもの、
・オペレータの管理者(スーパバイザ)の端末上に、通話の文字化情報を提示するもの、
・オペレータの管理者(スーパバイザ)の端末上に、同じくオペレータに手助けが必要な状況を検出して提示するもの、
など、
一つの音声について、同時にさまざまなアプリケーションが動作する。
・メル周波数ケプストラム係数(MFCC;Mel Frequency Cepstrum Coefficients)の多次元ベクトルや、
・音声のパワー、
・音声のピッチ周波数
などが使用される。
・HMMなどの音響モデルや、
・Nグラムや文法制約などの言語モデル
から得られるスコアを用いて、尤もらしい単語列を探索する。
・Nベスト単語列や、
・単語グラフ
など、複数の候補単語列を認識結果仮説として生成する。
・品詞や、
・読み、
・探索スコアや、
・信頼度
などの属性情報を、必要に応じて付加しておく。
・より詳細なモデルや通話に適応した言語モデルで再計算したり、あるいは、
・仮説中の単語の信頼度を用いて順位を再計算したりする、
などの方法によって、認識性能を向上させることができる。
・その表現の含まれる認識結果仮説のみを対象に再計算したり、
・当該単語の言語スコアの底上げや対象外単語の言語スコアの抑制をした言語モデルを用いて再探索したりする、
ことで、より精度の高い検出ができる。
Claims (34)
- 一つの入力音声信号を音声認識した結果得られた認識結果仮説に対して、複数の出力先に応じて、それぞれ異なる仕方で再スコアを行う適応手段を備え、
前記入力音声信号に対して、同時に、複数の前記出力先に対して、互いに異なる、複数の認識結果を生成して出力することを特徴とする音声認識システム。 - 一つの音声入力手段より入力された音声に対して、特定の応用の語彙に偏らない認識結果仮説を生成する共通データ処理手段と、
前記共通データ処理手段からの認識結果仮説を受け、複数の前記アプリケーションのそれぞれに個別に特化した認識結果を同時に生成して出力する適応用データ処理手段と、
を備えている、ことを特徴とする音声認識システム。 - 音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶する記憶装置を備え、
前記処理装置は、
音声入力手段より入力された音声の特徴量を抽出する特徴抽出手段と、
前記特徴抽出手段で抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する認識結果仮説生成手段と、
を有する共通データ処理手段と、
それぞれが、一つの前記認識結果仮説を基に、前記記憶装置に記憶された適応処理に関するデータを用いて、複数のアプリケーションのそれぞれに個別に適した認識結果を同時に生成し、対応するアプリケーションにそれぞれ供給する複数の適応手段と、
を備え、
前記複数の提供先である前記複数のアプリケーションに対して、認識結果仮説を生成する認識結果仮説生成手段を共通化してなる、ことを特徴とする請求項1記載の音声認識システム。 - 前記複数のアプリケーションの少なくともいずれか一つに偏らない認識結果を出力することを特徴とする請求項2又は3記載の音声認識システム。
- 前記複数のアプリケーションが、前記入力した音声の文字化を行うアプリケーション、及び/又は、前記入力した音声から予め定められた所定の表現を抽出するアプリケーションを含む、ことを特徴とする請求項2又は3記載の音声認識システム。
- 前記複数のアプリケーションは、音声認識結果を取得し、それぞれ独自の処理を行うアプリケーションであって、
オペレータの端末上で、自らの通話を文字化して表示するアプリケーション、
オペレータの端末上で、通話からキーワードを抽出して情報検索するアプリケーション、
オペレータの管理者の端末上に、通話の文字化情報を提示するアプリケーション、
オペレータの管理者の端末上に、前記オペレータに手助けが必要な状況を検出して提示するアプリケーション、
のうちの複数種を含む、ことを特徴とする請求項2又は3記載の音声認識システム。 - 前記複数のアプリケーションが、通話をそのまま文字化するアプリケーションと、前記通話から不適切な発言を検出するアプリケーションとを含む、ことを特徴とする請求項2又は3記載の音声認識システム。
- 通話にめったに現れない表現は含まない認識語彙の言語モデルを使用した方がより精度の高い認識を実現可能な、通話を文字化するアプリケーションと、
通話にめったに現れない不適切な表現のスコアを大きくした言語モデルを用いた方がより精度の高い認識を実現可能な、不適切な発言を検出するアプリケーションと、を含み、
前記共通データ処理手段の出力する認識結果仮説は、特定のアプリケーションの語彙に偏らないように設定され、前記適応手段では、前記認識結果仮説を各アプリケーションに特化して、再計算する、ことを特徴とする請求項3記載の音声認識システム。 - 音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、各アプリケーションで異なる処理に関するデータを記憶する記憶装置を備え、
音声入力手段より入力された音声の特徴量を抽出する特徴抽出手段と、
前記特徴抽出手段で抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する認識結果仮説生成手段と、
を有する共通データ処理手段と、
前記記憶装置から音声認識処理用のデータを取得し、さらに、アプリケーション毎の適応処理に関するデータを前記記憶装置から取得し、適応先のアプリケーションとその適応処理に対応するデータを生成する適応データ管理手段と、
前記認識結果仮説を受け取り、前記適応データ管理手段で生成された適応処理に対応するデータに基づき、前記認識結果仮説に対してアプリケーションに応じた適応処理を行い、認識結果を、前記複数の提供先のアプリケーションにそれぞれ提供する共通適応手段と、
を有する適応用データ処理手段と、
を備え、
前記複数の提供先である前記複数のアプリケーションに対して前記共通適応手段を共通化してなる、ことを特徴とする請求項1記載の音声認識システム。 - 前記記憶装置は、
音声認識処理のうち各アプリケーションに共通の処理に関するデータとして音響モデルや言語モデルを記憶する音声認識データ記憶部と、
音声認識処理のうち各アプリケーションで異なる処理に関するデータとして、認識語彙の単語重み情報や、認識結果仮説の再スコアのためのパラメタを記憶する適応用データ記憶部と、
を備えている、ことを特徴とする請求項3又は9記載の音声認識システム。 - 前記音声認識データ記憶部から音声認識用データを取得し、各アプリケーションに関する適応用データを前記適応用データ記憶部から取得し、それらを合成した認識用データを作成する音声認識用データ加工手段をさらに備えている、ことを特徴とする請求項10記載の音声認識システム。
- 前記音声認識用データ加工手段は、合成としては、複数の言語モデルの重み付け合成や、特定の認識語彙の言語スコアの底上げを行う、ことを特徴とする請求項11記載の音声認識システム。
- 一つの入力音声信号を音声認識した結果得られた認識結果仮説に対して、複数の出力先に応じて、それぞれ異なる仕方で再スコアを行う工程と、
前記入力音声信号に対して、同時に、複数の前記出力先に対して、互いに異なる、複数の認識結果を生成して出力する工程と、
を含む、ことを特徴とする音声認識方法。 - 一つの音声入力手段より入力された音声に対して、特定の応用の語彙に偏らない認識結果仮説を生成する第1の工程と、
前記認識結果仮説を受け、複数の前記アプリケーションのそれぞれに個別に特化した認識結果を生成して出力する第2の工程と、
を含む、ことを特徴とする音声認識方法。 - 音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶装置に記憶保持しておき、
前記第1の工程が、音声入力手段より入力された音声の特徴量を抽出する工程と、
前記抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する工程と、
を含み、
前記第2の工程が、それぞれが、一つの前記認識結果仮説を基に、前記記憶装置に記憶された適応処理に関するデータを用いて、複数のアプリケーション向けのそれぞれに適した認識結果を同時に生成し、対応するアプリケーションにそれぞれ供給する工程と、
を含む、ことを特徴とする請求項14記載の音声認識方法。 - 前記複数のアプリケーションの少なくともいずれか一つに偏らない認識結果を出力することを特徴とする請求項14又は15記載の音声認識方法。
- 前記複数のアプリケーションが、前記入力した音声の文字化を行うアプリケーション、及び/又は、前記入力した音声から予め定められた所定の表現を抽出するアプリケーションを含む、ことを特徴とする請求項14又は15記載の音声認識方法。
- 前記複数のアプリケーションは、音声認識結果を取得し、それぞれ独自の処理を行うアプリケーションであって、
オペレータの端末上で、自らの通話を文字化して表示するアプリケーション、
オペレータの端末上で、通話からキーワードを抽出して情報検索するアプリケーション、
オペレータの管理者の端末上に、通話の文字化情報を提示するアプリケーション、
オペレータの管理者の端末上に、前記オペレータに手助けが必要な状況を検出して提示するアプリケーション、
のうちの複数種を含む、ことを特徴とする請求項14又は15記載の音声認識方法。 - 前記複数のアプリケーションが、通話をそのまま文字化するアプリケーションと、前記通話から不適切な発言を検出するアプリケーションとを含む、ことを特徴とする請求項14又は15記載の音声認識方法。
- 音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、各アプリケーションで異なる処理に関するデータを記憶装置に記憶保持しておき、
前記第1の工程が、音声入力手段より入力された音声の特徴量を抽出する工程と、
前記抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する工程と、
を含み、
前記第2の工程が、前記記憶装置から音声認識用のデータを取得し、アプリケーション毎の適応処理に関するデータを前記記憶装置から取得し、適応先のアプリケーションとその適応処理に対応するデータを生成する工程と、
前記生成された適応処理に対応するデータに基づき、前記認識結果仮説を受け取り、適応処理を行い、認識結果を複数のアプリケーションにそれぞれ供給する工程と、
を含む、ことを特徴とする請求項14記載の音声認識方法。 - 前記記憶装置から音声認識用データとアプリケーションに関する適応用データを取得し、それらを合成し、音声認識処理用のデータを作成する工程と、をさらに含む、ことを特徴とする請求項15又は20記載の音声認識方法。
- 音声認識装置を構成するコンピュータに、
一つの入力音声信号を音声認識した結果得られた認識結果仮説に対して、複数の出力先に応じて、それぞれ異なる仕方で再スコアを行う処理と、
前記入力音声信号に対して、同時に、複数の前記出力先に対して、互いに異なる、複数の認識結果を生成して出力する処理と、を実行させるプログラム。 - 音声認識装置を構成するコンピュータに、
一つの音声入力手段より入力された音声に対して、特定の応用の語彙に偏らない認識結果仮説を生成する第1の処理と、
前記認識結果仮説を受け、複数の前記アプリケーションのそれぞれに個別に特化した認識結果を生成して出力する第2の処理と、
を実行させるプログラム。 - 前記コンピュータは、音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶保持する記憶装置を備え、
前記第1の処理は、音声入力手段より入力された音声の特徴量を抽出する処理と、
前記抽出された特徴量に対して、前記記憶装置に記憶された音声認識用のデータを用いて、認識結果仮説を生成する処理と、
を含み、
前記第2の処理は、一つの前記認識結果仮説を基に、前記記憶装置に記憶された適応処理に関するデータを用いて、複数のアプリケーション向けのそれぞれに適した認識結果を生成し、対応するアプリケーションにそれぞれ供給する処理と、
を含む請求項23記載のプログラム。 - 前記複数のアプリケーションの少なくともいずれか一つに偏らない認識結果を出力することを特徴とする請求項22又は23記載のプログラム。
- 前記複数のアプリケーションが、前記入力した音声の文字化を行うアプリケーション、及び/又は、前記入力した音声から予め定められた所定の表現を抽出するアプリケーションを含む、ことを特徴とする請求項22又は23記載のプログラム。
- 前記複数のアプリケーションは、音声認識結果を取得し、それぞれ独自の処理を行うアプリケーションであって、
オペレータの端末上で、自らの通話を文字化して表示するアプリケーション、
オペレータの端末上で、通話からキーワードを抽出して情報検索するアプリケーション、
オペレータの管理者の端末上に、通話の文字化情報を提示するアプリケーション、
オペレータの管理者の端末上に、前記オペレータに手助けが必要な状況を検出して提示するアプリケーション、
のうちの複数種を含む、ことを特徴とする請求項22又は23記載のプログラム。 - 前記複数のアプリケーションが、通話をそのまま文字化するアプリケーションと、前記通話から不適切な発言を検出するアプリケーションとを含む、ことを特徴とする請求項22又は23記載のプログラム。
- 前記コンピュータは、音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶保持する記憶装置を備え、
前記第1の処理は、音声入力手段より入力された音声の特徴量を抽出する処理と、
前記抽出された特徴量に対して、前記記憶装置に記憶された、複数のアプリケーションに共通の処理に関する音声認識用データを用いて、認識結果仮説を生成する処理と、
を含み、
前記第2の処理は、前記記憶装置から音声認識用のデータを取得し、アプリケーション毎の適応処理に関するデータを前記記憶装置から取得し、適応先のアプリケーションとその適応処理に対応するデータを生成する処理と、
前記生成された適応処理に対応するデータに基づき、前記認識結果仮説を受け取り、適応処理を行い、認識結果を複数のアプリケーションにそれぞれ供給する処理と、
を含む請求項23記載のプログラム。 - 一つの入力音声手段より入力された音声信号の特徴量を抽出する特徴抽出手段と、前記特徴抽出手段で抽出された音声特徴量に対して、記憶装置に予め記憶されている音響モデルや言語モデルを用いて単語列を探索して特定の応用の語彙に偏らない認識結果仮説を生成する認識結果仮説生成手段と、を含む共通データ処理手段を、音声認識結果を取得してそれぞれ処理を行う複数の前記アプリケーションに対して共通に備え、
アプリケーションで用いられる語彙又は該語彙と単語の重み情報を含む再スコア用単語辞書、又は、言語モデルを、アプリケーション毎に参照して、前記認識結果仮説の再スコアを行い、複数の前記アプリケーション向けのそれぞれに適した音声認識結果を生成し、対応するアプリケーションにそれぞれ供給する複数の適応手段を備えている、ことを特徴とする処理装置。 - 前記適応手段を前記複数のアプリケーションにそれぞれ対応して備えている、ことを特徴とする請求項30記載の処理装置。
- 音声認識結果を出力するアプリケーションに応じて再スコア用単語辞書を切り替える手段を備え、前記適応手段を、前記複数のアプリケーションに対して共通化してなる、ことを特徴とする請求項30記載の処理装置。
- 前記再スコア用単語辞書の単語リストから音声認識用の言語モデルを作成する手段を備えている、ことを特徴とする請求項30記載の処理装置。
- 音声信号を入力し音声認識結果を複数のアプリケーションに供給する音声認識用のサーバを備え、1つの音声入力に対して複数のアプリケーションが動作するシステムであって、請求項30乃至33のいずれか一記載の処理装置を前記音声認識用のサーバとして備えたシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008506329A JP5062171B2 (ja) | 2006-03-23 | 2007-03-22 | 音声認識システム、音声認識方法および音声認識用プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006081345 | 2006-03-23 | ||
JP2006081345 | 2006-03-23 | ||
PCT/JP2007/055811 WO2007108500A1 (ja) | 2006-03-23 | 2007-03-22 | 音声認識システム、音声認識方法および音声認識用プログラム |
JP2008506329A JP5062171B2 (ja) | 2006-03-23 | 2007-03-22 | 音声認識システム、音声認識方法および音声認識用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2007108500A1 JPWO2007108500A1 (ja) | 2009-08-06 |
JP5062171B2 true JP5062171B2 (ja) | 2012-10-31 |
Family
ID=38522526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008506329A Expired - Fee Related JP5062171B2 (ja) | 2006-03-23 | 2007-03-22 | 音声認識システム、音声認識方法および音声認識用プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8781837B2 (ja) |
JP (1) | JP5062171B2 (ja) |
WO (1) | WO2007108500A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8364481B2 (en) | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
US20110224982A1 (en) * | 2010-03-12 | 2011-09-15 | c/o Microsoft Corporation | Automatic speech recognition based upon information retrieval methods |
US9634855B2 (en) | 2010-05-13 | 2017-04-25 | Alexander Poltorak | Electronic personal interactive device that determines topics of interest using a conversational agent |
US9037463B2 (en) * | 2010-05-27 | 2015-05-19 | Nuance Communications, Inc. | Efficient exploitation of model complementariness by low confidence re-scoring in automatic speech recognition |
US8630860B1 (en) * | 2011-03-03 | 2014-01-14 | Nuance Communications, Inc. | Speaker and call characteristic sensitive open voice search |
US20140280239A1 (en) * | 2013-03-15 | 2014-09-18 | Sas Institute Inc. | Similarity determination between anonymized data items |
US9159317B2 (en) * | 2013-06-14 | 2015-10-13 | Mitsubishi Electric Research Laboratories, Inc. | System and method for recognizing speech |
US10643616B1 (en) * | 2014-03-11 | 2020-05-05 | Nvoq Incorporated | Apparatus and methods for dynamically changing a speech resource based on recognized text |
JP6229071B2 (ja) * | 2014-10-24 | 2017-11-08 | 株式会社ソニー・インタラクティブエンタテインメント | 制御装置、制御方法、プログラム及び情報記憶媒体 |
WO2016063564A1 (ja) | 2014-10-24 | 2016-04-28 | 株式会社ソニー・コンピュータエンタテインメント | 制御装置、制御方法、プログラム及び情報記憶媒体 |
CN105679319B (zh) * | 2015-12-29 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法及装置 |
CN109634692A (zh) * | 2018-10-23 | 2019-04-16 | 蔚来汽车有限公司 | 车载对话系统及用于其的处理方法和系统 |
KR20210084615A (ko) * | 2018-12-03 | 2021-07-07 | 구글 엘엘씨 | 음성 입력 프로세싱 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000075886A (ja) * | 1998-08-28 | 2000-03-14 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 統計的言語モデル生成装置及び音声認識装置 |
JP2004252121A (ja) * | 2003-02-20 | 2004-09-09 | Sony Corp | 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体 |
JP2005024797A (ja) * | 2003-06-30 | 2005-01-27 | Internatl Business Mach Corp <Ibm> | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム |
JP2005234504A (ja) * | 2004-02-23 | 2005-09-02 | Advanced Telecommunication Research Institute International | 音声認識装置及びhmm発音モデルをトレーニングする方法 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5632002A (en) * | 1992-12-28 | 1997-05-20 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
JP3725566B2 (ja) | 1992-12-28 | 2005-12-14 | 株式会社東芝 | 音声認識インターフェース |
US5895447A (en) * | 1996-02-02 | 1999-04-20 | International Business Machines Corporation | Speech recognition using thresholded speaker class model selection or model adaptation |
US5835890A (en) * | 1996-08-02 | 1998-11-10 | Nippon Telegraph And Telephone Corporation | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon |
BR9712979A (pt) * | 1996-09-10 | 2000-10-31 | Siemens Ag | Processo para adaptação de um modelo acústico hidden markov em um sistema de identificação de fala |
JP3500948B2 (ja) | 1998-02-18 | 2004-02-23 | 株式会社デンソー | 音声認識装置 |
DE69912754D1 (de) * | 1998-03-09 | 2003-12-18 | Lernout & Hauspie Speechprod | Vorrichtung und verfahren zum gleichzeitigen multimodalen diktieren |
US6205426B1 (en) * | 1999-01-25 | 2001-03-20 | Matsushita Electric Industrial Co., Ltd. | Unsupervised speech model adaptation using reliable information among N-best strings |
US6421641B1 (en) * | 1999-11-12 | 2002-07-16 | International Business Machines Corporation | Methods and apparatus for fast adaptation of a band-quantized speech decoding system |
US7451085B2 (en) * | 2000-10-13 | 2008-11-11 | At&T Intellectual Property Ii, L.P. | System and method for providing a compensated speech recognition model for speech recognition |
US6964023B2 (en) * | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US7209880B1 (en) * | 2001-03-20 | 2007-04-24 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
US7609829B2 (en) * | 2001-07-03 | 2009-10-27 | Apptera, Inc. | Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution |
US7668718B2 (en) * | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
JP3913626B2 (ja) | 2002-07-17 | 2007-05-09 | 日本電信電話株式会社 | 言語モデル生成方法、その装置及びそのプログラム |
US7031915B2 (en) * | 2003-01-23 | 2006-04-18 | Aurilab Llc | Assisted speech recognition by dual search acceleration technique |
WO2005017768A1 (en) * | 2003-08-15 | 2005-02-24 | Silverbrook Research Pty Ltd | Improving accuracy in searching digital ink |
US7464031B2 (en) * | 2003-11-28 | 2008-12-09 | International Business Machines Corporation | Speech recognition utilizing multitude of speech features |
-
2007
- 2007-03-22 JP JP2008506329A patent/JP5062171B2/ja not_active Expired - Fee Related
- 2007-03-22 US US12/294,150 patent/US8781837B2/en not_active Expired - Fee Related
- 2007-03-22 WO PCT/JP2007/055811 patent/WO2007108500A1/ja active Search and Examination
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000075886A (ja) * | 1998-08-28 | 2000-03-14 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 統計的言語モデル生成装置及び音声認識装置 |
JP2004252121A (ja) * | 2003-02-20 | 2004-09-09 | Sony Corp | 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体 |
JP2005024797A (ja) * | 2003-06-30 | 2005-01-27 | Internatl Business Mach Corp <Ibm> | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム |
JP2005234504A (ja) * | 2004-02-23 | 2005-09-02 | Advanced Telecommunication Research Institute International | 音声認識装置及びhmm発音モデルをトレーニングする方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2007108500A1 (ja) | 2007-09-27 |
US8781837B2 (en) | 2014-07-15 |
JPWO2007108500A1 (ja) | 2009-08-06 |
US20100030560A1 (en) | 2010-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5062171B2 (ja) | 音声認識システム、音声認識方法および音声認識用プログラム | |
JP7436760B1 (ja) | サブワードエンドツーエンド自動音声認識のための学習ワードレベルコンフィデンス | |
US8862478B2 (en) | Speech translation system, first terminal apparatus, speech recognition server, translation server, and speech synthesis server | |
US8170866B2 (en) | System and method for increasing accuracy of searches based on communication network | |
WO2020226789A1 (en) | Contextual biasing for speech recognition | |
JP4267081B2 (ja) | 分散システムにおけるパターン認識登録 | |
JP4902617B2 (ja) | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム | |
US11093110B1 (en) | Messaging feedback mechanism | |
US10854191B1 (en) | Machine learning models for data driven dialog management | |
US10325599B1 (en) | Message response routing | |
US20220122622A1 (en) | Cascaded Encoders for Simplified Streaming and Non-Streaming ASR | |
US10152298B1 (en) | Confidence estimation based on frequency | |
WO2022076029A1 (en) | Transformer transducer: one model unifying streaming and non-streaming speech recognition | |
Bano et al. | Speech to text translation enabling multilingualism | |
US12014729B2 (en) | Mixture model attention for flexible streaming and non-streaming automatic speech recognition | |
US11532301B1 (en) | Natural language processing | |
CN112420050B (zh) | 一种语音识别方法、装置和电子设备 | |
JPWO2019031268A1 (ja) | 情報処理装置、及び情報処理方法 | |
CN110164416B (zh) | 一种语音识别方法及其装置、设备和存储介质 | |
US12062363B2 (en) | Tied and reduced RNN-T | |
US11626107B1 (en) | Natural language processing | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
Tan et al. | Addressing accent mismatch In Mandarin-English code-switching speech recognition | |
KR102699035B1 (ko) | 자동 음성 인식을 위한 다언어 리스코어링 모델들 | |
US20230326461A1 (en) | Unified Cascaded Encoder ASR model for Dynamic Model Sizes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120528 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120710 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120723 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5062171 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150817 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |