JP4322785B2 - 音声認識装置、音声認識方法および音声認識プログラム - Google Patents
音声認識装置、音声認識方法および音声認識プログラム Download PDFInfo
- Publication number
- JP4322785B2 JP4322785B2 JP2004339686A JP2004339686A JP4322785B2 JP 4322785 B2 JP4322785 B2 JP 4322785B2 JP 2004339686 A JP2004339686 A JP 2004339686A JP 2004339686 A JP2004339686 A JP 2004339686A JP 4322785 B2 JP4322785 B2 JP 4322785B2
- Authority
- JP
- Japan
- Prior art keywords
- section
- unit
- recognition
- information
- relation value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 80
- 238000013179 statistical model Methods 0.000 claims description 119
- 238000004364 calculation method Methods 0.000 claims description 52
- 238000012545 processing Methods 0.000 claims description 52
- 238000000605 extraction Methods 0.000 claims description 49
- 239000013598 vector Substances 0.000 claims description 42
- 239000000284 extract Substances 0.000 claims description 13
- 230000010354 integration Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 46
- 230000008859 change Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 24
- 230000005236 sound signal Effects 0.000 description 20
- 230000007704 transition Effects 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、実施の形態1にかかる音声認識装置10の全体構成を示すブロック図である。 音声認識装置10は、音声取得部100と、特徴量抽出部102と、区間情報生成部104と、区間関係値算出部106と、認識結果選択部112と、認識結果出力部114と、認識候補データベース120とを備えている。
次に、実施の形態2にかかる音声認識装置10について説明する。図9は、実施の形態2にかかる音声認識装置10の機能構成を示すブロック図である。本実施の形態における音声認識装置10は、区間関係値が正規分布に従うと仮定して、注目した候補から求めた区間関係値に対し、区間関係値モデル尤度を算出する。ここで、区間関係値モデル尤度とは、区間関係値により定まるモデルの尤もらしさを示す値である。
次に、実施の形態3にかかる音声認識装置10について説明する。図20は、実施の形態3にかかる音声認識装置10の機能構成を示すブロック図である。
次に実施の形態4にかかる音声認識装置10について説明する。実施の形態4にかかる音声認識装置10は、実施の形態1および実施の形態2にかかる音声認識装置10と同様に、区間関係値に対する統計モデルを保持している。但し、実施の形態4にかかる音声認識装置10は、統計モデルを利用して、区間境界を推定する。この点で、実施の形態4にかかる音声認識装置10は、他の実施の形態にかかる音声認識装置10と異なっている。
51 CPU
52 ROM
53 RAM
57 通信I/F
62 バス
100 音声取得部
102 特徴量抽出部
104 区間情報生成部
106 区間関係値算出部
112 認識結果選択部
114 認識結果出力部
120 認識候補データベース
130 認識候補抽出部
132 区間関係値モデル尤度算出部
134 統合尤度算出部
136 統計モデル保持部
138 拍数テーブル保持部
140 認識仮説展開部
142 認識仮説探索部
150 音声区間推定部
152 区間情報推定部
154 尤度算出部
200 基準ベクトル
210 区間1ベクトル
220 区間2ベクトル
230 加算ベクトル
Claims (25)
- 音声情報に対して音声認識を行う音声認識装置であって、
前記音声情報を取得する音声情報取得手段と、
前記音声情報取得手段が取得した前記音声情報を時間に依存しない単位の複数の単位区間に分割する単位区間分割手段と、
前記単位区間分割手段によって得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得手段と、
前記区間情報取得手段が取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出手段と、
前記音声認識の対象となる認識候補を格納している認識候補格納手段と、
前記区間関係値算出手段によって算出された前記区間関係値を利用して、前記認識候補格納手段に格納されている認識候補の中から認識結果を選択する認識結果選択手段と
を備えたことを特徴とする音声認識装置。 - 前記単位区間分割手段により得られた前記対象区間が人の発話に対応する発話区間であるか否かを判断する発話区間判断手段をさらに備え、
前記区間関係値算出手段は、前記発話区間判断手段により前記対象区間が前記発話区間であると判断された場合に、当該対象区間の前記区間関係値を算出することを特徴とする請求項1に記載の音声認識装置。 - 前記単位区間分割手段により得られた前記隣接区間が人の発話に対応する発話区間であるか否かを判断する発話区間判断手段をさらに備え、
前記区間関係値算出手段は、前記発話区間判断手段により前記隣接区間が前記発話区間であると判断された場合に、当該隣接区間の区間情報に基づいて、前記対象区間の前記区間関係値を算出することを特徴とする請求項1または2に記載の音声認識装置。 - 前記区間関係値算出手段は、前記発話区間判断手段により前記隣接区間が前記発話区間でないと判断された場合に、当該隣接区間に隣接する第2隣接区間の区間情報に基づいて、前記第2隣接区間に対する前記対象区間の相対的な特徴を示す区間関係値を算出することを特徴とする請求項3に記載の音声認識装置。
- 前記区間関係値算出手段は、前記発話区間判断手段によって前記隣接区間が前記発話区間でないと判断された場合に、前記隣接区間に対する前記対象区間の相対的な特徴を示す前記区間関係値を算出しないことを特徴とする請求項3に記載の音声認識装置。
- 前記区間情報取得手段は、複数の単位区間それぞれの時間長を示す区間情報を取得し、
前記区間関係値算出手段は、前記対象区間の時間長と前記隣接区間の時間長とに基づいて、前記対象区間の前記区間関係値を算出することを特徴とする請求項1から5のいずれか一項に記載の音声認識装置。 - 前記区間関係値算出手段は、前記対象区間の時間長の前記隣接区間の時間長に対する比率を前記区間関係値として算出することを特徴とする請求項6に記載の音声認識装置。
- 前記区間情報取得手段は、前記対象区間の前記区間情報と当該対象区間に隣接する連続した複数の隣接区間それぞれに対する前記区間情報とを取得し、
前記区間関係値算出手段は、前記区間情報取得手段が取得した前記対象区間の前記区間情報と、前記複数の隣接区間それぞれに対する前記区間情報とに基づいて、前記複数の隣接区間に対する前記対象区間の相対的な特徴を示す区間関係値を算出することを特徴とする請求項1から7のいずれか一項に記載の音声認識装置。 - 前記区間関係値算出手段は、前記対象区間と一または二以上の前記隣接区間それぞれに対応する基底ベクトルであって、かつそれぞれのベクトルの長さが各単位区間の時間長を示す複数のベクトルに基づいて、一または二以上の前記隣接区間に対する前記対象区間の相対的な特徴を示す区間関係値を算出することを特徴とする請求項1から8のいずれか一項に記載の音声認識装置。
- 前記区間関係値算出手段は、前記複数のベクトルを加算して得られた加算ベクトルと、予め定められた基準ベクトルとがなす角の角度に関する値を区間関係値として算出することを特徴とする請求項9に記載の音声認識装置。
- 音声情報に対して音声認識を行う音声認識装置であって、
前記音声情報を取得する音声情報取得手段と、
前記音声情報取得手段が取得した前記音声信号の音声認識を行う音声認識手段と、
前記音声認識の対象となる認識候補を格納している認識候補格納手段と、
前記音声認識手段による音声認識の結果に基づいて、前記認識候補格納手段に格納されている認識候補の中から所定の認識候補を抽出する認識候補抽出手段と、
前記認識候補抽出手段が抽出した前記認識候補を、時間に依存しない単位の複数の単位区間に分割する区間分割手段と、
前記区間分割手段によって得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得手段と、
前記区間情報取得手段が取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出手段と、
前記区間関係値算出手段によって算出された前記区間関係値に基づいて、前記認識候補の中から認識結果を選択する認識結果選択手段と
を備えたことを特徴とする音声認識装置。 - 前記区間関係値が取り得る統計モデルを保持する統計モデル保持手段と、
前記統計モデル保持手段が保持している前記統計モデルにおける区間関係値の分布と、前記対象区間に対して得られた前記区間関係値とに基づいて、前記認識候補の確からしさを示す尤度を算出する尤度算出手段と
をさらに備え、
前記認識結果選択手段は、前記尤度算出手段によって算出された前記尤度を利用して、前記認識候補格納手段に格納されている認識候補の中から認識結果を選択することを特徴とする請求項11に記載の音声認識装置。 - 前記統計モデル保持手段は、前記対象区間と前記隣接区間の組み合わせに対応付けて、それぞれの組み合わせに対して算出される前記区間関係値が取り得る統計モデルを保持し、
前記尤度算出手段は、前記統計モデル保持手段が前記対象区間と前記隣接区間の組み合わせに対応付けて保持している前記統計モデルに基づいて、前記音声認識結果の尤度を算出することを特徴とする請求項12に記載の音声認識装置。 - 前記尤度算出手段は、前記統計モデルと前記区間関係値とに基づいて、前記認識候補の確からしさを示す区間関係値モデル尤度を算出し、さらに音響モデルに基づいて、前記認識の候補の確からしさを示す音響モデル尤度を算出し、前記区間関係値モデル尤度および前記音響モデル尤度に基づいて、前記区間関係値モデル尤度と前記音響モデル尤度を統合した尤度である統合尤度を算出することを特徴とする請求項12または13に記載の音声認識装置。
- 前記尤度算出手段は、前記区間関係値モデル尤度と前記音響モデル尤度のうち少なくともいずれか一方に対して予め定められた重みを付与し、重みが付与された前記区間関係値モデル尤度および前記音響モデル尤度に基づいて、前記統合尤度を算出することを特徴とする請求項14に記載の音声認識装置。
- 前記尤度算出手段は、前記区間関係値モデル尤度と前記音響モデル尤度のうち少なくともいずれか一方に対して、前記音声情報全体に対する前記対象区間の相対的な位置に基づいて定まる重みを付与し、重みが付与された前記区間関係値モデル尤度および前記音響モデル尤度に基づいて、統合尤度を算出することを特徴とする請求項15に記載の音声認識装置。
- 前記区間に含まれる音声の種類と、当該種類の音声が取り得る拍数とを対応付けて保持する対応テーブル保持手段と、
前記統計モデル保持手段が保持している統計モデルから、前記対象区間と前記隣接区間の組み合わせから算出される前記区間関係値が取り得る前記統計モデルを検索する統計モデル検索手段と、
前記統計モデル検索手段が前記統計モデル保持手段に前記対象区間と前記隣接区間の組み合わせに対応する前記統計モデルが存在しないと判断した場合に、前記対象区間および前記隣接区間それぞれの音声の種類に対応付けて、前記対応テーブル保持手段が保持している拍数に基づいて前記統計モデルにおけるパラメータを推定するパラメータ推定手段と
をさらに備え、
前記尤度算出手段は、前記パラメータ推定手段によって推定されたパラメータに基づいて得られた統計モデルと前記区間関係値とに基づいて、前記認識候補の確からしさを示す尤度を算出することを特徴とする請求項12から16のいずれか一項に記載の音声認識装置。 - 前記区間に含まれる音声の種類と、当該種類の音声が取り得る拍数とを対応付けて保持する対応テーブル保持手段と、
前記対応テーブル保持手段が、前記対象区間および前記隣接区間それぞれの音声の種類に対応付けて保持している拍数に基づいて前記統計モデルにおけるパラメータを推定するパラメータ推定手段と
をさらに備え、
前記尤度算出手段は、前記パラメータ推定手段によって推定されたパラメータに基づいて得られた統計モデルと前記区間関係値とに基づいて、前記音声認識における尤度を算出することを特徴とする請求項12から16のいずれか一項に記載の音声認識装置。 - 音声情報に対して音声認識を行う音声認識装置であって、
前記音声情報を取得する音声情報取得手段と、
前記音声認識の対象となる認識候補を格納している認識候補格納手段と、
前記音声情報取得手段が取得した前記音声情報の一部である部分音声情報を利用して、前記認識候補格納手段が格納している前記認識候補の中から一または二以上の認識候補を抽出する認識候補抽出手段と、
前記認識候補抽出手段が抽出した前記認識候補の一部を、時間に依存しない単位の複数の単位区間に分割する単位区間分割手段と、
前記単位区間分割手段によって得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得手段と、
前記区間情報取得手段が取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間であって、既に取得している音声情報に含まれる区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出手段と、
前記区間関係値算出手段によって算出された前記区間関係値を利用して、前記認識候補の中から認識結果を選択する認識結果選択手段と
を備えたことを特徴とする音声認識装置。 - 音声情報に対して音声認識を行う音声認識方法であって、
前記音声情報を取得する音声情報取得ステップと、
前記音声情報取得ステップにおいて取得した前記音声情報を時間に依存しない単位の複数の単位区間に分割する単位区間分割ステップと、
前記単位区間分割ステップにおいて得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得ステップと、
前記区間情報取得ステップにおいて取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出ステップと、
前記区間関係値算出ステップにおいて算出された前記区間関係値を利用して、前記音声認識の対象となる認識候補を格納している認識候補格納手段認識候補格納手段に格納されている認識候補の中から認識結果を選択する認識結果選択ステップと
を有することを特徴とする音声認識方法。 - 音声情報に対して音声認識を行う音声認識方法であって、
前記音声情報を取得する音声情報取得ステップと、
前記音声情報取得ステップにおいて取得した前記音声信号の音声認識を行う音声認識ステップと、
前記音声認識手段による音声認識の結果に基づいて、前記音声認識の対象となる認識候補を格納している認識候補格納手段に格納されている認識候補の中から所定の認識候補を抽出する認識候補抽出ステップと、
前記認識候補抽出ステップにおいて抽出した前記認識候補を、時間に依存しない単位の複数の単位区間に分割する区間分割ステップと、
前記区間分割ステップにおいて得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得ステップと、
前記区間情報取得ステップにおいて取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出ステップと、
前記区間関係値算出ステップにおいて算出された前記区間関係値に基づいて、前記認識候補の中から認識結果を選択する認識結果選択ステップと
を有することを特徴とする音声認識方法。 - 音声情報に対して音声認識を行う音声認識方法であって、
前記音声情報を取得する音声情報取得ステップと、
前記音声情報取得ステップにおいて取得した前記音声情報の一部である部分音声情報を利用して、前記音声認識の対象となる認識候補を格納している認識候補格納手段が格納している前記認識候補の中から一または二以上の認識候補を抽出する認識候補抽出ステップと、
前記認識候補抽出ステップが抽出した前記認識候補の一部を、時間に依存しない単位の複数の単位区間に分割する単位区間分割ステップと、
前記単位区間分割ステップにおいて得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得ステップと、
前記区間情報取得ステップにおいて取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間であって、既に取得している音声情報に含まれる区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出ステップと、
前記区間関係値算出ステップにおいて算出された前記区間関係値を利用して、前記認識候補の中から認識結果を選択する認識結果選択ステップと
を有することを特徴とする音声認識方法。 - 音声情報に対して音声認識を行う音声認識処理をコンピュータに実行させる音声認識プログラムであって、
前記音声情報を取得する音声情報取得ステップと、
前記音声情報取得ステップにおいて取得した前記音声情報を時間に依存しない単位の複数の単位区間に分割する単位区間分割ステップと、
前記単位区間分割ステップにおいて得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得ステップと、
前記区間情報取得ステップにおいて取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出ステップと、
前記区間関係値算出ステップにおいて算出された前記区間関係値を利用して、前記音声認識の対象となる認識候補を格納している認識候補格納手段認識候補格納手段に格納されている認識候補の中から認識結果を選択する認識結果選択ステップと
を有することを特徴とする音声認識プログラム。 - 音声情報に対して音声認識を行う音声認識処理をコンピュータに実行させる音声認識プログラムであって、
前記音声情報を取得する音声情報取得ステップと、
前記音声情報取得ステップにおいて取得した前記音声信号の音声認識を行う音声認識ステップと、
前記音声認識手段による音声認識の結果に基づいて、前記音声認識の対象となる認識候補を格納している認識候補格納手段に格納されている認識候補の中から所定の認識候補を抽出する認識候補抽出ステップと、
前記認識候補抽出ステップにおいて抽出した前記認識候補を、時間に依存しない単位の複数の単位区間に分割する区間分割ステップと、
前記区間分割ステップにおいて得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得ステップと、
前記区間情報取得ステップにおいて取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出ステップと、
前記区間関係値算出ステップにおいて算出された前記区間関係値に基づいて、前記認識候補の中から認識結果を選択する認識結果選択ステップと
を有することを特徴とする音声認識プログラム。 - 音声情報に対して音声認識を行う音声認識処理をコンピュータに実行させる音声認識プログラムであって、
前記音声情報を取得する音声情報取得ステップと、
前記音声情報取得ステップにおいて取得した前記音声情報の一部である部分音声情報を利用して、前記音声認識の対象となる認識候補を格納している認識候補格納手段が格納している前記認識候補の中から一または二以上の認識候補を抽出する認識候補抽出ステップと、
前記認識候補抽出ステップが抽出した前記認識候補の一部を、時間に依存しない単位の複数の単位区間に分割する単位区間分割ステップと、
前記単位区間分割ステップにおいて得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得ステップと、
前記区間情報取得ステップにおいて取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間であって、既に取得している音声情報に含まれる区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出ステップと、
前記区間関係値算出ステップにおいて算出された前記区間関係値を利用して、前記認識候補の中から認識結果を選択する認識結果選択ステップと
を有することを特徴とする音声認識プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004339686A JP4322785B2 (ja) | 2004-11-24 | 2004-11-24 | 音声認識装置、音声認識方法および音声認識プログラム |
US11/285,013 US7647224B2 (en) | 2004-11-24 | 2005-11-23 | Apparatus, method, and computer program product for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004339686A JP4322785B2 (ja) | 2004-11-24 | 2004-11-24 | 音声認識装置、音声認識方法および音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006146090A JP2006146090A (ja) | 2006-06-08 |
JP4322785B2 true JP4322785B2 (ja) | 2009-09-02 |
Family
ID=36597228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004339686A Expired - Fee Related JP4322785B2 (ja) | 2004-11-24 | 2004-11-24 | 音声認識装置、音声認識方法および音声認識プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7647224B2 (ja) |
JP (1) | JP4322785B2 (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5386806B2 (ja) * | 2007-08-17 | 2014-01-15 | 富士通株式会社 | 情報処理方法、情報処理装置、および、情報処理プログラム |
JP5020763B2 (ja) * | 2007-09-28 | 2012-09-05 | Kddi株式会社 | 音声合成のための決定木を生成する装置、方法及びプログラム |
WO2009055715A1 (en) * | 2007-10-24 | 2009-04-30 | Red Shift Company, Llc | Producing time uniform feature vectors of speech |
US8396704B2 (en) * | 2007-10-24 | 2013-03-12 | Red Shift Company, Llc | Producing time uniform feature vectors |
US8768697B2 (en) * | 2010-01-29 | 2014-07-01 | Rosetta Stone, Ltd. | Method for measuring speech characteristics |
KR20120072145A (ko) * | 2010-12-23 | 2012-07-03 | 한국전자통신연구원 | 음성 인식 방법 및 장치 |
JP5842334B2 (ja) * | 2011-02-07 | 2016-01-13 | 株式会社ニコン | エンコーダ装置、及び駆動装置 |
KR20130014893A (ko) * | 2011-08-01 | 2013-02-12 | 한국전자통신연구원 | 음성 인식 장치 및 방법 |
US8781825B2 (en) * | 2011-08-24 | 2014-07-15 | Sensory, Incorporated | Reducing false positives in speech recognition systems |
JP6131537B2 (ja) * | 2012-07-04 | 2017-05-24 | セイコーエプソン株式会社 | 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法 |
CA2885228C (en) | 2012-09-17 | 2021-07-20 | President And Fellows Of Harvard College | Soft exosuit for assistance with human motion |
WO2014194257A1 (en) | 2013-05-31 | 2014-12-04 | President And Fellows Of Harvard College | Soft exosuit for assistance with human motion |
JP6235280B2 (ja) * | 2013-09-19 | 2017-11-22 | 株式会社東芝 | 音声同時処理装置、方法およびプログラム |
EP4104757B1 (en) | 2013-12-09 | 2024-10-02 | President and Fellows of Harvard College | Assistive flexible suits, flexible suit systems, and methods for making and control thereof to assist human mobility |
US10278883B2 (en) | 2014-02-05 | 2019-05-07 | President And Fellows Of Harvard College | Systems, methods, and devices for assisting walking for developmentally-delayed toddlers |
WO2015157731A1 (en) | 2014-04-10 | 2015-10-15 | President And Fellows Of Harvard College | Orthopedic device including protruding members |
JP6487650B2 (ja) * | 2014-08-18 | 2019-03-20 | 日本放送協会 | 音声認識装置及びプログラム |
WO2016089466A2 (en) | 2014-09-19 | 2016-06-09 | President And Fellows Of Harvard College | Soft exosuit for assistance with human motion |
US20180329225A1 (en) * | 2015-08-31 | 2018-11-15 | President And Fellows Of Harvard College | Pattern Detection at Low Signal-To-Noise Ratio |
US11590046B2 (en) | 2016-03-13 | 2023-02-28 | President And Fellows Of Harvard College | Flexible members for anchoring to the body |
US11498203B2 (en) | 2016-07-22 | 2022-11-15 | President And Fellows Of Harvard College | Controls optimization for wearable systems |
US10403268B2 (en) * | 2016-09-08 | 2019-09-03 | Intel IP Corporation | Method and system of automatic speech recognition using posterior confidence scores |
US11014804B2 (en) | 2017-03-14 | 2021-05-25 | President And Fellows Of Harvard College | Systems and methods for fabricating 3D soft microstructures |
US11694444B2 (en) * | 2020-09-30 | 2023-07-04 | Snap Inc. | Setting ad breakpoints in a video within a messaging system |
US11856255B2 (en) | 2020-09-30 | 2023-12-26 | Snap Inc. | Selecting ads for a video within a messaging system |
US11792491B2 (en) | 2020-09-30 | 2023-10-17 | Snap Inc. | Inserting ads into a video within a messaging system |
CN112908361B (zh) * | 2021-02-02 | 2022-12-16 | 早道(大连)教育科技有限公司 | 一种基于小粒度口语发音评价系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60149098A (ja) | 1984-01-13 | 1985-08-06 | 三洋電機株式会社 | 音声入力装置 |
US5774851A (en) * | 1985-08-15 | 1998-06-30 | Canon Kabushiki Kaisha | Speech recognition apparatus utilizing utterance length information |
JP2594916B2 (ja) | 1986-08-22 | 1997-03-26 | 株式会社日立製作所 | 音声認識装置 |
JP2664785B2 (ja) | 1989-11-07 | 1997-10-22 | シャープ株式会社 | 音声認識装置 |
US6236964B1 (en) * | 1990-02-01 | 2001-05-22 | Canon Kabushiki Kaisha | Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data |
JP3114389B2 (ja) | 1991-10-02 | 2000-12-04 | 松下電器産業株式会社 | 音声認識装置 |
US5444817A (en) * | 1991-10-02 | 1995-08-22 | Matsushita Electric Industrial Co., Ltd. | Speech recognizing apparatus using the predicted duration of syllables |
JP3149598B2 (ja) | 1993-02-08 | 2001-03-26 | トヨタ自動車株式会社 | 自動車用ヘッドレスト |
US7043430B1 (en) * | 1999-11-23 | 2006-05-09 | Infotalk Corporation Limitied | System and method for speech recognition using tonal modeling |
JP2001265383A (ja) | 2000-03-17 | 2001-09-28 | Seiko Epson Corp | 音声認識方法および音声認識処理プログラムを記録した記録媒体 |
CN100559463C (zh) * | 2002-11-11 | 2009-11-11 | 松下电器产业株式会社 | 声音识别用辞典编制装置和声音识别装置 |
-
2004
- 2004-11-24 JP JP2004339686A patent/JP4322785B2/ja not_active Expired - Fee Related
-
2005
- 2005-11-23 US US11/285,013 patent/US7647224B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20060136206A1 (en) | 2006-06-22 |
US7647224B2 (en) | 2010-01-12 |
JP2006146090A (ja) | 2006-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4322785B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
EP1355295A2 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
JP2006171750A (ja) | 音声認識のための特徴ベクトル抽出方法 | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
KR101065188B1 (ko) | 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템 | |
JP6690484B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
US20030220792A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
JP3919475B2 (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 | |
JP2004325635A (ja) | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 | |
KR20210081166A (ko) | 다국어 음성 환경에서의 언어 식별 장치 및 방법 | |
JP3633254B2 (ja) | 音声認識システムおよびそのプログラムを記録した記録媒体 | |
KR20100094182A (ko) | 음성 신호를 이용한 감정 인식 장치 및 방법 | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
JP3615088B2 (ja) | 音声認識方法及び装置 | |
JP2010145784A (ja) | 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム | |
JP4749990B2 (ja) | 音声認識装置 | |
Wang et al. | Improved Mandarin speech recognition by lattice rescoring with enhanced tone models | |
JP5136621B2 (ja) | 情報検索装置及び方法 | |
JP5158877B2 (ja) | 音声認識方法および装置 | |
JP5066668B2 (ja) | 音声認識装置、およびプログラム | |
KR100488121B1 (ko) | 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법 | |
JPH08211893A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090406 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090512 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090603 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120612 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120612 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130612 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |