JP5772219B2 - 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム - Google Patents
音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム Download PDFInfo
- Publication number
- JP5772219B2 JP5772219B2 JP2011118113A JP2011118113A JP5772219B2 JP 5772219 B2 JP5772219 B2 JP 5772219B2 JP 2011118113 A JP2011118113 A JP 2011118113A JP 2011118113 A JP2011118113 A JP 2011118113A JP 5772219 B2 JP5772219 B2 JP 5772219B2
- Authority
- JP
- Japan
- Prior art keywords
- pronunciation
- unit
- acoustic model
- sound
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 44
- 238000004590 computer program Methods 0.000 title claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 170
- 238000000605 extraction Methods 0.000 claims description 46
- 238000003860 storage Methods 0.000 claims description 39
- 239000000284 extract Substances 0.000 claims description 15
- 238000012545 processing Methods 0.000 description 82
- 230000008569 process Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 24
- 238000012937 correction Methods 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 15
- 238000004519 manufacturing process Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Description
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
あるいは、音声入力部2は、音声認識装置1を通信ネットワークに接続するためのインターフェース回路を有してもよい。この場合、音声入力部2は、通信ネットワークに接続されたファイルサーバなどの他の機器から、その通信ネットワークを介して音声データを取得し、取得した音声データを処理部4へ出力する。
さらにまた、音声入力部2は、ユニバーサル・シリアル・バス(Universal Serial Bus、USB)といったシリアスバス規格に従ったインターフェース回路を有してもよい。この場合、音声入力部2は、例えば、ハードディスクなどの磁気記憶装置、光記憶装置あるいは半導体メモリ回路と接続され、それらの記憶装置から音声データを読み込み、その音声データを処理部4へ出力する。
また出力部5は、検出結果情報を、通信ネットワークを介して音声認識装置1と接続された他の装置へ出力してもよい。この場合、出力部5は、その通信ネットワークに音声認識装置1と接続するためのインターフェース回路を有する。なお、音声入力部2も通信ネットワークを介して音声データを取得する場合、音声入力部2と出力部5は同一の回路であってもよい。
図2は、処理部4の概略構成図である。処理部4は、変換候補列抽出部11と、発音列修正部12と、音響モデル生成部13と、特徴量抽出部14と、照合部15とを有する。処理部4が有するこれらの各部は、例えば、処理部4が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部4が有するこれらの各部は、それぞれ、別個の回路として、音声認識装置1に実装されてもよい。
なお、単位音は、例えば、音節、音素、あるいは前後の音素環境情報を含むtriphoneであってもよい。あるいは、複数の音節が一つの単位音であってもよく、または複数の音素が一つの単位音であってもよい。
変換候補列抽出部11は、単語ごとに、抽出された変換候補列及び変換候補列明瞭度Cmaxを発音列修正部12に渡す。
例えば、単語辞書300に登録された単語「教えて」では、その発音列に発音変換ルールに登録された「しえ」が含まれているので、変換候補列として「しえ」が抽出される。そして、単語辞書300を参照すると、音節「し」と音節「え」の何れについても対応する発音の明瞭度が'0'である。そのため、変換候補列「しえ」についての発音の明瞭度の最大値Cmaxは'0'となる。したがって、「しえ」は、参照テーブル400に示された発音変換ルールに従って、「しぇ」に変換され、その結果として修正発音列「おしぇて」が生成される。
さらに、単語辞書は、一つの単語の発音列に対して、互いに異なる複数の発音の明瞭度の組を定義してもよい。例えば、単語「教えて」の発音列「おしえて」に対して、"0001"という発音明瞭度の組と、"0010"という発音明瞭度の組とが定義されてもよい。この場合、変換候補列抽出部11は、一つの単語について発音明瞭度の組ごとに変換候補列を抽出して、その変換候補列に対する変換候補列明瞭度を求め、発音列修正部12は、発音明瞭度の組ごとに求められた変換候補列について、その変換候補列明瞭度に基づいて発音列中のその変換候補列に対応する部分を置換するか否か判定する。
発音列修正部12は、単語ごとに、オリジナルの発音列と、修正発音列とを音響モデル生成部13へ渡す。
音響モデル生成部13は、発音列に含まれる単位音の順序に従って、その単位音に対応する単位音響モデルを連結することにより音響モデル列を生成し、その音響モデル列を発音列に対応する音響モデルとする。同様に、音響モデル生成部13は、修正発音列に含まれる単位音の順序に従って単位音響モデルを連結することにより音響モデル列を生成し、その音響モデル列を修正発音列に対応する音響モデルとする。
なお、単位音響モデル及び音響モデルは、他のモデル、例えば、混合ガウス分布により表されてもよい。
特徴量抽出部14は、特徴量を抽出する度に、その特徴量を照合部15へ出力する。
照合部15は、単語が検出される度に、単語辞書を参照して、検出された単語のテキスト情報を特定し、そのテキスト情報を検出結果情報に含める。そして照合部15は、音声データについての解析が終了すると、その検出結果情報を出力部5へ出力する。
一方、ステップS103にて変換候補列明瞭度Cmaxが'1'である場合(ステップS103−No)、発音列修正部12は、変換候補列を修正しない。
ステップS104の後、あるいは、ステップS103にて変換候補列明瞭度Cmaxが'1'であると判定された後、処理部4は、その変換候補列が検出済みであることを表すフラグを記憶部3に記憶する。その後、処理部4は、ステップS101の手順を再度実行する。
その後、処理部4は、音響モデル生成処理を終了する。なお、処理部4は、ステップS104にて修正発音列が生成される度に、その修正発音列に対応する音響モデルを生成し、ステップS105では、発音列に対する音響モデルのみを生成してもよい。
処理部4は、音声入力部2を介して音声データを取得する(ステップS201)。そして処理部4は、音声データを処理部4の特徴量抽出部14へ渡す。
また処理部4の変換候補列抽出部11、発音列修正部12及び音響モデル生成部13は、音響モデル生成処理を実行し、単語辞書に登録されている各単語についての発音列及び修正発音列に対応する音響モデルを生成する(ステップS202)。
照合部15は、フレームごとの特徴量を時系列順に並べた組の、各音響モデルが表す発音列又は修正発音列に対する類似度に基づいて音声データ中に含まれる単語を検出する(ステップS204)。そして処理部4は、音声認識処理を終了する。
なお、処理部4は、ステップS201よりも先にステップS202を実行してもよい。
この第2の実施形態による音声認識装置は、単語辞書に登録された各単語について、発音列中の単位音ごとに、その発音列に含まれる単位音数とその単位音の種類に基づいて発音の明瞭度を算出する。
図7において、処理部21の各構成要素には、図2に示された第1の実施形態による処理部4の対応する構成要素の参照番号と同じ参照番号を付した。この第2の実施形態による音声認識装置は、第1の実施形態による音声認識装置と比較して、処理部21が発音明瞭度算出部16を有する点、及び、発音明瞭度が多値で表される点で異なる。
そこで以下では、処理部21のうちの第1の実施形態による処理部4と異なる点について説明する。第2の実施形態による音声認識装置のその他の構成要素については、図1及び第1の実施形態の関連する部分の説明を参照されたい。
発音明瞭度算出部16は、各単語について算出された発音の明瞭度を、その単語の発音列と関連付けて記憶部3に記憶する。
処理部21の発音明瞭度算出部16は、単語の発音列に含まれる単位音の数により設定される単語の明瞭度に音の種類により設定される音の明瞭度を加算することにより発音列中の単位音ごとの発音の明瞭度を算出する(ステップS301)。そして発音明瞭度算出部16は、発音列に対応付けて発音の明瞭度を記憶部3に記憶する。
一方、ステップS304にて変換候補列明瞭度Ctotalが閾値より大きい場合(ステップS304−No)、変換候補列明瞭度Ctotalは異なる発音がなされるレベルではない。そこで発音列修正部12は、変換候補列を修正しない。
ステップS305の後、あるいは、ステップS304にて発音の明瞭度の合計Ctotalが閾値より大きいと判定された後、処理部21は、変換候補列が検出済みであることを表すフラグを記憶部3に記憶する。その後、処理部21は、ステップS302以降の手順を再度実行する。
その後、処理部21は、音響モデル生成処理を終了する。
この第3の実施形態による音声認識装置は、単語辞書に登録された各単語について、発音列及び修正発音列に対応する音響モデルのうち、発声された単語が分かっている学習用音声データに対して正答となる確率が高い音響モデルだけを選択する。
図13において、処理部31の各構成要素には、図2に示された第1の実施形態による処理部4の対応する構成要素の参照番号と同じ参照番号を付した。この第3の実施形態による音声認識装置は、第1の実施形態による音声認識装置と比較して、処理部31が発音列選択部17を有する点、及び、記憶部が複数の学習用音声データを記憶している点で異なる。
そこで以下では、処理部31のうちの第1の実施形態による処理部4と異なる点について説明する。第3の実施形態による音声認識装置のその他の構成要素については、図1及び第1の実施形態の関連する部分の説明を参照されたい。
照合部15は、音響モデルごとの正解率を発音列選択部17へ出力する。
また、発音列選択部17が、正解率0.7以上の発音列または修正発音列に対応する音響モデルを選択する場合、発音列選択部17は、上記の例では、発音列「おしえて」及び修正発音列「おせーて」及び「おせて」に対する音響モデルを選択する。
その後、処理部31は、音響モデル生成処理を終了する。
この第4の実施形態による音声認識装置は、単語辞書に登録された各単語について、その単語の発音列に含まれる単位音ごとの発音の明瞭度を、学習用音声データに対する発音列の音響モデルを用いて正答となる確率に基づいて決定する。
図15において、処理部41の各構成要素には、図7に示された第2の実施形態による処理部21の対応する構成要素の参照番号と同じ参照番号を付した。この第4の実施形態による音声認識装置は、第2の実施形態による音声認識装置と比較して、処理部41が有する発音明瞭度算出部18による処理が処理部21が有する発音明瞭度算出部16と異なる点と、記憶部が複数の学習用音声データを記憶している点で異なる。
そこで以下では、処理部41のうちの第2の実施形態による処理部21と異なる点について説明する。第4の実施形態による音声認識装置の処理部以外の構成要素については、図1及び第1の実施形態の関連する部分の説明を参照されたい。
類似度の平均値が高い単位音ほど、その単位音の読み通りに発音される確率が高い。そこで発音明瞭度算出部18は、その単語の発音列に含まれる各単位音についての類似度の平均値に所定の係数を乗じた値を、その単位音に対する発音の明瞭度とする。例えば、所定の係数は、発音の明瞭度の取り得る最大値とすることができる。
単語辞書に登録されている各単語について、上記のように単位音ごとの発音の明瞭度が決定されると、処理部41は、第2の実施形態と同様に、その発音の明瞭度及び発音変換ルールに基づいて、修正発音列を生成する。そして処理部41は、修正発音列に対応する音響モデルを生成する。
処理部41の音響モデル生成部13は、単語の発音列に対応する音響モデルを生成する(ステップS501)。そして処理部41の発音明瞭度算出部18は、その音響モデルを用いて、その単語に対応する複数の学習用音声データに対する、発音列中の各単位音の類似度の平均値を算出する(ステップS502)。そして発音明瞭度算出部18は、類似度の平均値に所定の係数を乗じることにより、発音列中の単位音ごとの発音の明瞭度を算出する(ステップS503)。そして発音明瞭度算出部18は、発音列に対応付けて発音の明瞭度を記憶部3に記憶する。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
少なくとも一つの単語の読みを表す発音列と、読み替えがなされる可能性のある少なくとも一つの変換候補の変換前の読みと変換後の読みの組とを記憶する記憶部と、
前記発音列から前記変換候補列を抽出する変換候補列抽出部と、
前記変換候補列に含まれる単位音ごとの発音明瞭度に応じた変換候補列明瞭度が異なる発音がなされるレベルである場合、前記発音列中の当該変換候補列の読みを対応する前記変換後の読みに置換することにより、修正発音列を生成する発音列修正部と、
前記発音列及び前記修正発音列に対応する音響モデルをそれぞれ生成する音響モデル生成部と、
を有する音響モデル生成装置。
(付記2)
前記記憶部は、単語ごとに、前記発音列に含まれる前記単位音ごとの発音明瞭度をさらに記憶し、
前記発音列修正部は、前記変換候補列に含まれる、前記単位音ごとの前記発音明瞭度の最大値を前記変換候補列明瞭度とし、当該変換候補列明瞭度が所定の閾値未満である場合に当該変換候補列明瞭度が異なる発音がなされるレベルであると判定する、付記1に記載の音響モデル生成装置。
(付記3)
単語ごとに、前記発音列に含まれる各単位音の前記発音明瞭度を決定する発音明瞭度決定部をさらに有し、
前記発音列修正部は、前記変換候補列に含まれる、前記単位音ごとの前記発音明瞭度の統計的代表値を前記変換候補列明瞭度とし、当該変換候補列明瞭度が所定の閾値未満である場合に当該変換候補列明瞭度が異なる発音がなされるレベルであると判定する、付記1に記載の音響モデル生成装置。
(付記4)
前記記憶部は、前記単語の前記発音列に含まれる前記単位音の数に応じて、前記単位音ごとに設定される単語明瞭度と、前記単位音の音の種類に応じて設定される音明瞭度とをさらに記憶し、
前記発音明瞭度決定部は、前記単語の前記発音列に含まれる前記単位音ごとに、当該単位音に対応する前記単語明瞭度に当該単位音の音の種類に対応する前記音明瞭度を加算することで前記発音明瞭度を決定する、付記3に記載の音響モデル生成装置。
(付記5)
前記記憶部は、前記単語を発声した音声が録音された学習用音声データを複数記憶し、
前記発音明瞭度決定部は、前記単語の前記発音列に含まれる前記単位音ごとの単位音響モデルが当該単位音の順序に従って連結された音響モデルに基づいて、前記発音列に含まれる前記単位音ごとに、対応する前記単位音響モデルに対する前記複数の学習用音声データの平均類似度を算出し、当該平均類似度が高いほど前記発音明瞭度が高くなるように、前記発音列に含まれる単位音ごとの前記発音明瞭度を決定する、付記3に記載の音響モデル生成装置。
(付記6)
前記記憶部は、前記単語を発声した音声が録音された学習用音声データを複数記憶し、
前記発音列及び前記修正発音列のそれぞれに対応する前記音響モデルに基づいて、前記複数の学習用音声データのうち、前記単語が検出される学習用音声データの割合を求め、前記発音列及び前記修正発音列のそれぞれに対応する前記音響モデルから、当該割合が高い方から順に所定数の音響モデルを選択する発音列選択部をさらに有する、付記1に記載の音響モデル生成装置。
(付記7)
前記記憶部は、前記単語を発声した音声が録音された学習用音声データを複数記憶し、
前記発音列及び前記修正発音列のそれぞれに対応する前記音響モデルに基づいて、前記複数の学習用音声データのうち、前記単語が検出される学習用音声データの割合を求め、前記発音列及び前記修正発音列のそれぞれに対応する前記音響モデルから、当該割合が所定値以上となる音響モデルを選択する発音列選択部をさらに有する、付記1に記載の音響モデル生成装置。
(付記8)
音声データを取得する音声データ入力部と、
前記音声データから所定長のフレームごとに特徴量を抽出する特徴量抽出部と、
前記記憶部に記憶されている各単語の前記発音列に対応する前記音響モデル及び前記修正発音列に対応する前記音響モデルのそれぞれについて、1以上の前記フレームから抽出された1以上の前記特徴量との類似度を求め、当該類似度が最大となる音響モデルに対応する単語を検出する照合部と、
をさらに有する付記1〜7の何れか一項に記載の音響モデル生成装置。
(付記9)
少なくとも一つの単語の読みを表す発音列から読み替えがなされる可能性のある変換候補列を抽出し、
前記変換候補列に含まれる単位音ごとの発音明瞭度に応じた変換候補列明瞭度が異なる発音がなされるレベルである場合、前記発音列中の当該変換候補列の読みを対応する変換後の読みに置換することにより、修正発音列を生成し、
前記発音列及び前記修正発音列に対応する音響モデルをそれぞれ生成する、
ことを含む音響モデル生成方法。
(付記10)
少なくとも一つの単語の読みを表す発音列から読み替えがなされる可能性のある変換候補列を抽出し、
前記変換候補列に含まれる単位音ごとの発音明瞭度に応じた変換候補列明瞭度が異なる発音がなされるレベルである場合、前記発音列中の当該変換候補列の読みを対応する変換後の読みに置換することにより、修正発音列を生成し、
前記発音列及び前記修正発音列に対応する音響モデルをそれぞれ生成する、
ことをコンピュータに実行させる音響モデル生成用コンピュータプログラム。
2 音声入力部
3 記憶部
4、21、31、41 処理部
5 出力部
6 表示装置
11 変換候補列抽出部
12 発音列修正部
13 音響モデル生成部
14 特徴量抽出部
15 照合部
16、18 発音明瞭度算出部
17 発音列選択部
Claims (7)
- 少なくとも一つの単語の読みを表す発音列と、読み替えがなされる可能性のある少なくとも一つの変換候補列の変換前の読みと変換後の読みの組とを記憶する記憶部と、
前記発音列から前記変換候補列を抽出する変換候補列抽出部と、
前記変換候補列に含まれる単位音ごとの発音明瞭度が、異なる発音がなされるレベルか否か判定し、前記単位音ごとの前記発音明瞭度が前記レベルである場合、前記発音列中の当該変換候補列の読みを対応する前記変換後の読みに置換することにより生成される修正発音列に対応する音響モデルを生成する音響モデル生成部と、
を有する音響モデル生成装置。 - 前記記憶部は、単語ごとに、前記発音列に含まれる前記単位音ごとの発音明瞭度をさらに記憶し、
前記音響モデル生成部は、前記変換候補列に含まれる、前記単位音ごとの前記発音明瞭度の最大値が所定の閾値未満である場合に前記単位音ごとの前記発音明瞭度が異なる発音がなされるレベルであると判定する、請求項1に記載の音響モデル生成装置。 - 単語ごとに、前記発音列に含まれる各単位音の前記発音明瞭度を決定する発音明瞭度決定部をさらに有し、
前記音響モデル生成部は、前記変換候補列に含まれる、前記単位音ごとの前記発音明瞭度の統計的代表値が所定の閾値未満である場合に前記単位音ごとの前記発音明瞭度が異なる発音がなされるレベルであると判定する、請求項1に記載の音響モデル生成装置。 - 前記記憶部は、前記単語の前記発音列に含まれる前記単位音の数に応じて、前記単位音ごとに設定される単語明瞭度と、前記単位音の音の種類に応じて設定される音明瞭度とをさらに記憶し、
前記発音明瞭度決定部は、前記単語の前記発音列に含まれる前記単位音ごとに、当該単位音に対応する前記単語明瞭度に当該単位音の音の種類に対応する前記音明瞭度を加算することで前記発音明瞭度を決定する、請求項3に記載の音響モデル生成装置。 - 音声データを取得する音声データ入力部と、
前記音声データから所定長のフレームごとに特徴量を抽出する特徴量抽出部と、
前記記憶部に記憶されている各単語の前記発音列に対応する前記音響モデル及び前記修正発音列に対応する前記音響モデルのそれぞれについて、1以上の前記フレームから抽出された1以上の前記特徴量との類似度を求め、当該類似度が最大となる音響モデルに対応する単語を検出する照合部と、
をさらに有する請求項1〜4の何れか一項に記載の音響モデル生成装置。 - 少なくとも一つの単語の読みを表す発音列から読み替えがなされる可能性のある変換候補列を抽出し、
前記変換候補列に含まれる単位音ごとの発音明瞭度が、異なる発音がなされるレベルか否か判定し、前記単位音ごとの前記発音明瞭度が前記レベルである場合、前記発音列中の当該変換候補列の読みを対応する変換後の読みに置換することにより生成される修正発音列に対応する音響モデルを生成する、
ことを含む音響モデル生成方法。 - 少なくとも一つの単語の読みを表す発音列から読み替えがなされる可能性のある変換候補列を抽出し、
前記変換候補列に含まれる単位音ごとの発音明瞭度が、異なる発音がなされるレベルか否か判定し、前記単位音ごとの前記発音明瞭度が前記レベルである場合、前記発音列中の当該変換候補列の読みを対応する変換後の読みに置換することにより生成される修正発音列に対応する音響モデルを生成する、
ことをコンピュータに実行させる音響モデル生成用コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011118113A JP5772219B2 (ja) | 2011-05-26 | 2011-05-26 | 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011118113A JP5772219B2 (ja) | 2011-05-26 | 2011-05-26 | 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012247553A JP2012247553A (ja) | 2012-12-13 |
JP5772219B2 true JP5772219B2 (ja) | 2015-09-02 |
Family
ID=47468050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011118113A Expired - Fee Related JP5772219B2 (ja) | 2011-05-26 | 2011-05-26 | 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5772219B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107705790B (zh) * | 2017-09-22 | 2020-01-21 | 维沃移动通信有限公司 | 一种信息处理方法和电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08123470A (ja) * | 1994-10-25 | 1996-05-17 | Nippon Hoso Kyokai <Nhk> | 音声認識装置 |
US5875426A (en) * | 1996-06-12 | 1999-02-23 | International Business Machines Corporation | Recognizing speech having word liaisons by adding a phoneme to reference word models |
EP1239459A1 (en) * | 2001-03-07 | 2002-09-11 | Sony International (Europe) GmbH | Adaptation of a speech recognizer to a non native speaker pronunciation |
JP2004309928A (ja) * | 2003-04-09 | 2004-11-04 | Casio Comput Co Ltd | 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム |
JP2009109586A (ja) * | 2007-10-26 | 2009-05-21 | Panasonic Electric Works Co Ltd | 音声認識制御装置 |
-
2011
- 2011-05-26 JP JP2011118113A patent/JP5772219B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012247553A (ja) | 2012-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4769223B2 (ja) | テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置 | |
US9640175B2 (en) | Pronunciation learning from user correction | |
US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
JP6245846B2 (ja) | 音声認識における読み精度を改善するシステム、方法、およびプログラム | |
CN110675866B (zh) | 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质 | |
WO2012001458A1 (en) | Voice-tag method and apparatus based on confidence score | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
US10665227B2 (en) | Voice recognition device and voice recognition method | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
Kurian et al. | Speech recognition of Malayalam numbers | |
JP4966324B2 (ja) | 音声翻訳装置、および方法 | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
CN111640423A (zh) | 一种词边界估计方法、装置及电子设备 | |
KR100848148B1 (ko) | 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체 | |
JP5772219B2 (ja) | 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム | |
JP2017191278A (ja) | 音素誤り獲得装置、辞書追加装置、音声認識装置、音素誤り獲得方法、音声認識方法、およびプログラム | |
KR102299269B1 (ko) | 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치 | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP2012255867A (ja) | 音声認識装置 | |
CN115424616A (zh) | 一种音频数据筛选方法、装置、设备及计算机可读介质 | |
JP5152020B2 (ja) | 音声認識装置及び音声認識方法 | |
JP5596869B2 (ja) | 音声認識装置 | |
JP5703747B2 (ja) | 音声認識装置,および音声認識プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150615 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5772219 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |