JP2017009842A - 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム - Google Patents

音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム Download PDF

Info

Publication number
JP2017009842A
JP2017009842A JP2015126246A JP2015126246A JP2017009842A JP 2017009842 A JP2017009842 A JP 2017009842A JP 2015126246 A JP2015126246 A JP 2015126246A JP 2015126246 A JP2015126246 A JP 2015126246A JP 2017009842 A JP2017009842 A JP 2017009842A
Authority
JP
Japan
Prior art keywords
speech recognition
sequence
recognition result
string
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015126246A
Other languages
English (en)
Other versions
JP6580882B2 (ja
Inventor
浩司 藤村
Koji Fujimura
浩司 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015126246A priority Critical patent/JP6580882B2/ja
Priority to US15/182,987 priority patent/US10535339B2/en
Publication of JP2017009842A publication Critical patent/JP2017009842A/ja
Application granted granted Critical
Publication of JP6580882B2 publication Critical patent/JP6580882B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Abstract

【課題】簡単に発音列が与えられときの音声認識結果を得ることできる音声認識結果出力装置を提供する。【解決手段】発音列取得部が、発音列を取得し、特徴量変換部が、発音列を発音列特徴ベクトルに変換する。そして、表記列変換部が、記憶部に記憶された音声認識用の言語モデルを用いて、発音列特徴ベクトルを表記列に変換して出力する。【選択図】図2

Description

本発明の実施の形態は、音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラムに関する。
音声認識エンジンの音声認識結果を利用するアプリケーションにおいて、あらかじめユーザ又はアプリケーション開発者が、音声認識エンジンが、ある発音列に対してどのような表記列を出力するか知ることのできる機能は、音声認識エンジンを使ったアプリケーションの開発者又は利用者(ユーザ)にとって重要である。実際に幾つかの単語又は文章を発話して音声認識エンジンに音声入力を行い、期待する音声認識結果が出力されるか否かを確認する方法がある。この確認手法は、入力した発音列に対して期待する表記列が出力されるか否かの確認を行うための、最もシンプルな確認手法である。
しかし、実際に人が発声して音声入力を行い、音声認識結果を確認する確認手法は、確認すべき単語が多い場合、労力及びコストがかかる。また、正解となる音声認識結果が出力されない場合、原因が言語モデルにあるのか又は音響モデルにあるのか、という原因の特定が困難となる。
ここで、音声認識エンジンに使用する言語モデルと同様の統計量に基づいて作成された言語モデルを用いて、仮名を入力とし、仮名漢字変換処理を行い、音声認識エンジン結果と同様の結果を取得する手法が知られている。しかし、この手法の場合、仮名漢字変換用のデコーダを本来の音声認識エンジンのデコーダとは別に設ける必要がある。すなわち、「音声認識エンジンのデコーダ」及び「仮名漢字変換用のデコーダ」の、計2種類のデコーダが必要となる。このため、音声認識結果出力装置の構成が複雑化しコスト高となる問題がある。
特開2010−009446号公報
本発明が解決しようとする課題は、より簡単な構成で入力発音列から音声認識結果として出力される表記を得ることできる音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラムを提供することである。
実施の形態によれば、発音列取得部が、発音列を取得し、特徴量変換部が、発音列を発音列特徴ベクトルに変換する。そして、表記列変換部が、記憶部に記憶された音声認識用の言語モデルを用いて、発音列特徴ベクトルを表記列に変換して出力する。
図1は、第1の実施の形態の音声認識結果出力装置のハードウェア構成図である。 図2は、第1の実施の形態の音声認識結果出力装置の主となる機能の機能ブロック図である。 図3は、第1の実施の形態の音声認識結果出力装置における、発音列を表記列に変換する動作の流れを示すフローチャートである。 図4は、第1の実施の形態の音声認識結果出力装置における、発音列を発音列特徴ベクトルに変換する動作を説明するための模式図である。 図5は、第2の実施の形態の音声認識結果出力装置のハードウェア構成図である。 図6は、実施の形態の音声認識結果出力装置の全体の機能ブロック図である。 図7は、実施の形態の音声認識結果出力装置における、発音列を表記列に変換する動作の流れ及び入力音声を表記列に変換する動作の流れ示すフローチャートである。
以下、実施の形態の音声認識結果出力装置を、図面を参照して詳細に説明する。
(第1の実施の形態)
まず、図1に、第1の実施の形態の音声認識結果出力装置のハードウェア構成図を示す。この図1に示すように、音声認識結果出力装置は、CPU1、ROM2、RAM3、マイクロホン部4、表示部6、操作部7及びHDD8を有している。CPUは、「Central Processing Unit」の略記である。ROMは、「Read Only Memory」の略記である。RAMは、「Random Access Memory」の略記である。HDDは、「Hard Disc Drive」の略記である。CPU1〜HDD部8は、それぞれバスライン9を介して相互に接続されている。
CPU1は、音声認識結果出力装置の動作を統括的に制御する。また、CPU1は、RAM3をワークエリア(作業領域)としてROM2又はHDD8等の記憶部に記憶した音声認識結果出力プログラムを実行することで、後述する音声認識結果出力動作を実行する。HDD8等の記憶部には、単語とその単語の音素マッピング情報、及び、単語の連鎖をモデル化した言語モデル(言語DB)10が記憶されている。言語DB10は、記憶部の一例である。
言語DB10の言語モデルとしては、音声認識結果を確認したい音声認識エンジンと同じ統計情報から作成したモデルを使用する。また、言語モデルとしては、単語と発音記号とが関連付けられた辞書も同時に保持されている。一例として、言語モデルとしては、言語モデル学習データの1単語の出現確率で決定されるn−gram言語モデルを使用できる(nは、1以上の自然数)。言語モデルとしては、1−gram言語モデル以外であっても、2−gram言語モデル、3−gram言語モデル、4−gram言語モデル、5−gram言語モデル・・・等の他の言語モデルを使用してもよい。なお、リカレント・ニューラル・ネットワーク(Recurrent Neural Networks)を用いてモデル化した言語モデルを用いても良い。また、重み付き有限状態トランスデューサ(WFST:Weighted Finite-State Transducer)音声認識技術を用いても良い。
図2に、CPU1が、ROM2に記憶されている音声認識結果出力プログラムを実行することで実現される機能の機能ブロック図を示す。なお、この図2は、主要となる機能の機能ブロック図である。この図2に示すように、CPU1は、音声認識結果出力プログラムを実行することで、発音列取得部21、特徴量変換部22、及び、表記列変換部23として機能する。
なお、発音列取得部21〜表記列変換部23は、ソフトウェアで実現されることとしたが、一部又は全部を、例えば集積回路(IC)等のハードウェアで実現してもよい。また、音声認識結果出力プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)等のコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、音声認識結果出力プログラムは、CD−R、DVD、ブルーレイディスク(登録商標)、半導体メモリ等のコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。DVDは、「Digital Versatile Disk」の略記である。また、音声認識結果出力プログラムは、インターネット等のネットワーク経由で提供してもよい。また、音声認識結果出力プログラムを、ネットワークを介してダウンロードし、音声認識結果出力装置又はパーソナルコンピュータ装置等にインストールして実行してもよい。また、音声認識結果出力プログラムを、機器内のROM等に予め組み込んで提供してもよい。
発音列取得部21は、発音列を取得して特徴量変換部22に供給する。特徴量変換部22は、後段の表記列変換部23で発音列としては音声認識の結果、正解となる発音列特徴ベクトルを、発音列から生成する。表記列変換部23は、HDD8の言語DB10に記憶されている言語モデルを用いて、発音列特徴ベクトルを表記列に変換して出力する。
図3のフローチャートに、このような音声認識結果出力処理の流れを示す。ステップS1では、発音列取得部21が、入力された発音列を取得する。発音列は、開発者又は利用者(ユーザ)等がキーボード等を操作して直接入力しても良い。または、発音列は、事前に表記列音素変換処理(Grapheme-to-phoneme conversion)等を用いて、表記列(Graphemes)から発音又は音素列(Phonemes)の推定結果を入力としても良い。
次に、ステップS2では、特徴量変換部22が、取得された発音列から発音列特徴ベクトルを生成する。発音列特徴ベクトルは、後段の表記列変換部23で発音系列が正解となるような特徴ベクトルである。ディープ・ニューラル・ネットワーク(DNN:Deep Neural Network)及び隠れマルコフモデル(HMM:Hidden Markov Model)を用いたDNN−HMM音声認識エンジンでは、一定の時間毎に音声区間を1フレームとして切り出す。また、切り出したフレームに対して、DNNを用いて発音系列の音素状態出力確率ベクトル(音素状態音響スコアベクトル)を算出する。そして、算出した音素状態出力確率ベクトルを用いて音声認識結果出力処理を実行する。
a〜zの26種類の発音記号が存在し、各発音が3状態HMMで表されるとき、各フレームで26×3クラスについての音素状態出力確率ベクトルが算出される。この26×3クラスについての音素状態出力確率ベクトルを出力する。
例えば図4に示すように、「break」、「brake」の発音記号として予め定義されている「b」、「r」、「e」、「i」、「k」が、ユーザにより入力されたとする。また、「b」、「r」、「e」、「i」、「k」の状態列が、「b1」、「b2」、「b3」、「r1」、「r2」、「r3」、「e1」、「e2」、「e3」、「i1」、「i2」、「i3」、「k1」、「k2」、「k3」で表されるとする。この場合、特徴量変換部22は、1フレーム目の出力確率ベクトルとして、「b1」の出力確率が1.0、他の出力確率が0.0等のように出力確率ベクトルを作成する。また、特徴量変換部22は、2フレーム目の出力確率ベクトルとして、「b2」の出力確率が1.0、他の出力確率が0.0、3フレーム目の出力確率ベクトルとして「b3」の出力確率が1.0、他の出力確率が0.0等のように出力確率ベクトルを作成する。
すなわち、特徴量変換部22は、図4に示すように「b」、「r」、「e」、「i」、「k」を表す状態列に対して、該当状態の出力確率要素が1.0、他が0.0等のように、順次、出力確率ベクトルを作成する。この出力確率ベクトル列を、音響スコア計算部分を除く一般的なDNN−HMMデコーダに供給すると、「b」、「r」、「e」、「i」、「k」という発音列に対して最も尤度が高くなり、入力と同じ発話列が単語辞書の中に存在すれば、DNN−HMMデコーダの出力は、発音列に関しては入力と同じものが出力され、表記列に関しては言語モデルに依存して決定される。特徴量変換部22は、このような特徴ベクトルを作成し、表記列変換部23に供給する。この特徴ベクトルを、音響スコア計算部分を除くデコーダへの入力とすることによって、表記列変換実行時に、DNN−HMM音声認識エンジン用のデコーダと機能を共有することができる。
なお、正解ベクトルの作成方法はこれに限らず、出力確率ではなく該当状態の要素が10.0、他が5.0等のように出力してもよい。また正解ベクトルに雑音を加え、より厳しい条件で所望の結果が出力されるか否かを判別する構成としても良い。また、ガウス混合モデル(GMM:Gaussian Mixture Model)を使ったHMM音声認識において、各発音列状態を表すGMMの複数の次元の平均値を要素とするベクトル等を発音列特徴ベクトルとしてもよい。ただし、この場合は表記列変換実行時に、GMM−HMM音声認識エンジン用の言語モデルと音響モデルを使用する。
次に、ステップS3では、表記列変換部23が、言語DB10の言語モデルを用いて、発音列特徴ベクトルを表記列に変換する。発音列から表記列への変換は、入力発音記号列に対して、1−gramの出現確率を用いたビタビアルゴリズム(Viterbi algorithm)を用いることができる。なお、探索アルゴリズムは、ビタビアルゴリズムに限定されず、ツリートレリス(tree trellis)探索アルゴリズム等の他のアルゴリズムを用いてもよい。
表記列変換部23は、何らかの連鎖語で「b」、「r」、「e」、「i」、「k」という発音列が表される場合、ステップS4において、それら連鎖語、又は、「break」か「brake」のいずれかで、ビタビアルゴリズムで計算された最も尤度の高いパスの結果を出力する。表記列変換部23から出力された表記列は、例えば表示部6に供給され表示される。認識結果の確認を行うユーザは、表示部6に表示される表記列を見て、第1の実施の形態の音声認識結果出力装置に入力された発音列に対して、正しい表記列が出力されたか否かを確認する。
以上の説明から明らかなように、第1の実施の形態の音声認識結果出力装置は、発音列取得部21が、発音列を取得して特徴量変換部22に供給する。特徴量変換部22は、後段の表記列変換部23で発音列として正解となる発音列特徴ベクトルを、発音列から生成する。表記列変換部23は、HDD8の言語DB10に記憶されている言語モデルを用いて、発音列特徴ベクトルを表記列に変換して出力する。
(第2の実施の形態)
次に、第2の実施の形態の音声認識結果出力装置の説明をする。図5に、第2の実施の形態の音声認識結果出力装置のハードウェア構成図を示す。なお、この図5において、上述の第1の実施の形態と同じ動作を示す箇所には同じ符号を付し、重複した説明は省略する。図5に示すように、第2の実施の形態の音声認識結果出力装置は、CPU1、ROM2、RAM3、マイクロホン部4、表示部6、操作部7及びHDD8を有している。CPU1〜HDD部8は、それぞれバスライン9を介して相互に接続されている。
CPU1は、HDD8等の記憶部に記憶した音声認識結果出力プログラムを実行することで、後述する音声認識結果出力動作を実行する。HDD8等の記憶部には、上述の言語モデルの言語DB10と共に、音素の音響特性をモデル化した音響モデルの音響DB11が記憶されている。言語DB10は、記憶部の一例である。音響DB11は、他の記憶部の一例である。なお、言語DB10及び音響DB11は、HDD8等の物理的に同じ記憶部に設けてもよいし、物理的に異なる記憶部に設けてもよい。
図6は、第2の実施の形態の音声認識結果出力装置の全体的な機能ブロック図である。この図6に示すように、実施の形態の音声認識結果出力装置は、上述の発音列取得部21〜第1の表記列変換部23を備え、取得した発音列に対応する表記列を出力する第1の表記列変換系と共に、HDD8に記憶されている言語DB10及び音響DB11を用いて、取得した音声に対応する表記列を出力する第2の表記列変換系を有している。すなわち、実施の形態の音声認識結果出力装置は、第1の表記列変換系と共に、音声取得部31、第2の特徴量変換部32、及び、第2の表記列変換部33を備えた第2の表記列変換系を有している。
CPU1は、ROM2に記憶されている音声認識結果出力プログラムを実行することで、このような第1の表記列変換系及び第2の表記列変換系として機能する。また、第1の表記列変換部23及び第2の表記列変換部33でデコーダ40を形成している。
なお、第1の表記列変換系及び第2の表記列変換系の各部21〜23、31〜33は、ソフトウェアで実現されることとしたが、一部又は全部を、例えば集積回路(IC)等のハードウェアで実現してもよい。また、音声認識結果出力プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)等のコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、音声認識結果出力プログラムは、CD−R、DVD、ブルーレイディスク(登録商標)、半導体メモリ等のコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。DVDは、「Digital Versatile Disk」の略記である。また、音声認識結果出力プログラムは、インターネット等のネットワーク経由で提供してもよい。また、音声認識結果出力プログラムを、ネットワークを介してダウンロードし、音声認識結果出力装置又はパーソナルコンピュータ装置等にインストールして実行してもよい。また、音声認識結果出力プログラムを、機器内のROM等に予め組み込んで提供してもよい。
第1の表記列変換系は、上述のように発音列取得部21で取得した発音列から、第1の特徴量変換部22が、第1の表記列変換部23(=デコーダ40)で発音列として正解となる発音列特徴ベクトルを生成する。第1の表記列変換部23は、言語DB10に記憶されている言語モデルを用いて、発音列特徴ベクトルを表記列に変換して出力する。
これに対して、第2の表記列変換系の音声取得部31は、取得した音声を第2の特徴量変換部32に供給する。他の特徴量変換部の一例である第2の特徴量変換部32は、音声を音声特徴ベクトルに変換して第2の表記列変換部33に供給する。他の表記列変換部の一例である第2の表記列変換部33は、音響DB11に記憶されている音響モデル、及び、言語DB10に記憶されている言語モデルを用いて、音声特徴ベクトルを表記列に変換して出力する。
図7のフローチャートに、第1の表記列変換系及び第2の表記列変換系の音声認識結果出力処理の流れを示す。この図7のフローチャートは、ステップS0において、入力が発音列か音声であるかを判別する。入力が発音列の場合、第1の表記列変換系において、ステップS1〜ステップS4の各処理が実行される。図7のフローチャートのステップS1〜ステップS4は、図3のフローチャートのステップS1〜ステップS4の各処理と同じ処理である。このため、図7のフローチャートのステップS1〜ステップS4の各処理は、上述の図3のフローチャートの説明を参照されたい。
一方、入力が音声の場合、第2の表記列変換系において、ステップS11〜ステップS14の各処理が実行される。すなわち、ステップS11において、音声取得部31が、入力された音声を取得し、第2の特徴量変換部32に供給する。一例として、図5に示すマイクロホン部4が、音声取得部31となっている。マイクロホン部4は、集音したアナログ音声をアナログ/デジタル変換機能を用いてデジタル化し、第2の特徴量変換部32に供給する。
次に、ステップS12において、第2の特徴量変換部32が、デジタル音声を音声特徴ベクトルに変換する。具体的には、第2の特徴量変換部32は、デジタル音声の音声波形を、一定時間のフレーム毎に切り出す。そして、第2の特徴量変換部32は、フレーム毎に音響特徴量を算出する。すなわち、一例であるが、第2の特徴量変換部32は、1フレームを256サンプルとしたデジタル音声の音声波形を、128サンプルずつ、ずらしながら切り出す。
第2の特徴量変換部32は、切り出した256サンプルとなる1フレームの音声波形から、12次元のMFCC特徴量を算出する。MFCCは、「メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficient)」の略記である。第2の特徴量変換部32は、3フレーム分のMFCC特徴量をバッファリングする。そして、第2の特徴量変換部32は、バッファリングした3フレーム分のMFCC特徴量を連結した36次元の特徴量を出力する。また、第2の特徴量変換部32は、36次元の特徴量は、バッファリングした3フレームのうち、中央のフレームの時刻に対応する特徴量として出力する。換言すると、第2の特徴量変換部32は、中央のフレームの時刻に対応する特徴量として、中央のフレーム及び中央のフレームの前後のフレームの36次元の特徴量を出力する。
抽出する特徴量は、MFCC特徴量以外でもよい。例えば、メルフィルタバンク特徴量、PLP(Perceptual Linear Prediction)、RASTA−PLP特徴量、ピッチ特徴量、及び、それらの△成分又は△△成分等を用いてもよい。RASTAは、「RelAtive SpecTrAl processing」の略記である。また、これら特徴量の組み合わせを用いてもよい。また、連結フレーム数は3に限定されるものではなく、1フレーム以上であれば、何フレーム連結させてもよい。また、切り出しサンプルサイズ及びフレーム周期は上記の値に限定されるものではない。
次に、ステップS13では、第2の表記列変換部33が、音響DB11に記憶されている音響モデルと、言語DB10に記憶されている言語モデルを用いて、抽出された音声特徴ベクトルを表記列に変換する。音響DB11には、ディープ・ニューラル・ネットワーク(DNN)の音響モデルが記憶されている。また、言語DB10には、1−gram言語モデルが記憶されている。この言語モデルは、第1の特徴量変換部22で生成される上述の発音列特徴ベクトルを表記列に変換する際に用いる言語モデルと同じ言語モデルである。第2の表記列変換部33は、このような音響モデル及び言語モデルを用いて、一般的なDNN−HMM音声認識処理を行う。この音声認識処理は、音響モデルを使って特徴ベクトルから音響スコアベクトルに変換する部分を除いては、第1の表記列変換部と等しい。よって、第1の表記列変換部と第2の表記列変換部は、デコーダの一部機能を共有することができる。そして、第2の表記列変換部33は、ステップS14において、音声認識結果である、入力音声に対する表記列の出力を行う。
以上の説明から明らかなように、第2の実施の形態の音声認識結果出力装置は、発音列取得部21が、発音列を取得して第1の特徴量変換部22に供給する。第1の特徴量変換部22は、後段の第1の表記列変換部23(図5:デコーダ40)で発音列として正解となる発音列特徴ベクトルを、発音列から生成する。第1の表記列変換部23は、HDD8の言語DB10に記憶されている言語モデルを用いて、発音列特徴ベクトルを表記列に変換して出力する。これにより、実施の形態の音声認識結果出力装置を、図5に示したように既存の音声認識エンジンのデコーダを用いて(デコーダの機能を共有し)、より簡単に音声認識結果出力装置を実現できる。
本発明の実施の形態を説明したが、これらの実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施の形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
1 CPU
2 ROM
3 RAM
4 マイクロホン部
5 スピーカ部
6 表示部
7 操作部
8 HDD
9 バスライン
10 言語データベース
11 音響データベース
21 発音列取得部
22 第1の特徴量変換部
23 第1の表記列変換部
31 音声取得部
32 第2の特徴量変換部
33 第2の表記列変換部
40 デコーダ

Claims (7)

  1. 発音列を取得する発音列取得部と、
    音声認識用の言語モデルを記憶した記憶部と、
    前記発音列を発音列特徴ベクトルに変換する特徴量変換部と、
    前記言語モデルを用いて、前記発音列特徴ベクトルを表記列に変換して出力する表記列変換部と
    を有する音声認識結果出力装置。
  2. 前記発音列特徴ベクトルは、音響スコアベクトルであること
    を特徴とする請求項1に記載の音声認識結果出力装置。
  3. 前記発音列特徴ベクトルは、音素状態音響スコアベクトルで、音素状態音響スコアベクトル列は発音列に該当する音素状態音響スコアの要素を他の音素状態音響スコアよりも高くしたベクトル列であること
    を特徴とする請求項1に記載の音声認識結果出力装置。
  4. 音声認識用の音響モデルを記憶した他の記憶部と、
    入力音声を取得する音声取得部と、
    取得した音声の音声波形を、音声認識用の音声特徴ベクトルに変換する他の特徴量変換部と、
    前記言語モデルと前記音響モデルを用いて、前記音声特徴ベクトルを表記列に変換する他の表記列変換部と、をさらに備えること
    を特徴とする請求項1から請求項3のうち、いずれか一項に記載の音声認識結果出力装置。
  5. 前記音響モデルは、ガウス分布音響モデルであり、前記発音列特徴ベクトルは、発音列状態を表すガウス混合音響モデルの複数の次元の平均値を要素とすること
    を特徴とする請求項4に記載の音声認識結果出力装置。
  6. 発音列取得部が、発音列を取得する発音列取得ステップと、
    特徴量変換部が、取得した前記発音列を発音列特徴ベクトルに変換する特徴量変換ステップと、
    表記列変換部が、音声認識用の言語統計情報を持つ言語モデルを用いて、前記発音列特徴ベクトルを表記列に変換して出力する表記列変換ステップと
    を有する音声認識結果出力方法。
  7. コンピュータを、
    発音列を取得する発音列取得部と、
    取得した前記発音列を発音列特徴ベクトルに変換する特徴量変換部と、
    音声認識用の言語統計情報を持つ言語モデルを用いて、前記発音列特徴ベクトルを表記列に変換して出力する表記列変換部として機能させること
    を特徴とする音声認識結果出力プログラム。
JP2015126246A 2015-06-24 2015-06-24 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム Active JP6580882B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015126246A JP6580882B2 (ja) 2015-06-24 2015-06-24 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
US15/182,987 US10535339B2 (en) 2015-06-24 2016-06-15 Recognition result output device, recognition result output method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015126246A JP6580882B2 (ja) 2015-06-24 2015-06-24 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム

Publications (2)

Publication Number Publication Date
JP2017009842A true JP2017009842A (ja) 2017-01-12
JP6580882B2 JP6580882B2 (ja) 2019-09-25

Family

ID=57602688

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015126246A Active JP6580882B2 (ja) 2015-06-24 2015-06-24 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム

Country Status (2)

Country Link
US (1) US10535339B2 (ja)
JP (1) JP6580882B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180127020A (ko) * 2017-05-19 2018-11-28 한국전자통신연구원 자연어 대화체 음성 인식 방법 및 장치
US10319373B2 (en) 2016-03-14 2019-06-11 Kabushiki Kaisha Toshiba Information processing device, information processing method, computer program product, and recognition system

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6580882B2 (ja) * 2015-06-24 2019-09-25 株式会社東芝 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
KR102434604B1 (ko) * 2016-01-05 2022-08-23 한국전자통신연구원 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법
US10043519B2 (en) * 2016-09-02 2018-08-07 Tim Schlippe Generation of text from an audio speech signal
JP2019159826A (ja) * 2018-03-13 2019-09-19 富士通株式会社 表示制御プログラム、表示制御装置及び表示制御方法
JP7043081B2 (ja) * 2019-05-23 2022-03-29 恒雄 新田 音声想起認識装置、装着具、音声想起認識方法及びプログラム
US11735169B2 (en) * 2020-03-20 2023-08-22 International Business Machines Corporation Speech recognition and training for data inputs

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113569A (ja) * 2004-10-15 2006-04-27 Microsoft Corp 音声認識システムの音響モデルから生成された合成入力を用いた自動音声認識システムのテストおよび調整

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4590692B2 (ja) * 2000-06-28 2010-12-01 パナソニック株式会社 音響モデル作成装置及びその方法
GB0028277D0 (en) * 2000-11-20 2001-01-03 Canon Kk Speech processing system
KR100486733B1 (ko) 2003-02-24 2005-05-03 삼성전자주식회사 음소 결합정보를 이용한 연속 음성인식방법 및 장치
JP3984207B2 (ja) 2003-09-04 2007-10-03 株式会社東芝 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム
ES2237345B1 (es) 2005-02-28 2006-06-16 Prous Institute For Biomedical Research S.A. Procedimiento de conversion de fonemas a texto escrito y sistema informatico y programa informatico correspondientes.
JP5068225B2 (ja) 2008-06-30 2012-11-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声ファイルの検索システム、方法及びプログラム
US10019983B2 (en) 2012-08-30 2018-07-10 Aravind Ganapathiraju Method and system for predicting speech recognition performance using accuracy scores
US9728185B2 (en) * 2014-05-22 2017-08-08 Google Inc. Recognizing speech using neural networks
JP6580882B2 (ja) * 2015-06-24 2019-09-25 株式会社東芝 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113569A (ja) * 2004-10-15 2006-04-27 Microsoft Corp 音声認識システムの音響モデルから生成された合成入力を用いた自動音声認識システムのテストおよび調整

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10319373B2 (en) 2016-03-14 2019-06-11 Kabushiki Kaisha Toshiba Information processing device, information processing method, computer program product, and recognition system
KR20180127020A (ko) * 2017-05-19 2018-11-28 한국전자통신연구원 자연어 대화체 음성 인식 방법 및 장치
KR102197387B1 (ko) * 2017-05-19 2021-01-04 한국전자통신연구원 자연어 대화체 음성 인식 방법 및 장치

Also Published As

Publication number Publication date
JP6580882B2 (ja) 2019-09-25
US10535339B2 (en) 2020-01-14
US20160379624A1 (en) 2016-12-29

Similar Documents

Publication Publication Date Title
JP6580882B2 (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
KR101056080B1 (ko) 음운 기반의 음성 인식 시스템 및 방법
JP4481035B2 (ja) 単語間音素情報を利用した連続音声認識方法および装置
US20130090921A1 (en) Pronunciation learning from user correction
JP5310563B2 (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
JP6392012B2 (ja) 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP2015041081A (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Gutkin et al. Building statistical parametric multi-speaker synthesis for bangladeshi bangla
JPWO2016103652A1 (ja) 音声処理装置、音声処理方法、およびプログラム
JP2006012179A (ja) 自然言語処理装置および自然言語処理方法
JP6367773B2 (ja) 音声強調装置、音声強調方法及び音声強調プログラム
JP2011180308A (ja) 音声認識装置及び記録媒体
JP2005250071A (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2006343405A (ja) 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6006674B2 (ja) 音響モデル選択装置とその方法とプログラム
JP6023543B2 (ja) 記号列変換方法とそれを用いた音声認識方法と、それらの装置とプログラムとその記録媒体
Razavi et al. Pronunciation lexicon development for under-resourced languages using automatically derived subword units: a case study on Scottish Gaelic

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20151102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190829

R151 Written notification of patent or utility model registration

Ref document number: 6580882

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151