JP2010054685A

JP2010054685A - 音声認識装置及び音声認識プログラム

Info

Publication number: JP2010054685A
Application number: JP2008218059A
Authority: JP
Inventors: Toru Imai; 亨今井
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2008-08-27
Filing date: 2008-08-27
Publication date: 2010-03-11
Anticipated expiration: 2028-08-27
Also published as: JP4928514B2

Abstract

【課題】連続的に更新させた最新モデルを用いて高精度な音声認識を実現する。
【解決手段】入力音声を認識して文字に変換する音声認識装置において、言語モデル、発音辞書、音響モデル、及び音声認識パラメータのうち少なくとも１つを随時学習するモデル学習手段と、前記モデル学習手段により最新モデルに更新されたことを通知するモデル更新通知手段と、前記入力音声の音響特徴量を抽出する音響分析手段と、前記音響分析手段により得られる音響特徴量と、予め蓄積或いは前記モデル学習手段により更新された言語モデル、発音辞書、音響モデル、及び音声認識パラメータを読み込み、前記音響特徴量の音声認識を行う複数の音声認識デコーダと、前記複数の音声認識デコーダのうち、前記モデル更新通知手段により通知される更新情報に基づいて、前記音声認識を行う音声認識デコーダの選択を行うデコーダ制御手段とを有することにより、上記課題を解決する。
【選択図】図１

Description

本発明は、音声認識装置及び音声認識プログラムに係り、特に連続的に更新させた最新モデルを用いて高精度な音声認識を実現するための音声認識装置及び音声認識プログラムに関する。

従来、ニュース番組等でアナウンサーが読み上げる原稿は、記者が入稿した電子原稿をディレクターが印刷し、放送時間の長さや話の流れに応じて、放送直前又は放送中に手書きで加筆修正したものを用いている。

また、ニュース番組の字幕制作のために用いられる音声認識では、新たな固有名詞や話題に対応するため、この読み上げ原稿の元となる電子原稿を言語モデルの適応学習データに利用して、認識誤りを削減することが重要であることが知られている（例えば、特許文献１参照。）。

また、音声認識を利用した従来の字幕制作システムでは、例えば言語モデルの学習に８分程度を要したことから、放送開始の１０分前までに出稿された電子原稿を適応学習データとしていた（例えば、非特許文献１参照。）。

また、従来では、ユーザに大きな負担をかけることなく音響モデルと言語モデルを更新して音声認識の認識精度を向上させるため、音声認識における音響モデル管理サーバが、更新された音響データを取得して構築した音響モデルを、ネットワークを介して音声認識装置に送信し、音声認識装置が、音声認識の際に参照する音響モデルを、音響モデル管理サーバが送信した音響モデルにより更新する手法が知られている（例えば、特許文献２参照。）。このように、特許文献２においても音声認識における最新モデルの重要性が言及されている。

更に、辞書への新出単語の追加のみであれば、起動している音声認識デコーダを停止させることなく、単語の発音辞書ネットワークに新出単語を追加し、未知語に割り当てられたＮ−ｇｒａｍ確率を流用することもできる（例えば、特許文献３、非特許文献２等参照。）。
特許第３８３６６０７号公報安藤彰男他，"音声認識を利用した放送用ニュース字幕制作システム，"信学論，Ｖｏｌ．Ｊ８４−Ｄ−ＩＩ，Ｎｏ．６，ｐｐ．８７７−８８７，２００１．６．特開２００２−９１４７７号公報特開２００２−２０７４９５号公報西村竜一他，"音声入力Ｗｅｂシステムｗ３ｖｏｉｃｅにおける音声認識手法の検討，"音講論集，１−１０−１７，ｐｐ．５１−５２，２００８．３．

しかしながら、上述した従来技術においては、例えばニュース等における記者の出稿が、音声認識を終了する時間より遅れた場合には、その電子原稿は言語モデルに反映されず、認識誤りを生じさせる原因の１つとなっていた。また、従来の音声認識システムは、一般に１つの音声認識デコーダしか備えていないため、言語モデルが最新のものに更新されたとしても、音声認識デコーダを一度停止し、これを再び手動で起動させて最新言語モデルを読み込む必要があった。

したがって、例えば字幕制作等における音声認識では、字幕放送が始まり、起動中の音声認識を停止してしまうと、字幕放送が中断されることになり、運用上好ましくない。また、言語モデル更新後の音声認識デコーダの再起動にも、手間を要するものであった。

更に、ニュース番組の字幕制作では語彙（サイズ６万単語）のエントリーも随時入れ替えており、１つの音声認識デコーダを動かしながら言語モデルと発音辞書をダイナミックに更新することは困難であった。

つまり、上述したように、従来では音声認識における最新モデルの重要性が言及されているが、ここでも音声認識の停止と再起動を前提としており、音声認識を途切れさせることなく運用を継続させられるものではなかった。

本発明は、上述した問題点に鑑みなされたものであり、連続的に更新させた最新モデルを用いて高精度な音声認識を実現するための音声認識装置及び音声認識プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

請求項１に記載された発明は、入力音声を認識して文字に変換する音声認識装置において、言語モデル、発音辞書、音響モデル、及び音声認識パラメータのうち少なくとも１つを随時学習するモデル学習手段と、前記モデル学習手段により最新モデルに更新されたことを通知するモデル更新通知手段と、前記入力音声の音響特徴量を抽出する音響分析手段と、前記音響分析手段により得られる音響特徴量と、予め蓄積或いは前記モデル学習手段により更新された言語モデル、発音辞書、音響モデル、及び音声認識パラメータを読み込み、前記音響特徴量の音声認識を行う複数の音声認識デコーダと、前記複数の音声認識デコーダのうち、前記モデル更新通知手段により通知される更新情報に基づいて、前記音声認識を行う音声認識デコーダの選択を行うデコーダ制御手段とを有することを特徴とする。

請求項１記載の発明によれば、連続的に更新させた最新モデルを用いて高精度な音声認識を実現することができる。

請求項２に記載された発明は、前記デコーダ制御手段は、古いモデルで起動中の音声認識デコーダに加えて、最新モデルの音声認識デコーダを同時に起動し、音声認識を途切れさせることなく、音声認識を行う音声認識デコーダを前記音響分析手段から得られる所定のタイミングで最新モデルの音声認識デコーダに切り替えることを特徴とする。

請求項２記載の発明によれば、常に最新モデルを用いて高精度な音声認識を連続して実現することができる。

請求項３に記載された発明は、前記デコーダ制御手段は、前記複数の音声認識デコーダの全てに順次途切れなく最新モデルを読み込ませて再起動させることを特徴とする。

請求項３記載の発明によれば、音声認識を途切れさせることなく、迅速に最新モデルに更新して、その最新モデルを用いた音声認識を行うことができる。

請求項４に記載された発明は、前記デコーダ制御手段は、前記再起動させた後、それぞれの音声認識デコーダに前記入力音声の認識を所定のタイミングで順次受け持たせることを特徴とする。

請求項４記載の発明によれば、最新モデルを利用しつつ、処理時間の要する複雑な音声認識のトータル的な処理時間を削減することができる。

請求項５に記載された発明は、音声認識結果を修正し、修正した履歴情報を前記モデル学習手段に出力して学習データとして利用させるための文字修正手段を有することを特徴とする。

請求項５記載の発明によれば、同じ音声認識誤りの起きる可能性を軽減させることができる。

請求項６に記載された発明は、入力音声を認識して文字に変換する音声認識処理をコンピュータに実行させるための音声認識プログラムにおいて、コンピュータを、言語モデル、発音辞書、音響モデル、及び音声認識パラメータのうち少なくとも１つを随時学習するモデル学習手段、前記モデル学習手段により最新モデルに更新されたことを通知するモデル更新通知手段、前記入力音声の音響特徴量を抽出する音響分析手段、前記音響分析手段により得られる音響特徴量と、予め蓄積或いは前記モデル学習手段により更新された言語モデル、発音辞書、音響モデル、及び音声認識パラメータを読み込み、前記音響特徴量の音声認識を行う複数の音声認識デコーダ、及び、前記複数の音声認識デコーダのうち、前記モデル更新通知手段により通知される更新情報に基づいて、前記音声認識を行う音声認識デコーダの選択を行うデコーダ制御手段として機能させる。

請求項６記載の発明によれば、連続的に更新させた最新モデルを用いて高精度な音声認識を実現することができる。また、プログラムをインストールすることにより、容易にデータ分類処理を実現することができる。

本発明によれば、連続的に更新させた最新モデルを用いて高精度な音声認識を実現することができる。

＜本発明の概要＞
本発明は、既に古いモデルを読み込んで起動している音声認識デコーダに加えて、音声認識処理を途切れさせることなく更新された最新モデルを読み込むための別の音声認識デコーダを同時に起動し、音声認識を行う音声認識デコーダを最新モデルのものに切り替えることにより、常に最新モデルを用いて高精度な音声認識を連続して実現するものである。

以下に、本発明における音声認識装置及び音声認識プログラムを好適に実施した形態について、図面を用いて説明する。

＜音声認識装置：機能構成例＞
図１は、本実施形態における音声認識装置の機能構成の一例を示す図である。図１に示す音声認識装置１０は、音響分析手段１１と、デコーダ制御手段１２と、音声認識デコーダ１３−１，１３−２と、文字修正手段１４と、モデル学習手段１５と、モデル更新通知手段１６と、蓄積手段１７と、学習データ１８とを有するよう構成されている。

音響分析手段１１は、入力される音声から音響特徴量を抽出する。なお、音響特徴量としては、例えば周波数特性や音のパワー、性別属性等の各種音響特徴量を抽出する。また、これらの特徴量は一般的な音声認識手法で用いることができ、これにより例えば声の特徴を表す１２次元程度のメル周波数ケプストラム係数（ＭＦＣＣ：ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ）（例えば、鹿野他、「音声認識システム」オーム社、２００１等を参照。）や、線形予測係数等のような声道の形状を数値化した特徴量、韻律（ピッチ、抑揚等）等の特徴量、またそれらの特徴量の平均値や分散等の統計的情報を分析することにより、種々の特徴量を取得することができる。また、音響分析手段１１は、分析により得られる各種音響特徴量をデコーダ制御手段１２に出力する。

デコーダ制御手段１２は、複数の音声認識デコーダ１３（図１に示す例では、音声認識デコーダ１３−１，１３−２）等の起動や、どの音声認識デコーダ１３を選択してデコード（音声→文字解読）を行うのか等、音響認識結果を取得するための制御を行う。

具体的には、デコーダ制御手段１２は、後述するモデル更新通知手段１６から通知される、モデルが更新されたことを示す更新情報にしたがって、複数の音声認識デコーダ１３のうち、音声認識実行中ではない任意の音声認識デコーダを選択し、選択した音声認識デコーダに最新モデルを読み込ませて再起動させる。また、デコーダ制御手段１２は、音声認識を担当する音声認識デコーダ１３に音響特徴量を送信すると共に、得られる文字情報等の音声認識結果を文字修正手段１４に出力する。

音声認識デコーダ１３は、予めその時点で蓄積手段１７に蓄積或いは後述するモデル学習手段１５により更新されている最新の言語モデル、発音辞書、音響モデル、及び音声認識パラメータの全てを読み込んで起動しており、音声認識可能な状態になっている。

音声認識デコーダ１３は、音響特徴量をデコーダ制御手段１２から取得すると、逐次音声認識を実行し、デコーダ制御手段１２に文字情報等の音声認識結果を出力する。なお、図１の例では、音声認識デコーダが２つ設けられているが、本発明においてはこれに限定されるものではなく、３つ以上が設けられていてもよい。なお、逐次音声認識は、例えば特許第３８３４１６９号公報で示されているような早期確定型の手段等の従来手法を用いることができる。

文字修正手段１４は、デコーダ制御手段１２により得られる音声認識結果に対してユーザ等によるチェックや自動文章校正処理等により、例えば人名等の誤記等に対して正確な文字が入力され、その文字に対応する文章の所定の部位を変換する。なお、文字修正手段１４は、文字の追加や削除等も指示情報の入力により実行することができる。

モデル学習手段１５は、学習データ１８が最新のテキストや音声等により新たに更新されると、例えば所定時間毎やデータ更新時、番組変更等の切り替わり等のタイミングで、音声認識デコーダ１３の処理とはまったく非同期で、自動又は手動で言語モデル、発音辞書、音響モデル、及び音声認識等に用いられるパラメータファイル（音声認識パラメータ）のうち、少なくとも１つを最新のものに学習してデータの更新を行う。

なお、音声認識パラメータとしては、例えば音声認識の過程で保持すべき最大単語数や、言語モデルと音響モデルによる各スコアのバランスを調整する重み係数等、音声認識の正確さと処理速度を調整する変数のリスト等からなる。

これにより、蓄積手段１７に蓄積されるモデルは、最新の言語モデル、発音辞書、音響モデル、パラメータファイルに更新される。また、モデル学習手段１５は、モデルを学習したことを知らせる旨の信号をモデル更新通知手段１６に出力する。

モデル更新通知手段１６は、モデル学習手段１５により入力されたデータ更新に関する更新信号をデコーダ制御手段１２に出力する。ここで、更新信号とは、言語モデル、発音辞書、音響モデル、及びパラメータファイルのうち、どのデータが更新されたのかを示すデータ識別情報、更新日付、更新バージョン等である。

これにより、例えば、図１に示す実施形態において、例えばデコーダ制御手段１２は、まず音声認識デコーダ１３−１に最新モデルの学習データ１８を読み込ませて起動する。また、次の最新モデルの学習データ１８が生成されると、デコーダ制御手段１２は、モデル更新通知手段１６からの更新情報の通知を受け、音声認識デコーダ１３−２に最新モデルの学習データ１８を読み込ませて起動させ認識可能な状態になったことを確認後、例えば音響分析手段１１から得られる音響特徴量等に基づく所定のタイミングで音声認識の処理対象を音声認識デコーダ１３−１から音声認識デコーダ１３−２に切り替える。

また、デコーダ制御手段１２は、音声認識デコーダ１３−１，１３−２が共に最新モデルを用いている場合には、両方を用いて１文章毎に交互に音声認識処理をさせることもできる。

蓄積手段１７は、本実施形態における音声認識処理を実現するために必要なデータを蓄積し、音声認識処理の必要に応じた読み込みや、モデル学習手段１５の必要に応じた書き出しを行う。具体的には、蓄積されるデータは、音声認識デコーダ１３における音声認識処理に必要な予め蓄積或いは自動又は手動で更新されるモデルであり、例えば言語モデル、発音辞書、音響モデル、音声認識パラメータの全てである。

ここで、言語モデルには、例えば単語と単語の繋がり易さを確率で表した一般的なＮグラム・モデルを利用することができ、これにより、例えば単語「地球」の次に単語「温暖化」が接続する確率は０．８等と数値化して表現することができる。

また、発音辞書は、各単語の発音を母音と子音の組み合わせで表したファイルであり、例えば単語「地球」の発音は「／ｃｈｉｋｙｕ：／」等と記述されている。

音響モデルは、各母音・子音の声の周波数特性等を表したものであり、一般的な隠れマルコフ・モデル（ＨＭＭ）で表すことができる。

音声認識パラメータは、音声認識の過程で保持すべき最大単語数や、言語モデルと音響モデルによる各スコアのバランスを調整する重み係数等、音声認識の正確さと処理速度を調整する変数のリストである。また、モデルを最新のものに学習する部分は、音声認識システムの中に含まれていても、外部で独立して起動し、更新されたモデルを何らかの通信手段で音声認識システムに伝送しても構わない。

また、学習データ１８は、テキストや音声等の所定の分野に関する各種データが蓄積されている。また、学習データ１８は、各種データに更新があり、その内容が現在音声認識されているものに該当する場合や、各種モデル等を更新する場合には、その更新した旨とデータ自体をモデル学習手段１５に出力する。

＜デコーダ制御手段１２における音声認識デコーダ１３の更新及び制御方法について＞
ここで、上述したデコーダ制御手段１２における音声認識デコーダ１３の更新及び制御方法について説明する。

＜デコーダ更新：実施例１＞
デコーダ制御手段１２は、音声認識デコーダ１３を同時に起動し、途切れなく最新モデルの音声認識デコーダに切り替わるようになっている。また、デコーダ制御手段１２は、例えば入稿された最新の電子原稿によって言語モデルと発音辞書が自動（又は手動）で更新された旨を示す更新情報の通知をモデル更新通知手段１６から受け、音声認識デコーダ１３−１が音声認識を実行中である場合には、これとは別に新たに音声認識デコーダ１３−２を最新モデルで起動する。

そして、デコーダ制御手段１２は、音声認識デコーダ１３−２が認識可能な状態になったことを確認後、例えば、音響分析手段１１により取得した入力音声における非音声区間等の所定のタイミングで音声認識の対象を音声認識デコーダ１３−１から音声認識デコーダ１３−２に切り替える。

また、デコーダ制御手段１２は、以後同様にモデルの更新とデコーダの起動、選択、切り替えを繰り返し行うことで、最新モデルを用いた音声認識を継続して行うことができる。

＜デコーダ更新：実施例２＞
デコーダ制御手段１２は、予め複数の音声認識デコーダ１３の全てを、その時点での最新モデルで起動させ、入力音声から得られる音響特徴量に基づく所定のタイミング（例えば、１文章毎、ニュースの１テーマ毎、１番組毎、所定時間毎等）で複数の音声認識デコーダを任意に切り替えて音声認識処理を行う。

次に、音声認識モデルが最新モデルに更新される場合には、起動している複数の音声認識パラメータのうち、ある１つの音声認識デコーダを停止させ、モデルが最新の状態に更新された後に起動させる。また、最新モデルに更新されていない音声認識デコーダについても同様に順次更新をした後に再起動を行う。

なお、更新中の音声認識デコーダは、その時点では音声認識処理を行わず、再起動後、最新モデルで音声認識を行う。これにより、複数の音声認識デコーダを並列して起動させることで、音声認識に時間のかかる音声が入力された場合でも、デコーダの負荷を軽減することができ、トータル的な音声認識処理速度を向上させることができる。

上述した実施形態によれば、連続的に更新させた最新モデルを用いて高精度な音声認識を実現するための音声認識装置を提供することができる。音声認識を途切れさせることなく、音声認識を行う音声認識デコーダを最新モデルのものに切り替えることにより、常に最新モデルを用いて高精度な音声認識を連続して実現することができる。

これにより、例えばテレビの生放送番組にリアルタイムで字幕を付与する目的で音声認識を利用する場合、放送中に既に音声認識を運用している状態であっても、音声認識を一瞬たりとも停止させることなく、常に最新モデルを読み込ませて高精度な音声認識が連続して実現可能となる。

＜ハードウェア構成＞
ここで、上述したように音声認識装置１０は、専用の装置構成により本発明における音声認識処理を行うこともできるが、後述する各構成における音声認識処理をコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等にプログラムをインストールすることにより、本発明における音声認識処理を実現することができる。

ここで、本発明における実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図２は、本発明における音声認識処理が実現可能なハードウェア構成の一例を示す図である。

図２におけるコンピュータ本体には、入力装置２１と、出力装置２２と、ドライブ装置２３と、補助記憶装置２４と、メモリ装置２５と、各種制御を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２６と、ネットワーク接続装置２７とを有するよう構成されており、これらはシステムバスＢで相互に接続されている。

入力装置２１は、使用者が操作するキーボード及びマウス等のポインティングデバイスを有しており、使用者からのプログラムの実行等、各種操作信号を入力する。出力装置２２は、本発明における音声認識処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、ＣＰＵ２６が有する制御プログラムによりプログラムの実行経過や結果等を表示することができる。

ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリやＣＤ−ＲＯＭ等の可搬型の記録媒体２８等により提供される。プログラムを記録した記録媒体２８は、ドライブ装置２３にセット可能であり、記録媒体２８に含まれる実行プログラムが、記録媒体２８からドライブ装置２３を介して補助記憶装置２４にインストールされる。

補助記憶装置２４は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。

メモリ装置２５は、ＣＰＵ２６により補助記憶装置２４から読み出された実行プログラム等を格納する。なお、メモリ装置２５は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等からなる。

ＣＰＵ２６は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、メモリ装置２５により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、上述した音声認識における各処理を実現することができる。プログラムの実行中に必要な各種情報は、補助記憶装置２４から取得することができ、また格納することもできる。

ネットワーク接続装置２７は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。

上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで高精度な音声認識処理を実現することができる。また、実行プログラム（音声認識プログラム等）をインストールすることにより、容易に音声認識処理を実現することができる。

＜音声認識処理手順＞
次に、本実施形態における音声認識処理手順の一例についてフローチャートを用いて説明する。なお、以下の説明においては、モデル自動更新に対応した音声認識装置全体の処理において、音声認識デコーダを最大Ｄ個まで起動できるものとして、学習データの更新に応じたモデルの学習、更新処理、音声認識デコーダの追加起動と認識を行う音声認識デコーダの選択及び切り替え処理がそれぞれ非同期並列動作的に行われているため、それらの処理をそれぞれ分けて説明する。

＜モデルの学習・更新処理＞
まず、本実施形態におけるモデルの学習・更新処理手順についてフローチャートを用いて説明する。図３は、本実施形態におけるモデルの学習・更新処理手順の一例を示すフローチャートである。

図３において、まず、モデル学習手段は、テキストや音声等の学習データが更新されたことを示す更新イベントを外部等から受信すると（Ｓ０１）、蓄積手段に蓄積されたモデル（言語モデル・発音辞書・音響モデル・各種パラメータファイル）に対して、最新モデルを学習し、モデルの更新を行う（Ｓ０２）。

次に、モデル更新通知手段は、デコーダ制御手段にモデルが更新されたことを示すモデル更新イベント（モデル更新情報）を通知する（Ｓ０３）。また、デコーダ制御手段は、Ｓ０３により得られる更新情報により、複数の音声認識デコーダのうち、更新可能な音声認識デコーダを選択し、選択した音声認識デコーダに最新モデルを読み込ませて起動させる（Ｓ０４）。なお、このとき更新される音声認識デコーダは、まだ予備装置として起動されていない音声認識デコーダか、又は複数の並列して起動しているデコーダのうち、所定の順序で順次選択される音声認識デコーダに対して、停止、更新、再起動の処理を行う。

なお、後述の処理を具体的に説明するために、更新された最新モデルｄ’を「ｄ’＝（ｄ＋１）％Ｄ」とする。なお、この式は、音声認識デコーダを識別する番号ｄに１を加えてＤ（起動できる最大音声認識デコーダ数）で割った余りｄ’として表現したものである。

＜音声認識デコーダの追加起動と認識対象切り替え処理＞
次に、音声認識デコーダの追加起動と認識対象切り替え処理について、フローチャートを用いて説明する。

図４は、音声認識デコーダの追加起動と認識対象切替処理の一例を示すフローチャートである。図４に示す処理では、まず音声認識装置全体の動作を開始すると、まず初期値設定を行う（Ｓ１１）。具体的には、音声認識デコーダの番号ｄに０をセットし、その時点での最新モデル（言語モデル・発音辞書・音響モデル・パラメータファイル等）を読み込み、音声認識デコーダｄが起動する（Ｓ１２）。

ここで、認識させたい音声が入力され始めると（Ｓ１３）、音響分析による音響特徴量の抽出を開始し（Ｓ１４）、その中から例えば人間の声の発話始端を検出する（Ｓ１５）。

ここで、もし音声認識と非同期で並列動作しているモデルの学習・更新処理が行われている場合には、上述した図３に示すように、音声認識デコーダの番号ｄに１を加えてＤで割った余りをｄ’＝（ｄ＋１）％Ｄとして、モデル（言語モデル、発音辞書、音響モデル、パラメータファイル）の学習及び更新が行われ、デコーダ制御手段１２にモデル更新イベントが通知されると共に、音声認識デコーダｄ’がその最新モデルで起動されるものとする。

この状態において、デコード制御手段１２は、音声認識デコーダｄ’が起動済みであるか否かを判断し（Ｓ１６）、音声認識デコーダｄ’が起動済みである場合（Ｓ１６において、ＹＥＳ）、音声認識デコーダｄを停止し、音声認識デコーダｄを音声認識デコーダｄ’で更新し、音声認識処理を担当するデコーダ番号ｄをｄ’に切り替える（Ｓ１７）。また、Ｓ１６の処理において、音声認識デコーダｄ’が起動済みでない場合（Ｓ１６において、ＮＯ）には、音声認識デコーダの番号ｄは不変となる。

そして、デコーダ制御手段１２は、入力音声の音響特徴量を音響分析手段から受け取り、これを音声認識デコーダｄに送信する（Ｓ１８）。音声認識デコーダｄは、正解単語の探索を行い（Ｓ１９）、認識結果の文字列を音声認識デコーダｄからデコーダ制御部に送信する（Ｓ２０）。そして、デコーダ制御手段１２は、認識結果の文字列を外部に出力し（Ｓ２１）、これが生放送番組の字幕制作等のアプリケーション等で用いられる。

ここで、入力信号が発話終端か否かを判断し（Ｓ２２）、入力音声が発話の終端に達していない場合（Ｓ２２において、ＮＯ）、Ｓ１８の処理におけるデコーダ制御手段１２における音響特徴量の受信と音声認識デコーダｄへの送信に戻り、音声認識デコーダを変更することなく、発話終端まで音声認識を繰り返し行う。

また、Ｓ２２の処理において、もし入力音声が発話の終端に達している場合（Ｓ２２において、ＹＥＳ）、次に音声認識全体の処理を終了するか否かを判断し（Ｓ２３）、音声認識を終了しない場合（Ｓ２３において、ＮＯ）、音声認識を継続するため、Ｓ１５の処理における発話始端の検出に戻り、音声認識処理を終了するまで後続の処理を繰り返し行う。また、音声認識を終了する場合（Ｓ２３において、ＹＥＳ）、音声認識全体の処理を終了する。

上述した処理手順により、連続的に更新させた最新モデルを用いて高精度な音声認識を実現するための音声認識プログラムを提供することができる。具体的には、音声認識を途切れさせることなく、音声認識を行う音声認識デコーダを最新モデルのものに切り替えることにより、常に最新モデルを用いて高精度な音声認識を連続して実現するものである。例えば、テレビの生放送番組にリアルタイムで字幕を付与する目的で音声認識を利用する場合、放送中に既に音声認識を運用している状態であっても、音声認識を一瞬たりとも停止させることなく、常に最新モデルを読み込み、高精度な音声認識が連続して可能となる。

＜発話の始端検出及び終端検出について＞
なお、上述した処理において、音響分析時に行われる発話の始端検出及び終端検出の処理手順は、例えばエンドレス音素認識による時間遅れの少ないオンライン発話区間検出（例えば、特開２００７−２３３１４８号公報等）を用いることができる。この概要を以下に説明する。

＜音素認識による発話区間検出＞
リアルタイム音声認識のための発話区間検出では、フレーム単位の細かな音声／非音声の判定よりも、多少の非音声区間を音声区間と誤ることはあっても、音声区間の欠落をできる限り抑え、音声を適度な長さの区間に切り出して、認識率の向上に寄与することが重要である。また、字幕表示のため、音声入力から音声始終端検出までの遅れ時間は、できる限り小さいことも求められる。

例えば、字幕制作システムにおける音声認識では、音のパワーだけでなく周波数特性も考慮して、男女並列の性別依存音響モデルによる音素認識をエンドレスに実行し、その時の尤度から発話区間検出を行うようにしている。音素認識は、タスクによらず適用できるため、タスク依存の言語モデルを利用する手法よりも簡易であり、音響モデルを男女並列に動作させても、計算量はほとんど問題にならない。

そこで、本実施形態では男女間遷移が可能で枝刈り共通の男女並列音素認識を常時実行し、累積音素尤度の比を利用して発話の始端と終端を早期に検出する。これにより、ニュース番組に対する音声区間検出実験では、従来の短時間パワーによるＦＲＲ（ＦａｌｓｅＲｅｊｅｃｔｉｏｎＲａｔｅ：誤って非音声と判定された音声区間の割合）が４．６％であったのに対して、上述の手法は０．５３％と非常に小さく、発話の始終端検出までの遅れ時間も十分短いことが確認されている。

なお、上述した発話の始端検出及び終端検出の処理手順は、公知のあらゆる発話区間検出方式で動作させることが可能であり、また音声認識デコーダｄにおける正解単語探索の処理手順も公知のあらゆる音声認識方式で動作させることが可能である。

＜音声認識処理の具体的な実施例＞
次に、上述した音声認識処理の具体的な実施例について図を用いて説明する。図５は、本実施形態における音声認識手法を適用した具体的な実施例を示す図である。図５では、音声認識装置１０を用いた字幕制作システム３０の一例を示している。具体的には、字幕制作システム３０は、ダイレクト方式（例えば、アナウンサーによる原稿読み上げ、記者現場リポート等）の番組音声やリスピーク方式（例えば、インタビュー等）の復唱音声等の入力を切り替え、Ａ／Ｄ変換等により得られた入力音声を上述した音声認識装置１０に入力する。

音声認識装置１０では、学習データであるニュース電子原稿から随時学習される言語モデルや発音辞書等や、不特定話者音響モデル等の各種モデルデータを用いて、音声認識デコーダＡ，Ｂにより、男性ＨＭＭや女性ＨＭＭを用いて音声認識を行い、字幕の確認、修正を行って字幕画面に文字列を表示する。

このように、本発明における音声認識手法を適用することで、字幕制作システム３０において音声認識を一切途切れさせることなく、音声認識を行う音声認識デコーダを最新モデルのものに切り替えることにより、常に最新モデルを用いて高精度な音声認識を連続して実現することができる。すなわち、音声認識処理を行うユーザ（番組制作者等）は、モデルが最新なものであるかどうかを気にする必要なく、常に自動的に最新モデルで音声認識が起動していることが保証される。

＜本実施形態における従来手法との比較結果＞
ここで、モデル自動更新に対応した音声認識装置の効果を調べるため、放送番組中の各ニュース項目に対応する電子原稿を適応学習しなかった場合（放送１時間前のモデル）に対して、学習した場合（放送直前に学習したモデル）の効果を、音声認識による字幕制作実験（認識誤りのリアルタイム手動修正）により調べた結果について説明する。

図６は、更新の効果の一例を示す図である。なお、図６では、一例として言語モデルと発音辞書の更新の効果を示している。例えば、２つのニュース番組での実験の結果、図６に示すように、関連原稿で言語モデル（語彙サイズ６万単語）を適応学習すると、言語モデルの複雑さの指標であるテストセット・パープレキシティと未知語率（発音辞書に登録されていない単語の割合）は大幅に減少、そしてトライグラム・ヒット率（言語モデルのカバー率）は上昇し、音声認識誤りも約１／３に削減された。放送１時間前のモデルでも字幕の誤りはほとんど残らないが、人名等の固有名詞が未知語となり、人手による修正に手間を要した。したがって、字幕に誤りの残る可能性が低く、字幕の表示遅れも小さい本発明のデコーダ制御方式は、運用上好ましいと言える。

以上に説明したように本発明によれば、連続的に更新させた最新モデルを用いて高精度な音声認識を実現することができる。また、本発明によれば、音声認識を一切途切れさせることなく、音声認識処理を担当する音声認識デコーダを最新モデルのものに自動的に切り替えることにより、常に最新モデルを用いて高精度な音声認識を連続して実現するものである。

具体的には、本発明は、音声認識を途切れさせることなく、音声認識を行う音声認識デコーダを最新モデルのものに切り替えることにより、常に最新モデルを用いて高精度な音声認識を連続して実現するものである。例えば、テレビの生放送番組にリアルタイムで字幕を付与する目的で音声認識を利用する場合、放送中に既に音声認識を運用している状態であっても、音声認識を一瞬たりとも停止させることなく、常に最新モデルを読み込み、高精度な音声認識を連続して実現することができる。

以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

本実施形態における音声認識装置の機能構成の一例を示す図である。本発明における音声認識処理が実現可能なハードウェア構成の一例を示す図である。本実施形態におけるモデルの学習・更新処理手順の一例を示すフローチャートである。音声認識デコーダの追加起動と認識対象切替処理の一例を示すフローチャートである。本実施形態における音声認識手法を適用した具体的な実施例を示す図である。更新の効果の一例を示す図である。

符号の説明

１０音声認識装置
１１音響分析手段
１２デコーダ制御手段
１３音声認識デコーダ
１４文字修正手段
１５モデル学習手段
１６モデル更新通知手段
１７蓄積手段
１８学習データ
２１入力装置
２２出力装置
２３ドライブ装置
２４補助記憶装置
２５メモリ装置
２６ＣＰＵ
２７ネットワーク接続装置
２８記録媒体
３０字幕制作システム

Claims

入力音声を認識して文字に変換する音声認識装置において、
言語モデル、発音辞書、音響モデル、及び音声認識パラメータのうち少なくとも１つを随時学習するモデル学習手段と、
前記モデル学習手段により最新モデルに更新されたことを通知するモデル更新通知手段と、
前記入力音声の音響特徴量を抽出する音響分析手段と、
前記音響分析手段により得られる音響特徴量と、予め蓄積或いは前記モデル学習手段により更新された言語モデル、発音辞書、音響モデル、及び音声認識パラメータを読み込み、前記音響特徴量の音声認識を行う複数の音声認識デコーダと、
前記複数の音声認識デコーダのうち、前記モデル更新通知手段により通知される更新情報に基づいて、前記音声認識を行う音声認識デコーダの選択を行うデコーダ制御手段とを有することを特徴とする音声認識装置。
前記デコーダ制御手段は、
古いモデルで起動中の音声認識デコーダに加えて、最新モデルの音声認識デコーダを同時に起動し、音声認識を途切れさせることなく、音声認識を行う音声認識デコーダを前記音響分析手段から得られる所定のタイミングで最新モデルの音声認識デコーダに切り替えることを特徴とする請求項１に記載の音声認識装置。
前記デコーダ制御手段は、
前記複数の音声認識デコーダの全てに順次途切れなく最新モデルを読み込ませて再起動させることを特徴とする請求項１又は２に記載の音声認識装置。
前記デコーダ制御手段は、前記再起動させた後、それぞれの音声認識デコーダに前記入力音声の認識を所定のタイミングで順次受け持たせることを特徴とする請求項３に記載の音声認識装置。
音声認識結果を修正し、修正した履歴情報を前記モデル学習手段に出力して学習データとして利用させるための文字修正手段を有することを特徴とする請求項１乃至４の何れか１項に記載の音声認識装置。
入力音声を認識して文字に変換する音声認識処理をコンピュータに実行させるための音声認識プログラムにおいて、
コンピュータを、
言語モデル、発音辞書、音響モデル、及び音声認識パラメータのうち少なくとも１つを随時学習するモデル学習手段、
前記モデル学習手段により最新モデルに更新されたことを通知するモデル更新通知手段、
前記入力音声の音響特徴量を抽出する音響分析手段、
前記音響分析手段により得られる音響特徴量と、予め蓄積或いは前記モデル学習手段により更新された言語モデル、発音辞書、音響モデル、及び音声認識パラメータを読み込み、前記音響特徴量の音声認識を行う複数の音声認識デコーダ、及び、
前記複数の音声認識デコーダのうち、前記モデル更新通知手段により通知される更新情報に基づいて、前記音声認識を行う音声認識デコーダの選択を行うデコーダ制御手段として機能させるための音声認識プログラム。