JP2023028902A

JP2023028902A - 音声認識装置及び方法、並びにコンピュータプログラム

Info

Publication number: JP2023028902A
Application number: JP2021134879A
Authority: JP
Inventors: 鵬沈; Peng Shen; 恒河井; Hisashi Kawai
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2023-03-03

Abstract

【課題】多言語でのリアルタイムの音声認識を、高精度でかつ低レイテンシで行える多言語ライブ音声認識システムを提供する。【解決手段】音声認識装置５０は、音声信号の発話区間の開始及び終了を検出する発話区間検出手段７２と、発話区間検出手段７２により検出された発話区間の終了後、所定時間以上の無音区間があったことに応答して、発話区切りを示す発話区分信号を出力するための発話区切り検出手段７６と、発話区分信号に応答して、直前の発話区間の発話の言語を識別し言語の識別子を出力するための言語識別手段７８と、発話区間検出手段７２により発話区間の開始が検出されたことに応答して、当該発話区間の音声信号に対する音声認識をそれぞれ行うための、互いに異なる複数の言語のための複数の音声認識手段と、識別子に応答して、複数の音声認識手段のうち、当該識別子の示す言語の音声認識手段の出力を選択して出力するための選択手段８０とを含む。【選択図】図１

Description

この発明は音声認識装置に関し、特に、多言語の発話の音声認識装置に関する。

音声認識技術の普及により、音声の言語が予め分かっている場合、発話単位なら音声をほぼ同時に高い精度を持ってテキストに変換できる技術が存在する。発話単位ではなく、音声の言語が予め分かっていない複数の発話の音声認識をする場合には、さらに音声がどの言語によるものかを自動的に判定する言語識別技術が必要である。例えば後掲の特許文献１には、発話の開始とともに言語の識別を開始し、発話の先頭の短い期間のみを使用して言語の識別を行う技術が開示されている。また、従来は、そのように発話と同時に音声認識を行うシステムの評価は、単語誤り率（ＷＥＲ（ＷｏｒｄＥｒｒｏｒＲａｔｅ））及びリアルタイムファクター（ＲＴＦ（ＲｅａｌＴｉｍｅＦａｃｔｏｒ））が広く使用されている。

特開２０２０－１６０３７４号公報

最近、政治、学術及びビジネスの領域において国際的な会議、講演、質疑応答などが一般的になっている。いわゆるビデオ会議により、複数の国を結び、複数の話者が複数の言語により会議を行う機会も増えている。そうした場を有意義なものにするためには、同時通訳を自動翻訳を使用して行うことが必須である。

自動翻訳をする前提として、各話者の発話を正確に音声認識する必要がある。会議などにおいては発話が長時間に及ぶことが多い。しかしそれだけでなく、長い発話と短い発話とが交互に出現したり、短い発話が続いたりする場合も多い。使用される言語も話者も複数ありそれが頻繁に切り替わる。そのような状況においては、単独の話者の発話を音声認識する場合と異なり、発話区間検出、言語の判別、及び自動翻訳を短時間の間に正確に行わなければならないという制約がある。さらに長時間の音声の場合は発話中に非音声が挿入されることも多く、処理をさらに難しくなる。こうした状況は、同時通訳を行う場合だけではなく、会議の議事録の作成、字幕の作成などにおいても同様に生じる。

使用される言語が切り替わったとき（話者が交代したとき）には、短い時間の間に言語を識別する必要がある。しかし既存の言語識別技術によっては、発話の先頭という限られた情報から正確に言語を識別することが難しいという問題がある。多言語を連続的に処理する音声認識装置では、話者が発話している間に言語を識別し、言語を識別した後に素早く音声認識の結果を表示したり、翻訳などの後処理に渡したりする。また、多言語の発話の言語識別及び音声認識を精度よく認識、識別するため、発話区間を高い精度で検出することが必要になる。既存の発話区間検出技術は、短い発話に対しては精度が低いという問題があり、発話の切り替えをうまく検出できないことが多い。

また、このように発話をリアルタイムで音声認識するシステムを評価する際に、従来のようにＷＥＲ及びＲＴＦを使用することが適切かという問題もある。

したがってこの発明の目的は、多言語でのリアルタイムの音声認識を、高精度でかつ低レイテンシで行える多言語ライブ音声認識システムを提供することである。

この発明の他の目的は、多言語ライブ音声認識システムを適切に評価する指標を提供することである。

この発明の第１の局面に係る音声認識装置は、音声信号の発話区間の開始及び終了を検出する発話区間検出手段と、発話区間検出手段により検出された発話区間の終了後、所定時間以上の無音区間があったことに応答して、発話区切りを示す発話区分信号を出力するための発話区切り検出手段と、発話区分信号に応答して、直前の発話区間の発話の言語を識別し言語の識別子を出力するための言語識別手段と、発話区間検出手段により発話区間の開始が検出されたことに応答して、当該発話区間の音声信号に対する音声認識をそれぞれ行うための、互いに異なる複数の言語のための複数の音声認識手段と、識別子に応答して、複数の音声認識手段のうち、当該識別子の示す言語の音声認識手段の出力を選択して出力するための選択手段とを含む。

好ましくは、言語識別手段は、発話区間検出手段により発話区間の終了が検出されたことに応答して、当該発話区間の音声信号から、所定長で所定シフト量の部分区間の音声信号を生成する部分区間信号生成手段と、部分区間の各々の音声信号を受け、当該部分区間が複数の言語のいずれに相当するかを表す情報を出力する言語識別モデルと、言語識別モデルが出力する情報に応答して、発話区間の音声信号の言語を決定し当該言語の識別子を出力する言語決定手段とを含む。

より好ましくは、複数の音声認識手段の各々は、当該音声認識手段の言語の音声認識を個別に行う複数の同一言語音声認識手段と、発話区分信号に応答して、複数の言語の音声認識手段の各々について、複数の同一言語音声認識手段の中でアイドリング中である同一言語音声認識手段に音声認識を開始させるための切替手段とを含む。

さらに好ましくは、発話区間検出手段は、音声信号を所定長の対象区間に分割する分割手段と、対象区間の各々に対して、その直前に少なくとも第１の所定長の無音区間を含む付加信号を付加する信号付加手段と、信号付加手段により付加信号が付加された対象区間に含まれる有音区間を無音区間と区別して検出するための有音区間検出手段と、有音区間検出手段により検出された有音区間の中で、付加信号に対応する有音区間を削除することにより有音区間を補正するための補正手段とを含む。

この発明の第２の局面に係るコンピュータプログラムは、コンピュータを、音声信号の発話区間を検出する発話区間検出手段と、発話区間検出手段により発話区間が検出されたことに応答して、当該検出された発話区間に対して当該区間の発話の言語を識別するための言語識別手段と、発話区間検出手段により発話区間が検出されたことに応答して、当該発話区間の音声信号に対する音声認識をそれぞれ行うための、互いに異なる複数の言語のための複数の音声認識手段と、言語識別手段による識別結果に応答して、複数の音声認識手段のうち、当該識別結果の示す言語の音声認識手段の出力を選択して出力するための選択手段として機能させる。

この発明の第３の局面に係る音声認識方法は、コンピュータが、音声信号の発話区間の開始及び終了を検出するステップと、コンピュータが、検出された発話区間の終了後、所定時間以上の無音区間があったことに応答して、発話区切りを示す発話区分信号を出力するステップと、コンピュータが、発話区分信号に応答して、直前の発話区間の発話の言語を識別し言語の識別子を出力するステップと、コンピュータが、発話区間の開始が検出されたことに応答して、当該発話区間の音声信号に対する音声認識を、互いに異なる複数の言語のための複数の音声認識手段により開始させるステップと、コンピュータが、識別子に応答して、複数の音声認識手段のうち、当該識別子の示す言語の音声認識手段の出力を選択して出力するステップとを含む。

図１は、この発明の第１実施形態に係る多言語ライブ音声認識装置の機能的ブロック図である。図２は、図１に示す多言語ライブ音声認識装置を実現するコンピュータの外観を示す図である。図３は、図２に示すコンピュータのハードウェア構成を示すブロック図である。図４は、この発明の第１実施形態における発話区間検出の方法を説明するための模式図である。図５は、この発明の第１実施形態において検出された発話区間の補正方法を説明するための模式図である。図６は、この発明の第１実施形態における言語識別方法を説明するための模式図である。図７は、第１実施形態における発話区切りの検出方法を説明するための模式図である。図８は、第１実施形態に係る多言語ライブ音声認識装置が実行する多言語ライブ音声認識処理を実現するコンピュータプログラムの制御構造を示すフローチャートである。図９は、ＶＡＤ（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）の前処理を実現するプログラムの制御構造を示すフローチャートである。図１０は、ＶＡＤ出力の補正を実現するプログラムの制御構造を示すフローチャートである。図１１は、ＡＳＲ（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）の切替を実現するプログラムの制御構造を示すフローチャートである。図１２は、ＬＩＤ（ＬａｎｇｕａｇｅＩｄｅｎｔｉｆｉｃａｔｉｏｎ）の制御を実現するプログラムの制御構造を示すフローチャートである。図１３は、表示の更新処理を実現するプログラムの制御構造を示すフローチャートである。図１４は、クライアント・サーバシステムによる多言語ライブ音声認識の際のタイムチャートを示す図である。図１５は、第１実施形態によるレイテンシの計算方法を示す図である。図１６は、第１実施形態の実験で用いたテスト発話を示す図である。図１７は、実験に使用したＡＳＲ単体の評価と実施形態に係る多言語ライブ音声認識の評価とを対比して示す図である。

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

第１第１実施形態
１．構成
（１）全体構成
図１にこの出願の第１実施形態に係る多言語ライブ音声認識装置５０の概略の機能構成をブロック図形式で示す。図１を参照して、この多言語ライブ音声認識装置５０は、例えばリモートからの音声信号である入力５２を受けてその発話区間を検出し、発話区間ごとにその言語を識別して音声認識し、音声認識の結果を表示５４として出力する機能を持つ。

多言語ライブ音声認識装置５０は、入力５２を受けて蓄積する、ＦＩＦＯ（Ｆｉｒｓｔ－Ｉｎ，Ｆｉｒｓｔ－Ｏｕｔ）形式のバッファ７０と、このバッファ７０から音声信号を読み出し、発話区間を検出するための発話区間検出部７２とを含む。入力５２は音声サンプル列を含み、各サンプルにはある時刻を基準とした時間情報が付されている。発話区間検出部７２は、この音声サンプル列に含まれる音声区間を検出し、（開始時刻、終了時刻）のペアからなる発話区間検出信号を出力するためのものである。

多言語ライブ音声認識装置５０はさらに、発話区間検出部７２の出力に基づいて、無音区間が所定の長さ（例えば０．５秒を使用するがこれに限定されるわけではなく、これより長くても短くてもよい。）以上継続したときを発話区切りとみなして発話区切りを示す発話区分信号を出力するための発話区切検出部７６と、入力される音声信号の先頭部分を用いてその音声の言語を識別し、言語の識別子を出力するためのＬＩＤ７８と、複数の言語の音声の音声認識を並列して実行可能で、ＬＩＤ７８の出力する言語の識別子に対応する音声認識結果を選択して出力するための多言語ＡＳＲ処理部８０と、バッファ７０に記憶された音声データのうち、ＶＡＤ１０２からの音声区間を示す情報により特定される位置の音声データを読み出してＬＩＤ７８及び多言語ＡＳＲ処理部８０に与えるための制御部７４と、多言語ＡＳＲ処理部８０の出力する音声認識結果を受け、ＬＩＤ７８によりＬＩＤ判別結果が出力されたことに応答して、多言語ＡＳＲ処理部８０からの音声認識結果を出力し表示５４を行ったり、自動翻訳装置に出力したりするための結果表示制御部８２とを含む。なおここでいう「発話区切り」とは、単なる１発話の終了を示すというだけのものではなく、発話者が交代する可能性があることまで前提とした発話の区切りのことをいう。したがって、発話区切りが検出されたことを契機として、音声データの入力先であるＡＳＲスレッド（後述）が切り替えられる。発話の言語の識別処理も一旦停止された上で次の発話に対して再開される。

発話区間検出部７２は、バッファ７０から読み出した音声データに対して、発話区間を精度高く認識するための所定の前処理を行うための前処理部１００と、前処理部１００により前処理された音声データに基づいて音声区間の開始時刻及び終了時刻を検出して発話区間検出信号を出力するためのＶＡＤ１０２とを含む。

（２）ハードウェア構成
図２は、図１に示す多言語ライブ音声認識装置５０を実現するためのコンピュータの外観を示す。図３は、図２に示すコンピュータのハードウェアをブロック図形式で示す。

図２を参照して、この多言語ライブ音声認識装置５０、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ドライブ１８２、及びＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリポート１８６を有するコンピュータ１５０と、いずれもコンピュータ１５０に接続された、ユーザと対話するためのキーボード１５４、マウス１５６、及びモニタ１５２とを含む。もちろんこれらはユーザ対話が必要となったときのための構成の一例であって、ユーザ対話に利用できる一般のハードウェア及びソフトウェア（例えばタッチパネル、ポインティングデバイス一般）であればどのようなものも利用できる。

図３を参照して、コンピュータ１５０は、ＤＶＤドライブ１８２及びＵＳＢメモリポート１８６に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１７０と、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１７２と、ＣＰＵ１７０、ＧＰＵ１７２、ＤＶＤドライブ１８２に接続されたバス１９０と、バス１９０に接続され、コンピュータ１５０のブートアッププログラムなどを記憶するＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）１７６と、バス１９０に接続され、プログラムを構成する命令、システムプログラム、及び作業データなどを記憶するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１７８と、バス１９０に接続された不揮発性メモリであるＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）１８０とを含む。ＳＳＤ１８０は、ＣＰＵ１７０及びＧＰＵ１７２が実行するプログラム、並びにＣＰＵ１７０及びＧＰＵ１７２が実行するプログラムが使用するデータなどを記憶するためのものである。コンピュータ１５０はさらに、他端末との通信を可能とするネットワーク１６６への接続を提供するネットワークＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）１８８とを含む。ＵＳＢメモリポート１８６にはＵＳＢメモリ１６４が着脱可能で、ＵＳＢメモリ１６４とコンピュータ１５０内の各部との通信を提供する。

上記実施形態では、図１に示すＶＡＤ１０２、ＬＩＤ７８、多言語ＡＳＲ処理部８０の主要部は訓練済モデル、ニューラルネットワーク及びプログラムからなる。

このコンピュータ１５０を、図１に示す多言語ライブ音声認識装置５０のバッファ７０、制御部７４、発話区切検出部７６、ＬＩＤ７８、多言語ＡＳＲ処理部８０，前処理部１００、ＶＡＤ１０２及び補正部１０４として機能させるためのプログラム及びそれらプログラムが使用するパラメータは、ＤＶＤドライブ１８２に装着されるＤＶＤ１５８に記憶され、ＤＶＤドライブ１８２からＳＳＤ１８０に転送される。又は、これらのプログラムはＵＳＢメモリ１６４に記憶され、ＵＳＢメモリ１６４をＵＳＢメモリポート１８６に装着し、プログラムをＳＳＤ１８０に転送する。又は、このプログラムはネットワーク１６６を通じてコンピュータ１５０に送信されＳＳＤ１８０に記憶されてもよい。

プログラムは実行のときにＲＡＭ１７８にロードされる。もちろん、キーボード１５４、モニタ１５２及びマウス１５６を用いてソースプログラムを入力し、コンパイルした後のオブジェクトプログラムをＳＳＤ１８０に格納してもよい。スクリプト言語の場合には、キーボード１５４などを用いて入力したスクリプトをＳＳＤ１８０に格納してもよい。仮想マシン上で動作するプログラムの場合には、仮想マシンとして機能するプログラムを予めコンピュータ１５０にインストールしておく必要がある。ただし、複数のＡＳＲスレッドによる推論には大量の計算が伴うため、スクリプト言語ではなくコンピュータのネイティブなコードからなるオブジェクトプログラムとして本発明の実施形態の各部を実現する方が好ましい。

ＣＰＵ１７０は、その内部のプログラムカウンタと呼ばれるレジスタ（図示せず）により示されるアドレスに従ってＲＡＭ１７８からプログラムを読み出して命令を解釈する。ＣＰＵ１７０はさらに、命令の実行に必要なデータを命令により指定されるアドレスに従ってＲＡＭ１７８、ＳＳＤ１８０又はそれ以外の機器から読み出して命令により指定される処理を実行する。ＣＰＵ１７０は、実行結果のデータを、ＲＡＭ１７８、ＳＳＤ１８０、ＣＰＵ１７０内のレジスタなど、プログラムにより指定されるアドレスに格納する。このとき、プログラムカウンタの値もプログラムに従って動作するＣＰＵ１７０により更新される。コンピュータプログラムは、ＤＶＤ１５８から、ＵＳＢメモリ１６４から、又はネットワークを介して、ＲＡＭ１７８に直接にロードしてもよい。なお、ＣＰＵ１７０が実行するプログラムの中で、一部のタスク（主として並列実行可能な数値計算）については、プログラムに含まれる命令により、又はＣＰＵ１７０による命令実行時の解析結果に従って、ＧＰＵ１７２により実行される。

コンピュータ１５０により上記した実施形態に係る各部の機能を実現するプログラムは、それら機能を実現するようコンピュータ１５０を動作させるように記述され配列された複数の命令を含む。この命令を実行するのに必要な基本的機能のいくつかはコンピュータ１５０上で動作するオペレーティングシステム若しくはサードパーティのプログラム、又はコンピュータ１５０にインストールされる各種ツールキットのモジュールにより提供され、実行時にダイナミックリンクによりオブジェクトプログラムにリンクされる。したがって、このプログラムはこの実施形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令の中で、所望の結果が得られるように制御されたやり方で適切な機能又は「プログラミング・ツール・キット」の機能を呼出すことにより、上記した各装置及びその構成要素としての動作を実行する命令のみを含んでいればよい。そのためのコンピュータ１５０の動作方法は周知であるので、ここでは繰返さない。

なお、ＧＰＵ１７２は並列処理を行うことが可能であり、ニューラルネットワークによる処理に伴う多量の計算を同時並列的又はパイプライン的に実行できる。例えばプログラムのコンパイル時にプログラム中で発見された並列的計算要素、又はプログラムの実行時に発見された並列的計算要素は、随時、ＣＰＵ１７０からＧＰＵ１７２に対して発行され、実行され、その結果が直接に、又はＲＡＭ１７８の所定アドレスを介してＣＰＵ１７０に返され、プログラム中の所定の変数に代入される。

（３）処理の概略
ア．発話区間の検出
図４を参照して、前処理部１００、ＶＡＤ１０２及び補正部１０４が行う前処理、発話区間の検出、及び検出された発話区間の補正処理について説明する。

図４（Ａ）に示すように、入力音声が発話２００及び２０２を持つものとする。図４（Ａ）及び後続する同種の各グラフにおいて、縦線は発話の１秒ごとの区切りを示す。すなわち図４（Ａ）には、連続する５つの期間２１０、２１２、２１４、２１６及び２１８が示されており、これら期間はいずれも１秒の長さを持つ。ただし対象とする期間は１秒に限らず、これより長くても短くてもよい。図４（Ａ）によれば、発話２００の先頭が例えば０秒であるものとすると、発話２００は１．３秒程度の期間だけ継続している。発話２０２は１．８秒頃から開始し、４．３秒程度まで継続している。

図４（Ｂ）に示すように、発話２００のうち、期間２１０には１秒分の有音部分２２０が存在している。この実施形態では、処理の開始後の先頭の発話区間検出を行う場合図４（Ｃ）に示すように、その期間の音声信号の先頭に０．１秒分の無音部分２２２を付加して発話区間検出の対象とする。すなわち図４（Ｃ）に示す例では、有音部分２２０の先頭に無音部分２２２が付加されて発話区間検出処理が行われる。このように先頭に０．１秒分の無音部分をつけることで有音区間の検出の精度が高くなるという効果が得られる。ただしこの付加部分の長さは０．１秒に限るわけではなく、これより長くてもよいし、多少短くてもよい。

続いて、図４（Ｄ）に示すように、入力音声に対する期間２１２の処理では、この期間の音声信号２３０が発話区間検出の対象となる。音声信号２３０は有音部分２３２（発話２００の末尾）と有音部分２３４（発話２０２の先頭）、及びその間の無音部分を含む。この実施形態では、発話区間検出処理の２番目以降の期間、すなわち期間２１２以後では、発話区間検出の対象となる期間の音声信号、図４（Ｄ）の場合には音声信号２３０の先頭に、直前の期間（すなわち期間２１０の後半の音声信号のうち、後半の０．５秒分の音声信号２３６（この例では音声信号２３６は有音区間の一部である。））を付加し、さらにその前に無音部分２３８を付加する。すなわち、２回目の発話区間検出は、音声信号２３０、音声信号２３６、及び無音部分２３８を連結した音声信号となる。ただし、対象区間の直前に付加する前区間の音声信号は対象区間の１／２に相当する値に限定されない。より短くてもよいしより長くてもよい。短ければ後述するレイテンシは短くなる。しかし有音区間の検出精度は少し下がることが予想される。長ければ有音区間の検出精度は高くなるがレイテンシは長くなる。

以後、同様の処理が行われる。すなわち、図４（Ｅ）を参照して、期間２１４に対する処理では、音声信号のうち期間２１４の部分である音声信号２４０（発話２０２のうち期間２１４内の部分）と、直前の期間２１２の音声信号２３０のうち、後半の０．５秒分である付加区間２４２と、その直前に付加される無音部分２４４とが処理対象となる。図４（Ｆ）を参照して、期間２１６に対する処理では、音声信号のうち期間２１６の部分（発話２０２の期間２１６内の音声信号２５０）と、直前の音声信号２４０のうち、後半の０．５秒分である付加区間２５２と、さらにその直前に付加される無音部分２５４とが処理対象となる。図４（Ｇ）を参照して、期間２１８に対する処理では、音声信号のうち期間２１８の部分（発話２０２の末尾と後続する無音部分からなる音声信号２６０）と、直前の期間２１６における音声信号２５０の後半の０．５秒分である付加区間２６２と、さらにその直前に付加される無音部分２６４とを含む。

すなわちこの実施形態では、１回目の処理を除いてＶＡＤ前に、音声信号の中で発話区間検出の対象となる期間だけではなく、直前の期間の音声信号の後半部分と、一定音の無音部分とを付加する。そしてその音声信号をＶＡＤに供する。後述するようにこうすることで短いレイテンシで発話区間を精度高く検出できるようになる。１回目には直前の対象区間が存在しないので、対象区間に無音区間のみを付加して処理対象とする。

この実施形態では、直前の処理対象の音声信号のうち、後半の０．５秒分を処理対象の音声信号の先頭に付加する。しかしこれはこの発明を限定しない。付加される音声信号の長さは一定である必要はない。さらに先頭に付加される無音部分の長さも一定である必要もない。ただし、実装の容易さに鑑みると、この実施形態のようにこれらの長さを一定とすることが望ましい。また付加される音声信号の長さも０．５秒に限定されるわけではない。ここで、付加される音声信号が０秒より長ければ、何も付加しない場合より精度が向上することが見込めるが、０．５秒より長くても精度の向上には限度があると考えられる。さらに対象となる音声によってもこの長さは変化すると考えられる。したがって、付加される音声信号の長さは０秒より大きく０．５秒以下、望ましくは０．１秒より大きく０．４５秒以下、さらに望ましくは０．２秒より大きく０．４秒以下とすることが望ましい。また、先頭に付加される無音部分の長さも０．１秒には限定されず、それより大きくても小さくてもよい。ただし付加される無音部分は０秒より大きくする必要がある。無音部分の長さがあまりに長くなるとレイテンシが大きくなるため、０．２秒より長くすることは望ましくない。したがって先頭に付加される無音部分は、０秒より長く０．２秒以下、望ましくは０．０５秒より長く０．１５秒以下とすることが望ましい。また付加される無音部分は、直前の音声信号のうち対象区間の先頭に付加される部分の長さより短いことが望ましい。なおこの前処理については後述する。

こうして期間２１０及び２１２及びそれ以後の各期間の音声信号に対して前処理を行った上で有音区間の検出を行う。この有音区間の検出処理自体は既存の方法のいずれを用いてもよい。

以上のように前処理をした音声信号に対する有音区間の検出を行った場合、本来の対象区間に含まれる有音区間より長い有音区間が検出される可能性がある。したがってＬＩＤを行うに先立ち、余分に検出された有音区間を削除する必要がある。その方法について図５を参照して説明する。

図５（Ａ）は図４（Ａ）に示した音声信号と同じ音声信号の期間２１２から２１６を示す。以下、期間２１４及び２１６に関する発話区間の補正処理について説明する。図５（Ｂ）及び図５（Ｃ）を参照して、期間２１４での有音区間の検出対象は、音声信号の期間２１４の部分（音声信号２４０）である。前述したとおり、音声信号２４０における有音区間の検出のための前処理として、期間２１２における音声信号２３０の付加区間２４２を音声信号２４０の先頭に付加する。さらにその直前には無音部分２４４を付加して有音区間の検出を行う。さらに図５（Ｄ）を参照して、期間２１６における音声信号２５０については、音声信号２４０の後半部分である付加区間２５２を付加し、さらにその前に無音部分２５４を付加して有音区間の検出を行う。したがって、期間２１４の場合、図５（Ｆ）に示されるように、検出される有音部分３００は、音声信号２４０に対応する有音部分３０２に加え、期間２１２の末尾の有音部分２３４（図５（Ｂ））に対応する有音部分３０４を含むことがある。補正では、１秒前の音声信号に対する処理において有音部分２３４として検出され既に制御部７４及び発話区切検出部７６に送信済であれば、有音部分３０４を送信せず、図５（Ｇ）に示すように有音部分３０２のみを制御部７４及び発話区切検出部７６に送信する。有音部分３０４が１秒前の音声信号に対する処理において検出されておらず、制御部７４及び発話区切検出部７６に送信されていなければ、有音部分３０４と有音部分３０２とが制御部７４及び発話区切検出部７６に送信される。

同様に、期間２１６の場合、図５（Ｈ）に示すように、検出される有音部分３１０は、音声信号２５０に含まれる有音部分３１２だけでなく、期間２１４の末尾の有音部分３１４も含む。したがって、この有音部分３１４についても有音部分３０４と同様の処理を行う。すなわち、１秒前の処理で有音部分３１４が検出され制御部７４及び発話区切検出部７６に送信されていれば、補正では、図５（Ｉ）に示すように、有音部分３１０から有音部分３１４を削除して有音部分３１２のみとする。１秒前の処理で有音部分３１４が制御部７４及び発話区切検出部７６に送信されていなければ、有音部分３１４が有音部分３１２とともに制御部７４及び発話区切検出部７６に送信される。この例では、図５（Ｇ）に示すように、有音部分３１４に相当する部分が有音部分として検出され送信済である。したがって、有音部分３１４は削除され、有音部分３１２のみが送信される。

この補正を行うためのプログラム構成については後述する。

イ．ＬＩＤによる処理
図６を参照して、この実施形態における言語識別処理（ＬＩＤ）について説明する。ここでも、図６（Ａ）に示すように、期間２１０、２１２、２１４及び２１６を例とする。

図６（Ａ）に示すような処理をした結果、図６（Ｂ）に示すように、発話２００及び２０２に対応する有音部分３５０及び３５２が検出される。この実施形態では、有音部分３５０が検出されると、それに対応する発話２００の音声信号のうち、先頭から所定の長さ、例えば１．５秒及び音声信号の終端のいずれかが検出されると、先頭からそこまでの音声信号が図１に示すＬＩＤ７８に投入される。図６（Ａ）に示す例では発話２００は１．５秒より短い。したがって発話２００に対応する音声信号３６０（図６（Ｃ））の終端が検出されるとその全体がＬＩＤ７８に投入される。言語の判別自体はそれほど時間を必要としない。したがって、音声信号３６０がＬＩＤ７８に投入された後、わずかな時間遅れで言語の判別が行われ、図６（Ｇ）に示すように発話２００の開始時を基準とすると約１．５秒経過した時点でＬＩＤ判別結果３６２が得られる。

一方、発話２００に続く無音区間の後、発話２０２に対応する有音部分３５２として検出が開始されると、図６（Ｄ）に示されるように、発話２０２に対応する音声信号のうち、先頭から１．５秒又は音声信号の終端のいずれか早く検出されるまでの音声信号３７０がＬＩＤ７８に投入される。この例では発話２０２に対応する音声信号の先頭から１．５秒分が、ＬＩＤ７８に投入される。この結果、発話２００の開始時を基準とすると約３．５秒が経過した時点でＬＩＤ判別結果３７２が得られる。

さらに、図６（Ｅ）を参照して、発話２０２の先頭から０．７５秒が経過した時（説明を簡潔にするために「０．７５秒経過時」という。以下同様）にまで発話２０２が終端に達していないと、その０．７５秒経過時から１．５秒及び音声信号の終端までのいずれか早い方が検出されると、０．７５秒経過時からそこまでの音声信号の全体がＬＩＤ７８に投入される。この例では０．７５秒経過時から１．５秒経過した時点では発話２０２の終端には達していない。したがって０．７５秒経過時から２．２５秒経過時までの音声信号３８０がＬＩＤ７８に投入される。その結果、発話２００の開始時刻を基準として約４．２秒経過したときに図６（Ｇ）に示すようにＬＩＤ判別結果３８２が得られる。最後に、図６（Ｆ）を参照して、１．５秒経過時から１．５秒又は発話２０２の終端までのいずれか早いほうが検出されると、１．５秒経過時からその時点（この例では発話２０２の終端）までの音声信号３９０がＬＩＤ７８に投入される。その結果、発話２００の開始時を基準として４．３秒が経過したときに図６（Ｇ）に示すようにＬＩＤ判別結果３９２が得られる。

このようにこの実施形態では、発話区間のうち先頭から初めて一定時間間隔（この例では０．７５秒間隔）を起点として、その時点から所定時間（この例では１．５秒）又は発話区間の終端までのいずれか早く方が検出されるまでの音声信号をＬＩＤ７８に投入し、その結果を得る。その結果、発話が１．５秒程度かそれより短いときにはその発話の終了とほぼ同時にその発話の言語の判別結果が得られ、１．５秒より長いときには、その発話の先頭から１．７秒程度経過したときに最初の言語の判別結果が得られ、その後は０．７５秒程度おきに、判別結果が得られる。ただし発話の終端ではより短い間隔で判別結果が得られることが多い。

このように１発話について言語の判別結果が複数個得られるため、判別結果が互いに矛盾する場合があり得る。そうしたときでも言語を判別する必要がある。そのためにはたとえば判別結果の多数決により最終結果を決定したり、ニューラルネットワークの出力として判別結果とともに得られるスコア（又は確率）の最も高いもの、又は同種のものが複数個ある場合にはその平均が最も高いものを最終結果として決定したりしてもよい。この実施形態では各発話に対して言語ごとに得られるスコアの平均スコアが最も高い言語を最終結果とする。具体的な例については図７を参照して後述する。

ウ. 音声認識装置の切替
前述したように、図１に示す多言語ＡＳＲ処理部８０は、複数の言語に対する音声認識処理を並列で実行可能である。しかしそれだけではなく、多言語ＡＳＲ処理部８０は、各言語についても複数の音声認識処理を実行可能であり、それらを適宜切り替えて動作させる。なぜなら、音声認識処理は多量の計算を必要として時間を要するため、ある発話の音声認識を実行中に、続く発話についても音声認識を並列で実行する必要が生じる可能性があるためである。特にこの実施形態では、ある発話について、複数の音声認識処理部がそれぞれ別の言語とみなして音声認識処理を実行する。音声認識処理では、正しい言語での音声認識でもかなりの演算処理が必要とされ、誤った言語での音声認識ではさらに演算量が増加する。そのため、各言語の音声認識処理部が限定された数しかないと、必要なときに必要な音声認識処理部のいずれかがビジーとなり音声認識処理が実行できなくなる可能性がある。そこでこの実施形態では、音声認識処理部として各言語について３個の音声認識処理部を設け、これらの中でアイドリング中のものを選択して音声認識処理を実行させる。

例えば、図７（Ａ）に示す発話２００及び２０２に対して図７（Ｂ）に示す有音部分３５０及び３５２が検出されたものとする。図６を用いて説明したように、発話２００の終了後にＬＩＤ判別結果３６２が得られる。発話２０２については、ＬＩＤ判別結果３７２、３８２及び３９２がこの順序で得られる。発話２００と発話２０２とが同じ言語の発話であることは一般的に全く保証されない。ここにおいて示す例でも図７（Ｃ）に示すように発話２００に対するＬＩＤ判別結果３６２は日本語（ＪＡ）であり、発話２０２に対するＬＩＤ判別結果３７２、３８２及び３９２はそれぞれ日本語、英語（ＥＮ）、英語である。当該発話区間の既に処理をした部分の平均スコアにより発話２０２の言語は最終的に英語と判別されるが、いずれにせよ発話２００に対する言語の判別結果と発話２０２に対する言語の判別結果との関係は不確実である。したがって、発話２００に対する音声認識と発話２０２に対する音声認識とで、その言語を適切に切り替える必要がある。この実施形態では、図７（Ｄ）に示すように、前の発話（例えば発話２００）の終端が検出された後、０．５秒の無音区間４２２が検出された時点を発話の切替時点である発話区切り４２０とみなし、この前後で使用する音声認識処理部を各言語について切り替える。したがって発話２００及び２０２の言語が仮に同じ言語であっても、間に０．５秒以上の無音区間が存在すれば音声認識処理部は切り替えられる。こうすることで、例えば発話２００に対する音声認識処理に時間がかかったとしても、有音部分３５２が検出されると同時に後続する発話２０２に対する各言語での音声認識処理を開始できるという効果がある。なお、発話後に０．５秒未満の無音区間を挟んで次の発話が開始されたときは、これら２つの発話は一つの発話とみなし、各言語について同一の音声認識処理部が音声認識処理を行う。ここで使用する音声認識処理は、音声認識の結果を逐次的に出力するものである。

なお、図７（Ｃ）に示すような例では、発話２０２の言語の判別結果としてＬＩＤ判別結果３７２、３８２及び３９２の３つが得られる。ＬＩＤ判別結果３７２が得られた時点ではＬＩＤ判別結果３８２及び３９２はまだ得られていない。したがって、例えばＬＩＤ判別結果３７２により表される言語に対応する音声認識結果が出力される。仮にＬＩＤ判別結果３８２が得られたときにその結果が他の言語であり、かつそのスコアがＬＩＤ判別結果３７２のスコアより高い場合には、発話２０２の言語が変化することになる。そうした場合には、ＬＩＤ判別結果３７２を使用して選択した音声認識結果から、ＬＩＤ判別結果３８２を使用して選択した音声認識結果に途中で出力（画面表示の場合には表示されるテキスト）の言語が変化することになる。ＬＩＤ判別結果３９２が得られたときも同様である。

より具体的には、言語の判別は以下のようにして行われる。例えば判別対象の言語が１０言語であるものとする。図７（Ｃ）を参照して、発話２０２に対するＬＩＤ判別結果３７２が得られた時点では、１０言語の各々に対してスコアが１個ずつ得られる。１言語に対するスコアが１個だけなので、ここではそのスコアが最大の言語（例えば日本語（ＪＡ））が選択される。その結果、ＬＩＤ判別結果３７２のときにそれまでの日本語の途中の音声認識結果が得られていれば、ＬＩＤ判別結果３７２の時点で日本語の音声認識結果が出力される。ＬＩＤ判別結果３７２の時点で日本語の音声認識結果が得られていなければ、得られた時点でその音声認識結果が出力される。

一方、ＬＩＤ判別結果３８２が得られた時点では、各言語について、ＬＩＤ判別結果３７２で得られたスコアとＬＩＤ判別結果３８２で得られたスコアという２個のスコアが存在する。この実施形態では、各言語についてこのように得られた２個のスコアについて言語ごとに平均をとり、その値が最も高い言語を選択する。例えば、ＬＩＤ判別結果３７２の時点では日本語のスコアが最も高かったとしても、ＬＩＤ判別結果３８２の時点で算出された平均スコアでは英語ＥＮが最も高ければ、発話２０２に対する言語の識別結果は日本語から英語に切り替わる。したがって、ＬＩＤ判別結果３８２が得られたときに、音声認識結果は日本語から英語に切り替わる。

発話２０２に対する最終的なＬＩＤ判別結果３９２の時点でも同様である。ＬＩＤ判別結果３９２が得られた時点では、各言語について３個のスコアが得られる。各言語について、それら３個のスコアの平均値が算出される。そして平均スコアが最も高い言語が選択される。図７（Ｃ）に示すようにＬＩＤ判別結果３７２、３８２、及び３９２により各言語について得られた平均スコアによる判定結果も英語であるとすれば、英語の音声認識結果が引き続いて出力され、途中の音声認識結果が得られるごとに出力が更新される。

（４）プログラム構成
ア．全体制御構造
以上に説明したように機能するよう、コンピュータを動作させるためのコンピュータプログラムの制御構造を以下に説明する。図８にその全体構成を示す。なお、以下に示すのは上記した多言語ライブ音声認識装置５０の全体をコンピュータハードウェア及びコンピュータプログラムにより実現するものだが、これらの一部又は全体を専用のハードウェアで実現することも可能である。また汎用コンピュータを以下に説明する制御構造に従って動作するようプログラミングすることにより、汎用コンピュータが専用の多言語ライブ音声認識装置として機能する。

図８を参照して、このプログラムは、ＶＡＤスレッド、ＬＩＤスレッド及び複数言語の各々について複数設けられる音声認識スレッドの各々を起動するステップ４５０と、これら各スレッドとのコネクションを確立するステップ４５２と、音声認識の対象となる音声信号の入力を開始するステップ４５４とを含む。ここでいうスレッドとは、１つのプロセス配下において、アドレス空間を共有して動作する複数のプログラムのことをいう。

このプログラムはさらに、入力された音声信号をバッファに蓄積し、所定量（この実施形態では１秒分）の音声信号がバッファに蓄積されるたびに、その音声信号に図４を参照して前述したような前処理を行ってＶＡＤスレッドに出力する処理を実行するステップ４５６と、ステップ４５６に続き、ＶＡＤの出力から図５を参照して前述したような有音区間の補正処理を行って有音区間の判別出力を得るステップ４５８と、ステップ４５８により得られた有音区間の判別出力に基づいて、有音区間の終了後、０．５秒以上の無音区間があればそれを発話区切りとして検出するステップ４６０と、ステップ４６０における処理の結果に応じて制御の流れを分岐させるステップ４６２と、ステップ４６２の判定が肯定のときに、各言語のＡＳＲについて、その中でアイドリング中のスレッドを次の有音区間の音声信号の音声認識用に切り替えるステップ４６６とを含む。

このプログラムはさらに、ステップ４６２の判定が否定のとき、及びステップ４６２の判定が肯定でかつステップ４６６の処理が終了したときに実行され、多言語ＡＳＲ処理部８０の中で切り替えられたＡＳＲスレッドの各々、及びＬＩＤ７８に音声データを提供するステップ４６８と、ステップ４６８の後、ＡＳＲの各スレッド及びＬＩＤ７８でそれぞれの処理を実行するステップ４７０と、ＬＩＤ７８による言語識別の結果が得られるまで待機するステップ４７２と、言語識別の結果が得られた後、各言語のＡＳＲの各スレッドの出力のうち、ＬＩＤ７８により識別された言語のＡＳＲのスレッドによる音声認識結果をそれまでの表示に変えて表示して制御をステップ４５６に戻すステップ４７４とを含む。

イ．ＶＡＤ
（ア）前処理
図９は、ＶＡＤのうちの前処理を実現するプログラムの制御構造を示すフローチャートである。図９を参照して、このプログラムは、変数ｉにゼロを代入するステップ５００と、入力データを読みバッファ［ｉ］に蓄積するステップ５０２と、ステップ５０２の結果、バッファに蓄積された音声データが１秒分になるまでステップ５０２を繰り返すステップ５０４とを含む。この実施形態では、バッファとしてバッファ［０］及びバッファ［１］の２つを少なくとも準備し、ｉの値が偶数のとき（ｉ％２＝０）のときにはバッファ［０］に、ｉの値が奇数のとき（ｉ％２＝１）のときにはバッファ［１］に、それぞれ音声データを蓄積する。もちろんこのような方法ではなく他の方法で音声データの蓄積を行ってもよい。例えばリングバッファに音声データを蓄積し、そのうちの１秒分の音声データをその開始位置から読み出すようにしてもよい。音声データがリングバッファの容量を超えるときには、リングバッファ内に蓄積されている音声データを上書きしていけばよい。なお記号「％」はモジュロ演算子を表す。

このプログラムはさらに、ステップ５０４の判定が肯定になったこと、すなわち１秒分の音声データがバッファに蓄積されたことに応答して実行され、その音声データの先頭に０．１秒分の無音区間を付加するステップ５０６と、ステップ５０６により処理された音声データをＶＡＤに提供するステップ５０８と、変数ｉの値に１を加算するステップ５１０と、入力される音声データを読み、バッファ［ｉ％２］に蓄積するステップ５１２と、バッファ［ｉ％２］に１秒分の音声データが蓄積されるまでステップ５１２を繰り返すステップ５１４とを含む。ステップ５１２及び５１４は、ステップ５０２及び５０４の処理と実質的に同じものである。ただしステップ５０２ではバッファ［０］にデータが蓄積されるのに対し、ステップ５１２では変数ｉの値が奇数か偶数かによりバッファ［１］とバッファ［０］とが切り替えて使用される。

このプログラムはさらに、ステップ５１４においてバッファ［ｉ％２］に１秒分の音声データが蓄積されたと判定されたときに、バッファ［（ｉ－１）％２］の後半の０．５秒分の音声データをバッファ［ｉ％２］の音声データの先頭に付加するステップ５１６と、さらにその先頭にステップ５０６と同様に０．１秒分の無音区間を付加するステップ５１８と、ステップ５１６及び５１８において処理されたバッファ［ｉ％２］の音声データをＶＡＤに提供し、制御をステップ５１０に戻すステップ５２０とを含む。ＶＡＤは、この音声データが提供されたことに応答して、音声データの先頭から有音区間の検出を行う。有音区間は［開始時刻、終了時刻］のペアとしてＶＡＤから出力される。

（イ）補正
ＶＡＤの出力は、図９により示されるような前処理を行った後の音声データに対するものである。その音声データには、最初の１秒分の音声データを除き、本来の対象区間の音声データだけではなく、直前の対象区間の後半の０．５秒分の音声データが付されている。さらにその音声データの先頭には０．１秒の無音区間が付されている。したがって、本来の対象区間の有音区間以外の有音区間がＶＡＤの出力に含まれている可能性がある。そのような区間は、既にその有音区間が処理用のバッファに送信済なら、以下に述べる補正処理においてＶＡＤの出力から取り除かれ、そうでない場合はそのまま制御部７４及び発話区切検出部７６に送信される。

図１０を参照して、このプログラムは、ＶＡＤ出力を受けるステップ５５０と、ステップ５５０で受けたＶＡＤ出力により示される有音区間が、対象となる１秒より前の部分（０．１秒の無音部分）にあればその部分を削除するステップ５５２と、ステップ５５２の処理が終了した後のＶＡＤによる有音区間の先頭時刻及び終了時刻のペアを出力するステップ５５４とを含む。具体的にはステップ５５２では、付加された０．１秒の無音区間内に仮に有音区間があればそれを削除する。付加された無音区間から１秒の対象区間まで続く有音区間があれば、有音区間の開始時刻を対象の１秒の先頭に修正する。そして、１秒の対象区間内に０．５秒未満の無音区間があれば、それを有音区間とみなす。

このプログラムはさらに、ステップ５５４の後、ステップ５５０と同様にＶＡＤ出力を受けるステップ５５６と、ステップ５５６で受けたＶＡＤ出力を補正するステップ５５８と、ステップ５５８により補正されたＶＡＤによる有音区間の検出データを出力して制御をステップ５５６に戻すステップ５６０とを含む。ステップ５５８では、対象となる１秒の区間前に付加された直前の０．５秒分の音声データで検出された有音区間のうち、前回の処理で既に制御部７４及び発話区切検出部７６に送信済のものを削除する。さらにその直前に付加された０．１秒分の無音区間の間に検出された有音区間も削除する。

このような補正を行うことにより、音声データの１秒ずつの区間の各々について、有音区間を検出できる。

ウ．ＡＳＲの切替
この実施形態では、音声認識の対象となる各言語について複数のＡＳＲスレッドを起動する。それらＡＳＲスレッドを発話ごとに切り替えて音声認識を行うことで、１つの発話に対する音声認識処理が長引いても、次の発話の音声認識を並列して実行できる。特に音声データの言語に対応しない言語の音声認識の場合には、処理が長くなることが予測される。したがって、この実施形態のように複数の言語の各々について複数のＡＳＲスレッドを準備しておき、発話の切れ目で切り替えることが望ましい。この実施形態では、有音区間の後、０．５秒以上の無音区間がＶＡＤで検出されたときに、その時点でＡＳＲスレッドを切り替え、次の音声データからは切替後のＡＳＲスレッドに与える。

図１１を参照して、ＡＳＲの切替のためのプログラムは、処理の対象となり得る言語の各々に対して以下に説明するステップ６０２を実行するステップ６００を含む。

ステップ６０２は、その言語について前回選択したＡＳＲスレッドの次のＡＳＲスレッドを選択するステップ６１０と、選択されたＡＳＲがアイドリング中か否かを判定し、判定に従って制御の流れを分岐させるステップ６１２と、ステップ６１２の判定が否定のときに次のＡＳＲスレッドの選択を試みるステップ６１６と、選択対象となるスレッドの中に空いているスレッドがあるか否かに従って制御の流れを分岐させるステップ６１８と、ステップ６１８の判定が否定のとき、すなわち空いているスレッドがこれ以上存在しないときに、新しいスレッドを生成するステップ６２０と、この新たに生成したＡＳＲスレッドに音声データの入力先を切り替えるステップ６２１とを含む。ステップ６１８の判定が肯定のときにはそのスレッドを選択して制御をステップ６１２に戻す。ステップ６２１の後には、制御は後述するステップ６２２に進む。

このプログラムはさらに、ステップ６１２の判定が肯定のときには選択したＡＳＲスレッドに音声データの入力先を切り替えるステップ６１４と、ステップ６１４の後、及びステップ６２０の後に実行され、切り替えたＡＳＲスレッドのスレッドＩＤをそのＡＳＲスレッドに入力している音声データの発話と関係付けて記憶するステップ６２２と、ステップ６２２で切り替えた先のＡＳＲスレッドの状態をビジーに変更するステップ６２４とを含む。

ある言語についてのＡＳＲスレッドの数は少なくとも２個、望ましくは３個以上起動することが望ましい。ＡＳＲスレッドが少なくとも２個あればそれら２個のＡＳＲスレッドを交互に動作させることができる。この場合、先行する２つの発話に対する音声認識が２個のＡＳＲスレッドで行われているときに次の発話の音声認識を開始する必要が生じたときには、新たなＡＳＲスレッドが生成され、そのＡＳＲスレッドが新たな音声データに対する音声認識に割り当てられる。３個以上のＡＳＲスレッドがビジーになった場合には、さらに追加のスレッドを起動すればよい。

なお、各言語で起動するＡＳＲスレッドの数の上限、及び対象となる言語の数の上限はこのプログラムが動作するコンピュータの性能にも依存するので、一概に限定はできない。

エ. ＬＩＤの制御
この実施形態では、ＬＩＤは以下のような制御に従って行われる。ＬＩＤの処理自体は既に述べたように訓練済のニューラルネットワークからなる言語識別モデルにより行われる。ここでは、このニューラルネットワークに、いつ、どのような音声データを入力してＬＩＤの結果を得るかを実現するプログラムの制御構造を説明する。

図１２を参照して、このプログラムは、処理対象となる有音区間が検出されるまで待機し、有音区間が検出されると有音区間のデータをメモリから読み出すステップ７００と、音声データの読み出し開始位置をステップ７００で読み出した音声データの先頭に設定するステップ７０２と、読み出し開始位置から１．５秒と有音区間の末尾までの時間とのいずれか短い方の期間の音声データを読み出すステップ７０４と、読み出した音声データを言語識別モデルに投入するステップ７０６と、読み出し開始位置を０．７秒進めるステップ７０８と、ステップ７０８で設定された読み出し開始位置が有音区間の終了時刻より前か否かを判定し、判定が肯定なら制御をステップ７０４に戻すステップ７１０と、ステップ７１０の判定が否定のとき、すなわち処理中の有音区間の末尾まで処理が終わったときに、処理対象を次の有音区間に進めて制御の流れをステップ７００に戻すステップ７１２とを含む。

オ．表示の更新
音声認識結果は以下のような制御構造を持つプログラムにより表示される。図１３を参照して、このプログラムは、ＬＩＤによる言語識別結果の出力があったか否かに従って制御の流れを分岐させるステップ７５０と、ステップ７５０の判定が肯定のときに、ＬＩＤの出力により示される言語の言語ＩＤを、現在の言語を表す情報としてメモリに記憶するステップ７５２と、ステップ７５２の後、及びステップ７５０の判定が否定のときの双方において、現在の発話に対応して動作している複数のＡＳＲスレッドの中で、現在の言語ＩＤに対応するものから出力されている認識結果を表示して制御をステップ７５０に戻すステップ７５４とを含む。

２．動作
（１）起動
図８を参照して、ステップ４５０において、ＶＡＤスレッド、ＬＩＤスレッド及び複数言語の各々について複数設けられる音声認識スレッドの各々が起動される。これらは図１に示す発話区間検出部７２、ＬＩＤ７８及び多言語ＡＳＲ処理部８０にそれぞれ相当する。ステップ４５２において、メインルーチン（図１の制御部７４に相当）が、これら各スレッドとのコネクションを確立する。

ステップ４５４において音声データである入力５２が与えられると、バッファ７０がその音声データの蓄積を開始する。ステップ４５６では図９に示す処理が実行される。すなわち、バッファ［０］に音声データを蓄積（ステップ５０２）する。

（２）最初の入力に対する前処理
最初の１秒分の音声データが蓄積されると（ステップ５０４の判定が肯定）、その音声データの先頭に０．１秒分の無音区間を付加し（ステップ５０６）、その音声データをＶＡＤに投入する（ステップ５０８）。ＶＡＤ１０２はこの入力に応答して、有音区間を表す情報（開始時刻及び終了時刻のペア）の出力を開始する。

ステップ５１０ではバッファ［１］に音声データの蓄積先を変更する。以下、２番目以降の入力に対する処理が実行される。

（３）２番目以降の入力に対する前処理
２番目以降の入力に対しては、ステップ５１２でバッファ［０］又はバッファ［１］に入力された音声データが蓄積される。１秒分の音声データが蓄積されると（ステップ５１４の判定が肯定）、ステップ５１６において、現在蓄積に使用されているバッファ（バッファ［ｉ％２］）と別のバッファ（バッファ［（ｉ－１）％２］に蓄積されている音声データのうち後半の０．５秒分の音声データをバッファ［ｉ％２］に蓄積されている音声データの先頭に付加する。ステップ５１８でさらにその先頭に０．１秒分の無音区間を付加する。ステップ５２０でこの音声データをＶＡＤに投入する。

以後、音声データの入力がある限りこの動作を繰り返す。

（４）ＶＡＤ出力の補正
図１に示すＶＡＤ１０２は、前処理部１００により前処理がされた音声データの入力を受けて、その音声データの中の有音区間を示す［開始時刻、終了時刻］のペアの出力を行う。この出力には、前処理で付加された無音区間及び直前の期間の音声データの後ろ半分で検出された有音区間があり得る。補正部１０４は図１０に制御構造を示すプログラムを実行することにより、この有音区間のうち、既に制御部７４及び発話区切検出部７６に送信済の有音区間があればそれを削除する。

（５）ＬＩＤの制御及びＡＳＲの切替
図１を参照して、制御部７４は、ＶＡＤ１０２により検知された有音区間の音声データをＬＩＤ７８と多言語ＡＳＲ処理部８０との双方に与える。ＬＩＤ７８は、図１２に示す制御構造を持つプログラムにより制御され、入力された有音区間の各々について、１．５秒の長さでかつ０．７秒のシフト長で音声データを読み出し、言語識別モデルに投入する。この処理は各有音区間について、有音区間の終了まで行われる。なおここで言語識別モデルに投入される音声の長さは、１．５秒が最大であり、それより前に発話が終了するときはその発話の末尾までの長さとなる。

言語識別モデルは、上記した１．５秒の音声データに対する言語識別処理を行い、結果が得られるとそれを出力する。言語識別モデルは、さらに有音区間の入力があれば、その音声データに対する処理を開始する。こうした処理が繰り返されるため、図６に示すように、各有音区間について少なくとも１回、有音区間が長ければ２回以上、言語識別の結果が出力される。多言語ＡＳＲ処理部８０はこの言語識別の結果を受けて、言語識別の結果に対応する言語の音声認識結果を表示する。

多言語ＡＳＲ処理部８０は以下のように動作する。この実施形態では、ＡＳＲスレッドは、各言語について３個が生成されている。制御部７４は、音声データを多言語ＡＳＲ処理部８０内の各言語のＡＳＲ処理部（ＡＳＲスレッドに相当）に入力する。プログラムの開始時にはそれらの中のいずれかのＡＳＲスレッドが音声データの入力先として選択されている。つまり、最初の有音区間は、各言語について入力先として選択されたＡＳＲスレッドにより処理される。この時点では音声が表す言語は不明である。音声データを受けたＡＳＲスレッドは、それぞれその音声データが自己の担当している言語のものとして音声認識を行う。言語識別の結果が得られると、多言語ＡＳＲ処理部８０は、複数の言語のＡＳＲスレッドの出力の中で、言語識別の結果により特定される言語のためのＡＳＲスレッドの出力を選択する。結果表示制御部８２は、ＬＩＤ７８からＬＩＤ判別結果が出力されたことに応答して、そのときに多言語ＡＳＲ処理部８０から出力されている音声認識結果を図１の表示５４として表示装置に表示したり、又は遠隔のコンピュータにテキストデータとして送信したりする。

言語識別の結果は、有音区間が長いと図６（Ｃ）から（Ｇ）に示すように何回か出力されることがある。ＡＳＲスレッドは音声認識結果を逐次的に出力するので、そのたびに出力が更新される。図７（Ｃ）の有音部分３５２に対する言語判別結果のように、複数回の言語識別の結果が互いに異なっている場合には、多数決又は最も信頼度が高い判別結果により選択された言語の音声認識結果が出力される。例えば多数決により言語を決定するときには、図７（Ｃ）に示す例では最初に日本語で音声認識結果が表示されるが、途中で英語に切り替わるということになる。

図１に示す発話区切検出部７６は、有音区間の後に０．５秒の無音区間が検出されると、発話区切りの検出信号を多言語ＡＳＲ処理部８０に与える。多言語ＡＳＲ処理部８０はこの発話区切りの検出信号を受けると、各言語について、音声データの入力先をそれまで稼働していたＡＳＲスレッドから、別のアイドリング中のＡＳＲスレッドに切り替える。この時点で２つのＡＳＲスレッドが稼働している可能性が高い。しかし、先行するＡＳＲスレッドは音声認識が完了するとアイドリング中に移行する。このようにして、各言語の複数のＡＳＲスレッドにおいて、音声信号の入力先のＡＳＲスレッドが発話区切りをトリガーとして切り替えられていく。

第２評価
（１）レイテンシの算出方法
上記実施形態のように、発話をその直後にテキスト化して表示したり自動翻訳に入力したりするためには、発話がされた時刻からその発話が音声認識されテキストに変換されるまでの時間、すなわちレイテンシをできるだけ短くする必要がある。しかし、従来の音声認識システムの評価は、発話単位でのレイテンシ、精度（単語誤り率：ＷＥＲ）、速度（実時間係数：ＲＴＦ）などによるものであった。こうした評価尺度は音声認識システムの性能の評価尺度として有用だが、連続する複数の発話をそれらの発話と並列に連続的に音声認識する、いわゆるライブ音声認識処理の評価尺度としては不十分なものであった。

例えば発話単位でレイテンシを評価する場合、発話長が長ければレイテンシも長くなるため、発話長の影響を除去する必要がある。また発話の音声データとそのトランスクリプションとを事前にアライメントしておき、その音声データに対する音声認識の結果と事前のアライメントとを比較して評価尺度とする場合、誤認識などの影響で計算の誤差が大きくなってしまうという問題がある。

ライブ音声認識の場合、低レイテンシが重要な目標である。セグメンテーション、言語識別、話者識別、及び音声認識などに要する時間がいずれもレイテンシに影響し、その影響は複合的である。システムの評価及び各技術の改善などの影響を反映するため、この実施形態では、音声認識の処理中に音声認識エンジンから出力される音声結果の一時出力を利用して、単語ベースでのレイテンシの算出を行う。ここでいう音声結果の一時出力とは、音声認識エンジンが一定時間長の音声信号に対する音声認識を行ったときに外部に出力する一時的な音声認識結果である。

例えば、図１４を参照して、クライアント８００からの音声信号をサーバ８０２でライブ音声認識する場合を考える。まずライブ音声認識処理の最初に、クライアント８００からサーバ８０２に対してポーズを表すポーズ信号８１０が送信され、それに引き続きデータ８１２、８１４、８１６及び８２０が一定時間ごとにサーバ８０２に送信される。サーバ８０２はこのデータに対する音声認識を行い、処理対象の音声信号のうち、一定時間長の音声信号に対する音声認識を行うたびに、一時認識結果８１８、８２２、８２６及び８３４をクライアント８００に送信する。図１４に示す例ではサーバ８０２はさらに、認識が終了すると最終認識結果８３６をクライアント８００に送信する。逆にクライアント８００からは、データ８２０に引き続く発話の音声データがデータ８２８、８３０及び８３２としてサーバ８０２に送信される。ここで提案するレイテンシの計算には、一時認識結果８１８などの一時認識結果を使用する。

なお、サーバ８０２は、一時認識結果８１８などの一時認識結果だけではなく、部分認識結果８２４と呼ばれるものをクライアント８００に送信することもある。部分認識結果８２４とは、ここでは、一時認識結果８１８などと同様、一時的な認識結果の一種ではあるものの、外部からは制御不可能な内部条件を音声認識エンジンが満たしたときのみ出力される音声認識結果である。

この実施形態では、このように音声認識の過程で音声認識エンジンから出力される認識結果を利用してライブ音声認識のレイテンシを測定する。なお以下の手法では、ＡＳＲの機能として、単語別の発話時間長が出力されることが前提となっており、これを利用して以下のようにしてレイテンシを算出する。

（ア）一時的音声認識結果（一時認識結果）、及び部分音声認識結果で出力された単語の中から、前回の一時認識結果で認識されたものを除く。

（イ）それらの単語の発話から認識結果出力までの時間を合計し、単語数で割る。

（ウ）上記（イ）で得た値を音声認識の結果出力時間から減じた値をレイテンシとする。

（２）実験による評価
図１５を参照して、「please wait here. I’m going to look for a rope or something.」という発話の音声認識を例としてレイテンシの計算方法を説明する。１回目のＡＳＲ出力は「please wait here.」に対するものであって、先頭に無音区間と末尾の無音区間とを含め、各単語の発声時間はそれぞれ、０．００秒、０．６０秒、０．８１秒、1.１７秒、及び１．３５秒であり、音声認識の結果出力時間は３．５０秒である。レイテンシの計算には、これらのうち二重下線で示す３個の単語の発話長（０．６０秒、０．８１秒、1.１７秒）を加算し、その値を単語数（３）で割る。得られた値を音声認識の結果出力時間である３．５０秒から減算する。その結果、２．６４という値が得られる。これが第１の発話に対する音声認識処理の単語ベースのレイテンシである。

２回目のＡＳＲ出力は、ここでは先に挙げた発話の全体に対する音声認識結果である。結果出力時間は４．３２秒である。この出力から、１回目に出力された、下線で示す単語を除いて、二重下線で示す残りの９個の単語の発話長を加算して得た値を単語数（９）で除算し、その値（約２．２４）を結果出力時間である４．３２から減算する。その結果、２．０８という値が得られる。これが発話の２文目に対する単語ベースのレイテンシである。

なお、ここでは一時的な認識結果のみを用いてレイテンシを計算している。しかし、最終的な認識結果を用いてレイテンシを計算してもよいことはいうまでもない。

この方法により算出した方法を用いて評価した、上記実施形態に係るライブ音声認識処理を他の指標と対比して図１７に示し、その測定に用いた発話の例を図１６に示す。

図１７に示す表で、上段はＡＳＲ単体に対する評価を示し、下段はライブ音声認識処理に対する評価を示す。ＬＩＤの値は精度を示す。英語、日本語における評価値（４箇所）はいずれもＷＥＲである。「レイテンシ」と記載された列の第２行は上記実施形態で測定されたものである。

図１７から分かるように、ライブ音声認識は、ＬＩＤにおいてＡＳＲ単体を上回る精度を示す。またライブ音声認識では英語の場合も日本語の場合も、ライブ音声認識処理は言語判定の影響がないＡＳＲ単体よりも若干下回る性能を示した。レイテンシはＡＳＲ単体に対する評価では測定できず、ライブ処理の場合にのみ測定できる。

第３変形例
上記実施の形態では、各言語について使用するＡＳＲスレッドは同じ数であった。しかしこの発明はそのような実施形態には限定されない。言語ごとに異なる数のＡＳＲスレッドを生成してもよい。また各スレッドはプログラムの最初に生成している。しかしこれは限定的ではなく、各スレッドが必要となった時点で生成してもよい。例えばある言語で生成したスレッドの全てがビジーとなってしまったときに次の発話の音声認識をする必要が生じたときには、ビジーのスレッドのいずれかの処理を中断させるのではなく、新たなスレッドを生成するようにしてもよい。

さらに上記実施の形態では、ライブ音声認識処理の結果は、発話に少し遅れて画面に表示される。しかしこの実施形態に発明が限定されるわけではない。例えば音声認識処理の結果を通信によりリモートのコンピュータに送信してもよいし、ライブの自動翻訳装置に入力して翻訳結果を何らかの形で出力してもよい。例えば複数の会場で得られる、多言語の複数の発話列を１つのサーバの上で動作する複数のプロセスで別々に処理し、結果をそれぞれ複数の言語に翻訳して出力することもできる。言語識別の部分と同じように、複数話者識別のモデルを導入することにより、音声認識結果に、言語のみではなく話者情報の付与もできる。

上記実施の形態では、０．５秒以上の無音部分があったときに発話区切りを検出したものとしている。しかしこの発明はそのような実施形態には限定されない。例えば言語識別の結果に基づいて発話の言語の変化を検出したり、話者識別の結果を使用して話者の変化を検出したりしたときに発話区切りを検出したものとしてもよい。

上記実施の形態では、単一のコンピュータシステムで、単一のＣＰＵを用いて複数のスレッドを動作させている。しかしこの発明はそのような実施形態には限定されない。複数のコアを持つＣＰＵであれば各コアで別々にスレッドを生成して上記処理を実現できる。さらに、互いに独立した複数のＣＰＵを利用すれば、上記実施形態に係る多言語ライブ音声認識システムを分散システムとしても実現できる。

［付記］
上記実施形態の他の局面について以下に付記する。

（１）言語識別モデルが出力する情報は、部分区間の音声信号が複数の言語である確率をそれぞれ示す複数のスコアを含み、言語決定手段は、部分区間の各々について、言語識別モデルがスコアを出力したことに応答して、複数の言語のうち、スコアが所定の条件を満足する言語の識別子を出力する条件検証手段を含んでもよい。

（２）条件検証手段は、部分区間の各々について言語識別モデルが出力するスコアが最大値となった回数が最も多い言語の識別子を出力してもよい。

（３）条件検証手段は、部分区間の各々について言語識別モデルが出力するスコアの平均値が最も高い言語の識別子を出力するようにしてもよい。

（４）信号付加手段は、対象区間のうち少なくとも直前の対象区間の末尾の第２の所定長を記憶するための末尾部分記憶手段と、対象区間のうち、最初の対象区間についてはその先頭に第１の所定長の無音区間を付加して出力するための先頭区間処理手段と、対象区間のうち、最初の対象区間より後の対象区間の各々について、当該対象区間の先頭に、末尾部分記憶手段に記憶されている直前の対象区間の末尾の第２の所定長を付加し、さらにその直前に第１の所定長の無音区間を付加して出力するための後続区間処理手段とを含んでもよい。第２の所定長は第１の所定長よりも長く、対象区間の長さよりも短くてもよい。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

５０多言語ライブ音声認識装置
７０バッファ
７２発話区間検出部
７４制御部
７６発話区切検出部
７８ＬＩＤ
８０多言語ＡＳＲ処理部
８２結果表示制御部
１００前処理部
１０２ＶＡＤ
１０４補正部
２００、２０２発話
２１０、２１２、２１４、２１６、２１８期間
２２０、２３２、２３４、３００、３０２、３０４、３１０、３１２、３１４、３５０、３５２有音部分
２２２、２３８、２４４、２５４、２６４無音部分
２３０、２３６、２４０、２５０、２６０、３６０、３７０、３８０、３９０音声信号
２４２、２５２、２６２付加区間
３６２、３７２、３８２、３９２ＬＩＤ判別結果
４２０発話区切り
４２２無音区間
８１２、８１４、８１６、８２０、８２８、８３０、８３２データ
８１８、８２２、８２６、８３４一時認識結果
８２４部分認識結果
８３６最終認識結果

Claims

音声信号の発話区間の開始及び終了を検出する発話区間検出手段と、
前記発話区間検出手段により検出された発話区間の終了後、所定時間以上の無音区間があったことに応答して、発話区切りを示す発話区分信号を出力するための発話区切り検出手段と、
前記発話区分信号に応答して、直前の発話区間の発話の言語を識別し言語の識別子を出力するための言語識別手段と、
前記発話区間検出手段により発話区間の開始が検出されたことに応答して、当該発話区間の音声信号に対する音声認識をそれぞれ行うための、互いに異なる複数の言語のための複数の音声認識手段と、
前記識別子に応答して、前記複数の音声認識手段のうち、当該識別子の示す言語の音声認識手段の出力を選択して出力するための選択手段とを含む、音声認識装置。
前記言語識別手段は、
前記発話区間検出手段により発話区間の終了が検出されたことに応答して、当該発話区間の音声信号から、所定長で所定シフト量の部分区間の音声信号を生成する部分区間信号生成手段と、
前記部分区間の各々の前記音声信号を受け、当該部分区間が前記複数の言語のいずれに相当するかを表す情報を出力する言語識別モデルと、
前記言語識別モデルが出力する前記情報に応答して、前記発話区間の音声信号の言語を決定し当該言語の識別子を出力する言語決定手段とを含む、請求項１に記載の音声認識装置。
前記複数の音声認識手段の各々は、
当該音声認識手段の言語の音声認識を個別に行う複数の同一言語音声認識手段と、
前記発話区分信号に応答して、前記複数の言語の音声認識手段の各々について、前記複数の同一言語音声認識手段の中でアイドル状態である前記同一言語音声認識手段に音声認識を開始させるための切替手段とを含む、請求項１又は請求項２に記載の音声認識装置。
前記発話区間検出手段は、
前記音声信号を所定長の対象区間に分割する分割手段と、
前記対象区間の各々に対して、その直前に少なくとも第１の所定長の無音区間を含む付加信号を付加する信号付加手段と、
前記信号付加手段により前記付加信号が付加された前記対象区間に含まれる有音区間を無音区間と区別して検出するための有音区間検出手段と、
前記有音区間検出手段により検出された前記有音区間の中で、前記付加信号に対応する有音区間を削除することにより前記有音区間を補正するための補正手段とを含む、請求項１から請求項３のいずれか１項に記載の音声認識装置。
コンピュータを、
音声信号の発話区間を検出する発話区間検出手段と、
前記発話区間検出手段により発話区間が検出されたことに応答して、当該検出された発話区間に対して当該区間の発話の言語を識別するための言語識別手段と、
前記発話区間検出手段により発話区間が検出されたことに応答して、当該発話区間の音声信号に対する音声認識をそれぞれ行うための、互いに異なる複数の言語のための複数の音声認識手段と、
前記言語識別手段による識別結果に応答して、前記複数の音声認識手段のうち、当該識別結果の示す言語の音声認識手段の出力を選択して出力するための選択手段として機能させる、コンピュータプログラム。
コンピュータが、音声信号の発話区間の開始及び終了を検出するステップと、
コンピュータが、前記検出された発話区間の終了後、所定時間以上の無音区間があったことに応答して、発話区切りを示す発話区分信号を出力するステップと、
コンピュータが、前記発話区分信号に応答して、直前の発話区間の発話の言語を識別し言語の識別子を出力するステップと、
コンピュータが、前記発話区間の開始が検出されたことに応答して、当該発話区間の音声信号に対する音声認識を、互いに異なる複数の言語のための複数の音声認識手段により開始させるステップと、
コンピュータが、前記識別子に応答して、前記複数の音声認識手段のうち、当該識別子の示す言語の音声認識手段の出力を選択して出力するステップとを含む、音声認識方法。