JP7454857B2

JP7454857B2 - 言語識別装置

Info

Publication number: JP7454857B2
Application number: JP2021034054A
Authority: JP
Inventors: 鵬沈; 孔明杉浦; 恒河井
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2019-03-28
Filing date: 2021-03-04
Publication date: 2024-03-25
Anticipated expiration: 2039-03-28
Also published as: JP2021092817A

Description

この発明は、多言語の音声を処理する装置に関し、特に、入力される音声信号がどの言語かを識別する言語識別装置及び当該言語識別装置を用いる音声処理装置に関する。

最近では、複数の言語の音声を音声認識、自動翻訳及び音声合成し、互いの使用言語が異なる人の間の対話を助ける装置が普及しつつある。使用可能な言語の数も多くなり、この装置を使用すると様々な言語を使用する人が互いにコミュニケーションできるようになると期待されている。

このような多言語の音声認識を高精度に行うためには、音声信号が表す音声がどの言語であるかを知ることが必要である。そのため、通常は、使用する言語を予め指定して音声認識を起動する。

ところが、使用言語が互いに異なり、しかも相手の言語が何であるかがわからない２人が１台の多言語音声処理装置を利用して対話をしようとする場合、使用する言語の指定が難しいという問題がある。その装置の持ち主であれば基本的には使用言語（例えば日本語）の設定が行われているので問題ないが、相手が仮に日本語がまったくわからない場合にはその言語の設定は容易ではない。装置の表示等は基本的に日本語なので、相手が見ても操作方法は理解できない。装置の持ち主は装置の操作は分かっていても、相手の言語が分からないのでどのような設定をしたらよいかが分からない。

こうして、多言語の音声処理を行う装置を使用する場合には、対話をスムーズに始めることが難しいという問題がある。

こうした問題を解決するための１つの提案が、後掲の特許文献１において提案されている。特許文献１に記載の技術では、入力された音声信号に対し、複数の言語での音声認識を行う。音声認識の結果として、音声認識の信頼度が得られる。特許文献１に開示の技術では、この音声認識の信頼度の最も高い言語を音声信号の表す音声の言語として採用する。

特開2019-23690

しかし、特許文献１に記載の技術では、全ての音声に対する音声認識を行うために、計算量が大きく、順次的に行うと時間がかかるという問題がある。仮にそれらを並列に実行すると、計算リソースを消費するために、例えばサーバで複数の要求を処理するような場合、要求が重なるとサーバでの処理量が過大になり、音声認識が遅くなるという問題がある。

そのために、従来の多言語の音声処理装置で言語識別を行う場合には、実際の音声処理を開始するまでに要する時間が長くなってしまうという問題がある。特に外国からの旅行者に何かを聞かれたりした場合には、対話のための音声処理を短時間で開始しその結果が出来るだけ早く得られるようにすることが望ましい。

それゆえにこの発明は、音声信号の言語の判定が、発話の内容に応じて十分に高い精度でできるようにすることを目的とする。

この発明の第１の局面に係る言語識別装置は、入力される音声信号が、第１の複数個の言語の中のいずれの言語の音声の信号であるかを識別する言語識別装置であって、音声信号の入力に応答して、第１の複数個の言語の各々について、音声信号の表す音声がその言語の音声であることを示すスコアを出力するためのスコア出力手段と、スコア出力手段により出力されたスコアの中で、第１の複数個の言語の中から予め指定された、第１の複数個より少ない第２の複数個の言語のスコアを選択するための選択手段と、選択手段により選択されたスコアの各々を、第２の複数個の言語のスコアの合計を基準に正規化するための正規化手段と、正規化手段により正規化されたスコアの最大値がしきい値以上か否かを判定する判定手段と、判定手段による判定が肯定的であるか否かに応答して、スコアの最大値に対応する言語を音声信号の表す音声の言語として特定する処理と、スコア選択手段の出力を棄却する処理とを選択的に行う言語特定手段とを含む。

好ましくは、スコア出力手段は、音声信号から算出される音響特徴量の時系列に応答して、音声信号が表す音声の言語のスコアを出力するように予め訓練されたニューラルネットワークを含む。

より好ましくは、ニューラルネットワークの出力するスコアは、いずれも、当該スコアの合計に対して正規化されている。

この発明の第２の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの装置の各手段として機能させる。

この発明の第３の局面に係る音声処理装置は、音声処理の対象となるデフォルト言語の言語名を記憶する言語名記憶手段と、複数個の言語の各々に対して少なくとも音声認識を行うことが可能であって、言語名の指定を受け、与えられる音声信号を当該指定された言語の音声として処理するための音声処理手段と、音声信号の入力に応答して、当該音声信号の表す音声が複数個の言語のいずれであるかを識別するための言語識別手段と、音声信号の入力に応答して、言語名記憶手段に記憶されているデフォルト言語を指定して、音声処理手段による音声信号の処理を起動する第１の音声処理起動手段と、言語識別手段により識別された言語が、デフォルト言語と一致しているか否かを判定する一致判定手段と、一致判定手段による判定が否定であることに応答して、音声処理手段による音声信号に対する処理を終了させ、音声信号の所定位置から、言語識別手段により識別された言語を指定して、音声処理手段による音声信号に対する処理を起動する第２の音声処理起動手段とを含む。

好ましくは、音声処理装置は、一致判定手段による判定結果と、言語名記憶手段に記憶されているデフォルト言語とに基づき、予め定められるアルゴリズムにより、言語名記憶手段に記憶されているデフォルト言語の言語名を、複数個の言語の中のいずれとするかを決定し、言語名記憶手段に記憶させるためのデフォルト言語決定手段をさらに含む。

図１は、この発明の第１の実施の形態における言語識別の概略を示す模式図である。図２は、この発明の第１の実施の形態に係る音声処理装置の概略構成を示すブロック図である。図３は、この発明の第１の実施の形態に係る言語識別のための中心部の構成を示すブロック図である。図４は、この発明の第１の実施の形態に係る多言語音声処理装置が利用する多言語音声翻訳装置の概略構成を示すブロック図である。図５は、図４に示す自動翻訳装置の１つの概略構成を示すブロック図である。図６は、この発明の第１の実施の形態に係る多言語音声処理装置を実現するコンピュータシステムの外観を示す図である。図７は、図６に示すコンピュータのハードウェア構成を示すブロック図である。図８は、図６に示すコンピュータを第１の実施の形態に係る音声処理装置として機能させるコンピュータプログラムの制御構造を示すフローチャートである。図９は、図８に制御構造を示すプログラムの一部の制御構造を示すフローチャートである。図１０は、第１の実施の形態に係る音声処理装置におけるプログレッシブ方式の言語識別の概略を示す図である。図１１は、従来の手法による音声処理の時間経過を示す模式図である。図１２は、この発明の第１の実施の形態において、最終的な音声処理結果が短時間で得られるときの音声処理の時間経過を示す模式図である。図１３は、この発明の第１の実施の形態において、最終的な音声処理結果が得られる時間が最長となる場合の音声処理の時間経過を示す模式図である。図１４は、この発明の第２の実施の形態に係る音声対話システムの全体構成を示す概略図である。図１５は、第２の実施の形態で端末として使用されるスマートフォンの概略のハードウェア構成を示すブロック図である。図１６は、図１５に示すスマートフォンの機能的構成を示すブロック図である。図１７は、図１５に示すスマートフォンにおいて、言語を設定する画面を示す模式図である。図１８は、図１５に示すサーバサイドである多言語音声翻訳システムの機能的ブロック図である。図１９は、コンピュータを図１８に示す多言語音声翻訳システムとして機能させるためのコンピュータプログラムの制御構造を示すフローチャートである。

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

［第１の実施の形態］
〈構成〉
図１は、この発明の第１の実施の形態における言語識別の概略を示す模式図である。図１を参照して、この実施の形態では、入力された音声信号をニューラルネットワーク５０で処理することにより予め定めた８種類の言語５２の各々について、入力音声がその言語のものである確率５４を算出する。この確率５４は合計が１となるように正規化されている。さらに８種類の言語５２の中から、予めユーザにより指定された複数種類（以下の実施の形態では３種類）の選択言語５６の確率を抽出し、これらの確率を、合計が１となるようにさらに正規化する。正規化した選択言語５６の中で最も高い確率の言語５８が入力された音声の言語であると推定する。このとき、正規化した後の確率が予め定めたしきい値以上であれば言語５８を推定結果として採用し、そうでなければ推定結果を棄却する。推定結果を棄却する場合には、音声の続きを用いて再び言語の推定を行う。

図２は、この発明の第１の実施の形態に係る、入力される音声信号により表される言語を自動的に認識し、その結果に基づいてその音声信号に対する音声処理を行う多言語音声処理装置１００の概略構成を示すブロック図である。この実施の形態では、多言語音声処理装置１００は、音声が８種類の言語の中のどの言語かを推定して音声認識し、自動翻訳を行い、翻訳結果から音声を合成して出力する。

図２を参照して、多言語音声処理装置１００には、マイクロフォン（以下「マイク」という。）１０２と、モニタ１０４と、スピーカ１０６とが接続されている。多言語音声処理装置１００は、マイク１０２から音声信号を受信し、デジタル化、フレーム化して各音声を表す音声データベクトルの時系列に変換する音声処理装置１３０と、音声処理装置１３０の出力する、所定長の音声データベクトル列の入力を受けて、入力された音声信号の表す音声が、前述した８種類の言語である確率をそれら言語の各々について出力する言語識別ニューラルネットワーク１３２と、言語識別ニューラルネットワーク１３２の出力する８種類の確率に基づいて、入力音声の言語を判定する言語判定部１３４とを含む。

この実施の形態では、図１に示すように、判定対象の言語は、日本語（略称は「JA」。以下、カッコ内は各言語の略称を表す。）、英語（EN）、中国語（ZH）、韓国語（KO）、インドネシア語（ID）、ベトナム語（VI）、タイ語（TH）、及びミャンマー語（MY）である。

多言語音声処理装置１００はさらに、多言語音声処理装置１００を使用する際のユーザとのインターフェイスに使用される言語を含む基本情報を対話型処理により設定するための基本情報設定部１２０と、処理中の発話の話し手に対する相手の言語に関する情報を記憶するための相手言語記憶部１２２と、言語識別ニューラルネットワーク１３２の処理対象である８種類の言語、その中でユーザが選択する３種類の言語、及びさらにその中で最初の入力音声の言語としてユーザが予め指定する言語に関する情報を対話型処理により設定するための言語設定部１２４と、言語設定部１２４に設定された情報を記憶するための選択言語記憶部１２８と、次の音声の言語として推定された言語をデフォルト値として記憶するためのデフォルト言語記憶部１２６とを含む。デフォルト言語記憶部１２６及び相手言語記憶部１２２に記憶される値は、多言語音声処理装置１００の動作に伴い、識別された言語の変化に伴って、所定のアルゴリズムで更新される。

なお、デフォルト言語記憶部１２６に記憶される言語は、ユーザにとって対話の相手の言語が不明であるときに、とりあえず推測した言語、又は対話の相手のデフォルトの言語としてユーザが以前から設定していた言語である。仮に対話の相手の言語がはっきり分かっている場合には、言語設定部１２４を使用してその言語をデフォルト言語記憶部１２６に設定すればよい。しかしその場合には、そもそも言語識別ニューラルネットワーク１３２による言語の判定は不要ということになる。この実施の形態では、そうした場合についての構成及び説明はせず、あくまで対話の相手の言語が不明である場合を想定する。

多言語音声処理装置１００はさらに、入力された音声信号について言語判定部１３４により判定された言語が、デフォルト言語記憶部１２６に記憶されたデフォルト言語から変化したか否かを判定し、その結果を表す判定信号を出力する言語変化判定部１３６と、デフォルト言語記憶部１２６と言語判定部１３４との出力にそれぞれ接続された２つの入力を持ち、言語変化判定部１３６の出力に応じていずれかを選択して出力するための言語選択部１３８とを含む。

多言語音声処理装置１００はさらに、音声処理装置１３０の出力する音声データベクトル列の一定時間分を記憶するＦＩＦＯのバッファ１４０と、音声処理装置１３０の出力及びバッファ１４０の出力に接続された２つの入力を持ち、言語変化判定部１３６の出力に応じていずれかを選択して出力するための音声データ選択部１４２と、音声データ選択部１４２の出力に接続された入力を持ち、入力される音声データベクトル列に対し、その音声の言語が言語選択部１３８の出力により指定される音声であると想定して音声翻訳処理を行うための多言語音声翻訳装置１４４とを含む。バッファ１４０は、以下に説明するように、デフォルトの言語で音声データに対する音声翻訳処理を開始した後、実際の言語がデフォルトの言語以外であることが判明したときに、正しい言語で音声データに対する音声翻訳を最初から実行するために必要である。

この実施の形態では、多言語音声翻訳装置１４４は入力される音声データベクトル列に対して音声認識処理を実行し、その結果を相手言語記憶部１２２に記憶されている言語に自動翻訳し、さらに自動翻訳の結果であるテキストと音声合成用のためのパラメータとを出力する処理を行う。

多言語音声処理装置１００はさらに、多言語音声翻訳装置１４４が出力する音声合成のためのパラメータと、相手言語記憶部１２２に記憶されている情報とに基づいて音声信号を合成し、スピーカ１０６に与えて音声を発生させるための音声信号合成装置１４６と、多言語音声翻訳装置１４４が出力するテキスト情報に基づいてモニタ１０４を制御してそのテキストを表示させるための表示制御装置１４８とを含む。

図３は、この発明の第１の実施の形態に係る言語識別のための中心部の構成を示すブロック図である。図３を参照して、この実施の形態では、言語識別ニューラルネットワーク１３２は、３つの言語識別モデル１８０、１８２及び１８４を含む。これらはいずれもニューラルネットワークである。言語識別モデル１８０は、１．５秒の音声データを入力として、その音声の言語を推定するためのものである。同様に、言語識別モデル１８２は、２．０秒の音声データを入力とし、言語識別モデル１８４は３．０秒の音声データを入力とする。

例えば言語識別モデル１８０は、複数の畳込みブロックからなる畳込み層群１７０と、畳込み層群１７０の出力を受けて８種類の言語の確率１７４を出力する全結合層１７２とを含む。全結合層１７２は複数の層を含み、最終層はSoftMax層となっている。したがって８種類の言語に対応する出力の合計は１となり、確率１７４として扱うことができる。言語識別モデル１８２及び言語識別モデル１８４は言語識別モデル１８０とほぼ同じ構成を持つが、その構成には入力のサイズが異なっていることを反映した相違がある（入力層のノード数等）。

言語識別モデル１８０、１８２及び１８４は、８カ国語の大量の音声信号と、その音声信号の表す音声の言語を示す正解データとの組み合わせによりそれぞれ予め訓練しておく。音声信号のサイズは各モデルに応じて異なったものを用いる。この実施の形態では、正解データは８個の要素を持ち、正解の言語に対応する要素の値が１、それ以外の要素の値が０となるベクトルとする。訓練自体はニューラルネットワークに対する通常の誤差逆伝播法により行うことができる。訓練データが多くなるほど言語識別の精度は高くなるので、十分な量の訓練データを集めることが重要である。

言語判定部１３４は、言語識別モデル１８０から確率１７４、言語識別モデル１８２から確率１７６、言語識別モデル１８４から確率１７８の入力をそれぞれ受け、３種類のモデルによるこれら３組の確率から、外部信号により指定される１組を選択するモデル選択部１９０と、モデル選択部１９０により選択された確率の組に含まれる８種類の確率から、選択言語記憶部１２８に記憶されている３種類の選択言語の確率を抽出する言語選択部２００と、言語選択部２００の選択した３種類の言語の確率を正規化し確率として出力するための確率正規化部２０２とを含む。確率正規化部２０２は、３種類の確率の合計を計算し、その値で各確率の言語を割った値を各言語の確率とする。この値は合計すると１となる。

言語判定部１３４はさらに、確率正規化部２０２により正規化された３つの確率の中で最大の確率を選択して出力する最大確率選択部２０４と、最大確率選択部２０４により選択された確率が所定のしきい値以上か否かを判定し、判定結果を出力するしきい値比較部２０６と、確率正規化部２０２が出力する正規化後の確率、最大確率選択部２０４が選択した最大確率、及びしきい値比較部２０６からの比較結果を受け、それらに基づいて言語の識別を試み、言語が識別できたらその結果を言語変化判定部１３６に与え、判定が完了したことを示す完了信号を言語変化判定部１３６（図２）及び相手言語記憶部１２２（図２）に与え、言語が識別できなかったときには、そのときの各言語の正規化後の確率を確率記憶部１９４に格納し、カウンタ１９６の値を１インクリメントし、言語選択部２００に指示を与えて次の言語識別モデルの出力を選択して同様の処理を実行するための言語決定部２０８と、しきい値比較部２０６が比較するしきい値を記憶するしきい値記憶部１９２とを含む。しきい値としては、望ましい精度及びレイテンシを実現できるように予め実験で定めておく。しきい値は少なくとも０．５以上、より好ましくは０．８以上、さらに好ましくは０．８５以上であることが望ましい。

図４は、この発明の第１の実施の形態に係る多言語音声処理装置が利用する多言語音声翻訳装置１４４の概略構成を示すブロック図である。図４を参照して、多言語音声翻訳装置１４４は、８種類の言語に対応して予め準備された８種類の言語用の音声認識装置２２０、…、２３４と、各々、これら音声認識装置２２０、…、２３４の出力する音声認識結果のテキストを受け、その音声認識装置の出力するテキストを、各音声認識装置の言語から、他の７種類の言語に翻訳可能で、かつその中で相手言語記憶部１２２により指定される言語に翻訳して出力する８種類の多言語翻訳装置２４０、…、２５４と、図２の音声データ選択部１４２から与えられる音声データベクトル列を受け、音声認識装置２２０、…、２３４の中で言語選択部１３８からの言語選択信号により指定されるものにこの音声データベクトル列を与えるためのデータ分配部２５８と、多言語翻訳装置２４０、…、２５４の各々からの出力を受けるよう接続され、言語選択部１３８からの言語選択信号により指定される音声処理結果を選択し、音声合成用のパラメータを音声信号合成装置１４６に、音声処理結果のテキストを表示制御装置１４８に、それぞれ与えるための出力選択部２５６とを含む。

図５を参照して、多言語翻訳装置２４０は、この多言語翻訳装置２４０に対応する言語の文を他の７言語に翻訳するための、いずれも相手言語記憶部１２２からの相手言語選択信号を受けるように接続された７個の自動翻訳エンジン２６２、…、２７４と、言語選択部１３８から言語選択信号を、相手言語記憶部１２２から相手言語を示す信号を、それぞれ受け、言語選択部１３８により選択されたときのみ動作し、自動翻訳エンジン２６２、…、２７４の中で相手言語記憶部１２２からの相手言語選択信号に対応するものに音声認識装置２２０の出力するテキストを与える処理を実行する翻訳エンジン選択部２６０と、出力選択部２７８にも相手言語記憶部１２２からの相手言語選択信号を受けるように接続され、自動翻訳エンジン２６２、…、２７４のうち、相手言語選択信号により選択されたものの出力を選択して多言語翻訳装置２４０からの出力として図４に示す出力選択部２５６に与えるための出力選択部２７８とを含む。

図６に、上記した多言語音声処理装置１００を実現するコンピュータシステム２９０の１例の外観を示し、図７にコンピュータシステム２９０を構成するコンピュータの１例のハードウェアブロック図を示す。

図６を参照して、このコンピュータシステム２９０は、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ドライブ３１０を有するコンピュータ３００と、いずれもコンピュータ３００に接続されたキーボード３０６、マウス３０８、及びモニタ１０４とを含む。

図７を参照して、コンピュータ３００は、ＤＶＤドライブ３１０に加えて、ＣＰＵ３１６と、ＧＰＵ（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３１７と、ＣＰＵ３１６、ＧＰＵ３１７、ＤＶＤドライブ３１０に接続されたバス３２６と、バス３２６に接続され、コンピュータ３００のブートアッププログラム等を記憶するＲＯＭ３１８と、バス３２６に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するＲＡＭ３２０と、バス３２６に接続された不揮発性メモリであるハードディスクドライブ（ＨＤＤ）３１４とを含む。ハードディスク３１４は、ＣＰＵ３１６及びＧＰＵ３１７が実行するプログラム、ＣＰＵ３１６及びＧＰＵ３１７が実行するプログラムが使用するデータ等を記憶するためのものである。コンピュータ３００はさらに、他端末との通信を可能とするネットワーク３２８への接続を提供するネットワークＩ／Ｆ３０４と、ＵＳＢメモリ３３０が着脱可能で、ＵＳＢメモリ３３０とコンピュータ３００内の各部との通信を提供するＵＳＢメモリポート３１２とを含む。

コンピュータ３００はさらに、マイク１０２及びスピーカ１０６とバス３２６とに接続され、ＣＰＵ３１６により生成されＲＡＭ３２０又はＨＤＤ３１４に保存された音声信号をＣＰＵ３１６の指示にしたがって読出し、アナログ変換及び増幅処理をしてスピーカ１０６を駆動したり、マイク１０２からのアナログの音声信号をデジタル化し、ＲＡＭ３２０又はＨＤＤ３１４の、ＣＰＵ３１６により指定される任意のアドレスに保存したりするための音声Ｉ／Ｆ３２４を含む。

上記実施の形態では、図２に示す基本情報設定部１２０、相手言語記憶部１２２、言語設定部１２４、及びデフォルト言語記憶部１２６は、いずれもＨＤＤ３１４又はＲＡＭ３２０により実現される。典型的には、これらは例えば外部からＨＤＤ３１４に書込まれコンピュータ３００の実行時にはＲＡＭ３２０にロードされ、定期的にバックアップとしてハードディスク３１４に保存される。

処理対象となる音声信号は、どのような手段でコンピュータ３００に保持されてもよいが、通常はネットワークＩ／Ｆ３０４を介してネットワーク３２８上の他のコンピュータからコンピュータ３００に送信され、ＲＡＭ３２０又はＨＤＤ３１４に保存される。

このコンピュータシステムを多言語音声処理装置１００及びその各構成要素の機能を実現するよう動作させるためのコンピュータプログラムは、ＤＶＤドライブ３１０に装着されるＤＶＤ３２２に記憶され、ＤＶＤドライブ３１０からＨＤＤ３１４に転送される。又は、このプログラムはＵＳＢメモリ３３０に記憶され、ＵＳＢメモリ３３０をＵＳＢメモリポート３１２に装着し、プログラムをハードディスク３１４に転送する。又は、このプログラムはネットワーク３２８を通じてコンピュータ３００に送信されＨＤＤ３１４に記憶されてもよい。プログラムは実行の際にＲＡＭ３２０にロードされる。なお、キーボード３０６、マウス３０８及びモニタ１０４を用いてソースプログラムをタイプし、コンパイラによりコンパイルしてその出力するオブジェクトプログラムをＨＤＤ３１４に保存してもよい。スクリプト言語の場合には、上記した処理を実現するプログラムであるスクリプトをキーボード３０６等を用いて入力しＨＤＤ３１４に保存してもよい。

ＣＰＵ３１６は、その内部のプログラムカウンタと呼ばれるレジスタ（図示せず）により示されるアドレスにしたがってＲＡＭ３２０からプログラムを読出して命令を解釈し、命令の実行に必要なデータを命令により指定されるアドレスにしたがってＲＡＭ３２０、ハードディスク３１４又はそれ以外の機器から読出して命令により指定される処理を実行する。ＣＰＵ３１６は、実行結果のデータを、ＲＡＭ３２０、ハードディスク３１４、ＣＰＵ３１６内のレジスタ等、プログラムにより指定されるアドレスに格納する。この際、プログラムカウンタの値もプログラムによって更新される。コンピュータプログラムは、ＤＶＤ３２２から、ＵＳＢメモリ３３０から、又はネットワークを介して、直接ＲＡＭ３２０にロードしてもよい。なお、ＣＰＵ３１６が実行するプログラムの中で、一部のタスク（主として数値計算）については、プログラム内の命令により、又はＣＰＵ３１６による命令実行時の解析結果にしたがって、ＧＰＵ３１７にディスパッチされる。

コンピュータ３００の各機能を実現するプログラムは、コンピュータ３００に上記した各装置として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ３００上で動作するオペレーティングシステム（ＯＳ）若しくはサードパーティのプログラム、又はコンピュータ３００にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能すべてを必ずしも含まなくてよい。このプログラムは、命令の中で、所望の結果が得られるように制御されたやり方で適切な機能又は「プログラミング・ツール・キット」を呼出すことにより、上記した各装置及びその構成要素としての動作を実行する命令のみを含んでいればよい。コンピュータ３００の動作方法は周知であるので、ここでは繰返さない。なお、ＧＰＵ３１７は並列処理を行うことが可能であり、多くの音声データに関する音声認識処理、自動翻訳処理、音声合成処理を同時並列的又はパイプライン的に実行できる。

図８は、図６に示すコンピュータを第１の実施の形態に係る音声処理装置として機能させるコンピュータプログラムの制御構造を示すフローチャートである。なお、言語識別ニューラルネットワーク１３２及び多言語音声翻訳装置１４４はこのプログラムとは別プロセスで実行される。

図８を参照して、このプログラムは、プログラムの起動時の初期設定を行うステップ３５０と、音声が入力されたか否かを判定し、音声が入力されるまで待機するステップ３５２と、音声が入力されたことに応答して、図２のデフォルト言語記憶部１２６からデフォルト言語を、相手言語記憶部１２２から相手言語を、それぞれ読出すステップ３５４と、ステップ３５４で読出した言語の組合せ（デフォルト言語から相手言語へ）で多言語音声翻訳装置１４４を起動するステップ３５６と、言語識別ニューラルネットワーク１３２による言語識別処理を起動するステップ３５８とを含む。

図２から分かるように、音声データ選択部１４２及び言語識別ニューラルネットワーク１３２には音声処理装置１３０の出力が同時に与えられる。プログラム起動時には言語判定部１３４の出力はデフォルト言語を選択する。したがって、言語識別ニューラルネットワーク１３２と多言語音声翻訳装置１４４とには、同じ音声データが同時に与えられる。ステップ３５６で音声翻訳処理が起動され、ステップ３５８で言語識別処理が起動されるので、この後は両者が並列的に動くことになる。

このプログラムはさらに、ステップ３５８の後、識別された言語が図２のデフォルト言語記憶部１２６に記憶されているデフォルト言語と一致しているか否かを判定し、その結果に応じて制御の流れを分岐させるステップ３６０と、ステップ３６０の判定が否定であるときに、翻訳先の言語をデフォルト言語に指定してステップ３５６で起動した音声翻訳処理を中止するステップ３６２と、識別結果の言語と、図２の相手言語記憶部１２２に記憶されている相手言語との組合せ（識別結果の言語から相手言語への音声翻訳）をするように指定して多言語音声翻訳装置１４４による音声翻訳処理を起動するステップ３６４とを含む。

このプログラムはさらに、ステップ３６４の後、及びステップ３６０の判定が肯定であるときに実行され、図２に示す相手言語記憶部１２２に記憶されていた相手言語をデフォルト言語記憶部１２６に格納し、言語選択部１３８の出力する識別結果の言語を相手言語記憶部１２２に格納して制御をステップ３５２に戻すステップ３６６とを含む。

図９は、図８に制御構造を示すプログラムの一部であるステップ３５８で実行されるプログラムルーチンの一部を示すフローチャートである。このプログラムにより、後述するプログレッシブ方式の言語識別が実現される。図９を参照して、このプログラムルーチンは、プログレッシブ方式による言語識別処理を制御するための繰返し処理を制御する変数ｉに０を代入するステップ３８０と、プログレッシブ方式の言語識別処理において言語識別モデルを切替えるか否かを決めるための発話長のしきい値として準備した発話長しきい値配列に、それぞれ１．７５秒、２．５秒、及び０秒に相当する値｛１．７５、２．５、０｝を代入するステップ３８２と、変数ｉの値がプログレッシブ方式の言語識別処理において使用するモデルの数から１を引いた値より大きいか否かを判定し、判定結果に応じて制御の流れを分岐するステップ３８４とを含む。なお、ステップ３８２では、識別モデルを特定する３要素の配列（以下、「モデル配列」と呼ぶ。）も準備し、各識別モデルの識別情報を格納する。ここでは、識別情報として３つの識別モデルへの入力発話長を用いることとし、各識別モデルの入力音声データ長さを示す｛１．５，２．０，３．０｝という値をモデル配列に格納する。

このプログラムはさらに、ステップ３８４の判定が否定のときに、モデル［ｉ］にそのモデルへの入力発話長の音声データを入力するステップ３８６と、ステップ３８６に続き、モデル［ｉ］の出力する各言語の確率から所定の３言語の確率を選択するステップ３８８と、ステップ３８８で選択された３言語の確率の値を正規化するステップ３９０と、ステップ３９０で正規化された確率の最大値がしきい値以上か否かを判定し、判定結果に応じて制御の流れを分岐させるステップ３９２と、ステップ３９２の判定が肯定のときに、その最大値に対応する言語を識別言語に決定してその情報を出力し処理を終了するステップ３９４とを含む。

このプログラムはさらに、ステップ３９２の判定結果が否定のときに、入力発話の発話長が発話長しきい値［ｉ］より短いか否かを判定し、判定に応じて制御の流れを分岐させるステップ３９８と、ステップ３９８の判定が否定のときに、ステップ３９０で正規化された３言語の確率を確率記憶部１９４（図３参照）に記憶するステップ４００と、変数ｉの値に１を加算して制御をステップ３８４に戻すステップ４０２とを含む。

このプログラムはさらに、ステップ３８４の判定が肯定のとき（変数ｉの値がモデル数―１より大きいとき）、及びステップ３９８の判定が肯定のとき（発話長が発話長しきい値［ｉ］より短いとき）に、確率記憶部１９４（図３参照）に記憶されていた各言語の確率を統合して最終的な識別言語を決定して制御をステップ３９４に移すステップ３９６とを含む。

ステップ３９６では、例えばメモリに記憶されていた各言語の確率について、各言語の平均を算出する。この場合、ステップ３９４ではその平均値の最大値がステップ３９２で使用するしきい値未満でも、その最大値に対応する言語を識別言語に決定する。

図１０に、３種類の言語識別モデルが処理する発話長と、図９のステップ３９８で使用される発話長しきい値との関係を示す。図１０を参照して、言語識別モデル１８０は、発話の先頭から１．５秒の音声を入力としてその言語を識別する。言語識別モデル１８２は、発話の先頭から２．０秒の音声を入力としてその言語を識別する。言語識別モデル１８４は、発話の先頭から３．０秒の音声を入力としてその言語を識別する。言語識別モデル１８０では言語が識別されなかった場合には、言語識別モデル１８２を使用して言語を識別し、言語識別モデル１８２でも識別できなかった場合には言語識別モデル１８４を使用して言語を識別する。

しかし、例えば言語識別モデル１８０で識別ができなかったとしても、発話長が２秒に満たない場合には、言語識別モデル１８２を使用して言語を識別できない可能性が高い。そこでこの実施の形態では、言語識別モデル１８０で言語の識別ができなかったときに、発話長が図１０に示すように１．７５秒より短い場合には、言語識別モデル１８２での言語の識別は行わず、言語識別モデル１８０により算出された確率を用いて言語を識別する。同様に、言語識別モデル１８２で言語が識別できなかった場合でも、発話が図１０に示す用に２．５秒に満たない場合には、言語識別モデル１８４での言語識別は行わず、言語識別モデル１８０及び１８２により各言語について算出された確率を用いて言語の識別を行う。この際、このようにして計算された確率の最大値がしきい値以上であれば問題ないが、しきい値未満のときでも、最大値に対応する言語を言語識別の結果とする。

このように、短い発話長で言語が識別できなかったときには、順次、さらに後の音声データを考慮して言語識別を行う。このような方式をこの明細書ではプログレッシブ方式と呼ぶ。

図９のステップ３９０で行われる正規化処理は、３言語の確率を合計した値で、各言語の確率を割ることにより、各言語の確率を再計算するものである。

〈動作〉
以上に構成を説明した多言語音声処理装置１００は以下のように動作する。多言語音声処理装置１００の起動時には、相手言語記憶部１２２には、基本情報設定部１２０に記憶されている基本情報の内で、この多言語音声処理装置１００のユーザが使用する言語が記憶されている。デフォルト言語記憶部１２６には、言語設定部１２４に記憶されている言語の中で、ユーザが音声入力の言語として仮に選択した言語が記憶されている。ユーザとしては、対話の相手の言語が明確には分からなくても、見当をつけてデフォルト言語記憶部１２６に設定できる。

以下の動作では、ユーザからではなく対話の相手から話し始めるものとする。実際の対話処理では、相手の言語を推定するための処理として最初に対話の相手に話し始めてもらう必要がある。そのため、画面に「ご自分の言語で何かお話ください」という趣旨のテキストを何カ国かで表示しておけば好ましい。例えば英語等でこれを表示しておけば、相手がとまどうこともないと考えられる。

図２を参照して、対話の相手が話し始めると、マイク１０２が音声を音声信号に変換し図２に示す音声処理装置１３０に与える。音声処理装置１３０はこの音声信号を受信し、デジタル化、フレーム化して各音声を表す音声データベクトルの時系列に変換し言語識別ニューラルネットワーク１３２、音声データ選択部１４２及びバッファ１４０に与える。バッファ１４０はこの音声データをバッファする。このとき、図３を参照して、言語識別ニューラルネットワーク１３２内の言語識別モデル１８０には発話の先頭から１．５秒間の音声データが、言語識別モデル１８２には発話の先頭から２．０秒間の音声データが、言語識別モデル１８４には発話の先頭から３．０秒間の音声データが、それぞれ与えられる。

一方、図２を参照して、言語変化判定部１３６は、起動時にはデフォルト言語で音声データを処理できるように言語選択部１３８及び音声データ選択部１４２を設定する。すなわち、言語選択部１３８はデフォルト言語記憶部１２６の出力を選択し、多言語音声翻訳装置１４４、及び音声信号合成装置１４６に与える。デフォルト言語に関する情報は相手言語記憶部１２２にも与えられるが、相手言語記憶部１２２は言語判定部１３４により言語が判定されたときのみ言語選択部１３８の出力を取り込む。したがって、相手言語記憶部１２２にはユーザの言語が格納されたままである。この値は多言語音声翻訳装置１４４及び音声信号合成装置１４６に与えられる（図８のステップ３５４）。音声データ選択部１４２はバッファ１４０の出力ではなく音声処理装置１３０の出力を選択し、多言語音声翻訳装置１４４に与える。

この結果、多言語音声翻訳装置１４４は、音声処理装置１３０から音声データ選択部１４２を介して与えられる音声データが、デフォルト言語記憶部１２６に記憶されている言語の音声を表すものとして音声処理を開始する（図８のステップ３５６）。

図４を参照して、多言語音声翻訳装置１４４は、具体的には以下のように動作する。データ分配部２５８は、音声データ選択部１４２からの音声データを、音声認識装置２２０、…、２３４の中で言語選択部１３８からの言語選択信号により指定される装置に配信し、それ以外の装置には配信しない。また音声認識装置２２０、…、２３４はいずれも言語選択部１３８からの言語選択信号を受信しており、言語選択信号により指定された言語を処理するための装置（例えば音声認識装置２２０）のみが動作する。

音声認識装置２２０…、２３４のうち、言語選択信号により指定された音声認識装置は、認識後のテキストを対応する多言語翻訳装置２４０に与える。以下では、例として音声認識装置２２０が言語選択信号により指定され、音声データ選択部１４２からの音声データを音声認識し、その結果のテキストを多言語翻訳装置２４０に与えるものとし、多言語翻訳装置２４０が翻訳処理をするものとして説明する。

図５を参照して、多言語翻訳装置２４０の翻訳エンジン選択部２６０には、言語選択部１３８から言語選択信号が、相手言語記憶部１２２から相手言語を示す信号が、それぞれ与えられる。翻訳エンジン選択部２６０は、言語選択部１３８により選択されたときのみ、自動翻訳エンジン２６２、…、２７４の中で相手言語記憶部１２２からの相手言語選択信号に対応するものに音声認識装置２２０の出力するテキストを与える。

自動翻訳エンジン２６２、…、２７４にはいずれも相手言語記憶部１２２からの相手言語選択信号が与えられており、相手言語選択信号により選択されたもののみが自動翻訳を行う。図５に示す例では、例えば自動翻訳エンジン２６２が相手言語選択信号により選択されていれば、翻訳エンジン選択部２６０により自動翻訳エンジン２６２が選択され、音声認識装置２２０の出力が自動翻訳エンジン２６２に与えられる。自動翻訳エンジン２６２は入力されたテキストを相手言語に自動翻訳する。この相手言語は相手言語記憶部１２２に記憶されている相手言語と一致する。

出力選択部２７８にも相手言語記憶部１２２からの相手言語選択信号が与えられており、出力選択部２７８は自動翻訳エンジン２６２、…、２７４のうち、相手言語選択信号により選択されたものの出力を選択して多言語翻訳装置２４０からの出力として図４に示す出力選択部２５６に与える。

出力選択部２５６は、言語選択部１３８からの言語選択信号により指定された言語に対応する多言語翻訳装置（例えば多言語翻訳装置２４０）の出力を選択し、音声信号合成装置１４６及び表示制御装置１４８に出力する。

すなわち、多言語音声翻訳装置１４４は、入力される音声データを音声認識し、自動翻訳し、音声合成のパラメータを生成して、順次それらを出力するよう動作する。

一方、言語識別ニューラルネットワーク１３２の言語識別モデル１８０、１８２及び１８４のいずれも多言語音声翻訳装置１４４と同時に音声データの表す音声の言語を識別する処理を開始する（図８のステップ３５８）。各モデルが必要とする発話長はそれぞれ１．５秒、２．０秒及び３．０秒であり、これらは先頭から図２に示す音声処理装置１３０により処理されて音声データベクトル列として蓄積される。１．５秒分の発話データが蓄積された時点で言語識別モデル１８０にそれらが入力される。同様に、２．０秒分の発話データが蓄積された時点で言語識別モデル１８２にそれらが入力され、３．０秒分の発話データが蓄積された時点で言語識別モデル１８４にそれらが与えられる。なお、発話が１．７５秒又は２．５秒に満たない場合には、図示しないフラグによってその情報が保存される。

言語識別モデル１８０、１８２及び１８４からは、それぞれその識別結果（図３に示す確率１７４、１７６及び１７８）が出力される。この際、言語識別モデル１８０が識別処理を開始するまでの時間は、他の２つのモデルよりも早く、その結果は最も早く得られる。言語識別モデル１８２が識別処理を開始するまでの時間は言語識別モデル１８０よりも長いが言語識別モデル１８４よりも短いので、言語識別モデル１８０による識別結果が得られた後、言語識別モデル１８４による識別結果が得られる前に得られる。言語識別モデル１８４からの識別結果は最も遅く得られる。

図３に示す言語判定部１３４は、これら言語識別モデル１８０、１８２及び１８４から出力される確率を用いて言語の識別処理を以下のように実行する。なお、以下では、説明をできるだけ簡明にするために、発話が２．５秒より長いことを前提として言語判定部１３４の動作を説明する。

図３を参照して、発話が検出されると、言語決定部２０８は最初にカウンタ１９６の値を０に初期化する（図９のステップ３８０）。続いて言語決定部２０８は、カウンタ１９６の値（＝０）により決定されるモデル（この例の場合には言語識別モデル１８０）に１．５秒分の音声データを与え（ステップ３８６）、その出力を選択するようにモデル選択部１９０を制御する（ステップ３８８）。モデル選択部１９０は言語識別モデル１８０が出力する確率１７４を選択し言語選択部２００に与え、言語選択部２００が、言語識別モデル１８０が出力した８つの言語の確率１７４の中から、選択言語記憶部１２８に記憶されている３つの言語に関する確率を選択し（図９のステップ３８８）確率正規化部２０２に与える。確率正規化部２０２は、その３つの言語の確率の和を計算し、その和で各確率の値を割ることにより、３つの言語に関する確率を正規化する（図９のステップ３９０）。最大確率選択部２０４がその中の最大値を選択し、しきい値比較部２０６がその最大値をしきい値と比較する（図９のステップ３９２）。最大値がしきい値以上であれば（ステップ３９２でＹＥＳ）、しきい値比較部２０６は、最大値に対応する言語の確率がしきい値以上であることを示す信号を言語決定部２０８に与える。言語決定部２０８は、確率正規化部２０２の出力する正規化後の３言語の確率、最大確率選択部２０４の出力する最大確率、及びしきい値比較部２０６の比較結果に基づき、最大確率に対応する言語が音声データの言語か否かを決定する。この実施の形態では、基本的には最大確率がしきい値以上である場合にはその確率に対応する言語を識別言語とし、どの確率もしきい値以上でない場合には、プログレッシブ的に行われた過去の１回又は２回の判定時の各言語の確率と、現在の確率とを統合し（例えば平均値を計算し）、その値がしきい値以上か否かにかかわらず、最大のものに対応する言語を識別言語とする。音声データの言語であると決定されれば言語決定部２０８は言語変化判定部１３６にその値を出力する。言語決定部２０８はさらに、識別が完了したことを示す信号を言語変化判定部１３６及び相手言語記憶部１２２に向けて出力する。これで言語識別は完了する。

確率の最大値がしきい値未満であれば、識別結果の信頼がおけないとして、確率正規化部２０２の出力した３言語の確率を確率記憶部１９４に保存し、カウンタ１９６に記憶されている変数ｉの値を１にインクリメントし、モデル選択部１９０を制御して次の言語識別モデル、つまり言語識別モデル１８２を選択する。

モデル選択部１９０は言語識別モデル１８２による識別結果である確率１７６が出力されればそれを選択し、言語選択部２００に与える。以下、上と同じ処理が実行される。

言語識別モデル１８２による識別結果でも言語が決定できないときには、さらに言語決定部２０８はカウンタ１９６をインクリメントして２とし、モデル選択部１９０を制御して今度は言語識別モデル１８４の出力である確率１７８を選択させる。モデル選択部１９０は言語識別モデル１８４からの確率１７８を選択し、言語選択部２００に与える。以下、上と同じ処理が言語決定部２０８による処理まで繰返される。

なお、言語識別モデル１８４の結果を用いても図９のステップ３９２の処理の判定が否定の場合には以下のように処理される。この場合、制御はステップ３９８に進む。ところがこの場合にはｉ＝２であり、発話しきい値長［２］＝０なので、図９のステップ３９８の判定は必ず否定となって、ステップ４００及び４０２が実行される。その後のループ処理の先頭のステップ３８４で判定が否定となり、ステップ３９６及び３９４を経て言語が識別されることになる。

言語決定部２０８において、確率の最大値がしきい値以上である場合には、他の場合と同様、その確率に対応する言語を言語識別の結果として言語変化判定部１３６に出力し、言語識別が完了したことを示す信号を言語変化判定部１３６及び相手言語記憶部１２２に出力する。これはｉ＝０及び１の場合と同様である。

しかし、最大値がしきい値未満であったときには、言語決定部２０８は以下のようにして決定する。すなわち言語決定部２０８は、この場合には確率記憶部１９４に記憶されている、それまでの各言語の確率を統合する。例えば各言語の確率の平均値を算出し、それをその言語の統合後の確率とする。そしてこの統合後の確率が最大の言語を発話データの言語に決定する。この場合には、その確率がしきい値未満であってもその言語に決定する。これは、この装置が対話に使用されていることが前提である以上、何らかの形で所定時間内には出力をする必要があるためである。

なお、発話長が１．７５秒に満たないときは言語識別モデル１８０の結果のみを用いて上記識別処理を実行する。この場合、最終的な確率の最大値がしきい値未満であっても上記したｉ＝２の場合と同様に言語識別の結果を出力する。発話長が２．５秒に満たないときも同様であって、言語識別モデル１８０の出力及び言語識別モデル１８２の出力のみを用いて識別処理を実行する。この場合にも、言語識別モデル１８２の結果を用いても確率の最大値がしきい値未満のときにはｉ＝２のときと同様、それまでに記憶されていた各言語の確率を言語ごとに統合し（例えば平均値を算出し）、最も高い確率の言語を識別結果とする。その値がしきい値以上であることは要件としない。

再び図２を参照して、言語変化判定部１３６は識別が完了したことを示す言語判定部１３４からの信号に応答して、デフォルト言語記憶部１２６に記憶されているデフォルト言語と、言語判定部１３４の出力した識別結果の言語とを比較し、同じか変化したかを示す判定信号を言語選択部１３８及び音声データ選択部１４２に与える。同じ場合の判定信号の値を第１の値、異なる場合の判定信号の値を第２の値とする。以下、識別結果の言語がデフォルト言語と一致した場合とそうでない場合とに分けて多言語音声処理装置１００の動作を説明する。

―識別結果の言語がデフォルト言語と一致する場合―
言語変化判定部１３６の判定信号が第１の値である場合、言語選択部１３８はデフォルト言語記憶部１２６の出力を選択し、相手言語記憶部１２２、多言語音声翻訳装置１４４及び音声信号合成装置１４６に与える。この場合、もとから与えられていたものと同じ情報が多言語音声翻訳装置１４４及び音声信号合成装置１４６に与えられる。

音声データ選択部１４２は、言語変化判定部１３６から第１の値の判定信号が与えられたことに応答して、音声処理装置１３０からの音声信号を多言語音声翻訳装置１４４に与える処理を続行する。

図４に示すデータ分配部２５８は、言語選択部１３８からの言語選択信号の値が変わらないので、音声認識装置２２０、…、２３４の中で、もともと音声データを与えていた音声認識装置にその後も音声データを続けて与える。同様に、図４の多言語翻訳装置２４０、…、２５４の中でデフォルト値により動作していた自動翻訳装置の翻訳エンジン選択部２６０（図５）は、同じ翻訳エンジンに音声認識結果を与え続ける。また相手言語記憶部１２２からの相手言語選択信号の値にも変化がないので、デフォルトの言語選択信号により動作していた多言語翻訳装置の中で相手言語選択信号により選択されていた自動翻訳エンジンも同様に動作を続ける。他の音声認識装置及び自動翻訳装置は動作しない。出力選択部２５６についても同様で、識別結果が決まる前から動作中の音声認識装置及び多言語翻訳装置の出力を選択し、音声信号合成装置１４６及び表示制御装置１４８に与える。

図２を参照して、音声信号合成装置１４６及び表示制御装置１４８も多言語音声翻訳装置１４４から出力される、前と同じ言語の音声翻訳結果に対する処理を続行する。

この後、相手言語記憶部１２２に記憶されていた相手言語がデフォルト言語記憶部１２６に記憶され、言語選択部１３８から与えられていた新たな識別結果の言語を表す情報が相手言語記憶部１２２に記憶される。

新たな音声入力があると、デフォルト言語記憶部１２６に記憶されているデフォルト言語と相手言語記憶部１２２に記憶されている相手言語とを指定した音声処理が新たに行われる。

―識別結果の言語がデフォルト言語と一致しない場合―
この場合、言語変化判定部１３６は２つの入力が一致していないことに応答して、第２の値の判定信号を言語選択部１３８及び音声データ選択部１４２に与える。言語選択部１３８はこの判定信号に応答して、言語判定部１３４の出力する識別結果の言語を選択し相手言語記憶部１２２、多言語音声翻訳装置１４４及び音声信号合成装置１４６に与える。

音声データ選択部１４２は言語変化判定部１３６からの判定信号に応答してバッファ１４０の出力を選択し多言語音声翻訳装置１４４に与える。

図４を参照して、データ分配部２５８は、音声データ選択部１４２の出力を、それまで選択していた音声認識装置及び自動翻訳装置から、言語選択部１３８から与えられる識別結果の言語を表す新たな音声認識装置及び自動翻訳装置に切替えて与える。

音声認識装置２２０、…、２３４の中で、それまで音声翻訳処理を実行していたものは、言語選択部１３８からの選択信号の値が変わったため、音声認識処理を中止する。多言語翻訳装置も同様である。一方、音声認識装置２２０、…、２３４の中で、新たな選択信号により指定されるものはデータ分配部２５８から与えられる、バッファされていた音声データの先頭から処理を開始する。またその音声認識装置の出力を受ける多言語翻訳装置も動作を開始し、その中で相手言語選択信号により定まる自動翻訳エンジンが翻訳を開始する。翻訳結果は出力選択部２７８及び出力選択部２５６により出力される。

以下、新たに処理を開始した装置の出力が図２に示す音声信号合成装置１４６及び表示制御装置１４８に与えられる。音声信号合成装置１４６は、多言語音声翻訳装置１４４から出力される音声合成パラメータに基づき、相手言語記憶部１２２に記憶された相手言語への音声信号を合成しスピーカ１０６に与える処理を行う。

入力された音声データに対する処理が完了すると、相手言語記憶部１２２に記憶されていた相手言語がデフォルト言語記憶部１２６に記憶されてデフォルト言語となり、言語選択部１３８が出力していた識別結果の言語が相手言語記憶部１２２に記憶されて次の音声に対する音声翻訳処理の目的言語となる。

以上の多言語音声処理装置１００の動作を要約すると以下のとおりである。最初に、ユーザの対話の相手が発話すると、その発話はデフォルト言語であるとして音声認識が開始される。音声認識の結果は出力される。言語の識別結果がデフォルト言語と一致していれば、その処理が続行され、音声認識結果が、順次、相手言語記憶部１２２に記憶されている言語（ユーザの言語）に自動翻訳される。自動翻訳の結果から音声が合成され出力される。

一方、言語の識別結果がデフォルト言語と一致しなければ、音声認識は途中で中止され、言語が識別結果の言語に切替えられ、バッファ１４０に蓄積されていた音声データに対して音声認識と自動翻訳、さらに音声合成が開始される。

音声に対する処理が終了すると、デフォルト言語としては、先の処理で相手言語だった言語が設定され、相手言語としては識別結果の言語が設定される。その結果、次に多言語音声処理装置１００のユーザが相手と入れ替わって発話すると、言語識別がうまくいけば識別結果の言語とデフォルト言語は一致し、多言語音声翻訳装置１４４が開始した音声処理が中断されることなく速やかに出力される。

その音声に対する処理が終了すれば、今度は相手言語とデフォルト言語とが入れ替えられ、相手言語の音声がデフォルト言語に音声翻訳される。今度は相手言語が識別言語と一致するので、多言語音声翻訳装置１４４が開始した音声翻訳処理が中止されることなく続行され、音声翻訳結果を速やかに得ることができる。

図１１から図１３を参照して、この第１の実施の形態に係る多言語音声処理装置１００の効果について説明する。

図１１は、従来の手法による音声処理の時間経過を示す模式図である。音声の入力があると、まず言語識別４４０が開始され、その結果を用いて音声認識４４２が開始される。音声認識４４２の結果が順次出力されると音声認識４４２に対して自動翻訳４４４が実行される。自動翻訳４４４の出力に対して音声合成４４６が実行される。

図１１に示すように、従来の手法において、言語識別４４０が開始され音声合成４４６が開始されるまでの時間を、上記実施の形態と比較する意味でＴｃという。

図１２は、この発明の第１の実施の形態において、最終的な音声処理結果が短時間で得られるときの音声処理の時間経過を示す模式図である。図１２を参照して、上記実施の形態では、言語識別４４０と音声認識４６０とが同時に開始される。音声認識４６０は、デフォルト言語から相手言語への音声認識である。その結果が出力されると自動翻訳処理４６２が開始される。言語識別４４０による識別結果の言語がデフォルト言語と一致していれば、音声認識４６０及び自動翻訳処理４６２は中止されることなく続行され、自動翻訳の結果に対して音声合成４６４が開始される。

図１２に示す例では、音声認識４６０が言語識別４４０と同時に開始されるため、音声合成４６４が開始されるまでに要する時間Ｔ１は明らかに図１１の時間Ｔｃより短い。図１１と図１２とを比較すれば、時間Ｔ１は時間Ｔｃより言語識別４４０に要する時間だけ短いことがわかる。

図１３は、この発明の第１の実施の形態において、最終的な音声処理結果が得られる時間が最長となる場合の音声処理の時間経過を示す模式図である。この例は、言語識別４４０により識別された言語がデフォルト言語と異なったものである場合である。この場合、音声認識４６０が言語識別４４０と同時に開始され、自動翻訳処理が音声認識後に開始されるはずである点は図１２と同様であるが、言語識別４４０が終了した時点で音声認識４６０が中止され、新たに識別後の言語での音声認識４８０、その結果の相手言語への自動翻訳４８２、及び自動翻訳の結果に対する音声合成４８４が開始される。音声認識４８０は、入力された音声の最初から行われるので、この場合に音声入力から音声合成４８４が開始されるまでの時間Ｔ２は図１１に示すＴｃと同じになる。

すなわち、この実施の形態によれば、デフォルト言語が識別された言語と一致する場合には、音声翻訳処理の結果の出力開始までに要する時間が従来のものと比較して短い。この時間は少なくとも最初の言語識別に要する時間だけ短くなる。仮にデフォルト言語が識別された言語と一致しなくても、音声翻訳処理の結果の出力開始までに要する時間は従来のものと同じである。

その結果、音声信号の表す音声の言語が分からない場合にも、音声処理の結果を早く得られるような音声処理装置が得られる。

また、言語識別ニューラルネットワーク１３２の出力をそのまま用いて言語を識別するのではなく、複数種類の言語（実施の形態では８種類）の中から予め指定された複数の言語（実施の形態では３種類）の確率を選択し、それらを正規化した上で最も高い確率の言語を選択する。その言語の確率をしきい値と比較することによって識別結果を受理するか棄却するかを決定している。この結果、言語識別ニューラルネットワーク１３２による判定処理自体を複雑化させることなく、精度の高い言語識別が可能になる。また、複数の言語の中でさらに一部の言語を選択して予め処理の対象として指定できるので、相手が話す言語が不明なときでも、その相手の出身地域等の見当がつけば、高い確率で言語識別の対象が含まれるような言語の組合せを指定でき、対話がスムーズに始められる可能性が高くなるという効果もある。

さらに上記実施の形態では、言語が識別された後、音声処理の相手言語を新たなデフォルト言語に設定し、識別された言語を次の相手言語に設定する。その結果、２人の話者が対話をする際に、一方言語から他方言語への音声翻訳処理をスムーズに進めることができるという効果がある。なお、この実施の形態では２人の話者が交互に発話する場合を想定しているが、話者が１人のみのとき、及び話者が３人のとき等にも容易に拡張できる。なお、これらを設定する処理は通常の対話型処理を行うプログラムで容易に実現できる。

なお、上記実施の形態（方法１）では、言語識別モデルとして３つのモデル（発話長１．５秒、２．０秒、３．０秒）を使用した。しかしこの発明はこのような実施の形態には限定されない。例えば４つの言語識別モデルを用い、対象とする発話長を１．０秒、１．５秒、２．０秒、３．０秒としてもよい（方法２）。又は、同じ３つの言語識別モデルを用い、発話長を１．０秒、１．５秒、２．０秒とすることも考えられる（方法３）。このような構成では、精度は方法１＞方法２＞方法３となり、レイテンシは方法３＜方法２＜方法１となる。

実験では、しきい値＝０．８５としたときに、上記３つの方法ではいずれも精度９５％以上を達成した。また方法２及び３を使用した場合にはレイテンシは平均１．３秒という非常に短いものとなった。

その他、目的に応じて識別モデルの組み合わせは様々に考えられる。もちろん、識別モデルを１つのみ使用する場合も対象である。

また上記した方法は、いずれも言語識別モデルの対象が発話の先頭から所定長の音声データとなっている。しかしこの発明はそのような実施の形態には限定されない。例えば同じ発話長（例えば１．０秒又は１．５秒）で、先頭が０．５秒ずつずれた音声データを対象に順次言語識別を行うようにしてもよい。この場合には言語識別モデルは同じものを使用できる。この場合にも、対象とする発話長及び使用する言語識別モデルの数は目的に応じて様々なものを選択できる。

［第２の実施の形態］
〈構成〉
第１の実施の形態に係る多言語音声処理装置１００は、単独のコンピュータにより実現されているが、もちろん複数のコンピュータの間で多言語音声処理装置１００の各機能を分担させるような処理も可能である。

図１４は、この発明の第２の実施の形態に係る音声対話システムの全体構成を示す概略図である。図１４に示すように、この第２の実施の形態に係る音声翻訳システム５００は、第１の実施の形態に係る多言語音声処理装置１００の機能の大部分を備えた多言語音声翻訳処理サーバ（以下、単に「サーバ」という。）５０６を準備し、スマートフォン５０４のような装置からインターネット５０２を介して与えられる音声翻訳要求に対し、音声の言語識別、自動翻訳、及び音声合成を行い、音声信号をサーバ５０６からスマートフォン５０４に返信する、というものである。こうした構成を実現するために、この実施の形態では、スマートフォン５０４に格納されているそのスマートフォン５０４を使用するユーザの基本情報（使用言語）を使用することにし、さらにスマートフォン５０４のユーザに上記第１の実施の形態で述べたように、８種類の対象言語から選択する３種類の言語の選択ができるようにする。そうした情報はサーバ５０６での言語識別処理に必要なため、音声データとあわせてサーバ５０６に送信することとする。

図１５は、第２の実施の形態で端末として使用されるスマートフォンの概略のハードウェア構成を示すブロック図である。図１５を参照して、このスマートフォン５０４には、カメラ５２０、タッチパネルディスプレイ５２２、スピーカ５２４及びマイク５２６が備えられている。スマートフォン５０４はさらに、様々な処理をするためのコンピュータであるプロセッサ５５０と、プロセッサ５５０に接続されたメモリコントローラ５５６と、いずれもメモリコントローラ５５６に接続されたＳＤＲＡＭ（Static Dynamic Access Memory）５５８及びフラッシュメモリ５６０と、プロセッサ５５０に接続された電源・オーディオＬＳＩ５７０と、プロセッサ５５０及び電源・オーディオＬＳＩ５７０に接続された、無線通信用のモデム５５２と、モデム５５２に接続された、無線送受信用アンテナを持つ無線通信装置５５４とを含む。

スマートフォン５０４はさらに、プロセッサ５５０の周辺機器であるＧＰＳ（Global Positioning System）モジュール５６２と、加速度センサ、温度センサ、湿度センサ等のセンサ群５６４と、Ｗｉ―Ｆｉモジュール５６６と、近距離無線通信装置５６８とを含む。

プロセッサ５５０が実行するプログラムはフラッシュメモリ５６０に記憶されており、実行時にＳＤＲＡＭ５５８にロードされる。プロセッサ５５０は、このプログラムを実行することでスマートフォン５０４内の各モジュールを制御して、設定値の記憶、マイク５２６を介した発話者の音声データの取得、モデム５５２及び無線通信装置５５４又はＧＰＳモジュール５６２を介したサーバ５０６への音声データの送信及びサーバ５０６からの音声翻訳結果の受信、スピーカ５２４を用いた音声の再生等を実行する。

図１６は、図１５に示すスマートフォンの機能的構成を示すブロック図である。プロセッサ５５０が実行するプログラムにより実現される機能をブロック図形式で示したものである。

図１６を参照して、スマートフォン５０４は、機能的には、スマートフォン５０４の基本情報（ユーザの使用言語を少なくとも含む）を設定するための基本情報設定部６００と、音声翻訳の相手言語を記憶する相手言語記憶部６０２と、実施の形態と同様、８種類の言語の中でどの３種類の言語を選択するか、その中のどの言語をデフォルト言語とするかを設定する言語設定部６０４と、音声翻訳処理の際のデフォルト言語を記憶するためのデフォルト言語記憶部６０６と、言語設定部６０４により設定された言語に関する情報を記憶するための選択言語記憶部６１２とを含む。音声翻訳処理の起動時には相手言語記憶部６０２には基本情報設定部６００内のユーザの使用言語が記憶され、デフォルト言語記憶部６０６には言語設定部６０４により設定されたデフォルト言語が格納される。

スマートフォン５０４はさらに、マイク５２６から取得した音声信号に対して図２に示す音声処理装置１３０と同様の処理をして音声データベクトル列を出力する等の前処理を音声信号に対して実行するための前処理装置６０８と、選択言語記憶部６１２に記憶されている選択言語、相手言語記憶部６０２に記憶されている相手言語、デフォルト言語記憶部６０６に記憶されているデフォルト言語、及び前処理装置６０８が出力する音声データベクトル列から、サーバ５０６に音声翻訳を要求するための送信データを生成するための送信データ生成部６１０と、送信データ生成部６１０が生成した送信データのサーバ５０６への送信、及びサーバ５０６からの処理後のデータの受信を図１５に示すモデム５５２及び無線通信装置５５４又はＷｉ―Ｆｉモジュール５６６を介して行うための通信Ｉ／Ｆ６１４とを含む。

スマートフォン５０４はさらに、通信Ｉ／Ｆ６１４がサーバ５０６から受信したデータから相手言語を示す情報を抽出する言語情報抽出部６１６と、通信Ｉ／Ｆ６１４が受信したデータから音声翻訳後の音声信号を抽出するための音声信号抽出部６１８と、この音声信号をアナログ変換し増幅してスピーカ５２４を駆動することで音声翻訳後の音声を出力するための音声信号増幅部６２０と、通信Ｉ／Ｆ６１４がサーバ５０６から受信したデータから音声翻訳後のテキストを抽出するためのテキスト抽出部６２２と、このテキストをタッチパネルディスプレイ５２２に表示するための表示制御部６２４とを含む。

図１７は、図１５に示すスマートフォンにおいて、言語を設定する画面を示す模式図である。図１７を参照して、タッチパネルディスプレイ５２２に表示される言語設定画面６５０には、選択対象にできる８種類の言語６６０の名称が表示され、その各々に、選択するか否かを示すスイッチが表示される。このスイッチを右に移動させればその言語が選択され、左に移動させればその言語は選択から解除される。図１７に示す例では、日本語、英語、及び中国語が選択され、それ以外の言語は選択されていない。なお、基本情報設定画面及びデフォルト言語設定画面等についても同様のインターフェイスで実現できる。

図１８は、図１５に示すサーバ５０６の機能的ブロック図である。図１８を参照して、サーバ５０６は、図２に示す多言語音声処理装置１００と類似した構成を持ち、図２に示すものと同様の選択言語記憶部１２８、相手言語記憶部１２２、言語設定部１２４、言語識別ニューラルネットワーク１３２、言語判定部１３４、言語選択部１３８、バッファ１４０、音声データ選択部１４２、多言語音声翻訳装置１４４及び音声信号合成装置１４６を含む。

多言語音声翻訳処理サーバ５０６はさらに、スマートフォン５０４等の端末装置と通信するための通信装置６８０と、通信装置６８０が受信した音声翻訳を要求するデータから、選択言語に関する情報とデフォルト言語に関する情報とを分離し、前者を選択言語記憶部１２８に、後者を言語設定部１２４に、それぞれ格納するためのデータ分離装置６８２と、多言語音声翻訳装置１４４の出力する音声翻訳後のテキスト及び音声信号合成装置１４６が出力する音声翻訳後の合成音声信号と、言語選択部１３８が出力する、言語識別ニューラルネットワーク１３２及び言語判定部１３４により識別された言語に関する情報とから、音声翻訳要求を送信してきたスマートフォン５０４等の端末装置に送信する送信情報を生成し通信装置６８０に与えるための送信情報生成装置６８４とを含む。

図１５に示すスマートフォン５０４を音声翻訳システムのクライアントとして機能させるプログラムの構造についてはここでは示さないが、簡単にいうと以下のような処理を行う。

・基本情報を設定するためのプログラムにより、スマートフォン５０４の基本情報の登録を受けＳＤＲＡＭ５５８等の記憶装置に記憶する。この処理は音声翻訳システムとは関係なく、スマートフォン５０４を購入したユーザが最初に行う基本的な処理である。基本情報は、ユーザの使用する言語に関する情報を含む。

・言語を設定するためのプログラム（このシステムのクライアントプログラムの一部）により、処理対象となる８言語の中の３種類の言語の選択を受けＳＤＲＡＭ５５８等の記憶装置に記憶する。同時に、選択された３種類の言語のいずれかをデフォルト言語として指定する入力を受け、デフォルト言語を記憶装置に記憶する。

・音声翻訳のプログラムが起動すると、選択言語記憶部６１２に記憶された言語情報、デフォルト言語記憶部６０６に記憶されたデフォルト言語、相手言語記憶部６０２に記憶された相手言語を読み、入力された音声とあわせて音声翻訳を要求する送信データを生成し、サーバ５０６に送信する。

・サーバ５０６からデータが送信されてくるのを待機する。

・サーバ５０６からデータが送信されてきたら、音声信号を抽出し再生する。また、音声翻訳後のテキストを抽出し再生する。さらに、データ中に含まれる識別された音声に関する情報を抽出し、相手言語として記憶装置に記憶する。

・以後、音声が入力されるたびに上のような処理を実行する。

図１９は、コンピュータを図１８に示す多言語音声翻訳システムとして機能させるためのコンピュータプログラムの制御構造を示すフローチャートである。

図１９に示すフローチャートは、図８に示すものとよく似た構造を持っている。異なる点は、図８のステップ３５２及び３５４に替えて、音声翻訳要求をスマートフォン５０４等のクライアントから受信するまで待機するステップ７２０と、音声翻訳要求を受信したことに応答して、要求に含まれるデフォルト言語、相手言語及び選択言語に関する情報を抽出しそれぞれ所定の記憶装置に記憶するステップ７２２を含む点と、図８のステップ３６６の後に、識別された言語をクライントに送信して制御をステップ７２０に戻すステップ７２４とを含む点である。

〈動作〉
スマートフォン５０４の動作については、上記したプログラムの制御構造から明らかである。

一方、サーバ５０６の動作についても、図８と図１９とを比較すれば明らかと思われる。注意すべき点は、この実施の形態では、サーバ５０６が識別した言語をスマートフォン５０４に送信する必要があるということと、図８の例では装置に付属した出力を用いて処理結果を出力しているのに対し、このサーバ５０６ではスマートフォン５０４等のクライアントに送信する必要があるということとである。

これら以外の点について、サーバ５０６の動作は第１の実施の形態の多言語音声処理装置１００と同様である。したがってこの第２の実施の形態でも、第１の実施の形態と同様、音声翻訳処理の結果が得られるまでの時間が、デフォルト言語と識別結果の言語とが一致していると従来よりも短くて済み、異なっていたとしても従来と同じ時間で結果を得ることができる。

言語識別の機構も第１の実施の形態と同様であり、同様の効果を得ることができる。

さらに、言語の設定についても第１の実施の形態と同様であるため、第１の実施の形態と同様、言語識別ニューラルネットワーク１３２を簡略なものにしても言語識別の精度を高くできるという効果がある。

なお、上記実施の形態では、選択対象となる言語が８種類、その中から選択される言語が３種類であったが、この発明がそのような数字に限定されないことは明らかである。選択対象となる言語の数が、選択される言語の数よりも大きく、かつ選択される言語が複数であれば上記実施の形態と同様の効果を得ることができる。

また、上記実施の形態では、デフォルト言語は１つのみであった。しかし、コンピュータの計算リソースが許すならば、デフォルト言語を２つ以上としてもよい。すなわち、音声を受信し、言語識別が開始されると同時に、２つ以上のデフォルト言語で音声に対する処理を開始し、言語識別の結果が判明した時点でその言語の処理のみ継続し、他の言語による処理を中止すれば良い。特許文献１のようにすべての言語で音声認識を行い、最終的なスコアで音声認識結果のいずれかを選択するものと比較して、必要な計算リソースを小さくできる。なお、このときの多言語音声処理装置１００等の構成は第１の実施の形態からそれほど大きく変更しないでも実現できる。デフォルト言語を複数個記憶すること、多言語音声翻訳装置１４４に含まれる音声認識装置２２０、…、２３４（図４）等、言語別の装置に与える選択信号が、それらの中の複数個の装置を指定できるようにすること、データ分配部２５８が、それら複数個の装置に音声データを供給できるようにすること、等の変更をすればよい。

今回開示された実施の形態は単に例示であって、この発明が上記した実施の形態のみに制限されるわけではない。この発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

１００多言語音声処理装置
１２０、６００基本情報設定部
１２２、６０２相手言語記憶部
１２４、６０４言語設定部
１２６、６０６デフォルト言語記憶部
１２８、６１２選択言語記憶部
１３０音声処理装置
１３２言語識別ニューラルネットワーク
１３４言語判定部
１４２音声データ選択部
１４４多言語音声翻訳装置
１４６音声信号合成装置
１７０畳込み層群
１７２全結合層
２０２確率正規化部
２０４最大確率選択部
２０６しきい値比較部
２２０、２２２、２２４、２２６、２２８、２３０、２３２、２３４音声認識装置
２４０、２４２、２４４、２４６、２４８、２５０、２５２、２５４多言語翻訳装置
２６２、２６４、２６６、２６８、２７０、２７２、２７４自動翻訳エンジン
４４０言語識別
４４２、４６０、４８０音声認識
４４４、４６２、４８２自動翻訳
４４６、４６４、４８４音声合成
５００音声翻訳システム
５０６多言語音声翻訳処理サーバ

Claims

入力される音声信号が、複数個の言語の中のどの言語かを識別する言語識別装置であって、
前記音声信号の先頭からの互いに異なる所定の時間長の部分の入力の完了に応答して、前記複数個の言語の各々について、前記所定の時間長の前記部分に基づいて前記音声信号の言語がその言語である可能性を示すスコアを算出する処理を開始し、算出された前記スコアを出力するためのスコア出力手段と、
前記スコア出力手段が前記スコアを出力したことに応答して、当該スコアに基づいて、前記音声信号の言語を特定する処理と、前記スコアを棄却し次に前記スコア出力手段が前記スコアを出力するまで待機する処理とを選択的に実行するための言語特定手段とを含み、
前記言語特定手段は、前記スコア出力手段が前記スコアを出力したことに応答して、当該スコアの各々と所定のしきい値との比較結果に基づいて、前記音声信号の言語を特定する処理と、前記スコアを棄却し次に前記スコア出力手段が前記スコアを出力するまで待機する処理とを選択的に実行するための手段を含み、
前記しきい値は、前記言語識別装置による言語識別についての所与のレイテンシが実現できるように予め定められる、言語識別装置。
前記スコア出力手段は、それぞれ前記音声信号の前記異なる所定の時間長の前記部分から算出される音響特徴量の時系列に応答して、前記音声信号の言語の前記スコアの算出を開始し、算出された前記スコアを出力するための複数のスコア算出手段を含む、請求項１に記載の言語識別装置。