JP4425055B2

JP4425055B2 - クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体

Info

Publication number: JP4425055B2
Application number: JP2004148298A
Authority: JP
Inventors: 義和山口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-05-18
Filing date: 2004-05-18
Publication date: 2010-03-03
Anticipated expiration: 2024-05-18
Also published as: JP2005331616A

Description

この発明は、クライアント装置に入力された入力信号を、ネットワークを介して接続されたサーバ装置に送信し、サーバ装置で音声認識を行い、その認識結果をクライアント装置に送信するクライアント・サーバ音声認識方法及びこれに用いる装置、そのプログラム、その記録媒体に関する。

クライアント・サーバ音声認識方法においてクライアント装置からサーバ装置への音声送信は、一般的にクライアント装置で入力信号から音声区間を検出し、入力信号中のその音声区間の信号のみをサーバ装置に送信して、通信量を削減し、サーバ装置では受信した信号の全てについて音声認識処理を行う。
このようなクライアント・サーバ音声認識方法では、クライアント装置に音声入力信号が入力されてからサーバ装置へ音声区間の信号を送信するまでに必要とする処理と比較して、サーバ装置での音声認識に必要とする処理が多いこと、クライアント装置とサーバ装置間の通信負荷状況により通信が遅れること、１台のサーバ装置で複数のクライアント装置からの要求を処理することなどの理由により、クライアント装置での処理がサーバ装置での処理に比べて一方的に先に進むことが多い。

非特許文献１に示すように音声認識特徴量抽出処理の一部をクライアント装置で行い、それらをサーバ装置に送信し、サーバ装置において残る音声認識特徴量抽出処理を行う分散型音声認識（Distributed Speech Recognition、以下ＤＳＲとする）がある。
クライアント装置は一般に計算能力が低いため、クライアント装置には実装が困難であるが、計算能力の高いサーバ装置には実装が容易な、音声区間検出精度が高いが処理量の多い音声区間検出機能、あるいはサーバ装置で行う音声認識処理の過程において指定された文法から発声の終了を検出する機能をサーバ装置に実装してサーバ装置でのみ音声区間を検出することもできる。この場合はクライアント装置から音声認識に必要としない非音声信号もクライアント装置へ送信し、通信量が多くなる。
ＥＴＳＩ発行資料「ＥＴＳＩＥＳ２０２２１２Ｖ１．１．１」

クライアント装置に処理量が少なくて済む音声区間検出機能を実装し、サーバ装置に多くの処理量を必要とする音声区間検出機能を実装してクライアント・サーバ音声認識を行ってクライアント装置とサーバ装置間の通信量を削減し、かつより厳密な音声区間の検出とそれに伴う高精度な音声認識を可能とすることが考えられる。
しかしこの場合は両装置の進行状況にズレが発生する。このため、音声区間と非音声区間が繰り返し入力されると、クライアント装置ではその音声区間の検出精度が悪いため、音声区間が実際には終了しているが、これを検出できないで音声区間終了後の非音声区間の信号を音声区間の信号としてサーバ装置へ送信し続けた場合、クライアント装置からは本来は非音声信号であって送信する必要がない信号をサーバ装置へ送信しクライアント装置とサーバ装置間の通信量が増大し、かつサーバ装置は本来、音声認識する必要のない非音声区間の音声認識処理も行うため、サーバ装置での音声認識に必要な処理量も増大し、また、クライアント装置は本来は非音声区間である信号を音声区間の信号としているため、次の音声区間に対する正確な音声開始位置の検出が困難となり、このためサーバ装置はこの開始位置が不正確な音声区間に対して音声認識を実行する可能性があり、音声認識率の劣化を招く恐れがある。

この発明の目的は、不必要な通信量を減らし、連続して音声を入力する際の音声の開始位置を正確に検出して、音声認識率を向上することができるクライアント・サーバ音声認識方法及びその装置、そのプログラム、その記録媒体を提供することにある。

この発明によれば、クライアント装置は入力信号より音声区間検出に用いる検出特徴量を抽出し、この検出特徴量を用いて音声区間を検出し、入力信号中のこの音声区間の信号をサーバ装置に送信し、
サーバ装置は受信した音声区間の信号より音声認識に用いる認識特徴量を抽出し、この認識特徴量を用いて音声認識を行い、音声認識処理により得られた情報又は受信した音声区間の信号を用いて音声区間の終了位置を検出してクライアント装置に送信し、
クライアント装置は音声終了位置を受信すると、音声区間の検出処理を中断し、受信した音声区間終了位置から検出特徴量の抽出を新たに開始する。

この構成によれば、クライアント装置は音声区間の信号だけをサーバ装置へ送信しているので、通信量を大幅に減少でき、しかもサーバ装置で音声区間の終了を検出しているから、この位置を正確に検出でき、かつこの音声区間の終了をクライアント装置に送信し、クライアント装置は音声区間終了を受信すると、音声区間の検出を中断し、改めて次の音声区間の検出をその受信した音声区間の終了位置から開始するため、常に正しく音声区間の開始位置を正確に検出でき、サーバ装置における音声認識の認識率が向上する。またクライアント装置におけるサーバ装置より音声区間終了の受信から次の音声区間の開始までは非音声信号が誤って音声区間信号としてサーバ装置へ送信するおそれがなく、それだけ通信量が減少する。

以下この発明の実施形態を図面を用いて説明する。図１にこの発明方法を適用したシステム構成と、この発明のクライアント装置の実施形態及びこの発明のサーバ装置の実施形態の各機能構成を示し、図２にこの発明のクライアント装置処理方法の実施形態の流れ図を、図３にこの発明のサーバ装置処理方法の実施形態の流れ図をそれぞれ示す。この実施形態ではクライアント装置及びサーバ装置をそれぞれ電子計算機を用いて機能させた場合であり、以後、クライアント計算機及びサーバ計算機と書く。またこの実施形態ではサーバ計算機として音声区間の開始を検出する機能は実装されていないが、音声認識の過程で音声区間の終了を検出する機能が実装されている場合であるが、サーバ計算機において、音声認識部の前段もしくは内部で音声区間の開始検出もしくは終端の検出機能が実装されている場合においてもこの発明は適用可能であり、これらの検出は受信した音声区間の信号を用いて行ってもよい。
クライアント計算機１００はＬＡＮ（Local Area Network）などのネットワーク２００を介してサーバ計算機３００と接続される。この実施形態ではクライアント計算機１００において音声区間の検出に必要な検出特徴量を過去の分まで検出特徴量記憶部に記憶し、サーバ計算機３００において検出された音声区間が終了したサンプル位置をクライアント計算機１００に送信し、クライアント計算機１００が受信した音声区間終了のサンプル位置以後より音声区間の検出を再実行する場合である。

機能構成及び処理手順
クライアント計算機１００では、図に示していない前段のＡ／Ｄ変換器などでデジタル化された入力信号が音声信号入力装置（図示せず）より入力端子１０１を通じて検出特徴量抽出部１１０に入力され、この検出特徴量抽出部１１０において入力信号から音声区間の検出に用いる検出特徴量が抽出される（ステップＳ１）。例えば入力信号の複数サンプル（フレームという）から計算した音声パワーやピッチなどが検出特徴量として計算される。この例ではその抽出した検出特徴量は、検出特徴量管理部１２０を介して検出特徴量記憶部１３０に順次記憶される（ステップＳ１）。この際、各検出特徴量を入力信号上の位置と対応づけて記憶部１３０に記憶する。この例では入力信号に対する処理、つまり検出特徴量の抽出開始サンプル位置ｓ０を基点として設定し（ステップＳ２）、各検出特徴量をサンプル位置と対応づけ、記憶部１３０に記憶する。

音声検出部１４０では時間経過に沿って、つまり順次記憶された検出特徴量を、検出特徴量管理部１２０を介して検出特徴量記憶部１３０より読み込み、これら検出特徴量に基づき音声信号を検出する、つまり対応する入力信号が音声か非音声かの判別を行う（ステップＳ３）。またこの例では信号送信管理部１５０は、入力信号のサンプルごともしくはフレームごとに、入力信号がサーバ計算機３００に対し未送信かそれとも送信済みかを調査し（ステップＳ４）、未送信であれば音声検出部１４０での検出が音声、つまり音声区間の場合は（ステップＳ５）、その音声区間のその入力信号をクライアント送信部１６０の入力信号送信部１６１より、１フレーム又は複数フレームごとにパケットとしてサーバ計算機３００に送信し（ステップＳ１０）、送信済みであれば、クライアント送信部１６０の検出結果情報送信部１６２より音声検出部１４０の判別結果（以下検出結果という）の情報、例えば既に送信済みの入力信号に対して「音声」か「非音声」を表す検出結果情報をサーバ計算機３００に送信する（ステップＳ１１）。

更にこの例ではステップＳ５でその未送信信号が音声区間であれば、これがその音声区間の開始の部分であるかを判定し（ステップＳ６）、音声区間の開始部分であればその音声区間が1回の発話における最初のものかを調べ（ステップＳ７）、最初の音声区間であればその音声区間の開始のフレームの入力信号上の位置を示す開始位置をサーバ計算機３００へ送信し（ステップＳ８）、またその音声区間の開始部分（フレーム）と対応する入力信号をサーバ計算機３００へ送信する。この例では入力信号の処理を開始した時点、つまり入力端子１０１に入力信号が入力されたその入力信号開始位置を基点（基点サンプル位置）とした、前記最初の音声区間における開始部分のフレームを示すサンプル位置を開始位置としてサーバ計算機３００へ送信する。この開始位置の送信をするか否かは信号送信管理部１５０が行う。

また後述のようにクライアント計算機１００で終了信号を受信し、音声検出部１４０での音声、非音声判別処理を中断し、その後、受信した終了信号が示す位置から音声、非音声の判別処理をして音声区間の検出を再開始し、音声区間の開始を検出して音声区間の信号を送信する際に、その新たに検出した音声区間開始位置と、それまでに送信した検出結果情報の最後のサンプル位置との間に、未送信の区間があった場合は非音声区間についてもそれを示す検出結果情報を送信するようにした場合である。つまりステップＳ５での判定が音声区間でなければステップＳ７に移り、ステップＳ７で音声区間が最初のものでなければ次の音声区間の開始前であるかを調べ（ステップＳ９）、音声区間開始前であればステップＳ１１に移り、検出結果情報、つまり非音声を示す情報が送信される。

このようにしてこの実施形態ではサーバ計算機３００はクライアント計算機１００から送信された音声検出開始位置を基点として、少なくともパケットごとに入力信号上での所定サンプルごとになんらかの信号がクライアント計算機１００から送信され、また受信した終了信号が示す位置から、音声検出を再開するため、音声区間の終了の検出誤りおよび検出結果情報の送信過程で発生する欠落により、音声区間の信号もしくは検出結果情報とサンプル位置との対応付けがずれる問題を回避している。この問題は一定間隔ごとに入力サンプル位置情報をクライアント計算機１００からサーバ計算機３００に送る（ステップＳ１２）ことで回避してもよい。

サーバ計算機３００では、クライアント計算機１００より送信された音声区間の信号をサーバ受信部３１０の入力信号受信部３１１で受信すると、認識特徴量抽出部３２０において、１フレームごとに例えばケプストラム、デルタケプストラム、パワー、デルタパワーの一群など音声認識に用いる認識特徴量を音声区間の信号より抽出し、認識特徴量管理部３３０を介して認識特徴量記憶部３４０に記憶する。
クライアント計算機１００より送信された検出結果情報を、サーバ受信部３１０内の検出結果情報受信部３１２で受信した場合は、認識特徴量管理部３３０を介して、認識特徴量記憶部３４０に記憶されている既に抽出済みの認識特徴量のうち、受信した検出結果情報と同じサンプル位置の認識特徴量にその検出結果情報を付加する。検出結果情報が非音声であればその付加をすることなく、その検出結果情報と同じサンプル位置の認識特徴量を消去してもよい。

つまり図３に示すように、サーバ計算機３００のサーバ受信部３１０がクライアント計算機１００からの送信信号を受信すると（ステップＳ３１）、それが検出結果情報ではなく、つまり音声区間の信号であれば（ステップＳ３２）、その信号から認識特徴量を抽出して、認識特徴量記憶部３４０に記憶する（ステップＳ３３）。その際、その音声区間信号が、最初（発話の）の音声区間の開始のものであれば、その音声区間開始位置も同時に受信され、その音声区間開始位置（サンプル位置）と対応付けて認識特徴量が記憶され、また他の音声区間信号の認識特徴量も、各パケットごとに、各フレームごとに、前記音声区間開始信号を基準とする位置（サンプル位置）ごとに対応付けられる。受信信号が検出結果情報であれば、その検出結果情報がそのサンプル位置と対応付けて認識特徴量記憶部３４０内に記憶される（ステップＳ３４）。検出結果情報が受信される場合は、後述するようにサーバ計算機３００において音声区間の終了を検出し、この終了のサンプル位置をクライアント計算機１００へ送信し、クライアント計算機１００がその終了サンプル位置以後から音声検出を再開始した場合であり、サーバ計算機３００は受信した検出結果情報を、認識特徴量記憶部３４０に記憶されている、そのサンプル位置と対応する認識特徴量に対し付加することができる。あるいは検出結果情報が非音声であれば、その認識特徴量を消去することができる。

音声認識部３５０は時間経過に沿って、つまり認識特徴量記憶部３４０に記憶された順に、１フレームごとに認識特徴量管理部３３０を介して認識特徴量記憶部３４０より音声区間の認識特徴量を読み込み、音声認識を行う（ステップＳ３５）。
またこの実施形態ではクライアント計算機１００に記憶する検出特徴量記憶部１３０の記憶容量を増加させないために、一定間隔ごとにサーバ計算機３００から音声認識処理した音声のサンプル位置をクライアント計算機１００に送信し、クライアント計算機１００では、そのサンプル位置より以前に遡って音声検出をする必要がないとして該当する検出特徴量記憶部１３０内の記憶した検出特徴量を消去するものである。このため認識進行管理部３６０で音声認識の進行状況を、ある一定間隔、２０〜５０フレーム（１フレームは認識処理区間単位で例えば１０ミリ秒）ごと、例えば３００ミリ秒ごとに調査し（ステップＳ３６）、その時点で認識処理が進んだサンプル位置を音声認識部３５０から取得する（ステップＳ３７）。認識進行管理部３６０は認識特徴量管理部３３０に対して認識特徴量記憶部３４０のうち認識処理が進んだ位置以前の認識特徴量を消去することを通知し、認識特徴量管理部３３０ではこの通知どおり該当する認識特徴量を消去する（ステップＳ３８）。一方で認識進行管理部３６０は、サーバ送信部３７０の位置信号送信部３７１に対して上記認識処理が進んだ位置を進行位置信号として送信するように通知し、位置信号送信部３７１はクライアント計算機１００へ上記進行位置信号を送信する（ステップＳ３９）。

クライアント計算機１００では、上記進行位置信号をクライアント受信部１７０の位置信号受信部１７１で受信すると（ステップＳ１３）、検出特徴量管理部１２０に対して検出特徴量記憶部１３０に記憶されている検出特徴量中の進行位置以前のものの消去を通知し、検出特徴量管理部１２０ではこの通知どおり該当する音声検出特徴量を消去する（ステップＳ１４）。
上述の認識進行管理部３６０での進行状況調査は一定間隔で行われ、随時、サーバ計算機３００及びクライアント計算機１００における各記憶部からその進行位置以前に記憶した特徴量が消去され、記憶部１３０，１４０が有効に用いられ比較的小さい記憶容量のもので済む。

音声認識部３５０内の区間終了検出部３５１がその音声区間の終了を検出し、音声認識処理が終了したことを認識進行管理部３６０が検知すると（ステップＳ４０）、上述の一定間隔での認識処理の進行調査時と同様に、音声区間が終了した位置を取得し（ステップＳ４１）、認識特徴量管理部３３０に対して認識特徴量記憶部３４０に記憶されている音声区間の終了サンプル位置以前の認識特徴量の消去を通知し、認識特徴量管理部３３０ではその通知どおり該当する認識特徴量を消去する（ステップＳ４２）。この消去により記憶部３４０を有効に用いることができる。

一方で認識進行管理部３６０では、位置信号送信部３７１に対して上記音声区間が終了したサンプル位置を送信するように通知し、位置信号送信部３７１はクライアント計算機１００へ音声区間が終了したサンプル位置を音声区間終了位置信号（音声終了）として送信する（ステップＳ４３）。
クライアント計算機１００では、上記音声区間終了位置信号を位置信号受信部１７１で受信すると（ステップＳ１５）、検出特徴量管理部１２０に対して検出特徴量記憶部１３０のうち音声区間終了位置以前の検出特徴量の消去を通知し、検出特徴量管理部１２０ではその通知のとおり該当する検出特徴量を消去する（ステップＳ１６）。それと同時に、音声検出部１４０に対して、現在実行中の音声、非音声判別処理を中断し、上記音声区間の終了位置から音声、非音声判別処理を再開始するように通知し、音声検出部１４０はこの通知どおりにステップＳ３に戻って音声、非音声判別処理を再開始する（ステップＳ１８）。

またサーバ計算機３００の認識進行管理部３６０が、音声認識部３５０における音声区間の終了を検知すると音声認識部３５０において出力された認識結果をサーバ送信部３７０の認識結果送信部３７２よりクライアント計算機１００に送信する（ステップＳ４３）。クライアント計算機１００ではその認識結果をクライアント受信部１７０の認識結果受信部１７２にて受信し、ステップＳ１７の処理の前に図に示していない音声認識結果出力装置に出力端子１０２より出力してステップＳ３に戻る（ステップＳ１８）。
これ以降の動作は上記で説明した内容の繰り返しである。なおステップＳ１の検出特徴量の抽出は各フレームごとに常に行われており、図２は主に検出特徴量記憶部１３０が検出特徴量を読み出して処理する以後の手順を示す。

サーバ計算機３００は一般にハードウェア及びソフトウェア規模が大きい高価なものであり、よって区間終了検出部３５１として検出能力が高い高価なものを用いてもサーバ計算機３００としてはそれ程高価なものにならない。一方、クライアント計算機１００は一般にハードウェア及びソフトウェア規模が比較的小さい安価なものである。よって音声区間終了の検出能力が比較的低い安価なものを用い、サーバ計算機３００の区間終了検出部３５１として検出能力が高いものを用い、前述したようにサーバ計算機３００で音声区間終了を検出すると、その位置を示す終了信号とクライアント計算機１００へ送信し、クライアント計算機１００で、その終了信号が示す位置から、改めて、音声検出を行うことにより、クライアント計算機１００で音声区間が終了してもこれを検出することができず、音声区間として信号を送信しても、またクライアント計算機１００とサーバ計算機３００との間に修理ずれ（後者が遅れる）があってもクライアント計算機１００で音声区間の開始を確実に検出することができ、従って音声認識率も高くなる。また終了信号の受信から、次の音声区間の開始までの非音声信号は送信されず、それだけ通信量が減少する。
更に前記例のように検出結果情報を送信する場合は、これは音声か、非音声かを表わす１ビットのみでよく、音声区間信号に対する検出結果情報の場合、その音声区間信号より、著しく少ない通信量で済み、非音声区間に対して、検出結果情報を送る場合も少ない通信量でクライアント計算機１００とサーバ計算機３００との処理同期を維持できる。

具体的処理例
次に、図４〜図７を参照して、この発明において行われる位置信号の送受信とクライアント計算機１００及びサーバ計算機３００の各特徴量記憶部１３０及び３４０における特徴量の記憶、消去の状態、音声区間の検出再開始の流れを具体的に説明する。
図２はクライアント計算機で音声検出が開始され、音声の開始を検出し、入力信号を図４〜図７中のＡに示すグラフは入力信号を表し、横軸を時刻（音声入力開始を基点としたサンプル位置）、縦軸を音声のパワー（音量）とし、その中で音声の区間と非音声の区間が存在している。各図のＢにおける四角の列は、クライアント計算機１００の検出特徴量記憶部１３０内における検出特徴量のフレームごとの記憶状態を入力信号に沿って示し、各図のＣはクライアント計算機１００とサーバ計算機３００間で送信される信号を示し、各図のＤの四角の列はサーバ計算機３００の認識特徴量記憶部３４０における認識特徴量の各フレームごとの記憶状態を受信信号に沿って示している。

図４はクライアント計算機１００で音声検出が開始され、音声区間の開始を検出し、音声区間の信号をサーバ計算機３００へ送信する状態を示している。クライアント計算機１００において入力信号が入力され、その最初のサンプル位置ｓ０より音声区間の検出が開始され、各フレームごとに抽出された検出特徴量記憶部１３０に、各フレームごとに実線四角として記憶しながら読み出し音声区間の開始位置を探し始める。このとき、最初のサンプル位置ｓ０が入力信号上の位置の基点となる。サンプル位置ｓ１のフレームで音声区間の開始を検出すると、その音声区間の最初のフレームの入力信号Ｓｐをサーバ計算機３００に送信するとともに区間開始位置としてサンプル位置ｓ１の信号Ｐｓをサーバ計算機３００に送信する。以降は順次、その音声区間のフレームごとの入力信号のみをサーバ計算機３００に送信する。上述したように、クライアント計算機１００とサーバ計算機３００間での通信状況によりこの音声区間の信号の送受信に遅れを伴う場合がある。

サーバ計算機３００ではクライアント計算機１００から信号を受信すると、サンプル位置ｓ１からの音声区間の１フレームごとの信号から抽出された認識特徴量を、サンプル位置ｓ１から認識特徴量記憶部３４０に順次記憶し、またこれらを順次読み出して認識を開始する。このとき、クライアント計算機１００の検出特徴量記憶部１３０においてもサーバ計算機３００の認識特徴量記憶部３４０においてそれぞれ記憶された特徴量は消去されない。
クライアント計算機１００においては音声区間検出が進み、またサーバ計算機３００においては音声認識が進み、一定間隔ごとに進行位置信号Ｐｐが発生し、それ以前に記憶した特徴量が消去される様子を図５に示す。サーバ計算機３００でサンプル位置ｓ２において進行位置信号Ｐｐが発生し、認識特徴量記憶部３４０に記憶されているサンプル位置ｓ２以前の認識特徴量が消去される。その消去された認識特徴量を点線の四角で示す。クライアント計算機１００においてはサーバ計算機から受信された位置ｓ２を示す進行位置信号Ｐｐに従って、検出特徴量記憶部１３０に記憶されている位置ｓ２以前の検出特徴量が点線四角で示すように消去される。

更に一定フレーム数が経過したサンプル位置ｓ３でも同様に、進行位置信号Ｐｐが発生して、サーバ計算機３００では認識特徴量記憶部３４０に記憶されている位置ｓ３以前の認識特徴量が消去され、クライアント計算機１００では検出特徴量記憶部１３０に記憶されている位置ｓ３以前の検出特徴量が消去される。
クライアント計算機１００において音声区間検出が更に進み、サーバ計算機３００において音声認識が更に進み、サーバ計算機３００において音声区間終了（音声終了位置）を検知したが、クライアント計算機１００においては音声区間の検出で音声区間の終了を検知されずにそれ以降も引き続き音声区間として検出し続けている様子を図６に示す。

サーバ計算機３００においてサンプル位置ｓ４にて音声区間の終了を検出し、音声認識特徴量記憶部３４０に記憶されているサンプル位置ｓ４以前の認識特徴量が点線四角で示すように消去され、また音声区間の終了位置ｓ４を示す音声区間終了位置信号Ｐｅがクライアント計算機１００へ送信される。
クライアント計算機１００においてはサーバ計算機３００から受信されたサンプル位置ｓ４を示す音声区間終了位置信号Ｐｅに従って、検出特徴量記憶部１３０に記憶されているサンプル位置ｓ４以前の検出特徴量が点線四角で示すように消去され、それと同時に音声検出部１４０での音声区間の検出を中断させ、その音声区間終了位置信号Ｐｅを受信した時点、図６ではサンプル位置ｓ５までの検出音声区間信号Ｓｐをサーバ計算機３００へ送信する。

その後クライアント計算機１００において音声区間の検出を再開し、音声区間の開始位置を検出し、すでにその部分の入力信号が送信済みの区間については音声検出部１４０の検出結果情報を、未送信の区間については入力信号中のその音声区間の信号をサーバ計算機３００に送信する様子を図７に示す。
クライアント計算機１００では、前回の音声区間が終了したサンプル位置ｓ４の次のサンプルのフレームの検出特徴量から読み出して音声区間の検出を開始する。検出特徴量記憶部１３０には、音声区間終了位置信号Ｐｅの受信後も検出特徴量抽出部１１０で抽出されたフレームごとの検出特徴量が順次に記憶されている。この例ではサンプル位置ｓ５より以前はすでに入力信号が音声区間の信号として送信している。よって次の音声区間を検出するまでは各フレームごとに音声検出部１４０で検出した非音声区間であることを示す検出結果情報ＵＶ（ＵｎＶｏｉｃｅ）がサーバ計算機３００に送信される。

よって音声検出部１４０の検出結果情報が送信されるが、図示例は、この検出結果は非音声であり、非音声区間であることを示す検出結果情報ＵＶ（ＵｎＶｏｉｃｅ）がサーバ計算機３００へ送信される。また、この図示例では既に送信済の区間、つまりサンプル位置ｓ５と次の音声区間の開始位置、サンプル位置ｓ６との間に、非音声区間が存在している。この例ではサーバ計算機３００で、次の音声区間の開始のサンプル位置が、区間開始位置を送信することなく、知ることができるようにサンプル位置ｓ５から、次の音声区間の開始サンプル位置ｓ６までの各区間は音声検出部１４０の検出結果、つまり非音声を示す検出結果情報ＵＶをサーバ計算機へ送信するようにしている。

つまり図２中において、ステップＳ４で入力信号が未送信であり、かつステップＳ５で音声区間を検出せず、またステップＳ７で発話における最初の音声区間でなければ、ステップＳ９で音声区間の開始前であるか否かを調べ、音声区間の前、つまり非音声区間であれば、ステップＳ１１へ移って音声検出部１４０の検出結果情報ＵＶをサーバ計算機３００へ送信する。このようにすれば、入力信号の各フレームごとに検出開始位置、つまりサンプル位置ｓ０から検出結果情報又は音声区間の信号のいずれかがサーバ計算機３００へ送信され、クライアント計算機１００とサーバ計算機３００とでサンプル位置を同期させることができる。

サーバ計算機３００においては検出結果情報ＵＶを受信すると、これと対応する区間に該当する認識特徴量記憶部３４０内の認識特徴量がこの例では消去される。つまり図示例では認識特徴量記憶部３４０内のサンプル位置ｓ４の次からサンプル位置ｓ５に記憶された認識特徴量は点線四角のように消去される。その後、クライアント計算機１００から受信した検出結果情報ＵＶは記憶せず、その記憶部３４０内の記憶領域はなにも記憶されない。
次にクライアント計算機１００ではサンプル位置ｓ６で音声区間の開始が検出されると、そのサンプル位置ｓ６よりその音声区間の各フレームの入力信号Ｓｐを次々にサーバ計算機３００に送信する。

サーバ計算機３００にて音声区間の信号を受信すると、そのサンプル位置ｓ６より再び音声認識を開始する。
この図６の例ではサンプル位置ｓ５の次のサンプルからサンプル位置ｓ６の前のサンプルの非音声区間において入力信号を送信しない区間があり、その分の通信量を削減することができる。このとき検出結果情報は送信するが、それは例えば「音声」と「非音声」を区別する情報（１ｂｉｔ）であり、音声区間の入力信号と比較して格段に通信量は少なくて済む。

また音声区間の検出を再開始し（図７中に示す）、以後は非音声区間においては検出結果情報も送信せずに通信量を削減することもできる。その際には図２中に破線で示すようにステップＳ５では音声区間を待ち、ステップＳ７でその音声区間が発話の最初でなければステップＳ１９に移り、その音声区間の直前に未送信区間があるか、つまり直前が非音声区間かの判定がなされ、未送信区間があればステップＳ８に移り、その音声区間の開始フレームの入力信号を送信する際にその開始フレーム位置、図７の例ではサンプル位置ｓ６を示す開始位置をサーバ計算機３００に送信し、クライアント計算機１００とサーバ計算機３００とで入力サンプル位置の同期をとる。またステップＳ４において未送信でないと判定されるとステップＳ２０に移り、音声区間であればステップＳ１１に移るが、音声区間でなければステップＳ５に移る。このようにして音声区間の再開始以後に検出した非音声についてはいずれの信号もサーバ計算機３００へ送信しない。サーバ計算機３００では各音声区間の始めにはその開始フレームの位置が受信され、これに基づきクライアント計算機１００と同期をとることができる。またこの場合は音声区間の開始位置として最初の音声区間から何番目の音声区間であることを示す位でもよい。各音声区間ごとに開始位置が送られて来る場合はサーバ計算機３００において、ステップＳ３４で対応認識特徴量を消去することは行わなくてもよい。

いずれの方法においても、サーバ計算機３００においてこの区間の音声認識処理を行う必要がなく、その分の音声認識処理に伴う処理量が軽減し、かつ余分な区間に対し音声認識を行うことに基づく誤認識、例えば雑音に対し、有意な認識結果を湧き出すなどを防ぐことができる。
さらに、上記効果を得るためにクライアント計算機１００およびサーバ計算機３００において処理済の記憶領域を確保する必要があるが、これら記憶領域のうち不必要な記憶領域を定期的に解放することによって両計算機における使用記憶容量を増大させることなく実行できる。

変形例
これまでは、サーバ計算機３００においてのみ認識特徴量を抽出して音声認識を行う構成においての説明をしたが、例えば非特許文献１に示す、認識特徴量の少なくとも一部をクライアント計算機１００で行う分散型音声認識方法にこの発明を適用できる。この場合における、前述した実施形態と異なる点のみを主として以下に説明する。この場合もサーバ計算機３００において音声区間の開始検出機能が実装されておらず、音声認識の過程において音声区間の終了を検出し、その位置をクライアント計算機１００に送信するが、サーバ計算機３００において、音声認識部３５０の前段もしくは内部で音声区間開始検出もしくは音声区間終端検出機能が実装されている場合においても適用可能である。なお図１〜図３においてこの変形例を兼用して示すため変形例により異なる部分には括弧書き、又は破線で示す。

クライアント計算機１００において音声検出部１４０で検出特徴量を読み込み、音声区
間の検出を行い、信号送信管理部１５０では、入力信号のサンプルごともしくはフレーム
ごとに入力信号から抽出された認識特徴量Ａがサーバ計算機に未送信かそれとも送信済み
かを調査し（図２、ステップＳ４）、未送信であれば音声検出部１４０で検出された音声
区間の入力信号より、図１中の破線で示す認識特徴量Ａ抽出部１８０において例えばケプ
ストラム及びパワーといった認識特徴量Ａを抽出し（図２中のステップＳ８とＳ１０の間
のステップＳ５１）、認識特徴量送信部１６１より認識特徴量Ａをサーバ計算機３００に
送信する。認識特徴量Ａが送信済みであれば検出結果情報送信部１６２より検出結果情報
をサーバ計算機３００に送信する。このとき、音声区間の開始位置の送信は先の場合と同
様に行われる。

サーバ計算機３００では、クライアント計算機１００より送信された認識特徴量Ａを認識特徴量受信部３１１で受信した場合は、認識特徴量Ｂ抽出部３２０において最終的に音声認識に用いるケプストラム、デルタケプストラム、パワー、デルタパワーといった一群認識特徴量Ｂを抽出し、認識特徴量管理部３３０を介して認識特徴量記憶部３４０に記憶する。例えば認識特徴量Ａがケプストラム、パワーであり、これらより認識特徴量Ｂ抽出部３２０でデルタケプストラム、デルタパワーを抽出し、前記一群の認識特徴量Ｂを得る。ここで、音声認識に認識特徴量Ａをそのまま用いる場合も考えられ、そのときはクライアント計算機１００より受信した認識特徴量Ａを、順次認識特徴量管理部３３０を介して認識特徴量記憶部３４０に記憶する。つまり図３においてステップＳ３２で受信信号が検出結果情報でなければ破線で示すように直ちにステップＳ３５へ移る。

サーバ計算機３００における音声区間の終了の検出は図１中に破線で示すように区間終了検出部３８を設けて、入力信号受信部３１１の受信音声区間の信号より検出してもよい。
図１中に示したクライアント装置及びサーバ装置はコンピュータによらず、構成することもでき、コンピュータにより機能させる場合は、例えば図２に示した処理方法の各過程をコンピュータに実行させるためのクライアント装置処理プログラムを、あるいは図３に示した処理方法の各過程をコンピュータに実行させるためのサーバ装置処理プログラムをコンピュータに、ＣＤ−ＲＯＭ、磁気ディスク、半導体記憶装置などの記録媒体からインストールし、又は通信回線を介してダウンロードして、そのプログラムをコンピュータに実行させればよい。

この発明のクライアント・サーバ音声認識方法を適用したシステム構成例及びそのクライアント装置とサーバ装置の機能構成例を示すブロック図。クライアント装置の処理手順の例を示す流れ図。サーバ装置の処理手順の例を示す流れ図。この発明の実施例において、クライアント計算機で音声検出が開始し始めた状態を説明するための図。この発明の実施例において、音声認識が進み、一定間隔ごとに記憶部内認識特徴量が消去されている状態を説明するための図。この発明の実施例において、サーバ計算機で音声終了を検知した状態を説明するための図。この発明の実施例において、クライアント計算機で音声検出を再開した状態を説明するための図。

Claims

クライアント装置に入力された入力信号を上記クライアント装置とネットワークで接続
されたサーバ装置に送信し、上記サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識方法において、
上記クライアント装置は、
入力信号から音声区間の検出に用いる検出特徴量を抽出し、
上記抽出した検出特徴量をその上記入力信号上の位置が分かるように検出特徴量記憶
部に記憶し、
上記検出特徴量記憶部から検出特徴量を読み出し、その読み出した検出特徴量を用いて音声区間か非音声区間かを検出し、
上記音声区間の信号を、上記入力信号上の位置が分かるように上記サーバ装置に送信し、
上記サーバ装置は、
最初の上記音声区間の信号における上記音声区間の開始位置を受信し、上記開始位置を基点として、上記クライアント装置から受信した上記音声区間の信号から音声認識に用いる認識特徴量を抽出し、
上記認識特徴量を認識特徴量記憶部に記憶し、上記認識特徴量記憶部から上記認識特徴量を読み出して上記音声認識を行い、
上記音声認識の処理に基づき、又は上記受信した音声区間の信号から音声区間の終了の検出を行い、音声区間の終了を検出すると、その終了位置を示す音声区間終了信号を上記クライアント装置へ送信し、
上記クライアント装置は、
上記サーバ装置から音声区間終了位置を示す音声区間終了信号を受信し、上記音声区間終了信号が示す上記入力信号上の位置以後から上記検出特徴量の上記読み出しを行い、上記音声区間か非音声区間かの検出を一旦停止した後、上記音声区間終了位置から上記音声区間か非音声区間かの検出を再開始し、再開始以後において、対応入力信号の音声区間の信号を上記サーバ装置へ送信したか否かを判定し、送信していれば、上記音声区間の検出結果を示す検出結果情報を上記サーバ装置へ送信し、
上記サーバ装置は、
上記クライアント装置から受信した信号が検出結果情報か否かを調べ、検出結果情報であれば、上記認識特徴量記憶部中の対応認識特徴量にその検出結果情報を付加し、又はその検出結果情報が音声であればその検出結果情報を付加するが、非音声であれば上記対応認識特徴量を消去する、
ことを特徴とするクライアント・サーバ音声認識方法。
クライアント装置に入力された入力信号を上記クライアント装置とネットワークで接続
されたサーバ装置に送信し、上記サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識方法において、
上記クライアント装置は、
入力信号から音声区間の検出に用いる検出特徴量を抽出し、
上記抽出した検出特徴量をその上記入力信号上の位置が分かるように検出特徴量記憶
部に記憶し、
上記検出特徴量記憶部から検出特徴量を読み出し、その読み出した検出特徴量を用いて音声区間か非音声区間かを検出し、
上記音声区間の信号を、上記入力信号上の位置が分かるように上記サーバ装置に送信し、
上記サーバ装置は、
各上記音声区間の信号における上記音声区間の開始位置を受信し、上記各開始位置を基点として、上記クライアント装置から受信した上記音声区間の信号から音声認識に用いる認識特徴量を抽出し、
上記認識特徴量を認識特徴量記憶部に記憶し、上記認識特徴量記憶部から上記認識特徴量を読み出して上記音声認識を行い、
上記音声認識の処理に基づき、又は上記受信した音声区間の信号から音声区間の終了の検出を行い、音声区間の終了を検出すると、その終了位置を示す音声終了を上記クライアント装置へ送信し、
上記クライアント装置は、
上記サーバ装置から音声区間終了位置を示す音声区間終了信号を受信し、上記音声区間終了信号が示す上記入力信号上の位置以後から上記検出特徴量の上記読み出しを行い、上記音声区間か非音声区間かの検出を一旦停止した後、上記音声区間終了位置から上記音声区間か非音声区間かの検出を再開始し、再開始以後において、対応入力信号の音声区間の信号を上記サーバ装置へ送信したか否かを判定し、送信していれば、上記音声区間の検出結果を示す検出結果情報を上記サーバ装置へ送信し、
上記サーバ装置は、
上記クライアント装置から受信した信号が検出結果情報か否かを調べ、検出結果情報であれば、上記認識特徴量記憶部中の対応認識特徴量にその検出結果情報を付加する、
ことを特徴とするクライアント・サーバ音声認識方法。
クライアント装置に入力された入力信号を上記クライアント装置とネットワークで接続されたサーバ装置に送信し、上記サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識方法における上記クライアント装置の処理方法であって、
入力信号から音声区間の検出に用いる検出特徴量を抽出し、
上記抽出した検出特徴量をその入力信号上の位置がわかるように検出特徴量記憶部に記憶し、
上記検出特徴量記憶部から検出特徴量を読み出して音声区間か非音声区間かを検出し、
上記音声区間の信号を、その上記入力信号上の位置がわかるように上記サーバ装置に送信し、
上記サーバ装置から音声区間終了位置を示す終了信号を受信して、上記音声区間か非音声区間かの検出を一旦停止した後、上記終了位置から再開始する時に対応入力信号の音声区間の信号を上記サーバ装置に送信したか否かを判定し、送信していれば、上記音声区間の検出結果を示す情報を上記サーバ装置へ送信することを特徴とする請求項１又は２に記載のクライアント装置処理方法。
上記検出特徴量の特徴量記憶部への記憶は、上記入力信号上の音声検出開始位置を基点として行い、
上記音声区間の信号を上記サーバ装置へ送信する際に、上記入力信号中の少なくとも最初の音声区間の開始位置を、
上記音声検出開始位置を基点とした上記サーバ装置へ送信し、
上記音声区間終了信号は、上記音声検出開始位置を基点とした音声区間終了位置であることを特徴とする請求項３記載のクライアント装置処理方法。
上記音声区間の開始位置の送信は各音声区間ごとに行い、上記音声区間の検出結果を示す情報の送信は音声区間に対してのみ行うことを特徴とする請求項３記載のクライアント装置処理方法。
上記音声区間終了信号を受信すると、上記検出特徴量記憶部中の上記音声区間終了信号以前の検出特徴量を消去することを特徴とする請求項３〜５のいずれかに記載のクライアント装置処理方法。
上記サーバ装置から、音声認識進行位置を受信すると、上記検出特徴量記憶部中の上記音声認識進行位置以前の検出特徴量を消去することを特徴とする請求項３〜６のいずれかに記載のクライアント装置処理方法。
上記音声区間の信号より音声認識に用いる特徴量を抽出し、この認識特徴量を上記音声区間の信号として上記サーバ装置へ送信することを特徴とする請求項３〜７のいずれかに記載のクライアント装置処理方法。
クライアント装置に入力された入力信号を上記クライアント装置とネットワークで接続されたサーバ装置に送信し、上記サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識方法におけるサーバ装置の処理方法であって、
上記クライアント装置から最初の音声区間の信号における上記音声区間の開始位置を受信し、
上記音声区間の信号の開始位置を基点として音声認識に用いる認識特徴量を抽出し、
上記認識特徴量を認識特徴量記憶部に記憶し、
上記認識特徴量記憶部から上記認識特徴量を読み出して上記音声認識を行い、
上記音声区間の終了の検出を行い、音声区間の終了を検出すると、その終了位置を示す音声区間終了信号を上記クライアント装置へ送信し、
上記クライアント装置から受信した信号が上記検出結果情報か否かを調べ、検出結果情報であれば、上記認識特徴量記憶部中の対応認識特徴量にその検出結果情報を付加し、又はその検出結果情報が音声であればその検出結果情報を付加するが、非音声であれば上記対応認識特徴量を消去する、
ことを特徴とするサーバ装置処理方法。
クライアント装置に入力された入力信号を上記クライアント装置とネットワークで接続されたサーバ装置に送信し、上記サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識方法におけるサーバ装置の処理方法であって、
上記クライアント装置から音声区間の信号における上記音声区間の開始位置を受信し、
上記音声区間の信号の開始位置を基点として音声認識に用いる認識特徴量を抽出し、
上記認識特徴量を認識特徴量記憶部に記憶し、
上記認識特徴量記憶部から上記認識特徴量を読み出して上記音声認識を行い、
上記音声区間の終了の検出を行い、音声区間の終了を検出すると、その終了位置を示す音声区間終了信号を上記クライアント装置へ送信し、
上記クライアント装置から受信した信号が上記検出結果情報か否かを調べ、検出結果情報であれば、上記認識特徴量記憶部中の対応認識特徴量にその検出結果情報を付加する、
ことを特徴とするサーバ装置処理方法。
上記音声終了は上記開始位置を基点とした位置であり、上記音声終了位置の上記クライアント装置への送信と同時に、上記認識特徴量記憶部に記憶されている上記音声終了位置以前の認識特徴量を消去することを特徴とする請求項９又は１０記載のサーバ装置処理方法。
上記開始位置を基点として、一定間隔で認識進行位置を上記クライアント装置へ送信すると共に上記認識特徴量記憶部中のその認識進行位置より以前の認識特徴量を消去することを特徴とする請求項９〜１１のいずれかに記載のサーバ装置処理方法。
上記受信した音声区間の信号は、その信号から抽出された認識特徴量であり、その認識特徴量を用いて更に他の認識特徴量を抽出し、又は抽出することなく、次の処理に移ることを特徴とする請求項９〜１２のいずれかに記載のサーバ装置処理方法。
クライアント装置に入力された音声信号を上記クライアント装置とネットワークで接続されたサーバ装置に音声を送信し、サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識システムのクライアント装置であって、
入力信号から音声区間の検出に用いる検出特徴量を抽出する検出特徴量抽出部と、
その検出特徴量抽出部で抽出された検出特徴量を記憶する検出特徴量記憶部と、
その検出特徴量記憶部に対して検出特徴量の記憶、読み出しを管理する検出特徴量管理部と、
その検出特徴量管理部を介して上記検出特徴量記憶部より読み出した検出特徴量を用いて音声区間を検出する音声検出部と、
上記音声検出部が検出する音声か非音声かを表す検出結果情報を上記サーバ装置に送信する検出結果情報送信部と、
上記入力信号中の上記検出部で検出された音声区間の信号を上記サーバ装置に送信する入力信号送信部と、
上記サーバ装置から送信された音声終了位置を受信し、上記音声検出部に対して音声検出を中断し、その後音声区間の検出を再開位置を通知する位置信号受信部と、
サーバ装置から送信された認識結果を受信し、音声認識結果出力装置に認識結果を出力する認識結果受信部と、
を備えることを特徴とするクライアント装置。
上記音声検出部で検出された音声区間の信号から認識特徴量を抽出する認識特徴量抽出部を備え、
上記入力信号送信部は上記認識特徴量を上記音声区間の信号として送信する送信部であることを特徴とする請求項１４記載のクライアント装置。
クライアント装置に入力された音声信号を上記クライアント装置とネットワークで接続されたサーバ装置に音声を送信し、サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識システムのサーバ装置であって、
上記クライアント装置から送信された音声区間の信号を受信する入力信号受信部と、
上記クライアント装置から送信された検出結果情報を受信する検出結果情報受信部と、
その入力信号受信部において受信した音声区間の信号から音声認識に用いる認識特徴量を抽出する認識特徴量抽出部と、
その認識特徴量抽出部で抽出された認識特徴量を記憶する認識特徴量記憶部と、
その認識特徴量記憶部に対して認識特徴量の記憶、読み出しを上記検出結果情報を参照して管理する認識特徴量管理部と、
その認識特徴量管理部を介して上記認識特徴量記憶部より読み出した認識特徴量を用いて音声認識を行う音声認識部と、
その音声認識部の音声認識処理過程で音声区間の終了を検出する又は上記音声区間の信号から上記音声区間の終了位置を検出する区間終了検出部と、
上記区間終了検出部が検出した音声区間の終了位置を上記クライアント装置に送信する位置信号送信部と
を備え、
上記認識特徴量管理部は、上記検出結果情報が音声であればその検出結果情報を対応する認識特徴量に付加するが、非音声であれば対応する認識特徴量を消去する、
ことを特徴とするサーバ装置。
クライアント装置に入力された音声信号を上記クライアント装置とネットワークで接続されたサーバ装置に音声を送信し、サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識システムのサーバ装置であって、
上記クライアント装置から送信された音声区間の信号を受信する入力信号受信部と、
上記クライアント装置から送信された検出結果情報を受信する検出結果情報受信部と、
その入力信号受信部において受信した音声区間の信号から音声認識に用いる認識特徴量を抽出する認識特徴量抽出部と、
その認識特徴量抽出部で抽出された認識特徴量を記憶する認識特徴量記憶部と、
その認識特徴量記憶部に対して認識特徴量の記憶、読み出しを上記検出結果情報を参照して管理する認識特徴量管理部と、
その認識特徴量管理部を介して上記認識特徴量記憶部より読み出した認識特徴量を用いて音声認識を行う音声認識部と、
その音声認識部の音声認識処理過程で音声区間の終了を検出する又は上記音声区間の信号から上記音声区間の終了位置を検出する区間終了検出部と、
上記区間終了検出部が検出した音声区間の終了位置を上記クライアント装置に送信する位置信号送信部と
を備え、
上記認識特徴量管理部は、上記検出結果情報が音声であればその検出結果情報を対応する認識特徴量に付加する、
ことを特徴とするサーバ装置。
上記入力信号受信部は上記音声区間の信号として認識特徴量を受信する受信部であり、
上記認識特徴量抽出部は上記受信した認識特徴量をもとにさらに他の認識特徴量を抽出する認識特徴量抽出部であることを特徴とする請求項１６記載のサーバ装置。
請求項３〜８のいずれかに記載したクライアント装置処理方法の各過程をコンピュータに実行させるためのプログラム。
請求項９〜１３のいずれかに記載したサーバ装置処理方法の各過程をコンピュータに実行させるためのプログラム。
請求項１９又は２０に記載したプログラムを記録したコンピュータ読み取り可能な記録媒体。