JP4425055B2 - クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体 - Google Patents
クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体 Download PDFInfo
- Publication number
- JP4425055B2 JP4425055B2 JP2004148298A JP2004148298A JP4425055B2 JP 4425055 B2 JP4425055 B2 JP 4425055B2 JP 2004148298 A JP2004148298 A JP 2004148298A JP 2004148298 A JP2004148298 A JP 2004148298A JP 4425055 B2 JP4425055 B2 JP 4425055B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- voice
- speech
- signal
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
このようなクライアント・サーバ音声認識方法では、クライアント装置に音声入力信号が入力されてからサーバ装置へ音声区間の信号を送信するまでに必要とする処理と比較して、サーバ装置での音声認識に必要とする処理が多いこと、クライアント装置とサーバ装置間の通信負荷状況により通信が遅れること、1台のサーバ装置で複数のクライアント装置からの要求を処理することなどの理由により、クライアント装置での処理がサーバ装置での処理に比べて一方的に先に進むことが多い。
クライアント装置は一般に計算能力が低いため、クライアント装置には実装が困難であるが、計算能力の高いサーバ装置には実装が容易な、音声区間検出精度が高いが処理量の多い音声区間検出機能、あるいはサーバ装置で行う音声認識処理の過程において指定された文法から発声の終了を検出する機能をサーバ装置に実装してサーバ装置でのみ音声区間を検出することもできる。この場合はクライアント装置から音声認識に必要としない非音声信号もクライアント装置へ送信し、通信量が多くなる。
ETSI発行資料「ETSI ES 202 212 V1.1.1」
しかしこの場合は両装置の進行状況にズレが発生する。このため、音声区間と非音声区間が繰り返し入力されると、クライアント装置ではその音声区間の検出精度が悪いため、音声区間が実際には終了しているが、これを検出できないで音声区間終了後の非音声区間の信号を音声区間の信号としてサーバ装置へ送信し続けた場合、クライアント装置からは本来は非音声信号であって送信する必要がない信号をサーバ装置へ送信しクライアント装置とサーバ装置間の通信量が増大し、かつサーバ装置は本来、音声認識する必要のない非音声区間の音声認識処理も行うため、サーバ装置での音声認識に必要な処理量も増大し、また、クライアント装置は本来は非音声区間である信号を音声区間の信号としているため、次の音声区間に対する正確な音声開始位置の検出が困難となり、このためサーバ装置はこの開始位置が不正確な音声区間に対して音声認識を実行する可能性があり、音声認識率の劣化を招く恐れがある。
サーバ装置は受信した音声区間の信号より音声認識に用いる認識特徴量を抽出し、この認識特徴量を用いて音声認識を行い、音声認識処理により得られた情報又は受信した音声区間の信号を用いて音声区間の終了位置を検出してクライアント装置に送信し、
クライアント装置は音声終了位置を受信すると、音声区間の検出処理を中断し、受信した音声区間終了位置から検出特徴量の抽出を新たに開始する。
クライアント計算機100はLAN(Local Area Network)などのネットワーク200を介してサーバ計算機300と接続される。この実施形態ではクライアント計算機100において音声区間の検出に必要な検出特徴量を過去の分まで検出特徴量記憶部に記憶し、サーバ計算機300において検出された音声区間が終了したサンプル位置をクライアント計算機100に送信し、クライアント計算機100が受信した音声区間終了のサンプル位置以後より音声区間の検出を再実行する場合である。
クライアント計算機100では、図に示していない前段のA/D変換器などでデジタル化された入力信号が音声信号入力装置(図示せず)より入力端子101を通じて検出特徴量抽出部110に入力され、この検出特徴量抽出部110において入力信号から音声区間の検出に用いる検出特徴量が抽出される(ステップS1)。例えば入力信号の複数サンプル(フレームという)から計算した音声パワーやピッチなどが検出特徴量として計算される。この例ではその抽出した検出特徴量は、検出特徴量管理部120を介して検出特徴量記憶部130に順次記憶される(ステップS1)。この際、各検出特徴量を入力信号上の位置と対応づけて記憶部130に記憶する。この例では入力信号に対する処理、つまり検出特徴量の抽出開始サンプル位置s0を基点として設定し(ステップS2)、各検出特徴量をサンプル位置と対応づけ、記憶部130に記憶する。
クライアント計算機100より送信された検出結果情報を、サーバ受信部310内の検出結果情報受信部312で受信した場合は、認識特徴量管理部330を介して、認識特徴量記憶部340に記憶されている既に抽出済みの認識特徴量のうち、受信した検出結果情報と同じサンプル位置の認識特徴量にその検出結果情報を付加する。検出結果情報が非音声であればその付加をすることなく、その検出結果情報と同じサンプル位置の認識特徴量を消去してもよい。
またこの実施形態ではクライアント計算機100に記憶する検出特徴量記憶部130の記憶容量を増加させないために、一定間隔ごとにサーバ計算機300から音声認識処理した音声のサンプル位置をクライアント計算機100に送信し、クライアント計算機100では、そのサンプル位置より以前に遡って音声検出をする必要がないとして該当する検出特徴量記憶部130内の記憶した検出特徴量を消去するものである。このため認識進行管理部360で音声認識の進行状況を、ある一定間隔、20〜50フレーム(1フレームは認識処理区間単位で例えば10ミリ秒)ごと、例えば300ミリ秒ごとに調査し(ステップS36)、その時点で認識処理が進んだサンプル位置を音声認識部350から取得する(ステップS37)。認識進行管理部360は認識特徴量管理部330に対して認識特徴量記憶部340のうち認識処理が進んだ位置以前の認識特徴量を消去することを通知し、認識特徴量管理部330ではこの通知どおり該当する認識特徴量を消去する(ステップS38)。一方で認識進行管理部360は、サーバ送信部370の位置信号送信部371に対して上記認識処理が進んだ位置を進行位置信号として送信するように通知し、位置信号送信部371はクライアント計算機100へ上記進行位置信号を送信する(ステップS39)。
上述の認識進行管理部360での進行状況調査は一定間隔で行われ、随時、サーバ計算機300及びクライアント計算機100における各記憶部からその進行位置以前に記憶した特徴量が消去され、記憶部130,140が有効に用いられ比較的小さい記憶容量のもので済む。
クライアント計算機100では、上記音声区間終了位置信号を位置信号受信部171で受信すると(ステップS15)、検出特徴量管理部120に対して検出特徴量記憶部130のうち音声区間終了位置以前の検出特徴量の消去を通知し、検出特徴量管理部120ではその通知のとおり該当する検出特徴量を消去する(ステップS16)。それと同時に、音声検出部140に対して、現在実行中の音声、非音声判別処理を中断し、上記音声区間の終了位置から音声、非音声判別処理を再開始するように通知し、音声検出部140はこの通知どおりにステップS3に戻って音声、非音声判別処理を再開始する(ステップS18)。
これ以降の動作は上記で説明した内容の繰り返しである。なおステップS1の検出特徴量の抽出は各フレームごとに常に行われており、図2は主に検出特徴量記憶部130が検出特徴量を読み出して処理する以後の手順を示す。
更に前記例のように検出結果情報を送信する場合は、これは音声か、非音声かを表わす1ビットのみでよく、音声区間信号に対する検出結果情報の場合、その音声区間信号より、著しく少ない通信量で済み、非音声区間に対して、検出結果情報を送る場合も少ない通信量でクライアント計算機100とサーバ計算機300との処理同期を維持できる。
次に、図4〜図7を参照して、この発明において行われる位置信号の送受信とクライアント計算機100及びサーバ計算機300の各特徴量記憶部130及び340における特徴量の記憶、消去の状態、音声区間の検出再開始の流れを具体的に説明する。
図2はクライアント計算機で音声検出が開始され、音声の開始を検出し、入力信号を図4〜図7中のAに示すグラフは入力信号を表し、横軸を時刻(音声入力開始を基点としたサンプル位置)、縦軸を音声のパワー(音量)とし、その中で音声の区間と非音声の区間が存在している。各図のBにおける四角の列は、クライアント計算機100の検出特徴量記憶部130内における検出特徴量のフレームごとの記憶状態を入力信号に沿って示し、各図のCはクライアント計算機100とサーバ計算機300間で送信される信号を示し、各図のDの四角の列はサーバ計算機300の認識特徴量記憶部340における認識特徴量の各フレームごとの記憶状態を受信信号に沿って示している。
クライアント計算機100においては音声区間検出が進み、またサーバ計算機300においては音声認識が進み、一定間隔ごとに進行位置信号Ppが発生し、それ以前に記憶した特徴量が消去される様子を図5に示す。サーバ計算機300でサンプル位置s2において進行位置信号Ppが発生し、認識特徴量記憶部340に記憶されているサンプル位置s2以前の認識特徴量が消去される。その消去された認識特徴量を点線の四角で示す。クライアント計算機100においてはサーバ計算機から受信された位置s2を示す進行位置信号Ppに従って、検出特徴量記憶部130に記憶されている位置s2以前の検出特徴量が点線四角で示すように消去される。
クライアント計算機100において音声区間検出が更に進み、サーバ計算機300において音声認識が更に進み、サーバ計算機300において音声区間終了(音声終了位置)を検知したが、クライアント計算機100においては音声区間の検出で音声区間の終了を検知されずにそれ以降も引き続き音声区間として検出し続けている様子を図6に示す。
クライアント計算機100においてはサーバ計算機300から受信されたサンプル位置s4を示す音声区間終了位置信号Peに従って、検出特徴量記憶部130に記憶されているサンプル位置s4以前の検出特徴量が点線四角で示すように消去され、それと同時に音声検出部140での音声区間の検出を中断させ、その音声区間終了位置信号Peを受信した時点、図6ではサンプル位置s5までの検出音声区間信号Spをサーバ計算機300へ送信する。
クライアント計算機100では、前回の音声区間が終了したサンプル位置s4の次のサンプルのフレームの検出特徴量から読み出して音声区間の検出を開始する。検出特徴量記憶部130には、音声区間終了位置信号Peの受信後も検出特徴量抽出部110で抽出されたフレームごとの検出特徴量が順次に記憶されている。この例ではサンプル位置s5より以前はすでに入力信号が音声区間の信号として送信している。よって次の音声区間を検出するまでは各フレームごとに音声検出部140で検出した非音声区間であることを示す検出結果情報UV(Un Voice)がサーバ計算機300に送信される。
次にクライアント計算機100ではサンプル位置s6で音声区間の開始が検出されると、そのサンプル位置s6よりその音声区間の各フレームの入力信号Spを次々にサーバ計算機300に送信する。
この図6の例ではサンプル位置s5の次のサンプルからサンプル位置s6の前のサンプルの非音声区間において入力信号を送信しない区間があり、その分の通信量を削減することができる。このとき検出結果情報は送信するが、それは例えば「音声」と「非音声」を区別する情報(1bit)であり、音声区間の入力信号と比較して格段に通信量は少なくて済む。
さらに、上記効果を得るためにクライアント計算機100およびサーバ計算機300において処理済の記憶領域を確保する必要があるが、これら記憶領域のうち不必要な記憶領域を定期的に解放することによって両計算機における使用記憶容量を増大させることなく実行できる。
これまでは、サーバ計算機300においてのみ認識特徴量を抽出して音声認識を行う構成においての説明をしたが、例えば非特許文献1に示す、認識特徴量の少なくとも一部をクライアント計算機100で行う分散型音声認識方法にこの発明を適用できる。この場合における、前述した実施形態と異なる点のみを主として以下に説明する。この場合もサーバ計算機300において音声区間の開始検出機能が実装されておらず、音声認識の過程において音声区間の終了を検出し、その位置をクライアント計算機100に送信するが、サーバ計算機300において、音声認識部350の前段もしくは内部で音声区間開始検出もしくは音声区間終端検出機能が実装されている場合においても適用可能である。なお図1〜図3においてこの変形例を兼用して示すため変形例により異なる部分には括弧書き、又は破線で示す。
間の検出を行い、信号送信管理部150では、入力信号のサンプルごともしくはフレーム
ごとに入力信号から抽出された認識特徴量Aがサーバ計算機に未送信かそれとも送信済み
かを調査し(図2、ステップS4)、未送信であれば音声検出部140で検出された音声
区間の入力信号より、図1中の破線で示す認識特徴量A抽出部180において例えばケプ
ストラム及びパワーといった認識特徴量Aを抽出し(図2中のステップS8とS10の間
のステップS51)、認識特徴量送信部161より認識特徴量Aをサーバ計算機300に
送信する。認識特徴量Aが送信済みであれば検出結果情報送信部162より検出結果情報
をサーバ計算機300に送信する。このとき、音声区間の開始位置の送信は先の場合と同
様に行われる。
図1中に示したクライアント装置及びサーバ装置はコンピュータによらず、構成することもでき、コンピュータにより機能させる場合は、例えば図2に示した処理方法の各過程をコンピュータに実行させるためのクライアント装置処理プログラムを、あるいは図3に示した処理方法の各過程をコンピュータに実行させるためのサーバ装置処理プログラムをコンピュータに、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体からインストールし、又は通信回線を介してダウンロードして、そのプログラムをコンピュータに実行させればよい。
Claims (21)
- クライアント装置に入力された入力信号を上記クライアント装置とネットワークで接続
されたサーバ装置に送信し、上記サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識方法において、
上記クライアント装置は、
入力信号から音声区間の検出に用いる検出特徴量を抽出し、
上記抽出した検出特徴量をその上記入力信号上の位置が分かるように検出特徴量記憶
部に記憶し、
上記検出特徴量記憶部から検出特徴量を読み出し、その読み出した検出特徴量を用いて音声区間か非音声区間かを検出し、
上記音声区間の信号を、上記入力信号上の位置が分かるように上記サーバ装置に送信し、
上記サーバ装置は、
最初の上記音声区間の信号における上記音声区間の開始位置を受信し、上記開始位置を基点として、上記クライアント装置から受信した上記音声区間の信号から音声認識に用いる認識特徴量を抽出し、
上記認識特徴量を認識特徴量記憶部に記憶し、上記認識特徴量記憶部から上記認識特徴量を読み出して上記音声認識を行い、
上記音声認識の処理に基づき、又は上記受信した音声区間の信号から音声区間の終了の検出を行い、音声区間の終了を検出すると、その終了位置を示す音声区間終了信号を上記クライアント装置へ送信し、
上記クライアント装置は、
上記サーバ装置から音声区間終了位置を示す音声区間終了信号を受信し、上記音声区間終了信号が示す上記入力信号上の位置以後から上記検出特徴量の上記読み出しを行い、上記音声区間か非音声区間かの検出を一旦停止した後、上記音声区間終了位置から上記音声区間か非音声区間かの検出を再開始し、再開始以後において、対応入力信号の音声区間の信号を上記サーバ装置へ送信したか否かを判定し、送信していれば、上記音声区間の検出結果を示す検出結果情報を上記サーバ装置へ送信し、
上記サーバ装置は、
上記クライアント装置から受信した信号が検出結果情報か否かを調べ、検出結果情報であれば、上記認識特徴量記憶部中の対応認識特徴量にその検出結果情報を付加し、又はその検出結果情報が音声であればその検出結果情報を付加するが、非音声であれば上記対応認識特徴量を消去する、
ことを特徴とするクライアント・サーバ音声認識方法。 - クライアント装置に入力された入力信号を上記クライアント装置とネットワークで接続
されたサーバ装置に送信し、上記サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識方法において、
上記クライアント装置は、
入力信号から音声区間の検出に用いる検出特徴量を抽出し、
上記抽出した検出特徴量をその上記入力信号上の位置が分かるように検出特徴量記憶
部に記憶し、
上記検出特徴量記憶部から検出特徴量を読み出し、その読み出した検出特徴量を用いて音声区間か非音声区間かを検出し、
上記音声区間の信号を、上記入力信号上の位置が分かるように上記サーバ装置に送信し、
上記サーバ装置は、
各上記音声区間の信号における上記音声区間の開始位置を受信し、上記各開始位置を基点として、上記クライアント装置から受信した上記音声区間の信号から音声認識に用いる認識特徴量を抽出し、
上記認識特徴量を認識特徴量記憶部に記憶し、上記認識特徴量記憶部から上記認識特徴量を読み出して上記音声認識を行い、
上記音声認識の処理に基づき、又は上記受信した音声区間の信号から音声区間の終了の検出を行い、音声区間の終了を検出すると、その終了位置を示す音声終了を上記クライアント装置へ送信し、
上記クライアント装置は、
上記サーバ装置から音声区間終了位置を示す音声区間終了信号を受信し、上記音声区間終了信号が示す上記入力信号上の位置以後から上記検出特徴量の上記読み出しを行い、上記音声区間か非音声区間かの検出を一旦停止した後、上記音声区間終了位置から上記音声区間か非音声区間かの検出を再開始し、再開始以後において、対応入力信号の音声区間の信号を上記サーバ装置へ送信したか否かを判定し、送信していれば、上記音声区間の検出結果を示す検出結果情報を上記サーバ装置へ送信し、
上記サーバ装置は、
上記クライアント装置から受信した信号が検出結果情報か否かを調べ、検出結果情報であれば、上記認識特徴量記憶部中の対応認識特徴量にその検出結果情報を付加する、
ことを特徴とするクライアント・サーバ音声認識方法。 - クライアント装置に入力された入力信号を上記クライアント装置とネットワークで接続されたサーバ装置に送信し、上記サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識方法における上記クライアント装置の処理方法であって、
入力信号から音声区間の検出に用いる検出特徴量を抽出し、
上記抽出した検出特徴量をその入力信号上の位置がわかるように検出特徴量記憶部に記憶し、
上記検出特徴量記憶部から検出特徴量を読み出して音声区間か非音声区間かを検出し、
上記音声区間の信号を、その上記入力信号上の位置がわかるように上記サーバ装置に送信し、
上記サーバ装置から音声区間終了位置を示す終了信号を受信して、上記音声区間か非音声区間かの検出を一旦停止した後、上記終了位置から再開始する時に対応入力信号の音声区間の信号を上記サーバ装置に送信したか否かを判定し、送信していれば、上記音声区間の検出結果を示す情報を上記サーバ装置へ送信することを特徴とする請求項1又は2に記載のクライアント装置処理方法。 - 上記検出特徴量の特徴量記憶部への記憶は、上記入力信号上の音声検出開始位置を基点として行い、
上記音声区間の信号を上記サーバ装置へ送信する際に、上記入力信号中の少なくとも最初の音声区間の開始位置を、
上記音声検出開始位置を基点とした上記サーバ装置へ送信し、
上記音声区間終了信号は、上記音声検出開始位置を基点とした音声区間終了位置であることを特徴とする請求項3記載のクライアント装置処理方法。 - 上記音声区間の開始位置の送信は各音声区間ごとに行い、上記音声区間の検出結果を示す情報の送信は音声区間に対してのみ行うことを特徴とする請求項3記載のクライアント装置処理方法。
- 上記音声区間終了信号を受信すると、上記検出特徴量記憶部中の上記音声区間終了信号以前の検出特徴量を消去することを特徴とする請求項3〜5のいずれかに記載のクライアント装置処理方法。
- 上記サーバ装置から、音声認識進行位置を受信すると、上記検出特徴量記憶部中の上記音声認識進行位置以前の検出特徴量を消去することを特徴とする請求項3〜6のいずれかに記載のクライアント装置処理方法。
- 上記音声区間の信号より音声認識に用いる特徴量を抽出し、この認識特徴量を上記音声区間の信号として上記サーバ装置へ送信することを特徴とする請求項3〜7のいずれかに記載のクライアント装置処理方法。
- クライアント装置に入力された入力信号を上記クライアント装置とネットワークで接続されたサーバ装置に送信し、上記サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識方法におけるサーバ装置の処理方法であって、
上記クライアント装置から最初の音声区間の信号における上記音声区間の開始位置を受信し、
上記音声区間の信号の開始位置を基点として音声認識に用いる認識特徴量を抽出し、
上記認識特徴量を認識特徴量記憶部に記憶し、
上記認識特徴量記憶部から上記認識特徴量を読み出して上記音声認識を行い、
上記音声区間の終了の検出を行い、音声区間の終了を検出すると、その終了位置を示す音声区間終了信号を上記クライアント装置へ送信し、
上記クライアント装置から受信した信号が上記検出結果情報か否かを調べ、検出結果情報であれば、上記認識特徴量記憶部中の対応認識特徴量にその検出結果情報を付加し、又はその検出結果情報が音声であればその検出結果情報を付加するが、非音声であれば上記対応認識特徴量を消去する、
ことを特徴とするサーバ装置処理方法。 - クライアント装置に入力された入力信号を上記クライアント装置とネットワークで接続されたサーバ装置に送信し、上記サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識方法におけるサーバ装置の処理方法であって、
上記クライアント装置から音声区間の信号における上記音声区間の開始位置を受信し、
上記音声区間の信号の開始位置を基点として音声認識に用いる認識特徴量を抽出し、
上記認識特徴量を認識特徴量記憶部に記憶し、
上記認識特徴量記憶部から上記認識特徴量を読み出して上記音声認識を行い、
上記音声区間の終了の検出を行い、音声区間の終了を検出すると、その終了位置を示す音声区間終了信号を上記クライアント装置へ送信し、
上記クライアント装置から受信した信号が上記検出結果情報か否かを調べ、検出結果情報であれば、上記認識特徴量記憶部中の対応認識特徴量にその検出結果情報を付加する、
ことを特徴とするサーバ装置処理方法。 - 上記音声終了は上記開始位置を基点とした位置であり、上記音声終了位置の上記クライアント装置への送信と同時に、上記認識特徴量記憶部に記憶されている上記音声終了位置以前の認識特徴量を消去することを特徴とする請求項9又は10記載のサーバ装置処理方法。
- 上記開始位置を基点として、一定間隔で認識進行位置を上記クライアント装置へ送信すると共に上記認識特徴量記憶部中のその認識進行位置より以前の認識特徴量を消去することを特徴とする請求項9〜11のいずれかに記載のサーバ装置処理方法。
- 上記受信した音声区間の信号は、その信号から抽出された認識特徴量であり、その認識特徴量を用いて更に他の認識特徴量を抽出し、又は抽出することなく、次の処理に移ることを特徴とする請求項9〜12のいずれかに記載のサーバ装置処理方法。
- クライアント装置に入力された音声信号を上記クライアント装置とネットワークで接続されたサーバ装置に音声を送信し、サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識システムのクライアント装置であって、
入力信号から音声区間の検出に用いる検出特徴量を抽出する検出特徴量抽出部と、
その検出特徴量抽出部で抽出された検出特徴量を記憶する検出特徴量記憶部と、
その検出特徴量記憶部に対して検出特徴量の記憶、読み出しを管理する検出特徴量管理部と、
その検出特徴量管理部を介して上記検出特徴量記憶部より読み出した検出特徴量を用いて音声区間を検出する音声検出部と、
上記音声検出部が検出する音声か非音声かを表す検出結果情報を上記サーバ装置に送信する検出結果情報送信部と、
上記入力信号中の上記検出部で検出された音声区間の信号を上記サーバ装置に送信する入力信号送信部と、
上記サーバ装置から送信された音声終了位置を受信し、上記音声検出部に対して音声検出を中断し、その後音声区間の検出を再開位置を通知する位置信号受信部と、
サーバ装置から送信された認識結果を受信し、音声認識結果出力装置に認識結果を出力する認識結果受信部と、
を備えることを特徴とするクライアント装置。 - 上記音声検出部で検出された音声区間の信号から認識特徴量を抽出する認識特徴量抽出部を備え、
上記入力信号送信部は上記認識特徴量を上記音声区間の信号として送信する送信部であることを特徴とする請求項14記載のクライアント装置。 - クライアント装置に入力された音声信号を上記クライアント装置とネットワークで接続されたサーバ装置に音声を送信し、サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識システムのサーバ装置であって、
上記クライアント装置から送信された音声区間の信号を受信する入力信号受信部と、
上記クライアント装置から送信された検出結果情報を受信する検出結果情報受信部と、
その入力信号受信部において受信した音声区間の信号から音声認識に用いる認識特徴量を抽出する認識特徴量抽出部と、
その認識特徴量抽出部で抽出された認識特徴量を記憶する認識特徴量記憶部と、
その認識特徴量記憶部に対して認識特徴量の記憶、読み出しを上記検出結果情報を参照して管理する認識特徴量管理部と、
その認識特徴量管理部を介して上記認識特徴量記憶部より読み出した認識特徴量を用いて音声認識を行う音声認識部と、
その音声認識部の音声認識処理過程で音声区間の終了を検出する又は上記音声区間の信号から上記音声区間の終了位置を検出する区間終了検出部と、
上記区間終了検出部が検出した音声区間の終了位置を上記クライアント装置に送信する位置信号送信部と
を備え、
上記認識特徴量管理部は、上記検出結果情報が音声であればその検出結果情報を対応する認識特徴量に付加するが、非音声であれば対応する認識特徴量を消去する、
ことを特徴とするサーバ装置。 - クライアント装置に入力された音声信号を上記クライアント装置とネットワークで接続されたサーバ装置に音声を送信し、サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識システムのサーバ装置であって、
上記クライアント装置から送信された音声区間の信号を受信する入力信号受信部と、
上記クライアント装置から送信された検出結果情報を受信する検出結果情報受信部と、
その入力信号受信部において受信した音声区間の信号から音声認識に用いる認識特徴量を抽出する認識特徴量抽出部と、
その認識特徴量抽出部で抽出された認識特徴量を記憶する認識特徴量記憶部と、
その認識特徴量記憶部に対して認識特徴量の記憶、読み出しを上記検出結果情報を参照して管理する認識特徴量管理部と、
その認識特徴量管理部を介して上記認識特徴量記憶部より読み出した認識特徴量を用いて音声認識を行う音声認識部と、
その音声認識部の音声認識処理過程で音声区間の終了を検出する又は上記音声区間の信号から上記音声区間の終了位置を検出する区間終了検出部と、
上記区間終了検出部が検出した音声区間の終了位置を上記クライアント装置に送信する位置信号送信部と
を備え、
上記認識特徴量管理部は、上記検出結果情報が音声であればその検出結果情報を対応する認識特徴量に付加する、
ことを特徴とするサーバ装置。 - 上記入力信号受信部は上記音声区間の信号として認識特徴量を受信する受信部であり、
上記認識特徴量抽出部は上記受信した認識特徴量をもとにさらに他の認識特徴量を抽出する認識特徴量抽出部であることを特徴とする請求項16記載のサーバ装置。 - 請求項3〜8のいずれかに記載したクライアント装置処理方法の各過程をコンピュータに実行させるためのプログラム。
- 請求項9〜13のいずれかに記載したサーバ装置処理方法の各過程をコンピュータに実行させるためのプログラム。
- 請求項19又は20に記載したプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004148298A JP4425055B2 (ja) | 2004-05-18 | 2004-05-18 | クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004148298A JP4425055B2 (ja) | 2004-05-18 | 2004-05-18 | クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005331616A JP2005331616A (ja) | 2005-12-02 |
JP4425055B2 true JP4425055B2 (ja) | 2010-03-03 |
Family
ID=35486335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004148298A Active JP4425055B2 (ja) | 2004-05-18 | 2004-05-18 | クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4425055B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10210886B2 (en) | 2014-09-17 | 2019-02-19 | Kabushiki Kaisha Toshiba | Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus |
US11893982B2 (en) | 2018-10-31 | 2024-02-06 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method therefor |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008158328A (ja) * | 2006-12-25 | 2008-07-10 | Ntt Docomo Inc | 端末装置及び判別方法 |
JP5621993B2 (ja) | 2009-10-28 | 2014-11-12 | 日本電気株式会社 | 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム |
KR101208166B1 (ko) | 2010-12-16 | 2012-12-04 | 엔에이치엔(주) | 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법 |
JP6276132B2 (ja) | 2014-07-30 | 2018-02-07 | 株式会社東芝 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
JP6549009B2 (ja) * | 2015-09-30 | 2019-07-24 | 株式会社東芝 | 通信端末及び音声認識システム |
JP7473325B2 (ja) * | 2019-11-12 | 2024-04-23 | 株式会社シーイーシー | 音声情報生成装置、音声情報生成方法及びプログラム |
-
2004
- 2004-05-18 JP JP2004148298A patent/JP4425055B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10210886B2 (en) | 2014-09-17 | 2019-02-19 | Kabushiki Kaisha Toshiba | Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus |
US11893982B2 (en) | 2018-10-31 | 2024-02-06 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method therefor |
Also Published As
Publication number | Publication date |
---|---|
JP2005331616A (ja) | 2005-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11037574B2 (en) | Speaker recognition and speaker change detection | |
CN110047481B (zh) | 用于语音识别的方法和装置 | |
JP6139598B2 (ja) | オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法 | |
RU2525440C2 (ru) | Основанные на языке разметки выбор и использование распознавателей для обработки произнесения | |
US20160125883A1 (en) | Speech recognition client apparatus performing local speech recognition | |
US8224644B2 (en) | Utterance processing for network-based speech recognition utilizing a client-side cache | |
JP3834169B2 (ja) | 連続音声認識装置および記録媒体 | |
CN111798833A (zh) | 一种语音测试方法、装置、设备和存储介质 | |
JP4425055B2 (ja) | クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体 | |
CN112307253A (zh) | 一种基于预设录音标题自动生成语音文件的方法及系统 | |
KR101368464B1 (ko) | 음성 데이터 전사용 음성 인식 장치 및 방법 | |
US10210886B2 (en) | Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus | |
JP6867939B2 (ja) | 計算機、言語解析方法、及びプログラム | |
JP5673239B2 (ja) | 音声認識装置、音声認識方法、および音声認識プログラム | |
KR20200053242A (ko) | 차량용 음성 인식 시스템 및 그 제어 방법 | |
CN110931021A (zh) | 一种音频信号处理方法及装置 | |
CN112542157A (zh) | 语音处理方法、装置、电子设备及计算机可读存储介质 | |
KR100574883B1 (ko) | 비음성 제거에 의한 음성 추출 방법 | |
US20210104225A1 (en) | Phoneme sound based controller | |
CN113206996B (zh) | 一种业务录制数据的质检方法及装置 | |
WO2022201458A1 (ja) | 音声対話システム、音声対話方法及び音声対話管理装置 | |
CN113658581B (zh) | 声学模型的训练、语音处理方法、装置、设备及存储介质 | |
CN112542159B (zh) | 一种数据处理方法以及设备 | |
JP2004309682A (ja) | 音声対話方法、音声対話端末装置、音声対話センタ装置、音声対話プログラム | |
CN111583956B (zh) | 语音处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060725 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091201 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4425055 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131218 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |