JP4425055B2 - クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体 - Google Patents

クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体 Download PDF

Info

Publication number
JP4425055B2
JP4425055B2 JP2004148298A JP2004148298A JP4425055B2 JP 4425055 B2 JP4425055 B2 JP 4425055B2 JP 2004148298 A JP2004148298 A JP 2004148298A JP 2004148298 A JP2004148298 A JP 2004148298A JP 4425055 B2 JP4425055 B2 JP 4425055B2
Authority
JP
Japan
Prior art keywords
recognition
voice
speech
signal
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004148298A
Other languages
English (en)
Other versions
JP2005331616A (ja
Inventor
義和 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004148298A priority Critical patent/JP4425055B2/ja
Publication of JP2005331616A publication Critical patent/JP2005331616A/ja
Application granted granted Critical
Publication of JP4425055B2 publication Critical patent/JP4425055B2/ja
Anticipated expiration legal-status Critical
Active legal-status Critical Current

Links

Images

Description

この発明は、クライアント装置に入力された入力信号を、ネットワークを介して接続されたサーバ装置に送信し、サーバ装置で音声認識を行い、その認識結果をクライアント装置に送信するクライアント・サーバ音声認識方法及びこれに用いる装置、そのプログラム、その記録媒体に関する。
クライアント・サーバ音声認識方法においてクライアント装置からサーバ装置への音声送信は、一般的にクライアント装置で入力信号から音声区間を検出し、入力信号中のその音声区間の信号のみをサーバ装置に送信して、通信量を削減し、サーバ装置では受信した信号の全てについて音声認識処理を行う。
このようなクライアント・サーバ音声認識方法では、クライアント装置に音声入力信号が入力されてからサーバ装置へ音声区間の信号を送信するまでに必要とする処理と比較して、サーバ装置での音声認識に必要とする処理が多いこと、クライアント装置とサーバ装置間の通信負荷状況により通信が遅れること、1台のサーバ装置で複数のクライアント装置からの要求を処理することなどの理由により、クライアント装置での処理がサーバ装置での処理に比べて一方的に先に進むことが多い。
非特許文献1に示すように音声認識特徴量抽出処理の一部をクライアント装置で行い、それらをサーバ装置に送信し、サーバ装置において残る音声認識特徴量抽出処理を行う分散型音声認識(Distributed Speech Recognition、以下DSRとする)がある。
クライアント装置は一般に計算能力が低いため、クライアント装置には実装が困難であるが、計算能力の高いサーバ装置には実装が容易な、音声区間検出精度が高いが処理量の多い音声区間検出機能、あるいはサーバ装置で行う音声認識処理の過程において指定された文法から発声の終了を検出する機能をサーバ装置に実装してサーバ装置でのみ音声区間を検出することもできる。この場合はクライアント装置から音声認識に必要としない非音声信号もクライアント装置へ送信し、通信量が多くなる。
ETSI発行資料「ETSI ES 202 212 V1.1.1」
クライアント装置に処理量が少なくて済む音声区間検出機能を実装し、サーバ装置に多くの処理量を必要とする音声区間検出機能を実装してクライアント・サーバ音声認識を行ってクライアント装置とサーバ装置間の通信量を削減し、かつより厳密な音声区間の検出とそれに伴う高精度な音声認識を可能とすることが考えられる。
しかしこの場合は両装置の進行状況にズレが発生する。このため、音声区間と非音声区間が繰り返し入力されると、クライアント装置ではその音声区間の検出精度が悪いため、音声区間が実際には終了しているが、これを検出できないで音声区間終了後の非音声区間の信号を音声区間の信号としてサーバ装置へ送信し続けた場合、クライアント装置からは本来は非音声信号であって送信する必要がない信号をサーバ装置へ送信しクライアント装置とサーバ装置間の通信量が増大し、かつサーバ装置は本来、音声認識する必要のない非音声区間の音声認識処理も行うため、サーバ装置での音声認識に必要な処理量も増大し、また、クライアント装置は本来は非音声区間である信号を音声区間の信号としているため、次の音声区間に対する正確な音声開始位置の検出が困難となり、このためサーバ装置はこの開始位置が不正確な音声区間に対して音声認識を実行する可能性があり、音声認識率の劣化を招く恐れがある。
この発明の目的は、不必要な通信量を減らし、連続して音声を入力する際の音声の開始位置を正確に検出して、音声認識率を向上することができるクライアント・サーバ音声認識方法及びその装置、そのプログラム、その記録媒体を提供することにある。
この発明によれば、クライアント装置は入力信号より音声区間検出に用いる検出特徴量を抽出し、この検出特徴量を用いて音声区間を検出し、入力信号中のこの音声区間の信号をサーバ装置に送信し、
サーバ装置は受信した音声区間の信号より音声認識に用いる認識特徴量を抽出し、この認識特徴量を用いて音声認識を行い、音声認識処理により得られた情報又は受信した音声区間の信号を用いて音声区間の終了位置を検出してクライアント装置に送信し、
クライアント装置は音声終了位置を受信すると、音声区間の検出処理を中断し、受信した音声区間終了位置から検出特徴量の抽出を新たに開始する。
この構成によれば、クライアント装置は音声区間の信号だけをサーバ装置へ送信しているので、通信量を大幅に減少でき、しかもサーバ装置で音声区間の終了を検出しているから、この位置を正確に検出でき、かつこの音声区間の終了をクライアント装置に送信し、クライアント装置は音声区間終了を受信すると、音声区間の検出を中断し、改めて次の音声区間の検出をその受信した音声区間の終了位置から開始するため、常に正しく音声区間の開始位置を正確に検出でき、サーバ装置における音声認識の認識率が向上する。またクライアント装置におけるサーバ装置より音声区間終了の受信から次の音声区間の開始までは非音声信号が誤って音声区間信号としてサーバ装置へ送信するおそれがなく、それだけ通信量が減少する。
以下この発明の実施形態を図面を用いて説明する。図1にこの発明方法を適用したシステム構成と、この発明のクライアント装置の実施形態及びこの発明のサーバ装置の実施形態の各機能構成を示し、図2にこの発明のクライアント装置処理方法の実施形態の流れ図を、図3にこの発明のサーバ装置処理方法の実施形態の流れ図をそれぞれ示す。この実施形態ではクライアント装置及びサーバ装置をそれぞれ電子計算機を用いて機能させた場合であり、以後、クライアント計算機及びサーバ計算機と書く。またこの実施形態ではサーバ計算機として音声区間の開始を検出する機能は実装されていないが、音声認識の過程で音声区間の終了を検出する機能が実装されている場合であるが、サーバ計算機において、音声認識部の前段もしくは内部で音声区間の開始検出もしくは終端の検出機能が実装されている場合においてもこの発明は適用可能であり、これらの検出は受信した音声区間の信号を用いて行ってもよい。
クライアント計算機100はLAN(Local Area Network)などのネットワーク200を介してサーバ計算機300と接続される。この実施形態ではクライアント計算機100において音声区間の検出に必要な検出特徴量を過去の分まで検出特徴量記憶部に記憶し、サーバ計算機300において検出された音声区間が終了したサンプル位置をクライアント計算機100に送信し、クライアント計算機100が受信した音声区間終了のサンプル位置以後より音声区間の検出を再実行する場合である。
機能構成及び処理手順
クライアント計算機100では、図に示していない前段のA/D変換器などでデジタル化された入力信号が音声信号入力装置(図示せず)より入力端子101を通じて検出特徴量抽出部110に入力され、この検出特徴量抽出部110において入力信号から音声区間の検出に用いる検出特徴量が抽出される(ステップS1)。例えば入力信号の複数サンプル(フレームという)から計算した音声パワーやピッチなどが検出特徴量として計算される。この例ではその抽出した検出特徴量は、検出特徴量管理部120を介して検出特徴量記憶部130に順次記憶される(ステップS1)。この際、各検出特徴量を入力信号上の位置と対応づけて記憶部130に記憶する。この例では入力信号に対する処理、つまり検出特徴量の抽出開始サンプル位置s0を基点として設定し(ステップS2)、各検出特徴量をサンプル位置と対応づけ、記憶部130に記憶する。
音声検出部140では時間経過に沿って、つまり順次記憶された検出特徴量を、検出特徴量管理部120を介して検出特徴量記憶部130より読み込み、これら検出特徴量に基づき音声信号を検出する、つまり対応する入力信号が音声か非音声かの判別を行う(ステップS3)。またこの例では信号送信管理部150は、入力信号のサンプルごともしくはフレームごとに、入力信号がサーバ計算機300に対し未送信かそれとも送信済みかを調査し(ステップS4)、未送信であれば音声検出部140での検出が音声、つまり音声区間の場合は(ステップS5)、その音声区間のその入力信号をクライアント送信部160の入力信号送信部161より、1フレーム又は複数フレームごとにパケットとしてサーバ計算機300に送信し(ステップS10)、送信済みであれば、クライアント送信部160の検出結果情報送信部162より音声検出部140の判別結果(以下検出結果という)の情報、例えば既に送信済みの入力信号に対して「音声」か「非音声」を表す検出結果情報をサーバ計算機300に送信する(ステップS11)。
更にこの例ではステップS5でその未送信信号が音声区間であれば、これがその音声区間の開始の部分であるかを判定し(ステップS6)、音声区間の開始部分であればその音声区間が1回の発話における最初のものかを調べ(ステップS7)、最初の音声区間であればその音声区間の開始のフレームの入力信号上の位置を示す開始位置をサーバ計算機300へ送信し(ステップS8)、またその音声区間の開始部分(フレーム)と対応する入力信号をサーバ計算機300へ送信する。この例では入力信号の処理を開始した時点、つまり入力端子101に入力信号が入力されたその入力信号開始位置を基点(基点サンプル位置)とした、前記最初の音声区間における開始部分のフレームを示すサンプル位置を開始位置としてサーバ計算機300へ送信する。この開始位置の送信をするか否かは信号送信管理部150が行う。
また後述のようにクライアント計算機100で終了信号を受信し、音声検出部140での音声、非音声判別処理を中断し、その後、受信した終了信号が示す位置から音声、非音声の判別処理をして音声区間の検出を再開始し、音声区間の開始を検出して音声区間の信号を送信する際に、その新たに検出した音声区間開始位置と、それまでに送信した検出結果情報の最後のサンプル位置との間に、未送信の区間があった場合は非音声区間についてもそれを示す検出結果情報を送信するようにした場合である。つまりステップS5での判定が音声区間でなければステップS7に移り、ステップS7で音声区間が最初のものでなければ次の音声区間の開始前であるかを調べ(ステップS9)、音声区間開始前であればステップS11に移り、検出結果情報、つまり非音声を示す情報が送信される。
このようにしてこの実施形態ではサーバ計算機300はクライアント計算機100から送信された音声検出開始位置を基点として、少なくともパケットごとに入力信号上での所定サンプルごとになんらかの信号がクライアント計算機100から送信され、また受信した終了信号が示す位置から、音声検出を再開するため、音声区間の終了の検出誤りおよび検出結果情報の送信過程で発生する欠落により、音声区間の信号もしくは検出結果情報とサンプル位置との対応付けがずれる問題を回避している。この問題は一定間隔ごとに入力サンプル位置情報をクライアント計算機100からサーバ計算機300に送る(ステップS12)ことで回避してもよい。
サーバ計算機300では、クライアント計算機100より送信された音声区間の信号をサーバ受信部310の入力信号受信部311で受信すると、認識特徴量抽出部320において、1フレームごとに例えばケプストラム、デルタケプストラム、パワー、デルタパワーの一群など音声認識に用いる認識特徴量を音声区間の信号より抽出し、認識特徴量管理部330を介して認識特徴量記憶部340に記憶する。
クライアント計算機100より送信された検出結果情報を、サーバ受信部310内の検出結果情報受信部312で受信した場合は、認識特徴量管理部330を介して、認識特徴量記憶部340に記憶されている既に抽出済みの認識特徴量のうち、受信した検出結果情報と同じサンプル位置の認識特徴量にその検出結果情報を付加する。検出結果情報が非音声であればその付加をすることなく、その検出結果情報と同じサンプル位置の認識特徴量を消去してもよい。
つまり図3に示すように、サーバ計算機300のサーバ受信部310がクライアント計算機100からの送信信号を受信すると(ステップS31)、それが検出結果情報ではなく、つまり音声区間の信号であれば(ステップS32)、その信号から認識特徴量を抽出して、認識特徴量記憶部340に記憶する(ステップS33)。その際、その音声区間信号が、最初(発話の)の音声区間の開始のものであれば、その音声区間開始位置も同時に受信され、その音声区間開始位置(サンプル位置)と対応付けて認識特徴量が記憶され、また他の音声区間信号の認識特徴量も、各パケットごとに、各フレームごとに、前記音声区間開始信号を基準とする位置(サンプル位置)ごとに対応付けられる。受信信号が検出結果情報であれば、その検出結果情報がそのサンプル位置と対応付けて認識特徴量記憶部340内に記憶される(ステップS34)。検出結果情報が受信される場合は、後述するようにサーバ計算機300において音声区間の終了を検出し、この終了のサンプル位置をクライアント計算機100へ送信し、クライアント計算機100がその終了サンプル位置以後から音声検出を再開始した場合であり、サーバ計算機300は受信した検出結果情報を、認識特徴量記憶部340に記憶されている、そのサンプル位置と対応する認識特徴量に対し付加することができる。あるいは検出結果情報が非音声であれば、その認識特徴量を消去することができる。
音声認識部350は時間経過に沿って、つまり認識特徴量記憶部340に記憶された順に、1フレームごとに認識特徴量管理部330を介して認識特徴量記憶部340より音声区間の認識特徴量を読み込み、音声認識を行う(ステップS35)。
またこの実施形態ではクライアント計算機100に記憶する検出特徴量記憶部130の記憶容量を増加させないために、一定間隔ごとにサーバ計算機300から音声認識処理した音声のサンプル位置をクライアント計算機100に送信し、クライアント計算機100では、そのサンプル位置より以前に遡って音声検出をする必要がないとして該当する検出特徴量記憶部130内の記憶した検出特徴量を消去するものである。このため認識進行管理部360で音声認識の進行状況を、ある一定間隔、20〜50フレーム(1フレームは認識処理区間単位で例えば10ミリ秒)ごと、例えば300ミリ秒ごとに調査し(ステップS36)、その時点で認識処理が進んだサンプル位置を音声認識部350から取得する(ステップS37)。認識進行管理部360は認識特徴量管理部330に対して認識特徴量記憶部340のうち認識処理が進んだ位置以前の認識特徴量を消去することを通知し、認識特徴量管理部330ではこの通知どおり該当する認識特徴量を消去する(ステップS38)。一方で認識進行管理部360は、サーバ送信部370の位置信号送信部371に対して上記認識処理が進んだ位置を進行位置信号として送信するように通知し、位置信号送信部371はクライアント計算機100へ上記進行位置信号を送信する(ステップS39)。
クライアント計算機100では、上記進行位置信号をクライアント受信部170の位置信号受信部171で受信すると(ステップS13)、検出特徴量管理部120に対して検出特徴量記憶部130に記憶されている検出特徴量中の進行位置以前のものの消去を通知し、検出特徴量管理部120ではこの通知どおり該当する音声検出特徴量を消去する(ステップS14)。
上述の認識進行管理部360での進行状況調査は一定間隔で行われ、随時、サーバ計算機300及びクライアント計算機100における各記憶部からその進行位置以前に記憶した特徴量が消去され、記憶部130,140が有効に用いられ比較的小さい記憶容量のもので済む。
音声認識部350内の区間終了検出部351がその音声区間の終了を検出し、音声認識処理が終了したことを認識進行管理部360が検知すると(ステップS40)、上述の一定間隔での認識処理の進行調査時と同様に、音声区間が終了した位置を取得し(ステップS41)、認識特徴量管理部330に対して認識特徴量記憶部340に記憶されている音声区間の終了サンプル位置以前の認識特徴量の消去を通知し、認識特徴量管理部330ではその通知どおり該当する認識特徴量を消去する(ステップS42)。この消去により記憶部340を有効に用いることができる。
一方で認識進行管理部360では、位置信号送信部371に対して上記音声区間が終了したサンプル位置を送信するように通知し、位置信号送信部371はクライアント計算機100へ音声区間が終了したサンプル位置を音声区間終了位置信号(音声終了)として送信する(ステップS43)。
クライアント計算機100では、上記音声区間終了位置信号を位置信号受信部171で受信すると(ステップS15)、検出特徴量管理部120に対して検出特徴量記憶部130のうち音声区間終了位置以前の検出特徴量の消去を通知し、検出特徴量管理部120ではその通知のとおり該当する検出特徴量を消去する(ステップS16)。それと同時に、音声検出部140に対して、現在実行中の音声、非音声判別処理を中断し、上記音声区間の終了位置から音声、非音声判別処理を再開始するように通知し、音声検出部140はこの通知どおりにステップS3に戻って音声、非音声判別処理を再開始する(ステップS18)。
またサーバ計算機300の認識進行管理部360が、音声認識部350における音声区間の終了を検知すると音声認識部350において出力された認識結果をサーバ送信部370の認識結果送信部372よりクライアント計算機100に送信する(ステップS43)。クライアント計算機100ではその認識結果をクライアント受信部170の認識結果受信部172にて受信し、ステップS17の処理の前に図に示していない音声認識結果出力装置に出力端子102より出力してステップS3に戻る(ステップS18)。
これ以降の動作は上記で説明した内容の繰り返しである。なおステップS1の検出特徴量の抽出は各フレームごとに常に行われており、図2は主に検出特徴量記憶部130が検出特徴量を読み出して処理する以後の手順を示す。
サーバ計算機300は一般にハードウェア及びソフトウェア規模が大きい高価なものであり、よって区間終了検出部351として検出能力が高い高価なものを用いてもサーバ計算機300としてはそれ程高価なものにならない。一方、クライアント計算機100は一般にハードウェア及びソフトウェア規模が比較的小さい安価なものである。よって音声区間終了の検出能力が比較的低い安価なものを用い、サーバ計算機300の区間終了検出部351として検出能力が高いものを用い、前述したようにサーバ計算機300で音声区間終了を検出すると、その位置を示す終了信号とクライアント計算機100へ送信し、クライアント計算機100で、その終了信号が示す位置から、改めて、音声検出を行うことにより、クライアント計算機100で音声区間が終了してもこれを検出することができず、音声区間として信号を送信しても、またクライアント計算機100とサーバ計算機300との間に修理ずれ(後者が遅れる)があってもクライアント計算機100で音声区間の開始を確実に検出することができ、従って音声認識率も高くなる。また終了信号の受信から、次の音声区間の開始までの非音声信号は送信されず、それだけ通信量が減少する。
更に前記例のように検出結果情報を送信する場合は、これは音声か、非音声かを表わす1ビットのみでよく、音声区間信号に対する検出結果情報の場合、その音声区間信号より、著しく少ない通信量で済み、非音声区間に対して、検出結果情報を送る場合も少ない通信量でクライアント計算機100とサーバ計算機300との処理同期を維持できる。
具体的処理例
次に、図4〜図7を参照して、この発明において行われる位置信号の送受信とクライアント計算機100及びサーバ計算機300の各特徴量記憶部130及び340における特徴量の記憶、消去の状態、音声区間の検出再開始の流れを具体的に説明する。
図2はクライアント計算機で音声検出が開始され、音声の開始を検出し、入力信号を図4〜図7中のAに示すグラフは入力信号を表し、横軸を時刻(音声入力開始を基点としたサンプル位置)、縦軸を音声のパワー(音量)とし、その中で音声の区間と非音声の区間が存在している。各図のBにおける四角の列は、クライアント計算機100の検出特徴量記憶部130内における検出特徴量のフレームごとの記憶状態を入力信号に沿って示し、各図のCはクライアント計算機100とサーバ計算機300間で送信される信号を示し、各図のDの四角の列はサーバ計算機300の認識特徴量記憶部340における認識特徴量の各フレームごとの記憶状態を受信信号に沿って示している。
図4はクライアント計算機100で音声検出が開始され、音声区間の開始を検出し、音声区間の信号をサーバ計算機300へ送信する状態を示している。クライアント計算機100において入力信号が入力され、その最初のサンプル位置s0より音声区間の検出が開始され、各フレームごとに抽出された検出特徴量記憶部130に、各フレームごとに実線四角として記憶しながら読み出し音声区間の開始位置を探し始める。このとき、最初のサンプル位置s0が入力信号上の位置の基点となる。サンプル位置s1のフレームで音声区間の開始を検出すると、その音声区間の最初のフレームの入力信号Spをサーバ計算機300に送信するとともに区間開始位置としてサンプル位置s1の信号Psをサーバ計算機300に送信する。以降は順次、その音声区間のフレームごとの入力信号のみをサーバ計算機300に送信する。上述したように、クライアント計算機100とサーバ計算機300間での通信状況によりこの音声区間の信号の送受信に遅れを伴う場合がある。
サーバ計算機300ではクライアント計算機100から信号を受信すると、サンプル位置s1からの音声区間の1フレームごとの信号から抽出された認識特徴量を、サンプル位置s1から認識特徴量記憶部340に順次記憶し、またこれらを順次読み出して認識を開始する。このとき、クライアント計算機100の検出特徴量記憶部130においてもサーバ計算機300の認識特徴量記憶部340においてそれぞれ記憶された特徴量は消去されない。
クライアント計算機100においては音声区間検出が進み、またサーバ計算機300においては音声認識が進み、一定間隔ごとに進行位置信号Ppが発生し、それ以前に記憶した特徴量が消去される様子を図5に示す。サーバ計算機300でサンプル位置s2において進行位置信号Ppが発生し、認識特徴量記憶部340に記憶されているサンプル位置s2以前の認識特徴量が消去される。その消去された認識特徴量を点線の四角で示す。クライアント計算機100においてはサーバ計算機から受信された位置s2を示す進行位置信号Ppに従って、検出特徴量記憶部130に記憶されている位置s2以前の検出特徴量が点線四角で示すように消去される。
更に一定フレーム数が経過したサンプル位置s3でも同様に、進行位置信号Ppが発生して、サーバ計算機300では認識特徴量記憶部340に記憶されている位置s3以前の認識特徴量が消去され、クライアント計算機100では検出特徴量記憶部130に記憶されている位置s3以前の検出特徴量が消去される。
クライアント計算機100において音声区間検出が更に進み、サーバ計算機300において音声認識が更に進み、サーバ計算機300において音声区間終了(音声終了位置)を検知したが、クライアント計算機100においては音声区間の検出で音声区間の終了を検知されずにそれ以降も引き続き音声区間として検出し続けている様子を図6に示す。
サーバ計算機300においてサンプル位置s4にて音声区間の終了を検出し、音声認識特徴量記憶部340に記憶されているサンプル位置s4以前の認識特徴量が点線四角で示すように消去され、また音声区間の終了位置s4を示す音声区間終了位置信号Peがクライアント計算機100へ送信される。
クライアント計算機100においてはサーバ計算機300から受信されたサンプル位置s4を示す音声区間終了位置信号Peに従って、検出特徴量記憶部130に記憶されているサンプル位置s4以前の検出特徴量が点線四角で示すように消去され、それと同時に音声検出部140での音声区間の検出を中断させ、その音声区間終了位置信号Peを受信した時点、図6ではサンプル位置s5までの検出音声区間信号Spをサーバ計算機300へ送信する。
その後クライアント計算機100において音声区間の検出を再開し、音声区間の開始位置を検出し、すでにその部分の入力信号が送信済みの区間については音声検出部140の検出結果情報を、未送信の区間については入力信号中のその音声区間の信号をサーバ計算機300に送信する様子を図7に示す。
クライアント計算機100では、前回の音声区間が終了したサンプル位置s4の次のサンプルのフレームの検出特徴量から読み出して音声区間の検出を開始する。検出特徴量記憶部130には、音声区間終了位置信号Peの受信後も検出特徴量抽出部110で抽出されたフレームごとの検出特徴量が順次に記憶されている。この例ではサンプル位置s5より以前はすでに入力信号が音声区間の信号として送信している。よって次の音声区間を検出するまでは各フレームごとに音声検出部140で検出した非音声区間であることを示す検出結果情報UV(Un Voice)がサーバ計算機300に送信される。
よって音声検出部140の検出結果情報が送信されるが、図示例は、この検出結果は非音声であり、非音声区間であることを示す検出結果情報UV(Un Voice)がサーバ計算機300へ送信される。また、この図示例では既に送信済の区間、つまりサンプル位置s5と次の音声区間の開始位置、サンプル位置s6との間に、非音声区間が存在している。この例ではサーバ計算機300で、次の音声区間の開始のサンプル位置が、区間開始位置を送信することなく、知ることができるようにサンプル位置s5から、次の音声区間の開始サンプル位置s6までの各区間は音声検出部140の検出結果、つまり非音声を示す検出結果情報UVをサーバ計算機へ送信するようにしている。
つまり図2中において、ステップS4で入力信号が未送信であり、かつステップS5で音声区間を検出せず、またステップS7で発話における最初の音声区間でなければ、ステップS9で音声区間の開始前であるか否かを調べ、音声区間の前、つまり非音声区間であれば、ステップS11へ移って音声検出部140の検出結果情報UVをサーバ計算機300へ送信する。このようにすれば、入力信号の各フレームごとに検出開始位置、つまりサンプル位置s0から検出結果情報又は音声区間の信号のいずれかがサーバ計算機300へ送信され、クライアント計算機100とサーバ計算機300とでサンプル位置を同期させることができる。
サーバ計算機300においては検出結果情報UVを受信すると、これと対応する区間に該当する認識特徴量記憶部340内の認識特徴量がこの例では消去される。つまり図示例では認識特徴量記憶部340内のサンプル位置s4の次からサンプル位置s5に記憶された認識特徴量は点線四角のように消去される。その後、クライアント計算機100から受信した検出結果情報UVは記憶せず、その記憶部340内の記憶領域はなにも記憶されない。
次にクライアント計算機100ではサンプル位置s6で音声区間の開始が検出されると、そのサンプル位置s6よりその音声区間の各フレームの入力信号Spを次々にサーバ計算機300に送信する。
サーバ計算機300にて音声区間の信号を受信すると、そのサンプル位置s6より再び音声認識を開始する。
この図6の例ではサンプル位置s5の次のサンプルからサンプル位置s6の前のサンプルの非音声区間において入力信号を送信しない区間があり、その分の通信量を削減することができる。このとき検出結果情報は送信するが、それは例えば「音声」と「非音声」を区別する情報(1bit)であり、音声区間の入力信号と比較して格段に通信量は少なくて済む。
また音声区間の検出を再開始し(図7中に示す)、以後は非音声区間においては検出結果情報も送信せずに通信量を削減することもできる。その際には図2中に破線で示すようにステップS5では音声区間を待ち、ステップS7でその音声区間が発話の最初でなければステップS19に移り、その音声区間の直前に未送信区間があるか、つまり直前が非音声区間かの判定がなされ、未送信区間があればステップS8に移り、その音声区間の開始フレームの入力信号を送信する際にその開始フレーム位置、図7の例ではサンプル位置s6を示す開始位置をサーバ計算機300に送信し、クライアント計算機100とサーバ計算機300とで入力サンプル位置の同期をとる。またステップS4において未送信でないと判定されるとステップS20に移り、音声区間であればステップS11に移るが、音声区間でなければステップS5に移る。このようにして音声区間の再開始以後に検出した非音声についてはいずれの信号もサーバ計算機300へ送信しない。サーバ計算機300では各音声区間の始めにはその開始フレームの位置が受信され、これに基づきクライアント計算機100と同期をとることができる。またこの場合は音声区間の開始位置として最初の音声区間から何番目の音声区間であることを示す位でもよい。各音声区間ごとに開始位置が送られて来る場合はサーバ計算機300において、ステップS34で対応認識特徴量を消去することは行わなくてもよい。
いずれの方法においても、サーバ計算機300においてこの区間の音声認識処理を行う必要がなく、その分の音声認識処理に伴う処理量が軽減し、かつ余分な区間に対し音声認識を行うことに基づく誤認識、例えば雑音に対し、有意な認識結果を湧き出すなどを防ぐことができる。
さらに、上記効果を得るためにクライアント計算機100およびサーバ計算機300において処理済の記憶領域を確保する必要があるが、これら記憶領域のうち不必要な記憶領域を定期的に解放することによって両計算機における使用記憶容量を増大させることなく実行できる。
変形例
これまでは、サーバ計算機300においてのみ認識特徴量を抽出して音声認識を行う構成においての説明をしたが、例えば非特許文献1に示す、認識特徴量の少なくとも一部をクライアント計算機100で行う分散型音声認識方法にこの発明を適用できる。この場合における、前述した実施形態と異なる点のみを主として以下に説明する。この場合もサーバ計算機300において音声区間の開始検出機能が実装されておらず、音声認識の過程において音声区間の終了を検出し、その位置をクライアント計算機100に送信するが、サーバ計算機300において、音声認識部350の前段もしくは内部で音声区間開始検出もしくは音声区間終端検出機能が実装されている場合においても適用可能である。なお図1〜図3においてこの変形例を兼用して示すため変形例により異なる部分には括弧書き、又は破線で示す。
クライアント計算機100において音声検出部140で検出特徴量を読み込み、音声区
間の検出を行い、信号送信管理部150では、入力信号のサンプルごともしくはフレーム
ごとに入力信号から抽出された認識特徴量Aがサーバ計算機に未送信かそれとも送信済み
かを調査し(図2、ステップS4)、未送信であれば音声検出部140で検出された音声
区間の入力信号より、図1中の破線で示す認識特徴量A抽出部180において例えばケプ
ストラム及びパワーといった認識特徴量Aを抽出し(図2中のステップS8とS10の間
のステップS51)、認識特徴量送信部161より認識特徴量Aをサーバ計算機300に
送信する。認識特徴量Aが送信済みであれば検出結果情報送信部16より検出結果情報
をサーバ計算機300に送信する。このとき、音声区間の開始位置の送信は先の場合と同
様に行われる。
サーバ計算機300では、クライアント計算機100より送信された認識特徴量Aを認識特徴量受信部311で受信した場合は、認識特徴量B抽出部320において最終的に音声認識に用いるケプストラム、デルタケプストラム、パワー、デルタパワーといった一群認識特徴量Bを抽出し、認識特徴量管理部330を介して認識特徴量記憶部340に記憶する。例えば認識特徴量Aがケプストラム、パワーであり、これらより認識特徴量B抽出部320でデルタケプストラム、デルタパワーを抽出し、前記一群の認識特徴量Bを得る。ここで、音声認識に認識特徴量Aをそのまま用いる場合も考えられ、そのときはクライアント計算機100より受信した認識特徴量Aを、順次認識特徴量管理部330を介して認識特徴量記憶部340に記憶する。つまり図3においてステップS32で受信信号が検出結果情報でなければ破線で示すように直ちにステップS35へ移る。
サーバ計算機300における音声区間の終了の検出は図1中に破線で示すように区間終了検出部38を設けて、入力信号受信部311の受信音声区間の信号より検出してもよい。
図1中に示したクライアント装置及びサーバ装置はコンピュータによらず、構成することもでき、コンピュータにより機能させる場合は、例えば図2に示した処理方法の各過程をコンピュータに実行させるためのクライアント装置処理プログラムを、あるいは図3に示した処理方法の各過程をコンピュータに実行させるためのサーバ装置処理プログラムをコンピュータに、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体からインストールし、又は通信回線を介してダウンロードして、そのプログラムをコンピュータに実行させればよい。
この発明のクライアント・サーバ音声認識方法を適用したシステム構成例及びそのクライアント装置とサーバ装置の機能構成例を示すブロック図。 クライアント装置の処理手順の例を示す流れ図。 サーバ装置の処理手順の例を示す流れ図。 この発明の実施例において、クライアント計算機で音声検出が開始し始めた状態を説明するための図。 この発明の実施例において、音声認識が進み、一定間隔ごとに記憶部内認識特徴量が消去されている状態を説明するための図。 この発明の実施例において、サーバ計算機で音声終了を検知した状態を説明するための図。 この発明の実施例において、クライアント計算機で音声検出を再開した状態を説明するための図。

Claims (21)

  1. クライアント装置に入力された入力信号を上記クライアント装置とネットワークで接続
    されたサーバ装置に送信し、上記サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識方法において、
    上記クライアント装置は
    入力信号から音声区間の検出に用いる検出特徴量を抽出し、
    上記抽出した検出特徴量をその上記入力信号上の位置が分かるように検出特徴量記憶
    部に記憶し、
    上記検出特徴量記憶部から検出特徴量を読み出し、その読み出した検出特徴量を用いて音声区間か非音声区間かを検出し、
    上記音声区間の信号を、上記入力信号上の位置が分かるように上記サーバ装置に送信し、
    上記サーバ装置は
    最初の上記音声区間の信号における上記音声区間の開始位置を受信し、上記開始位置を基点として、上記クライアント装置から受信した上記音声区間の信号から音声認識に用いる認識特徴量を抽出し、
    上記認識特徴量を認識特徴量記憶部に記憶し、上記認識特徴量記憶部から上記認識特徴量を読み出して上記音声認識を行い、
    上記音声認識の処理に基づき、又は上記受信した音声区間の信号から音声区間の終了の検出を行い、音声区間の終了を検出すると、その終了位置を示す音声区間終了信号を上記クライアント装置へ送信し、
    上記クライアント装置は
    上記サーバ装置から音声区間終了位置を示す音声区間終了信号を受信し、上記音声区間終信号が示す上記入力信号上の位置以後から上記検出特徴量の上記読み出しを行い、上記音声区間か非音声区間かの検出を一旦停止した後、上記音声区間終了位置から上記音声区間か非音声区間かの検出を再開始し、再開始以後において、対応入力信号の音声区間の信号を上記サーバ装置へ送信したか否かを判定し、送信していれば、上記音声区間の検出結果を示す検出結果情報を上記サーバ装置へ送信し、
    上記サーバ装置は、
    上記クライアント装置から受信した信号が検出結果情報か否かを調べ、検出結果情報であれば、上記認識特徴量記憶部中の対応認識特徴量にその検出結果情報を付加し、又はその検出結果情報が音声であればその検出結果情報を付加するが、非音声であれば上記対応認識特徴量を消去す
    ことを特徴とするクライアント・サーバ音声認識方法。
  2. クライアント装置に入力された入力信号を上記クライアント装置とネットワークで接続
    されたサーバ装置に送信し、上記サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識方法において、
    上記クライアント装置は、
    入力信号から音声区間の検出に用いる検出特徴量を抽出し、
    上記抽出した検出特徴量をその上記入力信号上の位置が分かるように検出特徴量記憶
    部に記憶し、
    上記検出特徴量記憶部から検出特徴量を読み出し、その読み出した検出特徴量を用いて音声区間か非音声区間かを検出し、
    上記音声区間の信号を、上記入力信号上の位置が分かるように上記サーバ装置に送信し、
    上記サーバ装置は、
    各上記音声区間の信号における上記音声区間の開始位置を受信し、上記各開始位置を基点として、上記クライアント装置から受信した上記音声区間の信号から音声認識に用いる認識特徴量を抽出し、
    上記認識特徴量を認識特徴量記憶部に記憶し、上記認識特徴量記憶部から上記認識特徴量を読み出して上記音声認識を行い、
    上記音声認識の処理に基づき、又は上記受信した音声区間の信号から音声区間の終了の検出を行い、音声区間の終了を検出すると、その終了位置を示す音声終了を上記クライアント装置へ送信し、
    上記クライアント装置は、
    上記サーバ装置から音声区間終了位置を示す音声区間終了信号を受信し、上記音声区間終信号が示す上記入力信号上の位置以後から上記検出特徴量の上記読み出しを行い、上記音声区間か非音声区間かの検出を一旦停止した後、上記音声区間終了位置から上記音声区間か非音声区間かの検出を再開始し、再開始以後において、対応入力信号の音声区間の信号を上記サーバ装置へ送信したか否かを判定し、送信していれば、上記音声区間の検出結果を示す検出結果情報を上記サーバ装置へ送信し、
    上記サーバ装置は、
    上記クライアント装置から受信した信号が検出結果情報か否かを調べ、検出結果情報であれば、上記認識特徴量記憶部中の対応認識特徴量にその検出結果情報を付加する、
    ことを特徴とするクライアント・サーバ音声認識方法。
  3. クライアント装置に入力された入力信号を上記クライアント装置とネットワークで接続されたサーバ装置に送信し、上記サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識方法における上記クライアント装置の処理方法であって、
    入力信号から音声区間の検出に用いる検出特徴量を抽出し、
    上記抽出した検出特徴量をその入力信号上の位置がわかるように検出特徴量記憶部に記憶し、
    上記検出特徴量記憶部から検出特徴量を読み出して音声区間か非音声区間かを検出し
    記音声区間の信号を、その上記入力信号上の位置がわかるように上記サーバ装置に送信し、
    上記サーバ装置から音声区間終了位置を示す終了信号を受信して、上記音声区間か非音声区間かの検出を一旦停止した後、上記終了位置から再開始する時に対応入力信号の音声区間の信号を上記サーバ装置に送信したか否かを判定し、送信していれば、上記音声区間の検出結果を示す情報を上記サーバ装置へ送信することを特徴とする請求項1又は2に記載のクライアント装置処理方法。
  4. 上記検出特徴量の特徴量記憶部への記憶は、上記入力信号上の音声検出開始位置を基点として行い、
    上記音声区間の信号を上記サーバ装置へ送信する際に、上記入力信号中の少なくとも最初の音声区間の開始位置を、
    上記音声検出開始位置を基点とした上記サーバ装置へ送信し、
    上記音声区間終了信号は、上記音声検出開始位置を基点とした音声区間終了位置であることを特徴とする請求項3記載のクライアント装置処理方法。
  5. 上記音声区間の開始位置の送信は各音声区間ごとに行い、上記音声区間の検出結果を示す情報の送信は音声区間に対してのみ行うことを特徴とする請求項3記載のクライアント装置処理方法。
  6. 上記音声区間終了信号を受信すると、上記検出特徴量記憶部中の上記音声区間終了信号以前の検出特徴量を消去することを特徴とする請求項3〜5のいずれかに記載のクライアント装置処理方法。
  7. 上記サーバ装置から、音声認識進行位置を受信すると、上記検出特徴量記憶部中の上記音声認識進行位置以前の検出特徴量を消去することを特徴とする請求項3〜6のいずれかに記載のクライアント装置処理方法。
  8. 上記音声区間の信号より音声認識に用いる特徴量を抽出し、この認識特徴量を上記音声区間の信号として上記サーバ装置へ送信することを特徴とする請求項〜7のいずれかに記載のクライアント装置処理方法。
  9. クライアント装置に入力された入力信号を上記クライアント装置とネットワークで接続されたサーバ装置に送信し、上記サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識方法におけるサーバ装置の処理方法であって、
    上記クライアント装置から最初の音声区間の信号における上記音声区間の開始位置を受信し、
    上記音声区間の信号の開始位置を基点として音声認識に用いる認識特徴量を抽出し、
    上記認識特徴量を認識特徴量記憶部に記憶し、
    上記認識特徴量記憶部から上記認識特徴量を読み出して上記音声認識を行い、
    上記音声区間の終了の検出を行い、音声区間の終了を検出すると、その終了位置を示す音声区間終了信号を上記クライアント装置へ送信し、
    上記クライアント装置から受信した信号が上記検出結果情報か否かを調べ、検出結果情報であれば、上記認識特徴量記憶部中の対応認識特徴量にその検出結果情報を付加し、又はその検出結果情報が音声であればその検出結果情報を付加するが、非音声であれば上記対応認識特徴量を消去する、
    ことを特徴とするサーバ装置処理方法。
  10. クライアント装置に入力された入力信号を上記クライアント装置とネットワークで接続されたサーバ装置に送信し、上記サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識方法におけるサーバ装置の処理方法であって、
    上記クライアント装置から音声区間の信号における上記音声区間の開始位置を受信し、
    上記音声区間の信号の開始位置を基点として音声認識に用いる認識特徴量を抽出し、
    上記認識特徴量を認識特徴量記憶部に記憶し、
    上記認識特徴量記憶部から上記認識特徴量を読み出して上記音声認識を行い、
    上記音声区間の終了の検出を行い、音声区間の終了を検出すると、その終了位置を示す音声区間終了信号を上記クライアント装置へ送信し、
    上記クライアント装置から受信した信号が上記検出結果情報か否かを調べ、検出結果情報であれば、上記認識特徴量記憶部中の対応認識特徴量にその検出結果情報を付加する、
    ことを特徴とするサーバ装置処理方法。
  11. 上記音声終了は上記開始位置を基点とした位置であり、上記音声終了位置の上記クライアント装置への送信と同時に、上記認識特徴量記憶部に記憶されている上記音声終了位置以前の認識特徴量を消去することを特徴とする請求項又は1記載のサーバ装置処理方法。
  12. 上記開始位置を基点として、一定間隔で認識進行位置を上記クライアント装置へ送信すると共に上記認識特徴量記憶部中のその認識進行位置より以前の認識特徴量を消去することを特徴とする請求項〜1のいずれかに記載のサーバ装置処理方法。
  13. 上記受信した音声区間の信号は、その信号から抽出された認識特徴量であり、その認識特徴量を用いて更に他の認識特徴量を抽出し、又は抽出することなく、次の処理に移ることを特徴とする請求項9〜1のいずれかに記載のサーバ装置処理方法。
  14. クライアント装置に入力された音声信号を上記クライアント装置とネットワークで接続されたサーバ装置に音声を送信し、サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識システムのクライアント装置であって、
    入力信号から音声区間の検出に用いる検出特徴量を抽出する検出特徴量抽出部と、
    その検出特徴量抽出部で抽出された検出特徴量を記憶する検出特徴量記憶部と、
    その検出特徴量記憶部に対して検出特徴量の記憶、読み出しを管理する検出特徴量管理部と、
    その検出特徴量管理部を介して上記検出特徴量記憶部より読み出した検出特徴量を用いて音声区間を検出する音声検出部と、
    上記音声検出部が検出する音声か非音声かを表す検出結果情報を上記サーバ装置に送信する検出結果情報送信部と、
    上記入力信号中の上記検出部で検出された音声区間の信号を上記サーバ装置に送信する入力信号送信部と、
    上記サーバ装置から送信された音声終了位置を受信し、上記音声検出部に対して音声検出を中断し、その後音声区間の検出を再開位置を通知する位置信号受信部と、
    サーバ装置から送信された認識結果を受信し、音声認識結果出力装置に認識結果を出力する認識結果受信部と、
    を備えることを特徴とするクライアント装置。
  15. 上記音声検出部で検出された音声区間の信号から認識特徴量を抽出する認識特徴量抽出部を備え、
    上記入力信号送信部は上記認識特徴量を上記音声区間の信号として送信する送信部であることを特徴とする請求項1記載のクライアント装置。
  16. クライアント装置に入力された音声信号を上記クライアント装置とネットワークで接続されたサーバ装置に音声を送信し、サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識システムのサーバ装置であって、
    上記クライアント装置から送信された音声区間の信号を受信する入力信号受信部と、
    上記クライアント装置から送信された検出結果情報を受信する検出結果情報受信部と、
    その入力信号受信部において受信した音声区間の信号から音声認識に用いる認識特徴量を抽出する認識特徴量抽出部と、
    その認識特徴量抽出部で抽出された認識特徴量を記憶する認識特徴量記憶部と、
    その認識特徴量記憶部に対して認識特徴量の記憶、読み出しを上記検出結果情報を参照して管理する認識特徴量管理部と、
    その認識特徴量管理部を介して上記認識特徴量記憶部より読み出した認識特徴量を用いて音声認識を行う音声認識部と、
    その音声認識部の音声認識処理過程で音声区間の終了を検出する又は上記音声区間の信号から上記音声区間の終了位置を検出する区間終了検出部と、
    上記区間終了検出部が検出した音声区間の終了位置を上記クライアント装置に送信する位置信号送信部と
    を備え、
    上記認識特徴量管理部は、上記検出結果情報が音声であればその検出結果情報を対応する認識特徴量に付加するが、非音声であれば対応する認識特徴量を消去する、
    ことを特徴とするサーバ装置。
  17. クライアント装置に入力された音声信号を上記クライアント装置とネットワークで接続されたサーバ装置に音声を送信し、サーバ装置で音声認識を行い、その結果を上記クライアント装置に送信するクライアント・サーバ音声認識システムのサーバ装置であって、
    上記クライアント装置から送信された音声区間の信号を受信する入力信号受信部と、
    上記クライアント装置から送信された検出結果情報を受信する検出結果情報受信部と、
    その入力信号受信部において受信した音声区間の信号から音声認識に用いる認識特徴量を抽出する認識特徴量抽出部と、
    その認識特徴量抽出部で抽出された認識特徴量を記憶する認識特徴量記憶部と、
    その認識特徴量記憶部に対して認識特徴量の記憶、読み出しを上記検出結果情報を参照して管理する認識特徴量管理部と、
    その認識特徴量管理部を介して上記認識特徴量記憶部より読み出した認識特徴量を用いて音声認識を行う音声認識部と、
    その音声認識部の音声認識処理過程で音声区間の終了を検出する又は上記音声区間の信号から上記音声区間の終了位置を検出する区間終了検出部と、
    上記区間終了検出部が検出した音声区間の終了位置を上記クライアント装置に送信する位置信号送信部と
    を備え、
    上記認識特徴量管理部は、上記検出結果情報が音声であればその検出結果情報を対応する認識特徴量に付加する、
    ことを特徴とするサーバ装置。
  18. 上記入力信号受信部は上記音声区間の信号として認識特徴量を受信する受信部であり、
    上記認識特徴量抽出部は上記受信した認識特徴量をもとにさらに他の認識特徴量を抽出する認識特徴量抽出部であることを特徴とする請求項1記載のサーバ装置。
  19. 請求項〜8のいずれかに記載したクライアント装置処理方法の各過程をコンピュータに実行させるためのプログラム。
  20. 請求項9〜1のいずれかに記載したサーバ装置処理方法の各過程をコンピュータに実行させるためのプログラム。
  21. 請求項19又は20に記載したプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2004148298A 2004-05-18 2004-05-18 クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体 Active JP4425055B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004148298A JP4425055B2 (ja) 2004-05-18 2004-05-18 クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004148298A JP4425055B2 (ja) 2004-05-18 2004-05-18 クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2005331616A JP2005331616A (ja) 2005-12-02
JP4425055B2 true JP4425055B2 (ja) 2010-03-03

Family

ID=35486335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004148298A Active JP4425055B2 (ja) 2004-05-18 2004-05-18 クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4425055B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10210886B2 (en) 2014-09-17 2019-02-19 Kabushiki Kaisha Toshiba Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus
US11893982B2 (en) 2018-10-31 2024-02-06 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method therefor

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008158328A (ja) * 2006-12-25 2008-07-10 Ntt Docomo Inc 端末装置及び判別方法
JP5621993B2 (ja) 2009-10-28 2014-11-12 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム
KR101208166B1 (ko) 2010-12-16 2012-12-04 엔에이치엔(주) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
JP6276132B2 (ja) 2014-07-30 2018-02-07 株式会社東芝 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
JP6549009B2 (ja) * 2015-09-30 2019-07-24 株式会社東芝 通信端末及び音声認識システム
JP7473325B2 (ja) * 2019-11-12 2024-04-23 株式会社シーイーシー 音声情報生成装置、音声情報生成方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10210886B2 (en) 2014-09-17 2019-02-19 Kabushiki Kaisha Toshiba Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus
US11893982B2 (en) 2018-10-31 2024-02-06 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method therefor

Also Published As

Publication number Publication date
JP2005331616A (ja) 2005-12-02

Similar Documents

Publication Publication Date Title
US11037574B2 (en) Speaker recognition and speaker change detection
CN110047481B (zh) 用于语音识别的方法和装置
JP6139598B2 (ja) オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法
RU2525440C2 (ru) Основанные на языке разметки выбор и использование распознавателей для обработки произнесения
US20160125883A1 (en) Speech recognition client apparatus performing local speech recognition
US8224644B2 (en) Utterance processing for network-based speech recognition utilizing a client-side cache
JP3834169B2 (ja) 連続音声認識装置および記録媒体
CN111798833A (zh) 一种语音测试方法、装置、设备和存储介质
JP4425055B2 (ja) クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体
CN112307253A (zh) 一种基于预设录音标题自动生成语音文件的方法及系统
KR101368464B1 (ko) 음성 데이터 전사용 음성 인식 장치 및 방법
US10210886B2 (en) Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus
JP6867939B2 (ja) 計算機、言語解析方法、及びプログラム
JP5673239B2 (ja) 音声認識装置、音声認識方法、および音声認識プログラム
KR20200053242A (ko) 차량용 음성 인식 시스템 및 그 제어 방법
CN110931021A (zh) 一种音频信号处理方法及装置
CN112542157A (zh) 语音处理方法、装置、电子设备及计算机可读存储介质
KR100574883B1 (ko) 비음성 제거에 의한 음성 추출 방법
US20210104225A1 (en) Phoneme sound based controller
CN113206996B (zh) 一种业务录制数据的质检方法及装置
WO2022201458A1 (ja) 音声対話システム、音声対話方法及び音声対話管理装置
CN113658581B (zh) 声学模型的训练、语音处理方法、装置、设备及存储介质
CN112542159B (zh) 一种数据处理方法以及设备
JP2004309682A (ja) 音声対話方法、音声対話端末装置、音声対話センタ装置、音声対話プログラム
CN111583956B (zh) 语音处理方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060725

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091201

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091208

R150 Certificate of patent or registration of utility model

Ref document number: 4425055

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131218

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350