JP2005331616A - Client to server speech recognition method, device for use in same, and its program and recording medium - Google Patents
Client to server speech recognition method, device for use in same, and its program and recording medium Download PDFInfo
- Publication number
- JP2005331616A JP2005331616A JP2004148298A JP2004148298A JP2005331616A JP 2005331616 A JP2005331616 A JP 2005331616A JP 2004148298 A JP2004148298 A JP 2004148298A JP 2004148298 A JP2004148298 A JP 2004148298A JP 2005331616 A JP2005331616 A JP 2005331616A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- voice
- speech
- signal
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000000284 extract Substances 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims description 136
- 238000003672 processing method Methods 0.000 claims description 21
- 230000005540 biological transmission Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 18
- 230000008054 signal transmission Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 abstract description 28
- 238000004891 communication Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Abstract
Description
この発明は、クライアント装置に入力された入力信号を、ネットワークを介して接続されたサーバ装置に送信し、サーバ装置で音声認識を行い、その認識結果をクライアント装置に送信するクライアント・サーバ音声認識方法及びこれに用いる装置、そのプログラム、その記録媒体に関する。 The present invention relates to a client / server speech recognition method for transmitting an input signal input to a client device to a server device connected via a network, performing speech recognition at the server device, and transmitting the recognition result to the client device. In addition, the present invention relates to a device used therefor, a program thereof, and a recording medium thereof.
クライアント・サーバ音声認識方法においてクライアント装置からサーバ装置への音声送信は、一般的にクライアント装置で入力信号から音声区間を検出し、入力信号中のその音声区間の信号のみをサーバ装置に送信して、通信量を削減し、サーバ装置では受信した信号の全てについて音声認識処理を行う。
このようなクライアント・サーバ音声認識方法では、クライアント装置に音声入力信号が入力されてからサーバ装置へ音声区間の信号を送信するまでに必要とする処理と比較して、サーバ装置での音声認識に必要とする処理が多いこと、クライアント装置とサーバ装置間の通信負荷状況により通信が遅れること、1台のサーバ装置で複数のクライアント装置からの要求を処理することなどの理由により、クライアント装置での処理がサーバ装置での処理に比べて一方的に先に進むことが多い。
In the client / server speech recognition method, the voice transmission from the client device to the server device is generally performed by detecting the voice section from the input signal in the client apparatus and transmitting only the signal of the voice section in the input signal to the server apparatus. The amount of communication is reduced, and the server apparatus performs voice recognition processing on all received signals.
In such a client / server speech recognition method, compared with the processing required from when a speech input signal is input to the client device to when a signal in the speech section is transmitted to the server device, speech recognition at the server device is performed. Due to the large amount of processing required, communication delays due to the communication load between the client device and the server device, processing of requests from multiple client devices with one server device, etc. In many cases, processing proceeds unilaterally as compared with processing in the server device.
非特許文献1に示すように音声認識特徴量抽出処理の一部をクライアント装置で行い、それらをサーバ装置に送信し、サーバ装置において残る音声認識特徴量抽出処理を行う分散型音声認識(Distributed Speech Recognition、以下DSRとする)がある。
クライアント装置は一般に計算能力が低いため、クライアント装置には実装が困難であるが、計算能力の高いサーバ装置には実装が容易な、音声区間検出精度が高いが処理量の多い音声区間検出機能、あるいはサーバ装置で行う音声認識処理の過程において指定された文法から発声の終了を検出する機能をサーバ装置に実装してサーバ装置でのみ音声区間を検出することもできる。この場合はクライアント装置から音声認識に必要としない非音声信号もクライアント装置へ送信し、通信量が多くなる。
Since client devices generally have low computing capabilities, they are difficult to implement on client devices, but they are easy to implement on server devices with high computing capabilities. Alternatively, a function for detecting the end of utterance from the grammar specified in the process of the speech recognition process performed by the server device can be installed in the server device, and the speech section can be detected only by the server device. In this case, a non-voice signal that is not required for voice recognition is also transmitted from the client device to the client device, increasing the amount of communication.
クライアント装置に処理量が少なくて済む音声区間検出機能を実装し、サーバ装置に多くの処理量を必要とする音声区間検出機能を実装してクライアント・サーバ音声認識を行ってクライアント装置とサーバ装置間の通信量を削減し、かつより厳密な音声区間の検出とそれに伴う高精度な音声認識を可能とすることが考えられる。
しかしこの場合は両装置の進行状況にズレが発生する。このため、音声区間と非音声区間が繰り返し入力されると、クライアント装置ではその音声区間の検出精度が悪いため、音声区間が実際には終了しているが、これを検出できないで音声区間終了後の非音声区間の信号を音声区間の信号としてサーバ装置へ送信し続けた場合、クライアント装置からは本来は非音声信号であって送信する必要がない信号をサーバ装置へ送信しクライアント装置とサーバ装置間の通信量が増大し、かつサーバ装置は本来、音声認識する必要のない非音声区間の音声認識処理も行うため、サーバ装置での音声認識に必要な処理量も増大し、また、クライアント装置は本来は非音声区間である信号を音声区間の信号としているため、次の音声区間に対する正確な音声開始位置の検出が困難となり、このためサーバ装置はこの開始位置が不正確な音声区間に対して音声認識を実行する可能性があり、音声認識率の劣化を招く恐れがある。
The client device implements a voice segment detection function that requires less processing, and the server device implements a voice segment detection function that requires a large amount of processing to perform client / server speech recognition, and between the client device and the server device. It is conceivable to reduce the amount of communication and enable more accurate speech segment detection and accompanying highly accurate speech recognition.
However, in this case, a deviation occurs in the progress of both devices. For this reason, when a voice section and a non-speech section are repeatedly input, the client apparatus has poor accuracy in detecting the voice section, so the voice section has actually ended. When the signal of the non-speech section is continuously transmitted to the server apparatus as the signal of the speech section, the client apparatus transmits a signal that is originally a non-speech signal and does not need to be transmitted to the server apparatus. And the server device also performs speech recognition processing in a non-speech section that originally does not need to be recognized, so the processing amount required for speech recognition in the server device also increases, and the client device Since a signal that is originally a non-speech segment is used as a speech segment signal, it is difficult to accurately detect the speech start position for the next speech segment. The start position may perform speech recognition on inaccurate speech section, thereby possibly deteriorating the speech recognition rate.
この発明の目的は、不必要な通信量を減らし、連続して音声を入力する際の音声の開始位置を正確に検出して、音声認識率を向上することができるクライアント・サーバ音声認識方法及びその装置、そのプログラム、その記録媒体を提供することにある。 An object of the present invention is to provide a client / server speech recognition method capable of reducing an unnecessary communication amount, accurately detecting a start position of speech when continuously inputting speech, and improving a speech recognition rate. To provide the device, the program, and the recording medium.
この発明によれば、クライアント装置は入力信号より音声区間検出に用いる検出特徴量を抽出し、この検出特徴量を用いて音声区間を検出し、入力信号中のこの音声区間の信号をサーバ装置に送信し、
サーバ装置は受信した音声区間の信号より音声認識に用いる認識特徴量を抽出し、この認識特徴量を用いて音声認識を行い、音声認識処理により得られた情報又は受信した音声区間の信号を用いて音声区間の終了位置を検出してクライアント装置に送信し、
クライアント装置は音声終了位置を受信すると、音声区間の検出処理を中断し、受信した音声区間終了位置から検出特徴量の抽出を新たに開始する。
According to the present invention, the client device extracts a detected feature amount used for speech section detection from the input signal, detects the speech section using the detected feature amount, and transmits the signal of the speech section in the input signal to the server device. Send
The server device extracts a recognition feature amount used for speech recognition from the received speech section signal, performs speech recognition using the recognition feature amount, and uses information obtained by speech recognition processing or a received speech section signal. To detect the end position of the voice interval and send it to the client device,
When the client apparatus receives the voice end position, the client section interrupts the voice section detection process, and newly starts detection feature amount extraction from the received voice section end position.
この構成によれば、クライアント装置は音声区間の信号だけをサーバ装置へ送信しているので、通信量を大幅に減少でき、しかもサーバ装置で音声区間の終了を検出しているから、この位置を正確に検出でき、かつこの音声区間の終了をクライアント装置に送信し、クライアント装置は音声区間終了を受信すると、音声区間の検出を中断し、改めて次の音声区間の検出をその受信した音声区間の終了位置から開始するため、常に正しく音声区間の開始位置を正確に検出でき、サーバ装置における音声認識の認識率が向上する。またクライアント装置におけるサーバ装置より音声区間終了の受信から次の音声区間の開始までは非音声信号が誤って音声区間信号としてサーバ装置へ送信するおそれがなく、それだけ通信量が減少する。 According to this configuration, since the client device transmits only the signal of the voice interval to the server device, the communication volume can be greatly reduced, and the end of the voice interval is detected by the server device. When the end of the voice segment can be accurately detected and transmitted to the client device, and the client device receives the end of the voice segment, the detection of the next voice segment is detected again in the received voice segment. Since it starts from the end position, the start position of the voice section can always be accurately detected accurately, and the recognition rate of voice recognition in the server device is improved. Further, there is no possibility that the non-voice signal is erroneously transmitted to the server apparatus as a voice section signal from the reception of the voice section end to the start of the next voice section from the server apparatus in the client apparatus, and the communication amount is reduced accordingly.
以下この発明の実施形態を図面を用いて説明する。図1にこの発明方法を適用したシステム構成と、この発明のクライアント装置の実施形態及びこの発明のサーバ装置の実施形態の各機能構成を示し、図2にこの発明のクライアント装置処理方法の実施形態の流れ図を、図3にこの発明のサーバ装置処理方法の実施形態の流れ図をそれぞれ示す。この実施形態ではクライアント装置及びサーバ装置をそれぞれ電子計算機を用いて機能させた場合であり、以後、クライアント計算機及びサーバ計算機と書く。またこの実施形態ではサーバ計算機として音声区間の開始を検出する機能は実装されていないが、音声認識の過程で音声区間の終了を検出する機能が実装されている場合であるが、サーバ計算機において、音声認識部の前段もしくは内部で音声区間の開始検出もしくは終端の検出機能が実装されている場合においてもこの発明は適用可能であり、これらの検出は受信した音声区間の信号を用いて行ってもよい。
クライアント計算機100はLAN(Local Area Network)などのネットワーク200を介してサーバ計算機300と接続される。この実施形態ではクライアント計算機100において音声区間の検出に必要な検出特徴量を過去の分まで検出特徴量記憶部に記憶し、サーバ計算機300において検出された音声区間が終了したサンプル位置をクライアント計算機100に送信し、クライアント計算機100が受信した音声区間終了のサンプル位置以後より音声区間の検出を再実行する場合である。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 shows a system configuration to which the method of the present invention is applied, a functional configuration of a client device of the present invention, and a server device of the present invention, and FIG. 2 shows an embodiment of the client device processing method of the present invention. FIG. 3 shows a flowchart of the embodiment of the server apparatus processing method of the present invention. In this embodiment, the client device and the server device are respectively functioned using an electronic computer, and are hereinafter referred to as a client computer and a server computer. In this embodiment, the server computer is not implemented with a function for detecting the start of a voice segment, but is a case where a function for detecting the end of a voice segment in the process of speech recognition is implemented. The present invention can also be applied when a voice section start detection or end detection function is implemented before or inside the voice recognition unit, and these detections may be performed using a received voice section signal. Good.
The client computer 100 is connected to the server computer 300 via a
機能構成及び処理手順
クライアント計算機100では、図に示していない前段のA/D変換器などでデジタル化された入力信号が音声信号入力装置(図示せず)より入力端子101を通じて検出特徴量抽出部110に入力され、この検出特徴量抽出部110において入力信号から音声区間の検出に用いる検出特徴量が抽出される(ステップS1)。例えば入力信号の複数サンプル(フレームという)から計算した音声パワーやピッチなどが検出特徴量として計算される。この例ではその抽出した検出特徴量は、検出特徴量管理部120を介して検出特徴量記憶部130に順次記憶される(ステップS1)。この際、各検出特徴量を入力信号上の位置と対応づけて記憶部130に記憶する。この例では入力信号に対する処理、つまり検出特徴量の抽出開始サンプル位置s0を基点として設定し(ステップS2)、各検出特徴量をサンプル位置と対応づけ、記憶部130に記憶する。
Functional Configuration and Processing Procedure In the client computer 100, an input signal digitized by a preceding A / D converter or the like not shown in the figure is detected from an audio signal input device (not shown) through an
音声検出部140では時間経過に沿って、つまり順次記憶された検出特徴量を、検出特徴量管理部120を介して検出特徴量記憶部130より読み込み、これら検出特徴量に基づき音声信号を検出する、つまり対応する入力信号が音声か非音声かの判別を行う(ステップS3)。またこの例では信号送信管理部150は、入力信号のサンプルごともしくはフレームごとに、入力信号がサーバ計算機300に対し未送信かそれとも送信済みかを調査し(ステップS4)、未送信であれば音声検出部140での検出が音声、つまり音声区間の場合は(ステップS5)、その音声区間のその入力信号をクライアント送信部160の入力信号送信部161より、1フレーム又は複数フレームごとにパケットとしてサーバ計算機300に送信し(ステップS10)、送信済みであれば、クライアント送信部160の検出結果情報送信部162より音声検出部140の判別結果(以下検出結果という)の情報、例えば既に送信済みの入力信号に対して「音声」か「非音声」を表す検出結果情報をサーバ計算機300に送信する(ステップS11)。
The
更にこの例ではステップS5でその未送信信号が音声区間であれば、これがその音声区間の開始の部分であるかを判定し(ステップS6)、音声区間の開始部分であればその音声区間が1回の発話における最初のものかを調べ(ステップS7)、最初の音声区間であればその音声区間の開始のフレームの入力信号上の位置を示す開始位置をサーバ計算機300へ送信し(ステップS8)、またその音声区間の開始部分(フレーム)と対応する入力信号をサーバ計算機300へ送信する。この例では入力信号の処理を開始した時点、つまり入力端子101に入力信号が入力されたその入力信号開始位置を基点(基点サンプル位置)とした、前記最初の音声区間における開始部分のフレームを示すサンプル位置を開始位置としてサーバ計算機300へ送信する。この開始位置の送信をするか否かは信号送信管理部150が行う。
Further, in this example, if the untransmitted signal is a voice section in step S5, it is determined whether this is the start part of the voice section (step S6). If it is the first speech section, it is checked (step S7), and if it is the first speech section, the start position indicating the position on the input signal of the start frame of the speech section is transmitted to the server computer 300 (step S8). In addition, an input signal corresponding to the start portion (frame) of the voice section is transmitted to the server computer 300. In this example, the frame of the start portion in the first speech section is shown with the base point (base point sample position) when the input signal processing is started, that is, the input signal start position where the input signal is input to the
また後述のようにクライアント計算機100で終了信号を受信し、音声検出部140での音声、非音声判別処理を中断し、その後、受信した終了信号が示す位置から音声、非音声の判別処理をして音声区間の検出を再開始し、音声区間の開始を検出して音声区間の信号を送信する際に、その新たに検出した音声区間開始位置と、それまでに送信した検出結果情報の最後のサンプル位置との間に、未送信の区間があった場合は非音声区間についてもそれを示す検出結果情報を送信するようにした場合である。つまりステップS5での判定が音声区間でなければステップS7に移り、ステップS7で音声区間が最初のものでなければ次の音声区間の開始前であるかを調べ(ステップS9)、音声区間開始前であればステップS11に移り、検出結果情報、つまり非音声を示す情報が送信される。
As will be described later, the client computer 100 receives the end signal, interrupts the voice / non-voice discrimination processing in the
このようにしてこの実施形態ではサーバ計算機300はクライアント計算機100から送信された音声検出開始位置を基点として、少なくともパケットごとに入力信号上での所定サンプルごとになんらかの信号がクライアント計算機100から送信され、また受信した終了信号が示す位置から、音声検出を再開するため、音声区間の終了の検出誤りおよび検出結果情報の送信過程で発生する欠落により、音声区間の信号もしくは検出結果情報とサンプル位置との対応付けがずれる問題を回避している。この問題は一定間隔ごとに入力サンプル位置情報をクライアント計算機100からサーバ計算機300に送る(ステップS12)ことで回避してもよい。 In this way, in this embodiment, the server computer 300 transmits some signal from the client computer 100 for each predetermined sample on the input signal at least for each packet, based on the voice detection start position transmitted from the client computer 100. In addition, in order to restart the voice detection from the position indicated by the received end signal, the voice section signal or the detection result information and the sample position are detected due to a detection error at the end of the voice section and a loss generated in the transmission process of the detection result information. The problem of misalignment is avoided. This problem may be avoided by sending the input sample position information from the client computer 100 to the server computer 300 at regular intervals (step S12).
サーバ計算機300では、クライアント計算機100より送信された音声区間の信号をサーバ受信部310の入力信号受信部311で受信すると、認識特徴量抽出部320において、1フレームごとに例えばケプストラム、デルタケプストラム、パワー、デルタパワーの一群など音声認識に用いる認識特徴量を音声区間の信号より抽出し、認識特徴量管理部330を介して認識特徴量記憶部340に記憶する。
クライアント計算機100より送信された検出結果情報を、サーバ受信部310内の検出結果情報受信部312で受信した場合は、認識特徴量管理部330を介して、認識特徴量記憶部340に記憶されている既に抽出済みの認識特徴量のうち、受信した検出結果情報と同じサンプル位置の認識特徴量にその検出結果情報を付加する。検出結果情報が非音声であればその付加をすることなく、その検出結果情報と同じサンプル位置の認識特徴量を消去してもよい。
In the server computer 300, when the signal of the voice section transmitted from the client computer 100 is received by the input
When the detection result information transmitted from the client computer 100 is received by the detection result
つまり図3に示すように、サーバ計算機300のサーバ受信部310がクライアント計算機100からの送信信号を受信すると(ステップS31)、それが検出結果情報ではなく、つまり音声区間の信号であれば(ステップS32)、その信号から認識特徴量を抽出して、認識特徴量記憶部340に記憶する(ステップS33)。その際、その音声区間信号が、最初(発話の)の音声区間の開始のものであれば、その音声区間開始位置も同時に受信され、その音声区間開始位置(サンプル位置)と対応付けて認識特徴量が記憶され、また他の音声区間信号の認識特徴量も、各パケットごとに、各フレームごとに、前記音声区間開始信号を基準とする位置(サンプル位置)ごとに対応付けられる。受信信号が検出結果情報であれば、その検出結果情報がそのサンプル位置と対応付けて認識特徴量記憶部340内に記憶される(ステップS34)。検出結果情報が受信される場合は、後述するようにサーバ計算機300において音声区間の終了を検出し、この終了のサンプル位置をクライアント計算機100へ送信し、クライアント計算機100がその終了サンプル位置以後から音声検出を再開始した場合であり、サーバ計算機300は受信した検出結果情報を、認識特徴量記憶部340に記憶されている、そのサンプル位置と対応する認識特徴量に対し付加することができる。あるいは検出結果情報が非音声であれば、その認識特徴量を消去することができる。
That is, as shown in FIG. 3, when the
音声認識部350は時間経過に沿って、つまり認識特徴量記憶部340に記憶された順に、1フレームごとに認識特徴量管理部330を介して認識特徴量記憶部340より音声区間の認識特徴量を読み込み、音声認識を行う(ステップS35)。
またこの実施形態ではクライアント計算機100に記憶する検出特徴量記憶部130の記憶容量を増加させないために、一定間隔ごとにサーバ計算機300から音声認識処理した音声のサンプル位置をクライアント計算機100に送信し、クライアント計算機100では、そのサンプル位置より以前に遡って音声検出をする必要がないとして該当する検出特徴量記憶部130内の記憶した検出特徴量を消去するものである。このため認識進行管理部360で音声認識の進行状況を、ある一定間隔、20〜50フレーム(1フレームは認識処理区間単位で例えば10ミリ秒)ごと、例えば300ミリ秒ごとに調査し(ステップS36)、その時点で認識処理が進んだサンプル位置を音声認識部350から取得する(ステップS37)。認識進行管理部360は認識特徴量管理部330に対して認識特徴量記憶部340のうち認識処理が進んだ位置以前の認識特徴量を消去することを通知し、認識特徴量管理部330ではこの通知どおり該当する認識特徴量を消去する(ステップS38)。一方で認識進行管理部360は、サーバ送信部370の位置信号送信部371に対して上記認識処理が進んだ位置を進行位置信号として送信するように通知し、位置信号送信部371はクライアント計算機100へ上記進行位置信号を送信する(ステップS39)。
The
In this embodiment, in order not to increase the storage capacity of the detected feature
クライアント計算機100では、上記進行位置信号をクライアント受信部170の位置信号受信部171で受信すると(ステップS13)、検出特徴量管理部120に対して検出特徴量記憶部130に記憶されている検出特徴量中の進行位置以前のものの消去を通知し、検出特徴量管理部120ではこの通知どおり該当する音声検出特徴量を消去する(ステップS14)。
上述の認識進行管理部360での進行状況調査は一定間隔で行われ、随時、サーバ計算機300及びクライアント計算機100における各記憶部からその進行位置以前に記憶した特徴量が消去され、記憶部130,140が有効に用いられ比較的小さい記憶容量のもので済む。
In the client computer 100, when the position signal receiving unit 171 of the
The above-described progress check in the recognition
音声認識部350内の区間終了検出部351がその音声区間の終了を検出し、音声認識処理が終了したことを認識進行管理部360が検知すると(ステップS40)、上述の一定間隔での認識処理の進行調査時と同様に、音声区間が終了した位置を取得し(ステップS41)、認識特徴量管理部330に対して認識特徴量記憶部340に記憶されている音声区間の終了サンプル位置以前の認識特徴量の消去を通知し、認識特徴量管理部330ではその通知どおり該当する認識特徴量を消去する(ステップS42)。この消去により記憶部340を有効に用いることができる。
When the section end detection unit 351 in the
一方で認識進行管理部360では、位置信号送信部371に対して上記音声区間が終了したサンプル位置を送信するように通知し、位置信号送信部371はクライアント計算機100へ音声区間が終了したサンプル位置を音声区間終了位置信号(音声終了)として送信する(ステップS43)。
クライアント計算機100では、上記音声区間終了位置信号を位置信号受信部171で受信すると(ステップS15)、検出特徴量管理部120に対して検出特徴量記憶部130のうち音声区間終了位置以前の検出特徴量の消去を通知し、検出特徴量管理部120ではその通知のとおり該当する検出特徴量を消去する(ステップS16)。それと同時に、音声検出部140に対して、現在実行中の音声、非音声判別処理を中断し、上記音声区間の終了位置から音声、非音声判別処理を再開始するように通知し、音声検出部140はこの通知どおりにステップS3に戻って音声、非音声判別処理を再開始する(ステップS18)。
On the other hand, the recognition
In the client computer 100, when the position signal receiving unit 171 receives the voice segment end position signal (step S15), the detected feature
またサーバ計算機300の認識進行管理部360が、音声認識部350における音声区間の終了を検知すると音声認識部350において出力された認識結果をサーバ送信部370の認識結果送信部372よりクライアント計算機100に送信する(ステップS43)。クライアント計算機100ではその認識結果をクライアント受信部170の認識結果受信部172にて受信し、ステップS17の処理の前に図に示していない音声認識結果出力装置に出力端子102より出力してステップS3に戻る(ステップS18)。
これ以降の動作は上記で説明した内容の繰り返しである。なおステップS1の検出特徴量の抽出は各フレームごとに常に行われており、図2は主に検出特徴量記憶部130が検出特徴量を読み出して処理する以後の手順を示す。
When the recognition
The subsequent operations are the same as described above. Extraction of the detected feature value in step S1 is always performed for each frame, and FIG. 2 mainly shows a procedure after the detected feature
サーバ計算機300は一般にハードウェア及びソフトウェア規模が大きい高価なものであり、よって区間終了検出部351として検出能力が高い高価なものを用いてもサーバ計算機300としてはそれ程高価なものにならない。一方、クライアント計算機100は一般にハードウェア及びソフトウェア規模が比較的小さい安価なものである。よって音声区間終了の検出能力が比較的低い安価なものを用い、サーバ計算機300の区間終了検出部351として検出能力が高いものを用い、前述したようにサーバ計算機300で音声区間終了を検出すると、その位置を示す終了信号とクライアント計算機100へ送信し、クライアント計算機100で、その終了信号が示す位置から、改めて、音声検出を行うことにより、クライアント計算機100で音声区間が終了してもこれを検出することができず、音声区間として信号を送信しても、またクライアント計算機100とサーバ計算機300との間に修理ずれ(後者が遅れる)があってもクライアント計算機100で音声区間の開始を確実に検出することができ、従って音声認識率も高くなる。また終了信号の受信から、次の音声区間の開始までの非音声信号は送信されず、それだけ通信量が減少する。
更に前記例のように検出結果情報を送信する場合は、これは音声か、非音声かを表わす1ビットのみでよく、音声区間信号に対する検出結果情報の場合、その音声区間信号より、著しく少ない通信量で済み、非音声区間に対して、検出結果情報を送る場合も少ない通信量でクライアント計算機100とサーバ計算機300との処理同期を維持できる。
The server computer 300 is generally expensive and has a large hardware and software scale. Therefore, even if an expensive computer having high detection capability is used as the section end detection unit 351, the server computer 300 is not so expensive. On the other hand, the client computer 100 is generally an inexpensive one having a relatively small hardware and software scale. Therefore, using a low-priced one having a relatively low detection capability of the voice section and a high detection capability as the section end detection unit 351 of the server computer 300, and detecting the voice section end by the server computer 300 as described above, The end signal indicating the position is transmitted to the client computer 100, and the client computer 100 detects the voice again from the position indicated by the end signal. Even if a signal is transmitted as a voice interval and there is a repair gap between the client computer 100 and the server computer 300 (the latter is delayed), the client computer 100 can reliably start the voice interval. Therefore, the speech recognition rate is also increased. Further, the non-voice signal from the reception of the end signal to the start of the next voice section is not transmitted, and the communication amount is reduced accordingly.
Further, when detecting result information is transmitted as in the above example, this is only one bit indicating whether it is voice or non-speech. In the case of detection result information for a voice interval signal, communication is significantly less than that of the voice interval signal. Even when the detection result information is sent to the non-voice section, the processing synchronization between the client computer 100 and the server computer 300 can be maintained with a small communication amount.
具体的処理例
次に、図4〜図7を参照して、この発明において行われる位置信号の送受信とクライアント計算機100及びサーバ計算機300の各特徴量記憶部130及び340における特徴量の記憶、消去の状態、音声区間の検出再開始の流れを具体的に説明する。
図2はクライアント計算機で音声検出が開始され、音声の開始を検出し、入力信号を図4〜図7中のAに示すグラフは入力信号を表し、横軸を時刻(音声入力開始を基点としたサンプル位置)、縦軸を音声のパワー(音量)とし、その中で音声の区間と非音声の区間が存在している。各図のBにおける四角の列は、クライアント計算機100の検出特徴量記憶部130内における検出特徴量のフレームごとの記憶状態を入力信号に沿って示し、各図のCはクライアント計算機100とサーバ計算機300間で送信される信号を示し、各図のDの四角の列はサーバ計算機300の認識特徴量記憶部340における認識特徴量の各フレームごとの記憶状態を受信信号に沿って示している。
Specific Processing Example Next, with reference to FIG. 4 to FIG. 7, transmission / reception of position signals performed in the present invention, and storage and deletion of feature amounts in the feature
In FIG. 2, voice detection is started by the client computer, the start of voice is detected, the input signal is represented by the graph indicated by A in FIGS. 4 to 7, and the horizontal axis represents time (speech input start as a base point). Sampled position), and the vertical axis is voice power (volume), in which there are voice sections and non-voice sections. The square column in B in each figure shows the storage state of the detected feature quantity for each frame in the detected feature
図4はクライアント計算機100で音声検出が開始され、音声区間の開始を検出し、音声区間の信号をサーバ計算機300へ送信する状態を示している。クライアント計算機100において入力信号が入力され、その最初のサンプル位置s0より音声区間の検出が開始され、各フレームごとに抽出された検出特徴量記憶部130に、各フレームごとに実線四角として記憶しながら読み出し音声区間の開始位置を探し始める。このとき、最初のサンプル位置s0が入力信号上の位置の基点となる。サンプル位置s1のフレームで音声区間の開始を検出すると、その音声区間の最初のフレームの入力信号Spをサーバ計算機300に送信するとともに区間開始位置としてサンプル位置s1の信号Psをサーバ計算機300に送信する。以降は順次、その音声区間のフレームごとの入力信号のみをサーバ計算機300に送信する。上述したように、クライアント計算機100とサーバ計算機300間での通信状況によりこの音声区間の信号の送受信に遅れを伴う場合がある。
FIG. 4 shows a state in which voice detection is started in the client computer 100, the start of the voice section is detected, and a signal in the voice section is transmitted to the server computer 300. The client computer 100 receives an input signal, starts detection of a speech section from the first sample position s0, and stores it as a solid line square for each frame in the detected feature
サーバ計算機300ではクライアント計算機100から信号を受信すると、サンプル位置s1からの音声区間の1フレームごとの信号から抽出された認識特徴量を、サンプル位置s1から認識特徴量記憶部340に順次記憶し、またこれらを順次読み出して認識を開始する。このとき、クライアント計算機100の検出特徴量記憶部130においてもサーバ計算機300の認識特徴量記憶部340においてそれぞれ記憶された特徴量は消去されない。
クライアント計算機100においては音声区間検出が進み、またサーバ計算機300においては音声認識が進み、一定間隔ごとに進行位置信号Ppが発生し、それ以前に記憶した特徴量が消去される様子を図5に示す。サーバ計算機300でサンプル位置s2において進行位置信号Ppが発生し、認識特徴量記憶部340に記憶されているサンプル位置s2以前の認識特徴量が消去される。その消去された認識特徴量を点線の四角で示す。クライアント計算機100においてはサーバ計算機から受信された位置s2を示す進行位置信号Ppに従って、検出特徴量記憶部130に記憶されている位置s2以前の検出特徴量が点線四角で示すように消去される。
When the server computer 300 receives a signal from the client computer 100, the server computer 300 sequentially stores the recognition feature quantity extracted from the signal for each frame of the speech section from the sample position s1 in the recognition feature
In the client computer 100, voice section detection proceeds, and in the server computer 300, voice recognition progresses. A progress position signal Pp is generated at regular intervals, and the feature quantity stored before that is erased in FIG. Show. The server computer 300 generates a progress position signal Pp at the sample position s2, and the recognition feature quantity before the sample position s2 stored in the recognition feature
更に一定フレーム数が経過したサンプル位置s3でも同様に、進行位置信号Ppが発生して、サーバ計算機300では認識特徴量記憶部340に記憶されている位置s3以前の認識特徴量が消去され、クライアント計算機100では検出特徴量記憶部130に記憶されている位置s3以前の検出特徴量が消去される。
クライアント計算機100において音声区間検出が更に進み、サーバ計算機300において音声認識が更に進み、サーバ計算機300において音声区間終了(音声終了位置)を検知したが、クライアント計算機100においては音声区間の検出で音声区間の終了を検知されずにそれ以降も引き続き音声区間として検出し続けている様子を図6に示す。
Similarly, a progress position signal Pp is also generated at the sample position s3 where a certain number of frames have elapsed, and the server computer 300 erases the recognized feature quantity before the position s3 stored in the recognized feature
In the client computer 100, the voice section detection further proceeds, the server computer 300 further performs voice recognition, and the server computer 300 detects the end of the voice section (speech end position). In the client computer 100, the voice section is detected by detecting the voice section. FIG. 6 shows a state in which the end of is continuously detected as a voice section without being detected.
サーバ計算機300においてサンプル位置s4にて音声区間の終了を検出し、音声認識特徴量記憶部340に記憶されているサンプル位置s4以前の認識特徴量が点線四角で示すように消去され、また音声区間の終了位置s4を示す音声区間終了位置信号Peがクライアント計算機100へ送信される。
クライアント計算機100においてはサーバ計算機300から受信されたサンプル位置s4を示す音声区間終了位置信号Peに従って、検出特徴量記憶部130に記憶されているサンプル位置s4以前の検出特徴量が点線四角で示すように消去され、それと同時に音声検出部140での音声区間の検出を中断させ、その音声区間終了位置信号Peを受信した時点、図6ではサンプル位置s5までの検出音声区間信号Spをサーバ計算機300へ送信する。
The server computer 300 detects the end of the speech section at the sample position s4, and the recognition feature quantity before the sample position s4 stored in the speech recognition feature
In the client computer 100, in accordance with the voice segment end position signal Pe indicating the sample position s4 received from the server computer 300, the detected feature quantities before the sample position s4 stored in the detected feature
その後クライアント計算機100において音声区間の検出を再開し、音声区間の開始位置を検出し、すでにその部分の入力信号が送信済みの区間については音声検出部140の検出結果情報を、未送信の区間については入力信号中のその音声区間の信号をサーバ計算機300に送信する様子を図7に示す。
クライアント計算機100では、前回の音声区間が終了したサンプル位置s4の次のサンプルのフレームの検出特徴量から読み出して音声区間の検出を開始する。検出特徴量記憶部130には、音声区間終了位置信号Peの受信後も検出特徴量抽出部110で抽出されたフレームごとの検出特徴量が順次に記憶されている。この例ではサンプル位置s5より以前はすでに入力信号が音声区間の信号として送信している。よって次の音声区間を検出するまでは各フレームごとに音声検出部140で検出した非音声区間であることを示す検出結果情報UV(Un Voice)がサーバ計算機300に送信される。
Thereafter, the client computer 100 restarts the detection of the voice section, detects the start position of the voice section, and detects the detection result information of the
In the client computer 100, reading from the detected feature value of the frame of the next sample after the sample position s4 at which the previous speech section has ended is performed, and detection of the speech section is started. The detected feature
よって音声検出部140の検出結果情報が送信されるが、図示例は、この検出結果は非音声であり、非音声区間であることを示す検出結果情報UV(Un Voice)がサーバ計算機300へ送信される。また、この図示例では既に送信済の区間、つまりサンプル位置s5と次の音声区間の開始位置、サンプル位置s6との間に、非音声区間が存在している。この例ではサーバ計算機300で、次の音声区間の開始のサンプル位置が、区間開始位置を送信することなく、知ることができるようにサンプル位置s5から、次の音声区間の開始サンプル位置s6までの各区間は音声検出部140の検出結果、つまり非音声を示す検出結果情報UVをサーバ計算機へ送信するようにしている。
Therefore, the detection result information of the
つまり図2中において、ステップS4で入力信号が未送信であり、かつステップS5で音声区間を検出せず、またステップS7で発話における最初の音声区間でなければ、ステップS9で音声区間の開始前であるか否かを調べ、音声区間の前、つまり非音声区間であれば、ステップS11へ移って音声検出部140の検出結果情報UVをサーバ計算機300へ送信する。このようにすれば、入力信号の各フレームごとに検出開始位置、つまりサンプル位置s0から検出結果情報又は音声区間の信号のいずれかがサーバ計算機300へ送信され、クライアント計算機100とサーバ計算機300とでサンプル位置を同期させることができる。
That is, in FIG. 2, if the input signal has not been transmitted in step S4, and no speech segment is detected in step S5, and if it is not the first speech segment in the utterance in step S7, the start of the speech segment in step S9. If it is before the speech section, that is, if it is a non-speech section, the process proceeds to step S11 and the detection result information UV of the
サーバ計算機300においては検出結果情報UVを受信すると、これと対応する区間に該当する認識特徴量記憶部340内の認識特徴量がこの例では消去される。つまり図示例では認識特徴量記憶部340内のサンプル位置s4の次からサンプル位置s5に記憶された認識特徴量は点線四角のように消去される。その後、クライアント計算機100から受信した検出結果情報UVは記憶せず、その記憶部340内の記憶領域はなにも記憶されない。
次にクライアント計算機100ではサンプル位置s6で音声区間の開始が検出されると、そのサンプル位置s6よりその音声区間の各フレームの入力信号Spを次々にサーバ計算機300に送信する。
When the server computer 300 receives the detection result information UV, the recognition feature quantity in the recognition feature
Next, when the client computer 100 detects the start of the speech section at the sample position s6, the client computer 100 sequentially transmits the input signal Sp of each frame in the speech section to the server computer 300 from the sample position s6.
サーバ計算機300にて音声区間の信号を受信すると、そのサンプル位置s6より再び音声認識を開始する。
この図6の例ではサンプル位置s5の次のサンプルからサンプル位置s6の前のサンプルの非音声区間において入力信号を送信しない区間があり、その分の通信量を削減することができる。このとき検出結果情報は送信するが、それは例えば「音声」と「非音声」を区別する情報(1bit)であり、音声区間の入力信号と比較して格段に通信量は少なくて済む。
When the server computer 300 receives the signal of the voice section, voice recognition starts again from the sample position s6.
In the example of FIG. 6, there is a section in which an input signal is not transmitted in a non-voice section from a sample after the sample position s5 to a sample before the sample position s6, and the amount of communication can be reduced accordingly. At this time, the detection result information is transmitted, but it is information (1 bit) for distinguishing between “speech” and “non-speech”, for example, and the amount of communication is much smaller than the input signal in the speech section.
また音声区間の検出を再開始し(図7中に示す)、以後は非音声区間においては検出結果情報も送信せずに通信量を削減することもできる。その際には図2中に破線で示すようにステップS5では音声区間を待ち、ステップS7でその音声区間が発話の最初でなければステップS19に移り、その音声区間の直前に未送信区間があるか、つまり直前が非音声区間かの判定がなされ、未送信区間があればステップS8に移り、その音声区間の開始フレームの入力信号を送信する際にその開始フレーム位置、図7の例ではサンプル位置s6を示す開始位置をサーバ計算機300に送信し、クライアント計算機100とサーバ計算機300とで入力サンプル位置の同期をとる。またステップS4において未送信でないと判定されるとステップS20に移り、音声区間であればステップS11に移るが、音声区間でなければステップS5に移る。このようにして音声区間の再開始以後に検出した非音声についてはいずれの信号もサーバ計算機300へ送信しない。サーバ計算機300では各音声区間の始めにはその開始フレームの位置が受信され、これに基づきクライアント計算機100と同期をとることができる。またこの場合は音声区間の開始位置として最初の音声区間から何番目の音声区間であることを示す位でもよい。各音声区間ごとに開始位置が送られて来る場合はサーバ計算機300において、ステップS34で対応認識特徴量を消去することは行わなくてもよい。 It is also possible to restart the detection of the voice section (shown in FIG. 7) and thereafter reduce the communication amount without transmitting the detection result information in the non-voice section. In that case, as shown by a broken line in FIG. 2, in step S5, the voice section is waited. In step S7, if the voice section is not the first utterance, the process proceeds to step S19, and there is an untransmitted section immediately before the voice section. That is, it is determined whether the immediately preceding non-speech period is present, and if there is a non-transmission period, the process proceeds to step S8, where the start frame position when transmitting the input signal of the start frame of the voice period, in the example of FIG. The start position indicating the position s6 is transmitted to the server computer 300, and the client computer 100 and the server computer 300 synchronize the input sample positions. If it is determined in step S4 that it is not yet transmitted, the process proceeds to step S20, and if it is a voice section, the process proceeds to step S11, but if it is not a voice section, the process proceeds to step S5. In this way, no signal is transmitted to the server computer 300 for the non-speech detected after the restart of the speech section. The server computer 300 receives the position of the start frame at the beginning of each voice section, and can synchronize with the client computer 100 based on this position. Further, in this case, the start position of the voice section may indicate the number of the voice section from the first voice section. When the start position is sent for each voice section, the server computer 300 does not have to delete the corresponding recognition feature value in step S34.
いずれの方法においても、サーバ計算機300においてこの区間の音声認識処理を行う必要がなく、その分の音声認識処理に伴う処理量が軽減し、かつ余分な区間に対し音声認識を行うことに基づく誤認識、例えば雑音に対し、有意な認識結果を湧き出すなどを防ぐことができる。
さらに、上記効果を得るためにクライアント計算機100およびサーバ計算機300において処理済の記憶領域を確保する必要があるが、これら記憶領域のうち不必要な記憶領域を定期的に解放することによって両計算機における使用記憶容量を増大させることなく実行できる。
In any of the methods, the server computer 300 does not need to perform speech recognition processing for this section, the amount of processing associated with the corresponding speech recognition processing is reduced, and an error based on performing speech recognition for an extra section. Recognition, for example, a significant recognition result for noise can be prevented.
Furthermore, in order to obtain the above effect, it is necessary to secure storage areas that have been processed in the client computer 100 and the server computer 300, but by periodically releasing unnecessary storage areas of these storage areas, It can be executed without increasing the storage capacity used.
変形例
これまでは、サーバ計算機300においてのみ認識特徴量を抽出して音声認識を行う構成においての説明をしたが、例えば非特許文献1に示す、認識特徴量の少なくとも一部をクライアント計算機100で行う分散型音声認識方法にこの発明を適用できる。この場合における、前述した実施形態と異なる点のみを主として以下に説明する。この場合もサーバ計算機300において音声区間の開始検出機能が実装されておらず、音声認識の過程において音声区間の終了を検出し、その位置をクライアント計算機100に送信するが、サーバ計算機300において、音声認識部350の前段もしくは内部で音声区間開始検出もしくは音声区間終端検出機能が実装されている場合においても適用可能である。なお図1〜図3においてこの変形例を兼用して示すため変形例により異なる部分には括弧書き、又は破線で示す。
Modifications Up to now, the description has been given of the configuration in which the recognition feature amount is extracted and the speech recognition is performed only in the server computer 300. For example, at least a part of the recognition feature amount shown in
クライアント計算機100において音声検出部140で検出特徴量を読み込み、音声区間の検出を行い、信号送信管理部150では、入力信号のサンプルごともしくはフレームごとに入力信号から抽出された認識特徴量Aがサーバ計算機に未送信かそれとも送信済みかを調査し(図2、ステップS4)、未送信であれば音声検出部140で検出された音声区間の入力信号より、図1中の破線で示す認識特徴量A抽出部180において例えばケプストラム及びパワーといった認識特徴量Aを抽出し(図2中のステップS8とS10の間のステップS51)、認識特徴量送信部161より認識特徴量Aをサーバ計算機300に送信する。認識特徴量Aが送信済みであれば検出結果情報送信部160より検出結果情報をサーバ計算機300に送信する。このとき、音声区間の開始位置の送信は先の場合と同様に行われる。
In the client computer 100, the
サーバ計算機300では、クライアント計算機100より送信された認識特徴量Aを認識特徴量受信部311で受信した場合は、認識特徴量B抽出部320において最終的に音声認識に用いるケプストラム、デルタケプストラム、パワー、デルタパワーといった一群認識特徴量Bを抽出し、認識特徴量管理部330を介して認識特徴量記憶部340に記憶する。例えば認識特徴量Aがケプストラム、パワーであり、これらより認識特徴量B抽出部320でデルタケプストラム、デルタパワーを抽出し、前記一群の認識特徴量Bを得る。ここで、音声認識に認識特徴量Aをそのまま用いる場合も考えられ、そのときはクライアント計算機100より受信した認識特徴量Aを、順次認識特徴量管理部330を介して認識特徴量記憶部340に記憶する。つまり図3においてステップS32で受信信号が検出結果情報でなければ破線で示すように直ちにステップS35へ移る。
In the server computer 300, when the recognition feature
サーバ計算機300における音声区間の終了の検出は図1中に破線で示すように区間終了検出部38を設けて、入力信号受信部311の受信音声区間の信号より検出してもよい。
図1中に示したクライアント装置及びサーバ装置はコンピュータによらず、構成することもでき、コンピュータにより機能させる場合は、例えば図2に示した処理方法の各過程をコンピュータに実行させるためのクライアント装置処理プログラムを、あるいは図3に示した処理方法の各過程をコンピュータに実行させるためのサーバ装置処理プログラムをコンピュータに、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体からインストールし、又は通信回線を介してダウンロードして、そのプログラムをコンピュータに実行させればよい。
The end of the voice section in the server computer 300 may be detected from the signal in the received voice section of the input
The client device and the server device shown in FIG. 1 can be configured without using a computer. When the computer device functions, for example, the client device for causing the computer to execute each process of the processing method shown in FIG. A server program for causing a computer to execute the processing program or each process of the processing method shown in FIG. 3 is installed in a computer from a recording medium such as a CD-ROM, a magnetic disk, or a semiconductor storage device, or communicated What is necessary is just to download via a line and to make the computer execute the program.
Claims (21)
上記クライアント装置は入力信号から音声区間の検出に用いる検出特徴量を抽出し、
上記検出特徴量を用いて音声区間を検出し、
上記入力信号上の上記音声区間の信号を上記サーバ装置に送信し、
上記サーバ装置は受信した上記音声区間の信号から音声認識に用いる認識特徴量を抽出し、
上記認識特徴量を用いて音声認識を行い、
上記音声認識の処理に基づき、又は上記受信した音声区間の信号から音声区間の終了の検出を行い、
音声区間の終了を検出すると、その終了位置を示す音声終了を上記クライアント装置へ送信し、
上記クライアント装置は上記音声終了を受信すると上記音声区間の検出を中止し、その音声終了が示す終了位置から次の音声区間の検出に移ることを特徴とするクライアント・サーバ音声認識方法。 In a client-server speech recognition method for transmitting an input signal input to a client device to a server device connected to the client device via a network, performing speech recognition on the server device, and transmitting the result to the client device.
The client device extracts a detection feature amount used for detection of a voice section from an input signal,
Detecting a voice section using the detected feature amount,
Transmitting the voice interval signal on the input signal to the server device;
The server device extracts a recognition feature amount used for speech recognition from the received signal of the speech section,
Speech recognition is performed using the above recognition features,
Based on the voice recognition process or detecting the end of the voice section from the received voice section signal,
When the end of the voice section is detected, a voice end indicating the end position is transmitted to the client device,
The client / server speech recognition method according to claim 1, wherein when the end of speech is received, the client device stops detecting the speech interval, and moves from the end position indicated by the end of speech to detection of the next speech interval.
入力信号から音声区間の検出に用いる検出特徴量を抽出し、
上記検出特徴量を用いて音声区間か非音声区間かを検出し、
上記入力信号上の上記音声区間の信号を上記サーバ装置に送信し、
上記サーバ装置から音声区間終了位置を示す終了信号を受信して、上記音声区間か非音声区間かの検出を一旦停止した後、上記終了位置から再開始することを特徴とするクライアント装置処理方法。 The above-described client-server speech recognition method for transmitting an input signal input to a client device to a server device connected to the client device via a network, performing speech recognition at the server device, and transmitting the result to the client device. A processing method of a client device,
Extracting detection features used to detect speech segments from the input signal,
Detects whether it is a speech segment or a non-speech segment using the detected feature amount
Transmitting the voice interval signal on the input signal to the server device;
A client apparatus processing method comprising: receiving an end signal indicating a voice section end position from the server apparatus, temporarily stopping detection of the voice section or the non-voice section, and then restarting from the end position.
上記音声区間か非音声区間かの検出は上記検出特徴量記憶部から検出特徴量を読み出して行い、
上記音声区間の信号を、その上記入力信号上の位置がわかるように上記サーバ装置に送信し、
上記音声区間終了信号が示す上記入力信号上の位置以後から上記検出特徴量の上記読み出しを行い、
上記再開始以後において、対応入力信号の音声区間の信号を上記サーバ装置へ送信したか否かを判定し、送信していれば、上記音声区間の検出結果を示す情報を上記サーバ装置へ送信することを特徴とする請求項1記載のクライアント装置処理方法。 Storing the extracted detected feature quantity in the detected feature quantity storage unit so that the position on the input signal can be known;
The detection of the voice section or the non-voice section is performed by reading the detected feature quantity from the detected feature quantity storage unit,
The signal of the voice section is transmitted to the server device so that the position on the input signal can be known,
The detection feature amount is read from the position after the position on the input signal indicated by the voice section end signal,
After the restart, it is determined whether or not the signal of the voice section of the corresponding input signal has been transmitted to the server apparatus, and if it is transmitted, information indicating the detection result of the voice section is transmitted to the server apparatus. The client device processing method according to claim 1.
上記音声区間の信号を上記サーバ装置へ送信する際に、上記入力信号中の少なくとも最初の音声区間の開始位置を、
上記音声検出開始位置を基点とした上記サーバ装置へ送信し、
上記音声区間終了信号は、上記音声検出開始位置を基点とした音声区間終了位置であることを特徴とする請求項3記載のクライアント装置処理方法。 The detection feature value is stored in the feature value storage unit based on the voice detection start position on the input signal,
When transmitting the speech section signal to the server device, the start position of at least the first speech section in the input signal,
Send to the server device based on the voice detection start position,
4. The client device processing method according to claim 3, wherein the voice section end signal is a voice section end position with the voice detection start position as a base point.
上記クライアント装置から受信した音声区間の信号から音声認識に用いる認識特徴量を抽出し、
上記認識特徴量を用いて音声認識を行い、
上記音声区間の終了の検出を行い、
音声区間の終了を検出すると、その終了位置を示す音声終了を上記クライアント装置へ送信する
ことを特徴とするサーバ装置処理方法。 A server in a client-server speech recognition method for transmitting an input signal input to a client device to a server device connected to the client device via a network, performing speech recognition at the server device, and transmitting the result to the client device A processing method for an apparatus,
Extracting the recognition feature amount used for speech recognition from the speech section signal received from the client device,
Speech recognition is performed using the above recognition features,
Detect the end of the voice segment,
When detecting the end of the voice section, the voice end indicating the end position is transmitted to the client device.
上記認識特徴量記憶部から上記認識特徴量を読み出して上記音声認識を行い、
上記クライアント装置から受信した信号が検出結果情報か否かを調べ、
検出結果情報であれば、上記認識特徴量記憶部中の対応認識特徴量にその検出結果情報を付加し、又はその検出結果情報が音声であればその検出結果情報を付加するが、非音声であれば上記対応認識特徴量を消去することを特徴とする請求項9記載のサーバ装置処理方法。 Receiving the start position of the speech section in the signal of the first speech section, storing the recognition feature quantity in the recognition feature quantity storage unit with the start position as a base point;
The recognition feature value is read from the recognition feature value storage unit and the speech recognition is performed.
Check whether the signal received from the client device is detection result information,
If it is detection result information, the detection result information is added to the corresponding recognition feature quantity in the recognition feature quantity storage unit, or if the detection result information is voice, the detection result information is added. 10. The server device processing method according to claim 9, wherein if there is, the correspondence recognition feature value is deleted.
上記認識特徴量記憶部から上記認識特徴量を読み出して上記音声認識を行い、
上記クライアント装置から受信した信号が検出結果情報か否かを調べ、
検出結果情報であれば、上記認識特徴量記憶部中の対応認識特徴量にその検出結果情報を付加することを特徴とする請求項9記載のサーバ装置処理方法。 Receiving the start position of the speech section in the signal of each speech section, storing the recognition feature quantity in the recognition feature quantity storage unit with each start position as a base point;
The recognition feature value is read from the recognition feature value storage unit and the speech recognition is performed.
Check whether the signal received from the client device is detection result information,
10. The server apparatus processing method according to claim 9, wherein if it is detection result information, the detection result information is added to the corresponding recognition feature quantity in the recognition feature quantity storage unit.
入力信号から音声区間の検出に用いる検出特徴量を抽出する検出特徴量抽出部と、
その検出特徴量抽出部で抽出された検出特徴量を記憶する検出特徴量記憶部と、
その検出特徴量記憶部に対して検出特徴量の記憶、読み出しを管理する検出特徴量管理部と、
その検出特徴量管理部を介して上記検出特徴量記憶部より読み出した検出特徴量を用いて音声区間を検出する音声検出部と、
上記入力信号中の上記検出部で検出された音声区間の信号を上記サーバ装置に送信する入力信号送信部と、
上記サーバ装置から送信された音声終了位置を受信し、上記音声検出部に対して音声検出を中断し、その後音声区間の検出を再開位置を通知する位置信号受信部と、
サーバ装置から送信された認識結果を受信し、音声認識結果出力装置に認識結果を出力する認識結果受信部と、
を備えることを特徴とするクライアント装置。 A client-server speech recognition system for transmitting a voice signal input to a client device to a server device connected to the client device via a network, performing voice recognition on the server device, and transmitting the result to the client device. A client device,
A detection feature amount extraction unit that extracts a detection feature amount used for detection of a speech section from an input signal;
A detection feature amount storage unit that stores the detection feature amount extracted by the detection feature amount extraction unit;
A detection feature amount management unit that manages storage and reading of the detection feature amount with respect to the detection feature amount storage unit;
A voice detection unit that detects a voice section using the detected feature value read from the detected feature value storage unit via the detected feature value management unit;
An input signal transmission unit that transmits a signal of a voice section detected by the detection unit in the input signal to the server device;
A position signal receiving unit that receives the voice end position transmitted from the server device, interrupts the voice detection to the voice detection unit, and then notifies the restart position of the detection of the voice section;
A recognition result receiving unit that receives the recognition result transmitted from the server device and outputs the recognition result to the voice recognition result output device;
A client device comprising:
上記入力信号送信部は上記認識特徴量を上記音声区間の信号として送信する送信部であることを特徴とする請求項15記載のクライアント装置。 A recognition feature amount extraction unit that extracts a recognition feature amount from a signal of a voice section detected by the voice detection unit;
The client apparatus according to claim 15, wherein the input signal transmission unit is a transmission unit that transmits the recognized feature quantity as a signal of the voice section.
上記クライアント装置から送信された音声区間の信号を受信する入力信号受信部と、
その入力信号受信部において受信した音声区間の信号から音声認識に用いる認識特徴量を抽出する認識特徴量抽出部と、
その認識特徴量抽出部で抽出された認識特徴量を記憶する認識特徴量記憶部と、
その認識特徴量記憶部に対して認識特徴量の記憶、読み出しを管理する認識特徴量管理部と、
その認識特徴量管理部を介して上記認識特徴量記憶部より読み出した認識特徴量を用いて音声認識を行う音声認識部と、
その音声認識部の音声認識処理過程で音声区間の終了を検出する又は上記音声区間の信号から上記音声区間の終了位置を検出する区間終了検出部と、
上記区間終了検出部が検出した音声区間の終了位置を上記クライアント装置に送信する位置信号送信部と
を備えることを特徴とするサーバ装置。 A client-server speech recognition system for transmitting a voice signal input to a client device to a server device connected to the client device via a network, performing voice recognition on the server device, and transmitting the result to the client device. A server device,
An input signal receiving unit for receiving a signal of a voice section transmitted from the client device;
A recognition feature amount extraction unit that extracts a recognition feature amount used for speech recognition from the signal of the speech section received by the input signal reception unit;
A recognition feature amount storage unit for storing the recognition feature amount extracted by the recognition feature amount extraction unit;
A recognition feature amount management unit that manages storage and reading of the recognition feature amount with respect to the recognition feature amount storage unit;
A speech recognition unit that performs speech recognition using the recognition feature value read from the recognition feature value storage unit via the recognition feature value management unit;
A section end detection unit that detects the end of a voice section in the voice recognition process of the voice recognition unit or detects the end position of the voice section from the signal of the voice section;
A server apparatus comprising: a position signal transmission unit that transmits an end position of a voice section detected by the section end detection unit to the client device.
上記認識特徴量抽出部は上記受信した認識特徴量をもとにさらに他の認識特徴量を抽出する認識特徴量抽出部であることを特徴とする請求項17記載のサーバ装置。 The input signal receiving unit is a receiving unit that receives a recognition feature amount as a signal of the voice section,
18. The server device according to claim 17, wherein the recognition feature quantity extraction unit is a recognition feature quantity extraction unit that extracts another recognition feature quantity based on the received recognition feature quantity.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004148298A JP4425055B2 (en) | 2004-05-18 | 2004-05-18 | Client / server speech recognition method, apparatus used therefor, program thereof, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004148298A JP4425055B2 (en) | 2004-05-18 | 2004-05-18 | Client / server speech recognition method, apparatus used therefor, program thereof, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005331616A true JP2005331616A (en) | 2005-12-02 |
JP4425055B2 JP4425055B2 (en) | 2010-03-03 |
Family
ID=35486335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004148298A Expired - Lifetime JP4425055B2 (en) | 2004-05-18 | 2004-05-18 | Client / server speech recognition method, apparatus used therefor, program thereof, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4425055B2 (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008158328A (en) * | 2006-12-25 | 2008-07-10 | Ntt Docomo Inc | Terminal device and discriminating method |
WO2011052412A1 (en) * | 2009-10-28 | 2011-05-05 | 日本電気株式会社 | Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium |
WO2012081788A1 (en) * | 2010-12-16 | 2012-06-21 | 엔에이치엔(주) | Voice recognition client system for processing online voice recognition, voice recognition server system, and voice recognition method |
WO2016043182A1 (en) * | 2014-09-17 | 2016-03-24 | 株式会社東芝 | Voice segment detection system, voice starting end detection device, voice termination end detection device, voice segment detection method, voice starting end detection method, voice termination end detection method, and program |
JP2017068061A (en) * | 2015-09-30 | 2017-04-06 | 株式会社東芝 | Communication terminal and voice recognition system |
US10276191B2 (en) | 2014-07-30 | 2019-04-30 | Kabushiki Kaisha Toshiba | Speech section detection device, voice processing system, speech section detection method, and computer program product |
JP2021076762A (en) * | 2019-11-12 | 2021-05-20 | 株式会社シーイーシー | Voice information generation device, voice information generation method and program |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200048976A (en) | 2018-10-31 | 2020-05-08 | 삼성전자주식회사 | Electronic apparatus and control method thereof |
-
2004
- 2004-05-18 JP JP2004148298A patent/JP4425055B2/en not_active Expired - Lifetime
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008158328A (en) * | 2006-12-25 | 2008-07-10 | Ntt Docomo Inc | Terminal device and discriminating method |
WO2011052412A1 (en) * | 2009-10-28 | 2011-05-05 | 日本電気株式会社 | Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium |
US9905227B2 (en) | 2009-10-28 | 2018-02-27 | Nec Corporation | Speech recognition system, request device, method, program, and recording medium, using a mapping on phonemes to disable perception of selected content |
US9520129B2 (en) | 2009-10-28 | 2016-12-13 | Nec Corporation | Speech recognition system, request device, method, program, and recording medium, using a mapping on phonemes to disable perception of selected content |
JP5621993B2 (en) * | 2009-10-28 | 2014-11-12 | 日本電気株式会社 | Speech recognition system, speech recognition requesting device, speech recognition method, and speech recognition program |
US9318111B2 (en) | 2010-12-16 | 2016-04-19 | Nhn Corporation | Voice recognition client system for processing online voice recognition, voice recognition server system, and voice recognition method |
KR101208166B1 (en) | 2010-12-16 | 2012-12-04 | 엔에이치엔(주) | Speech recognition client system, speech recognition server system and speech recognition method for processing speech recognition in online |
WO2012081788A1 (en) * | 2010-12-16 | 2012-06-21 | 엔에이치엔(주) | Voice recognition client system for processing online voice recognition, voice recognition server system, and voice recognition method |
US10276191B2 (en) | 2014-07-30 | 2019-04-30 | Kabushiki Kaisha Toshiba | Speech section detection device, voice processing system, speech section detection method, and computer program product |
WO2016043182A1 (en) * | 2014-09-17 | 2016-03-24 | 株式会社東芝 | Voice segment detection system, voice starting end detection device, voice termination end detection device, voice segment detection method, voice starting end detection method, voice termination end detection method, and program |
JP2016061890A (en) * | 2014-09-17 | 2016-04-25 | 株式会社東芝 | Voice section detection system, voice start edge detection device, voice end edge detection device, voice section detection method, voice start edge detection method, voice end edge detection method, and program |
US10210886B2 (en) | 2014-09-17 | 2019-02-19 | Kabushiki Kaisha Toshiba | Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus |
JP2017068061A (en) * | 2015-09-30 | 2017-04-06 | 株式会社東芝 | Communication terminal and voice recognition system |
JP2021076762A (en) * | 2019-11-12 | 2021-05-20 | 株式会社シーイーシー | Voice information generation device, voice information generation method and program |
JP7473325B2 (en) | 2019-11-12 | 2024-04-23 | 株式会社シーイーシー | Audio information generating device, audio information generating method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP4425055B2 (en) | 2010-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10937448B2 (en) | Voice activity detection method and apparatus | |
US11037574B2 (en) | Speaker recognition and speaker change detection | |
KR101942521B1 (en) | Speech endpointing | |
CN110047481B (en) | Method and apparatus for speech recognition | |
US9899021B1 (en) | Stochastic modeling of user interactions with a detection system | |
EP2700071B1 (en) | Speech recognition using multiple language models | |
RU2525440C2 (en) | Markup language-based selection and utilisation of recognisers for utterance processing | |
US20080294433A1 (en) | Automatic Text-Speech Mapping Tool | |
CN111798833A (en) | Voice test method, device, equipment and storage medium | |
JP3834169B2 (en) | Continuous speech recognition apparatus and recording medium | |
JP4425055B2 (en) | Client / server speech recognition method, apparatus used therefor, program thereof, and recording medium | |
JP2017068061A (en) | Communication terminal and voice recognition system | |
CN106205607A (en) | Voice information processing method and speech information processing apparatus | |
CN113658581B (en) | Acoustic model training method, acoustic model processing method, acoustic model training device, acoustic model processing equipment and storage medium | |
KR101368464B1 (en) | Apparatus of speech recognition for speech data transcription and method thereof | |
US10210886B2 (en) | Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus | |
JP6867939B2 (en) | Computers, language analysis methods, and programs | |
CN113206996B (en) | Quality inspection method and device for service recorded data | |
US20210104225A1 (en) | Phoneme sound based controller | |
KR100574883B1 (en) | Method for Speech Detection Using Removing Noise | |
CN110931021A (en) | Audio signal processing method and device | |
KR20200053242A (en) | Voice recognition system for vehicle and method of controlling the same | |
WO2022201458A1 (en) | Voice interaction system, voice interaction method, and voice interaction management apparatus | |
JP2004309682A (en) | Method, terminal device, center device, and program for voice interaction | |
CN116364065A (en) | Sample data determining method, device, electronic equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060725 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091201 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4425055 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131218 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |