JP4603429B2 - Client / server speech recognition method, speech recognition method in server computer, speech feature extraction / transmission method, system, apparatus, program, and recording medium using these methods - Google Patents

Client / server speech recognition method, speech recognition method in server computer, speech feature extraction / transmission method, system, apparatus, program, and recording medium using these methods Download PDF

Info

Publication number
JP4603429B2
JP4603429B2 JP2005177698A JP2005177698A JP4603429B2 JP 4603429 B2 JP4603429 B2 JP 4603429B2 JP 2005177698 A JP2005177698 A JP 2005177698A JP 2005177698 A JP2005177698 A JP 2005177698A JP 4603429 B2 JP4603429 B2 JP 4603429B2
Authority
JP
Japan
Prior art keywords
speech
feature vector
voice
compression coefficient
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005177698A
Other languages
Japanese (ja)
Other versions
JP2006350090A (en
Inventor
義和 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005177698A priority Critical patent/JP4603429B2/en
Publication of JP2006350090A publication Critical patent/JP2006350090A/en
Application granted granted Critical
Publication of JP4603429B2 publication Critical patent/JP4603429B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、クライアント計算機で入力された音声から音声特徴量ベクトルを抽出し、ネットワークで接続されたサーバ計算機で音声認識を行うクライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体に関する。   The present invention relates to a client / server speech recognition method that extracts a speech feature vector from speech input by a client computer and performs speech recognition by a server computer connected via a network, a speech recognition method by a server computer, and a speech feature amount. The present invention relates to an extraction / transmission method, a system, an apparatus, a program, and a recording medium using these methods.

音声特徴量ベクトルをクライアント・サーバ間で送受信するクライアント・サーバ音声認識方法における、通信量削減のための音声特徴量ベクトルの圧縮方法は、非特許文献1に代表されるようにコードブックと呼ばれる代表的な音声特徴量ベクトル群をあらかじめ作成し、それをクライアント・サーバ音声認識システムに当初から埋め込むか、もしくはシステム起動時に同期させ、それを利用して音声特徴量ベクトルの送受信を行なっている。また、送受信される音声特徴量ベクトルは1個または複数個の整数値として圧縮されていた。
ETSI ES 202 212 V1.1.1
In a client / server speech recognition method for transmitting / receiving speech feature vectors between a client and a server, a speech feature vector compression method for reducing communication traffic is represented by a codebook as represented by Non-Patent Document 1. A typical speech feature vector group is created in advance and embedded in the client / server speech recognition system from the beginning, or is synchronized when the system is started, and the speech feature vector is transmitted and received. In addition, the transmitted and received speech feature vectors are compressed as one or a plurality of integer values.
ETSI ES 202 212 V1.1.1

音声認識では、利用される話者や利用環境(背景雑音など)の変化が生じると、音響モデルパラメータを、適応処理を行って変更する場合がある。または、利用した音響モデルとは特徴量抽出方法(モデルパラメータ)の全く異なる新しい音響モデルに変更する場合もある。その際、上述の従来技術では、音響モデルの更新とともにコードブックの再作成が必要となる。
また、従来技術ではあらかじめ作成したコードブックから音声特徴量ベクトルを整数値に変換していたが、コードブック作成時に想定していない音声特徴量ベクトルが入力された場合、圧縮誤差が非常に大きくなる。例えば、想定していない雑音環境下で音声認識する場合、ユーザが未発声の区間の入力が大きな誤差を含んで圧縮され、サーバ計算機に送信される。そのため、誤認識率の増大や、受信した未発声区間を用いた雑音抑圧・適応処理の失敗率の増大を招く。
In speech recognition, when a speaker used or a usage environment (background noise or the like) changes, the acoustic model parameter may be changed by performing an adaptive process. Alternatively, the acoustic model used may be changed to a new acoustic model that has a completely different feature extraction method (model parameter). At that time, in the above-described conventional technology, it is necessary to re-create the code book together with the update of the acoustic model.
In addition, in the prior art, a speech feature vector is converted to an integer value from a code book created in advance. However, if a speech feature vector that is not assumed at the time of code book creation is input, the compression error becomes very large. . For example, when speech recognition is performed under an unexpected noise environment, the input of a section where the user has not yet spoken is compressed with a large error and transmitted to the server computer. For this reason, an increase in the misrecognition rate and an increase in the failure rate of the noise suppression / adaptive processing using the received unspoken section are caused.

そこで本発明の目的は、利用される音響モデルのパラメータ、さらには利用される音声特徴量の種類の変更に応じて、音声特徴量ベクトルの圧縮方法を変更し、コードブックの再作成の必要なしにクライアント・サーバ間での音声特徴量ベクトルの送受信を行うことができる方法を提供することにある。また、想定していない音声特徴量ベクトルに対しても従来技術より圧縮誤差を少なくしてクライアント・サーバ問での音声特徴量ベクトルの送受信を行うことができる方法を提供することにある。   Therefore, an object of the present invention is to change the compression method of the speech feature vector in accordance with the change of the parameters of the acoustic model to be used and the type of the speech feature to be used, and there is no need to regenerate the codebook. It is another object of the present invention to provide a method capable of transmitting and receiving voice feature quantity vectors between a client and a server. It is another object of the present invention to provide a method capable of transmitting and receiving voice feature quantity vectors in a client / server system with a compression error reduced as compared with the prior art even for speech feature quantity vectors that are not assumed.

本発明では、サーバ計算機で音声認識に用いる音響モデルから音声圧縮係数を算出し、該音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件をクライアント計算機に送信する。クライアント計算機では、受信した該音声分析条件に基づいて入力された音声から音声特徴量ベクトルを抽出し、該音声圧縮係数に基づいて該音声特徴量ベクトルを圧縮して、サーバ計算機に送信する。サーバ計算機は、クライアント計算機から受信した該圧縮済み音声特徴量ベクトルを算出済みの音声圧縮係数に基づいて復元し、当該復元した音声特徴量ベクトルを用いて音声認識を行う。
また、クライアント計算機で音声圧縮係数に基づいて音声特徴量ベクトルの各次元値をよりビットサイズの小さい浮動小数点数値に変換する。
In the present invention, a voice compression coefficient is calculated from an acoustic model used for voice recognition by a server computer, and voice analysis conditions for extracting the voice compression coefficient and a voice feature quantity vector are transmitted to the client computer. The client computer extracts a speech feature vector from the input speech based on the received speech analysis condition, compresses the speech feature vector based on the speech compression coefficient, and transmits it to the server computer. The server computer restores the compressed speech feature vector received from the client computer based on the calculated speech compression coefficient, and performs speech recognition using the restored speech feature vector.
The client computer converts each dimension value of the voice feature vector into a floating-point value having a smaller bit size based on the voice compression coefficient.

本発明によれば、読み込まれた音響モデルの内容に応じて音声特徴量ベクトルの圧縮方法(パラメータ)を変更させることで、適応などにより音響モデルパラメータに大きな変更が生じた場合や、全く特徴量抽出方法の異なる音響モデルを利用しようとした場合でも、コードブックの再作成の必要なしにクライアント・サーバ間での音声特徴量ベクトルの圧縮と、送受信を行うことができる。
また、よりビットサイズの小さい浮動小数点により表現することで、想定外の音声特徴量に対しても比較的柔軟に対応できる。これにより、想定していない雑音環境下での利用や、未発声区間を用いた雑音抑圧・適応処理が行える。
According to the present invention, when the compression method (parameter) of the speech feature vector is changed according to the content of the read acoustic model, when the acoustic model parameter is significantly changed due to adaptation or the like, or the feature amount is completely different. Even when an acoustic model with a different extraction method is to be used, it is possible to perform compression and transmission / reception of speech feature vectors between a client and a server without the need to recreate a codebook.
In addition, by expressing with a floating point having a smaller bit size, it is possible to cope with unexpected voice feature amounts relatively flexibly. As a result, use in an unexpected noise environment and noise suppression / adaptation processing using an unvoiced section can be performed.

[第1実施形態]
本実施形態のクライアント・サーバ音声認識方法およびシステムは、利用される音響モデルや音声特徴量の種類の変更に応じて、音声特徴量ベクトルの圧縮方法を変更させ、コードブックの再作成の必要なしにクライアント・サーバ間での音声特徴量ベクトルの送受信を行うものである。図1に本発明のクライアント・サーバ音声認識システムの機能構成を、図2に本発明のクライアント・サーバ音声認識方法の処理フローを示す。
以下の説明では、混同を避けるため、クライアント計算機での音声認識特徴量抽出処理で得られた音声特徴量ベクトルを、音声特徴量ベクトルAと言うこととする。また、サーバ計算機での、音声認識特徴量抽出処理で得られた第2の音声特徴量ベクトルを、音声特徴量ベクトルBと言うこととする。
[First Embodiment]
The client / server speech recognition method and system according to the present embodiment change the compression method of the speech feature vector in accordance with the change of the acoustic model and speech feature used, and there is no need to regenerate the codebook. In addition, voice feature vectors are transmitted and received between the client and the server. FIG. 1 shows a functional configuration of the client / server speech recognition system of the present invention, and FIG. 2 shows a processing flow of the client / server speech recognition method of the present invention.
In the following description, in order to avoid confusion, the voice feature quantity vector obtained by the voice recognition feature quantity extraction processing in the client computer is referred to as a voice feature quantity vector A. Further, the second speech feature quantity vector obtained by the speech recognition feature quantity extraction process in the server computer is referred to as a speech feature quantity vector B.

サーバ計算機200の音響モデル変更部210は、音声認識に使用する音響モデルの変更を行う(S210)。この音響モデルの変更方法としては、複数の音響モデルを用意しておき、話者や利用環境(背景雑音)の変化に応じて、音声認識に用いる音響モデルを選択する方法がある。また、音響モデルは1つであるが、話者や利用環境(背景雑音)の変化に応じて、適応処理を行って、モデルパラメータを更新した音響モデルを次回以降の音声認識に用いる方法もある。音響モデル変更部210は、どの変更方法に対応していてもよい。また、音響モデル変更部210が音響モデル記憶部215に記録される音声認識に用いる音響モデルを変更するタイミングとしては、音声認識処理を始める前(例えば、クライアント計算機100がサーバ計算機200と接続したとき)、無音声区間の雑音が変化したことを検出して適応処理を行ったとき、など、さまざまなタイミングが考えられる。本発明は、どのようなタイミングで音響モデルを変更したときにも適用できるため、上記のタイミングに限らず、使用目的にあった音響モデルの変更方法を採用することができる。   The acoustic model changing unit 210 of the server computer 200 changes the acoustic model used for speech recognition (S210). As a method for changing this acoustic model, there is a method in which a plurality of acoustic models are prepared and an acoustic model used for speech recognition is selected in accordance with changes in speakers and usage environments (background noise). Also, although there is only one acoustic model, there is a method in which adaptive processing is performed according to changes in the speaker and usage environment (background noise), and the acoustic model with updated model parameters is used for speech recognition from the next time. . The acoustic model changing unit 210 may correspond to any changing method. The timing at which the acoustic model changing unit 210 changes the acoustic model used for speech recognition recorded in the acoustic model storage unit 215 is the timing before the speech recognition process is started (for example, when the client computer 100 is connected to the server computer 200). ), Various timings can be considered, such as when adaptive processing is performed by detecting a change in noise in a voiceless section. Since the present invention can be applied when the acoustic model is changed at any timing, the acoustic model changing method suitable for the intended use can be adopted without being limited to the above timing.

サーバ計算機200では、新しく音声認識に利用する音響モデルが、音響モデル記憶部215に読み込まれると(選定、更新されると)、音声圧縮係数計算部220が、音声認識に用いられる音響モデルから、当該音響モデルに含まれる音声特徴量パラメータ分布を抽出した条件と同じ条件を、音声特徴量ベクトルを抽出するための音声分析条件として抽出する(S220)。また、音声圧縮係数計算部220は、音声分析条件を、音声分析条件Aと音声分析条件Bの2つに分けてもよい。ただし、分け方は、音声分析条件Bで求める音声特徴量ベクトルの要素が、音声分析条件Aで求める音声特徴量ベクトルの全部または一部から求められるように分ける。たとえば、音声認識に必要な音声特徴量ベクトルが、1次〜12次ケプストラム、パワー、1次〜12次デルタケプストラム、デルタパワーとする場合に、音声分析条件Aを1次〜12次ケプストラム、パワーを求めるために必要な条件とし、音声分析条件Bを1次〜12次デルタケプストラム、デルタパワーを求めるために必要な条件とする。この場合、音声分析条件Aは、必要な1フレーム(分析窓)分のサンプル数、次のフレームを計算するためのシフトサンプル数、ケプストラム次元数などである。また、音声分析条件Bは、音声特徴量ベクトルAがどの種別の特徴量であるかの情報や、デルタ特徴量を計算する窓幅などである。以下の説明では、音声分析条件をAとBに分けた場合について説明する。なお、分けなかった場合は、音声分析条件Bや後述する音声特徴量ベクトルB生成部245を削除すればよい。   In the server computer 200, when a new acoustic model to be used for speech recognition is read into the acoustic model storage unit 215 (selected and updated), the speech compression coefficient calculation unit 220 determines from the acoustic model used for speech recognition: The same condition as the condition for extracting the voice feature parameter distribution included in the acoustic model is extracted as the voice analysis condition for extracting the voice feature vector (S220). In addition, the voice compression coefficient calculation unit 220 may divide the voice analysis condition into two, that is, the voice analysis condition A and the voice analysis condition B. However, the dividing is performed so that the elements of the speech feature amount vector obtained under the speech analysis condition B can be obtained from all or part of the speech feature amount vector obtained under the speech analysis condition A. For example, when the speech feature vectors necessary for speech recognition are the first to twelfth cepstrum, power, the first to twelfth delta cepstrum, and the delta power, the speech analysis condition A is set to the first to twelfth cepstrum and power. The voice analysis condition B is a condition necessary for obtaining the first to twelfth delta cepstrum and delta power. In this case, the voice analysis condition A is the number of samples required for one frame (analysis window), the number of shift samples for calculating the next frame, the number of cepstrum dimensions, and the like. The voice analysis condition B includes information on which type of feature quantity the voice feature quantity vector A is, a window width for calculating a delta feature quantity, and the like. In the following description, a case where the voice analysis conditions are divided into A and B will be described. If not divided, the speech analysis condition B and the speech feature vector B generation unit 245 described later may be deleted.

さらに、音声圧縮係数計算部220は、音声分析条件から音声圧縮係数を算出する(S221)。算出された音声圧縮係数と音声分析条件Aおよび音声分析条件Bを音声圧縮係数・分析条件A/B記憶部225に格納する。ここで計算される音声圧縮係数とは、音声認識時にクライアント計算機で音声特徴量ベクトルAを圧縮し、かつサーバ計算機で圧縮された特徴量を復元するために必要な情報である。例えば、音声特徴量ベクトルの各ベクトル要素(次元)でスカラ量子化を行う場合は、その次元の値が取り得る範囲とその範囲を分割するための分割数(いわゆる必要ビット数)、分割方法(均等分割か、対数分割か、など)である。   Further, the voice compression coefficient calculation unit 220 calculates a voice compression coefficient from the voice analysis conditions (S221). The calculated voice compression coefficient, voice analysis condition A, and voice analysis condition B are stored in the voice compression coefficient / analysis condition A / B storage unit 225. The speech compression coefficient calculated here is information necessary for compressing the speech feature vector A by the client computer and restoring the compressed feature by the server computer during speech recognition. For example, when performing scalar quantization on each vector element (dimension) of a speech feature vector, the range that the dimension value can take, the number of divisions (so-called necessary number of bits) for dividing the range, and the division method ( Equal division or logarithmic division).

次に、音声圧縮係数・分析条件A送信部230は、音声圧縮係数・分析条件A/B記憶部225に記録されている音声圧縮係数と音声分析条件Aを、クライアント計算機100に送信する(S230)。
クライアント計算機100の音声圧縮係数・分析条件A受信部110は、サーバ計算機200の音声圧縮係数・分析条件A送信部230より送信された音声圧縮係数と音声分析条件Aを受信し、音声圧縮係数・分析条件A記憶部115に格納する(S110)。
以上の処理は、音声認識を開始する前、利用環境が変化したと判断された場合などに、音響モデル変換部210が音響モデル記録部215に記録されている音声認識に用いる音響モデルを更新し、開始される。
Next, the voice compression coefficient / analysis condition A transmission unit 230 sends the voice compression coefficient and the voice analysis condition A recorded in the voice compression coefficient / analysis condition A / B storage unit 225 to the client computer 100 (S230). ).
The voice compression coefficient / analysis condition A receiving unit 110 of the client computer 100 receives the voice compression coefficient and the voice analysis condition A transmitted from the voice compression coefficient / analysis condition A transmission unit 230 of the server computer 200, and receives the voice compression coefficient / The analysis condition A is stored in the storage unit 115 (S110).
The above processing updates the acoustic model used for speech recognition recorded in the acoustic model recording unit 215 by the acoustic model conversion unit 210 when it is determined that the usage environment has changed before the speech recognition is started. To be started.

音声認識の処理は以下のようになる。クライアント計算機の入力バッファ120には、本発明の前段に実装されているA/D変換装置などでテジタル化された音声信号が入力され、蓄積され、フレームと呼ばれる10ミリ秒から20ミリ秒程度の単位に音声信号が分けられ、音声特徴量ベクトルA抽出部125に送られる(S120)。音声特徴量ベクトルA抽出部125は、音声圧縮係数・分析条件A記憶部に格納されている音声分析条件Aを読み出し、それに基づいて音声特徴量ベクトルAを抽出する(S125)。
音声特徴量ベクトルA圧縮部130は、音声圧縮係数・分析条件A記憶部115に記録されている音声圧縮係数を読み出し、その音声圧縮係数に基づいて音声特徴量ベクトルA抽出部で抽出された1フレームもしくは複数フレーム分の音声特徴量ベクトルAを圧縮する(S130)。具体的な圧縮方法は、圧縮技術として一般的に用いられている従来技術を用いればよい。圧縮された音声特徴量ベクトルAは音声特徴量ベクトルA送信部135よりサーバ計算機200に送信される(S135)。
The speech recognition process is as follows. A voice signal digitalized by an A / D conversion device or the like mounted in the preceding stage of the present invention is input to the input buffer 120 of the client computer, stored, and is stored for about 10 to 20 milliseconds called a frame. The audio signal is divided into units and sent to the audio feature vector A extraction unit 125 (S120). The speech feature vector A extraction unit 125 reads the speech analysis condition A stored in the speech compression coefficient / analysis condition A storage unit, and extracts the speech feature vector A based on the speech analysis condition A (S125).
The speech feature vector A compression unit 130 reads the speech compression coefficient recorded in the speech compression coefficient / analysis condition A storage unit 115, and is extracted by the speech feature vector A extraction unit based on the speech compression coefficient. The audio feature vector A for a frame or a plurality of frames is compressed (S130). As a specific compression method, a conventional technique generally used as a compression technique may be used. The compressed speech feature vector A is transmitted from the speech feature vector A transmission unit 135 to the server computer 200 (S135).

サーバ計算機200の音声特徴量ベクトルA受信部235では、クライアント計算機100の音声特徴量ベクトルA送信部135より送信された圧縮済み音声特徴量ベクトルAを受信する(S235)。音声特徴量ベクトルA復元部240は、音声圧縮係数・分析条件A/B記憶部225に記録されている音声圧縮係数を読み出し、受信した1フレームもしくは複数フレーム分の圧縮済み音声特徴量ベクトルAから、当該音声圧縮係数に基づいて音声特徴量ベクトルAを復元する(S240)。音声特徴量ベクトルB生成部245は、音声圧縮係数・分析条件A/B記憶部225に格納されている音声分析条件Bを読み出し、それに基づいて1フレームごとに、音声特徴量ベクトルAを利用して、音声特徴量ベクトルAの全てあるいは一部を含む音声特徴量ベクトルBを生成する(S245)。なお、ステップS220で音声分析条件をAとBに分けなかった場合には、音声特徴量ベクトルB生成部245およびステップS245は不要である。   The audio feature vector A receiving unit 235 of the server computer 200 receives the compressed audio feature vector A transmitted from the audio feature vector A transmitting unit 135 of the client computer 100 (S235). The speech feature vector A restoration unit 240 reads the speech compression coefficient recorded in the speech compression coefficient / analysis condition A / B storage unit 225 and uses the received speech feature vector A for one frame or a plurality of frames. Then, the audio feature vector A is restored based on the audio compression coefficient (S240). The voice feature vector B generation unit 245 reads the voice analysis condition B stored in the voice compression coefficient / analysis condition A / B storage unit 225 and uses the voice feature vector A for each frame based on the read voice analysis condition B. Then, the speech feature vector B including all or part of the speech feature vector A is generated (S245). If the speech analysis conditions are not divided into A and B in step S220, the speech feature vector B generation unit 245 and step S245 are not necessary.

音声認識部250は、前記の音声特徴量ベクトルBと音響モデル記憶部215に音声認識に用いる音響モデルとして記録された音響モデルとを比較し、音声認識を行う(S250)。認識結果は、サーバ計算機200に記録しても良いし、認識結果送信部255がクライアント計算機100に送信しても良い(S255)。
クライアント計算機100の認識結果受信部140は、サーバ計算機200から送られてきた認識結果を受信し、結果出力装置(ディスプレイ等)に出力する(S140)。
以上の処理によって、音声認識に用いられる音響モデルの変更に伴う特徴量抽出方法の変更に応じて、音声特徴量ベクトルの圧縮方法を変更させ、コードブックの再作成の必要なしにクライアント・サーバ間での音声特徴量ベクトルの送受信を行うことができる。
[第2実施形態]
本実施形態は、音声特徴量ベクトルの各次元値を浮動小数点数値に圧縮することで、想定していない音声特徴量ベクトルに対しても従来技術より圧縮誤差を少なくしてクライアント・サーバ間での音声特徴量ベクトルの送受信を行うものである。まず、音声特徴量ベクトルを浮動小数点数値列に圧縮するための音声圧縮係数の算出、圧縮および復元方法について説明する。
以下に、サーバ計算機の音声圧縮係数計算部における処理の説明を行う。図3に音響モデルとして一般的に利用される隠れマルコフモデル(Hidden Markov Mode1、以下HMMと略す。)の例を示す。図3はある音声カテゴリのHMMであり、例えば音素ごと、もしくは前後の音素を考慮した音素環境ごとにこのようなHMMが用意される。HMMは単一もしくは複数の状態を持つ。音声認識では、時刻が進むごとに他の状態や自状態へ遷移しながら、各状態が持つ標準音声パターンと入力音声特徴量ベクトルとを照合し、尤度を計算する。標準音声パターンの保持方法には幾つかあるが、図3では混合ガウス分布によるHMMを示している。混合ガウス分布は単一ガウス分布を混合比に応じて合成したものであり、それが音声特徴量ベクトルの各次元に存在する。これら混合ガウス分布は音響モデル学習時に、学習データとして用意された膨大な量の音声データから計算される音声特徴量の統計値である。よって、この音響モデルに含まれるあらゆる音素もしくは音素環境ごとのHMMの各次元の分布は、入力音声特徴量として受理できる数値の範囲を表現している。本発明はこの音声特徴量の各次元の受理範囲をもとに音声圧縮係数を計算している。一般にガウス分布では、その平均からその標準偏差に3を乗じたものを加減算した範囲(以下、「3シグマ範囲」という。)で分布の99.7%(分布のほとんど)をカバーしている。そこで、音響モデルに含まれる全てのガウス分布の各次元の音声特徴量分布の3シグマ範囲を計算し、最大値、最小値を求める。この最大値と最小値から成る範囲が、各次元の特徴量の取り得る範囲となる。これを音声特徴量ベクトルの全ての次元に対して行う。
The speech recognition unit 250 compares the speech feature vector B with the acoustic model recorded in the acoustic model storage unit 215 as an acoustic model used for speech recognition, and performs speech recognition (S250). The recognition result may be recorded in the server computer 200, or the recognition result transmission unit 255 may transmit it to the client computer 100 (S255).
The recognition result receiving unit 140 of the client computer 100 receives the recognition result sent from the server computer 200 and outputs it to a result output device (display or the like) (S140).
Through the above processing, the compression method of the speech feature vector is changed according to the change of the feature extraction method that accompanies the change of the acoustic model used for speech recognition, so that there is no need to re-create the codebook. The voice feature vector can be transmitted / received at.
[Second Embodiment]
In this embodiment, each dimension value of the speech feature vector is compressed to a floating-point value, so that a compression error can be reduced between the client and the server with respect to a speech feature vector that is not assumed, as compared with the conventional technology. The voice feature vector is transmitted and received. First, a method for calculating, compressing, and decompressing an audio compression coefficient for compressing an audio feature vector into a floating-point value sequence will be described.
Below, the process in the audio | voice compression coefficient calculation part of a server computer is demonstrated. FIG. 3 shows an example of a hidden Markov model (Hidden Markov Mode 1, hereinafter abbreviated as HMM) generally used as an acoustic model. FIG. 3 shows an HMM of a certain voice category. For example, such an HMM is prepared for each phoneme or for each phoneme environment in consideration of preceding and following phonemes. An HMM has a single state or multiple states. In speech recognition, as the time advances, the standard speech pattern possessed by each state is compared with the input speech feature vector while transitioning to another state or the own state, and the likelihood is calculated. Although there are several standard voice pattern holding methods, FIG. 3 shows an HMM based on a mixed Gaussian distribution. The mixed Gaussian distribution is a single Gaussian distribution synthesized according to the mixing ratio, and exists in each dimension of the speech feature vector. These mixed Gaussian distributions are statistical values of speech feature values calculated from an enormous amount of speech data prepared as learning data during acoustic model learning. Therefore, the distribution of each dimension of the HMM for every phoneme or phoneme environment included in this acoustic model expresses a range of numerical values that can be accepted as an input speech feature quantity. In the present invention, the audio compression coefficient is calculated based on the reception range of each dimension of the audio feature amount. In general, the Gaussian distribution covers 99.7% of the distribution (most of the distribution) in a range obtained by adding and subtracting the standard deviation multiplied by 3 from the average (hereinafter referred to as “3-sigma range”). Therefore, the three-sigma range of the voice feature quantity distribution of each dimension of all the Gaussian distributions included in the acoustic model is calculated to obtain the maximum value and the minimum value. A range composed of the maximum value and the minimum value is a range that can be taken by the feature amount of each dimension. This is performed for all dimensions of the speech feature vector.

一般的な浮動小数点として4byte(32ビット)浮動小数点、いわゆるfloat型のIEEE標準形式によるビット配列構造を圧縮、復元する方法を図4に示す。410がfloat型のIEEE標準形式によるビット配列構造である。以下、浮動小数点のビット表現としてIEEE標準形式を用いて説明するが、本発明は他の形式でも適用可能である。
IEEE標準形式では指数部に8ビットを利用しているが、上記の要領で計算した最大値、最小値が示す音声特徴量範囲から指数部に必要なビット数を計算することができる。例えば、図5は、ある音響モデルから各次元の音声特徴量値の最大値、最小値を求め、それらを浮動小数点形式に変換する際の指数値と仮数値(仮数値×2指数値)を求めたものの抜粋である。次元ごとに指数値の幅を見ると最大でも第13次元の2(=4−2)である。バイアス値を−1とすれば2ビットで収まることがわかる。また、IEEE標準形式4byte(32ビット)浮動小数点ではもともと、127のバイアス値を実際の指数値に加えて浮動小数点指数部の値としているため、8ビットを指数部に用意している。上記のように指数部の幅が最大の第13次元の指数部でも2ビットあれば表現できるため、図5の例では、127を指数部の値から引いて、指数部を2ビットとする。つまり、6ビット削減(圧縮)できる。このようにして音声特徴量ベクトルの各次元での指数値幅すなわち指数部ビット数とバイアス値を求める。
FIG. 4 shows a method for compressing and decompressing a 4-byte (32-bit) floating point as a general floating point, a so-called float type IEEE standard format bit array structure. Reference numeral 410 denotes a bit array structure in the float type IEEE standard format. Hereinafter, the IEEE standard format will be described as bit representation of floating point, but the present invention can be applied to other formats.
Although the IEEE standard format uses 8 bits for the exponent part, the number of bits required for the exponent part can be calculated from the speech feature amount range indicated by the maximum value and the minimum value calculated in the above manner. For example, FIG. 5 shows an exponent value and a mantissa value (a mantissa value × 2 exponent value ) when obtaining the maximum and minimum values of the voice feature value of each dimension from a certain acoustic model and converting them into a floating point format. An excerpt of what was sought. Looking at the width of the exponent value for each dimension, the maximum is 2 in the 13th dimension (= 4-2). It can be seen that if the bias value is set to -1, 2 bits can be accommodated. In the IEEE standard format 4 bytes (32 bits) floating point, since the bias value of 127 is originally added to the actual exponent value as the value of the floating point exponent, 8 bits are prepared in the exponent. As described above, even the 13th dimension exponent part having the maximum width of the exponent part can be expressed with 2 bits. Therefore, in the example of FIG. 5, 127 is subtracted from the value of the exponent part to make the exponent part 2 bits. That is, 6 bits can be reduced (compressed). In this way, the exponent value width, that is, the number of exponent bits and the bias value in each dimension of the speech feature vector are obtained.

また仮数部に割り当てるビット数は、仮数部の下位ビットを必要なビット数まで削減することができる。コードブックを利用するような従来技術のようにコードブック作成時に想定していない音声特徴量が認識時に入力された場合の圧縮誤差に比べて、仮数部の下位ビット削減は小数点以下の桁落ちでしかないため、想定外の音声特徴量に対する許容度が大きく、圧縮誤差が少なくできる。ただし、その減少に伴い値の解像度が粗く、誤差が大きくなるため、通信量と誤差すなわち認識性能を考慮して設定する必要がある。たとえば、仮数部のビット数はクライアント・サーバ音声認識システムにあらかじめ指定されている、もしくはアプリケーションから指定される。以上より、音声圧縮係数計算部では音声圧縮係数として音声特徴量ベクトルの各次元での指数部ビット数とバイアス値、仮数部ビット数を計算する。またあらかじめ浮動小数点総ビット数をクライアント・サーバ両計算機に指定することで、仮数部ビット数=総ビット数−符号部ビット数(1ビット)−指数部ビット数(次元ごとに可変)と求めることができるため、仮数部ビット数を送信する必要がなくなる。   In addition, the number of bits allocated to the mantissa part can be reduced to the necessary number of bits. Compared to the compression error when speech features that were not assumed at the time of codebook creation are input at the time of recognition as in the prior art using a codebook, the lower-order bit reduction of the mantissa is less than the decimal point. Therefore, the tolerance for unexpected audio feature amounts is large, and the compression error can be reduced. However, since the resolution of the value becomes coarse and the error increases with the decrease, it is necessary to set in consideration of the communication amount and the error, that is, the recognition performance. For example, the number of bits of the mantissa is specified in advance in the client / server speech recognition system or specified by the application. As described above, the speech compression coefficient calculation unit calculates the exponent part bit number, the bias value, and the mantissa part bit number in each dimension of the speech feature vector as the speech compression coefficient. Also, by specifying the total number of floating-point bits in both the client and server computers in advance, the mantissa bit number = total bit number-sign part bit number (1 bit) -exponential part bit number (variable for each dimension) is obtained. Therefore, it is not necessary to transmit the number of mantissa bits.

次に、クライアント計算機の音声特徴量ベクトルA圧縮部130での処理の説明を行う。音声特徴量ベクトルA圧縮部130は、圧縮前バッファ410と圧縮バッファ420とを有している。音声特徴量ベクトルA圧縮部130は、サーバ計算機から送信され、クライアント計算機で受信され、音声圧縮係数・分析条件A記憶部115に記録された音声圧縮係数を読み込んで圧縮に利用する。図4の圧縮前バッファ410は、圧縮前の音声特徴量ベクトルAのある次元の浮動小数点ビット配列のバッファ、図4の圧縮バッファ420は、その次元を圧縮後の浮動小数点ビット配列のバッファである。ここでは、指数部を2ビット、仮数部を13ビットにして、1次元の音声特徴量あたり16ビットの浮動小数点に圧縮している。   Next, processing in the voice feature vector A compression unit 130 of the client computer will be described. The audio feature vector A compression unit 130 includes a pre-compression buffer 410 and a compression buffer 420. The voice feature vector A compression unit 130 reads the voice compression coefficient transmitted from the server computer, received by the client computer, and recorded in the voice compression coefficient / analysis condition A storage unit 115 and uses it for compression. The pre-compression buffer 410 in FIG. 4 is a buffer of a floating point bit array of a certain dimension of the audio feature vector A before compression, and the compression buffer 420 of FIG. 4 is a buffer of a floating point bit array after compressing the dimension. . Here, the exponent part is 2 bits, the mantissa part is 13 bits, and the data is compressed to a floating point of 16 bits per one-dimensional speech feature.

圧縮の手順は次の通りである。圧縮前バッファ410の符号部を全て圧縮バッファ420にコピーする。次に圧縮前バッファ410の指数部の値に対して、まずIEEE形式指数部バイアス値127を減算し、音声圧縮係数の該当する次元のバイアス値を加算して、音声圧縮係数の該当する次元の指数部ビット数になるよう上位ビットの切捨てを行い、圧縮バッファ420の指数部に格納する。圧縮前バッファ410の仮数部に対して、音声圧縮係数の該当する次元の仮数ビット数、もしくは総ビット数から換算した仮数ビット数になるよう下位ビットの切捨てを行い、圧縮バッファ420の仮数部に格納する。このような操作を音声特徴量ベクトルAの全ての次元に対して行い、圧縮を行う。   The compression procedure is as follows. All the code part of the pre-compression buffer 410 is copied to the compression buffer 420. Next, the IEEE format exponent bias value 127 is first subtracted from the exponent value of the pre-compression buffer 410, the bias value of the corresponding dimension of the audio compression coefficient is added, and the corresponding dimension of the audio compression coefficient is added. The upper bits are rounded down to the exponent part bit number and stored in the exponent part of the compression buffer 420. The mantissa part of the pre-compression buffer 410 is rounded down so that the mantissa bit number of the corresponding dimension of the audio compression coefficient or the mantissa bit number converted from the total bit number becomes a mantissa part of the compression buffer 420. Store. Such an operation is performed on all dimensions of the speech feature vector A to perform compression.

次に、サーバ計算機200の音声特徴量ベクトルA復元部240での処理の説明を行う。音声特徴量ベクトルA復元部240は、復元前バッファ430と復元バッファ440とを有している。音声特徴量ベクトルA復元部240では、クライアント計算機100から送信され、サーバ計算機200で受信した圧縮済み音声特徴量ベクトルAを、サーバ計算機200の音声圧縮係数・分析条件A/B記憶部225に格納された音声圧縮係数を読み込んで復元に利用する。ここで、図4の復元前バッファ430は、クライアント計算機から送信された圧縮済み、つまり復元前の音声特徴量ベクトルAのある次元の浮動小数点ビット配列のバッファである。また、図4の復元バッファ440は、その次元を復元した浮動小数点ビット配列のバッファである。もちろん、復元前バッファ430と圧縮後バッファ420とに格納されている値は同じである。まず、復元前バッファ430の符号部を全て復元バッファ440にコピーする。次に復元前バッファ430の指数部に対して、音声圧縮係数の該当する次元の指数部ビット数分の値を抽出し、音声圧縮係数の該当する次元のバイアス値を減算して、8ビットになるよう上位ビットを0で補完する。次にIEEE形式指数部バイアス値127を加算して復元バッファ440の指数部に格納する。最後に復元前バッファ430の仮数部に対して、圧縮後の特徴量の残るビット数分を抽出し、23ビットになるように、下位ビットを0で補完し、復元バッファ440の仮数部に格納する。   Next, processing in the voice feature vector A restoration unit 240 of the server computer 200 will be described. The audio feature vector A restoration unit 240 includes a pre-restoration buffer 430 and a restoration buffer 440. The speech feature vector A restoration unit 240 stores the compressed speech feature vector A transmitted from the client computer 100 and received by the server computer 200 in the speech compression coefficient / analysis condition A / B storage unit 225 of the server computer 200. The read audio compression coefficient is read and used for restoration. Here, the pre-restoration buffer 430 in FIG. 4 is a buffer of a compressed floating-point bit array of a certain dimension that has been compressed from the client computer, that is, the speech feature vector A before decompression. Also, the restoration buffer 440 in FIG. 4 is a floating point bit array buffer whose dimensions have been restored. Of course, the values stored in the pre-restoration buffer 430 and the post-compression buffer 420 are the same. First, the entire code part of the pre-restoration buffer 430 is copied to the restoration buffer 440. Next, with respect to the exponent part of the pre-restoration buffer 430, a value corresponding to the number of exponent part bits of the corresponding dimension of the audio compression coefficient is extracted, and the bias value of the corresponding dimension of the audio compression coefficient is subtracted to 8 bits. The upper bits are complemented with 0 so that Next, the IEEE format exponent part bias value 127 is added and stored in the exponent part of the restoration buffer 440. Finally, the remaining number of bits of the feature value after compression are extracted from the mantissa part of the pre-restoration buffer 430, the lower bits are complemented with 0 so as to be 23 bits, and stored in the mantissa part of the restoration buffer 440. To do.

このような操作を圧縮済み音声特徴量ベクトルAの全ての次元に対して行い、復元を行う。したがって、想定していない音声特徴量ベクトルに対しても、圧縮誤差を少なくしてクライアント・サーバ間での音声特徴量ベクトルの送受信を行うことができる。
なお、本発明で示したクライアント計算機、サーバ計算機の各機能をプログラムによってコンピュータで実現することもできる。また当該プログラムは、コンピュータ読み取り可能な記録媒体に記録することができる。
Such an operation is performed on all dimensions of the compressed speech feature vector A to perform restoration. Therefore, it is possible to transmit / receive the audio feature vector between the client and the server with a reduced compression error even with respect to an unexpected audio feature vector.
The functions of the client computer and server computer shown in the present invention can be realized by a computer by a program. The program can be recorded on a computer-readable recording medium.

本発明のクライアント・サーバ音声認識システムの機能構成を示す図。The figure which shows the function structure of the client server speech recognition system of this invention. 本発明のクライアント・サーバ音声認識方法の処理フローを示す図。The figure which shows the processing flow of the client server speech recognition method of this invention. 音響モデルとして一般的に利用される隠れマルコフモデルの例を示す図。The figure which shows the example of the hidden Markov model generally utilized as an acoustic model. float型のIEEE標準形式によるビット配列構造を圧縮、復元する方法を示す図。The figure which shows the method of compressing and decompress | restoring the bit arrangement structure by the IEEE standard format of a float type. ある音響モデルから各次元の音声特徴量値の最大値、最小値を求め、それらを浮動小数点形式に変換する際の指数値と仮数値(仮数値×2指数値)を求めたものの抜粋を示す図。The following shows an excerpt of the maximum and minimum values of voice feature values for each dimension from an acoustic model, and the exponent value and mantissa value (significant value x 2 exponent value ) for converting them to floating point format. Figure.

Claims (20)

クライアント計算機で入力された音声をネットワークで接続されたサーバ計算機で音声認識するクライアント・サーバ音声認識方法であって、
サーバ計算機で、利用環境により音響モデルを変更する音響モデル変更ステップと、
サーバ計算機で、変更された音響モデルによって決められている音声特徴量ベクトルを抽出するための音声分析条件を抽出する音声分析条件抽出ステップと、
サーバ計算機で、音声特徴量ベクトルの各次元値をよりビット数の少ない浮動小数点数値に変換するための音声圧縮係数を、前記抽出された音声分析条件から算出する音声圧縮係数ステップと、
サーバ計算機で、前算出された音声圧縮係数と前記抽出された音声分析条件をクライアント計算機に送信する音声圧縮係数・音声分析条件送信ステップと、
クライアント計算機で、前記音声圧縮係数と前記音声分析条件を受信する音声圧縮係数・音声分析条件受信ステップと、
クライアント計算機で、入力された音声から、前記音声分析条件に基づいて音声特徴量ベクトルを抽出する音声特徴量ベクトル抽出ステップと、
クライアント計算機で、前記音声圧縮係数に基づいて前記音声特徴量ベクトルを圧縮し、圧縮済み音声特徴量ベクトルをサーバ計算機に送信する圧縮ステップと、
サーバ計算機で、クライアント計算機から受信した前記圧縮済み音声特徴量ベクトルを算出済みの音声圧縮係数に基づいて復元する復元ステップと、
サーバ計算機で、前記復元した音声特徴量ベクトルを用いて音声認識を行う音声認識ステップと
を有するクライアント・サーバ音声認識方法。
A client-server speech recognition method for recognizing speech input by a client computer by a server computer connected via a network,
On the server computer, an acoustic model change step for changing the acoustic model according to the usage environment;
A voice analysis condition extraction step for extracting a voice analysis condition for extracting a voice feature vector determined by the changed acoustic model in the server computer;
In the server computer, and audio compression coefficient calculating a voice compression coefficient for converting each dimension value of the audio feature vector in a smaller floating point numbers of bits, from the extracted speech analysis condition,
In the server computer, and audio compression coefficient and sound analysis condition transmission step of transmitting the voice compression factor said extracted voice analysis conditions to the client computer before Symbol is calculated,
In the client computer, the voice compression coefficient / voice analysis condition receiving step for receiving the voice compression coefficient and the voice analysis condition;
An audio feature vector extraction step for extracting an audio feature vector from the input audio based on the audio analysis conditions in the client computer;
In the client computer, a compression step of compressing the speech feature vector based on the speech compression coefficient and transmitting the compressed speech feature vector to the server computer;
In the server computer, a restoration step of restoring the compressed voice feature vector received from the client computer based on the calculated voice compression coefficient;
A client / server speech recognition method comprising: a speech recognition step of performing speech recognition using the restored speech feature vector in the server computer.
請求項1記載のクライアント・サーバ音声認識方法であって、
サーバ計算機で、前記復元した音声特徴量ベクトルの全てもしくは一部と、当該復元した音声特徴量ベクトルから求められる音声特徴量ベクトルとで構成する第2の音声特徴量ベクトルを生成する音声特徴量ベクトル生成ステップと、
サーバ計算機で、前記生成された音声特徴量ベクトルを用いて音声認識を行う前記音声認識ステップと
を有するクライアント・サーバ音声認識方法。
The client / server speech recognition method according to claim 1,
A speech feature vector for generating a second speech feature vector composed of all or part of the restored speech feature vector and a speech feature vector obtained from the restored speech feature vector in a server computer Generation step;
A client / server speech recognition method comprising: the speech recognition step of performing speech recognition using the generated speech feature vector in a server computer.
請求項1または2に記載のクライアント・サーバ音声認識方法であって、
前記音声圧縮係数ステップが、前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値、仮数部ビット数とする
ことを特徴とするクライアント・サーバ音声認識方法。
The client-server speech recognition method according to claim 1 or 2 ,
The client / server speech recognition method, wherein the speech compression coefficient step uses the speech compression coefficient as an exponent part bit number, an exponent part bias value, and a mantissa part bit number for each dimension of the speech feature vector.
請求項1または2に記載のクライアント・サーバ音声認識方法であって、
クライアント計算機およびサーバ計算機ともにあらかじめ音声特徴量ベクトルの各次元の総ビット数を指定しておき、
前記音声圧縮係数ステップが、前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値とする
ことを特徴とするクライアント・サーバ音声認識方法。
The client-server speech recognition method according to claim 1 or 2 ,
Specify the total number of bits in each dimension of the speech feature vector in advance for both the client computer and the server computer.
The client / server speech recognition method, wherein the speech compression coefficient step uses the speech compression coefficient as an exponent bit number and an exponent bias value for each dimension of a speech feature vector.
ネットワークで接続されたクライアント計算機に入力された音声を認識するサーバ計算機での音声認識方法であって、
音響モデル変更部で、利用環境により音響モデルを変更する音響モデル変更ステップと
変更された音響モデルによって決められている音声特徴量ベクトルを抽出するための音声分析条件を抽出する音声分析条件抽出ステップと、
音声特徴量ベクトルの各次元値をよりビット数の少ない浮動小数点数値に変換するための音声圧縮係数を、前記抽出された音声分析条件から算出する音声圧縮係数ステップと
算出された音声圧縮係数と前記抽出された音声分析条件をクライアント計算機に送信する音声圧縮係数・音声分析条件送信ステップと、
音声特徴量ベクトル復元部で、受信した圧縮済み音声特徴量ベクトルを算出済みの音声圧縮係数に基づいて復元する復元ステップと、
音声認識部で、前記復元した音声特徴量ベクトルを用いて音声認識を行う音声認識ステップと
を有するサーバ計算機での音声認識方法。
A speech recognition method in a server computer that recognizes speech input to a client computer connected via a network,
In the acoustic model changing unit, an acoustic model changing step for changing the acoustic model according to the usage environment ;
A voice analysis condition extraction step for extracting a voice analysis condition for extracting a voice feature vector determined by the changed acoustic model;
And audio compression coefficient calculating a voice compression coefficient for converting each dimension value of the audio feature vector in a smaller floating point numbers of bits, from the extracted speech analysis condition,
And voice compression coefficient and sound analysis condition transmission step of transmitting to the prior SL calculated speech compression factor and said extracted voice analysis conditions client computer,
In audio feature vector restoring unit, and the restoration step for restoring on the basis of the received compressed already audio feature vectors already calculated voice compression factor,
A speech recognition method in a server computer, comprising: a speech recognition step of performing speech recognition using the restored speech feature vector in the speech recognition unit.
請求項5記載の音声認識方法であって、
音声特徴量ベクトル生成部で、前記復元した音声特徴量ベクトルの全てもしくは一部と、当該復元した音声特徴量ベクトルから求められる音声特徴量ベクトルとで構成する第2の音声特徴量ベクトルを生成する音声特徴量ベクトル生成ステップと、
前記音声認識部で、前記生成された音声特徴量ベクトルを用いて音声認識を行う前記音声認識ステップと
を有するサーバ計算機での音声認識方法。
A claim 5 Symbol mounting speech recognition method,
A speech feature vector generation unit generates a second speech feature vector composed of all or part of the restored speech feature vector and a speech feature vector obtained from the restored speech feature vector. A voice feature vector generation step;
A speech recognition method in a server computer, comprising: the speech recognition step of performing speech recognition using the generated speech feature amount vector in the speech recognition unit.
請求項5まは6記載の音声認識方法であって、
前記音声圧縮係数ステップが、前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値、仮数部ビット数とする
ことを特徴とするサーバ計算機での音声認識方法。
Claim 5 or is a 6 Symbol mounting speech recognition method,
The speech recognition method in the server computer, wherein the speech compression coefficient step uses the speech compression coefficient as an exponent part bit number, an exponent part bias value, and a mantissa part bit number for each dimension of the speech feature vector.
請求項5まは6記載の音声認識方法であって、
あらかじめ音声特徴量ベクトルの各次元の総ビット数を定めておき、
前記音声圧縮係数ステップが、前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値とする
ことを特徴とするサーバ計算機での音声認識方法。
Claim 5 or is a 6 Symbol mounting speech recognition method,
The total number of bits in each dimension of the speech feature vector is determined in advance,
The speech recognition method in the server computer, wherein the speech compression coefficient step uses the speech compression coefficient as the exponent part bit number and the exponent part bias value for each dimension of the speech feature vector.
入力された音声の音声特徴量を送信する音声特徴量抽出・送信方法であって、
音声圧縮係数・音声分析条件受信部で、サーバ計算機が利用する音響モデルによって決められている音声特徴量ベクトルを抽出するための音声分析条件、および当該音声分析条件から算出される音声圧縮係数であり、音声特徴量ベクトルの各次元値をよりビット数の少ない浮動小数点数値に変換するための音声圧縮係数を前記サーバ計算機から受信する音声圧縮係数・音声分析条件受信ステップと、
音声特徴量ベクトル抽出部で、入力された音声から、前記音声分析条件に基づいて音声特徴量ベクトルを抽出する音声特徴量ベクトル抽出ステップと、
音声特徴量ベクトル圧縮部で、前記音声圧縮係数に基づいて前記音声特徴量ベクトルを圧縮し、圧縮済み音声特徴量ベクトルを前記サーバ計算機に送信する圧縮ステップと
を有する音声特徴量抽出・送信方法。
A voice feature extraction / transmission method for transmitting a voice feature of an input voice,
The voice compression coefficient / voice analysis condition receiving unit is a voice analysis condition for extracting a voice feature vector determined by the acoustic model used by the server computer, and a voice compression coefficient calculated from the voice analysis condition. A speech compression coefficient / speech analysis condition receiving step for receiving, from the server computer, a speech compression coefficient for converting each dimension value of the speech feature vector into a floating-point value having a smaller number of bits ;
An audio feature vector extraction step for extracting an audio feature vector from the input audio based on the audio analysis conditions in an audio feature vector extraction unit;
A speech feature quantity extraction / transmission method comprising: a speech step of compressing the speech feature quantity vector based on the speech compression coefficient and sending the compressed speech feature quantity vector to the server computer in a speech feature vector compression unit.
クライアント計算機で入力された音声をネットワークで接続されたサーバ計算機で音声認識するクライアント・サーバ音声認識システムであって、
音響モデルを記録する音響モデル記憶部と、
前記音響モデル記憶部の音声認識に用いる音響モデルを変更する音響モデル変更部と
前記変更された音響モデルによって決められている音声特徴量ベクトルを抽出するための音声分析条件を抽出する音声分析条件抽出部と、
音声特徴量ベクトルの各次元値をよりビット数の少ない浮動小数点数値に変換するための音声圧縮係数を、前記抽出された音声分析条件から算出する音声圧縮係数計算部と
算出された音声圧縮係数と前記抽出された音声分析条件を記録する第1の音声圧縮係数・音声分析条件記憶部と、
前記算出された音声圧縮係数と前記抽出された音声分析条件をクライアント計算機に送信する音声圧縮係数・音声分析条件送信部と、
クライアント計算機から受信した圧縮済み音声特徴量ベクトルを前記音声圧縮係数に基づいて復元する音声特徴量ベクトル復元部と、
前記復元した音声特徴量ベクトルを用いて音声認識を行う音声認識部と
を備えるサーバ計算機と、
音声圧縮係数と音声分析条件をサーバ計算機から受信する音声圧縮係数・音声分析条件受信部と、
前記音声圧縮係数と前記音声分析条件を記録する第2の音声圧縮係数・音声分析条件記憶部と、
入力された音声から、前記音声分析条件に基づいて音声特徴量ベクトルを抽出する音声特徴量ベクトル抽出部と、
前記音声圧縮係数に基づいて前記音声特徴量ベクトルを圧縮する音声特徴量ベクトル圧縮部と、
圧縮済み音声特徴量ベクトルをサーバ計算機に送信する音声特徴量ベクトル送信部と
を備えるクライアント計算機と
から構成されることを特徴とするクライアント・サーバ音声認識システム。
A client-server speech recognition system that recognizes speech input by a client computer by a server computer connected via a network,
An acoustic model storage unit for recording the acoustic model;
An acoustic model changing unit for changing an acoustic model used for speech recognition of the acoustic model storage unit ;
A voice analysis condition extraction unit that extracts a voice analysis condition for extracting a voice feature vector determined by the changed acoustic model;
And audio compression coefficient calculating unit for calculating a speech compression coefficient for converting each dimension value of the audio feature vector in a smaller floating point numbers of bits, from the extracted speech analysis condition,
A first voice compression coefficient and sound analysis condition storing section for recording pre SL calculated speech compression factor and said extracted voice analysis condition,
And voice compression coefficient and sound analysis condition transmitting unit which transmits the is the a calculated speech compression coefficient extracting speech analysis conditions to the client computer,
A voice feature vector restoring unit that restores a compressed voice feature vector received from a client computer based on the voice compression coefficient;
A server computer comprising: a speech recognition unit that performs speech recognition using the restored speech feature vector;
A voice compression coefficient / voice analysis condition receiving unit for receiving a voice compression coefficient and a voice analysis condition from the server computer;
A second voice compression coefficient / voice analysis condition storage unit for recording the voice compression coefficient and the voice analysis condition;
A speech feature vector extraction unit that extracts a speech feature vector from the input speech based on the speech analysis conditions;
An audio feature vector compression unit that compresses the audio feature vector based on the audio compression coefficient;
A client / server speech recognition system comprising: a client computer comprising: a speech feature vector transmission unit that transmits a compressed speech feature vector to a server computer.
請求項10記載のクライアント・サーバ音声認識システムであって、
前記サーバ計算機が、
前記復元した音声特徴量ベクトルの全てもしくは一部と、当該復元した音声特徴量ベクトルから求められる音声特徴量ベクトルとで構成する第2の音声特徴量ベクトルを生成する音声特徴量ベクトル生成部と、
前記生成された音声特徴量ベクトルを用いて音声認識を行う前記音声認識部と
を備えることを特徴とするクライアント・サーバ音声認識システム。
A 10. Symbol mounting client-server speech recognition system,
The server computer is
An audio feature vector generation unit that generates a second audio feature vector composed of all or part of the restored audio feature vector and an audio feature vector obtained from the restored audio feature vector;
The client / server speech recognition system comprising: the speech recognition unit that performs speech recognition using the generated speech feature vector.
請求項10記載のクライアント・サーバ音声認識システムであって、
前記サーバ計算機が、
前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値、仮数部ビット数とする前記音声圧縮係数計算部
を備えることを特徴とするクライアント・サーバ音声認識システム。
A 10. Symbol mounting client-server speech recognition system,
The server computer is
A client / server speech recognition system comprising: the speech compression coefficient calculation unit that sets the speech compression coefficient to an exponent part bit number, an exponent part bias value, and a mantissa part bit number for each dimension of a speech feature vector.
請求項10記載のクライアント・サーバ音声認識システムであって、
クライアント計算機およびサーバ計算機ともにあらかじめ音声特徴量ベクトルの各次元の総ビット数を指定しておき、
前記サーバ計算機が、
前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値とする前記音声圧縮係数計算部
を備えることを特徴とするクライアント・サーバ音声認識システム。
A 10. Symbol mounting client-server speech recognition system,
Specify the total number of bits in each dimension of the speech feature vector in advance for both the client computer and the server computer.
The server computer is
A client-server speech recognition system comprising: the speech compression coefficient calculation unit that uses the speech compression coefficient as an exponent part bit number and an exponent part bias value for each dimension of a speech feature vector.
ネットワークで接続された装置に入力された音声を音声認識する音声認識装置であって、
音響モデルを記録する音響モデル記憶部と、
前記音響モデル記憶部の音声認識に用いる音響モデルを変更する音響モデル変更部と
前記変更された音響モデルによって決められている音声特徴量ベクトルを抽出するための音声分析条件を抽出する音声分析条件抽出部と、
音声特徴量ベクトルの各次元値をよりビット数の少ない浮動小数点数値に変換するための音声圧縮係数を、前記抽出された音声分析条件から算出する音声圧縮係数計算部と
算出された音声圧縮係数と前記抽出された音声分析条件を記録する第1の音声圧縮係数・音声分析条件記憶部と、
前記算出された音声圧縮係数と前記抽出された音声分析条件をクライアント計算機に送信する音声圧縮係数・音声分析条件送信部と、
クライアント計算機から受信した圧縮済み音声特徴量ベクトルを前記音声圧縮係数に基づいて復元する音声特徴量ベクトル復元部と、
前記復元した音声特徴量ベクトルを用いて音声認識を行う音声認識部と
を備える音声認識装置。
A speech recognition device that recognizes speech input to a device connected via a network,
An acoustic model storage unit for recording the acoustic model;
An acoustic model changing unit for changing an acoustic model used for speech recognition of the acoustic model storage unit ;
A voice analysis condition extraction unit that extracts a voice analysis condition for extracting a voice feature vector determined by the changed acoustic model;
And audio compression coefficient calculating unit for calculating a speech compression coefficient for converting each dimension value of the audio feature vector in a smaller floating point numbers of bits, from the extracted speech analysis condition,
A first voice compression coefficient and sound analysis condition storing section for recording pre SL calculated speech compression factor and said extracted voice analysis condition,
And voice compression coefficient and sound analysis condition transmitting unit which transmits the is the a calculated speech compression coefficient extracting speech analysis conditions to the client computer,
A voice feature vector restoring unit that restores a compressed voice feature vector received from a client computer based on the voice compression coefficient;
A speech recognition apparatus comprising: a speech recognition unit that performs speech recognition using the restored speech feature vector.
請求項14記載の音声認識装置であって、
前記復元した音声特徴量ベクトルの全てもしくは一部と、当該復元した音声特徴量ベクトルから求められる音声特徴量ベクトルとで構成する第2の音声特徴量ベクトルを生成する音声特徴量ベクトル生成部と、
前記生成された音声特徴量ベクトルを用いて音声認識を行う前記音声認識部と
を備える音声認識装置。
A speech recognition apparatus according to claim 14 Symbol mounting,
An audio feature vector generation unit that generates a second audio feature vector composed of all or part of the restored audio feature vector and an audio feature vector obtained from the restored audio feature vector;
A speech recognition apparatus comprising: the speech recognition unit that performs speech recognition using the generated speech feature vector.
請求項14まは15記載の音声認識装置であって、
前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値、仮数部ビット数とする前記音声圧縮係数計算部
を備える音声認識装置。
14. or may be a voice recognition device of the mounting 15 SL,
A speech recognition apparatus comprising: the speech compression coefficient calculation unit, wherein the speech compression coefficient is an exponent part bit number, an exponent part bias value, and a mantissa part bit number for each dimension of a speech feature vector.
請求項14まは15記載の音声認識装置であって、
あらかじめ音声特徴量ベクトルの各次元の総ビット数を指定しておき、
前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値とする前記音声圧縮係数計算部
を備える音声認識装置。
14. or may be a voice recognition device of the mounting 15 SL,
Specify the total number of bits in each dimension of the speech feature vector beforehand,
A speech recognition apparatus comprising: the speech compression coefficient calculation unit that uses the speech compression coefficient as an exponent part bit number and an exponent part bias value for each dimension of a speech feature vector.
入力された音声の音声特徴量を送信する音声特徴量抽出・送信装置であって、
サーバ計算機が利用する音響モデルによって決められている音声特徴量ベクトルを抽出するための音声分析条件、および当該音声分析条件から算出される音声圧縮係数であり、音声特徴量ベクトルの各次元値をよりビット数の少ない浮動小数点数値に変換するための音声圧縮係数前記サーバ計算機から受信する音声圧縮係数・音声分析条件受信部と、
前記音声圧縮係数と前記音声分析条件を記録する音声圧縮係数・音声分析条件記憶部と、
入力された音声から、前記音声分析条件に基づいて音声特徴量ベクトルを抽出する音声特徴量ベクトル抽出部と、
前記音声圧縮係数に基づいて前記音声特徴量ベクトルを圧縮する音声特徴量ベクトル圧縮部と、
圧縮済み音声特徴量ベクトルを前記サーバ計算機に送信する音声特徴量ベクトル送信部と
を備える音声特徴量抽出・送信装置。
An audio feature extraction / transmission device that transmits an audio feature of an input voice,
Speech analysis condition for extracting a speech feature vector server computer is determined by the acoustic model to be used, and an audio compression coefficient calculated from the speech analysis conditions, each dimension value of the audio feature vector A voice compression coefficient / voice analysis condition receiving unit for receiving a voice compression coefficient for conversion to a floating-point value having a smaller number of bits from the server computer ;
A voice compression coefficient / voice analysis condition storage unit for recording the voice compression coefficient and the voice analysis condition;
A speech feature vector extraction unit that extracts a speech feature vector from the input speech based on the speech analysis conditions;
An audio feature vector compression unit that compresses the audio feature vector based on the audio compression coefficient;
A speech feature quantity extraction / transmission apparatus comprising: a speech feature quantity vector transmission unit that transmits a compressed speech feature quantity vector to the server computer .
請求項1から9のいずれかに記載の方法の各ステップをコンピュータにより実行するプログラム。 Program for executing a computer the steps of the method according to any one of claims 1 through 9. 請求項19記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。 Computer readable recording medium recording the claim 19 Symbol mounting program.
JP2005177698A 2005-06-17 2005-06-17 Client / server speech recognition method, speech recognition method in server computer, speech feature extraction / transmission method, system, apparatus, program, and recording medium using these methods Active JP4603429B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005177698A JP4603429B2 (en) 2005-06-17 2005-06-17 Client / server speech recognition method, speech recognition method in server computer, speech feature extraction / transmission method, system, apparatus, program, and recording medium using these methods

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005177698A JP4603429B2 (en) 2005-06-17 2005-06-17 Client / server speech recognition method, speech recognition method in server computer, speech feature extraction / transmission method, system, apparatus, program, and recording medium using these methods

Publications (2)

Publication Number Publication Date
JP2006350090A JP2006350090A (en) 2006-12-28
JP4603429B2 true JP4603429B2 (en) 2010-12-22

Family

ID=37646004

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005177698A Active JP4603429B2 (en) 2005-06-17 2005-06-17 Client / server speech recognition method, speech recognition method in server computer, speech feature extraction / transmission method, system, apparatus, program, and recording medium using these methods

Country Status (1)

Country Link
JP (1) JP4603429B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5233330B2 (en) * 2008-03-07 2013-07-10 日本電気株式会社 Acoustic analysis condition normalization system, acoustic analysis condition normalization method, and acoustic analysis condition normalization program
JP5609182B2 (en) * 2010-03-16 2014-10-22 日本電気株式会社 Speech recognition apparatus, speech recognition method, and speech recognition program
JP5524131B2 (en) * 2011-05-30 2014-06-18 日本電信電話株式会社 Text and speech feature collection method, system and program

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6069700A (en) * 1983-09-27 1985-04-20 富士通株式会社 Voice recognition equipment
JPH0566793A (en) * 1991-09-09 1993-03-19 Matsushita Electric Ind Co Ltd Speech input device
JPH09146585A (en) * 1995-11-27 1997-06-06 Hitachi Ltd Voice recognition and translation system
JP2001267928A (en) * 2000-03-17 2001-09-28 Casio Comput Co Ltd Audio data compressor and storage medium
JP2001337695A (en) * 2000-05-24 2001-12-07 Canon Inc Speech processing system, device, method and storage medium
JP2002014693A (en) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp Method to provide dictionary for voice recognition system, and voice recognition interface
JP2002268681A (en) * 2001-03-08 2002-09-20 Canon Inc System and method for voice recognition, information processor used for the same system, and method thereof
JP2003517158A (en) * 1999-11-12 2003-05-20 フェニックス ソリューションズ インコーポレーテッド Distributed real-time speech recognition system
JP2003241788A (en) * 2002-02-20 2003-08-29 Ntt Docomo Inc Device and system for speech recognition
JP2004104757A (en) * 2002-07-16 2004-04-02 Advanced Media Inc Voice input device

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6069700A (en) * 1983-09-27 1985-04-20 富士通株式会社 Voice recognition equipment
JPH0566793A (en) * 1991-09-09 1993-03-19 Matsushita Electric Ind Co Ltd Speech input device
JPH09146585A (en) * 1995-11-27 1997-06-06 Hitachi Ltd Voice recognition and translation system
JP2003517158A (en) * 1999-11-12 2003-05-20 フェニックス ソリューションズ インコーポレーテッド Distributed real-time speech recognition system
JP2001267928A (en) * 2000-03-17 2001-09-28 Casio Comput Co Ltd Audio data compressor and storage medium
JP2001337695A (en) * 2000-05-24 2001-12-07 Canon Inc Speech processing system, device, method and storage medium
JP2002014693A (en) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp Method to provide dictionary for voice recognition system, and voice recognition interface
JP2002268681A (en) * 2001-03-08 2002-09-20 Canon Inc System and method for voice recognition, information processor used for the same system, and method thereof
JP2003241788A (en) * 2002-02-20 2003-08-29 Ntt Docomo Inc Device and system for speech recognition
JP2004104757A (en) * 2002-07-16 2004-04-02 Advanced Media Inc Voice input device

Also Published As

Publication number Publication date
JP2006350090A (en) 2006-12-28

Similar Documents

Publication Publication Date Title
US5627939A (en) Speech recognition system and method employing data compression
US20070276662A1 (en) Feature-vector compensating apparatus, feature-vector compensating method, and computer product
JPH09127990A (en) Voice coding method and device
JPH09127989A (en) Voice coding method and voice coding device
EP0680654B1 (en) Text-to-speech system using vector quantization based speech encoding/decoding
JP3189598B2 (en) Signal combining method and signal combining apparatus
CN114550732B (en) Coding and decoding method and related device for high-frequency audio signal
JPH10319996A (en) Efficient decomposition of noise and periodic signal waveform in waveform interpolation
JP2006031016A (en) Voice coding/decoding method and apparatus therefor
JP4603429B2 (en) Client / server speech recognition method, speech recognition method in server computer, speech feature extraction / transmission method, system, apparatus, program, and recording medium using these methods
US7379868B2 (en) Method and apparatus for differential compression of speaker models
JP2009253706A (en) Coding device, decoding device, coding method, decoding method and program
CN106256001B (en) Signal classification method and apparatus and audio encoding method and apparatus using the same
US20080162150A1 (en) System and Method for a High Performance Audio Codec
US7092878B1 (en) Speech synthesis using multi-mode coding with a speech segment dictionary
JP3089967B2 (en) Audio coding device
US8626501B2 (en) Encoding apparatus, encoding method, decoding apparatus, decoding method, and program
JP3700310B2 (en) Vector quantization apparatus and vector quantization method
Ozaydin et al. A 1200 bps speech coder with LSF matrix quantization
JP2001230675A (en) Method for hierarchically encoding and decoding acoustic signal
JP3257386B2 (en) Vector quantization method
KR100383589B1 (en) Method of reducing a mount of calculation needed for pitch search in vocoder
JP2000242299A (en) Weight code book and its generating method, setting method for initial value of ma prediction coefficient in learning in code book designing, encoding method and decoding method for sound signal, computer-readable storage medium storing encoding program and computer- readable storage medium storing decording program
JPH07134600A (en) Device for encoding voice and device for decoding voice
EP4196981A1 (en) Trained generative model speech coding

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100921

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101001

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4603429

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350