JP2006350090A

JP2006350090A - クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体

Info

Publication number: JP2006350090A
Application number: JP2005177698A
Authority: JP
Inventors: Yoshikazu Yamaguchi; 義和山口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-06-17
Filing date: 2005-06-17
Publication date: 2006-12-28
Anticipated expiration: 2025-06-17
Also published as: JP4603429B2

Abstract

【課題】利用される音響モデルのパラメータ、さらには利用される音声特徴量の種類の変更に応じて、音声特徴量ベクトルの圧縮方法を変更し、コードブックの再作成の必要なしにクライアント・サーバ間での音声特徴量ベクトルの送受信を行うことができる方法を提供する。
【解決手段】本発明では、サーバ計算機で音声認識に用いる音響モデルから音声圧縮係数を算出し、該音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件をクライアント計算機に送信する。クライアント計算機では、受信した該音声分析条件に基づいて入力された音声から音声特徴量ベクトルを抽出し、該音声圧縮係数に基づいて該音声特徴量ベクトルを圧縮して、サーバ計算機に送信する。サーバ計算機は、クライアント計算機から受信した該圧縮済み音声特徴量ベクトルを算出済みの音声圧縮係数に基づいて復元し、当該復元した音声特徴量ベクトルを用いて音声認識を行う。
【選択図】図１

Description

本発明は、クライアント計算機で入力された音声から音声特徴量ベクトルを抽出し、ネットワークで接続されたサーバ計算機で音声認識を行うクライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体に関する。

音声特徴量ベクトルをクライアント・サーバ間で送受信するクライアント・サーバ音声認識方法における、通信量削減のための音声特徴量ベクトルの圧縮方法は、非特許文献１に代表されるようにコードブックと呼ばれる代表的な音声特徴量ベクトル群をあらかじめ作成し、それをクライアント・サーバ音声認識システムに当初から埋め込むか、もしくはシステム起動時に同期させ、それを利用して音声特徴量ベクトルの送受信を行なっている。また、送受信される音声特徴量ベクトルは１個または複数個の整数値として圧縮されていた。
ETSI ES 202 212 V1.1.1

音声認識では、利用される話者や利用環境（背景雑音など）の変化が生じると、音響モデルパラメータを、適応処理を行って変更する場合がある。または、利用した音響モデルとは特徴量抽出方法（モデルパラメータ）の全く異なる新しい音響モデルに変更する場合もある。その際、上述の従来技術では、音響モデルの更新とともにコードブックの再作成が必要となる。
また、従来技術ではあらかじめ作成したコードブックから音声特徴量ベクトルを整数値に変換していたが、コードブック作成時に想定していない音声特徴量ベクトルが入力された場合、圧縮誤差が非常に大きくなる。例えば、想定していない雑音環境下で音声認識する場合、ユーザが未発声の区間の入力が大きな誤差を含んで圧縮され、サーバ計算機に送信される。そのため、誤認識率の増大や、受信した未発声区間を用いた雑音抑圧・適応処理の失敗率の増大を招く。

そこで本発明の目的は、利用される音響モデルのパラメータ、さらには利用される音声特徴量の種類の変更に応じて、音声特徴量ベクトルの圧縮方法を変更し、コードブックの再作成の必要なしにクライアント・サーバ間での音声特徴量ベクトルの送受信を行うことができる方法を提供することにある。また、想定していない音声特徴量ベクトルに対しても従来技術より圧縮誤差を少なくしてクライアント・サーバ問での音声特徴量ベクトルの送受信を行うことができる方法を提供することにある。

本発明では、サーバ計算機で音声認識に用いる音響モデルから音声圧縮係数を算出し、該音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件をクライアント計算機に送信する。クライアント計算機では、受信した該音声分析条件に基づいて入力された音声から音声特徴量ベクトルを抽出し、該音声圧縮係数に基づいて該音声特徴量ベクトルを圧縮して、サーバ計算機に送信する。サーバ計算機は、クライアント計算機から受信した該圧縮済み音声特徴量ベクトルを算出済みの音声圧縮係数に基づいて復元し、当該復元した音声特徴量ベクトルを用いて音声認識を行う。
また、クライアント計算機で音声圧縮係数に基づいて音声特徴量ベクトルの各次元値をよりビットサイズの小さい浮動小数点数値に変換する。

本発明によれば、読み込まれた音響モデルの内容に応じて音声特徴量ベクトルの圧縮方法（パラメータ）を変更させることで、適応などにより音響モデルパラメータに大きな変更が生じた場合や、全く特徴量抽出方法の異なる音響モデルを利用しようとした場合でも、コードブックの再作成の必要なしにクライアント・サーバ間での音声特徴量ベクトルの圧縮と、送受信を行うことができる。
また、よりビットサイズの小さい浮動小数点により表現することで、想定外の音声特徴量に対しても比較的柔軟に対応できる。これにより、想定していない雑音環境下での利用や、未発声区間を用いた雑音抑圧・適応処理が行える。

［第１実施形態］
本実施形態のクライアント・サーバ音声認識方法およびシステムは、利用される音響モデルや音声特徴量の種類の変更に応じて、音声特徴量ベクトルの圧縮方法を変更させ、コードブックの再作成の必要なしにクライアント・サーバ間での音声特徴量ベクトルの送受信を行うものである。図１に本発明のクライアント・サーバ音声認識システムの機能構成を、図２に本発明のクライアント・サーバ音声認識方法の処理フローを示す。
以下の説明では、混同を避けるため、クライアント計算機での音声認識特徴量抽出処理で得られた音声特徴量ベクトルを、音声特徴量ベクトルＡと言うこととする。また、サーバ計算機での、音声認識特徴量抽出処理で得られた第２の音声特徴量ベクトルを、音声特徴量ベクトルＢと言うこととする。

サーバ計算機２００の音響モデル変更部２１０は、音声認識に使用する音響モデルの変更を行う（Ｓ２１０）。この音響モデルの変更方法としては、複数の音響モデルを用意しておき、話者や利用環境（背景雑音）の変化に応じて、音声認識に用いる音響モデルを選択する方法がある。また、音響モデルは１つであるが、話者や利用環境（背景雑音）の変化に応じて、適応処理を行って、モデルパラメータを更新した音響モデルを次回以降の音声認識に用いる方法もある。音響モデル変更部２１０は、どの変更方法に対応していてもよい。また、音響モデル変更部２１０が音響モデル記憶部２１５に記録される音声認識に用いる音響モデルを変更するタイミングとしては、音声認識処理を始める前（例えば、クライアント計算機１００がサーバ計算機２００と接続したとき）、無音声区間の雑音が変化したことを検出して適応処理を行ったとき、など、さまざまなタイミングが考えられる。本発明は、どのようなタイミングで音響モデルを変更したときにも適用できるため、上記のタイミングに限らず、使用目的にあった音響モデルの変更方法を採用することができる。

サーバ計算機２００では、新しく音声認識に利用する音響モデルが、音響モデル記憶部２１５に読み込まれると（選定、更新されると）、音声圧縮係数計算部２２０が、音声認識に用いられる音響モデルから、当該音響モデルに含まれる音声特徴量パラメータ分布を抽出した条件と同じ条件を、音声特徴量ベクトルを抽出するための音声分析条件として抽出する（Ｓ２２０）。また、音声圧縮係数計算部２２０は、音声分析条件を、音声分析条件Ａと音声分析条件Ｂの２つに分けてもよい。ただし、分け方は、音声分析条件Ｂで求める音声特徴量ベクトルの要素が、音声分析条件Ａで求める音声特徴量ベクトルの全部または一部から求められるように分ける。たとえば、音声認識に必要な音声特徴量ベクトルが、１次〜１２次ケプストラム、パワー、１次〜１２次デルタケプストラム、デルタパワーとする場合に、音声分析条件Ａを１次〜１２次ケプストラム、パワーを求めるために必要な条件とし、音声分析条件Ｂを１次〜１２次デルタケプストラム、デルタパワーを求めるために必要な条件とする。この場合、音声分析条件Ａは、必要な１フレーム（分析窓）分のサンプル数、次のフレームを計算するためのシフトサンプル数、ケプストラム次元数などである。また、音声分析条件Ｂは、音声特徴量ベクトルＡがどの種別の特徴量であるかの情報や、デルタ特徴量を計算する窓幅などである。以下の説明では、音声分析条件をＡとＢに分けた場合について説明する。なお、分けなかった場合は、音声分析条件Ｂや後述する音声特徴量ベクトルＢ生成部２４５を削除すればよい。

さらに、音声圧縮係数計算部２２０は、音声分析条件から音声圧縮係数を算出する（Ｓ２２１）。算出された音声圧縮係数と音声分析条件Ａおよび音声分析条件Ｂを音声圧縮係数・分析条件Ａ／Ｂ記憶部２２５に格納する。ここで計算される音声圧縮係数とは、音声認識時にクライアント計算機で音声特徴量ベクトルＡを圧縮し、かつサーバ計算機で圧縮された特徴量を復元するために必要な情報である。例えば、音声特徴量ベクトルの各ベクトル要素（次元）でスカラ量子化を行う場合は、その次元の値が取り得る範囲とその範囲を分割するための分割数（いわゆる必要ビット数）、分割方法（均等分割か、対数分割か、など）である。

次に、音声圧縮係数・分析条件Ａ送信部２３０は、音声圧縮係数・分析条件Ａ／Ｂ記憶部２２５に記録されている音声圧縮係数と音声分析条件Ａを、クライアント計算機１００に送信する（Ｓ２３０）。
クライアント計算機１００の音声圧縮係数・分析条件Ａ受信部１１０は、サーバ計算機２００の音声圧縮係数・分析条件Ａ送信部２３０より送信された音声圧縮係数と音声分析条件Ａを受信し、音声圧縮係数・分析条件Ａ記憶部１１５に格納する（Ｓ１１０）。
以上の処理は、音声認識を開始する前、利用環境が変化したと判断された場合などに、音響モデル変換部２１０が音響モデル記録部２１５に記録されている音声認識に用いる音響モデルを更新し、開始される。

音声認識の処理は以下のようになる。クライアント計算機の入力バッファ１２０には、本発明の前段に実装されているＡ／Ｄ変換装置などでテジタル化された音声信号が入力され、蓄積され、フレームと呼ばれる１０ミリ秒から２０ミリ秒程度の単位に音声信号が分けられ、音声特徴量ベクトルＡ抽出部１２５に送られる（Ｓ１２０）。音声特徴量ベクトルＡ抽出部１２５は、音声圧縮係数・分析条件Ａ記憶部に格納されている音声分析条件Ａを読み出し、それに基づいて音声特徴量ベクトルＡを抽出する（Ｓ１２５）。
音声特徴量ベクトルＡ圧縮部１３０は、音声圧縮係数・分析条件Ａ記憶部１１５に記録されている音声圧縮係数を読み出し、その音声圧縮係数に基づいて音声特徴量ベクトルＡ抽出部で抽出された１フレームもしくは複数フレーム分の音声特徴量ベクトルＡを圧縮する（Ｓ１３０）。具体的な圧縮方法は、圧縮技術として一般的に用いられている従来技術を用いればよい。圧縮された音声特徴量ベクトルＡは音声特徴量ベクトルＡ送信部１３５よりサーバ計算機２００に送信される（Ｓ１３５）。

サーバ計算機２００の音声特徴量ベクトルＡ受信部２３５では、クライアント計算機１００の音声特徴量ベクトルＡ送信部１３５より送信された圧縮済み音声特徴量ベクトルＡを受信する（Ｓ２３５）。音声特徴量ベクトルＡ復元部２４０は、音声圧縮係数・分析条件Ａ／Ｂ記憶部２２５に記録されている音声圧縮係数を読み出し、受信した１フレームもしくは複数フレーム分の圧縮済み音声特徴量ベクトルＡから、当該音声圧縮係数に基づいて音声特徴量ベクトルＡを復元する（Ｓ２４０）。音声特徴量ベクトルＢ生成部２４５は、音声圧縮係数・分析条件Ａ／Ｂ記憶部２２５に格納されている音声分析条件Ｂを読み出し、それに基づいて１フレームごとに、音声特徴量ベクトルＡを利用して、音声特徴量ベクトルＡの全てあるいは一部を含む音声特徴量ベクトルＢを生成する（Ｓ２４５）。なお、ステップＳ２２０で音声分析条件をＡとＢに分けなかった場合には、音声特徴量ベクトルＢ生成部２４５およびステップＳ２４５は不要である。

音声認識部２５０は、前記の音声特徴量ベクトルＢと音響モデル記憶部２１５に音声認識に用いる音響モデルとして記録された音響モデルとを比較し、音声認識を行う（Ｓ２５０）。認識結果は、サーバ計算機２００に記録しても良いし、認識結果送信部２５５がクライアント計算機１００に送信しても良い（Ｓ２５５）。
クライアント計算機１００の認識結果受信部１４０は、サーバ計算機２００から送られてきた認識結果を受信し、結果出力装置（ディスプレイ等）に出力する（Ｓ１４０）。
以上の処理によって、音声認識に用いられる音響モデルの変更に伴う特徴量抽出方法の変更に応じて、音声特徴量ベクトルの圧縮方法を変更させ、コードブックの再作成の必要なしにクライアント・サーバ間での音声特徴量ベクトルの送受信を行うことができる。
［第２実施形態］
本実施形態は、音声特徴量ベクトルの各次元値を浮動小数点数値に圧縮することで、想定していない音声特徴量ベクトルに対しても従来技術より圧縮誤差を少なくしてクライアント・サーバ間での音声特徴量ベクトルの送受信を行うものである。まず、音声特徴量ベクトルを浮動小数点数値列に圧縮するための音声圧縮係数の算出、圧縮および復元方法について説明する。
以下に、サーバ計算機の音声圧縮係数計算部における処理の説明を行う。図３に音響モデルとして一般的に利用される隠れマルコフモデル（Hidden Markov Mode1、以下ＨＭＭと略す。）の例を示す。図３はある音声カテゴリのＨＭＭであり、例えば音素ごと、もしくは前後の音素を考慮した音素環境ごとにこのようなＨＭＭが用意される。ＨＭＭは単一もしくは複数の状態を持つ。音声認識では、時刻が進むごとに他の状態や自状態へ遷移しながら、各状態が持つ標準音声パターンと入力音声特徴量ベクトルとを照合し、尤度を計算する。標準音声パターンの保持方法には幾つかあるが、図３では混合ガウス分布によるＨＭＭを示している。混合ガウス分布は単一ガウス分布を混合比に応じて合成したものであり、それが音声特徴量ベクトルの各次元に存在する。これら混合ガウス分布は音響モデル学習時に、学習データとして用意された膨大な量の音声データから計算される音声特徴量の統計値である。よって、この音響モデルに含まれるあらゆる音素もしくは音素環境ごとのＨＭＭの各次元の分布は、入力音声特徴量として受理できる数値の範囲を表現している。本発明はこの音声特徴量の各次元の受理範囲をもとに音声圧縮係数を計算している。一般にガウス分布では、その平均からその標準偏差に３を乗じたものを加減算した範囲（以下、「３シグマ範囲」という。）で分布の９９．７％（分布のほとんど）をカバーしている。そこで、音響モデルに含まれる全てのガウス分布の各次元の音声特徴量分布の３シグマ範囲を計算し、最大値、最小値を求める。この最大値と最小値から成る範囲が、各次元の特徴量の取り得る範囲となる。これを音声特徴量ベクトルの全ての次元に対して行う。

一般的な浮動小数点として４ｂｙｔｅ（３２ビット）浮動小数点、いわゆるfloat型のIEEE標準形式によるビット配列構造を圧縮、復元する方法を図４に示す。４１０がfloat型のIEEE標準形式によるビット配列構造である。以下、浮動小数点のビット表現としてIEEE標準形式を用いて説明するが、本発明は他の形式でも適用可能である。
IEEE標準形式では指数部に８ビットを利用しているが、上記の要領で計算した最大値、最小値が示す音声特徴量範囲から指数部に必要なビット数を計算することができる。例えば、図５は、ある音響モデルから各次元の音声特徴量値の最大値、最小値を求め、それらを浮動小数点形式に変換する際の指数値と仮数値（仮数値×２^指数値）を求めたものの抜粋である。次元ごとに指数値の幅を見ると最大でも第１３次元の２（＝４−２）である。バイアス値を−１とすれば２ビットで収まることがわかる。また、IEEE標準形式４byte（３２ビット）浮動小数点ではもともと、１２７のバイアス値を実際の指数値に加えて浮動小数点指数部の値としているため、８ビットを指数部に用意している。上記のように指数部の幅が最大の第１３次元の指数部でも２ビットあれば表現できるため、図５の例では、１２７を指数部の値から引いて、指数部を２ビットとする。つまり、６ビット削減（圧縮）できる。このようにして音声特徴量ベクトルの各次元での指数値幅すなわち指数部ビット数とバイアス値を求める。

また仮数部に割り当てるビット数は、仮数部の下位ビットを必要なビット数まで削減することができる。コードブックを利用するような従来技術のようにコードブック作成時に想定していない音声特徴量が認識時に入力された場合の圧縮誤差に比べて、仮数部の下位ビット削減は小数点以下の桁落ちでしかないため、想定外の音声特徴量に対する許容度が大きく、圧縮誤差が少なくできる。ただし、その減少に伴い値の解像度が粗く、誤差が大きくなるため、通信量と誤差すなわち認識性能を考慮して設定する必要がある。たとえば、仮数部のビット数はクライアント・サーバ音声認識システムにあらかじめ指定されている、もしくはアプリケーションから指定される。以上より、音声圧縮係数計算部では音声圧縮係数として音声特徴量ベクトルの各次元での指数部ビット数とバイアス値、仮数部ビット数を計算する。またあらかじめ浮動小数点総ビット数をクライアント・サーバ両計算機に指定することで、仮数部ビット数＝総ビット数−符号部ビット数（１ビット）−指数部ビット数（次元ごとに可変）と求めることができるため、仮数部ビット数を送信する必要がなくなる。

次に、クライアント計算機の音声特徴量ベクトルＡ圧縮部１３０での処理の説明を行う。音声特徴量ベクトルＡ圧縮部１３０は、圧縮前バッファ４１０と圧縮バッファ４２０とを有している。音声特徴量ベクトルＡ圧縮部１３０は、サーバ計算機から送信され、クライアント計算機で受信され、音声圧縮係数・分析条件Ａ記憶部１１５に記録された音声圧縮係数を読み込んで圧縮に利用する。図４の圧縮前バッファ４１０は、圧縮前の音声特徴量ベクトルＡのある次元の浮動小数点ビット配列のバッファ、図４の圧縮バッファ４２０は、その次元を圧縮後の浮動小数点ビット配列のバッファである。ここでは、指数部を２ビット、仮数部を１３ビットにして、１次元の音声特徴量あたり１６ビットの浮動小数点に圧縮している。

圧縮の手順は次の通りである。圧縮前バッファ４１０の符号部を全て圧縮バッファ４２０にコピーする。次に圧縮前バッファ４１０の指数部の値に対して、まずIEEE形式指数部バイアス値１２７を減算し、音声圧縮係数の該当する次元のバイアス値を加算して、音声圧縮係数の該当する次元の指数部ビット数になるよう上位ビットの切捨てを行い、圧縮バッファ４２０の指数部に格納する。圧縮前バッファ４１０の仮数部に対して、音声圧縮係数の該当する次元の仮数ビット数、もしくは総ビット数から換算した仮数ビット数になるよう下位ビットの切捨てを行い、圧縮バッファ４２０の仮数部に格納する。このような操作を音声特徴量ベクトルＡの全ての次元に対して行い、圧縮を行う。

次に、サーバ計算機２００の音声特徴量ベクトルＡ復元部２４０での処理の説明を行う。音声特徴量ベクトルＡ復元部２４０は、復元前バッファ４３０と復元バッファ４４０とを有している。音声特徴量ベクトルＡ復元部２４０では、クライアント計算機１００から送信され、サーバ計算機２００で受信した圧縮済み音声特徴量ベクトルＡを、サーバ計算機２００の音声圧縮係数・分析条件Ａ／Ｂ記憶部２２５に格納された音声圧縮係数を読み込んで復元に利用する。ここで、図４の復元前バッファ４３０は、クライアント計算機から送信された圧縮済み、つまり復元前の音声特徴量ベクトルＡのある次元の浮動小数点ビット配列のバッファである。また、図４の復元バッファ４４０は、その次元を復元した浮動小数点ビット配列のバッファである。もちろん、復元前バッファ４３０と圧縮後バッファ４２０とに格納されている値は同じである。まず、復元前バッファ４３０の符号部を全て復元バッファ４４０にコピーする。次に復元前バッファ４３０の指数部に対して、音声圧縮係数の該当する次元の指数部ビット数分の値を抽出し、音声圧縮係数の該当する次元のバイアス値を減算して、８ビットになるよう上位ビットを０で補完する。次にIEEE形式指数部バイアス値１２７を加算して復元バッファ４４０の指数部に格納する。最後に復元前バッファ４３０の仮数部に対して、圧縮後の特徴量の残るビット数分を抽出し、２３ビットになるように、下位ビットを０で補完し、復元バッファ４４０の仮数部に格納する。

このような操作を圧縮済み音声特徴量ベクトルＡの全ての次元に対して行い、復元を行う。したがって、想定していない音声特徴量ベクトルに対しても、圧縮誤差を少なくしてクライアント・サーバ間での音声特徴量ベクトルの送受信を行うことができる。
なお、本発明で示したクライアント計算機、サーバ計算機の各機能をプログラムによってコンピュータで実現することもできる。また当該プログラムは、コンピュータ読み取り可能な記録媒体に記録することができる。

本発明のクライアント・サーバ音声認識システムの機能構成を示す図。本発明のクライアント・サーバ音声認識方法の処理フローを示す図。音響モデルとして一般的に利用される隠れマルコフモデルの例を示す図。 float型のIEEE標準形式によるビット配列構造を圧縮、復元する方法を示す図。ある音響モデルから各次元の音声特徴量値の最大値、最小値を求め、それらを浮動小数点形式に変換する際の指数値と仮数値（仮数値×２^指数値）を求めたものの抜粋を示す図。

Claims

クライアント計算機で入力された音声をネットワークで接続されたサーバ計算機で音声認識するクライアント・サーバ音声認識方法であって、
サーバ計算機で、利用環境により音響モデルを変更する音響モデル変更ステップと、
サーバ計算機で、音声認識に用いる音響モデルから音声圧縮係数を算出する音声圧縮係数ステップと、
サーバ計算機で、前記音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件をクライアント計算機に送信する音声圧縮係数・音声分析条件送信ステップと、
クライアント計算機で、前記音声圧縮係数と前記音声分析条件を受信する音声圧縮係数・音声分析条件受信ステップと、
クライアント計算機で、入力された音声から、前記音声分析条件に基づいて音声特徴量ベクトルを抽出する音声特徴量ベクトル抽出ステップと、
クライアント計算機で、前記音声圧縮係数に基づいて前記音声特徴量ベクトルを圧縮し、圧縮済み音声特徴量ベクトルをサーバ計算機に送信する圧縮ステップと、
サーバ計算機で、クライアント計算機から受信した前記圧縮済み音声特徴量ベクトルを算出済みの音声圧縮係数に基づいて復元する復元ステップと、
サーバ計算機で、前記復元した音声特徴量ベクトルを用いて音声認識を行う音声認識ステップと
を有するクライアント・サーバ音声認識方法。
請求項１記載のクライアント・サーバ音声認識方法であって、
サーバ計算機で、前記復元した音声特徴量ベクトルの全てもしくは一部と、当該復元した音声特徴量ベクトルから求められる音声特徴量ベクトルとで構成する第２の音声特徴量ベクトルを生成する音声特徴量ベクトル生成ステップと、
サーバ計算機で、前記生成された音声特徴量ベクトルを用いて音声認識を行う前記音声認識ステップと
を有するクライアント・サーバ音声認識方法。
請求項１または２記載のクライアント・サーバ音声認識方法であって、
前記圧縮ステップが、前記音声圧縮係数に基づいて音声特徴量ベクトルの各次元値をよりビット数の少ない浮動小数点数値に変換する
ことを特徴とするクライアント・サーバ音声認識方法。
請求項１から３のいずれかに記載のクライアント・サーバ音声認識方法であって、
前記音声圧縮係数ステップが、前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値、仮数部ビット数とする
ことを特徴とするクライアント・サーバ音声認識方法。
請求項１から３のいずれかに記載のクライアント・サーバ音声認識方法であって、
クライアント計算機およびサーバ計算機ともにあらかじめ音声特徴量ベクトルの各次元の総ビット数を指定しておき、
前記音声圧縮係数ステップが、前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値とする
ことを特徴とするクライアント・サーバ音声認識方法。
ネットワークで接続されたクライアント計算機に入力された音声を認識するサーバ計算機での音声認識方法であって、
音響モデル変更部で、利用環境により音響モデルを変更する音響モデル変更ステップと、
音声圧縮係数計算部で、音声認識に用いる音響モデルから音声圧縮係数を算出する音声圧縮係数ステップと、
音声圧縮係数・音声分析条件送信部で、前記音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件を送信する音声圧縮係数・音声分析条件送信ステップと、
音声特徴量ベクトル復元部で、受信した前記圧縮済み音声特徴量ベクトルを算出済みの音声圧縮係数に基づいて復元する復元ステップと、
音声認識部で、前記復元した音声特徴量ベクトルを用いて音声認識を行う音声認識ステップと
を有するサーバ計算機での音声認識方法。
請求項６記載の音声認識方法であって、
音声特徴量ベクトル生成部で、前記復元した音声特徴量ベクトルの全てもしくは一部と、当該復元した音声特徴量ベクトルから求められる音声特徴量ベクトルとで構成する第２の音声特徴量ベクトルを生成する音声特徴量ベクトル生成ステップと、
前記音声認識部で、前記生成された音声特徴量ベクトルを用いて音声認識を行う前記音声認識ステップと
を有するサーバ計算機での音声認識方法。
請求項６または７記載の音声認識方法であって、
前記音声圧縮係数ステップが、前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値、仮数部ビット数とする
ことを特徴とするサーバ計算機での音声認識方法。
請求項６または７記載の音声認識方法であって、
あらかじめ音声特徴量ベクトルの各次元の総ビット数を定めておき、
前記音声圧縮係数ステップが、前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値とする
ことを特徴とするサーバ計算機での音声認識方法。
入力された音声の音声特徴量を送信する音声特徴量抽出・送信方法であって、
音声圧縮係数・音声分析条件受信部で、音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件を受信する音声圧縮係数・音声分析条件受信ステップと、
音声特徴量ベクトル抽出部で、入力された音声から、前記音声分析条件に基づいて音声特徴量ベクトルを抽出する音声特徴量ベクトル抽出ステップと、
音声特徴量ベクトル圧縮部で、前記音声圧縮係数に基づいて前記音声特徴量ベクトルを圧縮し、圧縮済み音声特徴量ベクトルを送信する圧縮ステップと、
を有する音声特徴量抽出・送信方法。
請求項１０記載の音声特徴量抽出・送信方法であって、
前記圧縮ステップが、前記音声圧縮係数に基づいて音声特徴量ベクトルの各次元値をよりビット数の少ない浮動小数点数値に変換する
ことを特徴とする音声特徴量抽出・送信方法。
クライアント計算機で入力された音声をネットワークで接続されたサーバ計算機で音声認識するクライアント・サーバ音声認識システムであって、
音響モデルを記録する音響モデル記憶部と、
前記音響モデル記憶部の音声認識に用いる音響モデルを変更する音響モデル変更部と、
音声認識に用いる音響モデルから音声圧縮係数を算出する音声圧縮係数計算部と、
前記音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件を記録する第１の音声圧縮係数・音声分析条件記憶部と、
前記音声圧縮係数と前記音声分析条件をクライアント計算機に送信する音声圧縮係数・音声分析条件送信部と、
クライアント計算機から受信した圧縮済み音声特徴量ベクトルを前記音声圧縮係数に基づいて復元する音声特徴量ベクトル復元部と、
前記復元した音声特徴量ベクトルを用いて音声認識を行う音声認識部と
を備えるサーバ計算機と、
音声圧縮係数と音声分析条件をサーバ計算機から受信する音声圧縮係数・音声分析条件受信部と、
前記音声圧縮係数と前記音声分析条件を記録する第２の音声圧縮係数・音声分析条件記憶部と、
入力された音声から、前記音声分析条件に基づいて音声特徴量ベクトルを抽出する音声特徴量ベクトル抽出部と、
前記音声圧縮係数に基づいて前記音声特徴量ベクトルを圧縮する音声特徴量ベクトル圧縮部と、
圧縮済み音声特徴量ベクトルをサーバ計算機に送信する音声特徴量ベクトル送信部と、
を備えるクライアント計算機と
から構成されることを特徴とするクライアント・サーバ音声認識システム。
請求項１２記載のクライアント・サーバ音声認識システムであって、
前記サーバ計算機が、
前記復元した音声特徴量ベクトルの全てもしくは一部と、当該復元した音声特徴量ベクトルから求められる音声特徴量ベクトルとで構成する第２の音声特徴量ベクトルを生成する音声特徴量ベクトル生成部と、
前記生成された音声特徴量ベクトルを用いて音声認識を行う前記音声認識部と
を備えることを特徴とするクライアント・サーバ音声認識システム。
請求項１２または１３記載のクライアント・サーバ音声認識システムであって、
前記クライアント計算機が、
前記音声圧縮係数に基づいて音声特徴量ベクトルの各次元値をよりビット数の少ない浮動小数点数値に変換する音声特徴量ベクトル圧縮部
を備えることを特徴とするクライアント・サーバ音声認識システム。
請求項１２または１４記載のクライアント・サーバ音声認識システムであって、
前記サーバ計算機が、
前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値、仮数部ビット数とする前記音声圧縮係数計算部
を備えることを特徴とするクライアント・サーバ音声認識システム。
請求項１２または１４記載のクライアント・サーバ音声認識システムであって、
クライアント計算機およびサーバ計算機ともにあらかじめ音声特徴量ベクトルの各次元の総ビット数を指定しておき、
前記サーバ計算機が、
前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値とする前記音声圧縮係数計算部
を備えることを特徴とするクライアント・サーバ音声認識システム。
ネットワークで接続された装置に入力された音声を音声認識する音声認識装置であって、
音響モデルを記録する音響モデル記憶部と、
前記音響モデル記憶部の音声認識に用いる音響モデルを変更する音響モデル変更部と、
音声認識に用いる音響モデルから音声圧縮係数を算出する音声圧縮係数計算部と、
前記音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件を記録する第１の音声圧縮係数・音声分析条件記憶部と、
前記音声圧縮係数と前記音声分析条件をクライアント計算機に送信する音声圧縮係数・音声分析条件送信部と、
クライアント計算機から受信した圧縮済み音声特徴量ベクトルを前記音声圧縮係数に基づいて復元する音声特徴量ベクトル復元部と、
前記復元した音声特徴量ベクトルを用いて音声認識を行う音声認識部と
を備える音声認識装置。
請求項１７記載の音声認識装置であって、
前記復元した音声特徴量ベクトルの全てもしくは一部と、当該復元した音声特徴量ベクトルから求められる音声特徴量ベクトルとで構成する第２の音声特徴量ベクトルを生成する音声特徴量ベクトル生成部と、
前記生成された音声特徴量ベクトルを用いて音声認識を行う前記音声認識部と
を備える音声認識装置。
請求項１７または１８記載の音声認識装置であって、
前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値、仮数部ビット数とする前記音声圧縮係数計算部
を備える音声認識装置。
請求項１７または１８記載の音声認識装置であって、
あらかじめ音声特徴量ベクトルの各次元の総ビット数を指定しておき、
前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値とする前記音声圧縮係数計算部
を備える音声認識装置。
入力された音声の音声特徴量を送信する音声特徴量抽出・送信装置であって、
音声圧縮係数と音声分析条件を受信する音声圧縮係数・音声分析条件受信部と、
前記音声圧縮係数と前記音声分析条件を記録する音声圧縮係数・音声分析条件記憶部と、
入力された音声から、前記音声分析条件に基づいて音声特徴量ベクトルを抽出する音声特徴量ベクトル抽出部と、
前記音声圧縮係数に基づいて前記音声特徴量ベクトルを圧縮する音声特徴量ベクトル圧縮部と、
圧縮済み音声特徴量ベクトルを送信する音声特徴量ベクトル送信部と、
を備える音声特徴量抽出・送信装置。
請求項２１記載の音声特徴量抽出・送信装置であって、
前記音声圧縮係数に基づいて音声特徴量ベクトルの各次元値をよりビット数の少ない浮動小数点数値に変換する前記音声特徴量ベクトル圧縮部
を備える音声特徴量抽出・送信装置。
請求項１から１１のいずれかに記載の方法の各ステップをコンピュータにより実行するプログラム。
請求項２３記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。