JP2006350090A - クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体 - Google Patents

クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP2006350090A
JP2006350090A JP2005177698A JP2005177698A JP2006350090A JP 2006350090 A JP2006350090 A JP 2006350090A JP 2005177698 A JP2005177698 A JP 2005177698A JP 2005177698 A JP2005177698 A JP 2005177698A JP 2006350090 A JP2006350090 A JP 2006350090A
Authority
JP
Japan
Prior art keywords
speech
feature vector
voice
compression coefficient
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005177698A
Other languages
English (en)
Other versions
JP4603429B2 (ja
Inventor
Yoshikazu Yamaguchi
義和 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005177698A priority Critical patent/JP4603429B2/ja
Publication of JP2006350090A publication Critical patent/JP2006350090A/ja
Application granted granted Critical
Publication of JP4603429B2 publication Critical patent/JP4603429B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】利用される音響モデルのパラメータ、さらには利用される音声特徴量の種類の変更に応じて、音声特徴量ベクトルの圧縮方法を変更し、コードブックの再作成の必要なしにクライアント・サーバ間での音声特徴量ベクトルの送受信を行うことができる方法を提供する。
【解決手段】本発明では、サーバ計算機で音声認識に用いる音響モデルから音声圧縮係数を算出し、該音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件をクライアント計算機に送信する。クライアント計算機では、受信した該音声分析条件に基づいて入力された音声から音声特徴量ベクトルを抽出し、該音声圧縮係数に基づいて該音声特徴量ベクトルを圧縮して、サーバ計算機に送信する。サーバ計算機は、クライアント計算機から受信した該圧縮済み音声特徴量ベクトルを算出済みの音声圧縮係数に基づいて復元し、当該復元した音声特徴量ベクトルを用いて音声認識を行う。
【選択図】図1

Description

本発明は、クライアント計算機で入力された音声から音声特徴量ベクトルを抽出し、ネットワークで接続されたサーバ計算機で音声認識を行うクライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体に関する。
音声特徴量ベクトルをクライアント・サーバ間で送受信するクライアント・サーバ音声認識方法における、通信量削減のための音声特徴量ベクトルの圧縮方法は、非特許文献1に代表されるようにコードブックと呼ばれる代表的な音声特徴量ベクトル群をあらかじめ作成し、それをクライアント・サーバ音声認識システムに当初から埋め込むか、もしくはシステム起動時に同期させ、それを利用して音声特徴量ベクトルの送受信を行なっている。また、送受信される音声特徴量ベクトルは1個または複数個の整数値として圧縮されていた。
ETSI ES 202 212 V1.1.1
音声認識では、利用される話者や利用環境(背景雑音など)の変化が生じると、音響モデルパラメータを、適応処理を行って変更する場合がある。または、利用した音響モデルとは特徴量抽出方法(モデルパラメータ)の全く異なる新しい音響モデルに変更する場合もある。その際、上述の従来技術では、音響モデルの更新とともにコードブックの再作成が必要となる。
また、従来技術ではあらかじめ作成したコードブックから音声特徴量ベクトルを整数値に変換していたが、コードブック作成時に想定していない音声特徴量ベクトルが入力された場合、圧縮誤差が非常に大きくなる。例えば、想定していない雑音環境下で音声認識する場合、ユーザが未発声の区間の入力が大きな誤差を含んで圧縮され、サーバ計算機に送信される。そのため、誤認識率の増大や、受信した未発声区間を用いた雑音抑圧・適応処理の失敗率の増大を招く。
そこで本発明の目的は、利用される音響モデルのパラメータ、さらには利用される音声特徴量の種類の変更に応じて、音声特徴量ベクトルの圧縮方法を変更し、コードブックの再作成の必要なしにクライアント・サーバ間での音声特徴量ベクトルの送受信を行うことができる方法を提供することにある。また、想定していない音声特徴量ベクトルに対しても従来技術より圧縮誤差を少なくしてクライアント・サーバ問での音声特徴量ベクトルの送受信を行うことができる方法を提供することにある。
本発明では、サーバ計算機で音声認識に用いる音響モデルから音声圧縮係数を算出し、該音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件をクライアント計算機に送信する。クライアント計算機では、受信した該音声分析条件に基づいて入力された音声から音声特徴量ベクトルを抽出し、該音声圧縮係数に基づいて該音声特徴量ベクトルを圧縮して、サーバ計算機に送信する。サーバ計算機は、クライアント計算機から受信した該圧縮済み音声特徴量ベクトルを算出済みの音声圧縮係数に基づいて復元し、当該復元した音声特徴量ベクトルを用いて音声認識を行う。
また、クライアント計算機で音声圧縮係数に基づいて音声特徴量ベクトルの各次元値をよりビットサイズの小さい浮動小数点数値に変換する。
本発明によれば、読み込まれた音響モデルの内容に応じて音声特徴量ベクトルの圧縮方法(パラメータ)を変更させることで、適応などにより音響モデルパラメータに大きな変更が生じた場合や、全く特徴量抽出方法の異なる音響モデルを利用しようとした場合でも、コードブックの再作成の必要なしにクライアント・サーバ間での音声特徴量ベクトルの圧縮と、送受信を行うことができる。
また、よりビットサイズの小さい浮動小数点により表現することで、想定外の音声特徴量に対しても比較的柔軟に対応できる。これにより、想定していない雑音環境下での利用や、未発声区間を用いた雑音抑圧・適応処理が行える。
[第1実施形態]
本実施形態のクライアント・サーバ音声認識方法およびシステムは、利用される音響モデルや音声特徴量の種類の変更に応じて、音声特徴量ベクトルの圧縮方法を変更させ、コードブックの再作成の必要なしにクライアント・サーバ間での音声特徴量ベクトルの送受信を行うものである。図1に本発明のクライアント・サーバ音声認識システムの機能構成を、図2に本発明のクライアント・サーバ音声認識方法の処理フローを示す。
以下の説明では、混同を避けるため、クライアント計算機での音声認識特徴量抽出処理で得られた音声特徴量ベクトルを、音声特徴量ベクトルAと言うこととする。また、サーバ計算機での、音声認識特徴量抽出処理で得られた第2の音声特徴量ベクトルを、音声特徴量ベクトルBと言うこととする。
サーバ計算機200の音響モデル変更部210は、音声認識に使用する音響モデルの変更を行う(S210)。この音響モデルの変更方法としては、複数の音響モデルを用意しておき、話者や利用環境(背景雑音)の変化に応じて、音声認識に用いる音響モデルを選択する方法がある。また、音響モデルは1つであるが、話者や利用環境(背景雑音)の変化に応じて、適応処理を行って、モデルパラメータを更新した音響モデルを次回以降の音声認識に用いる方法もある。音響モデル変更部210は、どの変更方法に対応していてもよい。また、音響モデル変更部210が音響モデル記憶部215に記録される音声認識に用いる音響モデルを変更するタイミングとしては、音声認識処理を始める前(例えば、クライアント計算機100がサーバ計算機200と接続したとき)、無音声区間の雑音が変化したことを検出して適応処理を行ったとき、など、さまざまなタイミングが考えられる。本発明は、どのようなタイミングで音響モデルを変更したときにも適用できるため、上記のタイミングに限らず、使用目的にあった音響モデルの変更方法を採用することができる。
サーバ計算機200では、新しく音声認識に利用する音響モデルが、音響モデル記憶部215に読み込まれると(選定、更新されると)、音声圧縮係数計算部220が、音声認識に用いられる音響モデルから、当該音響モデルに含まれる音声特徴量パラメータ分布を抽出した条件と同じ条件を、音声特徴量ベクトルを抽出するための音声分析条件として抽出する(S220)。また、音声圧縮係数計算部220は、音声分析条件を、音声分析条件Aと音声分析条件Bの2つに分けてもよい。ただし、分け方は、音声分析条件Bで求める音声特徴量ベクトルの要素が、音声分析条件Aで求める音声特徴量ベクトルの全部または一部から求められるように分ける。たとえば、音声認識に必要な音声特徴量ベクトルが、1次〜12次ケプストラム、パワー、1次〜12次デルタケプストラム、デルタパワーとする場合に、音声分析条件Aを1次〜12次ケプストラム、パワーを求めるために必要な条件とし、音声分析条件Bを1次〜12次デルタケプストラム、デルタパワーを求めるために必要な条件とする。この場合、音声分析条件Aは、必要な1フレーム(分析窓)分のサンプル数、次のフレームを計算するためのシフトサンプル数、ケプストラム次元数などである。また、音声分析条件Bは、音声特徴量ベクトルAがどの種別の特徴量であるかの情報や、デルタ特徴量を計算する窓幅などである。以下の説明では、音声分析条件をAとBに分けた場合について説明する。なお、分けなかった場合は、音声分析条件Bや後述する音声特徴量ベクトルB生成部245を削除すればよい。
さらに、音声圧縮係数計算部220は、音声分析条件から音声圧縮係数を算出する(S221)。算出された音声圧縮係数と音声分析条件Aおよび音声分析条件Bを音声圧縮係数・分析条件A/B記憶部225に格納する。ここで計算される音声圧縮係数とは、音声認識時にクライアント計算機で音声特徴量ベクトルAを圧縮し、かつサーバ計算機で圧縮された特徴量を復元するために必要な情報である。例えば、音声特徴量ベクトルの各ベクトル要素(次元)でスカラ量子化を行う場合は、その次元の値が取り得る範囲とその範囲を分割するための分割数(いわゆる必要ビット数)、分割方法(均等分割か、対数分割か、など)である。
次に、音声圧縮係数・分析条件A送信部230は、音声圧縮係数・分析条件A/B記憶部225に記録されている音声圧縮係数と音声分析条件Aを、クライアント計算機100に送信する(S230)。
クライアント計算機100の音声圧縮係数・分析条件A受信部110は、サーバ計算機200の音声圧縮係数・分析条件A送信部230より送信された音声圧縮係数と音声分析条件Aを受信し、音声圧縮係数・分析条件A記憶部115に格納する(S110)。
以上の処理は、音声認識を開始する前、利用環境が変化したと判断された場合などに、音響モデル変換部210が音響モデル記録部215に記録されている音声認識に用いる音響モデルを更新し、開始される。
音声認識の処理は以下のようになる。クライアント計算機の入力バッファ120には、本発明の前段に実装されているA/D変換装置などでテジタル化された音声信号が入力され、蓄積され、フレームと呼ばれる10ミリ秒から20ミリ秒程度の単位に音声信号が分けられ、音声特徴量ベクトルA抽出部125に送られる(S120)。音声特徴量ベクトルA抽出部125は、音声圧縮係数・分析条件A記憶部に格納されている音声分析条件Aを読み出し、それに基づいて音声特徴量ベクトルAを抽出する(S125)。
音声特徴量ベクトルA圧縮部130は、音声圧縮係数・分析条件A記憶部115に記録されている音声圧縮係数を読み出し、その音声圧縮係数に基づいて音声特徴量ベクトルA抽出部で抽出された1フレームもしくは複数フレーム分の音声特徴量ベクトルAを圧縮する(S130)。具体的な圧縮方法は、圧縮技術として一般的に用いられている従来技術を用いればよい。圧縮された音声特徴量ベクトルAは音声特徴量ベクトルA送信部135よりサーバ計算機200に送信される(S135)。
サーバ計算機200の音声特徴量ベクトルA受信部235では、クライアント計算機100の音声特徴量ベクトルA送信部135より送信された圧縮済み音声特徴量ベクトルAを受信する(S235)。音声特徴量ベクトルA復元部240は、音声圧縮係数・分析条件A/B記憶部225に記録されている音声圧縮係数を読み出し、受信した1フレームもしくは複数フレーム分の圧縮済み音声特徴量ベクトルAから、当該音声圧縮係数に基づいて音声特徴量ベクトルAを復元する(S240)。音声特徴量ベクトルB生成部245は、音声圧縮係数・分析条件A/B記憶部225に格納されている音声分析条件Bを読み出し、それに基づいて1フレームごとに、音声特徴量ベクトルAを利用して、音声特徴量ベクトルAの全てあるいは一部を含む音声特徴量ベクトルBを生成する(S245)。なお、ステップS220で音声分析条件をAとBに分けなかった場合には、音声特徴量ベクトルB生成部245およびステップS245は不要である。
音声認識部250は、前記の音声特徴量ベクトルBと音響モデル記憶部215に音声認識に用いる音響モデルとして記録された音響モデルとを比較し、音声認識を行う(S250)。認識結果は、サーバ計算機200に記録しても良いし、認識結果送信部255がクライアント計算機100に送信しても良い(S255)。
クライアント計算機100の認識結果受信部140は、サーバ計算機200から送られてきた認識結果を受信し、結果出力装置(ディスプレイ等)に出力する(S140)。
以上の処理によって、音声認識に用いられる音響モデルの変更に伴う特徴量抽出方法の変更に応じて、音声特徴量ベクトルの圧縮方法を変更させ、コードブックの再作成の必要なしにクライアント・サーバ間での音声特徴量ベクトルの送受信を行うことができる。
[第2実施形態]
本実施形態は、音声特徴量ベクトルの各次元値を浮動小数点数値に圧縮することで、想定していない音声特徴量ベクトルに対しても従来技術より圧縮誤差を少なくしてクライアント・サーバ間での音声特徴量ベクトルの送受信を行うものである。まず、音声特徴量ベクトルを浮動小数点数値列に圧縮するための音声圧縮係数の算出、圧縮および復元方法について説明する。
以下に、サーバ計算機の音声圧縮係数計算部における処理の説明を行う。図3に音響モデルとして一般的に利用される隠れマルコフモデル(Hidden Markov Mode1、以下HMMと略す。)の例を示す。図3はある音声カテゴリのHMMであり、例えば音素ごと、もしくは前後の音素を考慮した音素環境ごとにこのようなHMMが用意される。HMMは単一もしくは複数の状態を持つ。音声認識では、時刻が進むごとに他の状態や自状態へ遷移しながら、各状態が持つ標準音声パターンと入力音声特徴量ベクトルとを照合し、尤度を計算する。標準音声パターンの保持方法には幾つかあるが、図3では混合ガウス分布によるHMMを示している。混合ガウス分布は単一ガウス分布を混合比に応じて合成したものであり、それが音声特徴量ベクトルの各次元に存在する。これら混合ガウス分布は音響モデル学習時に、学習データとして用意された膨大な量の音声データから計算される音声特徴量の統計値である。よって、この音響モデルに含まれるあらゆる音素もしくは音素環境ごとのHMMの各次元の分布は、入力音声特徴量として受理できる数値の範囲を表現している。本発明はこの音声特徴量の各次元の受理範囲をもとに音声圧縮係数を計算している。一般にガウス分布では、その平均からその標準偏差に3を乗じたものを加減算した範囲(以下、「3シグマ範囲」という。)で分布の99.7%(分布のほとんど)をカバーしている。そこで、音響モデルに含まれる全てのガウス分布の各次元の音声特徴量分布の3シグマ範囲を計算し、最大値、最小値を求める。この最大値と最小値から成る範囲が、各次元の特徴量の取り得る範囲となる。これを音声特徴量ベクトルの全ての次元に対して行う。
一般的な浮動小数点として4byte(32ビット)浮動小数点、いわゆるfloat型のIEEE標準形式によるビット配列構造を圧縮、復元する方法を図4に示す。410がfloat型のIEEE標準形式によるビット配列構造である。以下、浮動小数点のビット表現としてIEEE標準形式を用いて説明するが、本発明は他の形式でも適用可能である。
IEEE標準形式では指数部に8ビットを利用しているが、上記の要領で計算した最大値、最小値が示す音声特徴量範囲から指数部に必要なビット数を計算することができる。例えば、図5は、ある音響モデルから各次元の音声特徴量値の最大値、最小値を求め、それらを浮動小数点形式に変換する際の指数値と仮数値(仮数値×2指数値)を求めたものの抜粋である。次元ごとに指数値の幅を見ると最大でも第13次元の2(=4−2)である。バイアス値を−1とすれば2ビットで収まることがわかる。また、IEEE標準形式4byte(32ビット)浮動小数点ではもともと、127のバイアス値を実際の指数値に加えて浮動小数点指数部の値としているため、8ビットを指数部に用意している。上記のように指数部の幅が最大の第13次元の指数部でも2ビットあれば表現できるため、図5の例では、127を指数部の値から引いて、指数部を2ビットとする。つまり、6ビット削減(圧縮)できる。このようにして音声特徴量ベクトルの各次元での指数値幅すなわち指数部ビット数とバイアス値を求める。
また仮数部に割り当てるビット数は、仮数部の下位ビットを必要なビット数まで削減することができる。コードブックを利用するような従来技術のようにコードブック作成時に想定していない音声特徴量が認識時に入力された場合の圧縮誤差に比べて、仮数部の下位ビット削減は小数点以下の桁落ちでしかないため、想定外の音声特徴量に対する許容度が大きく、圧縮誤差が少なくできる。ただし、その減少に伴い値の解像度が粗く、誤差が大きくなるため、通信量と誤差すなわち認識性能を考慮して設定する必要がある。たとえば、仮数部のビット数はクライアント・サーバ音声認識システムにあらかじめ指定されている、もしくはアプリケーションから指定される。以上より、音声圧縮係数計算部では音声圧縮係数として音声特徴量ベクトルの各次元での指数部ビット数とバイアス値、仮数部ビット数を計算する。またあらかじめ浮動小数点総ビット数をクライアント・サーバ両計算機に指定することで、仮数部ビット数=総ビット数−符号部ビット数(1ビット)−指数部ビット数(次元ごとに可変)と求めることができるため、仮数部ビット数を送信する必要がなくなる。
次に、クライアント計算機の音声特徴量ベクトルA圧縮部130での処理の説明を行う。音声特徴量ベクトルA圧縮部130は、圧縮前バッファ410と圧縮バッファ420とを有している。音声特徴量ベクトルA圧縮部130は、サーバ計算機から送信され、クライアント計算機で受信され、音声圧縮係数・分析条件A記憶部115に記録された音声圧縮係数を読み込んで圧縮に利用する。図4の圧縮前バッファ410は、圧縮前の音声特徴量ベクトルAのある次元の浮動小数点ビット配列のバッファ、図4の圧縮バッファ420は、その次元を圧縮後の浮動小数点ビット配列のバッファである。ここでは、指数部を2ビット、仮数部を13ビットにして、1次元の音声特徴量あたり16ビットの浮動小数点に圧縮している。
圧縮の手順は次の通りである。圧縮前バッファ410の符号部を全て圧縮バッファ420にコピーする。次に圧縮前バッファ410の指数部の値に対して、まずIEEE形式指数部バイアス値127を減算し、音声圧縮係数の該当する次元のバイアス値を加算して、音声圧縮係数の該当する次元の指数部ビット数になるよう上位ビットの切捨てを行い、圧縮バッファ420の指数部に格納する。圧縮前バッファ410の仮数部に対して、音声圧縮係数の該当する次元の仮数ビット数、もしくは総ビット数から換算した仮数ビット数になるよう下位ビットの切捨てを行い、圧縮バッファ420の仮数部に格納する。このような操作を音声特徴量ベクトルAの全ての次元に対して行い、圧縮を行う。
次に、サーバ計算機200の音声特徴量ベクトルA復元部240での処理の説明を行う。音声特徴量ベクトルA復元部240は、復元前バッファ430と復元バッファ440とを有している。音声特徴量ベクトルA復元部240では、クライアント計算機100から送信され、サーバ計算機200で受信した圧縮済み音声特徴量ベクトルAを、サーバ計算機200の音声圧縮係数・分析条件A/B記憶部225に格納された音声圧縮係数を読み込んで復元に利用する。ここで、図4の復元前バッファ430は、クライアント計算機から送信された圧縮済み、つまり復元前の音声特徴量ベクトルAのある次元の浮動小数点ビット配列のバッファである。また、図4の復元バッファ440は、その次元を復元した浮動小数点ビット配列のバッファである。もちろん、復元前バッファ430と圧縮後バッファ420とに格納されている値は同じである。まず、復元前バッファ430の符号部を全て復元バッファ440にコピーする。次に復元前バッファ430の指数部に対して、音声圧縮係数の該当する次元の指数部ビット数分の値を抽出し、音声圧縮係数の該当する次元のバイアス値を減算して、8ビットになるよう上位ビットを0で補完する。次にIEEE形式指数部バイアス値127を加算して復元バッファ440の指数部に格納する。最後に復元前バッファ430の仮数部に対して、圧縮後の特徴量の残るビット数分を抽出し、23ビットになるように、下位ビットを0で補完し、復元バッファ440の仮数部に格納する。
このような操作を圧縮済み音声特徴量ベクトルAの全ての次元に対して行い、復元を行う。したがって、想定していない音声特徴量ベクトルに対しても、圧縮誤差を少なくしてクライアント・サーバ間での音声特徴量ベクトルの送受信を行うことができる。
なお、本発明で示したクライアント計算機、サーバ計算機の各機能をプログラムによってコンピュータで実現することもできる。また当該プログラムは、コンピュータ読み取り可能な記録媒体に記録することができる。
本発明のクライアント・サーバ音声認識システムの機能構成を示す図。 本発明のクライアント・サーバ音声認識方法の処理フローを示す図。 音響モデルとして一般的に利用される隠れマルコフモデルの例を示す図。 float型のIEEE標準形式によるビット配列構造を圧縮、復元する方法を示す図。 ある音響モデルから各次元の音声特徴量値の最大値、最小値を求め、それらを浮動小数点形式に変換する際の指数値と仮数値(仮数値×2指数値)を求めたものの抜粋を示す図。

Claims (24)

  1. クライアント計算機で入力された音声をネットワークで接続されたサーバ計算機で音声認識するクライアント・サーバ音声認識方法であって、
    サーバ計算機で、利用環境により音響モデルを変更する音響モデル変更ステップと、
    サーバ計算機で、音声認識に用いる音響モデルから音声圧縮係数を算出する音声圧縮係数ステップと、
    サーバ計算機で、前記音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件をクライアント計算機に送信する音声圧縮係数・音声分析条件送信ステップと、
    クライアント計算機で、前記音声圧縮係数と前記音声分析条件を受信する音声圧縮係数・音声分析条件受信ステップと、
    クライアント計算機で、入力された音声から、前記音声分析条件に基づいて音声特徴量ベクトルを抽出する音声特徴量ベクトル抽出ステップと、
    クライアント計算機で、前記音声圧縮係数に基づいて前記音声特徴量ベクトルを圧縮し、圧縮済み音声特徴量ベクトルをサーバ計算機に送信する圧縮ステップと、
    サーバ計算機で、クライアント計算機から受信した前記圧縮済み音声特徴量ベクトルを算出済みの音声圧縮係数に基づいて復元する復元ステップと、
    サーバ計算機で、前記復元した音声特徴量ベクトルを用いて音声認識を行う音声認識ステップと
    を有するクライアント・サーバ音声認識方法。
  2. 請求項1記載のクライアント・サーバ音声認識方法であって、
    サーバ計算機で、前記復元した音声特徴量ベクトルの全てもしくは一部と、当該復元した音声特徴量ベクトルから求められる音声特徴量ベクトルとで構成する第2の音声特徴量ベクトルを生成する音声特徴量ベクトル生成ステップと、
    サーバ計算機で、前記生成された音声特徴量ベクトルを用いて音声認識を行う前記音声認識ステップと
    を有するクライアント・サーバ音声認識方法。
  3. 請求項1または2記載のクライアント・サーバ音声認識方法であって、
    前記圧縮ステップが、前記音声圧縮係数に基づいて音声特徴量ベクトルの各次元値をよりビット数の少ない浮動小数点数値に変換する
    ことを特徴とするクライアント・サーバ音声認識方法。
  4. 請求項1から3のいずれかに記載のクライアント・サーバ音声認識方法であって、
    前記音声圧縮係数ステップが、前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値、仮数部ビット数とする
    ことを特徴とするクライアント・サーバ音声認識方法。
  5. 請求項1から3のいずれかに記載のクライアント・サーバ音声認識方法であって、
    クライアント計算機およびサーバ計算機ともにあらかじめ音声特徴量ベクトルの各次元の総ビット数を指定しておき、
    前記音声圧縮係数ステップが、前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値とする
    ことを特徴とするクライアント・サーバ音声認識方法。
  6. ネットワークで接続されたクライアント計算機に入力された音声を認識するサーバ計算機での音声認識方法であって、
    音響モデル変更部で、利用環境により音響モデルを変更する音響モデル変更ステップと、
    音声圧縮係数計算部で、音声認識に用いる音響モデルから音声圧縮係数を算出する音声圧縮係数ステップと、
    音声圧縮係数・音声分析条件送信部で、前記音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件を送信する音声圧縮係数・音声分析条件送信ステップと、
    音声特徴量ベクトル復元部で、受信した前記圧縮済み音声特徴量ベクトルを算出済みの音声圧縮係数に基づいて復元する復元ステップと、
    音声認識部で、前記復元した音声特徴量ベクトルを用いて音声認識を行う音声認識ステップと
    を有するサーバ計算機での音声認識方法。
  7. 請求項6記載の音声認識方法であって、
    音声特徴量ベクトル生成部で、前記復元した音声特徴量ベクトルの全てもしくは一部と、当該復元した音声特徴量ベクトルから求められる音声特徴量ベクトルとで構成する第2の音声特徴量ベクトルを生成する音声特徴量ベクトル生成ステップと、
    前記音声認識部で、前記生成された音声特徴量ベクトルを用いて音声認識を行う前記音声認識ステップと
    を有するサーバ計算機での音声認識方法。
  8. 請求項6または7記載の音声認識方法であって、
    前記音声圧縮係数ステップが、前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値、仮数部ビット数とする
    ことを特徴とするサーバ計算機での音声認識方法。
  9. 請求項6または7記載の音声認識方法であって、
    あらかじめ音声特徴量ベクトルの各次元の総ビット数を定めておき、
    前記音声圧縮係数ステップが、前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値とする
    ことを特徴とするサーバ計算機での音声認識方法。
  10. 入力された音声の音声特徴量を送信する音声特徴量抽出・送信方法であって、
    音声圧縮係数・音声分析条件受信部で、音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件を受信する音声圧縮係数・音声分析条件受信ステップと、
    音声特徴量ベクトル抽出部で、入力された音声から、前記音声分析条件に基づいて音声特徴量ベクトルを抽出する音声特徴量ベクトル抽出ステップと、
    音声特徴量ベクトル圧縮部で、前記音声圧縮係数に基づいて前記音声特徴量ベクトルを圧縮し、圧縮済み音声特徴量ベクトルを送信する圧縮ステップと、
    を有する音声特徴量抽出・送信方法。
  11. 請求項10記載の音声特徴量抽出・送信方法であって、
    前記圧縮ステップが、前記音声圧縮係数に基づいて音声特徴量ベクトルの各次元値をよりビット数の少ない浮動小数点数値に変換する
    ことを特徴とする音声特徴量抽出・送信方法。
  12. クライアント計算機で入力された音声をネットワークで接続されたサーバ計算機で音声認識するクライアント・サーバ音声認識システムであって、
    音響モデルを記録する音響モデル記憶部と、
    前記音響モデル記憶部の音声認識に用いる音響モデルを変更する音響モデル変更部と、
    音声認識に用いる音響モデルから音声圧縮係数を算出する音声圧縮係数計算部と、
    前記音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件を記録する第1の音声圧縮係数・音声分析条件記憶部と、
    前記音声圧縮係数と前記音声分析条件をクライアント計算機に送信する音声圧縮係数・音声分析条件送信部と、
    クライアント計算機から受信した圧縮済み音声特徴量ベクトルを前記音声圧縮係数に基づいて復元する音声特徴量ベクトル復元部と、
    前記復元した音声特徴量ベクトルを用いて音声認識を行う音声認識部と
    を備えるサーバ計算機と、
    音声圧縮係数と音声分析条件をサーバ計算機から受信する音声圧縮係数・音声分析条件受信部と、
    前記音声圧縮係数と前記音声分析条件を記録する第2の音声圧縮係数・音声分析条件記憶部と、
    入力された音声から、前記音声分析条件に基づいて音声特徴量ベクトルを抽出する音声特徴量ベクトル抽出部と、
    前記音声圧縮係数に基づいて前記音声特徴量ベクトルを圧縮する音声特徴量ベクトル圧縮部と、
    圧縮済み音声特徴量ベクトルをサーバ計算機に送信する音声特徴量ベクトル送信部と、
    を備えるクライアント計算機と
    から構成されることを特徴とするクライアント・サーバ音声認識システム。
  13. 請求項12記載のクライアント・サーバ音声認識システムであって、
    前記サーバ計算機が、
    前記復元した音声特徴量ベクトルの全てもしくは一部と、当該復元した音声特徴量ベクトルから求められる音声特徴量ベクトルとで構成する第2の音声特徴量ベクトルを生成する音声特徴量ベクトル生成部と、
    前記生成された音声特徴量ベクトルを用いて音声認識を行う前記音声認識部と
    を備えることを特徴とするクライアント・サーバ音声認識システム。
  14. 請求項12または13記載のクライアント・サーバ音声認識システムであって、
    前記クライアント計算機が、
    前記音声圧縮係数に基づいて音声特徴量ベクトルの各次元値をよりビット数の少ない浮動小数点数値に変換する音声特徴量ベクトル圧縮部
    を備えることを特徴とするクライアント・サーバ音声認識システム。
  15. 請求項12または14記載のクライアント・サーバ音声認識システムであって、
    前記サーバ計算機が、
    前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値、仮数部ビット数とする前記音声圧縮係数計算部
    を備えることを特徴とするクライアント・サーバ音声認識システム。
  16. 請求項12または14記載のクライアント・サーバ音声認識システムであって、
    クライアント計算機およびサーバ計算機ともにあらかじめ音声特徴量ベクトルの各次元の総ビット数を指定しておき、
    前記サーバ計算機が、
    前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値とする前記音声圧縮係数計算部
    を備えることを特徴とするクライアント・サーバ音声認識システム。
  17. ネットワークで接続された装置に入力された音声を音声認識する音声認識装置であって、
    音響モデルを記録する音響モデル記憶部と、
    前記音響モデル記憶部の音声認識に用いる音響モデルを変更する音響モデル変更部と、
    音声認識に用いる音響モデルから音声圧縮係数を算出する音声圧縮係数計算部と、
    前記音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件を記録する第1の音声圧縮係数・音声分析条件記憶部と、
    前記音声圧縮係数と前記音声分析条件をクライアント計算機に送信する音声圧縮係数・音声分析条件送信部と、
    クライアント計算機から受信した圧縮済み音声特徴量ベクトルを前記音声圧縮係数に基づいて復元する音声特徴量ベクトル復元部と、
    前記復元した音声特徴量ベクトルを用いて音声認識を行う音声認識部と
    を備える音声認識装置。
  18. 請求項17記載の音声認識装置であって、
    前記復元した音声特徴量ベクトルの全てもしくは一部と、当該復元した音声特徴量ベクトルから求められる音声特徴量ベクトルとで構成する第2の音声特徴量ベクトルを生成する音声特徴量ベクトル生成部と、
    前記生成された音声特徴量ベクトルを用いて音声認識を行う前記音声認識部と
    を備える音声認識装置。
  19. 請求項17または18記載の音声認識装置であって、
    前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値、仮数部ビット数とする前記音声圧縮係数計算部
    を備える音声認識装置。
  20. 請求項17または18記載の音声認識装置であって、
    あらかじめ音声特徴量ベクトルの各次元の総ビット数を指定しておき、
    前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値とする前記音声圧縮係数計算部
    を備える音声認識装置。
  21. 入力された音声の音声特徴量を送信する音声特徴量抽出・送信装置であって、
    音声圧縮係数と音声分析条件を受信する音声圧縮係数・音声分析条件受信部と、
    前記音声圧縮係数と前記音声分析条件を記録する音声圧縮係数・音声分析条件記憶部と、
    入力された音声から、前記音声分析条件に基づいて音声特徴量ベクトルを抽出する音声特徴量ベクトル抽出部と、
    前記音声圧縮係数に基づいて前記音声特徴量ベクトルを圧縮する音声特徴量ベクトル圧縮部と、
    圧縮済み音声特徴量ベクトルを送信する音声特徴量ベクトル送信部と、
    を備える音声特徴量抽出・送信装置。
  22. 請求項21記載の音声特徴量抽出・送信装置であって、
    前記音声圧縮係数に基づいて音声特徴量ベクトルの各次元値をよりビット数の少ない浮動小数点数値に変換する前記音声特徴量ベクトル圧縮部
    を備える音声特徴量抽出・送信装置。
  23. 請求項1から11のいずれかに記載の方法の各ステップをコンピュータにより実行するプログラム。
  24. 請求項23記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2005177698A 2005-06-17 2005-06-17 クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体 Active JP4603429B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005177698A JP4603429B2 (ja) 2005-06-17 2005-06-17 クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005177698A JP4603429B2 (ja) 2005-06-17 2005-06-17 クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2006350090A true JP2006350090A (ja) 2006-12-28
JP4603429B2 JP4603429B2 (ja) 2010-12-22

Family

ID=37646004

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005177698A Active JP4603429B2 (ja) 2005-06-17 2005-06-17 クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4603429B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009216760A (ja) * 2008-03-07 2009-09-24 Nec Corp 音響分析条件正規化システム、音響分析条件正規化方法および音響分析条件正規化プログラム
JP2011191682A (ja) * 2010-03-16 2011-09-29 Nec Corp 音声認識装置、音声認識方法および音声認識プログラム
JP2012247679A (ja) * 2011-05-30 2012-12-13 Nippon Telegr & Teleph Corp <Ntt> テキスト及び音声特徴量収集方法、そのシステム、プログラム
JP7557861B2 (ja) 2020-10-07 2024-09-30 株式会社国際電気通信基礎技術研究所 学習用データ生成方法、信号種別分類システム、データ収集システム、および、プログラム

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6069700A (ja) * 1983-09-27 1985-04-20 富士通株式会社 音声認識装置
JPH0566793A (ja) * 1991-09-09 1993-03-19 Matsushita Electric Ind Co Ltd 音声入力装置
JPH09146585A (ja) * 1995-11-27 1997-06-06 Hitachi Ltd 音声認識翻訳システム
JP2001267928A (ja) * 2000-03-17 2001-09-28 Casio Comput Co Ltd オーディオデータ圧縮装置、及び記憶媒体
JP2001337695A (ja) * 2000-05-24 2001-12-07 Canon Inc 音声処理システム、装置、方法及び記憶媒体
JP2002014693A (ja) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp 音声認識システム用辞書提供方法、および音声認識インタフェース
JP2002268681A (ja) * 2001-03-08 2002-09-20 Canon Inc 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法
JP2003517158A (ja) * 1999-11-12 2003-05-20 フェニックス ソリューションズ インコーポレーテッド 分散型リアルタイム音声認識システム
JP2003241788A (ja) * 2002-02-20 2003-08-29 Ntt Docomo Inc 音声認識装置及び音声認識システム
JP2004104757A (ja) * 2002-07-16 2004-04-02 Advanced Media Inc 音声入力装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6069700A (ja) * 1983-09-27 1985-04-20 富士通株式会社 音声認識装置
JPH0566793A (ja) * 1991-09-09 1993-03-19 Matsushita Electric Ind Co Ltd 音声入力装置
JPH09146585A (ja) * 1995-11-27 1997-06-06 Hitachi Ltd 音声認識翻訳システム
JP2003517158A (ja) * 1999-11-12 2003-05-20 フェニックス ソリューションズ インコーポレーテッド 分散型リアルタイム音声認識システム
JP2001267928A (ja) * 2000-03-17 2001-09-28 Casio Comput Co Ltd オーディオデータ圧縮装置、及び記憶媒体
JP2001337695A (ja) * 2000-05-24 2001-12-07 Canon Inc 音声処理システム、装置、方法及び記憶媒体
JP2002014693A (ja) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp 音声認識システム用辞書提供方法、および音声認識インタフェース
JP2002268681A (ja) * 2001-03-08 2002-09-20 Canon Inc 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法
JP2003241788A (ja) * 2002-02-20 2003-08-29 Ntt Docomo Inc 音声認識装置及び音声認識システム
JP2004104757A (ja) * 2002-07-16 2004-04-02 Advanced Media Inc 音声入力装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009216760A (ja) * 2008-03-07 2009-09-24 Nec Corp 音響分析条件正規化システム、音響分析条件正規化方法および音響分析条件正規化プログラム
JP2011191682A (ja) * 2010-03-16 2011-09-29 Nec Corp 音声認識装置、音声認識方法および音声認識プログラム
JP2012247679A (ja) * 2011-05-30 2012-12-13 Nippon Telegr & Teleph Corp <Ntt> テキスト及び音声特徴量収集方法、そのシステム、プログラム
JP7557861B2 (ja) 2020-10-07 2024-09-30 株式会社国際電気通信基礎技術研究所 学習用データ生成方法、信号種別分類システム、データ収集システム、および、プログラム

Also Published As

Publication number Publication date
JP4603429B2 (ja) 2010-12-22

Similar Documents

Publication Publication Date Title
US5627939A (en) Speech recognition system and method employing data compression
CN101510424B (zh) 基于语音基元的语音编码与合成方法及系统
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
JPH10319996A (ja) 雑音の効率的分解と波形補間における周期信号波形
US20140039902A1 (en) Data compression apparatus, computer-readable storage medium having stored therein data compression program, data compression system, data compression method, data decompression apparatus, data compression/decompression apparatus, and data structure of compressed data
CN106256001B (zh) 信号分类方法和装置以及使用其的音频编码方法和装置
JP2006031016A (ja) 音声コーディング/デコーディング方法及びその装置
JP4603429B2 (ja) クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体
US7379868B2 (en) Method and apparatus for differential compression of speaker models
JP2009253706A (ja) 符号化装置、復号装置、符号化方法、復号方法及びプログラム
EP2617034B1 (en) Determining pitch cycle energy and scaling an excitation signal
US20120123788A1 (en) Coding method, decoding method, and device and program using the methods
WO2022159247A1 (en) Trained generative model speech coding
JP4645866B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
US7092878B1 (en) Speech synthesis using multi-mode coding with a speech segment dictionary
US8626501B2 (en) Encoding apparatus, encoding method, decoding apparatus, decoding method, and program
JP5964895B2 (ja) 音符号化システム
JP5964897B2 (ja) 音符号化システム及び符号化装置、復号化装置
US6980957B1 (en) Audio transmission system with reduced bandwidth consumption
JP3700310B2 (ja) ベクトル量子化装置及びベクトル量子化方法
Daalache et al. An efficient distributed speech processing in noisy mobile communications
WO1995028770A1 (en) Adpcm signal encoding/decoding system and method
JP2001148632A (ja) 符号化装置、符号化方法、及びその記録媒体
JP2000242299A (ja) 重み符号帳とその作成方法及び符号帳設計時における学習時のma予測係数の初期値の設定方法並びに音響信号の符号化方法及びその復号方法並びに符号化プログラムが記憶されたコンピュータに読み取り可能な記憶媒体及び復号プログラムが記憶されたコンピュータに読み取り可能な記憶媒体
JP2002049396A (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100921

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101001

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4603429

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350