JP2006350090A - クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体 - Google Patents
クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP2006350090A JP2006350090A JP2005177698A JP2005177698A JP2006350090A JP 2006350090 A JP2006350090 A JP 2006350090A JP 2005177698 A JP2005177698 A JP 2005177698A JP 2005177698 A JP2005177698 A JP 2005177698A JP 2006350090 A JP2006350090 A JP 2006350090A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- feature vector
- voice
- compression coefficient
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】本発明では、サーバ計算機で音声認識に用いる音響モデルから音声圧縮係数を算出し、該音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件をクライアント計算機に送信する。クライアント計算機では、受信した該音声分析条件に基づいて入力された音声から音声特徴量ベクトルを抽出し、該音声圧縮係数に基づいて該音声特徴量ベクトルを圧縮して、サーバ計算機に送信する。サーバ計算機は、クライアント計算機から受信した該圧縮済み音声特徴量ベクトルを算出済みの音声圧縮係数に基づいて復元し、当該復元した音声特徴量ベクトルを用いて音声認識を行う。
【選択図】図1
Description
ETSI ES 202 212 V1.1.1
また、従来技術ではあらかじめ作成したコードブックから音声特徴量ベクトルを整数値に変換していたが、コードブック作成時に想定していない音声特徴量ベクトルが入力された場合、圧縮誤差が非常に大きくなる。例えば、想定していない雑音環境下で音声認識する場合、ユーザが未発声の区間の入力が大きな誤差を含んで圧縮され、サーバ計算機に送信される。そのため、誤認識率の増大や、受信した未発声区間を用いた雑音抑圧・適応処理の失敗率の増大を招く。
また、クライアント計算機で音声圧縮係数に基づいて音声特徴量ベクトルの各次元値をよりビットサイズの小さい浮動小数点数値に変換する。
また、よりビットサイズの小さい浮動小数点により表現することで、想定外の音声特徴量に対しても比較的柔軟に対応できる。これにより、想定していない雑音環境下での利用や、未発声区間を用いた雑音抑圧・適応処理が行える。
本実施形態のクライアント・サーバ音声認識方法およびシステムは、利用される音響モデルや音声特徴量の種類の変更に応じて、音声特徴量ベクトルの圧縮方法を変更させ、コードブックの再作成の必要なしにクライアント・サーバ間での音声特徴量ベクトルの送受信を行うものである。図1に本発明のクライアント・サーバ音声認識システムの機能構成を、図2に本発明のクライアント・サーバ音声認識方法の処理フローを示す。
以下の説明では、混同を避けるため、クライアント計算機での音声認識特徴量抽出処理で得られた音声特徴量ベクトルを、音声特徴量ベクトルAと言うこととする。また、サーバ計算機での、音声認識特徴量抽出処理で得られた第2の音声特徴量ベクトルを、音声特徴量ベクトルBと言うこととする。
クライアント計算機100の音声圧縮係数・分析条件A受信部110は、サーバ計算機200の音声圧縮係数・分析条件A送信部230より送信された音声圧縮係数と音声分析条件Aを受信し、音声圧縮係数・分析条件A記憶部115に格納する(S110)。
以上の処理は、音声認識を開始する前、利用環境が変化したと判断された場合などに、音響モデル変換部210が音響モデル記録部215に記録されている音声認識に用いる音響モデルを更新し、開始される。
音声特徴量ベクトルA圧縮部130は、音声圧縮係数・分析条件A記憶部115に記録されている音声圧縮係数を読み出し、その音声圧縮係数に基づいて音声特徴量ベクトルA抽出部で抽出された1フレームもしくは複数フレーム分の音声特徴量ベクトルAを圧縮する(S130)。具体的な圧縮方法は、圧縮技術として一般的に用いられている従来技術を用いればよい。圧縮された音声特徴量ベクトルAは音声特徴量ベクトルA送信部135よりサーバ計算機200に送信される(S135)。
クライアント計算機100の認識結果受信部140は、サーバ計算機200から送られてきた認識結果を受信し、結果出力装置(ディスプレイ等)に出力する(S140)。
以上の処理によって、音声認識に用いられる音響モデルの変更に伴う特徴量抽出方法の変更に応じて、音声特徴量ベクトルの圧縮方法を変更させ、コードブックの再作成の必要なしにクライアント・サーバ間での音声特徴量ベクトルの送受信を行うことができる。
[第2実施形態]
本実施形態は、音声特徴量ベクトルの各次元値を浮動小数点数値に圧縮することで、想定していない音声特徴量ベクトルに対しても従来技術より圧縮誤差を少なくしてクライアント・サーバ間での音声特徴量ベクトルの送受信を行うものである。まず、音声特徴量ベクトルを浮動小数点数値列に圧縮するための音声圧縮係数の算出、圧縮および復元方法について説明する。
以下に、サーバ計算機の音声圧縮係数計算部における処理の説明を行う。図3に音響モデルとして一般的に利用される隠れマルコフモデル(Hidden Markov Mode1、以下HMMと略す。)の例を示す。図3はある音声カテゴリのHMMであり、例えば音素ごと、もしくは前後の音素を考慮した音素環境ごとにこのようなHMMが用意される。HMMは単一もしくは複数の状態を持つ。音声認識では、時刻が進むごとに他の状態や自状態へ遷移しながら、各状態が持つ標準音声パターンと入力音声特徴量ベクトルとを照合し、尤度を計算する。標準音声パターンの保持方法には幾つかあるが、図3では混合ガウス分布によるHMMを示している。混合ガウス分布は単一ガウス分布を混合比に応じて合成したものであり、それが音声特徴量ベクトルの各次元に存在する。これら混合ガウス分布は音響モデル学習時に、学習データとして用意された膨大な量の音声データから計算される音声特徴量の統計値である。よって、この音響モデルに含まれるあらゆる音素もしくは音素環境ごとのHMMの各次元の分布は、入力音声特徴量として受理できる数値の範囲を表現している。本発明はこの音声特徴量の各次元の受理範囲をもとに音声圧縮係数を計算している。一般にガウス分布では、その平均からその標準偏差に3を乗じたものを加減算した範囲(以下、「3シグマ範囲」という。)で分布の99.7%(分布のほとんど)をカバーしている。そこで、音響モデルに含まれる全てのガウス分布の各次元の音声特徴量分布の3シグマ範囲を計算し、最大値、最小値を求める。この最大値と最小値から成る範囲が、各次元の特徴量の取り得る範囲となる。これを音声特徴量ベクトルの全ての次元に対して行う。
IEEE標準形式では指数部に8ビットを利用しているが、上記の要領で計算した最大値、最小値が示す音声特徴量範囲から指数部に必要なビット数を計算することができる。例えば、図5は、ある音響モデルから各次元の音声特徴量値の最大値、最小値を求め、それらを浮動小数点形式に変換する際の指数値と仮数値(仮数値×2指数値)を求めたものの抜粋である。次元ごとに指数値の幅を見ると最大でも第13次元の2(=4−2)である。バイアス値を−1とすれば2ビットで収まることがわかる。また、IEEE標準形式4byte(32ビット)浮動小数点ではもともと、127のバイアス値を実際の指数値に加えて浮動小数点指数部の値としているため、8ビットを指数部に用意している。上記のように指数部の幅が最大の第13次元の指数部でも2ビットあれば表現できるため、図5の例では、127を指数部の値から引いて、指数部を2ビットとする。つまり、6ビット削減(圧縮)できる。このようにして音声特徴量ベクトルの各次元での指数値幅すなわち指数部ビット数とバイアス値を求める。
なお、本発明で示したクライアント計算機、サーバ計算機の各機能をプログラムによってコンピュータで実現することもできる。また当該プログラムは、コンピュータ読み取り可能な記録媒体に記録することができる。
Claims (24)
- クライアント計算機で入力された音声をネットワークで接続されたサーバ計算機で音声認識するクライアント・サーバ音声認識方法であって、
サーバ計算機で、利用環境により音響モデルを変更する音響モデル変更ステップと、
サーバ計算機で、音声認識に用いる音響モデルから音声圧縮係数を算出する音声圧縮係数ステップと、
サーバ計算機で、前記音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件をクライアント計算機に送信する音声圧縮係数・音声分析条件送信ステップと、
クライアント計算機で、前記音声圧縮係数と前記音声分析条件を受信する音声圧縮係数・音声分析条件受信ステップと、
クライアント計算機で、入力された音声から、前記音声分析条件に基づいて音声特徴量ベクトルを抽出する音声特徴量ベクトル抽出ステップと、
クライアント計算機で、前記音声圧縮係数に基づいて前記音声特徴量ベクトルを圧縮し、圧縮済み音声特徴量ベクトルをサーバ計算機に送信する圧縮ステップと、
サーバ計算機で、クライアント計算機から受信した前記圧縮済み音声特徴量ベクトルを算出済みの音声圧縮係数に基づいて復元する復元ステップと、
サーバ計算機で、前記復元した音声特徴量ベクトルを用いて音声認識を行う音声認識ステップと
を有するクライアント・サーバ音声認識方法。 - 請求項1記載のクライアント・サーバ音声認識方法であって、
サーバ計算機で、前記復元した音声特徴量ベクトルの全てもしくは一部と、当該復元した音声特徴量ベクトルから求められる音声特徴量ベクトルとで構成する第2の音声特徴量ベクトルを生成する音声特徴量ベクトル生成ステップと、
サーバ計算機で、前記生成された音声特徴量ベクトルを用いて音声認識を行う前記音声認識ステップと
を有するクライアント・サーバ音声認識方法。 - 請求項1または2記載のクライアント・サーバ音声認識方法であって、
前記圧縮ステップが、前記音声圧縮係数に基づいて音声特徴量ベクトルの各次元値をよりビット数の少ない浮動小数点数値に変換する
ことを特徴とするクライアント・サーバ音声認識方法。 - 請求項1から3のいずれかに記載のクライアント・サーバ音声認識方法であって、
前記音声圧縮係数ステップが、前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値、仮数部ビット数とする
ことを特徴とするクライアント・サーバ音声認識方法。 - 請求項1から3のいずれかに記載のクライアント・サーバ音声認識方法であって、
クライアント計算機およびサーバ計算機ともにあらかじめ音声特徴量ベクトルの各次元の総ビット数を指定しておき、
前記音声圧縮係数ステップが、前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値とする
ことを特徴とするクライアント・サーバ音声認識方法。 - ネットワークで接続されたクライアント計算機に入力された音声を認識するサーバ計算機での音声認識方法であって、
音響モデル変更部で、利用環境により音響モデルを変更する音響モデル変更ステップと、
音声圧縮係数計算部で、音声認識に用いる音響モデルから音声圧縮係数を算出する音声圧縮係数ステップと、
音声圧縮係数・音声分析条件送信部で、前記音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件を送信する音声圧縮係数・音声分析条件送信ステップと、
音声特徴量ベクトル復元部で、受信した前記圧縮済み音声特徴量ベクトルを算出済みの音声圧縮係数に基づいて復元する復元ステップと、
音声認識部で、前記復元した音声特徴量ベクトルを用いて音声認識を行う音声認識ステップと
を有するサーバ計算機での音声認識方法。 - 請求項6記載の音声認識方法であって、
音声特徴量ベクトル生成部で、前記復元した音声特徴量ベクトルの全てもしくは一部と、当該復元した音声特徴量ベクトルから求められる音声特徴量ベクトルとで構成する第2の音声特徴量ベクトルを生成する音声特徴量ベクトル生成ステップと、
前記音声認識部で、前記生成された音声特徴量ベクトルを用いて音声認識を行う前記音声認識ステップと
を有するサーバ計算機での音声認識方法。 - 請求項6または7記載の音声認識方法であって、
前記音声圧縮係数ステップが、前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値、仮数部ビット数とする
ことを特徴とするサーバ計算機での音声認識方法。 - 請求項6または7記載の音声認識方法であって、
あらかじめ音声特徴量ベクトルの各次元の総ビット数を定めておき、
前記音声圧縮係数ステップが、前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値とする
ことを特徴とするサーバ計算機での音声認識方法。 - 入力された音声の音声特徴量を送信する音声特徴量抽出・送信方法であって、
音声圧縮係数・音声分析条件受信部で、音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件を受信する音声圧縮係数・音声分析条件受信ステップと、
音声特徴量ベクトル抽出部で、入力された音声から、前記音声分析条件に基づいて音声特徴量ベクトルを抽出する音声特徴量ベクトル抽出ステップと、
音声特徴量ベクトル圧縮部で、前記音声圧縮係数に基づいて前記音声特徴量ベクトルを圧縮し、圧縮済み音声特徴量ベクトルを送信する圧縮ステップと、
を有する音声特徴量抽出・送信方法。 - 請求項10記載の音声特徴量抽出・送信方法であって、
前記圧縮ステップが、前記音声圧縮係数に基づいて音声特徴量ベクトルの各次元値をよりビット数の少ない浮動小数点数値に変換する
ことを特徴とする音声特徴量抽出・送信方法。 - クライアント計算機で入力された音声をネットワークで接続されたサーバ計算機で音声認識するクライアント・サーバ音声認識システムであって、
音響モデルを記録する音響モデル記憶部と、
前記音響モデル記憶部の音声認識に用いる音響モデルを変更する音響モデル変更部と、
音声認識に用いる音響モデルから音声圧縮係数を算出する音声圧縮係数計算部と、
前記音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件を記録する第1の音声圧縮係数・音声分析条件記憶部と、
前記音声圧縮係数と前記音声分析条件をクライアント計算機に送信する音声圧縮係数・音声分析条件送信部と、
クライアント計算機から受信した圧縮済み音声特徴量ベクトルを前記音声圧縮係数に基づいて復元する音声特徴量ベクトル復元部と、
前記復元した音声特徴量ベクトルを用いて音声認識を行う音声認識部と
を備えるサーバ計算機と、
音声圧縮係数と音声分析条件をサーバ計算機から受信する音声圧縮係数・音声分析条件受信部と、
前記音声圧縮係数と前記音声分析条件を記録する第2の音声圧縮係数・音声分析条件記憶部と、
入力された音声から、前記音声分析条件に基づいて音声特徴量ベクトルを抽出する音声特徴量ベクトル抽出部と、
前記音声圧縮係数に基づいて前記音声特徴量ベクトルを圧縮する音声特徴量ベクトル圧縮部と、
圧縮済み音声特徴量ベクトルをサーバ計算機に送信する音声特徴量ベクトル送信部と、
を備えるクライアント計算機と
から構成されることを特徴とするクライアント・サーバ音声認識システム。 - 請求項12記載のクライアント・サーバ音声認識システムであって、
前記サーバ計算機が、
前記復元した音声特徴量ベクトルの全てもしくは一部と、当該復元した音声特徴量ベクトルから求められる音声特徴量ベクトルとで構成する第2の音声特徴量ベクトルを生成する音声特徴量ベクトル生成部と、
前記生成された音声特徴量ベクトルを用いて音声認識を行う前記音声認識部と
を備えることを特徴とするクライアント・サーバ音声認識システム。 - 請求項12または13記載のクライアント・サーバ音声認識システムであって、
前記クライアント計算機が、
前記音声圧縮係数に基づいて音声特徴量ベクトルの各次元値をよりビット数の少ない浮動小数点数値に変換する音声特徴量ベクトル圧縮部
を備えることを特徴とするクライアント・サーバ音声認識システム。 - 請求項12または14記載のクライアント・サーバ音声認識システムであって、
前記サーバ計算機が、
前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値、仮数部ビット数とする前記音声圧縮係数計算部
を備えることを特徴とするクライアント・サーバ音声認識システム。 - 請求項12または14記載のクライアント・サーバ音声認識システムであって、
クライアント計算機およびサーバ計算機ともにあらかじめ音声特徴量ベクトルの各次元の総ビット数を指定しておき、
前記サーバ計算機が、
前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値とする前記音声圧縮係数計算部
を備えることを特徴とするクライアント・サーバ音声認識システム。 - ネットワークで接続された装置に入力された音声を音声認識する音声認識装置であって、
音響モデルを記録する音響モデル記憶部と、
前記音響モデル記憶部の音声認識に用いる音響モデルを変更する音響モデル変更部と、
音声認識に用いる音響モデルから音声圧縮係数を算出する音声圧縮係数計算部と、
前記音声圧縮係数と音声特徴量ベクトルを抽出するための音声分析条件を記録する第1の音声圧縮係数・音声分析条件記憶部と、
前記音声圧縮係数と前記音声分析条件をクライアント計算機に送信する音声圧縮係数・音声分析条件送信部と、
クライアント計算機から受信した圧縮済み音声特徴量ベクトルを前記音声圧縮係数に基づいて復元する音声特徴量ベクトル復元部と、
前記復元した音声特徴量ベクトルを用いて音声認識を行う音声認識部と
を備える音声認識装置。 - 請求項17記載の音声認識装置であって、
前記復元した音声特徴量ベクトルの全てもしくは一部と、当該復元した音声特徴量ベクトルから求められる音声特徴量ベクトルとで構成する第2の音声特徴量ベクトルを生成する音声特徴量ベクトル生成部と、
前記生成された音声特徴量ベクトルを用いて音声認識を行う前記音声認識部と
を備える音声認識装置。 - 請求項17または18記載の音声認識装置であって、
前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値、仮数部ビット数とする前記音声圧縮係数計算部
を備える音声認識装置。 - 請求項17または18記載の音声認識装置であって、
あらかじめ音声特徴量ベクトルの各次元の総ビット数を指定しておき、
前記音声圧縮係数を、音声特徴量ベクトルの次元ごとの指数部ビット数、指数部バイアス値とする前記音声圧縮係数計算部
を備える音声認識装置。 - 入力された音声の音声特徴量を送信する音声特徴量抽出・送信装置であって、
音声圧縮係数と音声分析条件を受信する音声圧縮係数・音声分析条件受信部と、
前記音声圧縮係数と前記音声分析条件を記録する音声圧縮係数・音声分析条件記憶部と、
入力された音声から、前記音声分析条件に基づいて音声特徴量ベクトルを抽出する音声特徴量ベクトル抽出部と、
前記音声圧縮係数に基づいて前記音声特徴量ベクトルを圧縮する音声特徴量ベクトル圧縮部と、
圧縮済み音声特徴量ベクトルを送信する音声特徴量ベクトル送信部と、
を備える音声特徴量抽出・送信装置。 - 請求項21記載の音声特徴量抽出・送信装置であって、
前記音声圧縮係数に基づいて音声特徴量ベクトルの各次元値をよりビット数の少ない浮動小数点数値に変換する前記音声特徴量ベクトル圧縮部
を備える音声特徴量抽出・送信装置。 - 請求項1から11のいずれかに記載の方法の各ステップをコンピュータにより実行するプログラム。
- 請求項23記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005177698A JP4603429B2 (ja) | 2005-06-17 | 2005-06-17 | クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005177698A JP4603429B2 (ja) | 2005-06-17 | 2005-06-17 | クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006350090A true JP2006350090A (ja) | 2006-12-28 |
JP4603429B2 JP4603429B2 (ja) | 2010-12-22 |
Family
ID=37646004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005177698A Active JP4603429B2 (ja) | 2005-06-17 | 2005-06-17 | クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4603429B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009216760A (ja) * | 2008-03-07 | 2009-09-24 | Nec Corp | 音響分析条件正規化システム、音響分析条件正規化方法および音響分析条件正規化プログラム |
JP2011191682A (ja) * | 2010-03-16 | 2011-09-29 | Nec Corp | 音声認識装置、音声認識方法および音声認識プログラム |
JP2012247679A (ja) * | 2011-05-30 | 2012-12-13 | Nippon Telegr & Teleph Corp <Ntt> | テキスト及び音声特徴量収集方法、そのシステム、プログラム |
JP7557861B2 (ja) | 2020-10-07 | 2024-09-30 | 株式会社国際電気通信基礎技術研究所 | 学習用データ生成方法、信号種別分類システム、データ収集システム、および、プログラム |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6069700A (ja) * | 1983-09-27 | 1985-04-20 | 富士通株式会社 | 音声認識装置 |
JPH0566793A (ja) * | 1991-09-09 | 1993-03-19 | Matsushita Electric Ind Co Ltd | 音声入力装置 |
JPH09146585A (ja) * | 1995-11-27 | 1997-06-06 | Hitachi Ltd | 音声認識翻訳システム |
JP2001267928A (ja) * | 2000-03-17 | 2001-09-28 | Casio Comput Co Ltd | オーディオデータ圧縮装置、及び記憶媒体 |
JP2001337695A (ja) * | 2000-05-24 | 2001-12-07 | Canon Inc | 音声処理システム、装置、方法及び記憶媒体 |
JP2002014693A (ja) * | 2000-06-30 | 2002-01-18 | Mitsubishi Electric Corp | 音声認識システム用辞書提供方法、および音声認識インタフェース |
JP2002268681A (ja) * | 2001-03-08 | 2002-09-20 | Canon Inc | 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法 |
JP2003517158A (ja) * | 1999-11-12 | 2003-05-20 | フェニックス ソリューションズ インコーポレーテッド | 分散型リアルタイム音声認識システム |
JP2003241788A (ja) * | 2002-02-20 | 2003-08-29 | Ntt Docomo Inc | 音声認識装置及び音声認識システム |
JP2004104757A (ja) * | 2002-07-16 | 2004-04-02 | Advanced Media Inc | 音声入力装置 |
-
2005
- 2005-06-17 JP JP2005177698A patent/JP4603429B2/ja active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6069700A (ja) * | 1983-09-27 | 1985-04-20 | 富士通株式会社 | 音声認識装置 |
JPH0566793A (ja) * | 1991-09-09 | 1993-03-19 | Matsushita Electric Ind Co Ltd | 音声入力装置 |
JPH09146585A (ja) * | 1995-11-27 | 1997-06-06 | Hitachi Ltd | 音声認識翻訳システム |
JP2003517158A (ja) * | 1999-11-12 | 2003-05-20 | フェニックス ソリューションズ インコーポレーテッド | 分散型リアルタイム音声認識システム |
JP2001267928A (ja) * | 2000-03-17 | 2001-09-28 | Casio Comput Co Ltd | オーディオデータ圧縮装置、及び記憶媒体 |
JP2001337695A (ja) * | 2000-05-24 | 2001-12-07 | Canon Inc | 音声処理システム、装置、方法及び記憶媒体 |
JP2002014693A (ja) * | 2000-06-30 | 2002-01-18 | Mitsubishi Electric Corp | 音声認識システム用辞書提供方法、および音声認識インタフェース |
JP2002268681A (ja) * | 2001-03-08 | 2002-09-20 | Canon Inc | 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法 |
JP2003241788A (ja) * | 2002-02-20 | 2003-08-29 | Ntt Docomo Inc | 音声認識装置及び音声認識システム |
JP2004104757A (ja) * | 2002-07-16 | 2004-04-02 | Advanced Media Inc | 音声入力装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009216760A (ja) * | 2008-03-07 | 2009-09-24 | Nec Corp | 音響分析条件正規化システム、音響分析条件正規化方法および音響分析条件正規化プログラム |
JP2011191682A (ja) * | 2010-03-16 | 2011-09-29 | Nec Corp | 音声認識装置、音声認識方法および音声認識プログラム |
JP2012247679A (ja) * | 2011-05-30 | 2012-12-13 | Nippon Telegr & Teleph Corp <Ntt> | テキスト及び音声特徴量収集方法、そのシステム、プログラム |
JP7557861B2 (ja) | 2020-10-07 | 2024-09-30 | 株式会社国際電気通信基礎技術研究所 | 学習用データ生成方法、信号種別分類システム、データ収集システム、および、プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4603429B2 (ja) | 2010-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5627939A (en) | Speech recognition system and method employing data compression | |
CN101510424B (zh) | 基于语音基元的语音编码与合成方法及系统 | |
CN114550732B (zh) | 一种高频音频信号的编解码方法和相关装置 | |
JPH10319996A (ja) | 雑音の効率的分解と波形補間における周期信号波形 | |
US20140039902A1 (en) | Data compression apparatus, computer-readable storage medium having stored therein data compression program, data compression system, data compression method, data decompression apparatus, data compression/decompression apparatus, and data structure of compressed data | |
CN106256001B (zh) | 信号分类方法和装置以及使用其的音频编码方法和装置 | |
JP2006031016A (ja) | 音声コーディング/デコーディング方法及びその装置 | |
JP4603429B2 (ja) | クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体 | |
US7379868B2 (en) | Method and apparatus for differential compression of speaker models | |
JP2009253706A (ja) | 符号化装置、復号装置、符号化方法、復号方法及びプログラム | |
EP2617034B1 (en) | Determining pitch cycle energy and scaling an excitation signal | |
US20120123788A1 (en) | Coding method, decoding method, and device and program using the methods | |
WO2022159247A1 (en) | Trained generative model speech coding | |
JP4645866B2 (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
US7092878B1 (en) | Speech synthesis using multi-mode coding with a speech segment dictionary | |
US8626501B2 (en) | Encoding apparatus, encoding method, decoding apparatus, decoding method, and program | |
JP5964895B2 (ja) | 音符号化システム | |
JP5964897B2 (ja) | 音符号化システム及び符号化装置、復号化装置 | |
US6980957B1 (en) | Audio transmission system with reduced bandwidth consumption | |
JP3700310B2 (ja) | ベクトル量子化装置及びベクトル量子化方法 | |
Daalache et al. | An efficient distributed speech processing in noisy mobile communications | |
WO1995028770A1 (en) | Adpcm signal encoding/decoding system and method | |
JP2001148632A (ja) | 符号化装置、符号化方法、及びその記録媒体 | |
JP2000242299A (ja) | 重み符号帳とその作成方法及び符号帳設計時における学習時のma予測係数の初期値の設定方法並びに音響信号の符号化方法及びその復号方法並びに符号化プログラムが記憶されたコンピュータに読み取り可能な記憶媒体及び復号プログラムが記憶されたコンピュータに読み取り可能な記憶媒体 | |
JP2002049396A (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100405 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100420 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100611 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100629 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100824 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100921 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101001 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131008 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4603429 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |