JP2003140693A - 音声復号装置及び方法 - Google Patents

音声復号装置及び方法

Info

Publication number
JP2003140693A
JP2003140693A JP2001338277A JP2001338277A JP2003140693A JP 2003140693 A JP2003140693 A JP 2003140693A JP 2001338277 A JP2001338277 A JP 2001338277A JP 2001338277 A JP2001338277 A JP 2001338277A JP 2003140693 A JP2003140693 A JP 2003140693A
Authority
JP
Japan
Prior art keywords
information
speaker
voice
spectrum
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001338277A
Other languages
English (en)
Inventor
Yasuhiro Tokuri
康裕 戸栗
Masayuki Nishiguchi
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2001338277A priority Critical patent/JP2003140693A/ja
Publication of JP2003140693A publication Critical patent/JP2003140693A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 符号化音声データの音声波形を出力するとと
もに、その音声波形に対応付けられた話者情報を出力す
る。 【解決手段】 音声復号装置10において、入力された
符号化音声データは、LSP逆量子化部22、ピッチ逆
量子化部23及びスペクトル逆量子化部24等を経て、
音声波形に復元され、音声波形が出力制御部31に供給
される。また、LSP逆量子化部22で得られたLPC
係数に基づいて、話者識別部24において音声の話者が
識別され、その話者情報が出力制御部31に供給され
る。出力制御部31では、音声波形とその音声波形に対
応付けられた話者情報とが、同期されて出力される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声復号装置及び
その方法に関するものであり、特に、音声データ又は音
声画像データの話者識別機能を有する音声復号装置及び
その方法に関するものである。
【0002】
【従来の技術】近年では、音声信号をディジタル化し、
そのディジタル音声信号を符号化して保存又は利用する
ことが多い。この音声の符号化方法は、大別して波形符
号化と分析合成符号化、そしてそれらを混在したハイブ
リッド符号化に分けることができる。
【0003】ここで、波形符号化は、音声波形をできる
だけ忠実に再現できるように符号化するものであり、分
析合成符号化は、音声の生成モデルに基づいて信号をパ
ラメータで表現して符号化するものである。
【0004】オーディオ信号或いは音声信号の波形符号
化の手法には種々あるが、例えば、時間軸上のオーディ
オ信号を複数の周波数帯域に分割して符号化する帯域分
割符号化(サブ・バンド符号化)や、時間軸上の信号を
所定時間単位でブロック化して、ブロック毎にスペクト
ル変換し、そのスペクトルを周波数帯域毎に符号化する
ブロック符号化若しくは変換符号化を挙げることができ
る。また、上述の帯域分割符号化と変換符号化とを組み
合わせた高能率符号化の手法も考えられており、この場
合には、例えば、上記帯域分割符号化で帯域分割を行っ
た後、各分割帯域毎の信号をスペクトル変換し、スペク
トル変換された信号に対して各周波数帯域毎の符号化が
施される。ここで、時間領域信号を周波数領域信号に変
換するスペクトル変換としては、離散フーリエ変換(Di
screte Fourier Transform:DFT)、離散コサイン変換
(Discrete Cosine Transform:DCT)、或いは修正離散
コサイン変換(Modified Discrete Cosine Transform:M
DCT)等の方式がある。
【0005】分析合成符号化としては、線形予測(Line
ar Predictive Coding:LPC)分析を用いた分析合成系が
研究されている。例えば、ハーモニック符号化や、合成
による分析(A-b-S:Analysis-by-Synthesis)法を用い
たマルチパス駆動線形予測符号化(MPC)や最適ベク
トルのクローズドループサーチによる符号励起線形予測
(CELP)符号化等がある。
【0006】一般的に、LPC分析を用いた符号化方式
では、線形予測分析(LPC分析)によりスペクトルの
包絡情報を抽出し、LPC情報をPARCOR係数(偏
自己相関関数:PARtial auto-CORrelation coefficien
t)やLSP(Linear Spectrum Pair)係数等に変換し
て量子化及び符号化する。また、ブロック毎に有声音か
無声音かを判定して、有声音にはハーモニック符号化を
適用し、無声音にはCELP符号化を適用する方式や、
さらには、LPC分析による分析合成符号化とそのLP
C残差信号に波形符号化を用いて符号化するハイブリッ
ド方式も研究されている。
【0007】図9に、LPC分析を用いた一般的な音声
符号化装置の概略構成を示す。図9において、LPC分
析部101は、入力部100から入力された音声信号D
100に対してLPC分析を施し、LPC係数D101
を求める。LPC分析部101は、求めたLPC係数D
101をLSP変換部102に供給する。
【0008】LSP変換部102は、LPC係数D10
1をLSPパラメータD102に変換して、このLSP
パラメータD102をLSP量子化部103に供給し、
LSP量子化部103は、LSPパラメータD102を
量子化する。LSPパラメータの方がLPC係数よりも
量子化された際の性能劣化が少ないことから、通常この
ようにLSPパラメータに変換されてから量子化される
ことが多い。なお、LSPパラメータの量子化の手法と
しては、ベクトル量子化などがよく用いられる。
【0009】LPC逆フィルタ部104は、量子化LS
Pパラメータ103を逆量子化してさらにLPC係数に
逆変換して得られたLPC係数D104を用いて入力信
号D100をフィルタリングし、入力信号D100から
LPC残差信号D105を抽出する。LPC逆フィルタ
部104は、抽出したLPC残差信号D105をピッチ
分析部105及びピッチ逆フィルタ部107に供給す
る。
【0010】ピッチ分析部105は、このようにして求
められたLPC残差信号D105に対してピッチ分析を
施し、分析されたピッチラグやピッチゲインといったピ
ッチ情報D106をピッチ量子化部106に供給する。
ピッチ量子化部106は、このピッチ情報D106を量
子化する。
【0011】ピッチ逆フィルタ部107は、量子化ピッ
チ情報D107を逆量子化して得られたピッチ情報D1
08を用いてLPC残差信号D105をフィルタリング
し、LPC残差信号D105からピッチ成分を抜き出
す。ピッチ逆フィルタ部107は、このようにして平坦
化された残差信号D109をスペクトル変換部108に
供給する。
【0012】スペクトル変換部108は、残差信号D1
09をスペクトル係数D110に変換し、スペクトル量
子化部109は、スペクトル係数D110を量子化す
る。このスペクトル係数D110の量子化には、ベクト
ル量子化による手法や、聴覚心理モデルに基づいた量子
化とハフマン符号化等を組み合わせた手法がよく用いら
れる。
【0013】このようにして求められた、量子化LSP
パラメータD103、量子化ピッチ情報D107、量子
化スペクトルD111及びその他の付加情報等は、ビッ
ト合成部110に送られ、規定のデータフォーマットに
従って符号化ビットストリームD112が生成され、出
力部111に供給された後、出力される。
【0014】図9のようなLPC分析を用いた音声符号
化装置よって生成された符号化音声データの記録形式の
一例を図10に示す。図10に示すように、量子化され
たLSPパラメータが符号化データ中に保持されてい
る。この量子化LSPパラメータは、LPC係数に容易
に変換可能であり、LPC係数はスペクトルの包絡情報
を示すものであるため、量子化されたスペクトル包絡情
報が保持されていると考えることもできる。
【0015】図11に、図9に示した音声符号化装置に
対応する音声復号装置の概略構成を示す。図11におい
て、ビット分解部121は、入力部120から所定のブ
ロック毎に入力された符号化データD120を幾つかの
部分要素に分解する。例えば、ビット分解部121は、
符号化データD120をブロック毎に量子化LSP情報
D121、量子化ピッチ情報D122及び量子化残差ス
ペクトル情報D123等に分解する。ビット分解部12
1は、これらの量子化LSP情報D121、量子化ピッ
チ情報D122及び量子化残差スペクトル情報D123
を、それぞれ、LSP逆量子化部122、ピッチ逆量子
化部123、スペクトル逆量子化部124に供給する。
【0016】LSP逆量子化部122は、量子化LSP
情報D121を逆量子化してLSPパラメータを生成
し、さらにLSPパラメータをLPC係数D124に変
換する。LSP逆量子化部122は、このLPC係数D
124を、LPC合成部127に供給する。
【0017】ピッチ逆量子化部123は、量子化ピッチ
情報D122を逆量子化して、ピッチ周期やピッチゲイ
ンといったピッチ情報D125を生成する。ピッチ逆量
子化部123は、このピッチ情報D125をピッチ合成
部126に供給する。
【0018】スペクトル逆量子化部124は、量子化残
差スペクトル情報D123を逆量子化して、残差スペク
トルD126を生成し、スペクトル逆変換部125に供
給する。
【0019】スペクトル逆変換部125は、残差スペク
トルD126に対してスペクトル逆変換を施し、残差波
形D127に変換する。スペクトル逆変換部125は、
この残差波形D127をピッチ合成部126に供給す
る。
【0020】ピッチ合成部126は、ピッチ逆量子化部
123から供給されたピッチ情報D125を用いて残差
波形D127にフィルタリングを施し、LPC残差波形
D128を合成する。ピッチ合成部126は、このLP
C残差波形D128をLPC合成部127に供給する。
【0021】LPC合成部127は、LSP逆量子化部
122から供給されたLPC係数D124を用いてLP
C残差波形D128にフィルタリングを施し、音声波形
D129を合成する。LPC合成部127は、この音声
波形D129を出力部128に供給する。
【0022】一方、音声信号の話者を識別する技術も盛
んに研究がされている。以下、説明する。
【0023】先ず、話者認識には、話者識別と話者照合
がある。話者識別とは、入力された音声が予め登録され
た話者うちのどの話者であるかを判定するものであり、
話者照合とは、入力された音声を予め登録された話者の
データと比較して本人であるか否かを判定するものであ
る。なお、予め登録されていない不特定話者が含まれる
ような場合には、上述した話者識別と話者照合とを組み
合わせた方法によって話者が判定される。また、話者認
識には、認識時に発声する言葉(キーワード)が予め決
められた発声内容依存型と、任意の言葉を発声して認識
をする発声内容独立型がある。
【0024】一般的な音声認識技術としては、例えば次
のような技術がよく用いられる。先ず、ある話者の音声
信号の個人性を表す特徴量を抽出して、予め学習データ
として記録しておく。識別・照合の際には、入力された
話者音声を分析して、その個人性を表す特徴量を抽出し
て、学習データとの類似度を評価することで、話者の識
別・照合を行う。ここで、音声の個人性を表す特徴量と
しては、ケプストラム(Cepstrum)等がよく用いられ
る。ケプストラムは、対数スペクトルをフーリエ逆変換
したもので、その低次の項の係数によって音声スペクト
ルの包絡を表現できる。或いは、音声信号にLPC分析
を施してLPC係数を求め、そのLPC係数を変換する
ことで得られるLPCケプストラム係数を用いることが
多い。これらのケプストラム若しくはLPCケプストラ
ム係数の時系列の多項式展開係数をデルタケプストラム
と呼び、これも音声スペクトルの時間的変化を表現する
特徴量としてよく用いられる。この他、ピッチやデルタ
ピッチ(ピッチの多項式展開係数)等も用いられること
がある。
【0025】このようにして抽出されたLPC(Linear
Predictive Coding)ケプストラム等の特徴量を標準パ
ターンとして学習データを作成するが、その方法として
は、ベクトル量子化歪みによる方法と隠れマルコフモデ
ル(HMM:Hidden Markov Model)による方法が代表的で
ある。
【0026】ベクトル量子化歪みによる方法では、予め
話者ごとの特徴量をグループ化してその重心を符号帳
(コードブック)の要素(コードベクトル)として蓄え
ておく。そして、入力された音声の特徴量を各話者のコ
ードブックでベクトル量子化して、その入力音声全体に
対する各コードブックの平均量子化歪みを求める。
【0027】そして話者識別の場合は、その平均量子化
歪みの最も小さいコードブックの話者を選択し、話者照
合の場合は、該当する話者のコードブックによる平均量
子化歪みを閾値と比較して本人かどうかを判定する。
【0028】一方、HMMによる方法では、上記と同様
にして求めた話者の特徴量は、隠れマルコフモデル(H
MM)の状態間の遷移確率と、各状態での特徴量の出現
確率によって表現され、入力音声区間全体でモデルとの
平均尤度によって判定をする。また、予め登録されてい
ない不特定話者が含まれる話者データの識別の場合は、
先ず登録された話者セットから最も類似した話者を候補
として選び、その候補の量子化歪み若しくは尤度を閾値
と比較して、本人か否かを判定する。
【0029】
【発明が解決しようとする課題】ところで、符号化され
たデータを復号し、且つその音声の話者を識別する場
合、従来の音声復号装置では、以下のように行われてい
た。すなわち、図12にその概念構成を示す音声復号装
置200において、音声波形復元手段201は、符号化
データを音声波形に復号する。そして、音声分析手段2
02は、その復号された音声波形の特徴量を分析し、話
者識別手段203は、その特徴量に基づいて、音声デー
タの話者を識別する。
【0030】このように、従来の音声復号装置200で
は、符号化されたデータを復号し、且つその音声の話者
を識別する場合に、一旦符号化された音声データを音声
波形に復号し、復号された音声波形の特徴量を分析して
話者識別する必要があったため、多くの演算量及び処理
時間が必要とされた。特に、符号化音声データをリアル
タイムで復号及び再生する場合には、再生中の音声信号
を分析してから話者識別する必要があるため、識別処理
に時間がかかり、音声再生出力と同時にその話者の情報
をリアルタイムで出力することは困難であった。
【0031】また、一旦復号された音声データを分析し
て識別処理を行うため、識別処理の性能が低下するとい
う問題もあった。
【0032】本発明は、このような従来の実情に鑑みて
提案されたものであり、符号化された音声データを復号
する際に、復元された音声データを出力するとともに、
その音声に対応付けられた話者情報をリアルタイムで出
力することのできる音声復号装置及びその方法を提供す
ることを目的とする。
【0033】
【課題を解決するための手段】上述した目的を達成する
ために、本発明に係る音声復号装置は、スペクトル分析
を用いた音声符号化方式によって符号化された符号化音
声データを時間軸上の音声波形に復号する音声復号装置
において、上記符号化音声データからスペクトル情報を
復元するスペクトル情報復元手段と、復元された上記ス
ペクトル情報に基づいて上記符号化音声データの話者を
識別する話者識別手段と、上記符号化音声データから時
間軸上の音声波形を復元する音声波形復号手段と、上記
音声波形復号手段によって復元された音声波形の信号と
ともに、その音声波形に対応する、上記話者識別手段に
よって識別された話者の情報を出力するように制御する
出力制御手段とを備えることを特徴としている。
【0034】ここで、上記話者識別手段は、上記スペク
トル情報の類似性によって所定の区間毎に話者を識別
し、上記出力制御手段は、少なくとも上記音声波形の信
号の出力を遅延させる機能を有し、上記音声波形の信号
の出力中に上記話者の情報を出力する。上記出力制御手
段は、例えば上記所定の区間の開始点毎に、上記音声波
形の信号と当該音声波形の信号に対応付けられた上記話
者の情報とを同期して出力するように制御する。
【0035】また、上記スペクトル分析がスペクトル包
絡の分析であり、上記スペクトル情報がスペクトル包絡
情報であってもよい。
【0036】また、上記スペクトル包絡の分析がLPC
(線形予測)分析であり、上記スペクトル包絡情報がL
PC情報又はLPC情報に変換可能なLPC関連情報で
あってもよい。
【0037】このような音声復号装置は、復号された音
声波形の信号の特徴量を再度分析することなく、音声波
形の信号を出力するとともに、その音声波形に対応する
話者の情報を出力する。
【0038】また、上述した目的を達成するために、本
発明に係る音声復号方法は、スペクトル分析を用いた音
声符号化方式によって符号化された符号化音声データを
時間軸上の音声波形に復号する音声復号方法において、
上記符号化音声データからスペクトル情報を復元するス
ペクトル情報復元工程と、復元された上記スペクトル情
報に基づいて上記符号化音声データの話者を識別する話
者識別工程と、上記符号化音声データから時間軸上の音
声波形を復元する音声波形復号工程と、上記音声波形復
号工程にて復元された音声波形の信号とともに、その音
声波形に対応する、上記話者識別工程にて識別された話
者の情報を出力するように制御する出力制御工程とを有
することを特徴としている。
【0039】ここで、上記話者識別工程では、上記スペ
クトル情報の類似性によって所定の区間毎に話者が識別
され、上記出力制御工程では、少なくとも上記音声波形
の信号の出力が遅延され、上記音声波形の信号の出力中
に上記話者の情報が出力される。上記出力制御工程で
は、例えば上記所定の区間の開始点毎に、上記音声波形
の信号と当該音声波形の信号に対応付けられた上記話者
の情報とが同期されて出力されるように制御される。
【0040】また、上記スペクトル分析がスペクトル包
絡の分析であり、上記スペクトル情報がスペクトル包絡
情報であってもよい。
【0041】また、上記スペクトル包絡の分析がLPC
(線形予測)分析であり、上記スペクトル包絡情報がL
PC情報又はLPC情報に変換可能なLPC関連情報で
あってもよい。
【0042】このような音声復号方法では、復号された
音声波形の信号の特徴量を再度分析することなく、音声
波形の信号が出力されるとともに、その音声波形に対応
する話者の情報が出力される。
【0043】
【発明の実施の形態】以下、本発明を適用した具体的な
実施の形態について、図面を参照しながら詳細に説明す
る。この実施の形態は、本発明を、スペクトル分析を用
いた音声符号化方式によって符号化された符号化音声デ
ータから音声波形を復元し、且つその音声波形に対応す
る話者の情報を所定の区間毎に同期して出力する機能を
有する音声復号装置に適用したものである。なお、以下
では、スペクトル分析の手法として、特にスペクトル包
絡情報を分析し、さらに、スペクトル包絡情報の分析手
法として、特にLPC(Linear Predictive Coding)分
析を用いた例について説明する。すなわち、本実施の形
態における音声復号装置は、詳しくは、LPC分析を用
いて符号化された符号化音声データからLPC情報に変
換可能なLSP情報を復号し、このLSP情報を用いて
話者を識別して、話者情報を音声波形と同時に出力す
る。
【0044】ところで、本件出願人らは、先に、特願2
001−225051の明細書及び図面において、音声
符号化装置によって符号化された符号化音声データを対
象として、話者を検出及び検索する手法を提案してい
る。この特願2001−225051の明細書及び図面
に記載された技術では、図1に示すように、スペクトル
情報復号手段300によって、入力された符号化音声デ
ータから時間軸情報に復元する前のスペクトル情報を復
元し、このスペクトル情報に基づいて、話者識別手段3
01によって話者を識別する。したがって、この技術に
よれば、符号化音声データを音声波形に復号することな
く、音声の話者を識別することができる。しかし、この
技術は、符号化音声データにおける話者の検索を目的と
したものであり、音声波形の復元手段をもたないため、
符号化音声データをリアルタイムで復号及び再生する場
合に、その音声の話者情報を同時にリアルタイムで出力
することは困難である。
【0045】これに対して、本実施の形態における音声
復号装置によれば、上述したように、LPC分析を用い
て符号化された符号化音声データからLPC情報に変換
可能なLSP情報を復号し、このLSP情報を用いて話
者を識別して、話者情報を音声波形と同時に出力するこ
とができる。以下、説明する。
【0046】先ず、本実施の形態における音声復号装置
の概念構成図を図2に示す。図2に示すように、音声復
号装置においては、情報源となるLPC関連情報を有す
る符号化音声データがLPC情報復号手段1に入力さ
れ、LPC情報が抽出されて復号される。なお、この符
号化音声データは、前述した図10のような形式とされ
たものである。
【0047】話者識別手段2は、LPC復号手段1によ
って復号されたLPC情報を入力し、LPC情報に基づ
いて音声データの話者を識別する。話者識別手段2は、
この識別結果を音声の話者情報として出力制御手段4に
供給する。
【0048】一方、音声波形復号手段3は、LPC復号
手段1によって復号されたLPC情報を入力し、LPC
情報に基づいて音声波形を復元する。音声波形復号手段
3は、この復元された音声波形信号を出力制御手段4に
供給する。
【0049】出力制御手段4は、音声の話者情報と音声
波形信号とを後述するように同期して出力する。
【0050】次に、図2に示した音声復号装置の具体的
な構成例を図3に示す。この音声復号装置10は、LP
C分析により得られたLPC情報をLSP(Linear Spe
ctrum Pair)情報に変換して量子化及び符号化された符
号化音声データを処理対象として、音声波形を復元する
と同時に音声の話者情報を同期して出力するものであ
る。また、音声復号装置10は、話者を識別する際に、
特に符号化された音声データから抽出されたLPC情報
を変換して得られるLPCケプストラムを識別の特徴量
として利用し、識別の手法としてベクトル量子化を利用
する。なお、LPC情報に基づいた話者の識別手法が本
実施の形態における手法に限定されないのは、勿論であ
る。
【0051】図3に示すように、音声復号装置10は、
符号化音声データを入力する入力部20と、符号化音声
データを幾つかの部分要素に分解するビット分解部21
と、符号化音声データの量子化LSP情報に逆量子化を
施してLPC情報を復号するLSP逆量子化部22と、
符号化音声データの量子化ピッチ情報に逆量子化を施し
てピッチ情報を復号するピッチ逆量子化部23と、符号
化音声データの量子化残差スペクトルに逆量子化を施し
て残差スペクトルを復号するスペクトル逆量子化部24
と、残差スペクトルをスペクトル逆変換して時間軸上の
残差波形信号に変換するスペクトル逆変換部25と、残
差波形信号とピッチ情報とからLPC残差波形を合成す
るピッチ合成部26と、ピッチ成分を含む波形とLPC
情報とから音声波形を合成するLPC合成部27と、L
PC情報を音声の特徴量であるLPCケプストラム(Ce
pstrum)係数に変換するケプストラム変換部28と、ケ
プストラム係数にベクトル量子化を施してベクトル量子
化歪を求めるベクトル量子化部29と、ベクトル量子化
歪を所定のブロック毎に評価して話者を識別する話者識
別部30と、復元された音声波形信号とその音声の話者
情報とを後述するように同期して出力する出力制御部3
1と、音声信号を出力する音声出力部32と、話者情報
を出力する話者情報出力部33とを備えている。
【0052】ビット分解部21は、入力部20から所定
のブロック毎に入力された符号化データD20を幾つか
の部分要素に分解する。例えば、ビット分解部21は、
符号化データD20をブロック毎に量子化LSP情報D
21、量子化ピッチ情報D22及び量子化残差スペクト
ル情報D23等に分解する。ここで、量子化の手法とし
てベクトル量子化を用いた場合には、コードブックのイ
ンデックスが得られ、或いはハフマン符号化を用いた量
子化の場合には、その符号のインデックスが得られる。
ビット分解部21は、これらの量子化LSP情報D2
1、量子化ピッチ情報D22及び量子化残差スペクトル
情報D23を、それぞれ、LSP逆量子化部22、ピッ
チ逆量子化部23、スペクトル逆量子化部24に供給す
る。
【0053】LSP逆量子化部22は、量子化LSP情
報D21を逆量子化してLSPパラメータを生成し、さ
らにLSPパラメータをLPC係数D24に変換する。
LSP逆量子化部22は、このLPC係数D24を、L
PC合成部27とケプストラム変換部28とに供給す
る。
【0054】ピッチ逆量子化部23は、量子化ピッチ情
報D22を逆量子化して、ピッチ周期やピッチゲインと
いったピッチ情報D25を生成する。ピッチ逆量子化部
23は、このピッチ情報D25をピッチ合成部26に供
給する。
【0055】スペクトル逆量子化部24は、量子化残差
スペクトル情報D23を逆量子化して、残差スペクトル
D26を生成し、スペクトル逆変換部25に供給する。
【0056】スペクトル逆変換部25は、残差スペクト
ルD26に対してスペクトル逆変換を施し、残差波形D
27に変換する。スペクトル逆変換部25は、この残差
波形D27をピッチ合成部26に供給する。
【0057】ピッチ合成部26は、ピッチ逆量子化部2
3から供給されたピッチ情報D25を用いて残差波形D
27にフィルタリングを施し、LPC残差波形D28を
合成する。ピッチ合成部26は、このLPC残差波形D
28をLPC合成部27に供給する。
【0058】LPC合成部27は、LSP逆量子化部2
2から供給されたLPC情報D24を用いてLPC残差
波形D28にフィルタリングを施し、音声波形D29を
合成する。LPC合成部27は、この音声波形D29を
出力制御部31に供給する。
【0059】ケプストラム変換部28は、LSP逆量子
化部22から供給されたLPC情報D24をLPCケプ
ストラム係数D30に変換し、このLPCケプストラム
係数D30をベクトル量子化部29に供給する。
【0060】ベクトル量子化部29は、LPCケプスト
ラムD30に対して、登録された各話者のコードブック
を用いてそれぞれベクトル量子化を施し、各コードブッ
ク毎のベクトル量子化歪D31を求める。ベクトル量子
化部29は、この各コードブック毎のベクトル量子化歪
D31を話者識別部30に供給する。
【0061】話者識別部30は、過去幾つかのブロック
のベクトル量子化歪D31を保存しておき、これらを評
価して音声の話者を識別する。この話者識別について
は、後で詳述する。話者識別部30は、識別された話者
情報D32を出力制御部31に供給する。
【0062】出力制御部31は、LPC合成部27から
供給された音声波形D29と話者識別部30から供給さ
れた話者情報D32とを例えばバッファに蓄えておき、
音声出力部32及び話者情報出力部33に同期して出力
する。すなわち、出力制御部31は、同期が取られた音
声波形D33を音声出力部32に、また、同期が取られ
た話者情報D34を話者情報出力部33に、それぞれ同
時に出力する。この同期処理については、後で詳述す
る。
【0063】音声復号装置10は、以上のような構成に
より、符号化された音声データから音声波形を復元する
と同時に、その音声の話者を識別し、それらを同期して
出力することができる。
【0064】次に、音声復号装置10の一連の処理につ
いて説明するが、その前に、処理の単位であるブロック
について図4を用いて説明する。
【0065】図4に示すLPCブロックは、入力された
符号化音声データからブロック毎に読み込まれるブロッ
クデータであり、この単位で復号処理が施される。LP
Cブロックのブロック長は、通常30ミリ秒〜60ミリ
秒程度がよく用いられる。また、分析解像度を向上させ
るために隣接ブロックと20ミリ秒〜30ミリ秒程度ず
つオーバーラップさせることが多い。
【0066】話者認識ブロックは、N個のLPCブロッ
クからなり、話者を識別するための分析単位である。な
お、話者認識ブロックのブロック長が数秒程度になるよ
うに、上述したNの数を決定するのがよい。また、話者
認識ブロックは、図4に示すように、K(K<N)個の
LPCブロック毎にずらして設定される。すなわち、
(N−K)個だけ、隣接する話者認識ブロックとオーバ
ーラップしている。したがって、話者の識別情報は、K
個のLPCブロック毎に求められる。なお、LPCブロ
ック毎に話者を識別したい場合には、K=1としてもよ
いが、演算量が多くなるため、通常は、識別が1秒毎程
度になるようにKを設定するのがよい。
【0067】以下、本実施の形態における音声復号装置
10の一連の処理について、上述した図3と、図5のフ
ローチャートとを用いて説明する。先ずステップS10
において、LPCブロック毎に符号化音声データを読み
込むが、その読み込むLPCブロックの番号Iを0にセ
ットする。
【0068】次にステップS11において、話者認識ブ
ロック内での処理済みのLPCブロック数を数えるカウ
ンタnを0に初期化する。
【0069】続いてステップS12では、カウンタnが
話者認識ブロックに含まれるLPCブロック数N未満で
あるか否かが判別される。ステップS12において、カ
ウンタnがLPCブロック数N未満であれば、ステップ
S13に進んで、I番目のLPCブロックのデータを読
み込む。ステップS12において、カウンタnがLPC
ブロック数N未満でなければステップS23に進む。
【0070】ステップS14では、符号化音声データの
末尾に到達しているか否かが判別され、データの末尾に
到達していれば処理を終了する。データの末尾に到達し
ていなければ、ステップS15に進む。
【0071】ステップS15では、図3のビット分解部
21において、読み込んだLPCブロックのデータを幾
つかの部分要素に分解する。すなわち、上述したよう
に、データを量子化LSP情報、量子化ピッチ情報及び
量子化残差スペクトル情報等に分解する。
【0072】ステップS16では、LSP逆量子化部2
2において、量子化LSP情報を逆量子化してLSPパ
ラメータを生成し、さらにLSPパラメータをLPC係
数に変換する。なお、本実施の形態では、符号化音声デ
ータを分解して得られるLPC関連情報(LPC係数に
変換可能な情報)としてLSPパラメータを用いている
が、これに限定されるものではなく、LPC係数に変換
可能なものであれば、例えば、量子化されたLPC係数
を直接用いてもよく、また、PARCOR係数(PARtia
l auto-CORrelation coefficient:偏自己相関関数)を
用いてもよい。
【0073】続くステップS17では、ピッチ逆量子化
部23及びスペクトル逆量子化部24において、それぞ
れ量子化ピッチ情報、量子化残差スペクトルの逆量子化
を行う。
【0074】ステップS18では、スペクトル逆変換部
25において、残差スペクトルに対してスペクトル逆変
換を施し、残差波形に変換する。また、ピッチ合成部2
6において、ピッチ情報を用いてピッチ合成を行って、
LPC残差波形を合成し、さらに、LPC合成部27に
おいて、LPC情報を用いてLPC合成を行って、音声
波形を合成する。
【0075】ステップS19では、得られた音声波形
を、出力制御部31の図示しない音声出力用バッファに
格納する。なお、バッファに格納された音声波形は、順
次取り出され、後述するように、対応する話者情報と同
期して出力される。
【0076】ステップS20では、ケプストラム変換部
28において、ステップS16で得られたLPC係数を
LPCケプストラム係数に変換する。
【0077】続くステップS21では、ベクトル量子化
部29において、予め作成された複数のコードブックを
用いて、ステップS20で得られたLPCケプストラム
係数にベクトル量子化が施される。それぞれのコードブ
ックは、登録された話者に一対一に対応する。ここで、
コードブックCBによるこのLPCブロックのLPC
ケプストラム係数のベクトル量子化歪をdとする。な
お、kは、コードブックの番号である。このベクトル量
子化歪dは、話者識別部30において、過去Nブロッ
ク分保存される。
【0078】ステップS22では、LPCブロック番号
Iとカウンタnとに1を加算して次のLPCブロックに
移り、ステップS12に戻る。以上のステップS12か
らステップ22までの処理は、話者認識ブロック内の全
てのLPCブロックの処理が終了するか、符号化音声デ
ータの末尾に到達するまで繰り返される。なお、ステッ
プS17からステップS19までの処理は、音声波形の
復号処理であり、また、ステップS20及びステップS
21の処理は、話者識別のための処理であり、互いに独
立しているため、並行して処理を行うことも可能であ
る。
【0079】ステップS23では、ベクトル量子化部2
9において、過去Nブロックにおけるベクトル量子化歪
を用いて、コードブック毎の平均ベクトル量子化歪
みD を求める。
【0080】続いてステップS24では、平均量子化歪
みDを最小にする話者Sk’に対応するコードブック
CBk’を選出し、この話者Sk’を話者候補Sとす
る。このようにして、コードブックが登録されている話
者のうち、最も入力データの音声が類似している話者
が、その話者認識ブロックにおける話者候補Sとして
選出される。
【0081】次に、ステップS25において、話者候補
の照合判定を行う。すなわち、ステップS24で識
別された話者候補Sは、単に最小のベクトル量子化歪
を与えるコードブックとして選択されたものであるの
で、未登録の話者データであっても何れかのコードブッ
クが選択されてしまう。そこで、ベクトル量子化歪を評
価して、選択された話者候補Sが本人であるか否かの
照合判定を行う。なお、照合判定については、後で詳述
する。照合判定の結果、本人であると判定されれば話者
候補Sを識別話者として確定し、棄却されれば未知話
者として確定する。
【0082】ステップS26では、得られた話者情報
を、出力制御部31の図示しない話者情報出力用バッフ
ァに格納する。なお、バッファに格納されたデータは、
順次取り出され、後述するように、対応する音声波形デ
ータと同期して出力される。
【0083】ステップS27では、カウンタnをオーバ
ーラップシフト分、すなわち、n=N−Kにセットし
て、次の話者認識ブロックの処理に移る。ここで、次の
話者認識ブロックにおける前半のN−K個のLPCブロ
ックについては、既に前の話者認識ブロックにおいてベ
クトル量子化歪dが求められている。そこで、カウン
タnをn=N−Kにセットし、後半のK個のLPCブロ
ックについてのみベクトル量子化歪dを求め、前半の
N−K個のLPCブロックのベクトル量子化歪d につ
いては、前の話者認識ブロックにおいて得られたものを
用いることで、その話者認識ブロックにおける話者を識
別することができる。したがって、2番目以降の話者認
識ブロックでは、K個のLPCブロック毎に話者が識別
されることになる。
【0084】以上のようにして、符号化音声データの音
声波形を復元されると共に、話者識別ブロック毎の話者
が識別される。そして、その音声波形データと話者情報
とは、出力制御部31において、後述するように同期し
て出力される。
【0085】ここで、図5のステップS25における話
者候補Sの照合判定方法の詳細を図6に示す。先ずス
テップS30において、話者候補Sの平均量子化歪み
をD とする。次にステップS31において、話者候補
以外の各コードブックによる平均量子化歪みを小さ
い順に並び替え、そのうち、小さいものから順にn個
を、D,D,・・・D(D<D<D<・・
・<D)とする。nの値は、任意に選択可能である。
【0086】続いてステップS32において、評価の尺
度として、話者候補Sの量子化歪みDとそれ以外の
n個の量子化歪みについて、以下の式(1)又は式
(2)を用いて歪差分量ΔDを求める。
【0087】
【数1】
【0088】式(1)、式(2)において、例えばnが
1の場合は、話者候補Sに次いで量子化歪みが小さい
とDとの量子化歪みの差を求めることになる。
【0089】続いてステップS33において、図示しな
い記憶部から話者候補Sに対応する閾値データを読み
こむ。
【0090】この記憶部には、各登録話者ごとに、例え
ば図7のような形式で閾値データが記録されている。す
なわち、図7に示すように、各登録話者の話者識別名
と、閾値データである量子化歪の最大歪絶対値Dmax
及び最小歪差分ΔDminが予め記録されている。
【0091】図6に戻り、ステップS34では、読みこ
んだ閾値データDmax,ΔDmi を、求めたD
びΔDと比較して判別する。すなわち、ステップS34
において、量子化歪みの絶対値Dが閾値データD
maxよりも小さく、且つ、歪差分量ΔDが閾値データ
ΔDminより大きければ、ステップS35に進み、本
人であると判定し、候補を確定する。そうでなければ、
ステップS36に進み、未知話者と判定し、候補を棄却
する。このように、話者候補Sの平均量子化歪D
歪差分量ΔDとをそれぞれ閾値と比較することで、登録
話者の音声データの識別誤りが減少し、また、登録話者
以外の音声データを未知話者として判定することが可能
となる。
【0092】続いて、図3の出力制御部31における同
期出力処理について、図8を用いて説明する。
【0093】出力制御部31は、上述したように、音声
波形とその音声波形に対応する話者情報とを同期して出
力する。これを実現する手法として、例えば、音声波形
と話者情報とをそれぞれ音声出力用バッファ、話者情報
出力用バッファに蓄えておき、音声波形をバッファから
順に取り出して出力する際に、その音声波形に対応する
話者情報をバッファから取り出して同時に出力する手法
等がある。図7は、このようなバッファを用いた制御手
法を説明する図である。
【0094】音声出力用バッファには、復号された音声
波形がLPCブロック毎に格納されていく。例えば図8
に示すように、入力された順に、A,A,…,
,B ,B,…,Bのように格納される。
【0095】また、話者情報出力用バッファには、識別
された話者情報、例えば話者名やその他の付加情報等
が、話者認識ブロック毎に格納される。例えば図8に示
すように、入力された順に、A,B,…と格納される。
ここで、話者情報出力用バッファのブロックAは、音声
出力用バッファにおけるAからAのK個の音声波形
に対応する情報である。また、上述したように、K個の
LPCブロック毎に話者が識別されるため、K個の音声
波形が音声出力用バッファに入力される毎に話者情報が
話者情報出力用バッファに入力される。
【0096】したがって、音声出力用バッファからK個
の音声波形が読み出される毎に、1つの話者情報を話者
情報出力用バッファから読み出せば、出力される音声デ
ータに対応する話者情報を同期して出力することができ
る。例えば、図8において、音声波形Aを音声出力用
バッファから読み出して出力する際に、話者情報出力用
バッファから話者情報Aを読み出して出力し、次に、音
声波形Bを音声出力用バッファから読み出して出力す
る際に、話者情報出力用バッファから話者情報Bを読み
出して出力すればよい。この話者情報は、AからA
のK個の音声波形を再生している間、図示しない表示部
に表示しておくことができる。これにより、再生されて
いる音声の話者が誰であるのかをリアルタイムで知るこ
とができる。
【0097】なお、同期のタイミングは、上述した例に
限定されるものではなく、例えばA からAのK個の
音声波形を再生している間の何れかの時点で、その音声
波形に対応する話者情報Aが出力されればよい。また、
上述の例では、音声出力用バッファと話者情報出力用バ
ッファとを設けるものとして説明したが、出力される音
声波形に対応する話者情報を同期して出力するための方
法は、これに限定されるものではない。但し、話者情報
を出力するためには、話者認識ブロック中の全てのLP
Cブロックについて分析が終了している必要があるた
め、音声波形を出力している間に対応する話者情報を出
力するには、少なくとも音声波形の出力を遅延させるた
めのバッファが必要である。
【0098】以上のように、本実施の形態における音声
復号装置10によれば、符号化された音声データを復号
してその音声の話者を識別する際に、復号された音声波
形の特徴量を再度分析する必要がないため、話者の識別
に必要な演算量と処理時間とを大幅に削減することがで
き、且つ、再分析によって生じる識別性能の劣化がなく
なる。
【0099】したがって、音声波形を出力するととも
に、その音声波形に対応する話者の情報を出力すること
ができる。特に、符号化音声データをリアルタイムで復
号再生する場合に、再生中の音声波形の信号とともに、
その音声波形に対応する話者の情報を出力することがで
きる。
【0100】なお、本発明は上述した実施の形態のみに
限定されるものではなく、本発明の要旨を逸脱しない範
囲において種々の変更が可能であることは勿論である。
【0101】例えば、上述の説明では、LPC分析を用
いた音声符号化装置によって生成された符号化音声デー
タからLSP情報を復号し、LSP情報からLPCケプ
ストラムを求め、このLPCケプストラムを特徴量とし
て、話者を識別する手法を例に挙げたが、話者の識別手
法が上述の例に限定されるものではない。すなわち、L
PCケプストラム係数は、スペクトルの包絡情報を効果
的に表現するものであるが、スペクトルの包絡を表現す
る他の特徴量を用いてもよい。つまり、他のスペクトル
分析を用いた音声符号化装置によって生成された符号化
音声データからスペクトル情報を復号し、そのスペクト
ル情報を用いて話者を識別してもよい。
【0102】また、スペクトルの包絡情報を用いて識別
することも可能である。例えば、対数パワースペクトル
の逆スペクトル変換であるケプストラム分析によって得
られるケプストラム係数は、その低次の係数がスペクト
ルの包絡情報を表すものであるため、このケプストラム
係数をLPCケプストラムの代わりに、特徴量ベクトル
として用いてもよい。また、周波数軸上のN個の点でス
ペクトルの包絡S1,S2,…,Snが与えられていた
とすれば、識別のための特徴量ベクトルxをx=[S
1,S2,…,Sn]として、この特徴量ベクトルをベ
クトル量子化し、そのベクトル量子化歪みを評価するこ
とで話者を識別することが可能である。
【0103】さらに、スペクトル情報そのものが与えら
れれば、LPC分析やケプストラム分析等を用いてスペ
クトル包絡を抽出することは容易であるため、この場合
も同様に話者の識別を行うことが可能である。
【0104】また、スペクトル包絡情報以外を用いた話
者認識の手法として、音声のスペクトルを直接分析し、
そのスペクトル係数、基本周波数、ピッチ、平均パワ
ー、高域成分、長時間平均スペクトル等の情報を用いて
識別する手法もある。例えば、ピッチや平均パワー、或
いは幾つかのスペクトル係数等を特徴量ベクトルとして
用い、上述の例と同様にベクトル量子化を用いる手法等
により話者を識別することも可能である。
【0105】このように、本発明は、LPC情報を有す
る符号化音声データのみならず、スペクトル包絡情報や
スペクトル情報そのものを有する符号化音声データを復
号する音声復号装置についても適用可能である。
【0106】
【発明の効果】以上詳細に説明したように本発明に係る
音声復号装置は、スペクトル分析を用いた音声符号化方
式によって符号化された符号化音声データを時間軸上の
音声波形に復号する音声復号装置において、上記符号化
音声データからスペクトル情報を復元するスペクトル情
報復元手段と、復元された上記スペクトル情報に基づい
て上記符号化音声データの話者を識別する話者識別手段
と、上記符号化音声データから時間軸上の音声波形を復
元する音声波形復号手段と、上記音声波形復号手段によ
って復元された音声波形の信号とともに、その音声波形
に対応する、上記話者識別手段によって識別された話者
の情報を出力するように制御する出力制御手段とを備え
ることを特徴としている。
【0107】ここで、上記話者識別手段は、上記スペク
トル情報の類似性によって所定の区間毎に話者を識別
し、上記出力制御手段は、少なくとも上記音声波形の信
号の出力を遅延させる機能を有し、上記音声波形の信号
の出力中に上記話者の情報を出力する。上記出力制御手
段は、例えば上記所定の区間の開始点毎に、上記音声波
形の信号と当該音声波形の信号に対応付けられた上記話
者の情報とを同期して出力するように制御する。
【0108】また、上記スペクトル分析がスペクトル包
絡の分析であり、上記スペクトル情報がスペクトル包絡
情報であってもよい。
【0109】また、上記スペクトル包絡の分析がLPC
(線形予測)分析であり、上記スペクトル包絡情報がL
PC情報又はLPC情報に変換可能なLPC関連情報で
あってもよい。
【0110】このような音声復号装置は、復号された音
声波形の信号の特徴量を再度分析することなく、音声波
形の信号を出力するとともに、その音声波形に対応する
話者の情報を出力する。
【0111】また、本発明に係る音声復号方法は、スペ
クトル分析を用いた音声符号化方式によって符号化され
た符号化音声データを時間軸上の音声波形に復号する音
声復号方法において、上記符号化音声データからスペク
トル情報を復元するスペクトル情報復元工程と、復元さ
れた上記スペクトル情報に基づいて上記符号化音声デー
タの話者を識別する話者識別工程と、上記符号化音声デ
ータから時間軸上の音声波形を復元する音声波形復号工
程と、上記音声波形復号工程にて復元された音声波形の
信号とともに、その音声波形に対応する、上記話者識別
工程にて識別された話者の情報を出力するように制御す
る出力制御工程とを有することを特徴としている。
【0112】ここで、上記話者識別工程では、上記スペ
クトル情報の類似性によって所定の区間毎に話者が識別
され、上記出力制御工程では、少なくとも上記音声波形
の信号の出力が遅延され、上記音声波形の信号の出力中
に上記話者の情報が出力される。上記出力制御工程で
は、例えば上記所定の区間の開始点毎に、上記音声波形
の信号と当該音声波形の信号に対応付けられた上記話者
の情報とが同期されて出力されるように制御される。
【0113】また、上記スペクトル分析がスペクトル包
絡の分析であり、上記スペクトル情報がスペクトル包絡
情報であってもよい。
【0114】また、上記スペクトル包絡の分析がLPC
(線形予測)分析であり、上記スペクトル包絡情報がL
PC情報又はLPC情報に変換可能なLPC関連情報で
あってもよい。
【0115】このような音声復号方法では、復号された
音声波形の信号の特徴量を再度分析することなく、音声
波形の信号が出力されるとともに、その音声波形に対応
する話者の情報が出力される。
【図面の簡単な説明】
【図1】従来における符号化音声データの話者を検出及
び検索する装置の概念構成を説明する図である。
【図2】本実施の形態における音声復号装置の概念構成
を説明する図である。
【図3】同音声復号装置の構成を説明する図である。
【図4】同音声復号装置における話者認識ブロック及び
LPCブロックの関係を説明する図である。
【図5】同音声復号装置の一連の処理を説明するフロー
チャートである。
【図6】同音声復号装置における話者の照合判定処理を
説明するフローチャートである。
【図7】同音声復号装置における話者の照合判定処理用
の閾値データの記録形式を説明する図である。
【図8】同音声復号装置における音声波形とその音声波
形に対応する話者情報とを同期して出力する処理を説明
する図である。
【図9】従来の音声符号化装置の構成の一例を説明する
図である。
【図10】同音声符号化装置によって符号化された音声
データの形式を説明する図である。
【図11】従来の音声復号装置の構成の一例を説明する
図である。
【図12】符号化音声データを復号するとともに、その
話者を識別する従来の装置の概念構成を説明する図であ
る。
【符号の説明】
1 LPC復号手段、2 話者識別手段、3 音声波形
復号手段、4 出力制御手段、10 音声復号装置、2
0 入力部、21 ビット分解部、22 LSP逆量子
化部、23 ピッチ逆量子化部、24 スペクトル逆量
子化部、25スペクトル逆変換部、26 ピッチ合成
部、27 LPC合成部、28 ケプストラム変換部、
29 ベクトル量子化部、30 話者識別部、31 出
力制御部、32 音声出力部、33 話者情報出力部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 9/14 A

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 スペクトル分析を用いた音声符号化方式
    によって符号化された符号化音声データを時間軸上の音
    声波形に復号する音声復号装置において、 上記符号化音声データからスペクトル情報を復元するス
    ペクトル情報復元手段と、 復元された上記スペクトル情報に基づいて上記符号化音
    声データの話者を識別する話者識別手段と、 上記符号化音声データから時間軸上の音声波形を復元す
    る音声波形復号手段と、 上記音声波形復号手段によって復元された音声波形の信
    号とともに、その音声波形に対応する、上記話者識別手
    段によって識別された話者の情報を出力するように制御
    する出力制御手段とを備えることを特徴とする音声復号
    装置。
  2. 【請求項2】 上記話者識別手段は、時間軸上の音声波
    形に復元する前のスペクトル情報に基づいて話者を識別
    することを特徴とする請求項1記載の音声復号装置。
  3. 【請求項3】 上記話者識別手段は、上記スペクトル情
    報の類似性によって所定の区間毎に話者を識別し、 上記出力制御手段は、少なくとも上記音声波形の信号の
    出力を遅延させる機能を有し、上記音声波形の信号の出
    力中に上記話者の情報を出力することを特徴とする請求
    項1記載の音声復号装置。
  4. 【請求項4】 上記出力制御手段は、上記所定の区間の
    開始点毎に、上記音声波形の信号と当該音声波形の信号
    に対応付けられた上記話者の情報とを同期して出力する
    ように制御することを特徴とする請求項3記載の音声復
    号装置。
  5. 【請求項5】 上記スペクトル分析は、スペクトル包絡
    の分析であり、上記スペクトル情報は、スペクトル包絡
    情報であることを特徴とする請求項1記載の音声復号装
    置。
  6. 【請求項6】 上記スペクトル包絡の分析は、LPC
    (線形予測)分析であり、上記スペクトル包絡情報は、
    LPC情報又はLPC情報に変換可能なLPC関連情報
    であることを特徴とする請求項4記載の音声復号装置。
  7. 【請求項7】 上記LPC関連情報は、LSP(線スペ
    クトル対)情報であることを特徴とする請求項6記載の
    音声復号装置。
  8. 【請求項8】 スペクトル分析を用いた音声符号化方式
    によって符号化された符号化音声データを時間軸上の音
    声波形に復号する音声復号方法において、 上記符号化音声データからスペクトル情報を復元するス
    ペクトル情報復元工程と、 復元された上記スペクトル情報に基づいて上記符号化音
    声データの話者を識別する話者識別工程と、 上記符号化音声データから時間軸上の音声波形を復元す
    る音声波形復号工程と、 上記音声波形復号工程にて復元された音声波形の信号と
    ともに、その音声波形に対応する、上記話者識別工程に
    て識別された話者の情報を出力するように制御する出力
    制御工程とを有することを特徴とする音声復号方法。
  9. 【請求項9】 上記話者識別工程では、時間軸上の音声
    波形に復元する前のスペクトル情報に基づいて話者が識
    別されることを特徴とする請求項8記載の音声復号方
    法。
  10. 【請求項10】 上記話者識別工程では、上記スペクト
    ル情報の類似性によって所定の区間毎に話者が識別さ
    れ、 上記出力制御工程では、少なくとも上記音声波形の信号
    の出力が遅延され、上記音声波形の信号の出力中に上記
    話者の情報が出力されることを特徴とする請求項8記載
    の音声復号方法。
  11. 【請求項11】 上記出力制御工程では、上記所定の区
    間の開始点毎に、上記音声波形の信号と当該音声波形の
    信号に対応付けられた上記話者の情報とが同期されて出
    力されるように制御されることを特徴とする請求項10
    記載の音声復号方法。
  12. 【請求項12】 上記スペクトル分析は、スペクトル包
    絡の分析であり、上記スペクトル情報は、スペクトル包
    絡情報であることを特徴とする請求項8記載の音声復号
    方法。
  13. 【請求項13】 上記スペクトル包絡の分析は、LPC
    (線形予測)分析であり、上記スペクトル包絡情報は、
    LPC情報又はLPC情報に変換可能なLPC関連情報
    であることを特徴とする請求項12記載の音声復号方
    法。
  14. 【請求項14】 上記LPC関連情報は、LSP(線ス
    ペクトル対)情報であることを特徴とする請求項13記
    載の音声復号方法。
JP2001338277A 2001-11-02 2001-11-02 音声復号装置及び方法 Withdrawn JP2003140693A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001338277A JP2003140693A (ja) 2001-11-02 2001-11-02 音声復号装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001338277A JP2003140693A (ja) 2001-11-02 2001-11-02 音声復号装置及び方法

Publications (1)

Publication Number Publication Date
JP2003140693A true JP2003140693A (ja) 2003-05-16

Family

ID=19152797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001338277A Withdrawn JP2003140693A (ja) 2001-11-02 2001-11-02 音声復号装置及び方法

Country Status (1)

Country Link
JP (1) JP2003140693A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011503653A (ja) * 2007-11-04 2011-01-27 クゥアルコム・インコーポレイテッド スケーラブルなスピーチおよびオーディオコーデックにおける、量子化mdctスペクトルに対するコードブックインデックスのエンコーディング/デコーディングのための技術
CN107077857A (zh) * 2014-05-07 2017-08-18 三星电子株式会社 对线性预测系数量化的方法和装置及解量化的方法和装置
US11450329B2 (en) 2014-03-28 2022-09-20 Samsung Electronics Co., Ltd. Method and device for quantization of linear prediction coefficient and method and device for inverse quantization

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011503653A (ja) * 2007-11-04 2011-01-27 クゥアルコム・インコーポレイテッド スケーラブルなスピーチおよびオーディオコーデックにおける、量子化mdctスペクトルに対するコードブックインデックスのエンコーディング/デコーディングのための技術
US8515767B2 (en) 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
US11450329B2 (en) 2014-03-28 2022-09-20 Samsung Electronics Co., Ltd. Method and device for quantization of linear prediction coefficient and method and device for inverse quantization
CN107077857A (zh) * 2014-05-07 2017-08-18 三星电子株式会社 对线性预测系数量化的方法和装置及解量化的方法和装置
CN107077857B (zh) * 2014-05-07 2021-03-09 三星电子株式会社 对线性预测系数量化的方法和装置及解量化的方法和装置
US11238878B2 (en) 2014-05-07 2022-02-01 Samsung Electronics Co., Ltd. Method and device for quantizing linear predictive coefficient, and method and device for dequantizing same
US11922960B2 (en) 2014-05-07 2024-03-05 Samsung Electronics Co., Ltd. Method and device for quantizing linear predictive coefficient, and method and device for dequantizing same

Similar Documents

Publication Publication Date Title
KR102053553B1 (ko) 음성 프로파일 관리 및 스피치 신호 생성
US8706488B2 (en) Methods and apparatus for formant-based voice synthesis
US7792672B2 (en) Method and system for the quick conversion of a voice signal
JP6291053B2 (ja) 音声処理のための無声/有声判定
US20060277040A1 (en) Apparatus and method for coding and decoding residual signal
JP2011527445A (ja) 信号の異なるセグメントを分類するための方法および識別器
JP2010540990A (ja) 埋め込み話声およびオーディオコーデックにおける変換情報の効率的量子化のための方法および装置
US7643988B2 (en) Method for analyzing fundamental frequency information and voice conversion method and system implementing said analysis method
US7315819B2 (en) Apparatus for performing speaker identification and speaker searching in speech or sound image data, and method thereof
JPH11177434A (ja) 音声符号化復号方式
WO2002021091A1 (fr) Analyseur de signal de bruit, synthetiseur de signal de bruit, procede d'analyse de signal de bruit et procede de synthese de signal de bruit
EP2087485B1 (en) Multicodebook source -dependent coding and decoding
JPH09330097A (ja) 音声再生装置
JPH10240299A (ja) 音声符号化及び復号装置
WO2007037359A1 (ja) 音声符号化装置および音声符号化方法
JP2003140693A (ja) 音声復号装置及び方法
JPH1097274A (ja) 話者認識方法及び装置
JPH10111700A (ja) 音声圧縮符号化方法および音声圧縮符号化装置
Sugiura et al. Representation of spectral envelope with warped frequency resolution for audio coder
JPH0519796A (ja) 音声の励振信号符号化・復号化方法
Ng et al. The influence of audio compression on speech recognition systems
JP2853170B2 (ja) 音声符号化復号化方式
Bakır Compressing English Speech Data with Hybrid Methods without Data Loss
JP2002169595A (ja) 固定音源符号帳及び音声符号化/復号化装置
JPH09258796A (ja) 音声合成方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050104