JP2002182699A - 音声符号化装置 - Google Patents

音声符号化装置

Info

Publication number
JP2002182699A
JP2002182699A JP2000382546A JP2000382546A JP2002182699A JP 2002182699 A JP2002182699 A JP 2002182699A JP 2000382546 A JP2000382546 A JP 2000382546A JP 2000382546 A JP2000382546 A JP 2000382546A JP 2002182699 A JP2002182699 A JP 2002182699A
Authority
JP
Japan
Prior art keywords
analysis
frame signal
analysis result
encoding
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000382546A
Other languages
English (en)
Inventor
Tomonori Ishii
友規 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2000382546A priority Critical patent/JP2002182699A/ja
Publication of JP2002182699A publication Critical patent/JP2002182699A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 符号化に許容される処理時間内で最も効果の
高い聴覚心理分析を行って音声を符号化する音声符号化
装置を提供する。 【解決手段】 入力切換部11は、複数チャンネルの音
声データを入力とし優先順位管理部から指定されたチャ
ンネルの音声データを出力する。聴覚心理分析部12
は、入力切換部から出力されたチャンネルの音声データ
に対する聴覚心理分析を行う。分析結果記憶部13は、
各チャンネルに対する分析結果を記憶する。優先順位管
理部14は、優先度テーブルの内容に従って分析するチ
ャンネルの優先度を決定し、優先度テーブルへの優先度
情報の記録を行い、処理結果に応じて分析結果記憶部の
操作を行う。音声符号化部16は、分析結果記憶部から
読み出した対象チャンネルの分析結果に従ってビット割
当を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声信号を聴覚心
理モデルを用いて符号化する音声符号化技術に関する。
【0002】
【従来の技術】MPEG規格(ISO11172-2、ISO13818-7
等)による音声圧縮アルゴリズムでは、聴覚心理分析手
法が用いられている。聴覚心理分析は、音響工学に基づ
いた心理聴覚モデルが基礎になっており、主にスペクト
ル分解、音圧レベル・ノイズレベル解析、マスキング閾
値算出、ビット割当の決定によって構成される。
【0003】しかしながら、聴覚心理分析手法を用いた
音声圧縮アルゴリズムを、DSPやRISCプロセッサ
を用いて実装する場合、聴覚心理分析に要する処理時間
が大きく、多チャンネルの圧縮を少ないハードウェア・
リソースで行うことが困難である。例えば、スペクトル
分解は本質的に演算規模が大きく、音圧レベル・ノイズ
レベル解析とマスキング閾値算出は比較と条件分岐の繰
り返しが膨大な為、聴覚心理分析が収束するまでには長
い処理時間を要する。処理量を削減して処理時間を短縮
する為にスペクトル分解に於いてはFFT等の数学的手
法を用いた高速アルゴリズムが用いられ高い効果を上げ
ているが、マスキング閾値算出については効果的な高速
化手法が確立されていない。またマスキング閾値の収束
に要する時間は、解析する音声素材に依存し、実時間で
の解析が困難である。
【0004】このような問題点を解決するために、音声
入力信号のデータサンプル数を数え、音声入力信号をサ
ンプル数に応じて高速にオン、オフして入力を制限し、
Nフレームおきに聴覚心理分析を行う音声符号化装置
が、特開平10−126271号公報により開示されて
いる。
【0005】
【発明が解決しようとする課題】しかしながら、この音
声符号化装置によると、Nフレームおきに聴覚心理分析
を行うので、演算量は削減されるものの、Nフレームお
きに算出された分析結果を用いて音声を符号化するの
で、Nフレーム内において、音声の変化が大きい場合な
どに、適切な分析結果を用いた符号化が困難となるとい
う問題点がある。
【0006】上記の問題点を解決するために、本発明
は、符号化に許容される処理時間内で効果的に音声を符
号化する音声符号化装置、音声符号化方法及び音声符号
化プログラムを記録している記録媒体を提供することを
目的とする。
【0007】
【課題を解決するための手段】上記の目的を達成するた
めに、本発明は、複数チャンネルの音声データを入力と
し優先順位管理部から指定されたチャンネルの音声デー
タを出力とする入力切換部と、入力切換部から出力され
たチャンネルの音声データに対する聴覚心理分析を行う
聴覚心理分析部と、各チャンネルに対する分析結果を記
憶する分析結果記憶部と、優先度テーブルの内容に従っ
て分析するチャンネルの優先度を決定し、優先度テーブ
ルへの優先度情報の記録を行い、処理結果に応じて分析
結果記憶部の操作を行う優先順位管理部と、優先度情報
を記憶保持する優先度テーブルと、分析結果記憶部から
読み出した対象チャンネルの分析結果に従ってビット割
当を行う音声符号化部と現在時刻を出力するタイマ部と
を備えることを特徴とする。
【0008】
【発明の実施の形態】本発明に係る1の実施の形態とし
ての音声符号化装置10について説明する。 1.音声符号化装置10の構成 音声符号化装置10は、図1に示すように、入力部1
8、入力切換部11、聴覚心理分析部12、分析結果記
憶部13、優先順位管理部14、優先順位記憶部15、
音声符号化部16及びタイマ部17から構成されてい
る。
【0009】音声符号化装置10は、入力された音声信
号に対してMPEG1符号化を施して音声信号を符号化
する。MPEG1符号化では、一定の符号化単位毎に符
号化を施す。 (1)入力部18 入力部18は、n個のチャネルを介して外部の音声入力
装置と接続されており、また、n個のチャネルを介して
入力切換部11と接続されている。
【0010】入力部18は、前記音声入力装置からn個
のチャネルを介してn種類の音声電気信号を受け取る。
一例として、第1チャネル(Ch1と称する。以下、第
mチャネルをChmと称する。)及びCh2はステレオ
音声のLチャンネル及びRチャンネルであり、Ch3
は、モノラルチャンネルである。
【0011】入力部18は、各チャネルを介して入力さ
れた音声電気信号を48kHzのサンプルレートによ
り、16ビットでサンプリングしてデジタルの音声デー
タを生成し、生成したデジタルの音声データをアクセス
ユニット毎に対応するチャネルを介して入力切換部11
へ出力する。ここで、1アクセスユニットは、1152
個のサンプルから構成される。
【0012】このとき、1アクセスユニットの符号化を
24ミリ秒以内に行えば、リアルタイム符号化となる。 (2)入力切換部11 入力切換部11は、n個のチャネルを介して入力部18
と接続されており、優先順位管理部14からチャネルの
指示を受け取り、指示されたチャネルを介して入力部1
8から1アクセスユニットのデジタルの音声データを選
択し、選択した1アクセスユニットの音声データを聴覚
心理分析部12と音声符号化部16へ出力する。 (3)優先順位記憶部15 優先順位記憶部15は、具体的には、半導体メモリなど
から構成され、図2に一例として示すように、優先順位
テーブルを有している。
【0013】優先順位テーブルは、チャネル番号と分析
履歴情報と相関度情報と選択順位とから構成される組
を、n個記憶している。チャネル番号は、入力部18と
外部の音声入力装置とを接続する各チャネルを識別する
ための番号である。分析履歴情報は、聴覚心理分析部1
2における聴覚心理分析の現プロセスより1個過去のプ
ロセスにおいて、当該分析履歴情報と同じ組に含まれる
チャネル番号により示されるチャネルを介して聴覚心理
分析部12へ入力された1アクセスユニットについて、
聴覚心理分析部12により聴覚心理分析が行われたか否
かを示す。具体的には、図2において、「前回分析非実
行」は、1個過去のプロセスにおいて聴覚心理分析が行
われなかったことを示し、「前回分析実行」は、1個過
去のプロセスにおいて聴覚心理分析が行われたことを示
している。
【0014】相関度情報は、当該分析履歴情報と同じ組
に含まれるチャネル番号により示されるチャネルと他の
チャネルとの間の相関を示している。具体的には、図2
において、「ch1」のチャネル番号と同じ組に含まれ
る相関度情報は、「STEREO pair of c
h2」である。ここで、相関度情報「STEREOpa
ir of ch2」は、「ch1」及び「ch2」に
より示される2個のチャネルがステレオの組であり、
「ch1」及び「ch2」の間に相関があることを示し
ている。また、「ch3」のチャネル番号と同じ組に含
まれる相関度情報は、「Mono chanel」であ
り、他のチャネルとの相関がないことを示している。
【0015】選択順位は、優先順位管理部14により設
定され、各チャネルを選択する順位を示す。数字の小さ
い選択順位と同じ組に含まれるチャネル番号により示さ
れるチャネルから順に入力切換部11により選択され
る。 (4)優先順位管理部14 (選択順位の設定)優先順位管理部14は、優先順位記
憶部15が有する優先度テーブルに記憶されている組の
中から分析履歴情報「前回分析非実行」を含む組を選択
する。ここで、分析履歴情報「前回分析非実行」を含む
組が無ければ、全ての組を選択する。
【0016】次に、優先順位管理部14は、選択された
組の中から、他の組と相関を有する組を選択する。具体
的には、選択された組の中から、相関度情報「STER
EOpair of ch2」又は相関度情報「STE
REO pair ofch1」を含む組を選択する。
図2に示す優先度テーブルにおいては、チャネル番号
「ch1」及び「ch2」を含む組が選択される。
【0017】次に、優先順位管理部14は、選択された
ペアの組の一方の組に1の値から順に選択順位を設定し
て優先度テーブルに書き込む。具体的には、チャネル番
号「ch1」を含む組については、選択順位を「1」と
する。次に、優先順位管理部14は、選択された組であ
って、相関度を有しない組について、最後に設定した選
択順位の次の番号から、選択順位を順に設定して優先度
テーブルに書き込む。具体的には、チャネル番号「ch
3」を含む組については、選択順位を「2」とする。
【0018】次に、優先順位管理部14は、選択されな
かった組について、又は選択順位の設定されなかった組
について、上記と同様にして、最後に設定した選択順位
の次の番号から、選択順位を順に設定して優先度テーブ
ルに書き込む。具体的には、チャネル番号「ch2」を
含む組については、選択順位を「3」とする。 (入力切換の設定)優先順位管理部14は、聴覚心理分
析開始時刻をタイマ部17より読み出した値を基にして
算出する。
【0019】優先順位管理部14は、優先度テーブルに
記憶されている選択順位が若い方から順に、当該選択順
位と同じ組に含まれるチャネル番号を選択する。このと
き、優先順位管理部14は、タイマ部17から現在時刻
を読み出し、次の式によりて符号化に許容される残り時
間を算出する。 (式1)(残り時間)=(現在時刻)−(聴覚心理分析開始時刻) 次に、予め記憶しており当該符号化単位に割り当てるこ
とができる聴覚心理分析時間と算出された残り時間とを
比較して、残り時間が分析時間より大きいか等しいなら
ば、当該チャネルのアクセスユニットに対する聴覚心理
分析時間が確保できると判断し、残り時間が分析時間よ
り小さいならば、確保できないと判断する。確保できる
と判断する場合に、優先順位管理部14は、選択したチ
ャネル番号により示されるチャネルに切り換えるように
入力切換部11へ指示を出力し、分析結果記憶部13に
対して、選択された前記チャネルに対応する領域を選択
するように指示を出力する。
【0020】確保できないと判断する場合に、優先順位
管理部14は、選択された前記チャネル番号と相関の高
いチャネル番号を優先度テーブルから抽出し、相関の高
いチャネル番号が存在するときは、相関の高い前記チャ
ネル番号に対応する領域から分析結果を読み出し、ー選
択された前記チャネル番号に対応する領域に読み出した
前記分析結果を上書きする。相関の高いチャネル番号が
存在しないときは、何もしない。従って、このとき、選
択された前記チャネル番号に対応する領域には、前回書
き込まれた分析結果がそのまま記憶されていることとな
る。
【0021】このようにして聴覚心理分析処理が制限時
間内に完了する。 (優先度テーブルの更新)優先順位管理部14は、聴覚
心理分析部12の処理結果に基づいて、優先度テーブル
に記憶されている分析履歴情報を更新する。具体的に
は、各チャネル番号毎に、当該チャネルを介して得られ
たアクセスユニットに対して、聴覚心理分析部12によ
る聴覚心理分析が行われた場合には、当該チャネル番号
と同じ組に含まれる分析履歴情報を「前回分析実行」と
し、聴覚心理分析部12による聴覚心理分析が行われな
かった場合には、当該チャネル番号と同じ組に含まれる
分析履歴情報を「前回分析非実行」とする。 (符号化単位のスキップ判定)優先順位管理部14は、
符号化開始通知及び符号化完了通知を音声符号化部16
から受け取り、受け取った符号化開始通知及び符号化完
了通知に呼応してタイマ部17より読み出した値を基に
して符号化単位の符号化開始時刻及び符号化完了時刻を
算出する。
【0022】次に、優先順位管理部14は、符号化完了
時刻と符号化開始時刻とを用いて、次の式により符号化
単位の符号化に要した処理時間を算出する。 (式2) (符号化処理時間)=(符号化完了時刻)−(符号化開始時刻) さらに、優先順位管理部14は、予め記憶している符号
化単位の符号化に許容される制限時間と、算出された処
理時間を比較して、処理時間が制限時間を上回っている
場合は、聴覚心理分析スキップ情報(以下、スキップフ
ラグと呼ぶ。)をONに設定する。
【0023】優先順位管理部14は、次の符号化単位の
聴覚心理分析処理の開始前に、スキップフラグがONか
OFFかを判定し、ONであれば、聴覚心理分析の全部
または一部をスキップし、スキップフラグをOFFに設
定する。 (5)分析結果記憶部13 分析結果記憶部13は、具体的には、半導体メモリなど
から構成され、n個のチャネルに対応するn個の領域を
備える。各領域には、聴覚心理分析部12により出力さ
れた分析結果が記憶される。
【0024】分析結果記憶部13は、優先順位管理部1
4から、選択された前記チャネルに対応する領域を選択
するように指示を受け取り、聴覚心理分析部12から分
析結果を受け取り、前記指示により示される領域に、受
け取った前記分析結果を上書きにより書き込む。 (6)聴覚心理分析部12 聴覚心理分析部12は、入力切換部11を介して入力部
18と接続されており、入力部18からアクセスユニッ
トを受け取り、受け取ったアクセスユニットに対して、
周波数解析を行い、周波数解析されたデータから人間の
耳に関知できないようなマスキング閾値(具体的には、
信号対マスク比SMR)を算出する聴覚心理分析を施
し、得られた分析結果を分析結果記憶部13へ出力す
る。なお、聴覚心理分析については、公知であるので、
詳細の説明を省略する。 (7)音声符号化部16 音声符号化部16は、入力切換部11から1アクセスユ
ニットの音声データを受け取る。
【0025】また、音声符号化部16は、符号化開始通
知を優先順位管理部14へ出力し、次に、分析結果記憶
部13が有する各領域から分析結果をチャネル番号の順
に読み出す。次に、読み出した分析結果を用いて前記1
アクセスユニットの音声データに対して量子化ステップ
幅を決定するためのビット割当を行い、ビット割当に基
づいて受け取った1アクセスユニットの音声データに音
声符号化を施して、音声データストリームを生成し、生
成した音声データストリームを出力する。符号化単位の
音声符号化が完了すると、符号化完了通知を優先順位管
理部14へ出力する。 (8)タイマ部17 タイマ部17は、時刻を計測し、計測した時刻を優先順
位管理部14の要求に応じて、優先順位管理部14へ出
力する。 2.音声符号化装置10の動作 音声符号化装置10の動作について、図3に示すフロー
チャートを用いて説明する。
【0026】優先順位管理部14は、初期値としてスキ
ップフラグをOFFに設定する(ステップS101)。
次に、優先順位管理部14は、スキップフラグがONか
OFFかを判断し、OFFであるなら(ステップS10
2)、優先順位管理部14は、アクセスユニットの選択
順序を決定し(ステップS103)、全てのアクセスユ
ニットの取得が終了したなら、ステップS108へ進
む。
【0027】アクセスユニットの取得が終了していない
なら(ステップS104)、優先順位管理部14は、決
定された順位に従ってアクセスユニットを入力部18か
ら入力切換部11を介して聴覚心理分析部12へ出力す
るにように、入力切換部11を制御し、残り時間が分析
時間より大きいか又は等しいなら(ステップS10
6)、聴覚心理分析部12は、取得したアクセスユニッ
トに聴覚心理分析を施して、分析結果記憶部13内の対
応する領域にその分析結果を書き込む(ステップS10
7)。次に、ステップS104へ戻って処理を繰り返
す。
【0028】優先順位管理部14は、全てのアクセスユ
ニットの取得が終了したなら、分析していないアクセス
ユニットがあれば、相関するチャネルの分析結果を複製
する(ステップS108)。次に、音声符号化部16
は、ビット割当を行い音声符号化を施し、その結果を出
力する(ステップS109)。次に、優先順位管理部1
4は、優先度テーブルを更新し(ステップS110)、
処理時間が制限時間以内か否かを判断し、処理時間が制
限時間を超えるなら(ステップS111)、スキップフ
ラグをONに設定する(ステップS112)。次に、ス
テップS102へ戻って、処理を繰り返す。
【0029】ステップS102で、優先順位管理部14
は、スキップフラグがONであると判断するなら、スキ
ップフラグをOFFに設定し(ステップS113)、ス
テップS108へ進む。次に、ステップS103に示す
アクセスユニットの選択順位の決定動作の詳細につい
て、図4に示すフローチャートを用いて説明する。
【0030】優先順位管理部14は、優先順位記憶部1
5が有する優先度テーブルに記憶されている組の中から
分析履歴情報「前回分析非実行」を含む組を選択する
(ステップS201)、このとき、分析履歴情報「前回
分析非実行」を含む組が無ければ(ステップS20
2)、全ての組を選択する(ステップS203)。次
に、優先順位管理部14は、選択された組の中から、他
の組と相関を有する組を選択し、選択された各組に1の
値から順に選択順位を設定して優先度テーブルに書き込
む(ステップS204)。
【0031】次に、優先順位管理部14は、選択された
組であって、相関度を有しない組について、最後に設定
した選択順位の次の番号から、選択順位を順に設定して
優先度テーブルに書き込む(ステップS205)。次
に、優先順位管理部14は、選択されなかった組につい
て、最後に設定した選択順位の次の番号から、選択順位
を順に設定して優先度テーブルに書き込む(ステップS
206)。 3.まとめ 以上説明したように、優先順位管理部14は、優先度テ
ーブルから各チャンネルの優先度情報を読み出し、優先
度の高いチャンネルから順番に聴覚心理分析部12に印
加されるように入力切換部11からの出力を切り換える
とともに優先度情報を必要があれば更新する。また、優
先順位管理部14は、タイマ部17から必要に応じて現
在時刻を読み出すことにより分析処理にかかった時間を
管理し、次に分析すべき優先度のチャンネルの処理時間
が確保出来ない場合には、聴覚心理分析処理を終了す
る。各チャンネルの分析結果は、分析結果記憶部13に
記憶されており聴覚心理分析が為されたチャンネルに関
しては記憶内容が更新される。処理時間が確保出来ない
為に分析を中止されたチャンネルの分析結果は、更新さ
れずに過去の記憶内容が保持されている。音声符号化部
16は、分析結果記憶部13から各チャンネル毎の分析
結果を読み出すことによりビット割当を行い音声符号化
を完了する。各チャンネルの聴覚心理分析処理が制限時
間内に完了しなかった場合、優先順位管理部14は、聴
覚心理スキップ情報をセットし、次回の聴覚心理分析処
理を実行しないようにする。
【0032】このように、本発明によると、聴覚心理分
析を用いた音声符号化装置において音声信号に対する聴
覚心理分析処理に要する処理時間が大きくなる場合に、
相関のある他の音声信号の分析結果を用いることによ
り、制限時間内で聴覚心理分析処理を完了させることが
できる。こうして、聴覚心理分析を用いた音声符号化装
置に於いて入力信号によって聴覚心理分析処理に要する
処理時間が理論的に大きくなる性質を改善し、人が聞い
て意味のある音声信号にハードウェアスペックを合わせ
ることにより、より低価格かつ処理性能の低いハードウ
ェアで音声符号化を実現出来る。
【0033】なお、本発明を上記の実施の形態に基づい
て説明してきたが、本発明は、上記の実施の形態に限定
されないのはもちろんである。以下のような場合も本発
明に含まれる。 (1)上記の実施の形態において、分析対象とするチャ
ンネルの優先度については、分析履歴とチャンネル相関
度から決定するとしているが、利用者が指定する順序に
基づいて決定するとしてもよい。
【0034】また、過去数回の分析履歴を統計的に利用
してもよい。例えば、優先度テーブルは、チャネル毎に
何回前に分析が行われたかを記憶しており、2つのチャ
ネルのその差が、2以下なら、相関に基づいて選択順位
を決定し、3以上なら、分析履歴に基づいて選択順位を
決定するとしてもよい。 (2)本発明は、上記に示す方法であるとしてもよい。
また、これらの方法をコンピュータにより実現するコン
ピュータプログラムであるとしてもよいし、前記コンピ
ュータプログラムからなるデジタル信号であるとしても
よい。
【0035】また、本発明は、前記コンピュータプログ
ラム又は前記デジタル信号をコンピュータ読み取り可能
な記録媒体、例えば、フロッピー(登録商標)ディス
ク、ハードディスク、CD―ROM、MO、DVD、D
VD−ROM、DVD−RAM、半導体メモリなど、に
記録したものとしてもよい。また、これらの記録媒体に
記録されている前記コンピュータプログラム又は前記デ
ジタル信号であるとしてもよい。
【0036】また、本発明は、前記コンピュータプログ
ラム又は前記デジタル信号を、電気通信回線、無線又は
有線通信回線、インターネットを代表とするネットワー
ク等を経由して伝送するものとしてもよい。また、本発
明は、マイクロプロセッサとメモリとを備えたコンピュ
ータシステムであって、前記メモリは、上記コンピュー
タプログラムを記憶しており、前記マイクロプロセッサ
は、前記コンピュータプログラムに従って動作するとし
てもよい。
【0037】また、前記プログラム又は前記デジタル信
号を前記記録媒体に記録して移送することにより、又は
前記プログラム又は前記デジタル信号を前記ネットワー
ク等を経由して移送することにより、独立した他のコン
ピュータシステムにより実施するとしてもよい。 (3)上記実施の形態及び上記変形例をそれぞれ組み合
わせるとしてもよい。
【0038】
【発明の効果】以上説明したように、本発明は、複数の
チャネルを介してそれぞれ入力される複数の音声信号を
聴覚心理モデルを用いて符号化する音声符号化装置であ
って、前記複数のチャネルから各チャネルを選択する順
序を決定する順序決定手段と、決定された順序に基づい
て順次選択されたチャネルを介して、所定長の音声信号
であるフレーム信号を取得する取得手段と、取得したフ
レーム信号の聴覚心理分析に要すると予測される予測分
析時間が、符号化されていないフレーム信号を符号化す
るために許容される許容残時間より大きいかどうかを判
断する判断手段と、許容残時間より大きいと判断される
場合に、取得した前記フレーム信号に聴覚心理分析を施
して分析結果を算出し、許容残時間より小さい又は等し
いと判断される場合に、既に算出されている分析結果を
当該フレーム信号の分析結果とする分析手段と、許容残
時間より大きいと判断されるまで、又は全てのフレーム
信号の取得を完了するまで、前記取得手段、前記予測手
段及び前記分析手段に対して、前記フレーム信号の取
得、前記判断及び前記分析結果の算出を繰り返すように
制御する制御手段と、フレーム信号毎に決定された分析
結果を用いて、当該フレーム信号に対する量子化ステッ
プ幅を決定するためのビット割当を行い、定められたビ
ット割当に基づいて当該フレーム信号を符号化する符号
化手段とを備える。
【0039】この構成によると、取得したフレーム信号
の聴覚心理分析に要すると予測される予測分析時間が、
許容残時間を超えると判断される場合に、聴覚心理分析
を行わず、既に算出されている分析結果を用いるので、
許容時間内に音声符号化を行うことができる。ここで、
前記複数のチャネルのうちの2個以上のチャネルの間に
は、各チャネルを介して取得される音声信号に相関関係
があり、前記分析手段は、当該フレーム信号を取得した
チャネルと相関関係のある他のチャネルを介して取得し
た他のフレーム信号について算出された分析結果を当該
フレーム信号の分析結果とするように構成してもよい。
【0040】この構成によると、相関関係のあるチャネ
ルについては、聴覚心理分析を行わず、既に算出されて
いる分析結果を用いるので、許容時間内に音声符号化を
行うことができる。ここで、前記分析手段は、許容残時
間より大きいと判断される場合に、当該フレーム信号を
取得したチャネルを介して、過去に取得したフレーム信
号について、既に算出されている分析結果を当該フレー
ム信号の分析結果とするように構成してもよい。
【0041】この構成によると、許容残時間を超える場
合に、過去に算出されている分析結果を用いるので、許
容時間内に音声符号化を行うことができる。ここで、前
記音声符号化装置は、複数のフレーム信号の符号化のプ
ロセスを繰り返すことにより、複数の音声信号を符号化
し、各プロセスにおいて、前記分析手段は、さらに、取
得した各フレーム信号に対応付けて、聴覚心理分析を実
施したか否かを示す実施履歴情報を記憶し、前記順序決
定手段は、聴覚心理分析を実施していないことを示す実
施履歴情報が対応付けられたフレーム信号を取得したチ
ャネルを優先的に選択するように構成してもよい。
【0042】この構成によると、聴覚心理分析を実施し
ていないことを示す実施履歴情報が対応付けられたフレ
ーム信号を取得したチャネルを優先的に選択するので、
聴覚心理分析が実施されないチャネルが発生しないよう
にすることができる。ここで、前記順序決定手段は、相
関関係のあるチャネルを、相関関係のないチャネルよ
り、優先的に選択するように構成してもよい。
【0043】この構成によると、相関関係のあるチャネ
ルを、相関関係のないチャネルより、優先的に選択する
ので、相関関係のあるチャネルについては、聴覚心理分
析を行わず、既に算出されている分析結果を用いること
により、許容時間内に音声符号化を行うことができる。
ここで、前記音声符号化装置は、さらに、各プロセスに
おける複数のフレーム信号の符号化に要する所要時間
が、あらかじめ定められた許容時間より大きい場合に、
次のプロセスにおける複数のフレーム信号の符号化を抑
制する抑制手段を含むように構成してもよい。
【0044】この構成によると、各プロセスにおける複
数のフレーム信号の符号化に要する所要時間が、あらか
じめ定められた許容時間を超える場合に、次のプロセス
における複数のフレーム信号の符号化を抑制するので、
1のプロセスにおいて、符号化に要する時間が許容時間
を超えた場合であっても、次のプロセスの符号化を省略
等することにより、全体としての音声信号の符号化に要
する時間を許容時間内に抑えることができる。
【図面の簡単な説明】
【図1】本発明に係る1の実施の形態としての音声符号
化装置10の構成を示すブロック図である。
【図2】優先順位記憶部15が有する優先度テーブルの
データ構造を示すデータ構造図である。
【図3】音声符号化装置10の動作を示すフローチャー
トである。
【図4】優先順位管理部14の各チャネルの選択順位の
決定動作を示すフローチャートである。
【符号の説明】
10 音声符号化装置 11 入力切換部 12 聴覚心理分析部 13 分析結果記憶部 14 優先順位管理部 15 優先順位記憶部 16 音声符号化部 17 タイマ部 18 入力部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 複数のチャネルを介してそれぞれ入力さ
    れる複数の音声信号を聴覚心理モデルを用いて符号化す
    る音声符号化装置であって、 前記複数のチャネルから各チャネルを選択する順序を決
    定する順序決定手段と、 決定された順序に基づいて順次選択されたチャネルを介
    して、所定長の音声信号であるフレーム信号を取得する
    取得手段と、 取得したフレーム信号の聴覚心理分析に要すると予測さ
    れる予測分析時間が、符号化されていないフレーム信号
    を符号化するために許容される許容残時間より大きいか
    どうかを判断する判断手段と、 許容残時間より大きいと判断される場合に、取得した前
    記フレーム信号に聴覚心理分析を施して分析結果を算出
    し、許容残時間より小さい又は等しいと判断される場合
    に、既に算出されている分析結果を当該フレーム信号の
    分析結果とする分析手段と、 許容残時間より大きいと判断されるまで、又は全てのフ
    レーム信号の取得を完了するまで、前記取得手段、前記
    予測手段及び前記分析手段に対して、前記フレーム信号
    の取得、前記判断及び前記分析結果の算出を繰り返すよ
    うに制御する制御手段と、 フレーム信号毎に決定された分析結果を用いて、当該フ
    レーム信号に対する量子化ステップ幅を決定するための
    ビット割当を行い、定められたビット割当に基づいて当
    該フレーム信号を符号化する符号化手段とを備えること
    を特徴とする音声符号化装置。
  2. 【請求項2】 前記複数のチャネルのうちの2個以上の
    チャネルの間には、各チャネルを介して取得される音声
    信号に相関関係があり、 前記分析手段は、当該フレーム信号を取得したチャネル
    と相関関係のある他のチャネルを介して取得した他のフ
    レーム信号について算出された分析結果を当該フレーム
    信号の分析結果とすることを特徴とする請求項1に記載
    の音声符号化装置。
  3. 【請求項3】 前記分析手段は、許容残時間より大きい
    と判断される場合に、当該フレーム信号を取得したチャ
    ネルを介して、過去に取得したフレーム信号について、
    既に算出されている分析結果を当該フレーム信号の分析
    結果とすることを特徴とする請求項2に記載の音声符号
    化装置。
  4. 【請求項4】 前記音声符号化装置は、複数のフレーム
    信号の符号化のプロセスを繰り返すことにより、複数の
    音声信号を符号化し、 各プロセスにおいて、 前記分析手段は、さらに、取得した各フレーム信号に対
    応付けて、聴覚心理分析を実施したか否かを示す実施履
    歴情報を記憶し、 前記順序決定手段は、聴覚心理分析を実施していないこ
    とを示す実施履歴情報が対応付けられたフレーム信号を
    取得したチャネルを優先的に選択することを特徴とする
    請求項3に記載の音声符号化装置。
  5. 【請求項5】 前記順序決定手段は、 相関関係のあるチャネルを、相関関係のないチャネルよ
    り、優先的に選択することを特徴とする請求項4に記載
    の音声符号化装置。
  6. 【請求項6】 前記音声符号化装置は、さらに、 各プロセスにおける複数のフレーム信号の符号化に要す
    る所要時間が、あらかじめ定められた許容時間より大き
    い場合に、次のプロセスにおける複数のフレーム信号の
    符号化を抑制する抑制手段を含むことを特徴とする請求
    項5に記載の音声符号化装置。
  7. 【請求項7】 複数のチャネルを介してそれぞれ入力さ
    れる複数の音声信号を聴覚心理モデルを用いて符号化す
    る音声符号化装置で用いられる音声符号化方法であっ
    て、 前記複数のチャネルから各チャネルを選択する順序を決
    定する順序決定ステップと、 決定された順序に基づいて順次選択されたチャネルを介
    して、所定長の音声信号であるフレーム信号を取得する
    取得ステップと、 取得したフレーム信号の聴覚心理分析に要すると予測さ
    れる予測分析時間が、符号化されていないフレーム信号
    を符号化するために許容される許容残時間より大きいか
    どうかを判断する判断ステップと、 許容残時間より大きいと判断される場合に、取得した前
    記フレーム信号に聴覚心理分析を施して分析結果を算出
    し、許容残時間より小さい又は等しいと判断される場合
    に、既に算出されている分析結果を当該フレーム信号の
    分析結果とする分析ステップと、 許容残時間より大きいと判断されるまで、又は全てのフ
    レーム信号の取得を完了するまで、前記取得ステップ、
    前記予測ステップ及び前記分析ステップに対して、前記
    フレーム信号の取得、前記判断及び前記分析結果の算出
    を繰り返すように制御する制御ステップと、 フレーム信号毎に決定された分析結果を用いて、当該フ
    レーム信号に対する量子化ステップ幅を決定するための
    ビット割当を行い、定められたビット割当に基づいて当
    該フレーム信号を符号化する符号化ステップとを含むこ
    とを特徴とする音声符号化方法。
  8. 【請求項8】 複数のチャネルを介してそれぞれ入力さ
    れる複数の音声信号を聴覚心理モデルを用いて符号化す
    る音声符号化装置で用いられる音声符号化プログラムを
    記録しているコンピュータ読み取り可能な記録媒体であ
    って、 前記音声符号化プログラムは、 前記複数のチャネルから各チャネルを選択する順序を決
    定する順序決定ステップと、 決定された順序に基づいて順次選択されたチャネルを介
    して、所定長の音声信号であるフレーム信号を取得する
    取得ステップと、 取得したフレーム信号の聴覚心理分析に要すると予測さ
    れる予測分析時間が、符号化されていないフレーム信号
    を符号化するために許容される許容残時間より大きいか
    どうかを判断する判断ステップと、 許容残時間より大きいと判断される場合に、取得した前
    記フレーム信号に聴覚心理分析を施して分析結果を算出
    し、許容残時間より小さい又は等しいと判断される場合
    に、既に算出されている分析結果を当該フレーム信号の
    分析結果とする分析ステップと、 許容残時間より大きいと判断されるまで、又は全てのフ
    レーム信号の取得を完了するまで、前記取得ステップ、
    前記予測ステップ及び前記分析ステップに対して、前記
    フレーム信号の取得、前記判断及び前記分析結果の算出
    を繰り返すように制御する制御ステップと、 フレーム信号毎に決定された分析結果を用いて、当該フ
    レーム信号に対する量子化ステップ幅を決定するための
    ビット割当を行い、定められたビット割当に基づいて当
    該フレーム信号を符号化する符号化ステップとを含むこ
    とを特徴とする記録媒体。
JP2000382546A 2000-12-15 2000-12-15 音声符号化装置 Pending JP2002182699A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000382546A JP2002182699A (ja) 2000-12-15 2000-12-15 音声符号化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000382546A JP2002182699A (ja) 2000-12-15 2000-12-15 音声符号化装置

Publications (1)

Publication Number Publication Date
JP2002182699A true JP2002182699A (ja) 2002-06-26

Family

ID=18850346

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000382546A Pending JP2002182699A (ja) 2000-12-15 2000-12-15 音声符号化装置

Country Status (1)

Country Link
JP (1) JP2002182699A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004184975A (ja) * 2002-11-29 2004-07-02 Samsung Electronics Co Ltd 少ない計算量で高周波数成分を復元するオーディオデコーディング方法及び装置
JP2009151183A (ja) * 2007-12-21 2009-07-09 Ntt Docomo Inc マルチチャネル音声音響信号符号化装置および方法、並びにマルチチャネル音声音響信号復号装置および方法
JP2013045112A (ja) * 2011-08-23 2013-03-04 Thomson Licensing 実時間においてマルチチャネルオーディオ信号を周波数領域でウォータマーク処理する方法及び装置
CN110140170B (zh) * 2017-01-03 2024-01-26 诺基亚技术有限公司 适配用于终端用户自由视点监控的分布式音频录制

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004184975A (ja) * 2002-11-29 2004-07-02 Samsung Electronics Co Ltd 少ない計算量で高周波数成分を復元するオーディオデコーディング方法及び装置
US7444289B2 (en) 2002-11-29 2008-10-28 Samsung Electronics Co., Ltd. Audio decoding method and apparatus for reconstructing high frequency components with less computation
JP2009151183A (ja) * 2007-12-21 2009-07-09 Ntt Docomo Inc マルチチャネル音声音響信号符号化装置および方法、並びにマルチチャネル音声音響信号復号装置および方法
JP2013045112A (ja) * 2011-08-23 2013-03-04 Thomson Licensing 実時間においてマルチチャネルオーディオ信号を周波数領域でウォータマーク処理する方法及び装置
CN110140170B (zh) * 2017-01-03 2024-01-26 诺基亚技术有限公司 适配用于终端用户自由视点监控的分布式音频录制

Similar Documents

Publication Publication Date Title
KR101825507B1 (ko) 압축된 오디오 신호의 보수를 위한 시스템, 컴퓨터-판독 가능한 저장 매체 및 방법
KR100548891B1 (ko) 음성 부호화 장치 및 음성 부호화 방법
RU2369917C2 (ru) Способы улучшения характеристик многоканальной реконструкции на основе прогнозирования
JP4579273B2 (ja) ステレオ音響信号の処理方法と装置
JP4146489B2 (ja) 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
JP4810335B2 (ja) 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置
JP5674827B2 (ja) 多重チャネル音声信号中の発話に関連したチャネルのダッキングをスケーリングするための方法およびシステム
JP5455647B2 (ja) オーディオデコーダ
US20090204397A1 (en) Linear predictive coding of an audio signal
JP2007523372A (ja) エンコーダ、エンコーダを有するデバイス、エンコーダを有するシステム、周波数バンドのオーディオ信号を圧縮する方法、モジュール、およびコンピュータプログラム製品
CN113302692B (zh) 基于方向响度图的音频处理
KR20100086001A (ko) 오디오 신호 처리 방법 및 장치
JP2001053617A (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
CN112767955B (zh) 音频编码方法及装置、存储介质、电子设备
US7835915B2 (en) Scalable stereo audio coding/decoding method and apparatus
US7197454B2 (en) Audio coding
JP2002182699A (ja) 音声符号化装置
JP5604572B2 (ja) 複雑さ分散によるデジタル信号の転送誤り偽装
WO2000008631A1 (en) System and method for implementing a refined psycho-acoustic modeler
JP2020190606A (ja) 音声雑音除去装置及びプログラム
TWI826754B (zh) 固定頻寬音訊資料的有損或無損壓縮的動態切換方法
JP2000078018A (ja) 音声符号化方式、音声符号化装置、及びデ―タ記録媒体
CN113571072B (zh) 一种语音编码方法、装置、设备、存储介质及产品
JP2002006896A (ja) 音響信号符号化装置、方法およびプログラムを記録した記録媒体、並びに音楽配信システム