JP3784583B2

JP3784583B2 - 音声蓄積装置

Info

Publication number: JP3784583B2
Application number: JP22900599A
Authority: JP
Inventors: 篤史横山
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1999-08-13
Filing date: 1999-08-13
Publication date: 2006-06-14
Anticipated expiration: 2019-08-13
Also published as: US7164755B1; US20040013245A1; JP2001053869A

Description

【０００１】
【発明の属する技術分野】
本発明は、ディジタル符号化記録型の留守番電話装置や、その他のディジタル符号化音声記録装置に適用して好適な音声蓄積装置及び音声符号化装置に関するものである。
【０００２】
【従来の技術】
従来より、固定加入者電話端末機あるいは携帯電話端末機に搭載される留守番電話装置が利用されている。留守番電話装置は、端末機の利用者が電話に応答できない際に、内蔵する記録媒体（磁気テープや半導体メモリ）に電話発信者の用件を音声で記録するものであり、ボイスメールとも呼ばれる。
【０００３】
近年、ディジタル信号処理を低価格で実現することの可能な半導体ＬＳＩが利用可能となったことにより、話者の音声をＣＥＬＰ（符号励振線形予測符号化）などの高能率符号化アルゴリズムで圧縮し、記録媒体に格納する方式の留守番電話装置が提案されている。これにより、同一の記録容量の媒体を用いた場合に、通常のＰＣＭ（パルス符号変調）方式やＡＤＰＣＭ（適応差分ＰＣＭ）方式などに比べてより多くの音声を記録できるようになり、また、半導体メモリでは録音された複数の用件の中から、特定の用件を選んで再生することを高速に実現可能である。
【０００４】
また、留守番電話装置が携帯電話端末機にも搭載されるようになっている。しかし、同端末機に対する利用者の小型化の要求などから、端末機に搭載することのできる半導体メモリの容量には強い制限がある。このため、通常のＣＥＬＰ方式などを用いた方法では要求される音声記録時間を実現することができなかった。
【０００５】
このような理由から、留守番電話装置に音声区間検出器を組み合わせたものが実用化されている。この方法では、用件音声を符号化圧縮して媒体に記録する際に、話者の発声状態を監視している。これは、例えば音声ゲインをある閾値と比較することにより実現する。この比較結果を用いて、話者の発声と発声の合間の時間など比較的重要度の低い区間（非発声区間）においては音声の符号化および記録を中断し、非発声区間の継続時間の情報のみを媒体に記録する。結果として、符号化効率を見かけ上増加させることが可能となり、記憶媒体の利用効率が向上する。
【０００６】
図２に従来から提案されている半導体メモリを記録媒体に用いたディジタル符号化記録型の留守番電話装置（以下、単に留守番電話と呼ぶ）の概略構成図を示す。Ａ／Ｄ（アナログ／ディジタル）変換器３は通話相手からの音声をＰＣＭ信号に変換する。ディジタル信号処理装置４はＰＣＭ信号を符号化圧縮および復号伸長する。半導体メモリ６は符号化された音声を記録する。Ｄ／Ａ（ディジタル／アナログ）変換器５はＰＣＭ信号の音声をアナログ信号に変換する。スピーカ７はアナログ音声を出力する。
【０００７】
【発明が解決しようとする課題】
しかし、音声区間の識別には音声ゲインや音声のピッチ（周期成分）情報などを用いて実現する方法が提案されているが、音声の背景雑音に対する信号対雑音（Ｓ／Ｎ）比が劣化した際に、その音声検出能力が低下しやすい。具体的には、非発声区間に隣接する発声区間において語頭および語尾音声を非発声区間と誤認識し、音声が欠落しやすくなる。
【０００８】
本発明は、音声区間の検出を実時間で正確に行うことが困難であることに注目し、記録媒体の残容量に余裕がある場合は、用件音声を明瞭に記録することを可能とし、また、残容量が小さくなった場合においても音声の欠落、特に語頭音声の欠落を大幅に改善することを可能とするものである。
【０００９】
【課題を解決するための手段】
上記課題を解決するために、音声情報を蓄積する蓄積手段と、蓄積手段に接続され、音声をパケット化して蓄積手段に蓄積する音声記録手段と、蓄積手段に接続され、音声のフレームが発声区間であるか非発声区間であるかによってフレームの重要度を判定し、パケットのヘッダに重要度を搭載して蓄積手段に蓄積するフレーム重要度判定手段と、蓄積手段に接続され、再圧縮が必要な場合は、蓄積手段に蓄積されたフレーム重要度に従って第１の符号化方式で音声を符号化圧縮し、更に圧縮された音声の圧縮が必要な場合は第２の符号化方式を用いて重要度に従い符号化圧縮する音声圧縮手段とを有するようにした。
【００１２】
【発明の実施の形態】
（１）第１の実施形態
以下、本発明による蓄積型信号符号化装置に適用した第１の実施形態を図面を参照しながら詳述する。
【００１３】
（１−１）第１の実施形態の構成
図１は、ディジタル信号処理装置１及び音声記録空間２の概要を示す。
【００１４】
音声記録空間２として、従来符号化圧縮した音声を記録するために利用していた半導体メモリをＰＣＭ符号を記録するために併用する。図３は、第１の実施形態を実現するための半導体メモリ内部の音声記録空間２の構成を示すものである。音声記録空間２には、複数のパケット２０１が蓄積される。各パケットは可変長のヘッダ２１０と可変長のペイロード２２０から構成され、ディジタル信号処理装置１内又は別個に設けられるパケット生成手段（図示せず）で生成される。
【００１５】
音声は２０ミリ秒単位の大きさ（フレームと呼ぶ）に分割され符号化される。各々のフレームは各パケットに格納される。ここで、各パケット（後述する空パケットおよび非発声パケットなど、音声を格納していないものを除く）が対応する音声の時間は常に２０ミリ秒であるが、その物理的な符号の大きさ（バイト数）は可変である。各パケットはＰＣＭ符号で表された音声信号の符号であったり、またＣＥＬＰ方式で圧縮された符号であったりする。
【００１６】
留守番電話装置は呼を着信する毎に、端末の利用者が呼に応答しなければ要件を音声記録空間２に記録する。音声記録空間２には、その容量が許す限り複数の要件を記録できる。以下、個々の要件を音声要件という。
【００１７】
パケット２０１のヘッダ２１０は図４に示すように、複数の情報フィールドから構成される。この情報フィールドのうち１つは４ビットのＩＤフィールド２１１であり、パケットの型（タイプ）を示すものである。本実施形態では、図５に示すパケットの型を有する。
【００１８】
空パケット（ＩＤ＝０）は、音声記録空間２の未使用領域に対応する。後述するように音声信号の圧縮および再圧縮などにより生じるメモリの空き領域も、空パケットにより実現される。空パケットのヘッダには、パケットの大きさ（バイト長）を示す情報フィールドがあり、ペイロードの中身は、例えば、不定値データの集まりである。
【００１９】
ＰＣＭ符号パケット（ＩＤ＝１）は、ＰＣＭ符号化で表される音声信号を格納している。８ＫＨｚ標本化の１６ビット量子化ＰＣＭの場合、パケットのペイロードの大きさは３２０バイトとなる。
【００２０】
８ｋｂｐｓ（キロビット毎秒）ＣＥＬＰ符号パケット（ＩＤ＝２）は、符号化速度８キロビット毎秒のＣＥＬＰ方式で符号化された音声信号を格納している。パケットのペイロードの大きさは２０バイトとなる。
【００２１】
４ｋｂｐｓ（キロビット毎秒）ＣＥＬＰ符号パケット（ＩＤ＝３）は、符号化速度４キロビット毎秒のＣＥＬＰ方式で符号化された音声信号を格納している。パケットのペイロードの大きさは１０バイトとなる。
【００２２】
非発声パケット（ＩＤ＝４）は、非発声区間を表している。ペイロードには、非発声区間の時間（フレーム数）が格納されている。パケットのペイロードの大きさは1バイトである。２５７フレーム以上の非発声区間を表すには、複数の非発声パケットに分割する。
【００２３】
終端パケット（ＩＤ＝５）は、個々の音声要件の末尾を表すための指標である。ペイロードは0バイトである。
【００２４】
各パケット（音声を格納していないものを除く。以下、音声パケットと呼ぶ）のヘッダに、さらにフレームの重要度を示す４ビットの重要度フィールド２１２を設ける。フレーム重要度は０から１５で表される数値であり、数値が大きいほど当該パケットに含まれる音声情報がより重要であることを意味する。発声区間の音声は非発声区間の音声に比べて重要であり、また、一度も再生されておらず、端末機の利用者が内容を確認していない用件音声は、一度以上再生された用件音声に比べて重要である。なお、これら重要度の基準は、留守番電話装置が使用される用途など、様々な因子によって別途決定することができる。
【００２５】
なお、フレーム重要度０は例外的な意味を持ち、当該パケットの音声フレームの重要度が、未判定であることを示す。
【００２６】
ディジタル信号処理装置１は、実時間記録ブロック１１、非発声区間検出ブロック１２、及び音声圧縮ブロック１３から構成される。各ブロックは並列に動作し、動作上の優先順位は、実時間記録ブロック１１が最も高く、次に非発声区間検出ブロック１２、最後に音声圧縮ブロック１３の順となっている。なお、処理ブロックはハードウェア回路又はソフトウェアプログラムのどちらでも実現可能である。
【００２７】
実時間記録ブロック１１は、用件音声を音声記録空間２に保存する。本実施形態では、音声をＰＣＭ符号パケットとして音声記憶空間２に格納していく。このとき、フレーム重要度は０（未判定）としておく。
【００２８】
非発声区間検出ブロック１２は、ある音声フレームが発声区間であるか非発声区間であるかに応じてフレーム重要度を判定し、記録していく。本実施形態では、重要度は１以上かつ１５以下の値の選択肢の中から選ばれる。選択方法としては、例えば、入力パワーを所定の閾値と比較することにより選択する。そして、最も発声区間らしい音声フレームには１５の値が設定され、最も非発声区間らしい音声フレームには１の値が設定される。
【００２９】
次に、図６を用いて非発声区間検出ブロック１２を説明する。ピッチ検出器１２１は、音声パケット内のフレームの音声信号を用いて、音声に含まれるピッチ成分の周波数（周期）と、ピッチ予測ゲインを求める。パワ演算器１２２は、音声フレームのパワを求める。フレームＳ／Ｎ比演算器１２３は、音声フレームパワと背景雑音レベルの推定値を比較しフレーム毎のＳ／Ｎ比を求める。背景雑音レベル推定器１２４は、求めた音声パワを用いて背景雑音の最低ゲインレベルを追跡する。音声判定器１２５は、ピッチ周波数およびピッチ予測ゲイン、フレームＳ／Ｎ比を用いて当該フレームの音声らしらを判定する。フレーム重要度設定器１２６は、音声判定器１２５の出力を用いて、音声フレームのパケットのフレーム重要度情報を設定する。低速変化Ｓ／Ｎ比推定器１２７は、フレームＳ／Ｎ比演算器１２３の出力をローパスフィルタ処理することで、その低速変化成分を出力する。先読み分析フレーム数演算器１２８は、低速変化Ｓ／Ｎ比から後述する先読みフレーム数を求める。前方後方ハングオーバー回路１２９は、前述の先読み分析フレーム数分だけ遅れて動作し、その過去の音声フレームのフレーム重要度が一定の閾値以上である場合に、その時間前後のフレームのフレーム重要度を増加させる。
【００３０】
次に、図８を用いて音声圧縮ブロック１３を説明する。音声記録空間残量監視器１３０１は、音声記録空間２の残量を常時監視する。音声符号化器１３０２はＰＣＭ符号の音声信号をＣＥＬＰ方式で圧縮する。圧縮参照表１３０３は、所望の圧縮度合いとフレームの重要度に応じて符号化ＩＤを決定する。圧縮度合レジスタ１３０４は、現在の所望の圧縮度合いを保持する。音声記録空間２を収める半導体メモリと同様に、このレジスタは電池などで記憶が保持される不揮発半導体メモリなどで構成される。
【００３１】
図９はフレーム重要度設定のための構成の一例を示す。再生指示回路１２１０は、留守番電話装置に保持されている用件音声の再生を指示する。用件音声指標テーブル１２１１は、各用件音声毎に当該用件音声が一度以上再生されたか否かを記録する。音声要件が一度以上再生されていれば、当該音声要件の全体のフレーム重要度を引き上げることとする。
【００３２】
（１−２）第１の実施形態の動作
以下、第１の実施形態の蓄積型信号符号化装置の動作を説明する。
【００３３】
実時間記録ブロック１１は、音声をＰＣＭ符号パケットとして音声記憶空間２に格納していく。このとき、フレーム重要度は０（未判定）としておく。
【００３４】
非発声区間検出ブロック１２は、実時間記録ブロック１１が処理しているフレームよりも、ある可変時間だけ遅れて動作する。これは、発声区間と非発生区間を高精度で識別するためには、実時間処理が困難であるためであり、遅延時間については、音声の背景雑音に対するＳ／Ｎ比に応じて決定される。例えば、音声の背景雑音に対するＳ／Ｎ比が十分高い場合は、２０フレームだけ遅れて動作する。つまり、実時間記録ブロック１１がｎ番目のフレームをパケット化しているとき、非発声区間検出ブロック１２はｎ−２０番目のフレームを処理する。また、音声の背景雑音に対するＳ／Ｎ比が低い場合は、判定が難しくなることから、さらに多くのフレーム分遅れて動作する。例えば、Ｓ／Ｎ比が５ｄＢのときは５０フレーム遅れて動作する。一般に、Ｓ／Ｎ比が低いほど、発声区間と非発声区間の識別は困難である。特に、非発声区間直後の発声区間（すなわち語頭）では、多くの音声フレームを先読みして分析することにより、その語頭を正しく発声区間と識別できる。このため、非発声区間検出ブロック１２は、Ｓ／Ｎ比が低いほど大きく遅れて非発声区間を検出するようにしている。
【００３５】
次に、図６の非発声区間検出ブロック１２の構成例を基に動作を説明する。ピッチ検出器１２１では、音声記録空間２中の音声パケットから取り出した入力音声の離散値信号を線形予測し、その残差信号を処理することで、ピッチ周波数およびピッチ予測ゲインを求め、音声判定器１２５に出力する。これらのパラメータは、入力音声が人間の音声らしいかどうかを表すものである。パワ演算器１２２では、音声記録空間２中の音声パケットから取り出した入力音声の離散値信号の標本毎の自乗和を積算することで、音声フレーム単位のパワ値を求め、フレームＳ／Ｎ比演算器１２３及び背景雑音レベル推定器１２４に出力する。フレームＳ／Ｎ比演算器１２３では、パワ演算器１２２の出力と背景雑音レベル推定器１２４の出力の差を求めることで、音声フレーム毎のＳ／Ｎ比を求め、音声判定器１２５及び低速変化Ｓ／Ｎ比推定器１２７に出力する。背景雑音レベル推定器１２４では、パワ演算器１２２の出力から入力音声の最低パワレベル値を時間軸上で追跡することで、音声に重畳している背景雑音のレベルを推定し、その結果をフレームＳ／Ｎ比演算器１２３に出力する。音声判定器１２５では、ピッチ検出器１２１から出力されるピッチ周波数及びピッチ予測ゲイン、フレームＳ／Ｎ比演算器１２３から出力されるフレームＳ／Ｎ比の情報を用いて、当該フレームの信号の音声らしさを決定し、フレーム重要度設定器１２６に出力する。この値は発声区間では高くなり、非発声区間では小さな値となる。一般に、フレームＳ／Ｎ比が高いとき、それは発声区間と考えられる。しかしフレームＳ／Ｎ比が高くとも、ピッチ周波数が一定区間（人間の発声周波数の範囲内）から外れていたり、ピッチ予測ゲインが低いときは、人間の発声らしくない音響信号であると考えられる。これらの情報を総合評価し、音声らしらの情報を出力する。フレーム重要度設定器１２６では、音声判定器１２５の出力を１から１５の値に正規化することで、フレーム重要度パラメータを決定する。この値は音声記録空間２の音声パケットのヘッダ中にあるフレーム重要度情報フィールドに格納される。低速変化Ｓ／Ｎ比推定器１２７では、フレームＳ／Ｎ比演算器１２３の出力をローパスフィルタによって平滑化することで、低速度に変化するＳ／Ｎ比推定情報を先読み分析フレーム数演算器１２８に出力する。先読み分析フレーム数演算器１２８では、低速変化Ｓ／Ｎ比推定器１２７から出力される低速変化Ｓ／Ｎ比推定情報に基づいて、前方後方ハングオーバー回路１２９が先読み分析するフレーム数を決定する。推定Ｓ／Ｎ比が高い場合（例えば４０ｄＢ以上の場合）、分析フレーム数を２０フレームとする。逆にＳ／Ｎ比が低い場合（５ｄＢ程度）分析フレームを５０フレームと長くする。このように、推定Ｓ／Ｎ比に逆比例して先読み分析フレーム数を決定する。前方後方ハングオーバー回路１２９では、上述のフレーム重要度設定器１２６がフレーム重要度情報を設定したフレームに対して、あるフレーム数だけ遅れて動作する。このフレーム数は、先読み分析フレーム数演算器１２８で求めた数である。前方後方ハングオーバー回路１２９は、注目している音声フレームのフレーム重要度が一定以上（ここでは１２以上とする）であるとき、前後双方向に対して先読みフレーム数分だけ、フレーム重要度を調整する。具体的にはフレーム重要度に４を加算する。ただし、１１を超えない値とする。（１１とは、上記値１２から１を減じた値である。）これにより、音声の背景雑音に対するＳ／Ｎ比が小さいとき、発声区間の前後（語頭および語尾）のフレーム重要度が小さくなることで、発声区間が非発声区間として誤判定されることを防止することができる。言い換えれば、同語頭あるいは語尾部分の欠落を防止する働きを持たせることができる。図７に、本動作をグラフで示す。グラフは、横軸が時間（パケット）であり、縦軸が当該パケットの音声のフレーム重要度である。ハッチ部分は、前方後方ハングオーバー回路によってフレーム重要度が増加されたことを示している。これにより、語頭において適切にフレーム重要度が修正されている様子が分かる。
【００３６】
半導体メモリ中の音声記録空間２の残容量が十分に大きい場合（例えば、これを残容量の閾値と比べることで判定する）は、これ以上の処理は行わない。つまり、記録空間に十分に余裕がある場合は、用件音声は全てＰＣＭ符号で記録されることになり、用件音声の再生時には、十分な音質が保持されている。
【００３７】
記憶空間の残容量が小さくなった場合は、音声圧縮ブロック１３が動作を開始する。同ブロックは音声記録空間２中の音声パケットを走査し、フレーム重要度設定器１２６が設定したフレーム重要度に応じて音声を符号化圧縮する。同ブロックは図１１に一例を示す参照表をひくことで、圧縮度合いとフレーム重要度の組み合わせから、符号化ＩＤを決定する。例えば、最初（全パケットがＰＣＭ符号パケットである場合）は、フレーム重要度に関わらず全ての音声フレームを８ｋｂｐｓＣＥＬＰ（ＩＤ＝２）で圧縮していく。これでも記憶空間の残容量が切迫してきた場合、フレーム重要度が小さいものから４ｋｂｐｓＣＥＬＰ（ＩＤ＝３）で再圧縮する。さらに記憶容量が切迫したときには、フレーム重要度が４以上のものは全て４ｋｂｐｓＣＥＬＰ（ＩＤ＝３）で符号化圧縮され、それ以外は非発声パケット（ＩＤ＝４）に変換される。最終的に、記憶空間が完全に一杯になったときは、用件録音の一部が削除されるまで新たな用件音声の録音ができなくなる。
【００３８】
以下、図８の音声圧縮ブロック１３の動作を図１２のフローチャートを用いて説明する。音声記録空間２の残量に余裕がある場合、音声圧縮ブロック１３は動作しいない。しかし音声記録空間２残量監視器１３０１が、音声記録空間２の残量が一定の閾値（例えば２０％）よりも小さくなったことを検出したとき、音声圧縮ブロック１３は動作を開始する。音声符号化器１３０２は、圧縮度合レジスタ１３０４の値を読み出す（ステップＳ１）。音声符号化器１３０２は、音声記録空間２中の音声フレームを収めたパケットを先頭より読み出していく（ステップＳ２）。そして、その音声フレームのフレーム重要度と上述の圧縮度合レジスタ１３０４を用いて圧縮参照表１３０３を検索し、当該フレームをいずれの符号化方式のパケット型に変換すべきかを決定する（ステップＳ３）。圧縮参照表１３０３の内容については後述する。音声符号化器１３０２は、圧縮参照表１３０３で求めたパケット型が、現在のパケット型と異なるとき、当該パケットの音声信号を新たなパケット型の符号化方式で圧縮する。例えば、元のパケット型がＰＣＭ符号であり、新たなパケット型が８ｋｂｐｓＣＥＬＰである場合、パケットのペイロードから取り出したＰＣＭ符号を８ｋｂｐｓの符号化レートのＣＥＬＰアルゴリズムで符号化圧縮する。そして、圧縮後の符号を再度パケットとして構築し、当該パケットのヘッダについてを再設定すると共に音声記録空間２に保管する（ステップＳ４）。ここで、符号化圧縮により新パケットは元パケットに比べて小さな記憶空間しか必要としないため、パケットの後半部分が空き空間となる。このままでは小さく分割された空パケットが散在してしまうため、図１０に示す音声記録空間２を読み書きするための２つの指標（読み出し指標２３０および書き込み指標２３１）を設ける。圧縮前の元のパケットは読み出し指標２３１を用いて読み出す。圧縮後の新パケットは、書き込み指標２３０を用いて書き込む。新パケットが元パケットよりも大きくなることはないため、書き込み指標２３０が読み出し指標２３１よりも後（図における「右」）にくることはない。各指標としては、例えば、ポインタあるいはカウンタ（計数器）を使用する。なお、空き空間を空パケットとして設定するには、空パケットとしてのＩＤ=０をＩＤフィールドに、さらに同パケットの大きさをパケット長フィールドにそれぞれ書き込む。以上の処理により、原則として空パケットは音声記録空間２の後半にまとめられる。例外としては、音声圧縮ブロック１３が動作中に新たな用件音声の記録をする必要が生じた場合などに、止むを得ず音声圧縮ブロック１３の動作を中断する場合がある。この場合、音声記憶空間２の途中に空パケットが存在することになる。このような空パケットは、例えば、ディジタル信号処理装置１に空パケット収集ブロックを追加し、そのブロックの働きによって収集する。この動作例としては、計算機工学で用いられる一般的な技法である「ごみ集め」（garbage collection）があげられる。なお、音声記憶空間２を順読み出しする場合は、空パケットを検出したとき、そのヘッダを参照することで空パケットの大きさを調べ、その大きさだけ音声記憶空間２を読み飛ばすことも可能である。ただし、小さな空パケットが分散していると、後で再び音声要件を記録する際に都合が悪いため、可能な限り空パケット収集ブロックを動作させておくことが望ましい。以上の処理を、音声記録空間２中の全音声パケットに対して繰り返す（ステップＳ５、Ｓ６）。しかし、最後まで処理を終了しても、音声記録空間２の残量が残量閾値よりも大きくならなかった場合、以下の処理を実行する。まず、圧縮度合いレジスタ１３０４から読み出した値を１だけ増加させる（ステップＳ９）。そして、上述の音声パケット圧縮処理を、音声記録空間２の先頭からやり直す。最後に、音声記録空間２の残量が残量閾値よりも大きくなったとき、そのときの圧縮度合いの値をレジスタ１３０４に格納し、音声圧縮ブロック１３を終了する（ステップＳ７、Ｓ８）。
【００３９】
圧縮参照表１３０３の例を、図１１に示す。なお、用件音声の記録動作中（すなわち、実時間記録ブロック１１の動作中）に音声記録空間２の残量が閾値よりも小さくなったとき、実時間記録ブロック１１の動作に並行して音声圧縮ブロック１３を動作させることができる。このとき、実時間記録ブロック１１を最優先で動作させるが、音声圧縮ブロック１３は、ディジタル信号処理装置１の能力の範囲内で音声を圧縮し、音声記録空間２の残量を拡大する。この結果、音声圧縮ブロック１３のパケット指標が実時間記録ブロック１１のパケット指標に追いついた場合は、音声圧縮ブロック１３は実時間記録ブロック１１に信号を伝達し、実時間記録ブロック１１のパケット指標を空パケットの先頭位置まで復元させる。これにより、実時間記録ブロック１１は音声記録空間２の残り空間を拡大することができる。
【００４０】
次に、図９のフレーム重要度の設定動作を説明する。留守番電話装置の利用者が、再生指示回路１２１０を介して、録音された用件音声の中から任意の用件の再生を指示すると、ディジタル信号処理装置１は半導体メモリ中の音声記録空間２の中から、指示された用件音声の先頭パケットから順にパケットを取り出し、そのヘッダの符号化ＩＤモードに従って音声を復号し、再生する。その際、用件音声を完全に再生し終わると、ディジタル信号処理装置１は、用件音声に属する全パケットのヘッダを走査し、フレーム重要度情報を一定値（ここでは４）だけ減少させる。その後、同一の用件音声を複数回再生しても繰り返しフレーム重要度を減少させることのないよう、用件音声指標テーブル１２１１の中の用件指標の再生済みを示すフィールドに印をつけておく。一度フィールドに印が付けられた用件音声を繰り返し再生しても、フレーム重要度情報を再度減少させることをしない。ここではフレーム重要度の変更しか行わないが、後に音声記録空間２の残量が減少することで音声圧縮ブロック１３が動作を開始すると、そのとき初めて、一度以上再生された用件音声について再圧縮が実施され、音声記録空間２の残量が拡大される。
【００４１】
（１−３）第１の実施形態の効果
以上説明した第１の実施形態によれば、利用可能な符号化方式の数以上に細分化したフレーム重要度を設けると共に、非発声区間検出ブロック１２と音声圧縮ブロック１３を分離させ、必要なときだけ音声圧縮ブロック１３を動作させることで、同一のフレーム重要度を持つパケットであっても、半導体メモリ中の音声記録空間２に余裕がある間は、もっとも最近に記録された用件音声についてはＰＣＭ符号のまま音声を記録しておくことが可能となり、記録された用件音声の音質を可能な限り高く保持することができる。
【００４２】
また、録音された用件音声が増加してきた場合、その用件音声の総計録音時間に応じて最低限必要なだけ、音声を高能率の符号化方式（ＣＥＬＰなど）で圧縮することができる。音声圧縮処理は非通話時に行うため、通話中のディジタル信号処理装置１に大きな負荷をかけることなく、音声を圧縮することができる。圧縮参照表を用いることにより、再圧縮が必要となるパケット数を少なく押さえることが出来、よりディジタル信号処理装置１の負荷を軽減することも可能である。非発声区間の判定に際しては、十分な時間の音声を読み出して分析するため、判定の精度が向上し、非発声区間直後の、音声語頭の記録欠落を防止することができる。
【００４３】
さらに、一度再生された用件音声に属するフレーム重要度を減少させることで、既に内容を確認済みの用件音声が消費する音声記録空間２を削減することが可能になる。一方、必要以上にフレーム重要度を減少させると、フレームが非発声パケットとして扱われるため、最終的に音声として復号不可能となることから、用件音声指標テーブル中の再生済みを示すフィールドに印をつけることで、同一の用件音声を繰り返し再生しても、必要以上にフレーム重要度を減少させることを防止できる。また、フレーム重要度情報の変更と実際の音声圧縮ブロック１３を分離させることで、フレーム重要度に差のあるパケットが併存しても、半導体メモリ中の音声記録空間２に余裕がある間は、必要以上に音声の符号化圧縮を行わないことにより、記録された用件音声の音質を保持することが可能になる。
【００４４】
（２）第２の実施形態
次に、本発明による蓄積型信号符号化装置に適用した第２の実施形態を図面を参照しながら詳述する。第２の実施形態は、第１の実施形態の音声圧縮ブロック１３を改良したものであり、音声圧縮ブロック１３を中心に説明する。
【００４５】
（２−１）第２の実施形態の構成
図１３は、第２の実施形態を実現するための音声圧縮ブロック１３の構成を示すものである。音声復号器１３０５は、既に符号化圧縮されている音声パケットを復号伸長する。線形予測分析器１３０７は、音声のフォルマント特性を分析する。スイッチ１３０６は音声パケットの内容に応じて、線形予測分析器１３０７に与える信号を切り替える。ＬＳＰ変換器１３０８は、線形予測パラメータ（ＬＰＣパラメータ）を線スペクトル対パラメータ（ＬＳＰパラメータ）に変換する。ＬＳＰ量子化表生成器１３０９は、ＬＳＰパラメータ群の時間軸上の変化を走査分析し、ＬＳＰを離散符号に量子化するための量子化表を生成する。ピッチ分析器１３１０は、線形予測分析後の残差信号から、ピッチ成分の周波数およびピッチ予測ゲインを分析する。ピッチ分析パラメータ量子化表生成器１３１１は、ピッチ分析器で求めたパラメータ群の時間軸上の変化を走査分析し、ピッチ分析パラメータ群を離散符号に量子化するための量子化表を生成する。
【００４６】
ここで、線形予測分析器１３０７、ＬＳＰ変換器１３０８、及びピッチ分析器１３１０は、実施形態１で説明した音声圧縮ブロック１３における音声符号化アルゴリズムでも用いられるものであり、兼用することが可能である。
【００４７】
また、記録空間２中のパケットのヘッダに収められるＩＤフィールドのＩＤ番号として、新規にＩＤ＝６を量子化表パケットとして追加する。
【００４８】
（２−２）第２の実施形態の動作
第２の実施形態の音声圧縮ブロック１３は、用件音声の一件単位に、音声の符号化圧縮アルゴリズムで使用する量子化表の群を、個別に生成する。ＣＥＬＰに代表される音声符号化方式では、音声の分析結果から得られる情報を量子化表を用いて離散符号に置き換えるが、この量子化表は汎用に設計されており、通常、あらゆる話者の音声の性質や言語の性質に対応できるようになっている。しかし、留守番電話の一用件音声に限ってみると、その短時間の特定話者かつ特定言語、特定性別の音声の性質においては、そのＬＳＰパラメータやピッチ分析パラメータの分散量は制限されている。このため、一用件音声だけに特化された量子化表群を生成し使用することにより、汎用の量子化表を用いる場合に比べて、少ない符号情報量でも同等の音質で符号化できる。なお、量子化表の生成には多くの演算処理量を必要とするが、本特許の留守番電話装置の音声圧縮ブロック１３は、用件音声の録音時に実時間で動作する必要がないため、問題にはならない。
【００４９】
音声圧縮ブロック１３では、ディジタル信号処理装置１は音声記録空間２上の音声を符号化圧縮する際に、一用件音声単位で量子化表群を生成する。ディジタル信号処理装置１は音声記録空間２から音声パケットを読み込むが、その内容が既に８ｋｂｐｓＣＥＬＰ方式で符号化されている場合、音声復号器１３０５により音声パケットを復号し、ＰＣＭ符号の音声信号に変換する。スイッチ１３０６は、音声記録空間２から読み出した音声パケットがＰＣＭ符号パケットである場合に、そのＰＣＭ符号をそのまま線形予測分析器１３０７に送出する。線形予測分析器１３０７とＬＳＰ変換器１３０８は、音声記録空間２中に収められた用件音声に属するパケットを順次読み出し、ＬＳＰパラメータを出力する。ＬＳＰ量子化表生成器１３０９は、ＬＳＰパラメータを順次取り込みながら、細かな区間を有するヒストグラム上に、その値の出現頻度を記録していく。同様に、ピッチ分析器１３１０とピッチ分析パラメータ量子化表生成器１３１１は、ピッチパラメータ群の出現頻度を記録していく。ディジタル信号処理装置１は一用件音声を走査分析し終わると、ＬＳＰパラメータ量子化表およびピッチ分析パラメータ量子化表を生成する。その後、ディジタル信号処理装置１は、生成した量子化表を用いて音声の符号化圧縮を開始する。その際、音声パケットを音声記録空間２に記録する前に、生成した量子化表をパケットに格納して、音声記録空間２に記録する。この際、パケットのヘッダのＩＤフィールドには、量子化表が収められていることを示すＩＤ＝６が設定される。
【００５０】
次に、用件音声を再生する場合を説明する。ディジタル信号処理装置１は音声記録空間２からパケットを取り出した際、それが量子化表のパケットならば、圧縮された音声符号を復号する際に用いる量子化表を取り出した量子化表で置き換える。その後、順次パケットを取り出しながら音声を復号、再生していく。
【００５１】
（２−３）第２の実施形態の効果
以上説明した第２の実施形態によれば、音声の符号化圧縮アルゴリズムで用いる量子化表群を、特定の用件音声専用に作成することができ、用件音声を発声した特定話者、特定言語、特定性別に最適化した量子化表群が得られ、汎用の量子化表群を用いる場合に比べて、同一の情報符号化速度であるならば、より音質の高い符号化が可能になる。
【００５２】
また、量子化表の生成には多くの演算処理が必要であるが、本実施形態の音声圧縮ブロック１３では、量子化表を用件音声の記録時に実時間で生成する必要がないため、低い能力の信号処理プロセッサを用いても実現することが可能である。
【００５３】
（３）第３の実施形態
次に、本発明による蓄積型信号符号化装置に適用した第３の実施形態を図面を参照しながら詳述する。第３の実施形態は、第１の実施形態における８ｋｂｐｓＣＥＬＰ符号化と４ｋｂｐｓＣＥＬＰ符号化を、階層化符号化の構成としたものである。
【００５４】
（３−１）第３の実施形態の構成
以下、第３の実施形態の蓄積型信号符号化装置の構成を説明する。
【００５５】
図１４は、第３の実施形態を実現するための階層化符号化の構成を示すものである。線形予測分析器１００１及びＬＳＰ変換器１００２は、既に説明した線形予測分析器１３０７及びＬＳＰ変換器１３０８と同等のものである。ＬＳＰ量子化器１００３は、ＬＳＰ変換器によって得られるＬＳＰパラメータを量子化する。ＬＳＰ多段量子化器１００４は、ＬＳＰ量子化器１００３の量子化誤差をさらに精密に量子化する。ピッチ分析符号化器１００５は、線形予測残差におけるピッチ成分を求め、ピッチ合成フィルタを構成する。励振源符号化器１００６は、ピッチ成分を取り除いた残差信号を用いて励振信号を生成符号化する。ここで、励振源符号化器１００６は励振源を多段のコードブック構成で表すことで、復号音質に大きく影響する符号と、復号音声を若干改善するための符号の２種類を出力する。必須符号出力器１００７は、ＬＳＰ量子化器１００３の出力、ピッチ分析符号化器１００５の出力、又は励振源符号化器１００６の出力から復号音質に大きく影響する符号をパックする。必須符号出力器１００７の出力は４ｋｂｐｓである。音質改善符号出力器１００８は、ＬＳＰ多段量子化器１００４の出力又は励振源符号化器１００６の出力から復号音質を改善する符号をパックする。音質改善符号出力器１００８の出力は４ｋｂｐｓである。
【００５６】
（３−２）第３の実施形態の動作
線形予測分析器１００１は、音声パケットから取り出した音声（離散値サンプル群）を線形予測分析することで線形予測パラメータを出力する。ＬＳＰ変換器１００２は、線形予測分析器１００１から出力された線形予測パラメータを線スペクトル対（ＬＳＰ）パラメータに変換する。ＬＳＰ量子化器１００３とＬＳＰ多段量子化器１００４は、共にＬＳＰ変換器１００２から出力されたＬＳＰパラメータを離散符号に量子化するものであるが、ＬＳＰ量子化器１００３はＬＳＰパラメータを粗く量子化し、ＬＳＰ多段量子化器１００４はＬＳＰ量子化器１００３では表現し切れない微細な誤差成分を精密に量子化する。ピッチ分析量子化器１００５は、音声パケットから取り出した音声及びＬＳＰ量子化器１００３から出力された量子化値より線形予測残差を算出してピッチ成分を求め、ピッチ成分を取り除いた残差成分を出力する。励振源符号化器１００６は、ピッチ分析量子化器１００５から出力されたピッチ成分が取り除かれた残差成分をコードブック探索により符号化する。このとき、複数の励振パルスに、音質に寄与する度合いに応じて優先順位を設ける。優先度の高い励振パルスに対応するコードブックの指標と、優先度の低い励振パルスに対応するコードブックの指標を別々に出力する。必須符号出力器１００７は、ＬＳＰ量子化器１００３の出力、ピッチ分析符号化器１００５の出力、又は励振源符号化器１００６の出力から復号音質に大きく影響する符号をパックして、４ｋｂｐｓの符号として出力する。音質改善符号出力器１００８は、ＬＳＰ多段量子化器１００４の出力又は励振源符号化器１００６の出力から復号音質を改善する符号をパックして、４ｋｂｐｓの符号として出力する。
【００５７】
以上により、音声を復号する上で不可欠の符号（必須符号）と、復号には不可欠ではないものの復号音声の音質を向上させることのできる符号（音質改善符号）の2種類を出力する。前者の符号は符号化速度４ｋｂｐｓであり、前者と後者の符号を合わせた符号化速度は８ｋｂｐｓとなる。
【００５８】
さらに、本実施形態により、実施形態１の音声圧縮ブロック１３を改良することができる。音声圧縮ブロック１３は、音声フレームを８ｋｂｐｓＣＥＬＰで圧縮する必要がある際に、本実施形態の必須符号と音質改善符号を併せてパケットに格納する。パケットのヘッダＩＤは８ｋｂｐｓＣＥＬＰ（ＩＤ＝２）である。後に音声圧縮ブロック１３が、８ｋｂｐｓＣＥＬＰで圧縮された音声フレームを４ｋｂｐｓＣＥＬＰで再圧縮する必要が生じた際は、８ｋｂｐｓＣＥＬＰ方式による音声の復号と４ｋｂｐｓＣＥＬＰ方式の音声の符号化を行う代わりに、パケットの中から音質改善符号の４ｋｂｐｓ符号のみを削除し、パケットのヘッダＩＤをＩＤ＝２からＩＤ＝３に変更するだけで良い。
【００５９】
（３−３）第３の実施形態の効果
以上説明した第３の実施形態によれば、８ｋｂｐｓＣＥＬＰの符号が納められたパケットを４ｋｂｐｓＣＥＬＰに再圧縮する必要がある場合、復号および再符号化の代わりにパケットの一部を削除するだけで済むため、信号処理プロセッサの処理量を大幅に削減することが可能になる。
【００６０】
また、復号および再符号化の処理は、一度量子化された分析結果を用いて復元された音声を再分析し、さらに再量子化をしなくてはならないため、最初から４ｋｂｐｓＣＥＬＰ方式で符号化圧縮する場合に比べて、音質の劣化を伴う。それに対し、必須符号と音質改善符号による階層化符号化を用いた場合は、再分析や再量子化の必要がないため、音質の劣化を最小限に抑えることが可能となる。
【００６１】
（４）他の実施形態
上記各実施形態の説明においても、種々の変形実施形態について言及したが、以下に例示するような変形実施形態を挙げることができる。
【００６２】
上記各実施形態においては、パケット２０１は可変長としたが、固定長のパケットを用いることも可能である。ペイロード長が音声フレームのデータ長以下の場合は、複数のパケットにまたがり音声記録空間２に蓄積され、音声フレームのデータ長がペイロード長以下の場合は、１パケットに複数の音声フレームのデータが格納されて音声記録空間２に蓄積される。
【００６３】
音声記録空間については、パケットの種別や重要度等に応じて複数設けることも可能である。
【００６４】
音声要件の末尾を表すには、終端パケットを用いる他に、終端を示すフラグ等を符号化データが格納されている各パケットに付与しても良い。あるいは、各音声要件の開始パケットと終端パケットを管理する表を別途用意しても良い。
【００６５】
上記各実施形態では、直線的な記録空間を利用していたが、電子計算機で用いられる場合はファイルシステムの構成としても良い。これにより、記録空間の空領域の管理が容易となり、「ごみ集め」が不要となる。また、音声圧縮ブロックが生成した空領域を速やかに実時間記録ブロックが再利用できるようになり、空領域の有効利用が容易となる。
【００６６】
【発明の効果】
以上のように、本発明によれば、蓄積手段に蓄積された音声信号のうち再度符号化圧縮が必要なものについては圧縮の度合いと音声信号の重要度に応じて圧縮するようにしたので、蓄積手段の容量に応じて再生音質と蓄積容量の最適化を図ることができる。
【図面の簡単な説明】
【図１】第１の実施形態の全体構成を示すブロック図である。
【図２】従来の留守番電話装置の構成を示す図である。
【図３】第１の実施形態の音声記録区間の構成を示す図である。
【図４】第１の実施形態のパケットのヘッダの構成を示す図である。
【図５】第１の実施形態のパケットの型を示す表である。
【図６】第１の実施形態の非発声区間検出ブロックの構成を示す図である。
【図７】第１の実施形態の前方後方ハングオーバー回路の動作を示す図である。
【図８】第１の実施形態の音声圧縮ブロックの構成を示す図である。
【図９】第１の実施形態のフレーム重要度を設定するための構成を示す図である。
【図１０】第１の実施形態の音声記録空間に書き込み及び指標読み出し指標を設けた場合の動作を示す図である。
【図１１】第１の実施形態の圧縮参照表を示す図である。
【図１２】第１の実施形態のフローチャートである。
【図１３】第２の実施形態の音声圧縮ブロックの構成を示す図である。
【図１４】第３の実施形態の階層符号化の構成を示す図である。
【符号の説明】
１…ディジタル信号処理装置、１１…実時間記録ブロック、１２…非発声区間検出ブロック、１３…音声圧縮ブロック２…音声記録空間、３…Ａ／Ｄ変換器、５…Ｄ／Ａ変換器、７…スピーカ。

Claims

音声情報を蓄積する蓄積手段と、
前記蓄積手段に接続され、音声をパケット化して前記蓄積手段に蓄積する音声記録手段と、
前記蓄積手段に接続され、前記音声のフレームが発声区間であるか非発声区間であるかによって前記フレームの重要度を判定し、前記パケットのヘッダに前記重要度を搭載して前記蓄積手段に蓄積するフレーム重要度判定手段と、
前記蓄積手段に接続され、再圧縮が必要な場合は、前記蓄積手段に蓄積された前記フレーム重要度に従って第１の符号化方式で前記音声を符号化圧縮し、更に前記圧縮された音声の圧縮が必要な場合は第２の符号化方式を用いて前記重要度に従い符号化圧縮する音声圧縮手段とを有することを特徴とする音声蓄積装置。
前記フレーム重要度判定手段は更に、過去の音声フレームのフレーム重要度が一定の閾値以上である場合はその時間前後のフレームの重要度を増加させるハングオーバー回路を有することを特徴とする請求項１記載の音声蓄積装置。
前記音声圧縮手段は前記第２の符号化方式を用いて前記重要度に従い符号化圧縮した後、更に前記音声の圧縮が必要な場合は、前記蓄積音声の一部または全部を非発音パケットととすることを特徴とする請求項１記載の音声蓄積装置。
前記蓄積手段の未使用領域を空きパケットととすることを特徴とする請求項１記載の音声蓄積装置。
前記音声が前記蓄積手段より一度以上読み出されたか否かを記録する記録手段を更に有し、
一度読み出された前記音声は前記重要度を減少させることを特徴とする請求項１記載の音声蓄積装置。
一度読み出された前記音声信号が再度読み出された場合は、前記重要度を変更しないことを特徴とする請求項６記載の音声蓄積装置。
音声信号の前記重要度が変更された場合、前記蓄積手段の蓄積容量に応じて前記重要度を変更するか否かを判断することを特徴とする請求項６記載の音声蓄積装置。