JP5233986B2

JP5233986B2 - 音声波形補間装置および方法

Info

Publication number: JP5233986B2
Application number: JP2009503800A
Authority: JP
Inventors: 智佳子松本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-03-12
Filing date: 2007-03-12
Publication date: 2013-07-10
Anticipated expiration: 2027-03-12
Also published as: CN101542593A; JPWO2008111158A1; US20090326950A1; CN101542593B; WO2008111158A1

Description

本発明は、音声波形の補間装置、例えばパケット通信システムにおいて音声パケットの伝送途中で消失した音声パケットに相当する音声波形を受信側において再生する場合に使用される音声波形補間装置に関する。また例えば、蓄積した音声素片のデータを編集あるいは加工して新たな音声データを生成するような音声編集／加工処理システムに使用可能な音声波形補間装置に関する。

なお以下においては、前者の音声パケット通信システムを代表例として説明する。

近年、インターネットの普及を背景に、ＩＰ（Internet Protocol）ネットワークを介して、音声データをパケット化した音声パケットを伝送する、いわゆるＶｏＩＰ（Voice over IP）通信システムが急速に普及しつつある。

このようにＰＣＭデータをパケット単位で伝送するＩＰネットワークにおいては、受信すべき音声パケットの一部が消失したりあるいは欠落したりすると、当該音声パケットにより再生される音声の音声品質を劣化させる原因となる。このため、その音声パケットの消失等による音声品質の劣化を、ユーザに極力気付かせないようにする方法が従来より種々提案されている。

この音声パケット消失隠蔽方法の一つとして、ＩＴＵ−Ｔ（International Telecommunication Union：国際電気通信連合）勧告Ｇ．７１１ＡｐｐｅｎｄｉｘＩが既に知られている。このＧ．７１１ＡｐｐｅｎｄｉｘＩにおいて規定されるパケット消失隠蔽方法においては、まず、音声の物理的特性の一つであるピッチ周期を、波形相関を用いることによって抽出する。そしてこの抽出したピッチパターンを、消失した音声パケットに相当する部分に対して繰り返して配置することによって、消失隠蔽信号を生成する。なお、連続して音声パケットの消失が生じるような場合には、その消失隠蔽信号を徐々に減衰させるようにする。

さらにまたいくつかの消失音声の補間再生方法が提案されており、例えば、下記の〔特許文献１〕〜〔特許文献３〕がある。

〔特許文献１〕においては、パケット消失前の、正常に受信した音声データから推定した、ピッチ周期の揺らぎと、パワー変動とを付与して消失隠蔽信号を生成する方式が開示されている。また、〔特許文献２〕においては、パケット消失前および消失後のパケットのうちの少なくとも一方を参照し、そのピッチ変動特性と、パワー変動特性とを利用して、音声消失区間のピッチ変動およびパワー変動を推定する。そしてこの推定した特性を用いることによって、音声消失区間の音声波形を再生する方式が開示されている。さらにまた、〔特許文献３〕においては、欠落以前に入力した音声パケットの信号との最適マッチング波形の算出を非規格化差分演算処理により行い、算出結果の最小値に基づいて、欠落以前に入力した音声パケットの信号から補間する補間信号を決定する方式が開示されている。

特開２００１−２２８８９６号公報ＷＯ２００４／０６８０９８号公報特開平２−４０６２号公報

上述した従来における消失音声の波形補間方法によれば、消失パケットの直前もしくは直後の波形を抜き出してそのピッチ周期を抽出し、そのピッチ波形を繰り返すことによって補間音声波形を生成している。この場合、その消失パケットの直前もしくは直後の波形が抜き出されるため、その抜き出した波形の如何に拘らず、全て同じようにピッチ波形の繰り返しが行われ、補間音声波形が生成される。

上記の補間音声の波形の生成に用いる直前の波形が、例えば母音の中間付近のように、振幅が一定以上あって、かつ振幅変動も少ないような安定した波形であるならば、音質劣化がほとんどない音声波形の生成が可能である。しかし、例えば母音から子音にフォルマントが大きく変化する渡り部分や、呼気段落末等でパケット消失が生じたような場合には、上記の補間音声波形の生成に用いる波形が、自己相関度の高い周期性波形であっても、ブザー音のような再生音となり、音質劣化をひき起こす場合がある。これを図で示す。

図１４は、送信音声波形（Ａ）と、その送信された音声波形（Ａ）のうち、音声パケットの消失による波形の欠落部分を補間した補間音声波形（Ｂ）を示す図である。本図の（Ａ）において、一連の音声波形のうち、パケット消失（パケットロス）があったために音声パケットに欠落が生じた部分をＰ_aとして示す。上述した従来の方法によれば、その欠落部分Ｐ_aの常に直前のパケットＰ_bを抜き出し、これを同図（Ｂ）に示すように、繰り返したパケットＰ_b′として、その欠落部分Ｐ_aに挿入配置している。

このＰ_b′の波形は一見きれいな波形であるが、実際の音声として再生すると、ユーザにとって不快なブザー音となってしまう、という問題がある。

したがって本発明は、上記問題点に鑑み、不快な再生音を生じさせない、音声波形補間装置を提供することを目的とするものである。

また、そのための音声波形補間方法ならびに、コンピュータのための音声波形補間プログラムを提供することを目的とするものである。

本発明に基づく音声波形補間装置は、後に図を用いて説明するとおり、
（ｉ）音声データを記憶する音声格納部と、
（ii）前記音声データの一部を、該音声データの他の一部で補間した音声データを生成する補間波形生成部と、
（iii）前記音声格納部からの音声データと、その一部を代替する前記補間波形生成部からの補間音声データとを結合する波形結合部と、
（iv）前記音声データの一部が、前記補間波形生成部にて補間すべき補間音声データとして適切か否かを判定し、適切と判定された音声データを選択して、これを前記補間音声データとして設定する補間波形設定機能部と、
から構成する。このうち、本発明を最も特徴づけるのは、上記（iv）の補間波形設定機能部である。

この補間波形設定機能部（iv）は、さらに具体的には、前記音声格納部からの前記音声データについてその振幅情報を分析する振幅情報分析手段と、その分析結果に基づいて前記補間音声データとして適切か否かを判定する音声波形判定部とを含んでなる。

さらに詳細には、音声データの単位フレーム当たりの振幅情報を算出して、時間方向の振幅値から振幅包絡を求め、その振幅包絡を元にして波形補間に用いるべき近傍の波形の、振幅包絡上の位置を特定する。この特定した位置の振幅情報から、前述の繰り返しに適した波形か否かを上記音声波形判定部にて判定する。

図１は、本発明の基本構成を示す図である。図２は、図１の基本構成をさらに具体的に示す図である。図３は、図１４（Ａ）の波形と同様の波形（Ａ）と、波形（Ａ）を中間に含む長時間の音声波形（Ｂ）と、波形（Ｂ）の振幅値計算により得た振幅包絡（Ｃ）を示す図である。図４は、パケット通信システムの音声波形補間装置の第１例を示す図である。図５は、図１４（Ａ）の波形と同様の波形（Ａ）と、背景雑音区間により補間された音声波形（Ｂ）を示す図である。図６は、図１４（Ａ）の波形と同様の波形（Ａ）と、後方音声データにより補間された音声波形（Ｂ）を示す図である。図７は、音声波形補間装置の第２例を示す図である。図８は、図７に示す音声波形補間装置の動作を示すフローチャートである。図９は、図８に示すステップＳ１９をさらに詳細に示すフローチャートである。図１０は、音声波形補間装置の第３例を示す図である。図１１は、音声波形補間装置の第４例を示す図である。図１２は、図１４（Ａ）の波形を変形した一例（Ａ）と、前方音声データにより補間された音声波形（Ｂ）を示す図である。図１３は、図６および図１２に示すような波形補間を行うときの動作を表すフローチャートである。図１４は、送信音声波形（Ａ）と、その送信された音声波形（Ａ）のうち、音声パケットの消失による波形の欠落部分を補間した補間音声波形（Ｂ）を示す図である。

符号の説明

１音声波形補間装置
２音声格納部
３補間波形生成部
４波形結合部
５補間波形設定機能部
６振幅情報分析部
７音声波形判定部
８振幅値算出部
９振幅情報格納部
１１有声／無声判定部
１２判定閾値判定部
１３振幅使用範囲設定部
１４話者識別部
１５判定閾値格納部
１６振幅使用範囲格納部

図１は本発明の基本構成を示す図である。本図に示すとおり、本発明に係る音声波形補間装置１は、音声データＤ_inを記憶する音声格納部２と、音声データＤ_inの一部を、この音声データＤ_inの他の一部で補間した音声データＤ_cを生成する補間波形生成部３と、音声格納部２からの音声データＤ_inと、その一部を代替する補間波形生成部３からの補間音声データＤ_cとを結合して音声データＤ_outとして出力する波形結合部４と、上記の音声データＤ_inの一部が、補間波形生成部３にて補間すべき補間音声データとして適切か否かを判定し、適切と判定された音声データを選択して、これを補間音声データＤ_cとして設定する補間波形設定機能部５と、からなる。

ここに補間波形設定機能部５は、音声格納部２からの音声データＤ_inについてその振幅情報を分析する振幅情報分析手段６と、その分析結果に基づいて補間音声データＤ_cとして適切か否かを判定する音声波形判定部７とを含んでなる。

図２は図１の基本構成をさらに具体的に示す図である。なお、全図を通じて同様の構成要素には同一の参照番号または記号を付して示す。

図２においては、図１の振幅情報分析手段６を一層具体的に示す。すなわち、振幅情報分析手段６は、音声データＤ_inの振幅値を計算して時間方向の振幅値を得る振幅値算出部８と、その算出した振幅値を振幅情報として一旦記憶する振幅情報格納部９とを有してなる。この振幅値算出部８は、振幅包絡や、その振幅の最大値および最小値も算出する。

ここに音声波形判定部７は、上記の時間方向の振幅情報から特定される振幅包絡上の位置から、補間音声データＤ_cとして適切か否かを判定する。なお、本図の右上に示すＳＷは、出力音声データＤ_outとして、入力音声データＤ_inをそのまま通過させるか、または補間により得た波形結合部５からの補間音声データＤ_cを含む音声データを、択一的に切り換えるスイッチである。ここで本発明の原理を容易に理解するために図３を参照する。

図３は、図１４（Ａ）と同様の波形（Ａ）と、波形（Ａ）を中間に含む長時間の音声波形（Ｂ）と、波形（Ｂ）の振幅値計算（８）により得た振幅包絡（Ｃ）を示す図である。本図（Ａ）のＰ_aの部分に音声パケットの消失が生じた場合に、その消失パケットの直前のパケットに相当する音声波形Ｐ_bが補間波形（Ｄ_c）として適切か否か、音声波形判定部７にて判定する。

この音声波形判定部７での判定手法を説明するために図３の（Ｂ）および（Ｃ）を参照する。音声波形判定部７は、アナログ波形で表すと同図（Ｂ）のようになる入力音声データＤ_inを振幅情報分析部６にて分析した結果、すなわちアナログで示すと同図（Ｃ）のようになる振幅包絡ＥＶを入力として、補間波形として適切か否か、その補間波形としてのいくつかの候補について判定する。

この場合、振幅包絡ＥＶ上のどの位置にその候補が位置しているか、をその判定基準とする。ここで本図（Ｃ）の振幅包絡ＥＶを分析すると、Ｐ_bの部分の音声波形は、振幅が局所的に小さくなった位置にあり、上記の補間波形の候補にはならない。また、Ｐ_c1の部分やＰ_c2の部分の各音声波形は、振幅包絡の極小値をとる位置にあり、上記の補間波形の候補にはならない。さらにまた、Ｐ_dの部分音声波形は、振幅包絡上の無声音区間Ｓの直前に位置しており、補間波形の候補にはならない。これらＰ_b，Ｐ_c1，Ｐ_c2，Ｐ_dのいずれかに位置する音声波形を補間波形として用いたとすると、例えば既述したブザー音のような音声が再生されてしまう。そこで本発明は、補間波形生成部３にて補間波形として使用しようとする図３（Ｃ）の振幅包絡（ＥＶ）上の波形として、これらＰ_b，Ｐ_c1，Ｐ_c2，Ｐ_d等に位置しない波形を選択することとする。

上述した本発明の原理によって、音声編集／加工処理システムに使用される音声補間装置や、パケット通信システムに使用される音声波形補間装置が実現される。

前者の音声編集／加工処理システムに使用される音声波形補間装置にあっては、
多数の音声素片を蓄積して保持する音声格納部２と、一連の音声データＤ_inの一部を、その音声素片の繰り返し使用により補間した音声データＤ_cを生成する補間波形生成部３と、音声格納部２に格納された音声データと、その一部を代替する補間波形生成部４からの補間音声データとを結合する波形結合部４と、音声データの一部が、補間波形生成部３にて補間すべき補間音声データとして適切か否かを判定し、適切と判定された音声データを選択して、これを補間音声データとして設定する補間波形設定機能部５と、から構成する。この音声波形補間装置を用いれば、例えば音声合成波形のラベリングにおける子音の音素境界の決定処理を行うときに、また音声合成時における音声素片の配置処理を行うときに、あるいは、話速変換処理を行う際、音声素片長が伸ばされる音声素片を決定するときに、該当の音素片が適切か否かを判定することができる。

一方後者のパケット通信システムに使用される音声波形補間装置にあっては、
逐次受信する各パケットのうち、正常に受信した各パケットが有する音声データを順次記憶する音声格納部２と、パケットの消失（破棄又は遅延）により音声データＤ_inの一部に欠落を生じたとき、その欠落部を音声データＤ_inの他の一部で補間した音声データＤ_cを生成する補間波形生成部３と、音声格納部２に格納された音声データＤ_inと、その一部を代替する補間波形生成部３からの補間音声データＤ_cとを結合する波形結合部４と、音声データＤ_inの一部が、補間波形生成部３にて補間すべき補間音声データＤ_cとして適切か否かを判定し、適切と判定された音声データを選択して、これをその補間音声データとして設定する補間波形設定機能部５と、から構成する。

図４は上記のパケット通信システムの音声波形補間装置の第１例を示す図である。本図において、参照記号“Ｆ”は、パケット通信ネットワークから音声パケットを正常受信しているときに活性化されるブロックを示し、一方、参照記号“Ｇ”は、パケット通信ネットワークからの一連の音声パケットの中に欠落した音声パケットがあることを検出したときに活性化されるブロックを示す。ただし、これらブロックＦおよびＧ内の構成は、図２に示した構成と同じである。

本発明の主要部である補間波形設定機能部５は、振幅値算出部８と、振幅情報格納部９と、音声波形判定部７からなる。上記のパケット通信ネットワークにおけるパケット通信において、パケット正常受信区間では、入力音声データＤ_inは、音声格納部２に保存される。振幅値算出部８では、音声格納部２にある音声データＤ_inから、フレーム単位での振幅値を算出し、振幅包絡情報や、振幅最大値、振幅最小値等の振幅情報を算出する。振幅情報格納部９では、振幅値算出部８で算出した振幅情報を保存しておく。

パケット消失（パケットロス）が発生した場合には、音声波形判定部７では、その消失したパケットの前方または後方の波形箇所が、音声格納部２から入力されると、その部分の振幅包絡（ＥＶ）上の位置を特定する。補間波形の候補とすべき波形が、振幅包絡（ＥＶ）上の極小位置、あるいは、無声音区間Ｓの直前部分Ｐ_dであるか否かの判定を行い、補間波形生成部３にその判定結果が通知される。

補間波形生成部３では、その判定結果に従ってパケット消失した区間の波形を生成する。さらに波形結合部４では、正常受信された区間の音声波形と、補間波形生成部３で生成された補間区間の波形とを、これら波形のつながり部分が滑らかになるように結合して、出力音声データＤ_outとする。

かくして音声波形判定部７は、代替の候補としての補間音声データＤ_cの振幅包絡（ＥＶ）上における位置が、少なくとも、振幅極小位置Ｐ_c1，Ｐ_c2かあるいは無声音区間の直前位置Ｐ_dであると判定したときに、当該部分の音声データを補間音声データＤ_cとして採用せず、当該部分の音声データ以外の位置での別の音声データを探索するあるいは背景雑音区間を探索する（図５参照）。

図５は図１４（Ａ）の波形と同様の波形（Ａ）と、背景雑音区間により、補間された音声波形（Ｂ）を示す図である。本図（Ｂ）の参照記号Ｐ_nがその背景雑音区間を示す。パケット消失区間（Ｐ_a）の直前区間が波形の繰り返しに不適当と判定された場合、その繰り返しによる波形生成は行わずに、これに代えて背景雑音データをパケット消失区間Ｐ_aに配置することもできる。この背景雑音区間の音声データは、音声格納部２に格納された音声データと、有声／無声の判定結果（図７の有声／無声判定部１１参照）とを利用して無声の雑音のみの音声データを取り出して使用するものである。なお、背景雑音データも時々刻々と変化するので、使用する区間は、できるだけ消失パケットＰ_aに近い音声データを使用するのが望ましい。

さらにまた音声波形判定部７は、補間されるべき音声データＤ_inにおいて時間軸上の前方に順次現れる前方音声データのいずれかおよび、その補間されるべき音声データＤ_inにおいて時間軸上の後方に順次現れる後方音声データのいずれか、の少なくとも一方を、上述した代替の候補としての補間音声データＤ_cとする（図６参照）。

図６は図１４（Ａ）の波形と同様の波形（Ａ）と、上記の後方音声データ（Ｐ_r）により補間された音声波形（Ｂ）を示す図である。本図の補間波形生成の例は、消失パケットの前方だけではなく、消失パケットの後方の音声データも判定して、補間波形を生成した例である。消失パケットの直前のパケットが繰り返しに不適切と判定され、一方消失パケットの直後のパケットが繰り返しに適すると判定された場合、その適すると判定された後方パケットの音声データを繰り返し配置することで、補間区間の波形Ｄ_cを生成する。ただし、後方音声データが利用できるのは、音声の若干の遅延が許容される場合である。

なお、補間波形の生成方法は、当然、組み合わせることも可能で、波形の繰り返しによる補間波形に、雑音波形を重畳させたり、パケットの消失が連続して長く生じた場合に、消失パケット区間の前半と後半とに分けて波形生成の方法を変更することも可能である。

図７は音声波形補間装置の第２例を示す図である。本図と図４（第１例）との相違は、有声／無声判定部１１が追加されたことである。すなわちこの第２例に基づく音声波形補間装置１は、音声格納部２に記憶された音声データＤ_inを有声部分と無声部分とに分類して判定する有声／無声判定部１１をさらに備え、判定された有声部分についてはその振幅最大値と振幅変動率を振幅算出部８にて算出してその結果を振幅情報格納部９に保持し、判定された無声部分についてはその振幅平均値を振幅算出部８にて算出してその結果を振幅情報格納部９に保持するようにする。さらに詳しくは、次のとおりである。

入力音声データＤ_inは有声／無声判定部１１に入力されて、音声区間と無声区間に分類される。次段の振幅値算出部８では音声格納部２に格納された入力音声データＤ_inから、フレーム単位（例えば４msec）で音声の振幅値を算出する。この振幅値の時間方向の変化を表す振幅包絡（ＥＶ）の情報の他に、上記の有声／無声判定部１１で分類された結果を元に、有声区間における振幅の最大値と最小値、音声区間の平均振幅をそれぞれ算出する。そして振幅情報格納部９では、上記のように振幅値算出部８で算出した振幅情報と、有声／無声の判定結果とを保存しておく。

パケットロス（消失）が発生した場合には、音声波形判定部７では、消失したパケットの前方（または後方）の波形箇所が音声格納部２から入力されると、その部分の振幅包絡（ＥＶ）上の位置を特定する。補間の候補とすべき波形が、振幅包絡（ＥＶ）上の極小位置であるか、あるいは、無声音区間Ｓの直前部分であるかの判定を行う。実際の音声波形を用いた説明は前述の図５を参照して行ったとおりである。

上記の有声／無声判定部１１を導入すると、最大値、最小値、極小値の算出精度が向上するのみならず、振幅値算出部８での演算負荷が軽くなる、という利点が得られる。以下に、この有声／無声判定部１１を導入したときの動作フローを説明する。

図８は図７に示す音声波形補間装置の動作を表すフローチャートである。本図において、
ステップＳ１１：パケットを正常受信したか否か判定する。
ステップＳ１２：上記の正常受信が行われると（ＹＥＳ）、その１パケットデータ（音声データ）を取り込み、
ステップＳ１３：その入力音声データＤ_inを音声格納部２に格納する。

ステップＳ１４：さらに上記の有声／無声判定部１１は、音声データＤ_inについて有声部分と無声部分との分別処理を行い、
ステップＳ１５：その分別結果による判定を行う。

ステップＳ１６：上記の判定により有声であると判定されると、音声データの振幅包絡（ＥＶ）と、その振幅の最大値とが算出され、
ステップＳ１７：一方、上記の判定により無声であると判定されると、その無声音声の振幅の平均値（すなわち、有声音声の振幅の最小値）が算出されて、
ステップＳ１８：これらの算出データが振幅情報格納部９に保持される。

ステップＳ１９：上記の初期ステップＳ１１においてパケットの正常受信が行われなかった旨（パケット消失）の判定がなされると、ステップＳ１８で保持している振幅情報を元に上記音声波形判定部７による判定を行い、
ステップＳ２０：上述したとおりの、補間波形生成部３による補間音声データＤ_cの生成を行う。

ステップＳ２１：さらに入力音声データＤ_inと補間音声データＤ_cとの滑らかな結合を波形結合部４にて行い、
ステップＳ２２：出力音声データＤ_outを得る。ここで、上記のステップＳ１９についてさらに詳しく説明する。

図９は図８のステップＳ１９をさらに詳細に示すフローチャートである。本図において、
ステップＳ３１：音声波形判定部７は、補間音声波形の候補としようとしている、振幅包絡ＥＶ（図３）上における位置での振幅変化率を調べる。この振幅変化率の小さいところには、補間波形としては不適切な箇所が含まれている。

ステップＳ３２：しかし振幅変化率の小さい箇所の中から、以下の３段階の判定で補間波形として不適切な箇所の判定を行う。まず（振幅値−振幅最小値）＜無声音直前区間判定閾値ならば、即座に補間波形としては不適当とし、判定フラグをＯＦＦ（使用不可）とする。

ステップＳ３３：上記の不等式の成立が「否」であれば、次に、（振幅値−振幅最小値）＜極小値判定閾値１の不等式が成立するか調べ、
ステップＳ３４：その不等式が成立すると（ＹＥＳ）、さらに（振幅最大値−振幅値）＜極小値判定閾値２の不等式が成立するか調べて、
ステップＳ３５：この不等式が成立すると（ＹＥＳ）、最終的に当該音声データの補間波形としての使用は不可とされる（判定フラグ＝ＯＦＦ）。要するに、前述の図３を参照すると、例えば本図中の振幅範囲“ＴＨ”内に入ったときは、使用不可とする。

ステップＳ３６：したがって上記ステップＳ３１，Ｓ３３およびＳ３４の判定結果のいずれかが“ＮＯ”であれば、当該音声データは補間波形として使用が許可される（判定フラグ＝ＯＮ）。

図１０は音声波形補間装置の第３例を示す図であり、
図１１は音声波形補間装置の第４例を示す図である。

要約すればこれら第３例と第４例は、音声格納部２に記憶された音声データＤ_inと振幅情報格納部９に格納された振幅情報とを元に、音声波形判定部７において補間音声データＤ_cとして適切か否かの判定をする際の振幅判定閾値Ｔ１を設定する判定閾値設定部１２をさらに備える音声波形補間装置を示すと共に、
話者識別部１４をさらに備え、上記の振幅判定閾値Ｔ１を、識別された話者ごとに設定するようにした音声波形補間装置（図１１）を示し、また
振幅使用範囲設定部１３をさらに備え、この振幅使用範囲設定部１３は、音声波形判定部７において使用する振幅情報のうちのどの範囲を使用すべきかを設定するようにした音声波形補間装置（図１０、図１１）を示す。

判定閾値設定部１２は、時々刻々と変化する音声データＤ_inに対応するために、音声波形判定を行う際の判定閾値Ｔ１を、音声格納部２の音声データと、振幅情報格納部９の振幅情報を元にして算出して、判定閾値格納部１５に格納する。なお、各種判定閾値の具体例を以下に示す。

・呼気段落末判定閾値＝（無声音区間）振幅平均値×１．２
・極小値判定閾値１＝（有声音声区間）振幅最小値×１．２（図９のＳ３３参照）
・極小値判定閾値２＝（有声音声区間）振幅最大値×０．８（図９のＳ３４参照）

一方、図１０と図１１の振幅使用範囲設定部１３では、音声波形判定部７で使用する振幅情報の使用範囲を設定する。振幅情報の使用範囲の設定の仕方としては、（ｉ）時間の範囲として設定したり、（ii）有声／無声判定部１１の判定結果を参照して、２つの無声音区間で挟まれた有声音区間を振幅の使用範囲として設定したり、（iii）有声／無声判定部１１の判定結果を参照して、一呼気段落を振幅の使用範囲として設定することが考えられる。

上記（ｉ）〜（iii）をさらに詳しく説明すると、
（ｉ）例えばパケットロス消失前の３秒間といった時間を指定し、
（ii）有声／無声判定部１１の判定結果より、無声と無声とで挟まれた区間を振幅使用範囲に設定するが、無声は、背景雑音だけの区間だけでなく、摩擦音（例えば「サ行」の音の子音部分）や、破裂音（例えば「タ行」の音の子音部分）も含むものとし、
（iii）有声／無声判定部１１の判定結果より、一呼気段落すなわち一息でしゃべる範囲を振幅使用範囲に設定する。

図１０および図１１の音声波形判定部７では、振幅情報格納部９の振幅情報、判定閾値格納部１５の判定閾値、振幅使用範囲格納部１６の振幅使用範囲を用いて、音声波形が繰り返して使用可能な音声波形か否かの判定を行う。

また、振幅使用範囲格納部１６内に保持された振幅使用範囲内にある振幅情報を振幅情報格納部９から得て、振幅最小値、振幅最大値等を算出する。さらに、判定閾値格納部１５の判定閾値を用いて判定するが、このときの判定方法については、図９に示すフローチャートのとおりである。

図１１の第４例における話者識別部１４は、音声格納部２の音声データＤ_inを元に、話者の識別を行う。話者の識別方法については、音声データをＦＦＴ（Fast Fourier Transform）によって周波数変換し、その平均周波数や、フォルマントを調べることによって識別することが可能である。話者によって、母音から子音に移行するときの振幅変化率は異なるし、極小値部分の子音の振幅平均値もまた異なるし、さらにまた振幅最大値と振幅最小値の差も異なる。そこで、判定閾値格納部１５には、話者別の閾値情報を格納するものとする。

音声パケットの消失が生じた場合には、音声格納部２の音声データから話者識別を行い、音声波形判定部７では、判定閾値格納部１５内に保持された話者別の閾値情報を使用することにより、波形の判定を行うが、このとき話者別の閾値を用いることによって、判定性能をさらに向上させることができる。

波形補間の方法は前述したとおり種々考えられる。例えば前述の図５や図６に示す方法であるが、さらにもう１つの態様を示しておく。

図１２は図１４（Ａ）の波形を変形した一例（Ａ）と、前方音声データにより補間された音声波形（Ｂ）を示す図である。本図の波形生成の例は、消失パケットＰ_aの前方音声波形データのみを用いて、補間区間（Ｗ区間）の波形生成を行う例である。パケットロス区間（Ｐ_a）の直前区間（Ｕ区間）の音声波形が波形の繰り返し使用には不適当と判定された場合に、さらに前方パケット（Ｖ区間）の判を行い、その結果、波形繰り返し使用として適切と判定された場合には、Ｖ区間の波形をＷ区間に繰り返して配置し、さらにＵ区間の波形を続けて配置することによって、補間区間Ｗの波形ＰＶを生成する。

さらに別の態様として、消失パケットの後方の音声波形データを用いる場合において、その消失パケット区間の直後の区間が波形の繰り返し使用に不適当と判定されたときには、さらにその後方のパケットの判定を行い、そこが繰り返し使用として適切と判定された場合には、まず繰り返し使用が適当とされた上記の区間の波形を一度だけ配置し、上記の後方パケットの波形を繰り返し使用してつなげることにより、補間区間Ｗの波形を生成することもできる。

図１３は図６および図１２に示すような波形補間を行うときの動作を表すフローチャートである。本図において、
ステップＳ４１：補間波形設定機能部５において、判定の対象となる入力音声信号（Ｄ_in）を得る。

ステップＳ４２：その入力音声信号をなすパケットは、消失パケットの前方パケットか後方パケットかを判定し、
ステップＳ４３：前方パケットであれば、その波形（図１２のＵ区間参照）について判定する。

ステップＳ４４：その判定結果により、その前方パケットが補間区間での繰り返し使用に不適当とされると（ＮＯ）、
ステップＳ４５：さらに１つ前方のパケット（図１２のＶ区間）を判定の対象として、同様の操作を繰り返し、
ステップＳ４６：ステップＳ４４にて、補間区間での繰り返し使用として適切と判定されると（ＹＥＳ）、その適切とされた前方波形によりその補間区間での波形が生成される。また別の補間の仕方は次のとおりである。

ステップＳ４７：上記ステップＳ４２において、入力音声信号をなすパケットが、消失パケットの前方パケットか後方パケットかを判定し、後方パケットであれば、その波形（図６のＰ_r参照）について判定する。

ステップＳ４８：その判定結果により、その後方パケットが補間区間での繰り返し使用に不適当とされると（ＮＯ）、
ステップＳ４９：さらに１つ後方のパケットを判定の対象として、同様の操作を繰り返し、
ステップＳ５０：ステップＳ４８にて、補間区間での繰り返し使用として適切と判定されると（ＹＥＳ）、その適切とされた後方波形によりその補間区間での波形が生成される。

以上詳述した本発明の音声波形補間装置は、方法のステップとして表現することもできる。すなわち、記憶した音声データＤ_inの一部を、該音声データの他の一部で補間した音声データを生成する音声波形補間方法であって、（ｉ）音声データＤ_inを記憶する第１ステップと、（ii）その音声データの一部が、補間すべき補間音声データＤ_cとして適切か否かを判定し、適切と判定された音声データを選択して、これを補間音声データＤ_cとして設定する第２ステップと、（iii）第１ステップ（ｉ）で記憶した音声データと、第２ステップ（ii）で設定された補間音声データＤ_cとを結合する第３ステップと、を有する音声波形補間方法である。

さらに第２ステップ（ii）において、第１ステップ（ｉ）で記憶された音声データＤ_inについてその振幅情報を分析する分析ステップと、その分析結果に基づいて補間音声データＤ_cとして適切か否かを判定する音声波形判定ステップを含む音声波形補間方法である。

また本発明は音声波形補間プログラムとしても表現でき、コンピュータに、記憶した音声データＤ_inの一部を該音声データの他の一部で補間した音声データを生成させるようにした音声波形補間プログラムであって、（ｉ）音声データＤ_inを記憶する第１ステップと、（ii）その音声データの一部が、補間すべき補間音声データＤ_cとして適切か否かを判定し、適切と判定された音声データを選択して、これを補間音声データＤ_cとして設定する第２ステップと、（iii）第１ステップ（ｉ）で記憶した音声データと、第２ステップ（ii）で設定された補間音声データとを結合する第３ステップと、を実行させる音声波形補間プログラムである。

Claims

音声データを記憶する音声格納部と、
前記音声データの一部を、該音声データの他の一部で補間した音声データを生成する補間波形生成部と、
前記音声格納部からの音声データと、その一部を代替する前記補間波形生成部からの補間音声データとを結合する波形結合部と、
前記音声データの一部が、前記補間波形生成部にて補間すべき補間音声データとして適切か否かを判定し、適切と判定された音声データを選択して、これを前記補間音声データとして設定する補間波形設定機能部と、を有し、
前記補間波形設定機能部は、
前記音声格納部からの前記音声データについてその振幅情報を分析する振幅情報分析手段と、
その分析結果に基づいて前記補間音声データとして適切か否かを判定する音声波形判定部とを含み、
前記振幅情報分析手段は、前記音声データの振幅値を計算して時間方向の振幅値を得る振幅値算出部と、その算出した振幅値を振幅情報として一旦記憶する振幅情報格納部とを有し、
前記音声波形判定部は、前記時間方向の振幅情報から特定される振幅包絡上の位置から前記補間音声データとして適切か否かを判定するものであって、代替の候補としての前記補間音声データの前記振幅包絡上における位置が、少なくとも、振幅極小値をとる位置かあるいは無声音区間の直前位置であると判定したときに、当該部分の音声データを前記補間音声データとして採用せず、当該部分の音声データ以外の位置での別の音声データか、あるいは背景雑音区間を探索することを特徴とする音声波形補間装置。
前記音声格納部に記憶された前記音声データを有声部分と無声部分とに分類して判定する有声／無声判定部をさらに備え、判定された有声部分についてはその振幅最大値と振幅変動率を前記振幅値算出部にて算出してその結果を前記振幅情報格納部に保持し、判定された無声部分についてはその振幅平均値を前記振幅値算出部にて算出してその結果を前記振幅情報格納部に保持することを特徴とする請求項１に記載の音声波形補間装置。
パケット通信システムに使用される音声波形補間装置であって、
逐次受信する各パケットのうち、正常に受信した各パケットが有する音声データを順次記憶する音声格納部と、
パケットの消失により前記音声データの一部に欠落を生じたとき、該欠落部を前記音声データの他の一部で補間した音声データを生成する補間波形生成部と、
前記音声格納部に格納された音声データと、その一部を代替する前記補間波形生成部からの補間音声データとを結合する波形結合部と、
前記音声データの一部が、前記補間波形生成部にて補間すべき補間音声データとして適切か否かを判定し、適切と判定された音声データを選択して、これを前記補間音声データとして設定する補間波形設定機能部と、を有し、
前記補間波形設定機能部は、
前記音声格納部からの前記音声データについてその振幅情報を分析する振幅情報分析手段と、
その分析結果に基づいて前記補間音声データとして適切か否かを判定する音声波形判定部とを含み、
前記振幅情報分析手段は、前記音声データの振幅値を計算して時間方向の振幅値を得る振幅値算出部と、その算出した振幅値を振幅情報として一旦記憶する振幅情報格納部とを有し、
前記音声波形判定部は、前記時間方向の振幅情報から特定される振幅包絡上の位置から前記補間音声データとして適切か否かを判定するものであって、代替の候補としての前記補間音声データの前記振幅包絡上における位置が、少なくとも、振幅極小値をとる位置かあるいは無声音区間の直前位置であると判定したときに、当該部分の音声データを前記補間音声データとして採用せず、当該部分の音声データ以外の位置での別の音声データか、あるいは背景雑音区間を探索することを特徴とする音声波形補間装置。
音声編集／加工処理システムに使用される音声波形補間装置であって、
一連の音声データを構成する多数の音声素片を蓄積して保持する音声格納部と、
前記一連の音声データの一部を、前記音声素片の繰り返し使用により補間した音声データを生成する補間波形生成部と、
前記音声格納部に格納された音声データと、その一部を代替する前記補間波形生成部からの補間音声データとを結合する波形結合部と、
前記音声データの一部が、前記補間波形生成部にて補間すべき補間音声データとして適切か否かを判定し、適切と判定された音声データを選択して、これを前記補間音声データとして設定する補間波形設定機能部と、を有し、
前記補間波形設定機能部は、
前記音声格納部からの前記音声データについてその振幅情報を分析する振幅情報分析手段と、
その分析結果に基づいて前記補間音声データとして適切か否かを判定する音声波形判定部とを含み、
前記振幅情報分析手段は、前記音声データの振幅値を計算して時間方向の振幅値を得る振幅値算出部と、その算出した振幅値を振幅情報として一旦記憶する振幅情報格納部とを有し、
前記音声波形判定部は、前記時間方向の振幅情報から特定される振幅包絡上の位置から前記補間音声データとして適切か否かを判定するものであって、代替の候補としての前記補間音声データの前記振幅包絡上における位置が、少なくとも、振幅極小値をとる位置かあるいは無声音区間の直前位置であると判定したときに、当該部分の音声データを前記補間音声データとして採用せず、当該部分の音声データ以外の位置での別の音声データか、あるいは背景雑音区間を探索することを特徴とする音声波形補間装置。
記憶した音声データの一部を、該音声データの他の一部で補間した音声データを生成する音声波形補間方法において、
前記音声データを記憶する第１ステップと、
前記音声データの一部が、前記の補間すべき補間音声データとして適切か否かを判定し、適切と判定された音声データを選択して、これを前記補間音声データとして設定する第２ステップと、
前記第１ステップで記憶した音声データと、前記第２ステップで設定された前記補間音声データとを結合する第３ステップと、を有し、
前記第２ステップは、
前記第１ステップで記憶された前記音声データについてその時間方向の振幅情報を分析する分析ステップと、
その分析結果に基づいて前記時間方向の振幅情報から特定される振幅包絡上の位置から前記補間音声データとして適切か否かを判定する音声波形判定ステップを含み、該音声波形判定ステップにおいて、代替の候補としての前記補間音声データの前記振幅包絡上における位置が、少なくとも、振幅極小値をとる位置かあるいは無声音区間の直前位置であると判定したときに、当該部分の音声データを前記補間音声データとして採用せず、当該部分の音声データ以外の位置での別の音声データか、あるいは背景雑音区間を探索することを特徴とする音声波形補間方法。
コンピュータに、記憶した音声データの一部を、該音声データの他の一部で補間した音声データを生成させるようにした音声波形補間プログラムであって、
前記音声データを記憶する第１ステップと、
前記音声データの一部が、前記の補間すべき補間音声データとして適切か否かを判定し、適切と判定された音声データを選択して、これを前記補間音声データとして設定する第２ステップと、
前記第１ステップで記憶した音声データと、前記第２ステップで設定された前記補間音声データとを結合する第３ステップと、を実行させ、かつ
前記第２ステップは、
前記第１ステップで記憶された前記音声データについてその時間方向の振幅情報を分析する分析ステップと、
その分析結果に基づいて前記時間方向の振幅情報から特定される振幅包絡上の位置から前記補間音声データとして適切か否かを判定する音声波形判定ステップであって、代替の候補としての前記補間音声データの前記振幅包絡上における位置が、少なくとも、振幅極小値をとる位置かあるいは無声音区間の直前位置であると判定したときに、当該部分の音声データを前記補間音声データとして採用せず、当該部分の音声データ以外の位置での別の音声データか、あるいは背景雑音区間を探索するステップ
を実行させることを特徴とする音声波形補間プログラム。