JP2024043720A

JP2024043720A - 調波音・背景音を用いた音声補償プログラム、装置及び方法

Info

Publication number: JP2024043720A
Application number: JP2022148871A
Authority: JP
Inventors: 俊治堀内
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2024-04-02

Abstract

【課題】より不快感の少ない音声補償を実施可能な音声補償プログラムを提供する。
【解決手段】本プログラムは、音声信号の欠損部分を補償する音声補償プログラムであり、音声信号における欠損部分の前の信号部分に基づき、又は予め設定された周波数条件に基づき、特定の周波数成分を有する音響信号である調波音信号を生成する調波音生成手段と、調波音信号を含む補償信号を欠損部分に挿入する補償信号挿入手段としてコンピュータを機能させる。また本音声補償プログラムは、予め用意された若しくは周囲の音として取得された音響信号に基づき、又は欠損部分の前の信号部分に基づき、所定の低周波数帯でピークをなす振幅スペクトルを有する音響信号である背景音信号を生成する背景音生成手段と、調波音信号と背景音信号とから補償信号を生成する補償信号生成手段としてコンピュータを更に機能させることも好ましい。
【選択図】図１

Description

本発明は、音声信号の欠損部分を補償する技術に関する。

現在、音声パケットを利用したデジタル音声通信が盛んに行われている。デジタル音声通信においては、パケットロスの発生や通信路容量の制約等によって、音声信号に時間的な欠損部分が生じることもあり得る。このような欠損部分を有する音声信号は、受聴者に不快感を与え、主観品質（ユーザ体感品質）を著しく低下させることが懸念される。また、このような音声信号における欠損部分の発生は、インターネット回線を利用したマルチメディア通信やストリーミング再生等でも大きな問題となっている。

例えば、リアルタイム性をそれほど要求されない音声伝送では、同一の音声データを繰り返し送信することによって、この欠損部分を補完することもできる。これに対し、音声通信等のリアルタイム性が強く求められる音声伝送においては、欠損部分の補完方法として従来、パケットロス隠蔽（ＰＬＣ, Packet Loss Concealment）が提案されてきた。

ＰＬＣは、非特許文献１（ＩＴＵ-Ｔ勧告 G.711, Appendix I）において標準化された欠損補完方法であり、このＰＬＣとして具体的に、波形置換法や予測置換法が提唱されている。ここで、この標準化されたＰＬＣは、断続長が60ms（ミリ秒）以下のパケットロスにしか対応できず、実際このＰＬＣによっても、60msを超えた欠損部分は無音となってしまう。これは、相当に長時間のパケットロスが発生した音声信号では、音声波形の物理的修復がもはや困難であることによる。しかしながら現状、60msを超える長時間のパケットロスは頻繁に発生しており、この標準化されたＰＬＣでは、このようなパケットロスの発生に対し厳密に対処することは不可能となっている。

そこで現在、長時間のパケットロスの発生にも対応可能な欠損補完方法が検討されている。例えば非特許文献２に開示されているように、人間の脳における特に聴覚を司る部分には、劣悪な条件下でも音声による円滑なコミュニケーションを可能にするための様々な機構が存在する。その１つが、非特許文献３及び４で詳細に説明されている連続聴効果（音素修復現象、音韻修復現象）である。

連続聴効果は、音声信号の欠損部分が、音声とは無関係な音響信号で満たされることによって、途切れているはずの音が滑らかにつながって知覚される現象であり、聴覚の錯覚現象の１つとして捉えられている。このような聴覚における錯覚が生じる仕組みを解明して当該錯覚を音声信号処理に応用すべく、現在、例えば非特許文献５に開示されたような有効な連続聴効果を生じさせるための研究が、盛んに進められている。

ＩＴＵ-Ｔ勧告 G.711, Appendix I, "A high quality low-complexity algorithm for packet loss concealment with G.711", １９９９年 R. M. Warren, "Auditory Perception: A New Analysis and Synthesis", Cambridge University Press, Cambridge, １９９９年 G. A. Miller and J. C. R. Licklider, "The intelligibility of interrupted speech", Journal of the Acoustical Society of America, vol.22, pp.167-173, １９５０年 R. M. Warren, "Perceptual restoration of missing speech sounds", Science. 167, pp.392-393, １９７０年 M. Kashino, "Phonemic Restoration: The brain creates missing speech sounds", Acoustical Science and Technology, 27(6), pp.318-321, ２００６年 B. C. J. Moore, "An Introduction to the Psychology of Hearing", 5th Edition, Emerald Group Publishing Ltd, ２００３年

しかしながら、上述した連続聴効果を有効に生じさせるためには、非特許文献５において指摘されているように、（条件１）欠損部分に十分に大きなパワーを持つ音響信号が挿入され、マスキング効果が生じること、及び（条件２）欠損部分に隙間なく音響信号が挿入され、欠損部分の開始時において音の途切れが知覚されないこと、が必要であるとされてきた。

したがって従来、連続聴効果を用いた音声補完の方法として、ハイパワーの広帯域雑音（ホワイトノイズ）を、欠損部分に隙間なく挿入するやり方が提案されてきたのみであった。またそれ故、このような従来の方法では、音声補完処理が施されたにもかかわらず依然、受聴者に不快感が残り、例えば音声通信における主観品質の向上も困難となっていたのである。

そこで、本発明は、より不快感の少ない音声補償を実施可能な音声補償プログラム、装置及び方法を提供することを目的とする。

本発明によれば、音声信号の欠損部分を補償する音声補償プログラムであって、
当該音声信号における当該欠損部分の前の信号部分に基づき、又は予め設定された周波数条件に基づき、特定の周波数成分を有する音響信号である調波音信号を生成する調波音生成手段と、
当該調波音信号を含む補償信号を当該欠損部分に挿入する補償信号挿入手段と
してコンピュータを機能させる音声補償プログラムが提供される。

この本発明による音声補償プログラムの一実施形態として、調波音生成手段は、当該欠損部分の前の信号部分の基本周波数を決定し、又は当該予め設定された周波数条件としての基本周波数を取得し、当該基本周波数に係る基本波周波数成分と、当該基本周波数に対する高調波周波数に係る高調波周波数成分とを有する当該調波音信号を生成することも好ましい。

また調波音生成手段は、振幅が当初、当該欠損部分の前の信号部分の振幅に基づき決定された値をとり、その後時間とともに減少する当該調波音信号を生成することも好ましい。さらに、補償信号は少なくとも信号の先頭に当該調波音信号を含み、補償信号挿入手段は当該補償信号を、当該欠損部分の直前の信号部分に繋げる形で挿入することも好ましい。

さらに、本発明による音声補償プログラムの他の実施形態として、本音声補償プログラムは、
予め用意された若しくは周囲の音として取得された音響信号に基づき、又は当該音声信号における当該欠損部分の前の信号部分に基づき、所定の低周波数帯でピークをなす振幅スペクトルを有する音響信号である背景音信号を生成する背景音生成手段と、
当該調波音信号と当該背景音信号とから当該補償信号を生成する補償信号生成手段と
してコンピュータを更に機能させることも好ましい。

また、この背景音信号に係る実施形態において、背景音生成手段は、当該音響信号における又は当該欠損部分の前の信号部分における音声区間ではない信号部分に対し、当該音声区間の信号部分における振幅スペクトルに対応した周波数依存性を有する重み付け処理及び／又はフィルタ処理を施して当該背景音信号を生成することも好ましい。

さらに背景音生成手段は、当該周囲の音として取得された音響信号における音声区間の信号部分の振幅と、当該音声区間ではない信号部分の振幅との比が所定以下である場合、当該周囲の音として取得された音響信号に基づき、当該背景音信号を生成することも好ましい。

さらにまた、この背景音信号に係る実施形態において、補償信号生成手段は、当該調波音信号と当該背景音信号とを合成して、又は当該調波音信号の後に当該背景音信号を繋げて、当該補償信号を生成することも好ましい。

またこのうち合成して生成する場合において、補償信号生成手段は、当該欠損部分の時間長が所定以上である場合に、当該欠損部分の前の信号部分における音声区間の信号部分の振幅と、当該音声区間ではない信号部分の振幅との比について単調増加関数となる合成比を用い、当該調波音信号と当該背景音信号とを合成することによって、当該補償信号を生成することも好ましい。

本発明によれば、また、音声信号の欠損部分を補償する音声補償プログラムであって、
予め用意された若しくは周囲の音として取得された音響信号に基づき、又は当該音声信号における当該欠損部分の前の信号部分に基づき、所定の低周波数帯でピークをなす振幅スペクトルを有する音響信号である背景音信号を生成する背景音生成手段と、
当該背景音信号を含む補償信号を当該欠損部分に挿入する補償信号挿入手段と
してコンピュータを機能させる音声補償プログラムが提供される。

この本発明による音声補償プログラムの一実施形態として、本音声補償プログラムは、
当該音声信号における当該欠損部分の前の信号部分に基づき、又は予め用意された音響信号に基づき、調波音信号を生成する調波音生成手段と、
当該欠損部分の前の信号部分における音声区間の信号部分の振幅と、当該音声区間ではない信号部分の振幅との比が所定以上に低い場合、当該調波音信号と当該背景音信号とから当該補償信号を生成する補償信号生成手段と
してコンピュータを更に機能させることも好ましい。
本発明によれば、さらに、音声信号の欠損部分を補償する音声補償装置であって、
当該音声信号における当該欠損部分の前の信号部分に基づき、又は予め設定された周波数条件に基づき、特定の周波数成分を有する音響信号である調波音信号を生成する調波音生成手段と、
当該調波音信号を含む補償信号を当該欠損部分に挿入する補償信号挿入手段と
を有する音声補償装置が提供される。

本発明によれば、さらに、音声信号の欠損部分を補償する音声補償システムであって、
当該音声信号における当該欠損部分の前の信号部分に基づき、又は予め設定された周波数条件に基づき、特定の周波数成分を有する音響信号である調波音信号を生成する調波音生成手段と、
当該調波音信号を含む補償信号を当該欠損部分に挿入する補償信号挿入手段と
を有する音声補償システムが提供される。

本発明によれば、さらにまた、音声信号の欠損部分を補償する音声補償方法であって、
当該音声信号における当該欠損部分の前の信号部分に基づき、又は予め設定された周波数条件に基づき、特定の周波数成分を有する音響信号である調波音信号を生成するステップと、
当該調波音信号を含む補償信号を当該欠損部分に挿入するステップと
を有することを特徴とする、コンピュータによって実施される音声補償方法が提供される。

本発明の音声補償プログラム、装置及び方法によれば、より不快感の少ない音声補償を実施することができる。

本発明による音声補償装置の一実施形態における機能構成を示す機能ブロック図である。本発明による音声補償方法の一実施例を説明するためのスペクトログラム（声紋）である。

以下、本発明の実施形態について、図面を用いて詳細に説明する。

［音声補償装置］
図１は、本発明による音声補償装置の一実施形態における機能構成を示す機能ブロック図である。なお同機能ブロック図では、音声補償処理に関係しない機能構成部は省略されている。

図１に示した、本発明による音声補償装置の一実施形態としてのスマートフォン１は、例えば通信インタフェース部１０１によって受信した音声信号における欠損部分を補償し、音声補償処理の施された音声信号を、例えばスピーカ１０５から出力させる装置となっている。また本実施形態では、この音声補償処理は概ねリアルタイムで実施される。その結果、例えば他の通信端末（図１では他のスマートフォン１）との間で好適なデジタル音声通信が行われたり、マルチメディア通信やストリーミング再生等が好適に実施されたりするのである。

ここで一般に、音声パケットのやり取りによるデジタル音声通信では、パケットロスの発生や通信路容量の制約等によって、時間的な欠損部分の生じることが少なくない。また、このような音声信号における欠損部分の発生は、インターネット回線を利用したマルチメディア通信やストリーミング再生等でも発生し得る。スマートフォン１は、このような音声信号の欠損部分を補償することが可能となっているのである。

具体的にスマートフォン１は、このような音声補償処理を実施すべく、
（Ａ）（受信した）音声信号における欠損部分の前の信号部分に基づき、又は予め設定された周波数条件に基づき、特定の周波数成分を有する音響信号である「調波音信号」を生成する調波音生成部１１２と、
（Ｂ）生成された「調波音信号」を含む「補償信号」を欠損部分に挿入する補償信号挿入部１１１ｃと
を有することを特徴としている。

ここで上記（Ａ）の「調波音信号」は、上記のように特定の周波数成分を有する音響信号である。これに対し、音声信号の音声区間における振幅スペクトルの包絡は通常、複数のピークをなす。これらのピーク（に対応する周波数帯）はホルマントと呼ばれ、周波数の低い順に第１ホルマント、第２ホルマント、・・・と命名されている。これらのホルマントは、音声における母音に相当する重要な部分であり、音声における母音は、第１ホルマント及び第２ホルマントの周波数軸上での位置によって概ね決定される。

したがって、ある音声信号の少なくとも第１ホルマント及び第２ホルマントに概ね相当する周波数成分を有する「調波音信号」を生成し、生成した「調波音信号」をこの音声信号の後に繋げば、この音声信号に係る音声が、途切れることなく欠損区間でも引き続き発生しているような知覚（錯覚）を、受聴者に与えることが可能となるのである。

またこのような「調波音信号」は、例えば従来、音声欠損の補完に用いられてきたハイパワーのホワイトノイズと比較すると、より小さな強度（振幅）の信号とすることができる。さらに「調波音信号」は上述したように、雑音ではなく、むしろ音声の母音に近い音響を知覚させる信号となっている。スマートフォン１は、このような好適な「調波音信号」を含む「補償信号」を欠損部分に挿入するので、より不快感の少ない、また（音声通信ならば）主観品質のより向上した音声補償を実施することができるのである。

ちなみにスマートフォン１は、この後詳細に説明する実施形態として、さらに、
（Ｃ）予め用意された若しくは周囲の音として取得された音響信号に基づき、又は（受信した）音声信号における欠損部分の前の信号部分に基づき、所定の低周波数帯でピークをなす振幅スペクトルを有する音響信号である「背景音信号」を生成する背景音生成部１１３と、
（Ｄ）生成した「調波音信号」と「背景音信号」とから「補償信号」を生成する補償信号生成部１１４と
を有することも好ましい。この「背景音信号」も「補償信号」に用いることによって、連続聴効果を奏することができ、より長時間のパケットロスに係る音声欠損も好適に修復可能となるのである。

さらに本発明においては、上記（Ａ）の調波音生成部１１２、上記（Ｃ）の背景音生成部１１３、及び上記（Ｄ）の補償信号生成部１１４が別の装置に含まれ、上記（Ｂ）の補償信号挿入部１１１ｃを備えた音声補償装置（例えばスマートフォン）に、生成した補償信号を送信する、といったような形態をとることも可能である。さらに例えば、調波音も背景音もそれぞれ別の装置で生成されたり、予め生成されて準備されていたりする場合もあり得る。いずれにしてもこのような場合、これらの機能構成部は全体として、本発明による音声補償システムを構成することになるのである。

［装置構成，音声補償プログラム・方法］
以下、本発明による音声補償装置の一実施形態としてのスマートフォン１の機能構成について、より詳細に説明を行う。同じく図１の機能ブロック図において、スマートフォン１は、通信インタフェース１０１と、音声データバッファ１０２と、音響信号保存部１０３と、補償信号保存部１０４と、スピーカ（ＳＰ）１０５と、マイクロフォン（ＭＣ）１０６と、プロセッサ・メモリ（メモリ機能を備えた演算処理系）とを有する。ここで、プロセッサ・メモリは、本発明による音声補償プログラムを保存しており、また、コンピュータ機能を有していて、この音声補償プログラムを実行することによって音声補償処理を実施する。

ここで、本発明による音声補償装置は勿論、スマートフォンに限定されるものではなく、本発明による音声補償プログラムを搭載した、音声補償処理専用の装置、汎用のクラウドサーバ、非クラウド型サーバ、パーソナルコンピュータ（ＰＣ）、ノート型若しくはタブレット型コンピュータや、ウェアラブルデバイス、さらには（各種コンテンツの音声信号を含めた）音声信号を受信可能な他の通信端末等であってもよい。

また、プロセッサ・メモリは、機能構成部として、コーデック部１１１ａ、欠損検出部１１１ｂ及び補償信号挿入部１１１ｃを含む音声信号処理部１１１と、基本波・高調波生成部１１２ａを含む調波音生成部１１２と、音声区間スペクトル生成部１１３ａ及び重み付け処理部１１３ｂを含む背景音生成部１１３と、合成比決定部１１４ａを含む補償信号生成部１１４と、入出力制御部１２１とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された、本発明による音声補償プログラムの実行によって具現する機能と捉えることができる。また、図１の機能ブロック図におけるスマートフォン１の機能構成部間を矢印で接続して示した処理の流れは、本発明による音声補償方法の一実施形態としても理解される。

なお以下に説明する実施形態において、スマートフォン１は、音声通信における音声信号の欠損部分の補償処理を実施する。しかしながら、スマートフォン１は勿論、音声通信以外の、音声信号に係る通信（例えばマルチメディア通信やストリーミング再生等）における音声補償処理を、以下と同様の方法で実施することも可能となっている。

＜音声信号処理手段＞
同じく図１の機能ブロック図において、音声信号処理部１１１は、音声通信に係る音声信号を処理し、通信インタフェース部１０１及び通信設備２を介した他の通信端末とのデジタル音声通信（音声パケットの送受信）を可能にする機能構成部である。最初にコーデック部１１１ａは、
（ａ）受信した（エンコードされた）音声パケットをデコードして音声信号（デジタル音声波形データ）を生成し、さらに、
（ｂ）音声の入力されたマイクロフォン１０６から入出力制御部１２１を経て取得された音声信号（デジタル音声波形データ）をエンコードして音声パケットを生成する
処理を実施する。

ここで、上記（ａ）で生成された音声信号は、入出力制御部１２１を介してスピーカ１０５から出力され、また、上記（ｂ）で生成されたこの音声パケットは、通信インタフェース部１０１から送信されるのである。また、以上に述べた音声信号（デジタル音声波形データ）は本実施形態において、時間軸上の波形データ、振幅スペクトル、パワースペクトルや、スペクトログラム等、種々の形式のデータとすることが可能となっている。

次に、欠損検出部１１１ｂは、生成された音声信号の欠損部分を検出する。具体的には、音声信号（デジタル音声波形データ）のフレーム毎に、振幅（信号強度）の時間変化、振幅スペクトルや、パワースペクトルを得て、振幅又はパワーが所定の下限閾値以下となっている時間区間を特定し、そこを欠損部分とすることができる。また、デコード後の音声信号に付与される、無音区間を示す符号‘sil’を検出して、これにより欠損部分を決定してもよい。なお、補償信号挿入部１１１ｃについては後に詳細に説明を行う。

＜調波音生成手段＞
同じく図１の機能ブロック図において、調波音生成部１１２は、（ａ）受信された音声信号における検出された欠損部分の前の信号部分、本実施形態では直前の所定短時間でのフレームに基づき、又は（ｂ）予め設定された周波数条件に基づき、調波音信号を生成する。

具体的に本実施形態では、最初に調波音生成部１１２の基本波・高調波生成部１１２ａが、
（ａ）欠損直前の信号部分の基本周波数を、例えば周波数解析によって決定し、又は
（ｂ）予め設定された周波数条件としての基本周波数（例えば音声に対するマスキング効果が期待される130Hz）を取得し、
この基本周波数に係る基本波周波数成分を有する基本波と、この基本周波数に対する高調波周波数に係る高調波周波数成分を有する高調波（例えば２次から５０次までの高調波）とを生成する。ここで、音声信号の基本周波数は通常、500Hz以下であって例えば100Hzから200Hzまでの間の周波数となる。

次いで調波音生成部１１２は、生成した基本波とこれらの高調波とを、所定の振幅比（例えば基本波の振幅に対し高次の高調波ほどより小さい振幅となるような振幅比）の下で合成して、当該基本波周波数成分及び当該高調波周波数成分を有する調波音信号（以下、調波複合音信号とも称する）を生成する。

一般に音声信号は、特定の周波数帯に音響エネルギーが集中し、母音に概ね対応する調波構造を有する信号となっている。このような音声信号における基本周波数（又は音声へのマスキング効果を考慮して設定された基本周波数）に基づき生成された調波複合音信号は、この音声信号の少なくとも第１ホルマント及び第２ホルマントに対しマスキング効果を奏し得る信号となっている。またこのような調波複合音信号を、欠損部分の直前となる音声信号部分に隙間なく繋げば、この音声信号部分に係る音声が、途切れることなく引き続き発生しているような知覚（錯覚）を、受聴者に与えることも可能となる。さらに、このような調波複合音信号は、音声の母音に近い音響を知覚させる信号となっており、その結果、より不快感（違和感）の少ない、また音声通信における主観品質のより向上した音声補償を実施することができるのである。

なお、調波複合音信号は、欠損部分の時間長が所定時間（例えば60ms）を超えている場合、この欠損部分の全体にわたり生成されなくともよい。すなわち、連続聴効果を生起させるべく、欠損部分における最初の所定時間（例えば60ms）分だけ生成されることも好ましい。

さらに本実施形態において、この調波複合音信号は、振幅が当初、欠損直前の信号部分の振幅に基づき決定された値（例えば当該振幅と同じ値）をとり、その後時間とともに減少する信号、例えば200msにわたって振幅が20％減衰する信号、に調整される。このような振幅を備えた調波複合音信号は、例えば従来、音声欠損の補完に用いられてきたハイパワーのホワイトノイズと比較すると、より小さな強度（振幅）の信号とすることができる。また、このような調波音信号は、（音圧レベルが時間的に一定ではない）音声信号により近づいた信号であり、また上述したように音声の母音に近い音響を知覚させる信号となっている。その結果、より不快感（うるさい感覚）の少ない、また音声通信における主観品質のより向上した音声補償を実施することが可能となる。

なお、以上述べたように生成された調波複合音信号は、音響信号保存部１０３にバッファ又は保存されることも好ましい。特に、（ｂ）予め設定された周波数条件に基づき生成された調波複合音信号は、予め音響信号保存部１０３に保存され、必要時に適宜読み出されて音声補償処理に使用されることも好ましい。

＜背景音生成手段＞
同じく図１の機能ブロック図において、背景音生成部１１３は、
（ア）例えば音響信号保存部１０３において、予め用意された音響信号、
（イ）例えばマイクロフォン１０６によって、（受信側の）周囲の音として取得された音響信号、又は
（ウ）受信された音声信号における、欠損部分の前の（送信側の周囲の音を含む）信号部分
に基づき、所定の低周波数帯でピークをなす振幅スペクトルを有する音響信号である背景音信号を生成する。

具体的に、背景音生成部１１３は本実施形態において、上記（ア）又は（イ）の音響信号における（又は上記（ウ）の信号部分における）音声区間ではない信号部分に対し、この音声区間の信号部分における振幅スペクトルに対応した周波数依存性を有する重み付け処理及びフィルタ処理のうちの一方又は両方を施して背景音信号を生成する。なお、上記の音声区間の振幅スペクトルは、音声区間スペクトル生成部１１３ａによって生成され、また上記の重み付け処理・フィルタ処理は、重み付け処理部１１３ｂによって実施される。

例えば、背景音生成部１１３は、当該音声区間の信号部分における（ある程度の）長時間における振幅スペクトルを生成し、この振幅強度の周波数依存性に合わせたゲインを有するバンドパスフィルタを用いて、上記の音声区間ではない信号部分に対しフィルタ処理を行い、背景音信号を生成してもよい。ここでバンドパスフィルタの通過帯域は例えば、通常の音声信号の第１ホルマント及び第２ホルマントをマスキング可能な50Hzから500Hzまでの周波数帯とすることができる。

また変更態様として、上記の音声区間ではない信号部分に対し通常のバンドパスフィルタ処理を行い、この処理後の信号部分における各周波数成分に対し、上記の振幅強度の周波数依存性に対応した重み付け処理を行ってもよい。さらに変更態様として、バンドパスフィルタ処理を行わずに、上記の音声区間ではない信号部分に対し直接、このような重み付け処理を実施することもできる。さらにまた、このような重み付け処理を実施せずに通常のバンドパスフィルタ処理だけを実施することも可能である。

いずれにしても、本実施形態の背景音生成処理では、上記（ア）～（ウ）の音響信号（信号部分）として、実環境に存在する背景音、例えば環境音（環境雑音）に相当する信号が用いられることも好ましい。一般に環境雑音は、（代表的な空調機雑音でもそうであるが）低周波数帯域に音響エネルギーが集中した音となっている。この点、ある周波数の音は、その周波数と比べて低い周波数の音よりも、高い周波数の音に対し高いマスキング効果を発揮することが知られている（非特許文献６を参照）。したがって、このような低周波数帯域に集中した環境雑音を背景音信号として用いることによって、より自然な不快感の少ない音声補償処理（欠損修復処理）を実施することが可能となるのである。またこのことから、背景音生成用の音響信号として、上記（イ）の受信側の音響信号（環境音）を用いることも非常に好ましいことが理解される。

さらに好適な変更態様として、上記（イ）の（受信側の）周囲の音として取得された音響信号の内容に応じて、背景音信号生成の基となる信号を、上記（ア）～（ウ）の中から選択することも好ましい。より具体的に例えば、上記（イ）の音響信号における音声区間の信号部分の振幅と、当該音声区間以外の信号部分の振幅との比（以下、音声背景振幅比と略称）が1未満（dBにして負値）である場合、すなわち受信側が高雑音環境下である場合、欠損修復後の雑音によるうるささの低減を考慮して、上記（イ）の音響信号を用いて、背景音信号を生成してもよい。一方、この音声背景振幅比が1以上（dBにして0dB以上）である場合には、上記（ア）の予め用意された音響信号を用いて、背景音信号を生成する設定であってもよい。ちなみにこの具体例では、上記（ウ）の欠損部分の前の（送信側の周囲の音を含む）信号部分は、ノイズサプレッサにより音声区間以外の振幅が抑制されていることも少なくなく、また上記（イ）の音響信号ほどには受話側での連続聴効果が期待できないことから、使用（選択）されない設定となっている。

また、背景音生成部１１３は、上記（イ）（又は上記（ウ））の周囲の音として取得された音響信号における音声区間の信号部分の振幅と、当該音声区間以外の信号部分の振幅との比（音声背景振幅比）が所定閾値を超えて低い場合（環境雑音が相対的により大きい場合）、この周囲の音として取得された音響信号に基づき、背景音信号を生成してもよい。この場合、補償信号は、この生成された背景音信号と調波音信号とから生成される。一方、上記以外の場合、背景音信号は生成されない設定とすることも可能である。この場合、補償信号は、調波音信号（調波複合音信号）のみから生成されることになる。

さらに、以上に説明した実施形態とは別の実施形態として、欠損部分に挿入される補償信号は、調波音信号（調波複合音信号）を含まず、上記のように生成された背景音信号のみとすることも可能である。この場合も、従来のホワイトノイズの挿入と比較して、より不快感の少ない音声補償を実施することができるのである。

＜補償信号生成手段＞
同じく図１の機能ブロック図において、補償信号生成部１１４は、生成された調波音信号（調波複合音信号）と生成された背景音信号とから補償信号を生成する。または、補償信号生成部１１４は上述したように、生成された調波音信号（調波複合音信号）をそのまま補償信号としてもよく、さらに、生成された背景音信号をそのまま補償信号とすることも可能である。ここで補償信号の時間長は、音声信号の欠損部分の時間長と同一に設定されることも好ましい。ただし、補償信号が調波音信号（調波複合音信号）そのままであって、またこの欠損部分の時間長が所定時間（例えば60ms）を超えている場合に、この補償信号は、連続聴効果を奏するのに十分なこの所定時間（60ms）だけの時間長を有する信号としてもよい。

本実施形態において、本補償信号生成部１１４は具体的に、
（ａ）生成された調波音信号と生成された背景音信号とを合成して、又は
（ｂ）生成された調波音信号の後に生成された背景音信号を繋げて、
補償信号を生成する。ここで上記（ａ）のように両信号を合成する際、単純に所定の合成比（合成に用いる両信号の振幅の比）、例えば１未満の合成比をもって合成してもよい。

また好適な変更態様として、補償信号生成部１１４は、上記（ウ）の欠損部分の時間長が所定以上（例えば60ms以上）である場合に、この欠損部分の前の信号部分における音声区間の信号部分の振幅と、当該音声区間ではない信号部分の振幅との比（音声背景振幅比）について単調増加関数となる合成比を用い、調波音信号と背景音信号とを合成することによって、当該補償信号を生成することも好ましい。

この場合例えば、最初に、生成された調波複合音信号の振幅を、欠損部分の前の信号部分における音声区間の信号の振幅と同一値に調整する。これにより、欠損部分の開始部付近で音の途切れや大きな変動を知覚させず、連続聴効果を奏功させることが可能となる。次いで、生成した背景音信号の振幅を、調整後の調波複合音信号の振幅を基準として0dBに調整する。これらの調整の上で、調波複合音信号と背景音信号との合成比を、
（ａ）欠損部分の時間長が60ms以下の場合は1（0dB）とし、
（ｂ）欠損部分の時間長が60msを超える場合、欠損部分の前の信号部分における音声背景振幅比が2（6dB）以下ならば0.7（-3dB）とし、音声背景振幅比が2（6dB）を超えるならば1（0dB）としてもよい。

このように、合成比を調整して生成した補償信号によれば、当該調整を適切に行った結果として、不快感（違和感、うるさい感覚）のより少ない音声補償を実施することも可能となるのである。

またさらに他の変更態様として、補償信号生成部１１４は、上記（ウ）の欠損部分の前の信号部分における音声区間の信号部分の振幅と、当該音声区間ではない信号部分の振幅との比（音声背景振幅比）が所定閾値を超えて高い場合（環境雑音が相対的により小さい場合）、調波音信号と背景音信号とから補償信号を生成し、それ以外の場合、背景音信号だけから補償信号を生成する設定であってもよい。または、この音声背景振幅比が所定閾値を超えて高い場合、調波音信号だけから補償信号を生成し、それ以外の場合、調波音信号と背景音信号とから補償信号を生成する設定にすることも可能である。

＜補償信号挿入手段＞
同じく図１の機能ブロック図において、音声信号処理部１１１の補償信号挿入部１１１ｃは、生成された補償信号を、検出された欠損部分に挿入する。ここで本実施形態では、補償信号は、（ａ）背景音信号との合成信号として又は（ｂ）調波音信号の後に背景音信号が繋がった形で、少なくとも信号の先頭に調波音信号を含む信号となっている。

補償信号挿入部１１１ｃは本実施形態において、このような補償信号を、受信された音声信号における欠損部分直前の信号部分に、隙間なく繋げる形で挿入する。これにより、受信された音声信号に係る音声が、途切れることなく欠損区間においても引き続き発生しているような知覚（錯覚）を、受聴者に与えることが可能となる。

ここでこのように好適に音声補償処理の施された音声信号は、本実施形態においてリアルタイムで（入出力制御部１２１を介し）スピーカ１０５へ出力される。実際、音声パケットの時間長は例えば20msであるが、以上に説明した補償信号生成・挿入処理の処理時間は、この20ms未満に収めることが可能となっている。その結果、このようなリアルタイムの音声通信を実現することができるのである。

［実施例］
図２は、本発明による音声補償方法の一実施例を説明するためのスペクトログラム（声紋）である。ちなみにスペクトログラムは、音声信号の振幅強度を（図２では濃淡となっているが）その色合いで示すグラフとなっている。

図２（Ａ）には、時間軸上で欠損部分を２つ有する、受信された欠損音声信号が示されている。ここで、本来受信したかった原音声信号と比較して、音声欠損が発生していることをより明確にするために、２つの欠損部分（欠損（時間）区間）が黒く塗りつぶされている。また図２（Ｂ）には、従来例として高い振幅強度のホワイトノイズ（白色雑音）を、これらの欠損部分に挿入した白色雑音挿入処理結果が示されている。このような従来の音声補完処理を施された音声信号は、受聴者にとって不快感（違和感，うるさい感覚）の高いものとなってしまう。

次に図２（Ｃ）に、実施例１として調波複合音信号からなる補償信号を、これらの欠損部分に挿入した調波音挿入処理結果を示す。ここで、挿入した調波複合音信号は、基本周波数が130Hzであって振幅強度が欠損部分直前の信号部分の振幅強度と同一となるように調整されている。この調波音挿入処理結果においては、欠損部分直前の信号部分の構造、特に母音の周波構造が、欠損部分においても途切れることなく引き続き概ね保たれていることが分かる。実際、この調波音挿入処理結果としての音声信号を聞いたところ、この音声信号に係る音声は、より不快感（違和感，うるさい感覚）の低減した音声となっていることが確認された。

最後に図２（Ｄ）に、実施例２として調波・背景合成音信号からなる補償信号を、これらの欠損部分に挿入した調波・背景合成音挿入処理結果を示す。ここで、挿入した調波・背景合成音信号は、
（ａ）基本周波数が130Hzであって振幅強度が欠損部分直前の信号部分の振幅強度と同一となるように調整された調波音信号と、
（ｂ）用意された音響信号に対し、通過帯域が50～500Hzのバンドパスフィルタ処理を施して生成された背景音信号と
を、所定の合成比で合成して生成されたものとなっている。

この調波・背景合成音挿入処理結果においては、欠損部分直前の信号部分における少なくとも第１ホルマント及び第２ホルマントに相当する低周波数帯が、欠損部分においてマスキングされており、且つ当該信号部分におけるより高周波での周波構造が、欠損部分においても引き続き概ね保たれていることが分かる。実際、この調波・背景合成音挿入処理結果としての音声信号を聞いたところ、この音声信号に係る音声も、より不快感（違和感，うるさい感覚）の低減した音声となっていることが確認された。

以上詳細に説明したように、本発明によれば、以上説明したような調波音信号及び／又は背景音信号からなる補償信号を用いて音声信号の欠損部分を補償するので、より不快感の少ない音声補償が実施可能となる。また、本発明を音声通信に適用すれば、音声通信における主観品質の向上に貢献することもできる。

また、例えば都市部だけでなく地方の子供達や受講者達に対し、本発明によって生成した不快感のより少ない音声補償信号を用いて、質の高い各種のオンライン授業の場を提供することができる。すなわち本発明によれば、国連が主導する持続可能な開発目標（ＳＤＧｓ）の目標４「すべての人々に包摂的かつ公平で質の高い教育を提供し、生涯学習の機会を促進する」に貢献することも可能となるのである。

さらに、例えば都市部だけでなく地方の大人達に対し、本発明によって生成した不快感のより少ない音声補償信号を用いて、質の高いオンラインでの仕事の打合せの場や、質の高いオンライン職業訓練の場を提供することもできる。すなわち本発明によれば、国連が主導するＳＤＧｓの目標８「すべての人々のための包摂的かつ持続可能な経済成長、雇用およびディーセント・ワークを推進する」に貢献することも可能となるのである。

以上に述べた本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１スマートフォン（音声補償装置）
１０１通信インタフェース
１０２音声データバッファ
１０３音響信号保存部
１０４補償信号保存部
１０５スピーカ（ＳＰ）
１０６マイクロフォン（ＭＣ）
１１１音声信号処理部
１１１ａコーデック部
１１１ｂ欠損検出部
１１１ｃ補償信号挿入部
１１２調波音生成部
１１１ａ基本波・高調波生成部
１１３背景音生成部
１１３ａ音声区間スペクトル生成部
１１３ｂ重み付け処理部
１１４補償信号生成部
１１４ａ合成比決定部
１２１入出力制御部
２通信設備

Claims

音声信号の欠損部分を補償する音声補償プログラムであって、
当該音声信号における当該欠損部分の前の信号部分に基づき、又は予め設定された周波数条件に基づき、特定の周波数成分を有する音響信号である調波音信号を生成する調波音生成手段と、
当該調波音信号を含む補償信号を当該欠損部分に挿入する補償信号挿入手段と
してコンピュータを機能させることを特徴とする音声補償プログラム。
前記調波音生成手段は、当該欠損部分の前の信号部分の基本周波数を決定し、又は当該予め設定された周波数条件としての基本周波数を取得し、当該基本周波数に係る基本波周波数成分と、当該基本周波数に対する高調波周波数に係る高調波周波数成分とを有する当該調波音信号を生成することを特徴とする請求項１に記載の音声補償プログラム。
前記調波音生成手段は、振幅が当初、当該欠損部分の前の信号部分の振幅に基づき決定された値をとり、その後時間とともに減少する当該調波音信号を生成することを特徴とする請求項１又は２に記載の音声補償プログラム。
前記補償信号は、少なくとも信号の先頭に当該調波音信号を含み、
前記補償信号挿入手段は、当該補償信号を、当該欠損部分の直前の信号部分に繋げる形で挿入する
ことを特徴とする請求項１又は２に記載の音声補償プログラム。
予め用意された若しくは周囲の音として取得された音響信号に基づき、又は当該音声信号における当該欠損部分の前の信号部分に基づき、所定の低周波数帯でピークをなす振幅スペクトルを有する音響信号である背景音信号を生成する背景音生成手段と、
当該調波音信号と当該背景音信号とから当該補償信号を生成する補償信号生成手段と
してコンピュータを更に機能させることを特徴とする請求項１又は２に記載の音声補償プログラム。
前記背景音生成手段は、当該音響信号における又は当該欠損部分の前の信号部分における音声区間ではない信号部分に対し、当該音声区間の信号部分における振幅スペクトルに対応した周波数依存性を有する重み付け処理及び／又はフィルタ処理を施して当該背景音信号を生成することを特徴とする請求項５に記載の音声補償プログラム。
前記背景音生成手段は、当該周囲の音として取得された音響信号における音声区間の信号部分の振幅と、当該音声区間ではない信号部分の振幅との比が所定以下である場合、当該周囲の音として取得された音響信号に基づき、当該背景音信号を生成することを特徴とする請求項５に記載の音声補償プログラム。
前記補償信号生成手段は、当該調波音信号と当該背景音信号とを合成して、又は当該調波音信号の後に当該背景音信号を繋げて、当該補償信号を生成することを特徴とする請求項５に記載の音声補償プログラム。
前記補償信号生成手段は、当該欠損部分の時間長が所定以上である場合に、当該欠損部分の前の信号部分における音声区間の信号部分の振幅と、当該音声区間ではない信号部分の振幅との比について単調増加関数となる合成比を用い、当該調波音信号と当該背景音信号とを合成することによって、当該補償信号を生成することを特徴とする請求項８に記載の音声補償プログラム。
音声信号の欠損部分を補償する音声補償プログラムであって、
予め用意された若しくは周囲の音として取得された音響信号に基づき、又は当該音声信号における当該欠損部分の前の信号部分に基づき、所定の低周波数帯でピークをなす振幅スペクトルを有する音響信号である背景音信号を生成する背景音生成手段と、
当該背景音信号を含む補償信号を当該欠損部分に挿入する補償信号挿入手段と
してコンピュータを機能させることを特徴とする音声補償プログラム。
当該音声信号における当該欠損部分の前の信号部分に基づき、又は予め用意された音響信号に基づき、調波音信号を生成する調波音生成手段と、
当該欠損部分の前の信号部分における音声区間の信号部分の振幅と、当該音声区間ではない信号部分の振幅との比が所定閾値を超えて低い場合、当該調波音信号と当該背景音信号とから当該補償信号を生成する補償信号生成手段と
してコンピュータを更に機能させることを特徴とする請求項１０に記載の音声補償プログラム。
音声信号の欠損部分を補償する音声補償装置であって、
当該音声信号における当該欠損部分の前の信号部分に基づき、又は予め設定された周波数条件に基づき、特定の周波数成分を有する音響信号である調波音信号を生成する調波音生成手段と、
当該調波音信号を含む補償信号を当該欠損部分に挿入する補償信号挿入手段と
を有することを特徴とする音声補償装置。
音声信号の欠損部分を補償する音声補償システムであって、
当該音声信号における当該欠損部分の前の信号部分に基づき、又は予め設定された周波数条件に基づき、特定の周波数成分を有する音響信号である調波音信号を生成する調波音生成手段と、
当該調波音信号を含む補償信号を当該欠損部分に挿入する補償信号挿入手段と
を有することを特徴とする音声補償システム。
音声信号の欠損部分を補償する音声補償方法であって、
当該音声信号における当該欠損部分の前の信号部分に基づき、又は予め設定された周波数条件に基づき、特定の周波数成分を有する音響信号である調波音信号を生成するステップと、
当該調波音信号を含む補償信号を当該欠損部分に挿入するステップと
を有することを特徴とする、コンピュータによって実施される音声補償方法。