JP3999812B2

JP3999812B2 - 音復元装置および音復元方法

Info

Publication number: JP3999812B2
Application number: JP2007500432A
Authority: JP
Inventors: 伸一芳澤; 哲鈴木; 良久中藤
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2005-01-25
Filing date: 2005-12-12
Publication date: 2007-10-31
Anticipated expiration: 2025-12-12
Also published as: JPWO2006080149A1; US7536303B2; WO2006080149A1; US20060193671A1

Description

本発明は、収音ミス、周囲騒音の挿入、伝送ノイズの挿入などの原因により歪んだ音（音声、音楽、報知音や自動車の音などの環境音を含む）を歪む前の音に復元する音復元装置およびその方法に関するものである。

近年、生活空間に、街角音楽や報知音などの人工的に作成した音や自動車などの人工物が発生した音など様々な音があふれるようになり、安全性、機能性、快適性の観点から大きな問題となってきている。例えば、都会の駅において、発車ベル、電車の音、周囲の人の声などでアナウンスが聞こえなかったり、携帯電話の話し声が周囲騒音により聞こえなかったり、自転車のベルの音が自動車の音で聞こえなかったり、安全性、機能性、快適性が損なわれている。

これらの社会環境の変化を鑑みると、収音ミス、周囲騒音の挿入、伝送ノイズの挿入などの原因により歪んだ音を自然かつ聞きやすい音で復元して利用者に提供することが望まれると考えられる。その中でも特に、実際の環境で聞いて不自然さを感じさせないために、実際の音の、声質、口調、音色、音量、残響特性、音質などの音特性に基づいて実際の音に近い音で復元することが重要になると考えられる。

第１の従来の音復元方法としては、突発性雑音により歪んだ区間に前記区間に時間的に連結した区間の音声波形を歪んだ音と入れ替えて挿入して音声を復元しているものがあった（例えば、非特許文献１参照）。図１は、前記非特許文献１に記載された従来の音復元方法を示すものである。

図１において、音声抽出ステップ３２０１では、突発性雑音の挿入により歪んだ音声波形から突発性雑音の区間を取り除いて音声部分を抽出していた。音声復元ステップ３２０２では、突発性雑音の存在した直前の歪んでいない音声波形を雑音が存在していた位置に挿入することで音声の復元を行っていた（本発明と関連のある範囲を示す）。

第２の従来の音復元方法としては、車両に搭載され、放送局から送信される道路交通情報の電波を受信して運転者に報知する道路交通情報報知装置において、伝送ノイズの挿入により歪んだ音声を言語分析手段により音韻系列を復元して、復元した音韻系列を音声合成により読み上げるものがあった（例えば、特許文献１参照）。図２は、前記特許文献１に記載された従来の音復元装置を示すものである。

図２において、受信装置３３０２は放送局３３０１から送信される道路交通情報の電波を受信して音声信号に変換していた。音声認識装置３３０３は前記音声信号を音声認識して言語データに変換していた。言語分析装置３３０４は音声認識装置３３０３から繰り返し出力される同一内容の言語データに基づいて、欠落部分の補正を行いながら言語分析を行っていた（本発明と関連のある範囲を示す）。音声合成器３３０５は言語分析装置３３０４より復元された音韻系列により表現された交通状況の情報のうち必要であると判断された情報を音声合成により読み上げていた。

第３の従来の音復元方法としては、欠落した音声パケットを、欠落以前に入力した音声パケットの信号により欠落部に補間する音声パケット補間方式において、テンプレートに相当するサンプル値を入力する度に、前記欠落以前に入力した音声パケットの信号との最適マッチング波形の算出を、非規格化差分演算処理により行い、欠落部の音声パケットを補間していた（例えば、特許文献２参照）。

第４の従来の音復元方法としては、パケットを用いる音声通信に関し、入力される音声信号データ列に消失区間があるか否かを判定し、判定結果を示す第１の信号を出力するための判定手段と、入力される音声信号データ列に対して、音響モデルと言語モデルとを用いて音声認識を行い、認識結果を出力するための音声認識手段と、前記音声認識手段の認識結果から音声合成を行って、音声信号を出力するための音声合成手段と、前記第１の信号に応答して変化する混合比で、前記入力される音声信号データ列と前記音声合成手段の出力とを混合して出力するための混合手段とを含むものがあった（例えば、特許文献３参照）。図３は、前記特許文献３に記載された従来の音復元装置を示すものである。

図３において、入力部３４０１は、入来する音声パケットの各々から音声信号データ部分を抽出して順次出力していた。音声認識部３４０４は、入力部３４０１から時系列的に出力される音声信号データに対して、音声認識用音響モデル３４０２と言語モデル３４０３とを用いて音声認識を行って、認識結果として状態時系列を出力していた。モニタ部３４０７は、入来する各パケットを監視し、パケットロスが発生しているか否かを示す付随情報を音声認識部３４０４に与えていた。音声合成部３４０６は、音声合成用音響モデル３４０５を用いて音声認識部３４０４から出力された音素系列に基づいて音声合成を行い、デジタルの音声信号を出力していた。バッファ３４０８は、入力部３４０１からの出力を蓄積していた。信号混合部３４０９は、モニタ部３４０７に制御されて、パケットロスに対応する期間では音声合成部３４０６の出力のみを、それ以外の期間ではバッファ３４０８の出力のみを選択して出力していた。
野口、外３名、"１チャネル入力信号中の突発性雑音の判別と除去"、２００４年３月、日本音響学会講演論文集、ｐｐ．６６５−６５６特開２０００−２２２６８２号公報（請求項２、第１図）特開平２−４０６２号公報（請求項１）特開２００４−２７２１２８号公報（請求項１、第１図）

しかしながら、前記第１の従来の構成では、復元する音が繰り返し波形であることが前提であり、しかもその一部分のみが消失したというごく稀な場合にしか音を復元することができない。繰り返し波形で表現できない実環境に存在する多くの一般的な音や、復元する音が全体的に歪んだ場合に対して音を復元することができないという課題を有していた。

前記第２の従来の構成では、歪んだ音を復元するときに言語分析により音構造に関する知識を用いて音韻系列に関して復元を行うため、繰り返し波形でない一般的な音や復元する音が全体的に歪んだ場合に対しても言語的に復元することが可能となる。しかしながら、実際の音の、話者性、声質などの音特性情報に基づいて実際の音に近い音で復元するという概念がないため、実際の環境で聞いて自然な音を復元することができないという課題を有していた。たとえば、ＤＪ（ＤｉｓｃＪｏｃｋｅｙ）の声をこの方法で復元すると、音声合成器に蓄積された他の人の声で復元されてしまう。

前記第３の従来の構成では、波形レベルのパターンマッチングで欠落部分の音を作成しているため、波形が変化する区間全体が欠落した場合に欠落部分の音を復元することができないという課題を有していた。たとえば、「こんにちは」という発声において「こ××ちは」（「×」は音韻が欠落した部分を示す）のように複数の音韻が欠落した場合に復元することができなかった。

前記第４の従来の構成では、言語モデルという音構造に関する知識を用いているため、複数の音韻が欠落しても前後のコンテキストから復元する音の音韻系列を推定して言語的に復元することできる。しかしながら、入力音声から、声質、口調、音量、残響特性などの音特性を抽出して、抽出した音特性に基づいて音声を復元するという概念がないため、同じ人の声でも気分や疲れ方により時々刻々と声質や口調などが変化する場合に現実の音特性に忠実な音声を復元することができないという課題を有していた。

これらの従来の技術の構成では、繰り返し波形でない実世界に存在する一般的な音が歪んだ場合に、実際の音特性で歪む前の音を復元することができなかった。

本発明は、前記従来の課題を解決するもので、収音ミス、周囲騒音の挿入、伝送ノイズの挿入などの原因により歪んだ音（音声、音楽、報知音や自動車の音などの環境音を含む）を歪む前の音に復元する音復元装置等を提供することを目的とする。

本願発明者らは、実環境での音は、「Ａさんが話した後にＢさんが話す」、「ＡさんとＢさんが同時に話す」など複数の人の声が存在し、同じ人の声でも気分や疲れ方により時々刻々と声質や口調などが変化し、環境音なども周りの環境の変化により音量や残響特性などが時々刻々と変化するという事実に着目することが重要であることに気づいた。このような状況では、実環境に存在する全ての音特性を事前に記憶しておくことは困難であり、混合音に含まれる復元対象音を抽出して、抽出した復元対象音から復元したい音の実際の音特性を抽出する必要がある。しかし、音特性を精度良く抽出するためには比較的時間長が長い波形データが必要となるため、単純に復元対象音の欠落部分における時間的近傍の音のみを用いて音特性を抽出して復元すると復元対象音が歪んでしまう。また、復元音の欠落部分における時間的近傍が音特性の変化点である場合に、現実の音特性と異なる音特性を抽出することになる。そこで、混合音から抽出した復元対象音に対して音特性の変化を監視して、復元対象音を音特性が同一である時間領域で区分けする。すなわち、復元対象音を音特性が異なる時刻で分割するとともに、音特性が同一である時間領域ごとに分類する。欠落した部分が位置する音特性が同一である時間領域において、比較的時間長が長い音データ（波形データ等）を用いて音特性を抽出することにより、現実の音特性を忠実に再現することができる。この音特性が同一である時間領域は刻々と状況が変わる混合音中の復元対象音の性質に依存して変化するため、実際に入力された混合音中の復元対象音に対してその都度求める必要がある。

本発明に係る音復元装置は、混合音に含まれる、音の一部が欠落した復元対象音を復元する音復元装置であって、前記混合音に含まれる復元対象音を抽出する混合音分離手段と、音の意味内容が登録されている音構造知識データベースに基づいて、前記抽出された復元対象音の音が欠落した部分の音素系列、文字系列および音符系列のうちの少なくとも１つを作成する音構造分析手段と、前記抽出された復元対象音を、同一の音特性を有する時間領域に区分けする同一音特性領域分析手段と、前記区分けされた時間領域の中から欠落された部分が位置する時間領域を特定し、当該特定された時間領域において、前記欠落された部分以外の音から、前記復元対象音の音特性を抽出する音特性抽出手段と、前記音構造分析手段で作成された前記音素系列、文字系列および音符系列のうちの少なくとも１つと前記抽出された音特性とを用いて、復元対象音において欠落した部分の音を復元する音復元手段とを備える。

本構成によると、音の意味内容が登録されている音構造知識データベースを用いて音構造情報、すなわち音素系列、文字系列および音符系列のうちの少なくとも１つを作成するとともに、当該音構造情報に基づいて音を復元する。このため、幅広い一般的な音（音声、音楽、環境音を含む）を復元することができる。それとともに、復元対象音において欠落した部分の音を、同一音特性を有する時間領域における復元対象音の音特性に基づいて復元しているため、実際の音特性に忠実な音の復元、すなわち、復元対象音が歪む前または欠落する前の音を復元することができる。

好ましくは、前記同一音特性領域分析手段は、声質の変化、口調の変化、音色の変化、音量の変化、残響特性の変化および音質の変化のうちの少なくとも１つに基づいて、音特性が同一である時間領域を決定する。

これによって、同一音特性を有する時間領域を正確に求めることができる。このため、高い精度で音特性情報を作成することができ、ひいては、復元対象音を正確に復元することができる。

さらに好ましくは、前記音復元手段は、前記欠落した部分の音と前記欠落した部分以外の音とを合わせた復元対象音全体を、前記音構造分析手段で作成された前記音素系列、文字系列および音符系列のうちの少なくとも１つと前記抽出された音特性とを用いて復元する。

この構成によると、欠落した部分の音と欠落した部分以外の音とを、同じ音特性を用いて復元している。このため、欠落した部分と欠落していない部分との間で整合性が高い音を復元することができる。

本発明の音復元装置によれば、幅広い一般的な音（音声、音楽、環境音を含む）を復元することができ、さらに、実際の音の音特性に対して忠実に復元することができるため、その実用価値は極めて高い。

以下本発明の実施の形態について、図面を参照しながら説明する。なお、図中同一または相当部分には同一符号を付し、その説明は繰り返さない。

（実施の形態１）
図４は、本発明の実施の形態１における音復元装置の全体構成を示すブロック図である。ここでは、本発明に係る音復元装置がヘッドホン装置１０１に組み込まれた例を用いて説明する。

以下の説明では、復元する音として、〈I〉音声を復元する場合、〈II〉楽音を復元する場合、〈III〉重なった２種類の音（音声と環境音）を復元する場合について述べる。また、音を復元する方法として、〈i〉欠落部分のみを復元する方法、〈ii〉欠落部分を含む全体の音を復元する方法、について述べる。

図４において、ヘッドホン装置１０１は、携帯電話、携帯型音楽ステレオ、補聴器などの機能を付加して利用することも可能であり、混合音の中から利用者が必要とする音を復元するという音復元機能を実装している。ヘッドホン装置１０１は、マイク１０２と、混合音分離部１０３と、音構造分析部１０４と、音構造知識データベース１０５と、同一音特性領域分析部１０６と、音特性抽出部１０７と、音復元部１０８と、スピーカ１０９と、を備える。

ヘッドホン装置１０１は、混合音に含まれる、音の一部が欠落した復元対象音を復元する音復元装置の一例である。混合音分離部１０３は、前記混合音に含まれる復元対象音を抽出する混合音分離手段の一例である。音構造分析部１０４は、音の意味内容が登録されている音構造知識データベース１０５に基づいて、前記抽出された復元対象音の音が欠落した部分の音素系列、文字系列および音符系列のうちの少なくとも１つを作成する音構造分析手段の一例である。同一音特性領域分析部１０６は、前記抽出された復元対象音を、同一音特性を有する時間領域に区分けする同一音特性領域分析手段の一例である。音特性抽出部１０７は、前記区分けされた時間領域の中から欠落された部分が位置する時間領域を特定し、当該特定された時間領域における復元対象音の音特性を抽出する音特性抽出手段の一例である。音復元部１０８は、前記音構造分析手段で作成された前記音素系列、文字系列および音符系列のうちの少なくとも１つと前記抽出された音特性とを用いて、復元対象音において欠落した部分の音を復元する音復元手段の一例である。なお、「音素系列」とは、音素の系列以外にも、音韻の系列等も含む。また、「文字系列」とは、文字の系列以外にも、単語の系列、文章の系列等も含む。さらに、「音符系列」とは、後述するように、音楽における音符の系列を示す。

以下、ヘッドホン装置１０１を構成する各処理部について具体的に説明する。

マイク１０２は、混合音Ｓ１０１を入力して混合音分離部１０３へ出力する。
混合音分離部１０３は、混合音Ｓ１０１から復元する音の材料、すなわち分離された音の波形に関する情報および音の欠落に関する情報を分離音情報Ｓ１０２として抽出する。

音構造分析部１０４は、混合音分離部１０３が抽出した分離音情報Ｓ１０２と音構造知識データベース１０５とに基づいて復元する音の意味的内容を示す音構造情報Ｓ１０３を作成する。なお、波形に関する情報には、時間軸上の音波形のみならず、後述するスペクトログラムも含む。

同一音特性領域分析部１０６は、混合音分離部１０３が抽出した分離音情報Ｓ１０２から同一の音特性からなる領域を求めて同一音特性領域情報Ｓ１０４を作成する。音特性とは、音の表現方法に対応する。また、請求項における「区分け」が、同一の音特性からなる領域を求めることに相当する。

音特性抽出部１０７は、同一音特性領域分析部１０６が作成した同一音特性領域情報Ｓ１０４に基づいて復元する音の音特性を同一の音特性よりなる領域ごとに抽出して音特性情報Ｓ１０５を作成する。

音復元部１０８は、音構造分析部１０４が作成した音構造情報Ｓ１０３および音特性抽出部１０７が作成した音特性情報Ｓ１０５に基づいて復元音Ｓ１０６を作成する。

スピーカ１０９は、音復元部１０８が作成した復元音Ｓ１０６を利用者へ出力する。

図５は、本発明の実施の形態１における音復元装置の処理の流れを示すフローチャートである。

はじめに、混合音分離部１０３は、混合音Ｓ１０１から復元する音の材料を分離音情報Ｓ１０２として抽出する（ステップ４０１）。次に、音構造分析部１０４は、抽出した分離音情報Ｓ１０２と音構造知識データベース１０５とに基づいて音構造情報Ｓ１０３を作成する（ステップ４０２）。また、同一音特性領域分析部１０６は、抽出した分離音情報Ｓ１０２から同一の音特性から成る領域を求めて同一音特性領域情報Ｓ１０４を作成する（ステップ４０３）。そして、音特性抽出部１０７は、同一音特性領域情報Ｓ１０４に基づいて復元する音の音特性を同一の音特性より成る領域ごとに抽出して音特性情報Ｓ１０５を作成する（ステップ４０４）。最後に、音復元部１０８は、音構造情報Ｓ１０３と領域ごとの音特性情報Ｓ１０５とに基づいて復元音Ｓ１０６を作成する（ステップ４０５）。

次に、本実施の形態をヘッドホン装置１０１の音復元機能に適用した具体例について説明する。ここでは、いろいろな人の話し声や、自転車のベルの音、自動車の走る音、電車の音、駅のホームでのアナウンスやチャイムの音、街角音楽などが交じり合った混合音から利用者が必要とする音を復元する場合を例として考える。

〈I〉音声を復元する場合
〈i〉欠落部分の音声を復元する方法
利用者は、駅のホームで自分の乗る電車がホームに何時に到着するのかを確認するために駅のアナウンスに耳を傾けている。しかし、突然チャイムがなりアナウンスの音声が部分的に欠落してしまっている。そこで本発明の音復元装置を用いることでアナウンスの音声を復元する方法について述べる。

この例では、図４において、混合音Ｓ１０１は、アナウンスの音声とチャイムが重なった混合音であり、復元したい復元音Ｓ１０６は、アナウンスの音声である。音構造知識データベース１０５は、音素辞書、単語辞書、形態素辞書、言語連鎖辞書、シソーラス辞書、用例辞書から構成される。同一音特性領域分析部１０６は、音素の区切り、単語の区切り、文節の区切り、文章の区切り、発話内容の区切り、発声の区切りに基づいて、同一の音特性から成る領域を決定する。その他にも、同一音特性領域分析部１０６は、声質の変化、口調の変化、音色の変化、音量の変化、残響特性の変化、音質の変化等に基づいて、音特性が同一である時間領域を決定してもよい。
音復元部１０８は、復元する音の欠落部分の音を、音構造情報Ｓ１０３および音特性情報Ｓ１０５に基づいて復元を行い、それ以外の音を、分離音情報Ｓ１０２を用いて作成する。

はじめに、ヘッドホン装置１０１に装着されたマイク１０２を用いて混合音Ｓ１０１であるアナウンスの音声とチャイムが重なった音を取り込む。図６（ａ）に、アナウンスの音声とチャイムが重なった混合音を模式的に図示した例を示す。この例では、チャイムにより、アナウンスの音声である「つぎは〜おおさか〜おおさか〜」という音声が部分的に欠落してしまい、図６（ｂ）に示すように「つぎは〜■■さか〜■おさ■」という音声に歪んでしまっている。ここでは、歪まずに聞こえている音声はそのままの音を利用して、「■」が示す欠落部分の音声を復元する。

まず、混合音分離部１０３は、マイク１０２が取り込んだ混合音Ｓ１０１を用いて分離音情報Ｓ１０２を抽出する（図５のステップ４０１に対応）。ここでは、分離音情報Ｓ１０２として、復元する音であるアナウンスの音声の成分を抽出した音声波形とアナウンスの音声の欠落区間情報とを抽出する。ここでは、混合音を周波数分析して、パワーの立ち上がり、立ち下り、特定の周波数帯域のパワーの変化などによりチャイムが挿入された時間を検出する。チャイムは音声と異なり全周波数帯域で一定のパワーをもつためこの特性を利用してチャイムが挿入された時間を検出する。そして、チャイムが挿入されなかった時間の混合音（アナウンスの音声、波形情報）とチャイムが挿入された時間フレーム情報（欠落区間フレーム）とを分離音情報Ｓ１０２として抽出する（図６（ｃ）を参照）。

なお、聴覚情景分析、独立成分分析、複数のマイクを用いたアレイ処理を利用して分離音情報Ｓ１０２を抽出してもよい。また、図７に示すように、分離音情報Ｓ１０２の一部として、波形情報の代わりに、周波数分析を行ったあとのスペクトログラム上での情報（たとえば、［時間情報，周波数情報，パワー］の組）で表現してもよい。

次に、音構造分析部１０４は、混合音分離部１０３が抽出した分離音情報Ｓ１０２と、音素辞書、単語辞書、形態素辞書、言語連鎖辞書、シソーラス辞書および用例辞書から構成された音構造知識データベース１０５とに基づいて、アナウンスの音声の音構造情報Ｓ１０３を作成する（図５のステップ４０２に対応）。ここでは、音構造情報Ｓ１０３として、アナウンスの音声の音韻系列情報を作成する。まず、図６（ｃ）に示すような分離音情報Ｓ１０２の一部である抽出されたアナウンスの音声波形を特徴量分析して音声認識で用いられるケプストラム係数に変換する。次に、変換されたケプストラム係数を用いて音声認識を行う。ケプストラム係数を、事前に多くの音声データで学習された隠れマルコフモデルで構成された音素辞書に入力して各音素モデルとの尤度を計算する。そして、計算された尤度に基づいて各音素の可能性を考慮して、駅のホームで利用される単語が登録された単語辞書と、連続する単語間の形態素のルールが記述された形態素辞書と、駅のホームで利用する発話内容から作成されたＮ-グラムという確率モデルで表現された言語連鎖辞書と、単語の置き換えができるように類似単語を登録したシソーラス辞書と、複数のアナウンスの発声内容が登録された用例辞書とを用いて、一番可能性の高い音韻系列を決定する。そして、音韻系列情報（音構造情報Ｓ１０３）を作成する。

図８に、分離音情報Ｓ１０２より音構造情報Ｓ１０３を作成する例が示されている。ここでは、チャイムにより、アナウンスの音声である「つぎは〜おおさか〜おおさか〜」という音声が部分的に欠落してしまい、「つぎは〜■■さか〜■おさ■」という音声に歪んでしまっている分離音情報Ｓ１０２から、音構造知識データベース１０５を用いることで、「つぎは〜おおさか〜おおさか〜」という音韻系列情報を復元している例が示されている。

また、図９には、音韻系列情報を求める別の例が示されている。図９（ａ）に示すように、単語辞書を用いることで、「こんに■は」を「こんにちは」と決定することができ、「しん■■■ん」を「しんかんせん」と決定することができる。また、図９（ｂ）に示すように、用例辞書を用いることで、「信号の色は赤と■と黄色だ」を「信号の色は赤と青と黄色だ」と決定することができ、「サルも■■■落ちる」を「サルも木から落ちる」と決定することができる。

なお、ミシングフューチャーという、欠落部分の波形情報は利用せずに尤度を一定として音声認識モデルとマッチングして音韻系列を求めるという音声認識の手法を用いてもよい。また、この例では６種類の辞書を全て利用したが、その一部のみを利用してもよい。また、音構造知識データベースを必要に応じて更新してもよい。

次に、同一音特性領域分析部１０６は、混合音分離部１０３が抽出した分離音情報Ｓ１０２に基づいて同一の音特性から成る領域を求めて同一音特性領域情報Ｓ１０４を作成する（図５のステップ４０３に対応）。ここでは、音素の区切り、単語の区切り、文節の区切り、文章の区切り、発話内容の区切り、発声の区切りに基づいて、同一の音特性から成る領域を決定して同一音特性領域情報Ｓ１０４を作成する。まず、分離音情報Ｓ１０２を用いて音構造分析部１０４と同様にして音韻系列情報を作成する。この音韻系列情報に基づいて音素の区切り、単語の区切り、文節の区切り、文章の区切りを決定することができる。このとき、同一音特性領域分析部１０６の内部に音構造データベースを蓄積しておく。たとえば、音素の区切りを［フレーム，音素の種類］として表現することができる。また、単語の区切りを「次」「は」「大阪」「大阪」のように表現することができる。また、文節の区切りを「次は」「大阪」「大阪」のように表現することができる。また、音韻系列情報と用例辞書とに基づいて、発声内容の区切りを決定することができる。たとえば、同じ発声内容の用例をグループ化しておいて、音韻系列情報より発声した内容がどのグループに属するかを検出しておいて、グループが変わった場合に発声内容が変化したとして、発声内容の区切りを決定することができる。また、音声の周波数帯域において無音区間を検知することで発声の区切りを決定することができる。これらの区切り情報に基づいて、音特性が同一である領域の情報を示す同一音特性領域情報Ｓ１０４を作成する。

図１０に、同一音特性領域情報Ｓ１０４の例を示す。図１０（ａ）は、音特性が同一である領域を音素の区切りとして表現したものである。例えば、フレーム２〜３は、音素が「／ｕ／」であり、声質が同一であることを示している。図１０（ｂ）は、音特性が同一である領域を単語の区切りにより表現したものである。例えば、フレーム１〜１０が１つの同一音特性領域であり、「次」という単語が含まれていることを示している。図１０（ｃ）は、音特性が同一である領域を時間と文章とにより表現したものである。例えば、１秒目から５秒目までが１つの同一音特性領域であり、その間の文章が「次は大阪大阪」であることを示している。また、図１０（ｄ）で示すように、抽出したい音特性ごとに、音特性が同一である領域を決定してもよい。たとえば、音特性を声質とした場合の同一音特性領域、音特性を口調とした場合の同一音特性領域、音特性を話者性、性別特性、声年齢、音量、残響特性、音質とした場合の同一音特性領域などを同時に決定してもよい。

このように、アナウンスの音声は、話し方の抑揚が大きく変化し、鼻にかけた発声など音素ごとに特殊な特性を持ち、話す内容によっても声の特性が変化する。このように、たとえ同じ人の発声であっても音特性は時々刻々変化する。そのため、音素単位、単語単位、文節単位、文章単位、発声内容単位、発声単位などで、同一の音特性から成る領域を決定してから音特性を抽出して音を復元することは極めて重要である。

なお、ここでは、音素の区切り、単語の区切り、文節の区切り、文章の区切り、発話内容の区切り、発声の区切り、の全てを用いて同一音特性領域情報を作成したが、その一部を用いて同一音特性領域情報を作成してもよい。

次に、音特性抽出部１０７は、混合音分離部１０３が抽出した分離音情報Ｓ１０２と同一音特性領域分析部１０６が作成した同一音特性領域情報Ｓ１０４とに基づいて復元するアナウンスの音声の音特性を同一の音特性より成る領域ごとに抽出して音特性情報Ｓ１０５を作成する（図５のステップ４０４に対応）。ここでは、誰の声であるか、男性の声か女性の声か、子供の声か高齢者の声か、透き通った声かダミ声か風邪を引いたときの声か、優しい口調か怒った口調の声か、叫び声かひそひそ声か、残響が大きいか小さいか、音質が高いか低いかなどの音特性を抽出する。ここでは、復元するアナウンスの音声の、話者性、性別特性、声年齢、声質、口調、音量、残響特性、音質を領域ごとに抽出して音特性情報Ｓ１０５を作成する。ここでは、音特性情報Ｓ１０５として、同一音特性領域情報Ｓ１０４に基づいた領域ごとに、音声合成で利用する基本周波数Ｆ０、パワー、スペクトルレート、スペクトルの特徴を抽出する。ここでは、図６（ｃ）に示す分離音情報Ｓ１０２（図１１（ａ））と、図１０（ｂ）の同一音特性領域情報Ｓ１０４（図１１（ｂ））とを用いて説明する。まず、図１１（ｂ）に示す同一音特性領域情報Ｓ１０４に基づいて、同一の音特性から成る領域に分割する。ここでは、図１１（ｃ）に示されるようにフレーム１〜１０の領域、フレーム１１〜１５の領域、フレーム１６〜３２の領域、フレーム３３〜５５の４つの領域に分割される。次に分割された各領域において、分離音情報Ｓ１０２の一部である欠落区間以外のフレームの音声波形情報を用いて音特性を抽出する。ここでは、図１１（ａ）に示すように、欠落部分は、フレーム１６〜２１、フレーム３３〜３６、フレーム４９〜５５の３箇所である。図１１（ｄ）に、音特性情報Ｓ１０５の例を示す。この例では、分割された領域ごとにＦ０、パワー、スペクトルレート、スペクトルの特徴が決定されている。例えば、３番目の領域「領域３」の音特性（Ｆ０、パワー、スペクトルレート、スペクトル）は、領域３に含まれる欠落していない部分の音特性Ａであるものとして決定される。

なお、同一音特性領域情報Ｓ１０４として図１０（ｄ）を用いたときは、図１２に示すように音特性ごとに領域が異なる音特性情報Ｓ１０５が作成される。この例では、Ｆ０、パワー、スペクトルレート、スペクトルの特徴という音特性ごとに、音特性を抽出する領域が異なっている。ここで、Ｆ０は、話者性、性別特性、口調などを表現できるパラメータであり、パワーは、音量などを表現できるパラメータであり、スペクトルレートは、口調などを表現できるパラメータであり、スペクトルの特性は、話者性、性別特性、声年齢、声質、口調、音質などを表現できるパラメータである。なお、残響特性は、残響特性を測定する装置を別途付属して計測して利用してもよい。なお、音特性抽出部１０７は、欠落部分を含まない領域での音特性を抽出せず、音特性情報Ｓ１０５に欠落部分を含まない領域での音特性情報を記載しなくてもよい。

このように、混合音から抽出した復元対象音の波形成分（分離音情報）に対して音特性の変化を監視することで、音特性が同一である時間領域を示す同一音特性領域情報を作成して、音特性が同一である時間領域における比較的時間長が長い波形データを用いて音特性を抽出することで、高い精度で混合音の中の復元対象音を復元することが可能となる。

次に、音復元部１０８は、音構造分析部１０４が作成した音構造情報Ｓ１０３と音特性抽出部１０７が作成した音特性情報Ｓ１０５とに基づいてアナウンスの音声を復元する（図５のステップ４０５に対応）。ここでは、音復元部１０８は、音声合成により、アナウンスの欠落した部分の音声を合成音声により復元する。まず、分離音情報Ｓ１０２を用いて欠落部分のフレーム（欠落区間）を決定する（図６（ｃ）を参照）。ここでは、欠落部分は、フレーム１６〜２１、フレーム３３〜３６、フレーム４９〜５５の３箇所である。次に、音特性情報Ｓ１０５に基づいて欠落部分の音特性は、欠落部分を含む領域の音特性により決定される。図１１の例の場合は、「■■さか」の■の欠落部分の音特性は「さか」から抽出された音特性Ａを用いる。次に、音構造情報Ｓ１０３に基づいて、欠落部分の音韻系列情報と、欠落部分を含む単語より欠落部分のアクセント情報とを決定し、欠落部分を含む発声情報から欠落部分のイントネーション情報を決定する。図１１の例の場合は、「■■さか」の欠落部分の音韻系列「おお」であり、欠落部分を含む単語「おおさか」から「おお」のアクセント情報を決定する。また、欠落部分を含む発声情報「つぎはおおさかおおさか」から「おお」のイントネーション情報を決定する。そして、欠落部分の音特性（Ｆ０、パワー、スペクトルレート、スペクトルの特徴）と、欠落部分の音韻系列情報と、アクセント情報と、イントネーション情報とに基づいて、音声合成により欠落部分の音声を復元する。そして、分離音情報Ｓ１０２を用いて、欠落部分以外のアナウンスの音声を作成して欠落部分の復元された音声と結合することでアナウンスの音声を復元する。すなわち、「■■さか」の■の部分を音声合成で復元して「さか」の部分はマイク１０２が取り込んだ音をそのまま利用する。

なお、音声を復元する方法として、抽出した音特性に基づいて、欠落部分の音特性と音韻系列情報との類似度が高い波形を波形データベース（図示せず）、すなわち音のテンプレートから選択して音声を復元してもよい。これにより、欠落部分が多い場合でも波形データベースにより音特性をより精度よく推定できるため、精度のよい音声を復元することができる。また、選択した波形を実際の音特性や欠落部分の周囲の音声に基づいて学習により修正して欠落部分の音を復元してもよい。このとき、音声合成により音を復元した場合は、一般的な音声合成の使い方とは異なり、音韻系列情報だけでなく欠落部分以外の実際の音声が存在するため、その音声に合うようにチューニングすることができ、精度のよい音声を復元することができる。また、音特性抽出部１０７が抽出した音特性情報Ｓ１０５に加えて、復元したい音の事前情報を用いて音特性を推定して音声を復元してもよい。たとえば、アナウンスを発声する人の声の音特性を事前にヘッドホン装置１０１にダウンロードしておいて、その音特性も参考にして音声を復元してもよい。たとえば、人の声の基本的な音特性を事前にヘッドホン装置１０１に記憶しておいて利用してもよい。これにより、精度のよい音声を復元することができる。

このように、欠落部分以外の音声については、復元対象音の波形をそのまま利用するため、高い精度で音復元を行なうことができる。

最後に、スピーカ１０９を介して、利用者は復元されたアナウンスの音声を聞くことができる。

なお、同一音特性領域分析部１０６は、図１３に示すように、同一音特性領域分析部１０６Ｚとして、音構造分析部１０４が作成した音構造情報Ｓ１０３を用いて同一音特性領域情報Ｓ１０４を作成してもよい。

図１４に、この場合の音復元処理のフローチャートを示す。はじめに、混合音分離部１０３は、混合音Ｓ１０１から復元する音の材料を分離音情報Ｓ１０２として抽出する（ステップ１３０１）。次に、音構造分析部１０４は、抽出した分離音情報Ｓ１０２と音構造知識データベース１０５とに基づいて音構造情報Ｓ１０３を作成する（ステップ１３０２）。次に、同一音特性領域分析部１０６Ｚは、音構造情報作成処理（ステップ１３０２）で求めた音構造情報Ｓ１０３に基づいて抽出した分離音情報Ｓ１０２から同一の音特性から成る領域を求めて同一音特性領域情報Ｓ１０４を作成する（ステップ１３０３）。そして、音特性抽出部１０７は、同一音特性領域情報Ｓ１０４に基づいて復元する音の音特性を同一の音特性より成る領域ごとに抽出して音特性情報Ｓ１０５を作成する（ステップ１３０４）。最後に、音復元部１０８は、音構造情報Ｓ１０３と領域ごとの音特性情報Ｓ１０５とに基づいて復元する音を作成する（ステップ１３０５）。同一音特性領域分析部１０６Ｚは、音構造分析部１０４が作成した音構造情報Ｓ１０３を用いて、音素の区切り、単語の区切り、文節の区切り、文章の区切り、を決定することができるため、計算量を大幅に削減できる。

〈ii〉欠落部分を含む全体の音声を復元する方法
利用者は、交差点で友達２人と話しをしている。しかし、自動車の騒音や周りの人の話し声などで友達の音声が聞こえにくくなっているものとする。そこで本発明の音復元装置を用いることで友達２人の音声を復元する方法について述べる。この例では、図４において、混合音Ｓ１０１に対応するものは、友達の話し声と、自動車の騒音や周囲の人の声が重なった混合音であり、復元音Ｓ１０６に対応するものは、友達２人の話し声である。〈I〉の〈i〉の例と異なる点は、混合音分離部１０３の動作、同一音特性領域分析部１０６の動作、音特性抽出部１０７の動作、音復元部１０８の動作である。そこで、図１５に示すように、混合音分離部１０３を混合音分離部１０３Ａ、同一音特性領域分析部１０６を同一音特性領域分析部１０６Ａ、音特性抽出部１０７を音特性抽出部１０７Ａ、音復元部１０８を音復元部１０８Ａとする。音復元部１０８Ａは、欠落した部分の音と欠落した部分以外の音とを合わせた復元対象音全体を、上述の音構造分析手段で作成された音素系列、文字系列および音符系列のうちの少なくとも１つと抽出された音特性とを用いて復元する音復元手段の一例である。

また、混合音Ｓ１０１を混合音Ｓ１０１Ａ、分離音情報Ｓ１０２を分離音情報Ｓ１０２Ａ、音構造情報Ｓ１０３を音構造情報Ｓ１０３Ａ、同一音特性領域情報Ｓ１０４を同一音特性領域情報Ｓ１０４Ａ、音特性情報Ｓ１０５を音特性情報Ｓ１０５Ａ、復元音Ｓ１０６を復元音Ｓ１０６Ａとする。ここでの音復元部１０８Ａは、復元する音の欠落部分（歪んだ部分を含む）を含む全体の音を、音構造情報Ｓ１０３Ａおよび音特性情報Ｓ１０５Ａに基づいて復元を行う。このとき、全体の音のバランス情報に基づいて音全体を復元する。すなわち、歪んでいない部分も合わせて修正することで音全体を復元する。

はじめに、ヘッドホン装置１０１に装着されたマイク１０２を用いて混合音Ｓ１０１Ａを取り込む。図１６に、混合音Ｓ１０１Ａを模式的に図示した例を示す。この例では、男友達Ａが元気よく「何食べる」と聞いたあとに、女友達Ｂが元気よく「フランス料理」と答えたがそのあと女友達Ｂがフランス料理の値段が高いと知って落胆して「だけど高すぎるね」と答えた例が示されている。また、２人の話し声は、自動車の騒音や周囲の人の声で部分的に欠落しており、さらに全体的にところどころ歪んでいる。

まず、混合音分離部１０３Ａは、マイク１０２が取り込んだ混合音Ｓ１０１Ａを用いて分離音情報Ｓ１０２Ａを抽出する（図５のステップ４０１に対応）。ここでは、音の波形の局所的な構造を利用して音を分離する聴覚情景分析技術により、友達２人の話し声を抽出した音声波形を分離音情報Ｓ１０２Ａの一部として抽出する。このとき、抽出した音声のパワーなどに基づいて、抽出した音声の歪み度合いも合わせて分離音情報Ｓ１０２Ａとして抽出する。図１７に、分離音情報Ｓ１０２Ａの例を示す。この例では、フレームごとの音声波形と歪み度合いとのペアを分離音情報Ｓ１０２Ａとしている。ここでは、歪み度合い「０．０」は歪みなし、歪み度合い「１．０」は欠落部分を意味している。すなわち、歪み度合いは、音声波形の信頼度合いに対応する。

なお、分離音情報Ｓ１０２の一部として、図１８に示すように、波形ではなく、周波数分析を行ったスペクトログラム上での［時間情報，周波数情報，パワー］の組で表現してもよい。たとえば、自動車の騒音は低い周波数に存在する。このように、周囲騒音の種類によって存在する周波数帯域が限られるので、スペクトログラム上で分離音情報Ｓ１０２Ａを抽出すると、復元する音の情報を精度よく抽出することができる。なお、友達２人の話し声を、独立成分分析や複数のマイクを用いたアレイ処理により抽出してもよい。

次に、音構造分析部１０４は、〈I〉の〈i〉の例と同様にして音構造情報Ｓ１０３Ａを抽出する（図５のステップ４０２に対応）。

なお、分離音情報Ｓ１０２Ａに含まれる歪み度合いに基づいて、信頼度付きの音声認識により音構造情報Ｓ１０３Ａを精度よく抽出してもよい。

次に、同一音特性領域分析部１０６Ａは、混合音分離部１０３Ａが抽出した分離音情報Ｓ１０２Ａに基づいて同一の音特性から成る領域を求めて同一音特性領域情報Ｓ１０４Ａを作成する（図５のステップ４０３に対応）。ここでは、話者性の変化、性別特性の変化、声年齢の変化、声質の変化、口調の変化に基づいて、同一の音特性から成る領域を決定して同一音特性領域情報Ｓ１０４Ａを作成する。ここで、話者性の変化は、ガウス分布で表現された複数の話者モデルとの尤度のバランスにより測定することができる。たとえば、尤度が一番大きい話者モデルがＡさんモデルからＢさんモデルに変化したとき話者性が変化したと判断する。また、性別特性の変化は、Ｆ０の変化などで測定することができる。たとえば、男性はＦ０が低く女性は高いことを利用する。また、声年齢の変化は、年齢別確率モデルを作成しておいてそれとの比較で判断することができる。また、声質の変化は、声質別確率モデルを作成しておいてそれとの比較で判断することができる。また、口調の変化は、Ｆ０の変化やスペクトルレートの変化などで判断することができる。これらの変化が小さい区間を音特性が同一である領域として、同一音特性領域情報Ｓ１０４を作成する。図１６の例を用いた場合は、話者性の変化、性別の変化、声年齢の変化などに基づき、男友達Ａの話し声と女友達Ｂの話し声が異なる領域として分割される。また、声質の変化、口調の変化などに基づき、女友達Ｂの話し声の中で、元気よく話している「フランスりょうり」の領域と、落胆して話している「だけどたかすぎるね」の領域は異なる領域として分割される。

なお、〈I〉の〈i〉の例と同様に音特性が同一である領域を音特性ごとに決定してもよい（図１２を参照）。ここで、図１６の例を考えてみると、話者性、性別特性、口調の変化により、「なにたべる」「フランスりょうり」「だけどたかすぎるね」の区間で少なくとも領域が分割され、このあと、領域ごとに独立に音特性を抽出することになる。このとき、「だけどたかすぎるね」の発声のテンションが次第に低くなる場合は、さらに領域を分割して音特性を抽出することになる。

このように、複数の話者が発声した音声を復元する場合や、口調が変化する音声を復元する場合は、話者の切れ目、口調の切れ目などを判断して、同一の音特性から成る領域を決定してから音特性を抽出して音を復元することが極めて重要である。

なお、ここでは、話者性の変化、性別特性の変化、声年齢の変化、声質の変化、口調の変化の全てを用いて同一音特性領域情報を作成したが、その一部を用いて同一音特性領域情報を作成してもよい。

次に、音特性抽出部１０７Ａは、混合音分離部１０３Ａが抽出した分離音情報Ｓ１０２Ａと同一音特性領域分析部１０６Ａが作成した同一音特性領域情報Ｓ１０４Ａとに基づいて、復元する音声の音特性を同一の音特性より成る領域ごとに抽出して音特性情報Ｓ１０５Ａを作成する（図５のステップ４０４に対応）。ここでは、図１７に示すような分離音情報Ｓ１０２Ａを用いて、歪み度合いが大きいフレームの音特性を、歪み度合いが小さいフレームの音特性を用いて推定する。例えば、単純に歪み度合いの小さいフレームの音特性をそのまま歪み度合いが大きいフレームの音特性とする。また、所定の領域の音特性を、歪み度合いの大きさに比例した重み付けで音特性の量を線形加算して推定する。

混合音から抽出した復元対象音に対して音特性の変化を監視することで、復元対象音を音特性が同一である時間領域で区分けして、欠落した部分が位置する音特性が同一である時間領域における比較的時間長が長い音データ（波形データ等）を用いて音特性を抽出することで、現実の音特性を忠実に再現することができる。

次に、音復元部１０８Ａは、音構造分析部１０４が作成した音構造情報Ｓ１０３Ａと音特性抽出部１０７Ａが作成した音特性情報Ｓ１０５Ａとに基づいて、友達の音声が欠落していない部分を含めた友達２人の話し声全体を復元する（図５のステップ４０５に対応）。

まず、音構造情報Ｓ１０３Ａに基づいて、復元したい音声全体の音韻系列情報を決定する。次に、決定した音韻系列情報に基づいて、単語単位や発声単位などの音声全体を考慮したアクセント情報、イントネーション情報を決定する。そして、音特性情報Ｓ１０５Ａを用いて、復元する音声の音特性（Ｆ０、パワー、スペクトルレート、スペクトルの特徴）、音韻系列情報、アクセント情報、イントネーション情報に基づいて、欠落した部分だけではなく、音声合成により友達２人の音声全体を、音声全体のバランスを考慮して復元する。

なお、音声を復元する方法として、抽出した音特性に基づいて、音特性、音韻情報、アクセント情報、イントネーション情報、との類似度が高い波形を波形データベースから選択して音声を復元してもよい。これにより、欠落部分が多い場合でも波形データベースにより音特性をより精度よく推定できるため、精度のよい音声を復元することができる。また、選択した波形を実際の音特性や周辺の音声に基づいて学習により修正して音を復元してもよい。また、音特性抽出部１０７Ａが抽出した音特性情報Ｓ１０５Ａに加えて、復元したい音の事前情報により音特性を推定して音声を復元してもよい。たとえば、友達２人の声の音特性を事前にヘッドホン装置１０１にダウンロードしておいて、その音特性も参考にして音声を復元してもよい。たとえば、人の声の基本的な音特性を事前にヘッドホン装置１０１に記憶しておいて利用してもよい。これにより、精度のよい音声を復元することができる。

このように、欠落部分のみでなく、音声全体を復元することで、欠落部分とそれ以外の音声のバランスがよくなり、より自然な音声を復元することができる。

最後に、スピーカ１０９により復元音が出力され、利用者は復元された友達の音声を聞くことができる。

なお、〈I〉の〈i〉の例のように、音素の区切り、単語の区切り、文節の区切り、文章の区切り、発話内容の区切り、発声の区切りに基づいて、同一の音特性から成る領域を決定して同一音特性領域情報Ｓ１０４Ａを作成してもよい。

なお、音復元部１０８Ａは、分離音情報Ｓ１０２Ａを用いずに、音構造情報Ｓ１０３Ａおよび音特性情報Ｓ１０５Ａに基づいて、音声を復元してもよい。

〈II〉楽音を復元する場合
〈i〉欠落部分の楽音を復元する方法
利用者は、街角でながれる街角ＢＧＭ（Back Ground Music）を聞いている。しかし、自動車のクラクションがなり街角ＢＧＭの楽音が部分的に欠落してしまっている。そこで本発明の音復元装置を用いることで街角ＢＧＭを復元する方法について述べる。この例では、図４において、混合音Ｓ１０１に対応するものは、街角ＢＧＭと自動車のクラクションが重なった混合音であり、復元音Ｓ１０６に対応するものは、街角ＢＧＭである。〈I〉の〈i〉の例と異なる点は、音構造知識データベース１０５の記憶内容、音構造分析部１０４の動作、同一音特性領域分析部１０６の動作、音特性抽出部１０７の動作、音復元部１０８の動作である。そこで、図１９に示すように、音構造知識データベース１０５を音構造データベース１０５Ｂ、音構造分析部１０４を音構造分析部１０４Ｂ、同一音特性領域分析部１０６を同一音特性領域分析部１０６Ｂ、音特性抽出部１０７を音特性抽出部１０７Ｂ、音復元部１０８を音復元部１０８Ｂとする。また、混合音Ｓ１０１を混合音Ｓ１０１Ｂ、分離音情報Ｓ１０２を分離音情報Ｓ１０２Ｂ、音構造情報Ｓ１０３を音構造情報Ｓ１０３Ｂ、同一音特性領域情報Ｓ１０４を同一音特性領域情報Ｓ１０４Ｂ、音特性情報Ｓ１０５を音特性情報Ｓ１０５Ｂ、復元音Ｓ１０６を復元音Ｓ１０６Ｂとする。ここでは、音声ではなく楽音を復元する。音復元部１０８Ｂは、復元する楽音の欠落部分の音を、音構造情報Ｓ１０３Ｂおよび音特性情報Ｓ１０５Ｂに基づいて復元を行い、それ以外の音を分離音情報Ｓ１０２Ｂにより作成する。

はじめに、ヘッドホン装置１０１に装着されたマイク１０２を用いて混合音Ｓ１０１Ｂである街角ＢＧＭに自動車のクラクションが重なった音を取り込む。図２０（ａ）に、街角ＢＧＭと自動車のクラクションが重なった混合音を模式的に図示した例を示す。この例では、自動車のクラクションにより、図２０（ｂ）に示すように街角ＢＧＭが部分的に欠落している。ここでは、欠落していない（聞こえている）街角ＢＧＭはそのままの音を利用して、街角ＢＧＭを復元する。

まず、混合音分離部１０３は、〈I〉の〈i〉の例と同様にして、マイク１０２が取り込んだ混合音Ｓ１０１Ｂを用いて、混合音を周波数分析して、パワーの立ち上がりなどにより自動車のクラクションが挿入された時刻を検出して、分離音情報Ｓ１０２Ｂを抽出する（図５のステップ４０１に対応）。ここでは、抽出する分離音情報は音声に関するものではなく楽音に関するものである。図２０（ｃ）に、分離音情報Ｓ１０２Ｂの例を示す。この例では、分離音情報は、街角ＢＧＭの成分を抽出した楽音波形と、街角ＢＧＭが欠落した区間情報から構成される。

なお、聴覚情景分析、独立成分分析、複数のマイクを用いたアレイ処理を利用して分離音情報Ｓ１０２Ｂを抽出してもよい。また、分離音情報Ｓ１０２Ｂの一部として、波形情報ではなく、周波数分析を行ったスペクトログラム上での周波数情報（たとえば、［時間情報，周波数情報，パワー］の組）で表現してもよい。

次に、音構造分析部１０４Ｂは、混合音分離部１０３が抽出した分離音情報Ｓ１０２Ｂと、音オントロジー辞書、楽譜辞書とから構成された音構造知識データベース１０５Ｂとに基づいて、復元する楽音である街角ＢＧＭの音構造情報Ｓ１０３Ｂを作成する（図５のステップ４０２に対応）。ここでは、音構造情報Ｓ１０３Ｂの一部として、街角ＢＧＭの音符系列情報を作成する。まず、図２０（ｃ）に示すように、分離音情報Ｓ１０２Ｂである街角ＢＧＭの成分を抽出した音波形を周波数分析する。次に、分析された周波数構造と音オントロジー辞書とを用いて欠落した部分の音符系列を推定する。音オントロジー辞書には、楽音に関する和音、変調、リズムなどの規則が記憶されており、その規則に基づいて音符系列を推定する。また、楽譜辞書に登録されている複数の楽曲の楽譜と比較することで欠落部分の音符系列をさらに精度よく推定する。たとえば、分離音情報Ｓ１０２Ｂにより分析され推定された一部が欠落した音符系列と、楽譜辞書に登録された楽譜の音符系列とを比較して、対応する同じ音符系列の部分から欠落した音符系列を決定することができる。

なお、楽譜辞書は、音構造知識データベース１０５Ｂに事前に登録しておいてもよいし、音楽サイトなどからダウンロードすることで更新して登録してもよい。また、利用者の位置情報などに基づいて、１もしくは複数の楽譜を選択してから音符系列を決定してもよい。たとえば、お店ＡからはいつもＢＧＭ-Ａが流れているとすると、お店Ａに近づいたときは、ＢＧＭ-Ａの楽譜を選択して音符系列を選択して利用することで推定精度を向上することができる。

次に、同一音特性領域分析部１０６Ｂは、混合音分離部１０３が抽出した分離音情報Ｓ１０２Ｂに基づいて同一の音特性から成る領域を求めて同一音特性領域情報Ｓ１０４Ｂを作成する（図５のステップ４０３に対応）。ここでは、音構造の変化、メロディーの変化、音量の変化、残響特性の変化、音質の変化、音色の変化、に基づいて、同一の音特性から成る領域を決定して同一音特性領域情報Ｓ１０４Ｂを作成する。音構造の変化は、まず、音構造分析部１０４Ｂと同様にして音構造情報を抽出する。そして、事前に、音色、音量などの音特性が同一の音構造ごとにグループ化しておき、抽出した音構造の属するグループにより音構造の変化を検知することができる。たとえば、ピアノ演奏の複数の音構造とギター演奏の複数の音構造とをそれぞれ別のグループにしておいて、入力された楽音の音構造のグループが変化しないときは同一領域、変化した場合は別の領域とする。このとき、事前に作成した音構造のグループの音特性が今復元したい音の音特性と完全に一致することはまれであり、音構造の変化に基づいて音特性を抽出する領域を分割して、復元したい音の実際の音特性をその領域から抽出することは重要である。また、メロディーの変化は、まず、音構造分析部１０４Ｂと同様にして音構造情報を抽出する。そして、事前に、音色、音量などの音特性が同一のメロディーごとにグループ化しておき、抽出した音構造の属するグループによりメロディーの変化を検知することができる。メロディーに基づいて、明るい音色、暗い音色、音量などが決定される場合があり、メロディーの区切りで同一の音特性から成る領域を決定することで、精度よく音特性を抽出することができる。また、音量の変化は、パワーを測定することで検知できる。パワーが一定範囲の領域を同一の音特性から成る領域と決定する。また、残響特性の変化、音質の変化は、分離音情報Ｓ１０２Ｂより計算して、残響度合い、音質が一定範囲の領域を同一の音特性から成る領域と決定する。また、音色の変化は、ピアノ、ギター、バイオリンなどの音をグループ化して作成したガウス分布で表現された音色モデルとの尤度により測定することができ、同じ音色と判断された部分を同一の音特性から成る領域と決定する。ここでは、音の欠落部分の、音構造の変化、メロディーの変化、音量の変化、残響特性の変化、音質の変化、音色の変化、は変化していないとする。

図２１に、同一音特性領域情報Ｓ１０４Ｂの例を示す。ここでは、音特性である、音色、音量、残響特性、音質ごとに音特性が同一である領域を決定している。また、この例では、音色の領域を音構造の変化、メロディーの変化、音色の変化から求め、音量を音量の変化から求め、残響特性は残響特性の変化から求め、音質を音質の変化から求めている。

このように、楽曲は、同じ曲であっても、音色、音量、残響特性、音質などの音特性が変化する。たとえば、歩きながら街角ＢＧＭを聴いた場合などは、周囲の建物の位置や周囲の人の位置、温度や湿度などで音量や残響特性は時々刻々変化する。そのため、音構造の変化、メロディーの変化、音色の変化、音量の変化、残響特性の変化、音質の変化、などで、同一の音特性から成る領域を決定してから音特性を抽出して音を復元することは極めて重要である。

なお、ここでは、音構造の変化、メロディーの変化、音量の変化、残響特性の変化、音質の変化、音色の変化の全てを用いて同一音特性領域情報Ｓ１０４Ｂを作成したが、その一部を用いて同一音特性領域情報を作成してもよい。また、音構造分析部１０４Ｂが作成した音構造情報１０３Ｂを用いて音構造の変化、メロディーの変化を抽出してもよい。

次に、音特性抽出部１０７Ｂは、混合音分離部１０３が抽出した分離音情報Ｓ１０２Ｂと同一音特性領域分析部１０６Ｂが作成した同一音特性領域情報Ｓ１０４Ｂとに基づいて復元する街角ＢＧＭの音特性を同一の音特性より成る領域ごとに抽出して音特性情報Ｓ１０５Ｂを作成する（図５のステップ４０４に対応）。ここでは、街角ＢＧＭの、音色、音量、残響特性、音質、を領域ごとに抽出して音特性情報Ｓ１０５Ｂを作成する。たとえば、ＭＩＤＩ（Musical Instrument Digital Interface）音源に基づく表現方法でこれらの音特性を抽出する。たとえば、音色は、音特性情報Ｓ１０５Ｂに含まれる波形情報を周波数分析して周波数構造を調べることにより決定することができる。

ここで音特性について考えてみると、ギターの演奏であれば音色はギターであり、ピアノ演奏であれば音色はピアノであり、ピアノ演奏だけを考えた場合でも実際に演奏されるピアノの種類や演奏場所の温度や湿度などにより音色は異なる。また、利用者の耳元（この例ではマイク１０２の位置）と音源との距離などにより音量は異なる。移動しながら街角ＢＧＭを聴いた場合は時々刻々音量は変化する。また、残響特性により奥行き感や臨場感を表現できる。また、スピーカやマイクの特性により音質は異なる。このため、音特性を抽出し、しかも同一の音特性の領域を決定してから音特性を抽出して音を復元することは極めて重要である。

このように混合音から抽出した復元対象音に対して音特性の変化を監視することで、復元対象音を音特性が同一である時間領域で区分けして、欠落した部分が位置する音特性が同一である時間領域における比較的時間長が長い音データ（波形データ等）を用いて音特性を抽出することで、現実の音特性を忠実に再現することができる。

次に、音復元部１０８Ｂは、音構造分析部１０４Ｂが作成した音構造情報Ｓ１０３Ｂと音特性抽出部１０７Ｂが作成した音特性情報Ｓ１０５Ｂとに基づいて街角ＢＧＭを復元する（図５のステップ４０５に対応）。ここでは、音復元部１０８Ｂは、音構造情報Ｓ１０３Ｂに記述された音符系列情報と、音特性情報Ｓ１０５Ｂに記述されたＭＩＤＩ音源に基づく音特性情報とにより、ＭＩＤＩ音源に基づく楽音合成により、欠落部分の音を復元する。欠落していない（歪んでいない）部分は、分離音情報Ｓ１０２Ｂによりマイク１０２で入力された街角ＢＧＭの音をそのまま利用する。

なお、楽音を復元する方法として、抽出した音特性に基づいて、音特性と音符系列との類似度が高い波形を波形データベース（図示せず）から選択して楽音を復元してもよい。これにより、欠落部分が多い場合でも波形データベースにより音特性をより精度よく推定できるため、精度のよい楽音を復元することができる。また、選択した波形を実際の音特性や欠落部分の周囲の楽音に基づいて学習により修正して欠落部分の音を復元してもよい。また、音特性抽出部１０７Ｂが抽出した音特性情報Ｓ１０５Ｂに加えて、復元したい楽音に関する一般的な情報により音特性を推定して楽音を復元してもよい。たとえば、一般的な街角ＢＧＭの音特性を事前にヘッドホン装置１０１に記憶しておいてその音特性を参考にして音を復元してもよい。これにより、精度のよい楽音を復元することができる。

このように、欠落部分以外の楽音については、復元対象音の波形をそのまま利用するため、高い精度で音復元を行なうことができる。

最後に、スピーカ１０９を介して、利用者は復元された街角ＢＧＭを聞くことができる。たとえば、あるお店から街角ＢＧＭが流れていたとすると、利用者は、お店に近づくほど大きな音で街角ＢＧＭが聞こえ遠ざかると小さく聞こえ、実際の感覚とあい、自然な音でしかも周囲騒音を除去した形で街角ＢＧＭを楽しむことができる。

〈ii〉欠落部分を含む全体の楽音を復元する方法
利用者は、コンサート会場でクラシック音楽を聞いている。しかし、隣の人がお菓子をボリボリ食べ始めたために音楽が聞こえにくくなっているものとする。そこで本発明の音復元装置を用いることでクラシック音楽を復元する方法について述べる。この例では、図４において、混合音Ｓ１０１に対応するものは、クラシック音楽にお菓子をボリボリ食べる音が重なった混合音であり、復元音Ｓ１０６に対応するものは、クラシック音楽である。図１９の〈II〉の〈i〉の例と異なる点は、混合音分離部１０３の動作、音特性抽出部１０７Ｂの動作、音復元部１０８Ｂの動作である。そこで、図２２に示すように、混合音分離部１０３Ｂは混合音分離部１０３Ａ（〈I〉の〈ii〉の例を参照）を用い、音特性抽出部１０７Ｂを音特性抽出部１０７Ｃ、音復元部１０８Ｂを音復元部１０８Ｃとする。また、混合音Ｓ１０１Ｂを混合音Ｓ１０１Ｃ、分離音情報Ｓ１０２Ｂを分離音情報Ｓ１０２Ｃ、音構造情報Ｓ１０３Ｂを音構造情報Ｓ１０３Ｃ、同一音特性領域情報Ｓ１０４Ｂを同一音特性領域情報Ｓ１０４Ｃ、音特性情報Ｓ１０５Ｂを音特性情報Ｓ１０５Ｃ、復元音Ｓ１０６Ｂを復元音Ｓ１０６Ｃとする。ここで音復元部１０８Ｃは、〈I〉の〈ii〉の例と同様に、復元する音の欠落部分を含む全体の音を、音構造情報Ｓ１０３Ｃおよび音特性情報Ｓ１０５Ｃに基づいて復元を行う。このとき、全体の音のバランス情報に基づいて音全体を復元する。ここで〈I〉の〈ii〉の例と異なる点は、復元する音が音声ではなく楽音であることである。

はじめに、ヘッドホン装置１０１に装着されたマイク１０２を用いて混合音Ｓ１０１Ｃであるクラシック音楽にお菓子をボリボリ食べる音が重なった音を取り込む。図２３に、クラシック音楽にお菓子をボリボリ食べる音が重なった混合音を模式的に図示した例を示す。この例では、クラシック音楽の音がお菓子を食べる音によって全体的に歪んでいる。まず、混合音分離部１０３Ａは、〈I〉の〈ii〉の例と同様にして、マイク１０２が取り
込んだ混合音Ｓ１０１Ｃを用いて分離音情報Ｓ１０２Ｃを抽出する（図５のステップ４０１に対応）。ここでは、抽出する分離音情報は音声に関するものではなく楽音に関するものである。ここでは、図１７と同様な形式の分離音情報が抽出できる。ただし、この例では、音声波形ではなく楽音波形である。

なお、分離音情報Ｓ１０２Ｃを、波形情報ではなく、周波数分析を行ったスペクトログラム上での周波数情報（たとえば、［時間情報，周波数情報，パワー］の組）で表現してもよい。また、分離音情報Ｓ１０２Ｃの一部であるクラシック音楽の波形情報を、独立成分分析や複数のマイクを用いたアレイ処理により抽出してもよい。

次に、音構造分析部１０４Ｂは、〈II〉の〈i〉の例と同様にして、復元する音である
クラシック音楽の音構造情報Ｓ１０３Ｃを作成する（図５のステップ４０２に対応）。

なお、楽譜辞書は、音構造知識データベース１０５Ｂに事前に登録しておいてもよいし、コンサート会場の音楽サイトなどから本日演奏される楽曲の楽譜をダウンロードすることで更新して登録してもよい。

次に、同一音特性領域分析部１０６Ｂは、〈II〉の〈i〉の例と同様にして、同一音特
性領域情報Ｓ１０４Ｃを作成する（図５のステップ４０３に対応）。

次に、音特性抽出部１０７Ｃは、混合音分離部１０３Ａが抽出した分離音情報Ｓ１０２Ｃと同一音特性領域分析部１０６Ｂが作成した同一音特性領域情報Ｓ１０４Ｃとに基づいて復元するクラシック音楽の音特性を同一の音特性より成る領域ごとに抽出して音特性情報Ｓ１０５Ｃを作成する（ステップ４０４に対応）。ここでは、〈II〉の〈i〉の例とは
異なり、図１７のような歪み度合いを含む分離音情報Ｓ１０２Ｃを用いて、歪み度合いの小さいフレームの音特性を利用して音特性を推定する。なお、歪み度合いの大きさに比例した重み付けで音特性の量を線形加算して推定してもよい。

このように、混合音から抽出した復元対象音に対して音特性の変化を監視することで、復元対象音を音特性が同一である時間領域で区分けして、欠落した部分が位置する音特性が同一である時間領域における比較的時間長が長い音データ（波形データ等）を用いて音特性を抽出することで、現実の音特性を忠実に再現することができる。

次に、音復元部１０８Ｃは、音構造分析部１０４Ｂが作成した音構造情報Ｓ１０３Ｃと音特性抽出部１０７Ｃが作成した音特性情報Ｓ１０５Ｃとに基づいて、クラシック音楽が欠落した部分、歪んだ部分、歪んでいない部分を含めたクラシック音楽全体を復元する（図５のステップ４０５に対応）。まず、音構造情報Ｓ１０３Ｃに基づいて、復元したい楽音全体の音韻系列情報を決定する。次に、決定した音韻系列情報に基づいて、曲、小節などを単位とした楽曲全体を考慮したリズム情報、音量変化情報などを決定する。そして、音復元部１０８Ｃは、音構造情報Ｓ１０３Ｃに記述された音符系列と、音特性情報Ｓ１０５Ｃに記述されたＭＩＤＩ音源に基づく音特性とにより、ＭＩＤＩ音源に基づく楽音合成により、音全体のバランスを考慮して復元する。

このように、欠落部分のみでなく、楽音全体のバランスを考慮して復元することで、欠落部分とそれ以外の楽音のバランスがよくなり、より自然な楽音を復元することができる。最後に、スピーカ１０９により、利用者は復元されたクラシック音楽を聞くことができる。

〈III〉重なった２種類の音（音声と環境音）を復元する場合
利用者は、街角を友達と話しをしながら歩いている。しかし、自動車の騒音や周りの人の話し声で友達の声が聞き取りにくい。そのとき、自転車が後ろからきて自転車のベルの音がなった。しかし、周りの騒音で自転車のベルの音が聞き取りにくくなっているものとする。そこで本発明の音復元装置を用いることで友達の話し声と自転車のベルの音を復元する方法について述べる。この例では、図４において、混合音Ｓ１０１に対応するものは、友達の話し声と自転車のベルの音と周囲の騒音が重なった混合音であり、復元音Ｓ１０６に対応するものは、友達の話し声と自転車のベルの音である。〈I〉の〈i〉の例と異なる点は、復元する音が音声だけではなく音声と環境音の２つであり、しかも、復元したい音である音声と環境音が一部重なっていることである。

図２４に、この実施例の全体構成を示すブロック図を示す。

マイク１０２は、混合音Ｓ１０１Ｄを入力して混合音分離部１０３Ｄへ出力する。

混合音分離部１０３Ｄは、混合音Ｓ１０１Ｄから復元する音の材料を分離音情報Ｓ１０２Ｄとして抽出する。

音構造分析部１０４Ｄは、混合音分離部１０３Ｄが抽出した分離音情報Ｓ１０２Ｄと音構造知識データベース１０５Ｄとに基づいて復元する音の音構造情報Ｓ１０３Ｄを作成する。

同一音特性領域分析部１０６Ｄは、混合音分離部１０３Ｄが抽出した分離音情報Ｓ１０２Ｄから同一の音特性からなる領域を求めて同一音特性領域情報Ｓ１０４Ｄを作成する。

音特性抽出部１０７Ｄは、同一音特性領域分析部１０６Ｄが作成した同一音特性領域情報Ｓ１０４Ｄに基づいて復元する音の音特性を同一の音特性よりなる領域ごとに抽出して音特性情報Ｓ１０５Ｄを作成する。

音復元部１０８Ｄは、音構造分析部１０４Ｄが作成した音構造情報Ｓ１０３Ｄおよび音特性抽出部１０７Ｄが作成した音特性情報Ｓ１０５Ｄと基づいて復元音Ｓ１０６Ｄを作成する。

スピーカ１０９は、音復元部１０８Ｄが作成した復元音Ｓ１０６Ｄを利用者へ出力する。

はじめに、ヘッドホン装置１０１に装着されたマイク１０２を用いて混合音Ｓ１０１Ｄである友達の話し声と自転車のベルの音と周囲の騒音が重なった音を取り込む。図２５に、友達の話し声と自転車のベルの音と周囲の騒音が重なった混合音を模式的に図示した例を示す。この例では、復元したい音である友達の話し声と自転車のベルの音が一部重なっている。また、友達の話し声と自転車のベルの両方に周囲の騒音が重なっている。

まず、混合音分離部１０３Ｄは、マイク１０２が取り込んだ混合音Ｓ１０１Ｄを用いて分離音情報Ｓ１０２Ｄを抽出する（図５のステップ４０１に対応）。ここでは、混合音Ｓ１０１Ｄを周波数分析してスペクトログラムで表現したのちに音の波形の局所的な構造を利用して聴覚情景分析を行い、時間と周波数の微小領域ごとに友達の話し声の領域、自転車のベルの領域、周囲の騒音の領域を決定する。ここでは、各微小領域には１つの音のみが優先的にパワーをしめていることを仮定した方法を用いて３種類の音を分離する。図２６に、聴覚情景分析を行った結果を模式的に示す。この例をみると、友達の話し声と自転車のベルが時間的に重なった場合でも、周波数ごとに領域を区分すればそれぞれの成分を分離できることがわかる。そして、聴覚情景分析の結果に基づいて図２７の例のような分離音情報Ｓ１０２Ｄを抽出する。図２７に示す分離音情報の例では、時間フレームと周波数ごとに、その領域の成分が友達の話し声か自転車のベルかが記載され、それぞれのパワーの値とそれぞれの歪み度合いが記載されている。歪み度合いは、各領域において聴覚情景分析により抽出した成分と抽出前の混合音の成分との比に基づいて計算することができる。

なお、独立成分分析、複数のマイクを用いたアレイ処理などを用いて分離音情報Ｓ１０２Ｄを抽出してもよい。

次に、音構造分析部１０４Ｄは、混合音分離部１０３Ｄが抽出した分離音情報Ｓ１０２Ｄと、音素辞書、単語辞書、言語連鎖辞書、音源モデル辞書、とから構成された音構造知識データベース１０５Ｄとに基づいて、復元する音である友達の話し声と自転車のベルの音構造情報Ｓ１０３Ｄを作成する（図５のステップ４０２に対応）。ここでは、音構造情報Ｓ１０３Ｄとして、友達の話し声の音韻系列情報を、音素辞書、単語辞書、言語連鎖辞書を用いて作成し、環境音である自転車のベルの音符系列情報を、音源モデル辞書を用いて作成する。まず、分離音情報Ｓ１０２Ｄの一部である友達の話し声の成分（たとえば、図２７の分離音情報の「音の種類」が「友達」と記載されたところの周波数情報）と、事前に多くの音声データで学習された周波数領域上で表現された音素辞書（隠れマルコフモデル）との尤度を計算して音素の候補を予測する。さらに、単語辞書、言語連鎖辞書を用いて制約をかけて音韻系列を決定する。また、分離音情報Ｓ１０２Ｄの一部である自転車のベルの成分（たとえば、図２７の分離音情報の「音の種類」が「ベル」と記載されたところの周波数情報）と、事前に多くのベルデータで学習された周波数領域上で表現された音素辞書（隠れマルコフモデル）との尤度を計算して音符の候補を予測する。さらに、自転車のベルの時間的構造などが記憶された音源モデル辞書を用いて制約をかけて音符系列を決定する。ここで、図２７の分離音情報に記載された「歪み度合い」を用いて精度よく音韻系列または音符系列を決定してもよい。

次に、同一音特性領域分析部１０６Ｄは、混合音分離部１０３Ｄが抽出した分離音情報Ｓ１０２Ｄに基づいて同一の音特性から成る領域を求めて同一音特性領域情報Ｓ１０４Ｄを作成する（図５のステップ４０３に対応）。ここでは、分離音情報Ｓ１０２Ｄに基づいて、どの時間と周波数の領域とを同じ音特性から成る領域にしたらよいかを決定して、同一音特性領域情報とする。図２８に、同一音特性領域情報Ｓ１０４Ｄの例を示す。ここでは、友達の話し声の時間と周波数の領域、自転車のベルの時間と周波数の領域と２つの領域が抽出されている。すなわち、次に示す音特性抽出部１０７Ｄで２種類の音特性を抽出することになる。この例での特徴は、同一の音特性と考えられる領域が時間的に途切れていることと、周波数を考慮した領域であることである。

次に、音特性抽出部１０７Ｄは、混合音分離部１０３Ｄが抽出した分離音情報Ｓ１０２Ｄと同一音特性領域分析部１０６Ｄとに基づいて、友達の話し声と自転車のベルとの音特性をそれぞれ抽出して音特性情報Ｓ１０５Ｄを作成する（ステップ４０４に対応）。ここで、友達の話し声の音特性として話者性などを抽出して、自転車のベルの音特性として音色などを抽出する。そして、抽出した情報を音特性情報Ｓ１０５Ｄとする。ここでは、友達の話し声全体で１つの音特性を抽出し、自動車のベルの音全体でもう１つの音特性を抽出して音特性情報Ｓ１０５Ｄを作成する。

次に、音復元部１０８Ｄは、音構造分析部１０４Ｄが作成した音構造情報Ｓ１０３Ｄと音特性抽出部１０７Ｄが作成した音特性情報Ｓ１０５Ｄに基づいて、友達の話し声と自転車のベルの音を復元する（図５のステップ４０５に対応）。友達の話し声は〈I〉の〈ii〉の例と同様にして、自転車のベルの音はＭＩＤＩ音源を用いることで復元する。

このように、複数の復元対象音が重なった場合において、それぞれの復元対象音に対して高い精度で音復元を行なうことができる。

なお、図２７の分離音情報を用いて、歪み度合いが小さいもしくは歪んでいない領域は、分離音情報の「パワー」の値をそのまま利用して音を復元してもよい。このときは、歪み度合いが大きい領域の周波数のパワーを復元することになる。

最後に、スピーカ１０９により、利用者は復元された友達の話し声と自転車のベルを選択的に聴くことができる。たとえば、安全のために自転車のベルの音を優先的に聞き、そのあとに、必要に応じて復元された友達の話し声をオフラインで聞くことができる。また、右耳と左耳の２つのスピーカを用いて２つの音源の位置を意図的にずらして聞くこともできる。このとき、自転車のベルの音は音源の位置が変わらないように設定すると自転車の到来方向がわかり安全で好ましい。

以上説明したように、本発明の実施の形態１によれば、音構造知識データベースを用いて作成した音構造情報に基づいて音を復元するため、幅広い一般的な音（音声、音楽、環境音を含む）を復元することができるとともに、同一の音特性からなる領域ごとに抽出した音特性情報に基づいて音を復元するため、実際の音特性に忠実に歪む前の音を復元することができる。また、混合音分離部により、複数の音が混在した混合音から音を復元することができる。特に、混合音から抽出した復元対象音に対して音特性の変化を監視することで、復元対象音を音特性が同一である時間領域で区分けして、欠落した部分が位置する音特性が同一である時間領域における比較的時間長が長い音データ（波形データ等）を用いて音特性を抽出することで、現実の音特性を忠実に再現することができる。

なお、〈I〉の〈i〉、〈I〉の〈ii〉、〈II〉の〈i〉、〈II〉の〈ii〉、〈III〉の全ての例において、音復元部は、利用者の聴覚特性に基づいて音を復元してもよい。たとえば、マスキング効果を考慮して利用者に聞こえない部分は復元しなくてもよい。また、利用者の可聴範囲を考慮して音を復元してもよい。

なお、音特性抽出部が作成した音特性情報に基づいて、声質、口調、音量、音質などを忠実に復元し、音特性の一部を変更して、残響だけを小さくすることで、利用者に聞き取りやすく加工してもよい。また、音構造分析部が作成した音構造情報を一部変更して、音構造情報に基づいた音韻系列に従って、敬語表現にしたり方言表現に変更したりしてもよい。これらの変形例に関しては、実施の形態２および実施の形態３において説明を加える。

（実施の形態２）
実施の形態２では、音特性一部変更部により音特性を一部変更することで、利用者に聞きやすくかつ自然な音で復元できることについて述べる。ここでは、本発明に係る音復元装置が音編集装置に組み込まれた例で説明する。復元する音として、〈IV〉音声を復元する場合、〈V〉楽音を復元する場合、について述べる。

〈IV〉音声を復元する場合
図２９は、本発明の実施の形態２における〈IV〉の例の音復元装置の全体構成を示すブロック図である。図２９において、音編集装置２０１は、テレビ、パソコン、ＤＶＤ（Digital Versatile Disc）編集器などに組み込むことも可能であり、混合音の中から利用者が必要とする音を、音特性の一部を変更して聞きやすい音で復元するという音復元機能を実装している。音編集装置２０１は、データ読み取り部２０２と、混合音分離部１０３と、音構造分析部１０４と、音構造知識データベース１０５と、同一音特性領域分析部１０６と、音特性抽出部１０７と、音特性一部変更部２０３と、音復元部２０４と、記憶部２０５と、スピーカ２０６とを備える。

データ読み取り部２０２は、混合音Ｓ１０１を入力して混合音分離部１０３へ出力する。

混合音分離部１０３は、混合音Ｓ１０１から復元する音の材料を分離音情報Ｓ１０２として抽出する。

音構造分析部１０４は、混合音分離部１０３が抽出した分離音情報Ｓ１０２と音構造知識データベース１０５とに基づいて復元する音の音構造情報Ｓ１０３を作成する。

同一音特性領域分析部１０６は、混合音分離部１０３が抽出した分離音情報Ｓ１０２から同一の音特性からなる領域を求めて同一音特性領域情報Ｓ１０４を作成する。

音特性一部変更部２０３は、音特性抽出部１０７が作成した音特性情報Ｓ１０５を一部変更して変更音特性情報Ｓ２０１を作成する。

音復元部２０４は、音構造分析部１０４が作成した音構造情報Ｓ１０３および音特性一部変更部２０３が作成した変更音特性情報Ｓ２０１に基づいて復元音Ｓ２０２を作成する。

記憶部２０５は、音復元部２０４が作成した復元音Ｓ２０２を記憶する。

スピーカ２０６は、記憶部２０５が記憶した復元音Ｓ２０２を利用者へ出力する。

図３０は、本発明の実施の形態２における音復元装置の処理の流れを示すフローチャートである。はじめに、混合音分離部１０３は、混合音Ｓ１０１から復元する音の材料を分離音情報Ｓ１０２として抽出する（ステップ４０１）。次に、音構造分析部１０４は、抽出した分離音情報Ｓ１０２と音構造知識データベース１０５とに基づいて音構造情報Ｓ１０３を作成する（ステップ４０２）。また、同一音特性領域分析部１０６は、抽出した分離音情報Ｓ１０２から同一の音特性から成る領域を求めて同一音特性領域情報Ｓ１０４を作成する（ステップ４０３）。そして、音特性抽出部１０７は、同一音特性領域情報Ｓ１０４に基づいて復元する音の音特性を同一の音特性より成る領域ごとに抽出して音特性情報Ｓ１０５を作成する（ステップ４０４）。そして、音特性一部変更部２０３は、音特性情報Ｓ１０５を一部変更して変更音特性情報Ｓ２０１を作成する（ステップ２８０１）。最後に、音復元部２０４は、音構造情報Ｓ１０３と変更音特性情報Ｓ２０１とに基づいて復元音Ｓ２０２を作成する（ステップ２８０２）。

次に、本実施の形態の〈IV〉の例を音編集装置の音復元機能に適用した具体例について説明する。ここでは、実施の形態１の〈I〉の〈i〉の例と同じように、アナウンスの音声とチャイムが重なった混合音Ｓ１０１からアナウンスの音声を復元する方法について説明する。ここで実施の形態１と異なる点は、音復元部２０４は、作成した音特性情報Ｓ１０５をそのまま利用するのではなく、音特性一部変更部２０３により作成された変更音特性情報Ｓ２０１を用いて音を復元することである。

はじめに、音編集装置１０１に装着されたデータ読み取り部２０２を用いて混合音Ｓ１０１であるアナウンスの音声とチャイムが重なった音（図６を参照）を取り込む。

まず、混合音分離部１０３は、データ読み取り部２０２が取り込んだ混合音Ｓ１０１を用いて、実施の形態１の〈I〉の〈i〉の例と同様にして、分離音情報Ｓ１０２を抽出する（図３０のステップ４０１に対応）。

次に、音構造分析部１０４は、実施の形態１の〈I〉の〈i〉の例と同様にして、アナウンスの音声の音構造情報Ｓ１０３を作成する（図３０のステップ４０２に対応）。

次に、同一音特性領域分析部１０６は、実施の形態１の〈I〉の〈i〉の例と同様にして、混合音分離部１０３が抽出した分離音情報Ｓ１０２に基づいて同一の音特性から成る領域を求めて同一音特性領域情報Ｓ１０４を作成する（図３０のステップ４０３に対応）。

次に、音特性抽出部１０７は、実施の形態１の〈I〉の〈i〉の例と同様にして、混合音分離部１０３が抽出した分離音情報Ｓ１０２と同一音特性領域分析部１０６が作成した同一音特性領域情報Ｓ１０４とに基づいて復元するアナウンスの音声の音特性を同一の音特性より成る領域ごとに抽出して音特性情報Ｓ１０５を作成する（図３０のステップ４０４に対応）。ここでは、音特性として、話者性、性別特性、声年齢、声質、口調、音量、残響特性、音質を抽出する。

次に、音特性一部変更部２０３は、音特性抽出部１０７が作成した音特性情報Ｓ１０５を一部変更して変更音特性情報Ｓ２０１を作成する（図３０のステップ２８０１に対応）。ここでは、音特性情報Ｓ１０５である、話者性、性別特性、声年齢、声質、口調、音量、音質、残響特性、音色、の情報の一部を変更して利用者が聞き取りやすい音特性を作成する。たとえば、話者性だけを変更して発話者の特徴を少し強調することで、実際の音特性はほとんど変更することなしに、聞きやすい自然な音を復元することができる。また、口調を変更して、アナウンス口調を丁寧な口調にすることができ、どもった声を明瞭にすることで聞きやすい音を復元することができる。また、音量を大きくしたり、残響を少なくしたりすることでも聞きやすい音を復元することができる。ここで、変更する音特性は全体の音特性の一部であるため、自然な音を復元することができる。たとえば、残響特性だけを変更した場合は、話者性は保持されるため、発話者のリアルな音声を復元することができる。

次に、音復元部２０４は、音構造分析部１０４が作成した音構造情報Ｓ１０３と音特性一部変更部２０３が作成した変更音特性情報Ｓ２０１とに基づいてアナウンスの音声を復元する（図３０のステップ２８０２に対応）。ここでは、音声合成により、変更された音特性に基づいてアナウンス全体の音声を復元音Ｓ２０２として復元する。

次に、記憶部２０５は、音復元部２０４が作成した復元音Ｓ２０２を記憶する。

最後に、利用者は、復元されたアナウンスをスピーカ２０６で聞くことができる。

〈V〉楽音を復元する場合
図３１は、本発明の実施の形態２における〈V〉の例の音復元装置の全体構成を示すブロック図である。図３１において、〈IV〉の例と同じように、音編集装置２０１は、テレビ、パソコン、ＤＶＤ編集器などに組み込むことも可能であり、混合音の中から利用者が必要とする音を、音特性の一部を変更して聞きやすい音で復元するという音復元機能を実装している。音編集装置２０１は、データ読み取り部２０２と、混合音分離部１０３と、音構造分析部１０４Ｂと、音構造知識データベース１０５Ｂと、同一音特性領域分析部１０６Ｂと、音特性抽出部１０７Ｂと、音特性一部変更部２０３Ｂと、音復元部２０４Ｂと、記憶部２０５と、スピーカ２０６とを備える。

データ読み取り部２０２は、混合音Ｓ１０１Ｂを入力して混合音分離部１０３へ出力する。

混合音分離部１０３は、混合音Ｓ１０１Ｂから復元する音の材料を分離音情報Ｓ１０２Ｂとして抽出する。

音構造分析部１０４Ｂは、混合音分離部１０３が抽出した分離音情報Ｓ１０２Ｂと音構造知識データベース１０５Ｂとに基づいて復元する音の音構造情報Ｓ１０３Ｂを作成する。

同一音特性領域分析部１０６Ｂは、混合音分離部１０３が抽出した分離音情報Ｓ１０２Ｂから同一の音特性からなる領域を求めて同一音特性領域情報Ｓ１０４Ｂを作成する。

音特性抽出部１０７Ｂは、同一音特性領域分析部１０６Ｂが作成した同一音特性領域情報Ｓ１０４Ｂに基づいて復元する音の音特性を同一の音特性よりなる領域ごとに抽出して音特性情報Ｓ１０５Ｂを作成する。

音特性一部変更部２０３Ｂは、音特性抽出部１０７Ｂが作成した音特性情報Ｓ１０５Ｂを一部変更して変更音特性情報Ｓ２０１Ｂを作成する。

音復元部２０４Ｂは、音構造分析部１０４Ｂが作成した音構造情報Ｓ１０３Ｂおよび音特性一部変更部２０３Ｂが作成した変更音特性情報Ｓ２０１Ｂに基づいて復元音Ｓ２０２Ｂを作成する。

記憶部２０５は、音復元部２０４Ｂが作成した復元音Ｓ２０２Ｂを記憶する。

スピーカ２０６は、記憶部２０５が記憶した復元音Ｓ２０２Ｂを利用者へ出力する。

次に、本実施の形態の〈V〉の例を音編集装置の音復元機能に適用した具体例について説明する。ここでは、実施の形態１の〈II〉の〈i〉の例と同じように、街角ＢＧＭと自動車のクラクションの音が重なった混合音Ｓ１０１Ｂから街角ＢＧＭを復元する方法について説明する。ここで、〈IV〉の例とことなる点は、復元する音は音声ではなく楽音であることである。

はじめに、音編集装置１０１に装着されたデータ読み取り部２０２を用いて混合音Ｓ１０１Ｂである街角ＢＧＭと自動車のクラクションの音が重なった音（図２０を参照）を取り込む。

まず、混合音分離部１０３は、データ読み取り部２０２が取り込んだ混合音Ｓ１０１Ｂを用いて、実施の形態１の〈II〉の〈i〉の例と同様にして、分離音情報Ｓ１０２Ｂを抽出する（図３０のステップ４０１に対応）。

次に、音構造分析部１０４Ｂは、実施の形態１の〈II〉の〈i〉の例と同様にして、街角ＢＧＭの音構造情報Ｓ１０３Ｂを作成する（図３０のステップ４０２に対応）。

次に、同一音特性領域分析部１０６Ｂは、実施の形態１の〈II〉の〈i〉の例と同様にして、混合音分離部１０３が抽出した分離音情報Ｓ１０２Ｂに基づいて同一の音特性から成る領域を求めて同一音特性領域情報Ｓ１０４Ｂを作成する（図３０のステップ４０３に対応）。

次に、音特性抽出部１０７Ｂは、実施の形態１の〈II〉の〈i〉の例と同様にして、混
合音分離部１０３が抽出した分離音情報Ｓ１０２Ｂと同一音特性領域分析部１０６Ｂが作成した同一音特性領域情報Ｓ１０４Ｂとに基づいて復元する街角ＢＧＭの音特性を同一の音特性より成る領域ごとに抽出して音特性情報Ｓ１０５Ｂを作成する（図３０のステップ４０４に対応）。ここでは、音特性として、音量、音質、残響特性、音色を抽出する。

次に、音特性一部変更部２０３Ｂは、音特性抽出部１０７Ｂが作成した音特性情報Ｓ１０５Ｂを一部変更して変更音特性情報Ｓ２０１Ｂを作成する（図３０のステップ２８０１に対応）。ここでは、音特性情報Ｓ１０５Ｂである、音量、音質、残響特性、音色、の情報の一部を変更して利用者が聞き取りやすい音特性を作成する。たとえば、音色だけを変更して、演奏している楽器の音色を少し強調することで、聞きやすい自然な音を復元することができる。また、音量を大きくしたり、残響を少なくしたり、音質をよくしたりすることで、聞きやすい音を復元することができる。ここで、変更する音特性は全体の音特性の一部であるため、自然な音を復元することができる。

次に、音復元部２０４Ｂは、音構造分析部１０４Ｂが作成した音構造情報Ｓ１０３Ｂと音特性一部変更部２０３Ｂが作成した変更音特性情報Ｓ２０１Ｂとに基づいて街角ＢＧＭを復元する（図３０のステップ２８０２に対応）。ここでは、楽音合成により、変更された音特性に基づいて街角ＢＧＭ全体の音を復元音Ｓ２０２Ｂとして復元する。

次に、記憶部２０５は、音復元部２０４Ｂが作成した復元音Ｓ２０２Ｂを記憶する。

最後に、利用者は、復元された街角ＢＧＭをスピーカ２０６で聞くことができる。

以上説明したように、本発明の実施の形態２によれば、混合音から抽出した復元対象音に対して音特性の変化を監視することで、復元対象音を音特性が同一である時間領域で区分けして、欠落した部分が位置する音特性が同一である時間領域における比較的時間長が長い音データ（波形データ等）を用いて音特性を抽出することで、保持した音特性に対して忠実に、高い精度で混合音の中の復元対象音を復元することができる。さらに、音特性一部変更部を備えることで、利用者に聞きやすく復元することができる。

なお、〈IV〉、〈V〉の例において、音復元部は、利用者の聴覚特性に基づいて音を復元してもよい。たとえば、マスキング効果を考慮して利用者に聞こえない部分は復元しなくてもよい。また、利用者の可聴範囲を考慮して音を復元してもよい。また、音特性一部変更部は、利用者の聴覚特性に基づいて音特性を変更してもよい。たとえば、低い周波数が聞こえにくい利用者に対しては、低い周波数のパワーを大きくして復元してもよい。

なお、〈IV〉、〈V〉の例で、実施の形態１の〈I〉の〈i〉、〈II〉の〈i〉を一部として用いて説明を行ったが、この形態に限らず、〈I〉の〈ii〉、〈II〉の〈ii〉、〈IV〉を一部として用いて音を復元してもよい。

（実施の形態３）
音構造一部変更部により音構造情報を一部変更することで、利用者にわかりやすくかつ自然な音で復元できることについて述べる。ここでは、本発明に係る音復元装置が携帯型テレビ電話装置に組み込まれた例で説明する。復元する音として、〈VI〉音声を復元する場合、〈VII〉楽音を復元する場合、について述べる。

〈VI〉音声を復元する場合
図３２は、本発明の実施の形態３における〈VI〉の例の音復元装置の全体構成を示すブロック図である。図３２において、携帯型テレビ電話装置３０１は、混合音の中から利用者が必要とする音を、音構造の一部を変更してわかりやすい音で復元するという音復元機能を実装している。携帯型テレビ電話装置３０１は、受信部３０２と、混合音分離部１０３と、音構造分析部１０４と、音構造知識データベース１０５と、音構造一部変更部３０３と、同一音特性領域分析部１０６と、音特性抽出部１０７と、音復元部２０４と、スピーカ３０５とを備える。

受信部３０２は、混合音Ｓ１０１を入力して混合音分離部１０３へ出力する。

音構造一部変更部３０３は、音構造分析部１０４が作成した音構造情報Ｓ１０３を一部変更して変更音構造情報Ｓ３０１を作成する。

音復元部３０４は、音構造一部変更部３０３が作成した変更音構造情報Ｓ３０１および音特性抽出部１０７が作成した音特性情報Ｓ１０５に基づいて復元音Ｓ３０２を作成する。

スピーカ３０５は、音復元部３０４が作成した復元音Ｓ３０２を利用者へ出力する。

図３３は、本発明の実施の形態３における音復元装置の処理の流れを示すフローチャートである。はじめに、混合音分離部１０３は、混合音Ｓ１０１から復元する音の材料を分離音情報Ｓ１０２として抽出する（ステップ４０１）。次に、音構造分析部１０４は、抽出した分離音情報Ｓ１０２と音構造知識データベース１０５とに基づいて音構造情報Ｓ１０３を作成する（ステップ４０２）。そして、音構造一部変更部３０３は、音構造情報Ｓ１０３を一部変更して変更音構造情報Ｓ３０１を作成する（ステップ３００１）。また、同一音特性領域分析部１０６は、抽出した分離音情報Ｓ１０２から同一の音特性から成る領域を求めて同一音特性領域情報Ｓ１０４を作成する（ステップ４０３）。そして、音特性抽出部１０７は、同一音特性領域情報Ｓ１０４に基づいて復元する音の音特性を同一の音特性より成る領域ごとに抽出して音特性情報Ｓ１０５を作成する（ステップ４０４）。最後に、音復元部３０４は、変更音構造情報Ｓ３０１と音特性情報Ｓ１０５とに基づいて復元音Ｓ３０２を作成する（ステップ３００２）。

次に、本実施の形態の〈VI〉の例を携帯型テレビ電話装置の音復元機能に適用した具体例について説明する。ここでは、実施の形態１の〈I〉の〈i〉の例と同じように、アナウンスの音声とチャイムが重なった混合音Ｓ１０１からアナウンスの音声を復元する方法について説明する。ここで実施の形態１と異なる点は、音復元部３０４は、作成した音構造情報Ｓ１０３をそのまま利用するのではなく、音構造一部変更部３０３により作成された変更音特性情報Ｓ３０１を用いて音を復元することである。

はじめに、携帯型テレビ電話装置１０１に装着された受信部３０２を用いて混合音Ｓ１０１であるアナウンスの音声とチャイムが重なった音（図６を参照）を取り込む。

まず、混合音分離部１０３は、受信部３０２が取り込んだ混合音Ｓ１０１を用いて、実施の形態１の〈I〉の〈i〉の例と同様にして、分離音情報Ｓ１０２を抽出する（図３３のステップ４０１に対応）。

次に、音構造分析部１０４は、実施の形態１の〈I〉の〈i〉の例と同様にして、アナウンスの音声の音構造情報Ｓ１０３を作成する（図３３のステップ４０２に対応）。

次に、音構造一部変更部３０３は、音構造分析部１０４が作成した音構造情報Ｓ１０３を一部変更して変更音構造情報Ｓ３０１を作成する（図３３のステップ３００１に対応）。ここでは、音構造情報Ｓ１０３である音韻系列情報の一部を変更して利用者がわかりやすい音構造を作成する。たとえば、文末の音韻系列を敬語形態に変更したり、地方の方言を標準語の音韻系列に変更したりすることで、わかりやすい自然な音を復元することができる。この例では、話している内容は変更しない。

次に、同一音特性領域分析部１０６は、実施の形態１の〈I〉の〈i〉の例と同様にして、混合音分離部１０３が抽出した分離音情報Ｓ１０２に基づいて同一の音特性から成る領域を求めて同一音特性領域情報Ｓ１０４を作成する（図３３のステップ４０３に対応）。

次に、音特性抽出部１０７は、実施の形態１の〈I〉の〈i〉の例と同様にして、混合音分離部１０３が抽出した分離音情報Ｓ１０２と同一音特性領域分析部１０６が作成した同一音特性領域情報Ｓ１０４とに基づいて復元するアナウンスの音声の音特性を同一の音特性より成る領域ごとに抽出して音特性情報Ｓ１０５を作成する（図３３のステップ４０４に対応）。

次に、音復元部３０４は、音構造一部変更部３０３が作成した変更音構造情報Ｓ３０１と音特性抽出部１０７が作成した音特性情報Ｓ１０５とに基づいてアナウンスの音声を復元する（図３３のステップ３００２に対応）。ここでは、音声合成により、変更された音特性に基づいてアナウンス全体の音声を復元音Ｓ３０２として復元する。

最後に、利用者は、復元されたアナウンスをスピーカ３０５で聞くことができる。

〈VII〉楽音を復元する場合
図３４は、本発明の実施の形態３における〈VII〉の例の音復元装置の全体構成を示すブロック図である。図３４において、〈VI〉の例と同じように、携帯型テレビ電話装置３０１は、混合音の中から利用者が必要とする音を、音構造の一部を変更してわかりやすい音で復元するという音復元機能を実装している。携帯型テレビ電話装置３０１は、受信部３０２と、混合音分離部１０３と、音構造分析部１０４Ｂと、音構造知識データベース１０５Ｂと、音構造一部変更部３０３Ｂと、同一音特性領域分析部１０６Ｂと、音特性抽出部１０７Ｂと、音復元部３０４Ｂと、スピーカ３０５とを備える。

受信部３０２は、混合音Ｓ１０１Ｂを入力して混合音分離部１０３へ出力する。

音構造一部変更部３０３Ｂは、音構造分析部１０４Ｂが作成した音構造情報Ｓ１０３Ｂを一部変更して変更音構造情報Ｓ３０１Ｂを作成する。

音復元部３０４Ｂは、音構造一部変更部３０３Ｂが作成した変更音構造情報Ｓ３０１Ｂおよび音特性抽出部１０７Ｂが作成した音特性情報Ｓ１０５Ｂに基づいて復元音Ｓ３０２Ｂを作成する。

スピーカ３０５は、音復元部３０４Ｂが作成した復元音Ｓ３０２Ｂを利用者へ出力する。

次に、本実施の形態の〈VII〉の例を携帯型テレビ電話装置の音復元機能に適用した具体例について説明する。ここでは、実施の形態１の〈II〉の〈i〉の例と同じように、街角ＢＧＭと自動車のクラクションの音が重なった混合音Ｓ１０１Ｂから街角ＢＧＭを復元する方法について説明する。ここで、〈VI〉の例とことなる点は、復元する音は音声ではなく楽音であることである。

はじめに、携帯型テレビ電話装置３０１に装着された受信部３０２を用いて混合音Ｓ１０１Ｂである街角ＢＧＭと自動車のクラクションの音が重なった音（図２０を参照）を取り込む。

まず、混合音分離部１０３は、受信部３０２が取り込んだ混合音Ｓ１０１Ｂを用いて、実施の形態１の〈II〉の〈i〉の例と同様にして、分離音情報Ｓ１０２Ｂを抽出する（図３３のステップ４０１に対応）。

次に、音構造分析部１０４Ｂは、実施の形態１の〈II〉の〈i〉の例と同様にして、街角ＢＧＭの音構造情報Ｓ１０３Ｂを作成する（図３３のステップ４０２に対応）。

次に、音構造一部変更部３０３Ｂは、音構造分析部１０４Ｂが作成した音構造情報Ｓ１０３Ｂを一部変更して変更音構造情報Ｓ３０１Ｂを作成する（図３３のステップ３００１に対応）。ここでは、音構造情報Ｓ１０３Ｂである、音符系列情報を変更して、利用者にわかりやすい音を復元する。たとえば、高齢者に対して街角ＢＧＭのテンポが速い場合は、ゆっくりとしたテンポの音符系列情報に変更する。なお、復元する音が報知音などの場合は、音の繰返し周期を変更してもよい。たとえば、高齢者は、速い周期の音は聞き取りにくいため、スピードを少しゆっくりにして音を復元してもよい。

次に、同一音特性領域分析部１０６Ｂは、実施の形態１の〈II〉の〈i〉の例と同様に
して、混合音分離部１０３が抽出した分離音情報Ｓ１０２Ｂに基づいて同一の音特性から成る領域を求めて同一音特性領域情報Ｓ１０４Ｂを作成する（図３３のステップ４０３に対応）。

次に、音特性抽出部１０７Ｂは、実施の形態１の〈II〉の〈i〉の例と同様にして、混合音分離部１０３が抽出した分離音情報Ｓ１０２Ｂと同一音特性領域分析部１０６Ｂが作成した同一音特性領域情報Ｓ１０４Ｂとに基づいて復元する街角ＢＧＭの音特性を同一の音特性より成る領域ごとに抽出して音特性情報Ｓ１０５Ｂを作成する（図３３のステップ４０４に対応）。

次に、音復元部３０４Ｂは、音構造一部変更部３０３Ｂが作成した変更音構造情報Ｓ３０１Ｂと音特性抽出部１０７Ｂが作成した音特性情報Ｓ１０５Ｂとに基づいて街角ＢＧＭを復元する（図３３のステップ３００２に対応）。ここでは、楽音合成により、変更された音特性に基づいて街角ＢＧＭ全体の音を復元音Ｓ３０２Ｂとして復元する。

最後に、利用者は、復元された街角ＢＧＭをスピーカ３０５で聞くことができる。

以上説明したように、本発明の実施の形態３によれば、混合音から抽出した復元対象音に対して音特性の変化を監視することで、復元対象音を音特性が同一である時間領域で区分けして、欠落した部分が位置する音特性が同一である時間領域における比較的時間長が長い音データ（波形データ等）を用いて音特性を抽出することで、現実の音特性を忠実に再現することができる。さらに、音構造一部変更部を備えることで、利用者にわかりやすくかつ自然な音で復元することができる。

なお、〈VI〉、〈VII〉の例において、音復元部は、利用者の聴覚特性に基づいて音を
復元してもよい。たとえば、聴覚の時間分解能などを考慮して音構造を変更してもよい。なお、〈VI〉、〈VII〉の例で、実施の形態１の〈I〉の〈i〉、〈II〉の〈i〉を一部として用いて説明を行ったが、この形態に限らず、〈I〉の〈ii〉、〈II〉の〈ii〉、〈IV〉を一部として用いて音を復元してもよい。

なお、混合音は、伝送ノイズ、収音ミスなどにより歪んだ音を含んでもよい。

なお、実施の形態２の音特性一部変更部と組み合わせて音を復元してもよい。

本発明にかかる音復元装置は、音編集装置、携帯電話、携帯端末、テレビ会議システム、ヘッドホン、補聴器等の音復元機能を必要とする装置等として利用することができる。

図１は、第１の従来の音復元方法を説明する図である。図２は、第２の従来の音復元方法を説明する図である。図３は、第４の従来の音復元方法を説明する図である。図４は、本発明の実施の形態１における音復元装置の全体構成を示すブロック図である。図５は、本発明の実施の形態１における音復元装置の処理の流れを示すフローチャートである。図６は、混合音と分離音情報の一例を示す図である。図７は、分離音情報の一例を示す図である。図８は、音構造情報の作成方法の一例を示す図である。図９は、音構造情報の作成方法の一例を示す図である。図１０は、同一音特性領域情報の一例を示す図である。図１１は、音特性情報の一例を示す図である。図１２は、音特性情報の一例を示す図である。図１３は、本発明の実施の形態１における音復元装置の別の全体構成を示すブロック図である。図１４は、本発明の実施の形態１における音復元装置の処理の別の流れを示すフローチャートである。図１５は、本発明の実施の形態１における音復元装置の別の全体構成を示すブロック図である。図１６は、混合音の一例を示す図である。図１７は、分離音情報の一例を示す図である。図１８は、分離音情報の一例を示す図である。図１９は、本発明の実施の形態１における音復元装置の別の全体構成を示すブロック図である。図２０は、混合音と分離音情報の一例を示す図である。図２１は、同一音特性領域情報の一例を示す図である。図２２は、本発明の実施の形態１における音復元装置の別の全体構成を示すブロック図である。図２３は、混合音の一例を示す図である。図２４は、本発明の実施の形態１における音復元装置の別の全体構成を示すブロック図である。図２５は、混合音の一例を示す図である。図２６は、分離音情報の一例を示す図である。図２７は、分離音情報の一例を示す図である。図２８は、同一音特性領域情報の一例を示す図である。図２９は、本発明の実施の形態２における音復元装置の全体構成を示すブロック図である。図３０は、本発明の実施の形態２における音復元装置の処理の流れを示すフローチャートである。図３１は、本発明の実施の形態２における音復元装置の別の全体構成を示すブロック図である。図３２は、本発明の実施の形態３における音復元装置の全体構成を示すブロック図である。図３３は、本発明の実施の形態３における音復元装置の処理の流れを示すフローチャートである。図３４は、本発明の実施の形態３における音復元装置の別の全体構成を示すブロック図である。

符号の説明

１０１ヘッドホン装置
１０２マイク
１０３、１０３Ａ、１０３Ｄ混合音分離部
１０４、１０４Ｂ、１０４Ｄ音構造分離部
１０５、１０５Ｂ、１０５Ｄ音構造知識データベース
１０６、１０６Ｚ、１０６Ａ、１０６Ｂ、１０６Ｄ同一音特性領域分析部
１０７、１０７Ａ、１０７Ｂ、１０７Ｃ、１０７Ｄ音特性抽出部
１０８、２０４、３０４、１０８Ａ、１０８Ｂ、１０８Ｃ、１０８Ｄ、２０４Ｂ、３０４Ｂ音復元部
１０９、２０６、３０５スピーカ
２０１音編集装置
２０２データ読み取り部
２０３、２０３Ｂ音特性一部変更部
２０５記憶部
３０１携帯型テレビ電話装置
３０２受信部
３０３、３０３Ｂ音構造一部変更部
Ｓ１０１、Ｓ１０１Ａ、Ｓ１０１Ｂ、Ｓ１０１Ｃ、Ｓ１０１Ｄ混合音
Ｓ１０２、Ｓ１０２Ａ、Ｓ１０２Ｂ、Ｓ１０２Ｃ、Ｓ１０２Ｄ分離音情報
Ｓ１０３、Ｓ１０３Ａ、Ｓ１０３Ｂ、Ｓ１０３Ｃ、Ｓ１０３Ｄ音構造情報
Ｓ１０４、Ｓ１０４Ａ、Ｓ１０４Ｂ、Ｓ１０４Ｃ、Ｓ１０４Ｄ同一音特性領域情報
Ｓ１０５、Ｓ１０５Ａ、Ｓ１０５Ｂ、Ｓ１０５Ｃ、Ｓ１０５Ｄ音特性情報
Ｓ１０６、Ｓ２０２、Ｓ３０２、Ｓ１０６Ａ、Ｓ１０６Ｂ、Ｓ１０６Ｃ、Ｓ１０６Ｄ、Ｓ２０２Ｂ、Ｓ３０２Ｂ復元音
Ｓ２０１、Ｓ２０１Ｂ変更音特性情報
Ｓ３０１、Ｓ３０１Ｂ変更音構造情報
３３０１放送局
３３０２受信装置
３３０３音声認識装置
３３０４言語分析装置
３３０５音声合成器
３３０６スピーカ
３４０１入力部
３４０２音声認識用音響モデル
３４０３言語モデル
３４０４音声認識部
３４０５音声合成用音響モデル
３４０６音声合成部
３４０７モニタ部
３４０８バッファ
３４０９信号混合部

Claims

混合音に含まれる、音の一部が欠落した復元対象音を復元する音復元装置であって、
前記混合音に含まれる復元対象音を抽出する混合音分離手段と、
音の意味内容が登録されている音構造知識データベースに基づいて、前記抽出された復元対象音の音が欠落した部分の音素系列、文字系列および音符系列のうちの少なくとも１つを作成する音構造分析手段と、
前記抽出された復元対象音を、同一の音特性を有する時間領域に区分けする同一音特性領域分析手段と、
前記区分けされた時間領域の中から欠落された部分が位置する時間領域を特定し、当該特定された時間領域において、前記欠落された部分以外の音から、前記復元対象音の音特性を抽出する音特性抽出手段と、
前記音構造分析手段で作成された前記音素系列、文字系列および音符系列のうちの少なくとも１つと前記抽出された音特性とを用いて、復元対象音において欠落した部分の音を復元する音復元手段と
を備える音復元装置。
前記同一音特性領域分析手段は、声質の変化、口調の変化、音色の変化、音量の変化、残響特性の変化および音質の変化のうちの少なくとも１つに基づいて、音特性が同一である時間領域を決定する
請求項１に記載の音復元装置。
前記音復元手段は、前記欠落した部分の音と前記欠落した部分以外の音とを合わせた復元対象音全体を、前記音構造分析手段で作成された前記音素系列、文字系列および音符系列のうちの少なくとも１つと前記抽出された音特性とを用いて復元する
請求項１に記載の音復元装置。
混合音に含まれる音の一部が欠落した復元対象音を復元する音復元方法であって、
前記混合音に含まれる復元対象音を抽出し、
音の意味内容が登録されている音構造知識データベースに基づいて、前記抽出された復元対象音の音が欠落した部分の音素系列、文字系列および音符系列のうちの少なくとも１つを作成し、
前記抽出された復元対象音を、同一の音特性を有する時間領域に区分けし、
前記区分けされた時間領域の中から欠落された部分が位置する時間領域を特定し、当該特定された時間領域において、前記欠落された部分以外の音から、前記復元対象音の音特性を抽出し、
作成された前記音素系列、文字系列および音符系列のうちの少なくとも１つと前記抽出された音特性とを用いて、復元対象音において欠落した部分の音を復元する
音復元方法。
混合音に含まれる音の一部が欠落した復元対象音を復元するプログラムであって、
前記混合音に含まれる復元対象音を抽出するステップと、
音の意味内容が登録されている音構造知識データベースに基づいて、前記抽出された復元対象音の音が欠落した部分の音素系列、文字系列および音符系列のうちの少なくとも１つを作成するステップと、
前記抽出された復元対象音を、同一の音特性を有する時間領域に区分けするステップと、
前記区分けされた時間領域の中から欠落された部分が位置する時間領域を特定し、当該特定された時間領域において、前記欠落された部分以外の音から、前記復元対象音の音特性を抽出するステップと、
作成された前記音素系列、文字系列および音符系列のうちの少なくとも１つと前記抽出された音特性とを用いて、復元対象音において欠落した部分の音を復元するステップと
をコンピュータに実行させるプログラム。