JP7414214B1

JP7414214B1 - 学習モデル作成方法、学習モデル作成装置、背景音除去方法、および背景音除去装置

Info

Publication number: JP7414214B1
Application number: JP2023139753A
Authority: JP
Inventors: 博田中; 剛宮崎
Original assignee: Ikutoku Gakuen School Corp
Current assignee: Ikutoku Gakuen School Corp
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2024-01-16
Anticipated expiration: 2043-08-30

Abstract

【課題】良好な背景音除去性能を得ることが可能な背景音除去方法を提供する。
【解決手段】本発明の学習モデル作成方法では、注目音声を用いて第１の２次元画像を作成し、注目音声に除去対象音声を重畳した重畳音声を用いて第２の２次元画像を作成し、第１の２次元画像を教師データとし、第２の２次元画像を深層学習ネットワークに入力し、深層学習ネットワークの出力データが教師データと一致するように学習を行うことにより、除去対象音声を除去するための学習モデルを作成する。第２の２次元画像は、除去対象音声の音声ピッチと重畳する際のＳＮ比を変更することにより複数の重畳音声を作成し、複数の重畳音声のそれぞれを用いて作成される。
【選択図】図１４

Description

特許法第３０条第２項適用令和４年１１月１７日に発行された情報処理学会第１１９回オーディオビジュアル複合情報処理研究会（令和４年１１月２５日、愛知県名古屋市にて開催）の講演予稿集にて発表。令和４年１１月２５日に開催された情報処理学会第１１９回オーディオビジュアル複合情報処理研究会（令和４年１１月２５日、愛知県名古屋市にて開催）にて発表。令和４年１２月７日に発行されたＨＣＧシンポジウム２０２２（令和４年１２月１４日、香川県高松市にて開催）の講演予稿集にて発表。令和４年１２月１４日に開催されたＨＣＧシンポジウム２０２２（令和４年１２月１４日、香川県高松市にて開催）にて発表。令和５年２月１４日に発行された画像電子学会第３０３回研究会（令和５年２月２２日、広島県広島市にて開催）の講演予稿集にて発表。令和５年２月２２日に開催された画像電子学会第３０３回研究会（令和５年２月２２日、広島県広島市にて開催）にて発表。令和５年２月１４日に発行された画像電子学会第３０３回研究会（令和５年２月２２日、広島県広島市にて開催）の講演予稿集にて発表。令和５年２月２２日に開催された画像電子学会第３０３回研究会（令和５年２月２２日、広島県広島市にて開催）にて発表。令和５年５月２日に発行された画像電子学会誌第５２巻第２号にて発表。

本願発明は、学習モデルを用いて背景音を除去する背景音除去方法に関するものである。

近年、テレワークや在宅勤務、遠隔授業が急速に広がり、場所や移動を気にすることなく会議や授業に参加できるようになった。一方、自宅から動画配信をする場合には同居者の声や生活音、ペットの鳴き声や乳児の泣き声等が混入してしまい、会議や授業の参加者が音声を聞き取りにくくなってしまう場合がある。

会議や授業においてオンラインで配信される動画に混入する雑音への対応に関しては、ノイズ除去手法が提案されている。例えば、非特許文献１では、音声データを短時間フーリエ変換でスペクトログラム画像に変換し、Ｕ－Ｎｅｔを用いて電車走行音等のノイズを除去する手法が提案されている。

林他：「U-Netを用いた雑音除去と音声認識性能向上の検討-電車走行背景音を対象として」，信学技法SeMI2022-26，Vol. 122, No. 108, pp. 34-39 (2022)

利用者が動画を配信する際に混入する音声は、ペットの鳴き声や乳児の泣き声等のように利用者が動画を配信する環境に応じて異なり、様々な音声が動画を配信する話者の音声に混入することが想定される。従来の背景音除去手法のように、一般的なノイズを除去対象とする背景音除去方法では、利用者毎に異なる様々な音声を除去対象とした場合において、良好な除去性能が得られない場合がある。

本発明は、上記の課題を解決するためになされたものであり、利用者が除去したい様々な背景音を除去する場合において、良好な背景音除去性能を得ることが可能な背景音除去方法を提供することを目的とする。

上記課題を解決するために、本発明の学習モデル作成方法では、学習データ作成部と学習モデル作成部を備えた学習モデル作成装置において実行される学習モデル作成方法であって、前記学習データ作成部は、第１の音声データを用いて第１の２次元画像を作成し、前記第１の音声データに少なくとも１つの第２の音声データを重畳して第３の音声データを作成し、前記第３の音声データを用いて第２の２次元画像を作成し、前記学習モデル作成部は、前記第１の２次元画像を教師データとし、前記第２の２次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第２の音声データを除去するための学習モデルを作成し、前記学習データ作成部は、前記第２の音声データの音声ピッチと前記重畳する際のＳＮ比を変更することにより複数の前記第３の音声データを作成し、複数の前記第３の音声データのそれぞれを用いて前記第２の２次元画像を作成する。

上記課題を解決するために、本発明の学習モデル作成装置は、学習データ作成部と学習モデル作成部を備えた学習モデル作成装置であって、前記学習データ作成部は、第１の音声データを用いて第１の２次元画像を作成し、前記第１の音声データに少なくとも１つの第２の音声データを重畳して第３の音声データを作成し、前記第３の音声データを用いて第２の２次元画像を作成し、前記学習モデル作成部は、前記第１の２次元画像を教師データとし、前記第２の２次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第２の音声データを除去するための学習モデルを作成し、前記学習データ作成部は、前記第２の音声データの音声ピッチと前記重畳する際のＳＮ比を変更することにより複数の前記第３の音声データを作成し、複数の前記第３の音声データのそれぞれを用いて前記第２の２次元画像を作成する。

上記課題を解決するために、本発明の学習モデル作成方法は、学習データ作成部と学習モデル作成部を備えた学習モデル作成装置において実行される学習モデル作成方法であって、前記学習データ作成部は、第１の音声データを用いて第１の２次元画像を作成し、前記第１の音声データに少なくとも１つの第２の音声データを重畳して第３の音声データを作成し、前記第３の音声データを用いて第２の２次元画像を作成し、前記学習モデル作成部は、前記第１の２次元画像を教師データとし、前記第２の２次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第２の音声データを除去するための学習モデルを作成し、前記学習データ作成部は、前記第１の音声データを用いて作成した２次元画像において、一部が重複するように画像を切り出すことにより前記第１の２次元画像を作成し、前記第３の音声データを用いて作成した２次元画像において、一部が重複するように画像を切り出すことにより前記第２の２次元画像を作成する。

上記課題を解決するために、本発明の学習モデル作成装置は、学習データ作成部と学習モデル作成部を備えた学習モデル作成装置であって、前記学習データ作成部は、第１の音声データを用いて第１の２次元画像を作成し、前記第１の音声データに少なくとも１つの第２の音声データを重畳して第３の音声データを作成し、前記第３の音声データを用いて第２の２次元画像を作成し、前記学習モデル作成部は、前記第１の２次元画像を教師データとし、前記第２の２次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第２の音声データを除去するための学習モデルを作成し、前記学習データ作成部は、前記第１の音声データを用いて作成した２次元画像において、一部が重複するように画像を切り出すことにより前記第１の２次元画像を作成し、前記第３の音声データを用いて作成した２次元画像において、一部が重複するように画像を切り出すことにより前記第２の２次元画像を作成する。

上記課題を解決するために、本発明の学習モデル作成方法は、学習データ作成部と学習モデル作成部を備えた学習モデル作成装置において実行される学習モデル作成方法であって、前記学習データ作成部は、第１の音声データを用いて第１の２次元画像を作成し、前記第１の音声データに少なくとも１つの第２の音声データを重畳して第３の音声データを作成し、前記第３の音声データを用いて第２の２次元画像を作成し、前記学習モデル作成部は、前記第１の２次元画像を教師データとし、前記第２の２次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第２の音声データを除去するための学習モデルを作成し、前記学習データ作成部は、前記第１の音声データを用いて作成した所定の解像度の２次元画像に、前記所定の解像度と異なる解像度の２次元画像を追加することにより、前記第１の２次元画像を作成し、前記第３の音声データを用いて作成した所定の解像度の２次元画像に、前記所定の解像度と異なる解像度の２次元画像を追加することにより、前記第２の２次元画像を作成する。

上記課題を解決するために、本発明の学習モデル作成装置は、学習データ作成部と学習モデル作成部を備えた学習モデル作成装置であって、前記学習データ作成部は、第１の音声データを用いて第１の２次元画像を作成し、前記第１の音声データに少なくとも１つの第２の音声データを重畳して第３の音声データを作成し、前記第３の音声データを用いて第２の２次元画像を作成し、前記学習モデル作成部は、前記第１の２次元画像を教師データとし、前記第２の２次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第２の音声データを除去するための学習モデルを作成し、前記学習データ作成部は、前記第１の音声データを用いて作成した所定の解像度の２次元画像に、前記所定の解像度と異なる解像度の２次元画像を追加することにより、前記第１の２次元画像を作成し、前記第３の音声データを用いて作成した所定の解像度の２次元画像に、前記所定の解像度と異なる解像度の２次元画像を追加することにより、前記第２の２次元画像を作成する。

上記課題を解決するために、本発明の音声除去方法は、入力データと教師データを用いて学習された学習モデルを用いて、注目音声に除去対象音声が重畳された重畳音声から除去対象音声を除去する音声除去装置において実行される音声除去方法であって、前記教師データは、前記注目音声に対応する第１の音声データを用いて作成された第１の２次元画像であり、前記入力データは、前記第１の音声データに前記除去対象音声に対応する少なくとも１つの第２の音声データを重畳して第３の音声データを作成し、前記第３の音声データを用いて作成された第２の２次元画像であり、前記学習モデルは、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることによって作成され、前記第３の音声データは、前記第２の音声データの音声ピッチと重畳する際のＳＮ比を変更することにより作成された複数の前記第２の音声データのそれぞれを前記第１の音声データに重畳することによって作成される。

上記課題を解決するために、本発明の音声除去装置は、入力データと教師データを用いて学習された学習モデルを用いて、注目音声に除去対象音声が重畳された重畳音声から除去対象音声を除去する音声除去装置であって、前記教師データは、前記注目音声に対応する第１の音声データを用いて作成した第１の２次元画像であり、前記入力データは、前記第１の音声データに前記除去対象音声に対応する少なくとも１つの第２の音声データを重畳して第３の音声データを作成し、前記第３の音声データを用いて作成された第２の２次元画像であり、前記学習モデルは、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることによって作成され、前記第３の音声データは、前記第２の音声データの音声ピッチと重畳する際のＳＮ比を変更することにより作成された複数の前記第２の音声データのそれぞれを前記第１の音声データに重畳することによって作成される音声除去装置。

本発明によれば、利用者が除去したい様々な背景音を除去する場合において、良好な背景音除去性能を得ることが可能な背景音除去方法を提供することができる。

図１は、背景音重畳音声から背景音を除去するシステムの構成例である。図２は、背景音が重畳された重畳音声を説明するための図である。図３は、スペクトログラム画像を説明するための図である。図４は、学習データのデータ拡張を説明するための図である。図５は、学習データの切り出しを説明するための図である。図６は、学習データのデータ拡張を説明するための図である。図７は、学習データのデータ拡張を説明するための図である。図８は、背景音除去のための深層学習のネットワーク（Ｕ－Ｎｅｔ）の構造を説明するための図である。図９は、除去対象音声の除去効果を評価するシステムの構成例である。図１０は、除去対象音声の除去効果を評価するための背景音重畳音声を説明するための図である。図１１は、背景音除去の評価結果を示す図である。図１２は、音声除去システムの構成例を示す図である。図１３は、学習モデル作成装置の構成例を示す図である。図１４は、学習モデル作成方法の動作フローを示す図である。図１５は、音声除去装置の構成例を示す図である。図１６は、音声除去方法の動作フローを示す図である。

以下、図面を参照して本願発明の実施の形態を説明する。但し、本願発明は、多くの異なる態様で実施することが可能であり、以下に説明する本願発明の実施の形態に限定して解釈すべきではない。

＜背景音を除去するシステムの構成例＞
本実施の形態が対象とする背景音が重畳された背景音重畳音声から背景音を除去するシステムの構成例を図１に示す。本実施の形態では、話者音声等の注目音声に背景音等の除去対象音声が混入した重畳音声に短時間フーリエ変換（ＳＴＦＴ：Short-Time Fourier Transform）を適用してスペクトログラム画像等の２次元画像を生成し、生成したスペクトログラム画像上に現れる背景音等の除去対象音声の特徴を除去するように学習した深層学習モデルに入力する。深層学習モデルの出力画像に逆ＳＴＦＴを適用することで、背景音等の除去対象音声を除去した話者音声等の注目音声を復元する。

本実施の形態では、深層学習モデルに入力するための画像として、時系列の音の強度情報を変換して作成した時間－周波数の２次元画像を用いる。２次元画像としては、スペクトログラム画像の他、メルススペクトログラム画像や、スカログラム画像を用いることができる。以下の説明では、２次元画像としてスペクトログラム画像を用いた場合を説明する。

本実施の形態では、除去対象音声を除去するための深層学習ネットワークとしてＵ－Ｎｅｔを用いて学習モデルを作成した。Ｕ－Ｎｅｔは、ＦＣＮ（Fully Convolutional Network）の１つであり、生物医科学の画像セグメンテーションを行うために発表されたものである。

ここで、本実施の形態における注目音声とは、様々な音声が混入している混入音声において、雑音を除去して残したい、あるいは雑音を除去することにより強調したい音声のことである。注目音声には、生活音や騒音などの背景音声の発生する環境において強調したい特定の話者の音声等や、自然環境において観測対象となる特定の音声等が含まれるが、それらに限定されるものではない。

＜学習モデルを作成するための背景音重畳音声の作成＞
図２は、学習モデルを作成するための背景音が重畳された重畳音声を説明するための図である。本実施の形態における除去対象音声である背景音としては、ペットの鳴き声、乳児の泣き声、インターホンの音等の様々な音声が想定される。本実施の形態では、図２に示すように、話者音声と同じデータ長となるように、同一の背景音声を所定の間隔で配置して除去対象音声を作成し、作成した除去対象音声を話者音声に重畳することにより、学習モデルを作成するための背景音重畳音声を作成する。図２の例では、背景音声を等間隔で配置しているが、ランダムな間隔で配置してもよい。

本実施の形態では、話者音声等の注目音声の音声データ（第１の音声データ）に、背景音等の除去対象音声（第２の音声データ）を重畳することにより背景音が重畳された重畳音声の音声データ（第３の音声データ）を生成し、それを用いて作成した２次元画像をＵ－Ｎｅｔに入力して、背景音の特徴を除去するように学習させることにより背景音除去のための学習モデルを作成する。

＜スペクトログラム画像＞
本実施の形態では、学習データを画像データ形式でＵ－Ｎｅｔに入力するために、図２における時系列の背景音重畳音声にＳＴＦＴを適用してスペクトログラム画像に変換する。図３は、Ｕ－Ｎｅｔに入力するスペクトログラム画像を説明するための図である。変換時のＳＴＦＴのパラメータは、例えば、窓関数ｈａｎｎ、フレームサイズ５１２、ポイント数５１２とすればよい。

＜学習データの拡張方法＞
ペットの泣き声や乳児の泣き声は、同一個体、同一人物の場合であって感情や状況によって声量や声質が異なることがある。本実施の形態では、学習データにバリエーションを持たせて背景音除去性能を向上させるために、背景音の音声ピッチと背景音を重畳する際のＳＮ比を変化させてデータ拡張を行う。

図４は、猫の鳴き声の音声ピッチを変更した場合の音声波形と、その音声波形にＳＴＦＴを適用して変換したスペクトログラム画像の例である。図４の（ａ）、（ｂ）、（ｃ）は、それぞれ、音声ピッチの変更が無い場合、音声ピッチを－２半音変化させた場合、音声ピッチを＋２半音変化させた場合の音声波形とスペクトログラム画像である。

本実施の形態では、音声ピッチは、変更無し、＋１半音、－１半音、＋２半音、－２半音の５段階で変化させ、ＳＮ比は、４０ｄＢから０ｄＢまで１０ｄＢ刻みで５段階に変化させる。このようなデータ拡張により、１つの背景音について、ピッチの変化で５種類、ＳＮ比変化で５種類の合計２５種類の背景音重畳音声を生成して、Ｕ－Ｎｅｔに入力するための学習データを生成する。データ拡張を行った学習データを用いて学習を行うことにより背景音除去性能の向上が期待される。

＜学習データの作成＞
図５は、学習データの切り出しを説明するための図である。本実施の形態では、背景音重畳音声をスペクトログラム画像に変換してＵ－Ｎｅｔの学習を行うが、画像のサイズが横方向（時間方向）に長いとＵ－Ｎｅｔの学習に適さない。そこで、本実施の形態では、Ｕ－Ｎｅｔの入力に合わせて、スペクトログラム画像を２５６×２５６の画像に切り出してＵ－Ｎｅｔに入力する。図５に示すように注目音声である話者音声と背景音が重畳された重畳音声において切り出し位置を揃えて切り出しを行い、前者を教師データ（第１のスペクトログラム画像）、後者をＵ－Ｎｅｔへの入力データ（第２のスペクトログラム画像）として学習のためのデータセットを作成する。

＜他の学習データの拡張方法＞
上述した学習データの拡張方法では、背景音のピッチと重畳する際のＳＮ比を変化させてデータ拡張を行ったが他のデータ拡張方法を用いてもよい。図６は、学習データの他のデータ拡張方法を説明するための図である。図６では、音声データにＳＴＦＴを適用したスペクトログラム画像から画像を切り出してＵ－Ｎｅｔに入力するためのデータセットを作成する際に、スペクトログラム画像の一部が重複するように画像を切り出すことでデータ拡張を行う。

図６の構成例では、隣同士で極端に類似する画像が発生しないことを考慮してスライド幅を１／２、１／３に変更して画像の切り出しを行っている。図６（ｂ）に示すように、スライド幅が１／２の場合、１枚目と２枚目の間に新たに１枚の追加画像を作成することができる。データセットに用いる画像を切り出す際にデータの一部が重複するようにスライド幅を設定することで、同じ音声データから複数の異なるデータセットを作成することができるので、学習データ数の増加による背景音除去性能の向上が期待できる。

音声データにＳＴＦＴを適用してスペクトログラム画像化の際に、ＳＴＦＴのパラメータを調整することで解像度が異なる画像が生成可能である。これを利用して、基準となるパラメータで生成したスペクトログラム画像に異なる解像度で作成したスペクトログラム画像を加算することで、データ数を増加させることができる。

図７は、学習データの他のデータ拡張を説明するための図である。本実施の形態では、ＳＴＦＴのパラメータを窓関数ｈａｎｎ、フレームサイズ５１２、ポイント数５１２としており、この数値を基準として、特に解像度の変化への影響が大きい窓関数のフレームサイズを変化させることで追加する解像度の異なる画像を作成した。この複数の解像度の画像を加算することによりデータ拡張を行うようにしてもよい。

図７の例では、基準となる解像度５１２の画像に、それぞれ解像度１２８、２５６、１０２４の画像を追加することによりデータ拡張を行っている。基準となるパラメータで生成したスペクトログラム画像に異なる解像度で作成したスペクトログラム画像を加算することで、同じ音声データから複数の異なるデータセットを作成することができるので、学習データ数の増加による背景音除去性能の向上が期待できる。

＜深層学習のネットワークの構造＞
図８は、背景音除去のための深層学習のネットワークの構造を説明するための図である。本実施形態では深層学習のネットワークとしてＵ－Ｎｅｔを適用して背景音除去のための学習モデルを作成した。

本実施の形態では、図８に示すように、背景音を重畳した音声データのスペクトログラム画像（サイズ２５６×２５６）を入力データとして、９回の畳み込みと４回のＭａｘＰｏｏｌｉｎｇを行い、画像を圧縮しながら特徴量を抽出する。その後４回のＵｐＳａｍｐｌｉｎｇと９回の逆畳み込みを行い画像を元のサイズに戻し出力データを出力する。

出力データと背景音声を重畳する前の音声データである教師データが一致する（誤差が小さくなる）ようにＵ－Ｎｅｔを学習させることにより、背景音声の特徴を除去する学習モデル（背景音除去フィルタ）を作成することができる。図８の構成例では、出力データと教師データの間の平均二乗誤差（ＭＳＥ:Mean Squared Error）が小さくなるようにＵ－Ｎｅｔを学習させる。

＜背景音の除去効果の評価システム＞
図９は、除去対象音声の除去効果を評価するシステムの構成例である。図１０は、除去対象音声の除去効果を評価するための背景音重畳音声を説明するための図である。本実施の形態では、学習時と同一人物で、学習には使用しなかった講義動画を講義画像と話者音声に分離して話者音声を抽出し、抽出した話者音声の発話箇所と発話していない箇所の２箇所に、ＳＮ比０ｄＢ、１０ｄＢ、２０ｄＢで背景音を重畳することにより評価用の背景音重畳音声を作成した。

背景音を重畳することにより作成した背景音重畳音声を元の講義画像と合成することにより講義動画Ｘを作成した。背景音を重畳した背景音重畳音声にＳＴＦＴを施したスペクトログラム画像を作成した学習モデルに入力し、学習モデルから出力されたスペクトログラム画像に逆ＳＴＦＴを施すことにより背景音除去音声を生成して、元の講義画像と合成することにより講義動画Ｙを作成した。この講義動画Ｘと講義動画Ｙを所定の数（２７名）の被験者に視聴してもらい、背景音がどの程度気になるかを調査することにより背景音の除去効果を評価した。

背景音の除去効果の評価結果を図１１に示す。図１１（ａ）、図１１（ｂ）はそれぞれ猫の鳴き声と乳児の泣き声を除去対象とする単体モデルを用いた評価結果である。図１１（ａ）の猫の鳴き声と図１１（ｂ）の乳児の泣き声に関して、背景音を除去していない講義動画ＸのＳＮ比が下がるにつれて「気になる」の割合が増大する結果となった。一方、背景音を除去した講義動画Ｙでは、「聞こえない」、「気にならない」が高い割合を占めており、被験者による視聴結果では、ＳＮ比に依らず高い除去効果が得られることが確認できた。

図１１（ｃ）は、複数の背景音、具体的には、猫の鳴き声、犬の鳴き声、乳児の泣き声、インターホンの音を除去対象として作成した混合モデルを用いた評価結果と、図１１（ａ）、図１１（ｂ）の単体モデルを用いた評価結果を比較したものである。猫の鳴き声の除去結果においては、混合モデルにおいても単体モデルを用いた結果と同様の評価結果が得られた。一方、乳児の泣き声の除去結果においては、混合モデルよりも単体モデルの方が高い評価結果が得られたが、「聞こえない」、「気にならない」、「あまり気にならない」が８０％以上の高い割合を占める評価結果が得られた。

＜背景音除去システム＞
図１２は、背景音除去システムの構成例を示す図である。本実施の形態の背景音除去システムでは、利用者が除去したい様々な背景音を入力することにより除去対象の背景音を除去するように学習された学習モデル（背景音除去フィルタ）を作成し、作成した学習モデル（背景音除去フィルタ）を用いて、話者音声等の注目音声に背景音が混入した背景音混入動画から背景音を除去して背景音除去動画を提供する。

また、特定の話者音声に他の話者音声が混入している場合には、特定の話者音声を強調するように学習された学習モデル（音声強調フィルタ）を作成し、作成した学習モデル（音声強調フィルタ）を用いて、特定の話者音声に他の話者音声が混入している混入動画において特定の話者音声が強調された動画を出力することもできる。

利用者が除去したい背景音としては、ペットの鳴き声や乳児の泣き声等利用者が動画を配信する環境毎に様々な音声が考えられる。利用者が除去したい様々な背景音に応じて学習モデルを作成することで、利用者が除去したい様々な背景音を除去する場合において良好な背景音除去性能を得ることが可能となる。

図１２の構成例では、学習モデル作成装置１０において学習モデル（背景音除去フィルタ／音声強調フィルタ）を作成し、背景音除去装置２０において、話者端末３０から提供された背景音混入動画から背景音を除去する。学習モデルの作成と背景音除去を１つの装置において実施してもよい。学習モデル作成装置１０において作成した学習モデルを利用者に提供することも可能である。

＜センサ情報に応じた学習モデルの選択＞
本実施の形態の背景音除去システムは、作成した学習モデルから、背景音の発生源や話者５０の位置情報、背景音の発生源の稼働状況、話者５０の周辺環境の状況等のセンサ情報に応じて選択することができるように構成されている。予め様々な背景音を用いて学習させた学習モデルを作成しておき、センサ４０によって検出されたセンサ情報等に応じて、より背景音除去効果の高い学習モデルを選択することが可能となる。

センサ情報に応じて学習モデルを選択するためには、作成した学習モデルに対してセンサ情報に対応した情報を付与しておけばよい。例えば、電車の走行音が除去対象背景音である場合には、学習モデルに、除去対象背景音が電車の走行音であることと、除去対象音声の発生源である電車の走行区間や走行位置を特定するための情報を付与しておくことにより、注目音声の発生源である話者５０の位置情報に応じて適切な学習モデルを選択することが可能となる。

ここで話者５０の位置情報は、センサ４０に備えられたＧＰＳセンサにより検出されたセンサ４０の位置情報により検出することができる。また、センサ４０が受信する無線ＬＡＮのアクセスポイントから送信されるＳＳＩＤ（Service Set Identifier）を検出することにより、アクセスポイントの位置情報を用いて話者５０の位置情報を推定することもできる。

工作機械等から発生する騒音が除去対象背景音である場合には、学習モデルに、除去対象背景音が工作機械等から発生する騒音であることと、除去対象音声の発生源である工作機械等から発生する騒音状態（騒音のレベルや騒音の周波数成分等）を特定するための情報を付与しておくことにより、振動センサの振動情報によって推定される騒音状態に応じて適切な学習モデルを選択することが可能となる。

空調機器等から発生する騒音が除去対象背景音である場合には、学習モデルに、除去対象背景音が空調機器等から発生する騒音であることと、除去対象音声の発生源である空調機器等から発生する騒音状態を特定するための情報を付与しておくことにより、温度／湿度センサの情報によって推定される騒音状態に応じて適切な学習モデルを選択することが可能となる。

話者の周辺環境の騒音が除去対象背景音である場合には、学習モデルに、除去対象背景音が、注目音声の発生源である話者の周辺環境の騒音であることと、混入する騒音状態を特定するための情報を付与しておくことにより、人流センサの情報によって推定される騒音状態に応じて適切な学習モデルを選択することが可能となる。

また、特定の話者が発する音声を強調するような学習モデル（音声強調フィルタ）を選択する場合には、学習モデルに話者を特定するための情報を付与しておくことにより、顔認証センサや話者識別フィルタ等により話者を特定して、特定の話者が発する音声を強調するような学習モデル（音声強調フィルタ）を選択することが可能となる。顔認証センサや話者識別フィルタ等による話者の特定は、背景音除去装置２０において行うことができる。

＜学習モデル作成装置の構成＞
図１３は、学習モデル作成装置の構成例を示す図である。学習モデル作成装置１０は、外部の装置と情報を送受信するためのＩ／Ｆ部１１、学習データの作成を行う学習データ作成部、学習モデルの作成を行う学習モデル作成部として機能する中央処理部１２、教師データ、入力データ、作成した学習モデル、中央処理部１２の処理を実行するプログラム等を記憶する記憶部１３を備える。

除去対象である背景音の音声データは、Ｉ／Ｆ部１１を介して入力され、入力された背景音の音声データを用いて中央処理部１２において学習モデル（背景音除去フィルタ）が作成される。作成された学習モデルは、Ｉ／Ｆ部１１を介して出力され、背景音除去装置２０に提供される。図２－図５で説明したように、データ拡張した入力データと教師データをＵ－Ｎｅｔに学習させることにより作成することができる。Ｕ－Ｎｅｔは、学習モデル作成装置１０内に実装しても良いし、クラウド上に実装されたＵ－Ｎｅｔにおいて学習するようにしてもよい。

＜学習モデル作成方法の動作＞
図１４は、学習モデル作成方法の動作フローを示す図である。学習モデル作成装置１０は、利用者から除去対象である背景音の音声データ（第２の音声データ）を取得し（Ｓ１－１）、取得した背景音の音声データを注目音声である話者音声の音声データ（第１の音声データ）に重畳して背景音重畳音声（第３の音声データ）を作成し、背景音重畳音声の一部を切り出してＵ－Ｎｅｔへの入力データを作成する（Ｓ１－２）。

ここで、注目音声である話者音声の音声データは、利用者が提供してもよいし、学習モデル作成装置１０において予め用意した話者音声を用いてもよい。また、除去対象である背景音の音声データが、音源による個体差のない音声データの場合には、予め用意した背景音の音声データを用いて学習モデルを作成してもよい。

例えば、救急車、パトカー、消防車のサイレン等の背景音を除去する学習モデルを作成する場合には、学習モデル作成装置において予め用意した背景音のデータを用いてもよい。

教師データおよび入力データの作成方法は、図２－図５で説明した作成方法を用いることができる。入力データについては、図４で説明したように、１つの背景音について、ピッチの変化で５種類、ＳＮ比変化で５種類の合計２５種類の背景音重畳音声を生成して、Ｕ－Ｎｅｔに入力するための入力データを生成する。

学習モデル作成装置１０は、利用者から提供された話者音声、あるいは、予め用意した話者音声にＳＴＦＴを適用してスペクトログラム画像（第１のスペクトログラム画像）を作成し、その一部を切り出して教師データを作成し、背景音重畳音声にＳＴＦＴを適用してスペクトログラム画像（第２のスペクトログラム画像）、その一部を切り出してデータを作成する。

学習モデル作成装置１０は、作成した入力データと教師データをＵ－Ｎｅｔに学習させることにより、利用者から提供された背景音を除去する学習モデルを作成し（Ｓ１－３）、作成した学習モデルを背景音除去装置２０に出力する（Ｓ１－５）。

＜背景音除去装置の構成＞
図１５は、背景音を除去する音声除去装置の構成例を示す図である。背景音除去装置２０は、外部の装置と情報を送受信するためのＩ／Ｆ部２１、学習モデル選択部、背景音除去処理部として機能する中央処理部２２、話者データ、センサ情報、学習モデル作成装置１０で作成された学習モデル、中央処理部２２の処理を実行するプログラム等を記憶する記憶部２３を備える。

学習モデル作成装置１０で作成された学習モデルは、Ｉ／Ｆ部２１を介して入力され、記憶部２３に保存される。中央処理部１２では、センサ４０から取得したセンサ情報に応じて学習モデルが選択され、選択された学習モデルに、話者端末３０から提供された背景音混入動画を入力することにより背景音除去処理が実行される。

背景音除去装置２０は、センサ４０によって検出されたセンサ情報に応じて学習モデルを選択できるように構成されている。予め様々な背景音を用いて学習させた学習モデルを作成しておき、センサ４０によって検出された背景音の発生源や話者の位置情報、背景音の発生源の稼働状況、話者の周辺環境の状況等のセンサ情報に応じて学習モデルを選択することで、より背景音除去効果の高い学習モデルを選択して背景音除去を行うことが可能となる。

センサ情報を提供するセンサ４０としては、除去対象音声である背景音の発生源や、注目音声の発生源である話者の位置情報を検出する位置センサ、背景音の発生源の稼働状況を検出する振動センサ、話者の周辺環境の状況を検出する温度／湿度センサや人流／騒音センサ、話者を特定するための顔認証センサや話者識別フィルタ等が考えられる。背景音の種類に応じて、これらのうち少なくとも１つが含まれるセンサ４０によってセンサ情報が検出される。

電車の走行音が除去対象背景音である場合には、電車の車両の種類や走行区間によって発生する背景音の音声データの特徴が異なる。これを利用して、話者音声を発する話者の位置情報に応じて話者の音声に混入する電車の走行音を推定し、推定された電車の走行音に対応する学習モデルを選択することにより、より背景音除去効果の高い学習モデルを選択することが可能となる。

工作機械等から発生する騒音が除去対象背景音である場合には、騒音の発生源である工作機械の稼働状況によって発生する背景音の音声データの特徴が異なる。これを利用して、工作機械の振動情報に応じて話者の音声に混入する工作機械等から発生する騒音状態を推定し、推定された工作機械の騒音状態に対応する学習モデルを選択するようにすればよい。

空調機器等から発生する騒音が除去対象背景音である場合には、騒音の発生源である空調機器が設置されている環境の温度や湿度によって発生する背景音の音声データの特徴が異なる。これを利用して、空調機器が設置されている環境の温度情報や湿度情報に応じて話者の音声に混入する空調機器等から発生する騒音状態を推定し、推定された空調機器の騒音状態に対応する学習モデルを選択するようにすればよい。

話者の周辺環境の騒音が除去対象背景音である場合には、話者の周辺の混雑状況によって発生する背景音の音声データの特徴が異なる。これを利用して、話者の周辺環境の混雑状況を検出する人流センサの検出結果に応じて話者の音声に混入する騒音状態を推定し、推定された周辺環境の騒音状態に対応する学習モデルを選択するようにすればよい。

また、話者を特定するための顔認証センサや話者識別フィルタ等により話者を特定して、特定の話者が発する音声を強調するような学習モデル（音声強調フィルタ）を選択するようにしてもよい。予め特定の話者の声を強調するような学習モデル（音声強調フィルタ）を作成しておき、話者に応じた学習モデル（音声強調フィルタ）を選択することで、特定の話者以外の声のレベルが相対的に低減されるので、特定の話者以外の声を除去するのと同様の効果を得ることができる。

＜背景音除去方法の動作＞
図１６は、背景音を除去する音声除去方法の動作フローを示す図である。背景音除去装置２０は、利用者から除去対象である背景音が混入した背景音混入動画のデータを取得し（Ｓ２－１）、除去対象背景音の発生源、除去対象背景音が発生する状況、話者を特定するためのセンサ情報等を取得する（Ｓ２－２）。

取得したセンサ情報に対応する学習モデルを選択して、選択した学習モデルに背景音混入動画の音声データを用いて作成した音声データを入力することにより背景音を除去し（Ｓ２－４）、背景音が除去された背景音除去動画を出力する（Ｓ２－５）。

以上述べたように、本実施の形態では、背景音が重畳された背景音重畳音声から背景音を除去するための学習モデルを作成する際に、背景音の音声データのピッチと背景音を重畳する際のＳＮ比を変更することによりデータ拡張を行って学習モデルの作成を行った。

このようなデータ拡張を行って学習した学習モデルを用いることで、利用者が除去したい様々な背景音を除去する場合において、良好な背景音除去性能を得ることが可能なとなる。

また、本実施の形態では、センサによって検出された除去対象の背景音の発生源、除去対象の背景音が発生する状況、話者を特定するための情報等のセンサ情報に応じて学習モデルを選択することができるように構成されている。

センサによって検出された除去対象背景音の発生源、除去対象背景音が発生する状況、話者を特定するための情報等に応じて、除去対象の背景音の除去に適したより背景音除去効果の高い学習モデルを選択することができるので、利用者が除去したい様々な背景音を除去する場合において、良好な背景音除去性能を得ることが可能となる。

本願発明は、動画に混入する背景音を除去するための背景音除去システムに利用することができる。

１０…学習モデル作成装置、２０…背景音除去装置、３０…話者端末、４０…センサ。

Claims

学習データ作成部と学習モデル作成部を備えた学習モデル作成装置において実行される学習モデル作成方法であって、
前記学習データ作成部は、
第１の音声データを用いて第１の２次元画像を作成し、前記第１の音声データに少なくとも１つの第２の音声データを重畳して第３の音声データを作成し、前記第３の音声データを用いて第２の２次元画像を作成し、
前記学習モデル作成部は、
前記第１の２次元画像を教師データとし、前記第２の２次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第２の音声データを除去するための学習モデルを作成し、
前記学習データ作成部は、
前記第２の音声データの音声ピッチと前記重畳する際のＳＮ比を変更することにより複数の前記第３の音声データを作成し、複数の前記第３の音声データのそれぞれを用いて前記第２の２次元画像を作成する
学習モデル作成方法。
学習データ作成部と学習モデル作成部を備えた学習モデル作成装置であって、
前記学習データ作成部は、
第１の音声データを用いて第１の２次元画像を作成し、前記第１の音声データに少なくとも１つの第２の音声データを重畳して第３の音声データを作成し、前記第３の音声データを用いて第２の２次元画像を作成し、
前記学習モデル作成部は、
前記第１の２次元画像を教師データとし、前記第２の２次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第２の音声データを除去するための学習モデルを作成し、
前記学習データ作成部は、
前記第２の音声データの音声ピッチと前記重畳する際のＳＮ比を変更することにより複数の前記第３の音声データを作成し、複数の前記第３の音声データのそれぞれを用いて前記第２の２次元画像を作成する
学習モデル作成装置。
学習データ作成部と学習モデル作成部を備えた学習モデル作成装置において実行される学習モデル作成方法であって、
前記学習データ作成部は、
第１の音声データを用いて第１の２次元画像を作成し、前記第１の音声データに少なくとも１つの第２の音声データを重畳して第３の音声データを作成し、前記第３の音声データを用いて第２の２次元画像を作成し、
前記学習モデル作成部は、
前記第１の２次元画像を教師データとし、前記第２の２次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第２の音声データを除去するための学習モデルを作成し、
前記学習データ作成部は、
前記第１の音声データを用いて作成した２次元画像において、一部が重複するように画像を切り出すことにより前記第１の２次元画像を作成し、前記第３の音声データを用いて作成した２次元画像において、一部が重複するように画像を切り出すことにより前記第２の２次元画像を作成する
学習モデル作成方法。
学習データ作成部と学習モデル作成部を備えた学習モデル作成装置であって、
前記学習データ作成部は、
第１の音声データを用いて第１の２次元画像を作成し、前記第１の音声データに少なくとも１つの第２の音声データを重畳して第３の音声データを作成し、前記第３の音声データを用いて第２の２次元画像を作成し、
前記学習モデル作成部は、
前記第１の２次元画像を教師データとし、前記第２の２次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第２の音声データを除去するための学習モデルを作成し、
前記学習データ作成部は、
前記第１の音声データを用いて作成した２次元画像において、一部が重複するように画像を切り出すことにより前記第１の２次元画像を作成し、前記第３の音声データを用いて作成した２次元画像において、一部が重複するように画像を切り出すことにより前記第２の２次元画像を作成する
学習モデル作成装置。
学習データ作成部と学習モデル作成部を備えた学習モデル作成装置において実行される学習モデル作成方法であって、
前記学習データ作成部は、
第１の音声データを用いて第１の２次元画像を作成し、前記第１の音声データに少なくとも１つの第２の音声データを重畳して第３の音声データを作成し、前記第３の音声データを用いて第２の２次元画像を作成し、
前記学習モデル作成部は、
前記第１の２次元画像を教師データとし、前記第２の２次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第２の音声データを除去するための学習モデルを作成し、
前記学習データ作成部は、
前記第１の音声データを用いて作成した所定の解像度の２次元画像に、前記所定の解像度と異なる解像度の２次元画像を追加することにより、前記第１の２次元画像を作成し、前記第３の音声データを用いて作成した所定の解像度の２次元画像に、前記所定の解像度と異なる解像度の２次元画像を追加することにより、前記第２の２次元画像を作成する
学習モデル作成方法。
学習データ作成部と学習モデル作成部を備えた学習モデル作成装置であって、
前記学習データ作成部は、
第１の音声データを用いて第１の２次元画像を作成し、前記第１の音声データに少なくとも１つの第２の音声データを重畳して第３の音声データを作成し、前記第３の音声データを用いて第２の２次元画像を作成し、
前記学習モデル作成部は、
前記第１の２次元画像を教師データとし、前記第２の２次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第２の音声データを除去するための学習モデルを作成し、
前記学習データ作成部は、
前記第１の音声データを用いて作成した所定の解像度の２次元画像に、前記所定の解像度と異なる解像度の２次元画像を追加することにより、前記第１の２次元画像を作成し、前記第３の音声データを用いて作成した所定の解像度の２次元画像に、前記所定の解像度と異なる解像度の２次元画像を追加することにより、前記第２の２次元画像を作成する
学習モデル作成装置。
入力データと教師データを用いて学習された学習モデルを用いて、注目音声に除去対象音声が重畳された重畳音声から除去対象音声を除去する音声除去装置において実行される音声除去方法であって、
前記教師データは、
前記注目音声に対応する第１の音声データを用いて作成された第１の２次元画像であり、
前記入力データは、
前記第１の音声データに前記除去対象音声に対応する少なくとも１つの第２の音声データを重畳して第３の音声データを作成し、前記第３の音声データを用いて作成された第２の２次元画像であり、
前記学習モデルは、
前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることによって作成され、
前記第３の音声データは、
前記第２の音声データの音声ピッチと重畳する際のＳＮ比を変更することにより作成された複数の前記第２の音声データのそれぞれを前記第１の音声データに重畳することによって作成される
音声除去方法。
入力データと教師データを用いて学習された学習モデルを用いて、注目音声に除去対象音声が重畳された重畳音声から除去対象音声を除去する音声除去装置であって、
前記教師データは、
前記注目音声に対応する第１の音声データを用いて作成した第１の２次元画像であり、
前記入力データは、
前記第１の音声データに前記除去対象音声に対応する少なくとも１つの第２の音声データを重畳して第３の音声データを作成し、前記第３の音声データを用いて作成された第２の２次元画像であり、
前記学習モデルは、
前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることによって作成され、
前記第３の音声データは、
前記第２の音声データの音声ピッチと重畳する際のＳＮ比を変更することにより作成された複数の前記第２の音声データのそれぞれを前記第１の音声データに重畳することによって作成される
音声除去装置。
センサによって検出されたセンサ情報を用いて、前記重畳音声に混入している前記除去対象音声を推定し、
前記推定された除去対象音声に対応する前記第２の音声データを除去する前記学習モデルを選択し、選択された前記学習モデルを用いて、前記重畳音声から除去対象音声を除去する
請求項７に記載の音声除去方法。
前記センサは、
－前記除去対象音声の発生源の位置情報を検出する位置センサ、
－前記注目音声の発生源の位置情報を検出する位置センサ、
－前記除去対象音声の発生源の稼働状況を検出する振動センサ、
－前記注目音声の発生源の周辺環境の状況を検出する温度／湿度センサ、
の少なくとも１つを含む
請求項９に記載の音声除去方法。
顔認証センサまたは話者識別フィルタを用いて、前記重畳音声が含まれる背景音混入動画における話者を推定し、
前記推定された話者に対応する前記第１の音声データを強調する前記学習モデルを選択する
請求項７に記載の音声除去方法。
センサによって検出されたセンサ情報を用いて、前記重畳音声に混入している前記除去対象音声を推定し、
前記推定された除去対象音声に対応する前記第２の音声データを除去する前記学習モデルを選択し、選択された前記学習モデルを用いて、前記重畳音声から除去対象音声を除去する
請求項８に記載の音声除去装置。
前記センサは、
－前記除去対象音声の発生源の位置情報を検出する位置センサ、
－前記注目音声の発生源の位置情報を検出する位置センサ、
－前記除去対象音声の発生源の稼働状況を検出する振動センサ、
－前記注目音声の発生源の周辺環境の状況を検出する温度／湿度センサ、
の少なくとも１つを含む
請求項１２に記載の音声除去装置。
顔認証センサまたは話者識別フィルタを用いて、前記重畳音声が含まれる背景音混入動画における話者を推定し、
前記推定された話者に対応する前記第１の音声データを強調する前記学習モデルを選択する
請求項８に記載の音声除去装置。