JP7414214B1 - 学習モデル作成方法、学習モデル作成装置、背景音除去方法、および背景音除去装置 - Google Patents
学習モデル作成方法、学習モデル作成装置、背景音除去方法、および背景音除去装置 Download PDFInfo
- Publication number
- JP7414214B1 JP7414214B1 JP2023139753A JP2023139753A JP7414214B1 JP 7414214 B1 JP7414214 B1 JP 7414214B1 JP 2023139753 A JP2023139753 A JP 2023139753A JP 2023139753 A JP2023139753 A JP 2023139753A JP 7414214 B1 JP7414214 B1 JP 7414214B1
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- data
- dimensional image
- learning model
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000013135 deep learning Methods 0.000 claims abstract description 27
- 238000010586 diagram Methods 0.000 abstract description 27
- 230000000694 effects Effects 0.000 description 14
- 238000011156 evaluation Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 241000282326 Felis catus Species 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004378 air conditioning Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 206010011469 Crying Diseases 0.000 description 1
- 241000269400 Sirenidae Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
【解決手段】本発明の学習モデル作成方法では、注目音声を用いて第1の2次元画像を作成し、注目音声に除去対象音声を重畳した重畳音声を用いて第2の2次元画像を作成し、第1の2次元画像を教師データとし、第2の2次元画像を深層学習ネットワークに入力し、深層学習ネットワークの出力データが教師データと一致するように学習を行うことにより、除去対象音声を除去するための学習モデルを作成する。第2の2次元画像は、除去対象音声の音声ピッチと重畳する際のSN比を変更することにより複数の重畳音声を作成し、複数の重畳音声のそれぞれを用いて作成される。
【選択図】 図14
Description
本実施の形態が対象とする背景音が重畳された背景音重畳音声から背景音を除去するシステムの構成例を図1に示す。本実施の形態では、話者音声等の注目音声に背景音等の除去対象音声が混入した重畳音声に短時間フーリエ変換(STFT:Short-Time Fourier Transform)を適用してスペクトログラム画像等の2次元画像を生成し、生成したスペクトログラム画像上に現れる背景音等の除去対象音声の特徴を除去するように学習した深層学習モデルに入力する。深層学習モデルの出力画像に逆STFTを適用することで、背景音等の除去対象音声を除去した話者音声等の注目音声を復元する。
図2は、学習モデルを作成するための背景音が重畳された重畳音声を説明するための図である。本実施の形態における除去対象音声である背景音としては、ペットの鳴き声、乳児の泣き声、インターホンの音等の様々な音声が想定される。本実施の形態では、図2に示すように、話者音声と同じデータ長となるように、同一の背景音声を所定の間隔で配置して除去対象音声を作成し、作成した除去対象音声を話者音声に重畳することにより、学習モデルを作成するための背景音重畳音声を作成する。図2の例では、背景音声を等間隔で配置しているが、ランダムな間隔で配置してもよい。
本実施の形態では、学習データを画像データ形式でU-Netに入力するために、図2における時系列の背景音重畳音声にSTFTを適用してスペクトログラム画像に変換する。図3は、U-Netに入力するスペクトログラム画像を説明するための図である。変換時のSTFTのパラメータは、例えば、窓関数hann、フレームサイズ512、ポイント数512とすればよい。
ペットの泣き声や乳児の泣き声は、同一個体、同一人物の場合であって感情や状況によって声量や声質が異なることがある。本実施の形態では、学習データにバリエーションを持たせて背景音除去性能を向上させるために、背景音の音声ピッチと背景音を重畳する際のSN比を変化させてデータ拡張を行う。
図5は、学習データの切り出しを説明するための図である。本実施の形態では、背景音重畳音声をスペクトログラム画像に変換してU-Netの学習を行うが、画像のサイズが横方向(時間方向)に長いとU-Netの学習に適さない。そこで、本実施の形態では、U-Netの入力に合わせて、スペクトログラム画像を256×256の画像に切り出してU-Netに入力する。図5に示すように注目音声である話者音声と背景音が重畳された重畳音声において切り出し位置を揃えて切り出しを行い、前者を教師データ(第1のスペクトログラム画像)、後者をU-Netへの入力データ(第2のスペクトログラム画像)として学習のためのデータセットを作成する。
上述した学習データの拡張方法では、背景音のピッチと重畳する際のSN比を変化させてデータ拡張を行ったが他のデータ拡張方法を用いてもよい。図6は、学習データの他のデータ拡張方法を説明するための図である。図6では、音声データにSTFTを適用したスペクトログラム画像から画像を切り出してU-Netに入力するためのデータセットを作成する際に、スペクトログラム画像の一部が重複するように画像を切り出すことでデータ拡張を行う。
図8は、背景音除去のための深層学習のネットワークの構造を説明するための図である。本実施形態では深層学習のネットワークとしてU-Netを適用して背景音除去のための学習モデルを作成した。
図9は、除去対象音声の除去効果を評価するシステムの構成例である。図10は、除去対象音声の除去効果を評価するための背景音重畳音声を説明するための図である。本実施の形態では、学習時と同一人物で、学習には使用しなかった講義動画を講義画像と話者音声に分離して話者音声を抽出し、抽出した話者音声の発話箇所と発話していない箇所の2箇所に、SN比0dB、10dB、20dBで背景音を重畳することにより評価用の背景音重畳音声を作成した。
図12は、背景音除去システムの構成例を示す図である。本実施の形態の背景音除去システムでは、利用者が除去したい様々な背景音を入力することにより除去対象の背景音を除去するように学習された学習モデル(背景音除去フィルタ)を作成し、作成した学習モデル(背景音除去フィルタ)を用いて、話者音声等の注目音声に背景音が混入した背景音混入動画から背景音を除去して背景音除去動画を提供する。
本実施の形態の背景音除去システムは、作成した学習モデルから、背景音の発生源や話者50の位置情報、背景音の発生源の稼働状況、話者50の周辺環境の状況等のセンサ情報に応じて選択することができるように構成されている。予め様々な背景音を用いて学習させた学習モデルを作成しておき、センサ40によって検出されたセンサ情報等に応じて、より背景音除去効果の高い学習モデルを選択することが可能となる。
図13は、学習モデル作成装置の構成例を示す図である。学習モデル作成装置10は、外部の装置と情報を送受信するためのI/F部11、学習データの作成を行う学習データ作成部、学習モデルの作成を行う学習モデル作成部として機能する中央処理部12、教師データ、入力データ、作成した学習モデル、中央処理部12の処理を実行するプログラム等を記憶する記憶部13を備える。
図14は、学習モデル作成方法の動作フローを示す図である。学習モデル作成装置10は、利用者から除去対象である背景音の音声データ(第2の音声データ)を取得し(S1-1)、取得した背景音の音声データを注目音声である話者音声の音声データ(第1の音声データ)に重畳して背景音重畳音声(第3の音声データ)を作成し、背景音重畳音声の一部を切り出してU-Netへの入力データを作成する(S1-2)。
図15は、背景音を除去する音声除去装置の構成例を示す図である。背景音除去装置20は、外部の装置と情報を送受信するためのI/F部21、学習モデル選択部、背景音除去処理部として機能する中央処理部22、話者データ、センサ情報、学習モデル作成装置10で作成された学習モデル、中央処理部22の処理を実行するプログラム等を記憶する記憶部23を備える。
図16は、背景音を除去する音声除去方法の動作フローを示す図である。背景音除去装置20は、利用者から除去対象である背景音が混入した背景音混入動画のデータを取得し(S2-1)、除去対象背景音の発生源、除去対象背景音が発生する状況、話者を特定するためのセンサ情報等を取得する(S2-2)。
Claims (14)
- 学習データ作成部と学習モデル作成部を備えた学習モデル作成装置において実行される学習モデル作成方法であって、
前記学習データ作成部は、
第1の音声データを用いて第1の2次元画像を作成し、前記第1の音声データに少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて第2の2次元画像を作成し、
前記学習モデル作成部は、
前記第1の2次元画像を教師データとし、前記第2の2次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第2の音声データを除去するための学習モデルを作成し、
前記学習データ作成部は、
前記第2の音声データの音声ピッチと前記重畳する際のSN比を変更することにより複数の前記第3の音声データを作成し、複数の前記第3の音声データのそれぞれを用いて前記第2の2次元画像を作成する
学習モデル作成方法。 - 学習データ作成部と学習モデル作成部を備えた学習モデル作成装置であって、
前記学習データ作成部は、
第1の音声データを用いて第1の2次元画像を作成し、前記第1の音声データに少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて第2の2次元画像を作成し、
前記学習モデル作成部は、
前記第1の2次元画像を教師データとし、前記第2の2次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第2の音声データを除去するための学習モデルを作成し、
前記学習データ作成部は、
前記第2の音声データの音声ピッチと前記重畳する際のSN比を変更することにより複数の前記第3の音声データを作成し、複数の前記第3の音声データのそれぞれを用いて前記第2の2次元画像を作成する
学習モデル作成装置。 - 学習データ作成部と学習モデル作成部を備えた学習モデル作成装置において実行される学習モデル作成方法であって、
前記学習データ作成部は、
第1の音声データを用いて第1の2次元画像を作成し、前記第1の音声データに少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて第2の2次元画像を作成し、
前記学習モデル作成部は、
前記第1の2次元画像を教師データとし、前記第2の2次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第2の音声データを除去するための学習モデルを作成し、
前記学習データ作成部は、
前記第1の音声データを用いて作成した2次元画像において、一部が重複するように画像を切り出すことにより前記第1の2次元画像を作成し、前記第3の音声データを用いて作成した2次元画像において、一部が重複するように画像を切り出すことにより前記第2の2次元画像を作成する
学習モデル作成方法。 - 学習データ作成部と学習モデル作成部を備えた学習モデル作成装置であって、
前記学習データ作成部は、
第1の音声データを用いて第1の2次元画像を作成し、前記第1の音声データに少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて第2の2次元画像を作成し、
前記学習モデル作成部は、
前記第1の2次元画像を教師データとし、前記第2の2次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第2の音声データを除去するための学習モデルを作成し、
前記学習データ作成部は、
前記第1の音声データを用いて作成した2次元画像において、一部が重複するように画像を切り出すことにより前記第1の2次元画像を作成し、前記第3の音声データを用いて作成した2次元画像において、一部が重複するように画像を切り出すことにより前記第2の2次元画像を作成する
学習モデル作成装置。 - 学習データ作成部と学習モデル作成部を備えた学習モデル作成装置において実行される学習モデル作成方法であって、
前記学習データ作成部は、
第1の音声データを用いて第1の2次元画像を作成し、前記第1の音声データに少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて第2の2次元画像を作成し、
前記学習モデル作成部は、
前記第1の2次元画像を教師データとし、前記第2の2次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第2の音声データを除去するための学習モデルを作成し、
前記学習データ作成部は、
前記第1の音声データを用いて作成した所定の解像度の2次元画像に、前記所定の解像度と異なる解像度の2次元画像を追加することにより、前記第1の2次元画像を作成し、前記第3の音声データを用いて作成した所定の解像度の2次元画像に、前記所定の解像度と異なる解像度の2次元画像を追加することにより、前記第2の2次元画像を作成する
学習モデル作成方法。 - 学習データ作成部と学習モデル作成部を備えた学習モデル作成装置であって、
前記学習データ作成部は、
第1の音声データを用いて第1の2次元画像を作成し、前記第1の音声データに少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて第2の2次元画像を作成し、
前記学習モデル作成部は、
前記第1の2次元画像を教師データとし、前記第2の2次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第2の音声データを除去するための学習モデルを作成し、
前記学習データ作成部は、
前記第1の音声データを用いて作成した所定の解像度の2次元画像に、前記所定の解像度と異なる解像度の2次元画像を追加することにより、前記第1の2次元画像を作成し、前記第3の音声データを用いて作成した所定の解像度の2次元画像に、前記所定の解像度と異なる解像度の2次元画像を追加することにより、前記第2の2次元画像を作成する
学習モデル作成装置。 - 入力データと教師データを用いて学習された学習モデルを用いて、注目音声に除去対象音声が重畳された重畳音声から除去対象音声を除去する音声除去装置において実行される音声除去方法であって、
前記教師データは、
前記注目音声に対応する第1の音声データを用いて作成された第1の2次元画像であり、
前記入力データは、
前記第1の音声データに前記除去対象音声に対応する少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて作成された第2の2次元画像であり、
前記学習モデルは、
前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることによって作成され、
前記第3の音声データは、
前記第2の音声データの音声ピッチと重畳する際のSN比を変更することにより作成された複数の前記第2の音声データのそれぞれを前記第1の音声データに重畳することによって作成される
音声除去方法。 - 入力データと教師データを用いて学習された学習モデルを用いて、注目音声に除去対象音声が重畳された重畳音声から除去対象音声を除去する音声除去装置であって、
前記教師データは、
前記注目音声に対応する第1の音声データを用いて作成した第1の2次元画像であり、
前記入力データは、
前記第1の音声データに前記除去対象音声に対応する少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて作成された第2の2次元画像であり、
前記学習モデルは、
前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることによって作成され、
前記第3の音声データは、
前記第2の音声データの音声ピッチと重畳する際のSN比を変更することにより作成された複数の前記第2の音声データのそれぞれを前記第1の音声データに重畳することによって作成される
音声除去装置。 - センサによって検出されたセンサ情報を用いて、前記重畳音声に混入している前記除去対象音声を推定し、
前記推定された除去対象音声に対応する前記第2の音声データを除去する前記学習モデルを選択し、選択された前記学習モデルを用いて、前記重畳音声から除去対象音声を除去する
請求項7に記載の音声除去方法。 - 前記センサは、
-前記除去対象音声の発生源の位置情報を検出する位置センサ、
-前記注目音声の発生源の位置情報を検出する位置センサ、
-前記除去対象音声の発生源の稼働状況を検出する振動センサ、
-前記注目音声の発生源の周辺環境の状況を検出する温度/湿度センサ、
の少なくとも1つを含む
請求項9に記載の音声除去方法。 - 顔認証センサまたは話者識別フィルタを用いて、前記重畳音声が含まれる背景音混入動画における話者を推定し、
前記推定された話者に対応する前記第1の音声データを強調する前記学習モデルを選択する
請求項7に記載の音声除去方法。 - センサによって検出されたセンサ情報を用いて、前記重畳音声に混入している前記除去対象音声を推定し、
前記推定された除去対象音声に対応する前記第2の音声データを除去する前記学習モデルを選択し、選択された前記学習モデルを用いて、前記重畳音声から除去対象音声を除去する
請求項8に記載の音声除去装置。 - 前記センサは、
-前記除去対象音声の発生源の位置情報を検出する位置センサ、
-前記注目音声の発生源の位置情報を検出する位置センサ、
-前記除去対象音声の発生源の稼働状況を検出する振動センサ、
-前記注目音声の発生源の周辺環境の状況を検出する温度/湿度センサ、
の少なくとも1つを含む
請求項12に記載の音声除去装置。 - 顔認証センサまたは話者識別フィルタを用いて、前記重畳音声が含まれる背景音混入動画における話者を推定し、
前記推定された話者に対応する前記第1の音声データを強調する前記学習モデルを選択する
請求項8に記載の音声除去装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023139753A JP7414214B1 (ja) | 2023-08-30 | 2023-08-30 | 学習モデル作成方法、学習モデル作成装置、背景音除去方法、および背景音除去装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023139753A JP7414214B1 (ja) | 2023-08-30 | 2023-08-30 | 学習モデル作成方法、学習モデル作成装置、背景音除去方法、および背景音除去装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP7414214B1 true JP7414214B1 (ja) | 2024-01-16 |
Family
ID=89534398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023139753A Active JP7414214B1 (ja) | 2023-08-30 | 2023-08-30 | 学習モデル作成方法、学習モデル作成装置、背景音除去方法、および背景音除去装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7414214B1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020240682A1 (ja) | 2019-05-28 | 2020-12-03 | 日本電気株式会社 | 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム |
CN115954013A (zh) | 2022-12-23 | 2023-04-11 | 哲库科技(上海)有限公司 | 一种语音处理的方法、装置、设备和存储介质 |
WO2023127058A1 (ja) | 2021-12-27 | 2023-07-06 | 日本電信電話株式会社 | 信号フィルタリング装置、信号フィルタリング方法及びプログラム |
-
2023
- 2023-08-30 JP JP2023139753A patent/JP7414214B1/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020240682A1 (ja) | 2019-05-28 | 2020-12-03 | 日本電気株式会社 | 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム |
WO2023127058A1 (ja) | 2021-12-27 | 2023-07-06 | 日本電信電話株式会社 | 信号フィルタリング装置、信号フィルタリング方法及びプログラム |
CN115954013A (zh) | 2022-12-23 | 2023-04-11 | 哲库科技(上海)有限公司 | 一种语音处理的方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11894014B2 (en) | Audio-visual speech separation | |
WO2021023667A1 (de) | System und verfahren zur unterstützung von selektivem hören | |
Leng et al. | Binauralgrad: A two-stage conditional diffusion probabilistic model for binaural audio synthesis | |
DE112015003945T5 (de) | Mehrquellen-Rauschunterdrückung | |
DE112020002858T5 (de) | Synchronisierte tonerzeugung aus videos | |
CN105959723A (zh) | 一种基于机器视觉和语音信号处理相结合的假唱检测方法 | |
Gabbay et al. | Seeing through noise: Speaker separation and enhancement using visually-derived speech | |
Navarathna et al. | Multiple cameras for audio-visual speech recognition in an automotive environment | |
CN116580720A (zh) | 一种基于视听语音分离的说话人视觉激活解释方法及系统 | |
JP7414214B1 (ja) | 学習モデル作成方法、学習モデル作成装置、背景音除去方法、および背景音除去装置 | |
Somayazulu et al. | Self-Supervised Visual Acoustic Matching | |
WO2022023417A2 (de) | System und verfahren zur kopfhörerentzerrung und raumanpassung zur binauralen wiedergabe bei augmented reality | |
Ghose et al. | Enabling an IoT system of systems through auto sound synthesis in silent video with DNN | |
CN116580709A (zh) | 神经网络模型的训练方法及电子设备和存储介质 | |
Busse et al. | Improved gunshot classification by using artificial data | |
EP4080388A1 (en) | Multimodal, dynamic, privacy preserving age and attribute estimation and learning methods and systems | |
Zhou et al. | Audio scene calssification based on deeper CNN and mixed mono channel feature | |
Altyar et al. | Human recognition by utilizing voice recognition and visual recognition | |
CN115938385A (zh) | 一种语音分离方法、装置及存储介质 | |
Rincón-Trujillo et al. | Analysis of Speech Separation Methods based on Deep Learning. | |
Guo et al. | Exploring a new method for food likability rating based on DT-CWT theory | |
Basturk et al. | Soundscape approach for a holistic urban design | |
Siegel et al. | Simulation of acoustic product properties in virtual environments based on artificial neural networks (ANN) | |
CN114495974B (zh) | 音频信号处理方法 | |
KR102113542B1 (ko) | 심층신경망을 이용하여 음향 신호를 정규화하는 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230927 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230927 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20230927 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7414214 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |