JP7414214B1 - 学習モデル作成方法、学習モデル作成装置、背景音除去方法、および背景音除去装置 - Google Patents

学習モデル作成方法、学習モデル作成装置、背景音除去方法、および背景音除去装置 Download PDF

Info

Publication number
JP7414214B1
JP7414214B1 JP2023139753A JP2023139753A JP7414214B1 JP 7414214 B1 JP7414214 B1 JP 7414214B1 JP 2023139753 A JP2023139753 A JP 2023139753A JP 2023139753 A JP2023139753 A JP 2023139753A JP 7414214 B1 JP7414214 B1 JP 7414214B1
Authority
JP
Japan
Prior art keywords
audio data
data
dimensional image
learning model
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023139753A
Other languages
English (en)
Inventor
博 田中
剛 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ikutoku Gakuen School Corp
Original Assignee
Ikutoku Gakuen School Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ikutoku Gakuen School Corp filed Critical Ikutoku Gakuen School Corp
Priority to JP2023139753A priority Critical patent/JP7414214B1/ja
Application granted granted Critical
Publication of JP7414214B1 publication Critical patent/JP7414214B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

Figure 0007414214000001
【課題】良好な背景音除去性能を得ることが可能な背景音除去方法を提供する。
【解決手段】本発明の学習モデル作成方法では、注目音声を用いて第1の2次元画像を作成し、注目音声に除去対象音声を重畳した重畳音声を用いて第2の2次元画像を作成し、第1の2次元画像を教師データとし、第2の2次元画像を深層学習ネットワークに入力し、深層学習ネットワークの出力データが教師データと一致するように学習を行うことにより、除去対象音声を除去するための学習モデルを作成する。第2の2次元画像は、除去対象音声の音声ピッチと重畳する際のSN比を変更することにより複数の重畳音声を作成し、複数の重畳音声のそれぞれを用いて作成される。
【選択図】 図14

Description

特許法第30条第2項適用 令和4年11月17日に発行された情報処理学会第119回オーディオビジュアル複合情報処理研究会(令和4年11月25日、愛知県名古屋市にて開催)の講演予稿集にて発表。 令和4年11月25日に開催された情報処理学会第119回オーディオビジュアル複合情報処理研究会(令和4年11月25日、愛知県名古屋市にて開催)にて発表。 令和4年12月7日に発行されたHCGシンポジウム2022(令和4年12月14日、香川県高松市にて開催)の講演予稿集にて発表。 令和4年12月14日に開催されたHCGシンポジウム2022(令和4年12月14日、香川県高松市にて開催)にて発表。 令和5年2月14日に発行された画像電子学会第303回研究会(令和5年2月22日、広島県広島市にて開催)の講演予稿集にて発表。 令和5年2月22日に開催された画像電子学会第303回研究会(令和5年2月22日、広島県広島市にて開催)にて発表。 令和5年2月14日に発行された画像電子学会第303回研究会(令和5年2月22日、広島県広島市にて開催)の講演予稿集にて発表。 令和5年2月22日に開催された画像電子学会第303回研究会(令和5年2月22日、広島県広島市にて開催)にて発表。 令和5年5月2日に発行された画像電子学会誌第52巻第2号にて発表。
本願発明は、学習モデルを用いて背景音を除去する背景音除去方法に関するものである。
近年、テレワークや在宅勤務、遠隔授業が急速に広がり、場所や移動を気にすることなく会議や授業に参加できるようになった。一方、自宅から動画配信をする場合には同居者の声や生活音、ペットの鳴き声や乳児の泣き声等が混入してしまい、会議や授業の参加者が音声を聞き取りにくくなってしまう場合がある。
会議や授業においてオンラインで配信される動画に混入する雑音への対応に関しては、ノイズ除去手法が提案されている。例えば、非特許文献1では、音声データを短時間フーリエ変換でスペクトログラム画像に変換し、U-Netを用いて電車走行音等のノイズを除去する手法が提案されている。
林 他:「U-Netを用いた雑音除去と音声認識性能向上の検討-電車走行背景音を対象として」,信学技法SeMI2022-26,Vol. 122, No. 108, pp. 34-39 (2022)
利用者が動画を配信する際に混入する音声は、ペットの鳴き声や乳児の泣き声等のように利用者が動画を配信する環境に応じて異なり、様々な音声が動画を配信する話者の音声に混入することが想定される。従来の背景音除去手法のように、一般的なノイズを除去対象とする背景音除去方法では、利用者毎に異なる様々な音声を除去対象とした場合において、良好な除去性能が得られない場合がある。
本発明は、上記の課題を解決するためになされたものであり、利用者が除去したい様々な背景音を除去する場合において、良好な背景音除去性能を得ることが可能な背景音除去方法を提供することを目的とする。
上記課題を解決するために、本発明の学習モデル作成方法では、学習データ作成部と学習モデル作成部を備えた学習モデル作成装置において実行される学習モデル作成方法であって、前記学習データ作成部は、第1の音声データを用いて第1の2次元画像を作成し、前記第1の音声データに少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて第2の2次元画像を作成し、前記学習モデル作成部は、前記第1の2次元画像を教師データとし、前記第2の2次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第2の音声データを除去するための学習モデルを作成し、前記学習データ作成部は、前記第2の音声データの音声ピッチと前記重畳する際のSN比を変更することにより複数の前記第3の音声データを作成し、複数の前記第3の音声データのそれぞれを用いて前記第2の2次元画像を作成する。
上記課題を解決するために、本発明の学習モデル作成装置は、学習データ作成部と学習モデル作成部を備えた学習モデル作成装置であって、前記学習データ作成部は、第1の音声データを用いて第1の2次元画像を作成し、前記第1の音声データに少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて第2の2次元画像を作成し、前記学習モデル作成部は、前記第1の2次元画像を教師データとし、前記第2の2次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第2の音声データを除去するための学習モデルを作成し、前記学習データ作成部は、前記第2の音声データの音声ピッチと前記重畳する際のSN比を変更することにより複数の前記第3の音声データを作成し、複数の前記第3の音声データのそれぞれを用いて前記第2の2次元画像を作成する。
上記課題を解決するために、本発明の学習モデル作成方法は、学習データ作成部と学習モデル作成部を備えた学習モデル作成装置において実行される学習モデル作成方法であって、前記学習データ作成部は、第1の音声データを用いて第1の2次元画像を作成し、前記第1の音声データに少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて第2の2次元画像を作成し、前記学習モデル作成部は、前記第1の2次元画像を教師データとし、前記第2の2次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第2の音声データを除去するための学習モデルを作成し、前記学習データ作成部は、前記第1の音声データを用いて作成した2次元画像において、一部が重複するように画像を切り出すことにより前記第1の2次元画像を作成し、前記第3の音声データを用いて作成した2次元画像において、一部が重複するように画像を切り出すことにより前記第2の2次元画像を作成する。
上記課題を解決するために、本発明の学習モデル作成装置は、学習データ作成部と学習モデル作成部を備えた学習モデル作成装置であって、前記学習データ作成部は、第1の音声データを用いて第1の2次元画像を作成し、前記第1の音声データに少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて第2の2次元画像を作成し、前記学習モデル作成部は、前記第1の2次元画像を教師データとし、前記第2の2次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第2の音声データを除去するための学習モデルを作成し、前記学習データ作成部は、前記第1の音声データを用いて作成した2次元画像において、一部が重複するように画像を切り出すことにより前記第1の2次元画像を作成し、前記第3の音声データを用いて作成した2次元画像において、一部が重複するように画像を切り出すことにより前記第2の2次元画像を作成する。
上記課題を解決するために、本発明の学習モデル作成方法は、学習データ作成部と学習モデル作成部を備えた学習モデル作成装置において実行される学習モデル作成方法であって、前記学習データ作成部は、第1の音声データを用いて第1の2次元画像を作成し、前記第1の音声データに少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて第2の2次元画像を作成し、前記学習モデル作成部は、前記第1の2次元画像を教師データとし、前記第2の2次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第2の音声データを除去するための学習モデルを作成し、前記学習データ作成部は、前記第1の音声データを用いて作成した所定の解像度の2次元画像に、前記所定の解像度と異なる解像度の2次元画像を追加することにより、前記第1の2次元画像を作成し、前記第3の音声データを用いて作成した所定の解像度の2次元画像に、前記所定の解像度と異なる解像度の2次元画像を追加することにより、前記第2の2次元画像を作成する。
上記課題を解決するために、本発明の学習モデル作成装置は、学習データ作成部と学習モデル作成部を備えた学習モデル作成装置であって、前記学習データ作成部は、第1の音声データを用いて第1の2次元画像を作成し、前記第1の音声データに少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて第2の2次元画像を作成し、前記学習モデル作成部は、前記第1の2次元画像を教師データとし、前記第2の2次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第2の音声データを除去するための学習モデルを作成し、前記学習データ作成部は、前記第1の音声データを用いて作成した所定の解像度の2次元画像に、前記所定の解像度と異なる解像度の2次元画像を追加することにより、前記第1の2次元画像を作成し、前記第3の音声データを用いて作成した所定の解像度の2次元画像に、前記所定の解像度と異なる解像度の2次元画像を追加することにより、前記第2の2次元画像を作成する。
上記課題を解決するために、本発明の音声除去方法は、入力データと教師データを用いて学習された学習モデルを用いて、注目音声に除去対象音声が重畳された重畳音声から除去対象音声を除去する音声除去装置において実行される音声除去方法であって、前記教師データは、前記注目音声に対応する第1の音声データを用いて作成された第1の2次元画像であり、前記入力データは、前記第1の音声データに前記除去対象音声に対応する少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて作成された第2の2次元画像であり、前記学習モデルは、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることによって作成され、前記第3の音声データは、前記第2の音声データの音声ピッチと重畳する際のSN比を変更することにより作成された複数の前記第2の音声データのそれぞれを前記第1の音声データに重畳することによって作成される。
上記課題を解決するために、本発明の音声除去装置は、入力データと教師データを用いて学習された学習モデルを用いて、注目音声に除去対象音声が重畳された重畳音声から除去対象音声を除去する音声除去装置であって、前記教師データは、前記注目音声に対応する第1の音声データを用いて作成した第1の2次元画像であり、前記入力データは、前記第1の音声データに前記除去対象音声に対応する少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて作成された第2の2次元画像であり、前記学習モデルは、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることによって作成され、前記第3の音声データは、前記第2の音声データの音声ピッチと重畳する際のSN比を変更することにより作成された複数の前記第2の音声データのそれぞれを前記第1の音声データに重畳することによって作成される音声除去装置。
本発明によれば、利用者が除去したい様々な背景音を除去する場合において、良好な背景音除去性能を得ることが可能な背景音除去方法を提供することができる。
図1は、背景音重畳音声から背景音を除去するシステムの構成例である。 図2は、背景音が重畳された重畳音声を説明するための図である。 図3は、スペクトログラム画像を説明するための図である。 図4は、学習データのデータ拡張を説明するための図である。 図5は、学習データの切り出しを説明するための図である。 図6は、学習データのデータ拡張を説明するための図である。 図7は、学習データのデータ拡張を説明するための図である。 図8は、背景音除去のための深層学習のネットワーク(U-Net)の構造を説明するための図である。 図9は、除去対象音声の除去効果を評価するシステムの構成例である。 図10は、除去対象音声の除去効果を評価するための背景音重畳音声を説明するための図である。 図11は、背景音除去の評価結果を示す図である。 図12は、音声除去システムの構成例を示す図である。 図13は、学習モデル作成装置の構成例を示す図である。 図14は、学習モデル作成方法の動作フローを示す図である。 図15は、音声除去装置の構成例を示す図である。 図16は、音声除去方法の動作フローを示す図である。
以下、図面を参照して本願発明の実施の形態を説明する。但し、本願発明は、多くの異なる態様で実施することが可能であり、以下に説明する本願発明の実施の形態に限定して解釈すべきではない。
<背景音を除去するシステムの構成例>
本実施の形態が対象とする背景音が重畳された背景音重畳音声から背景音を除去するシステムの構成例を図1に示す。本実施の形態では、話者音声等の注目音声に背景音等の除去対象音声が混入した重畳音声に短時間フーリエ変換(STFT:Short-Time Fourier Transform)を適用してスペクトログラム画像等の2次元画像を生成し、生成したスペクトログラム画像上に現れる背景音等の除去対象音声の特徴を除去するように学習した深層学習モデルに入力する。深層学習モデルの出力画像に逆STFTを適用することで、背景音等の除去対象音声を除去した話者音声等の注目音声を復元する。
本実施の形態では、深層学習モデルに入力するための画像として、時系列の音の強度情報を変換して作成した時間-周波数の2次元画像を用いる。2次元画像としては、スペクトログラム画像の他、メルススペクトログラム画像や、スカログラム画像を用いることができる。以下の説明では、2次元画像としてスペクトログラム画像を用いた場合を説明する。
本実施の形態では、除去対象音声を除去するための深層学習ネットワークとしてU-Netを用いて学習モデルを作成した。U-Netは、FCN(Fully Convolutional Network)の1つであり、生物医科学の画像セグメンテーションを行うために発表されたものである。
ここで、本実施の形態における注目音声とは、様々な音声が混入している混入音声において、雑音を除去して残したい、あるいは雑音を除去することにより強調したい音声のことである。注目音声には、生活音や騒音などの背景音声の発生する環境において強調したい特定の話者の音声等や、自然環境において観測対象となる特定の音声等が含まれるが、それらに限定されるものではない。
<学習モデルを作成するための背景音重畳音声の作成>
図2は、学習モデルを作成するための背景音が重畳された重畳音声を説明するための図である。本実施の形態における除去対象音声である背景音としては、ペットの鳴き声、乳児の泣き声、インターホンの音等の様々な音声が想定される。本実施の形態では、図2に示すように、話者音声と同じデータ長となるように、同一の背景音声を所定の間隔で配置して除去対象音声を作成し、作成した除去対象音声を話者音声に重畳することにより、学習モデルを作成するための背景音重畳音声を作成する。図2の例では、背景音声を等間隔で配置しているが、ランダムな間隔で配置してもよい。
本実施の形態では、話者音声等の注目音声の音声データ(第1の音声データ)に、背景音等の除去対象音声(第2の音声データ)を重畳することにより背景音が重畳された重畳音声の音声データ(第3の音声データ)を生成し、それを用いて作成した2次元画像をU-Netに入力して、背景音の特徴を除去するように学習させることにより背景音除去のための学習モデルを作成する。
<スペクトログラム画像>
本実施の形態では、学習データを画像データ形式でU-Netに入力するために、図2における時系列の背景音重畳音声にSTFTを適用してスペクトログラム画像に変換する。図3は、U-Netに入力するスペクトログラム画像を説明するための図である。変換時のSTFTのパラメータは、例えば、窓関数hann、フレームサイズ512、ポイント数512とすればよい。
<学習データの拡張方法>
ペットの泣き声や乳児の泣き声は、同一個体、同一人物の場合であって感情や状況によって声量や声質が異なることがある。本実施の形態では、学習データにバリエーションを持たせて背景音除去性能を向上させるために、背景音の音声ピッチと背景音を重畳する際のSN比を変化させてデータ拡張を行う。
図4は、猫の鳴き声の音声ピッチを変更した場合の音声波形と、その音声波形にSTFTを適用して変換したスペクトログラム画像の例である。図4の(a)、(b)、(c)は、それぞれ、音声ピッチの変更が無い場合、音声ピッチを-2半音変化させた場合、音声ピッチを+2半音変化させた場合の音声波形とスペクトログラム画像である。
本実施の形態では、音声ピッチは、変更無し、+1半音、-1半音、+2半音、-2半音の5段階で変化させ、SN比は、40dBから0dBまで10dB刻みで5段階に変化させる。このようなデータ拡張により、1つの背景音について、ピッチの変化で5種類、SN比変化で5種類の合計25種類の背景音重畳音声を生成して、U-Netに入力するための学習データを生成する。データ拡張を行った学習データを用いて学習を行うことにより背景音除去性能の向上が期待される。
<学習データの作成>
図5は、学習データの切り出しを説明するための図である。本実施の形態では、背景音重畳音声をスペクトログラム画像に変換してU-Netの学習を行うが、画像のサイズが横方向(時間方向)に長いとU-Netの学習に適さない。そこで、本実施の形態では、U-Netの入力に合わせて、スペクトログラム画像を256×256の画像に切り出してU-Netに入力する。図5に示すように注目音声である話者音声と背景音が重畳された重畳音声において切り出し位置を揃えて切り出しを行い、前者を教師データ(第1のスペクトログラム画像)、後者をU-Netへの入力データ(第2のスペクトログラム画像)として学習のためのデータセットを作成する。
<他の学習データの拡張方法>
上述した学習データの拡張方法では、背景音のピッチと重畳する際のSN比を変化させてデータ拡張を行ったが他のデータ拡張方法を用いてもよい。図6は、学習データの他のデータ拡張方法を説明するための図である。図6では、音声データにSTFTを適用したスペクトログラム画像から画像を切り出してU-Netに入力するためのデータセットを作成する際に、スペクトログラム画像の一部が重複するように画像を切り出すことでデータ拡張を行う。
図6の構成例では、隣同士で極端に類似する画像が発生しないことを考慮してスライド幅を1/2、1/3に変更して画像の切り出しを行っている。図6(b)に示すように、スライド幅が1/2の場合、1枚目と2枚目の間に新たに1枚の追加画像を作成することができる。データセットに用いる画像を切り出す際にデータの一部が重複するようにスライド幅を設定することで、同じ音声データから複数の異なるデータセットを作成することができるので、学習データ数の増加による背景音除去性能の向上が期待できる。
音声データにSTFTを適用してスペクトログラム画像化の際に、STFTのパラメータを調整することで解像度が異なる画像が生成可能である。これを利用して、基準となるパラメータで生成したスペクトログラム画像に異なる解像度で作成したスペクトログラム画像を加算することで、データ数を増加させることができる。
図7は、学習データの他のデータ拡張を説明するための図である。本実施の形態では、STFTのパラメータを窓関数hann、フレームサイズ512、ポイント数512としており、この数値を基準として、特に解像度の変化への影響が大きい窓関数のフレームサイズを変化させることで追加する解像度の異なる画像を作成した。この複数の解像度の画像を加算することによりデータ拡張を行うようにしてもよい。
図7の例では、基準となる解像度512の画像に、それぞれ解像度128、256、1024の画像を追加することによりデータ拡張を行っている。基準となるパラメータで生成したスペクトログラム画像に異なる解像度で作成したスペクトログラム画像を加算することで、同じ音声データから複数の異なるデータセットを作成することができるので、学習データ数の増加による背景音除去性能の向上が期待できる。
<深層学習のネットワークの構造>
図8は、背景音除去のための深層学習のネットワークの構造を説明するための図である。本実施形態では深層学習のネットワークとしてU-Netを適用して背景音除去のための学習モデルを作成した。
本実施の形態では、図8に示すように、背景音を重畳した音声データのスペクトログラム画像(サイズ256×256)を入力データとして、9回の畳み込みと4回の MaxPoolingを行い、画像を圧縮しながら特徴量を抽出する。その後4回のUpSamplingと9回の逆畳み込みを行い 画像を元のサイズに戻し出力データを出力する。
出力データと背景音声を重畳する前の音声データである教師データが一致する(誤差が小さくなる)ようにU-Netを学習させることにより、背景音声の特徴を除去する学習モデル(背景音除去フィルタ)を作成することができる。図8の構成例では、出力データと教師データの間の平均二乗誤差(MSE:Mean Squared Error)が小さくなるようにU-Netを学習させる。
<背景音の除去効果の評価システム>
図9は、除去対象音声の除去効果を評価するシステムの構成例である。図10は、除去対象音声の除去効果を評価するための背景音重畳音声を説明するための図である。本実施の形態では、学習時と同一人物で、学習には使用しなかった講義動画を講義画像と話者音声に分離して話者音声を抽出し、抽出した話者音声の発話箇所と発話していない箇所の2箇所に、SN比0dB、10dB、20dBで背景音を重畳することにより評価用の背景音重畳音声を作成した。
背景音を重畳することにより作成した背景音重畳音声を元の講義画像と合成することにより講義動画Xを作成した。背景音を重畳した背景音重畳音声にSTFTを施したスペクトログラム画像を作成した学習モデルに入力し、学習モデルから出力されたスペクトログラム画像に逆STFTを施すことにより背景音除去音声を生成して、元の講義画像と合成することにより講義動画Yを作成した。この講義動画Xと講義動画Yを所定の数(27名)の被験者に視聴してもらい、背景音がどの程度気になるかを調査することにより背景音の除去効果を評価した。
背景音の除去効果の評価結果を図11に示す。図11(a)、図11(b)はそれぞれ猫の鳴き声と乳児の泣き声を除去対象とする単体モデルを用いた評価結果である。図11(a)の猫の鳴き声と図11(b)の乳児の泣き声に関して、背景音を除去していない講義動画XのSN比が下がるにつれて「気になる」の割合が増大する結果となった。一方、背景音を除去した講義動画Yでは、「聞こえない」、「気にならない」が高い割合を占めており、被験者による視聴結果では、SN比に依らず高い除去効果が得られることが確認できた。
図11(c)は、複数の背景音、具体的には、猫の鳴き声、犬の鳴き声、乳児の泣き声、インターホンの音を除去対象として作成した混合モデルを用いた評価結果と、図11(a)、図11(b)の単体モデルを用いた評価結果を比較したものである。猫の鳴き声の除去結果においては、混合モデルにおいても単体モデルを用いた結果と同様の評価結果が得られた。一方、乳児の泣き声の除去結果においては、混合モデルよりも単体モデルの方が高い評価結果が得られたが、「聞こえない」、「気にならない」、「あまり気にならない」が80%以上の高い割合を占める評価結果が得られた。
<背景音除去システム>
図12は、背景音除去システムの構成例を示す図である。本実施の形態の背景音除去システムでは、利用者が除去したい様々な背景音を入力することにより除去対象の背景音を除去するように学習された学習モデル(背景音除去フィルタ)を作成し、作成した学習モデル(背景音除去フィルタ)を用いて、話者音声等の注目音声に背景音が混入した背景音混入動画から背景音を除去して背景音除去動画を提供する。
また、特定の話者音声に他の話者音声が混入している場合には、特定の話者音声を強調するように学習された学習モデル(音声強調フィルタ)を作成し、作成した学習モデル(音声強調フィルタ)を用いて、特定の話者音声に他の話者音声が混入している混入動画において特定の話者音声が強調された動画を出力することもできる。
利用者が除去したい背景音としては、ペットの鳴き声や乳児の泣き声等利用者が動画を配信する環境毎に様々な音声が考えられる。利用者が除去したい様々な背景音に応じて学習モデルを作成することで、利用者が除去したい様々な背景音を除去する場合において良好な背景音除去性能を得ることが可能となる。
図12の構成例では、学習モデル作成装置10において学習モデル(背景音除去フィルタ/音声強調フィルタ)を作成し、背景音除去装置20において、話者端末30から提供された背景音混入動画から背景音を除去する。学習モデルの作成と背景音除去を1つの装置において実施してもよい。学習モデル作成装置10において作成した学習モデルを利用者に提供することも可能である。
<センサ情報に応じた学習モデルの選択>
本実施の形態の背景音除去システムは、作成した学習モデルから、背景音の発生源や話者50の位置情報、背景音の発生源の稼働状況、話者50の周辺環境の状況等のセンサ情報に応じて選択することができるように構成されている。予め様々な背景音を用いて学習させた学習モデルを作成しておき、センサ40によって検出されたセンサ情報等に応じて、より背景音除去効果の高い学習モデルを選択することが可能となる。
センサ情報に応じて学習モデルを選択するためには、作成した学習モデルに対してセンサ情報に対応した情報を付与しておけばよい。例えば、電車の走行音が除去対象背景音である場合には、学習モデルに、除去対象背景音が電車の走行音であることと、除去対象音声の発生源である電車の走行区間や走行位置を特定するための情報を付与しておくことにより、注目音声の発生源である話者50の位置情報に応じて適切な学習モデルを選択することが可能となる。
ここで話者50の位置情報は、センサ40に備えられたGPSセンサにより検出されたセンサ40の位置情報により検出することができる。また、センサ40が受信する無線LANのアクセスポイントから送信されるSSID(Service Set Identifier)を検出することにより、アクセスポイントの位置情報を用いて話者50の位置情報を推定することもできる。
工作機械等から発生する騒音が除去対象背景音である場合には、学習モデルに、除去対象背景音が工作機械等から発生する騒音であることと、除去対象音声の発生源である工作機械等から発生する騒音状態(騒音のレベルや騒音の周波数成分等)を特定するための情報を付与しておくことにより、振動センサの振動情報によって推定される騒音状態に応じて適切な学習モデルを選択することが可能となる。
空調機器等から発生する騒音が除去対象背景音である場合には、学習モデルに、除去対象背景音が空調機器等から発生する騒音であることと、除去対象音声の発生源である空調機器等から発生する騒音状態を特定するための情報を付与しておくことにより、温度/湿度センサの情報によって推定される騒音状態に応じて適切な学習モデルを選択することが可能となる。
話者の周辺環境の騒音が除去対象背景音である場合には、学習モデルに、除去対象背景音が、注目音声の発生源である話者の周辺環境の騒音であることと、混入する騒音状態を特定するための情報を付与しておくことにより、人流センサの情報によって推定される騒音状態に応じて適切な学習モデルを選択することが可能となる。
また、特定の話者が発する音声を強調するような学習モデル(音声強調フィルタ)を選択する場合には、学習モデルに話者を特定するための情報を付与しておくことにより、顔認証センサや話者識別フィルタ等により話者を特定して、特定の話者が発する音声を強調するような学習モデル(音声強調フィルタ)を選択することが可能となる。顔認証センサや話者識別フィルタ等による話者の特定は、背景音除去装置20において行うことができる。
<学習モデル作成装置の構成>
図13は、学習モデル作成装置の構成例を示す図である。学習モデル作成装置10は、外部の装置と情報を送受信するためのI/F部11、学習データの作成を行う学習データ作成部、学習モデルの作成を行う学習モデル作成部として機能する中央処理部12、教師データ、入力データ、作成した学習モデル、中央処理部12の処理を実行するプログラム等を記憶する記憶部13を備える。
除去対象である背景音の音声データは、I/F部11を介して入力され、入力された背景音の音声データを用いて中央処理部12において学習モデル(背景音除去フィルタ)が作成される。作成された学習モデルは、 I/F部11を介して出力され、背景音除去装置20に提供される。図2-図5で説明したように、データ拡張した入力データと教師データをU-Netに学習させることにより作成することができる。U-Netは、学習モデル作成装置10内に実装しても良いし、クラウド上に実装されたU-Netにおいて学習するようにしてもよい。
<学習モデル作成方法の動作>
図14は、学習モデル作成方法の動作フローを示す図である。学習モデル作成装置10は、利用者から除去対象である背景音の音声データ(第2の音声データ)を取得し(S1-1)、取得した背景音の音声データを注目音声である話者音声の音声データ(第1の音声データ)に重畳して背景音重畳音声(第3の音声データ)を作成し、背景音重畳音声の一部を切り出してU-Netへの入力データを作成する(S1-2)。
ここで、注目音声である話者音声の音声データは、利用者が提供してもよいし、学習モデル作成装置10において予め用意した話者音声を用いてもよい。また、除去対象である背景音の音声データが、音源による個体差のない音声データの場合には、予め用意した背景音の音声データを用いて学習モデルを作成してもよい。
例えば、救急車、パトカー、消防車のサイレン等の背景音を除去する学習モデルを作成する場合には、学習モデル作成装置において予め用意した背景音のデータを用いてもよい。
教師データおよび入力データの作成方法は、図2-図5で説明した作成方法を用いることができる。入力データについては、図4で説明したように、1つの背景音について、ピッチの変化で5種類、SN比変化で5種類の合計25種類の背景音重畳音声を生成して、U-Netに入力するための入力データを生成する。
学習モデル作成装置10は、利用者から提供された話者音声、あるいは、予め用意した話者音声にSTFTを適用してスペクトログラム画像(第1のスペクトログラム画像)を作成し、その一部を切り出して教師データを作成し、背景音重畳音声にSTFTを適用してスペクトログラム画像(第2のスペクトログラム画像)、その一部を切り出してデータを作成する。
学習モデル作成装置10は、作成した入力データと教師データをU-Netに学習させることにより、利用者から提供された背景音を除去する学習モデルを作成し(S1-3)、作成した学習モデルを背景音除去装置20に出力する(S1-5)。
<背景音除去装置の構成>
図15は、背景音を除去する音声除去装置の構成例を示す図である。背景音除去装置20は、外部の装置と情報を送受信するためのI/F部21、学習モデル選択部、背景音除去処理部として機能する中央処理部22、話者データ、センサ情報、学習モデル作成装置10で作成された学習モデル、中央処理部22の処理を実行するプログラム等を記憶する記憶部23を備える。
学習モデル作成装置10で作成された学習モデルは、I/F部21を介して入力され、記憶部23に保存される。中央処理部12では、センサ40から取得したセンサ情報に応じて学習モデルが選択され、選択された学習モデルに、話者端末30から提供された背景音混入動画を入力することにより背景音除去処理が実行される。
背景音除去装置20は、センサ40によって検出されたセンサ情報に応じて学習モデルを選択できるように構成されている。予め様々な背景音を用いて学習させた学習モデルを作成しておき、センサ40によって検出された背景音の発生源や話者の位置情報、背景音の発生源の稼働状況、話者の周辺環境の状況等のセンサ情報に応じて学習モデルを選択することで、より背景音除去効果の高い学習モデルを選択して背景音除去を行うことが可能となる。
センサ情報を提供するセンサ40としては、除去対象音声である背景音の発生源や、注目音声の発生源である話者の位置情報を検出する位置センサ、背景音の発生源の稼働状況を検出する振動センサ、話者の周辺環境の状況を検出する温度/湿度センサや人流/騒音センサ、話者を特定するための顔認証センサや話者識別フィルタ等が考えられる。背景音の種類に応じて、これらのうち少なくとも1つが含まれるセンサ40によってセンサ情報が検出される。
電車の走行音が除去対象背景音である場合には、電車の車両の種類や走行区間によって発生する背景音の音声データの特徴が異なる。これを利用して、話者音声を発する話者の位置情報に応じて話者の音声に混入する電車の走行音を推定し、推定された電車の走行音に対応する学習モデルを選択することにより、より背景音除去効果の高い学習モデルを選択することが可能となる。
工作機械等から発生する騒音が除去対象背景音である場合には、騒音の発生源である工作機械の稼働状況によって発生する背景音の音声データの特徴が異なる。これを利用して、工作機械の振動情報に応じて話者の音声に混入する工作機械等から発生する騒音状態を推定し、推定された工作機械の騒音状態に対応する学習モデルを選択するようにすればよい。
空調機器等から発生する騒音が除去対象背景音である場合には、騒音の発生源である空調機器が設置されている環境の温度や湿度によって発生する背景音の音声データの特徴が異なる。これを利用して、空調機器が設置されている環境の温度情報や湿度情報に応じて話者の音声に混入する空調機器等から発生する騒音状態を推定し、推定された空調機器の騒音状態に対応する学習モデルを選択するようにすればよい。
話者の周辺環境の騒音が除去対象背景音である場合には、話者の周辺の混雑状況によって発生する背景音の音声データの特徴が異なる。これを利用して、話者の周辺環境の混雑状況を検出する人流センサの検出結果に応じて話者の音声に混入する騒音状態を推定し、推定された周辺環境の騒音状態に対応する学習モデルを選択するようにすればよい。
また、話者を特定するための顔認証センサや話者識別フィルタ等により話者を特定して、特定の話者が発する音声を強調するような学習モデル(音声強調フィルタ)を選択するようにしてもよい。予め特定の話者の声を強調するような学習モデル(音声強調フィルタ)を作成しておき、話者に応じた学習モデル(音声強調フィルタ)を選択することで、特定の話者以外の声のレベルが相対的に低減されるので、特定の話者以外の声を除去するのと同様の効果を得ることができる。
<背景音除去方法の動作>
図16は、背景音を除去する音声除去方法の動作フローを示す図である。背景音除去装置20は、利用者から除去対象である背景音が混入した背景音混入動画のデータを取得し(S2-1)、除去対象背景音の発生源、除去対象背景音が発生する状況、話者を特定するためのセンサ情報等を取得する(S2-2)。
取得したセンサ情報に対応する学習モデルを選択して、選択した学習モデルに背景音混入動画の音声データを用いて作成した音声データを入力することにより背景音を除去し(S2-4)、背景音が除去された背景音除去動画を出力する(S2-5)。
以上述べたように、本実施の形態では、背景音が重畳された背景音重畳音声から背景音を除去するための学習モデルを作成する際に、背景音の音声データのピッチと背景音を重畳する際のSN比を変更することによりデータ拡張を行って学習モデルの作成を行った。
このようなデータ拡張を行って学習した学習モデルを用いることで、 利用者が除去したい様々な背景音を除去する場合において、良好な背景音除去性能を得ることが可能なとなる。
また、本実施の形態では、センサによって検出された除去対象の背景音の発生源、除去対象の背景音が発生する状況、話者を特定するための情報等のセンサ情報に応じて学習モデルを選択することができるように構成されている。
センサによって検出された除去対象背景音の発生源、除去対象背景音が発生する状況、話者を特定するための情報等に応じて、除去対象の背景音の除去に適したより背景音除去効果の高い学習モデルを選択することができるので、利用者が除去したい様々な背景音を除去する場合において、良好な背景音除去性能を得ることが可能となる。
本願発明は、動画に混入する背景音を除去するための背景音除去システムに利用することができる。
10…学習モデル作成装置、20…背景音除去装置、30…話者端末、40…センサ。

Claims (14)

  1. 学習データ作成部と学習モデル作成部を備えた学習モデル作成装置において実行される学習モデル作成方法であって、
    前記学習データ作成部は、
    第1の音声データを用いて第1の2次元画像を作成し、前記第1の音声データに少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて第2の2次元画像を作成し、
    前記学習モデル作成部は、
    前記第1の2次元画像を教師データとし、前記第2の2次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第2の音声データを除去するための学習モデルを作成し、
    前記学習データ作成部は、
    前記第2の音声データの音声ピッチと前記重畳する際のSN比を変更することにより複数の前記第3の音声データを作成し、複数の前記第3の音声データのそれぞれを用いて前記第2の2次元画像を作成する
    学習モデル作成方法。
  2. 学習データ作成部と学習モデル作成部を備えた学習モデル作成装置であって、
    前記学習データ作成部は、
    第1の音声データを用いて第1の2次元画像を作成し、前記第1の音声データに少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて第2の2次元画像を作成し、
    前記学習モデル作成部は、
    前記第1の2次元画像を教師データとし、前記第2の2次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第2の音声データを除去するための学習モデルを作成し、
    前記学習データ作成部は、
    前記第2の音声データの音声ピッチと前記重畳する際のSN比を変更することにより複数の前記第3の音声データを作成し、複数の前記第3の音声データのそれぞれを用いて前記第2の2次元画像を作成する
    学習モデル作成装置。
  3. 学習データ作成部と学習モデル作成部を備えた学習モデル作成装置において実行される学習モデル作成方法であって、
    前記学習データ作成部は、
    第1の音声データを用いて第1の2次元画像を作成し、前記第1の音声データに少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて第2の2次元画像を作成し、
    前記学習モデル作成部は、
    前記第1の2次元画像を教師データとし、前記第2の2次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第2の音声データを除去するための学習モデルを作成し、
    前記学習データ作成部は、
    前記第1の音声データを用いて作成した2次元画像において、一部が重複するように画像を切り出すことにより前記第1の2次元画像を作成し、前記第3の音声データを用いて作成した2次元画像において、一部が重複するように画像を切り出すことにより前記第2の2次元画像を作成する
    学習モデル作成方法。
  4. 学習データ作成部と学習モデル作成部を備えた学習モデル作成装置であって、
    前記学習データ作成部は、
    第1の音声データを用いて第1の2次元画像を作成し、前記第1の音声データに少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて第2の2次元画像を作成し、
    前記学習モデル作成部は、
    前記第1の2次元画像を教師データとし、前記第2の2次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第2の音声データを除去するための学習モデルを作成し、
    前記学習データ作成部は、
    前記第1の音声データを用いて作成した2次元画像において、一部が重複するように画像を切り出すことにより前記第1の2次元画像を作成し、前記第3の音声データを用いて作成した2次元画像において、一部が重複するように画像を切り出すことにより前記第2の2次元画像を作成する
    学習モデル作成装置。
  5. 学習データ作成部と学習モデル作成部を備えた学習モデル作成装置において実行される学習モデル作成方法であって、
    前記学習データ作成部は、
    第1の音声データを用いて第1の2次元画像を作成し、前記第1の音声データに少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて第2の2次元画像を作成し、
    前記学習モデル作成部は、
    前記第1の2次元画像を教師データとし、前記第2の2次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第2の音声データを除去するための学習モデルを作成し、
    前記学習データ作成部は、
    前記第1の音声データを用いて作成した所定の解像度の2次元画像に、前記所定の解像度と異なる解像度の2次元画像を追加することにより、前記第1の2次元画像を作成し、前記第3の音声データを用いて作成した所定の解像度の2次元画像に、前記所定の解像度と異なる解像度の2次元画像を追加することにより、前記第2の2次元画像を作成する
    学習モデル作成方法。
  6. 学習データ作成部と学習モデル作成部を備えた学習モデル作成装置であって、
    前記学習データ作成部は、
    第1の音声データを用いて第1の2次元画像を作成し、前記第1の音声データに少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて第2の2次元画像を作成し、
    前記学習モデル作成部は、
    前記第1の2次元画像を教師データとし、前記第2の2次元画像を入力データとして、前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることにより、前記第2の音声データを除去するための学習モデルを作成し、
    前記学習データ作成部は、
    前記第1の音声データを用いて作成した所定の解像度の2次元画像に、前記所定の解像度と異なる解像度の2次元画像を追加することにより、前記第1の2次元画像を作成し、前記第3の音声データを用いて作成した所定の解像度の2次元画像に、前記所定の解像度と異なる解像度の2次元画像を追加することにより、前記第2の2次元画像を作成する
    学習モデル作成装置。
  7. 入力データと教師データを用いて学習された学習モデルを用いて、注目音声に除去対象音声が重畳された重畳音声から除去対象音声を除去する音声除去装置において実行される音声除去方法であって、
    前記教師データは、
    前記注目音声に対応する第1の音声データを用いて作成された第1の2次元画像であり、
    前記入力データは、
    前記第1の音声データに前記除去対象音声に対応する少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて作成された第2の2次元画像であり、
    前記学習モデルは、
    前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることによって作成され、
    前記第3の音声データは、
    前記第2の音声データの音声ピッチと重畳する際のSN比を変更することにより作成された複数の前記第2の音声データのそれぞれを前記第1の音声データに重畳することによって作成される
    音声除去方法。
  8. 入力データと教師データを用いて学習された学習モデルを用いて、注目音声に除去対象音声が重畳された重畳音声から除去対象音声を除去する音声除去装置であって、
    前記教師データは、
    前記注目音声に対応する第1の音声データを用いて作成した第1の2次元画像であり、
    前記入力データは、
    前記第1の音声データに前記除去対象音声に対応する少なくとも1つの第2の音声データを重畳して第3の音声データを作成し、前記第3の音声データを用いて作成された第2の2次元画像であり、
    前記学習モデルは、
    前記入力データを深層学習ネットワークに入力した際の出力データが前記教師データと一致するように、前記深層学習ネットワークを学習させることによって作成され、
    前記第3の音声データは、
    前記第2の音声データの音声ピッチと重畳する際のSN比を変更することにより作成された複数の前記第2の音声データのそれぞれを前記第1の音声データに重畳することによって作成される
    音声除去装置。
  9. センサによって検出されたセンサ情報を用いて、前記重畳音声に混入している前記除去対象音声を推定し、
    前記推定された除去対象音声に対応する前記第2の音声データを除去する前記学習モデルを選択し、選択された前記学習モデルを用いて、前記重畳音声から除去対象音声を除去する
    請求項7に記載の音声除去方法。
  10. 前記センサは、
    -前記除去対象音声の発生源の位置情報を検出する位置センサ、
    -前記注目音声の発生源の位置情報を検出する位置センサ、
    -前記除去対象音声の発生源の稼働状況を検出する振動センサ、
    -前記注目音声の発生源の周辺環境の状況を検出する温度/湿度センサ、
    の少なくとも1つを含む
    請求項9に記載の音声除去方法。
  11. 顔認証センサまたは話者識別フィルタを用いて、前記重畳音声が含まれる背景音混入動画における話者を推定し、
    前記推定された話者に対応する前記第1の音声データを強調する前記学習モデルを選択する
    請求項7に記載の音声除去方法。
  12. センサによって検出されたセンサ情報を用いて、前記重畳音声に混入している前記除去対象音声を推定し、
    前記推定された除去対象音声に対応する前記第2の音声データを除去する前記学習モデルを選択し、選択された前記学習モデルを用いて、前記重畳音声から除去対象音声を除去する
    請求項8に記載の音声除去装置。
  13. 前記センサは、
    -前記除去対象音声の発生源の位置情報を検出する位置センサ、
    -前記注目音声の発生源の位置情報を検出する位置センサ、
    -前記除去対象音声の発生源の稼働状況を検出する振動センサ、
    -前記注目音声の発生源の周辺環境の状況を検出する温度/湿度センサ、
    の少なくとも1つを含む
    請求項12に記載の音声除去装置。
  14. 顔認証センサまたは話者識別フィルタを用いて、前記重畳音声が含まれる背景音混入動画における話者を推定し、
    前記推定された話者に対応する前記第1の音声データを強調する前記学習モデルを選択する
    請求項8に記載の音声除去装置。
JP2023139753A 2023-08-30 2023-08-30 学習モデル作成方法、学習モデル作成装置、背景音除去方法、および背景音除去装置 Active JP7414214B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023139753A JP7414214B1 (ja) 2023-08-30 2023-08-30 学習モデル作成方法、学習モデル作成装置、背景音除去方法、および背景音除去装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2023139753A JP7414214B1 (ja) 2023-08-30 2023-08-30 学習モデル作成方法、学習モデル作成装置、背景音除去方法、および背景音除去装置

Publications (1)

Publication Number Publication Date
JP7414214B1 true JP7414214B1 (ja) 2024-01-16

Family

ID=89534398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023139753A Active JP7414214B1 (ja) 2023-08-30 2023-08-30 学習モデル作成方法、学習モデル作成装置、背景音除去方法、および背景音除去装置

Country Status (1)

Country Link
JP (1) JP7414214B1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020240682A1 (ja) 2019-05-28 2020-12-03 日本電気株式会社 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
CN115954013A (zh) 2022-12-23 2023-04-11 哲库科技(上海)有限公司 一种语音处理的方法、装置、设备和存储介质
WO2023127058A1 (ja) 2021-12-27 2023-07-06 日本電信電話株式会社 信号フィルタリング装置、信号フィルタリング方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020240682A1 (ja) 2019-05-28 2020-12-03 日本電気株式会社 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
WO2023127058A1 (ja) 2021-12-27 2023-07-06 日本電信電話株式会社 信号フィルタリング装置、信号フィルタリング方法及びプログラム
CN115954013A (zh) 2022-12-23 2023-04-11 哲库科技(上海)有限公司 一种语音处理的方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
US11894014B2 (en) Audio-visual speech separation
WO2021023667A1 (de) System und verfahren zur unterstützung von selektivem hören
Leng et al. Binauralgrad: A two-stage conditional diffusion probabilistic model for binaural audio synthesis
DE112015003945T5 (de) Mehrquellen-Rauschunterdrückung
DE112020002858T5 (de) Synchronisierte tonerzeugung aus videos
CN105959723A (zh) 一种基于机器视觉和语音信号处理相结合的假唱检测方法
Gabbay et al. Seeing through noise: Speaker separation and enhancement using visually-derived speech
Navarathna et al. Multiple cameras for audio-visual speech recognition in an automotive environment
CN116580720A (zh) 一种基于视听语音分离的说话人视觉激活解释方法及系统
JP7414214B1 (ja) 学習モデル作成方法、学習モデル作成装置、背景音除去方法、および背景音除去装置
Somayazulu et al. Self-Supervised Visual Acoustic Matching
WO2022023417A2 (de) System und verfahren zur kopfhörerentzerrung und raumanpassung zur binauralen wiedergabe bei augmented reality
Ghose et al. Enabling an IoT system of systems through auto sound synthesis in silent video with DNN
CN116580709A (zh) 神经网络模型的训练方法及电子设备和存储介质
Busse et al. Improved gunshot classification by using artificial data
EP4080388A1 (en) Multimodal, dynamic, privacy preserving age and attribute estimation and learning methods and systems
Zhou et al. Audio scene calssification based on deeper CNN and mixed mono channel feature
Altyar et al. Human recognition by utilizing voice recognition and visual recognition
CN115938385A (zh) 一种语音分离方法、装置及存储介质
Rincón-Trujillo et al. Analysis of Speech Separation Methods based on Deep Learning.
Guo et al. Exploring a new method for food likability rating based on DT-CWT theory
Basturk et al. Soundscape approach for a holistic urban design
Siegel et al. Simulation of acoustic product properties in virtual environments based on artificial neural networks (ANN)
CN114495974B (zh) 音频信号处理方法
KR102113542B1 (ko) 심층신경망을 이용하여 음향 신호를 정규화하는 방법

Legal Events

Date Code Title Description
A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230927

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230927

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20230927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231218

R150 Certificate of patent or registration of utility model

Ref document number: 7414214

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150