JP7267034B2 - キャプション生成装置、キャプション生成方法、およびプログラム - Google Patents

キャプション生成装置、キャプション生成方法、およびプログラム Download PDF

Info

Publication number
JP7267034B2
JP7267034B2 JP2019034979A JP2019034979A JP7267034B2 JP 7267034 B2 JP7267034 B2 JP 7267034B2 JP 2019034979 A JP2019034979 A JP 2019034979A JP 2019034979 A JP2019034979 A JP 2019034979A JP 7267034 B2 JP7267034 B2 JP 7267034B2
Authority
JP
Japan
Prior art keywords
caption
neural network
spectrogram
acoustic signal
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019034979A
Other languages
English (en)
Other versions
JP2020140050A (ja
Inventor
一博 中臺
道生 岩月
克寿 糸山
健次 西田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2019034979A priority Critical patent/JP7267034B2/ja
Publication of JP2020140050A publication Critical patent/JP2020140050A/ja
Application granted granted Critical
Publication of JP7267034B2 publication Critical patent/JP7267034B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、キャプション生成装置、キャプション生成方法、およびプログラムに関する。
テロップや字幕が表示されるテレビ番組がある。このようなテロップや字幕は、例えば原稿を元に人がキーボードで入力して作成されている。生放送のニュース番組では、アナウンサーが話した言葉を聞き取りながら、キーボードで入力して作成されている。
また、画像に対してキャプションを生成して付与する手法が検討されている。例えば、画像を畳み込みニューラルネットワークに入力することにより画像特徴を得て、再帰型ニューラルネットワーク(Recurrent Neural Network;RNN)を用いてキャプションを生成することが提案されている(例えば特許文献1、非特許文献1参照)。
特許文献1や非特許文献1に記載の技術等の深層学習を用いた画像からのキャプション生成モデルは、画像を畳み込みニューラルネットワーク(Convolutional Neural Network;CNN)を用いて固定長の中間ベクトル表現に変換し(例えば非特許文献2参照)、その中間ベクトル表現を、RNNを用いてキャプションに変換する(例えば非特許文献3参照)という構造をしている。
特開2018-124969号公報
" Show and Tell: A Neural Image Caption Generator", Oriol Vinyals, Alexander Toshev, Samy Bengio, Dumitru Erhan", IEEE, In Proceedings of the IEEE conference on computer vision and pattern recognition, 2015,p3156-3164 "Overfeat: Integrated recognition, localization and detection using convolutional networks", Sermanet, Pierre, et al., arXiv preprint arXiv:1312.6229, 2013 "Neural machine translation by jointly learning to align and translate", Bahdanau, Dzrnitry, et al, arXiv preprint arXiv:1409.0473, 2014.
音響信号に対してもキャプションを生成して付与したいという要望がある。一般的な音響信号を収録したデータの内容は、実際に聞いてみるまでわからないという問題がある。しかしながら、各従来技術の画像のキャプション生成手法を音響信号に適用しようとしても、入力信号が1次元の時系列信号であり画像のように二次元ではなく、また音響信号が可変長なので画像のようにリサイズすることにより固定長表現にすることができない。
本発明は、上記の問題点に鑑みてなされたものであって、音響信号に対してニューラルネットワークを用いてキャプションを生成することを可能にするキャプション生成装置、キャプション生成方法、およびプログラムを提供することを目的とする。
(1)上記目的を達成するため、本発明の一態様に係るキャプション生成装置<1>は、音響信号に対してスペクトログラムを生成させる際に、前記スペクトログラムを時間軸方向に固定長に分割して1以上のブロックにし、前記ブロックに対して正規化を行い、前記正規化されたブロックを畳み込みニューラルネットワーク<CNN>に入力して特徴量ベクトルを抽出し、抽出した前記特徴量ベクトルを再帰型ニューラルネットワーク<RNN>に入力することにより前記音響信号に対するキャプションを生成するキャプション生成部<12>、を備える。
(2)また、本発明の一態様に係るキャプション生成装置において、前記キャプション生成部は、前記音響信号を対数メル周波数スペクトログラムに変換することでグレースケール画像の前記スペクトログラムを生成するようにしてもよい。
(3)また、本発明の一態様に係るキャプション生成装置において、前記再帰型ニューラルネットワークは、多層の長期短期記憶層<LSTM>によって構成され、前記再帰型ニューラルネットワークは、第1の再帰型ニューラルネットワーク<RNN部1222>と第2の再帰型ニューラルネットワーク<RNN部1231>を備え、前記第1の再帰型ニューラルネットワークは、抽出された特徴量ベクトルを多層の前記長期短期記憶層に入力して中間表現のベクトルを生成し、前記第2の再帰型ニューラルネットワークは、前記中間表現のベクトルを多層の前記長期短期記憶層に入力して前記キャプションを生成するようにしてもよい。
(4)また、本発明の一態様に係るキャプション生成装置において、前記ブロックは、グレースケールの前記スペクトログラムの画像であるようにしてもよい。
(5)上記目的を達成するため、本発明の一態様に係るキャプション生成方法は、取得部が、音響信号を取得する手順と、キャプション生成部が、音響信号に対してスペクトログラムを生成させる際に、前記スペクトログラムを時間軸方向に固定長に分割して1以上のブロックにし、前記ブロックに対して正規化を行い、前記正規化されたブロックを畳み込みニューラルネットワークに入力して特徴量ベクトルを抽出する手順と、前記キャプション生成部が、抽出した前記特徴量ベクトルを再帰型ニューラルネットワークに入力することにより前記音響信号に対するキャプションを生成する手順と、を含む。
(6)上記目的を達成するため、本発明の一態様に係るプログラムは、キャプション生成装置のコンピュータに、音響信号を取得する手順と、音響信号に対してスペクトログラムを生成させる際に、前記スペクトログラムを時間軸方向に固定長に分割して1以上のブロックにし、前記ブロックに対して正規化を行い、前記正規化されたブロックを畳み込みニューラルネットワークに入力して特徴量ベクトルを抽出する手順と、抽出した前記特徴量ベクトルを再帰型ニューラルネットワークに入力することにより前記音響信号に対するキャプションを生成する手順と、を実行する。
上述した(1)、(3)、(5)、(6)によれば、一次元の音響信号を二次元に変換し、音響信号に対してニューラルネットワークを用いてキャプションを生成することができる。
また、上述した(2)によれば、人間の聴覚に合わせたものを使用してキャプションを生成することができる。
また、上述した(4)によれば、演算量を削減することができる。
実施形態に係るキャプション生成装置の構成例を示す図である。 実施形態に係るキャプション生成装置が行う処理の概要を示す図である。 実施形態に係るキャプション生成装置が行う処理の概要を示す図である。 実施形態に係る前処理部とエンコーダが行う処理を示す図である。 実施形態に係るデコーダの処理例を示す図である。 実施形態に係るエンコーダにおける学習処理例を示す図である。 LSTMの構成と処理例を示す図である。 実施形態に係るキャプション生成装置の処理手順例のフローチャートである。 評価に用いた音響信号の例を示す図である。 学習モデルのアーキテクチャを示す図である。 各モジュールの構成例と処理手順例を示す図である。 正解と一致しなかった出力キャプションの出力例を示す図である。 評価結果例を示す図である。
以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明において、音響信号の持つ多くの情報を統合して認識することを、音響シーン理解と呼ぶ。
<キャプション生成装置>
図1は、本実施形態に係るキャプション生成装置1の構成例を示す図である。図1に示すように、キャプション生成装置1は、音響信号取得部11、キャプション生成部12、および出力部13を備える。
また、キャプション生成部12は、前処理部121、エンコーダ122、およびデコーダ123を備える。
前処理部121は、切り出し部1211、正規化部1212、および短時間フーリエ変換部1213を備える。
エンコーダ122は、CNN部1221、およびRNN部1222(第1の再帰型ニューラルネットワーク)を備える。
デコーダ123は、RNN部1231(第2の再帰型ニューラルネットワーク)を備える。
キャプション生成装置1は、取得した音響信号に対するキャプションを生成する。すなわち、キャプション生成装置1は、音響信号に対して音響シーンを理解してキャプションを生成する。
音響信号取得部11は、音響信号を取得し、取得した音響信号をキャプション生成部12に出力する。なお、音響信号は、マイクロホンで収音されたものであってもよく、録音されたものであってもよい。
キャプション生成部12は、音響信号取得部11が出力する音響信号に対してキャプションを生成する。
前処理部121は、取得した音響信号に対して前処理を行って一次元の情報である音響信号を二次元情報に変換する。
切り出し部1211は、音響信号取得部11が出力する音響信号に対して、所定の時間幅の窓を用いて音響信号を切り出す。なお、音響信号の切り出し方法については後述する。切り出し部1211は、切り出した音響信号を正規化部1212に出力する。
正規化部1212は、切り出し部1211が切り出した音響信号に対して正規化を行い、正規化した切り出し後の音響信号を短時間フーリエ変換部1213に出力する。
短時間フーリエ変換部1213は、正規化部1212が出力する正規化され切り出し後の音響信号に対して短時間フーリエ変換(Short-Time Fourier Transform;STFT)を行う。この処理によって、切り出された音響信号毎の二次元スペクトログラム画像が生成され、一次元の音響信号が二次元の画像データに変換される。短時間フーリエ変換部1213は、変換した二次元スペクトログラム画像を逐次、エンコーダ122に出力する。
エンコーダ122は、前処理部121が出力する二次元スペクトログラム画像を用いて中間表現であるベクトルを生成する。なお、エンコーダ122の処理に手法については後述する。
CNN部1221は、畳み込みニューラルネットワーク(Convolutional Neural Network;CNN)である。CNN部1221は、短時間フーリエ変換部1213が逐次出力する二次元スペクトログラム画像をCNNに入力して特徴量ベクトルを生成する。CNN部1221は、生成した特徴量ベクトルを、RNN部1222に出力する。なお、CNN部1221は、二次元スペクトログラム画像に対して、例えばカーネルを用いて畳み込み処理やプーリング処理によって二次元スペクトログラム画像の特徴量を抽出する。CNN部1221は、抽出した特徴量を結合層によって結合して特徴量ベクトルを生成する。なお、CNN部1221は、画像一枚に対して、特徴量ベクトルを1つ生成する。なお、CNNの構成、動作については後述する。
RNN部1222は、再帰型ニューラルネットワーク(Recurrent Neural Network;RNN)である。RNN部1222は、CNN部1221が出力する特徴量ベクトルをRNNでまとめて中間表現であるベクトルを生成する。なお、生成された中間表現であるベクトルは、擬似的な可変長である。RNN部1222は、生成した中間表現であるベクトルをデコーダ123に出力する。なお、RNN部1222は、RNNを多層に重ねた構造を有している。なお、RNNは、隠れ層の値を再び隠れ層に入力するネットワーク構造のニューラルネットワークである。CNN部1221が生成した特徴量ベクトルを1つずつRNNの後述するLSTM(Long short-term memory;長期短期記憶)に入力することで、それをトリガにして順次単語が出力される。なお、RNNの構成、動作については後述する。
デコーダ123は、エンコーダ122が生成した中間表現であるベクトルを用いてキャプションを生成する。なお、デコーダ123の処理に手法については後述する。
RNN部1231は、再帰型ニューラルネットワーク(RNN)である。RNN部1231は、エンコーダ122が出力する中間表現であるベクトルをRNNに入力してキャプションを生成し、生成したキャプションの情報(例えばテキスト情報)を出力部13に出力する。なお、RNN部1231は、RNNを多層に重ねた構造を有している。
出力部13は、デコーダ123が出力するキャプションの情報を画像情報に変換し、変換した画像情報を画像表示装置(不図示)等の外部装置(不図示)に出力する。なお、外部装置は、タブレット端末、スマートフォン等であってもよい。また、出力部13は、書録した音響信号も外部装置に出力するようにしてもよい。
<処理の流れの概要>
まず、処理の流れの概要を、図2と図3を用いて説明する。
図2と図3は、本実施形態に係るキャプション生成装置1が行う処理の概要を示す図である。
図2と図3に示すように、音響信号取得部11が、音響信号(図2の符号g1、図3の符号g11)を取得する。図2の符号g1、図3の符号g11において、横軸は時間であり、縦軸は振幅の大きさである。
図3の符号g12に示すように、前処理部121によって切り出し処理、正規化処理および短時間フーリエ変換処理が行われる。これにより、図3の符号g13に示すように複数の画像であるスペクトログラムが生成され、生成されたスペクトログラムがエンコーダに入力される(図2の符号g2、図3の符号g13)。
次に、図3の符号g14に示すように、エンコーダ122では、スペクトログラムをCNNに入力してベクトルを生成し、生成したベクトルをRNNに入力する。なお、RNN部1222は、後述するように多段のLSTM層を備えている。エンコーダ122は、この処理によって中間表現のベクトル(図2の符号g3、図3の符号g15)を生成する。
次に、図2の符号g4、図3の符号g16に示すように、デコーダ123は、中間表現のベクトルをRNNに入力してキャプションを生成する。なお、RNN部1222は、後述するように多段のLSTM層を備えている。生成されたキャプションは、図2の符号g5に示すように『ベルが鳴っている』である。
<前処理部121とエンコーダ122が行う処理>
前処理部121とエンコーダ122が行う処理について、図5を用いて詳細に説明する。
図4は、本実施形態に係る前処理部121とエンコーダ122が行う処理を示す図である。
符号g101は、取得した音響信号である。符号g101において、横軸は時間(フレーム)であり、縦軸は振幅の大きさである。
符号g102と符号g104に示すように、切り出し部1211は、所定の値(例えば204480(符号g103))の窓を用いて、音響信号を切り出す。なお、切り出し部1211は、符号g103に示すように、所定時間が重なる(オーバーラップ)ように音響信号を逐次切り出す。この処理によって、複数の波形データが生成される。
次に、符号g105、符号g106に示すように、正規化部1212は、切り出された音響信号に対して、振幅を-1~1の範囲に正規化する。なお、正規化部1212は、符号g107に示すように、例えばFFT(高速フーリエ変換)の窓を1024、重なり(オーバーラップ)を512で正規化を行う。
次に、符号g108、符号g109に示すように、短時間フーリエ変換部1213は、正規化され切り出された音響信号に対して逐次、短時間フーリエ変換を行う。この処理によって、波形データから複数のスペクトログラムが生成される。符号g109は、スペクトログラム画像であり、横軸が時間、縦軸が周波数(メルビン(Mel bin))である。
なお、本実施形態では、この前処理によって音響信号を、対数メル周波数スペクトログラム(log-scaled mel frequency spectrogram)に変換することによって1チャネルのグレースケール画像とした。これにより、後段のエンコーダ122のCNN部1221に入力可能にした。このように、本実施形態では、スペクトログラム画像をグレースケール化することで、演算量を削減することができる。
次に、符号g110に示すように、CNN部1221は、複数のスペクトログラムを逐次CNNに入力することで、ベクトル(符号g111)を生成する。なお、シーケンスの要素の画像それぞれがCNNに通される。CNNによって音響信号はベクトルのシーケンスとなる。なお、1つの特徴量ベクトルは、切り出された1つの波形データに対応するスペクトログラムの画像に対応している。nは、スペクトログラムの個数であり、切り出した波形の個数である。
次に、符号g112に示すように、RNN部1222は、CNN部1221が出力するベクトルをRNNに入力して中間表現であるベクトル(符号g113)を生成する。なお、ベクトルのシーケンスはエンコーダ側のRNNにステップごとに入力され、その最終状態が中間表現として取り出される。
このように、本実施形態では、音響信号のスペクトログラムを取るときに、固定長のスペクトログラムを波形データ上で窓をずらしながら複数取ることで、スペクトログラムを固定長のスペクトログラムに分割(ブロック化)して1つ以上のブロック(スペクトログラム画像)を生成する。すなわち、短時間フーリエ変換を行う際に、切り出し処理と正規化を行っている。
また、本実施形態では、エンコーダ122で特徴量ベクトルを抽出することで、音響信号に含まれている音源の種類の同定、すなわち音源同定処理を行っている。
<対数メル周波数スペクトログラム>
ここで、対数メル周波数スペクトログラムについて説明する。対数メル周波数スペクトログラムは、音響信号に対してSTFTを行い得られた振幅スペクトログラムを、人間の聴覚に合わせて変換したものである。また、人間の知覚に合わせるために、振幅スペクトログラムの周波数方向を伸長・圧縮、および振幅値を変換したものが対数メル周波数スペクトログラムである。
まず、短時間フーリエ変換部1213は、メル尺度を用いて周波数特性を聴覚に合わせる。メル尺度は人間の音声知覚を反映した周波数軸である。短時間フーリエ変換部1213は、f[Hz]を次式(1)でメル尺度mに変換する。
Figure 0007267034000001
次に、短時間フーリエ変換部1213は、STFTによって得られた振幅スペクトルの周波数軸をメル尺度に変換するために、メル尺度上で等間隔に配置された複数のバンドパスフィルタを振幅スペクトルに適用する。この複数のバンドパスフィルタは、メルフィルタバンクと呼ばれ三角窓のフィルタの集合である。
次に、短時間フーリエ変換部1213は、音の大きさを聴覚に合わせる操作を行う。人間は音の大きさをlogスケールで知覚する。このため、短時間フーリエ変換部1213は、メルフィルタバンクを適用した後の振幅のlogをとることによって音の大きさを聴覚に合わせる操作を行う。
以上の処理によって、通常のスペクトログラムに対する、周波数方向へのメルフィルタバンクの適用と、振幅のlogスケールへの変換によって対数メル周波数スペクトログラムが得られる。
<ニューラルネットワークの構造>
次に、ニューラルネットワークの構造を説明する。
vを単語辞書の大きさ、I=(I,…IM-1)を切り出した波形データから計算した対数メル周波数スペクトログラムのシーケンス、S=(S,…SN-1)とする。また、キャプションの各単語はv次元のone-hotベクトルSで表される。なお、one-hotベクトルとは、ベクトルの要素のうち1つの要素のみが1、それ以外の要素が0のベクトルである。ただし、Sはキャプションの開始を表す特別な開始単語、Sはキャプションの終了を表す特別な終了単語であり,St,t{1,…,N-1}が実際のキャプションの単語に対応する。エンコーダ(encder)とデコーダ(decoder)のニューラルネットワークは次式(2)~(7)で表せる。
Figure 0007267034000002
Figure 0007267034000003
Figure 0007267034000004
Figure 0007267034000005
Figure 0007267034000006
Figure 0007267034000007
式(2)~(7)において、CNNはCNN処理を表し、LSTMはLTSM処理を表し、Softmaxは処理を表す。また、eは埋め込みベクトルであり、hはエンコーダ側のLSTMの状態であり、sはデコーダ側のLSTMの状態である。W(∈Re×v)はエンコーダ側の単語埋め込み行列であり、Wはデコーダ側のLSTMの出力である。LSTM、LSTMは状態から出力を決める関数である。pはv次元ベクトルであり、その要素がそれぞれの単語の出力確率を表す。
LSTMencoderとLSTMdecoderは、0ステップ目から始まるとする。また、入力が画像のシーケンスとなり、それがLSTMencoderのステップ毎の入力になっている。LSTMencoderの最終状態hM-1が中間表現であり、これがLSTMdecoderの初期状態s-1(式(4))として使用され、対応するキャプションが生成される。
このような可変長シーケンスを出力するRNNによるモデルを、実施形態ではSeq-to-Seq(Sequence-to-Sequence)モデルという。
誤差関数を用いて学習を行う。誤差関数は、ビジョンでのモデルと同様に次式(8)を用いて、これを最小化することで音響信号の時分割スペクトログラムシーケンスIに対応するキャプションSを学習する。
Figure 0007267034000008
本実施形態では、Seq-to-Seqモデルにおいて、RNNを多層に重ねることで、性能を向上させている。ここで、2層のLSTMの場合は、次式(9)~(12)で表される。
Figure 0007267034000009
Figure 0007267034000010
Figure 0007267034000011
Figure 0007267034000012
ただし、式(9)~(12)において、xは入力、y は出力である。2層LSTMの場合は、1層目のLSTMの出力シーケンスy が、2層目のLSTMの出力シーケンスとなり、2層目の出力シーケンスy が多層LSTM全体の出力となる。
Seq-to-Seqモデルで用いる場合は、エンコーダ側のLSTMとデコーダ側のLSTMの中間層の数を揃えることで、中間表現を受け渡せるようにしている。
さらに本実施形態のエンコーダ側のRNNでは、シーケンスを過去から未来の方向(順方向)への入力に加え、未来から過去の方向(逆方法)への入力も可能な双方向RNN(Bidirectional RNN)で構成した。順方向と逆方向のエンコーダのLSTMを次式(13)、(14)で計算し、その最終状態hM-1 とhM-1 を結合して中間表現hM-1=[hM-1 ;hM-1 ]とした。
Figure 0007267034000013
Figure 0007267034000014
なお、式(13)においてLSTMが状態h を持つ順方向LSTMである。また、式(14)においてLSTMが状態h を持つ逆方向LSTMである。
<アテンションメカニズム>
Seq-to-Seqモデルでは、入力をRNNの状態としてステップ毎に1つのベクトルにまとめていくので、入力シーケンスが長くなった場合、デコーダにシーケンスの最初の入力情報を伝えにくくなる。このため、本実施形態では、デコード時に入力を直接参照できるように次式(15)~(18)で表されるアテンションメカニズム(Attention Mechanism)を備えるようにした。アテンションメカニズムでは、デコーダの各ステップiにおいて状態sを求めるとき、現在のデコーダの状態si-1と過去のエンコーダの各ステップjでの状態hとの間のスコアαijをキャプション生成部12が計算する。このスコアをステップiでの状態sの計算に用いることで入力を参照できるようにした。
Figure 0007267034000015
Figure 0007267034000016
Figure 0007267034000017
Figure 0007267034000018
ただし、式(15)~(18)において、eijは、デコーダのi-1ステップ目の状態si-1と、エンコーダのjステップ目の状態hとの間のスコアである。また、αijは、このeijをエンコーダのステップj方向に正規化(Σαij=1.0≦αij≦1)したものである。また、αijを重みとして加重平均cをとり、このcを次のデコーダの状態sの計算に反映させている。また、スコア関数a(si-1,h)には内積si-1・hを用いる。
<デコーダの処理>
次に、デコーダ123の処理例を説明する。
図5は、本実施形態に係るデコーダ123の処理例を示す図である。なお、h,…,h(符号g307、g310、g313、g316)は、各層の状態である。
まず、RNN部1231は、エンコーダ122が出力した中間表現ベクトル(符号g201)をRNNの初期状態としてセットする(符号g301)。
そして、RNN部1231は、RNNの1ステップ目(符号g211)の入力としてキャプションの最初を表す特殊な単語STARTを入力する(符号g302、g303)。これにより、確率p1が最大になるインデックスに対応する単語を取る(符号g305、g306)ことで、1ステップ目の出力としてキャプションの1番目の単語が出力される。
次に、RNN部1231は、2ステップ目の入力として1ステップ目の出力単語に対応する単語を入力する(符号g308)。これにより、RNNの2ステップ目(符号g212)の出力では2番目の単語が出力される(符号g309)。
以下、2ステップ目の出力を3ステップ目の入力にするということを繰り返してキャプションを生成する(符号g311~g318、g321)。
なお、文生成の終了は、ステップの出力が特殊な単語ENDを出力したら終了する(符号g318)。
<学習処理>
次に、エンコーダ122における学習処理例を説明する。
図6は、本実施形態に係るエンコーダ122における学習処理例を示す図である。符号g401は、短時間フーリエ変換部1213によって生成されたスペクトログラムであり、横軸が時間、縦軸がメル周波数である。このスペクトログラムが、CNN部1221が備えるCNNに入力される(符号g402)。
ここで、CNNにおける学習は、CNN部分の学習段階と、モデル全体の学習段階との2段階に分けられる。
CNN部分の学習段階では、CNNの後の分類器を用いて音響信号のクラス分けのネットワークを作り、このネットワークを学習させ、学習させたネットワーク内のCNN部分のみを取り出す。ここで、分類器(識別器)とは、特徴量を入力して、それが何の特徴を表すかを分類するアルゴリズムである。また、クラス分けとは、音響信号に対して付与されたラベルへのクラス分けである。例えば、33種類の環境音に対してキャプションを生成する場合は、この環境音に対する1つ1つがクラスであり、クラスの総数が33個となる。なお、CNN部分の学習段階における教師データは、例えば環境音(knock,flute,cough,bark,chime…など)クラスラベルである。
ここで、モデル全体の学習段階では、CNN部分の学習段階で学習したCNNを持ってきてモデル全体を学習する。なお、モデル全体の学習段階における教師データは、例えば「SnareDrumの後にGong,その後にBarkが鳴っている」という文章データである。
<LSTM>
次に、LSTMについて補足する。
図7は、LSTMの構成と処理例を示す図である。図7において、xはtステップ目の入力であり、yはtステップ目の出力であり、cはメモリセルであり、iは入力ゲートであり、fは忘却ゲートであり、oは出力ゲートであり、×は要素積である。
図7の構成と処理によって、現在と過去の情報をどれだけ用いるか判断できる。
また、LSTMで使用される値は、RNN部1222またはRNN部1231が次式(19)~(24)を用いて算出する。
Figure 0007267034000019
Figure 0007267034000020
Figure 0007267034000021
Figure 0007267034000022
Figure 0007267034000023
Figure 0007267034000024
なお、式(19)~(21)において、σはシグモイド関数である。
<キャプション生成装置の処理手順>
次に、キャプション生成装置1の処理手順例を説明する。
図8は、本実施形態に係るキャプション生成装置の処理手順例のフローチャートである。
(ステップS1)音響信号取得部11は、音響信号を取得し、取得した音響信号をキャプション生成部12に出力する。
(ステップS2)切り出し部1211は、音響信号取得部11が出力する音響信号に対して、所定の時間幅の窓を用いて音響信号を切り出す。
(ステップS3)正規化部1212は、切り出し部1211が切り出した音響信号に対して正規化を行う。
(ステップS4)短時間フーリエ変換部1213は、正規化部1212が出力する正規化され切り出し後の音響信号に対して短時間フーリエ変換を行って切り出された音響信号毎の二次元スペクトログラム画像が生成する。
(ステップS5)CNN部1221は、短時間フーリエ変換部1213が逐次出力する二次元スペクトログラム画像をCNNに入力して特徴量ベクトルを生成する。なお、CNN部1221は、画像一枚に対して、特徴量ベクトルを1つ生成する。
(ステップS6、S7)RNN部1222は、CNN部1221が出力する特徴量ベクトルをRNNでまとめて中間表現であるベクトルを生成する。
(ステップS8、S9)RNN部1231は、エンコーダ122が出力する中間表現であるベクトルをRNNに入力してキャプションを生成する。
<評価結果>
次に、本実施形態のキャプション生成装置1を評価した評価結果例を、図9~図13を用いて説明する。
学習と評価にあたって音響信号とキャプションのデータセットが必要になる。このため、評価では、単一クラスのみが含まれた音源をランダムに合成した混合音と、それに対応するキャプションのデータセットを作成した。図9は、評価に用いた音響信号の例を示す図である。図9において、横軸は時間(秒)、縦軸は周波数[Hz]である。図9に示す例では、0~2秒の間にSnareDrum(符号g501)が鳴り、2~4秒の間にGong(符号g502)が鳴り、4~6秒の間にBark(符号g503)がなっている。この例のキャプションの正解データは「SnareDrumの後にGong,その後にBarkが鳴っている」である。このように、キャプション生成においては、何の音が鳴っているのかと、どの順番でなっているかを表現できているかを評価した。
音源には33クラス(33種類)の環境音(knock,flute,cough,bark,chime…など)を使用し、混合音は3つ程度の音源をオパーラップがないように接続して作成した。ただし、音源信号間には0~0.6秒程度のランダムな長さの無音信号を挿入した。評価では、モノラル入力音響信号に対して種類と順序を説明するキャプションを生成するものとした。混合音とキャプションのペア18000個分を学習データセット、2000個分を評価データセットとした。
CNNの学習には、図10、図11に示す既存の学習済みモデルを使用した(例えば参考文献1参照)。図10は、学習モデルのアーキテクチャを示す図である。図11は、各モジュールの構成例と処理手順例を示す図である。なお、図11において、kおよびnは、畳み込みのフィルタサイズおよびソフトマックスレイヤの数を示す。また、BNはバッチ正規化であり、Concatは特徴連結であり、Reluは修正線形単位であり、Convは線形畳み込みであり、MaxPoolは最大プーリングであり、GAPはグローバル平均プーリングである。符号g511はLow-level kのモジュール構成と処理手順である。符号g512はDense Net-kのモジュール構成と処理手順である。符号g513はn-head分類器モジュール構成と処理手順である。なお、この学習済みのCNN部分のクラス分けの精度は約90%である。
参考文献;”Audio tagging system for DCASE 2018: Focusing on label noise, data augmentation and its efficient learning”, Il-Young, Jeong, et al. DCASE2018 Challenge., 2018
モデルの学習は2段階に分けて行った。最初に音源識別用のCNNを用意する。これには、上述した既存のトレーニング済みのモデルを用いた。次にこのCNNに対して上述した学習データセットを用いてモデル全体の転移学習を行った。なお波形データは1.28秒間ずつ、50%オーバーラップするように切り取った。
図12は、正解と一致しなかった出力キャプションの出力例を示す図である。図12において、符号601とg611が示す文章が正解キャプションであり、符号g602とg612が示す文章が出力キャプションである。また、符号g602と符号g612は、順序は一致しているが、存在(クラス)が完全一致していない例である。また、正解キャプション「Fireworksの後にBark,その後にGunshotが鳴っている」に対して「Gunshotの後にBark,その後にFireworks が鳴っている」が出力キャプションの場合は、存在が一致しているが順序が一致していない例である。
図13は、評価結果例を示す図である。
図13に示すように、正解と完全に一致したキャプションが生成された割合は73.20%となった。一方、音源の順序を問わず、キャプションに含まれる音源の種類が一致したものは75.90%となった。また、音源の種類を問わず、キャプションに含まれる音源の順序が一致したものは75.75%となった。このように存在一致だが順序一致でないものは0.15%であり順序付け自体はできている。
正解と一致しないエラーの原因は音源識別間違いと音源数の間違いに分けられる。そこでキャプションに含まれるラベル単語のみを抜き出してラベル列を作成し、そのラベル列に対して挿入誤りの数、削除誤りの数、置換誤りの数を計算した。全評価データ5969個のうち、挿入誤りの数が40、削除誤りの数が20と低い値であった。
以上のように、本実施形態では、一次元の音響信号を、短時間フーリエ変換することでチャンネル数1の二次元のグレースケール画像として扱えるようにした。
また、ビジョンでの入力画像は固定長のデータだったのに対し、音では可変長となりうる。しかし音響信号はその長さによってスペクトログラムの横幅が大きく変わってしまい、それをリサイズするとアスペクト比が大きく崩れる。このため、本実施形態では、音響信号のスペクトログラムを取るときに、固定長のスペクトログラムを波形データ上で窓をずらしながら複数取り、それらをエンコーダ側のRNNでまとめるようにした。
このように、本実施形態では、画像でのキャプション生成モデルを音響信号でのモデルに適用するために、音響信号に対するスペクトログラム表現と、複数のスペクトログラムを用いた可変長音響信号に対する固定長ベクトル表現を導入することによってモデルを拡張した。すなわち、本実施形態では、音声をスペクトログラム化し、二次元画像とした。そして本実施形態では、この画像を畳み込みニューラルネットワーク(CNN)に入力して学習させるようにした。このとき、本実施形態では、スペクトログラムを固定長のスペクトログラムに分割(ブロック化)し、ブロック化したものをCNNに入力すると同時に、リカレントニューラルネットワーク(RNN)にも入力し擬似的に時系列信号を扱うことができるようにした。
これにより、本実施形態によれば、音響信号に対して音響シーンを理解してキャプションを生成することができる。
なお、本発明におけるキャプション生成装置1の機能全ての機能または一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりキャプション生成装置1が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
1…キャプション生成装置、11…音響信号取得部、12…キャプション生成部、13…出力部、121…前処理部、122…エンコーダ、123…デコーダ、1211…切り出し部、1212…正規化部、1213…短時間フーリエ変換部、1221…CNN部、1222…RNN部、1231…RNN部

Claims (6)

  1. 音響信号に対してスペクトログラムを生成させる際に、前記スペクトログラムを時間軸方向に固定長に分割して1以上のブロックにし、前記ブロックに対して正規化を行い、前記正規化されたブロックを畳み込みニューラルネットワークに入力して特徴量ベクトルを抽出し、抽出した前記特徴量ベクトルを再帰型ニューラルネットワークに入力することにより前記音響信号に対するキャプションを生成するキャプション生成部、
    を備えるキャプション生成装置。
  2. 前記キャプション生成部は、前記音響信号を対数メル周波数スペクトログラムに変換することでグレースケール画像の前記スペクトログラムを生成する、請求項1に記載のキャプション生成装置。
  3. 前記再帰型ニューラルネットワークは、多層の長期短期記憶層によって構成され、
    前記再帰型ニューラルネットワークは、第1の再帰型ニューラルネットワークと第2の再帰型ニューラルネットワークを備え、
    前記第1の再帰型ニューラルネットワークは、抽出された特徴量ベクトルを多層の前記長期短期記憶層に入力して中間表現のベクトルを生成し、
    前記第2の再帰型ニューラルネットワークは、前記中間表現のベクトルを多層の前記長期短期記憶層に入力して前記キャプションを生成する、請求項1または請求項2に記載のキャプション生成装置。
  4. 前記ブロックは、グレースケールの前記スペクトログラムの画像である、請求項1から請求項3のいずれか1項に記載のキャプション生成装置。
  5. 取得部が、音響信号を取得する手順と、
    キャプション生成部が、音響信号に対してスペクトログラムを生成させる際に、前記スペクトログラムを時間軸方向に固定長に分割して1以上のブロックにし、前記ブロックに対して正規化を行い、前記正規化されたブロックを畳み込みニューラルネットワークに入力して特徴量ベクトルを抽出する手順と、
    前記キャプション生成部が、抽出した前記特徴量ベクトルを再帰型ニューラルネットワークに入力することにより前記音響信号に対するキャプションを生成する手順と、
    を含むキャプション生成方法。
  6. キャプション生成装置のコンピュータに、
    音響信号を取得する手順と、
    音響信号に対してスペクトログラムを生成させる際に、前記スペクトログラムを時間軸方向に固定長に分割して1以上のブロックにし、前記ブロックに対して正規化を行い、前記正規化されたブロックを畳み込みニューラルネットワークに入力して特徴量ベクトルを抽出する手順と、
    抽出した前記特徴量ベクトルを再帰型ニューラルネットワークに入力することにより前記音響信号に対するキャプションを生成する手順と、
    を実行するプログラム。
JP2019034979A 2019-02-27 2019-02-27 キャプション生成装置、キャプション生成方法、およびプログラム Active JP7267034B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019034979A JP7267034B2 (ja) 2019-02-27 2019-02-27 キャプション生成装置、キャプション生成方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019034979A JP7267034B2 (ja) 2019-02-27 2019-02-27 キャプション生成装置、キャプション生成方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2020140050A JP2020140050A (ja) 2020-09-03
JP7267034B2 true JP7267034B2 (ja) 2023-05-01

Family

ID=72264831

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019034979A Active JP7267034B2 (ja) 2019-02-27 2019-02-27 キャプション生成装置、キャプション生成方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP7267034B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115938385A (zh) * 2021-08-17 2023-04-07 中移(苏州)软件技术有限公司 一种语音分离方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180061439A1 (en) 2016-08-31 2018-03-01 Gregory Frederick Diamos Automatic audio captioning
JP2018132969A (ja) 2017-02-16 2018-08-23 株式会社日立製作所 文章作成装置
US20180276540A1 (en) 2017-03-22 2018-09-27 NextEv USA, Inc. Modeling of the latent embedding of music using deep neural network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180061439A1 (en) 2016-08-31 2018-03-01 Gregory Frederick Diamos Automatic audio captioning
JP2018132969A (ja) 2017-02-16 2018-08-23 株式会社日立製作所 文章作成装置
US20180276540A1 (en) 2017-03-22 2018-09-27 NextEv USA, Inc. Modeling of the latent embedding of music using deep neural network

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
横山勝矢 他,"会話におけるニュース記事伝達のための発話意図の分類と認識",情報処理学会研究報告,2018年07月19日,Vol.2018-SLP-123, No.5,pp.1-8
河原達也 他,"音声認識の方法論の変遷と展望",電子情報通信学会技術研究報告,2018年12月03日,Vol.118, No.354,pp.25-30
鳥羽隼司 他,"スマートフォンで収録した環境音データベースを用いたCNNによる環境音分類",日本音響学会2017年春季研究発表会講演論文集,2017年03月01日,pp.139-142

Also Published As

Publication number Publication date
JP2020140050A (ja) 2020-09-03

Similar Documents

Publication Publication Date Title
GB2572020A (en) A speech processing system and a method of processing a speech signal
CN111145786A (zh) 语音情感识别方法和装置、服务器、计算机可读存储介质
CN112184858A (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
CN112786018B (zh) 语音转换及相关模型的训练方法、电子设备和存储装置
US20230197061A1 (en) Method and System for Outputting Target Audio, Readable Storage Medium, and Electronic Device
US20230343319A1 (en) speech processing system and a method of processing a speech signal
CN116092501B (zh) 语音增强方法、语音识别方法、说话人识别方法和系统
Piotrowska et al. Evaluation of aspiration problems in L2 English pronunciation employing machine learning
JP7267034B2 (ja) キャプション生成装置、キャプション生成方法、およびプログラム
Tax et al. Utilizing domain knowledge in end-to-end audio processing
Hong et al. Visagesyntalk: Unseen speaker video-to-speech synthesis via speech-visage feature selection
CN113345410A (zh) 通用语音、目标语音合成模型的训练方法及相关装置
CN116453023B (zh) 5g富媒体信息的视频摘要系统、方法、电子设备及介质
CN116682463A (zh) 一种多模态情感识别方法及系统
Nogales et al. A deep learning framework for audio restoration using Convolutional/Deconvolutional Deep Autoencoders
KR102429365B1 (ko) 음성감성 분석 시스템 및 방법
CN114170997A (zh) 发音技巧检测方法、装置、存储介质及电子设备
CN117581233A (zh) 适用于流应用的以双因果和非因果受限自注意力进行序列到序列处理的人工智能系统
Thai Deepfake detection and low-resource language speech recogntion using deep learning
CN116364085A (zh) 数据增强方法、装置、电子设备和存储介质
JPH01204099A (ja) 音声認識装置
Büker et al. Deep convolutional neural networks for double compressed AMR audio detection
Amjad et al. Data augmentation and deep neural networks for the classification of Pakistani racial speakers recognition
Elyaderani et al. Sequence-to-Sequence Multi-Modal Speech In-Painting
Gombos Acoustic recognition with deep learning; experimenting with data augmentation and neural networks

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190419

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20190624

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230419

R150 Certificate of patent or registration of utility model

Ref document number: 7267034

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150