JP7267034B2 - キャプション生成装置、キャプション生成方法、およびプログラム - Google Patents
キャプション生成装置、キャプション生成方法、およびプログラム Download PDFInfo
- Publication number
- JP7267034B2 JP7267034B2 JP2019034979A JP2019034979A JP7267034B2 JP 7267034 B2 JP7267034 B2 JP 7267034B2 JP 2019034979 A JP2019034979 A JP 2019034979A JP 2019034979 A JP2019034979 A JP 2019034979A JP 7267034 B2 JP7267034 B2 JP 7267034B2
- Authority
- JP
- Japan
- Prior art keywords
- caption
- neural network
- spectrogram
- acoustic signal
- blocks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
また、上述した(4)によれば、演算量を削減することができる。
図1は、本実施形態に係るキャプション生成装置1の構成例を示す図である。図1に示すように、キャプション生成装置1は、音響信号取得部11、キャプション生成部12、および出力部13を備える。
また、キャプション生成部12は、前処理部121、エンコーダ122、およびデコーダ123を備える。
前処理部121は、切り出し部1211、正規化部1212、および短時間フーリエ変換部1213を備える。
エンコーダ122は、CNN部1221、およびRNN部1222(第1の再帰型ニューラルネットワーク)を備える。
デコーダ123は、RNN部1231(第2の再帰型ニューラルネットワーク)を備える。
まず、処理の流れの概要を、図2と図3を用いて説明する。
図2と図3は、本実施形態に係るキャプション生成装置1が行う処理の概要を示す図である。
図2と図3に示すように、音響信号取得部11が、音響信号(図2の符号g1、図3の符号g11)を取得する。図2の符号g1、図3の符号g11において、横軸は時間であり、縦軸は振幅の大きさである。
図3の符号g12に示すように、前処理部121によって切り出し処理、正規化処理および短時間フーリエ変換処理が行われる。これにより、図3の符号g13に示すように複数の画像であるスペクトログラムが生成され、生成されたスペクトログラムがエンコーダに入力される(図2の符号g2、図3の符号g13)。
前処理部121とエンコーダ122が行う処理について、図5を用いて詳細に説明する。
図4は、本実施形態に係る前処理部121とエンコーダ122が行う処理を示す図である。
符号g101は、取得した音響信号である。符号g101において、横軸は時間(フレーム)であり、縦軸は振幅の大きさである。
なお、本実施形態では、この前処理によって音響信号を、対数メル周波数スペクトログラム(log-scaled mel frequency spectrogram)に変換することによって1チャネルのグレースケール画像とした。これにより、後段のエンコーダ122のCNN部1221に入力可能にした。このように、本実施形態では、スペクトログラム画像をグレースケール化することで、演算量を削減することができる。
また、本実施形態では、エンコーダ122で特徴量ベクトルを抽出することで、音響信号に含まれている音源の種類の同定、すなわち音源同定処理を行っている。
ここで、対数メル周波数スペクトログラムについて説明する。対数メル周波数スペクトログラムは、音響信号に対してSTFTを行い得られた振幅スペクトログラムを、人間の聴覚に合わせて変換したものである。また、人間の知覚に合わせるために、振幅スペクトログラムの周波数方向を伸長・圧縮、および振幅値を変換したものが対数メル周波数スペクトログラムである。
次に、短時間フーリエ変換部1213は、音の大きさを聴覚に合わせる操作を行う。人間は音の大きさをlogスケールで知覚する。このため、短時間フーリエ変換部1213は、メルフィルタバンクを適用した後の振幅のlogをとることによって音の大きさを聴覚に合わせる操作を行う。
次に、ニューラルネットワークの構造を説明する。
vを単語辞書の大きさ、I=(I0,…IM-1)を切り出した波形データから計算した対数メル周波数スペクトログラムのシーケンス、S=(S0,…SN-1)とする。また、キャプションの各単語はv次元のone-hotベクトルStで表される。なお、one-hotベクトルとは、ベクトルの要素のうち1つの要素のみが1、それ以外の要素が0のベクトルである。ただし、S0はキャプションの開始を表す特別な開始単語、SNはキャプションの終了を表す特別な終了単語であり,St,t{1,…,N-1}が実際のキャプションの単語に対応する。エンコーダ(encder)とデコーダ(decoder)のニューラルネットワークは次式(2)~(7)で表せる。
このような可変長シーケンスを出力するRNNによるモデルを、実施形態ではSeq-to-Seq(Sequence-to-Sequence)モデルという。
Seq-to-Seqモデルで用いる場合は、エンコーダ側のLSTMとデコーダ側のLSTMの中間層の数を揃えることで、中間表現を受け渡せるようにしている。
Seq-to-Seqモデルでは、入力をRNNの状態としてステップ毎に1つのベクトルにまとめていくので、入力シーケンスが長くなった場合、デコーダにシーケンスの最初の入力情報を伝えにくくなる。このため、本実施形態では、デコード時に入力を直接参照できるように次式(15)~(18)で表されるアテンションメカニズム(Attention Mechanism)を備えるようにした。アテンションメカニズムでは、デコーダの各ステップiにおいて状態siを求めるとき、現在のデコーダの状態si-1と過去のエンコーダの各ステップjでの状態hjとの間のスコアαijをキャプション生成部12が計算する。このスコアをステップiでの状態sjの計算に用いることで入力を参照できるようにした。
次に、デコーダ123の処理例を説明する。
図5は、本実施形態に係るデコーダ123の処理例を示す図である。なお、h1,…,h4(符号g307、g310、g313、g316)は、各層の状態である。
まず、RNN部1231は、エンコーダ122が出力した中間表現ベクトル(符号g201)をRNNの初期状態としてセットする(符号g301)。
そして、RNN部1231は、RNNの1ステップ目(符号g211)の入力としてキャプションの最初を表す特殊な単語STARTを入力する(符号g302、g303)。これにより、確率p1が最大になるインデックスに対応する単語を取る(符号g305、g306)ことで、1ステップ目の出力としてキャプションの1番目の単語が出力される。
以下、2ステップ目の出力を3ステップ目の入力にするということを繰り返してキャプションを生成する(符号g311~g318、g321)。
なお、文生成の終了は、ステップの出力が特殊な単語ENDを出力したら終了する(符号g318)。
次に、エンコーダ122における学習処理例を説明する。
図6は、本実施形態に係るエンコーダ122における学習処理例を示す図である。符号g401は、短時間フーリエ変換部1213によって生成されたスペクトログラムであり、横軸が時間、縦軸がメル周波数である。このスペクトログラムが、CNN部1221が備えるCNNに入力される(符号g402)。
次に、LSTMについて補足する。
図7は、LSTMの構成と処理例を示す図である。図7において、xtはtステップ目の入力であり、ytはtステップ目の出力であり、ctはメモリセルであり、iは入力ゲートであり、fは忘却ゲートであり、oは出力ゲートであり、×は要素積である。
図7の構成と処理によって、現在と過去の情報をどれだけ用いるか判断できる。
次に、キャプション生成装置1の処理手順例を説明する。
図8は、本実施形態に係るキャプション生成装置の処理手順例のフローチャートである。
次に、本実施形態のキャプション生成装置1を評価した評価結果例を、図9~図13を用いて説明する。
学習と評価にあたって音響信号とキャプションのデータセットが必要になる。このため、評価では、単一クラスのみが含まれた音源をランダムに合成した混合音と、それに対応するキャプションのデータセットを作成した。図9は、評価に用いた音響信号の例を示す図である。図9において、横軸は時間(秒)、縦軸は周波数[Hz]である。図9に示す例では、0~2秒の間にSnareDrum(符号g501)が鳴り、2~4秒の間にGong(符号g502)が鳴り、4~6秒の間にBark(符号g503)がなっている。この例のキャプションの正解データは「SnareDrumの後にGong,その後にBarkが鳴っている」である。このように、キャプション生成においては、何の音が鳴っているのかと、どの順番でなっているかを表現できているかを評価した。
参考文献;”Audio tagging system for DCASE 2018: Focusing on label noise, data augmentation and its efficient learning”, Il-Young, Jeong, et al. DCASE2018 Challenge., 2018
図13に示すように、正解と完全に一致したキャプションが生成された割合は73.20%となった。一方、音源の順序を問わず、キャプションに含まれる音源の種類が一致したものは75.90%となった。また、音源の種類を問わず、キャプションに含まれる音源の順序が一致したものは75.75%となった。このように存在一致だが順序一致でないものは0.15%であり順序付け自体はできている。
また、ビジョンでの入力画像は固定長のデータだったのに対し、音では可変長となりうる。しかし音響信号はその長さによってスペクトログラムの横幅が大きく変わってしまい、それをリサイズするとアスペクト比が大きく崩れる。このため、本実施形態では、音響信号のスペクトログラムを取るときに、固定長のスペクトログラムを波形データ上で窓をずらしながら複数取り、それらをエンコーダ側のRNNでまとめるようにした。
Claims (6)
- 音響信号に対してスペクトログラムを生成させる際に、前記スペクトログラムを時間軸方向に固定長に分割して1以上のブロックにし、前記ブロックに対して正規化を行い、前記正規化されたブロックを畳み込みニューラルネットワークに入力して特徴量ベクトルを抽出し、抽出した前記特徴量ベクトルを再帰型ニューラルネットワークに入力することにより前記音響信号に対するキャプションを生成するキャプション生成部、
を備えるキャプション生成装置。 - 前記キャプション生成部は、前記音響信号を対数メル周波数スペクトログラムに変換することでグレースケール画像の前記スペクトログラムを生成する、請求項1に記載のキャプション生成装置。
- 前記再帰型ニューラルネットワークは、多層の長期短期記憶層によって構成され、
前記再帰型ニューラルネットワークは、第1の再帰型ニューラルネットワークと第2の再帰型ニューラルネットワークを備え、
前記第1の再帰型ニューラルネットワークは、抽出された特徴量ベクトルを多層の前記長期短期記憶層に入力して中間表現のベクトルを生成し、
前記第2の再帰型ニューラルネットワークは、前記中間表現のベクトルを多層の前記長期短期記憶層に入力して前記キャプションを生成する、請求項1または請求項2に記載のキャプション生成装置。 - 前記ブロックは、グレースケールの前記スペクトログラムの画像である、請求項1から請求項3のいずれか1項に記載のキャプション生成装置。
- 取得部が、音響信号を取得する手順と、
キャプション生成部が、音響信号に対してスペクトログラムを生成させる際に、前記スペクトログラムを時間軸方向に固定長に分割して1以上のブロックにし、前記ブロックに対して正規化を行い、前記正規化されたブロックを畳み込みニューラルネットワークに入力して特徴量ベクトルを抽出する手順と、
前記キャプション生成部が、抽出した前記特徴量ベクトルを再帰型ニューラルネットワークに入力することにより前記音響信号に対するキャプションを生成する手順と、
を含むキャプション生成方法。 - キャプション生成装置のコンピュータに、
音響信号を取得する手順と、
音響信号に対してスペクトログラムを生成させる際に、前記スペクトログラムを時間軸方向に固定長に分割して1以上のブロックにし、前記ブロックに対して正規化を行い、前記正規化されたブロックを畳み込みニューラルネットワークに入力して特徴量ベクトルを抽出する手順と、
抽出した前記特徴量ベクトルを再帰型ニューラルネットワークに入力することにより前記音響信号に対するキャプションを生成する手順と、
を実行するプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019034979A JP7267034B2 (ja) | 2019-02-27 | 2019-02-27 | キャプション生成装置、キャプション生成方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019034979A JP7267034B2 (ja) | 2019-02-27 | 2019-02-27 | キャプション生成装置、キャプション生成方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020140050A JP2020140050A (ja) | 2020-09-03 |
JP7267034B2 true JP7267034B2 (ja) | 2023-05-01 |
Family
ID=72264831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019034979A Active JP7267034B2 (ja) | 2019-02-27 | 2019-02-27 | キャプション生成装置、キャプション生成方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7267034B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115938385A (zh) * | 2021-08-17 | 2023-04-07 | 中移(苏州)软件技术有限公司 | 一种语音分离方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180061439A1 (en) | 2016-08-31 | 2018-03-01 | Gregory Frederick Diamos | Automatic audio captioning |
JP2018132969A (ja) | 2017-02-16 | 2018-08-23 | 株式会社日立製作所 | 文章作成装置 |
US20180276540A1 (en) | 2017-03-22 | 2018-09-27 | NextEv USA, Inc. | Modeling of the latent embedding of music using deep neural network |
-
2019
- 2019-02-27 JP JP2019034979A patent/JP7267034B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180061439A1 (en) | 2016-08-31 | 2018-03-01 | Gregory Frederick Diamos | Automatic audio captioning |
JP2018132969A (ja) | 2017-02-16 | 2018-08-23 | 株式会社日立製作所 | 文章作成装置 |
US20180276540A1 (en) | 2017-03-22 | 2018-09-27 | NextEv USA, Inc. | Modeling of the latent embedding of music using deep neural network |
Non-Patent Citations (3)
Title |
---|
横山勝矢 他,"会話におけるニュース記事伝達のための発話意図の分類と認識",情報処理学会研究報告,2018年07月19日,Vol.2018-SLP-123, No.5,pp.1-8 |
河原達也 他,"音声認識の方法論の変遷と展望",電子情報通信学会技術研究報告,2018年12月03日,Vol.118, No.354,pp.25-30 |
鳥羽隼司 他,"スマートフォンで収録した環境音データベースを用いたCNNによる環境音分類",日本音響学会2017年春季研究発表会講演論文集,2017年03月01日,pp.139-142 |
Also Published As
Publication number | Publication date |
---|---|
JP2020140050A (ja) | 2020-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
GB2572020A (en) | A speech processing system and a method of processing a speech signal | |
CN111145786A (zh) | 语音情感识别方法和装置、服务器、计算机可读存储介质 | |
CN112184858A (zh) | 基于文本的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN112786018B (zh) | 语音转换及相关模型的训练方法、电子设备和存储装置 | |
US20230197061A1 (en) | Method and System for Outputting Target Audio, Readable Storage Medium, and Electronic Device | |
US20230343319A1 (en) | speech processing system and a method of processing a speech signal | |
CN116092501B (zh) | 语音增强方法、语音识别方法、说话人识别方法和系统 | |
Piotrowska et al. | Evaluation of aspiration problems in L2 English pronunciation employing machine learning | |
JP7267034B2 (ja) | キャプション生成装置、キャプション生成方法、およびプログラム | |
Tax et al. | Utilizing domain knowledge in end-to-end audio processing | |
Hong et al. | Visagesyntalk: Unseen speaker video-to-speech synthesis via speech-visage feature selection | |
CN113345410A (zh) | 通用语音、目标语音合成模型的训练方法及相关装置 | |
CN116453023B (zh) | 5g富媒体信息的视频摘要系统、方法、电子设备及介质 | |
CN116682463A (zh) | 一种多模态情感识别方法及系统 | |
Nogales et al. | A deep learning framework for audio restoration using Convolutional/Deconvolutional Deep Autoencoders | |
KR102429365B1 (ko) | 음성감성 분석 시스템 및 방법 | |
CN114170997A (zh) | 发音技巧检测方法、装置、存储介质及电子设备 | |
CN117581233A (zh) | 适用于流应用的以双因果和非因果受限自注意力进行序列到序列处理的人工智能系统 | |
Thai | Deepfake detection and low-resource language speech recogntion using deep learning | |
CN116364085A (zh) | 数据增强方法、装置、电子设备和存储介质 | |
JPH01204099A (ja) | 音声認識装置 | |
Büker et al. | Deep convolutional neural networks for double compressed AMR audio detection | |
Amjad et al. | Data augmentation and deep neural networks for the classification of Pakistani racial speakers recognition | |
Elyaderani et al. | Sequence-to-Sequence Multi-Modal Speech In-Painting | |
Gombos | Acoustic recognition with deep learning; experimenting with data augmentation and neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190419 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20190624 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221011 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230411 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230419 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7267034 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |