JP6323947B2 - 音響イベント認識装置、及びプログラム - Google Patents

音響イベント認識装置、及びプログラム Download PDF

Info

Publication number
JP6323947B2
JP6323947B2 JP2014094693A JP2014094693A JP6323947B2 JP 6323947 B2 JP6323947 B2 JP 6323947B2 JP 2014094693 A JP2014094693 A JP 2014094693A JP 2014094693 A JP2014094693 A JP 2014094693A JP 6323947 B2 JP6323947 B2 JP 6323947B2
Authority
JP
Japan
Prior art keywords
acoustic
acoustic event
event
section
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014094693A
Other languages
English (en)
Other versions
JP2015212731A (ja
Inventor
彰夫 小林
彰夫 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2014094693A priority Critical patent/JP6323947B2/ja
Publication of JP2015212731A publication Critical patent/JP2015212731A/ja
Application granted granted Critical
Publication of JP6323947B2 publication Critical patent/JP6323947B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音響イベント認識装置、及びプログラムに関する。
生放送番組の字幕制作に音声認識を利用する技術が実用化されている。この技術は、主に聴覚障碍者や高齢者への情報補償を目的としている。そのため、音声認識の対象は、放送番組を構成する音声(音声言語、人の話声)のみである。しかし、多くの放送番組は、音声言語だけから構成されている訳ではない。例えば、放送番組の音声には、番組の演出上の要請から、非言語的な音声(例えば、笑い声)や、拍手、背景音楽などの音響イベントが付加されている。このような音声言語以外の音声である音響イベントは、放送番組のシーンを補足的に説明したり、場面の転換を知らせたりするなど、音声言語同様、情報伝達において重要な役割を担っていると考えられる。このことから、音響イベントは、視聴者が番組を理解する際に欠かせない要素の一つといえる。これら非言語音の音響イベントから字幕等の言語表現(テキストまたは単語列からなるラベル)を生成した上で、聴覚障碍者や高齢者への情報補償に供することは、放送事業者にとって重要なことといえる。
また、音響イベントを、特定のクラスに分類する技術がある(例えば、非特許文献1、2参照)。これらの技術の用途として、例えば、映像や音声メディア中の銃声音を区分し、銃声音に区分されたシーンを暴力的な表現のシーンであるとみなしてペアレンタルロック(未成年者の視聴を制限する手法を指す)を行うための情報として使用することなどが想定される。
大石、外6名、「無限混合モデルを入れ子にしたmIBPに基づく音響イベント検出」、日本音響学会講演論文集、1−P−22、2012年、p.775−778 佐々木、他2名、「無限混合ガウスモデルを用いた未知クラスに対応可能な実環境音分類法」、社団法人 人工知能学会、人工知能学会研究会資料、SIG-Challenge-B202-7、2012年、p.39−44
ドラマやバラエティー番組などでは、詳細な構成台本に基づいて音響イベントの字幕作成が行われる。この字幕作成では、例えば、ト書きなどで表記される台本上の非言語音を字幕にする。一方、スポーツ中継や情報番組では、詳細な台本が存在しない。このような番組では、音響イベントをどのような字幕として制作するかが問題となる。つまり、仮になんらかの音響イベントが発生したとしても、これを言語表現に置き換えるための台本が存在しない。そのため、音響イベントをどのような言語表現に置き換えるかが不明であり、字幕作成時のコスト増につながるおそれがある。音響イベントが持つ情報を言語表現として自動的に推定できれば、この推定された言語表現を人手により字幕に加工することも容易かつ低コストで実現可能となり、視聴者の番組理解に大いに貢献するものと考えられる。
また、非言語音である音響イベントがなんらかの言語表現により記述できれば、音響イベントを注釈としたリッチアノテーションが得られる。このリッチアノテーションを利用すれば、「どんな音がしたか」といった情報に基づいて番組等の検索を行うことが可能になり、従来よりも柔軟な情報検索が可能になると見込まれる。
非特許文献1、2の技術では、映像や音声メディア中の音響イベントがいずれのクラスに属するかを分類することを目的としており、上述したように、例えば、映像や音声メディア中の銃声音を「銃声音」で代表されるクラスに区分する。しかし、非特許文献1、2の技術は、「激しい撃ち合い」、「一発の銃声」など、音響イベントから推定される詳細な言語表現を与えるものではない。
本発明は、このような事情を考慮してなされたもので、音声データに含まれる音響イベントの適切な言語表現を得ることができる音響イベント認識装置、及びプログラムを提供する。
本発明の一態様は、音響イベント区間を検出するための統計的音響モデルと音声データとを照合して、前記音声データにおける音響イベント区間を検出する音響イベント区間検出部と、前記音響イベント区間検出部が検出した前記音響イベント区間における前記音声データから音響特徴量を抽出する音響特徴量抽出部と、前記音響イベント区間検出部が検出した前記音響イベント区間を含み、かつ、前記音響イベント区間よりも所定だけ長い区間の言語特徴量抽出区間を特定し、特定した前記言語特徴量抽出区間の前記音声データに対応した発話内容のデータから言語特徴量を抽出する言語特徴量抽出部と、音響特徴量及び言語特徴量を入力として音響イベントの言語表現の事後確率を得るための統計的に学習されたイベントモデルを用いて、前記音響特徴量抽出部が抽出した前記音響特徴量及び前記言語特徴量抽出部が抽出した前記言語特徴量から音響イベントの言語表現の事後確率を計算し、計算された前記事後確率に基づいて選択した音響イベントの言語表現のデータを出力する音響イベント認識部と、を備えることを特徴とする音響イベント認識装置である。
この発明によれば、音響イベント認識装置は、音声データにおける音響イベント区間を検出し、検出した音響イベント区間の音声データから音響特徴量を抽出する。さらに、音響イベント認識装置は、音響イベント区間を含み、かつ、音響イベント区間よりも所定だけ長い区間の言語特徴量抽出区間を特定し、特定した言語特徴量抽出区間の音声データに対応した発話内容から言語特徴量を抽出する。音響イベント認識装置は、統計的に学習されたイベントモデルを用いて、抽出された音響特徴量及び言語特徴量から音響イベントの言語表現の事後確率を計算し、計算した事後確率に基づいて選択した音響イベントの言語表現のデータを出力する。
これにより、音響イベント認識装置は、音声データに含まれる音響イベントの適切な言語表現を得ることができる。
本発明の一態様は、上述する音響イベント認識装置であって、発話区間検出用の音響モデルと照合して前記音声データにおける発話区間を検出する発話区間検出部と、前記発話区間検出部が検出した前記発話区間における前記音声データを音声認識し、音声認識の結果得られた発話内容のデータを出力する音声認識部とをさらに備え、前記言語特徴量抽出部は、前記音声認識部が出力した発話内容のデータから、前記言語特徴量抽出区間における言語特徴量を抽出する、ことを特徴とする。
この発明によれば、音響イベント認識装置は、言語特徴量抽出区間における言語特徴量を、音声データの音声認識結果から抽出する。
これにより、音響イベント認識装置は、音声データに発話内容のデータが付加されていない場合でも、その音声データに含まれる音響イベントの適切な言語表現を得ることができる。
本発明の一態様は、上述する音響イベント認識装置であって、前記音響イベント認識部が出力した前記音響イベントの言語表現のデータと、前記音声データに対応した発話内容のデータとを統合して注釈付きテキストデータを生成する結果統合部をさらに備える、ことを特徴とする。
この発明によれば、音響イベント認識装置は、音声データに含まれる音響イベントの言語表現と、音声データの発話内容とを統合した注釈付きテキストデータを生成する。
これにより、音響イベント認識装置は、音声データに対し、音声言語に加え、非言語情報を注釈として含むリッチアノテーションを得ることができる。
本発明の一態様は、上述する音響イベント認識装置であって、前記イベントモデルは、音響イベント区間の音声データを分割した時刻順のフレームそれぞれから得られた音響特徴量を入力として、入力よりも低い次元で表した音響特徴量である変換音響特徴量を出力する第1のニューラルネットワークと、言語特徴量抽出区間の言語特徴量を入力として、入力よりも低い次元で表した言語特徴量である変換言語特徴量を出力する第2のニューラルネットワークと、前記第1のニューラルネットワークの出力である前記変換音響特徴量と、前記第2のニューラルネットワークの出力である前記変換言語特徴量とを入力として、音響イベントの言語表現の事後確率を出力する第3のニューラルネットワークとを有し、前記音響特徴量抽出部は、前記音響イベント区間検出部が検出した前記音響イベント区間の前記音声データを分割したフレームそれぞれから音響特徴量を抽出し、前記音響イベント認識部は、時刻順の前記フレームそれぞれから前記音響特徴量抽出部が抽出した音響特徴量を前記第1のニューラルネットワークに入力するとともに前記言語特徴量抽出部が抽出した前記言語特徴量を前記第2のニューラルネットワークに入力し、第3のニューラルネットワークの出力である音響イベントの言語表現の事後確率を計算する、ことを特徴とする。
この発明によれば、音響イベント認識装置は、音響イベント区間の音声データを分割した時刻順の各フレームそれぞれの音響特徴量を第1のニューラルネットワークの入力とし、低次元で表した音響特徴量を計算する。さらに、音響イベント認識装置は、言語特徴量抽出区間の言語特徴量を第2のニューラルネットワークの入力とし、低次元で表した言語特徴量を計算する。音響イベント認識装置は、第1のニューラルネットワークにより計算された低次元の音響特徴量と、第2のニューラルネットワークにより計算された低次元の言語特徴量とを第3のニューラルネットワークの入力とし、音響イベントの言語表現の事後確率を計算する。音響イベント認識装置は、計算した事後確率に基づいて選択した音響イベントの言語表現のデータを出力する。
これにより、音響イベント認識装置は、音響イベント区間の音声データを分割した各フレームの音響特徴量と、言語特徴量抽出区間の言語特徴量とを用いて、精度よく音響イベントの事後確率を得ることができる。
本発明の一態様は、コンピュータを、音響イベント区間を検出するための統計的音響モデルと音声データとを照合して、前記音声データにおける音響イベント区間を検出する音響イベント区間検出手段と、前記音響イベント区間検出手段が検出した前記音響イベント区間における前記音声データから音響特徴量を抽出する音響特徴量抽出手段と、前記音響イベント区間検出手段が検出した前記音響イベント区間を含み、かつ、前記音響イベント区間よりも所定だけ長い区間の言語特徴量抽出区間を特定し、特定した前記言語特徴量抽出区間の前記音声データに対応した発話内容のデータから言語特徴量を抽出する言語特徴量抽出手段と、音響特徴量及び言語特徴量を入力として音響イベントの言語表現の事後確率を得るための統計的に学習されたイベントモデルを用いて、前記音響特徴量抽出手段が抽出した前記音響特徴量及び前記言語特徴量抽出手段が抽出した前記言語特徴量から音響イベントの言語表現の事後確率を計算し、計算された前記事後確率に基づいて選択した音響イベントの言語表現のデータを出力する音響イベント認識手段と、を具備する音響イベント認識装置として機能させるためのプログラムである。
本発明によれば、音声データに含まれる音響イベントの適切な言語表現を得ることができる。
本発明の一実施形態による音響イベント認識装置における音響イベント認識処理の概要を示す図である。 同実施形態による音響イベント認識装置の構成を示す機能ブロック図である。 同実施形態による統合特徴量を示す図である。 同実施形態による音響イベント認識処理部の音響イベント認識処理フローを示す図である。 同実施形態による音響イベント区間検出用のHMMを示す図である。 同実施形態による音響イベント区間検出部の音響イベント区間検出処理フローを示す図である。 同実施形態による言語特徴量抽出区間を示す図である。 同実施形態によるイベントモデルを示す図である。 同実施形態による学習データに含まれる音響イベントラベルテーブルを示す図である。 同実施形態による学習データに含まれる字幕テーブルを示す図である。
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
本実施形態の音響イベント認識装置は、音響情報(音声データ)から抽出される音響的特徴と、音響イベントの周辺の音声言語から抽出される言語的特徴とに基づいて、笑い声や拍手などの音響イベントを認識し、認識した音響イベントのもっともらしい言語表現を得る。
これまで、字幕制作等に用いられる一般の音声認識では、音声言語(話声)のみが認識の対象であり、音響イベントのような非言語音は認識対象外であった。また、既存の字幕制作のアプリケーションでは、主に音声言語をテキスト化することにより、番組内の重要な情報を伝達することに主眼が置かれていた。
ところが、スポーツ中継や情報番組では、非言語音である笑い声や拍手、歓声などの音響的なイベントがより大きな役割を果たしている。ニュースが事実を伝えることに主眼を置いている一方で、その他の番組は、臨場感を伝えるなどの演出上の要請から、非言語音の重要性が増すことが一因である。演出上重要な存在である音響イベントは、従来の生放送を対象とした字幕制作では、どちらかといえば重要視されてこなかったという背景がある。しかし、聴覚障碍者や高齢者が放送番組をより楽しむ、あるいは、理解するという観点から見た場合、非言語音である音響イベントを字幕として充実させることが求められるのは当然といえる。
また、上記のように放送番組にはさまざまな音、すなわち、音声言語だけではなく音響イベントが含まれていることから、これらの情報が十分に言語表現として文字化されれば、非言語情報を注釈として含むリッチアノテーションを得ることができる。このようなリッチアノテーションを用いれば多様な情報検索を行うことが可能となり、放送コンテンツの利活用が促進すると考えられるが、非言語で構成される音響イベントは、どのようにテキストとして表現するべきなのかを一意に決定することが困難である。しかし、音響イベントに相当する言語表現を人手により付与してリッチアノテーションを作成することは、コストの面から適切であるとはいえない。
そこで、本実施形態の音響イベント認識装置は、上記のような非言語音で構成される音響イベントの言語表現を獲得する上での問題を解決する。本実施形態の音響イベント認識装置は、統計的手段により音響イベントの言語表現を推定し、推定した音響イベントの言語表現を用いてリッチアノテーションを作成する。
図1は、本実施形態の音響イベント認識装置における音響イベント認識処理の概要を示す図である。
従来は、音声データから抽出した音響イベントの音響特徴量のみを用いて、音響イベントが所属するクラス(笑いや拍手)を推定していた。本実施形態の音響イベント認識装置においても、音響特徴量は音響イベントの種類を推定するために重要な役割を果たす。ただし、本実施形態の音響イベント認識装置は、音響イベントの適切な言語表現を得るために、音響イベントが発生した時刻の前後にある音声言語から得られる言語特徴量をさらに利用する。このように、本実施形態の音響イベント認識装置は、音響イベントの適切な言語表現を得るために、直接的に音響イベントの音響特徴量を用いるのではなく、音声認識結果もしくは字幕から得られる言語特徴量も利用する。
これにより、適切な音響イベントを推定するとともに、前後の文脈に合った音響イベントの言語表現を得ることができる。
図2は、本発明の一実施形態による音響イベント認識装置の構成を示すブロック図であり、本実施形態と関係する機能ブロックのみ抽出して示してある。音響イベント認識装置1は、コンピュータ装置により実現される。音響イベント認識装置1は、イベントモデルを用いて音響イベント認識を行う。イベントモデルは、音響特徴量及び言語特徴量を入力として音響イベントの言語表現の事後確率を得るための統計的モデルである。そこで、音響イベント認識装置1は、同図に示すように、音響イベント認識処理部2及びモデル学習処理部3を備えて構成される。音響イベント認識処理部2は、未知の音声データに対して音声認識及び音響イベント認識を行う。モデル学習処理部3は、音響イベント認識処理部2が音響イベント認識に用いるイベントモデルを学習する。
音響イベント認識処理部2は、入力音声データD1に含まれる音声部分を音声認識してテキストデータに変換し、このテキストデータから音響イベント認識に用いる言語特徴量を得る。そこで、音響イベント認識処理部2は、音響イベント認識とは別に、入力音声データD1の発話区間を音声認識する。そのため、音響イベント認識処理部2は、入力音声データD1を2つに分離し、それぞれを音声認識の入力、及び音響イベント認識の入力とする。
音響イベント認識処理部2は、音響モデル格納部20、言語モデル格納部21、発話区間検出部22、音声認識部23、音響イベント区間検出部24、音響特徴量抽出部25、言語特徴量抽出部26、音響イベント認識部27、及び結果統合部28を備えて構成される。
音響モデル格納部20は、発話区間検出用の統計的音響モデル、音響イベント区間検出用の統計的音響モデル、及び、音声認識用の統計的音響モデルを格納する。言語モデル格納部21は、音声認識用の統計的言語モデルを格納する。発話区間検出部22は、音声認識の前処理として、音響モデル格納部20に格納されている発話区間検出用の統計的音響モデルと入力音声データD1とを照合して、入力音声データD1における発話区間を同定する。発話区間は、話声(音声言語)の音声区間である。音声認識部23は、発話区間検出部22が同定した発話区間の入力音声データD1を、音響モデル格納部20に記憶されている音声認識用の統計的音響モデル及び言語モデル格納部21に記憶されている音声認識用の統計的言語モデルを用いて音声認識する。音声認識部23は、発話内容の音声認識結果を設定した音声認識結果データD2を出力する。
音響イベント区間検出部24は、音響イベント認識の前処理として、音響モデル格納部20に格納されている音響イベント区間検出用の統計的音響モデルと入力音声データD1とを照合して、入力音声データD1における音響イベント区間を同定する。音響特徴量抽出部25は、音響イベント区間検出部24が同定した音響イベント区間の入力音声データD1から音響特徴量を得る。言語特徴量抽出部26は、音声認識結果データD2が示す音声認識結果のテキストデータから、言語特徴量抽出区間の言語特徴量を抽出する。言語特徴量抽出区間は、音響イベント区間検出部24が検出した音響イベント区間を含み、かつ、音響イベント区間よりも所定だけ長い区間である。つまり、言語特徴量抽出区間は、音響イベント区間の前後を含んだ区間である。
音響イベント認識部27は、音響特徴量抽出部25が得た音響特徴量と、言語特徴量抽出部26が抽出した言語特徴量とを、音響イベント認識用の統計的モデルであるイベントモデルの入力に用いて音響イベント認識を行う。音響イベント認識部27は、音響イベント認識結果を設定した音響イベント認識結果データD3を結果統合部28に出力する。音響イベント認識結果は、音響イベントを表すテキスト表現(文字列)である。
結果統合部28は、音声認識部23から出力された音声認識結果データD2と、音響イベント認識部27から出力された音響イベント認識結果データD3を統合し、注釈付きテキストデータであるリッチアノテーションデータD4を生成する。リッチアノテーションデータD4は、音声認識結果として得られた発話内容のテキストデータに、音響イベントを表す文字列のデータを注釈として付加したデータである。
モデル学習処理部3は、音響イベント認識処理部2における音響イベント認識に先立ってイベントモデルを学習する。モデル学習処理部3は、音声言語資源格納部30、学習用音響特徴量抽出部31、学習用言語特徴量抽出部32、モデル学習部33、及びイベントモデル格納部34を備えて構成される。
音声言語資源格納部30は、イベントモデルの学習データを記憶する。学習データは、学習用音声データと、音響イベントラベルと、発話内容のテキストデータとを対応付けたデータである。音響イベントラベルは、学習用音声データに含まれる音響イベントをテキスト(文字列)で表現したデータである。音響イベントラベルには、学習用音声データにおける音響イベントの開始時刻及び終了時刻により示される音響イベント区間のデータが付加される。発話内容のテキストデータには、学習用音声データにおける発話の開始時刻及び終了時刻により示される発話区間のデータが付加される。
学習用音響特徴量抽出部31は、音声言語資源格納部30に記憶されている学習データから音響イベントラベルに対応した音響イベント区間の学習用音声データである音響イベントデータD5を取得する。学習用音響特徴量抽出部31は、取得した音響イベントデータD5から音響特徴量を抽出する。学習用言語特徴量抽出部32は、学習用音声データの音響イベント区間に対応した言語特徴量抽出区間を特定し、特定した発話区間の発話内容のテキストデータD6を音声言語資源格納部30に記憶されている学習データから取得する。学習用言語特徴量抽出部32は、取得したテキストデータD6から言語特徴量を取得する。モデル学習部33は、学習用音響特徴量抽出部31が抽出した音響特徴量と、学習用言語特徴量抽出部32が抽出した言語特徴量と、学習用音声データの音響イベント区間に対応した音響イベントラベルとを用いて、統計的手段によりイベントモデルを学習する。モデル学習部33は、学習したイベントモデルをイベントモデル格納部34に格納する。音響イベント認識部27は、このイベントモデル格納部34に格納されたイベントモデルを用いて、音響イベント認識を行う。
次に、音響イベント認識装置1の動作について説明する。
まず、音響イベント認識装置1における音響イベント認識処理について説明する。
音響イベント認識装置1の音響イベント認識処理部2は、音響特徴量と言語特徴量とを統合して音響イベント認識処理の入力とする。そのため、音響イベント認識処理部2は、音響特徴量抽出部25による音響特徴量の抽出処理と、言語特徴量抽出部26による言語特徴量抽出処理とを協調的に実行する。
例えば、音響イベント区間検出部24が総計N個の音響イベント区間を検出したとする。音響特徴量抽出部25は、第n番目(n=1,…,N)の音響イベント区間について音響特徴量を抽出する。さらに、言語特徴量抽出部26は第n番目の音響イベント区間の開始時刻及び終了時刻に基づいて特定される言語特徴量抽出区間から言語特徴量を抽出する。言語特徴量は、音声認識結果中の言語特徴量抽出区間における単語列の頻度に基づく。最後に音響イベント認識部27は、第n番目の音響イベント区間について、音響特徴量と言語特徴量を統合して統合特徴量を得る。
図3は、統合特徴量を示す図である。統合特徴量は、音響イベント区間開始時刻、音響イベント区間終了時刻、音響イベント区間における音響特徴量、及び、音響イベント区間に対応した言語特徴量抽出区間における言語特徴量からなる構造体として表すことができる。音響イベント認識部27は、N個の統合特徴量それぞれを用いて音響イベント認識を行う。
以下、音響イベント認識装置1における音響イベント認識処理の詳細について説明する。
図4は、音響イベント認識装置1の音響イベント認識処理フローを示す図である。
まず、音響イベント認識装置1は、発話区間検出用、音響イベント区間検出用、音声認識用それぞれの統計的音響モデルを音響モデル格納部20に格納し、音声認識用の統計的言語モデルを言語モデル格納部21に格納しておく。また、イベントモデル格納部34には、後述するイベントモデル学習処理により学習されたイベントモデルを格納しておく。
発話区間検出用の統計的音響モデルや、音声認識用の統計的音響モデル及び統計的言語モデルは、従来と同様のものを用いることができる。本実施形態では、音響イベント区間検出用の統計的音響モデルとして、HMM(Hidden Markov Model、隠れマルコフモデル)及びGMM(Gaussian Mixture Model、ガウス混合分布)を用いる。この音響イベント区間検出用のHMM及びGMMは、音声、音響イベント、及び無音の3つのクラスそれぞれのラベルがつけられた音声データを学習データとして用い、従来技術と同様の学習方法により学習される。なお、音声のラベルは、音声言語の音声データにつけられる。例えば、音響イベントのGMMの場合、混合されるガウス分布のそれぞれが、異なる種類の音響イベントの特徴を表すようにする。なお、音響イベント区間検出用のHMMについては図5を用いて後述する。
音響イベント認識装置1の音響イベント認識処理部2は、入力音声データD1が入力される度に、図4に示す処理を行う。音響イベント認識処理部2は、話声と音響イベントの両者が混合した入力音声データD1から発話区間と音響イベント区間を切り出すため、入力音声データD1を2つに分岐する。音響イベント認識処理部2は、分岐した一方を発話区間検出部22に入力し、もう一方を音響イベント区間検出部24に入力する。
発話区間検出部22は、従来技術によって、入力音声データD1においてテキスト化が必要となる発話区間を検出して切り出す(ステップS105)。この発話区間には、背景音などの音響イベントとの重なりが含まれ得る。本実施形態では、特開2007−233148号公報や、特開2007−233149号公報に記載の技術により、発話区間を検出する。発話区間検出部22は、検出した発話区間を入力音声データD1から切り出した発話区間データを音声認識部23に出力する。
具体的には、発話区間検出部22は、入力音声データD1が入力される度に、入力音声データD1が示す音声を、所定の時間間隔の1処理単位のフレームである入力フレームに分割する。発話区間検出部22は、時刻が早い順に選択した所定数の入力フレームそれぞれの音響特徴量を計算する。発話区間検出用の状態遷移ネットワークは、発話開始から発話終了までに、非音声言語、音声言語、無音の3状態を飛越しなく遷移するleft−to−right型のHMMである。なお、無音の状態に代えて、非音声言語の状態を用いてもよい。発話区間検出部22は、音響モデル格納部20から非音声言語、音声言語それぞれの音響モデルを読み出し、読み出したこれらの音響モデルを用いて各入力フレームの音響スコア(対数尤度)計算を行う。非音声言語の音響モデルは、無音や音響イベントなどのHMMを表す。また、音声言語の音響モデルは、各音素の音素HMMからなる。発話区間検出部22は、各入力フレームの状態遷移の記録を記憶しておき、現在の状態から開始状態に向かって状態遷移の記録を遡り、状態遷移ネットワークを用いて処理開始(始端)の入力フレームからの各状態系列の累積の音響スコアを計算する。発話区間検出部22は、各状態系列の累積の音響スコアのうち最大のものと、始端の音響スコアとの差が閾値より大きい場合、最大の累積の音響スコアが得られた系列において最後に非音声言語の状態であった時刻から所定時間遡った時刻を発話開始時刻とする。
発話区間検出部22は、さらに発話開始時刻検出後の入力フレームについて、上記と同様に処理開始の入力フレームからの現在の入力フレームまでの各状態系列の累積の音響スコアを計算する。発話区間検出部22は、各状態系列の中で最大の累積の音響スコアと、各状態系列のうち音声言語から非音声言語の終端に至る状態系列の中で最大の累積の音響スコアとの差が閾値を超えたかを判断する。発話区間検出部22は、閾値を超えた状態が所定時間経過した場合、その経過した時刻から所定時間遡った時刻を発話終了時刻とする。
発話区間検出部22は、発話開始時刻から発話終了時刻までの区間の入力フレームをまとめた発話区間データを音声認識部23に出力する。
音声認識部23は、発話区間検出部22が出力した発話区間データを、音響モデル格納部20に格納されている音声認識用の統計的音響モデル及び言語モデル格納部21に格納されている統計的言語モデルを用い、従来技術により音声認識する(ステップS110)。本実施形態では、音声認識部23は、統計的音響モデルに、HMM、及びGMMを用いる。また、本実施形態では、音声認識部23は、統計的言語モデルに単語n−gram言語モデルを用いたマルチパス音声認識により認識結果を得る。この認識結果は、単語を単位とした分かち書きであり、音声認識部23は、各単語に、当該単語が発話された時刻情報を付与する。音声認識部23は、音声認識結果を設定した音声認識結果データD2を出力する。
一方、音響イベント区間検出部24は、入力音声データD1において背景音等を含む非言語音から構成される音響イベント区間を検出して切り出す(ステップS115)。本実施形態では、音響イベント区間検出部24は、音声認識によりテキスト化すべき部分との重複を含む音響イベント区間を検出する。音響イベント区間検出部24は、発話区間検出部22と同様のアルゴリズムにより、音響モデル格納部20に記憶されている音響イベント区間検出用のGMMとHMMを用いて音響イベント区間の検出を行う。ただし、発話区間検出部22が、発話区間を検出対象としているのに対し、音響イベント区間検出部24は、非言語音の音声区間を検出対象とする点が異なる。また、発話区間検出用の状態遷移ネットワークに代えて、音響イベント区間検出用のHMMを用いる。
図5は、音響モデル格納部20に記憶されている音響イベント区間検出用のHMMを示す図である。本実施形態では、HMMの構成を、いわゆるエルゴディックHMMとする。同図に示すように、このエルゴディックHMMは、音声、音響イベント、無音の3クラスの遷移を表現したHMMである。各遷移には、学習により得られた遷移確率が付与されている。
図6は、音響イベント区間検出部24の音響イベント区間検出処理フローを示す図であり、図4のステップS115における詳細な処理を示す。まず、音響イベント区間検出部24は、入力音声データD1が入力される度に、入力音声データD1を、所定の時間間隔の1処理単位のフレームである入力フレームに分割する。1処理単位のフレームは、音声データを処理する単位であり、通常10ミリ秒程度の長さとする。
音響イベント区間検出部24は、まだ処理対象としていない入力フレームのうち、時刻が早い順に所定数の入力フレームを取得する(ステップS205)。音響イベント区間検出部24は、取得した各入力フレームの音響特徴量を計算する。音響イベント区間検出部24は、音響モデル格納部20からHMMの各状態である音声、音響イベント、及び無音それぞれのGMMを読み出す。音響イベント区間検出部24は、読み出したこれらのGMMと各入力フレームの音響特徴量とを照合して各入力フレームの音響スコア計算を行い、必要があればHMMの状態間の遷移を行う(ステップS210)。音響イベント区間検出部24は、トレースバックに必要な定められた数の入力フレームを処理していない場合(ステップS215:NO)、ステップS205に戻って新たな入力フレームを取得し、音響スコアの計算を行う。
音響イベント区間検出部24は、トレースバックに必要な定められた数の入力フレームを処理した場合(ステップS215:YES)、現在の状態に至るまでの状態系列のリストをトレースバックにより求める(ステップS220)。つまり、音響イベント区間検出部24は、現在の状態から開始状態に向かって状態遷移の記録を遡り、図5に示すエルゴディックHMMを用いて、処理開始の入力フレームの状態(開始状態)から現在の状態までの各状態系列の累積の音響スコアを計算する。この際、音響イベント区間検出部24は、累積の音響スコアが大きい順に系列をソートしておく。
音響イベント区間検出部24は、トレースバックにより得られたHMMの状態系列から、第1位の系列と第2位の系列を比較する(ステップS225)。音響イベント区間検出部24は、累積の音響スコアの差が予め定めた閾値以下である場合、区間が確定しないと判断し(ステップS230:NO)、ステップS205に戻って新たな入力フレームに対して音響スコアの計算を行う。音響イベント区間検出部24は、累積の音響スコアの差が予め定めた閾値を超えたと判断した場合(ステップS230:YES)、第1位の系列を確定区間とする。音響イベント区間検出部24は、最後に音響イベントの確定区間のフレームを時刻順にまとめあげたフレーム列を、音響イベント区間フレームデータとして出力する(ステップS235)。各フレーム列には、フレームの開始時刻と終了時刻の一方または両方の情報が付与されている。
図4において、音響イベント認識処理部2は、音響イベント区間検出部24が検出したN個の音響イベント区間それぞれについて、以下のステップS125からステップS135の処理を行う。音響イベント認識処理部2は、n=1を初期値とする(ステップS120)。
音響特徴量抽出部25は、音響イベント区間検出部24から出力された第n番目の音響イベント区間フレームデータに含まれる各フレームの音響特徴量を抽出する(ステップS125)。本実施形態では、音声認識で一般に用いられている対数メルフィルタバンク出力を音響特徴量とする。ただし、音響特徴量抽出部25は、対数メルフィルタバンク出力に、予め平均ゼロ、分散1の正規化を行っておく。音声認識では通常、音声データを離散フーリエ変換した後にメルフィルタバンクに通した上で対数変換を行い、離散コサイン変換によりメルケプストラム係数(MFCC、Mel Frequency Cepstral Coefficient)を特徴量として得る。しかし、音響特徴量抽出部25は、音の周波数をダイレクトに特徴量とするため、離散コサイン変換は行わない。
言語特徴量抽出部26は、音声認識結果データD2が示す音声認識結果から、音響イベント認識部27において必要となる言語的な特徴量を抽出する(ステップS130)。
図7は、言語特徴量抽出区間を示す図である。言語特徴量抽出部26は、音響イベント区間検出部24が同定した第n番目の音響イベント区間の始端(開始時刻)と終端(終了時刻)とに基づいて言語特徴量抽出区間の始点(開始時刻)と終点(終了時刻)を特定する。すなわち、言語特徴量抽出部26は、音響イベント区間の始端からK時間単位(秒)だけ前にシフトした時刻を始点とし、音響イベント区間の終端からK時間単位(秒)だけ後ろにシフトした時刻を終点とする区間を言語特徴量抽出区間とする。
これは、音響イベントの言語表現の推定に強い影響を及ぼす言語的な文脈は、音響イベント発生時刻の周辺に限定されると仮定したものであり、本実施形態では、この文脈が単語の頻度分布に基づいて得られるものとする。
言語特徴量抽出部26は、音声認識結果データD2が示す音声認識結果の単語列のうち、言語特徴量抽出区間に含まれる単語列から言語特徴量を抽出する。本実施形態では、言語特徴量を相対頻度ベクトルとして定める。音声認識の語彙Vの大きさを|V|、語彙Vに含まれる各単語をv(v∈V)、言語特徴量抽出区間内の総単語数をMとすると、言語特徴量wは、式(1)となる。
言語特徴量w
=[c(v)/M,c(v)/M,…,c(v|V|)/M] …(1)
なお、式(1)において、Tは転置を表す記号であり、v,v,…は、単語vである。また、c(v)は、言語特徴量抽出区間における単語vの頻度を返す関数であり、Σv∈Vc(v)=Mを満たす。
なお、入力音声データD1に対してその発話区間に対応した字幕等のテキストデータが入力され、そのテキストデータに開始時刻及び終了時刻が予め付与されている場合、そのテキストデータを言語特徴量抽出部26に直接入力してもよい。言語特徴量抽出部26は、音声認識結果データD2に代えて、入力されたテキストデータが示す言語特徴量抽出区間内の単語列から言語特徴量を抽出する。これにより、図4におけるステップS105及びステップS110の処理を省略することができる。
図4において、音響イベント認識部27は、第n番目の音響イベント区間について、図3に示す構造体の統合特徴量を生成する(ステップS135)。統合特徴量の音響イベント区間開始時刻及び音響イベント区間終了時刻は、ステップS115において音響イベント区間検出部24が検出した第n番目の音響イベント区間の開始時刻及び終了時刻である。統合特徴量の音響特徴量は、ステップS125において音響特徴量抽出部25が第n番目の音響イベント区間の各フレームから抽出した音響特徴量を、それらフレームの時刻順に並べたものである。統合特徴量の言語特徴量は、ステップS130において言語特徴量抽出部26が第n番目の音響イベント区間に対応した言語特徴量抽出区間から抽出した言語特徴量である。
音響イベント認識処理部2は、音響イベント区間検出部24が検出したN個全ての音響イベント区間についてステップS125からステップS135の処理を終了していない場合、nに1を加算し、第n番目のフレームについてステップS125からの処理を繰り返す。音響イベント区間検出部24が検出したN個全ての音響イベント区間についてステップS125からステップS135の処理を終了した場合、音響イベント認識処理部2は、ステップS145からの処理を行う(ステップS140)。
音響イベント認識部27は、イベントモデル格納部34に記憶されているイベントモデルを用いて、N個の統合特徴量それぞれについて以下に示す音響イベント認識を行う(ステップS145)。本実施形態では、音響イベントを認識するための統計的なイベントモデルとして、ニューラルネットワークを利用する。
図8は、本実施形態に用いるイベントモデルを示す図である。同図に示すように、イベントモデルは、音響特徴量及び言語特徴量を入力とし、音響イベントの言語表現である音響イベントラベルの事後確率を出力とする多層ニューラルネットワークである。便宜上、イベントモデルは、音響特徴量変換ニューラルネットワークA1(第1のニューラルネットワーク)、言語特徴量変換ニューラルネットワークA2(第2のニューラルネットワーク)、及び、フィードフォワード型ニューラルネットワークA3(第3のニューラルネットワーク)の3つのニューラルネットワークに分割できる。
音響特徴量変換ニューラルネットワークA1は、可変長の音響特徴量を入力とし、固定長の変換音響特徴量を出力する畳み込みニューラルネットワークである。音響特徴量変換ニューラルネットワークA1は、入力層、プーリング層、隠れ層、及び最上位隠れ層の4層から構成される。なお、同図においては固定長の音響特徴量を得るためのサンプリングを行うプーリング層及び隠れ層を各1層ずつ有しているが、層数及び各層の次元数(ユニット数)は、音響特徴量及び言語特徴量のデータ量に合わせて任意とすることができる。これらは、イベントモデルの学習時に決定される。
音響特徴量変換ニューラルネットワークA1の入力層は、統合特徴量の音響特徴量であり、音響イベント区間に含まれる各フレームの音響特徴量を、それらフレームの時刻順に並べたものである。入力層のユニット数は可変である。プーリング層の各ユニットは、入力層の連続する所定数のユニットと結合しており、隣接するユニットが結合している入力層の所定数のユニットと一部が重複する。隠れ層のユニット数は固定であり、隠れ層の各ユニットが結合しているプーリング層のユニットの数は、(プーリング層のユニット数)/(隠れ層のユニット数)である。隠れ層のユニットには、そのユニットに結合されているプーリング層のユニットの値のうち、最大値のみが伝搬する。隠れ層と最上位隠れ層は、互いに各ユニットが全て結合している。最上位隠れ層からの出力は、変換音響特徴量であり、音響特徴量を入力よりも低い次元で表したベクトルである。例えば、入力層のユニット数を1000以上とし、出力層については256個程度のユニット数とすることができる。
言語特徴量変換ニューラルネットワークA2は、語彙サイズの次元数を持つ固定長の相対頻度ベクトルを入力とし、固定長の変換言語特徴量を出力するフィードフォワード型のニューラルネットワークである。同図において、言語特徴量変換ニューラルネットワークA2は、入力層、2層の隠れ層、及び最上位隠れ層の4層から構成されているが、層数や各層の次元数(ユニット数)は、語彙サイズや、音響特徴量及び言語特徴量のデータ量に合わせて任意とすることができる。これらは、イベントモデルの学習時に決定される。言語特徴量変換ニューラルネットワークA2の入力層は、統合特徴量の言語特徴量である。また、言語特徴量変換ニューラルネットワークA2の各層間は、蜜結合とする。最上位隠れ層からの出力である変換言語特徴量は、言語特徴量を入力よりも低い次元で表したベクトルである。この変換言語特徴量においては、入力層の言語特徴量から音響イベント認識に寄与しないノイズが除去される。例えば、語彙サイズが10万単語の場合、入力層のユニット数はその語彙サイズと同じとなるが、出力層は1024〜2048個程度のユニット数で表すことができる。
フィードフォワード型ニューラルネットワークA3は、音響特徴量変換ニューラルネットワークA1の最上位隠れ層の出力である変換音響特徴量と、言語特徴量変換ニューラルネットワークA2の最上位隠れ層の出力である変換言語特徴量とを入力とし、音響イベントラベルの事後確率を出力する。同図において、フィードフォワード型ニューラルネットワークA3は、2層の隠れ層、及び出力層から構成されているが、層数や各層の次元数(ユニット数)は、語彙サイズや、音響特徴量及び言語特徴量のデータ量に合わせて任意とすることができる。これらは、イベントモデルの学習時に決定される。フィードフォワード型ニューラルネットワークA3の各層間は、蜜結合とする。フィードフォワード型ニューラルネットワークA3は、出力層の各ユニットの値を出力する。出力層の各ユニットは音響イベントラベルに対応しており、これら各ユニットの値は対応する音響イベントラベルの事後確率を表す。
音響イベント認識部27は、イベントモデルの音響特徴量変換ニューラルネットワークA1の入力層に統合特徴量の音響特徴量を入力し、言語特徴量変換ニューラルネットワークA2の入力層に統合特徴量の言語特徴量を入力する。音響イベント認識部27は、イベントモデルを用いて、フィードフォワード型ニューラルネットワークA3の出力層の値を計算する。音響イベント認識部27は、イベントモデルの出力として、フィードフォワード型ニューラルネットワークA3の出力層の各ユニットの値を要素とするベクトルを得る。
音響イベント認識部27は、イベントモデルの出力であるベクトルの要素を、各要素の値が示す事後確率に基づいて選択する。例えば、音響イベント認識部27は、事後確率が最大の要素を選択する。なお、音響イベント認識部27は、事後確率が最大のものから所定数の複数の要素を選択してもよく、事後確率が所定以上の要素を全て選択してもよく、事後確率が所定以上の中から事後確率が大きい順に所定数までの要素を選択してもよい。イベントモデル格納部34には、ハッシュ関数等を用いて、予め、要素の番号と、音響イベントラベルとを対応付けて記憶しており、音響イベント認識部27は、選択した要素に対応する音響イベントラベルをイベントモデル格納部34から読み出す。
音響イベントラベルは、放送番組の字幕テキストに基づいて定義する。例えば、放送番組の字幕テキストでは、音響イベントに相当する言語表現をト書き(場面の説明を行う脚注)として表現している。そこで、このト書きを言語表現として出力する音響イベントラベルとする。
例えば、以下の表1から表5に示すような分類に従った音響イベントのテキスト表現(言語表現)を用いる。
Figure 0006323947
Figure 0006323947
Figure 0006323947
Figure 0006323947
Figure 0006323947
ある音響イベントに対応するテキスト表現を一意に定めることは困難である。そこで、本実施形態では、過去に行われた字幕放送のテキストを解析し、頻度の高い代表的な言語表現を音響イベントラベルとして選ぶ。
上記により、音響イベント認識部27は、音響イベント区間検出部24が同定した各音響イベント区間の音響イベント認識を実行し、もっともらしい音響イベントラベルを設定した音響イベント認識結果データD3を出力する。各音響イベントラベルには、音響イベント区間の開始時刻及び終了時刻が付与される。
図4において、結果統合部28は、ステップS110において音声認識部23が出力した音声認識結果データD2に、ステップS145において音響イベント認識部27が出力した音響イベント認識結果データD3を統合する。この統合により、結果統合部28は、最終的な注釈付きテキストデータであるリッチアノテーションデータD4を生成する。音声認識結果データD2が示す音声認識結果のテキストデータには、発話開始時刻及び終了時刻が付与されており、音響イベント認識結果データD3が示す音響イベントラベルには音響イベント区間の開始時刻及び終了時刻が付与されている。そこで、結果統合部28は、開始時刻の昇順で音声認識結果のテキストデータ及び音響イベントラベルをソートしてリッチアノテーションデータD4を生成し、出力する(ステップS150)。
次に、音響イベント認識装置1におけるイベントモデル学習処理について説明する。
音響イベント認識部27が音響イベント認識のために用いるイベントモデルは、統計的手段により事前に学習しておく必要がある。そこで、放送音声及び付随する字幕から音響特徴量及び言語特徴量と、それらに対応した音響イベントラベルを予め抽出しておき、これらを学習データとして音声言語資源格納部30に格納しておく。
図9は、学習データに含まれる音響イベントラベルテーブルを示す図であり、図10は、学習データに含まれる字幕テーブルを示す図である。
学習データは、放送音声の音声データ(学習用音声データ)と、音響イベントラベルと、それら放送音声の音声データ及び音響イベントラベルの対応付けを示すデータとを含む。具体的には、学習データは、図9に示すように、放送音声の音声データの番組冒頭からの開始時刻及び終了時刻と、その開始時刻及び終了時刻で示される音響イベント区間の音響イベントラベルとを対応付けた音響イベントラベルテーブルを含む。
さらに、学習データは、放送音声の音声データ(学習用音声データ)と、付随する字幕のデータと、それら放送音声の音声データ及び字幕のデータの対応付けを示すデータとを含む。具体的には、学習データは、図10に示すように、放送音声の音声データの番組冒頭からの開始時刻及び終了時刻と、その開始時刻及び終了時刻で示される区間の字幕のデータとを対応付けた字幕テーブルを含む。字幕のデータは、単語に分かち書きされたテキストデータである。
モデル学習処理部3は、音声言語資源格納部30に格納された学習データに基づいて、音響イベント区間と対応する言語特徴量抽出区間を抽出し、統合特徴量を構成してイベントモデルを学習する。具立的には、モデル学習処理部3は、以下のようにイベントモデルを学習する。
学習用音響特徴量抽出部31は、音声言語資源格納部30に記憶されている図9の音響イベントラベルテーブルから音響イベント区間を読み出す。さらに、学習用音響特徴量抽出部31は、読み出した各音響イベント区間の学習用音声データを音声言語資源格納部30から読み出す。学習用音響特徴量抽出部31は、学習用音声データである音響イベントデータD5から、音響特徴量抽出部25と同様の処理により音響特徴量を抽出する。
学習用言語特徴量抽出部32は、学習用音響特徴量抽出部31が読み出した音響イベント区間それぞれに対応した言語特徴量抽出区間を、言語特徴量抽出部26と同様に特定する。学習用言語特徴量抽出部32は、特定した言語特徴量抽出区間に対応した字幕データを、音声言語資源格納部30に記憶されている図10の字幕テーブルから読み出す。学習用言語特徴量抽出部32は、読み出した字幕データであるテキストデータD6から言語特徴量を抽出する。
モデル学習部33は、学習用音響特徴量抽出部31が抽出した音響特徴量と、その音響特徴量が得られた音響イベント区間と、その音響イベント区間に対応した言語特徴量抽出区間から学習用言語特徴量抽出部32が抽出した言語特徴量とから統合特徴量を生成する。モデル学習部33は、統合特徴量に設定されている音響イベント区間と、音声言語資源格納部30に記憶されている音響イベントラベルテーブルから読み出したその音響イベント区間の音響イベントラベルとに基づいてイベントモデルを学習する。つまり、イベントモデル学習用のデータは、音響特徴量と、その音響特徴量が得られた音響イベント区間に対応する言語特徴量抽出区間の言語特徴量とを1組の入力として、その音響特徴量が得られた音響イベント区間の音響イベントラベルを出力とする。この際、モデル学習部33は、イベントモデルにおけるフィードフォワード型ニューラルネットワークA3から出力されるベクトルの各要素と、ハッシュ関数により得られた音響イベントラベルのハッシュ値とを対応付けておく。
N組のイベントモデル学習用のデータ(統合特徴量と音響イベントラベルの組)が与えられたとき、モデル学習部33は、これらのデータを1組ずつ用いて、イベントモデルとなるニューラルネットワークの各層間の結合重みを誤差伝搬法により学習する。モデル学習部33は、N組のイベントモデル学習用のデータについて繰り返し誤差伝搬法による学習を行うが、学習用のデータとは別に用意した検証用データの識別性能(音響イベントラベルの正解率)が最大となった点で学習が収束したと判断する。
なお、モデル学習部33は、異なる層数や異なるユニット数のニューラルネットワークそれぞれについて同じイベントモデル学習用のデータを用いて学習を行う。モデル学習部33は、検証用データの識別性能が最も高いニューラルネットワークをイベントモデルとしてイベントモデル格納部34に格納する。
上述した実施形態によれば、音響イベント認識装置1は、音声データに含まれる音響イベントを認識し、認識した音響イベントに適切な言語表現を得ることができる。従って、音響イベント認識装置1は、従来の音声認識結果に音響イベントラベルを付加したより豊かなアノテーションを提供することができる。また、音響イベント認識装置1が、音響イベントに適切な言語表現を得ることにより、人手による音響イベントのラベル作成にかかっていた作業負荷を大幅に削減することができる。
なお、上述の音響イベント認識装置1は、内部にコンピュータシステムを有している。そして、音響イベント認識装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
1…音響イベント認識装置、2…音響イベント認識処理部、3…モデル学習処理部、20…音響モデル格納部、21…言語モデル格納部、22…発話区間検出部、23…音声認識部、24…音響イベント区間検出部、25…音響特徴量抽出部、26…言語特徴量抽出部、27…音響イベント認識部、28…結果統合部、30…音声言語資源格納部、31…学習用音響特徴量抽出部、32…学習用言語特徴量抽出部、33…モデル学習部、34…イベントモデル格納部

Claims (5)

  1. 音響イベント区間を検出するための統計的音響モデルと音声データとを照合して、前記音声データにおける音響イベント区間を検出する音響イベント区間検出部と、
    前記音響イベント区間検出部が検出した前記音響イベント区間における前記音声データから音響特徴量を抽出する音響特徴量抽出部と、
    前記音響イベント区間検出部が検出した前記音響イベント区間を含み、かつ、前記音響イベント区間よりも所定だけ長い区間の言語特徴量抽出区間を特定し、特定した前記言語特徴量抽出区間の前記音声データに対応した発話内容のデータから言語特徴量を抽出する言語特徴量抽出部と、
    音響特徴量及び言語特徴量を入力として音響イベントの言語表現の事後確率を得るための統計的に学習されたイベントモデルを用いて、前記音響特徴量抽出部が抽出した前記音響特徴量及び前記言語特徴量抽出部が抽出した前記言語特徴量から音響イベントの言語表現の事後確率を計算し、計算された前記事後確率に基づいて選択した音響イベントの言語表現のデータを出力する音響イベント認識部と、
    を備えることを特徴とする音響イベント認識装置。
  2. 発話区間検出用の音響モデルと照合して前記音声データにおける発話区間を検出する発話区間検出部と、
    前記発話区間検出部が検出した前記発話区間における前記音声データを音声認識し、音声認識の結果得られた発話内容のデータを出力する音声認識部とをさらに備え、
    前記言語特徴量抽出部は、前記音声認識部が出力した発話内容のデータから、前記言語特徴量抽出区間における言語特徴量を抽出する、
    ことを特徴とする請求項1に記載の音響イベント認識装置。
  3. 前記音響イベント認識部が出力した前記音響イベントの言語表現のデータと、前記音声データに対応した発話内容のデータとを統合して注釈付きテキストデータを生成する結果統合部をさらに備える、
    ことを特徴とする請求項1または請求項2のいずれか1項に記載の音響イベント認識装置。
  4. 前記イベントモデルは、
    音響イベント区間の音声データを分割した時刻順のフレームそれぞれから得られた音響特徴量を入力として、入力よりも低い次元で表した音響特徴量である変換音響特徴量を出力する第1のニューラルネットワークと、
    言語特徴量抽出区間の言語特徴量を入力として、入力よりも低い次元で表した言語特徴量である変換言語特徴量を出力する第2のニューラルネットワークと、
    前記第1のニューラルネットワークの出力である前記変換音響特徴量と、前記第2のニューラルネットワークの出力である前記変換言語特徴量とを入力として、音響イベントの言語表現の事後確率を出力する第3のニューラルネットワークとを有し、
    前記音響特徴量抽出部は、前記音響イベント区間検出部が検出した前記音響イベント区間の前記音声データを分割したフレームそれぞれから音響特徴量を抽出し、
    前記音響イベント認識部は、時刻順の前記フレームそれぞれから前記音響特徴量抽出部が抽出した音響特徴量を前記第1のニューラルネットワークに入力するとともに前記言語特徴量抽出部が抽出した前記言語特徴量を前記第2のニューラルネットワークに入力し、第3のニューラルネットワークの出力である音響イベントの言語表現の事後確率を計算する、
    ことを特徴とする請求項1から請求項3のいずれか1項に記載の音響イベント認識装置。
  5. コンピュータを、
    音響イベント区間を検出するための統計的音響モデルと音声データとを照合して、前記音声データにおける音響イベント区間を検出する音響イベント区間検出手段と、
    前記音響イベント区間検出手段が検出した前記音響イベント区間における前記音声データから音響特徴量を抽出する音響特徴量抽出手段と、
    前記音響イベント区間検出手段が検出した前記音響イベント区間を含み、かつ、前記音響イベント区間よりも所定だけ長い区間の言語特徴量抽出区間を特定し、特定した前記言語特徴量抽出区間の前記音声データに対応した発話内容のデータから言語特徴量を抽出する言語特徴量抽出手段と、
    音響特徴量及び言語特徴量を入力として音響イベントの言語表現の事後確率を得るための統計的に学習されたイベントモデルを用いて、前記音響特徴量抽出手段が抽出した前記音響特徴量及び前記言語特徴量抽出手段が抽出した前記言語特徴量から音響イベントの言語表現の事後確率を計算し、計算された前記事後確率に基づいて選択した音響イベントの言語表現のデータを出力する音響イベント認識手段と、
    を具備する音響イベント認識装置として機能させるためのプログラム。
JP2014094693A 2014-05-01 2014-05-01 音響イベント認識装置、及びプログラム Active JP6323947B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014094693A JP6323947B2 (ja) 2014-05-01 2014-05-01 音響イベント認識装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014094693A JP6323947B2 (ja) 2014-05-01 2014-05-01 音響イベント認識装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015212731A JP2015212731A (ja) 2015-11-26
JP6323947B2 true JP6323947B2 (ja) 2018-05-16

Family

ID=54697025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014094693A Active JP6323947B2 (ja) 2014-05-01 2014-05-01 音響イベント認識装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6323947B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101749254B1 (ko) * 2015-12-21 2017-06-20 서울대학교산학협력단 딥 러닝 기반의 통합 음향 정보 인지 시스템
US10832129B2 (en) 2016-10-07 2020-11-10 International Business Machines Corporation Transfer of an acoustic knowledge to a neural network
CN108122035B (zh) 2016-11-29 2019-10-18 科大讯飞股份有限公司 端到端建模方法及系统
EP3759710A1 (en) * 2018-02-28 2021-01-06 Robert Bosch GmbH System and method for audio event detection in surveillance systems
JP2022001967A (ja) * 2018-09-11 2022-01-06 ソニーグループ株式会社 音響イベント認識装置
JP6882814B2 (ja) * 2018-09-13 2021-06-02 LiLz株式会社 音解析装置及びその処理方法、プログラム
CN111640456B (zh) * 2020-06-04 2023-08-22 合肥讯飞数码科技有限公司 叠音检测方法、装置和设备
CN112188241A (zh) * 2020-10-09 2021-01-05 上海网达软件股份有限公司 一种用于直播流实时生成字幕的方法及系统
WO2023140396A1 (ko) * 2022-01-20 2023-07-27 주식회사 사이디라이트 인공지능을 이용한 시청약자를 위한 방송 콘텐츠 소리 정보의 시각화 시스템
WO2023140397A1 (ko) * 2022-01-20 2023-07-27 주식회사 사이디라이트 인공지능을 이용한 시청약자를 위한 방송 콘텐츠의 라벨 정보의 시청자 감정 호환 매칭 시스템

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234074A (ja) * 2004-02-18 2005-09-02 Sony Corp 情報処理装置および情報処理方法、記録媒体、並びにプログラム
US9020822B2 (en) * 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
JP6235938B2 (ja) * 2013-08-13 2017-11-22 日本電信電話株式会社 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
JP6327745B2 (ja) * 2014-02-24 2018-05-23 日本放送協会 音声認識装置、及びプログラム

Also Published As

Publication number Publication date
JP2015212731A (ja) 2015-11-26

Similar Documents

Publication Publication Date Title
JP6323947B2 (ja) 音響イベント認識装置、及びプログラム
US11900947B2 (en) Method and system for automatically diarising a sound recording
JP6066354B2 (ja) 信頼度計算の方法及び装置
Povolny et al. Multimodal emotion recognition for AVEC 2016 challenge
US8775174B2 (en) Method for indexing multimedia information
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
JP5104762B2 (ja) コンテンツ要約システムと方法とプログラム
JP4869268B2 (ja) 音響モデル学習装置およびプログラム
WO2005122144A1 (ja) 音声認識装置、音声認識方法、及びプログラム
Rybach et al. Audio segmentation for speech recognition using segment features
Liao et al. Uncertainty decoding for noise robust speech recognition
Akbacak et al. Rich system combination for keyword spotting in noisy and acoustically heterogeneous audio streams
Tejedor et al. Comparison of methods for language-dependent and language-independent query-by-example spoken term detection
Furui Recent progress in corpus-based spontaneous speech recognition
JP2015212732A (ja) 音喩認識装置、及びプログラム
CN113129895A (zh) 一种语音检测处理系统
Ariki et al. Highlight scene extraction in real time from baseball live video
JP2004233541A (ja) ハイライトシーン検出システム
JP7178890B2 (ja) 音声認識システム、及び音声認識装置
Saz et al. Lightly supervised alignment of subtitles on multi-genre broadcasts
Wambacq et al. Efficiency of speech alignment for semi-automated subtitling in Dutch
Nouza et al. A system for information retrieval from large records of Czech spoken data
JP4949310B2 (ja) 音響処理装置およびプログラム
JP2009204732A (ja) 音声認識装置、音声認識辞書作成方法およびプログラム
Pham et al. Temporal confusion network for speech-based soccer event retrieval

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180409

R150 Certificate of patent or registration of utility model

Ref document number: 6323947

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250