JP2015212731A - 音響イベント認識装置、及びプログラム - Google Patents
音響イベント認識装置、及びプログラム Download PDFInfo
- Publication number
- JP2015212731A JP2015212731A JP2014094693A JP2014094693A JP2015212731A JP 2015212731 A JP2015212731 A JP 2015212731A JP 2014094693 A JP2014094693 A JP 2014094693A JP 2014094693 A JP2014094693 A JP 2014094693A JP 2015212731 A JP2015212731 A JP 2015212731A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- acoustic event
- event
- section
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
この発明によれば、音響イベント認識装置は、音声データにおける音響イベント区間を検出し、検出した音響イベント区間の音声データから音響特徴量を抽出する。さらに、音響イベント認識装置は、音響イベント区間を含み、かつ、音響イベント区間よりも所定だけ長い区間の言語特徴量抽出区間を特定し、特定した言語特徴量抽出区間の音声データに対応した発話内容から言語特徴量を抽出する。音響イベント認識装置は、統計的に学習されたイベントモデルを用いて、抽出された音響特徴量及び言語特徴量から音響イベントの言語表現の事後確率を計算し、計算した事後確率に基づいて選択した音響イベントの言語表現のデータを出力する。
これにより、音響イベント認識装置は、音声データに含まれる音響イベントの適切な言語表現を得ることができる。
この発明によれば、音響イベント認識装置は、言語特徴量抽出区間における言語特徴量を、音声データの音声認識結果から抽出する。
これにより、音響イベント認識装置は、音声データに発話内容のデータが付加されていない場合でも、その音声データに含まれる音響イベントの適切な言語表現を得ることができる。
この発明によれば、音響イベント認識装置は、音声データに含まれる音響イベントの言語表現と、音声データの発話内容とを統合した注釈付きテキストデータを生成する。
これにより、音響イベント認識装置は、音声データに対し、音声言語に加え、非言語情報を注釈として含むリッチアノテーションを得ることができる。
この発明によれば、音響イベント認識装置は、音響イベント区間の音声データを分割した時刻順の各フレームそれぞれの音響特徴量を第1のニューラルネットワークの入力とし、低次元で表した音響特徴量を計算する。さらに、音響イベント認識装置は、言語特徴量抽出区間の言語特徴量を第2のニューラルネットワークの入力とし、低次元で表した言語特徴量を計算する。音響イベント認識装置は、第1のニューラルネットワークにより計算された低次元の音響特徴量と、第2のニューラルネットワークにより計算された低次元の言語特徴量とを第3のニューラルネットワークの入力とし、音響イベントの言語表現の事後確率を計算する。音響イベント認識装置は、計算した事後確率に基づいて選択した音響イベントの言語表現のデータを出力する。
これにより、音響イベント認識装置は、音響イベント区間の音声データを分割した各フレームの音響特徴量と、言語特徴量抽出区間の言語特徴量とを用いて、精度よく音響イベントの事後確率を得ることができる。
本実施形態の音響イベント認識装置は、音響情報(音声データ)から抽出される音響的特徴と、音響イベントの周辺の音声言語から抽出される言語的特徴とに基づいて、笑い声や拍手などの音響イベントを認識し、認識した音響イベントのもっともらしい言語表現を得る。
従来は、音声データから抽出した音響イベントの音響特徴量のみを用いて、音響イベントが所属するクラス(笑いや拍手)を推定していた。本実施形態の音響イベント認識装置においても、音響特徴量は音響イベントの種類を推定するために重要な役割を果たす。ただし、本実施形態の音響イベント認識装置は、音響イベントの適切な言語表現を得るために、音響イベントが発生した時刻の前後にある音声言語から得られる言語特徴量をさらに利用する。このように、本実施形態の音響イベント認識装置は、音響イベントの適切な言語表現を得るために、直接的に音響イベントの音響特徴量を用いるのではなく、音声認識結果もしくは字幕から得られる言語特徴量も利用する。
これにより、適切な音響イベントを推定するとともに、前後の文脈に合った音響イベントの言語表現を得ることができる。
まず、音響イベント認識装置1における音響イベント認識処理について説明する。
音響イベント認識装置1の音響イベント認識処理部2は、音響特徴量と言語特徴量とを統合して音響イベント認識処理の入力とする。そのため、音響イベント認識処理部2は、音響特徴量抽出部25による音響特徴量の抽出処理と、言語特徴量抽出部26による言語特徴量抽出処理とを協調的に実行する。
図4は、音響イベント認識装置1の音響イベント認識処理フローを示す図である。
まず、音響イベント認識装置1は、発話区間検出用、音響イベント区間検出用、音声認識用それぞれの統計的音響モデルを音響モデル格納部20に格納し、音声認識用の統計的言語モデルを言語モデル格納部21に格納しておく。また、イベントモデル格納部34には、後述するイベントモデル学習処理により学習されたイベントモデルを格納しておく。
発話区間検出用の統計的音響モデルや、音声認識用の統計的音響モデル及び統計的言語モデルは、従来と同様のものを用いることができる。本実施形態では、音響イベント区間検出用の統計的音響モデルとして、HMM(Hidden Markov Model、隠れマルコフモデル)及びGMM(Gaussian Mixture Model、ガウス混合分布)を用いる。この音響イベント区間検出用のHMM及びGMMは、音声、音響イベント、及び無音の3つのクラスそれぞれのラベルがつけられた音声データを学習データとして用い、従来技術と同様の学習方法により学習される。なお、音声のラベルは、音声言語の音声データにつけられる。例えば、音響イベントのGMMの場合、混合されるガウス分布のそれぞれが、異なる種類の音響イベントの特徴を表すようにする。なお、音響イベント区間検出用のHMMについては図5を用いて後述する。
発話区間検出部22は、さらに発話開始時刻検出後の入力フレームについて、上記と同様に処理開始の入力フレームからの現在の入力フレームまでの各状態系列の累積の音響スコアを計算する。発話区間検出部22は、各状態系列の中で最大の累積の音響スコアと、各状態系列のうち音声言語から非音声言語の終端に至る状態系列の中で最大の累積の音響スコアとの差が閾値を超えたかを判断する。発話区間検出部22は、閾値を超えた状態が所定時間経過した場合、その経過した時刻から所定時間遡った時刻を発話終了時刻とする。
発話区間検出部22は、発話開始時刻から発話終了時刻までの区間の入力フレームをまとめた発話区間データを音声認識部23に出力する。
図7は、言語特徴量抽出区間を示す図である。言語特徴量抽出部26は、音響イベント区間検出部24が同定した第n番目の音響イベント区間の始端(開始時刻)と終端(終了時刻)とに基づいて言語特徴量抽出区間の始点(開始時刻)と終点(終了時刻)を特定する。すなわち、言語特徴量抽出部26は、音響イベント区間の始端からK時間単位(秒)だけ前にシフトした時刻を始点とし、音響イベント区間の終端からK時間単位(秒)だけ後ろにシフトした時刻を終点とする区間を言語特徴量抽出区間とする。
これは、音響イベントの言語表現の推定に強い影響を及ぼす言語的な文脈は、音響イベント発生時刻の周辺に限定されると仮定したものであり、本実施形態では、この文脈が単語の頻度分布に基づいて得られるものとする。
=[c(v1)/M,c(v2)/M,…,c(v|V|)/M]T …(1)
音響特徴量変換ニューラルネットワークA1の入力層は、統合特徴量の音響特徴量であり、音響イベント区間に含まれる各フレームの音響特徴量を、それらフレームの時刻順に並べたものである。入力層のユニット数は可変である。プーリング層の各ユニットは、入力層の連続する所定数のユニットと結合しており、隣接するユニットが結合している入力層の所定数のユニットと一部が重複する。隠れ層のユニット数は固定であり、隠れ層の各ユニットが結合しているプーリング層のユニットの数は、(プーリング層のユニット数)/(隠れ層のユニット数)である。隠れ層のユニットには、そのユニットに結合されているプーリング層のユニットの値のうち、最大値のみが伝搬する。隠れ層と最上位隠れ層は、互いに各ユニットが全て結合している。最上位隠れ層からの出力は、変換音響特徴量であり、音響特徴量を入力よりも低い次元で表したベクトルである。例えば、入力層のユニット数を1000以上とし、出力層については256個程度のユニット数とすることができる。
例えば、以下の表1から表5に示すような分類に従った音響イベントのテキスト表現(言語表現)を用いる。
上記により、音響イベント認識部27は、音響イベント区間検出部24が同定した各音響イベント区間の音響イベント認識を実行し、もっともらしい音響イベントラベルを設定した音響イベント認識結果データD3を出力する。各音響イベントラベルには、音響イベント区間の開始時刻及び終了時刻が付与される。
音響イベント認識部27が音響イベント認識のために用いるイベントモデルは、統計的手段により事前に学習しておく必要がある。そこで、放送音声及び付随する字幕から音響特徴量及び言語特徴量と、それらに対応した音響イベントラベルを予め抽出しておき、これらを学習データとして音声言語資源格納部30に格納しておく。
学習データは、放送音声の音声データ(学習用音声データ)と、音響イベントラベルと、それら放送音声の音声データ及び音響イベントラベルの対応付けを示すデータとを含む。具体的には、学習データは、図9に示すように、放送音声の音声データの番組冒頭からの開始時刻及び終了時刻と、その開始時刻及び終了時刻で示される音響イベント区間の音響イベントラベルとを対応付けた音響イベントラベルテーブルを含む。
さらに、学習データは、放送音声の音声データ(学習用音声データ)と、付随する字幕のデータと、それら放送音声の音声データ及び字幕のデータの対応付けを示すデータとを含む。具体的には、学習データは、図10に示すように、放送音声の音声データの番組冒頭からの開始時刻及び終了時刻と、その開始時刻及び終了時刻で示される区間の字幕のデータとを対応付けた字幕テーブルを含む。字幕のデータは、単語に分かち書きされたテキストデータである。
なお、モデル学習部33は、異なる層数や異なるユニット数のニューラルネットワークそれぞれについて同じイベントモデル学習用のデータを用いて学習を行う。モデル学習部33は、検証用データの識別性能が最も高いニューラルネットワークをイベントモデルとしてイベントモデル格納部34に格納する。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
Claims (5)
- 音響イベント区間を検出するための統計的音響モデルと音声データとを照合して、前記音声データにおける音響イベント区間を検出する音響イベント区間検出部と、
前記音響イベント区間検出部が検出した前記音響イベント区間における前記音声データから音響特徴量を抽出する音響特徴量抽出部と、
前記音響イベント区間検出部が検出した前記音響イベント区間を含み、かつ、前記音響イベント区間よりも所定だけ長い区間の言語特徴量抽出区間を特定し、特定した前記言語特徴量抽出区間の前記音声データに対応した発話内容のデータから言語特徴量を抽出する言語特徴量抽出部と、
音響特徴量及び言語特徴量を入力として音響イベントの言語表現の事後確率を得るための統計的に学習されたイベントモデルを用いて、前記音響特徴量抽出部が抽出した前記音響特徴量及び前記言語特徴量抽出部が抽出した前記言語特徴量から音響イベントの言語表現の事後確率を計算し、計算された前記事後確率に基づいて選択した音響イベントの言語表現のデータを出力する音響イベント認識部と、
を備えることを特徴とする音響イベント認識装置。 - 発話区間検出用の音響モデルと照合して前記音声データにおける発話区間を検出する発話区間検出部と、
前記発話区間検出部が検出した前記発話区間における前記音声データを音声認識し、音声認識の結果得られた発話内容のデータを出力する音声認識部とをさらに備え、
前記言語特徴量抽出部は、前記音声認識部が出力した発話内容のデータから、前記言語特徴量抽出区間における言語特徴量を抽出する、
ことを特徴とする請求項1に記載の音響イベント認識装置。 - 前記音響イベント認識部が出力した前記音響イベントの言語表現のデータと、前記音声データに対応した発話内容のデータとを統合して注釈付きテキストデータを生成する結果統合部をさらに備える、
ことを特徴とする請求項1または請求項2のいずれか1項に記載の音響イベント認識装置。 - 前記イベントモデルは、
音響イベント区間の音声データを分割した時刻順のフレームそれぞれから得られた音響特徴量を入力として、入力よりも低い次元で表した音響特徴量である変換音響特徴量を出力する第1のニューラルネットワークと、
言語特徴量抽出区間の言語特徴量を入力として、入力よりも低い次元で表した言語特徴量である変換言語特徴量を出力する第2のニューラルネットワークと、
前記第1のニューラルネットワークの出力である前記変換音響特徴量と、前記第2のニューラルネットワークの出力である前記変換言語特徴量とを入力として、音響イベントの言語表現の事後確率を出力する第3のニューラルネットワークとを有し、
前記音響特徴量抽出部は、前記音響イベント区間検出部が検出した前記音響イベント区間の前記音声データを分割したフレームそれぞれから音響特徴量を抽出し、
前記音響イベント認識部は、時刻順の前記フレームそれぞれから前記音響特徴量抽出部が抽出した音響特徴量を前記第1のニューラルネットワークに入力するとともに前記言語特徴量抽出部が抽出した前記言語特徴量を前記第2のニューラルネットワークに入力し、第3のニューラルネットワークの出力である音響イベントの言語表現の事後確率を計算する、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の音響イベント認識装置。 - コンピュータを、
音響イベント区間を検出するための統計的音響モデルと音声データとを照合して、前記音声データにおける音響イベント区間を検出する音響イベント区間検出手段と、
前記音響イベント区間検出手段が検出した前記音響イベント区間における前記音声データから音響特徴量を抽出する音響特徴量抽出手段と、
前記音響イベント区間検出手段が検出した前記音響イベント区間を含み、かつ、前記音響イベント区間よりも所定だけ長い区間の言語特徴量抽出区間を特定し、特定した前記言語特徴量抽出区間の前記音声データに対応した発話内容のデータから言語特徴量を抽出する言語特徴量抽出手段と、
音響特徴量及び言語特徴量を入力として音響イベントの言語表現の事後確率を得るための統計的に学習されたイベントモデルを用いて、前記音響特徴量抽出手段が抽出した前記音響特徴量及び前記言語特徴量抽出手段が抽出した前記言語特徴量から音響イベントの言語表現の事後確率を計算し、計算された前記事後確率に基づいて選択した音響イベントの言語表現のデータを出力する音響イベント認識手段と、
を具備する音響イベント認識装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014094693A JP6323947B2 (ja) | 2014-05-01 | 2014-05-01 | 音響イベント認識装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014094693A JP6323947B2 (ja) | 2014-05-01 | 2014-05-01 | 音響イベント認識装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015212731A true JP2015212731A (ja) | 2015-11-26 |
JP6323947B2 JP6323947B2 (ja) | 2018-05-16 |
Family
ID=54697025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014094693A Active JP6323947B2 (ja) | 2014-05-01 | 2014-05-01 | 音響イベント認識装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6323947B2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101749254B1 (ko) * | 2015-12-21 | 2017-06-20 | 서울대학교산학협력단 | 딥 러닝 기반의 통합 음향 정보 인지 시스템 |
KR20190025976A (ko) * | 2016-11-29 | 2019-03-12 | 아이플라이텍 캄파니 리미티드 | 엔드 투 엔드 모델링 방법 및 시스템 |
WO2019166296A1 (en) * | 2018-02-28 | 2019-09-06 | Robert Bosch Gmbh | System and method for audio event detection in surveillance systems |
WO2020054822A1 (ja) * | 2018-09-13 | 2020-03-19 | LiLz株式会社 | 音解析装置及びその処理方法、プログラム |
WO2020054409A1 (ja) * | 2018-09-11 | 2020-03-19 | ソニー株式会社 | 音響イベント認識装置および方法、並びにプログラム |
CN111640456A (zh) * | 2020-06-04 | 2020-09-08 | 合肥讯飞数码科技有限公司 | 叠音检测方法、装置和设备 |
US10832129B2 (en) | 2016-10-07 | 2020-11-10 | International Business Machines Corporation | Transfer of an acoustic knowledge to a neural network |
CN112188241A (zh) * | 2020-10-09 | 2021-01-05 | 上海网达软件股份有限公司 | 一种用于直播流实时生成字幕的方法及系统 |
WO2023140397A1 (ko) * | 2022-01-20 | 2023-07-27 | 주식회사 사이디라이트 | 인공지능을 이용한 시청약자를 위한 방송 콘텐츠의 라벨 정보의 시청자 감정 호환 매칭 시스템 |
WO2023140396A1 (ko) * | 2022-01-20 | 2023-07-27 | 주식회사 사이디라이트 | 인공지능을 이용한 시청약자를 위한 방송 콘텐츠 소리 정보의 시각화 시스템 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005234074A (ja) * | 2004-02-18 | 2005-09-02 | Sony Corp | 情報処理装置および情報処理方法、記録媒体、並びにプログラム |
JP2015057630A (ja) * | 2013-08-13 | 2015-03-26 | 日本電信電話株式会社 | 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム |
US9020822B2 (en) * | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
JP2015158582A (ja) * | 2014-02-24 | 2015-09-03 | 日本放送協会 | 音声認識装置、及びプログラム |
-
2014
- 2014-05-01 JP JP2014094693A patent/JP6323947B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005234074A (ja) * | 2004-02-18 | 2005-09-02 | Sony Corp | 情報処理装置および情報処理方法、記録媒体、並びにプログラム |
US9020822B2 (en) * | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
JP2015057630A (ja) * | 2013-08-13 | 2015-03-26 | 日本電信電話株式会社 | 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム |
JP2015158582A (ja) * | 2014-02-24 | 2015-09-03 | 日本放送協会 | 音声認識装置、及びプログラム |
Non-Patent Citations (1)
Title |
---|
ESPI, MIQUEL ET AL.: ""Acoustic modelling of non-speech acoustic events based on deep belief networks"", 日本音響学会2013年秋季研究発表会講演論文集CD-ROM, JPN6018008302, 17 September 2013 (2013-09-17), pages 31 - 32, ISSN: 0003754084 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101749254B1 (ko) * | 2015-12-21 | 2017-06-20 | 서울대학교산학협력단 | 딥 러닝 기반의 통합 음향 정보 인지 시스템 |
US10832129B2 (en) | 2016-10-07 | 2020-11-10 | International Business Machines Corporation | Transfer of an acoustic knowledge to a neural network |
KR102232643B1 (ko) * | 2016-11-29 | 2021-03-26 | 아이플라이텍 캄파니 리미티드 | 엔드 투 엔드 모델링 방법 및 시스템 |
KR20190025976A (ko) * | 2016-11-29 | 2019-03-12 | 아이플라이텍 캄파니 리미티드 | 엔드 투 엔드 모델링 방법 및 시스템 |
JP2019530119A (ja) * | 2016-11-29 | 2019-10-17 | アイフライテック カンパニー,リミテッド | エンドツーエンドモデリング方法及びシステム |
US11651578B2 (en) | 2016-11-29 | 2023-05-16 | Iflytek Co., Ltd. | End-to-end modelling method and system |
WO2019166296A1 (en) * | 2018-02-28 | 2019-09-06 | Robert Bosch Gmbh | System and method for audio event detection in surveillance systems |
US11810435B2 (en) | 2018-02-28 | 2023-11-07 | Robert Bosch Gmbh | System and method for audio event detection in surveillance systems |
CN111742365A (zh) * | 2018-02-28 | 2020-10-02 | 罗伯特·博世有限公司 | 用于监控系统中的音频事件检测的系统和方法 |
WO2020054409A1 (ja) * | 2018-09-11 | 2020-03-19 | ソニー株式会社 | 音響イベント認識装置および方法、並びにプログラム |
WO2020054822A1 (ja) * | 2018-09-13 | 2020-03-19 | LiLz株式会社 | 音解析装置及びその処理方法、プログラム |
JPWO2020054822A1 (ja) * | 2018-09-13 | 2021-04-01 | LiLz株式会社 | 音解析装置及びその処理方法、プログラム |
JP2021119401A (ja) * | 2018-09-13 | 2021-08-12 | LiLz株式会社 | 音解析装置及びその処理方法、プログラム |
CN111640456B (zh) * | 2020-06-04 | 2023-08-22 | 合肥讯飞数码科技有限公司 | 叠音检测方法、装置和设备 |
CN111640456A (zh) * | 2020-06-04 | 2020-09-08 | 合肥讯飞数码科技有限公司 | 叠音检测方法、装置和设备 |
CN112188241A (zh) * | 2020-10-09 | 2021-01-05 | 上海网达软件股份有限公司 | 一种用于直播流实时生成字幕的方法及系统 |
WO2023140397A1 (ko) * | 2022-01-20 | 2023-07-27 | 주식회사 사이디라이트 | 인공지능을 이용한 시청약자를 위한 방송 콘텐츠의 라벨 정보의 시청자 감정 호환 매칭 시스템 |
WO2023140396A1 (ko) * | 2022-01-20 | 2023-07-27 | 주식회사 사이디라이트 | 인공지능을 이용한 시청약자를 위한 방송 콘텐츠 소리 정보의 시각화 시스템 |
Also Published As
Publication number | Publication date |
---|---|
JP6323947B2 (ja) | 2018-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6323947B2 (ja) | 音響イベント認識装置、及びプログラム | |
US11900947B2 (en) | Method and system for automatically diarising a sound recording | |
Povolny et al. | Multimodal emotion recognition for AVEC 2016 challenge | |
US8775174B2 (en) | Method for indexing multimedia information | |
JP6066354B2 (ja) | 信頼度計算の方法及び装置 | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
Huijbregts | Segmentation, diarization and speech transcription: surprise data unraveled | |
Rybach et al. | Audio segmentation for speech recognition using segment features | |
JP4869268B2 (ja) | 音響モデル学習装置およびプログラム | |
WO2005122144A1 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
WO2008050649A1 (fr) | Système, procédé et programme de récapitulation de contenu | |
Akbacak et al. | Rich system combination for keyword spotting in noisy and acoustically heterogeneous audio streams | |
Furui | Recent progress in corpus-based spontaneous speech recognition | |
Tejedor et al. | Comparison of methods for language-dependent and language-independent query-by-example spoken term detection | |
Kaushik et al. | Automatic audio sentiment extraction using keyword spotting. | |
CN113129895A (zh) | 一种语音检测处理系统 | |
Ariki et al. | Highlight scene extraction in real time from baseball live video | |
JP2004233541A (ja) | ハイライトシーン検出システム | |
JP7178890B2 (ja) | 音声認識システム、及び音声認識装置 | |
Saz et al. | Lightly supervised alignment of subtitles on multi-genre broadcasts | |
US20240304181A1 (en) | Connecting different asr application domains with speaker-tags | |
JP4949310B2 (ja) | 音響処理装置およびプログラム | |
Pham et al. | Temporal confusion network for speech-based soccer event retrieval | |
JP2009204732A (ja) | 音声認識装置、音声認識辞書作成方法およびプログラム | |
JP2007188169A (ja) | 映像被写体抽出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170327 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180313 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180409 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6323947 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |