JP5578453B2 - 音声分類装置、方法、プログラム及び集積回路 - Google Patents

音声分類装置、方法、プログラム及び集積回路 Download PDF

Info

Publication number
JP5578453B2
JP5578453B2 JP2012515710A JP2012515710A JP5578453B2 JP 5578453 B2 JP5578453 B2 JP 5578453B2 JP 2012515710 A JP2012515710 A JP 2012515710A JP 2012515710 A JP2012515710 A JP 2012515710A JP 5578453 B2 JP5578453 B2 JP 5578453B2
Authority
JP
Japan
Prior art keywords
feature
section
audio signal
acoustic
sections
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012515710A
Other languages
English (en)
Other versions
JPWO2011145249A1 (ja
Inventor
知浩 小沼
明 石田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to JP2012515710A priority Critical patent/JP5578453B2/ja
Publication of JPWO2011145249A1 publication Critical patent/JPWO2011145249A1/ja
Application granted granted Critical
Publication of JP5578453B2 publication Critical patent/JP5578453B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Description

本発明はマルチメディアコンテンツの処理技術に関し、特にマルチメディアコンテンツに含まれる音声を用いた分類技術に関する。
近年、動画撮影機能付き携帯電話機やデジタルビデオカメラ等の普及により、個人ユーザが膨大な数のマルチメディアコンテンツ(ここでは音声付きの動画とする。以下、単に動画という。)を保有することができるようになってきている。そのため、動画を効率的に検索するための手段が必要になってきている。
動画を検索するための方法としては、動画に事前にタイトルを付与したり複数のカテゴリのいずれかに分類するなどして、そのタイトルやカテゴリによって検索する方法がある。
また、予め動画に対してサムネイルを作成しておいて、動画のサムネイルを並べて表示することで、ユーザが目で見て探しやすくする方法もある。
しかしこれらの方法では、動画に事前に適切なタイトルを付与する、カテゴリに分類する、サムネイルを作成する等の作業が必要であり、手間が掛かる。
ところで、動画の分類に関する技術としては、音声に着目してスポーツの動画からハイライト部分を抽出するものが開示されている(特許文献1参照)。特許文献1の技術では、動画に含まれる音声の短時間(30ms程度)の各区間から特徴を抽出し、特定の特徴(拍手や歓声など)を示す音声が一定時間以上続いた期間をハイライト部分として分類する。
また、音声の分類に関する技術として、討論音声を対象として未知話者の発声を分類する技術が開示されている(非特許文献1参照)。非特許文献1の技術では、事前に多数の話者の特徴データを用意し、音声と各特徴データとの類似度によってクラスタリングを行うことで話者の発声区間を分類する。
上記2つの技術を用いると、動画に含まれる音声中のどの部分(例えば数ミリ秒から数秒程度の長さの部分)が何の音声であるかを分類することは可能である。例えば特許文献1の技術を用いると、盛大な拍手が所定時間以上続く部分はイベントが盛り上がっているハイライト部分として分類できる。また、非特許文献1の技術を用いると、討論音声においてどの部分で誰が発言しているのかを分類することができる。
特開2004−258659号公報
秋田祐哉、河原達也、"多数話者モデルを用いた討論音声の教師なし話者インデキシング"、電子情報通信学会論文誌 2004/2 Vol.J87−D−II No.2、pp.495−503
これら従来の技術は様々な音が入り混じった音声の中で特定の分類(特定の話者やハイライトシーン)に属する部分を抽出するものである。しかしながら、その音声がどのようなイベントや状況に関する音声であるかという分類を行うものではない。ここでいうイベントや状況というのは、例えばパーティや会議、スポーツなどである。
したがって、これらの技術を動画に含まれる音声に対して用いることでその動画の分類を行おうとしても、適切な分類は行えない。
本発明は上記の点を鑑み、動画を分類することで検索の手間を軽減するため、音声によって動画を分類できるように、様々な音が入り混じった音声を適切に分類する装置、方法、プログラム及び集積回路を提供することを目的とする。
上記課題を解決するために本発明に係る音声分類装置は、オーディオ信号を取得する取得手段と、前記オーディオ信号が含む所定時間長の複数の区間それぞれについて音の周波数分布に係る特徴である区間特徴を抽出する区間特徴抽出手段と、前記区間特徴と比較される基準である基準区間特徴を複数記憶している基準区間特徴記憶手段と、前記複数の区間それぞれについて、前記区間特徴と前記基準区間特徴それぞれとを比較して、当該区間特徴と当該基準区間特徴との相関の程度を示す区間類似度を計算する計算手段と、前記オーディオ信号について、前記複数の区間それぞれにおいて計算された複数の区間類似度に基づく、複数の区間に係る特徴である総合特徴を抽出する総合特徴抽出手段と、前記総合特徴と比較する基準である基準総合特徴を1以上記憶している基準総合特徴記憶手段と、前記オーディオ信号の総合特徴と前記基準総合特徴とを比較して、その結果に基づいて、当該オーディオ信号を分類する分類手段とを備える。
上記の構成を持つ音声分類装置によれば、オーディオ信号の各区間がどのような音とどの程度相関しているかを示す区間類似度を求め、複数の区間それぞれの区間類似度から総合特徴を抽出している。こうして抽出した総合特徴は、オーディオ信号に含まれる様々な音が入り混じりかたを表していることとなり、オーディオ信号の由来となったイベントや状況を反映していると考えられる。そして総合特徴と、分類基準のデータである基準総合特徴とを比較することにより分類を行っている。
このように複数の区間の特徴を総合して分類に用いることにより、様々な音が入り混じった音声を適切に分類することができる。
本発明の実施形態1に係る映像記録装置の機能構成及び周辺装置を示す図である。 音声分類部の機能構成を示す図である。 音響特徴の構成及び各区間から抽出された音響特徴の例である。 音響特徴辞書のデータ構成及び内容例である。 区間特徴の構成及び各区間から抽出された区間特徴の例である。 区間特徴辞書のデータ構成及び内容例である。 各区間における各区間特徴との区間類似度の例である。 各区間の代表区間特徴の例である。 総合特徴のデータ構成及び内容例である。 総合特徴辞書のデータ内容及び構成例である。 カテゴリ毎の総合類似度及び分類結果の例である。 動画記録処理を示す流れ図である。 音声分類処理を示す流れ図である。 動画表示処理を示す流れ図である。 実施形態2に係る映像記録装置の機能構成図である。 基準作成部の機能構成図である。 基準作成処理を示す流れ図である。 音響特徴辞書作成処理を示す流れ図である。 区間特徴辞書作成処理を示す流れ図である。 総合特徴辞書作成処理を示す流れ図である。
以下、本発明の実施の形態として、音声付き動画(以下、単に「動画」という)に含まれるオーディオ信号によって動画を分類する映像記録装置について、図面を参照しながら説明する。
<1.実施形態1>
<1−1.概要>
図1は本発明の実施形態1に係る映像記録装置100及びその周辺装置を示している。記録媒体110は動画のファイル群を記録しており、表示装置120は映像記録装置100から出力される映像を表示する。ここで、ファイル群は1つ以上のファイルの集まりであるとする。
映像記録装置100は、記録媒体110から動画のファイル群を取得し、取得したファイル群を記録する。記録したファイル群の各動画を、その動画に含まれるオーディオ信号によってカテゴリに分類する。ここで、カテゴリは分類先のことである。
そして映像記録装置100は、ユーザの操作を受けて、分類結果に応じた映像を表示装置120に出力する。
オーディオ信号による分類は以下のように行う。
まず分類対象のオーディオ信号の所定時間長(例えば10ms)の区間毎に音響分析を行って区間特徴(図5を参照)を抽出する。抽出した区間特徴と、予め定められた各基準区間特徴(図6を参照)と比較して、類似度(図7を参照)を計算する。そして各区間について最も類似度の高い基準区間特徴(図8を参照)を求める。以下、所定時間長の区間のことを短時間区間と呼ぶこととする。また、最も類似度の高い基準区間特徴を代表区間特徴と呼ぶこととする。
ここで区間特徴は、オーディオ信号の短時間区間がどのような音の特徴をどの程度持つかを示すものである。また、基準区間特徴は区間特徴と比較される基準であり、各基準区間特徴は互いに異なる。
次に、各短時間区間について求めた代表区間特徴を用いて、オーディオ信号の複数の短時間区間に係る1つの特徴である総合特徴(図9を参照)を抽出する。
ここで総合特徴は、各基準区間特徴について、その基準区間特徴が代表区間特徴となる短時間区間が全短時間区間のうちどの程度あるかを示す含有度として表される。基準区間特徴の含有度は、その基準区間特徴が代表区間特徴となる短時間区間の個数を数え、その個数の、分類対象のオーディオ信号に含まれる短時間区間の総数に対する割合として算出する。
そして、分類対象のオーディオ信号における総合特徴と、予め定められた分類基準として用いられるカテゴリ毎の基準総合特徴(図10を参照)とを比較することによりそのオーディオ信号を分類する。その分類結果を、そのオーディオ信号を含んでいる動画の分類とする。
<1−2.構成>
<1−2−1.全体の構成>
映像記録装置100は、ハードウェアに関しては動画のファイル群を取得する入力装置、映像を出力する出力端子、ユーザの操作を受け付ける押しボタン、データとプログラムとを記憶するメモリ及びプログラムを実行するプロセッサにより構成される。
図1に示すように、映像記録装置100は、入力部101、コンテンツ記憶部102、音声抽出部103、音声分類部104、分類情報記憶部105、出力部106及び操作部107により構成される。
入力部101、音声抽出部103、出力部106及び操作部107の機能は、メモリに格納されているプログラムをプロセッサが実行することにより実現される。
コンテンツ記憶部102及び分類情報記憶部105はメモリによって実現される。
入力部101は記録媒体110を着脱可能な入力装置を有し、装着された記録媒体110から動画のファイル群を取得する機能を有する。更に入力部101は、取得したファイル群をコンテンツ記憶部102に格納する。
コンテンツ記憶部102は入力部101が取得したファイル群を記憶するメモリの領域である。
音声抽出部103は、コンテンツ記憶部102に格納されている動画のファイルからオーディオ信号を抽出する機能を有する。また、符号化されたオーディオ信号をデコードする。
音声分類部104は、音声抽出部103で抽出されたオーディオ信号を分類する機能を有する。分類した結果は、対象のオーディオ信号を含む動画のファイルを特定するファイル名と、分類先の分類IDとを対応付けて分類情報記憶部105に格納する。
分類情報記憶部105は、音声分類部104がオーディオ信号を分類した結果を記憶するメモリの領域である。
出力部106は出力端子を有し、表示装置120に対して映像を出力する機能を有する。
操作部107は押しボタン等を有し、ユーザからの操作を受け付ける機能を有する。
<1−2−2.音声分類部104の構成>
以下、音声分類部104について更に詳しく説明する。
図2は音声分類部104の機能構成図である。
音声分類部104は、音響特徴抽出部201、基準音響特徴記憶部202、区間特徴抽出部203、基準区間特徴記憶部204、区間類似度計算部205、総合特徴抽出部206、基準総合特徴記憶部207及び分類部208により構成される。
音響特徴抽出部201、区間特徴抽出部203、区間類似度計算部205、総合特徴抽出部206及び分類部208の機能は、メモリに格納されたプログラムをプロセッサが実行することにより実現される。
基準音響特徴記憶部202、基準区間特徴記憶部204及び基準総合特徴記憶部207は、メモリにより実現される。
音響特徴抽出部201は、音声抽出部103で抽出したオーディオ信号の短時間区間毎に、区間特徴の抽出に用いられる音響特徴301を抽出する機能を有する。音響特徴301のデータ構成及び抽出結果の例は図3に示す。
音響特徴301としては、MFCC(Mel−Frequency Cepstral Coefficients:メル周波数ケプストラム係数)を用いることができる。MFCCを用いると音響特徴301は所定数の次元を持つベクトルとして表すことができる。以下では、26次元とした場合を例にとって説明する。
図3に示すように、音響特徴301はM01〜M26の26次元の成分を持つベクトルとして表される。同図の例は、5000msのオーディオ信号の各区間から音響特徴301を抽出している途中経過の状況を示している。0〜10msの短時間区間から1000〜1010msの短時間区間までの音響特徴301が抽出されており、4990〜5000msの短時間区間は未だ音響特徴301が抽出されていない。
基準音響特徴記憶部202は、区間特徴抽出部203が使用する音響特徴辞書400のデータを格納しているメモリの領域である。
図4は音響特徴辞書400のデータ構成及び内容例である。同図に示すように音響特徴辞書400は、基準音響特徴401と音響ID402(IDentifier)との組により構成されている。なお、図中では説明の便宜のため各基準音響特徴401に対応する名前(左端の列)を表記しているが、実際には名前を音響特徴辞書400に含める必要はない。
ここで基準音響特徴401は、区間特徴抽出部203が各単時間区間の音響特徴301と比較するためのデータであり、音響特徴301の構成に相当する構成を持つ。ここでは、基準音響特徴401は音響特徴301と同じM01〜M26の26次元の成分を持つベクトルとして表される。基準音響特徴401は短時間区間に鳴っている音(歓声や笛の音など)の特徴を示している。
また、音響ID402は各基準音響特徴401を識別するためのIDであり、各基準音響特徴401と1対1に対応付けられている。
図4の例では、「歓声」や「笛の音」など、A001〜A100までの音響ID402を持つ100個の基準音響特徴401が音響特徴辞書400に含まれている。例えば「歓声」の基準音響特徴401は、歓声を録音したオーディオ信号から作成されたデータである。
音響特徴辞書400は予め作成されて基準音響特徴記憶部202に格納されているものとし、変更されないものとする。
以下では、図4で示した音響特徴辞書400に含まれる基準音響特徴401を例にとる場合には、その基準音響特徴401を音響ID402によって呼ぶこととする。例えば、“A001”の音響ID402で識別される基準音響特徴401は、“基準音響特徴A001”と呼ぶ。
区間特徴抽出部203は、短時間区間毎に区間特徴501を抽出する機能を有する。区間特徴501のデータ構成及び抽出結果の例は図5に示す。
区間特徴501は、オーディオ信号の短時間区間毎に、どの音がどの程度含まれているかを示すデータであり、音響特徴301と基準音響特徴401との類似度により構成される。類似度は音響特徴301を示すベクトルと基準音響特徴401を示すベクトルとのユークリッド距離等から求めることができる。以下、音響特徴301と基準音響特徴401との類似度を音響類似度ということとする。
図5に示すように、区間特徴501は音響特徴辞書400が持つ各基準音響特徴401(ここでは基準音響特徴A001〜基準音響特徴A100)との音響類似度により構成されている。区間特徴501は上記の各音響類似度を成分として持つ100次元のベクトルとして表される。
同図の例は、5000msのオーディオ信号の各区間から区間特徴501を抽出している途中経過の状況を示している。0〜10msの短時間区間から1000〜1010msの短時間区間までの区間特徴501が抽出されており、4990〜5000msの短時間区間は未だ区間特徴501が抽出されていない。
基準区間特徴記憶部204は、区間類似度計算部205が使用する区間特徴辞書600のデータを格納しているメモリの領域である。
図6は区間特徴辞書600のデータ構成及び内容例である。同図に示すように区間特徴辞書600は、基準区間特徴601と特徴ID602との組により構成されている。なお、図中では説明の便宜のため各基準区間特徴601に対応する名前(左端の列)を表記しているが、実際には名前を区間特徴辞書600に含める必要はない。
ここで基準区間特徴601は、区間類似度計算部205が各単時間区間の区間特徴501と比較するためのデータであり、区間特徴501の構成に相当する構成を持つ。ここでは、基準区間特徴601は区間特徴501と同じく音響特徴辞書400が持つ各基準音響特徴401との音響類似度に相当するデータで構成されている。基準区間特徴601は区間特徴501と同じく100次元のベクトルとして表される。
基準区間特徴601は短時間区間における状況(音楽が鳴っている、屋外にいる等)を表している。
また、特徴ID602は各基準区間特徴601を識別するためのIDであり、各基準区間特徴601と1対1に対応付けられている。
図6の例では、「音楽」や「屋外」など、F001〜F100までの特徴ID602を持つ100個の基準区間特徴601が区間特徴辞書600に含まれている。例えば「音楽」の基準区間特徴601は、音楽を録音したオーディオ信号から作成されたデータである。
区間特徴辞書600は予め作成されて基準区間特徴記憶部204に格納されているものとし、変更されないものとする。
以下では、図6で示した区間特徴辞書600に含まれる基準区間特徴601を例にとる場合には、その基準区間特徴601を特徴ID602によって呼ぶこととする。例えば、“F001”の特徴ID602で識別される基準区間特徴601は、“基準区間特徴F001”と呼ぶ。
区間類似度計算部205は、短時間区間毎に区間特徴抽出部203が抽出した区間特徴501と各基準区間特徴601との類似度を計算する機能を有する。ここで、区間特徴501と基準区間特徴601との類似度を区間類似度ということとする。
図7は区間類似度計算部205が計算した区間類似度の例である。同図に示すように、区間類似度は短時間区間毎に基準区間特徴F001〜基準区間特徴F100に対して計算される。同図の例は、5000msのオーディオ信号の各区間での区間類似度を計算している途中経過の状況を示している。0〜10msの短時間区間から1000〜1010msの短時間区間までの区間類似度が計算されており、4990〜5000msの短時間区間は未だ区間類似度が計算されていない。
区間類似度計算部205は更に、区間類似度を計算した結果から、オーディオ信号の短時間区間毎にその短時間区間との区間類似度が最も高い基準区間特徴である代表区間特徴を判定する。代表区間特徴は、処理対象の短時間区間における状況を分類したものと考えることができる。
図8は区間類似度計算部205が判定した代表区間特徴の例である。同図の例では、0〜10msの短時間区間において、図7で最も区間類似度の高かった基準区間特徴F001が代表区間特徴と判定されている。そして、他の短時間区間についても同様にして最も区間類似度の高い基準区間特徴が代表区間特徴と判定されている。
総合特徴抽出部206は、区間類似度計算部205が各短時間区間について求めた代表区間特徴に基づいて総合特徴901を抽出する機能を有する。総合特徴901のデータ構成及び内容例は図9に示す。
総合特徴901は複数の短時間区間に係る特徴であり、オーディオ信号が全体的にどのような状況(パーティや会議等)であるかを表している。
ここでは総合特徴901は、各基準区間特徴について、その基準区間特徴が代表区間特徴である短時間区間が、オーディオ信号が含む全ての短時間区間のうちどの程度の割合で含まれているかを示す含有度により構成されているものとする。
図9に示すように、総合特徴901は区間特徴辞書600が持つ各基準区間特徴601(ここでは基準区間特徴F001〜基準区間特徴F100)についての含有度により構成されている。総合特徴901は上記の各含有度を成分として持つ100次元のベクトルとして表される。
基準総合特徴記憶部207は、分類部208が使用する総合特徴辞書1000のデータを格納しているメモリの領域である。
図10は総合特徴辞書1000のデータ構成及び内容例である。同図に示すように総合特徴辞書1000は、基準総合特徴1001と分類ID1002との組により構成されている。なお、図中では説明の便宜のため各基準総合特徴1001に対応する名前(左端の列)を表記しているが、実際には名前を総合特徴辞書1000に含める必要はない。
ここで基準総合特徴1001は、分類部208がオーディオ信号の総合特徴901と比較するためのデータであり、総合特徴901の構成に相当する構成を持つ。基準総合特徴1001は総合特徴901と同じく100次元のベクトルとして表される。
また、分類ID1002は各基準総合特徴1001を識別するためのIDであり、各基準総合特徴1001と1対1に対応付けられている。
それぞれの基準総合特徴1001及び分類ID1002は分類先のカテゴリと対応付けられている。
図10の例では、「パーティ」や「会議」など、C001〜C100までの分類ID1002を持つ100個の基準総合特徴1001が総合特徴辞書1000に含まれている。例えば「パーティ」の基準総合特徴1001は、パーティの様子を録音したオーディオ信号から作成されたデータである。
総合特徴辞書1000は予め作成されて基準総合特徴記憶部207に格納されているものとし、変更されないものとする。
分類部208は、総合特徴抽出部206がオーディオ信号から抽出した総合特徴901に基づいて、そのオーディオ信号を分類する機能を有する。具体的には、オーディオ信号の総合特徴901と、基準総合特徴記憶部207に格納されている各基準総合特徴1001とを比較して類似度を計算し、最も類似度の高いものに分類する。以下、総合特徴901と基準総合特徴1001との類似度を総合類似度ということとする。
分類部208は更に、分類対象のオーディオ信号を含むファイルと分類した結果の分類ID1002とを対応付けて分類情報記憶部105に格納する。
<1−3.動作>
以下では、映像記録装置100の動作について詳しく説明する。
映像記録装置100の動作は大きく分けて、動画記録処理及び動画表示処理に分けられる。また、動画記録処理には音声分類処理が含まれる。
動画記録処理は、記録媒体110から動画を取得して自装置内に記録し、それぞれの動画を分類する処理である。動画記録処理は、記録媒体110を映像記録装置100に装着した状態でユーザにより記録媒体110に格納されている動画を映像記録装置100に記録する旨の操作を受けたときに行われる。
音声分類処理は、動画を分類するために、その動画から抽出された音声の分類を行う処理である。そして、音声の分類結果は動画の分類にそのまま用いることとする。
動画表示処理は、音声分類処理の結果に基づいて動画を表示する処理である。動画表示処理は、ユーザから動画の表示を指示する操作を受けたときに行われる。
<1−3−1.動画記録処理>
以下、図12に示す流れ図に沿って処理を説明する。
まず、ユーザにより記録媒体110に記録されている動画を映像記録装置100に入力する旨の指示があった1以上の動画のファイルを入力部101が記録媒体110から取得し、コンテンツ記憶部102に格納する(ステップS1201)。
次に、コンテンツ記憶部102に格納されている動画のファイル群から未分類の動画を1つ取得し、音声抽出部103がその動画からオーディオ信号を抽出する(ステップS1202)。ここで未分類の動画というのは、分類情報記憶部105にその動画の分類の結果が格納されていない動画のことである。ステップS1202で取得した動画は、最初は全て未分類の状態である。
そして、音声抽出部103により抽出されたオーディオ信号に対して、音声分類部104が音声分類処理を行う(ステップS1203)。この音声分類処理の中で、分類情報記憶部105にその動画を分類した結果を格納する。
音声分類処理が終了すると、コンテンツ記憶部102に格納されている動画のファイル群から未分類の動画があるか否かを判定する(ステップS1204)。
ない場合(ステップS1204:No)、即ち全ての動画が分類された場合には動画記録処理を終了する。ある場合(ステップS1204:Yes)にはステップS1202に戻る。
<1−3−2.音声分類処理>
以下、図13に示す流れ図に沿って、1つの動画から抽出された1つのオーディオ信号についての音声分類処理を説明する。ここでは、分類対象のオーディオ信号をオーディオ信号Aということとする。
この処理では、オーディオ信号Aが含む全ての短時間区間について基準区間特徴601それぞれとの区間類似度を求め、その結果からオーディオ信号Aの総合特徴901を抽出して分類する。
まず、各基準区間特徴についての含有区間数を全て0にする(ステップS1301)。
ここで基準区間特徴の含有区間数は、この音声分類処理を開始してから処理対象とした短時間区間のうち、その基準区間特徴が代表区間特徴となる短時間区間の個数である。含有区間数は含有度の計算に用いられる。
次に、オーディオ信号Aが含む短時間区間のうち、今回の音声分類処理が始まってから未だ処理対象としていない短時間区間が存在するか否かを判定する(ステップS1302)。
存在する場合(ステップS1302:Yes)、未処理の短時間区間のうちの1つを処理対象の短時間区間として選択する(ステップS1303)。以降、このステップで選択した短時間区間は短時間区間Sということとする。
ここでは短時間区間Sは、オーディオ信号Aの最初の10msの区間から順次選択していくものとする。例えば、今回の音声分類処理が始まってから1回目のステップS1303では最初の0〜10msの区間を選択し、2回目のステップS1303では10〜20msの区間を選択する。
音響特徴抽出部201が短時間区間Sから音響特徴301を抽出する(ステップS1304)。ここでは、短時間区間SについてMFCCの計算を行うことにより音響特徴301を抽出する。
ステップ1304の処理を、1000〜1010msまで行った途中経過の例は図3に示す。
区間特徴抽出部203が、短時間区間Sの音響特徴301と基準音響特徴記憶部202に格納されている音響特徴辞書400の各基準音響特徴401との音響類似度を計算することで、短時間区間Sの区間特徴501を抽出する(ステップS1305)。
音響類似度の計算は、音響特徴301を示すベクトルと基準音響特徴401を示すベクトルとのユークリッド距離を用いた方法を用いることができる。例えばユークリッド距離を変数としたガウス関数で計算することができる。
ステップ1305の処理を、1000〜1010msまで行った途中経過の例は図5に示す。
区間類似度計算部205が、短時間区間Sの区間特徴501と基準区間特徴記憶部204に格納されている区間特徴辞書600の各基準区間特徴601との区間類似度を計算する(ステップS1306)。
区間類似度の計算は、区間特徴501を示すベクトルと基準区間特徴601を示すベクトルとのユークリッド距離を用いた方法を用いることができる。例えばユークリッド距離を変数としたガウス関数で計算することができる。
ステップ1306の処理を、1000〜1010msまで行った途中経過の例は図7に示す。
そして、短時間区間Sと最も区間類似度の高かった基準区間特徴を、短時間区間Sの代表区間特徴として選び出す。最も高い区間類似度となる基準区間特徴が複数あった場合には、所定の条件によって1つの基準区間特徴(例えば特徴ID602の数値の部分が小さい方)を選び出す。
ステップ1307の処理を、1000〜1010msまで行った途中経過の例は図8に示す。
総合特徴抽出部206が、区間類似度計算部205により選び出された代表区間特徴である基準区間特徴の含有区間数を1増やす(ステップS1307)。
ステップS1307が終了すると、次の短時間区間について処理を行うためステップS1302に戻る。
ステップS1302において、未処理の区間が存在しないと判定された場合(ステップS1302:No)、即ち全ての区間について区間毎の処理が終了した場合には、以下の処理を行う。
まず総合特徴抽出部206が、各基準区間特徴のオーディオ信号Aにおける含有度を計算することでオーディオ信号Aの総合特徴901を抽出する(ステップS1308)。ここで含有度は、含有区間数をオーディオ信号Aの短時間区間の総数で割った値として算出される。
ステップ1308で総合特徴901を抽出した結果の例は図9に示す。
次に分類部208が、総合特徴抽出部206により抽出された総合特徴901と、基準総合特徴記憶部207に格納されている総合特徴辞書1000の各基準総合特徴1001との総合類似度を計算し、最も総合類似度の高い基準総合特徴に対応するカテゴリに分類する(ステップS1309)。最も高い総合類似度となる基準総合特徴が複数あった場合には、所定の条件によって1つの基準総合特徴(例えば分類ID1002の数値の部分が小さい方)を選び出し、選び出した基準総合特徴に対応するカテゴリに分類する。
ステップS1309で総合類似度の計算を行った結果及び分類結果の例は図11に示す。
最後に分類部208が、オーディオ信号Aを含む動画のファイル名と、分類したカテゴリの分類IDとを対応付けて分類情報記憶部105に格納する(ステップS1310)。
<1−3−3.動画表示処理>
以下、図14に示す流れ図に沿って動画表示処理を説明する。
ユーザから動画の表示を指示する操作を受けると、出力部106が表示装置120に、ユーザが表示を所望するカテゴリを入力するよう促す画面を表示させて、操作部107が入力を受け付ける(ステップS1401)。ここでは、カテゴリ一覧を表示して、一覧からカテゴリを選択することで入力できるようにしていることとする。
ユーザから表示を所望するカテゴリの入力があると、そのカテゴリに対応する分類IDによって、分類情報記憶部105に格納されているデータからそのカテゴリに属するファイルを検索する(ステップS1402)。
検索した結果、ユーザの選択したカテゴリに属するファイルの動画を出力部106が出力し、表示装置120にその動画を再生させる(ステップS1403)。
<2.実施形態2>
本発明の実施形態2として、実施形態1の映像記録装置100を、音響特徴辞書400、区間特徴辞書600及び総合特徴辞書1000を自装置内で作成するように変形した映像記録装置100aについて説明する。
なお、以下では音響特徴辞書400、区間特徴辞書600及び総合特徴辞書1000をまとめて基準データということとする。
<2−1.概要>
実施形態1の映像記録装置100では、基準データは予め作成されており、自装置内で作成や変更をしないこととしていた。
実施形態2の映像記録装置100aではこれらの基準データを、ユーザが入力した動画に含まれるオーディオ信号を用いて作成する。
こうすることにより、ユーザの記録する動画の傾向により良く合った分類が行えるようになる。
<2−2.構成>
映像記録装置100aの構成は図15の機能構成図に示すように、映像記録装置100に加えて基準作成部1501を備え、他は映像記録装置100と同様である。
基準作成部1501は、コンテンツ記憶部102に格納されている動画に含まれるオーディオ信号から基準データを作成する機能を有する。作成した基準データは、音声分類部104に含まれる基準音響特徴記憶部202、基準区間特徴記憶部204及び基準総合特徴記憶部207に格納する。
以下、基準作成部1501について更に詳しく説明する。
図16は基準作成部1501の機能構成図である。
同図に示すように、基準作成部1501は基準音声記憶部1601、音響特徴抽出部201a、区間特徴抽出部203a、区間類似度計算部205a、総合特徴抽出部206a、基準音響特徴作成部1602、基準区間特徴作成部1603及び基準総合特徴作成部1604により構成される。
音響特徴抽出部201a、区間特徴抽出部203a、区間類似度計算部205a、総合特徴抽出部206a、基準音響特徴作成部1602、基準区間特徴作成部1603及び基準総合特徴作成部1604は、メモリに格納されたプログラムをプロセッサが実行することにより実現される。
基準音声記憶部1601は、基準データを作成するために用いられる複数のオーディオ信号を記憶するメモリの領域である。
基準音声記憶部1601には、ユーザが使用する前の初期状態の基準データを作成するための複数のオーディオ信号が予め格納されている。予め格納されているオーディオ信号の数は、基準総合特徴作成部1604が作成する基準総合特徴の数以上であるものとする。
そして、ユーザが映像記録装置100aに動画を入力すると、その動画に含まれるオーディオ信号を更に格納する。
音響特徴抽出部201a、区間特徴抽出部203a、区間類似度計算部205a及び総合特徴抽出部206aは、基準音声記憶部1601に格納されているオーディオ信号を元に処理を行うこと以外は、それぞれ音声分類部104に含まれる音響特徴抽出部201、区間特徴抽出部203、区間類似度計算部205及び総合特徴抽出部206と全く同様の機能を持つ。
基準音響特徴作成部1602は、音響特徴抽出部201aが音響特徴を抽出した結果から音響特徴辞書400を作成する機能を有する。作成した音響特徴辞書400は、音声分類部104に含まれる基準音響特徴記憶部202に格納する。
基準区間特徴作成部1603は、区間特徴抽出部203aが区間特徴を抽出した結果から区間特徴辞書600を作成する機能を有する。作成した区間特徴辞書600は、音声分類部104に含まれる基準区間特徴記憶部204に格納する。
基準総合特徴作成部1604は、総合特徴抽出部206aが総合特徴を抽出した結果から総合特徴辞書1000を作成する機能を有する。作成した総合特徴辞書1000は、音声分類部104に含まれる基準総合特徴記憶部207に格納する。
<2−3.動作>
以下、映像記録装置100aの動作について説明する。なお、実施形態1の映像記録装置100と同じ動作の部分については説明を割愛する。
映像記録装置100aの動作は、動画記録処理の一部を変更し、基準作成処理を追加している。
<2−3−1.動画記録処理>
動画記録処理(図12)は、以下のように変更される。
実施形態1では動画を取得(ステップS1201)した際に、取得した動画をコンテンツ記憶部102に格納することとした。実施形態2では更に、その動画からオーディオ信号を抽出して、基準作成部1501に含まれる基準音声記憶部1601にそのオーディオ信号を格納する。
<2−3−2.基準作成処理>
基準作成処理は、基準データを作成する処理である。
基準作成処理は、ユーザによる基準作成を指示する旨の操作を操作部107が受けたときに行われる。
以下、図17に示す流れ図に沿って基準作成処理を説明する。
基準音響特徴作成部1602が音響特徴辞書400を作成し、基準音響特徴記憶部202に格納する音響特徴辞書作成処理を行う(ステップS1701)。
基準区間特徴作成部1603が区間特徴辞書600を作成し、基準区間特徴記憶部204に格納する区間特徴辞書作成処理を行う(ステップS1702)。
基準総合特徴作成部1604が総合特徴辞書1000を作成し、基準総合特徴記憶部207に格納する総合特徴辞書作成処理を行う(ステップS1703)。
そして、コンテンツ記憶部102に格納されている全ての動画のファイルに対して、音声抽出部103がオーディオ信号の抽出を行い、音声分類部104が音声分類処理を行う(ステップS1704)。
<2−3−3.音響特徴辞書作成処理>
音響特徴辞書作成処理は、上述の基準作成処理の一部である。
以下、図18に示す流れ図に沿って音響特徴辞書作成処理を説明する。
まず音響特徴抽出部201aが、基準音声記憶部1601に格納されている全オーディオ信号の全短時間区間から音響特徴を抽出する(ステップS1801)。
次に、抽出された全ての音響特徴を分類対象としてクラスタリングする(ステップS1802)。
クラスタリングは、大量のデータをクラスタと呼ばれるデータの集合に分類する手法である。ここではクラスタリングの方法として、k−means法を用いることとする。
k−means法では、生成するクラスタの数k(例えば100)を予め決め、分類対象とする大量のデータ(ここでは音響特徴)から自動的にクラスタをk個生成する。そして、分類対象の全てのデータを、k個のクラスタのいずれか1つに分類する。
そして、音響特徴をクラスタリングした結果に基づいて、音響特徴辞書400を作成する(ステップS1803)。
ここでは、各クラスタに属する音響特徴の平均値をそれぞれ基準音響特徴401とし、k個の基準音響特徴401を計算する。そして、計算したk個の基準音響特徴401それぞれに音響ID402を対応付け、k個の基準音響特徴401を持つ音響特徴辞書400を作成する。
音響ID402は、今回の音響特徴辞書作成処理を始めてから各クラスタを生成した順に、A001から“A”に3桁の連番を付加したIDを対応付けるものとする。例えば、25番目に生成したクラスタに対応する音響ID402はA025となり、そのクラスタから計算された基準音響特徴401とA025の音響ID402とが対応付けられる。
最後に、基準音響特徴記憶部202に、新たに作成した音響特徴辞書400を格納する(ステップS1804)。ここでは、基準音響特徴記憶部202に既に音響特徴辞書400が格納されていた場合には、新たに作成した音響特徴辞書400で上書きすることとする。
<2−3−4.区間特徴辞書作成処理>
区間特徴辞書作成処理は、上述の基準作成処理の一部である。
以下、図19に示す流れ図に沿って区間特徴辞書作成処理を説明する。
まず区間特徴抽出部203aが、基準音声記憶部1601に格納されている全オーディオ信号の全短時間区間の区間特徴を抽出する(ステップS1901)。
各単時間区間の区間特徴の抽出には、音響特徴抽出部201aが抽出した音響特徴と、上述の音響特徴辞書作成処理で作成された音響特徴辞書400とを用いる。
次に、抽出された全ての区間特徴を分類対象としてクラスタリングする(ステップS1902)。ここではk−means法を用いて、クラスタの数k=100としてクラスタリングすることとする。
そして、区間特徴をクラスタリングした結果に基づいて、区間特徴辞書600を作成する(ステップS1903)。
ここでは、各クラスタに属する区間特徴の平均値をそれぞれ基準区間特徴601とし、k個の基準区間特徴601を計算する。そして、計算したk個の基準区間特徴601それぞれに特徴ID602を対応付け、k個の基準区間特徴601を持つ区間特徴辞書600を作成する。
特徴ID602は、今回の区間特徴辞書作成処理を始めてから各クラスタを生成した順に、F001から“F”に3桁の連番を付加したIDを対応付けるものとする。例えば、50番目に生成したクラスタに対応する特徴ID602はF050となり、そのクラスタから計算された基準区間特徴601とF050の特徴ID602とが対応付けられる。
最後に、基準区間特徴記憶部204に、新たに作成した区間特徴辞書600を格納する(ステップS1904)。ここでは、基準区間特徴記憶部204に既に区間特徴辞書600が格納されていた場合には、新たに作成した区間特徴辞書600で上書きすることとする。
<2−3−5.総合特徴辞書作成処理>
総合特徴辞書作成処理は、上述の基準作成処理の一部である。
以下、図20に示す流れ図に沿って総合特徴辞書作成処理を説明する。
まず総合特徴抽出部206aが、基準音声記憶部1601に格納されている全オーディオ信号の総合特徴を抽出する(ステップS2001)。
各オーディオ信号の総合特徴の抽出には、区間類似度計算部205aが計算したそれぞれのオーディオ信号における短時間区間毎の区間類似度を用いる。
また、区間類似度計算部205aは短時間区間毎の区間類似度を、区間特徴抽出部203aが抽出した区間特徴と、上述の区間特徴辞書作成処理で作成された区間特徴辞書600とを用いて計算する。
次に、抽出された全ての総合特徴を分類対象としてクラスタリングする(ステップS2002)。ここではk−means法を用いて、クラスタの数k=100としてクラスタリングすることとする。
そして、総合特徴をクラスタリングした結果に基づいて、総合特徴辞書1000を作成する(ステップS2003)。
ここでは、各クラスタに属する総合特徴の平均値をそれぞれ基準総合特徴1001とし、k個の基準総合特徴1001を計算する。そして、計算したk個の基準総合特徴1001それぞれに分類ID1002を対応付け、k個の基準総合特徴1001を持つ総合特徴辞書1000を作成する。
分類ID1002は、今回の総合特徴辞書作成処理を始めてから各クラスタを生成した順に、C001から“C”に3桁の連番を付加したIDを対応付けるものとする。例えば、75番目に生成したクラスタに対応する分類ID1002はC075となり、そのクラスタから計算された基準総合特徴1001とC075の分類ID1002とが対応付けられる。
最後に、基準総合特徴記憶部207に、新たに作成した総合特徴辞書1000を格納する(ステップS1904)。ここでは、基準総合特徴記憶部207に既に総合特徴辞書1000が格納されていた場合には、新たに作成した総合特徴辞書1000で上書きすることとする。
<補足>
以上、本発明に係る音声分類装置について実施形態に基づいて説明したが、本発明は上述の実施形態で示した通りの音声分類装置に限られないことはもちろんである。
(1)本発明は、実施形態で示した音声分類の処理等(図6〜9を参照)を音声分類装置のプロセッサ及びそのプロセッサに接続された各種回路に実行させるためのプログラムコードからなる制御プログラムを、記録媒体に記録すること又は各種通信路等を介して流通させ頒布することもできる。このような記録媒体には、ICカード、ハードディスク、光ディスク、フレキシブルディスク、ROMなどがある。流通、頒布された制御プログラムはプロセッサに読み出されうるメモリなどに格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより各実施形態で示したような機能が実現されるようになる。なお、制御プログラムの一部を音声分類装置とは別個のプログラム実行可能な装置(プロセッサ)に各種ネットワークを介して送信して、その別個のプログラム実行可能な装置においてその制御プログラムの一部を実行させることとしても良い。
(2)音声分類装置を構成する構成要素の一部又は全部は、1又は複数の集積回路(IC、LSIなど)として実装されることとしても良く、音声分類装置の構成要素に更に他の要素を加えて集積回路化(1チップ化)されることとしても良い。
(3)実施形態1、2では映像記録装置の構成要素として音声分類装置を説明したが、音声記録装置の構成要素としても良いし、外部装置からオーディオ信号を取得して分類結果のカテゴリ名等を出力する音声分類装置であっても良い。つまり、オーディオ信号の分類を行う装置であればよい。
(4)実施形態1、2では記録媒体から動画のファイル群を取得することとしたが、取得の手段は記録媒体を用いる方法に限らない。無線又は有線の放送や、ネットワーク等から取得しても良い。また、音声分類装置がマイク等の録音装置を備え、その録音装置を用いて録音したオーディオ信号を取得しても良い。
(5)実施形態1、2では区間特徴抽出部が行う区間特徴の抽出を、音響特徴抽出部が抽出した音響特徴と、基準音響特徴記憶部に格納されている音響特徴辞書とに基づいて行うこととしたが、周波数分布に係る特徴を抽出する方法であればこれに限るものではない。
例えば、音響特徴抽出部と基準音響特徴記憶部とを省略し、区間特徴抽出部が区間特徴として、音響特徴に相当する特徴を抽出することとしても良い。この場合、基準区間特徴記憶部に格納されている区間特徴辞書も音響特徴辞書に相当するデータとなる。
(6)実施形態1、2ではコンテンツ記憶部、分類情報記憶部、基準特徴記憶部、基準区間特徴記憶部及び基準総合特徴記憶部はメモリにより実現されることとしたが、音声分類装置が読み書き可能な記憶装置であればこれに限るものではない。例えばハードディスクやフレキシブルディスク等であっても良いし、音声分類装置に内蔵の記憶装置ではなく外付けの記憶装置であっても良い。
(7)実施形態1、2では表示装置に映像を出力することとしたが、これに限るものではない。例えば、動画のファイルにその動画の分類結果を示すメタデータを付与し、そのファイルを外部記憶装置に出力しても良い。つまり、分類結果を用いた出力を行えばよい。
(8)実施形態1、2では操作部は押しボタン等によりユーザからの操作を受け付けることとしたが、何らかの契機により各種の処理を行うのであればこれに限るものではない。例えばリモコンによってユーザからの操作を受けても良いし、ユーザからの操作によらず記録媒体を装着したことを検出して自動的に各種の処理を行っても良い。
(9)実施形態1、2では音響特徴としてMFCCを用いることとしたが、オーディオ信号の短時間区間から抽出できる周波数に係る特徴であればMFCCに限る必要はない。例えば、短時間区間の周波数スペクトルを示す特徴であっても良い。
(10)実施形態1、2では分類結果は分類情報記憶部に格納することとしたが、分類対象のファイルのメタデータを書き込む領域に分類情報を格納して、動画ファイルと共にコンテンツ記憶部に格納しても良い。
また、分類IDに代えて、各カテゴリに対応するカテゴリ名の文字列を用いても良い。
(11)実施形態1では音響特徴辞書、区間特徴辞書及び総合特徴辞書はいずれも予め定められており変更されないとしたが、変更されることとしても差し支えない。例えば、これらのデータをネットワークからダウンロードして更新することとしても良い。
(12)実施形態1、2では含有度を求めるために含有区間数を求め、含有区間数を処理対象のオーディオ信号の区間数(全区間数)で割って含有度を算出したが、別の方法によって含有度を算出しても良い。
例えば、含有区間数を1増やす処理(図13のステップS1307)を、含有度を全区間数の逆数(1/全区間数)だけ増やす処理に置き換え、ステップS1308を省略しても良い。このようにすると、処理対象のオーディオ信号の全区間についてステップS1307が終了した段階で、含有度は含有区間数の全区間数に対する割合と等しくなる。
また、各基準区間特徴の含有度は処理対象のオーディオ信号にその基準区間特徴が代表区間特徴となる区間がどの程度含まれるかを示す値であれば、含有区間数を全区間数で割った値に限る必要はない。例えば、含有度は含有区間数の全区間数に対する割合を基準区間特徴毎に重み付けした値であっても良い。
重み付けの方法としては、基準区間特徴毎に逆出現頻度(IDF:Inverse Document Frequency)を求め、各割合をIDF値で重み付けして、TF−IDF(Term Frequency−Inverse Document Frequency)値として含有度を求める方法を用いても良い。
(13)実施形態1、2ではオーディオ信号の各短時間区間が連続した区間である場合について述べたが、各短時間区間はそれぞれの一部が重畳していても良いし、各短時間区間の間に区間特徴の検出に用いない期間があっても良い。
例えば短時間区間を、それぞれ2msずつ重畳させて、0〜10ms、8〜18ms、16〜26ms、24〜34ms…となるようにしても良い。
また、各短時間区間の間を20msずつ開けて、0〜10ms、30〜40ms、60〜70ms…となるようにしても良い。
(14)実施形態2では基準音響特徴作成部、基準区間特徴作成部及び基準総合特徴作成部はいずれも基準音声記憶部に格納されている同じオーディオ信号を用いて基準データの作成をそれぞれ行うこととしたが、それぞれ異なるオーディオ信号を用いても良い。
例えば、基準音響特徴作成部で用いるオーディオ信号は「笛の音」や「話し声」など単一の音源による音を録音したものであり、基準区間特徴作成部及び基準総合特徴作成部で用いるオーディオ信号は「パーティ」や「会議」など様々な音源からの音が混在する音を録音したものであっても良い。
また、基準音響特徴作成部で用いるオーディオ信号、基準区間特徴作成部で用いるオーディオ信号及び基準総合特徴作成部で用いるオーディオ信号をそれぞれユーザが選ぶこととしても良い。
(15)実施形態2では基準音響特徴作成部、基準区間特徴作成部及び基準総合特徴作成部が作成する基準データはいずれも100個であったが、100個以外の数でも良い。また、それぞれが異なる数の基準データを作成しても良いし、作成する数を予め定めず動的に基準データを作成する数を決めても良い。
(16)実施形態2では基準音声記憶部には予め基準作成用のオーディオ信号が格納されているものとしたが、必ずしも予め格納されている必要はない。例えば、ユーザが入力した動画から抽出したオーディオ信号のみを格納していても良い。
(17)実施形態2ではクラスタリングの手法としてk−means法を用いたが、他のクラスタリング手法でも良い。k−means法以外のクラスタリング手法としては、ウォード法などがある。
(18)実施形態1、2では音響類似度を、音響特徴と基準音響特徴との間のユークリッド距離を変数としたガウス関数により計算するものとしたが、音響特徴と基準音響特徴との相関関係を表せる値であればこれに限るものではない。
例えば、音響特徴と基準音響特徴との間のユークリッド距離をそのまま用いることとしても良い。この場合、音響類似度の値が小さいほど音響類似度が高いことになる。
同様に、区間類似度についても、区間特徴と基準区間特徴との間のユークリッド距離を変数としたガウス関数により計算するものには限らない。
また、総合類似度についても、総合特徴と基準総合特徴との間のユークリッド距離を変数としたガウス関数により計算するものには限らない。
(19)実施形態1、2では基準音響特徴は音響特徴の構成に相当する構成を持つこととしたが、音響特徴と比較できる構成であれば音響特徴と同じ構成に限る必要はない。基準音響特徴の構成を変更する場合には、音響類似度の計算方法を基準音響特徴の構成に合わせて変更する。
例えば、基準音響特徴は音響特徴の構成に相当するM01〜M26の26次元の成分を持つベクトルとガウス関数の分散の値とにより構成されるものとし、音響類似度をユークリッド距離と分散の値を用いてガウス関数により計算することとしても良い。
また、基準音響特徴は上記のベクトルと分散の値との組を複数持つものとし、音響類似度をGMM(Gaussian Mixture Model:ガウス混合モデル)によって計算しても良い。
(20)実施形態1では基準音響特徴を、「歓声」や「笛の音」等を録音したオーディオ信号から作成されたデータを例に挙げて説明したが、基準音響特徴が音響特徴と比較することのできるデータであれば作成の方法は問わない。
例えば、実施形態1の説明のように、歓声のオーディオ信号を集めてそのオーディオ信号から「歓声」の基準音声特徴を作成する等、予め分類されたオーディオ信号を集めてその分類毎に基準音声特徴を作成する「教師あり」の方法で作成しても良い。
また、実施形態2の映像記録装置100aのように、元々分類されていないオーディオ信号を集めてクラスタリング等により自動的に分類してその分類毎に基準音声特徴を作成する「教師なし」の方法で作成しても良い。
同様に、基準区間特徴や基準総合特徴についても作成の方法は問わず、「教師あり」の方法で作成しても「教師なし」の方法で作成しても良い。
(21)以下、更に本発明の一実施形態に係る音声分類装置の構成及びその変形例と効果について説明する。
(a)本発明の一実施形態に係る音声分類装置は、オーディオ信号を取得する取得手段と、前記オーディオ信号が含む所定時間長の複数の区間それぞれについて音の周波数分布に係る特徴である区間特徴を抽出する区間特徴抽出手段と、前記区間特徴と比較される基準である基準区間特徴を複数記憶している基準区間特徴記憶手段と、前記複数の区間それぞれについて、前記区間特徴と前記基準区間特徴それぞれとを比較して、当該区間特徴と当該基準区間特徴との相関の程度を示す区間類似度を計算する計算手段と、前記オーディオ信号について、前記複数の区間それぞれにおいて計算された複数の区間類似度に基づく、複数の区間に係る特徴である総合特徴を抽出する総合特徴抽出手段と、前記総合特徴と比較する基準である基準総合特徴を1以上記憶している基準総合特徴記憶手段と、前記オーディオ信号の総合特徴と前記基準総合特徴とを比較して、その結果に基づいて、当該オーディオ信号を分類する分類手段とを備える。
上記の構成を持つ音声分類装置によれば、オーディオ信号の各区間がどのような音とどの程度相関しているかを示す区間類似度を求め、複数の区間それぞれの区間類似度から総合特徴を抽出している。そして総合特徴と、分類基準のデータである基準総合特徴とを比較することにより分類を行っている。このように複数の区間の特徴を総合して分類に用いることにより、様々な音が入り混じった音声を適切に分類することができる。
(b)(a)に記載の音声分類装置において、前記総合特徴抽出手段は前記オーディオ信号について、基準区間特徴毎に、当該オーディオ信号に当該基準区間特徴との区間類似度が他の全ての基準区間特徴との区間類似度より高い区間がどの程度含まれるかを示す含有度を計算し、各基準区間特徴の当該オーディオ信号における前記含有度により成る総合特徴を抽出することとしても良い。
このように含有度を用いることで、オーディオ信号にどの基準区間特徴に対応する音がどの程度の時間含まれているかという基準によって分類することができる。
(c)(b)に記載の音声分類装置において、前記総合特徴抽出手段は各基準区間特徴の前記オーディオ信号における前記含有度を、当該基準区間特徴との区間類似度が他の全ての基準区間特徴との区間類似度より高い区間の総数の、当該オーディオ信号が含む区間の総数に対する割合に基づいて計算することとしても良い。
このように含有度を計算することで、含有度はオーディオ信号の長さによらない割合となる。このため、基準区間特徴のデータは分類対象のオーディオ信号の長さを考慮せず一定の基準を用いることができる。
(d)(c)に記載の音声分類装置において、前記基準区間特徴記憶部は更に、各基準区間特徴に対する、当該基準区間特徴の前記含有度の計算に用いる係数を記憶しており、前記総合特徴抽出手段は基準区間特徴の前記含有度を、前記割合と前記係数との積として計算することとしても良い。
このように含有度を計算することで、各基準区間特徴が含まれる割合に重み付けをすることができる。重要度の低い基準区間特徴は係数を低く、重要度の高い基準区間特徴は係数を高くしておくことで、重要度の高い基準区間特徴を重視して総合特徴を求めることができる。
(e)(b)に記載の音声分類装置において、前記区間特徴抽出手段は、前記複数の区間それぞれについて、当該区間に含まれる音のMFCCを示す音響特徴を抽出する音響特徴抽出部と、前記音響特徴と比較される基準である基準音響特徴を複数記憶している基準音響特徴記憶部とを備え、前記区間特徴は、前記区間それぞれについて計算される音響特徴と、前記基準音響特徴記憶部が記憶している基準音響特徴それぞれとの相関の程度を示す音響類似度からなるデータであり、前記区間特徴抽出手段は、前記複数の区間それぞれについて、前記音響特徴抽出部が抽出した音響特徴と前記基準音響特徴記憶部が記憶している基準音響特徴とに基づいて、当該区間の区間特徴を抽出することとしても良い。
このようにすることで、MFCCによる特徴を用いて分類を行うことができる。MFCCは、特に人の声などの特徴を良く表すことができる。
(f)(b)に記載の音声分類装置において、前記区間特徴抽出手段は、前記複数の区間それぞれについて、当該区間に含まれる音の周波数スペクトルを示す音響特徴を抽出する音響特徴抽出部と、前記音響特徴と比較される基準である基準音響特徴を複数記憶している基準音響特徴記憶部とを備え、前記区間特徴は、前記区間それぞれについて計算される音響特徴と、前記基準音響特徴記憶部が記憶している基準音響特徴それぞれとの相関の程度を示す音響類似度からなるデータであり、前記区間特徴抽出手段は、前記複数の区間それぞれについて、前記音響特徴抽出部が抽出した音響特徴と前記基準音響特徴記憶部が記憶している基準音響特徴とに基づいて、当該区間の区間特徴を抽出することとしても良い。
このようにすることで、周波数スペクトルによる特徴を用いて分類を行うことができる。周波数スペクトルは、音の高さなどの特徴を良く表すことができる。
(g)(e)に記載の音声分類装置において、前記基準総合特徴記憶手段は、基準総合特徴を、オーディオ信号の分類先であるカテゴリと対応付けて複数記憶しており、前記分類手段は、前記オーディオ信号の総合特徴と、複数の互いに異なる前記基準総合特徴とを比較して、当該総合特徴と当該基準総合特徴との相関の程度を示す総合類似度を前記基準総合特徴それぞれについて求め、当該総合特徴と最も総合類似度の高い基準総合特徴に対応するカテゴリに分類することとしても良い。
このようにすることで、オーディオ信号を複数のカテゴリのうちいずれか1つに分類することができる。
(h)(e)に記載の音声分類装置は更に、複数のオーディオ信号を記憶する音声記憶手段と、前記音声記憶手段が記憶している各オーディオ信号から抽出された総合特徴に基づいて基準総合特徴を作成し、前記基準総合特徴記憶手段に格納する作成手段とを備えることとしても良い。
このようにすることにより、予め基準総合特徴記憶手段に基準総合特徴を用意しておかなくとも、基準作成用のオーディオ信号を用いて基準総合特徴を作成することができる。
また、予め基準総合特徴記憶手段に基準総合特徴を用意している場合でも、ユーザの保有するオーディオ信号を用いて基準総合特徴を作成すると、そのユーザに合わせた分類基準となる基準総合特徴を作成することができる。
(i)(e)に記載の前記音声分類装置は更に、前記音声記憶手段が記憶している各オーディオ信号が含む各区間から抽出された区間特徴に基づいて基準区間特徴を作成し、前記基準区間特徴記憶手段に格納する基準区間特徴作成手段を備えることとしても良い。
このようにすることにより、予め基準区間特徴記憶手段に基準区間特徴を用意しておかなくとも、基準作成用のオーディオ信号を用いて基準区間特徴を作成することができる。
また、予め基準区間特徴記憶手段に基準区間特徴を用意している場合でも、ユーザの保有するオーディオ信号を用いて基準区間特徴を作成すると、そのユーザに合わせた基準区間特徴を作成することができる。
ただしこの場合には、基準区間特徴に合わせて基準総合特徴も作成する必要がある。
本発明に係る音声分類装置は、動画撮影機能付き携帯電話やデジタルビデオカメラ、映像記録装置などに適用することができる。
100 映像記録装置
103 音声抽出部
104 音声分類部
105 分類情報記憶部
201 音響特徴抽出部
202 基準音響特徴記憶部
203 区間特徴抽出部
204 基準区間特徴記憶部
205 区間類似度計算部
206 総合特徴抽出部
207 基準総合特徴記憶部
208 分類部
1501 基準作成部
1601 基準音声記憶部
1602 基準音響特徴作成部
1603 基準区間特徴作成部
1604 基準総合特徴作成部

Claims (13)

  1. オーディオ信号を取得する取得手段と、
    前記オーディオ信号が含む所定時間長の複数の区間それぞれについて音の周波数分布に係る特徴である区間特徴を抽出する区間特徴抽出手段と、
    前記区間特徴と比較される基準である基準区間特徴を複数記憶している基準区間特徴記憶手段と、
    前記複数の区間それぞれについて、前記区間特徴と前記基準区間特徴それぞれとを比較して、当該区間特徴と当該基準区間特徴との相関の程度を示す区間類似度を計算する計算手段と、
    前記オーディオ信号について、前記複数の区間それぞれにおいて計算された複数の区間類似度に基づく、複数の区間に係る特徴である総合特徴を抽出する総合特徴抽出手段と、
    前記総合特徴と比較する基準である基準総合特徴を1以上記憶している基準総合特徴記憶手段と、
    前記オーディオ信号の総合特徴と前記基準総合特徴とを比較して、その結果に基づいて当該オーディオ信号を分類する分類手段とを備える
    ことを特徴とする音声分類装置。
  2. 前記総合特徴抽出手段は前記オーディオ信号について、
    基準区間特徴毎に、当該オーディオ信号に当該基準区間特徴との区間類似度が他の全ての基準区間特徴との区間類似度より高い区間がどの程度含まれるかを示す含有度を計算し、
    各基準区間特徴の当該オーディオ信号における前記含有度により成る総合特徴を抽出する
    ことを特徴とする請求項1に記載の音声分類装置。
  3. 前記総合特徴抽出手段は各基準区間特徴の前記オーディオ信号における前記含有度を、
    当該基準区間特徴との区間類似度が他の全ての基準区間特徴との区間類似度より高い区間の総数の、当該オーディオ信号が含む区間の総数に対する割合に基づいて計算する
    ことを特徴とする請求項2に記載の音声分類装置。
  4. 前記基準区間特徴記憶手段は更に、
    各基準区間特徴に対する、当該基準区間特徴の前記含有度の計算に用いる係数を記憶しており、
    前記総合特徴抽出手段は基準区間特徴の前記含有度を、
    前記割合と前記係数との積として計算する
    ことを特徴とする請求項3に記載の音声分類装置。
  5. 前記区間特徴抽出手段は、
    前記複数の区間それぞれについて、当該区間に含まれる音のMFCC(メル周波数ケプストラム係数)を示す音響特徴を抽出する音響特徴抽出部と、
    前記音響特徴と比較される基準である基準音響特徴を複数記憶している基準音響特徴記憶部とを備え、
    前記区間特徴は、前記区間それぞれについて計算される音響特徴と、前記基準音響特徴記憶部が記憶している基準音響特徴それぞれとの相関の程度を示す音響類似度からなるデータであり、
    前記区間特徴抽出手段は、
    前記複数の区間それぞれについて、前記音響特徴抽出部が抽出した音響特徴と前記基準音響特徴記憶部が記憶している基準音響特徴とに基づいて、当該区間の区間特徴を抽出する
    ことを特徴とする請求項2に記載の音声分類装置。
  6. 前記区間特徴抽出手段は、
    前記複数の区間それぞれについて、当該区間に含まれる音の周波数スペクトルを示す音響特徴を抽出する音響特徴抽出部と、
    前記音響特徴と比較される基準である基準音響特徴を複数記憶している基準音響特徴記憶部とを備え、
    前記区間特徴は、前記区間それぞれについて計算される音響特徴と、前記基準音響特徴記憶部が記憶している基準音響特徴それぞれとの相関の程度を示す音響類似度からなるデータであり、
    前記区間特徴抽出手段は、
    前記複数の区間それぞれについて、前記音響特徴抽出部が抽出した音響特徴と前記基準音響特徴記憶部が記憶している基準音響特徴とに基づいて、当該区間の区間特徴を抽出する
    ことを特徴とする請求項2に記載の音声分類装置。
  7. 前記基準総合特徴記憶手段は、
    基準総合特徴を、オーディオ信号の分類先であるカテゴリと対応付けて複数記憶しており、
    前記分類手段は、
    前記オーディオ信号の総合特徴と、複数の互いに異なる前記基準総合特徴とを比較して、当該総合特徴と当該基準総合特徴との相関の程度を示す総合類似度を前記基準総合特徴それぞれについて求め、当該総合特徴と最も総合類似度の高い基準総合特徴に対応するカテゴリに分類する
    ことを特徴とする請求項5に記載の音声分類装置。
  8. 前記音声分類装置は更に、
    複数のオーディオ信号を記憶する音声記憶手段と、
    前記音声記憶手段が記憶している各オーディオ信号から抽出された総合特徴に基づいて基準総合特徴を作成し、前記基準総合特徴記憶手段に格納する作成手段とを備える
    ことを特徴とする請求項5に記載の音声分類装置。
  9. 前記音声分類装置は更に、
    前記音声記憶手段が記憶している各オーディオ信号が含む各区間から抽出された区間特徴に基づいて基準区間特徴を作成し、前記基準区間特徴記憶手段に格納する基準区間特徴作成手段を備える
    ことを特徴とする請求項8に記載の音声分類装置。
  10. オーディオ信号を取得する取得ステップと、
    前記オーディオ信号が含む所定時間長の複数の区間それぞれについて音の周波数分布に係る特徴である区間特徴を抽出する区間特徴抽出ステップと、
    前記複数の区間それぞれについて、前記区間特徴と、前記区間特徴と比較される基準である複数の基準区間特徴それぞれとを比較して、当該区間特徴と当該基準区間特徴との相関の程度を示す区間類似度を計算する計算ステップと、
    前記オーディオ信号について、前記複数の区間それぞれにおいて計算された複数の区間類似度に基づく、複数の区間に係る特徴である総合特徴を抽出する総合特徴抽出ステップと、
    前記オーディオ信号の総合特徴と、前記総合特徴と比較する基準である1以上の基準総合特徴とを比較して、その結果に基づいて、当該オーディオ信号を分類する分類ステップとを備える
    ことを特徴とする音声分類方法。
  11. オーディオ信号を取得する取得ステップと、
    前記オーディオ信号が含む所定時間長の複数の区間それぞれについて音の周波数分布に係る特徴である区間特徴を抽出する区間特徴抽出ステップと、
    前記複数の区間それぞれについて、前記区間特徴と、前記区間特徴と比較される基準である複数の基準区間特徴それぞれとを比較して、当該区間特徴と当該基準区間特徴との相関の程度を示す区間類似度を計算する計算ステップと、
    前記オーディオ信号について、前記複数の区間それぞれにおいて計算された複数の区間類似度に基づく、複数の区間に係る特徴である総合特徴を抽出する総合特徴抽出ステップと、
    前記オーディオ信号の総合特徴と、前記総合特徴と比較する基準である1以上の基準総合特徴とを比較して、その結果に基づいて、当該オーディオ信号を分類する分類ステップとを含む処理をコンピュータに実行させる
    ことを特徴とする音声分類プログラム。
  12. オーディオ信号を取得する取得ステップと、
    前記オーディオ信号が含む所定時間長の複数の区間それぞれについて音の周波数分布に係る特徴である区間特徴を抽出する区間特徴抽出ステップと、
    前記複数の区間それぞれについて、前記区間特徴と、前記区間特徴と比較される基準である複数の基準区間特徴それぞれとを比較して、当該区間特徴と当該基準区間特徴との相関の程度を示す区間類似度を計算する計算ステップと、
    前記オーディオ信号について、前記複数の区間それぞれにおいて計算された複数の区間類似度に基づく、複数の区間に係る特徴である総合特徴を抽出する総合特徴抽出ステップと、
    前記オーディオ信号の総合特徴と、前記総合特徴と比較する基準である1以上の基準総合特徴とを比較して、その結果に基づいて、当該オーディオ信号を分類する分類ステップとを含む処理をコンピュータに実行させるプログラムを記録している
    ことを特徴とする記録媒体。
  13. オーディオ信号を取得する取得手段と、
    前記オーディオ信号が含む所定時間長の複数の区間それぞれについて音の周波数分布に係る特徴である区間特徴を抽出する区間特徴抽出手段と、
    前記区間特徴と比較される基準である基準区間特徴を複数記憶している基準区間特徴記憶手段と、
    前記複数の区間それぞれについて、前記区間特徴と前記基準区間特徴それぞれとを比較して、当該区間特徴と当該基準区間特徴との相関の程度を示す区間類似度を計算する計算手段と、
    前記オーディオ信号について、前記複数の区間それぞれにおいて計算された複数の区間類似度に基づく、複数の区間に係る特徴である総合特徴を抽出する総合特徴抽出手段と、
    前記総合特徴と比較する基準である基準総合特徴を1以上記憶している基準総合特徴記憶手段と、
    前記オーディオ信号の総合特徴と前記基準総合特徴とを比較して、その結果に基づいて、当該オーディオ信号を分類する分類手段とを備える
    ことを特徴とする集積回路。
JP2012515710A 2010-05-17 2011-03-15 音声分類装置、方法、プログラム及び集積回路 Active JP5578453B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012515710A JP5578453B2 (ja) 2010-05-17 2011-03-15 音声分類装置、方法、プログラム及び集積回路

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010112936 2010-05-17
JP2010112936 2010-05-17
JP2012515710A JP5578453B2 (ja) 2010-05-17 2011-03-15 音声分類装置、方法、プログラム及び集積回路
PCT/JP2011/001484 WO2011145249A1 (ja) 2010-05-17 2011-03-15 音声分類装置、方法、プログラム及び集積回路

Publications (2)

Publication Number Publication Date
JPWO2011145249A1 JPWO2011145249A1 (ja) 2013-07-22
JP5578453B2 true JP5578453B2 (ja) 2014-08-27

Family

ID=44991372

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012515710A Active JP5578453B2 (ja) 2010-05-17 2011-03-15 音声分類装置、方法、プログラム及び集積回路

Country Status (5)

Country Link
US (1) US8892497B2 (ja)
EP (1) EP2573763B1 (ja)
JP (1) JP5578453B2 (ja)
CN (1) CN102473411B (ja)
WO (1) WO2011145249A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8930190B2 (en) 2012-04-20 2015-01-06 Panasonic Intellectual Property Corporation Of America Audio processing device, audio processing method, program and integrated circuit
JP6211802B2 (ja) * 2013-05-29 2017-10-11 日本電産サンキョー株式会社 データ処理装置およびデータ処理方法
US20150066925A1 (en) * 2013-08-27 2015-03-05 Qualcomm Incorporated Method and Apparatus for Classifying Data Items Based on Sound Tags
KR101470904B1 (ko) 2013-11-20 2014-12-09 김유식 동영상 제공 방법 및 동영상 제공 시스템
JP6413653B2 (ja) * 2014-11-04 2018-10-31 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US10129314B2 (en) 2015-08-18 2018-11-13 Pandora Media, Inc. Media feature determination for internet-based media streaming
JP7000757B2 (ja) * 2017-09-13 2022-01-19 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
JP6683231B2 (ja) * 2018-10-04 2020-04-15 ソニー株式会社 情報処理装置および情報処理方法
US11875823B2 (en) * 2020-04-06 2024-01-16 Honeywell International Inc. Hypermedia enabled procedures for industrial workflows on a voice driven platform
DE102020209048A1 (de) * 2020-07-20 2022-01-20 Sivantos Pte. Ltd. Verfahren zur Identifikation eines Störeffekts sowie ein Hörsystem
KR102586075B1 (ko) * 2020-10-06 2023-10-05 주식회사 카카오뱅크 음성을 이용한 안면 검출 방법
CN112185418B (zh) * 2020-11-12 2022-05-17 度小满科技(北京)有限公司 音频处理方法和装置
CN115993503B (zh) * 2023-03-22 2023-06-06 广东电网有限责任公司东莞供电局 一种变压器的运行检测方法、装置、设备及存储介质
CN117275519B (zh) * 2023-11-22 2024-02-13 珠海高凌信息科技股份有限公司 一种声音类型识别修正方法、系统、装置及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187182A (ja) * 1996-12-20 1998-07-14 Nippon Telegr & Teleph Corp <Ntt> 映像分類方法および装置
JP2004258659A (ja) * 2003-02-25 2004-09-16 Mitsubishi Electric Research Laboratories Inc スポーツイベントのオーディオ信号からハイライトを抽出する方法およびシステム
JP2005530214A (ja) * 2002-06-19 2005-10-06 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ メガ話者識別(id)システム及びその目的に相当する方法
JP2006276854A (ja) * 2005-03-18 2006-10-12 Sony Deutsche Gmbh オーディオデータ分類方法
JP2009508156A (ja) * 2005-09-08 2009-02-26 ユニバーシティー オブ イースト アングリア 音楽分析
JP2009511980A (ja) * 2005-10-17 2009-03-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ入力信号についての特徴のセットを導出する方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7472059B2 (en) 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
JP5038403B2 (ja) 2007-03-16 2012-10-03 パナソニック株式会社 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187182A (ja) * 1996-12-20 1998-07-14 Nippon Telegr & Teleph Corp <Ntt> 映像分類方法および装置
JP2005530214A (ja) * 2002-06-19 2005-10-06 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ メガ話者識別(id)システム及びその目的に相当する方法
JP2004258659A (ja) * 2003-02-25 2004-09-16 Mitsubishi Electric Research Laboratories Inc スポーツイベントのオーディオ信号からハイライトを抽出する方法およびシステム
JP2006276854A (ja) * 2005-03-18 2006-10-12 Sony Deutsche Gmbh オーディオデータ分類方法
JP2009508156A (ja) * 2005-09-08 2009-02-26 ユニバーシティー オブ イースト アングリア 音楽分析
JP2009511980A (ja) * 2005-10-17 2009-03-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ入力信号についての特徴のセットを導出する方法

Also Published As

Publication number Publication date
US20120136823A1 (en) 2012-05-31
JPWO2011145249A1 (ja) 2013-07-22
CN102473411B (zh) 2014-11-05
EP2573763A1 (en) 2013-03-27
US8892497B2 (en) 2014-11-18
WO2011145249A1 (ja) 2011-11-24
EP2573763A4 (en) 2016-09-21
CN102473411A (zh) 2012-05-23
EP2573763B1 (en) 2018-06-20

Similar Documents

Publication Publication Date Title
JP5578453B2 (ja) 音声分類装置、方法、プログラム及び集積回路
JP2019216408A (ja) 情報を出力するための方法、及び装置
CN111526242B (zh) 音频处理方法、装置和电子设备
TWI222623B (en) System and method for music identification
CN101202864B (zh) 动画再现装置
CN110249387A (zh) 用于创建伴随视觉影像的音频轨的方法
JP2006244002A (ja) コンテンツ再生装置およびコンテンツ再生方法
US11803589B2 (en) Systems, methods, and media for identifying content
TW200402654A (en) A system and method for providing user control over repeating objects embedded in a stream
CN103534755B (zh) 声音处理装置、声音处理方法、程序及集成电路
WO2023029984A1 (zh) 视频生成方法、装置、终端、服务器及存储介质
WO2012164818A1 (ja) 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路
JP5658285B2 (ja) 興味区間抽出装置、興味区間抽出方法
JP2004265376A (ja) メモリに格納されたデータベースから録音物を選択する方法及び装置
US11899716B2 (en) Content providing server, content providing terminal, and content providing method
JP2001143451A (ja) 自動インデックス発生装置ならびにインデックス付与装置
JP2014199490A (ja) コンテンツ取得装置およびプログラム
US20140078331A1 (en) Method and system for associating sound data with an image
Janin et al. Joke-o-Mat HD: browsing sitcoms with human derived transcripts
US20110077756A1 (en) Method for identifying and playing back an audio recording
JP7230085B2 (ja) 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
JP7183316B2 (ja) 音声記録検索方法、コンピュータ装置およびコンピュータプログラム
US20230031056A1 (en) Audio recommendation based on text information and video content
JP2011019000A (ja) 情報処理装置、音声選択方法及びそのプログラム
CN117496963A (zh) 音乐生成方法、音乐生成模型的训练方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140603

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20140606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140626

R150 Certificate of patent or registration of utility model

Ref document number: 5578453

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250