JP2016133600A - 顕著度推定方法、顕著度推定装置、プログラム - Google Patents

顕著度推定方法、顕著度推定装置、プログラム Download PDF

Info

Publication number
JP2016133600A
JP2016133600A JP2015007718A JP2015007718A JP2016133600A JP 2016133600 A JP2016133600 A JP 2016133600A JP 2015007718 A JP2015007718 A JP 2015007718A JP 2015007718 A JP2015007718 A JP 2015007718A JP 2016133600 A JP2016133600 A JP 2016133600A
Authority
JP
Japan
Prior art keywords
saliency
interval
prediction
input signal
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015007718A
Other languages
English (en)
Other versions
JP6257537B2 (ja
Inventor
惇 米家
Makoto Yoneya
惇 米家
茂人 古川
Shigehito Furukawa
茂人 古川
牧夫 柏野
Makio Kayano
牧夫 柏野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015007718A priority Critical patent/JP6257537B2/ja
Publication of JP2016133600A publication Critical patent/JP2016133600A/ja
Application granted granted Critical
Publication of JP6257537B2 publication Critical patent/JP6257537B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

【課題】時系列的なパターンの予測不可能性に基づく対象音の目立ち度合いを推定できる顕著度推定方法を提供する。
【解決手段】入力信号の一部の時間区間の音の目立ち度合いを推定する顕著度推定方法であって、参照信号と類似する部分区間である類似部分区間を蓄積区間内から1つ以上検出する類似部分区間検出ステップと、検出された類似部分区間の直後にある所定の時間区間に対応する入力信号の特徴量に基づく分布である予測分布を1つ以上生成する予測分布生成ステップと、生成された予測分布と推定対象信号に基づいて、予測区間に対応する入力信号の顕著度を推定する顕著度推定ステップを含む。
【選択図】図1

Description

本発明は、入力信号の一部の時間区間の音の目立ち度合いを推定する顕著度推定方法、顕著度推定装置、プログラムに関する。
従来、音のスペクトル構造に基づいて、時間周波数領域における目立ち度合いを計算するモデル(auditory saliency map)が提案されている(非特許文献1参照)。
C. Kayser, C. I. Petkov, M. Lippert, N. K. Logothetis, "Mechanisms for Allocating Auditory Attention: An Auditory Saliency Map", Current Biology, 2005, Volume 15, Issue 21, Pages 1943-1947.
Auditory Saliency Mapによれば、音のスペクトログラムに対し、強度とその時間周波数的なコントラストを計算することで、特定の時間周波数における音の目立ちやすさを推定することができる。
このモデルでは音のスペクトル構造に基づいた計算を行うため、ある特定の音がどのような文脈で提示されたかに関わらず、同じ音に対しては同程度の顕著性が評価される。従って、同じ音であっても、予想外のタイミングでの呈示によって顕著性が増加する様子など、時系列的なパターンや文脈に基づく顕著性を十分に表現することはできない。
そこで本発明は、時系列的なパターンの予測不可能性に基づく対象音の目立ち度合いを推定できる顕著度推定方法を提供することを目的とする。
本発明は、入力信号の一部の時間区間の音の目立ち度合いを推定する顕著度推定方法であって、類似部分区間検出ステップと、予測分布生成ステップと、顕著度推定ステップを含む。入力信号の時間区間のうち、予測区間を、音の目立ち度合いである顕著度の推定対象とする時間区間とし、参照区間を、前記予測区間の直前にあって所定の時間幅を有する時間区間とし、蓄積区間を、前記参照区間よりも前の時間区間とし、推定対象信号を、予測区間に対応する入力信号の特徴量とし、参照信号を、参照区間に対応する入力信号の特徴量 とする。
類似部分区間検出ステップは、参照信号と類似する部分区間である類似部分区間を蓄積区間内から1つ以上検出する。予測分布生成ステップは、検出された類似部分区間の直後にある所定の時間区間に対応する入力信号の特徴量に基づく分布である予測分布を1つ以上生成する。顕著度推定ステップは、生成された予測分布と推定対象信号に基づいて、予測区間に対応する入力信号の顕著度を推定する。
本発明の顕著度推定方法によれば、時系列的なパターンの予測不可能性に基づく対象音の目立ち度合いを推定できる。
実施例1の顕著度推定装置の構成を示すブロック図。 実施例1の顕著度推定装置の動作を示すフローチャート。 蓄積区間、参照区間、予測区間、蓄積部分区間、類似部分区間の定義について説明する図。 実際の音楽に対して蓄積区間、参照区間、予測区間を設定して類似部分区間を求めた例を示す図。 実際の音楽に基づく2種類の波形のそれぞれに対して顕著度を求めた例を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、図1、図2を参照して音響信号の時系列的なパターンの予測不可能性に基づく音の目立ち度合いを推定する実施例1の顕著度推定装置について説明する。なお、音の目立ち度合いを顕著度ともいう。図1は、本実施例の顕著度推定装置1の構成を示すブロック図である。図2は、本実施例の顕著度推定装置1の動作を示すフローチャートである。本実施例の顕著度推定装置1は、特定の音響信号である入力信号の特定の時間区間における顕著度を評価する装置であり、具体的にはCPU(Central Processing Unit)やメモリを有する一般的な計算機上に実現される。図1に示すように、本実施例の顕著度推定装置1は、特徴量計算部11と、区間類似度計算部12と、類似部分区間検出部13と、予測分布生成部14と、顕著度推定部15を含む。以下、それぞれの構成要件の動作について詳細に説明する。
<特徴量計算部11(ステップS11)>
特徴量計算部11は、入力信号全体にわたる時間周波数解析を行うことでフレーム毎の特徴ベクトルを計算して出力する(S11)。
例えば特徴量計算部11は、入力信号全体を、聴覚フィルタに基づくパワースペクトログラムに変換する。聴覚フィルタは、中心周波数が連続的に変化する帯域フィルタ群である。特徴量計算部11は、各フィルタが帯域幅の異なるバンドパスフィルタ(ここではガンマトーンフィルタ)として、信号音に対する周波数分析を行う。
聴覚フィルタの総数がCのとき、各フィルタの中心周波数f(k=1,2,…,C、fはk番目のフィルタの中心周波数を表す)は、対象とする周波数帯の最大周波数(通常、ナイキスト周波数)をfmax、最小周波数をfminとすると、
Figure 2016133600
と表される。ただし、Qは高周波数帯におけるQ値(=中心周波数/帯域幅)の漸近値、wは低周波数帯における帯域幅の下限値を表し、いずれも定数である。このとき、各フィルタの帯域幅ERBは、
Figure 2016133600
と表される。得られるフィルタ出力は信号音と同じサンプリング周波数を持つが、次元削減とノイズ低減の目的から、フレーム幅ΔT(数ms程度)、区間幅ΔT/2毎程度に移動平均をとることで、フレーム単位への変換を行う。以下では、フレーム番号tにおけるi番目(i=1,2,…,C)の聴覚フィルタ出力をp[t]と表し、その時点における聴覚フィルタ全体の出力(C次元ベクトル)を、
Figure 2016133600
と表す。以下、p[t]をフレーム番号tにおける特徴ベクトルとよぶ。特徴量計算部11は、NMF(非負値行列因子分解)などの手法によって特徴ベクトルを計算してもよい。また、特徴量計算部11は単純なスペクトログラムによって特徴ベクトルを計算してもよい。
<区間類似度計算部12(ステップS12)>
以下、図3を参照して入力信号の各区間について定義する。図3は、蓄積区間、参照区間、予測区間、蓄積部分区間、類似部分区間の定義について説明する図である。図3に示すように、予測区間を顕著度の推定対象とする時間区間、参照区間を予測区間の直前にあって所定の時間幅を有する時間区間、蓄積区間を参照区間よりも前の時間区間(時間区間全体)、蓄積部分区間を蓄積区間の一部の区間であって参照区間と同じ時間幅を有する時間区間と定義する。また、推定対象信号を予測区間に対応する入力信号の特徴量(特徴量全体)、参照信号を参照区間に対応する入力信号の特徴量(特徴量全体)、蓄積信号を蓄積区間に対応する入力信号の特徴量(特徴量全体)、蓄積部分信号を蓄積部分区間に対応する入力信号の特徴量(特徴量全体)と定義する。
区間類似度計算部12は、ステップS11で計算された特徴ベクトルに基づいて蓄積信号の蓄積部分信号と参照信号の類似度である区間類似度を計算する(S12)。
以下では図3に示すように、蓄積区間のフレーム番号を1からT、参照区間のフレーム番号をT+1からT+N、予測区間のフレーム番号をT+N+1からT+N+Mとする。ただし、蓄積区間は参照区間よりも長い必要があるため、T>Nとする。
区間類似度計算部12は、特徴ベクトルの全てのフレーム同士の組み合わせについてパワースペクトル密度の角度を計算し、フレーム間の類似度として定義する。フレーム番号tとtの特徴ベクトル間の類似度S(t,t)は、
Figure 2016133600
と計算される。
蓄積区間内において参照区間と類似する部分区間を抽出するため、区間類似度計算部12は、上記で計算されたフレーム単位の類似度に基づいて、参照区間と同じ長さ(フレーム数N)の単位での類似度を計算する。参照区間と、蓄積部分区間(フレーム番号tからt+N−1)との区間類似度SIM(t)は、
Figure 2016133600
と計算される。SIM(t)は、1≦t≦Tにわたって計算される。区間類似度の計算は、例えば特許第4327202号明細書に記載の方法によってもよい。
<類似部分区間検出部13(ステップS13)>
類似部分区間検出部13は、区間類似度計算部12で出力された区間類似度に基づいて蓄積区間内から参照信号と類似する部分区間である類似部分区間を1つ以上検出する(S13)。類似部分区間検出部13は、1≦t≦Tにおいて、区間類似度SIM(t)の値が高いフレーム番号を、上から順にD個抽出する。Dは定数とし、数個〜数十個程度を抽出することが望ましい。
実際には、類似度の高い部分区間が特定の時間範囲に重畳して集中する可能性があるため、一定の閾値を設定し、閾値の範囲内で隣り合うフレーム番号を排除し、代表として部分区間を一つ抽出することもできる。このように検出されたD個の部分区間を、類似部分区間とよぶ。類似部分区間検出は、例えば特許第4327202号明細書に記載の方法によってもよい。
図4に、実際の音楽に対して蓄積区間、参照区間、予測区間を設定して類似部分区間を求めた例を示す。図4の例では、5〜6秒付近で設定された参照区間の参照信号と類似する部分区間として、蓄積区間内の1〜2秒付近(類似部分区間1)、3〜4秒付近(類似部分区間2)が検出されている。
<予測分布生成部14(ステップS14)>
予測分布生成部14は、検出された類似部分区間の直後にある所定の時間区間に対応する入力信号の特徴量に基づいて予測区間の特徴ベクトルを予測する分布である予測分布を生成する(S14)。
具体的には予測分布生成部14は、予測区間のフレーム毎に、C次元特徴ベクトルの要素毎の予測分布を生成する。予測分布は、類似部分区間検出部13で検出されたD個の類似部分区間それぞれに基づいて計算されたD個の分布として出力される。
予測区間のフレーム番号T+N+tにおいて、開始フレーム番号をLとする類似部分区間から生成される予測分布は、平均μ、分散共分散行列Σを下記の式で表す多次元正規分布N(μ,Σ)とする。
Figure 2016133600
Figure 2016133600
ただしvは各聴覚フィルタに定義される分散値で、
Figure 2016133600

とする。σは、蓄積区間における各要素の分散値を並べたC次元ベクトルで、類似度に依らず一定値をとる。第二項は、類似度に依存する係数を表す。類似度が1に近づく場合、分散値は0へ近づき、予測は高い確率で平均値の周辺に集中する。類似度が0の場合、分散値は(t=0の場合)蓄積区間における分散値σと一致する。これは、予測分布と観測値の差分(絶対値)の期待値が、予測が全くあてはまらない場合、過去の時系列における任意の2点間の差分(絶対値)の期待値、すなわち時系列の標準偏差に等しいことに依拠する。第三項は、時間減衰を表す。時間の経過とともに分散値が指数関数的に増加し、予測分布が一様分布に近づくことを意味する。γは減衰の程度を表す定数で、任意の正の値に設定できる。
上記の式からわかる通り、予測分布の平均値は、類似部分区間の直後Mフレームにおける入力信号の振る舞いと一致する。予測分布の分散値は、各類似部分区間がもつ参照区間との類似度SIM(d)に依存して変化する。なお、上記の分散の定義に追加する形で、予測分布の分散値が類似部分区間と参照区間の時間差に応じて増加するような項を積算し、予測に関する「忘却」の要素を考慮することもできる。
<顕著度推定部15(ステップS15)>
顕著度推定部15は、予測分布生成部14で生成された予測分布と、実際の推定対象信号の比較に基づいて、予測区間に対応する音響信号(入力信号)の目立ち度合い(顕著度)を推定する(S15)。
具体的には顕著度推定部15は、予測分布生成部14で出力されたD個の予測分布中において推定対象信号が出現する確率に基づいて、それぞれの分布に基づく顕著度の要素を計算する。顕著度の要素について、それぞれの類似部分区間と参照区間との類似度の値に応じた加重平均をとることで、顕著度を出力する。
推定対象信号p[T+N+t]について、d番目の予測分布(開始フレーム番号Lの類似部分区間に基づく)に対する顕著度の要素は、それぞれ
Figure 2016133600
として計算される。上記の値について、d番目の類似部分区間と参照区間との類似度に応じた加重平均を取ることで、顕著度z[T+N+t]を定義する。
Figure 2016133600
ただしAは正規化係数で、
Figure 2016133600
である。
ここまでは予測区間の開始フレーム番号をT+N+1に固定していたが、たとえば入力信号のある範囲全体にわたって予測区間の開始フレーム番号を変化させながら顕著度の計算を行い、顕著度の累積値をとることで、顕著度と定義してもよい。
図5に、実際の音楽に対して顕著度を求めた例を示す。図5のA、Bは、縦軸を信号強度、横軸を時間として、同一の楽音信号をそれぞれ1度目、2度目に聴取した例を示したものである。図5のC、Dは、縦軸を図5のA、Bに示す楽音信号それぞれに対する顕著度、横軸を時間として、2種類の楽音信号の顕著度の推移を例示したものである。縦線が示す時間より先(約5.8sより先)が予測対象区間、縦線が示す時間よりも前の時間区間(約5.8sより前)が参照区間(および蓄積区間)を表す。図5のA、Bにおける実線の波形は実際の楽音信号で、点線は予測された楽音信号(予測分布の平均値)を表す。一度目の聴取では、予測対象区間での楽音信号を正しく予測できておらず、図5のA右上のようなパターン(蓄積区間中に繰り返し現れていたパターン)を予測しており、図5のCに示すように顕著度が比較的大きな値として計算されている。二度目の聴取では、蓄積信号の中に予測対象区間での楽音信号とほとんど同一の信号が含まれているため、図5のB右上のようなパターンを正しく予測しており、図5のDに示すように、顕著度が比較的小さな値として計算されている。
<効果>
本実施例の顕著度推定装置1によれば、上記構成によって特定の音響信号である入力信号の特定の時間区間における顕著度を評価することができる。
非特許文献1によれば、音のスペクトル特性に基づいて、聴覚刺激の顕著性を時系列的に評価することができる。しかし、このモデルでは短い時間窓での音のスペクトル構造に基づいた計算が行われるため、同じ音に対しては文脈に関わらず同じ顕著性が評価される。従って、同じ音であっても、予想外のタイミングでの呈示による顕著性の増加など、時間的なパターン変化に基づく顕著性の変化を十分に表現することはできない。本手法では時系列的なパターンの予測不可能性に基づいた計算が行われるため、音楽などのように繰り返しと逸脱から構成される音響信号に対して、パターン変化に基づく音の目立ち度合いを推定することができる。
時系列信号に対して、過去の情報に基づいて特定の時点からの将来値を予測する場合、ARモデルのような時系列予測法を用いることが考えられる。しかし、ARモデルのように定常過程を対象とした時系列予測法では、全ての過去が均等にモデルの生成に寄与するため、特定の過去のパターンを再現することは難しい。本手法では、所定の時点からの時系列発展が、直近までの信号のパターンと類似する過去と同様の振る舞いをすると仮定し、また、振る舞いをする確かさ(確率分布の分散)が、その過去との類似度に相関するようなモデルとなっている。これにより、音楽のように複雑な非定常過程となる時系列信号についても、統計的なパターンの予測を行うことが可能となる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1. 入力信号の一部の時間区間の音の目立ち度合いを推定する顕著度推定方法であって、
    前記入力信号の時間区間のうち、
    予測区間を、音の目立ち度合いである顕著度の推定対象とする時間区間とし、
    参照区間を、前記予測区間の直前にあって所定の時間幅を有する時間区間とし、
    蓄積区間を、前記参照区間よりも前の時間区間とし、
    推定対象信号を、前記予測区間に対応する入力信号の特徴量とし、
    参照信号を、前記参照区間に対応する入力信号の特徴量とし、
    前記参照信号と類似する部分区間である類似部分区間を前記蓄積区間内から1つ以上検出する類似部分区間検出ステップと、
    前記検出された類似部分区間の直後にある所定の時間区間に対応する入力信号の特徴量に基づく分布である予測分布を1つ以上生成する予測分布生成ステップと、
    前記生成された予測分布と前記推定対象信号に基づいて、前記予測区間に対応する入力信号の顕著度を推定する顕著度推定ステップと、
    を含む顕著度推定方法。
  2. 請求項1に記載の顕著度推定方法であって、
    前記顕著度推定ステップは、
    前記予測分布生成ステップで1つ以上生成された予測分布中における、前記推定対象信号が出現する出現確率に基づいて、前記顕著度を推定する
    顕著度推定方法。
  3. 請求項2に記載の顕著度推定方法であって、
    前記類似部分区間と前記参照区間との類似度に応じて、前記推定対象信号が出現する出現確率に基づく顕著度を変化させる
    顕著度推定方法。
  4. 入力信号の一部の時間区間の音の目立ち度合いを推定する顕著度推定装置であって、
    前記入力信号の時間区間のうち、
    予測区間を、音の目立ち度合いである顕著度の推定対象とする時間区間とし、
    参照区間を、前記予測区間の直前にあって所定の時間幅を有する時間区間とし、
    蓄積区間を、前記参照区間よりも前の時間区間とし、
    推定対象信号を、前記予測区間に対応する入力信号の特徴量とし、
    参照信号を、前記参照区間に対応する入力信号の特徴量とし、
    前記参照信号と類似する部分区間である類似部分区間を前記蓄積区間内から1つ以上検出する類似部分区間検出部と、
    前記検出された類似部分区間の直後にある所定の時間区間に対応する入力信号の特徴量に基づく分布である予測分布を1つ以上生成する予測分布生成部と、
    前記生成された予測分布と前記推定対象信号に基づいて、前記予測区間に対応する入力信号の顕著度を推定する顕著度推定部と、
    を含む顕著度推定装置。
  5. 請求項1から3の何れかに記載された顕著度推定方法の各ステップをコンピュータに実行させるためのプログラム。
JP2015007718A 2015-01-19 2015-01-19 顕著度推定方法、顕著度推定装置、プログラム Active JP6257537B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015007718A JP6257537B2 (ja) 2015-01-19 2015-01-19 顕著度推定方法、顕著度推定装置、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015007718A JP6257537B2 (ja) 2015-01-19 2015-01-19 顕著度推定方法、顕著度推定装置、プログラム

Publications (2)

Publication Number Publication Date
JP2016133600A true JP2016133600A (ja) 2016-07-25
JP6257537B2 JP6257537B2 (ja) 2018-01-10

Family

ID=56426182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015007718A Active JP6257537B2 (ja) 2015-01-19 2015-01-19 顕著度推定方法、顕著度推定装置、プログラム

Country Status (1)

Country Link
JP (1) JP6257537B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020527255A (ja) * 2018-03-29 2020-09-03 北京字節跳動網絡技術有限公司Beijing Bytedance Network Technology Co., Ltd. オーディオ指紋抽出方法及び装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014691A (ja) * 2000-05-11 2002-01-18 Fuji Xerox Co Ltd ソース音声信号内の新規点の識別方法
JP2012159717A (ja) * 2011-02-01 2012-08-23 Jvc Kenwood Corp 楽曲データの変化点検出装置、楽曲データの変化点検出方法及び楽曲データの変化点検出プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014691A (ja) * 2000-05-11 2002-01-18 Fuji Xerox Co Ltd ソース音声信号内の新規点の識別方法
JP2012159717A (ja) * 2011-02-01 2012-08-23 Jvc Kenwood Corp 楽曲データの変化点検出装置、楽曲データの変化点検出方法及び楽曲データの変化点検出プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
B. SCHAUERTE AND R. STIEFELHAGEN: ""Wow!" Bayesian Surprise for Salient Acoustic Event Detection", PROC. ICASSP 2013, JPN6017045165, May 2013 (2013-05-01), CA, pages 6402 - 6406, ISSN: 0003687893 *
中島次郎 木村昭悟 杉本晃宏 柏野邦夫: "音響信号との時空間同期を利用した視覚的顕著性の計算モデル", 情報処理学会 研究報告 コンピュータビジョンとイメージメディア(CVIM), vol. 2015−CVIM−195, JPN6017045164, 15 January 2015 (2015-01-15), JP, pages 1 - 4, ISSN: 0003687892 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020527255A (ja) * 2018-03-29 2020-09-03 北京字節跳動網絡技術有限公司Beijing Bytedance Network Technology Co., Ltd. オーディオ指紋抽出方法及び装置
US10950255B2 (en) 2018-03-29 2021-03-16 Beijing Bytedance Network Technology Co., Ltd. Audio fingerprint extraction method and device

Also Published As

Publication number Publication date
JP6257537B2 (ja) 2018-01-10

Similar Documents

Publication Publication Date Title
JP4587160B2 (ja) 信号処理装置および方法
JP6999012B2 (ja) 音声信号検出方法及び装置
KR102128926B1 (ko) 오디오 정보 처리 방법 및 디바이스
US10475484B2 (en) Method and device for processing speech based on artificial intelligence
CN112489682B (zh) 音频处理方法、装置、电子设备和存储介质
JP6967197B2 (ja) 異常検出装置、異常検出方法及びプログラム
CN108962231B (zh) 一种语音分类方法、装置、服务器及存储介质
JP6495792B2 (ja) 音声認識装置、音声認識方法、プログラム
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
JP6676009B2 (ja) 話者判定装置、話者判定情報生成方法、プログラム
JPWO2018117094A1 (ja) 音声認識結果リランキング装置、音声認識結果リランキング方法、プログラム
JPWO2019244298A1 (ja) 属性識別装置、属性識別方法、およびプログラム
CN113284507A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
JP7409381B2 (ja) 発話区間検出装置、発話区間検出方法、プログラム
EP3417780B1 (en) Estimation method, estimation program, estimation device, and estimation system
CN113223485B (zh) 节拍检测模型的训练方法、节拍检测方法及装置
US20200075042A1 (en) Detection of music segment in audio signal
JP6257537B2 (ja) 顕著度推定方法、顕著度推定装置、プログラム
US11030995B2 (en) Acoustic feature extractor selected according to status flag of frame of acoustic signal
JP7373358B2 (ja) 音抽出システム及び音抽出方法
CN110070891B (zh) 一种歌曲识别方法、装置以及存储介质
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
JP6612277B2 (ja) ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体
CN114302301B (zh) 频响校正方法及相关产品
JP2017134197A (ja) パラメータ調整システム、パラメータ調整方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171205

R150 Certificate of patent or registration of utility model

Ref document number: 6257537

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150