JP2016133600A - 顕著度推定方法、顕著度推定装置、プログラム - Google Patents
顕著度推定方法、顕著度推定装置、プログラム Download PDFInfo
- Publication number
- JP2016133600A JP2016133600A JP2015007718A JP2015007718A JP2016133600A JP 2016133600 A JP2016133600 A JP 2016133600A JP 2015007718 A JP2015007718 A JP 2015007718A JP 2015007718 A JP2015007718 A JP 2015007718A JP 2016133600 A JP2016133600 A JP 2016133600A
- Authority
- JP
- Japan
- Prior art keywords
- saliency
- interval
- prediction
- input signal
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000009826 distribution Methods 0.000 claims abstract description 43
- 238000009825 accumulation Methods 0.000 claims description 24
- 238000001514 detection method Methods 0.000 abstract description 9
- 238000012545 processing Methods 0.000 description 19
- 239000013598 vector Substances 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005654 stationary process Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
【解決手段】入力信号の一部の時間区間の音の目立ち度合いを推定する顕著度推定方法であって、参照信号と類似する部分区間である類似部分区間を蓄積区間内から1つ以上検出する類似部分区間検出ステップと、検出された類似部分区間の直後にある所定の時間区間に対応する入力信号の特徴量に基づく分布である予測分布を1つ以上生成する予測分布生成ステップと、生成された予測分布と推定対象信号に基づいて、予測区間に対応する入力信号の顕著度を推定する顕著度推定ステップを含む。
【選択図】図1
Description
特徴量計算部11は、入力信号全体にわたる時間周波数解析を行うことでフレーム毎の特徴ベクトルを計算して出力する(S11)。
以下、図3を参照して入力信号の各区間について定義する。図3は、蓄積区間、参照区間、予測区間、蓄積部分区間、類似部分区間の定義について説明する図である。図3に示すように、予測区間を顕著度の推定対象とする時間区間、参照区間を予測区間の直前にあって所定の時間幅を有する時間区間、蓄積区間を参照区間よりも前の時間区間(時間区間全体)、蓄積部分区間を蓄積区間の一部の区間であって参照区間と同じ時間幅を有する時間区間と定義する。また、推定対象信号を予測区間に対応する入力信号の特徴量(特徴量全体)、参照信号を参照区間に対応する入力信号の特徴量(特徴量全体)、蓄積信号を蓄積区間に対応する入力信号の特徴量(特徴量全体)、蓄積部分信号を蓄積部分区間に対応する入力信号の特徴量(特徴量全体)と定義する。
類似部分区間検出部13は、区間類似度計算部12で出力された区間類似度に基づいて蓄積区間内から参照信号と類似する部分区間である類似部分区間を1つ以上検出する(S13)。類似部分区間検出部13は、1≦t≦Tにおいて、区間類似度SIM(t)の値が高いフレーム番号を、上から順にD個抽出する。Dは定数とし、数個〜数十個程度を抽出することが望ましい。
予測分布生成部14は、検出された類似部分区間の直後にある所定の時間区間に対応する入力信号の特徴量に基づいて予測区間の特徴ベクトルを予測する分布である予測分布を生成する(S14)。
顕著度推定部15は、予測分布生成部14で生成された予測分布と、実際の推定対象信号の比較に基づいて、予測区間に対応する音響信号(入力信号)の目立ち度合い(顕著度)を推定する(S15)。
本実施例の顕著度推定装置1によれば、上記構成によって特定の音響信号である入力信号の特定の時間区間における顕著度を評価することができる。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (5)
- 入力信号の一部の時間区間の音の目立ち度合いを推定する顕著度推定方法であって、
前記入力信号の時間区間のうち、
予測区間を、音の目立ち度合いである顕著度の推定対象とする時間区間とし、
参照区間を、前記予測区間の直前にあって所定の時間幅を有する時間区間とし、
蓄積区間を、前記参照区間よりも前の時間区間とし、
推定対象信号を、前記予測区間に対応する入力信号の特徴量とし、
参照信号を、前記参照区間に対応する入力信号の特徴量とし、
前記参照信号と類似する部分区間である類似部分区間を前記蓄積区間内から1つ以上検出する類似部分区間検出ステップと、
前記検出された類似部分区間の直後にある所定の時間区間に対応する入力信号の特徴量に基づく分布である予測分布を1つ以上生成する予測分布生成ステップと、
前記生成された予測分布と前記推定対象信号に基づいて、前記予測区間に対応する入力信号の顕著度を推定する顕著度推定ステップと、
を含む顕著度推定方法。 - 請求項1に記載の顕著度推定方法であって、
前記顕著度推定ステップは、
前記予測分布生成ステップで1つ以上生成された予測分布中における、前記推定対象信号が出現する出現確率に基づいて、前記顕著度を推定する
顕著度推定方法。 - 請求項2に記載の顕著度推定方法であって、
前記類似部分区間と前記参照区間との類似度に応じて、前記推定対象信号が出現する出現確率に基づく顕著度を変化させる
顕著度推定方法。 - 入力信号の一部の時間区間の音の目立ち度合いを推定する顕著度推定装置であって、
前記入力信号の時間区間のうち、
予測区間を、音の目立ち度合いである顕著度の推定対象とする時間区間とし、
参照区間を、前記予測区間の直前にあって所定の時間幅を有する時間区間とし、
蓄積区間を、前記参照区間よりも前の時間区間とし、
推定対象信号を、前記予測区間に対応する入力信号の特徴量とし、
参照信号を、前記参照区間に対応する入力信号の特徴量とし、
前記参照信号と類似する部分区間である類似部分区間を前記蓄積区間内から1つ以上検出する類似部分区間検出部と、
前記検出された類似部分区間の直後にある所定の時間区間に対応する入力信号の特徴量に基づく分布である予測分布を1つ以上生成する予測分布生成部と、
前記生成された予測分布と前記推定対象信号に基づいて、前記予測区間に対応する入力信号の顕著度を推定する顕著度推定部と、
を含む顕著度推定装置。 - 請求項1から3の何れかに記載された顕著度推定方法の各ステップをコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015007718A JP6257537B2 (ja) | 2015-01-19 | 2015-01-19 | 顕著度推定方法、顕著度推定装置、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015007718A JP6257537B2 (ja) | 2015-01-19 | 2015-01-19 | 顕著度推定方法、顕著度推定装置、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016133600A true JP2016133600A (ja) | 2016-07-25 |
JP6257537B2 JP6257537B2 (ja) | 2018-01-10 |
Family
ID=56426182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015007718A Active JP6257537B2 (ja) | 2015-01-19 | 2015-01-19 | 顕著度推定方法、顕著度推定装置、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6257537B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020527255A (ja) * | 2018-03-29 | 2020-09-03 | 北京字節跳動網絡技術有限公司Beijing Bytedance Network Technology Co., Ltd. | オーディオ指紋抽出方法及び装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002014691A (ja) * | 2000-05-11 | 2002-01-18 | Fuji Xerox Co Ltd | ソース音声信号内の新規点の識別方法 |
JP2012159717A (ja) * | 2011-02-01 | 2012-08-23 | Jvc Kenwood Corp | 楽曲データの変化点検出装置、楽曲データの変化点検出方法及び楽曲データの変化点検出プログラム |
-
2015
- 2015-01-19 JP JP2015007718A patent/JP6257537B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002014691A (ja) * | 2000-05-11 | 2002-01-18 | Fuji Xerox Co Ltd | ソース音声信号内の新規点の識別方法 |
JP2012159717A (ja) * | 2011-02-01 | 2012-08-23 | Jvc Kenwood Corp | 楽曲データの変化点検出装置、楽曲データの変化点検出方法及び楽曲データの変化点検出プログラム |
Non-Patent Citations (2)
Title |
---|
B. SCHAUERTE AND R. STIEFELHAGEN: ""Wow!" Bayesian Surprise for Salient Acoustic Event Detection", PROC. ICASSP 2013, JPN6017045165, May 2013 (2013-05-01), CA, pages 6402 - 6406, ISSN: 0003687893 * |
中島次郎 木村昭悟 杉本晃宏 柏野邦夫: "音響信号との時空間同期を利用した視覚的顕著性の計算モデル", 情報処理学会 研究報告 コンピュータビジョンとイメージメディア(CVIM), vol. 2015−CVIM−195, JPN6017045164, 15 January 2015 (2015-01-15), JP, pages 1 - 4, ISSN: 0003687892 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020527255A (ja) * | 2018-03-29 | 2020-09-03 | 北京字節跳動網絡技術有限公司Beijing Bytedance Network Technology Co., Ltd. | オーディオ指紋抽出方法及び装置 |
US10950255B2 (en) | 2018-03-29 | 2021-03-16 | Beijing Bytedance Network Technology Co., Ltd. | Audio fingerprint extraction method and device |
Also Published As
Publication number | Publication date |
---|---|
JP6257537B2 (ja) | 2018-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4587160B2 (ja) | 信号処理装置および方法 | |
JP6999012B2 (ja) | 音声信号検出方法及び装置 | |
KR102128926B1 (ko) | 오디오 정보 처리 방법 및 디바이스 | |
US10475484B2 (en) | Method and device for processing speech based on artificial intelligence | |
CN112489682B (zh) | 音频处理方法、装置、电子设备和存储介质 | |
JP6967197B2 (ja) | 異常検出装置、異常検出方法及びプログラム | |
CN108962231B (zh) | 一种语音分类方法、装置、服务器及存储介质 | |
JP6495792B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
JP6676009B2 (ja) | 話者判定装置、話者判定情報生成方法、プログラム | |
JPWO2018117094A1 (ja) | 音声認識結果リランキング装置、音声認識結果リランキング方法、プログラム | |
JPWO2019244298A1 (ja) | 属性識別装置、属性識別方法、およびプログラム | |
CN113284507A (zh) | 语音增强模型的训练方法和装置及语音增强方法和装置 | |
JP7409381B2 (ja) | 発話区間検出装置、発話区間検出方法、プログラム | |
EP3417780B1 (en) | Estimation method, estimation program, estimation device, and estimation system | |
CN113223485B (zh) | 节拍检测模型的训练方法、节拍检测方法及装置 | |
US20200075042A1 (en) | Detection of music segment in audio signal | |
JP6257537B2 (ja) | 顕著度推定方法、顕著度推定装置、プログラム | |
US11030995B2 (en) | Acoustic feature extractor selected according to status flag of frame of acoustic signal | |
JP7373358B2 (ja) | 音抽出システム及び音抽出方法 | |
CN110070891B (zh) | 一种歌曲识别方法、装置以及存储介质 | |
JP6724290B2 (ja) | 音響処理装置、音響処理方法、及び、プログラム | |
JP6612277B2 (ja) | ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体 | |
CN114302301B (zh) | 频响校正方法及相关产品 | |
JP2017134197A (ja) | パラメータ調整システム、パラメータ調整方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171025 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6257537 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |