JP5460709B2 - 音響信号処理装置および方法 - Google Patents
音響信号処理装置および方法 Download PDFInfo
- Publication number
- JP5460709B2 JP5460709B2 JP2011518267A JP2011518267A JP5460709B2 JP 5460709 B2 JP5460709 B2 JP 5460709B2 JP 2011518267 A JP2011518267 A JP 2011518267A JP 2011518267 A JP2011518267 A JP 2011518267A JP 5460709 B2 JP5460709 B2 JP 5460709B2
- Authority
- JP
- Japan
- Prior art keywords
- section
- acoustic signal
- background noise
- signal processing
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 32
- 238000000034 method Methods 0.000 title description 15
- 230000003595 spectral effect Effects 0.000 claims description 30
- 230000005236 sound signal Effects 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 10
- 238000003672 processing method Methods 0.000 claims 3
- 238000004590 computer program Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000007796 conventional method Methods 0.000 description 6
- 230000002123 temporal effect Effects 0.000 description 6
- 238000009432 framing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Television Signal Processing For Recording (AREA)
Description
図2は本実施の形態1の音響信号処理装置の構成を示す図である。図2において、処理部間の矢印はデータの流れを示し、矢印に付された参照符号は処理部間で受け渡されるデータを示している。同図に示すように、盛り上がり区間における入力音響信号の成分の時間的変化の特性に基づいて、少ない演算量でハイライト区間を決定する音響信号処理装置は、フレーミング部11、反射係数算出部12、反射係数比較部13、音響信号分類部14、背景雑音レベル算出部15、イベント検出部16及びハイライト区間決定部17を備える。フレーミング部11は、入力された音響信号101をあらかじめ定められたフレーム長のフレーム信号102に分割する。反射係数算出部12は、決められたフレーム長のフレーム信号102からフレームごとの反射係数103を算出する。反射係数比較部13は、フレームごとの反射係数103を隣接しあう複数のフレームにわたって比較し、比較結果104を出力する。音響信号分類部14は、反射係数の比較結果に基づいて入力音響信号をスピーチ区間と背景雑音区間とに分類し、分類結果105を出力する。背景雑音レベル算出部15は、分類結果105に基づいて、入力音響信号の背景雑音区間における背景雑音レベル106を算出する。イベント検出部16は、背景雑音レベル106の変化に基づいて、イベント発生点107を検出する。ハイライト区間決定部17は、入力音響信号の分類結果105、背景雑音レベル106及びイベント発生点107の情報に基づいてハイライト区間108を決定し、出力する。
母音: 中低域(数百Hzから2kHz程度)の成分が強い
空白: 背景雑音のスペクトル特徴が現れる
本発明では、特に子音と母音のスペクトル分布特性の違いに注目し、その特性を利用している。すなわち、中高域の成分が強いスペクトル分布と中低域の成分が強いスペクトル分布とが、比較的短い時間に切り替われば、その音響信号はスピーチ信号であるとみなすことができる。スペクトル分布において、中高域成分が強いか中低域成分が強いかを判定するためには、スペクトル分布の傾きが分かれば十分である。すなわち、高次のスペクトル包絡パラメータを用いて、スペクトル包絡形状の評価を行う必要は無い。スペクトル分布の傾きを表す最も処理量の少ないパラメータとして1次の反射係数があり、次式で算出される。なお、ここでは1次の反射係数を用いたが、反射係数の代わりに、例えば、低次のLPC又はLSPを用いてもよい。ただし、LPC又はLSPを用いる場合でも、1次のLPC又は1次のLSPが、より好ましい。
12 反射係数算出部
13 反射係数比較部
14 音響信号分類部
15 背景雑音レベル算出部
16 イベント検出部
17 ハイライト区間決定部
101 音響信号
102 フレーム信号
103 反射係数
104 比較結果
105 分類結果
106 背景雑音レベル
107 イベント発生点
108、208 視聴に適したハイライト区間
201 スピーチ信号
202 背景雑音信号
203、205 背景雑音区間
204 スピーチ区間
206 正しいイベント発生点
207 スピーチ区間と背景雑音区間の接続点
209、213 ハイライト区間の開始点
210 ハイライト区間の終了点
211、214 ハイライト区間
212 時間オフセット
Claims (7)
- 入力された音響信号をあらかじめ定められた時間長のフレームに分割し、分割されたフレーム毎に音響信号の性質を分類することによって、入力音響信号から特定の特徴を有するシーンを含むハイライト区間を抽出する音響信号処理装置であって、
フレーム毎に入力音響信号のスペクトル分布の傾きを表すパラメータを算出するパラメータ算出手段と、
隣接するフレーム間での前記スペクトル分布の傾きを表すパラメータの変化の大きさを、互いに隣接する複数のフレームに渡って算出し、算出結果とあらかじめ定めた閾値とを比較する比較手段と、
前記比較の結果に基づいて、入力音響信号を背景雑音区間とスピーチ区間とに分類する分類手段と、
前記分類手段によって前記背景雑音区間と分類された区間の信号エネルギから、前記背景雑音区間内の背景雑音レベルを算出するレベル算出手段と、
算出された前記背景雑音レベルの急激な上昇を検出して、イベント発生点を検出するイベント検出手段と、
検出された前記イベント発生点前後の前記背景雑音区間及び前記スピーチ区間の分類結果と、前記背景雑音レベルとの関係から、ハイライト区間の開始点および終了点を決定するハイライト区間決定手段とを備える
音響信号処理装置。 - 前記入力音響信号の前記スペクトル分布の傾きを表すパラメータは、1次の反射係数である
請求項1に記載の音響信号処理装置。 - 前記分類手段は、単位時間内における前記スペクトル分布の傾きを表すパラメータの変化の大きさを、前記閾値と比較し、変化の大きさが前記閾値よりも小さい場合には、入力音響信号が背景雑音区間であると分類し、変化の大きさが前記閾値よりも大きい場合には、入力音響信号がスピーチ区間であると分類する
請求項1に記載の音響信号処理装置。 - 前記ハイライト区間決定手段は、前記イベント発生点から時間を遡って、前記イベント発生点の直近のスピーチ区間を検索し、前記ハイライト区間の開始点を、前記検索結果として得られたスピーチ区間の開始点に一致させる
請求項1に記載の音響信号処理装置。 - 入力された音響信号をあらかじめ定められた時間のフレームに分割し、分割されたフレーム毎に音響信号の性質を分類することによって、入力音響信号から特定の特徴を有するシーンを含むハイライト区間を抽出する音響信号処理方法であって、
フレーム毎に入力音響信号のスペクトル分布の傾きを表すパラメータを算出するパラメータ算出ステップと、
隣接するフレーム間での前記スペクトル分布の傾きを表すパラメータの変化の大きさを、互いに隣接する複数のフレームに渡って算出し、算出結果をあらかじめ定めた閾値と比較する比較ステップと、
前記比較の結果に基づいて、入力音響信号を背景雑音区間とスピーチ区間とに分類する分類ステップと、
前記分類ステップによって前記背景雑音区間と分類された区間の信号エネルギから、前記背景雑音区間内の背景雑音レベルを算出するレベル算出ステップと、
算出された前記背景雑音レベルの急激な上昇を検出して、イベント発生点を検出するイベント検出ステップと、
検出された前記イベント発生点前後の前記背景雑音区間及び前記スピーチ区間の分類結果と、前記背景雑音レベルとの関係から、ハイライト区間の開始点および終了点を決定するハイライト区間決定ステップとを含む
音響信号処理方法。 - 請求項5に記載の音響信号処理方法に含まれる各ステップを、コンピュータに実行させるためのプログラム。
- 請求項1に記載の音響信号処理装置に含まれる構成を備える集積回路。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011518267A JP5460709B2 (ja) | 2009-06-04 | 2010-06-02 | 音響信号処理装置および方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009135598 | 2009-06-04 | ||
JP2009135598 | 2009-06-04 | ||
PCT/JP2010/003676 WO2010140355A1 (ja) | 2009-06-04 | 2010-06-02 | 音響信号処理装置および方法 |
JP2011518267A JP5460709B2 (ja) | 2009-06-04 | 2010-06-02 | 音響信号処理装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010140355A1 JPWO2010140355A1 (ja) | 2012-11-15 |
JP5460709B2 true JP5460709B2 (ja) | 2014-04-02 |
Family
ID=43297498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011518267A Expired - Fee Related JP5460709B2 (ja) | 2009-06-04 | 2010-06-02 | 音響信号処理装置および方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8886528B2 (ja) |
JP (1) | JP5460709B2 (ja) |
WO (1) | WO2010140355A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103053173B (zh) | 2011-06-02 | 2016-09-07 | 松下电器(美国)知识产权公司 | 兴趣区间确定装置、兴趣区间确定方法及兴趣区间确定集成电路 |
CN103716470B (zh) * | 2012-09-29 | 2016-12-07 | 华为技术有限公司 | 语音质量监控的方法和装置 |
DE102013111784B4 (de) * | 2013-10-25 | 2019-11-14 | Intel IP Corporation | Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren |
CN104934032B (zh) * | 2014-03-17 | 2019-04-05 | 华为技术有限公司 | 根据频域能量对语音信号进行处理的方法和装置 |
JP6596924B2 (ja) * | 2014-05-29 | 2019-10-30 | 日本電気株式会社 | 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム |
MY178131A (en) | 2014-07-29 | 2020-10-05 | Ericsson Telefon Ab L M | Estimation of background noise in audio signals |
JP2016144080A (ja) * | 2015-02-03 | 2016-08-08 | ソニー株式会社 | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
JP6560503B2 (ja) * | 2015-02-05 | 2019-08-14 | 日本放送協会 | 盛り上がり通知システム |
US9311924B1 (en) | 2015-07-20 | 2016-04-12 | Tls Corp. | Spectral wells for inserting watermarks in audio signals |
US10115404B2 (en) | 2015-07-24 | 2018-10-30 | Tls Corp. | Redundancy in watermarking audio signals that have speech-like properties |
US9626977B2 (en) | 2015-07-24 | 2017-04-18 | Tls Corp. | Inserting watermarks into audio signals that have speech-like properties |
US20170092089A1 (en) * | 2015-09-30 | 2017-03-30 | Tianjin Hualai Technology Co., Ltd. | Security monitoring apparatus, camera having the same and security monitoring method |
KR20180082033A (ko) * | 2017-01-09 | 2018-07-18 | 삼성전자주식회사 | 음성을 인식하는 전자 장치 |
CN107799126B (zh) * | 2017-10-16 | 2020-10-16 | 苏州狗尾草智能科技有限公司 | 基于有监督机器学习的语音端点检测方法及装置 |
CN111613250B (zh) * | 2020-07-06 | 2023-07-18 | 泰康保险集团股份有限公司 | 长语音端点检测方法与装置、存储介质、电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01279300A (ja) * | 1988-05-02 | 1989-11-09 | Ricoh Co Ltd | 音声信号の区間判別方法 |
JPH0990974A (ja) * | 1995-09-25 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | 信号処理方法 |
JPH113091A (ja) * | 1997-06-13 | 1999-01-06 | Matsushita Electric Ind Co Ltd | 音声信号の立ち上がり検出装置 |
JP2960939B2 (ja) * | 1989-08-24 | 1999-10-12 | 日本電信電話株式会社 | シーン抽出処理方法 |
JP2003029772A (ja) * | 2001-07-17 | 2003-01-31 | Sony Corp | 信号処理装置および方法、記録媒体、並びにプログラム |
JP2003530027A (ja) * | 2000-03-31 | 2003-10-07 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ビデオ信号分析及び蓄積 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5121428A (en) | 1988-01-20 | 1992-06-09 | Ricoh Company, Ltd. | Speaker verification system |
US5774849A (en) | 1996-01-22 | 1998-06-30 | Rockwell International Corporation | Method and apparatus for generating frame voicing decisions of an incoming speech signal |
US6691087B2 (en) * | 1997-11-21 | 2004-02-10 | Sarnoff Corporation | Method and apparatus for adaptive speech detection by applying a probabilistic description to the classification and tracking of signal components |
US7222075B2 (en) * | 1999-08-31 | 2007-05-22 | Accenture Llp | Detecting emotions using voice signal analysis |
US6973256B1 (en) * | 2000-10-30 | 2005-12-06 | Koninklijke Philips Electronics N.V. | System and method for detecting highlights in a video program using audio properties |
US7283954B2 (en) * | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7386217B2 (en) * | 2001-12-14 | 2008-06-10 | Hewlett-Packard Development Company, L.P. | Indexing video by detecting speech and music in audio |
US7266287B2 (en) * | 2001-12-14 | 2007-09-04 | Hewlett-Packard Development Company, L.P. | Using background audio change detection for segmenting video |
JP4036328B2 (ja) * | 2002-09-30 | 2008-01-23 | 株式会社Kddi研究所 | 動画像データのシーン分類装置 |
US20040167767A1 (en) | 2003-02-25 | 2004-08-26 | Ziyou Xiong | Method and system for extracting sports highlights from audio signals |
JP4424590B2 (ja) * | 2004-03-05 | 2010-03-03 | 株式会社Kddi研究所 | スポーツ映像の分類装置 |
US7558809B2 (en) * | 2006-01-06 | 2009-07-07 | Mitsubishi Electric Research Laboratories, Inc. | Task specific audio classification for identifying video highlights |
US8503770B2 (en) * | 2009-04-30 | 2013-08-06 | Sony Corporation | Information processing apparatus and method, and program |
-
2010
- 2010-06-02 US US13/375,815 patent/US8886528B2/en not_active Expired - Fee Related
- 2010-06-02 WO PCT/JP2010/003676 patent/WO2010140355A1/ja active Application Filing
- 2010-06-02 JP JP2011518267A patent/JP5460709B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01279300A (ja) * | 1988-05-02 | 1989-11-09 | Ricoh Co Ltd | 音声信号の区間判別方法 |
JP2960939B2 (ja) * | 1989-08-24 | 1999-10-12 | 日本電信電話株式会社 | シーン抽出処理方法 |
JPH0990974A (ja) * | 1995-09-25 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | 信号処理方法 |
JPH113091A (ja) * | 1997-06-13 | 1999-01-06 | Matsushita Electric Ind Co Ltd | 音声信号の立ち上がり検出装置 |
JP2003530027A (ja) * | 2000-03-31 | 2003-10-07 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ビデオ信号分析及び蓄積 |
JP2003029772A (ja) * | 2001-07-17 | 2003-01-31 | Sony Corp | 信号処理装置および方法、記録媒体、並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
US8886528B2 (en) | 2014-11-11 |
WO2010140355A1 (ja) | 2010-12-09 |
US20120089393A1 (en) | 2012-04-12 |
JPWO2010140355A1 (ja) | 2012-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5460709B2 (ja) | 音響信号処理装置および方法 | |
JP5034516B2 (ja) | ハイライトシーン検出装置 | |
KR101101384B1 (ko) | 파라미터화된 시간 특징 분석 | |
KR101726208B1 (ko) | 볼륨 레벨러 제어기 및 제어 방법 | |
EP2979359B1 (en) | Equalizer controller and controlling method | |
EP3598448B1 (en) | Apparatuses and methods for audio classifying and processing | |
US20050187765A1 (en) | Method and apparatus for detecting anchorperson shot | |
Kos et al. | Acoustic classification and segmentation using modified spectral roll-off and variance-based features | |
US20060245724A1 (en) | Apparatus and method of detecting advertisement from moving-picture and computer-readable recording medium storing computer program to perform the method | |
JP2006319980A (ja) | イベントを利用した動画像要約装置、方法及びプログラム | |
US7769761B2 (en) | Information processing apparatus, method, and program product | |
JP2005173569A (ja) | オーディオ信号の分類装置及び方法 | |
JP2005532582A (ja) | 音響信号に音響クラスを割り当てる方法及び装置 | |
JP2008252667A (ja) | 動画イベント検出装置 | |
JP2008005167A (ja) | 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体 | |
JP3757719B2 (ja) | 音響データ分析方法及びその装置 | |
US20090030947A1 (en) | Information processing device, information processing method, and program therefor | |
JP2008153920A (ja) | 動画像一覧表示装置 | |
JP2005167456A (ja) | Avコンテンツ興趣特徴抽出方法及びavコンテンツ興趣特徴抽出装置 | |
JP4884163B2 (ja) | 音声分類装置 | |
JP2009135754A (ja) | ダイジェスト作成装置及び方法 | |
JP5424306B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP2007127761A (ja) | 会話区間検出装置及び会話区間検出プログラム | |
JP2008242213A (ja) | 楽曲信号抽出装置、楽曲信号抽出方法、および楽曲信号抽出プログラム | |
JP2009192739A (ja) | 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140114 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5460709 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |