JP2013171089A - 音声補正装置、方法、及びプログラム - Google Patents
音声補正装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2013171089A JP2013171089A JP2012033387A JP2012033387A JP2013171089A JP 2013171089 A JP2013171089 A JP 2013171089A JP 2012033387 A JP2012033387 A JP 2012033387A JP 2012033387 A JP2012033387 A JP 2012033387A JP 2013171089 A JP2013171089 A JP 2013171089A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- sound
- image
- correction
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 117
- 238000000926 separation method Methods 0.000 claims abstract description 44
- 239000011159 matrix material Substances 0.000 description 24
- 238000010586 diagram Methods 0.000 description 14
- 238000001514 detection method Methods 0.000 description 6
- 241001465754 Metazoa Species 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000004091 panning Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/034—Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
【解決手段】分離部は、音声から1つ以上の音声成分を分離する。推定部は、動画像の画像フレームの特徴量、あるいは、音声の音声フレームの特徴量のうち、少なくともいずれか一方に基づき、動画像中において、関連する一連の画像フレームを含むシーンを推定する。解析部は、動画像を解析して、シーンに含まれる画像フレームの属性である属性情報を得る。補正部は、属性情報に基づき、シーンに含まれる画像フレームに対応する音声成分の補正方法を決定し、決定した補正方法に従って音声成分を補正する。
【選択図】図1
Description
第1の実施形態に係る音声補正装置1は、例えば、テレビ、パーソナルコンピュータ(PC)、タブレット型PC、スマートフォン等、動画像及び音声を出力可能な機器に用いられ得る。
(第2の実施形態)
第2の実施形態に係る音声補正装置2は、動画像ではなく、音声からシーン境界を推定する点と、声を発している人物が画像中に出現しないシーンでは、音声を抑制するように、音声成分を補正する点が、前実施形態の場合と異なる。音声補正装置2の処理のフローは、音声補正装置1(図2)と同様である。
(第3の実施形態)
図13は、第3の実施形態に係る音声補正装置3が処理するのに好適な動画像の一例図である。図13に示すように、画像フレームf26〜f29は、楽曲が始まる前のトークの場面を、画像フレームf30〜f36は、楽曲が演奏されている場面を表している。
(第4の実施形態)
第4の実施例に係る音声補正装置4では、動画像からカメラの動き(カメラワーク)を解析する点と、当該カメラワークに応じて音声成分を補正する点が、第3の実施形態の場合と異なる。
10・・・取得部
20、22・・・分離部
30、31、32・・・推定部
40、42、43・・・解析部
50、51、52、53・・・補正部
60・・・合成部
70・・・出力部
Claims (8)
- 動画像に対応する音声を補正する音声補正装置であって、
前記音声から1つ以上の音声成分を分離する分離部と、
前記動画像の画像フレームの特徴量、あるいは、前記音声の音声フレームの特徴量のうち、少なくともいずれか一方に基づき、前記動画像中において、関連する一連の画像フレームを含むシーンを推定する推定部と、
前記動画像を解析して、前記シーンに含まれる画像フレームの属性である属性情報を得る解析部と、
前記属性情報に基づき、前記シーンに含まれる画像フレームに対応する前記音声成分の補正方法を決定し、決定した前記補正方法に従って前記音声成分を補正する補正部と
を備える、音声補正装置。 - 前記推定部は、前記動画像の画像フレームの特徴量に基づいて、前記動画像におけるカット境界を求め、一の前記カット境界と、前記カット境界の直前にある他のカット境界と、の間に属する画像フレームの特徴量に基づいて、前記シーンを推定する、
請求項1記載の音声補正装置。 - 前記解析部は、画像フレームに人物が出現するか否かを属性情報として得、
前記補正部は、同一の前記シーンに含まれる画像フレームで、人物が出現した画像フレームの数と、人物が出現しない画像フレームの数と比較し、各々の数に基づいて同一の前記シーンに含まれる画像フレームに対応する前記音声成分を補正する、
請求項2記載の音声補正装置。 - 前記補正部は、
人物が出現した画像フレームの数、人物が出現しない画像フレーム数のうち、画像フレーム数が多い方の画像フレームに対応する補正方法に従って、同一の前記シーンに含まれる画像フレームに対応する前記音声成分を補正する、
請求項3記載の音声補正装置。 - 前記推定部は、前記音声フレームに含まれる音声成分の種類を分類し、各々の前記音声フレームに対応する前記音声成分の種類に基づき、前記シーンを推定する、
請求項1記載の音声補正装置。 - 前記推定部は、各々の前記音声フレームのうち、予め定めた特定音が検出されたかどうかに基づいて、前記シーンを推定する、
請求項1記載の音声補正装置。 - 動画像に対応する音声を補正する音声補正方法であって、
前記音声から1つ以上の音声成分を分離し、
前記動画像の画像フレームの特徴量、あるいは、前記音声の音声フレームの特徴量のうち、少なくともいずれか一方に基づき、前記動画像中において、関連する一連の画像フレームを含むシーンを推定し、
前記動画像を解析して、前記シーンに含まれる画像フレームの属性である属性情報を得、
前記属性情報に基づき、前記シーンに含まれる画像フレームに対応する前記音声成分の補正方法を決定し、決定した前記補正方法に従って前記音声成分を補正する、
音声補正装置。
- 動画像に対応する音声を補正するために、コンピュータを、
前記音声から1つ以上の音声成分を分離する手段と、
前記動画像の画像フレームの特徴量、あるいは、前記音声の音声フレームの特徴量のうち、少なくともいずれか一方に基づき、前記動画像中において、関連する一連の画像フレームを含むシーンを推定する手段と、
前記動画像を解析して、前記シーンに含まれる画像フレームの属性である属性情報を得る手段と、
前記属性情報に基づき、前記シーンに含まれる画像フレームに対応する前記音声成分の補正方法を決定し、決定した前記補正方法に従って前記音声成分を補正する手段と
して機能させる、音声補正プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012033387A JP2013171089A (ja) | 2012-02-17 | 2012-02-17 | 音声補正装置、方法、及びプログラム |
US13/591,660 US20130218570A1 (en) | 2012-02-17 | 2012-08-22 | Apparatus and method for correcting speech, and non-transitory computer readable medium thereof |
CN2012103059703A CN103259979A (zh) | 2012-02-17 | 2012-08-24 | 用于校正语音的设备和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012033387A JP2013171089A (ja) | 2012-02-17 | 2012-02-17 | 音声補正装置、方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013171089A true JP2013171089A (ja) | 2013-09-02 |
Family
ID=48963650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012033387A Pending JP2013171089A (ja) | 2012-02-17 | 2012-02-17 | 音声補正装置、方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20130218570A1 (ja) |
JP (1) | JP2013171089A (ja) |
CN (1) | CN103259979A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102374343B1 (ko) * | 2021-07-09 | 2022-03-16 | (주)에이아이매틱스 | 목소리 개인정보 보호 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5662276B2 (ja) * | 2011-08-05 | 2015-01-28 | 株式会社東芝 | 音響信号処理装置および音響信号処理方法 |
JP6054142B2 (ja) | 2012-10-31 | 2016-12-27 | 株式会社東芝 | 信号処理装置、方法およびプログラム |
KR102650850B1 (ko) | 2016-05-30 | 2024-03-26 | 소니그룹주식회사 | 영상 음향 처리 장치 및 방법, 및 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체 |
JP7196399B2 (ja) | 2017-03-14 | 2022-12-27 | 株式会社リコー | 音響装置、音響システム、方法およびプログラム |
WO2018168902A1 (en) * | 2017-03-14 | 2018-09-20 | Ricoh Company, Ltd. | Sound recording apparatus, sound system, sound recording method, and carrier means |
CN111506766B (zh) * | 2020-04-20 | 2023-03-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频帧聚类方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007329679A (ja) * | 2006-06-07 | 2007-12-20 | Fujifilm Corp | 画像表示装置及び画像表示方法 |
JP2008252737A (ja) * | 2007-03-30 | 2008-10-16 | Sony Corp | 情報処理装置および方法 |
JP2009156888A (ja) * | 2007-12-25 | 2009-07-16 | Sanyo Electric Co Ltd | 音声補正装置及びそれを備えた撮像装置並びに音声補正方法 |
JP2011013383A (ja) * | 2009-06-30 | 2011-01-20 | Toshiba Corp | オーディオ信号補正装置及びオーディオ信号補正方法 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6483532B1 (en) * | 1998-07-13 | 2002-11-19 | Netergy Microelectronics, Inc. | Video-assisted audio signal processing system and method |
JP4393425B2 (ja) * | 2005-06-28 | 2010-01-06 | 株式会社東芝 | 映像機器、映像記録方法および映像再生方法 |
JP4457358B2 (ja) * | 2006-05-12 | 2010-04-28 | 富士フイルム株式会社 | 顔検出枠の表示方法、文字情報の表示方法及び撮像装置 |
JP4732299B2 (ja) * | 2006-10-25 | 2011-07-27 | 富士フイルム株式会社 | 特定被写体像の検出方法およびデジタルカメラ |
JP2008160730A (ja) * | 2006-12-26 | 2008-07-10 | Nikon Corp | 信号ムラを修正する画像処理装置、較正方法、撮像装置、画像処理プログラム、および画像処理方法 |
JP2008164823A (ja) * | 2006-12-27 | 2008-07-17 | Toshiba Corp | オーディオデータ処理装置 |
JP2008219428A (ja) * | 2007-03-02 | 2008-09-18 | Fujifilm Corp | 撮像装置 |
JP2008309947A (ja) * | 2007-06-13 | 2008-12-25 | Fujifilm Corp | 撮像装置及び撮像方法 |
US8218033B2 (en) * | 2007-09-10 | 2012-07-10 | Sanyo Electric Co., Ltd. | Sound corrector, sound recording device, sound reproducing device, and sound correcting method |
CN101442636B (zh) * | 2007-11-20 | 2012-12-05 | 康佳集团股份有限公司 | 一种电视音量智能调节方法及系统 |
US8487984B2 (en) * | 2008-01-25 | 2013-07-16 | At&T Intellectual Property I, L.P. | System and method for digital video retrieval involving speech recognition |
JP2010187363A (ja) * | 2009-01-16 | 2010-08-26 | Sanyo Electric Co Ltd | 音響信号処理装置及び再生装置 |
JP5801026B2 (ja) * | 2009-05-28 | 2015-10-28 | 株式会社ザクティ | 画像音響処理装置及び撮像装置 |
JP2011065093A (ja) * | 2009-09-18 | 2011-03-31 | Toshiba Corp | オーディオ信号補正装置及びオーディオ信号補正方法 |
JP4709928B1 (ja) * | 2010-01-21 | 2011-06-29 | 株式会社東芝 | 音質補正装置及び音質補正方法 |
JP4869420B2 (ja) * | 2010-03-25 | 2012-02-08 | 株式会社東芝 | 音情報判定装置、及び音情報判定方法 |
JP4837123B1 (ja) * | 2010-07-28 | 2011-12-14 | 株式会社東芝 | 音質制御装置及び音質制御方法 |
JP4937393B2 (ja) * | 2010-09-17 | 2012-05-23 | 株式会社東芝 | 音質補正装置及び音声補正方法 |
JP5085769B1 (ja) * | 2011-06-24 | 2012-11-28 | 株式会社東芝 | 音響制御装置、音響補正装置、及び音響補正方法 |
US9392322B2 (en) * | 2012-05-10 | 2016-07-12 | Google Technology Holdings LLC | Method of visually synchronizing differing camera feeds with common subject |
JP6012342B2 (ja) * | 2012-09-03 | 2016-10-25 | キヤノン株式会社 | 再生装置、再生装置の制御方法 |
-
2012
- 2012-02-17 JP JP2012033387A patent/JP2013171089A/ja active Pending
- 2012-08-22 US US13/591,660 patent/US20130218570A1/en not_active Abandoned
- 2012-08-24 CN CN2012103059703A patent/CN103259979A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007329679A (ja) * | 2006-06-07 | 2007-12-20 | Fujifilm Corp | 画像表示装置及び画像表示方法 |
JP2008252737A (ja) * | 2007-03-30 | 2008-10-16 | Sony Corp | 情報処理装置および方法 |
JP2009156888A (ja) * | 2007-12-25 | 2009-07-16 | Sanyo Electric Co Ltd | 音声補正装置及びそれを備えた撮像装置並びに音声補正方法 |
JP2011013383A (ja) * | 2009-06-30 | 2011-01-20 | Toshiba Corp | オーディオ信号補正装置及びオーディオ信号補正方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102374343B1 (ko) * | 2021-07-09 | 2022-03-16 | (주)에이아이매틱스 | 목소리 개인정보 보호 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템 |
WO2023282520A1 (ko) * | 2021-07-09 | 2023-01-12 | (주)에이아이매틱스 | 목소리 개인정보 보호 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
US20130218570A1 (en) | 2013-08-22 |
CN103259979A (zh) | 2013-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013171089A (ja) | 音声補正装置、方法、及びプログラム | |
CN108780643B (zh) | 自动配音方法和装置 | |
US20180182415A1 (en) | Augmented multi-tier classifier for multi-modal voice activity detection | |
US10037313B2 (en) | Automatic smoothed captioning of non-speech sounds from audio | |
US8558952B2 (en) | Image-sound segment corresponding apparatus, method and program | |
US8873861B2 (en) | Video processing apparatus and method | |
WO2005069171A1 (ja) | 文書対応付け装置、および文書対応付け方法 | |
KR20090092839A (ko) | 2d 비디오를 3d 비디오로 변환하기 위한 시스템 및 방법 | |
KR20150093425A (ko) | 콘텐츠 추천 방법 및 장치 | |
JP6882057B2 (ja) | 信号処理装置、信号処理方法、およびプログラム | |
JP2009147768A (ja) | 映像音声記録装置および映像音声再生装置 | |
WO2011132410A1 (ja) | アンカーモデル適応装置、集積回路、AV(Audio Video)デバイス、オンライン自己適応方法、およびそのプログラム | |
Li et al. | Audiovisual source association for string ensembles through multi-modal vibrato analysis | |
Tapu et al. | DEEP-HEAR: A multimodal subtitle positioning system dedicated to deaf and hearing-impaired people | |
Gillet et al. | Automatic transcription of drum sequences using audiovisual features | |
US20090248414A1 (en) | Personal name assignment apparatus and method | |
JP2009278202A (ja) | 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Li et al. | Online audio-visual source association for chamber music performances | |
CN110998724B (zh) | 基于位置元数据的音频对象分类 | |
JP2007060606A (ja) | ビデオの自動構造抽出・提供方式からなるコンピュータプログラム | |
JP2006014084A (ja) | 映像編集装置、映像編集プログラム、記録媒体、および映像編集方法 | |
JP6016277B2 (ja) | 映像音響処理システム、映像音響処理方法及びプログラム | |
Kim et al. | Detection of goal events in soccer videos | |
CN113362849A (zh) | 一种语音数据处理方法以及装置 | |
Giannakopoulos et al. | Music tracking in audio streams from movies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140509 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140708 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150130 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20150216 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150218 |