JP6428256B2 - 音声処理装置 - Google Patents
音声処理装置 Download PDFInfo
- Publication number
- JP6428256B2 JP6428256B2 JP2014263512A JP2014263512A JP6428256B2 JP 6428256 B2 JP6428256 B2 JP 6428256B2 JP 2014263512 A JP2014263512 A JP 2014263512A JP 2014263512 A JP2014263512 A JP 2014263512A JP 6428256 B2 JP6428256 B2 JP 6428256B2
- Authority
- JP
- Japan
- Prior art keywords
- component
- frequency
- unit
- spectrum
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 49
- 230000005236 sound signal Effects 0.000 claims description 93
- 238000001228 spectrum Methods 0.000 claims description 88
- 238000004458 analytical method Methods 0.000 claims description 46
- 238000012937 correction Methods 0.000 description 21
- 238000006243 chemical reaction Methods 0.000 description 19
- 238000000034 method Methods 0.000 description 13
- 230000008901 benefit Effects 0.000 description 9
- 230000008707 rearrangement Effects 0.000 description 9
- 206010013952 Dysphonia Diseases 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 208000027498 hoarse voice Diseases 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000010363 phase shift Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000001831 conversion spectrum Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 238000012952 Resampling Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
- Spectroscopy & Molecular Physics (AREA)
Description
図1は、本発明の第1実施形態に係る音声処理装置100の構成図である。音声処理装置100には外部機器12から音声信号x(t)が供給される。音声信号x(t)は、特定の音高および音韻(発音内容)で発音された会話音や歌唱音等の音声を表す時間領域の信号である(t:時間)。例えば、周囲の音響を収音して音声信号x(t)を生成する収音機器、可搬型または内蔵型の記録媒体から音声信号x(t)を取得して出力する再生機器、あるいは通信網から音声信号x(t)を受信して出力する通信機器が外部機器12として利用され得る。
数式(1)の記号〈 〉は床関数を意味する。すなわち、関数〈x+0.5〉は、数値xを四捨五入した整数を算定する演算である。以上の説明から理解される通り、周波数軸上に配列された複数の単位帯域成分U(m)で構成される再配置スペクトルS(k)が生成される。再配置スペクトルS(k)の任意の1個の単位帯域成分U(m)は、調波周波数H(m)から調波周波数H(m+1)までの帯域成分である。
数式(3)の記号AH(m)は、単位帯域成分U(m)のうち調波周波数H(m)の成分の振幅であり、記号AX(m)は、音声信号x(t)のうち調波周波数H(m)の成分の振幅である。任意の1個の単位帯域成分U(m)内の各周波数の振幅の補正に共通の補正値g(m)が適用される。以上に説明した補正値g(m)により、単位帯域成分U(m)のうち調波周波数H(m)での振幅AH(m)が音声信号x(t)の調波周波数H(m)での振幅AX(m)に補正される。
数式(4)の記号φH(m)は、単位帯域成分U(m)のうち調波周波数H(m)の成分の位相であり、記号φX(m)は、音声信号x(t)のうち調波周波数H(m)の成分の位相である。任意の1個の単位帯域成分U(m)内の各周波数の位相の補正に共通の補正値θ(m)が適用される。以上に説明した補正値θ(m)により、図3に例示される通り、単位帯域成分U(m)のうち調波周波数H(m)での位相φH(m)が音声信号x(t)の調波周波数H(m)での位相φX(m)に補正され、単位帯域成分U(m)の各周波数の位相が補正値θ(m)に応じた同等の移相量だけ変化する。
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
前掲の数式(2)および数式(4)から理解される通り、第1実施形態では、任意の1個の単位帯域成分U(m)内の全周波数にわたる位相を共通の補正量(移相量)θ(m)だけ変化させる(すなわち、単位帯域成分U(m)の位相スペクトルを位相軸の方向に平行移動する構成)構成を例示した。以上の構成では、補正値θ(m)を適用した移相による時間軸上の移動量は単位帯域成分U(m)内の周波数毎に相違するから、目標音声信号rB(t)の時間波形が変化する可能性がある。
以上に例示した形態は多様に変形される。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
Claims (4)
- 目標声質の音声を表す第1音声信号の第1基本周波数を、前記目標声質とは相違する初期声質の音声を表す第2音声信号の第2基本周波数に調整する音高調整手段と、
前記音高調整手段による調整後の第1音声信号のスペクトルを前記第2基本周波数に対応する各調波周波数で区分した複数の単位帯域成分の各々を、前記音高調整手段による調整前の第1音声信号のスペクトルのうち当該単位帯域成分に対応する成分の近傍に位置するように、前記第2基本周波数に対応する各調波周波数に配置する成分配置手段と、
前記成分配置手段による配置後の各単位帯域成分の成分値を前記第2音声信号のスペクトルの成分値に応じて調整するとともに、前記第2基本周波数に対応する前記各調波周波数を含む各特定帯域については前記第2音声信号のスペクトルの成分値を適用することで、変換スペクトルを生成する成分調整手段と
を具備する音声処理装置。 - 前記成分調整手段は、前記成分配置手段による配置後の各単位帯域成分のうち前記第2基本周波数に対応する調波周波数での成分値が、前記第2音声信号のスペクトルのうち当該調波周波数での成分値に合致するように、前記各単位帯域成分の成分値を調整する
請求項1の音声処理装置。 - 前記成分値は位相を含み、
前記成分調整手段は、前記成分配置手段による配置後の各単位帯域成分に包含される各周波数成分の時間軸上の移動量が一定となるように、当該単位帯域成分内の周波数毎に移相量を相違させる
請求項1または請求項2の音声処理装置。 - 前記第2基本周波数に対応する基本周期で前記音高調整手段による調整後の第1音声信号に存在する時間波形のピークに対して所定の位置関係にある分析窓により前記第1音声信号を時間軸上で複数の単位区間に区分して当該単位区間毎にスペクトルを算定する第1周波数解析手段と、
前記第2基本周波数に対応する基本周期で前記第2音声信号に存在する時間波形のピークに対して前所定の位置関係にある分析窓により前記第2音声信号を時間軸上で複数の単位区間に区分して当該単位区間毎にスペクトルを算定する第2周波数解析手段と
を具備する請求項1から請求項3の何れかの音声処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014263512A JP6428256B2 (ja) | 2014-12-25 | 2014-12-25 | 音声処理装置 |
US14/980,517 US9865276B2 (en) | 2014-12-25 | 2015-12-28 | Voice processing method and apparatus, and recording medium therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014263512A JP6428256B2 (ja) | 2014-12-25 | 2014-12-25 | 音声処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016122157A JP2016122157A (ja) | 2016-07-07 |
JP6428256B2 true JP6428256B2 (ja) | 2018-11-28 |
Family
ID=56164969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014263512A Expired - Fee Related JP6428256B2 (ja) | 2014-12-25 | 2014-12-25 | 音声処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9865276B2 (ja) |
JP (1) | JP6428256B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6300328B2 (ja) * | 2016-02-04 | 2018-03-28 | 和彦 外山 | 環境音生成装置及びそれを用いた環境音生成システム、環境音生成プログラム、音環境形成方法及び記録媒体 |
US20190362737A1 (en) * | 2018-05-25 | 2019-11-28 | i2x GmbH | Modifying voice data of a conversation to achieve a desired outcome |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3697699A (en) * | 1969-10-22 | 1972-10-10 | Ltv Electrosystems Inc | Digital speech signal synthesizer |
US3703609A (en) * | 1970-11-23 | 1972-11-21 | E Systems Inc | Noise signal generator for a digital speech synthesizer |
US4076958A (en) * | 1976-09-13 | 1978-02-28 | E-Systems, Inc. | Signal synthesizer spectrum contour scaler |
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
US5787387A (en) * | 1994-07-11 | 1998-07-28 | Voxware, Inc. | Harmonic adaptive speech coding method and system |
JP3907027B2 (ja) * | 1998-06-23 | 2007-04-18 | ヤマハ株式会社 | 音声変換装置および音声変換方法 |
JP4286405B2 (ja) * | 1999-10-21 | 2009-07-01 | ヤマハ株式会社 | 信号分析装置および信号分析方法 |
JP3718642B2 (ja) * | 2001-06-12 | 2005-11-24 | エタニ電機株式会社 | 音響機器、音響空間、電気信号伝送線路等の伝達特性測定方法 |
WO2006070768A1 (ja) * | 2004-12-27 | 2006-07-06 | P Softhouse Co., Ltd. | オーディオ波形処理装置、方式およびプログラム |
JP5098569B2 (ja) * | 2007-10-25 | 2012-12-12 | ヤマハ株式会社 | 帯域拡張再生装置 |
JP2009244705A (ja) * | 2008-03-31 | 2009-10-22 | Brother Ind Ltd | ピッチシフトシステムおよびプログラム |
JP5038995B2 (ja) * | 2008-08-25 | 2012-10-03 | 株式会社東芝 | 声質変換装置及び方法、音声合成装置及び方法 |
WO2011004579A1 (ja) * | 2009-07-06 | 2011-01-13 | パナソニック株式会社 | 声質変換装置、音高変換装置および声質変換方法 |
US20110125494A1 (en) * | 2009-11-23 | 2011-05-26 | Cambridge Silicon Radio Limited | Speech Intelligibility |
JP5039865B2 (ja) * | 2010-06-04 | 2012-10-03 | パナソニック株式会社 | 声質変換装置及びその方法 |
JP5716595B2 (ja) * | 2011-01-28 | 2015-05-13 | 富士通株式会社 | 音声補正装置、音声補正方法及び音声補正プログラム |
US9520144B2 (en) * | 2012-03-23 | 2016-12-13 | Dolby Laboratories Licensing Corporation | Determining a harmonicity measure for voice processing |
JP5772739B2 (ja) | 2012-06-21 | 2015-09-02 | ヤマハ株式会社 | 音声処理装置 |
US9396740B1 (en) * | 2014-09-30 | 2016-07-19 | Knuedge Incorporated | Systems and methods for estimating pitch in audio signals based on symmetry characteristics independent of harmonic amplitudes |
-
2014
- 2014-12-25 JP JP2014263512A patent/JP6428256B2/ja not_active Expired - Fee Related
-
2015
- 2015-12-28 US US14/980,517 patent/US9865276B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016122157A (ja) | 2016-07-07 |
US20160189725A1 (en) | 2016-06-30 |
US9865276B2 (en) | 2018-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5341128B2 (ja) | 補聴器における安定性の改善 | |
US8271292B2 (en) | Signal bandwidth expanding apparatus | |
CN103999487A (zh) | 听觉装置的稳定性和语音可听性改进 | |
US9855893B2 (en) | Generating an audio signal with a configurable distance cue | |
JP4738213B2 (ja) | 利得調整方法及び利得調整装置 | |
US20100217584A1 (en) | Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program | |
WO2014129233A1 (ja) | 音声強調装置 | |
US11727949B2 (en) | Methods and apparatus for reducing stuttering | |
JP6428256B2 (ja) | 音声処理装置 | |
WO2019172397A1 (ja) | 音処理方法、音処理装置および記録媒体 | |
US8492639B2 (en) | Audio processing apparatus and method | |
JP2016134706A (ja) | ミキシング装置、信号ミキシング方法、及びミキシングプログラム | |
JP2012022166A (ja) | 音声処理装置、音声処理方法および電話装置 | |
JP2006017946A (ja) | 音声処理装置およびプログラム | |
JP2012208177A (ja) | 帯域拡張装置及び音声補正装置 | |
US20090222268A1 (en) | Speech synthesis system having artificial excitation signal | |
JP2011227256A (ja) | 信号補正装置 | |
WO2020241641A1 (ja) | 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法 | |
JP2010151965A (ja) | 音声処理装置、及び、音声処理方法 | |
JP2018072723A (ja) | 音響処理方法および音響処理装置 | |
Mu | Perceptual quality improvement and assessment for virtual bass system | |
JP6409417B2 (ja) | 音響処理装置 | |
JP6337698B2 (ja) | 音響処理装置 | |
JP5745453B2 (ja) | 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム | |
JP6011039B2 (ja) | 音声合成装置および音声合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171023 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180919 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181002 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181015 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6428256 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |