JP5433696B2 - 音声処理装置 - Google Patents
音声処理装置 Download PDFInfo
- Publication number
- JP5433696B2 JP5433696B2 JP2011524597A JP2011524597A JP5433696B2 JP 5433696 B2 JP5433696 B2 JP 5433696B2 JP 2011524597 A JP2011524597 A JP 2011524597A JP 2011524597 A JP2011524597 A JP 2011524597A JP 5433696 B2 JP5433696 B2 JP 5433696B2
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- unit
- spectrum
- component
- frequency spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 49
- 230000000737 periodic effect Effects 0.000 claims description 121
- 238000001228 spectrum Methods 0.000 claims description 120
- 238000011156 evaluation Methods 0.000 claims description 62
- 238000000926 separation method Methods 0.000 claims description 37
- 238000004458 analytical method Methods 0.000 claims description 34
- 230000005236 sound signal Effects 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 19
- 230000003595 spectral effect Effects 0.000 claims description 8
- 210000001260 vocal cord Anatomy 0.000 claims description 7
- 230000002087 whitening effect Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 description 22
- 230000004048 modification Effects 0.000 description 20
- 238000012986 modification Methods 0.000 description 20
- 238000004364 calculation method Methods 0.000 description 14
- 230000008859 change Effects 0.000 description 11
- 239000000872 buffer Substances 0.000 description 9
- 238000005457 optimization Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 239000000470 constituent Substances 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012886 linear function Methods 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000002939 conjugate gradient method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。
上記実施形態では、部分波形から分離した周期成分の音声波形と非周期成分の音声波形とを、そのまま出力する例について説明した。但し、実際には、ある程度の長さの音声波形である連続音声波形を、周期成分の音声波形と非周期成分の音声波形とに分離する場合が多い。そこで、変形例1では、連続音声波形を構成する各時刻の部分波形から分離した周期成分の音声波形、非周期成分の音声波形をそれぞれ重畳することにより、連続音声波形を周期成分の音声波形と非周期成分の音声波形とに分離して、出力する例について説明する。
上記実施形態では、評価部244の評価尺度として、非周期成分の周波数スペクトルのパワーを用いる例について説明した。但し、この評価尺度を用いて非周期成分の周波数スペクトルの分離を行なうと、分離された非周期成分の周波数スペクトル中の倍音成分の位置(基本周波数の整数倍の位置)に深い谷が生じて不自然なスペクトルになる場合がある。
変形例1では、非周期成分の周波数スペクトルに関する特徴を表す指標として、非周期成分の周波数スペクトルのパワーの滑らかさを表す指標を導入した例について説明したが、これ以外の指標を用いても良い。
上記実施の形態では、ピッチやパワーが時間的に変化することによって生じる非周期性については適切に扱うことができる。但し、声道の形状が時間的に変化することによって生じる非周期性については考慮されていない。このため、上記実施の形態では、音素境界などにおいて急激に声道の形状が変化してスペクトル包絡(スペクトルの概形)が大きく変化する箇所においては、声帯振動に起因する周期成分が、非周期成分に大きくリークしてしまう場合がある。
また、上記実施形態の音声処理装置の機能を、音声処理プログラムを実行することにより実現させるようにしてもよい。
10 入力部
100 マーキング部
200 部分波形処理部
210 抽出部
220 算出部
230 推定部
231 波形生成部
232 窓掛け部
233 離散フーリエ変換部
240 分離部
241 設定部
242 周期成分生成部
243 非周期成分生成部
244 評価部
245 最適化部
246 逆離散フーリエ変換部
Claims (10)
- 音声信号を入力する入力部と、
前記音声信号に対し、基本周期の代表点を示すピッチマークを基本周期毎に付与するマーキング部と、
前記音声信号の一部を窓掛けし、窓掛けした部分の音声波形である部分波形を抽出する抽出部と、
前記部分波形を周波数分析して、周波数スペクトルを算出する算出部と、
前記ピッチマークの間隔に応じた波形である人工波形を前記音声信号の基本周波数の所定数倍の周波数を有する倍音成分毎に生成し、前記人工波形それぞれから、倍音成分の周波数スペクトルの特徴を示す倍音スペクトル特徴を推定する推定部と、
前記倍音スペクトル特徴のそれぞれと前記部分波形の周波数スペクトルとを用いて、前記部分波形を、周期的な声帯振動を音源とする周期成分と声帯振動以外の非周期的な音源で生成される非周期成分とに分離する分離部と、
を備えることを特徴とする音声処理装置。 - 前記抽出部は、所定の分析窓を用いて前記音声信号の一部を窓掛けし、
前記推定部は、前記人工波形それぞれを、前記分析窓と同一の長さの分析窓を用いて窓掛けして抽出した波形を周波数分析することにより、前記倍音スペクトル特徴を推定することを特徴とする請求項1に記載の音声処理装置。 - 前記マーキング部は、更に、前記基本周期毎にパワーに関するパワー値を算出し、
前記推定部は、更に、前記パワー値を用いて前記人工波形を生成することを特徴とする請求項1に記載の音声処理装置。 - 前記分離部は、前記倍音スペクトル特徴それぞれの線形和を算出することにより、前記周期成分の周波数スペクトルを生成することを特徴とする請求項1に記載の音声処理装置。
- 前記分離部は、複素スペクトル領域で、前記部分波形の周波数スペクトルから前記周期成分の周波数スペクトルを減算することにより、前記非周期成分の周波数スペクトルを生成することを特徴とする請求項4に記載の音声処理装置。
- 前記分離部は、前記非周期成分の周波数スペクトルから非周期性に関する評価尺度を算出し、前記非周期性に関する評価尺度が収束するように、前記倍音スペクトル特徴それぞれの線形和を算出することにより、前記周期成分の周波数スペクトルを生成することを特徴とする請求項5に記載の音声処理装置。
- 前記評価尺度は、前記非周期成分の周波数スペクトルの周波数軸方向でのパワーの滑らかさを表す指標を少なくとも含むことを特徴とする請求項6に記載の音声処理装置。
- 前記評価尺度は、前記非周期成分の周波数スペクトルの周波数軸方向での位相のランダムさを表す指標を少なくとも含むことを特徴とする請求項6に記載の音声処理装置。
- 前記抽出部が窓掛けに用いる前記分析窓は、基本周期の2〜10倍の窓幅のハニング窓であることを特徴とする請求項2に記載の音声処理装置。
- 前記抽出部は、前記音声信号又は前記部分波形に対し、スペクトルの白色化を行なうことを特徴とする請求項1に記載の音声処理装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2009/063663 WO2011013244A1 (ja) | 2009-07-31 | 2009-07-31 | 音声処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011013244A1 JPWO2011013244A1 (ja) | 2013-01-07 |
JP5433696B2 true JP5433696B2 (ja) | 2014-03-05 |
Family
ID=43528920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011524597A Expired - Fee Related JP5433696B2 (ja) | 2009-07-31 | 2009-07-31 | 音声処理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8438014B2 (ja) |
JP (1) | JP5433696B2 (ja) |
WO (1) | WO2011013244A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10453479B2 (en) * | 2011-09-23 | 2019-10-22 | Lessac Technologies, Inc. | Methods for aligning expressive speech utterances with text and systems therefor |
CN103426441B (zh) * | 2012-05-18 | 2016-03-02 | 华为技术有限公司 | 检测基音周期的正确性的方法和装置 |
WO2013189528A1 (en) * | 2012-06-20 | 2013-12-27 | Widex A/S | Method of sound processing in a hearing aid and a hearing aid |
US8744854B1 (en) * | 2012-09-24 | 2014-06-03 | Chengjun Julian Chen | System and method for voice transformation |
JP6238246B2 (ja) * | 2015-04-16 | 2017-11-29 | 本田技研工業株式会社 | 会話処理装置、および会話処理方法 |
CN107785020B (zh) * | 2016-08-24 | 2022-01-25 | 中兴通讯股份有限公司 | 语音识别处理方法及装置 |
JP6672114B2 (ja) * | 2016-09-13 | 2020-03-25 | 本田技研工業株式会社 | 会話メンバー最適化装置、会話メンバー最適化方法およびプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006113298A (ja) * | 2004-10-14 | 2006-04-27 | Nippon Telegr & Teleph Corp <Ntt> | オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体 |
JP2009163121A (ja) * | 2008-01-09 | 2009-07-23 | Toshiba Corp | 音声処理装置及びそのプログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5765127A (en) * | 1992-03-18 | 1998-06-09 | Sony Corp | High efficiency encoding method |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
WO1999059139A2 (en) | 1998-05-11 | 1999-11-18 | Koninklijke Philips Electronics N.V. | Speech coding based on determining a noise contribution from a phase change |
US6377916B1 (en) * | 1999-11-29 | 2002-04-23 | Digital Voice Systems, Inc. | Multiband harmonic transform coder |
US6975984B2 (en) * | 2000-02-08 | 2005-12-13 | Speech Technology And Applied Research Corporation | Electrolaryngeal speech enhancement for telephony |
EP1340317A1 (en) * | 2000-11-03 | 2003-09-03 | Koninklijke Philips Electronics N.V. | Parametric coding of audio signals |
US7523032B2 (en) * | 2003-12-19 | 2009-04-21 | Nokia Corporation | Speech coding method, device, coding module, system and software program product for pre-processing the phase structure of a to be encoded speech signal to match the phase structure of the decoded signal |
KR100744352B1 (ko) * | 2005-08-01 | 2007-07-30 | 삼성전자주식회사 | 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치 |
KR100827153B1 (ko) * | 2006-04-17 | 2008-05-02 | 삼성전자주식회사 | 음성 신호의 유성음화 비율 검출 장치 및 방법 |
US8489392B2 (en) * | 2006-11-06 | 2013-07-16 | Nokia Corporation | System and method for modeling speech spectra |
KR101414233B1 (ko) * | 2007-01-05 | 2014-07-02 | 삼성전자 주식회사 | 음성 신호의 명료도를 향상시키는 장치 및 방법 |
-
2009
- 2009-07-31 JP JP2011524597A patent/JP5433696B2/ja not_active Expired - Fee Related
- 2009-07-31 WO PCT/JP2009/063663 patent/WO2011013244A1/ja active Application Filing
-
2012
- 2012-01-26 US US13/358,702 patent/US8438014B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006113298A (ja) * | 2004-10-14 | 2006-04-27 | Nippon Telegr & Teleph Corp <Ntt> | オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体 |
JP2009163121A (ja) * | 2008-01-09 | 2009-07-23 | Toshiba Corp | 音声処理装置及びそのプログラム |
Non-Patent Citations (2)
Title |
---|
JPN6013040764; PHILIP J. B. JACKSON ET AL: 'Pitch-Scaled Estimation of Simultaneous Voiced and Turbulence-Noise Components in Speech' IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING Vol.9, No.7, 200110, p.713-726 * |
JPN6013040767; B. YEGNANARAYANA ET AL: 'An Iterative Algorithm for Decomposition of Speech Signals into Periodic and Aperiodic Components' IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING Vol.6, No.1, 199801, p.1-11 * |
Also Published As
Publication number | Publication date |
---|---|
JPWO2011013244A1 (ja) | 2013-01-07 |
US8438014B2 (en) | 2013-05-07 |
WO2011013244A1 (ja) | 2011-02-03 |
US20120185244A1 (en) | 2012-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5433696B2 (ja) | 音声処理装置 | |
JP5275612B2 (ja) | 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法 | |
AU2010206229B2 (en) | Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal | |
Akande et al. | Estimation of the vocal tract transfer function with application to glottal wave analysis | |
KR100919223B1 (ko) | 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치 | |
KR20140079369A (ko) | 사운드 신호를 주파수 처프 도메인으로 변환하는 것을 포함하는 사운드 신호 프로세싱 시스템 및 방법 | |
Morise | Error evaluation of an F0-adaptive spectral envelope estimator in robustness against the additive noise and F0 error | |
JP6347536B2 (ja) | 音合成方法及び音合成装置 | |
CN108806721A (zh) | 信号处理器 | |
WO2001004873A1 (fr) | Procede d'extraction d'information de source sonore | |
Adiga et al. | Significance of epoch identification accuracy for prosody modification | |
JP5093108B2 (ja) | 音声合成装置、方法、およびプログラム | |
JPWO2015068310A1 (ja) | 電子透かし検出装置、方法及びプログラム | |
Li et al. | LF model based glottal source parameter estimation by extended Kalman filtering | |
JP2003140671A (ja) | 混合音の分離装置 | |
JPH08305396A (ja) | 音声帯域拡大装置および音声帯域拡大方法 | |
Kohmura et al. | A zero phase noise reduction method with damped oscillation estimator | |
Sousa et al. | The harmonic and noise information of the glottal pulses in speech | |
JP6502099B2 (ja) | 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム | |
Kirchhoff et al. | Towards complex matrix decomposition of spectrograms based on the relative phase offsets of harmonic sounds | |
JP6131574B2 (ja) | 音声信号処理装置、方法、及びプログラム | |
JP2019070775A (ja) | 信号解析装置、方法、及びプログラム | |
JP2012058293A (ja) | 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム | |
JP2003076385A (ja) | 信号分析方法および信号分析装置 | |
Ni et al. | A targets-based superpositional model of fundamental frequency contours applied to HMM-based speech synthesis. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130820 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131209 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5433696 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |