JP6451136B2 - 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム - Google Patents
音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム Download PDFInfo
- Publication number
- JP6451136B2 JP6451136B2 JP2014159620A JP2014159620A JP6451136B2 JP 6451136 B2 JP6451136 B2 JP 6451136B2 JP 2014159620 A JP2014159620 A JP 2014159620A JP 2014159620 A JP2014159620 A JP 2014159620A JP 6451136 B2 JP6451136 B2 JP 6451136B2
- Authority
- JP
- Japan
- Prior art keywords
- correction amount
- amplitude
- feature
- amount
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephone Function (AREA)
Description
後述する全ての実施形態において、拡張する対象を人間の音声であるとし、入力帯域は0Hz〜4kHz(又は300Hz〜3.4kHz)の帯域を有することを前提とする。しかし、本発明は、これに限定されず、例えば0Hz〜24kHzの帯域を有する音楽信号を帯域拡張対象とする場合こともでき、周波数に関する数値を音楽信号用に設定し直すことで、本発明を適用することができる。
以下、本発明による音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラムの第1の実施形態を、図面を参照しながら説明する。
図1は、第1の実施形態に係る音声帯域拡張装置の構成を示す機能ブロック図である。ここで、第1の実施形態の音声帯域拡張装置は、ハードウェアで構成することも可能であり、また、CPUが実行するソフトウェア(音声帯域拡張プログラム)とCPUとで実現することも可能であるが、いずれの実現方法を採用した場合であっても、機能的には図1で表すことができる。
次に、第1の実施形態の音声帯域拡張装置100の動作を説明する。
以上のように、第1の実施形態によれば、入力音声が何らかの前処理によって変形させられていても、補正振幅特徴量が前処理によって変形させられていない音声から得た振幅特徴量に近い値を取るようにできるので、前処理の影響を軽減したより明瞭性の高い広帯域化音声を得ることができる。
次に、本発明による音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラムの第2の実施形態を、図面を参照しながら説明する。
図2は、第2の実施形態に係る音声帯域拡張装置の構成を示す機能ブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一、対応符号を付して示している。
次に、第2の実施形態の音声帯域拡張装置200における動作を、第1の実施形態と異なる動作を中心に説明する。
第2の実施形態によれば、変化の少ない無音区間で補正量の推定を行うことにより、振幅特徴量の安定な補正が可能となるため、より明瞭性の高い広帯域化音声を得ることができる。
次に、本発明による音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラムの第3の実施形態を、図面を参照しながら説明する。
図3は、第3の実施形態に係る音声帯域拡張装置の構成を示す機能ブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一、対応符号を付して示している。
次に、第3の実施形態の音声帯域拡張装置300における動作を、第1の実施形態と異なる動作を中心に説明する。
第3の実施形態によれば、背景雑音がある場合でも、振幅特徴量を適切に補正できるため、より明瞭性の高い広帯域化音声を得ることができる。
次に、本発明による音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラムの第4の実施形態を、図面を参照しながら説明する。
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
Claims (9)
- 入力音声に成分が存在しない周波数帯域に音声成分を追加して周波数帯域を拡張する音声帯域拡張装置において、
上記入力音声から振幅又はパワーに関する1つ以上の特徴量を抽出する特徴量抽出手段と、
上記特徴量に対する補正量を推定する補正量推定手段と、
上記補正量に基づいて、抽出された上記特徴量を補正して補正特徴量を得る特徴量補正手段と、
上記入力音声から、上記入力音声が存在しない周波数帯域に成分を有する、上記補正特徴量に基づいて振幅又はパワーが調整された拡張音声を生成し、上記入力音声と合成して広帯域化音声を生成する広帯域化音声生成手段とを備え、
上記補正量推定手段は、上記特徴量のうち1つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、
上記特徴量の1つが、入力音声の異なる2つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、
上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が0より小さければ0とし、上記暫定補正量が0以上であれば上記暫定補正量とする
ことを特徴とする音声帯域拡張装置。 - 上記入力音声が無音であるか否かを判定する無音区間検出手段をさらに備え、
上記補正量推定手段は、上記無音区間検出手段が無音区間であると判定した場合には上記補正量の推定を行い、上記無音区間検出手段が無音区間でないと判断した場合には上記補正量を更新しない
ことを特徴とする請求項1に記載の音声帯域拡張装置。 - 上記補正量推定手段は、上記無音区間検出手段が無音区間でないと判断した場合には、上記入力音声の振幅に応じて、過去に無音区間と判定された中で最後に推定した上記補正量を修正することを特徴とする請求項2に記載の音声帯域拡張装置。
- 上記入力音声を分析する非音声区間情報抽出手段をさらに備え、
上記非音声区間情報抽出手段は、上記入力音声が非音声区間であるか否かを判定すると共に、非音声区間である場合には、上記入力音声の周波数特性を抽出し、
上記補正量推定手段は、上記入力音声が非音声区間である場合には、上記周波数特性に基づいて目標特徴量を決定し、当該目標特徴量に基づいて上記補正量の推定を行い、上記入力音声が非音声区間でない場合には上記補正量を更新しない
ことを特徴とする請求項1に記載の音声帯域拡張装置。 - 上記補正量推定手段は、上記入力音声が非音声区間でない場合には、上記入力音声の振幅に応じて、過去に非音声区間と判定された中で最後に推定した上記補正量を修正することを特徴とする請求項4に記載の音声帯域拡張装置。
- 上記補正量推定手段は、
上記入力音声の振幅の長期平均値を算出し、
上記入力音声の振幅を上記長期平均値で除して正規化振幅を算出し、
上記正規化振幅が第1の閾値より小さい場合には上記補正量を修正せず、
上記正規化振幅が上記第1の閾値以上かつ第2の閾値より小さい場合には上記補正量に予め定められた修正重み係数と上記正規化振幅を乗じることで修正し、
上記正規化振幅が上記第2の閾値以上の場合には上記補正量に上記修正重み係数と上記第2の閾値を乗じることで修正する
ことを特徴とする請求項3又は5に記載の音声帯域拡張装置。 - 入力音声に成分が存在しない周波数帯域に音声成分を追加して周波数帯域を拡張する音声帯域拡張プログラムであって、
コンピュータを、
上記入力音声から振幅又はパワーに関する1つ以上の特徴量を抽出する特徴量抽出手段と、
上記特徴量に対する補正量を推定する補正量推定手段と、
上記補正量に基づいて、抽出された上記特徴量を補正して補正特徴量を得る特徴量補正手段と、
上記入力音声から、上記入力音声が存在しない周波数帯域に成分を有する、上記補正特徴量に基づいて振幅又はパワーが調整された拡張音声を生成し、上記入力音声と合成して広帯域化音声を生成する広帯域化音声生成手段と
して機能させ、
上記補正量推定手段は、上記特徴量のうち1つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、
上記特徴量の1つが、入力音声の異なる2つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、
上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が0より小さければ0とし、上記暫定補正量が0以上であれば上記暫定補正量とする
ことを特徴とする音声帯域拡張プログラム。 - 入力音声における振幅又はパワーに関する特徴量を抽出する音声特徴量抽出装置において、
上記入力音声から振幅又はパワーに関する1つ以上の特徴量を抽出する特徴量抽出手段と、
上記特徴量に対する補正量を推定する補正量推定手段と、
上記補正量に基づいて、抽出された上記特徴量を補正して出力する特徴量補正手段とを備え、
上記補正量推定手段は、上記特徴量のうち1つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、
上記特徴量の1つが、入力音声の異なる2つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、
上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が0より小さければ0とし、上記暫定補正量が0以上であれば上記暫定補正量とする
ことを特徴とする音声特徴量抽出装置。 - 入力音声における振幅又はパワーに関する特徴量を抽出する音声特徴量抽出プログラムであって、
コンピュータを、
上記入力音声から振幅又はパワーに関する1つ以上の特徴量を抽出する特徴量抽出手段と、
上記特徴量に対する補正量を推定する補正量推定手段と、
上記補正量に基づいて、抽出された上記特徴量を補正して出力する特徴量補正手段と
して機能させ、
上記補正量推定手段は、上記特徴量のうち1つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、
上記特徴量の1つが、入力音声の異なる2つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、
上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が0より小さければ0とし、上記暫定補正量が0以上であれば上記暫定補正量とする
ことを特徴とする音声特徴量抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014159620A JP6451136B2 (ja) | 2014-08-05 | 2014-08-05 | 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014159620A JP6451136B2 (ja) | 2014-08-05 | 2014-08-05 | 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016038409A JP2016038409A (ja) | 2016-03-22 |
JP6451136B2 true JP6451136B2 (ja) | 2019-01-16 |
Family
ID=55529543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014159620A Active JP6451136B2 (ja) | 2014-08-05 | 2014-08-05 | 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6451136B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6451143B2 (ja) * | 2014-08-20 | 2019-01-16 | 沖電気工業株式会社 | 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム |
CN107886966A (zh) * | 2017-10-30 | 2018-04-06 | 捷开通讯(深圳)有限公司 | 终端及其优化语音命令的方法、存储装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3400474B2 (ja) * | 1992-11-09 | 2003-04-28 | 株式会社リコー | 音声認識装置および音声認識方法 |
JPH11212588A (ja) * | 1998-01-22 | 1999-08-06 | Hitachi Ltd | 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP4316583B2 (ja) * | 2006-04-07 | 2009-08-19 | 株式会社東芝 | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
JP5840087B2 (ja) * | 2012-07-19 | 2016-01-06 | 三菱電機株式会社 | 音声信号復元装置および音声信号復元方法 |
JP6152639B2 (ja) * | 2012-11-27 | 2017-06-28 | 沖電気工業株式会社 | 音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラム |
-
2014
- 2014-08-05 JP JP2014159620A patent/JP6451136B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016038409A (ja) | 2016-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101266894B1 (ko) | 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법 | |
EP2788980B1 (en) | Harmonicity-based single-channel speech quality estimation | |
US10510363B2 (en) | Pitch detection algorithm based on PWVT | |
US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
CN103440872B (zh) | 瞬态噪声的去噪方法 | |
EP3411876B1 (en) | Babble noise suppression | |
CN107533848B (zh) | 用于话音恢复的系统和方法 | |
Kleinschmidt et al. | The use of phase in complex spectrum subtraction for robust speech recognition | |
JP2011033717A (ja) | 雑音抑圧装置 | |
CN106356076B (zh) | 基于人工智能的语音活动性检测方法和装置 | |
JP6451136B2 (ja) | 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム | |
US10297272B2 (en) | Signal processor | |
Shannon et al. | Role of phase estimation in speech enhancement | |
US20150162014A1 (en) | Systems and methods for enhancing an audio signal | |
CN111755025B (zh) | 一种基于音频特征的状态检测方法、装置及设备 | |
Ouzounov | A robust feature for speech detection | |
KR102051966B1 (ko) | 음성 인식 향상 장치 및 방법 | |
Tiwari et al. | Speech enhancement using noise estimation with dynamic quantile tracking | |
JP5687522B2 (ja) | 音声強調装置、方法、及びプログラム | |
JP2005258215A (ja) | 信号処理方法及び信号処理装置 | |
Prasad et al. | Two microphone technique to improve the speech intelligibility under noisy environment | |
Wang et al. | Speech enhancement using a joint MAP estimation of LP parameters | |
Chen et al. | Speech enhancement in car noise envoronment based on an analysis-synthesis approach using harmonic noise model | |
Son et al. | Improved speech absence probability estimation based on environmental noise classification | |
Krishnamoorthy et al. | Application of combined temporal and spectral processing methods for speaker recognition under noisy, reverberant or multi-speaker environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170515 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180612 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6451136 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |