JP6159570B2 - 音声強調装置、及びプログラム - Google Patents
音声強調装置、及びプログラム Download PDFInfo
- Publication number
- JP6159570B2 JP6159570B2 JP2013098819A JP2013098819A JP6159570B2 JP 6159570 B2 JP6159570 B2 JP 6159570B2 JP 2013098819 A JP2013098819 A JP 2013098819A JP 2013098819 A JP2013098819 A JP 2013098819A JP 6159570 B2 JP6159570 B2 JP 6159570B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- band
- spectral
- voice
- enhancement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
そのために、特許文献1、2のように、聞き取りに重要な音響特徴量を強調することや、特許文献3のように、必要な音響特徴量が含まれる帯域にパワーを配分する方法は有効である。しかし、必要な調整量や調整箇所を決定するための正確な音声分析が必要になる方法であると、その誤判定が音質劣化につながりかねない。音響特徴量は話者によって異なるだけでなく、一人の話者の音声内でもその時の音質や発声スタイルによって大きく変化もするため、用途を広げようとするほど頑健な音声分析方法が必要になる。また、幅広い聴取環境を聴取者に効果を与えるためには、強調の信号処理に伴う音声劣化を防ぎながら、聞き取りやすさへの効果を十分与える必要がある。
この発明によれば、音声強調装置は、入力音声データに応じて、聞き取りに必要な帯域を強調し、聞き取りに不要な帯域を低減するように、全帯域の音声データ、スペクトル傾斜補正された音声データ、低域の音声データ、スペクトル傾斜補正をせずに中域までの帯域をスペクトルコントラスト強調した音声データ、スペクトル傾斜補正後の中域までの帯域をスペクトルコントラスト強調した音声データ、スペクトル傾斜補正をしていない高域の音声データ、及びスペクトル傾斜補正後の高域の音声データそれぞれの重み付けを変えて足し合わせ、強調音声を生成する。
これにより、音声強調装置は、入力音声データに応じて重み付けのパラメータを予め設定しておくことにより、音響特徴量を分析することなく、聞き取り易いように音声の特徴を強調した強調音声を生成することができる。
この発明によれば、音声強調装置は、中域までのスペクトルのコントラスト強調処理を行った後、コントラスト強調処理に伴うパワーの変化を補正する。
これにより、音声強調装置は、聞き取りに不要な帯域を強調しないようにすることができる。
この発明によれば、音声強調装置は、コントラスト強調処理部による処理前に、処理対象の帯域をフィルタリングする。
これにより、音声強調装置は、スペクトルコントラスト強調の対象外の帯域への影響を抑えることができる。
この発明によれば、音声強調装置の低域強調部は、人が聞き取りやすいように声の高さを保持し、有声音による単語の組や音素の組を聞き取りやすくするとともに、無声音のセグメントの情報となる特徴を維持した100ヘルツから400ヘルツの音声データを通過させ、第一スペクトルコントラスト強調部及び第二スペクトルコントラスト強調部は、母音を聞き取りやすくするよう250ヘルツから4000ヘルツまでの帯域にスペクトルコントラスト強調を施し、第一高域強調部及び第二高域強調部は、スペクトルコントラスト強調による高域への影響を原音に近づけ、雑音性の子音を聞き取り易くする4000ヘルツから8000ヘルツまでを通過させる。
これにより、音声強調装置は、聞き取りが容易な強調音声を生成することができる。
図1は、本発明の第1の実施形態による音声強調装置1の機能構成を示すブロック図である。同図に示すように、音声強調装置1は、音声入力部12と、低域強調部13と、第一スペクトルコントラスト強調部14と、第一高域強調部15と、スペクトル傾斜補正部16と、第二スペクトルコントラスト強調部17と、第二高域強調部18と、音声加算部19とを備えて構成される。なお、第一スペクトルコントラスト強調部14と第二スペクトルコントラスト強調部17は同じ範囲の帯域を処理対象とし、第一高域強調部15と第二高域強調部18は同じ範囲の帯域を処理対象とする。
図3は、本実施形態の音声強調装置1の処理フローを示す図である。音声強調装置1には、入力音声に応じて予め倍率r1〜r7が設定される。まず、音声強調装置1に外部から音声が入力されると(ステップS1)、音声入力部12は、この入力された音声をフレーム単位の音声データに変換する(ステップS2)。音声強調装置1は、フレーム単位で以降の処理を行う。
図4は、本発明の第2の実施形態による音声強調装置1aの機能構成を示すブロック図である。同図において、図1に示す第1の実施形態による音声強調装置1と同一の部分には同一の符号を付し、その説明を省略する。同図に示す音声強調装置1aが、図1に示す音声強調装置1と異なる点は、音声入力部12、第一スペクトルコントラスト強調部14、スペクトル傾斜補正部16、第二スペクトルコントラスト強調部17に代えて、音声入力部12a、第一スペクトルコントラスト強調部14a、スペクトル傾斜補正部16a、第二スペクトルコントラスト強調部17aを備える点である。
フレーム分割部20は、入力された音声データをフレーム単位の音声データに変換し、中域強調部21に出力する。
このコントラスト強調方法では、400Hz(ヘルツ)以下のスペクトルに減衰が見られるため、低域強調部13は100〜400Hzを処理対象とする。また、コントラスト強調処理部22で処理対象とする帯域は、母音の弁別に効果的な対象として、250〜4000Hzとする。第一高域強調部15及び第二高域強調部18の処理帯域は、音声の聞き取りに十分な帯域として、4000〜8000Hzとする。
また、スペクトル傾斜補正部16、16aのプリエンファシスのパラメータ(プリエンファシス係数α)の具体例として、入力音声が雑音のないクリーンな音声の場合は0.97、雑音などを含む音声の場合は0.9などを用いる。
入力音声に文書の音声を用いて音声強調装置1aが生成した強調音声と、原音の入力音声とのそれぞれにノイズを混ぜた。被験者は、ノイズを混ぜた強調音声、ノイズを混ぜた原音の入力音声を聞き、聞き取れたキーワードを回答した。そして、回答で得られたキーワードの正答率を明瞭度とした。なお、入力音声には、周波数成分が8kHzまでの雑音のないクリーンな音声を使用した。また、強調音声に混ぜるノイズには、(ノイズa)単一話者の音声、(ノイズb)音声の平均スペクトルの包絡を持った雑音を用いた。
また、表3は、入力音声から音声強調装置1aが生成した強調音声と、音声強調装置1aによる処理を行っていない入力音声とのそれぞれに、SNRが高、中、低のノイズbを混ぜた場合の明瞭度(SD)を示している。
なお、表2、表3において、「処理音声」は音声強調装置1aが生成した強調音声を示し、「処理なし」は音声強調装置1aによる処理を行っていない原音の入力音声を示す。また、括弧内の数値は標準偏差である。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
2、2a スペクトルコントラスト強調部
12、12a 音声入力部
13 低域強調部
14、14a 第一スペクトルコントラスト強調部
15 第一高域強調部
16、16a スペクトル傾斜補正部
17、17a 第二スペクトルコントラスト強調部
18 第二高域強調部
19 音声加算部
20 フレーム分割部
21 中域強調部
22 コントラスト強調処理部
23 パワー補正部
191 第一乗算部
192 第二乗算部
193 第三乗算部
194 第四乗算部
195 第五乗算部
196 第六乗算部
197 第七乗算部
198 加算部
Claims (5)
- 入力音声の音声データを取得する音声入力部と、
前記音声入力部が取得した前記音声データに対し、フォルマントが含まれる中域よりも低い帯域を少なくとも含んだ低域のみを通過させる低域強調部と、
前記音声入力部が取得した前記音声データに対し、前記低域の一部の帯域から前記中域までの帯域のスペクトルコントラスト強調を行って出力する第一スペクトルコントラスト強調部と、
前記音声入力部が取得した前記音声データに対し、前記中域よりも高い帯域を含んだ高域のみを通過させる第一高域強調部と、
前記音声入力部が取得した前記音声データに対し、スペクトル傾斜補正を行って出力するスペクトル傾斜補正部と、
前記スペクトル傾斜補正部がスペクトル傾斜補正を行った前記音声データに対し、前記低域の一部の帯域から前記中域までの帯域のスペクトルコントラスト強調を行って出力する第二スペクトルコントラスト強調部と、
前記スペクトル傾斜補正部がスペクトル傾斜補正を行った前記音声データに対し、前記高域のみを通過させる第二高域強調部と、
前記音声入力部と、前記スペクトル傾斜補正部と、前記低域強調部と、前記第一スペクトルコントラスト強調部と、前記第一高域強調部と、前記第二スペクトルコントラスト強調部と、前記第二高域強調部とから出力された前記音声データにそれぞれの所定の倍率を乗算し、これらの乗算結果を加算して得られる音声データを出力する音声加算部と、
を備えることを特徴とする音声強調装置。 - 前記第一スペクトルコントラスト強調部及び前記第二スペクトルコントラスト強調部は、
前記音声データに対し、前記低域の一部の帯域から前記中域までの帯域のスペクトルのコントラスト強調処理を行うコントラスト強調処理部と、
前記コントラスト強調処理部がコントラスト強調処理を行った前記音声データに対し、前記コントラスト強調処理に伴うパワーの変化を補正するパワー補正部とを備える、
ことを特徴とする請求項1に記載の音声強調装置。 - 前記第一スペクトルコントラスト強調部及び前記第二スペクトルコントラスト強調部は、
前記音声データに対し、前記低域の一部の帯域から前記中域までの帯域を通過させ、前記コントラスト強調処理部に出力する中域強調部をさらに備える、
ことを特徴とする請求項2に記載の音声強調装置。 - 前記低域が100ヘルツから400ヘルツまでの帯域であり、
前記低域の一部の帯域から前記中域までの帯域が250ヘルツから4000ヘルツまでの帯域であり、
前記高域が4000ヘルツから8000ヘルツまでの帯域である、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の音声強調装置。 - コンピュータを、
入力音声の音声データを取得する音声入力手段と、
前記音声入力手段が取得した前記音声データに対し、フォルマントが含まれる中域よりも低い帯域を少なくとも含んだ低域のみを通過させる低域強調手段と、
前記音声入力手段が取得した前記音声データに対し、前記低域の一部の帯域から前記中域までの帯域のスペクトルコントラスト強調を行って出力する第一スペクトルコントラスト強調手段と、
前記音声入力手段が取得した前記音声データに対し、前記中域よりも高い帯域を含んだ高域のみを通過させる第一高域強調手段と、
前記音声入力手段が取得した前記音声データに対し、スペクトル傾斜補正を行って出力するスペクトル傾斜補正手段と、
前記スペクトル傾斜補正手段がスペクトル傾斜補正を行った前記音声データに対し、前記低域の一部の帯域から前記中域までの帯域のスペクトルコントラスト強調を行って出力する第二スペクトルコントラスト強調手段と、
前記スペクトル傾斜補正手段がスペクトル傾斜補正を行った前記音声データに対し、前記高域のみを通過させる第二高域強調手段と、
前記音声入力手段と、前記スペクトル傾斜補正手段と、前記低域強調手段と、前記第一スペクトルコントラスト強調手段と、前記第一高域強調手段と、前記第二スペクトルコントラスト強調手段と、前記第二高域強調手段とから出力された前記音声データにそれぞれの所定の倍率を乗算し、これらの乗算結果を加算して得られる音声データを出力する音声加算手段と、
を具備する音声強調装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013098819A JP6159570B2 (ja) | 2013-05-08 | 2013-05-08 | 音声強調装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013098819A JP6159570B2 (ja) | 2013-05-08 | 2013-05-08 | 音声強調装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014219567A JP2014219567A (ja) | 2014-11-20 |
JP6159570B2 true JP6159570B2 (ja) | 2017-07-05 |
Family
ID=51938040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013098819A Active JP6159570B2 (ja) | 2013-05-08 | 2013-05-08 | 音声強調装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6159570B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015135267A (ja) * | 2014-01-17 | 2015-07-27 | 株式会社リコー | 電流センサ |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208395A (ja) * | 1992-10-30 | 1994-07-26 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | ホルマント検出装置及び音声加工装置 |
JPH06175691A (ja) * | 1992-12-07 | 1994-06-24 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 音声強調装置と音声強調方法 |
JPH06289898A (ja) * | 1993-03-30 | 1994-10-18 | Sony Corp | 音声信号処理装置 |
JPH06289896A (ja) * | 1993-03-31 | 1994-10-18 | Hitachi Ltd | 音声の特徴強調方式および装置 |
JP3321971B2 (ja) * | 1994-03-10 | 2002-09-09 | ソニー株式会社 | 音声信号処理方法 |
-
2013
- 2013-05-08 JP JP2013098819A patent/JP6159570B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014219567A (ja) | 2014-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DK2375785T3 (en) | Stability improvements in hearing aids | |
EP2579252B1 (en) | Stability and speech audibility improvements in hearing devices | |
US20030216907A1 (en) | Enhancing the aural perception of speech | |
Souza et al. | Exploring the limits of frequency lowering | |
EP2249587A2 (en) | Frequency translation by high-frequency spectral envelope warping in hearing assistance devices | |
KR20100097595A (ko) | 보청 처리 장치, 조정 장치, 보청 처리 시스템, 보청 처리 방법, 프로그램, 및 집적 회로 | |
JP6533959B2 (ja) | 音声信号処理装置および音声信号処理方法 | |
EP2360686B9 (en) | Signal processing method and apparatus for enhancing speech signals | |
US8787605B2 (en) | Frequency translation in hearing assistance devices using additive spectral synthesis | |
JP2012208177A (ja) | 帯域拡張装置及び音声補正装置 | |
JP6159570B2 (ja) | 音声強調装置、及びプログラム | |
Zorila et al. | On spectral and time domain energy reallocation for speech-in-noise intelligibility enhancement. | |
WO2019203127A1 (ja) | 情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法 | |
RU2589298C1 (ru) | Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке | |
JPH07146700A (ja) | ピッチ強調方法および装置ならびに聴力補償装置 | |
Tiwari et al. | Sliding-band dynamic range compression for use in hearing aids | |
JP5745453B2 (ja) | 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム | |
JP5277355B1 (ja) | 信号処理装置及び補聴器並びに信号処理方法 | |
JP2011141540A (ja) | 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体 | |
Kulkarni et al. | Frequency mapping for multi-band frequency compression for improving speech intelligibility | |
JP2003070097A (ja) | デジタル補聴装置 | |
Rutledge et al. | Performance of sinusoidal model based amplitude compression in fluctuating noise | |
WO2017025107A2 (en) | Talker language, gender and age specific hearing device | |
Furuta et al. | Intelligibility improvement of bandlimited synthesized speech by superposing high frequency component of input signal on baseband signal | |
Siraj | Time-varying compression amplification with spectral sharpening |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160328 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170428 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170516 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170612 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6159570 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |