JP6367773B2 - 音声強調装置、音声強調方法及び音声強調プログラム - Google Patents
音声強調装置、音声強調方法及び音声強調プログラム Download PDFInfo
- Publication number
- JP6367773B2 JP6367773B2 JP2015159490A JP2015159490A JP6367773B2 JP 6367773 B2 JP6367773 B2 JP 6367773B2 JP 2015159490 A JP2015159490 A JP 2015159490A JP 2015159490 A JP2015159490 A JP 2015159490A JP 6367773 B2 JP6367773 B2 JP 6367773B2
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- speech
- observation signal
- utterance content
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
図1は、実施形態に係る音声強調装置の一例を示す図である。実施形態に係る音声強調装置100は、例えばROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。音声強調装置100は、観測信号特徴量抽出部10、発話内容特徴量抽出部20、クリーン音声推定部30、クリーン音声信号出力部40を含む。
観測信号特徴量抽出部10は、発話による音声を含む観測信号を入力として受け付ける。観測信号特徴量抽出部10は、一般的な音声特徴量抽出を行う。観測信号特徴量抽出部10は、窓関数等を用いて観測信号を例えば30ms程度の短時間フレームに分割する。そして、観測信号特徴量抽出部10は、分割した各短時間フレームにフーリエ変換を施し、フーリエ変換後の信号の絶対値の二乗の対数を取った対数スペクトルに対してメルフィルタバンクの処理を施し、線形周波数からメル周波数形式へ変換する。
図2は、実施形態に係る発話内容特徴量抽出部の一例を示す図である。図2に示すように、発話内容特徴量抽出部20は、発音情報抽出部21、タイミング情報計算部22を含む。発音情報抽出部21は、発話内容をテキスト変換したテキスト情報(以下、発話内容テキストと呼ぶ)を入力として受け付ける。発話内容テキストは、観測信号の中に含まれるセリフ情報であり、例えば目的音声が「おはよう」という発話であれば、発話内容テキストは「おはよう」である。発音情報抽出部21は、入力された発話内容テキストから、一般的な発音情報(音素情報)を抽出する。例えば、テキスト情報が「おはよう」である場合、音素情報は「silence,o,h,a,yh,o,u,silence」となる。発音情報抽出部21は、抽出の際に、一般的な音声認識システムの中で用いられている発音辞書(各単語がどのような発音となるかを示した辞書)等を用いることができる。発音情報抽出部21は、抽出した発音情報をタイミング情報計算部22へ出力する。
具体例1では、次元数44のベクトルを用意し、ベクトルの各次元が音素空間の一つの音素に対応するものと見なし、発話内容特徴量で示すべき音素に対応する次元のみ値1を持ち、他の次元は0とする。
具体例2では、現在フレームに関する音素情報のみでなく、その直前、直後のフレーム群に現れる音素情報も一緒に現在フレームの音素情報として表す。こうすることにより、より精緻に音素情報を表すことができることが知られている。例えば、132次元(44×3)のベクトルを用意し、最初の44次元は現在フレームに該当する音素情報、次の44次元ではその音素の直前の音素情報、次の44次元ではその音素の直後の音素情報を表すような値を具体例1に従って割り当てる。
音声認識機の中では、一般的に具体例2で挙げた音素情報をより細かく表現した情報であるHMM(Hidden Markov Model)状態情報が用いられている(非特許文献3参照)。そこで、具体例3では、各HMM状態がベクトルの各次元に対応するようにベクトルを設計し、現在フレームに該当するHMM状態にのみ値1を割り当て、それ以外の次元には値0を割り当てる。
一般的に、音素は、International Phonetic Associationにより定められているPhonetic Questionsと言われるもので定義することが出来ることが知られている。Phonetic Questionsは、ある音素が、母音か子音か、無声か有声か、その音の発音場所はどこか(両唇、唇歯、歯、歯茎、後部歯茎、そり舌、硬口蓋、軟口蓋、口蓋垂、咽頭、声門等)、発音の様式は何か(破裂、鼻、ふるえ、はじき、摩擦、側面摩擦、接近、側面接近など)を問うための一連の質問である。例えば、/s/の発音は、無声、歯茎、摩擦性の子音である。
具体例5は、上記の具体例1〜4で挙げたベクトルに、該当短時間フレームnで表される音素の持続時間情報、該当短時間フレームnはその音素の中で何番目のフレームに該当するか表す情報等を付加したベクトル形式である。
クリーン音声推定部30は、各短時間フレームnにおける観測信号特徴量ベクトルy(n)と、発話内容特徴量ベクトルu(n)とを結合したベクトルの各要素がニューラルネットワークの各入力ノードの入力値として与えられた時に、対応する短時間フレームにおけるクリーン音声特徴量zを推定する。ここで、結合とは、各短時間フレームにおける観測信号特徴量ベクトルy(n)を縦ベクトルとし、各短時間フレームにおける発話内容特徴量ベクトルu(n)を縦ベクトルとした場合に、それらをx(n)=[y(n)TU(n)T]T(ここでTは行列又はベクトルの転置を表す)という形で連結した新たな縦ベクトルx(n)に格納する処理を指す。クリーン音声推定部30で得られたクリーン音声特徴量zは、クリーン音声信号出力部40へ出力される。
クリーン音声信号出力部40は、観測信号特徴量抽出部10からの観測信号特徴量ベクトルy(n)と、クリーン音声推定部30からのクリーン音声特徴量zとを用いてウィナーフィルタ等のフィルタを計算し、フィルタを観測信号特徴量ベクトルy(n)に乗算することで観測信号から音響歪みを取り除き、クリーン音声信号を出力する。
図3は、実施形態に係る音声強調処理の一例を示すフローチャートである。先ず、観測信号特徴量抽出部10は、入力された観測信号を分割してから各短時間フレームと対応する観測信号特徴量を示すメル周波数形式の観測信号特徴量ベクトルy(n)(n=1,2,・・・N)を算出する(ステップS11)。次に、発話内容特徴量抽出部20は、入力された発話内容テキストを、観測信号特徴量抽出部10から入力された観測信号特徴量ベクトルy(n)(n=1,2,・・・N)をもとに、発話内容特徴量ベクトルu(n)へ変換する(ステップS12)。次に、クリーン音声推定部30は、各短時間フレームnにおける観測信号特徴量ベクトルy(n)と、発話内容特徴量ベクトルu(n)とを結合したベクトルの各要素がニューラルネットワークの各入力ノードの入力値として与えられた時に、対応する短時間フレームにおけるクリーン音声特徴量zを推定する(ステップS13)。次に、クリーン音声信号出力部40は、観測信号特徴量抽出部10からの観測信号特徴量ベクトルy(n)と、クリーン音声推定部30からのクリーン音声特徴量zとを用いてウィナーフィルタ等を計算し、ウィナーフィルタを観測信号特徴量ベクトルy(n)に乗算することで観測信号から音響歪みを取り除き、クリーン音声信号を出力する(ステップS14)。ステップS14が終了すると、音声強調装置100は、音声強調処理を終了する。
上記の実施形態の音声強調の性能を評価する目的で評価実験を行った。実験には、雑音残響下音声コーパスAurora4を用いた。Aurora4には種々の雑音や残響を含んだ学習データが用意されているため、その全データについて観測信号特徴量と発話情報特徴量、観測信号特徴量に対応するクリーン音声特徴量をあらかじめ算出し、それを学習データセットとしてニューラルネットワークのパラメータを最適化した。最適化には、ニューラルネットワークのパラメータ最適化方法として広く用いられている確率的勾配法を用いた誤差逆伝搬法を用いた(非特許文献3参照)。学習データを用いてパラメータを最適化した後は、Aurora4のテストデータ(学習データとは異なる雑音、残響、発話者を含む)を用いて手法の評価を行った。
図5は、プログラムが実行されることにより、実施形態に係る音声強調装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。コンピュータ1000において、これらの各部はバス1080によって接続される。
20 発話内容特徴量抽出部
21 発音情報抽出部
22 タイミング情報計算部
30 クリーン音声推定部
40 クリーン音声信号出力部
100 音声強調装置
1000 コンピュータ
1010 メモリ
1020 CPU
Claims (6)
- 入力を受け付けた観測信号から観測信号特徴量を抽出する観測信号特徴量抽出部と、
入力を受け付けた発話内容テキストから、前記観測信号特徴量抽出部により抽出された観測信号特徴量と対応する発話内容特徴量を抽出する発話内容特徴量抽出部と、
前記観測信号特徴量及び前記発話内容特徴量を連結した特徴量にニューラルネットワークを用いてクリーン音声特徴量を推定するクリーン特徴量推定部と、
前記クリーン特徴量推定部により推定されたクリーン音声特徴量から構成されるフィルタを前記観測信号に乗算した強調音声を出力する出力部と
を備えることを特徴とする音声強調装置。 - 前記発話内容特徴量は、音素に関わる情報である
ことを特徴とする請求項1に記載の音声強調装置。 - 前記観測信号特徴量抽出部は、前記観測信号からフレーム単位の観測信号特徴量を抽出し、
前記発話内容特徴量抽出部は、前記発話内容テキストから、前記観測信号特徴量抽出部により抽出された各前記フレーム単位の観測信号特徴量と対応する前記音素に関わる情報を抽出する
ことを特徴とする請求項2に記載の音声強調装置。 - 前記音素に関わる情報は、各前記フレーム単位の観測信号特徴量が該音素に関わる情報を構成する音素空間の要素である各音素情報のいずれと対応するかを示す情報、各前記フレーム単位の観測信号特徴量及び当該フレームの直前直後のフレーム群の観測信号特徴量がいずれの前記音素情報と対応するかを示す情報、各前記フレーム単位の観測信号特徴量が前記音素情報に基づくいずれのHMM(Hidden Markov Model)状態情報と対応するかを示す情報、各前記フレーム単位の観測信号特徴量がPhonetic Questionsのいずれの回答と対応するかを示す情報のいずれかの情報である
ことを特徴とする請求項3に記載の音声強調装置。 - 音声強調装置が行う音声強調方法であって、
入力を受け付けた観測信号から観測信号特徴量を抽出する観測信号特徴量抽出ステップと、
入力を受け付けた発話内容テキストから、前記観測信号特徴量抽出ステップにより抽出された観測信号特徴量と対応する発話内容特徴量を抽出する発話内容特徴量抽出ステップと、
前記観測信号特徴量及び前記発話内容特徴量を連結した特徴量にニューラルネットワークを用いてクリーン音声特徴量を推定するクリーン特徴量推定ステップと、
前記クリーン特徴量推定ステップにより推定されたクリーン音声特徴量から構成されるフィルタを前記観測信号に乗算した強調音声を出力する出力ステップと
を含んだことを特徴とする音声強調方法。 - 請求項1〜4のいずれか1つに記載の音声強調装置としてコンピュータを機能させるための音声強調プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015159490A JP6367773B2 (ja) | 2015-08-12 | 2015-08-12 | 音声強調装置、音声強調方法及び音声強調プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015159490A JP6367773B2 (ja) | 2015-08-12 | 2015-08-12 | 音声強調装置、音声強調方法及び音声強調プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017037250A JP2017037250A (ja) | 2017-02-16 |
JP6367773B2 true JP6367773B2 (ja) | 2018-08-01 |
Family
ID=58048625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015159490A Active JP6367773B2 (ja) | 2015-08-12 | 2015-08-12 | 音声強調装置、音声強調方法及び音声強調プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6367773B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6673861B2 (ja) * | 2017-03-02 | 2020-03-25 | 日本電信電話株式会社 | 信号処理装置、信号処理方法及び信号処理プログラム |
WO2019008580A1 (en) * | 2017-07-03 | 2019-01-10 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | METHOD AND SYSTEM FOR IMPROVING A VOICE SIGNAL OF A HUMAN SPEAKER IN A VIDEO USING VISUAL INFORMATION |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6208963B1 (en) * | 1998-06-24 | 2001-03-27 | Tony R. Martinez | Method and apparatus for signal classification using a multilayer network |
JP4946293B2 (ja) * | 2006-09-13 | 2012-06-06 | 富士通株式会社 | 音声強調装置、音声強調プログラムおよび音声強調方法 |
US9064499B2 (en) * | 2009-02-13 | 2015-06-23 | Nec Corporation | Method for processing multichannel acoustic signal, system therefor, and program |
-
2015
- 2015-08-12 JP JP2015159490A patent/JP6367773B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017037250A (ja) | 2017-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Arora et al. | Automatic speech recognition: a review | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
Gutkin et al. | TTS for low resource languages: A Bangla synthesizer | |
JP6580882B2 (ja) | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム | |
JP6440967B2 (ja) | 文末記号推定装置、この方法及びプログラム | |
Bailey | Automatic detection of sociolinguistic variation using forced alignment | |
JP6305955B2 (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
KR101068122B1 (ko) | 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법 | |
Yusnita et al. | Acoustic analysis of formants across genders and ethnical accents in Malaysian English using ANOVA | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP2017134321A (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
Goyal et al. | A comparison of Laryngeal effect in the dialects of Punjabi language | |
Gutkin et al. | Building statistical parametric multi-speaker synthesis for bangladeshi bangla | |
JP6367773B2 (ja) | 音声強調装置、音声強調方法及び音声強調プログラム | |
Nanmalar et al. | Literary and colloquial dialect identification for Tamil using acoustic features | |
Maseri et al. | Malay language speech recognition for preschool children using hidden Markov model (HMM) system training | |
Zealouk et al. | Noise effect on Amazigh digits in speech recognition system | |
Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
Terbeh et al. | Probabilistic approach for detection of vocal pathologies in the arabic speech | |
Habeeb et al. | An ensemble technique for speech recognition in noisy environments | |
JP2016186516A (ja) | 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム | |
JP2011033879A (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
JP2011180308A (ja) | 音声認識装置及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170621 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180705 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6367773 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |