JP2016186516A - 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム - Google Patents

疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム Download PDF

Info

Publication number
JP2016186516A
JP2016186516A JP2015065788A JP2015065788A JP2016186516A JP 2016186516 A JP2016186516 A JP 2016186516A JP 2015065788 A JP2015065788 A JP 2015065788A JP 2015065788 A JP2015065788 A JP 2015065788A JP 2016186516 A JP2016186516 A JP 2016186516A
Authority
JP
Japan
Prior art keywords
pseudo
audio signal
signal generation
sound
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015065788A
Other languages
English (en)
Inventor
孝典 芦原
Takanori Ashihara
孝典 芦原
太一 浅見
Taichi Asami
太一 浅見
勇祐 井島
Yusuke Ijima
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015065788A priority Critical patent/JP2016186516A/ja
Publication of JP2016186516A publication Critical patent/JP2016186516A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】学習データが十分に入手できない場合であっても、認識率を向上させる。
【解決手段】疑似音声信号生成部12は、出現頻度が低い音声現象の音響特性を表現した変換ルールに基づいて入力音声信号の音源を変換し、その音源で入力音声信号から抽出したスペクトル包絡を励振することで疑似音声信号を生成する。疑似音響特徴量生成部13は、疑似音声信号から音響特徴量を抽出し疑似音響特徴量系列を生成する。音響モデル学習部14は、疑似音響特徴量系列を用いて音響モデルを学習する。
【選択図】図1

Description

この発明は、音声認識技術に関し、特に、音声認識のタスクに音響モデルを適応させるために用いる学習データを生成する技術に関する。
特許文献1には、音声認識において実用レベルの性能を担保するために、音声認識の対象とするタスク(以下、認識対象タスクと呼ぶ)に対して音響モデルを適応させる技術が記載されている。ここで、認識対象タスクとは、元々の音響モデルに対して、話者や雑音タイプ、喋り方などの音響的特徴が異なるタスクである。
一般的に、音声認識の性能は認識対象タスクの学習データ量に依存して上下する。つまり、認識対象タスクの学習データが満足に存在しない状況で、従来の技術により音響モデルを適応させたとしても満足のいく認識率は得られない場合が多い。そこで通常は、認識対象タスクの音声を十分に集め、その音声を書き起こしすることで所望の量の学習データを収集するのであるが、そのためには莫大な金銭的・時間的コストを要する。また、認識対象タスクの音声が十分に入手可能であるならば、書き起こしによる学習データの収集を実施することが可能だが、そもそもあらゆるタスクにおいて十分な量の音声が入手可能というわけではない。例えば、方言や日本人が英語を話す音声など、十分な量の音声を入手することが難しいタスクも存在する。
認識対象タスクのデータベースを所有していたとしても、認識対象タスク内で出現頻度の少ない音声現象が存在する場合、その音声現象に対しても頑健な音響モデルを構築するためには、その音声現象の学習データも十分な量を収集する必要がある。例えば、人間同士の自然な会話では、様々な種類の発声を発話の一部でしており、「ささやくような発声(以降、「ささやき声」と呼ぶ)」や「低周波数でのブツブツした音がなる発声(以降、「ボーカルフライ」と呼ぶ)」等の現象が存在している。「ささやき声」とは声帯振動を伴わない発声により生成される音声を指す。例えば、周囲に声を漏らさないためにコソコソ話す際(例えば、公の場でモバイル端末に話しかける場合等)に、しばしば現れる発声である。「ボーカルフライ」とは「きしみ声」や「エッジボイス」とも呼ばれ、声帯声門がわずかに開き緩やかな声帯震動により生成される低周波数の音声を指す。例えば、議論の場において頭の中で考えながら発話する場合や少し自信が無くなった場合等に、発話の全体もしくはその一部に出現する発声である。このようなささやき声やボーカルフライは、通常の発声に比べると圧倒的に頻度が少ないため、さまざまな話者で音響モデルの学習をするために十分な量を収集することは困難である。したがって、ささやき声やボーカルフライ等で発声された発話は誤認識となる可能性が高くなってしまう。
ささやき声やボーカルフライが通常の発話とどのように音響特性が異なるのかについては、非特許文献1や非特許文献2が詳しい。なお、非特許文献1でもささやき声を学習することで認識精度の改善を実現しているが、ここでは既に学習データを十分所有している場合を想定している。
非特許文献3には、声道長正規化(VTLN: Vocal Tract Length Normalization)のWarping Factorを複数の値で実行することで、学習データにおける話者バリエーションを疑似的に作成する方法が記載されている。なお、VTLNについては非特許文献4に記されている。
特開2007−249051号公報
伊藤太介, 武田一哉, 板倉文忠, "ささやき声の音響分析と音声認識への応用", 信学技報, DSP2001-98, SP2001-71, pp. 59-64, 2001 M. Blomgren, Y. Chen , M. L. Ng, H. R. Gilbert, "Acoustic, aerodynamic, physiologic, and perceptual properties of modal and vocal fry registers", Journal of the Acoustical Society of America, vol. 103, pp. 2649-2658, 1998 N. Jaitly, G. E. Hinton, "Vocal Tract Length Perturbation (VTLP) improves speech recognition", ICML Workshop on Deep Learning for Audio, Speech, and Language Processing, 2013 E. Eide, H. Gish, "A parametric approach to vocal tract length normalization", ICASSP, pp. 346-348, 1996
しかしながら、非特許文献3に記載の従来技術では、話者の声質を変換し、話者のバリエーションを拡充することのみを目的としており、ささやき声やボーカルフライのような出現頻度の少ない音声現象に関する学習データを疑似生成する場合には利用することができない。
この発明の目的は、ささやき声やボーカルフライのような出現頻度が少ない音声現象を認識対象タスクとする音響モデル適応において、十分な量の学習データを収集できない状況であっても、認識率を向上させることである。
上記の課題を解決するために、この発明の疑似音声信号生成装置は、出現頻度が低い音声現象の音響特性を表現した変換ルールに基づいて入力音声信号の音源を変換し、その音源で入力音声信号から抽出したスペクトル包絡を励振することで疑似音声信号を生成する疑似音声信号生成部を含む。
この発明の疑似音声生成技術は、ささやき声やボーカルフライのような出現頻度が少ない音声現象を認識対象タスクとする場合に、学習データが十分に入手できない状況下であっても、ルールベースに基づいて認識対象タスクの音声信号を疑似生成し、その疑似音声信号を用いて音響モデルを適応させる。これにより、ささやき声やボーカルフライに頑健な音響モデルを生成でき、認識率を向上することができる。
図1は、疑似音声信号生成装置および音響モデル適応装置の機能構成を例示する図である。 図2は、疑似音声信号生成方法および音響モデル適応方法の処理フローを例示する図である。
この発明では、ささやき声やボーカルフライのような出現頻度が少ない音声現象を認識対象タスクとする音響モデル適応において、音響モデルを適応させるために十分な量の学習データを収集できない状況を想定する。まず、ささやき声またはボーカルフライと通常の発声との音響特性の違いを予め変換ルールで定めておく。次に、その変換ルールに基づいて通常の発声による学習データからささやき声またはボーカルフライによる学習データを疑似的に生成する。そして、その疑似学習データを用いて音響モデルを適応させる。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第一実施形態]
第一実施形態では、ルールベースによりささやき声の音声信号を疑似生成し、その疑似音声信号を用いて音響モデルを適応する方法について説明する。変換ルールはささやき声の音響特性に基づいて事前に作成しておき、その変換ルールに基づいて通常の発声からささやき声に変換することで、ささやき声による音声信号の疑似生成を行う。
第一実施形態の疑似音声信号生成装置1は、図1に例示するように、入力端子10、音声信号取得部11、疑似音声信号生成部12、音声信号記憶部21、および疑似音声信号記憶部22を含む。
第一実施形態の音響モデル適応装置2は、図1に例示するように、疑似音声信号生成装置1の各構成部に加えて、疑似音響特徴量生成部13、音響モデル学習部14、疑似音響特徴量記憶部23、および音響モデル記憶部24を含む。図1では、音響モデル適応装置2に疑似音声信号生成装置1のすべての構成部が含まれる構成を例示したが、疑似音声信号生成装置1が生成した疑似音声信号を記憶させた疑似音声信号記憶部22のみを含む構成とすることも可能である。
疑似音声信号生成装置1および音響モデル適応装置2の各装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。各装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。各装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、各装置が備える各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
疑似音声信号生成装置1および音響モデル適応装置2が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。各装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
図2を参照して、第一実施形態の疑似音声信号生成方法の処理手続きを説明する。
ステップS10において、入力端子10へ、学習データとする音声信号が入力される。学習データの音声信号には、認識対象タスクであるささやき声による音声信号と、通常の発声による音声信号とが含まれる。入力される音声信号は、マイクロホン等の収音手段を入力端子10へ接続してリアルタイムに人間の発話を収音したものであってもよいし、あらかじめ人間の発話をICレコーダーやスマートフォンの録音機能のような録音手段で不揮発性メモリやハードディスクドライブのような記録媒体へ録音し、入力端子10へ接続した再生手段により再生することで入力してもよい。
ステップS11において、音声信号取得部11は、アナログの入力音声信号をディジタル信号に変換する。入力端子10からディジタルの音声信号が入力される場合には、音声信号取得部11は備えなくともよい。ディジタルの入力音声信号は、音声信号記憶部21へ記憶される。
ステップS12において、疑似音声信号生成部12は、音声信号記憶部21に記憶されたディジタルの入力音声信号を読み込み、予め定めた変換ルールに基づいて入力音声信号の音響特性を変換してささやき声の疑似音声信号を生成する。生成した疑似音声信号は、疑似音声信号記憶部22へ記憶される。
変換ルールはささやき声と通常の発声との違いを表現するようなルールである。取り得る変換ルールとしては、例えば、音声信号からスペクトル包絡情報を抽出し、音源のみをホワイトノイズ化してスペクトル包絡情報(声道特性フィルタ)を励振させ、有声音を無声化する(駆動音源をホワイトノイズにすることで模擬的な呼気音とする)ことが考えられる。ここで、スペクトル包絡の推定方法としては、公知のヒルベルト変換や、下記参考文献1に記載されるメル一般化ケプストラム分析などを用いることができる。なお、音声認識に用いる音響特徴量(もしくは、後述の疑似音響特徴量生成部13で出力される音響特徴量系列)がメル周波数ケプストラム係数(MFCC: Mel-Frequency Cepstrum Coefficient)であるならば、駆動音源のみが変更される(すなわち、スペクトル包絡は変わらない)場合、理論上音響特徴量の値は変わらない。したがってこのようなケースでは、MFCCではない音響特徴量を利用する。例えば、メルフィルタバンクから出力される値をそのまま音声認識の音響特徴量に利用する等が考えられる。
〔参考文献1〕徳田恵一, 小林隆夫, 千葉健司, 今井 聖, “メル一般化ケプストラム分析による音声のスペクトル推定”, 電子情報通信学会論文誌.A, vol. J75-A, no. 7, pp. 1124-1134, 1992
また、非特許文献1に記載されているように、ささやき声と通常の発声との音響分析から、より精緻にスペクトル包絡を変化させてもよい。例えば、ささやき声では1.5kHz以下のパワーが通常の発声に比べて小さいため、1.5kHz以下のスペクトル包絡を恣意的に小さくする方法が考えられる。また、1.5kHz以下のフォルマント周波数が通常の発声に比べ高くなっていることも報告されているため、推定されたスペクトル包絡の1.5kHz以下のフォルマント周波数を恣意的に高くすることで、よりささやき声に近づく変換処理を実現することができる。
引き続き、図2を参照して、第一実施形態の音響モデル適応方法の処理手続きを説明する。
疑似音声信号記憶部22には、学習データの音声信号を上述の疑似音声信号生成装置1により生成されたささやき声の疑似音声信号が記憶されている。
ステップS13において、疑似音響特徴量生成部13は、疑似音声信号記憶部22に記憶された疑似音声信号を読み込み、疑似音声信号の各フレームから音響特徴量を抽出し、疑似音響特徴量系列を生成する。生成した疑似音響特徴量系列は、疑似音響特徴量記憶部23へ記憶される。抽出する音響特徴量としては、例えば、音声信号の短時間フレーム分析に基づくMFCCの1〜12次元と、その動的特徴量であるΔMFCC、ΔΔMFCCなどの動的パラメータや、パワー、Δパワー、ΔΔパワー等を用いる。また、MFCCに対してはケプストラム平均正規化(CMN: Cepstral Mean Normalization)処理を行ってもよい。抽出する音響特徴量は、MFCCやパワーに限定したものではなく、音声認識に用いられるパラメータを用いてもよい。
ステップS14において、音響モデル学習部14は、疑似音響特徴量記憶部23に記憶された疑似音響特徴量系列を利用して音響モデルを学習する。学習済みの音響モデルは、音響モデル記憶部24へ記憶される。音声認識における音響モデルとしては、GMM-HMMなどが用いられており、音響モデルを認識対象タスクに適応させる手法は、例えば、下記参考文献2などに記載されている。
〔参考文献2〕篠田浩一、“確率モデルによる音声認識のための話者適応化技術”、電子情報通信学会論文誌、J87-D-II(2)、pp. 371-386、2004年
音響モデルの適応に用いる音響特徴量は、音響モデルを用いる音声認識装置に求められる機能によって選択するとよい。具体的には、以下の2パターンが考えられる。
(1)ささやき声に関する音響特徴量のみを用いて適応した音響モデルにより構築される音声認識装置の場合は、ささやき声の少量の学習データ(B)と疑似学習データ(C)のみを用いる。つまり、ささやき声に関する音響特徴量系列と疑似音響特徴量系列で適応した音響モデルを生成する。認識時には、ささやき声で発声した発話にのみ、この音響モデルを利用することができる。したがって、予めささやき声しか入力されないことがわかっている場合は、この音響モデルだけで音声認識装置を構築する。
通常の発声による発話も含まれる場合は、通常の発声による十分な量の学習データ(A)のみで適応した音響モデルも併用すればよい。この場合、入力音声がささやき声であるか否かを判別して、二つの音響モデルのうちどちらを利用するかを判別するとよい。すなわち、認識対象の入力音声がささやき声である場合は、ささやき声に関するデータだけで適応された音響モデルを利用し、ささやき声でない場合は、通常の発声による音響特徴量だけで適応した音響モデルを利用する。なお、後述の第二実施形態で説明するボーカルフライに関する音響特徴量だけで適応した音響モデルも所有している場合には、さらにこの音響モデルも併用してよい。
ささやき声であるか否かを判別する方法は、例えば、(1)音声の収録時に発話者がささやき声か否かを予め指定する方法、(2)人間が実際に音声を聴取しささやき声か否かを判断する方法、(3)自動でささやき声か否かを判別する方法が挙げられる。(1)発話者が指定する方法は、音声を収録する際に発話者がこれから発話する音声がささやき声か否かを予め指定する。(2)人間が判断する方法は、収録済みの音声を発話者本人もしくはそれ以外の人間が音声を聴取しささやき声か否かを判断する。(3)自動で判別する方法は、例えば、音声信号をケプストラム分析した上で、その高次成分の大きさを予め定めた閾値と比較することでささやき声か否かを判別する。ささやき声は通常の発声とは異なり、ホワイトノイズのような非周期的な駆動音源信号となるため、駆動音源信号成分と考えられるケプストラムの高次成分の値が大きい場合は周期的と捉えて通常の発声であると判別し、小さい場合は非周期的と捉えてささやき声であると判別する。他には、ささやき声か否かを判別するモデルを予め構築しておき、そのモデルに基づいてささやき声か否かを判別する方法でもよい。例えば、ささやき声と通常の発声をそれぞれ混合ガウス分布(GMM: Gaussian Mixture Model)により予めモデル化しておき、そのモデルに基づいた尤度比較によりささやき声か通常の発声かを識別する方法や、ささやき声と通常の発声の二つのクラスによるディープニューラルネットワーク(DNN: Deep Neural Networks)により識別する方法等も考えられる。
(2)ささやき声だけでなくすべての発声を含めた音響特徴量を用いて適応した音響モデルにより構築される音声認識装置の場合は、ささやき声ではない十分な量の学習データ(A)とささやき声の少量の学習データ(B)と疑似学習データ(C)とをすべて用いる。つまり、ささやき声に関する音響特徴量系列と疑似音響特徴量系列だけでなく、それ以外の全発話の音響特徴量系列で適応した音響モデルを生成する。このとき、第二実施形態で生成されるボーカルフライの疑似音響特徴量も含めてもよい。この場合、認識時には、すべての発話を一様に音声認識装置に入力することになる。
上述のように構成することで、第一実施形態の疑似音声信号生成装置および方法は、認識対象であるささやき声の学習データが十分に入手できない場合であっても、ささやき声と通常の発声との音響特性の違いを表現した変換ルールに基づいて、ささやき声の音声信号を疑似的に生成することができる。したがって、第一実施形態の音響モデル適応装置および方法は、ささやき声の疑似音声信号から抽出した十分な量の音響特徴量系列を用いて音響モデルの適応を行うことで、ささやき声に頑健な音響モデルを作成することができ、この音響モデルを用いて音声認識をすることで認識率が向上する。
[第二実施形態]
第二実施形態では、ルールベースによりボーカルフライの音声信号を疑似生成し、その疑似音声信号を用いて音響モデルを適応する方法について説明する。変換ルールはボーカルフライの音響特性に基づいて事前に作成しておき、その変換ルールに基づいて通常の発声からボーカルフライに変換することで、ボーカルフライによる音声信号の疑似生成を行う。
以下、第二実施形態の音響特徴量変換方法を説明する。以下では、上述の第一実施形態との相違点を中心に説明する。
第二実施形態の疑似音声信号生成部12は、音声信号記憶部21に記憶されたディジタルの入力音声信号を読み込み、予め定めた変換ルールに基づいて入力音声信号の音響特性を変換してボーカルフライの疑似音声信号を生成する。生成した疑似音声信号は、疑似音声信号記憶部22へ記憶される。
変換ルールはボーカルフライと通常の発声との違いを表現するようなルールである。ボーカルフライはフレーズの末尾等の定常的な母音音声部分に含まれることが多く、非特許文献2で報告されているように基本周波数が通常の発声より低くなる。そのため、取り得る変換ルールとしては、例えば、通常の発声による音声に対し、フレーズ末尾の母音の基本周波数を低くすることが考えられる。また、音声が断続的に消失(約25〜50Hz程度のとても低い基本周波数に対し、20〜40ミリ秒毎の消失)するため、恣意的に通常の発声による音声から20〜40ミリ秒毎に音声を消失させるルールや、その消失させた部分にその発話の無音区間を埋め込んだルールでもよい。
上述のように構成することで、第二実施形態の疑似音声信号生成装置および方法は、認識対象であるボーカルフライの学習データが十分に入手できない場合であっても、ボーカルフライと通常の発声との音響特性の違いを表現した変換ルールに基づいて、ボーカルフライの音声信号を疑似的に生成することができる。したがって、第二実施形態の音響モデル適応装置および方法は、ボーカルフライの疑似音声信号から抽出した十分な量の音響特徴量系列を用いて音響モデルの適応を行うことで、ボーカルフライに頑健な音響モデルを作成することができ、この音響モデルを用いて音声認識をすることで認識率が向上する。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 疑似音声信号生成装置
2 音響モデル適応装置
11 音声信号取得部
12 疑似音声信号生成部
13 疑似音響特徴量生成部
14 音響モデル学習部
21 音声信号記憶部
22 疑似音声信号記憶部
23 疑似音響特徴量記憶部
24 音響モデル記憶部

Claims (6)

  1. 出現頻度が低い音声現象の音響特性を表現した変換ルールに基づいて入力音声信号の音源を変換し、当該音源で上記入力音声信号から抽出したスペクトル包絡を励振することで疑似音声信号を生成する疑似音声信号生成部を含む疑似音声信号生成装置。
  2. 請求項1に記載の疑似音声信号生成装置であって、
    上記疑似音声信号生成部は、上記入力音声信号の音源をホワイトノイズに変換し、当該音源で上記スペクトル包絡を励振することによって上記疑似音声信号を生成するものである
    疑似音声信号生成装置。
  3. 請求項1に記載の疑似音声信号生成装置であって、
    上記疑似音声信号生成部は、上記入力音声信号の音源を母音区間の基本周波数が低くなり断続的に音声が消失するように変換し、当該音源で上記入力音声信号から抽出したスペクトル包絡を励振することによって上記疑似音声信号を生成するものである
    疑似音声信号生成装置。
  4. 請求項1から3のいずれかに記載の疑似音声信号生成装置により生成した疑似音声信号を記憶する疑似音声信号記憶部と、
    上記疑似音声信号から音響特徴量を抽出し疑似音響特徴量系列を生成する疑似音響特徴量生成部と、
    上記疑似音響特徴量系列を用いて音響モデルを学習する音響モデル学習部と、
    を含む音響モデル適応装置。
  5. 疑似音声信号生成部が、出現頻度が低い音声現象の音響特性を表現した変換ルールに基づいて入力音声信号の音源を変換し、当該音源で上記入力音声信号から抽出したスペクトル包絡を励振することで疑似音声信号を生成する疑似音声信号生成ステップを含む疑似音声信号生成方法。
  6. 請求項1から3のいずれかに記載の疑似音声信号生成装置もしくは請求項4に記載の音響モデル適応装置としてコンピュータを機能させるためのプログラム。
JP2015065788A 2015-03-27 2015-03-27 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム Pending JP2016186516A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015065788A JP2016186516A (ja) 2015-03-27 2015-03-27 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015065788A JP2016186516A (ja) 2015-03-27 2015-03-27 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2016186516A true JP2016186516A (ja) 2016-10-27

Family

ID=57203168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015065788A Pending JP2016186516A (ja) 2015-03-27 2015-03-27 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2016186516A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018072698A (ja) * 2016-11-02 2018-05-10 ヤマハ株式会社 信号処理方法、および信号処理装置
JP2020515877A (ja) * 2018-04-12 2020-05-28 アイフライテック カンパニー,リミテッド ささやき声変換方法、装置、デバイス及び可読記憶媒体
WO2021044606A1 (ja) * 2019-09-06 2021-03-11 日本電信電話株式会社 学習装置、推定装置、それらの方法、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008139573A (ja) * 2006-12-01 2008-06-19 Oki Electric Ind Co Ltd 声質変換方法、声質変換プログラム、声質変換装置
WO2008102594A1 (ja) * 2007-02-19 2008-08-28 Panasonic Corporation 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008139573A (ja) * 2006-12-01 2008-06-19 Oki Electric Ind Co Ltd 声質変換方法、声質変換プログラム、声質変換装置
WO2008102594A1 (ja) * 2007-02-19 2008-08-28 Panasonic Corporation 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
石井カルロス寿憲: "りきみの自動検出のための音響分析", 電子情報通信学会技術研究報告 VOL.106 NO.178 IEICE TECHNICAL REPORT, vol. 第106巻, JPN6017048046, 14 July 2006 (2006-07-14), JP, pages 1 - 6, ISSN: 0003702753 *
芦原孝典: "声質変換を用いた音声特徴量疑似生成による話者適応", 電子情報通信学会技術研究報告 VOL.114 NO.411 IEICE TECHNICAL REPORT, vol. 第114巻, JPN6017048044, 22 January 2015 (2015-01-22), JP, pages 13 - 18, ISSN: 0003702752 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018072698A (ja) * 2016-11-02 2018-05-10 ヤマハ株式会社 信号処理方法、および信号処理装置
JP2020515877A (ja) * 2018-04-12 2020-05-28 アイフライテック カンパニー,リミテッド ささやき声変換方法、装置、デバイス及び可読記憶媒体
WO2021044606A1 (ja) * 2019-09-06 2021-03-11 日本電信電話株式会社 学習装置、推定装置、それらの方法、およびプログラム
JPWO2021044606A1 (ja) * 2019-09-06 2021-03-11
JP7279800B2 (ja) 2019-09-06 2023-05-23 日本電信電話株式会社 学習装置、推定装置、それらの方法、およびプログラム

Similar Documents

Publication Publication Date Title
O’Shaughnessy Automatic speech recognition: History, methods and challenges
JP6305955B2 (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム
Sinha et al. Assessment of pitch-adaptive front-end signal processing for children’s speech recognition
Shahnawazuddin et al. Pitch-Adaptive Front-End Features for Robust Children's ASR.
Deshwal et al. Feature extraction methods in language identification: a survey
US11495235B2 (en) System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks
US20070239444A1 (en) Voice signal perturbation for speech recognition
Yadav et al. Addressing noise and pitch sensitivity of speech recognition system through variational mode decomposition based spectral smoothing
Gutkin et al. TTS for low resource languages: A Bangla synthesizer
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
KR101068122B1 (ko) 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
Eringis et al. Improving speech recognition rate through analysis parameters
Kathania et al. Explicit pitch mapping for improved children’s speech recognition
KR102198598B1 (ko) 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법
JP2016186516A (ja) 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム
Erokyar Age and gender recognition for speech applications based on support vector machines
Zealouk et al. Noise effect on Amazigh digits in speech recognition system
Sahoo et al. MFCC feature with optimized frequency range: An essential step for emotion recognition
Gaudani et al. Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language
KR102198597B1 (ko) 뉴럴 보코더 및 화자 적응형 모델을 구현하기 위한 뉴럴 보코더의 훈련 방법
Kurcan Isolated word recognition from in-ear microphone data using hidden markov models (HMM)
Fauziya et al. A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling
JP6367773B2 (ja) 音声強調装置、音声強調方法及び音声強調プログラム
Kaur et al. Power-Normalized Cepstral Coefficients (PNCC) for Punjabi automatic speech recognition using phone based modelling in HTK
Sai et al. Enhancing pitch robustness of speech recognition system through spectral smoothing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180306

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20181002