JP2018040838A - 音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム - Google Patents

音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム Download PDF

Info

Publication number
JP2018040838A
JP2018040838A JP2016172608A JP2016172608A JP2018040838A JP 2018040838 A JP2018040838 A JP 2018040838A JP 2016172608 A JP2016172608 A JP 2016172608A JP 2016172608 A JP2016172608 A JP 2016172608A JP 2018040838 A JP2018040838 A JP 2018040838A
Authority
JP
Japan
Prior art keywords
zff
signal
amplitude
frame
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016172608A
Other languages
English (en)
Inventor
晋富 倪
Jinfu Ni
晋富 倪
芳則 志賀
Yoshinori Shiga
芳則 志賀
恒 河井
Hisashi Kawai
恒 河井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2016172608A priority Critical patent/JP2018040838A/ja
Priority to PCT/JP2017/031581 priority patent/WO2018043708A1/ja
Publication of JP2018040838A publication Critical patent/JP2018040838A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

【課題】言語に依存せず、音声信号からイントネーション構造を抽出する方法を提供する。
【解決手段】方法は、フレーム化された音声信号にゼロ周波数フィルタ(ZFF)法を適用してZFF信号を得るステップ30と、ZFF信号から検出される各声門サイクルにおいて、ZFF信号の振幅信号に、ZFF法を用いたFパターン及び振幅パターン抽出のアルゴリズムを適用して、ZFF信号の振幅、振幅シーケンスのフィット曲線、及び振幅シーケンスの平滑化曲線を得るステップ32、34と、ZFF信号の振幅に基づき、ZFF信号のうち安定した有声フレームを選択するステップ36、38と、これらフレームの基本周波数を算出して上記アルゴリズムを適用しFパターンを算出するステップ40と、Fパターンにさらに上記アルゴリズムを適用して音声信号のイントネーションを抽出するステップ42とを含む。
【選択図】図1

Description

この発明は音声のイントネーション構造を抽出する方法に関し、特に、音声合成等に用いられるFパターンを音声信号から抽出するための、言語に依存しない方法に関する。
人間は言語的な意味とパラ言語的な情報とを様々なイントネーションにより伝達する。文の途中でピッチすなわち基本周波数(F)が変化すると、聴者は文のイントネーションの変化を感じとる。時間及び強さの変化も理解のプロセスにおける音響的な手掛かりとなる。
本明細書におけるイントネーション構造とは、特にF又はピッチという局面に関する。Fという用語及びピッチという用語は本明細書では同じ意味を表す。Text-to-Speech音声合成に関しては入力テキストから適切なイントネーションを合成することが重要で、さもないとメッセージの重要なニュアンスを全て正確に伝えることが難しくなる。
アジアの言語では、ピッチの局所的な変化により言葉の意味が変化する。例えば日本語の場合、n個のシラブルを持つ単語は、n+1個のアクセントタイプ(n=0,…,n)を持つことが可能である。例えば2個のシラブルを持つ単語の場合、「柿」はタイプ0(アクセントなし)、「牡蠣」はタイプ1、「垣」はタイプ2というように、アクセントにより意味が変化する。同様の現象が、ミャンマー語及び中国語(マンダリン)の声調にも存在する。複数の言語を扱う音声合成では、このような声調とアクセントとFのイントネーションとの間の干渉を一貫した方法で取り扱うことができることが望ましい。
こうした問題を重ね合わせの原理で処理できれば、ピッチの種々の要素及び機能を分けてモデル化できるので都合がよい。しかし、ピッチをその構成要素に自動的に分解することは簡単なことではない。その主たる原因には3つの局面がある。第1は、Fパターンを一意に分解するための一般的な方法がないという問題である。いくつかの構成要素が入れ替わった結果、同じFパターンが結果として生じることもあるためである。第2に、非共鳴音が途中介在し、マイクロプロソディと呼ばれる分節的なF変化によってFパターンが乱され滑らかにならないことが多いためである。第3に、イントネーションとアクセントはもともと言語学的・抽象的な概念であり、それらを音響的に分離することは従来技術では困難なためである。
一方、Fモデルの学習時には、実際の音声から観測される生のFパターンを使うより、F生成過程モデルで近似したFパターンを使った方が合成音声の品質が向上することが知られている(特許文献1)。
特開2015−041081号公報
J. Ni, Y. Shiga, C. Hori, "Extraction of pitch register from expressive speech in Japanese," Proc. of ICASSP2015, pp.4764-4768, 2015.
しかし、従来技術では、F生成過程モデルを適用するには、対象となる言語に関する言語的知識が必要であるという問題があった。そのため多言語に対応する音声合成システムを開発する場合には、言語毎に個別にF生成過程モデルを得る技術を用いる必要がある。その結果、そうしたシステムの開発が困難であるという問題があった。それだけではなく、対象となる言語に関する十分な知識を持つ人材が見つからない場合には、その言語については音声合成システムを利用できないという問題もあった。
それゆえに本発明の目的は、言語に依存せず、音声信号からイントネーション構造を抽出できる方法を提供することである。
本発明の第1の局面に係る方法は、ゼロ周波数フィルタリングにより言語に依存せず音声のイントネーション構造を抽出する。この方法は、音声信号にゼロ周波数フィルタ(ZFF)法を適用することによりゼロ周波数フィルタリングされた信号(ZFF信号)を得るステップと、ZFF信号の振幅系列をフレーム単位で算出するステップと、ZFF信号の振幅系列に基づいて音声信号の基本周波数系列をフレーム単位で決定するステップとを含む。
好ましくは、ZFF信号の振幅系列をフレーム単位で算出するステップは、ZFF信号から検出される各声門サイクルにおいて、ZFF信号の振幅信号に、振幅パターン抽出のアルゴリズムをそれぞれ所定の条件で適用することにより、ZFF信号の振幅系列と、振幅系列のフィット曲線と、振幅系列の平滑化曲線とを得るステップとを含む。
さらに好ましくは、音声信号の基本周波数系列をフレーム単位で決定するステップは、ZFF信号の振幅に基づいて有効フレームを選択するステップと、判定された有効フレームの基本周波数列に対して、ZFF法を用いたFパターン抽出アルゴリズムを適用してFパターンを算出するステップとを含む。
より好ましくは、この方法は、フレーム単位で決定された基本周波数列に対して、Fパターン抽出アルゴリズムを適用することにより音声信号のイントネーション構造を抽出するステップをさらに含む。
好ましくは、所定のアルゴリズムは、繰り返し回数K及び、ZFFにおける信号処理のためのウィンドウ幅Nを引数として受ける。このアルゴリズムは、入力信号s[n]を受け取り、当該入力信号s[n]のゼロ部分を線形補間して補間後の信号s0[n]を生成するステップと、信号s0[n]にZFFを適用して信号^s0[n]を得るステップと、繰り返し制御変数iに0を代入するステップと、繰り返し制御変数iが繰り返し回数Kより小さい間、以下の処理を繰り返し実行するステップとを含む。この繰り返して実行される処理は、s0[n]-^si[n]にZFFをウィンドウ幅Nで適用することにより差分Δ^si[n]を得るステップと、si+1[n]の値を^si[n]+Δsi[n]に定めるステップと、繰り返し制御変数iに1を加算するステップとを含む。所定のアルゴリズムはさらに、繰り返し実行するステップの終了時の信号^sK[n]を出力するステップを含む。
有効フレームを判定するステップは、ZFF信号の振幅系列の振幅値を正規化し、その振幅が第1のしきい値以上となるフレームを含む所定範囲のフレームを有効と判定するステップと、有効と判定されたフレームのうち、フィット曲線と平滑化曲線との交差位置にあるフレーム、及びフィット曲線のピークに位置するフレームを有効フレームの初期値として、さらに、有効フレームに隣接し、かつ当該フレームとの振幅差が第2のしきい値以下のフレームを有効フレームとして追加して選択するステップとを含んでもよい。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータに、上記したいずれかの方法を実行させるように機能する。
本発明の実施の形態に係る方法の全体構成をフローチャート形式で示す図である。 ZFF(ゼロ周波数フィルタ)の構成を示すブロック図である。 ZFFを実現するためのプログラムの制御構造を示すフローチャートである。 本発明の実施の形態において、ZFF信号の振幅を計算する処理を実現するためのプログラムの制御構造を示すフローチャートである。 本発明の実施の形態においてZFFを用いてF及び振幅パターンを抽出する処理を実現するプログラムの制御構造を示すフローチャートである。 本発明の実施の形態において、安定した有音フレームを検出する処理を実現するプログラムの制御構造を示すフローチャートである。 安定した有音フレームからFパターンを復元する処理を実現するプログラムの制御構造を示すフローチャートである。 パターンから仮想ピッチレジスタ(グローバルなピッチの変化傾向)を推定する処理を実現するプログラムの制御構造を示すフローチャートである。 本発明の実施の形態に係る方法によるデータの変化過程を示す図である。 本発明の実施の形態における、ZFF信号のフィット曲線と平滑化曲線との抽出過程を説明するための、図9(E)の一部の拡大図である。 本発明の実施の形態における、Fパターンと仮想ピッチレジスタの抽出過程を説明するための、図9(F)の一部の拡大図である。 本発明の実施の形態に係る方法による、元の音声信号からZFFのフィット曲線及び平滑化曲線を得るまでのデータの変化過程を説明するための図である。 本発明の実施の形態に係る方法による、元の音声信号からFパターン及び仮想ピッチレジスタを得るまでのデータの変化過程を説明するための図である。 本発明の実施の形態に係る方法により、マイクロプロソディによる影響が取り除かれることを説明するための図である。 本発明の実施の形態に係る方法により、Fパターン及び仮想ピッチレジスタを検出できることを説明するための図である。 本発明の実施の形態に係る方法により、Fパターン及び仮想ピッチレジスタを検出できることを説明するための図である。 本発明の実施の形態に係るFパターン及び仮想ピッチレジスタの検出方法を実現するためのコンピュータシステムの外観図である。 図17に外観を示すコンピュータシステムの内部構成を示すブロック図である。
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。なお、以下の説明では、音声信号はデジタル化され、所定フレーム長及び所定シフト量(重複を許す)でフレーム化されるものとする。
[構成]
図1を参照して、本願の実施の形態に係るFパターン及び仮想ピッチレジスタの抽出方法は、音声信号からZFF信号を得るステップ30と、ステップ30で抽出されたZFF信号から、声門サイクルのエポックを検出するステップ32とを含む。ZFF信号については図2を参照して後述する。エポックとは、図14を参照して、音声信号から得られるZFF信号の値が負から正に変化する位置のことであり、声門が振動する1サイクルを示す。
このプログラムはさらに、ステップ30により得られたZFF信号の振幅を、ステップ32により得られたエポックに関する情報を用いて計算するステップ34と、ステップ34により得られた振幅を正規化し、その値が0.08以上であるフレームを有音フレームとして検出するステップ36と、ステップ36で検出された有音フレームを起点として、安定した複数個の有音フレームを選択するステップ38と、ステップ38において選択された安定した有音フレームから、Fパターンを復元するステップ40と、ステップ40で復元したFパターンから仮想ピッチレジスタを推定するステップ42とを含む。
図1のステップ30で得られるZFF信号について説明する。上記非特許文献1では、観測された発話のFパターンからグローバルなピッチの動き(仮想ピッチレジスタ)を計算するために、振幅‐周波数レスポンス機構を考慮したトーン変換技術を用いている。非特許文献1に記載された技術から、理想的ゼロ周波数共鳴器(ZFR)が以下のように表される事がわかる。
ただしx[k]はk番目のフレームの信号s[k]から録音時の直流成分又は低周波バイアス成分を除いた信号を表し、y[k]はZFRによるフィルタ後のk番目のフレームの信号を表す。ZFFはこのZFRを2回入力信号に適用する処理である。
図2を参照して、ZFF62は、入力信号60を受けるように接続されたZFR70と
ZFR70の出力を受けるように接続されたZFR72と、ZFR72の出力を受けるように接続され、ZFR72の出力から、データの内容によらない成分からなるトレンドを除去してZFF信号64を出力するトレンド除去部74とを含む。
本実施の形態では、このZFF62はコンピュータハードウェアとその上で実行されるプログラムとにより実現される。そのプログラムの制御構造について図3を参照して説明する。なお、以下の説明では、信号sのk番目のフレームのデータをs[k]と記載する。
図3を参照して、このプログラムは、信号s[k]から録音時の直流成分又は低周波バイアス成分を以下の式により除去するステップ90を含む。
x[k] = s[k] - s[k-1]
このプログラムはさらに、ステップ90により得られた信号x[k]を理想的ZFRに2回通し、新たな信号y[k]を得るステップ92と、ステップ92で得られたy[k]からその局所平均を除くことによりトレンドを除去し、ゼロ周波数フィルタリングされた信号z[k]を得るステップ94とを含む。
図1のステップ32は、このようにして得られたZFF信号において、ZFF信号が時間軸を負から正にクロスする点を検出する。これが声門サイクルのエポックである。
図1のステップ34を実現するプログラムの制御構造を図4にフローチャート形式で示す。図4を参照して、このプログラムは、図1のステップ32で検出された各声門サイクルにおいて、ZFF信号の振幅の絶対値の最大値を計算する処理112を行うステップ110と、ステップ110で計算されたZFF信号の振幅の絶対値の最大値を5ミリ秒のウィンドウ幅で5ミリ秒ごとにサンプリングするステップ114とを含む。
図4のステップ116以下は、本実施の形態で採用したFパターン及び振幅抽出のためのZFF法を利用する。そこで、まず、図5を参照して、ZFFについて説明する。
図5を参照して、ZFF法は、引数として処理対象の信号s[n]、繰り返し回数K、及び内部の処理で使用するウィンドウ幅N(実際のウィンドウ幅は2N+1である。)を受け取って処理を開始する。このプログラムは、s[n]のゼロ部を線形補間してs0[n]を得るステップ140と、ステップ140で得られたs0[n]に図2に示したZFFを適用して^s0[n]を得るステップ142とを含む。以下は繰り返し制御変数iを用いた繰り返し処理である。なお、記号「^」(ハット)は、図及び式においては直後の文字の直上に記載されているものであり、明細書ではそうした記載ができないために、修飾すべき文字の直前に記載してある。
このプログラムは、さらに、変数iに0を代入するステップ144と、変数iの値が引数として与えられた繰り返し回数Kより小さい間、処理148を繰り返し実行するステップ146と、ステップ146が完了したとき(変数iの値が繰り返し回数Kに達したとき)に得られる^ sK[k]を出力するステップ150とを含む。
再び図4を参照して、このプログラムは、ZFF法を実行するための準備として、ウィンドウ幅を規定する変数Nに100を、繰り返し回数Kに10を、それぞれ代入するステップ116と、ステップ116の後、サンプリング系列sa[k]に対し、ZFFを利用したF及び振幅パターン抽出アルゴリズムを適用してZFF振幅を算出するステップ118と、ウィンドウ幅Nに100を、繰り返し回数Kに10をそれぞれ代入するステップ120と、サンプリング系列sa[k]に対してZFFを利用したF及び振幅パターン抽出アルゴリズムを適用してZFF振幅のフィット曲線を算出するステップ122と、ウィンドウ幅Nに300を、繰り返し回数Kに5をそれぞれ代入するステップ124と、サンプリング系列sa[k]に対してZFFを利用したF及び振幅パターン抽出アルゴリズムを適用してZFF振幅の平滑化曲線を算出するステップ126とを含む。
ステップ118、122、及び126で使用される、F及び振幅パターン抽出アルゴリズムについて、その制御構造を図5に示す。図5を参照して、このプログラムは、前述したように、引数として信号s[n]、繰り返し回数K、及びウィンドウ幅Nを引数として受けて処理を開始する。このプログラムは、信号s[n]のゼロ部分を線形補完して信号s0[n]を得るステップ140と、信号s0[n]に対してZFFを適用して^s0[n]を得るステップ142と、繰り返し制御変数iに0を代入するステップと、変数iの値が繰り返し回数Kより小さい間、以下の処理148を繰返すステップ146と、ステップ146の終了時に得られる信号^sK[n]を出力するステップ150とを含む。
処理148は、s0[n]―^si[n]にZFFを適用してΔ^si[n]を得るステップ160と、^si+1[n]の値を^si[n]+Δ^si[n]に設定するステップ162と、繰り返し制御変数iに1を加算するステップ164とを含む。
図6を参照して、図1のステップ38で行われる、安定した有音フレームを選択する処理は、Δ^sa[k]の平均μaと分散σaとを算出するステップ180と、振幅のフィット曲線と平滑化曲線との交点を計算するステップ182と、振幅のフィット曲線のピーク、又はステップ182で求めた交点の位置にあるフレームを、安定した有音フレームの初期値としてマークするステップ184とを含む。
このプログラムはさらに、ステップ184で求めた安定した有音フレームの初期値を起点として、安定したフレーム(例えばフレームj)に隣接する安定でない各フレーム(例えばフレームi)について、以下の処理188を繰返すことにより、安定した有音フレーム群を得るステップ186と、ステップ186で得られた安定した有音フレームのうち、隣接するフレームとのFの差が0.8×半音以上であるものを削除するステップ190とを含む。
処理188は、^sa[i]-^sa[j]の絶対値が平均μa+分散σa以下か否かを判定し、判定が否定のときには処理188を終了するステップ200と、ステップ200の判定が肯定のときに、フレームiを安定した有音フレームとして選択して処理188を終了するステップ202とを含む。
図7に、図1のステップ40の詳細を示す。図7を参照して、この処理は、図1のステップ32で検出されたエポックに基づき、ステップ38の処理で選択された安定な有音フレーム群のFを計算するステップ220と、F及び振幅パターン抽出アルゴリズムのためのウィンドウ幅Nに100を、繰り返し回数Kに15を、それぞれ代入するステップ222と、ステップ222で設定された値を用い、ステップ220で算出されたFの系列に対してF及び振幅パターン抽出アルゴリズムを適用することにより連続したFパターンを復元するステップ224とを含む。
図8に、図1のステップ42を実現するプログラムの制御構造をフローチャート形式で示す。図8を参照して、この処理は、ウィンドウ幅に150を、繰り返し回数Kに1を、それぞれ代入するステップ240と、ステップ240で設定されたウィンドウ幅及び繰り返し回数Kを用い、図1のステップ42で復元された連続したFパターンに対し、F及び振幅パターン抽出アルゴリズムを適用するステップ242と、ステップ242の処理の結果得られたパターンをfb[k]=2.5×半音だけ下方に移動することにより仮想ピッチレジスタを推定するステップ244とを含む。
「動作」
図9を参照し、図1〜図8に示す制御構造を有するプログラムがコンピュータにより実行されることで音声波形がどのように処理され、Fパターン及び仮想ピッチレジスタが得られるかについて説明する。
図9(A)は、音声信号260の概形を例示する。また図9(B)には、図1のステップ30で行われる処理の結果、音声信号260から得られるZFF信号262の概形を示す。両者の関係を示すため、図9(A)及び図9(B)において矩形270で囲んだ部分を横に拡大した図を図9(C)に示す。図9(C)において、鋭いピークを持つ不規則な波形が音声信号260であり、丸みを帯びた規則的な波形がZFF信号262である。
ステップ34では、以下の様な処理が行われる。図4を参照して、図1のステップ32で検出されたエポックに基づき、各声門サイクルにおいてZFF信号262の振幅の絶対値の最大値を算出する(図4のステップ110)。この処理により得られた振幅系列を、続くステップ114で5ミリ秒のウィンドウ幅及び5ミリ秒のシフト長でサンプリングする。その結果得られる振幅系列sa[k]は図9(D)に示す振幅系列であり、音源の励振と声帯の振動状態とを示す。
さらに、この振幅系列sa[k]に対して図4のステップ116から126の処理を実行することにより、図9(E)に示すZFF振幅系列330、ZFF振幅系列330に対するフィット曲線332、ZFF振幅系列330をさらに平滑化した平滑化曲線334がそれぞれ得られる。図9(E)にはさらに、これらから求められる、安定した有音フレームの系列336も示す。なお、この図では、ZFF振幅系列330と、安定した有音フレームの系列336とが錯綜して描かれていて明瞭に区別できないため、矩形360により示した部分を図10に拡大して示す。
図1のステップ36では、ZFF振幅系列330のうちで、ZFF振幅^sa[k]が0.08×半音以上であるものを有音フレームとしてマークする。またこの処理で得た有音フレームのうち、孤立したものがある場合には削除される。
図6を参照して、図1のステップ38では、前述したように、Δ^sa[k]の平均μaと分散σaとを算出する(ステップ180)。次に、ステップ182において、図10を参照して、振幅のフィット曲線332と平滑化曲線334との交点を計算する。こうして求めた交点の位置にあるフレームと、フィット曲線332のピークに位置するフレームとを、安定した有音フレームの初期値としてマークする(ステップ184)。
さらに、ステップ184で求めた安定した有音フレームの初期値を起点として、ステップ186において、安定したフレーム(例えばフレームj)に隣接する安定でない各フレーム(例えばフレームi)について、以下の処理188を繰返す。処理188では、^sa[i]-^sa[j]の絶対値が平均μa+分散σa以下か否かが判定される(ステップ200)。判定が否定のときにはなにもせず処理188を終了する。ステップ200の判定が肯定のときには、ステップ202において、フレームiを安定した有音フレームとして選択して処理188を終了する。さらに、このようにステップ186で得られた安定した有音フレームのうち、隣接するフレームとのFの差が0.8×半音以上であるものが削除される(ステップ190)。この処理によって、図10において四角で示したような安定した有音フレーム系列336が得られる。
図1のステップ40では、ステップ38の処理により選択された安定した有音フレームの系列に基づいてFパターンが復元される。具体的には、図7を参照して、図1のステップ32で検出されたエポックに基づき、ステップ38の処理で選択された安定な有音フレーム群のFを計算する(ステップ220)。続くステップ222で、F及び振幅パターン抽出アルゴリズムのためのウィンドウ幅Nに100を、繰り返し回数Kに15を、それぞれ代入する。さらに、その後のステップ224において、ステップ222で設定された値を用い、ステップ220で算出されたFの系列に対してF及び振幅パターン抽出アルゴリズムを適用することによりFパターンが復元される。
このようにして得られたFパターンから、図1のステップ42で仮想ピッチレジスタが推定される。具体的には、図8を参照して、ステップ240で、ウィンドウ幅に150を、繰り返し回数Kに1を、それぞれ代入する。続くステップ242において、ステップ240で設定されたウィンドウ幅N及び繰り返し回数Kを用い、図1のステップ40(図7のステップ220から224)で復元された連続Fパターンに対し、F及び振幅パターン抽出アルゴリズムを適用する(ステップ242)。さらに、ステップ242の処理の結果得られたパターンをfb[k]=2.5×半音だけ下方に移動することにより仮想ピッチレジスタを推定する(ステップ244)。
図7及び図8に示す処理の様子を図9(E)に示し、その中で矩形362により表される部分を図11に拡大して示す。特に図11を参照して、実際に観測されたFパターン340は、連続ではなく明らかに不連続になっている。さらに、マイクロプロソディの影響による雑音が混入している。それに対し、図1のステップ38で選択された安定した有音フレームの系列342からは、マイクロプロソディの影響を受けた部分(例えばF系列の一部348等)は除去されている。図7のステップ224の処理により、これら安定した有音フレームの系列342にフィットするようなFパターン344を計算すると、このFパターン344は、マイクロプロソディの影響を含まないものとなる。さらに、図8に示す処理を実行することにより、Fパターン344をさらに平滑化した仮想ピッチレジスタ346が得られる。
このようにして得たFパターン344及び仮想ピッチレジスタ346は連続したものであり、マイクロプロソディの影響を含まない。したがって、これらを用いて構築したFモデルを用いることにより、音声合成の品質が高くなる。
図12に、フィット曲線332及び平滑化曲線334を得るまでの処理によるデータの変化を示し、図13に、Fパターン344及び仮想ピッチレジスタ346を得るまでの信号の変化を示す。
図12を参照して、音声信号260(A)からZFF信号262(B)が得られる。このZFF信号262からZFF振幅系列330(C)が得られる。ZFF振幅系列330からそのフィット曲線332(D)が得られ、さらに平滑化曲線334(D)が得られる。これらの交点と、フィット曲線332のピーク位置とから、安定した有音フレームの初期値が定められ、それにもとづいて、安定した有音フレーム系列336(E)が得られる。
図13を参照して、ZFF信号262から、図12に示した処理によりフィット曲線332(A)及び平滑化曲線334(A)が得られる。一方、ZFF信号262からは振幅系列としてFパターン340(B)が得られる。このFパターン340は不連続であり、かつマイクロプロソディの影響による雑音成分を含む。本願発明では、Fパターン340を構成する各点のうちで、安定した有音フレームを検出し、それらにフィットする曲線を得ることでFパターン344が得られる。このFパターン344は連続であり、かつマイクロプロソディの影響による雑音成分を含まない。このFパターン344からさらに仮想ピッチレジスタ346が得られる。この仮想ピッチレジスタ346もFパターン344と同様、連続でかつマイクロプロソディの影響による雑音成分を含まない。
以上のようにこの発明によれば、Fパターン及び仮想ピッチレジスタに、マイクロプロソディの影響による雑音が含まれない。そのため、以下の様な効果を得ることができる。例えば図15に、音声波形410とそこから実際に観測されたFパターン(+印)と、本願発明により得たFパターン412とを示す。図から明らかなように、観測されたFパターンでは、参照符号420及び422において、呼気により生じたマイクロプロソディの影響を受けて低くなる箇所がある。これらの箇所は、話者の意図とは異なるFの変化を示すものであり、音声合成に悪影響を与える。これに対し本願発明に係るFパターン412では、こうした箇所でもFには影響がなく、話者が意図していた本来のイントネーションを復元できる。また、発話の終了の検出時にもマイクロプロソディによるFパターンへの影響が見られる。そのため、従来の方法により観測されたFパターンを用いると、例えば参照符号432で示すように本来の発話の終了位置とは異なる発話終了位置430を検出してしまうことがある。これに対して本願発明では、正規化されたZFF振幅(≧0.08が有音フレーム)により発話の終了を検出するので、正しい終了位置432を得ることができる。
さらに、図16を参照して、本願発明を韓国語に適用した際の例を示す。この例でも、観測されたFパターンは不連続であり、そこから音声合成に適したFパターンを抽出するのは従来法では難しかった。それに対して本願発明では、図16において実線で示すように、Fパターンをマイクロプロソディの影響なしに抽出することができ、さらに破線で示すように仮想ピッチレジスタについても適切に抽出できる。そのため、Fパターンが仮想ピッチレジスタを下回った点450、452、454において正しく呼気段落を抽出できる。なお、この例では、韓国語の音声コーパスについて、フレーズの強い不連続部分について「IP3」とラベリングしたK―ToBIと呼ばれるトランスクリプションと比較した。図16において、「3」又は「(3)」と記載したのがK―ToBIにおいてIP3とラベリングされたフレーズの不連続箇所である。これらIP3のうち、本願発明で検出できたものについては「3」と記載し、検出できなかったものについては「(3)」と記載してある。図16から分かるように、本願発明では精度よくIP3を検出できる。
上記実施の形態からも分かるように、本発明に係る方法は、対象となる音声の言語に依存しない。したがって、特に多言語に関する音声合成のために、本発明に係る方法を有効に適用できる。
[コンピュータによる実現]
本発明の各実施の形態に係るイントネーション構造を抽出する方法は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図17はこのコンピュータシステム530の外観を示し、図18はコンピュータシステム530の内部構成を示す。
図17を参照して、このコンピュータシステム530は、メモリポート552及びDVD(Digital Versatile Disc)ドライブ550を有するコンピュータ540と、キーボード546と、マウス548と、モニタ542とを含む。
図18を参照して、コンピュータ540は、メモリポート552及びDVDドライブ550に加えて、CPU(中央処理装置)556と、CPU556、メモリポート552及びDVDドライブ550に接続されたバス566と、ブートプログラム等を記憶する読出専用メモリ(ROM)558と、バス566に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ(RAM)560と、ハードディスク554を含む。コンピュータシステム530はさらに、バス566に接続され、音声信号をデジタル化してコンピュータにおいて処理可能な形式に変換するためのサウンドボード568と、他端末との通信を可能とするネットワーク572への接続を提供するネットワークインターフェイスカード(NIC)574を含む。サウンドボード568にはマイクロフォン570が接続される。
コンピュータシステム530を上記した各実施の形態に係るイントネーション構造を抽出する方法を実現する各機能部として機能させるためのコンピュータプログラムは、DVDドライブ550又はメモリポート552に装着されるDVD562又はリムーバブルメモリ564に記憶され、さらにハードディスク554に転送される。又は、プログラムはネットワーク572を通じてコンピュータ540に送信されハードディスク554に記憶されてもよい。プログラムは実行の際にRAM560にロードされる。DVD562から、リムーバブルメモリ564から又はネットワーク572を介して、直接にRAM560にプログラムをロードしてもよい。
このプログラムは、コンピュータ540を、上記実施の形態に係る方法を実現する各機能部として機能させるための複数個の命令からなる命令列を含む。コンピュータ540にこの動作を行わせるのに必要な基本的機能のいくつかはコンピュータ540上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ540にインストールされる、ダイナミックリンク可能な各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体は上記実施の形態の方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記した方法を実現するための機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供してもよい。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
60 入力信号
62 ZFF
64、262 ZFF信号
70、72 ZFR
74 トレンド除去部
260 音声信号
330 ZFF振幅系列
332 フィット曲線
334 平滑化曲線
336 有音フレーム系列
340、344、412 Fパターン
342 安定した有音フレームの系列
346 仮想ピッチレジスタ

Claims (6)

  1. ゼロ周波数フィルタリングにより言語に依存せず音声のイントネーション構造を抽出する方法であって、
    音声信号にゼロ周波数フィルタ(ZFF)法を適用することによりゼロ周波数フィルタリングされた信号(ZFF信号)を得るステップと、
    前記ZFF信号の振幅系列をフレーム単位で算出するステップと、
    前記ZFF信号の振幅系列に基づいて前記音声信号の基本周波数系列をフレーム単位で決定するステップとを含む、音声のイントネーション構造を抽出する方法。
  2. 前記ZFF信号の振幅系列をフレーム単位で算出するステップは、前記ZFF信号から検出される各声門サイクルにおいて、前記ZFF信号の振幅信号に、振幅パターン抽出のアルゴリズムをそれぞれ所定の条件で適用することにより、前記ZFF信号の振幅系列と、前記振幅系列のフィット曲線と、前記振幅系列の平滑化曲線とを得るステップを含む、請求項1に記載の方法。
  3. 前記音声信号の基本周波数系列をフレーム単位で決定するステップは、前記ZFF信号の振幅に基づいて有効フレームを判定するステップと、
    前記判定された有効フレームの基本周波数列に対して、前記ZFF法を用いた基本周波数パターン抽出アルゴリズムを適用して基本周波数パターンを算出するステップとを含む、請求項1又は請求項2に記載の方法。
  4. 前記フレーム単位で決定された基本周波数系列に対して、前記基本周波数パターン抽出アルゴリズムを適用することにより前記音声信号のイントネーション構造を抽出するステップをさらに含む、請求項1〜請求項3のいずれかに記載の方法。
  5. 前記有効フレームを判定するステップは、
    前記ZFF信号の振幅系列の振幅値を正規化し、その振幅が第1のしきい値以上となるフレームを含む所定範囲のフレームを有効と判定するステップと、
    有効と判定された前記フレームのうち、前記フィット曲線と前記平滑化曲線との交差位置にあるフレーム、及び前記フィット曲線のピークに位置するフレームを有効フレームの初期値として、さらに、有効フレームに隣接し、かつ当該フレームとの振幅差が第2のしきい値以下のフレームを有効フレームとして追加して選択するステップとを含む、請求項3に記載の方法。
  6. コンピュータに、請求項1〜請求項5の何れかに記載の方法を実行させるように機能する、コンピュータプログラム。
JP2016172608A 2016-09-05 2016-09-05 音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム Pending JP2018040838A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016172608A JP2018040838A (ja) 2016-09-05 2016-09-05 音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム
PCT/JP2017/031581 WO2018043708A1 (ja) 2016-09-05 2017-09-01 音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016172608A JP2018040838A (ja) 2016-09-05 2016-09-05 音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2018040838A true JP2018040838A (ja) 2018-03-15

Family

ID=61301227

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016172608A Pending JP2018040838A (ja) 2016-09-05 2016-09-05 音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム

Country Status (2)

Country Link
JP (1) JP2018040838A (ja)
WO (1) WO2018043708A1 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3178027A1 (en) * 2014-05-28 2015-12-03 Interactive Intelligence, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system

Also Published As

Publication number Publication date
WO2018043708A1 (ja) 2018-03-08

Similar Documents

Publication Publication Date Title
Morise et al. World: a vocoder-based high-quality speech synthesis system for real-time applications
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP6496030B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
JP7274184B2 (ja) 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法
WO2018159402A1 (ja) 音声合成システム、音声合成プログラムおよび音声合成方法
Mittal et al. Study of characteristics of aperiodicity in Noh voices
JP4516157B2 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
JP2019008206A (ja) 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム
JP2016522421A (ja) 入力雑音混入信号を強調する方法およびシステム
Marafioti et al. Audio inpainting of music by means of neural networks
Narendra et al. Robust voicing detection and F 0 estimation for HMM-based speech synthesis
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
Mittal et al. Significance of aperiodicity in the pitch perception of expressive voices
KR102198597B1 (ko) 뉴럴 보코더 및 화자 적응형 모델을 구현하기 위한 뉴럴 보코더의 훈련 방법
KR102198598B1 (ko) 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법
WO2018043708A1 (ja) 音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム
JP5660437B2 (ja) 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム
JP4177751B2 (ja) 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6689769B2 (ja) 声道スペクトル推定装置、方法、及びプログラム
CN112420004A (zh) 生成歌曲的方法、装置、电子设备及计算机可读存储介质
JP6213217B2 (ja) 音声合成装置及び音声合成用コンピュータプログラム
JP2019070775A (ja) 信号解析装置、方法、及びプログラム
Harding et al. Reconstruction-based speech enhancement from robust acoustic features
Roebel Between physics and perception: Signal models for high level audio processing