JP5119700B2 - 韻律修正装置、韻律修正方法、および、韻律修正プログラム - Google Patents

韻律修正装置、韻律修正方法、および、韻律修正プログラム Download PDF

Info

Publication number
JP5119700B2
JP5119700B2 JP2007073082A JP2007073082A JP5119700B2 JP 5119700 B2 JP5119700 B2 JP 5119700B2 JP 2007073082 A JP2007073082 A JP 2007073082A JP 2007073082 A JP2007073082 A JP 2007073082A JP 5119700 B2 JP5119700 B2 JP 5119700B2
Authority
JP
Japan
Prior art keywords
phoneme
real voice
prosody
regular
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007073082A
Other languages
English (en)
Other versions
JP2008233542A (ja
Inventor
健太郎 村瀬
伸之 片江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007073082A priority Critical patent/JP5119700B2/ja
Priority to US12/029,316 priority patent/US8433573B2/en
Priority to CN2008100867410A priority patent/CN101271688B/zh
Publication of JP2008233542A publication Critical patent/JP2008233542A/ja
Application granted granted Critical
Publication of JP5119700B2 publication Critical patent/JP5119700B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Navigation (AREA)
  • Auxiliary Devices For Music (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は、人間の発声から抽出された肉声韻律情報を受け付ける肉声韻律入力部と、肉声韻律入力部が受け付けた肉声韻律情報を修正する肉声韻律修正部とを備えた韻律修正装置、韻律修正方法、および、韻律修正プログラムに関する。
近年、文字列(テキスト)を音声に変換して出力する音声合成技術が各種のシステムあるいは装置に用いられている。例えば、IVR(自動音声応答:Interactive Voice Response)システム、車載情報端末、携帯電話での操作方法ガイダンスやメールの読み上げ、視覚障害者・発話障害者の支援システムなどである。このような音声合成技術においては、現状、人間の肉声並みに自然で、表現力豊かな合成音声を生成することは困難である。
すなわち、合成音声の韻律は、一般に、文字列における単語の読みや品詞を解析する形態素解析、文節や係り受けの解析、アクセントの設定、イントネーションの設定、ポーズや話速の設定などといった処理を経て決定される。しかしながら、現状の処理技術では、文章の意味や前後の文脈を考慮した解析を、人間のように正確に行うことは困難で、解析結果に誤りが含まれることがある。このため、音声合成技術により生成された合成音声は、人間の肉声と比較して、声の高さ、イントネーション、リズムなどの喋り方を決める韻律が不自然な箇所が含まれることがある。
そこで、合成音声の韻律の品質を高める方法として、予め合成音声する文字列が決まっている場合に、人間の発声から韻律情報を抽出し、抽出した肉声の韻律情報をそのまま用いて合成音声を生成する方法が知られている(例えば、特許文献1〜4参照)。この方法では、人間の発声とその韻律の抽出作業が予め必要となるが、人間の発声から抽出された肉声の韻律情報を用いて合成音声を生成するので、人間の肉声並みに自然で、表現力豊かな合成音声を生成することができる。
特開平10−153998号公報 特開平9−292897号公報 特開平11−143483号公報 特開平7−140996号公報
ところで、人間の発声から韻律情報を抽出する方法には、人間が手動で操作することにより、音素毎に音素境界を設定して発声から韻律情報を抽出する方法と、DP(Dynamic Programming)マッチングあるいはHMM(Hidden Markov Model)などの方法を用いることにより、音素毎に音素境界を自動的に設定して発声から韻律情報を抽出する方法とがある。
前者の場合、例えば、音声波形を表示し、人間が、この音声波形から音素毎の音素境界を目視にて判別し、音素境界を設定する必要がある。この作業は、音声に関する専門的な知識を必要とし、かつ、手間と時間がかかる。
また、後者の場合、誤った音素境界が設定されてしまう、いわゆる韻律情報の抽出誤りが生じる。すなわち、DPマッチングあるいはHMMなどの方法を用いても、似たような音やノイズの影響により、正確に音素境界を設定することは困難な場合がある。肉声からの韻律情報の抽出誤りが生じると、韻律が不自然な合成音声となる。このため、韻律情報の抽出誤りを修正する必要がある。韻律情報の抽出誤りを修正するためには、結局、人間が、自動的に設定された音素境界を目視にて確認し、誤って設定された音素境界を修正する必要がある。それゆえ、前者の場合と同様、この作業は、音声に関する専門的な知識を必要とし、かつ、手間と時間がかかる。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、人間の発声から抽出された肉声韻律情報の抽出誤りを、人間の肉声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することができる韻律修正装置、韻律修正方法、および、韻律修正プログラムを提供することにある。
上記目的を達成するために本発明における韻律修正装置は、人間の発声から抽出された肉声韻律情報を受け付ける肉声韻律入力部と、前記肉声韻律情報中で修正対象となる音素または音素列を少なくとも含む区間に対して、人間の発声における規則的または統計的な音素長を表すデータを用いることにより、音素間の境界および音素の規則音素長を定める規則音素境界を持つ規則韻律情報を生成する規則韻律生成部と、前記規則韻律生成部が生成した規則韻律情報を用いて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界および肉声音素長が、実際の前記人間の発声の音素境界および音素長に近づくように、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する肉声韻律修正部とを備える。
本発明の韻律修正装置によれば、肉声韻律入力部は、人間の発声から抽出された肉声韻律情報を受け付ける。規則韻律生成部は、肉声韻律情報中で修正対象となる音素または音素列を少なくとも含む区間に対して、人間の発声における規則的または統計的な音素長を表すデータを用いることにより、音素間の境界および音素の規則音素長を定める規則音素境界を持つ規則韻律情報を生成する。肉声韻律修正部は、生成した規則韻律情報を用いて、肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界および肉声音素長が、実際の人間の発声の音素境界および音素長に近づくように、肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、肉声韻律情報を修正する。肉声音素境界が、実際の人間の発声の音素境界に近づくように再設定されるので、人間の発声から抽出された肉声韻律情報の抽出誤りを、人間の肉声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することができる。
上記本発明における韻律修正装置においては、前記肉声韻律情報中で修正対象となる音素または音素列の区間を、前記肉声韻律情報の音素並びの種類、または、前記肉声音素境界によって定められる各々の音素の肉声音素長に基づいて決定する修正区間決定部をさらに備える態様とするのが好ましい。
上記構成によれば、修正区間決定部は、肉声韻律情報中で修正対象となる音素または音素列の区間を、肉声韻律情報の音素並びの種類または肉声音素長に基づいて決定する。これにより、肉声韻律情報中で修正対象となる音素または音素列の区間を、肉声韻律情報の抽出誤りが生じ易い箇所に限定することが可能となる。
上記本発明における韻律修正装置においては、前記肉声韻律修正部は、前記修正対象となる音素または音素列の区間において、前記規則音素境界によって定められる各々の音素の規則音素長の比に基づいて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する音素境界再設定部を含む態様とするのが好ましい。
上記構成によれば、音素境界再設定部は、前記区間において、規則音素境界によって定められる各々の音素の規則音素長の比に基づいて、肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、肉声韻律情報を修正する。例えば、音素境界再設定部は、前記区間における各々の肉声音素長が、前記区間における各々の規則音素長の比に近づくように、肉声韻律情報の肉声音素境界を再設定し、肉声韻律情報を修正する。すなわち、修正された肉声韻律情報は、大局的には、前記区間における各々の音素の肉声音素長を基準としつつ、局所的には、各々の音素の規則音素長の比に基づいて肉声音素境界が再設定される。このため、人間の発声から抽出された肉声韻律情報の抽出誤りを、人間の肉声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することができる。
上記本発明における韻律修正装置においては、前記肉声韻律修正部は、前記区間において、前記規則韻律情報の各々の音素の規則音素長、および、前記肉声韻律情報の話速と前記規則韻律情報の話速との比である話速比に基づいて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する音素境界再設定部を含む態様とするのが好ましい。
上記構成によれば、音素境界再設定部は、修正対象となる音素または音素列の区間において、規則韻律情報の各々の音素の規則音素長、および、肉声韻律情報の話速と規則韻律情報の話速との比である話速比に基づいて、肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、肉声韻律情報を修正する。すなわち、修正された肉声韻律情報は、局所的には妥当な規則音素長と前記話速比とに基づいて修正された韻律情報であるので、大局的には肉声の発声に近づいた韻律情報となる。この結果、人間の発声から抽出された肉声韻律情報の抽出誤りを、人間の肉声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することができる。
上記本発明における韻律修正装置においては、前記肉声韻律情報中で修正対象となる音素を含む少なくとも1音素または1拍以上からなる話速算出範囲において、前記肉声音素境界によって定められる各々の音素の肉声音素長の総和、および、当該話速算出範囲内の音素数または拍数に基づいて、前記修正対象となる各々の音素に対する肉声韻律情報の話速を算出し、かつ、前記規則音素境界によって定められる各々の音素の規則音素長の総和、および、当該話速算出範囲内の音素数または拍数に基づいて、修正対象となる各々の音素に対する規則韻律情報の話速を算出し、肉声韻律情報の話速と規則韻律情報の話速との比を話速比として算出する話速比検出部をさらに備え、前記音素境界再設定部は、前記修正対象となる音素または音素列の区間において、前記規則韻律情報の各々の音素の規則音素長と、前記話速比検出部により算出された話速比とに基づいて修正音素長を算出し、当該修正音素長が前記区間における各々の肉声音素長となるように、前記肉声韻律情報の肉声音素境界を再設定し、前記肉声韻律情報を修正する態様とするのが好ましい。
上記構成によれば、話速比検出部は、前記話速算出範囲において、各々の音素の肉声音素長の総和、および、この話速算出範囲内の音素数または拍数に基づいて、修正対象となる各々の音素に対する肉声韻律情報の話速を算出する。また、話速比検出部は、前記話速算出範囲において、各々の音素の規則音素長の総和、および、この話速算出範囲内の音素数または拍数に基づいて、修正対象となる各々の音素に対する規則韻律情報の話速を算出する。さらに、話速比検出部は、肉声韻律情報の話速と規則韻律情報の話速との比を話速比として算出する。音素境界再設定部は、前記区間において、各々の音素の規則音素長と、算出された話速比とに基づいて修正音素長を算出し、この修正音素長が前記区間における各々の肉声音素長となるように、肉声韻律情報の肉声音素境界を再設定し、肉声韻律情報を修正する。すなわち、修正された肉声韻律情報は、局所的には妥当な規則音素長に、前記話速比を適用しているため、大局的には肉声の発声に近づいた韻律情報となる。つまり、修正された肉声韻律情報は、人間の肉声のリズムによる変化傾向が再現された韻律情報となる。この結果、人間の発声から抽出された肉声韻律情報の抽出誤りを、人間の肉声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することができる。
上記本発明における韻律修正装置においては、前記肉声韻律情報中で修正対象となる音素または音素列の区間において、前記肉声音素境界によって定められる各々の音素の肉声音素長と、前記規則音素境界によって定められる各々の音素の規則音素長との比を、各々の音素の音素長比として算出する音素長比算出部と、前記音素長比算出部により算出された各々の音素長比を平滑化することにより、前記肉声韻律情報の話速と前記規則韻律情報の話速との比を話速比として算出する話速比算出部とをさらに備え、前記音素境界再設定部は、前記修正対象となる音素または音素列の区間において、前記規則韻律情報の各々の音素の規則音素長と、前記話速比算出部により算出された話速比とに基づいて修正音素長を算出し、当該修正音素長が前記区間における各々の肉声音素長となるように、前記肉声韻律情報の肉声音素境界を再設定し、前記肉声韻律情報を修正する態様とするのが好ましい。
上記構成によれば、音素長比算出部は、前記区間において、肉声音素境界によって定められる各々の音素の肉声音素長と、規則音素境界によって定められる各々の音素の規則音素長との比を、各々の音素の音素長比として算出する。話速比算出部は、算出された各々の音素長比を平滑化することにより、肉声韻律情報の話速と規則韻律情報の話速との比を話速比として算出する。音素境界再設定部は、前記区間において、規則韻律情報の各々の音素の規則音素長と、算出された話速比とに基づいて修正音素長を算出し、この修正音素長が前記区間における各々の肉声音素長となるように、肉声韻律情報の肉声音素境界を再設定し、肉声韻律情報を修正する。すなわち、修正された肉声韻律情報は、局所的には妥当な規則音素長に、前記話速比を適用しているため、大局的には肉声の発声に近づいた韻律情報となる。つまり、修正された肉声韻律情報は、人間の肉声のリズムによる変化傾向が再現された韻律情報となる。この結果、人間の発声から抽出された肉声韻律情報の抽出誤りを、人間の肉声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することができる。
上記本発明における韻律修正装置においては、前記肉声韻律入力部が受け付けた肉声韻律情報または前記肉声韻律修正部により修正された肉声韻律情報を格納する肉声韻律記憶部と、前記肉声韻律修正部により修正された肉声韻律情報の肉声音素長と、当該肉声韻律情報が修正される前の前記肉声韻律記憶部に格納されている肉声韻律情報の肉声音素長との差分が閾値以上である場合、前記肉声韻律修正部により修正された肉声韻律情報を前記肉声韻律記憶部に書き込み、前記肉声韻律修正部に対して、前記肉声韻律情報を修正するように指示を出力し、かつ、前記肉声韻律修正部により修正された肉声韻律情報の肉声音素長と、当該肉声韻律情報が修正される前の前記肉声韻律記憶部に格納されている肉声韻律情報の肉声音素長との差分が閾値未満である場合、前記肉声韻律修正部により修正された肉声韻律情報を出力する収束判定部とを備える態様とするのが好ましい。
上記構成によれば、収束判定部は、肉声韻律修正部により修正された肉声韻律情報の肉声音素長と、この肉声韻律情報が修正される前の肉声韻律記憶部に格納されている肉声韻律情報の肉声音素長との差分が閾値以上であるか否かを判断する。閾値以上である場合、収束判定部は、肉声韻律修正部により修正された肉声韻律情報を肉声韻律記憶部に書き込み、肉声韻律修正部に対して、肉声韻律情報を修正するように指示を出力する。一方、閾値未満である場合、収束判定部は、肉声韻律修正部により修正された肉声韻律情報を出力する。この結果、収束判定部は、肉声韻律情報の肉声音素境界が、実際の肉声音素境界により近づいた肉声韻律情報を出力することができる。
上記本発明におけるGUI装置においては、上記の韻律修正装置により修正された肉声韻律情報を編集させる。
上記構成によれば、GUI装置は、韻律修正装置により修正された肉声韻律情報を編集させる。韻律修正装置により修正された肉声韻律情報が、GUI装置により編集されるので、この肉声韻律情報に対して、例えば、管理者は、木目細かい調整を行うことができる。
上記本発明における音声合成装置においては、上記の韻律修正装置により修正された肉声韻律情報、または、上記のGUI装置により編集された肉声韻律情報に基づいて生成された合成音声を出力する。
上記構成によれば、音声合成装置は、韻律修正装置により修正された肉声韻律情報、または、GUI装置により編集された肉声韻律情報に基づいて生成された合成音声を出力することができる。
上記本発明における韻律修正システムにおいては、上記の韻律修正装置と、上記のGUI装置および上記の音声合成装置の少なくとも1つとを備える。
上記目的を達成するために本発明における韻律修正方法は、コンピュータが備える肉声韻律入力部が、人間の発声から抽出された肉声韻律情報を受け付ける肉声韻律入力工程と、前記コンピュータが備える規則韻律生成部が、前記肉声韻律情報中で修正対象となる音素または音素列を少なくとも含む区間に対して、人間の発声における規則的または統計的な音素長を表すデータを用いることにより、音素間の境界および音素の規則音素長を定める規則音素境界を持つ規則韻律情報を生成する規則韻律生成工程と、前記コンピュータが備える肉声韻律修正部が、前記規則韻律生成工程で生成された規則韻律情報を用いて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界および肉声音素長が、実際の前記人間の発声の音素境界および音素長に近づくように、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する肉声韻律修正工程とを含む。
上記目的を達成するために本発明における韻律修正プログラムは、人間の発声から抽出された肉声韻律情報を受け付ける肉声韻律入力処理と、前記肉声韻律情報中で修正対象となる音素または音素列を少なくとも含む区間に対して、人間の発声における規則的または統計的な音素長を表すデータを用いることにより、音素間の境界および音素の規則音素長を定める規則音素境界を持つ規則韻律情報を生成する規則韻律生成処理と、前記規則韻律生成処理で生成された規則韻律情報を用いて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界および肉声音素長が、実際の前記人間の発声の音素境界および音素長に近づくように、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する肉声韻律修正処理とをコンピュータに実行させる。
なお、本発明における韻律修正方法および韻律修正プログラムは、上記の韻律修正装置と同様の効果を得る。
以上のように、本発明の韻律修正装置、韻律修正方法、および、韻律情報生成プログラムは、人間の発声から抽出された肉声韻律情報の抽出誤りを、人間の肉声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することができるという効果を奏する。
以下、本発明のより具体的な実施形態について図面を参照しながら詳細に説明する。
[実施の形態1]
図1は、本実施形態に係る韻律修正システム1の概略構成を示すブロック図である。すなわち、本実施形態に係る韻律修正システム1は、韻律抽出装置2、および、韻律修正装置3を備えている。
以下では、韻律修正装置3の詳細な構成について説明する前に、韻律抽出装置2の構成について簡単に説明する。
韻律抽出装置2は、発声入力部21、文字列入力部22、および、肉声韻律抽出部23を備えている。なお、上記の発声入力部21、文字列入力部22、および、肉声韻律抽出部23は、コンピュータのCPUがこの機能を実現するプログラムに従って動作することによっても具現化される。
発声入力部21は、人間の発声を受け付ける機能を有しており、例えば、マイクロフォンから構成される。本実施形態においては、発声入力部21は、人間の発声「雨が」を受け付けたものとする。発声入力部21は、受け付けた人間の発声を計算機で処理可能なデジタルの音声データに変換する。発声入力部21は、変換した音声データを肉声韻律抽出部23に出力する。なお、発声入力部21は、予め記録媒体に記録された人間の発声を再生することによって得られるアナログ音声の他、CD(Compact Disc)あるいはMD(Mini Disc)など記録媒体に記録されたデジタルの音声データや、有線あるいは無線の通信網で送信されるデジタルの音声データなどを直接受け付けても良い。また、発声入力部21は、受け付けた音声データが圧縮されている場合、圧縮されている音声データを解凍する機能を有していても良い。
文字列入力部22は、発声入力部21が受け付けた肉声の発声内容を表す文字列(テキスト)を受け付ける機能を有している。本実施形態においては、文字列入力部22は、「アメガ」のように、肉声の発声内容の読みが一意に決まる、例えば、平仮名やカタカナ、アルファベットなどによって表される文字列を受け付ける。文字列入力部22は、受け付けた文字列を、例えば、「AmEgA」のように、音素単位の表記の文字列データに変換する。文字列入力部22は、変換した文字列データを肉声韻律抽出部23および韻律修正装置3に出力する。なお、文字列入力部22は、「雨が」のように、発声内容の読みが一意に決まらない、例えば、かな漢字混じりの文字列を受け付け、受け付けた文字列を形態素解析し、形態素解析した結果から音素単位の表記の文字列データに変換するようにしても良い。
肉声韻律抽出部23は、文字列入力部22から出力された文字列データに基づいて、発声入力部21から出力された音声データから肉声韻律情報を抽出する。ここで、実際には、肉声韻律抽出部23は、発声入力部21から出力された音声データから、声の高さ、イントネーション、リズムなどの喋り方を決定する肉声韻律情報を抽出する。しかし、本実施形態においては、説明の便宜上、肉声韻律抽出部23は、リズムに関する肉声韻律情報のみを抽出するものとして説明する。なお、リズムは、各音素とこの音素長を順次並べたものをいう。すなわち、肉声韻律抽出部23は、肉声の音素毎に音素境界および音素長を設定することにより、音声データから肉声韻律情報を抽出する。なお、音素は、任意の個別言語において意味の区別に用いられる最小の音の単位をいう。ここで、音素毎に音素境界を設定する方法は、人間が音声波形を確認し、手動で設定する方法と、DPマッチングあるいはHMMなどの方法を用いて自動で設定する方法とがあるが、ここでは特に限定しない。
図2は、肉声韻律抽出部23により抽出された肉声韻律情報の一例を示す概念図である。図2に示す例では、音声データを音声波形Wとして表している。L1〜L6は、肉声の音素毎に設定された音素境界(以降、「肉声音素境界」と称する)である。すなわち、L1〜L2の区間が、音素「A」の肉声音素長V1を表している。また、L2〜L3の区間が、音素「m」の肉声音素長V2を表している。また、L3〜L4の区間が、音素「E」の肉声音素長V3を表している。また、L4〜L5の区間が、音素「g」の肉声音素長V4を表している。さらに、L5〜L6の区間が、音素「A」の肉声音素長V5を表している。つまり、発声入力部21から出力された音声データは、「雨が」を表す音声データである。なお、Vは、各々の肉声音素長V1〜V5の総和である肉声総音素長である。
ここで、似たような音やノイズの影響により、肉声音素境界L4が大きく誤って設定されているものとする。すなわち、肉声韻律抽出部23による韻律情報の抽出誤りが生じているものとする。なお、肉声音素境界L4は、実際の発声では肉声音素境界C4が正しいものとする。韻律情報の抽出誤りが生じているので、音素「E」の肉声音素長V3が、実際の発声の肉声音素長(L3〜C4の区間)と比較して、短くなる。また、音素「g」の肉声音素長V4が、実際の発声の肉声音素長(C4〜L5の区間)と比較して、長くなる。つまり、図2に示す肉声韻律情報を用いて合成音声を生成すると、音素「E」、「g」の部分でリズムが不自然な合成音声となる。
[韻律修正装置の構成]
韻律修正装置3は、肉声韻律入力部31、修正区間決定部32、話速検出部33、規則韻律生成部34、肉声韻律修正部35、および、肉声韻律出力部36を備えている。
肉声韻律入力部31は、肉声韻律抽出部23から出力された肉声韻律情報を受け付ける。肉声韻律入力部31は、受け付けた肉声韻律情報を、修正区間決定部32、話速検出部33、および、肉声韻律修正部35に出力する。
修正区間決定部32は、文字列入力部22から出力された文字列データ、または、肉声韻律入力部31から出力された肉声韻律情報に基づいて、人間の発声から抽出された肉声韻律情報中で、肉声韻律情報の抽出誤りが生じている可能性の高い区間を、肉声韻律情報の修正対象となる修正区間として決定する。一例として、文字列入力部22から出力された文字列データに基づいて修正区間を決定する場合、修正区間決定部32は、無音または無声音と有声音との境界から、次に出現する有声音と無音または無声音との境界までの区間を修正区間として決定する。このように、肉声韻律情報の抽出誤りが生じ難い有声/無声境界を修正区間の両端に設定することで、より精度の高い修正が可能となる。なお、修正区間決定部32が肉声韻律情報に基づいて修正区間を決定する場合、すなわち、肉声韻律情報から音素列を抽出し、抽出した音素列に基づいて修正区間を決定する場合、修正区間決定部32は、文字列入力部22から文字列データを受け付けなくとも良い。つまり、この場合、図1において、文字列入力部22から修正区間決定部32への矢印は不要となる。
本実施形態においては、修正区間決定部32は、文字列入力部22から出力された文字列データ「AmEgA」に基づいて、「A」、「m」、「E」、「g」、「A」の連続した5音素からなる区間を修正区間として決定したものとする。すなわち、本実施形態においては、修正区間決定部32は、決定した修正区間「AmEgA」を、話速検出部33、規則韻律生成部34、および、肉声韻律修正部35に出力する。
なお、上記では、修正区間決定部32が、入力された全音素を修正区間として決定した例について説明したが、例えば、「AmE」のように、「雨」を表す音素を修正区間として決定しても良く、任意である。すなわち、修正区間決定部32は、肉声韻律情報の抽出誤りが生じていると推測される任意の区間を任意の数だけ修正区間として決定することができる。例えば、修正区間決定部32は、肉声韻律情報の抽出誤りが発生し易い母音連続区間や、拗音を含む有声音が連続する区間などを修正区間として決定することが可能である。また、修正区間決定部32は、肉声韻律情報の抽出誤りが生じていないと推測される場合、修正区間を決定しなくとも良い。さらに、修正区間決定部32に、韻律修正システム1の管理者により決定された修正区間を受け付ける修正区間指定部を設け、この修正区間指定部が、韻律修正システム1の管理者により指定された修正区間を受け付けても良い。
話速検出部33は、肉声韻律入力部31から出力された肉声韻律情報の中で、修正区間決定部32から出力された修正区間における話速を検出する。このため、話速検出部33は、肉声総音素長算出部33a、拍数計数部33b、および、話速算出部33cを有している。
肉声総音素長算出部33aは、肉声韻律入力部31から出力された肉声韻律情報の中で、修正区間決定部32から出力された修正区間における肉声総音素長を算出する。本実施形態においては、修正区間は「AmEgA」であるので、肉声総音素長算出部33aは、各々の肉声音素長V1〜V5の総和である肉声総音素長Vを算出する。肉声総音素長算出部33aは、算出した肉声総音素長を話速算出部33cに出力する。
拍数計数部33bは、修正区間決定部32から出力された修正区間に含まれている総拍数を計数する。本実施形態においては、修正区間決定部32から出力された修正区間が「AmEgA」であるので、拍数計数部33bは、「あ」、「め」、「が」の3拍を総拍数として計数する。なお、拍とは、音韻論上、一定の時間的長さをもった音の分節単位をいう。拍数計数部33bは、計数した総拍数を話速算出部33cに出力する。
話速算出部33cは、肉声総音素長算出部33aから出力された修正区間内の肉声総音素長と、拍数計数部33bから出力された修正区間内の総拍数とに基づいて、話速を算出する。具体的には、話速算出部33cは、肉声総音素長を総拍数で除算した値の逆数をとることにより、1秒当たりに発声される拍数として、話速を算出する。本実施形態においては、話速算出部33cは、3/Vを話速として算出する。話速算出部33cは、算出した話速を話速情報として規則韻律生成部34に出力する。
規則韻律生成部34は、修正区間決定部32から出力された修正区間「AmEgA」を少なくとも含む区間に対して、話速検出部33から出力された修正区間の話速と同じまたはそれに近い話速に対応する、人間の発声における規則的または統計的な音素長を表すデータを用いることにより、音素間の境界および音素長を定める音素境界を設定し、修正区間の規則韻律情報を生成する。このため、規則韻律生成部34は、話速に関連付けられており、人間の発声における規則的あるいは統計的な音素長を表すデータが記録された音素長テーブル34aを有している。例えば、音素長テーブル34aには、音素「A」の平均的な音素長を表すデータ、音素「I」の平均的な音素長を表すデータ、音素「U」の平均的な音素長を表すデータ、・・・が順に格納されている。また、これらのデータは、話速に関連付けられたデータであり、音素長テーブル34aには、複数の話速に応じて、それぞれの話速に関連付けられたデータが記録されている。なお、規則韻律生成部34は、音素長テーブル34aを有する代わりに、話速に応じた音素長を表すデータを生成する機能を有していても良い。また、音素長を表すデータは、一人の人間が発声した肉声を分析して得られたデータでも、複数の人間が発声した肉声を分析して得られたデータであっても良い。すなわち、規則韻律情報は、統計的には妥当な韻律情報であるが、平均的なデータとなるため、肉声韻律情報と比較すると、表現力にやや乏しい(リズムの変化が少ない)韻律情報である。
図3は、規則韻律生成部34により生成された規則韻律情報の一例を示す概念図である。B1〜B6は、修正区間の音素毎に設定された音素境界(以降、「規則音素境界」と称する)である。すなわち、B1〜B2の区間が、音素「A」の規則音素長R1を表している。また、B2〜B3の区間が、音素「m」の規則音素長R2を表している。また、B3〜B4の区間が、音素「E」の規則音素長R3を表している。また、B4〜B5の区間が、音素「g」の規則音素長R4を表している。さらに、B5〜B6の区間が、音素「A」の規則音素長R5を表している。なお、Rは、各規則音素長R1〜R5の総和である規則総音素長である。
ここで、本実施形態においては、音素「A」の規則音素長R1が“120”msec、音素「m」の規則音素長R2が“70”msec、音素「E」の規則音素長R3が“150”msec、音素「g」の規則音素長R4が“60”msec、音素「A」の規則音素長R5が“140”msecであるものとする。規則韻律生成部34は、生成した規則韻律情報を肉声韻律修正部35に出力する。
肉声韻律修正部35は、規則韻律生成部34から出力された規則韻律情報を用いて、修正区間における肉声韻律情報の肉声音素境界が、実際の肉声音素境界に近づくように、肉声韻律情報の肉声音素境界を再設定し、肉声韻律情報を修正する。このため、肉声韻律修正部35は、規則音素長比算出部35a、および、音素境界再設定部35bを有している。
規則音素長比算出部35aは、規則韻律生成部34から出力された規則韻律情報における各々の規則音素長の比を算出する。本実施形態においては、規則音素長比算出部35aは、まず、音素「A」の規則音素長R1“120”msecを基準の規則音素長比“1”とする。この場合、音素「m」の規則音素長比はR2/R1、音素「E」の規則音素長比はR3/R1、音素「g」の規則音素長比はR4/R1、音素「A」の規則音素長比はR5/R1で表される。すなわち、規則音素長比算出部35aは、音素「A」の規則音素長比“1”、音素「m」の規則音素長比“0.58”、音素「E」の規則音素長比“1.25”、音素「g」の規則音素長比“0.5”、音素「A」の規則音素長比“1.17”を算出する。なお、本実施形態においては、各々の規則音素長比を小数点2桁にて表している。これにより、規則韻律情報における各々の規則音素長の比は、“1:0.58:1.25:0.5:1.17”となる。規則音素長比算出部35aは、算出した各々の規則音素長の比を音素境界再設定部35bに出力する。
音素境界再設定部35bは、修正区間における各々の肉声音素長の総和を、修正区間における各々の規則音素長の比となるように、肉声韻律情報の肉声音素境界を再設定し、肉声韻律情報を修正する。本実施形態においては、修正区間は、「A」、「m」、「E」、「g」、「A」の5音素であるので、音素境界再設定部35bは、肉声総音素長Vを、各々の規則音素長の比“1:0.58:1.25:0.5:1.17”に従って分割することにより、肉声音素境界L2〜L5を再設定し、肉声韻律情報を修正する。なお、各々の音素について、規則音素長の比で分割された修正後の音素長と、肉声韻律入力部31から出力された修正前の音素長とを、任意の重みを付けて平均をとることで、最終的な音素長を得るようにしても良い。このようにすることで、より安定性を重視したい場合には、修正後の音素長の重みを大きくし、より実際の発声のリズムを重視したい場合には、修正前の音素長の重みを大きくすることで、所望の修正結果を得ることができる。
図4は、音素境界再設定部35bにより修正された肉声韻律情報の一例を示す概念図である。mL2〜mL5は、再設定された肉声音素境界である。すなわち、L1〜mL2の区間が、修正された音素「A」の肉声音素長mV1を表している。また、mL2〜mL3の区間が、修正された音素「m」の肉声音素長mV2を表している。また、mL3〜mL4の区間が、修正された音素「E」の肉声音素長mV3を表している。また、mL4〜mL5の区間が、修正された音素「g」の肉声音素長mV4を表している。さらに、mL5〜L6の区間が、修正された音素「A」の肉声音素長mV5を表している。すなわち、図4に示す肉声音素境界mL4は、図2に示す肉声音素境界L4と比較して、実際の肉声音素境界C4に近づいている。つまり、修正された肉声韻律情報は、大局的には、修正区間における各々の肉声音素長の総和を基準としつつ、局所的には、規則的または統計的に妥当な規則韻律情報を適用しているからである。音素境界再設定部35bは、修正した肉声韻律情報を肉声韻律出力部36に出力する。
肉声韻律出力部36は、音素境界再設定部35bから出力された肉声韻律情報を、肉声韻律修正装置3の外部に出力する。肉声韻律出力部36から出力された肉声韻律情報は、例えば、音声合成装置により合成音声を生成して出力するために用いられる。肉声韻律出力部36から出力された肉声韻律情報は、肉声韻律情報の抽出誤りが修正されているので、肉声韻律修正部36から出力された肉声韻律情報を用いて合成音声を生成すると、人間並みに自然で、表現力豊かな合成音声を生成することができる。なお、肉声韻律出力部36から出力された肉声韻律情報は、音声合成装置により合成音声を生成するために用いることに代えてまたは加えて、韻律辞書生成装置により音声合成用の韻律辞書を生成するために用いても良い。また、波形辞書生成装置により音声合成用の波形辞書を生成するために用いても良い。さらに、音響モデル生成装置により音声認識用の音響モデルを生成するために用いても良い。すなわち、肉声韻律出力部46から出力された肉声韻律情報は、どのように用いても良く、特に限定されない。
ところで、上記の韻律修正装置3は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記の肉声韻律入力部31、修正区間決定部32、話速検出部33、規則韻律生成部34、肉声韻律修正部35、および、肉声韻律出力部36は、コンピュータのCPUがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、肉声韻律入力部31、修正区間決定部32、話速検出部33、規則韻律生成部34、肉声韻律修正部35、および、肉声韻律出力部36の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。
以上、韻律修正システム1の構成について説明したが、韻律修正システム1の構成は、図1に示す構成に限定されない。例えば、韻律修正装置3における話速検出部33および肉声韻律修正部35の代わりに、話速比検出部37および肉声韻律修正部38を備えた韻律修正システム1aであっても良い(図5参照)。また、韻律抽出装置2における文字列入力部22の代わりに、音声認識部24を備えた韻律修正システム1bであっても良い(図6参照)。
図5は、図1に示す話速検出部33および肉声韻律修正部35の代わりに、話速比検出部37および肉声韻律修正部38を韻律修正装置3に備えた場合の韻律修正システム1aの概略構成を示すブロック図である。図5において、図1と同様の機能を有する構成については、同じ参照符号を付記している。ここで、話速比検出部37は、肉声総音素長算出部37a、規則総音素長算出部37b、および、話速比算出部37cを有している。なお、図5に示す韻律修正装置3は、図1に示す話速検出部33を備えていないので、規則韻律生成部34には話速情報が入力されない。このため、図5に示す規則韻律生成部34は、任意の話速に対応した規則韻律情報を生成すればよいが、最も好ましいのは、様々な状況における人間の発声の平均的な話速の音素長データを用いて、規則韻律情報を生成することである。
肉声総音素長算出部37aは、修正区間における肉声韻律情報の各々の肉声音素長の総和を算出する。ここでは、肉声総音素長算出部37aは、各々の肉声音素長V1〜V5の総和である肉声総音素長Vを算出する(図2参照)。規則総音素長算出部37bは、修正区間における規則韻律情報の各々の規則音素長の総和を算出する。ここでは、規則総音素長算出部37bは、各々の規則音素長R1〜R5の総和である規則総音素長Rを算出する(図3参照)。話速比算出部37cは、規則総音素長算出部37bにより算出された規則音素長の総和に対する肉声総音素長算出部37aにより算出された肉声音素長の総和の比の逆数を話速比として算出する。ここでは、話速比算出部37cは、話速比H=R/Vを算出する。
また、肉声韻律修正部38は、音素境界再設定部38aを有している。音素境界再設定部38aは、修正区間における各々の規則音素長R1〜R5に、話速比算出部37cにより算出された話速比Hの逆数1/Hを乗じることで得られる各々の音素長R1/H、R2/H、・・・R5/Hが、修正区間における各々の肉声音素長となるように、肉声音素境界L2〜L6を再設定し、肉声韻律情報を修正する。すなわち、音素境界再設定部38aにより修正された肉声韻律情報は、図1に示す音素境界再設定部35bにより修正された肉声韻律情報と同様、図4に示すようになる。つまり、話速比検出部37と肉声韻律修正部38による肉声韻律情報の修正方法は、肉声韻律修正部35による肉声韻律情報の修正方法と異なっているが、得られる修正結果は同じである。
なお、図5に示す韻律修正システム1aにおいて、修正区間決定部32と規則韻律生成部34との間に、図1に示す話速検出部33を設けることにより、規則韻律生成部34が、肉声韻律情報の話速と同じまたはそれに近い話速に対応する規則韻律情報を生成し、生成した規則韻律情報を話速比検出部37に出力するようにしても良い。
また、図6は、韻律抽出装置2に音声認識部24を備えた場合の韻律修正システム1bの概略構成を示すブロック図である。図6において、図1と同様の機能を有する構成については、同じ参照符号を付記している。ここで、音声認識部24は、発声内容を認識する機能を有している。このため、音声認識部24は、まず、発声入力部21から出力された音声データを特徴量に変換する。音声認識部24は、変換した特徴量を用いて、音響モデル、言語モデル(共に図示せず)の情報を参照しながら、入力された肉声の発声内容を表すのに最も確率的に高い語彙や文字並びを認識結果として出力する。音声認識部24は、認識結果を、肉声韻律抽出部23および韻律修正装置3に出力する。
すなわち、この韻律修正システム1bによれば、図1に示す韻律修正システム1のように、肉声の発声内容を表す文字列「雨が」を受け付ける文字列入力部22を備えていなくとも、音声認識部24が発声内容を認識することにより、「雨が」を表す認識結果を、肉声韻律抽出部23および韻律修正装置3に出力することができる。
[韻律修正装置の動作]
次に、上記の構成に係る韻律修正装置3の動作について、図7を参照しながら説明する。
図7は、韻律修正装置3の動作の一例を示すフローチャートである。すなわち、図7に示すように、肉声韻律入力部31は、肉声韻律抽出部23から出力された肉声韻律情報を受け付ける(工程Op1)。
次に、修正区間決定部32は、文字列入力部22から出力された文字列データ、または、工程Op1にて受け付けた肉声韻律情報に基づいて、人間の発声から抽出された肉声韻律情報中で、韻律情報の抽出誤りが生じている可能性の高い区間を、肉声韻律情報の修正対象となる修正区間として決定する(工程Op2)。話速検出部33は、工程Op1にて受け付けた肉声韻律情報の中で、工程Op2にて決定された修正区間における話速を算出する(工程Op3)。
そして、規則韻律生成部34は、工程Op2にて決定された修正区間に対して、工程Op3にて算出された話速と同じまたはそれに近い話速に対応する、人間の肉声における規則的または統計的な音素長を表すデータを用いることにより、音素間の境界を定める規則音素境界を設定し、規則韻律情報を生成する(工程Op4)。
そして、規則音素長比算出部35aは、工程Op4にて生成された規則韻律情報における各々の規則音素長の比を算出する(工程Op5)。音素境界再設定部35bは、修正区間における各々の肉声音素長の総和を、工程Op5にて算出された各々の規則音素長の比となるように、肉声韻律情報の肉声音素境界を再設定し、肉声韻律情報を修正する(工程Op6)。肉声韻律出力部36は、工程Op6にて修正された肉声韻律情報を、肉声韻律修正装置3の外部に出力する(工程Op7)。
以上のように、本実施形態に係る韻律修正装置3によれば、音素境界再設定部35bは、修正対象となる音素または音素列の区間において、規則韻律情報の各々の音素の規則音素長、および、肉声韻律情報の話速と規則韻律情報の話速との比である話速比に基づいて、肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、肉声韻律情報を修正する。すなわち、修正された肉声韻律情報は、大局的には、修正区間における各々の肉声音素長の総和を基準としつつ、局所的には、統計的に妥当な規則音素長の比によって肉声音素境界が再設定された韻律情報となる。この結果、人間の発声から抽出された肉声韻律情報の抽出誤りを、人間の肉声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することができる。
以下、図8(a)〜(c)を参照しながら、具体的な例を用いて、本実施形態に係る韻律修正装置3の動作を説明する。図8(a)は、図2に示す肉声韻律情報の各々の音素と各々の音素の肉声音素長比との関係をグラフで示した説明図である。すなわち、図8(a)に示す○印は、肉声韻律抽出部23により抽出された肉声韻律情報における音素「A」、「m」、「E」、「g」、「A」の、先頭の音素「A」に対する肉声音素長比を表している。すなわち、音素「A」の肉声音素長V1を基準の肉声音素長比“1”とし、音素「m」の肉声音素長比はV2/V1、音素「E」の肉声音素長比はV3/V1、音素「g」の肉声音素長比はV4/V1、音素「A」の肉声音素長比はV5/V1で表されている。ここで、図8(a)に示す◇印は、図2に示す肉声音素境界L4が実際の肉声音素境界C4であった場合における、音素「E」および音素「g」の肉声音素長比を表している。
図8(b)は、図3に示す規則韻律情報の各々の音素と各々の音素の規則音素長比との関係をグラフで示した説明図である。すなわち、図8(b)に示す△印は、規則韻律生成部34により生成された規則韻律情報における音素「A」、「m」、「E」、「g」、「A」の、先頭の音素「A」に対する規則音素長比を表している。なお、各々の音素の規則音素長比は、上記より、“1:0.58:1.25:0.5:1.17”となる。
図8(c)は、図4に示す肉声韻律情報の各々の音素と各々の音素の肉声音素長比との関係をグラフで示した説明図である。すなわち、図8(c)に示す△印は、音素境界再設定部35bにより修正された肉声韻律情報における音素「A」、「m」、「E」、「g」、「A」の肉声音素長比を表している。図8(c)に示すように、音素「E」および音素「g」の肉声音素長比は、図8(c)の◇印で表される実際の音素「E」および音素「g」の肉声音素長比に近づいている。つまり、大局的には、修正区間における各々の肉声音素長の総和を基準としつつ、局所的には、統計的に妥当な規則韻律情報を適用しているからである。
[実施の形態2]
図9は、本実施形態に係る韻律修正システム10の概略構成を示すブロック図である。すなわち、本実施形態に係る韻律修正システム10は、図1に示す韻律修正装置3の代わりに、韻律修正装置4を備えている。なお、図9において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。
[韻律修正装置の構成]
韻律修正装置4は、図1に示す話速検出部33および肉声韻律修正部35の代わりに、話速比検出部41および肉声韻律修正部42を備えている。なお、上記の話速比検出部41および肉声韻律修正部42は、コンピュータのCPUがこの機能を実現するプログラムに従って動作することによっても具現化される。
話速比検出部41は、話速算出範囲設定部41a、拍数計数部41b、肉声総音素長算出部41c、肉声話速算出部41d、規則総音素長算出部41e、規則話速算出部41f、および、話速比算出部41gを有している。
話速算出範囲設定部41aは、修正区間決定部32から出力された修正区間内の各音素毎に、修正対象となる音素を含む少なくとも1音素または1拍以上からなる話速算出範囲を設定する。本実施形態においては、話速算出範囲設定部41aは、修正区間内の各音素「A」、「m」、「E」、「g」、「A」毎に、話速算出範囲K[1]、K[2]、K[3]、K[4]、K[5]を設定する。ここでは、話速算出範囲設定部41aは、修正区間内の全ての音素について、修正対象となる音素の両隣の1拍を含む3拍を話速算出範囲として設定するものとする。具体的には、修正区間「AmEgA」の2番目の音素「m」が修正対象となる音素であった場合、話速算出範囲設定部41aは、「A」、「m」、「E」、「g」、「A」の5音素3拍からなる話速算出範囲K[2]を設定する。話速算出範囲設定部41aは、設定された話速算出範囲K[n](nは1以上の整数)を、拍数計数部41b、肉声総音素長算出部41c、および、規則総音素長算出部41eに出力する。
なお、話速算出範囲設定部41aは、例えば、肉声韻律情報の抽出誤りが生じ易い有声母音が連続する区間の音素に対しては、話速算出範囲を広く設定し、肉声韻律情報の抽出誤りが少ない有声音と無声音との境界を多く持つ区間の音素に対しては、話速算出範囲を狭く設定するなど、音素の環境に応じて動的に変更することが好ましい。これにより、肉声韻律情報の抽出誤りが生じ難い箇所については肉声を重視した話速を算出することが可能となり、かつ、肉声韻律情報の抽出誤りが生じ易い箇所についてはより安定した話速を算出することが可能となる。それゆえ、全体として、肉声のリズムに近づきつつ、かつ、安定した話速を算出することが可能となる。
拍数計数部41bは、話速算出範囲設定部41aから出力された話速算出範囲内の総拍数を計数する。本実施形態においては、話速算出範囲が、修正対象となる音素の両隣の1拍を含む3拍と設定されているので、拍数計数部41bは、3拍を計数する。拍数計数部41bは、計数した総拍数を肉声話速算出部41dおよび規則話速算出部41fに出力する。
肉声総音素長算出部41cは、肉声韻律入力部31から出力された肉声韻律情報の中で、話速算出範囲設定部41aから出力された話速算出範囲における肉声総音素長を算出する。本実施形態においては、肉声総音素長算出部41cは、話速算出範囲K[1]、K[2]、K[3]、K[4]、K[5]毎に、肉声総音素長V[1]、V[2]、V[3]、V[4]、V[5]を算出する。例えば、話速算出範囲がK[2]の場合、肉声総音素長算出部41cは、各々の肉声音素長V1〜V5の総和である肉声総音素長VをV[2]として算出する(図2参照)。肉声総音素長算出部41cは、算出した肉声総音素長V[n]を肉声話速算出部41dに出力する。
肉声話速算出部41dは、肉声韻律情報における修正区間内の修正対象となる音素に対する話速SVを、1秒間に発声されるモーラ数として算出する。具体的には、肉声総音素長算出部41cから出力された肉声総音素長を、拍数計数部41bから出力された総拍数で除算した値の逆数をとることにより、肉声韻律情報の話速SVを算出する。本実施形態においては、肉声話速算出部41dは、肉声総音素長V[1]、V[2]、V[3]、V[4]、V[5]毎に、話速SV[1] 、SV[2]、SV[3]、SV[4]、SV[5]を算出する。例えば、肉声総音素長がV[2]の場合、肉声話速算出部41dは、話速SV[2]を3/V[2]として算出する。肉声話速算出部41dは、算出した話速SV[n]を話速比算出部41gに出力する。
規則総音素長算出部41eは、規則韻律生成部34から出力された規則韻律情報の中で、話速算出範囲設定部41aから出力された話速算出範囲における規則総音素長を算出する。本実施形態においては、規則総音素長算出部41eは、話速算出範囲K[1]、K[2]、K[3]、K[4]、K[5]毎に、規則総音素長R[1]、R[2]、R[3]、R[4]、R[5]を算出する。例えば、話速算出範囲がK[2]の場合、規則総音素長算出部41eは、各々の規則音素長R1〜R5の総和である規則総音素長RをR[2]として算出する(図3参照)。規則総音素長算出部41eは、算出した規則総音素長R[n]を規則話速算出部41fに出力する。
規則話速算出部41fは、規則韻律情報における修正区間内の修正対象となる音素に対する話速SRを、1秒間に発声されるモーラ数として算出する。具体的には、規則総音素長算出部41eから出力された規則総音素長を、拍数計数部41bから出力された総拍数で除算した値の逆数をとることにより、規則韻律情報の話速SRを算出する。本実施形態においては、規則話速算出部41fは、規則総音素長R[1]、R[2]、R[3]、R[4]、R[5]毎に、話速SR[1] 、SR[2]、SR[3]、SR[4]、SR[5]を算出する。例えば、規則総音素長がR[2]の場合、規則話速算出部41fは、話速SR[2]を3/R[2]として算出する。規則話速算出部41fは、算出した話速SR[n]を話速比算出部41gに出力する。
話速比算出部41gは、規則話速算出部41fから出力された話速SR[n]と、肉声話速算出部41dから出力された話速SV[n]との比を話速比H´[n]として算出する。具体的には、話速比算出部41gは、話速SR[n]に対する話速SV[n]の比を話速比H´[n]として算出する。すなわち、話速比H´[n]は、SV[n]/SR[n]となる。本実施形態においては、話速比算出部41gは、話速比H´[1]=SV[1]/SR[1]、話速比H´[2]=SV[2]/SR[2]、話速比H´[3]=SV[3]/SR[3]、話速比H´[4]=SV[4]/SR[4]、話速比H´[5]=SV[5]/SR[5]を算出する。話速比算出部41gは、算出した話速比H´[n]を肉声韻律修正部42に出力する。
肉声韻律修正部42は、音素境界再設定部42aを有している。音素境界再設定部42aは、修正区間における各々の規則音素長に、話速比検出部41から出力された話速比H´[n]の逆数を乗じることで得られる各々の音素長が、修正区間における各々の肉声音素長となるように、肉声韻律情報の肉声音素境界を再設定し、肉声韻律情報を修正する。本実施形態においては、音素境界再設定部42aは、まず、図3に示す各々の規則音素長R1〜R5に、話速比検出部41から出力された話速比H´[1]〜H´[5]を乗じる。すなわち、音素「A」の音素長R1/H´[1]、音素「m」の音素長R2/H´[2]、音素「E」の音素長R3/H´[3]、音素「g」の音素長R4/H´[4]、および、音素「A」の音素長R5/H´[5]となる。音素境界再設定部42aは、修正区間における各々の肉声音素長V1〜V5が、上記にて算出した音素長R1/H´[1]〜R5/H´[5]となるように、肉声音素境界L2〜L6を再設定し、肉声韻律情報を修正する。これにより、肉声韻律抽出部23により生じた韻律情報の抽出誤りが修正される。すなわち、統計的に妥当な規則韻律情報に、肉声のリズムに近づけるための話速比H´を適用しているため、局所的な韻律の乱れを修正しつつ全体としては肉声のリズムに近い韻律へ修正されるからである。音素境界再設定部42aは、修正した肉声韻律情報を肉声韻律出力部36に出力する。
なお、音素境界再設定部42aは、各々の音素について、話速比H´で修正された音素長Rn/H´[n]と、肉声韻律入力部31から出力された修正前の音素長とを、任意の重みを付けて平均をとることで、最終的な音素長を得るようにしても良い。このようにすることで、より安定性を重視したい場合には、修正後の音素長の重みを大きくし、より実際の発声のリズムを重視したい場合には、修正前の音素長の重みを大きくすることで、所望の修正結果を得ることができる。
[韻律修正装置の動作]
次に、上記の構成に係る韻律修正装置4の動作について、図10を参照しながら説明する。なお、図10において、図7と同様の処理を示す部分については、同じ参照符号を付記し、その詳細な説明を省略する。
図10は、韻律修正装置4の動作の一例を示すフローチャートである。図10に示す動作において、工程Op1および工程Op2は、図7に示す工程Op1および工程Op2の動作と同様である。また、図10に示す工程Op3は、図7に示す工程Op4の動作とほぼ同様であるが、図10に示す工程Op3では、図7に示す工程Op4とは異なり、規則韻律生成部34には話速情報が入力されない。このため、図10に示す工程Op3において、規則韻律生成部34は、任意の話速に対応した規則韻律情報を生成する。
工程Op3の後、話速算出範囲設定部41aは、工程Op2にて決定された修正区間内の各音素毎に、修正対象となる音素を含む少なくとも1音素または1拍以上からなる話速算出範囲を設定する(工程Op11)。拍数計数部41bは、工程Op11にて設定された話速算出範囲に含まれている総拍数を計数する(工程Op12)。
次に、肉声総音素長算出部41cは、肉声韻律入力部31から出力された肉声韻律情報の中で、工程Op11にて設定された話速算出範囲における肉声総音素長を算出する(工程Op13)。肉声話速算出部41dは、工程Op13にて算出された肉声総音素長を、工程Op12にて計数された総拍数で除算した値の逆数をとることにより、肉声韻律情報の話速SVを算出する(工程Op14)。
そして、規則総音素長算出部41eは、工程Op3にて生成された規則韻律情報の中で、工程Op11にて設定された話速算出範囲における規則総音素長を算出する(工程Op15)。規則話速算出部41fは、工程Op15にて算出された規則総音素長を、工程Op12にて計数された総拍数で除算した値の逆数をとることにより、規則韻律情報の話速SRを算出する(工程Op16)。
そして、話速比算出部41gは、工程Op16にて算出された話速SRに対する、工程Op14にて算出された話速SVの比を話速比H´として算出する(工程Op17)。音素境界再設定部42aは、修正区間における各々の規則音素長に、工程Op17にて算出された話速比H´の逆数を乗じることで得られる各々の音素長が、修正区間における各々の肉声音素長となるように、肉声韻律情報の肉声音素境界を再設定し、肉声韻律情報を修正する(工程Op18)。
そして、音素境界再設定部42aが、修正区間内の肉声韻律情報における全ての音素の修正を終了していれば(工程Op19にてYES)、肉声韻律出力部36は、工程Op18にて修正された肉声韻律情報を、韻律修正装置4の外部に出力する(工程Op20)。一方、音素境界再設定部42aが、修正区間内の肉声韻律情報における全ての音素の修正を終了していなければ(工程Op19にてNO)、工程Op11に戻り、修正区間内の肉声韻律情報における未修正の音素に対して、再度、工程Op11〜工程Op18の処理を繰り返す。
以上のように、本実施形態に係る韻律修正装置4によれば、肉声話速算出部41dは、前記話速算出範囲において、各々の音素の肉声音素長の総和、および、この話速算出範囲内の音素数または拍数に基づいて、修正対象となる各々の音素に対する肉声韻律情報の話速を算出する。また、規則話速算出部41fは、前記話速算出範囲において、各々の音素の規則音素長の総和、および、この話速算出範囲内の音素数または拍数に基づいて、修正対象となる各々の音素に対する規則韻律情報の話速を算出する。さらに、話速比算出部41gは、肉声韻律情報の話速と規則韻律情報の話速との比を話速比として算出する。音素境界再設定部42aは、前記区間において、各々の音素の規則音素長と、算出された話速比とに基づいて修正音素長を算出し、この修正音素長が前記区間における各々の肉声音素長となるように、肉声韻律情報の肉声音素境界を再設定し、肉声韻律情報を修正する。すなわち、修正された肉声韻律情報は、局所的には妥当な規則音素長に、前記話速比を適用しているため、大局的には肉声の発声に近づいた韻律情報となる。つまり、修正された肉声韻律情報は、人間の肉声のリズムによる変化傾向が再現された韻律情報となる。この結果、人間の発声から抽出された肉声韻律情報の抽出誤りを、人間の肉声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することができる。
[実施の形態3]
図11は、本実施形態に係る韻律修正システム11の概略構成を示すブロック図である。すなわち、本実施形態に係る韻律修正システム11は、図1に示す韻律修正装置3の代わりに、韻律修正装置5を備えている。なお、図11において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。
本実施形態においては、説明の便宜上、実施の形態1および実施の形態2とは異なり、肉声韻律抽出部23が、「四万十川(しまんとがわ)」を表す肉声韻律情報を抽出したものとする。図12は、肉声韻律抽出部23により抽出された肉声韻律情報の音素「sH」、「I」、「m」、「A」、「N」、「t」、「O」、「g」、「A」、「w」、「A」と、各々の音素の肉声音素長との関係をグラフで示した説明図である。図12に示す例では、音素「m」と音素「A」との間の境界を定める肉声音素境界が大きく誤って設定されているものとする。このため、図12に示す例では、音素「m」の肉声音素長が実際の肉声音素長よりも長く、音素「A」の肉声音素長が実際の肉声音素長よりも短くなる。つまり、図12に示す肉声韻律情報を用いて合成音声を生成すると、音素「m」および音素「A」の箇所において、韻律が不自然な合成音声となる。
また、本実施形態においては、説明の便宜上、実施の形態1および実施の形態2とは異なり、文字列入力部22が、「シマントガワ」を表す文字列を受け付け、受け付けた文字列「シマントガワ」を、文字列データ「sHImANtOgAwA」に変換し、変換した文字列データ「sHImANtOgAwA」を出力したものとする。さらに、本実施形態においては、修正区間決定部32が、文字列入力部22から出力された文字列データ「sHImANtOgAwA」に基づいて、「sH」、「I」、「m」、「A」、「N」、「t」、「O」、「g」、「A」、「w」、「A」の11音素からなる修正区間を決定したものとする。このため、本実施形態においては、規則韻律生成部32は、「四万十川」を表す規則韻律情報を生成する。図13は、規則韻律生成部32により生成された規則韻律情報の音素「sH」、「I」、「m」、「A」、「N」、「t」、「O」、「g」、「A」、「w」、「A」と、各々の音素の規則音素長との関係をグラフで示した説明図である。つまり、図13に示す規則韻律情報は、統計的には妥当な韻律情報であるが、図12に示す肉声韻律情報と比較すると、表現力にやや乏しい(リズムの変化が少ない)韻律情報である。
[韻律修正装置の構成]
韻律修正装置5は、図1に示す話速検出部33および肉声韻律修正部35の代わりに、話速比検出部51および肉声韻律修正部52を備えている。なお、上記の話速比検出部51および肉声韻律修正部52は、コンピュータのCPUがこの機能を実現するプログラムに従って動作することによっても具現化される。
話速比検出部51は、音素長比算出部51a、平滑化範囲設定部51b、および、話速比算出部51cを有している。
音素長比算出部51aは、修正区間における、各音素の規則音素長に対する各音素の肉声音素長の比を音素長比として各々算出する。本実施形態においては、音素長比算出部51aは、まず、音素「sH」の規則音素長に対する肉声音素長の比を音素長比として算出する。そして、音素長比算出部51aは、これを残りの音素「I」、「m」、「A」、「N」、「t」、「O」、「g」、「A」、「w」、「A」について繰り返す。これにより、音素長比算出部51aは、各音素の音素長比を算出する。図14は、音素「sH」、「I」、「m」、「A」、「N」、「t」、「O」、「g」、「A」、「w」、「A」と、各々の音素の音素長比との関係をグラフで示した説明図である。音素長比算出部51aは、算出した各々の音素長比を、平滑化範囲設定部51bおよび話速比算出部51cに出力する。
平滑化範囲設定部51bは、音素長比算出部51aにより算出された各々の音素長比を平滑化して話速比を算出する平滑化範囲を設定する。本実施形態においては、平滑化範囲設定部51bは、任意の音素を中心に含む周囲の5音素を平滑化範囲として設定するものとする。平滑化範囲設定部51bは、設定した平滑化範囲を話速比算出部51cに出力する。
なお、平滑化範囲設定部51bは、例えば、肉声韻律情報の抽出誤りが生じ易い有声母音が連続する区間の音素に対しては、平滑化範囲を広く設定し、肉声韻律情報の抽出誤りが少ない有声音と無声音との境界を多く持つ区間の音素に対しては、平滑化範囲を狭く設定するなど、音素の環境に応じて動的に変更することが好ましい。これにより、肉声韻律情報の抽出誤りが生じ難い箇所については肉声を重視した話速を算出することが可能となり、かつ、肉声韻律情報の抽出誤りが生じ易い箇所についてはより安定した話速を算出することが可能となる。それゆえ、全体として、肉声のリズムに近づきつつ、かつ、安定した話速を算出することが可能となる。
また、平滑化範囲設定部51bに、音素長比の変化を検出する変化検出部を設けても良い。ここで、変化検出部は、音素長比算出部51aにより算出された各々の音素長比の中から、音素長比が急激に大きくあるいは小さくなっている箇所を検出する。これにより、平滑化範囲設定部51bは、音素長比に急激な変化が生じている音素に対して、平滑化範囲を広く設定することが可能となる。この場合、平滑化範囲設定部51bは、例えば、検出した音素長比の微分値を算出し、算出した微分値に比例する値を平滑化範囲として設定することも可能である。
話速比算出部51cは、修正区間内の各々の音素の音素長比に対して、平滑化範囲設定部51bにより設定された平滑化範囲における各々の音素長比を平滑化し、その結果を話速比として算出する。本実施形態においては、話速比算出部51cは、平滑化範囲内の各々の音素の音素長比の平均値を算出することにより、話速比を算出する。なお、話速比算出部51cは、平滑化範囲内の各々の音素の音素長比を重み付けることにより、平滑化範囲内の各々の音素の音素長比の平均値を算出しても良い。例えば、話速比算出部51cは、肉声韻律情報の抽出誤りが生じ易い音素の音素長比の重みを小さくし、肉声韻律情報の抽出誤りが生じ難い音素の音素長比の重みを大きくし、平滑化範囲内の各々の音素の音素長比の平均値を算出する。図15は、音素「sH」、「I」、「m」、「A」、「N」、「t」、「O」、「g」、「A」、「w」、「A」と、平滑化により得られた各音素の話速比との関係をグラフで示した説明図である(但し、図15に示すグラフは、話速比の逆数を示している)。話速比算出部51cは、平滑化により得られた話速比を肉声韻律修正部52に出力する。
肉声韻律修正部52は、音素境界再設定部52aを有している。音素境界再設定部52aは、修正区間における各々の規則音素長に、話速比算出部51cから出力された各々の音素の話速比の逆数を乗じることで得られる各々の音素の音素長が、修正区間における各々の音素の肉声音素長となるように、肉声韻律情報の肉声音素境界を再設定し、肉声韻律情報を修正する。本実施形態においては、音素境界再設定部52aは、まず、図13に示す各々の音素の規則音素長に、図15に示す各々の音素の話速比の逆数を乗じる。これにより、新たに各々の音素の修正音素長が算出される。音素境界再設定部52aは、図12に示す各々の音素の肉声音素長が、新たに算出された各々の音素の修正音素長となるように、肉声音素境界を再設定し、肉声韻律情報を修正する。図16は、音素「sH」、「I」、「m」、「A」、「N」、「t」、「O」、「g」、「A」、「w」、「A」と、修正された各々の音素の肉声音素長との関係をグラフで示した説明図である。すなわち、図16に示す肉声韻律情報は、図12に示す韻律情報の抽出誤りが修正されている。つまり、統計的に妥当な規則韻律情報に、平滑化された話速比を適用しているからである。音素境界再設定部52aは、修正した肉声韻律情報を肉声韻律出力部36に出力する。
[韻律修正装置の動作]
次に、上記の構成に係る韻律修正装置5の動作について、図17を参照しながら説明する。なお、図17において、図7と同様の処理を示す部分については、同じ参照符号を付記し、その詳細な説明を省略する。
図17は、韻律修正装置5の動作の一例を示すフローチャートである。図17に示す動作において、工程Op1および工程Op2は、図7に示す工程Op1および工程Op2の動作と同様である。また、図17に示す工程Op3は、図7に示す工程Op4の動作とほぼ同様であるが、図17に示す工程Op3では、図7に示す工程Op4とは異なり、規則韻律生成部34には話速情報が入力されない。このため、図17に示す工程Op3において、規則韻律生成部34は、任意の話速に対応した規則韻律情報を生成する。
工程Op3の後、音素長比算出部51aは、修正区間における各々の音素の規則音素長に対する修正区間における各々の音素の肉声音素長の比を音素長比として各々算出する(工程Op21)。平滑化範囲設定部51bは、工程Op21にて算出された各々の音素の音素長比を平滑化して話速比を算出する平滑化範囲を設定する(工程Op22)。
次に、話速比算出部51cは、修正区間内の各々の音素の音素長比に対して、工程Op22にて設定された平滑化範囲における各々の音素の音素長比を平滑化し、その結果を話速比として算出する(工程Op23)。音素境界再設定部52aは、修正区間における各々の規則音素長に、工程Op23にて算出された各々の音素の話速比の逆数を乗じることで得られる各々の音素の修正音素長が、修正区間における各々の音素の肉声音素長となるように、肉声韻律情報の肉声音素境界を再設定し、肉声韻律情報を修正する(工程Op24)。肉声韻律出力部36は、工程Op24にて修正された肉声韻律情報を、肉声韻律修正装置5の外部に出力する(工程Op25)。なお、図17において、修正区間内の音素毎に、工程Op22〜工程Op24の処理を繰り返すようにしても良い。
以上のように、本実施形態に係る韻律修正装置5によれば、音素長比算出部51aは、前記区間において、肉声音素境界によって定められる各々の音素の肉声音素長と、規則音素境界によって定められる各々の音素の規則音素長との比を、各々の音素の音素長比として算出する。話速比算出部51cは、算出された各々の音素長比を平滑化することにより、肉声韻律情報の話速と規則韻律情報の話速との比を話速比として算出する。音素境界再設定部52aは、前記区間において、規則韻律情報の各々の音素の規則音素長と、算出された話速比とに基づいて修正音素長を算出し、この修正音素長が前記区間における各々の肉声音素長となるように、肉声韻律情報の肉声音素境界を再設定し、肉声韻律情報を修正する。すなわち、修正された肉声韻律情報は、局所的には妥当な規則音素長に、前記話速比を適用しているため、大局的には肉声の発声に近づいた韻律情報となる。つまり、修正された肉声韻律情報は、人間の肉声のリズムによる変化傾向が再現された韻律情報となる。この結果、人間の発声から抽出された肉声韻律情報の抽出誤りを、人間の肉声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することができる。
[実施の形態4]
図18は、本実施形態に係る韻律修正システム12の概略構成を示すブロック図である。すなわち、本実施形態に係る韻律修正システム12は、図9に示す韻律修正装置4の代わりに、韻律修正装置6を備えている。なお、図18において、図9と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。また、図18に示す話速比検出部41は、各構成部材41a〜41gの図示を省略している。さらに、図18に示す肉声韻律修正部42は、音素境界再設定部42aの図示を省略している。
韻律修正装置6は、図9に示す韻律修正装置4に加えて、肉声韻律記憶部61、および、収束判定部62を備えている。なお、上記の収束判定部62は、コンピュータのCPUがこの機能を実現するプログラムに従って動作することによっても具現化される。
肉声韻律記憶部61は、肉声韻律入力部31が受け付けた肉声韻律情報または肉声韻律修正部42により修正された肉声韻律情報を格納する。なお、肉声韻律記憶部61には、はじめは、肉声韻律入力部31から出力された肉声韻律情報が格納される。
収束判定部62は、肉声韻律修正部42から出力された肉声韻律情報の肉声音素長と、この肉声韻律情報が修正される前の肉声韻律記憶部61に格納されている肉声韻律情報の肉声音素長との差分が閾値以上であるか否かを判断する。例えば、収束判定部62は、個々の肉声音素長の差分を総和することにより、この総和が閾値以上であるか否かを判断する。また、例えば、収束判定部62は、個々の肉声音素長の差分の中で最大となる差分を代表値とすることにより、この代表値が閾値以上であるか否かを判断する。差分が閾値以上である場合、収束判定部62は、肉声韻律修正部42から出力された肉声韻律情報を、肉声韻律記憶部61に書き込む。これにより、肉声韻律記憶部61には、肉声韻律修正部42により修正された肉声韻律情報が新たに格納される。この場合、収束判定部62は、話速比検出部41に対して、再度、話速比を算出するように指示する。また、収束判定部62は、肉声韻律修正部42に対して、再度、肉声韻律記憶部61に格納された肉声韻律情報を修正するように指示する。なお、このとき、収束判定部62は、差分の結果を修正区間決定部32へ出力し、修正区間決定部32は、差分の大きな範囲のみを新たな修正区間として決定するようにしても良い。これにより、大きく誤った箇所のみを修正対象とすることができる。
話速比検出部41は、収束判定部62から指示を受けると、肉声韻律記憶部61に格納されている肉声韻律情報を読み出し、修正区間内の話速比を新たに算出する。肉声韻律修正部42は、収束判定部62から指示を受けると、肉声韻律記憶部61に格納されている肉声韻律情報を読み出し、話速比検出部41により新たに算出された話速比を用いて、肉声韻律情報を修正する。
一方、差分が閾値未満である場合、収束判定部62は、肉声韻律修正部42から出力された肉声韻律情報を、肉声韻律出力部36に出力する。なお、閾値は、収束判定部62内に設けられたメモリに予め記録されているが、これに限定されない。例えば、閾値は、韻律修正システム12の管理者が適宜設定するようにしても良い。また、音素並びに応じて閾値が変更されるようにしても良い。
以上のように、本実施形態に係る韻律修正装置6によれば、収束判定部62は、肉声韻律修正部42により修正された肉声韻律情報の肉声音素長と、この肉声韻律情報が修正される前の肉声韻律記憶部61に格納されている肉声韻律情報の肉声音素長との差分が閾値以上であるか否かを判断する。閾値以上である場合、収束判定部62は、肉声韻律修正部42により修正された肉声韻律情報を肉声韻律記憶部61に書き込み、肉声韻律修正部42に対して、肉声韻律情報を修正するように指示を出力する。一方、閾値未満である場合、収束判定部62は、肉声韻律修正部42により修正された肉声韻律情報を出力する。この結果、収束判定部62は、肉声韻律情報の肉声音素境界が、実際の肉声音素境界により近づいた肉声韻律情報を出力することができる。
なお、上記では、収束判定部62は、肉声韻律修正部42から出力された肉声韻律情報の肉声音素長と、この肉声韻律情報が修正される前の肉声韻律記憶部61に格納されている肉声韻律情報の肉声音素長との差分が閾値以上であるか否かを判断する例について説明したが、これに限定されない。例えば、収束判定部62は、肉声韻律修正部42から出力された肉声韻律情報の肉声音素長と、規則韻律生成部44により生成された規則韻律情報の規則音素長との差分が閾値以上であるか否かを判断するようにしても良い。これにより、収束判定部62は、肉声韻律情報の肉声音素境界が、規則音素境界により近づいた肉声韻律情報を出力することができる。
また、上記では、図9に示す韻律修正装置4に加えて、肉声韻律記憶部61、および、収束判定部62を備えている韻律修正装置6の例を図18として説明したが、これに限定されない。すなわち、図11に示す韻律修正装置5に加えて、肉声韻律記憶部、および、収束判定部を備えている韻律修正装置であっても本実施形態を適用できることは勿論である。
[実施の形態5]
図19は、本実施形態に係る韻律修正システム13の概略構成を示すブロック図である。すなわち、本実施形態に係る韻律修正システム13は、図1に示す韻律修正システム1に加えて、GUI(Graphical User Interface)装置7、および、音声合成装置8を備えている。なお、図19において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。また、図19に示す韻律修正装置3は、各構成部材32〜36の図示を省略している。さらに、上記のGUI装置7および音声合成装置8は、図5に示す韻律修正システム1a、図6に示す韻律修正システム1b、図9に示す韻律修正システム10、図11に示す韻律修正システム11、および、図18に示す韻律修正システム12に備えられていても良い。
本実施形態においては、実施の形態1〜4とは異なり、肉声韻律抽出部23は、発声入力部21から出力された音声データから、リズムに関する肉声韻律情報に加えて、声の高さ、イントネーションなどの肉声韻律情報を抽出したものとする。
GUI装置7は、韻律修正装置3から出力された肉声韻律情報を、韻律修正システム13の管理者に編集させる装置である。このため、GUI装置7は、管理者に対して肉声韻律情報を表示し、マウスあるいはキーボードなどのポインティングデバイスを操作可能なユーザインターフェース機能を提供する。図20は、GUI装置7に表示される表示画面の一例を示す概念図である。図20に示すように、GUI装置7の表示画面は、肉声波形表示部71、ピッチパタン表示部72、合成波形表示部73、発声内容入力部74、読み仮名入力部75、および、操作部76を有している。なお、GUI装置7は、韻律修正装置3から出力された肉声韻律情報を管理者に編集させることに加えて、肉声韻律抽出部23により抽出された肉声韻律情報を管理者に編集させるようにしても良い。
肉声波形表示部71は、発声入力部21に入力された音声の波形情報と、韻律修正装置3により修正されたリズムに関する肉声韻律情報とを表示する。具体的には、肉声波形表示部71には、音声データが音声波形として表示され、この音声波形上に音素境界が表示され、かつ、対応する音素種別も表示される。図20に示す例では、肉声波形表示部71には、音素「kY」、「O-」、「w」、「A」、「h」、「A」、「r」、「E」、「d」、「E」、「s」、「u」と、韻律修正装置3により再設定された各々の肉声音素境界とが表示される。さらに、肉声波形表示部71は、韻律修正装置3により修正された肉声韻律情報の肉声音素境界と、韻律修正装置3により修正される前の肉声韻律情報の肉声音素境界との差分が閾値より大きい肉声音素境界を、他の肉声音素境界よりも、区別可能なように表示する。例えば、肉声波形表示部71は、肉声音素境界の境界色を変更し、あるいは、肉声音素境界を点滅する。図20に示す例では、音素「r」と音素「E」との肉声音素境界、および、音素「E」と音素「d」との肉声音素境界の差分が閾値より大きいので、肉声波形表示部71は、これらの肉声音素境界を、他の肉声音素境界よりも、区別可能なように点滅(図20中では点線にて図示)して表示する。なお、本実施形態においては、肉声波形表示部71は、表示された肉声音素境界を、管理者がポインティングデバイスを用いて操作することにより移動させ、肉声音素境界を新たに再設定させることができる。
ピッチパタン表示部72は、韻律修正装置3から出力された声の高さに関する肉声韻律情報を表示する。具体的には、ピッチパタン表示部72には、ピッチパタン(基本周波数)が表示される。なお、ピッチパタンは、声の高さあるいはイントネーションの時間的な変化を表す時系列データである。図20に示す例では、ピッチパタン表示部72には、○印で表される制御点と、この制御点を連結することにより得られるピッチパタンとが表示される。本実施形態においては、ピッチパタン表示部72は、ピッチパタンまたは制御点を、管理者がポインティングデバイスを用いて操作することにより移動させ、ピッチパタンまたは制御点を新たに再設定させることができる。一例として、制御点を移動させる場合、管理者は、例えば、マウスのポインタを移動させたい制御点に触れた状態でその触れた位置(指示位置)を上方向または下方向に移動(ドラッグ)させ、所望の位置でドロップすると、この制御点は、移動された所望の位置に配置される。この場合、制御点間のピッチパタンは、自動的に補正される。なお、ピッチパタン表示部72は、ピッチパタンを、スペクトログラムに重ねて表示することが好ましい。
合成波形表示部73は、韻律修正装置3から出力された肉声韻律情報に基づいて生成された合成音声の波形を表示する。図20に示す例では、合成波形表示部73には、合成音声の波形と、音素「kY」、「O-」、「w」、「A」、「h」、「A」、「r」、「E」、「d」、「E」、「s」、「u」と、韻律修正装置3により再設定された各々の肉声音素境界と、肉声波形表示部71により再設定された各々の肉声音素境界とが表示される。
発声内容入力部74は、人間が発声した肉声と同じ内容の文字列を、漢字かな混じり文にて管理者に入力させる。図20に示す例では、発声内容入力部74には、「今日は晴れです。」が管理者により入力されている。
読み仮名入力部75は、発声文字列入力部74に入力された文字列の読み仮名を、片仮名にて管理者に入力させる。図20に示す例では、読み仮名入力部75には、「キョーワハレデス」が管理者により入力されている。
操作部76は、録音ボタン76a、テキストファイル読み込みボタン76b、肉声韻律抽出ボタン76c、音声再生ボタン76d、音声ファイル指定ボタン76e、読み片仮読み込みボタン76f、韻律修正ボタン76g、および、音声停止ボタン76hを有している。
録音ボタン76aは、人間が発声した肉声を録音するためのボタンである。テキストファイル読み込みボタン76bは、予め用意されている文字列のテキストファイルを読み込むためのボタンである。肉声韻律抽出ボタン76cは、肉声韻律抽出部23に対して、肉声韻律情報の抽出を指示するためのボタンである。音声再生ボタン76dは、音声合成装置8に対して、合成音声の再生を指示するためのボタンである。音声ファイル指定ボタン76eは、予め用意されている発声データのファイルを指定するためのボタンである。読み仮名読み込みボタン76fは、予め用意されている読み仮名のテキストファイルを読み込むためのボタンである。肉声韻律修正ボタン76gは、韻律修正装置3に対して、肉声韻律情報の修正を指示するためのボタンである。音声停止ボタン76hは、音声合成装置8に対して、再生された合成音声の停止を指示するためのボタンである。
音声合成装置8は、GUI装置7から出力された合成音声を出力(再生)する機能を有している。このため、音声合成装置8は、スピーカなどを備えている。音声合成装置8は、肉声韻律抽出部23により抽出された肉声韻律情報に基づいて生成された合成音声、韻律修正装置3により修正された肉声韻律情報に基づいて生成された合成音声、および、GUI装置7により編集された肉声韻律情報に基づいて生成された合成音声を再生する。これにより、管理者は、それぞれの合成音声を聞き比べることができる。
以上のように、本実施形態に係る韻律修正システム13によれば、GUI装置7は、韻律修正装置3により修正された肉声韻律情報を編集させる。韻律修正装置3により修正された肉声韻律情報が、GUI装置7により編集されるので、この肉声韻律情報に対して、例えば、管理者は、木目細かい調整を行うことができる。
なお、本発明は上述した第1〜第5の実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
以上の実施の形態に関し、更に以下の付記を開示する。
(付記1)
人間の発声から抽出された肉声韻律情報を受け付ける肉声韻律入力部と、
前記肉声韻律情報中で修正対象となる音素または音素列を少なくとも含む区間に対して、人間の発声における規則的または統計的な音素長を表すデータを用いることにより、音素間の境界および音素の規則音素長を定める規則音素境界を持つ規則韻律情報を生成する規則韻律生成部と、
前記規則韻律生成部が生成した規則韻律情報を用いて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界および肉声音素長が、実際の前記人間の発声の音素境界および音素長に近づくように、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する肉声韻律修正部とを備える、韻律修正装置。
(付記2)
前記肉声韻律情報中で修正対象となる音素または音素列の区間を、前記肉声韻律情報の音素並びの種類、または、前記肉声音素境界によって定められる各々の音素の肉声音素長に基づいて決定する修正区間決定部をさらに備える、付記1に記載の韻律修正装置。
(付記3)
前記肉声韻律修正部は、
前記修正対象となる音素または音素列の区間において、前記規則音素境界によって定められる各々の音素の規則音素長の比に基づいて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する音素境界再設定部を含む、付記1または2に記載の韻律修正装置。
(付記4)
前記肉声韻律修正部は、
前記修正対象となる音素または音素列の区間において、前記規則韻律情報の各々の音素の規則音素長、および、前記肉声韻律情報の話速と前記規則韻律情報の話速との比である話速比に基づいて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する音素境界再設定部を含む、付記1または2に記載の韻律修正装置。
(付記5)
前記肉声韻律情報中で修正対象となる音素を含む少なくとも1音素または1拍以上からなる話速算出範囲において、前記肉声音素境界によって定められる各々の音素の肉声音素長の総和、および、当該話速算出範囲内の音素数または拍数に基づいて、前記修正対象となる各々の音素に対する肉声韻律情報の話速を算出し、かつ、前記規則音素境界によって定められる各々の音素の規則音素長の総和、および、当該話速算出範囲内の音素数または拍数に基づいて、修正対象となる各々の音素に対する規則韻律情報の話速を算出し、肉声韻律情報の話速と規則韻律情報の話速との比を話速比として算出する話速比検出部をさらに備え、
前記音素境界再設定部は、前記修正対象となる音素または音素列の区間において、前記規則韻律情報の各々の音素の規則音素長と、前記話速比検出部により算出された話速比とに基づいて修正音素長を算出し、当該修正音素長が前記区間における各々の肉声音素長となるように、前記肉声韻律情報の肉声音素境界を再設定し、前記肉声韻律情報を修正する、付記4に記載の韻律修正装置。
(付記6)
前記肉声韻律情報中で修正対象となる音素または音素列の区間において、前記肉声音素境界によって定められる各々の音素の肉声音素長と、前記規則音素境界によって定められる各々の音素の規則音素長との比を、各々の音素の音素長比として算出する音素長比算出部と、
前記音素長比算出部により算出された各々の音素長比を平滑化することにより、前記肉声韻律情報の話速と前記規則韻律情報の話速との比を話速比として算出する話速比算出部とをさらに備え、
前記音素境界再設定部は、前記修正対象となる音素または音素列の区間において、前記規則韻律情報の各々の音素の規則音素長と、前記話速比算出部により算出された話速比とに基づいて修正音素長を算出し、当該修正音素長が前記区間における各々の肉声音素長となるように、前記肉声韻律情報の肉声音素境界を再設定し、前記肉声韻律情報を修正する、付記4に記載の韻律修正装置。
(付記7)
前記肉声韻律入力部が受け付けた肉声韻律情報または前記肉声韻律修正部により修正された肉声韻律情報を格納する肉声韻律記憶部と、
前記肉声韻律修正部により修正された肉声韻律情報の肉声音素長と、当該肉声韻律情報が修正される前の前記肉声韻律記憶部に格納されている肉声韻律情報の肉声音素長との差分が閾値以上である場合、前記肉声韻律修正部により修正された肉声韻律情報を前記肉声韻律記憶部に書き込み、前記肉声韻律修正部に対して、前記肉声韻律情報を修正するように指示を出力し、かつ、前記肉声韻律修正部により修正された肉声韻律情報の肉声音素長と、当該肉声韻律情報が修正される前の前記肉声韻律記憶部に格納されている肉声韻律情報の肉声音素長との差分が閾値未満である場合、前記肉声韻律修正部により修正された肉声韻律情報を出力する収束判定部とを備える、付記1〜6のいずれか一項に記載の韻律修正装置。
(付記8)
付記1〜7のいずれか一項に記載の韻律修正装置により修正された肉声韻律情報を編集させる、GUI装置。
(付記9)
付記1〜7のいずれか一項に記載の韻律修正装置により修正された肉声韻律情報、または、付記8に記載のGUI装置により編集された肉声韻律情報に基づいて生成された合成音声を出力する、音声合成装置。
(付記10)
付記1〜8のいずれか一項に記載の韻律修正装置と、
付記8に記載のGUI装置および付記9に記載の音声合成装置の少なくとも1つとを備える、韻律修正システム。
(付記11)
コンピュータが備える肉声韻律入力部が、人間の発声から抽出された肉声韻律情報を受け付ける肉声韻律入力工程と、
前記コンピュータが備える規則韻律生成部が、前記肉声韻律情報中で修正対象となる音素または音素列を少なくとも含む区間に対して、人間の発声における規則的または統計的な音素長を表すデータを用いることにより、音素間の境界および音素の規則音素長を定める規則音素境界を持つ規則韻律情報を生成する規則韻律生成工程と、
前記コンピュータが備える肉声韻律修正部が、前記規則韻律生成工程で生成された規則韻律情報を用いて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界および肉声音素長が、実際の前記人間の発声の音素境界および音素長に近づくように、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する肉声韻律修正工程とを含む、韻律修正方法。
(付記12)
人間の発声から抽出された肉声韻律情報を受け付ける肉声韻律入力処理と、
前記肉声韻律情報中で修正対象となる音素または音素列を少なくとも含む区間に対して、人間の発声における規則的または統計的な音素長を表すデータを用いることにより、音素間の境界および音素の規則音素長を定める規則音素境界を持つ規則韻律情報を生成する規則韻律生成処理と、
前記規則韻律生成処理で生成された規則韻律情報を用いて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界および肉声音素長が、実際の前記人間の発声の音素境界および音素長に近づくように、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する肉声韻律修正処理とをコンピュータに実行させる、韻律修正プログラム。
以上のように、本発明は、人間の発声から抽出された肉声韻律情報を受け付ける肉声韻律入力部と、肉声韻律入力部が受け付けた肉声韻律情報を修正する肉声韻律修正部とを備えた韻律生成装置、韻律修正方法、または、韻律生成プログラムとして有用である。
本発明の第1の実施形態に係る韻律修正システムの概略構成を示すブロック図である。 上記韻律修正システムにおける肉声韻律抽出部により抽出された肉声韻律情報の一例を示す概念図である。 上記韻律修正システムにおける規則韻律生成部により生成された規則韻律情報の一例を示す概念図である。 上記韻律修正システムにおける音素境界再設定部により修正された肉声韻律情報の一例を示す概念図である。 上記韻律修正システムの変形例における概略構成を示すブロック図である。 上記韻律修正システムの変形例における概略構成を示すブロック図である。 上記韻律修正システムにおける韻律修正装置の動作の一例を示すフローチャートである。 各々の音素と各々の音素の音素長比との関係をそれぞれグラフで示した説明図である。 本発明の第2の実施形態に係る韻律修正システムの概略構成を示すブロック図である。 上記韻律修正システムにおける韻律修正装置の動作の一例を示すフローチャートである。 本発明の第3の実施形態に係る韻律修正システムの概略構成を示すブロック図である。 上記韻律修正システムにおける肉声韻律抽出部により抽出された肉声韻律情報の各々の音素と各々の音素の肉声音素長との関係をグラフで示した説明図である。 上記韻律修正システムにおける規則韻律生成部により生成された規則韻律情報の各々の音素と各々の音素の規則音素長との関係をグラフで示した説明図である。 各々の音素と各々の音素の音素長比との関係をグラフで示した説明図である。 各々の音素と平滑化された各々の音素の音素長比との関係をグラフで示した説明図である。 上記韻律修正システムにおける音素境界再設定部により修正された肉声韻律情報の各々の音素と各々の音素の肉声音素長との関係をグラフで示した説明図である。 上記韻律修正システムにおける韻律修正装置の動作の一例を示すフローチャートである。 本発明の第4の実施形態に係る韻律修正システムの概略構成を示すブロック図である。 本発明の第5の実施形態に係る韻律修正システムの概略構成を示すブロック図である。 上記韻律修正システムにおけるGUI装置の表示画面に表示される一例を示す概念図である。
符号の説明
1、1a、1b、10、11、12、13 韻律修正システム
3、4、5、6 韻律修正装置
7 GUI装置
8 音声合成装置
31 肉声韻律入力部
32 修正区間決定部
34 規則韻律生成部
35、38、42、52 肉声韻律修正部
35a 規則音素長比算出部
35b、38a、42a、52a 音素境界再設定部
37、41、51 話速比検出部
37a、41c 肉声総音素長算出部
37b、41e 規則総音素長算出部
37c 話速比算出部
41a 話速算出範囲設定部
41b 拍数計数部
41d 肉声話速算出部
41f 規則話速算出部
41g 話速比算出部
51a 音素長比算出部
51b 平滑化範囲設定部
51c 話速比算出部
61 肉声韻律記憶部
62 収束判定部

Claims (7)

  1. 人間の発声から抽出された肉声韻律情報を受け付ける肉声韻律入力部と、
    前記肉声韻律情報中で修正対象となる音素または音素列を少なくとも含む区間に対して、人間の発声における規則的または統計的な音素長を表すデータを用いることにより、音素間の境界および音素の規則音素長を定める規則音素境界を持つ規則韻律情報を生成する規則韻律生成部と、
    前記規則韻律生成部が生成した規則韻律情報を用いて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界および肉声音素長が、実際の前記人間の発声の音素境界および音素長に近づくように、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する肉声韻律修正部と
    前記肉声韻律情報中で修正対象となる音素または音素列の区間を、前記肉声韻律情報の音素並びの種類に基づいて決定する修正区間決定部と、を備える、韻律修正装置。
  2. 前記肉声韻律修正部は、
    前記修正対象となる音素または音素列の区間において、前記規則音素境界によって定められる各々の音素の規則音素長の比に基づいて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する音素境界再設定部を含む、請求項1に記載の韻律修正装置。
  3. 前記肉声韻律修正部は、
    前記修正対象となる音素または音素列の区間において、前記規則韻律情報の各々の音素の規則音素長、および、前記肉声韻律情報の話速と前記規則韻律情報の話速との比である話速比に基づいて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する音素境界再設定部を含む、請求項1に記載の韻律修正装置。
  4. 前記肉声韻律情報中で修正対象となる音素を含む少なくとも1音素または1拍以上からなる話速算出範囲において、前記肉声音素境界によって定められる各々の音素の肉声音素長の総和、および、当該話速算出範囲内の音素数または拍数に基づいて、前記修正対象となる各々の音素に対する肉声韻律情報の話速を算出し、かつ、前記規則音素境界によって定められる各々の音素の規則音素長の総和、および、当該話速算出範囲内の音素数または拍数に基づいて、修正対象となる各々の音素に対する規則韻律情報の話速を算出し、肉声韻律情報の話速と規則韻律情報の話速との比を話速比として算出する話速比検出部をさらに備え、
    前記音素境界再設定部は、前記修正対象となる音素または音素列の区間において、前記規則韻律情報の各々の音素の規則音素長と、前記話速比検出部により算出された話速比とに基づいて修正音素長を算出し、当該修正音素長が前記区間における各々の肉声音素長となるように、前記肉声韻律情報の肉声音素境界を再設定し、前記肉声韻律情報を修正する、請求項3に記載の韻律修正装置。
  5. 前記肉声韻律情報中で修正対象となる音素または音素列の区間において、前記肉声音素境界によって定められる各々の音素の肉声音素長と、前記規則音素境界によって定められる各々の音素の規則音素長との比を、各々の音素の音素長比として算出する音素長比算出部と、
    前記音素長比算出部により算出された各々の音素長比を平滑化することにより、前記肉声韻律情報の話速と前記規則韻律情報の話速との比を話速比として算出する話速比算出部とをさらに備え、
    前記音素境界再設定部は、前記修正対象となる音素または音素列の区間において、前記規則韻律情報の各々の音素の規則音素長と、前記話速比算出部により算出された話速比とに基づいて修正音素長を算出し、当該修正音素長が前記区間における各々の肉声音素長と
    なるように、前記肉声韻律情報の肉声音素境界を再設定し、前記肉声韻律情報を修正する、請求項3に記載の韻律修正装置。
  6. コンピュータが備える肉声韻律入力部が、人間の発声から抽出された肉声韻律情報を受け付ける肉声韻律入力工程と、
    前記コンピュータが備える規則韻律生成部が、前記肉声韻律情報中で修正対象となる音素または音素列を少なくとも含む区間に対して、人間の発声における規則的または統計的な音素長を表すデータを用いることにより、音素間の境界および音素の規則音素長を定める規則音素境界を持つ規則韻律情報を生成する規則韻律生成工程と、
    前記コンピュータが備える肉声韻律修正部が、前記規則韻律生成工程で生成された規則韻律情報を用いて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界および肉声音素長が、実際の前記人間の発声の音素境界および音素長に近づくように、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する肉声韻律修正工程と、
    前記肉声韻律情報中で修正対象となる音素または音素列の区間を、前記肉声韻律情報の音素並びの種類に基づいて決定する修正区間決定工程と、を含む、韻律修正方法。
  7. 人間の発声から抽出された肉声韻律情報を受け付ける肉声韻律入力処理と、
    前記肉声韻律情報中で修正対象となる音素または音素列を少なくとも含む区間に対して、人間の発声における規則的または統計的な音素長を表すデータを用いることにより、音素間の境界および音素の規則音素長を定める規則音素境界を持つ規則韻律情報を生成する規則韻律生成処理と、
    前記規則韻律生成処理で生成された規則韻律情報を用いて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界および肉声音素長が、実際の前記人間の発声の音素境界および音素長に近づくように、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する肉声韻律修正処理と、
    前記肉声韻律情報中で修正対象となる音素または音素列の区間を、前記肉声韻律情報の音素並びの種類に基づいて決定する修正区間決定処理と、をコンピュータに実行させる、韻律修正プログラム。
JP2007073082A 2007-03-20 2007-03-20 韻律修正装置、韻律修正方法、および、韻律修正プログラム Expired - Fee Related JP5119700B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007073082A JP5119700B2 (ja) 2007-03-20 2007-03-20 韻律修正装置、韻律修正方法、および、韻律修正プログラム
US12/029,316 US8433573B2 (en) 2007-03-20 2008-02-11 Prosody modification device, prosody modification method, and recording medium storing prosody modification program
CN2008100867410A CN101271688B (zh) 2007-03-20 2008-03-20 韵律修改装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007073082A JP5119700B2 (ja) 2007-03-20 2007-03-20 韻律修正装置、韻律修正方法、および、韻律修正プログラム

Publications (2)

Publication Number Publication Date
JP2008233542A JP2008233542A (ja) 2008-10-02
JP5119700B2 true JP5119700B2 (ja) 2013-01-16

Family

ID=39775644

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007073082A Expired - Fee Related JP5119700B2 (ja) 2007-03-20 2007-03-20 韻律修正装置、韻律修正方法、および、韻律修正プログラム

Country Status (3)

Country Link
US (1) US8433573B2 (ja)
JP (1) JP5119700B2 (ja)
CN (1) CN101271688B (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5029168B2 (ja) * 2007-06-25 2012-09-19 富士通株式会社 音声読み上げのための装置、プログラム及び方法
JP5130809B2 (ja) * 2007-07-13 2013-01-30 ヤマハ株式会社 楽曲を制作するための装置およびプログラム
US8983841B2 (en) * 2008-07-15 2015-03-17 At&T Intellectual Property, I, L.P. Method for enhancing the playback of information in interactive voice response systems
JP5282469B2 (ja) * 2008-07-25 2013-09-04 ヤマハ株式会社 音声処理装置およびプログラム
US9484019B2 (en) * 2008-11-19 2016-11-01 At&T Intellectual Property I, L.P. System and method for discriminative pronunciation modeling for voice search
US8332225B2 (en) * 2009-06-04 2012-12-11 Microsoft Corporation Techniques to create a custom voice font
JP5516192B2 (ja) * 2010-07-28 2014-06-11 富士通株式会社 モデル作成装置、モデル作成プログラムおよびモデル作成方法
CN102063898B (zh) * 2010-09-27 2012-09-26 北京捷通华声语音技术有限公司 韵律短语预测方法
JP5728913B2 (ja) * 2010-12-02 2015-06-03 ヤマハ株式会社 音声合成情報編集装置およびプログラム
JP5593244B2 (ja) * 2011-01-28 2014-09-17 日本放送協会 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
US9508329B2 (en) * 2012-11-20 2016-11-29 Huawei Technologies Co., Ltd. Method for producing audio file and terminal device
US20140278403A1 (en) * 2013-03-14 2014-09-18 Toytalk, Inc. Systems and methods for interactive synthetic character dialogue
JP6261924B2 (ja) * 2013-09-17 2018-01-17 株式会社東芝 韻律編集装置、方法およびプログラム
CN104021784B (zh) * 2014-06-19 2017-06-06 百度在线网络技术(北京)有限公司 基于大语料库的语音合成方法和装置
WO2016043322A1 (ja) * 2014-09-19 2016-03-24 株式会社コティレドン・テクノロジー 音声合成方法、プログラム及び装置
JP2016080827A (ja) * 2014-10-15 2016-05-16 ヤマハ株式会社 音韻情報合成装置および音声合成装置
CN106980624B (zh) * 2016-01-18 2021-03-26 阿里巴巴集团控股有限公司 一种文本数据的处理方法和装置
CN109727592A (zh) * 2017-10-31 2019-05-07 上海幻电信息科技有限公司 基于自然语言语音交互的运维指令执行方法、介质及终端
US10418025B2 (en) * 2017-12-06 2019-09-17 International Business Machines Corporation System and method for generating expressive prosody for speech synthesis
US12080272B2 (en) * 2019-12-10 2024-09-03 Google Llc Attention-based clockwork hierarchical variational encoder
US11830481B2 (en) * 2021-11-30 2023-11-28 Adobe Inc. Context-aware prosody correction of edited speech

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5113449A (en) * 1982-08-16 1992-05-12 Texas Instruments Incorporated Method and apparatus for altering voice characteristics of synthesized speech
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
JPH07140996A (ja) 1993-11-16 1995-06-02 Fujitsu Ltd 音声規則合成装置
JP3563772B2 (ja) * 1994-06-16 2004-09-08 キヤノン株式会社 音声合成方法及び装置並びに音声合成制御方法及び装置
JPH08171394A (ja) * 1994-12-19 1996-07-02 Fujitsu Ltd 音声合成装置
DE19610019C2 (de) * 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren
JPH09292897A (ja) 1996-04-26 1997-11-11 Sanyo Electric Co Ltd 音声合成装置
US6029131A (en) * 1996-06-28 2000-02-22 Digital Equipment Corporation Post processing timing of rhythm in synthetic speech
JPH10153998A (ja) * 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
US6006187A (en) * 1996-10-01 1999-12-21 Lucent Technologies Inc. Computer prosody user interface
JPH11143483A (ja) 1997-08-15 1999-05-28 Hiroshi Kurita 音声発生システム
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
JP3180764B2 (ja) * 1998-06-05 2001-06-25 日本電気株式会社 音声合成装置
CN1168068C (zh) * 1999-03-25 2004-09-22 松下电器产业株式会社 语音合成系统与语音合成方法
JP3361291B2 (ja) * 1999-07-23 2003-01-07 コナミ株式会社 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP2001306087A (ja) * 2000-04-26 2001-11-02 Ricoh Co Ltd 音声データベース作成装置および音声データベース作成方法および記録媒体
JP3701850B2 (ja) * 2000-09-19 2005-10-05 日本放送協会 音声言語の韻律表示装置および記録媒体
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
JP3846300B2 (ja) * 2001-12-14 2006-11-15 オムロン株式会社 録音原稿作成装置および方法
US7280968B2 (en) * 2003-03-25 2007-10-09 International Business Machines Corporation Synthetically generated speech responses including prosodic characteristics of speech inputs
JP4225128B2 (ja) * 2003-06-13 2009-02-18 ソニー株式会社 規則音声合成装置及び規則音声合成方法
US7881934B2 (en) * 2003-09-12 2011-02-01 Toyota Infotechnology Center Co., Ltd. Method and system for adjusting the voice prompt of an interactive system based upon the user's state
JP4792703B2 (ja) * 2004-02-26 2011-10-12 株式会社セガ 音声解析装置、音声解析方法及び音声解析プログラム
KR100590553B1 (ko) * 2004-05-21 2006-06-19 삼성전자주식회사 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템
WO2005119650A1 (ja) * 2004-06-04 2005-12-15 Matsushita Electric Industrial Co., Ltd. 音声合成装置
JP4265501B2 (ja) * 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
US7558389B2 (en) * 2004-10-01 2009-07-07 At&T Intellectual Property Ii, L.P. Method and system of generating a speech signal with overlayed random frequency signal
JP2008545995A (ja) * 2005-03-28 2008-12-18 レサック テクノロジーズ、インコーポレーテッド ハイブリッド音声合成装置、方法および用途
US7742921B1 (en) * 2005-09-27 2010-06-22 At&T Intellectual Property Ii, L.P. System and method for correcting errors when generating a TTS voice
GB2433150B (en) * 2005-12-08 2009-10-07 Toshiba Res Europ Ltd Method and apparatus for labelling speech
GB2444539A (en) * 2006-12-07 2008-06-11 Cereproc Ltd Altering text attributes in a text-to-speech converter to change the output speech characteristics
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech
CN101606190B (zh) * 2007-02-19 2012-01-18 松下电器产业株式会社 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法

Also Published As

Publication number Publication date
US20080235025A1 (en) 2008-09-25
CN101271688B (zh) 2011-07-20
US8433573B2 (en) 2013-04-30
JP2008233542A (ja) 2008-10-02
CN101271688A (zh) 2008-09-24

Similar Documents

Publication Publication Date Title
JP5119700B2 (ja) 韻律修正装置、韻律修正方法、および、韻律修正プログラム
US10347238B2 (en) Text-based insertion and replacement in audio narration
EP0831460B1 (en) Speech synthesis method utilizing auxiliary information
JP5208352B2 (ja) 声調言語用分節声調モデリング
US7962341B2 (en) Method and apparatus for labelling speech
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
US9147392B2 (en) Speech synthesis device and speech synthesis method
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP5029884B2 (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム
CN107610691B (zh) 英语元音发声纠错方法及装置
JP4744338B2 (ja) 合成音声生成装置
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JP3846300B2 (ja) 録音原稿作成装置および方法
JP6756607B2 (ja) アクセント型判定装置及びプログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2021148942A (ja) 声質変換システムおよび声質変換方法
JP5028599B2 (ja) 音声処理装置、およびプログラム
JP2018041116A (ja) 音声合成装置、音声合成方法およびプログラム
KR101348906B1 (ko) 음성 합성기의 화속변경방법
JP5012444B2 (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム
Cahyaningtyas et al. Under-Resourced Natural Bahasa Indonesia HMM-based Text-To-Speech System
JP2001228890A (ja) 音声認識装置
Wang et al. Improved generation of prosodic features in HMM-based Mandarin speech synthesis
JPH05224690A (ja) 音声合成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110728

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110926

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120626

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120925

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121008

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151102

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5119700

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees