JP2009251199A - 音声合成装置、方法及びプログラム - Google Patents

音声合成装置、方法及びプログラム Download PDF

Info

Publication number
JP2009251199A
JP2009251199A JP2008097726A JP2008097726A JP2009251199A JP 2009251199 A JP2009251199 A JP 2009251199A JP 2008097726 A JP2008097726 A JP 2008097726A JP 2008097726 A JP2008097726 A JP 2008097726A JP 2009251199 A JP2009251199 A JP 2009251199A
Authority
JP
Japan
Prior art keywords
speech
extracted
analysis means
input
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008097726A
Other languages
English (en)
Other versions
JP5040778B2 (ja
Inventor
Tsutomu Kaneyasu
勉 兼安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2008097726A priority Critical patent/JP5040778B2/ja
Publication of JP2009251199A publication Critical patent/JP2009251199A/ja
Application granted granted Critical
Publication of JP5040778B2 publication Critical patent/JP5040778B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 無声音声と口唇画像とから有音音声を合成する際に、発話者が意図する抑揚を合成音声に反映させる。
【解決手段】 本発明は、発話者の無声音声と撮像口唇画像とが同期して入力され、有音音声を合成する音声合成装置に関する。映像信号分析手段は、入力口唇画像から有声音の母音情報を抽出し、母音発声時の口唇の開閉大きさと、予め設定した基準大きさとの比率をピッチ比率として抽出する。音声信号分析手段は、入力無声音声と、映像信号分析手段が抽出した母音に対応する無声母音の音響モデルとから、子音情報を抽出し、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、テキスト情報を抽出し、入力無声音声のパワー変化から発声全体の継続時間長を抽出する。音声合成手段は、上述の両分析手段によって抽出された各種情報から、抑揚を付与した有音音声を合成する。
【選択図】 図1

Description

本発明は音声合成装置、方法及びプログラムに関し、特に、無声音声と口唇画像から音声を合成するものに関する。
会議中や公共交通機関の利用中など、発話側が通常の音声を発声することが困難な環境にある場合に、電話装置等を利用して通話する際に、発話者は無声音(いわゆるひそひそ声)のみによる発話を行うことがある。
このような状況で発声された音声による発話内容を捉える従来技術として、特許文献1に記載の技術がある。この技術は、電話機等の電子機器を介した通話において、無声音のみにて発話する場合に、発話時の音声情報と口唇の動画像情報を利用して、通常の有声音及び無声音を含む発声を行った場合に想定される音声を合成するものである。
特開2006−276470
しかしながら、特許文献1の記載技術は、無声音声と口唇画像とから文字情報を認識して音声を合成するものであるため、イントネーションがない音声が合成されるものであった。若しくは、文字情報(テキスト列)を解析して、イントネーション(音の長さと高さ)を付与するものであった。言い換えると、発話者が、イントネーションである音の長さと高さを制御できないものであった。そのため、感情などを正確に伝達することができない恐れがある。
そのため、無声音声と口唇画像とから有音音声を合成する場合においても、発話者が意図するイントネーションを合成音声に反映させることができる音声合成装置、方法及びプログラムが望まれている。
第1の本発明は、音声捕捉装置が捕捉した発話者からの無声音声と撮像装置が撮像した発話者の口唇画像とが同期して入力され、入力された無声音声及び口唇画像を処理して、発話者が意図した有音音声を合成する音声合成装置において、(1)入力された口唇画像から有声音の母音に関する情報を抽出すると共に、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率をピッチ比率として抽出する映像信号分析手段と、(2)第1に、入力された無声音声と、上記映像信号分析手段によって抽出された母音に対応する、無声母音から構築された音響モデルとから、子音に関する情報を抽出し、第2に、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、認識されたテキスト情報を抽出し、第3に、上記無声音声のパワーを検出することで発声全体の継続時間長を抽出する音声信号分析手段と、(3)上記音声信号分析手段によって抽出された子音に関する情報、テキスト情報及び全体継続長と、上記映像信号分析手段によって抽出された有声音の母音に関する情報及びピッチ比率とから、イントネーションを付与した有音音声を合成する音声合成手段とを有することを特徴とする。
第2の本発明は、音声捕捉装置が捕捉した発話者からの無声音声と撮像装置が撮像した発話者の口唇画像とが同期して入力され、入力された無声音声及び口唇画像を処理して、発話者が意図した有音音声を合成する音声合成方法において、映像信号分析手段、音声信号分析手段及び音声合成手段を備え、(1)上記映像信号分析手段は、入力された口唇画像から有声音の母音に関する情報を抽出すると共に、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率をピッチ比率として抽出し、(2)上記音声信号分析手段は、第1に、入力された無声音声と、上記映像信号分析手段によって抽出された母音に対応する、無声母音から構築された音響モデルとから、子音に関する情報を抽出し、第2に、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、認識されたテキスト情報を抽出し、第3に、上記無声音声のパワーを検出することで発声全体の継続時間長を抽出し、(3)上記音声合成手段は、上記音声信号分析手段によって抽出された子音に関する情報、テキスト情報及び全体継続長と、上記映像信号分析手段によって抽出された有声音の母音に関する情報及びピッチ比率とから、イントネーションを付与した有音音声を合成することを特徴とする。
第3の本発明は、音声捕捉装置が捕捉した発話者からの無声音声と撮像装置が撮像した発話者の口唇画像とが同期して入力され、入力された無声音声及び口唇画像を処理して、発話者が意図した有音音声を合成するための音声合成プログラムであって、コンピュータを、(1)入力された口唇画像から有声音の母音に関する情報を抽出すると共に、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率をピッチ比率として抽出する映像信号分析手段と、(2)第1に、入力された無声音声と、上記映像信号分析手段によって抽出された母音に対応する、無声母音から構築された音響モデルとから、子音に関する情報を抽出し、第2に、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、認識されたテキスト情報を抽出し、第3に、上記無声音声のパワーを検出することで発声全体の継続時間長を抽出する音声信号分析手段と、(3)上記音声信号分析手段によって抽出された子音に関する情報、テキスト情報及び全体継続長と、上記映像信号分析手段によって抽出された有声音の母音に関する情報及びピッチ比率とから、イントネーションを付与した有音音声を合成する音声合成手段として機能させることを特徴とする。
本発明によれば、無声音声と口唇画像とから有音音声を合成する場合においても、発話者が意図するイントネーションを合成音声に反映させることができるようになる。
(A)主たる実施形態
以下、本発明による音声合成装置、方法及びプログラムの一実施形態を、図面を参照しながら詳述する。
(A−1)実施形態の構成
図1は、実施形態に係る音声合成装置の機能的構成を示すブロック図である。
図1において、実施形態の音声合成装置000には、マイクロフォン001やビデオカメラ002が接続されて用いられる。例えば、マイクロフォン001やビデオカメラ002が携帯電話に設けられているものであり、音声合成装置000は、携帯電話に搭載されたものであっても、携帯電話網のキャリアの装置に設けられたものであって良い。
音声合成装置000は、1個のICチップとして実現されているものであっても良く、ディスクリート部品などを組み立てて構成されたものであっても良く、CPUが音声合成プログラムを実行することで実現するものであっても良いが、機能的には、図1に示す構成を有する。
音声合成装置000は、音声信号分析器003、映像信号分析器004及び音声信号合成器005を有する。
マイクロフォン001は、発話者の音声(ここでは、無声音声(いわゆるひそひそ声))を入力するためのものである。ビデオカメラ002は、発話者が音声を発するときの口唇の様子を撮影するものである。マイクロフォン001が捕捉した無声音声201と、ビデオカメラ002が得た口唇画像202とは、同期して、音声合成装置000に入力される。例えば、マイクロフォン001もビデオカメラ002も、出力にタイムスタンプを挿入することで同期をとることができる。
音声信号分析器003は、マイクロフォン001から入力された無声音声201についての情報、主に子音に関する情報203を抽出するものである。この実施形態の音声信号分析器003は、映像信号分析器004で抽出された、通常の有声音を含む発声の際に想定される母音の情報205が入力され、この抽出母音に対応する、無声母音で構築された音響モデルを選択し、その音響モデルを適用し、マイクロフォン001から入力された無声音声201についての情報、主に子音に関する情報203を抽出するものである。例えば、特開2003−15679号公報に記載の方法を適用することができる。
因みに、通常の有声音を含む発声音声における母音や子音(の信号波形)と、無声音声201での母音や子音(の信号波形)とは異なっている。しかし、口唇の動きは、通常の有声音を含む発声でも、無声音声でも同様である。
また、音声信号分析器003は、音素列と単語とを対応付ける辞書と、どの単語の並びであるかを計算する言語モデルを用い、テキスト207の情報を抽出することができる。
さらに、音声信号分析器003は、映像信号分析器004へ音素環境を付加した母音情報(例えばCVC、CV)208を送信するものである。ここで、音素環境とは母音情報(いわゆるV)の前後音素(いわゆるC(子音))のことである。
さらにまた、音声信号分析器003は継続長検出器101を備えている。継続長検出器101は、無声音声のパワー(の変化)を検出することで、発声全体の継続時間長(全体継続長)204を抽出するものである。
ここで、一定のフレーム間で求めたパワー平均値がパワーに関する閾値より大きくなった場合、発声開始であると判定する。また、パワーに関する閾値より小さくなった場合、発声終了であると判定する。その際、パワーに関する閾値より小さくなるまでの時間長が、無音時間長に関する閾値を越えることも発声終了の判定に必要とする。無音時間長に関する閾値を越えない場合、文中(ひそひそ話中)に生じるポーズとして扱う。
実施形態の映像信号分析器004は、カメラ002で撮像された口唇画像202から、主に、通常の有声音を含む発声の際に想定される母音に関する情報205を抽出するものである。抽出された母音情報205は、上述のように、音声信号分析器003に与えられる。特開2004−271620号公報や特開2000−68882号公報には口唇画像から文字を認識する技術を開示しているが、母音の抽出にもこれらの開示技術を流用可能である。
また、映像信号分析器004はピッチ検出器102を備えている。ピッチ検出器102は、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率(ピッチ比率)206を抽出する。このピッチ比率206は、音声信号合成器005に与えられ、音声信号合成器005で、比率差が存在する箇所の母音に、比率に応じたピッチ修正処理が施される。
映像信号分析器004は、音素環境を付加した母音情報208を知っている必要があるため、音声信号分析器003から与えられるようになされている。すなわち、ピッチ比率に応じたピッチ修正処理を施す際に、母音の前の音素が有声子音ならば後続母音のピッチ比率と同じと判定する必要があると共に、母音の前の音素が無声子音ならばピッチなしと判定する必要があるためである。
なお、映像信号分析器004は、音声信号分析器003から与えられた音素環境を付加した母音情報208を音声信号合成器005に与えるようになされている。
音声信号合成器005は、特許文献1記載の音声信号合成器と同様に、音声信号分析器003と映像信号分析器004から送信されてきた情報から通常の有声音を含む発声の際に想定される音声を合成するものである。
音声信号合成器005による合成方式としては、第1に、テキスト解析部104と、韻律推定部105と、韻律データベース(韻律DB)108と、合成処理部103とを用いるいわゆる統計量ベース音声合成方式を適用でき、第2に、テキスト解析部104と、韻律推定部105と、韻律データベース108と、素片選択部106と、音声データベース(音声DB)109と、素片接続部107とを用いるいわゆるコーパスベース音声合成方式を適用可能である。
なお、音声信号合成器005に、両方式の実行構成を搭載し、いずれを適用するかを利用者に選択させるようにしても良い。また、音声信号合成器005が一方の方式にのみ対応できるものであっても良い。
テキスト解析部104は、音声信号分析器003から送信されたテキスト情報207に対して、形態素解析、係り受け解析を行い、音素列、アクセント記号等に変換するものである。
テキスト解析部104が行う形態素解析、係り受け解析等では、音声信号分析器003と映像信号分析器004から送信された、子音情報203と音素環境を付加した母音情報208とから音素列を生成し、テキスト解析部104で生成された音素列と等しくなる、解析情報の候補を用いることとする。
韻律データベース108は、音素持続時間(音の長さ)、基本周波数(音の高さF0)、母音中心のパワー(音の大きさ)等の特徴量を統計的モデルで保持しているものである。
韻律推定部105は、音素記号、アクセント記号列、及び、形態素解析結果から得られる入力テキストの品詞情報などに基づいて、韻律データベース108をアクセスし、各特徴量を推定すると共に、発声の全体継続長とピッチ比率とを用いて、イントネーションを制御した各特徴量を求めるものである。
素片選択部106は、推定された音素持続時間、基本周波数、母音中心のパワー等に最も近く、かつ、音声DB109に蓄積されている合成単位(音素片)のデータを接続したときの歪みが最も小さくなる合成単位の組み合わせを動的計画法を用いて選択するものである。
素片接続部107は、選択された音素片の組み合わせに従って、音素片の接続を行うことによって音声を生成するものである。
合成処理部103は、韻律推定部105で推定した特徴量から、MLSA(mel−logarithmic spectral approximation)合成フィルタなどを用いることで音声を生成するものである。
(A−2)実施形態の動作
次に、上述した構成を有する実施形態の音声合成装置の動作(実施形態の音声合成方法)を、図面を参照しながら詳述する。
音声信号分析器003は、映像信号分析器004から送信された母音情報205に対応する、無声母音で構築された音響モデルを選択し、マイクロフォン001から入力された無声音声201から、主に子音に関する情報203を抽出し、さらに、辞書と言語モデルを用いることでテキスト情報207を抽出する。
そして、音声信号分析器003は、映像信号分析器004へ音素環境を付加した母音情報208を送信する。
また、音声信号分析器003における継続長検出器101は、無声音声201のパワーを監視することにより、発声全体の継続時間長204を抽出し、音声信号合成器005へ送信する。
一方、映像信号分析器004にはカメラ002で撮像された口唇画像202が入力され、映像信号分析器004は、入力された口唇画像202から、主に、通常の有声音を含む発声の際に想定される母音に関する情報205を抽出し、抽出した母音情報205を音声信号分析器003に送信する。
また、映像信号分析器004におけるピッチ検出器102は、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率であるピッチ比率206を抽出し、音声信号合成器005に送信する。
音声信号合成器005(の韻律推定部105)は、比率差が存在する箇所の母音に、比率に応じたピッチ修正処理を施す。ここで、有声子音のピッチは、有声子音の継続長が母音に比べ短く、ピッチ変化も母音に大きく影響することもあるので、後続の母音のピッチ比率と同じにすることとする。
ピッチの検出方法として、例えば、以下の2通りの検出方法のいずれかを適用可能である。
まず、第1のピッチ検出方法を、図2を参照しながら説明する。
口唇の追跡すべき点を上下左右P1〜P4に設定する。また、予め各母音の口唇形状を定めておく。これにより、カメラ002が撮像した口唇形状であって、映像信号分析器004の抽出により母音の種類が特定された口唇形状(口唇開口形状)と、映像信号分析器004に予め設定されたデフォルトの口唇形状との間で、各追跡点についての距離d1〜d4を求めることができる。この距離を求める際には、例えば、両口唇形状の形状重心を一致させて行う。又は、口唇形状の横方向に最も大きな距離をとる方向の中心同士を、両口唇形状で合わせて距離を求める。
母音(の種類)毎に距離差を求めたい箇所(追跡点)を設定し、距離差Dを求める。例えば、母音「い」に関して、左右の点P2、P4だけに注目すると、距離差Dとして、D=d2+d4を求めることができる。
距離差Dと、予め設定されている上下の閾値α、βとの比較により、ピッチ比率を求める。例えば、以下の判定基準を適用することができる。
D>=α に対応する ピッチ比率は2
β<D<α に対応する ピッチ比率は1
D<=β に対応する ピッチ比率は0.5
次に、第2のピッチ検出方法を、図3を参照しながら説明する。
第2のピッチ検出方法は、各母音を1種類の大きさにするのではなく、口唇形状の大きさに応じて、新たな母音として検出する方法である。
例えば、「い」を1母音とするのではなく、主として口唇形状の大きさに応じて、3種類に分け、「い」について3種類の母音のいずれかと検出する。
今まで1種類で考えていた母音について、複数種類の代表的な口唇画像を予め設定しておく。図3は、今まで1種類で考えていた「い」について、大きさが異なる3種類の代表的な口唇画像「い1」、「い2」、「い3」を設定していることを表している。
カメラ002から入力された口唇画像は、代表的な口唇画像と各々比較され、より近い代表的な口唇画像が選択される。ここでの比較方法として、例えば、複数の階層型自己組織化マップ(HSOM)が並んだ、教師なしニューラルネットワークモデルであるハイパーコラムモデル(HCM)を用いることが可能である。各代表的な口唇画像とピッチ比率とは、予め対応付けられており、これにより、ピッチ比率を求めることができる。例えば、入力口唇画像に近い代表的口唇画像が「い1」、「い2」、「い3」であれば、以下のようにピッチ比率を定める。
代表的口唇画像が「い2」であれば ピッチ比率は2
代表的口唇画像が「い1」であれば ピッチ比率は1
代表的口唇画像が「い3」であれば ピッチ比率は0.5
音声信号合成器005は、テキスト解析部104、韻律データベース108を利用した韻律推定部105、合成処理部103の順で音声合成処理を行う。又は、音声信号合成器005は、テキスト解析部104、韻律データベース108を利用した韻律推定部105、音声データベース109を利用した素片選択部106、素片接続部107の順で音声合成処理を行う。
ここで、韻律推定部105は、上述したように、テキスト解析部104が得た音素列、アクセント記号列、及び、形態素解析結果より得られる入力テキストの品詞情報から、音素持続時間(音の長さ)、基本周波数(音の高さF0)、母音中心のパワー(音の大きさ)等の特徴量を統計的モデルで保持している韻律データベース108を用いて、各特徴量を推定する。
この実施形態の場合、韻律推定部105は、自己が推定した全体継続長(発音させたいテキストを音素列に変えた、各音素の音素持続時間の合成の長さ)と、音声信号分析器003から送信された全体継続長204とから、(1)式に従って発話速度比率ρを求める。
Figure 2009251199
そして、求めた発話速度比率ρを(2)式に適用し、状態qk(対象としている音素に対して、隠れマルコフモデルで表した際の信号源である)についての音素持続時間(音の長さ)dqkを推定し直す。
Figure 2009251199
(2)式におけるmqkとσ qkとはそれぞれ、状態qkについての音素持続時間(音の長さ)の分布をガウス分布に従うとした場合における平均及び分散である。これらの平均及び分散は、予め計測されて、韻律推定部105に格納されているものである。
さらに、この実施形態の場合、韻律推定部105は、映像信号分析器004によって抽出されたピッチ比率206を用いて、比率差が存在する箇所の母音に、比率に応じたピッチ修正処理を施す。
以下、ピッチ修正方法を詳述する。例えば、口唇の開閉の大きさに応じた制御をおおまかに行うため、ピッチ比率を3種類とした場合を説明する(図2、図3参照)。
この実施形態の場合、特徴量を統計的モデルで保持している韻律データベース108に、図4に示すように、ピッチ比率に応じた複数のモデルの韻律データベース(108a〜108c)を予め用意しておく。
例えば、ピッチ比率2は、全体平均ピッチが250Hzである音声で構築された韻律データベース108aに対応し、ピッチ比率1は、全体平均ピッチが200Hzである音声で構築された韻律データベース108bに対応し、ピッチ比率0.5は、全体平均ピッチが150Hzである音声で構築された韻律データベース108cに対応するようにする。
合成するテキストの音素列が「a r a y u」であって、その母音部分に対応する検出されたピッチ比率が「2 − 0.5 − 0.5」とした場合、子音のピッチ比率として、当該子音の次の母音のピッチ比率をそのまま適用する。上述したように、有声子音のピッチは、有声子音の継続長が母音に比べ短く、ピッチ変化も母音に大きく影響することもあるので、後続の母音のピッチ比率と同じにすることとしたためである。これにより、音素列「a r a y u」のピッチ比率列「2 − 0.5 − 0.5 − 0.5 − 0.5」が得られる。そして、各ピッチ比率に対応したモデル(韻律データベース)を用いることにより、通常(点線)のピッチ形状と異なる、実線のピッチ形状を実現するようにピッチ形状を制御(修正)する。ピッチ比率列「2 − 0.5 − 0.5 − 0.5 − 0.5」の変化を緩やかに実現するように、ピッチ形状を制御(修正)する。
また、ピッチ修正処理の別の方法としては、比率差が存在する箇所の母音のピッチ列に対して、予め定めたフィルタを適用する。例えば、ピッチ比率が「2 − 0.5 − 0.5」と続いた場合、予め格納されている図5に示すようなピッチ形状を、通常ピッチに掛け合わせてピッチを修正する。
以上のようにして、音声合成を可能とする特徴量が得られた後の音声合成方法は、既存の音声合成方法(統計量ベース音声合成方式やコーパスベース音声合成方式)を適用することができる。
(A−3)実施形態の効果
上記実施形態によれば、発話者が、通常の音声を発声することが困難でひそひそ声でしか発声できない状況でも、口唇形状の開閉の大きさなどを変化させることにより、合成音声に自己が意図したイントネーションを付与することができる。言い換えると、発話者は、ひそひそ声の発話であっても、イントネーション(音の長さと高さ)を制御することができる。その結果、発話者の感情などを聴取者に正確に伝達することが可能となる。
(B)他の実施形態
上記実施形態では合成音声の処理に言及しなかったが、直ちに、発音出力しても良く、また、外部装置へ送信しても良く、さらには、記録媒体に記録するようにしても良い。
上記実施形態では、ピッチ比率が3種類の場合を例として示したが、ピッチ比率の種類は3種類に限定されず、2種類でも4種類以上であっても良い。同様に、個数を挙げた他のパラメータなどについても、挙げた個数以外を適用するようにしても良い。例えば、図2に示した追跡点も4個に限定されるものではない。
上記実施形態では、音声合成装置000を構成する音声信号分析器003、映像信号分析器004及び音声信号合成器005が全て、物理的に同一の装置に搭載されている場合を示したが、これら要素が物理的に別な装置に搭載されていても良い。例えば、音声信号分析器003及び映像信号分析器004が携帯電話に搭載され、音声信号合成器005が、携帯電話網のキャリア側の装置に搭載されていても良い。さらには、各要請要素内の一部を他の装置に搭載するようにしても良い。例えば、音声信号合成器005におけるテキスト解析部だけを他の装置に搭載するようにしても良い。
実施形態に係る音声合成装置の機能的構成を示すブロック図である。 実施形態におけるピッチ検出器の第1のピッチ検出方法の説明図である。 実施形態におけるピッチ検出器の第2のピッチ検出方法の説明図である。 実施形態における韻律推定部のピッチ修正方法の説明図である。 実施形態における韻律推定部のピッチ修正に適用するフィルタを示す説明図である。
符号の説明
000…音声合成装置、001…マイクロフォン、002…ビデオカメラ、003…音声信号分析器、004…映像信号分析器、005…音声信号合成器、103…合成処理部、104…テキスト解析部、105…韻律推定部、106…素片選択部、107…素片接続部、108…韻律データベース(韻律DB)、109…音声データベース(音声DB)。

Claims (5)

  1. 音声捕捉装置が捕捉した発話者からの無声音声と撮像装置が撮像した発話者の口唇画像とが同期して入力され、入力された無声音声及び口唇画像を処理して、発話者が意図した有音音声を合成する音声合成装置において、
    入力された口唇画像から有声音の母音に関する情報を抽出すると共に、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率をピッチ比率として抽出する映像信号分析手段と、
    第1に、入力された無声音声と、上記映像信号分析手段によって抽出された母音に対応する、無声母音から構築された音響モデルとから、子音に関する情報を抽出し、第2に、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、認識されたテキスト情報を抽出し、第3に、上記無声音声のパワーを検出することで発声全体の継続時間長を抽出する音声信号分析手段と、
    上記音声信号分析手段によって抽出された子音に関する情報、テキスト情報及び全体継続長と、上記映像信号分析手段によって抽出された有声音の母音に関する情報及びピッチ比率とから、イントネーションを付与した有音音声を合成する音声合成手段と
    を有することを特徴とする音声合成装置。
  2. 上記音声合成手段は、テキスト情報を解析して音素列、アクセント記号列及び形態素の品詞を得て、これら情報に対し、統計的モデルで構築されたモデルを適用して継続時間長を推定し、上記音声信号分析手段が抽出した発声全体の継続時間長と、自己が推定した継続時間長とから求まる比率を用い、上記モデルから求まる継続時間長を修正し、合成された有音音声の発声速度を調整することを特徴とする請求項1に記載の音声合成装置。
  3. 上記音声合成手段は、上記映像信号分析手段によって抽出されたピッチ比率を用いて、比率差が存在する箇所の母音に、比率に応じたピッチ修正処理を施して、合成された有音音声のピッチを調整することを特徴とする請求項1又は2に記載の音声合成装置。
  4. 音声捕捉装置が捕捉した発話者からの無声音声と撮像装置が撮像した発話者の口唇画像とが同期して入力され、入力された無声音声及び口唇画像を処理して、発話者が意図した有音音声を合成する音声合成方法において、
    映像信号分析手段、音声信号分析手段及び音声合成手段を備え、
    上記映像信号分析手段は、入力された口唇画像から有声音の母音に関する情報を抽出すると共に、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率をピッチ比率として抽出し、
    上記音声信号分析手段は、第1に、入力された無声音声と、上記映像信号分析手段によって抽出された母音に対応する、無声母音から構築された音響モデルとから、子音に関する情報を抽出し、第2に、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、認識されたテキスト情報を抽出し、第3に、上記無声音声のパワーを検出することで発声全体の継続時間長を抽出し、
    上記音声合成手段は、上記音声信号分析手段によって抽出された子音に関する情報、テキスト情報及び全体継続長と、上記映像信号分析手段によって抽出された有声音の母音に関する情報及びピッチ比率とから、イントネーションを付与した有音音声を合成する
    ことを特徴とする音声合成方法。
  5. 音声捕捉装置が捕捉した発話者からの無声音声と撮像装置が撮像した発話者の口唇画像とが同期して入力され、入力された無声音声及び口唇画像を処理して、発話者が意図した有音音声を合成するための音声合成プログラムであって、
    コンピュータを、
    入力された口唇画像から有声音の母音に関する情報を抽出すると共に、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率をピッチ比率として抽出する映像信号分析手段と、
    第1に、入力された無声音声と、上記映像信号分析手段によって抽出された母音に対応する、無声母音から構築された音響モデルとから、子音に関する情報を抽出し、第2に、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、認識されたテキスト情報を抽出し、第3に、上記無声音声のパワーを検出することで発声全体の継続時間長を抽出する音声信号分析手段と、
    上記音声信号分析手段によって抽出された子音に関する情報、テキスト情報及び全体継続長と、上記映像信号分析手段によって抽出された有声音の母音に関する情報及びピッチ比率とから、イントネーションを付与した有音音声を合成する音声合成手段と
    して機能させることを特徴とする音声合成プログラム。
JP2008097726A 2008-04-04 2008-04-04 音声合成装置、方法及びプログラム Expired - Fee Related JP5040778B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008097726A JP5040778B2 (ja) 2008-04-04 2008-04-04 音声合成装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008097726A JP5040778B2 (ja) 2008-04-04 2008-04-04 音声合成装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2009251199A true JP2009251199A (ja) 2009-10-29
JP5040778B2 JP5040778B2 (ja) 2012-10-03

Family

ID=41312000

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008097726A Expired - Fee Related JP5040778B2 (ja) 2008-04-04 2008-04-04 音声合成装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5040778B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101074817B1 (ko) * 2010-03-22 2011-10-19 한국과학기술연구원 스테레오 카메라를 이용한 3차원 비전 기반의 실시간 언어 인식 및 음성 생성 방법과 시스템
KR101187600B1 (ko) 2011-02-09 2012-10-08 한국과학기술연구원 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법
US9368104B2 (en) 2012-04-30 2016-06-14 Src, Inc. System and method for synthesizing human speech using multiple speakers and context
CN106570461A (zh) * 2016-10-21 2017-04-19 哈尔滨工业大学深圳研究生院 基于唇动认证的视频帧图片提取方法及系统
JP2018013549A (ja) * 2016-07-19 2018-01-25 株式会社デンソー 発話内容認識装置
CN108510978A (zh) * 2018-04-18 2018-09-07 中国人民解放军62315部队 一种应用于语种识别的英语声学模型的建模方法及系统
CN108538282A (zh) * 2018-03-15 2018-09-14 上海电力学院 一种由唇部视频直接生成语音的方法
JP2020076846A (ja) * 2018-11-07 2020-05-21 太朗 瀬水 音出力装置、音出力方法、及びコンピュータプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240283A (ja) * 1997-02-27 1998-09-11 Sanyo Electric Co Ltd 音声処理装置及び電話装置
JP2000068882A (ja) * 1998-08-17 2000-03-03 Matsushita Electric Ind Co Ltd 無線通信装置
JP2002351489A (ja) * 2001-05-29 2002-12-06 Namco Ltd ゲーム情報、情報記憶媒体、及びゲーム装置
JP2006276470A (ja) * 2005-03-29 2006-10-12 Nec Corp 音声通話装置および音声通話システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240283A (ja) * 1997-02-27 1998-09-11 Sanyo Electric Co Ltd 音声処理装置及び電話装置
JP2000068882A (ja) * 1998-08-17 2000-03-03 Matsushita Electric Ind Co Ltd 無線通信装置
JP2002351489A (ja) * 2001-05-29 2002-12-06 Namco Ltd ゲーム情報、情報記憶媒体、及びゲーム装置
JP2006276470A (ja) * 2005-03-29 2006-10-12 Nec Corp 音声通話装置および音声通話システム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101074817B1 (ko) * 2010-03-22 2011-10-19 한국과학기술연구원 스테레오 카메라를 이용한 3차원 비전 기반의 실시간 언어 인식 및 음성 생성 방법과 시스템
KR101187600B1 (ko) 2011-02-09 2012-10-08 한국과학기술연구원 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법
US9368104B2 (en) 2012-04-30 2016-06-14 Src, Inc. System and method for synthesizing human speech using multiple speakers and context
JP2018013549A (ja) * 2016-07-19 2018-01-25 株式会社デンソー 発話内容認識装置
CN106570461A (zh) * 2016-10-21 2017-04-19 哈尔滨工业大学深圳研究生院 基于唇动认证的视频帧图片提取方法及系统
CN108538282A (zh) * 2018-03-15 2018-09-14 上海电力学院 一种由唇部视频直接生成语音的方法
CN108538282B (zh) * 2018-03-15 2021-10-08 上海电力学院 一种由唇部视频直接生成语音的方法
CN108510978A (zh) * 2018-04-18 2018-09-07 中国人民解放军62315部队 一种应用于语种识别的英语声学模型的建模方法及系统
CN108510978B (zh) * 2018-04-18 2020-08-21 中国人民解放军62315部队 一种应用于语种识别的英语声学模型的建模方法及系统
JP2020076846A (ja) * 2018-11-07 2020-05-21 太朗 瀬水 音出力装置、音出力方法、及びコンピュータプログラム

Also Published As

Publication number Publication date
JP5040778B2 (ja) 2012-10-03

Similar Documents

Publication Publication Date Title
JP4085130B2 (ja) 感情認識装置
US7502739B2 (en) Intonation generation method, speech synthesis apparatus using the method and voice server
JP5040778B2 (ja) 音声合成装置、方法及びプログラム
Yegnanarayana et al. Epoch-based analysis of speech signals
Qian et al. A unified trajectory tiling approach to high quality speech rendering
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
US20020184027A1 (en) Speech synthesis apparatus and selection method
Picart et al. Analysis and synthesis of hypo and hyperarticulated speech
GB2380380A (en) Speech synthesis method and apparatus
US20020184030A1 (en) Speech synthesis apparatus and method
CN101114447A (zh) 语音翻译装置和方法
JP2008139568A (ja) 音声処理装置および音声処理方法、並びに、プログラム
JPH0922297A (ja) 音声‐テキスト変換のための方法および装置
JP2015068897A (ja) 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
WO2023279976A1 (zh) 语音合成方法、装置、设备及存储介质
Campbell Timing in Speech: a multi-level process
EP1298645A1 (en) Method for detecting emotions in speech, involving linguistic correlation information
US7627468B2 (en) Apparatus and method for extracting syllabic nuclei
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
Urbain et al. Automatic phonetic transcription of laughter and its application to laughter synthesis
CN113112575A (zh) 一种口型生成方法、装置、计算机设备及存储介质
Heracleous et al. Analysis and recognition of NAM speech using HMM distances and visual information
Knox et al. Getting the last laugh: automatic laughter segmentation in meetings.
JP5754141B2 (ja) 音声合成装置および音声合成プログラム
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120612

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120625

R150 Certificate of patent or registration of utility model

Ref document number: 5040778

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150720

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees