JP2000231396A

JP2000231396A - セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置

Info

Publication number: JP2000231396A
Application number: JP11031813A
Authority: JP
Inventors: Katsuhiko Hayashi; 克彦林
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-02-09
Filing date: 1999-02-09
Publication date: 2000-08-22

Abstract

(57)【要約】【課題】複数の話者を使ったドラマのような臨場感を
伴った文章読み上げが可能になるセリフデータ作成装
置、セリフ再生装置を提供すること。【解決手段】文章入力器６にセリフに対応する文章を
データとして入力しておく。入力端子１には文章入力器
６と同じ内容の文章を音声入力する。音声認識器３は音
声入力を解析して音韻データを出力する。構文解析器７
は文章を解析して音韻データを生成する。音韻比較器４
は音声認識器３で得られた音韻データと構文解析器７で
解析された音韻データを比較して同期を取りながら出力
する。韻律抽出器２は音声入力を解析して音声の韻律デ
ータＩを出力する。複合データ生成器５は、韻律抽出器
２から得られた韻律データＩと音韻比較器４の出力とし
て得られた音韻データＡとをセリフデータに埋めこむ。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声合成に係わ
り、特にドラマのセリフなど、自然な抑揚や間合い、感
情表現を伴った音声合成を行うセリフデータ作成装置、
セリフ再生装置、音声分析合成装置及び音声情報転送装
置に関するものである。

【０００２】

【従来の技術】近年、ディジタル技術の進歩やマイクロ
プロセッサの高性能化に伴い、各種の音声合成装置が提
供されている。特に音声合成においては、合成音の不自
然さを減少させることが非常に重要である。そのため、
あらかじめ自然音声を分析し、単位音声ごとに音声パラ
メータを抽出して、単位音声データと対にして単位音声
データテーブルに記憶しておき、合成する文字列に対応
する音韻データ、韻律データに基づいて、各単位音声ご
とに単位音声データテーブルを参照し、単位音声データ
中から最適なものを選択し、同時に対応する単位音声パ
ラメータを選択し、これらの単位音声データと単位音声
パラメータを使用して音声合成を行うなど、各種の技術
が考案されている。このような考えに基づいて、従来考
案された音声合成装置には特開平５−７３０９２号公報
に開示されているような音声合成装置がある。

【０００３】以下、従来技術から考えうる音声合成装置
について、図面を参照しながら説明する。図８は従来の
音声合成装置の構成を示すブロック図である。本図にお
いて、１０１は文章データの入力端子、１０２は入力さ
れた文章データを分析し音韻データＡと韻律データＩを
出力する構文解析器、１０３は音韻データＡと韻律デー
タＩをアドレスとして、単位音声データと単位音声パラ
メータを格納している単位音声データテーブル、１０４
は韻律データと単位音声データと単位音声パラメータか
ら音声波形を合成する合成器、１０５は合成された音声
の出力端子である。

【０００４】上記した従来の音声合成装置の動作につい
て、図面を参照しながら説明する。単位音声データテー
ブル１０３は自然な合成音声を作成するために、同一の
音韻に対して、異なる複数の韻律について単位音声を含
む連続発声された音声の中から抽出された、複数の単位
音声データを持っているものとする。

【０００５】入力端子１０１には、合成したい文章の情
報が、漢字カナ混じり文として入力される。構文解析器
１０２では、入力された漢字カナ混じり文を分析し、音
声に対応した音韻データＡ、韻律データＩを生成する。
ここで音韻データＡは個々の音韻を表す記号であり。韻
律情報Ｉはアクセントやイントネーションや区切り位置
などを表す記号である、音韻データＡ及び音律データＩ
は単位音声データテーブル１０３のアドレスとなり、音
韻データＡ及び音律データＩに対応する単位音声データ
Ｄと単位音声パラメータＰが、単位音声データテーブル
１０３の出力として得られる。単位音声データＤと音声
パラメータＰと韻律データＩは合成器１０４に与えら
れ、音声が合成されて出力端子１０５から出力される。

【０００６】このように音韻のみでなく韻律を考慮して
使用単位音声を切り出すため、実際に人間が発声したも
のに類似したスペクトルパターンの変化を実現できるの
で、単一の単位音声を用いる場合に比べ、聞き疲れしに
くい合成音声を生成することが可能となる。

【０００７】

【発明が解決しようとする課題】しかしながら、このよ
うな従来の音声合成装置では、文章を構文解析する際
に、標準的なアクセントを想定して音韻データを生成し
ている。従って入力された漢字カナ混じり文を、ニュー
スのアナウンスのように淡々と読み上げることになり、
ドラマのセリフのような感情表現を行うことができない
という問題を有していた。

【０００８】本発明は上記の課題を解決するもので、音
声合成する対象の文章を人間が読み上げて、読み上げた
時のイントネーション及び間合い等を抽出することによ
り、自然なイントネーション及び間合いで音声を合成す
ることが可能なセリフデータ作成装置及びこれを用いて
音声を合成するセリフ再生装置、音声分析合成装置と音
声情報転送装置を提供することを目的とする。又話者の
指定を行うことによって、例えば、複数の話者を使った
ドラマのような臨場感を伴った文章読み上げが可能にな
るセリフデータ作成装置や、セリフ再生装置、音声分析
合成装置、音声情報転送装置を提供することを目的とす
る。

【０００９】

【課題を解決するための手段】本願の請求項１の発明
は、音声が入力される入力端子と、前記入力端子から入
力された音声の音韻データを抽出する音声認識器と、前
記入力端子から入力された音声の韻律データを抽出する
韻律抽出器と、前記音声認識器で得られた音韻データに
前記韻律抽出器から得られる韻律データを付加してセリ
フデータとして出力する複合データ作成器と、具備する
ことを特徴とするものである。

【００１０】これにより、入力された音声から抽出され
た韻律データをそのままセリフデータにすることができ
ると共に、あらかじめ標準的な韻律データを蓄積してお
く必要もなくなる。

【００１１】本願の請求項２の発明は、音声が入力され
る入力端子と、前記入力端子から入力された音声を認識
して第１の音韻データを抽出する音声認識器と、前記第
入力端子から入力された音声の韻律データを抽出する韻
律抽出器と、文章入力器と、前記文章入力器から入力さ
れた文章を分析し構文解析クロックに同期して第２の音
韻データ出力する構文解析器と、前記第１の音韻データ
と前記第２の音韻データを比較し、一致及び類似を検出
したときに前記構文解析クロックを出力する音韻比較器
と、前記構文解析クロックと前記第２の音韻データと前
記韻律データが入力され、前記構文解析クロックに同期
して前記音韻データと前記韻律データとをセリフデータ
として出力する複合データ作成器と、を具備することを
特徴とするものである。

【００１２】セリフデータ作成装置では、文章を音声入
力して、この音声入力を音声認識器で解析して音韻デー
タや韻律データを生成する。同時に同じ文章を構文解析
器で解析して音韻データを生成する。更に、音声認識器
から得られた音韻データと構文解析器から得られた音韻
データが一致するよう音韻比較器で同期をとりながら、
音声認識器で得られた韻律データと構文解析器で得られ
た音韻データを複合データ生成器で処理してセリフデー
タを生成する。これにより、音声認識器が抽出した音韻
データと構文解析器で得られた音韻データを照合するこ
とができ、音韻データに間違いを含まないセリフデータ
を作成することが可能になる。

【００１３】本願の請求項３の発明は、音声が入力され
る第１の入力端子と、前記第１の入力端子から入力され
た音声を認識して第１の音韻データを抽出する音声認識
器と、前記第１の入力端子から入力された音声の韻律デ
ータを抽出する韻律抽出器と、文章入力器と、前記文章
入力器から入力された文章を分析し構文解析クロックに
同期して第２の音韻データを出力する構文解析器と、前
記第１の音韻データと前記第２の音韻データを比較し、
一致及び類似を検出したときに前記構文解析クロックを
出力する音韻比較器と、前記複合データ作成器に話者指
定データを入力する第２の入力端子と、前記構文解析ク
ロック、前記第２の音韻データ、前記韻律データ及び前
記話者データが入力され、前記構文解析クロックに同期
して前記音韻データと前記韻律データと前記話者指定デ
ータとをセリフデータとして出力する複合データ作成器
と、を具備することを特徴とするものである。

【００１４】これにより、話者選択データをセリフデー
タに付加することができるようになるので、複数話者に
よるドラマ構成のセリフデータを作成することが可能に
なる。

【００１５】本願の請求項４の発明は、セリフデータが
入力される入力端子と、前記入力端子から得られたセリ
フデータを音韻データと韻律データに分離する複合デー
タ分析器と、前記複合データ分析器から得られる音韻デ
ータ及び韻律データで指定された単位音声データと単位
音声パラメータを出力する単位音声データテーブルと、
前記単位音声データテーブルから得られた単位音声デー
タと単位音声パラメータと前記複合データ分析器から得
られた韻律データを入力として音声波形を合成する合成
器と、合成された音声の出力端子と、を具備することを
特徴とするものである。

【００１６】複合データ分析器は入力されたセリフデー
タをセリフデータを分析して音韻データと韻律データを
出力する。音韻データと韻律データは単位音声データテ
ーブルの索引となり、単位音声データテーブルは入力さ
れた音韻データと韻律データに対応する単位音声データ
と単位音声パラメータを出力する。これら単位音声デー
タと単位音声パラメータ及び複合データ分析器から得ら
れた韻律データは合成器に入力され、合成器はこれらを
合成して音声波形を合成する。これにより、音声で読み
上げられた自然の韻律に基づいた音声合成によるセリフ
再生が可能になる。

【００１７】本願の請求項５の発明は、セリフデータが
入力される入力端子と、前記入力端子から得られたセリ
フデータを音韻データと韻律データと話者指定データに
分離する複合データ分析器と、前記複合データ分析器か
ら得られる音韻データ及び韻律データ及び話者指定デー
タが入力され、指定された話者の単位音声データと単位
音声パラメータを出力する単位音声データテーブルと、
前記単位音声データテーブルから得られた単位音声デー
タと単位音声パラメータと前記複合データ分析器から得
られた韻律データを入力として音声波形を合成する合成
器と、合成された音声の出力端子と、を具備することを
特徴とするものである。

【００１８】これにより、これにより、音声で読み上げ
られた自然の韻律に基づいた音声合成による複数話者の
ドラマ構成のセリフ再生が可能になる。

【００１９】本願の請求項６の発明は、請求項１又は請
求項２に記載のセリフデータ作成装置と、前記セリフデ
ータ作成装置で作成されたセリフデータを入力とする請
求項４に記載のセリフ再生装置と、を備えたことを特徴
とするものである。

【００２０】本願の請求項７の発明は、請求項３に記載
のセリフデータ作成装置と、前記セリフデータ作成装置
で作成されたセリフデータを入力とする請求項５に記載
のセリフ再生装置と、を備えたことを特徴とするもので
ある。

【００２１】セリフデータ作成装置の出力とセリフ再生
装置の入力を直結することによって、構成された音声分
析合成装置は音声で読み上げられた自然の韻律に基づい
た音声のリアルタイム分析合成が可能になる。これによ
り、音声で読み上げられた自然の韻律に基づいた複数話
者の音声分析合成が可能になる。

【００２２】本願の請求項８の発明は、請求項１又は請
求項２に記載のセリフデータ作成装置と、前記セリフデ
ータ作成装置で作成されたセリフデータを転送する転送
網と、前記転送網によって転送されたセリフデータを入
力とする請求項４に記載のセリフ再生装置と、を備えた
ことを特徴とするものである。

【００２３】セリフデータ作成装置の出力とセリフ再生
装置の入力を転送網で結合して構成された音声情報伝送
装置は、音声で読み上げられた自然の韻律に基づいた音
声のリアルタイム及びノンリアルタイムの転送が可能な
上、転送するデータ量が音声波形を転送するよりはるか
に少量になる。

【００２４】本願の請求項９の発明は、請求項３に記載
のセリフデータ作成装置と、前記セリフデータ作成装置
で作成されたセリフデータを転送する転送網と、前記転
送網によって転送されたセリフデータを入力とする請求
項５に記載のセリフ再生装置と、を備えたことを特徴と
するものである。

【００２５】又セリフデータ作成装置に話者選択入力を
設けてこれをセリフデータに反映し、同時にセリフ再生
装置の単位音声データテーブルに複数話者の単位音声デ
ータと単位音声パラメータを持ち、セリフデータの指示
によりこれらの話者を切り替えることによって、複数話
者によるドラマ構成のセリフデータを作成及び再生がで
きるようになる。これにより、非常に小容量のデータを
転送するだけで音声で読み上げられた自然の韻律に基づ
いた音声情報の転送が可能になる。

【００２６】

【発明の実施の形態】（第１の実施の形態）以下、本発
明の音声情報転送装置の第１の実施の形態について図面
を参照しながら説明する。図１は本実施における音声情
報転送装置の構成を示すブロック図である。図１におい
て３０はマイク、３１はセリフデータ作成装置、３２は
転送網、３３はセリフ再生装置、３４はスピーカであ
る。

【００２７】図２は本実施の形態におけるセリフデータ
作成装置３１の構成を示すブロック図である。図２にお
いて、セリフデータ作成装置３１は、入力端子１、韻律
抽出器２、音声認識器３、音韻比較器４、複合データ作
成器５、文章入力器６、構文解析器７、入力端子８、話
者指示器９、出力端子１０を含んで構成される。入力端
子１はセリフに対応する音声データを入力する端子であ
り、韻律抽出器２は韻律データＩを抽出するものであ
り、音声認識器３は入力された音声信号の音韻データＡ
を抽出するものである。又音韻比較器４は音声認識器３
と構文解析器７で解析された音韻データを比較し、一致
又は類似する場合に構文解析クロックを生成していずれ
か一方の同期をとって複合データ作成器５に出力するも
のである。文章入力器６は入力する文章を保持してお
り、構文解析器７はその構文解析クロックによって発生
した音声と同期をとって解析するものである。又話者指
示器９は話者指定の入力に基づいて話者指定データを複
合データ作成器５に出力するものである。

【００２８】図３は本実施の形態におけるセリフ再生装
置３３の構成を示すブロック図である。図３において、
セリフ再生装置３３は、入力端子２１、複合データ分析
器２２、単位音声データテーブル２０３、合成器１０
４、出力端子１０５を含んで構成される。入力端子２１
は転送網３２を介してセリフデータ作成装置３１より転
送された複合データが入力される。複合データ分析器２
２はこのデータを音韻データＡ，韻律データＩ及び話者
選択データＳに分離し、いずれも単位音声データテーブ
ル２０３に出力するものである。単位音声データテーブ
ル２０３はこれらのデータに基づいて音声データテーブ
ルを参照し、単位音声パラメータＰと単位音声データＤ
を出力するものである。合成器１０４はこれらに基づい
て音声合成を行い、出力端子１０５より出力するもので
ある。

【００２９】以上のように構成された、セリフデータ作
成装置３１及びセリフ再生装置３３及び音声情報転送装
置について、順次その動作を説明する。まず、セリフデ
ータ作成装置３１を説明する。セリフデータ作成装置３
１では、あらかじめ文章入力器６に作成するセリフに対
応する文章をデータとして入力しておく。更に、入力端
子１から文章を音声入力すると、入力された音声は、音
声認識器３で解析されて、第１の音韻データとなる。同
時に同じ文章が構文解析器７で解析されて第２の音韻デ
ータが生成される。但し構文解析器７は構文解析クロッ
クが入力される毎に１音韻づつ第２の音韻データを生成
する。更に音声認識器３で得られた第１の音韻データと
構文解析器７で解析された音韻データを音韻比較器４で
比較する。第２の音韻データは常に正しいが、第１の音
韻データは音声認識の誤差により第１の音韻データと異
なる音韻データを生成する場合がある。音韻比較器４は
第１の音韻データと第２の音韻が一致するか音声認識の
誤差範囲でほぼ類似するとき、構文解析クロックを生成
する。この構文解析クロックによって、構文解析器７は
次の音韻データの生成を行う。但し音韻比較器４は構文
解析器７の音韻データと音声認識器３の音韻データが全
く異なる場合は、音声入力された音韻があらかじめ文章
入力器６に設定されたものと異なると判断して、構文解
析クロックは生成しない。つまり複合データ生成器５に
は常にあらかじめ意図した通りの音韻データが入力され
ることになる。

【００３０】入力端子１から入力された音声は同時に韻
律抽出器２にも入力され、韻律抽出器２は入力された音
声の韻律データＩを出力する。韻律抽出器２から得られ
た韻律データＩと構文解析器７の出力として得られた音
韻データＡは複合データ生成器５に入力される。又入力
端子８からはセリフデータに埋めこむ話者情報の選択値
を入力し、この選択値に基づいて話者指示器９が話者指
定データを出力する。話者指示器９から出力された話者
指定データＳは複合データ生成器５に入力される。複合
データ生成器５は構文解析クロックが入力される毎に音
韻データＡ及び韻律データＩと話者指定データＳを合成
して新しいセリフデータを生成し、出力端子１０から出
力する。図４はセリフデータの一例を示す図であり、Ｓ
₀ ，Ｓ₁は話者指定データ、Ａ_i （ｉ＝０，１，２・・
・）は時系列で得られる音韻データ、Ｉ_i （ｉ＝０，
１，２・・・）はこれに対応する韻律データを示してい
る。

【００３１】次に、セリフ再生装置３３の動作について
図３を用いて説明する。セリフ再生装置３３の入力端子
２１にはセリフデータが入力される。セリフデータは複
合データ分析器２２によって、音韻データＡと韻律デー
タＩ及び話者指定データＳとなって出力される。これら
音韻データＡと韻律データＩは単位音声データテーブル
２０３の索引となり、単位音声データテーブル２０３は
入力された音韻データと韻律データに対応する単位音声
データＤと単位音声パラメータＰを出力する。更に単位
音声データテーブルには複数の話者の単位音声データと
単位音声パラメータが格納されており、複合データ分析
器２２から与えられる話者指定データＳによって指示さ
れる特定の話者のデータが出力されるようになってい
る。これら単位音声データと単位音声パラメータ及び複
合データ分析器２２から得られた韻律データＩは合成器
１０４に入力される。合成器１０４は単位音声データＤ
と単位音声パラメータＰと韻律データＩを元に波形を合
成して音声波形を出力する。

【００３２】音声情報伝送装置は、このように構成され
たセリフデータ作成装置３１の出力とセリフ再生装置３
３を転送網３２で介して接続したものである。セリフデ
ータ作成装置２１の入力端子１にはマイク３０が接続さ
れ、セリフ再生装置３３の出力にはスピーカ３４が接続
される。転送網３２はセリフデータ作成装置３１から出
力されたセリフデータを転送し、セリフ再生装置３３に
入力するものであり、一般加入電話回線、ＩＳＤＮ、光
ケーブル、マイクロウエーブ通信などであればよく、特
に限定されるものではない。又この実施の形態ではこれ
らを一般化しているため、これらの転送網固有のアダプ
タ( モデムやターミナルアダプタなど)は転送網３２に
含めて説明している。

【００３３】以上のように本実施の形態の音声情報転送
装置によれば、セリフデータ作成装置３１は、文章を音
声入力して、この音声入力を韻律抽出器２と音声認識器
３で解析して韻律データや音韻データを生成する。同時
に同じ文章を構文解析器７で解析して音韻データを生成
する。更に、音声認識器３から得られた音韻データと構
文解析器７から得られた音韻データが一致するよう音韻
比較器４で同期をとりながら、音声認識器３で得られた
韻律データと構文解析器７で得られた音韻データを複合
データ生成器で処理してセリフデータを生成する。セリ
フデータ作成装置３１に話者選択入力を設けてこれをセ
リフデータの一部とする。こうすればマイク３０から入
力された音声をセリフデータ作成装置３１によってセリ
フデータに変換することができる。一般に音声波形デー
タに比べてセリフデータは非常に小さくなるので、マイ
ク３０に入力された音声を情報圧縮して転送網３２を介
してセリフ再生装置３３に入力することになる。つまり
転送網３２を経由するデータ量が音声波形データをその
まま転送するよりはるかに少なくなるので、転送網にか
かる転送負荷が非常に小さくなり、転送時間とコストが
大幅に圧縮される。

【００３４】セリフ再生装置３３は、前記したセリフデ
ータを複合データ分析器２２に入力し、音韻データと韻
律データと話者選択データに分解する。話者選択データ
と音韻データと韻律データは単位音声データテーブル２
０３の索引となり、単位音声データと単位音声パラメー
タを出力する。これら単位音声データと単位音声パラメ
ータ及び韻律データは合成器１０４に入力され、合成器
１０４はこれらを合成して音声波形を合成する。この場
合セリフデータ作成装置３１で作成されるセリフデータ
は、音声で読み上げられた韻律に基づいているので、セ
リフ再生装置３３から自然な音声を得ることができる。

【００３５】又セリフデータの作成時に、話者データの
変更が可能なので、複数の話者によるセリフの再生がで
きる。これによって、複数話者によるドラマ構成のセリ
フデータを作成及び転送、再生ができるようになる。

【００３６】尚、本実施の形態では、転送網３２には特
に記憶装置を設けなかったが、たとえばパソコン通信網
などの場合には、ホストコンピュータに一旦セリフデー
タを蓄積することによって、ボイスメールサービスを実
現できることはいうまでもない。

【００３７】（第２の実施の形態）以下、本発明の音源
装置の第２の実施の形態について図面を参照しながら説
明する。図５は本実施の形態における音声分析合成装置
の構成を示すブロック図であり、第１の実施の形態と同
一部分は同一符号を付して詳細な説明を省略する。図５
において３０はマイク、３６はセリフデータ作成装置、
３２は転送網、３７はセリフ再生装置、３４はスピーカ
である。第１の実施の形態と異なるのはセリフデータ作
成装置３６及びセリフ再生装置３７の構成である。

【００３８】図６は本実施の形態におけるセリフデータ
作成装置３６の構成を示すブロック図である。図６にお
いて、セリフデータ作成装置３６は、入力端子１、韻律
抽出器２、音声認識器３、音韻比較器４、複合データ作
成器５、出力端子１０を含んで構成されている。

【００３９】図７は本実施の形態におけるセリフ再生装
置３７の構成を示すブロック図である。図７において、
セリフ再生装置３７は入力端子２１、複合データ分析器
２３、単位音声データテーブル１０３、合成器１０４、
出力端子１０５を含んで構成されている。

【００４０】以上のように構成された、セリフデータ作
成装置３６及びセリフ再生装置３７及び音声分析合成装
置について、順次その動作を説明する。まず、セリフデ
ータ作成装置３６を説明する。セリフデータ作成装置３
６では、入力端子１から文章を音声入力すると、入力さ
れた音声は、音声認識器３で解析されて、音韻データＡ
となる。入力端子１から入力された音声は同時に韻律抽
出器２にも入力され、韻律抽出器２は入力された音声の
韻律データＩを出力する。音声認識器３の出力として得
られた音韻データＡと韻律抽出器２から得られた韻律デ
ータＩと複合データ生成器５に入力される。複合データ
生成器５で処理されて出力端子１０からセリフデータと
して出力される。

【００４１】次に、セリフ再生装置３７について図７を
用いて説明する。セリフ再生装置３７は入力端子２１か
らセリフデータが入力される。セリフデータは複合デー
タ分析器２３によって、音韻データＡと韻律データＩと
なって出力される。これら音韻データと韻律データは単
位音声データテーブル１０３の索引となり、単位音声デ
ータテーブル１０３は入力された音韻データと韻律デー
タに対応する単位音声データと単位音声パラメータを出
力する。これら単位音声データと単位音声パラメータ及
び複合データ分析器２３から得られた韻律データは合成
器１０４に入力される。合成器１０４は単位音声データ
と単位音声パラメータと韻律データを元に波形を合成し
て音声波形を出力端子１０５に出力する。

【００４２】音声情報転送装置は、このようにセリフデ
ータ作成装置３６の出力とセリフ再生装置３７を転送網
３２で介して接続し、セリフデータ作成装置３６の入力
端子１にマイク３０を接続し、セリフ再生装置３７の出
力にはスピーカ３４を接続して構成される。転送網３２
はセリフデータ作成装置３６から出力されたセリフデー
タを転送し、セリフ再生装置３７に入力する。転送網は
一般加入電話回線、ＩＳＤＮ、光ケーブル、マイクロウ
エーブ通信など特に限定されるものではない、又この実
施の形態ではこれらを一般化しているため、これらの転
送網固有のアダプタ( モデムやターミナルアダプタな
ど) は転送網３２に含めて説明している。こうすれば転
送網３２を介して、リアルタイムにセリフデータ作成し
つつ送信できるようになる。

【００４３】第１の実施の形態と異なるのは、セリフデ
ータ作成装置３６に文章入力器６及び構文解析器７及び
音韻比較器４を設けていない点である。このようにする
ことによって、第２の実施の形態では、セリフデータを
作成する際にあらかじめセリフの内容を定める必要がな
いので、セリフデータ作成装置３６はリアルタイムにセ
リフデータを作成することを可能にしている。

【００４４】以上のように本実施の形態の音声情報転送
装置によれば、セリフデータ作成装置３６は、入力端子
１に文章を音声入力して、この音声入力を音声認識器３
で解析して音韻データや韻律データを生成する。音声認
識器３で得られた音韻データと複合データ生成器で処理
してセリフデータを生成する。

【００４５】セリフ再生装置３７では前記したセリフデ
ータが複合データ分析器２１に入力され音韻データと韻
律データに分解される。音韻データと韻律データは単位
音声データテーブル１０３の索引となり、単位音声デー
タと単位音声パラメータを出力する。これら単位音声デ
ータと単位音声パラメータ及び韻律データは合成器１０
４に入力され、合成器１０４はこれらを合成して音声波
形を合成する。このようなセリフデータ作成装置３６と
セリフ再生装置３７を転送網３２で結合することによっ
て、自然な音声合成音を実現すると共に、リアルタイム
でのセリフデータの作成と転送を可能にしている。

【００４６】又セリフデータ作成装置３６とセリフ再生
装置３７とを直接接続する構成をとることにより、音声
分析合成装置とすることができる。この場合はマイク３
０から入力された音声をセリフデータ作成装置３６によ
ってセリフデータに変換し、再び合成することができ
る。

【００４７】尚、本実施の形態では、説明を簡単にする
ため話者設定データを設けなかったが、実施の形態１と
同様に話者設定データをセリフデータに埋めこむことが
できるのは言うまでもない。

【００４８】

【発明の効果】以上のように請求項１記載のセリフデー
タ作成装置では、文章を音声入力して音声認識器で得ら
れた韻律データと構文解析器で得られた音韻データを複
合データ生成器で処理してセリフデータを生成する。こ
れにより入力された音声から抽出された韻律データをそ
のままセリフデータとして出力することができる。従っ
てあらかじめ標準的な韻律データを蓄積する必要がな
く、音声を入力する際の感情表現等も可能となる。

【００４９】又請求項２の発明では、音声認識器が抽出
した音韻データと構文解析器で得られた韻律データを照
合しているため、音韻データに間違いを含まないセリフ
データを作成することができるという効果が得られる。

【００５０】又請求項３の発明では、話者選択データを
セリフデータに付加することができるため、複数の話者
によるドラマ構成のセリフデータを作成することができ
る。

【００５１】更に請求項４の発明では、音声で読み上げ
られた自然の韻律に基づいて音声合成によるセリフを再
生することができる。又請求項５の発明では、音声で読
み上げられた自然の韻律に基づいて音声合成による複数
話者のドラマ構成のセリフ再生が可能となる。

【００５２】更に請求項６，７の発明では、セリフデー
タ作成装置の出力とセリフ再生装置の入力を直結してい
るため、音声で読み上げられた自然の韻律に基づいた音
声のリアルタイム分析合成が可能になる。

【００５３】又請求項８，９の発明では、セリフデータ
作成装置の出力とセリフ再生装置の入力を転送網で結合
しているため、音声で読み上げられた自然の韻律に基づ
いた音声のリアルタイム及びノンリアルタイムの転送が
可能となる。又転送するデータ量が音声波形を転送する
よりはるかに少量になる。

【００５４】又請求項７，９の発明では、セリフデータ
作成装置に話者選択入力を設けてこれをセリフデータに
反映し、同時にセリフ再生装置の単位音声データテーブ
ルに複数話者の単位音声データと単位音声パラメータを
持ち、セリフデータの指示に従い、これらの話者を切り
替えることによって、複数話者によるドラマ構成のセリ
フデータを作成及び再生ができ、その実用上優れた効果
を有するものである。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態による音声情報転送
装置の全体構成を示すブロック図である。

【図２】本実施の形態によるセリフデータ作成装置の構
成を示すブロック図である。

【図３】本の実施の形態によるセリフ再生装置の構成を
示すブロック図である。

【図４】本の実施の形態によるセリフデータの一例を示
す図である。

【図５】本発明の第２の実施の形態による音声情報転送
装置の全体構成を示すブロック図である。

【図６】本実施の形態によるセリフデータ作成装置の構
成を示すブロック図である。

【図７】本の実施の形態によるセリフ再生装置の構成を
示すブロック図である。

【図８】従来の音声合成装置の一例を示す図である。

【符号の説明】

１，８，２０，１０１入力端子２韻律抽出器３音声認識器４音韻比較器５複合データ作成器６文章入力器７，１０２構文解析器９話者指示器１０，１０５出力端子２２，２３複合データ分析器３０マイクロホン３１，３６セリフデータ作成装置３２転送網３３，３７セリフ再生装置３４スピーカ１０３，２０３単位音声データテーブル１０４合成器

Claims

【特許請求の範囲】

【請求項１】音声が入力される入力端子と、前記入力端子から入力された音声の音韻データを抽出す
る音声認識器と、前記入力端子から入力された音声の韻律データを抽出す
る韻律抽出器と、前記音声認識器で得られた音韻データに前記韻律抽出器
から得られる韻律データを付加してセリフデータとして
出力する複合データ作成器と、具備することを特徴とす
るセリフデータ作成装置。
【請求項２】音声が入力される入力端子と、前記入力端子から入力された音声を認識して第１の音韻
データを抽出する音声認識器と、前記第入力端子から入力された音声の韻律データを抽出
する韻律抽出器と、文章入力器と、前記文章入力器から入力された文章を分析し構文解析ク
ロックに同期して第２の音韻データ出力する構文解析器
と、前記第１の音韻データと前記第２の音韻データを比較
し、一致及び類似を検出したときに前記構文解析クロッ
クを出力する音韻比較器と、前記構文解析クロックと前記第２の音韻データと前記韻
律データが入力され、前記構文解析クロックに同期して
前記音韻データと前記韻律データとをセリフデータとし
て出力する複合データ作成器と、を具備することを特徴
とするセリフデータ作成装置。
【請求項３】音声が入力される第１の入力端子と、前記第１の入力端子から入力された音声を認識して第１
の音韻データを抽出する音声認識器と、前記第１の入力端子から入力された音声の韻律データを
抽出する韻律抽出器と、文章入力器と、前記文章入力器から入力された文章を分析し構文解析ク
ロックに同期して第２の音韻データを出力する構文解析
器と、前記第１の音韻データと前記第２の音韻データを比較
し、一致及び類似を検出したときに前記構文解析クロッ
クを出力する音韻比較器と、前記複合データ作成器に話者指定データを入力する第２
の入力端子と、前記構文解析クロック、前記第２の音韻データ、前記韻
律データ及び前記話者データが入力され、前記構文解析
クロックに同期して前記音韻データと前記韻律データと
前記話者指定データとをセリフデータとして出力する複
合データ作成器と、を具備することを特徴とするセリフ
データ作成装置。
【請求項４】セリフデータが入力される入力端子と、前記入力端子から得られたセリフデータを音韻データと
韻律データに分離する複合データ分析器と、前記複合データ分析器から得られる音韻データ及び韻律
データで指定された単位音声データと単位音声パラメー
タを出力する単位音声データテーブルと、前記単位音声データテーブルから得られた単位音声デー
タと単位音声パラメータと前記複合データ分析器から得
られた韻律データを入力として音声波形を合成する合成
器と、合成された音声の出力端子と、を具備することを特徴と
するセリフ再生装置。
【請求項５】セリフデータが入力される入力端子と、前記入力端子から得られたセリフデータを音韻データと
韻律データと話者指定データに分離する複合データ分析
器と、前記複合データ分析器から得られる音韻データ及び韻律
データ及び話者指定データが入力され、指定された話者
の単位音声データと単位音声パラメータを出力する単位
音声データテーブルと、前記単位音声データテーブルから得られた単位音声デー
タと単位音声パラメータと前記複合データ分析器から得
られた韻律データを入力として音声波形を合成する合成
器と、合成された音声の出力端子と、を具備することを特徴と
するセリフ再生装置。
【請求項６】請求項１又は請求項２に記載のセリフデ
ータ作成装置と、前記セリフデータ作成装置で作成されたセリフデータを
入力とする請求項４に記載のセリフ再生装置と、を備え
たことを特徴とする音声分析合成装置。
【請求項７】請求項３に記載のセリフデータ作成装置
と、前記セリフデータ作成装置で作成されたセリフデータを
入力とする請求項５に記載のセリフ再生装置と、を備え
たことを特徴とする音声分析合成装置。
【請求項８】請求項１又は請求項２に記載のセリフデ
ータ作成装置と、前記セリフデータ作成装置で作成されたセリフデータを
転送する転送網と、前記転送網によって転送されたセリフデータを入力とす
る請求項４に記載のセリフ再生装置と、を備えたことを
特徴とする音声情報転送装置。
【請求項９】請求項３に記載のセリフデータ作成装置
と、前記セリフデータ作成装置で作成されたセリフデータを
転送する転送網と、前記転送網によって転送されたセリフデータを入力とす
る請求項５に記載のセリフ再生装置と、を備えたことを
特徴とする音声情報転送装置。