JP2000231396A - セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置 - Google Patents

セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置

Info

Publication number
JP2000231396A
JP2000231396A JP11031813A JP3181399A JP2000231396A JP 2000231396 A JP2000231396 A JP 2000231396A JP 11031813 A JP11031813 A JP 11031813A JP 3181399 A JP3181399 A JP 3181399A JP 2000231396 A JP2000231396 A JP 2000231396A
Authority
JP
Japan
Prior art keywords
data
speech
input
voice
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11031813A
Other languages
English (en)
Inventor
Katsuhiko Hayashi
克彦 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP11031813A priority Critical patent/JP2000231396A/ja
Publication of JP2000231396A publication Critical patent/JP2000231396A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 複数の話者を使ったドラマのような臨場感を
伴った文章読み上げが可能になるセリフデータ作成装
置、セリフ再生装置を提供すること。 【解決手段】 文章入力器6にセリフに対応する文章を
データとして入力しておく。入力端子1には文章入力器
6と同じ内容の文章を音声入力する。音声認識器3は音
声入力を解析して音韻データを出力する。構文解析器7
は文章を解析して音韻データを生成する。音韻比較器4
は音声認識器3で得られた音韻データと構文解析器7で
解析された音韻データを比較して同期を取りながら出力
する。韻律抽出器2は音声入力を解析して音声の韻律デ
ータIを出力する。複合データ生成器5は、韻律抽出器
2から得られた韻律データIと音韻比較器4の出力とし
て得られた音韻データAとをセリフデータに埋めこむ。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声合成に係わ
り、特にドラマのセリフなど、自然な抑揚や間合い、感
情表現を伴った音声合成を行うセリフデータ作成装置、
セリフ再生装置、音声分析合成装置及び音声情報転送装
置に関するものである。
【0002】
【従来の技術】近年、ディジタル技術の進歩やマイクロ
プロセッサの高性能化に伴い、各種の音声合成装置が提
供されている。特に音声合成においては、合成音の不自
然さを減少させることが非常に重要である。そのため、
あらかじめ自然音声を分析し、単位音声ごとに音声パラ
メータを抽出して、単位音声データと対にして単位音声
データテーブルに記憶しておき、合成する文字列に対応
する音韻データ、韻律データに基づいて、各単位音声ご
とに単位音声データテーブルを参照し、単位音声データ
中から最適なものを選択し、同時に対応する単位音声パ
ラメータを選択し、これらの単位音声データと単位音声
パラメータを使用して音声合成を行うなど、各種の技術
が考案されている。このような考えに基づいて、従来考
案された音声合成装置には特開平5−73092号公報
に開示されているような音声合成装置がある。
【0003】以下、従来技術から考えうる音声合成装置
について、図面を参照しながら説明する。図8は従来の
音声合成装置の構成を示すブロック図である。本図にお
いて、101は文章データの入力端子、102は入力さ
れた文章データを分析し音韻データAと韻律データIを
出力する構文解析器、103は音韻データAと韻律デー
タIをアドレスとして、単位音声データと単位音声パラ
メータを格納している単位音声データテーブル、104
は韻律データと単位音声データと単位音声パラメータか
ら音声波形を合成する合成器、105は合成された音声
の出力端子である。
【0004】上記した従来の音声合成装置の動作につい
て、図面を参照しながら説明する。単位音声データテー
ブル103は自然な合成音声を作成するために、同一の
音韻に対して、異なる複数の韻律について単位音声を含
む連続発声された音声の中から抽出された、複数の単位
音声データを持っているものとする。
【0005】入力端子101には、合成したい文章の情
報が、漢字カナ混じり文として入力される。構文解析器
102では、入力された漢字カナ混じり文を分析し、音
声に対応した音韻データA、韻律データIを生成する。
ここで音韻データAは個々の音韻を表す記号であり。韻
律情報Iはアクセントやイントネーションや区切り位置
などを表す記号である、音韻データA及び音律データI
は単位音声データテーブル103のアドレスとなり、音
韻データA及び音律データIに対応する単位音声データ
Dと単位音声パラメータPが、単位音声データテーブル
103の出力として得られる。単位音声データDと音声
パラメータPと韻律データIは合成器104に与えら
れ、音声が合成されて出力端子105から出力される。
【0006】このように音韻のみでなく韻律を考慮して
使用単位音声を切り出すため、実際に人間が発声したも
のに類似したスペクトルパターンの変化を実現できるの
で、単一の単位音声を用いる場合に比べ、聞き疲れしに
くい合成音声を生成することが可能となる。
【0007】
【発明が解決しようとする課題】しかしながら、このよ
うな従来の音声合成装置では、文章を構文解析する際
に、標準的なアクセントを想定して音韻データを生成し
ている。従って入力された漢字カナ混じり文を、ニュー
スのアナウンスのように淡々と読み上げることになり、
ドラマのセリフのような感情表現を行うことができない
という問題を有していた。
【0008】本発明は上記の課題を解決するもので、音
声合成する対象の文章を人間が読み上げて、読み上げた
時のイントネーション及び間合い等を抽出することによ
り、自然なイントネーション及び間合いで音声を合成す
ることが可能なセリフデータ作成装置及びこれを用いて
音声を合成するセリフ再生装置、音声分析合成装置と音
声情報転送装置を提供することを目的とする。又話者の
指定を行うことによって、例えば、複数の話者を使った
ドラマのような臨場感を伴った文章読み上げが可能にな
るセリフデータ作成装置や、セリフ再生装置、音声分析
合成装置、音声情報転送装置を提供することを目的とす
る。
【0009】
【課題を解決するための手段】本願の請求項1の発明
は、音声が入力される入力端子と、前記入力端子から入
力された音声の音韻データを抽出する音声認識器と、前
記入力端子から入力された音声の韻律データを抽出する
韻律抽出器と、前記音声認識器で得られた音韻データに
前記韻律抽出器から得られる韻律データを付加してセリ
フデータとして出力する複合データ作成器と、具備する
ことを特徴とするものである。
【0010】これにより、入力された音声から抽出され
た韻律データをそのままセリフデータにすることができ
ると共に、あらかじめ標準的な韻律データを蓄積してお
く必要もなくなる。
【0011】本願の請求項2の発明は、音声が入力され
る入力端子と、前記入力端子から入力された音声を認識
して第1の音韻データを抽出する音声認識器と、前記第
入力端子から入力された音声の韻律データを抽出する韻
律抽出器と、文章入力器と、前記文章入力器から入力さ
れた文章を分析し構文解析クロックに同期して第2の音
韻データ出力する構文解析器と、前記第1の音韻データ
と前記第2の音韻データを比較し、一致及び類似を検出
したときに前記構文解析クロックを出力する音韻比較器
と、前記構文解析クロックと前記第2の音韻データと前
記韻律データが入力され、前記構文解析クロックに同期
して前記音韻データと前記韻律データとをセリフデータ
として出力する複合データ作成器と、を具備することを
特徴とするものである。
【0012】セリフデータ作成装置では、文章を音声入
力して、この音声入力を音声認識器で解析して音韻デー
タや韻律データを生成する。同時に同じ文章を構文解析
器で解析して音韻データを生成する。更に、音声認識器
から得られた音韻データと構文解析器から得られた音韻
データが一致するよう音韻比較器で同期をとりながら、
音声認識器で得られた韻律データと構文解析器で得られ
た音韻データを複合データ生成器で処理してセリフデー
タを生成する。これにより、音声認識器が抽出した音韻
データと構文解析器で得られた音韻データを照合するこ
とができ、音韻データに間違いを含まないセリフデータ
を作成することが可能になる。
【0013】本願の請求項3の発明は、音声が入力され
る第1の入力端子と、前記第1の入力端子から入力され
た音声を認識して第1の音韻データを抽出する音声認識
器と、前記第1の入力端子から入力された音声の韻律デ
ータを抽出する韻律抽出器と、文章入力器と、前記文章
入力器から入力された文章を分析し構文解析クロックに
同期して第2の音韻データを出力する構文解析器と、前
記第1の音韻データと前記第2の音韻データを比較し、
一致及び類似を検出したときに前記構文解析クロックを
出力する音韻比較器と、前記複合データ作成器に話者指
定データを入力する第2の入力端子と、前記構文解析ク
ロック、前記第2の音韻データ、前記韻律データ及び前
記話者データが入力され、前記構文解析クロックに同期
して前記音韻データと前記韻律データと前記話者指定デ
ータとをセリフデータとして出力する複合データ作成器
と、を具備することを特徴とするものである。
【0014】これにより、話者選択データをセリフデー
タに付加することができるようになるので、複数話者に
よるドラマ構成のセリフデータを作成することが可能に
なる。
【0015】本願の請求項4の発明は、セリフデータが
入力される入力端子と、前記入力端子から得られたセリ
フデータを音韻データと韻律データに分離する複合デー
タ分析器と、前記複合データ分析器から得られる音韻デ
ータ及び韻律データで指定された単位音声データと単位
音声パラメータを出力する単位音声データテーブルと、
前記単位音声データテーブルから得られた単位音声デー
タと単位音声パラメータと前記複合データ分析器から得
られた韻律データを入力として音声波形を合成する合成
器と、合成された音声の出力端子と、を具備することを
特徴とするものである。
【0016】複合データ分析器は入力されたセリフデー
タをセリフデータを分析して音韻データと韻律データを
出力する。音韻データと韻律データは単位音声データテ
ーブルの索引となり、単位音声データテーブルは入力さ
れた音韻データと韻律データに対応する単位音声データ
と単位音声パラメータを出力する。これら単位音声デー
タと単位音声パラメータ及び複合データ分析器から得ら
れた韻律データは合成器に入力され、合成器はこれらを
合成して音声波形を合成する。これにより、音声で読み
上げられた自然の韻律に基づいた音声合成によるセリフ
再生が可能になる。
【0017】本願の請求項5の発明は、セリフデータが
入力される入力端子と、前記入力端子から得られたセリ
フデータを音韻データと韻律データと話者指定データに
分離する複合データ分析器と、前記複合データ分析器か
ら得られる音韻データ及び韻律データ及び話者指定デー
タが入力され、指定された話者の単位音声データと単位
音声パラメータを出力する単位音声データテーブルと、
前記単位音声データテーブルから得られた単位音声デー
タと単位音声パラメータと前記複合データ分析器から得
られた韻律データを入力として音声波形を合成する合成
器と、合成された音声の出力端子と、を具備することを
特徴とするものである。
【0018】これにより、これにより、音声で読み上げ
られた自然の韻律に基づいた音声合成による複数話者の
ドラマ構成のセリフ再生が可能になる。
【0019】本願の請求項6の発明は、請求項1又は請
求項2に記載のセリフデータ作成装置と、前記セリフデ
ータ作成装置で作成されたセリフデータを入力とする請
求項4に記載のセリフ再生装置と、を備えたことを特徴
とするものである。
【0020】本願の請求項7の発明は、請求項3に記載
のセリフデータ作成装置と、前記セリフデータ作成装置
で作成されたセリフデータを入力とする請求項5に記載
のセリフ再生装置と、を備えたことを特徴とするもので
ある。
【0021】セリフデータ作成装置の出力とセリフ再生
装置の入力を直結することによって、構成された音声分
析合成装置は音声で読み上げられた自然の韻律に基づい
た音声のリアルタイム分析合成が可能になる。これによ
り、音声で読み上げられた自然の韻律に基づいた複数話
者の音声分析合成が可能になる。
【0022】本願の請求項8の発明は、請求項1又は請
求項2に記載のセリフデータ作成装置と、前記セリフデ
ータ作成装置で作成されたセリフデータを転送する転送
網と、前記転送網によって転送されたセリフデータを入
力とする請求項4に記載のセリフ再生装置と、を備えた
ことを特徴とするものである。
【0023】セリフデータ作成装置の出力とセリフ再生
装置の入力を転送網で結合して構成された音声情報伝送
装置は、音声で読み上げられた自然の韻律に基づいた音
声のリアルタイム及びノンリアルタイムの転送が可能な
上、転送するデータ量が音声波形を転送するよりはるか
に少量になる。
【0024】本願の請求項9の発明は、請求項3に記載
のセリフデータ作成装置と、前記セリフデータ作成装置
で作成されたセリフデータを転送する転送網と、前記転
送網によって転送されたセリフデータを入力とする請求
項5に記載のセリフ再生装置と、を備えたことを特徴と
するものである。
【0025】又セリフデータ作成装置に話者選択入力を
設けてこれをセリフデータに反映し、同時にセリフ再生
装置の単位音声データテーブルに複数話者の単位音声デ
ータと単位音声パラメータを持ち、セリフデータの指示
によりこれらの話者を切り替えることによって、複数話
者によるドラマ構成のセリフデータを作成及び再生がで
きるようになる。これにより、非常に小容量のデータを
転送するだけで音声で読み上げられた自然の韻律に基づ
いた音声情報の転送が可能になる。
【0026】
【発明の実施の形態】(第1の実施の形態)以下、本発
明の音声情報転送装置の第1の実施の形態について図面
を参照しながら説明する。図1は本実施における音声情
報転送装置の構成を示すブロック図である。図1におい
て30はマイク、31はセリフデータ作成装置、32は
転送網、33はセリフ再生装置、34はスピーカであ
る。
【0027】図2は本実施の形態におけるセリフデータ
作成装置31の構成を示すブロック図である。図2にお
いて、セリフデータ作成装置31は、入力端子1、韻律
抽出器2、音声認識器3、音韻比較器4、複合データ作
成器5、文章入力器6、構文解析器7、入力端子8、話
者指示器9、出力端子10を含んで構成される。入力端
子1はセリフに対応する音声データを入力する端子であ
り、韻律抽出器2は韻律データIを抽出するものであ
り、音声認識器3は入力された音声信号の音韻データA
を抽出するものである。又音韻比較器4は音声認識器3
と構文解析器7で解析された音韻データを比較し、一致
又は類似する場合に構文解析クロックを生成していずれ
か一方の同期をとって複合データ作成器5に出力するも
のである。文章入力器6は入力する文章を保持してお
り、構文解析器7はその構文解析クロックによって発生
した音声と同期をとって解析するものである。又話者指
示器9は話者指定の入力に基づいて話者指定データを複
合データ作成器5に出力するものである。
【0028】図3は本実施の形態におけるセリフ再生装
置33の構成を示すブロック図である。図3において、
セリフ再生装置33は、入力端子21、複合データ分析
器22、単位音声データテーブル203、合成器10
4、出力端子105を含んで構成される。入力端子21
は転送網32を介してセリフデータ作成装置31より転
送された複合データが入力される。複合データ分析器2
2はこのデータを音韻データA,韻律データI及び話者
選択データSに分離し、いずれも単位音声データテーブ
ル203に出力するものである。単位音声データテーブ
ル203はこれらのデータに基づいて音声データテーブ
ルを参照し、単位音声パラメータPと単位音声データD
を出力するものである。合成器104はこれらに基づい
て音声合成を行い、出力端子105より出力するもので
ある。
【0029】以上のように構成された、セリフデータ作
成装置31及びセリフ再生装置33及び音声情報転送装
置について、順次その動作を説明する。まず、セリフデ
ータ作成装置31を説明する。セリフデータ作成装置3
1では、あらかじめ文章入力器6に作成するセリフに対
応する文章をデータとして入力しておく。更に、入力端
子1から文章を音声入力すると、入力された音声は、音
声認識器3で解析されて、第1の音韻データとなる。同
時に同じ文章が構文解析器7で解析されて第2の音韻デ
ータが生成される。但し構文解析器7は構文解析クロッ
クが入力される毎に1音韻づつ第2の音韻データを生成
する。更に音声認識器3で得られた第1の音韻データと
構文解析器7で解析された音韻データを音韻比較器4で
比較する。第2の音韻データは常に正しいが、第1の音
韻データは音声認識の誤差により第1の音韻データと異
なる音韻データを生成する場合がある。音韻比較器4は
第1の音韻データと第2の音韻が一致するか音声認識の
誤差範囲でほぼ類似するとき、構文解析クロックを生成
する。この構文解析クロックによって、構文解析器7は
次の音韻データの生成を行う。但し音韻比較器4は構文
解析器7の音韻データと音声認識器3の音韻データが全
く異なる場合は、音声入力された音韻があらかじめ文章
入力器6に設定されたものと異なると判断して、構文解
析クロックは生成しない。つまり複合データ生成器5に
は常にあらかじめ意図した通りの音韻データが入力され
ることになる。
【0030】入力端子1から入力された音声は同時に韻
律抽出器2にも入力され、韻律抽出器2は入力された音
声の韻律データIを出力する。韻律抽出器2から得られ
た韻律データIと構文解析器7の出力として得られた音
韻データAは複合データ生成器5に入力される。又入力
端子8からはセリフデータに埋めこむ話者情報の選択値
を入力し、この選択値に基づいて話者指示器9が話者指
定データを出力する。話者指示器9から出力された話者
指定データSは複合データ生成器5に入力される。複合
データ生成器5は構文解析クロックが入力される毎に音
韻データA及び韻律データIと話者指定データSを合成
して新しいセリフデータを生成し、出力端子10から出
力する。図4はセリフデータの一例を示す図であり、S
0 ,S1は話者指定データ、Ai (i=0,1,2・・
・)は時系列で得られる音韻データ、Ii (i=0,
1,2・・・)はこれに対応する韻律データを示してい
る。
【0031】次に、セリフ再生装置33の動作について
図3を用いて説明する。セリフ再生装置33の入力端子
21にはセリフデータが入力される。セリフデータは複
合データ分析器22によって、音韻データAと韻律デー
タI及び話者指定データSとなって出力される。これら
音韻データAと韻律データIは単位音声データテーブル
203の索引となり、単位音声データテーブル203は
入力された音韻データと韻律データに対応する単位音声
データDと単位音声パラメータPを出力する。更に単位
音声データテーブルには複数の話者の単位音声データと
単位音声パラメータが格納されており、複合データ分析
器22から与えられる話者指定データSによって指示さ
れる特定の話者のデータが出力されるようになってい
る。これら単位音声データと単位音声パラメータ及び複
合データ分析器22から得られた韻律データIは合成器
104に入力される。合成器104は単位音声データD
と単位音声パラメータPと韻律データIを元に波形を合
成して音声波形を出力する。
【0032】音声情報伝送装置は、このように構成され
たセリフデータ作成装置31の出力とセリフ再生装置3
3を転送網32で介して接続したものである。セリフデ
ータ作成装置21の入力端子1にはマイク30が接続さ
れ、セリフ再生装置33の出力にはスピーカ34が接続
される。転送網32はセリフデータ作成装置31から出
力されたセリフデータを転送し、セリフ再生装置33に
入力するものであり、一般加入電話回線、ISDN、光
ケーブル、マイクロウエーブ通信などであればよく、特
に限定されるものではない。又この実施の形態ではこれ
らを一般化しているため、これらの転送網固有のアダプ
タ( モデムやターミナルアダプタなど)は転送網32に
含めて説明している。
【0033】以上のように本実施の形態の音声情報転送
装置によれば、セリフデータ作成装置31は、文章を音
声入力して、この音声入力を韻律抽出器2と音声認識器
3で解析して韻律データや音韻データを生成する。同時
に同じ文章を構文解析器7で解析して音韻データを生成
する。更に、音声認識器3から得られた音韻データと構
文解析器7から得られた音韻データが一致するよう音韻
比較器4で同期をとりながら、音声認識器3で得られた
韻律データと構文解析器7で得られた音韻データを複合
データ生成器で処理してセリフデータを生成する。セリ
フデータ作成装置31に話者選択入力を設けてこれをセ
リフデータの一部とする。こうすればマイク30から入
力された音声をセリフデータ作成装置31によってセリ
フデータに変換することができる。一般に音声波形デー
タに比べてセリフデータは非常に小さくなるので、マイ
ク30に入力された音声を情報圧縮して転送網32を介
してセリフ再生装置33に入力することになる。つまり
転送網32を経由するデータ量が音声波形データをその
まま転送するよりはるかに少なくなるので、転送網にか
かる転送負荷が非常に小さくなり、転送時間とコストが
大幅に圧縮される。
【0034】セリフ再生装置33は、前記したセリフデ
ータを複合データ分析器22に入力し、音韻データと韻
律データと話者選択データに分解する。話者選択データ
と音韻データと韻律データは単位音声データテーブル2
03の索引となり、単位音声データと単位音声パラメー
タを出力する。これら単位音声データと単位音声パラメ
ータ及び韻律データは合成器104に入力され、合成器
104はこれらを合成して音声波形を合成する。この場
合セリフデータ作成装置31で作成されるセリフデータ
は、音声で読み上げられた韻律に基づいているので、セ
リフ再生装置33から自然な音声を得ることができる。
【0035】又セリフデータの作成時に、話者データの
変更が可能なので、複数の話者によるセリフの再生がで
きる。これによって、複数話者によるドラマ構成のセリ
フデータを作成及び転送、再生ができるようになる。
【0036】尚、本実施の形態では、転送網32には特
に記憶装置を設けなかったが、たとえばパソコン通信網
などの場合には、ホストコンピュータに一旦セリフデー
タを蓄積することによって、ボイスメールサービスを実
現できることはいうまでもない。
【0037】(第2の実施の形態)以下、本発明の音源
装置の第2の実施の形態について図面を参照しながら説
明する。図5は本実施の形態における音声分析合成装置
の構成を示すブロック図であり、第1の実施の形態と同
一部分は同一符号を付して詳細な説明を省略する。図5
において30はマイク、36はセリフデータ作成装置、
32は転送網、37はセリフ再生装置、34はスピーカ
である。第1の実施の形態と異なるのはセリフデータ作
成装置36及びセリフ再生装置37の構成である。
【0038】図6は本実施の形態におけるセリフデータ
作成装置36の構成を示すブロック図である。図6にお
いて、セリフデータ作成装置36は、入力端子1、韻律
抽出器2、音声認識器3、音韻比較器4、複合データ作
成器5、出力端子10を含んで構成されている。
【0039】図7は本実施の形態におけるセリフ再生装
置37の構成を示すブロック図である。図7において、
セリフ再生装置37は入力端子21、複合データ分析器
23、単位音声データテーブル103、合成器104、
出力端子105を含んで構成されている。
【0040】以上のように構成された、セリフデータ作
成装置36及びセリフ再生装置37及び音声分析合成装
置について、順次その動作を説明する。まず、セリフデ
ータ作成装置36を説明する。セリフデータ作成装置3
6では、入力端子1から文章を音声入力すると、入力さ
れた音声は、音声認識器3で解析されて、音韻データA
となる。入力端子1から入力された音声は同時に韻律抽
出器2にも入力され、韻律抽出器2は入力された音声の
韻律データIを出力する。音声認識器3の出力として得
られた音韻データAと韻律抽出器2から得られた韻律デ
ータIと複合データ生成器5に入力される。複合データ
生成器5で処理されて出力端子10からセリフデータと
して出力される。
【0041】次に、セリフ再生装置37について図7を
用いて説明する。セリフ再生装置37は入力端子21か
らセリフデータが入力される。セリフデータは複合デー
タ分析器23によって、音韻データAと韻律データIと
なって出力される。これら音韻データと韻律データは単
位音声データテーブル103の索引となり、単位音声デ
ータテーブル103は入力された音韻データと韻律デー
タに対応する単位音声データと単位音声パラメータを出
力する。これら単位音声データと単位音声パラメータ及
び複合データ分析器23から得られた韻律データは合成
器104に入力される。合成器104は単位音声データ
と単位音声パラメータと韻律データを元に波形を合成し
て音声波形を出力端子105に出力する。
【0042】音声情報転送装置は、このようにセリフデ
ータ作成装置36の出力とセリフ再生装置37を転送網
32で介して接続し、セリフデータ作成装置36の入力
端子1にマイク30を接続し、セリフ再生装置37の出
力にはスピーカ34を接続して構成される。転送網32
はセリフデータ作成装置36から出力されたセリフデー
タを転送し、セリフ再生装置37に入力する。転送網は
一般加入電話回線、ISDN、光ケーブル、マイクロウ
エーブ通信など特に限定されるものではない、又この実
施の形態ではこれらを一般化しているため、これらの転
送網固有のアダプタ( モデムやターミナルアダプタな
ど) は転送網32に含めて説明している。こうすれば転
送網32を介して、リアルタイムにセリフデータ作成し
つつ送信できるようになる。
【0043】第1の実施の形態と異なるのは、セリフデ
ータ作成装置36に文章入力器6及び構文解析器7及び
音韻比較器4を設けていない点である。このようにする
ことによって、第2の実施の形態では、セリフデータを
作成する際にあらかじめセリフの内容を定める必要がな
いので、セリフデータ作成装置36はリアルタイムにセ
リフデータを作成することを可能にしている。
【0044】以上のように本実施の形態の音声情報転送
装置によれば、セリフデータ作成装置36は、入力端子
1に文章を音声入力して、この音声入力を音声認識器3
で解析して音韻データや韻律データを生成する。音声認
識器3で得られた音韻データと複合データ生成器で処理
してセリフデータを生成する。
【0045】セリフ再生装置37では前記したセリフデ
ータが複合データ分析器21に入力され音韻データと韻
律データに分解される。音韻データと韻律データは単位
音声データテーブル103の索引となり、単位音声デー
タと単位音声パラメータを出力する。これら単位音声デ
ータと単位音声パラメータ及び韻律データは合成器10
4に入力され、合成器104はこれらを合成して音声波
形を合成する。このようなセリフデータ作成装置36と
セリフ再生装置37を転送網32で結合することによっ
て、自然な音声合成音を実現すると共に、リアルタイム
でのセリフデータの作成と転送を可能にしている。
【0046】又セリフデータ作成装置36とセリフ再生
装置37とを直接接続する構成をとることにより、音声
分析合成装置とすることができる。この場合はマイク3
0から入力された音声をセリフデータ作成装置36によ
ってセリフデータに変換し、再び合成することができ
る。
【0047】尚、本実施の形態では、説明を簡単にする
ため話者設定データを設けなかったが、実施の形態1と
同様に話者設定データをセリフデータに埋めこむことが
できるのは言うまでもない。
【0048】
【発明の効果】以上のように請求項1記載のセリフデー
タ作成装置では、文章を音声入力して音声認識器で得ら
れた韻律データと構文解析器で得られた音韻データを複
合データ生成器で処理してセリフデータを生成する。こ
れにより入力された音声から抽出された韻律データをそ
のままセリフデータとして出力することができる。従っ
てあらかじめ標準的な韻律データを蓄積する必要がな
く、音声を入力する際の感情表現等も可能となる。
【0049】又請求項2の発明では、音声認識器が抽出
した音韻データと構文解析器で得られた韻律データを照
合しているため、音韻データに間違いを含まないセリフ
データを作成することができるという効果が得られる。
【0050】又請求項3の発明では、話者選択データを
セリフデータに付加することができるため、複数の話者
によるドラマ構成のセリフデータを作成することができ
る。
【0051】更に請求項4の発明では、音声で読み上げ
られた自然の韻律に基づいて音声合成によるセリフを再
生することができる。又請求項5の発明では、音声で読
み上げられた自然の韻律に基づいて音声合成による複数
話者のドラマ構成のセリフ再生が可能となる。
【0052】更に請求項6,7の発明では、セリフデー
タ作成装置の出力とセリフ再生装置の入力を直結してい
るため、音声で読み上げられた自然の韻律に基づいた音
声のリアルタイム分析合成が可能になる。
【0053】又請求項8,9の発明では、セリフデータ
作成装置の出力とセリフ再生装置の入力を転送網で結合
しているため、音声で読み上げられた自然の韻律に基づ
いた音声のリアルタイム及びノンリアルタイムの転送が
可能となる。又転送するデータ量が音声波形を転送する
よりはるかに少量になる。
【0054】又請求項7,9の発明では、セリフデータ
作成装置に話者選択入力を設けてこれをセリフデータに
反映し、同時にセリフ再生装置の単位音声データテーブ
ルに複数話者の単位音声データと単位音声パラメータを
持ち、セリフデータの指示に従い、これらの話者を切り
替えることによって、複数話者によるドラマ構成のセリ
フデータを作成及び再生ができ、その実用上優れた効果
を有するものである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態による音声情報転送
装置の全体構成を示すブロック図である。
【図2】本実施の形態によるセリフデータ作成装置の構
成を示すブロック図である。
【図3】本の実施の形態によるセリフ再生装置の構成を
示すブロック図である。
【図4】本の実施の形態によるセリフデータの一例を示
す図である。
【図5】本発明の第2の実施の形態による音声情報転送
装置の全体構成を示すブロック図である。
【図6】本実施の形態によるセリフデータ作成装置の構
成を示すブロック図である。
【図7】本の実施の形態によるセリフ再生装置の構成を
示すブロック図である。
【図8】従来の音声合成装置の一例を示す図である。
【符号の説明】
1,8,20,101 入力端子 2 韻律抽出器 3 音声認識器 4 音韻比較器 5 複合データ作成器 6 文章入力器 7,102 構文解析器 9 話者指示器 10,105 出力端子 22,23 複合データ分析器 30 マイクロホン 31,36 セリフデータ作成装置 32 転送網 33,37 セリフ再生装置 34 スピーカ 103,203 単位音声データテーブル 104 合成器

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 音声が入力される入力端子と、 前記入力端子から入力された音声の音韻データを抽出す
    る音声認識器と、 前記入力端子から入力された音声の韻律データを抽出す
    る韻律抽出器と、 前記音声認識器で得られた音韻データに前記韻律抽出器
    から得られる韻律データを付加してセリフデータとして
    出力する複合データ作成器と、具備することを特徴とす
    るセリフデータ作成装置。
  2. 【請求項2】 音声が入力される入力端子と、 前記入力端子から入力された音声を認識して第1の音韻
    データを抽出する音声認識器と、 前記第入力端子から入力された音声の韻律データを抽出
    する韻律抽出器と、 文章入力器と、 前記文章入力器から入力された文章を分析し構文解析ク
    ロックに同期して第2の音韻データ出力する構文解析器
    と、 前記第1の音韻データと前記第2の音韻データを比較
    し、一致及び類似を検出したときに前記構文解析クロッ
    クを出力する音韻比較器と、 前記構文解析クロックと前記第2の音韻データと前記韻
    律データが入力され、前記構文解析クロックに同期して
    前記音韻データと前記韻律データとをセリフデータとし
    て出力する複合データ作成器と、を具備することを特徴
    とするセリフデータ作成装置。
  3. 【請求項3】 音声が入力される第1の入力端子と、 前記第1の入力端子から入力された音声を認識して第1
    の音韻データを抽出する音声認識器と、 前記第1の入力端子から入力された音声の韻律データを
    抽出する韻律抽出器と、 文章入力器と、 前記文章入力器から入力された文章を分析し構文解析ク
    ロックに同期して第2の音韻データを出力する構文解析
    器と、 前記第1の音韻データと前記第2の音韻データを比較
    し、一致及び類似を検出したときに前記構文解析クロッ
    クを出力する音韻比較器と、 前記複合データ作成器に話者指定データを入力する第2
    の入力端子と、 前記構文解析クロック、前記第2の音韻データ、前記韻
    律データ及び前記話者データが入力され、前記構文解析
    クロックに同期して前記音韻データと前記韻律データと
    前記話者指定データとをセリフデータとして出力する複
    合データ作成器と、を具備することを特徴とするセリフ
    データ作成装置。
  4. 【請求項4】 セリフデータが入力される入力端子と、 前記入力端子から得られたセリフデータを音韻データと
    韻律データに分離する複合データ分析器と、 前記複合データ分析器から得られる音韻データ及び韻律
    データで指定された単位音声データと単位音声パラメー
    タを出力する単位音声データテーブルと、 前記単位音声データテーブルから得られた単位音声デー
    タと単位音声パラメータと前記複合データ分析器から得
    られた韻律データを入力として音声波形を合成する合成
    器と、 合成された音声の出力端子と、を具備することを特徴と
    するセリフ再生装置。
  5. 【請求項5】 セリフデータが入力される入力端子と、 前記入力端子から得られたセリフデータを音韻データと
    韻律データと話者指定データに分離する複合データ分析
    器と、 前記複合データ分析器から得られる音韻データ及び韻律
    データ及び話者指定データが入力され、指定された話者
    の単位音声データと単位音声パラメータを出力する単位
    音声データテーブルと、 前記単位音声データテーブルから得られた単位音声デー
    タと単位音声パラメータと前記複合データ分析器から得
    られた韻律データを入力として音声波形を合成する合成
    器と、 合成された音声の出力端子と、を具備することを特徴と
    するセリフ再生装置。
  6. 【請求項6】 請求項1又は請求項2に記載のセリフデ
    ータ作成装置と、 前記セリフデータ作成装置で作成されたセリフデータを
    入力とする請求項4に記載のセリフ再生装置と、を備え
    たことを特徴とする音声分析合成装置。
  7. 【請求項7】 請求項3に記載のセリフデータ作成装置
    と、 前記セリフデータ作成装置で作成されたセリフデータを
    入力とする請求項5に記載のセリフ再生装置と、を備え
    たことを特徴とする音声分析合成装置。
  8. 【請求項8】 請求項1又は請求項2に記載のセリフデ
    ータ作成装置と、 前記セリフデータ作成装置で作成されたセリフデータを
    転送する転送網と、 前記転送網によって転送されたセリフデータを入力とす
    る請求項4に記載のセリフ再生装置と、を備えたことを
    特徴とする音声情報転送装置。
  9. 【請求項9】 請求項3に記載のセリフデータ作成装置
    と、 前記セリフデータ作成装置で作成されたセリフデータを
    転送する転送網と、 前記転送網によって転送されたセリフデータを入力とす
    る請求項5に記載のセリフ再生装置と、を備えたことを
    特徴とする音声情報転送装置。
JP11031813A 1999-02-09 1999-02-09 セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置 Pending JP2000231396A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11031813A JP2000231396A (ja) 1999-02-09 1999-02-09 セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11031813A JP2000231396A (ja) 1999-02-09 1999-02-09 セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置

Publications (1)

Publication Number Publication Date
JP2000231396A true JP2000231396A (ja) 2000-08-22

Family

ID=12341541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11031813A Pending JP2000231396A (ja) 1999-02-09 1999-02-09 セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置

Country Status (1)

Country Link
JP (1) JP2000231396A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002358092A (ja) * 2001-06-01 2002-12-13 Sony Corp 音声合成システム
JP2006517037A (ja) * 2003-01-24 2006-07-13 ボイス シグナル テクノロジーズ インコーポレイテッド 韻律的模擬語合成方法および装置
JP2009122667A (ja) * 2007-10-26 2009-06-04 Advanced Telecommunication Research Institute International 台詞音声作成装置、発話音声収録装置、及びコンピュータプログラム
CN104299621A (zh) * 2014-10-08 2015-01-21 百度在线网络技术(北京)有限公司 一种音频文件的节奏感强度获取方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002358092A (ja) * 2001-06-01 2002-12-13 Sony Corp 音声合成システム
JP2006517037A (ja) * 2003-01-24 2006-07-13 ボイス シグナル テクノロジーズ インコーポレイテッド 韻律的模擬語合成方法および装置
JP2009122667A (ja) * 2007-10-26 2009-06-04 Advanced Telecommunication Research Institute International 台詞音声作成装置、発話音声収録装置、及びコンピュータプログラム
CN104299621A (zh) * 2014-10-08 2015-01-21 百度在线网络技术(北京)有限公司 一种音频文件的节奏感强度获取方法及装置

Similar Documents

Publication Publication Date Title
US5911129A (en) Audio font used for capture and rendering
US7487093B2 (en) Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
US8706488B2 (en) Methods and apparatus for formant-based voice synthesis
US7233901B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US7035794B2 (en) Compressing and using a concatenative speech database in text-to-speech systems
US20040073423A1 (en) Phonetic speech-to-text-to-speech system and method
US20070088547A1 (en) Phonetic speech-to-text-to-speech system and method
JP3576848B2 (ja) 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体
JP2001117920A (ja) 翻訳装置および翻訳方法、並びに記録媒体
JP2000231396A (ja) セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置
AU769036B2 (en) Device and method for digital voice processing
JPH08335096A (ja) テキスト音声合成装置
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
KR20040084855A (ko) 휴대 단말 장치
JP2003029774A (ja) 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置
JP3060276B2 (ja) 音声合成装置
JPH10133678A (ja) 音声再生装置
JP2577372B2 (ja) 音声合成装置および方法
KR100612780B1 (ko) 음성 및 악곡 재생 장치
KR100363876B1 (ko) 음성의 특징 벡터를 이용한 문자 음성 변환 장치 및 그 방법
JP2001166787A (ja) 音声合成装置および自然言語処理方法
JP2005156946A (ja) 楽曲再生装置、音声再生装置、楽曲及び音声を再生する方法及びそのプログラム
JPH11344997A (ja) 音声合成方法
JP2000322075A (ja) 音声合成装置および自然言語処理方法
JP2002333896A (ja) 音声合成装置、音声合成システムおよび音声合成方法