JP2003173196A - 音声合成方法およびその装置 - Google Patents

音声合成方法およびその装置

Info

Publication number
JP2003173196A
JP2003173196A JP2001371112A JP2001371112A JP2003173196A JP 2003173196 A JP2003173196 A JP 2003173196A JP 2001371112 A JP2001371112 A JP 2001371112A JP 2001371112 A JP2001371112 A JP 2001371112A JP 2003173196 A JP2003173196 A JP 2003173196A
Authority
JP
Japan
Prior art keywords
voice
speech
character string
recognized
synthetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001371112A
Other languages
English (en)
Inventor
Toshiyuki Isono
敏幸 礒野
Hirofumi Nishimura
洋文 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2001371112A priority Critical patent/JP2003173196A/ja
Publication of JP2003173196A publication Critical patent/JP2003173196A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 音声認識によって、煩わしい操作をすること
なく出力条件を設定できる音声合成方法およびその装置
を提供する。 【解決の手段】 まず、原稿用紙などに書かれた文章の
文字列を光学的に文字認識処理11によって認識する。
使用者が何も発声しない場合には、予め設定されている
出力条件に従って、合成音声生成処理14を行い、合成
音声を生成する。使用者が出力条件を設定する言葉を発
声した場合には、音声認識処理12により認識される。
そして出力条件設定処理13によって、使用者が指定し
たテンポや音量などの合成音声の出力条件を設定し、そ
の出力条件によって合成音声生成処理14を行い、合成
音声を生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、光学的な文字認識
方法により認識された文字列に基づいて音声を出力する
音声合成方法およびその装置に関し、特に、音声認識に
よって出力条件を設定できる音声合成方法およびその装
置に関する。
【0002】
【従来の技術】従来、文字認識を使った音声合成方法
は、例えば特開平11−119790号公報に記載され
ているものがあり、その出力条件は文字認識により設定
していた。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
音声合成方法においては、出力条件は文字認識により設
定するため、出力条件を予め文字認識ができる形式に設
定しておかなければならないという問題があった。
【0004】本発明は、このような従来の問題を解決す
るためになされたもので、音声認識によって、煩わしい
操作をすることなく出力条件を設定できる音声合成方法
およびその装置を提供するものである。
【0005】
【課題を解決するための手段】本発明の音声合成方法
は、音声として認識された言葉によって出力条件を設定
し、光学的な文字認識方法により認識された前記文字列
に基づいて前記出力条件により合成音声を生成すること
とした。
【0006】この方法により、使用者は煩わしい操作を
することなく出力条件を容易に設定でき、好みの出力条
件で音声を聞くことができる。
【0007】本発明の音声合成装置は、光学的に文字列
を認識する文字認識手段と、音声を認識する音声認識手
段と、前記音声認識手段により認識された前記音声の言
葉によって出力条件を設定する条件設定手段と、合成音
声を生成するための音声素片データベースと、前記文字
列に基づいて前記出力条件により前記音声素片データベ
ースから合成音声データを生成する合成音声生成手段
と、前記合成音声生成手段により生成された音声信号を
音声出力する音声出力手段とを備えることとした。
【0008】この構成により、使用者は煩わしい操作を
することなく出力条件を容易に設定でき、好みの出力条
件で音声を聞くことができる。
【0009】また、前記文字列が、音声として認識され
たとき、前記文字列の意味を予め設定した電子辞書から
検索し合成音声として生成することとした。
【0010】この方法により、読み上げられている文字
列の中に使用者にとって意味不明な単語が出現した場合
に、音声によりその意味を知ることができる。
【0011】また、前記文字列が、音声として前記音声
認識手段により認識されたとき、前記文字列の意味を予
め定めた電子辞書から検索する辞書検索手段を備えるこ
ととした。
【0012】この構成により、読み上げられている文字
列の中に使用者にとって意味不明な単語が出現した場合
に、音声によりその意味を知ることができる。
【0013】また、前記文字列の記憶指示が、音声とし
て認識されたとき、前記記憶指示された前記文字列を記
憶しておくこととした。
【0014】この方法により、音声認識による指示によ
って、容易に文字列を保存することができる。
【0015】また、前記文字列の記憶指示が、音声とし
て前記音声認識手段により認識されたとき、前記記憶指
示された前記文字列を予め定めた文字列記憶用メモリに
記憶しておく文字列記憶手段を備えることとした。
【0016】この構成により、音声認識による指示によ
って、容易に文字列を保存することができる。
【0017】また、前記文字列の言語解析による結果に
基づいて感情パラメータを前記文字列に付与することと
した。
【0018】この方法により、文意に沿った臨場感を使
用者に伝える合成音声を生成することができる。
【0019】また、前記文字列の言語解析を行う言語解
析手段と、前記言語解析手段の結果に基づいて感情パラ
メータを前記文字列に付与する感情パラメータ付与手段
とを備えることとした。
【0020】この構成により、文意に沿った臨場感を使
用者に伝える合成音声を生成することができる。
【0021】また、予め定めた話者名が、音声として認
識されたとき、前記話者名の音声素片データベースを選
択して、合成音声を作成することとした。
【0022】この方法により、好みの話者による合成音
声を聞くことができる。
【0023】また、予め定めた話者名が、音声として前
記音声認識手段により認識されたとき、予め定めた複数
の音声素片データベースから前記話者名の音声素片デー
タベースを選択する音声素片データベース選択手段を備
えることとした。
【0024】この構成により、好みの話者による合成音
声を聞くことができる。
【0025】また、予め定めた録音音声の名が、音声と
して認識されたとき、前記録音音声の名によって前記録
音音声を読み出すこととした。
【0026】この方法により、音声認識による使用者の
指示によって、録音音声を聞くことができる。
【0027】さらに、予め定めた録音音声の名が、音声
として前記音声認識手段により認識されたとき、前記録
音音声の名によって予め定めた録音音声データベースか
ら前記録音音声を読み出す録音音声読み出し手段を備え
ることとした。
【0028】この構成により、音声認識による使用者の
指示によって、録音音声を聞くことができる。
【0029】
【発明の実施の形態】以下、本発明の実施形態につい
て、図面を用いて説明する。
【0030】図1は、本発明の第1の実施形態の音声合
成方法における処理フローを示す。
【0031】図1に示すように、この第1の実施形態の
音声合成方法では、光学的に文字列の認識をする文字認
識処理11と、使用者の音声を認識する音声認識処理1
2と、合成音声の出力条件を設定する出力条件設定処理
13と、文字列より合成音声を生成する合成音声生成処
理14とが行われる。
【0032】この音声合成方法について、図1を用いて
その処理動作を説明する。
【0033】まず、原稿用紙などに書かれた文章の文字
列を光学的に文字認識処理11によって認識する。使用
者が何も発声しない場合には、予め設定されている出力
条件に従って、合成音声生成処理13を行い、合成音声
を生成する。使用者が出力条件を設定する言葉を発声し
た場合には、音声認識処理12により認識される。そし
て出力条件設定処理13によって、使用者が指定したテ
ンポや音量などの合成音声の出力条件を設定し、その出
力条件によって合成音声生成処理14を行い、合成音声
を生成する。
【0034】このような本発明の第1の実施形態によれ
ば、音声認識処理により出力条件を設定することによ
り、使用者は煩わしい操作をすることなく、好みの出力
条件で音声を聞くことができる。
【0035】図2は、本発明の第2の実施形態の音声合
成装置におけるブロック図を示す。
【0036】図2に示すように、この第2の実施形態の
音声合成装置は、光学的に文字列の認識をする文字認識
手段21と、使用者の音声を認識する音声認識手段22
と、合成音声の出力条件を設定する出力条件設定手段2
3と、文字列より合成音声を生成する合成音声生成手段
24と、音声素片データベース25と、音声出力手段2
6とによって構成されている。
【0037】以上のように構成された音声合成装置につ
いて、図2を用いてその処理動作を説明する。
【0038】まず、原稿用紙などに書かれた文章の文字
列を光学的な文字認識手段21によって認識する。使用
者が何も発声しない場合には、予め設定されている出力
条件に従って、合成音声生成手段24によって、合成音
声を生成し、音声出力手段26によって合成音声生成手
段24で生成された合成音声を出力する。使用者が出力
条件を設定する言葉を発声した場合には、音声認識手段
22により認識され、音声認識手段22により認識され
た言葉を出力条件設定手段23に入力する。出力条件設
定手段23では、入力された言葉に基づきテンポや音量
などの合成音声の出力条件を設定し、その出力条件によ
って合成音声生成手段24によって音声素片データベー
ス25を使い、合成音声が生成される。最後に音声出力
手段26によって合成音声生成手段24によって生成さ
れた合成音声を出力する。
【0039】このような本発明の第2の実施形態によれ
ば、音声認識手段による認識結果を出力条件設定手段に
入力する構成とすることにより、使用者は煩わしい操作
をすることなく、好みの出力条件で音声を聞くことがで
きる。
【0040】図3は、本発明の第3の実施形態の音声合
成方法における処理フローを示す。
【0041】図3に示すように、この第3の実施形態の
音声合成方法では、光学的に文字列の認識をする文字認
識処理11と、使用者の音声を認識する音声認識処理1
2と、合成音声の出力条件を設定する出力条件設定処理
13と、文字列より合成音声を生成する合成音声生成処
理14と、辞書検索処理31とが行われる。
【0042】この音声合成方法について、図3を用いて
その処理動作を説明する。
【0043】まず、原稿用紙などに書かれた文章の文字
列を光学的に文字認識処理11によって認識する。使用
者が何も発声しない場合には、予め設定されている出力
条件に従って、合成音声生成処理13を行い、合成音声
を生成する。使用者が出力条件を設定する言葉を発声し
た場合には、音声認識処理12により認識される。そし
て出力条件設定処理13によって、使用者が指定したテ
ンポや音量などの合成音声の出力条件を設定し、その出
力条件によって合成音声生成処理14を行い、合成音声
を生成する。合成音声読み上げの文章中に使用者にとっ
て意味不明単語が出現した場合、使用者はその単語を発
声すると、音声認識処理12で単語が認識され、辞書検
索処理31によってこの単語の意味が調べられる。そし
て、合成音声生成処理14により合成音声が生成され、
音声によりその単語の意味が知らされる。
【0044】このような本発明の第3の実施形態によれ
ば、辞書検索処理を設けることにより、使用者に意味不
明単語が出現した場合に、音声によりその意味を使用者
に知らせることができる。
【0045】図4は、本発明の第4の実施形態の音声合
成装置におけるブロック図を示す。
【0046】図4に示すように、この第4の実施形態の
音声合成装置は、光学的に文字列の認識をする文字認識
手段21と、使用者の音声を認識する音声認識手段22
と、合成音声の出力条件を設定する出力条件設定手段2
3と、文字列より合成音声を生成する合成音声生成手段
24と、音声素片データベース25と、音声出力手段2
6と、辞書検索手段41と、電子辞書42とによって構
成される。
【0047】以上のように構成された音声合成装置につ
いて、図4を用いてその処理動作を説明する。
【0048】まず、原稿用紙などに書かれた文章の文字
列を光学的な文字認識手段21によって認識する。使用
者が何も発声しない場合には、予め設定されている出力
条件に従って、合成音声生成手段24によって、音声素
片データベース25を使い合成音声を生成し、音声出力
手段26によって合成音声生成手段24で生成された合
成音声を出力する。使用者が出力条件を設定する言葉を
発声した場合には、音声認識手段22により認識され、
音声認識手段22により認識された言葉を出力条件設定
手段23に入力する。出力条件設定手段23では、入力
された言葉に基づきテンポや音量などの合成音声の出力
条件を設定し、その出力条件に従い、音声素片データベ
ース25を使い合成音声生成手段24によって合成音声
が生成される。最後に音声出力手段26によって合成音
声生成手段24によって生成された合成音声を出力す
る。合成音声読み上げの文章中に使用者にとって意味不
明単語が出現した場合、使用者はその単語を発声する
と、音声認識手段22で発声した単語が認識され、辞書
検索手段41によって電子辞書42を使い、この単語の
意味が調べられる。そして、合成音声生成手段24によ
り音声素片データベース25を使って合成音声が生成さ
れ、音声出力手段26によって出力される。
【0049】このような本発明の第4の実施形態によれ
ば、辞書検索手段を設けることにより、使用者は意味不
明単語が出現した場合に、音声によりその単語の意味を
知らせることができる。
【0050】図5は、本発明の第5の実施形態の音声合
成方法における処理フローを示す。
【0051】図5に示すように、この第5の実施形態の
音声合成方法では、光学的に文字列の認識をする文字認
識処理11と、使用者の音声を認識する音声認識処理1
2と、合成音声の出力条件を設定する出力条件設定処理
13と、文字列より合成音声を生成する合成音声生成処
理14と、文字記憶処理51とが行われる。
【0052】この音声合成方法について、図5を用いて
その処理動作を説明する。
【0053】まず、原稿用紙などに書かれた文章の文字
列を光学的に文字認識処理11によって認識する。使用
者が何も発声しない場合には、予め設定されている出力
条件に従って、合成音声生成処理13を行い、合成音声
を生成する。使用者が出力条件を設定する言葉を発声し
た場合には、音声認識処理12により認識される。そし
て出力条件設定処理13によって、使用者が指定したテ
ンポや音量などの合成音声の出力条件を設定し、その出
力条件によって合成音声生成処理14を行い、合成音声
を生成する。合成音声読み上げの文章中に使用者が記憶
しておきたい文章が出現した場合、使用者は記憶を指示
する言葉を発声すると、音声認識処理12で認識され、
文字記憶処理51によってこの文章がメモリに記憶され
る。
【0054】このような本発明の第5の実施形態によれ
ば、文字記憶処理を設けることにより、使用者が記憶し
ておきたい文章が出現した場合に、容易にその文章を保
存することができる。
【0055】図6は、本発明の第6の実施形態の音声合
成装置におけるブロック図を示す。
【0056】図6に示すように、この第6の実施形態の
音声合成装置は、光学的に文字列の認識をする文字認識
手段21と、使用者の音声を認識する音声認識手段22
と、合成音声の出力条件を設定する出力条件設定手段2
3と、文字列より合成音声を生成する合成音声生成手段
24と、音声素片データベース25と、音声出力手段2
6と、文字列記憶手段61と、文字列記憶用メモリ62
とによって構成される。
【0057】以上のように構成された音声合成装置につ
いて、図6を用いてその処理動作を説明する。
【0058】まず、原稿用紙などに書かれた文章の文字
列を光学的な文字認識手段21によって認識する。使用
者が何も発声しない場合には、予め設定されている出力
条件に従って、合成音声生成手段24によって、音声素
片データベース25を使い合成音声を生成し、音声出力
手段26によって合成音声生成手段24で生成された合
成音声を出力する。使用者が出力条件を設定する言葉を
発声した場合には、音声認識手段22により認識され、
音声認識手段22により認識された言葉を出力条件設定
手段23に入力する。出力条件設定手段23では、入力
された言葉に基づきテンポや音量などの合成音声の出力
条件を設定し、その出力条件に従い、音声素片データベ
ース25を使い合成音声生成手段24によって合成音声
が生成される。最後に音声出力手段26によって合成音
声生成手段24によって生成された合成音声を出力す
る。合成音声読み上げの文章中に使用者が記憶しておき
たい文章が出現した場合、使用者は記憶を指示する言葉
を発声すると、音声認識手段22で認識され、文字列記
憶手段61によってこの文章が文字列記憶用メモリ62
に記憶される。
【0059】このような本発明の第6の実施形態によれ
ば、文字記憶手段、文字列記憶用メモリを設けることに
より、使用者が記憶しておきたい文章が出現した場合
に、容易にその文章を保存することができる装置を提供
することができる。
【0060】図7は、本発明の第7の実施形態の音声合
成方法における処理フローを示す。
【0061】図7に示すように、この第7の実施形態の
音声合成方法では、光学的に文字列の認識をする文字認
識処理11と、使用者の音声を認識する音声認識処理1
2と、合成音声の出力条件を設定する出力条件設定処理
13と、文字列より合成音声を生成する合成音声生成処
理14と、言語解析処理71と、感情パラメータ付与処
理72とが行われる。
【0062】この音声合成方法について、図7を用いて
その処理動作を説明する。
【0063】まず、原稿用紙などに書かれた文章の文字
列を光学的に文字認識処理11によって認識する。使用
者が何も発声しない場合には、言語解析処理71を行
う。感情パラメータ付与処理72によって、言語解析処
理71による結果に基づいて感情を付与する。そして、
予め設定されているテンポや音量などの合成音声の出力
条件に従って合成音声生成処理13を行い、合成音声を
生成する。使用者が出力条件を設定する言葉を発声した
場合には、音声認識処理12により認識される。そして
出力条件設定処理13によって、使用者が指定したテン
ポや音量などの出力条件を設定し、その出力条件によっ
て合成音声生成処理14を行い、合成音声を生成する。
【0064】このような本発明の第7の実施形態によれ
ば、言語解析処理、感情パラメータ付与処理を設けるこ
とにより、文意に沿った臨場感を伝える合成音声を生成
することができる。
【0065】図8は、本発明の第8の実施形態の音声合
成装置におけるブロック図を示す。
【0066】図8に示すように、この第8の実施形態の
音声合成装置は、光学的に文字列の認識をする文字認識
手段21と、使用者の音声を認識する音声認識手段22
と、合成音声の出力条件を設定する出力条件設定手段2
3と、文字列より合成音声を生成する合成音声生成手段
24と、音声素片データベース25と、音声出力手段2
6と、言語解析手段81と、感情パラメータ付与手段8
2とによって構成される。
【0067】以上のように構成された音声合成装置につ
いて、図8を用いてその処理動作を説明する。
【0068】まず、原稿用紙などに書かれた文章の文字
列を光学的な文字認識手段21によって認識する。使用
者が何も発声しない場合には、言語解析手段81を行
う。感情パラメータ付与処手段82によって、言語解析
手段81による結果に基づいて感情を付与する。そし
て、予め設定されているテンポや音量などの合成音声の
出力条件に従って、合成音声生成手段24によって、音
声素片データベース25を使い合成音声を生成し、音声
出力手段26によって合成音声生成手段24で生成され
た合成音声を出力する。使用者が出力条件を設定する言
葉を発声した場合には、音声認識手段22により認識さ
れ、音声認識手段22により認識された言葉を出力条件
設定手段23に入力する。出力条件設定手段23では、
入力された言葉に基づきテンポや音量などの合成音声の
出力条件を設定し、その出力条件に従い、音声素片デー
タベース25を使い合成音声生成手段24によって合成
音声が生成される。最後に音声出力手段26によって合
成音声生成手段24によって生成された合成音声を出力
する。
【0069】このような本発明の第8の実施形態によれ
ば、言語解析手段、感情パラメータ付与手段を設けるこ
とにより、使用者に文意に沿った臨場感を伝える合成音
声を生成することができる。
【0070】図9は、本発明の第9の実施形態の音声合
成方法における処理フローを示す。
【0071】図9に示すように、この第9の実施形態の
音声合成方法では、光学的に文字列の認識をする文字認
識処理11と、使用者の音声を認識する音声認識処理1
2と、合成音声の出力条件を設定する出力条件設定処理
13と、文字列より合成音声を生成する合成音声生成処
理14と、素片データベース選択処理91とが行われ
る。
【0072】この音声合成方法について、図9を用いて
その処理動作を説明する。
【0073】まず、原稿用紙などに書かれた文章の文字
列を光学的に文字認識処理11によって認識する。使用
者が何も発声しない場合には、予め設定されている出力
条件に従って、合成音声生成処理13を行い、合成音声
を生成する。使用者が出力条件を設定する言葉を発声し
た場合には、音声認識処理12により認識される。そし
て出力条件設定処理13によって、使用者が指定したテ
ンポや音量などの合成音声の出力条件を設定し、その出
力条件によって合成音声生成処理14を行い、合成音声
を生成する。使用者が予め決まっている素片データベー
スの話者名を発声した場合には、音声認識処理12によ
り認識される。そして素片データベース選択処理91に
よって、使用者が指定した話者の素片データベースを選
択し、合成音声生成処理14を行い、合成音声を生成す
る。
【0074】このような本発明の第9の実施形態によれ
ば、素片データベース選択処理を設けることにより、好
みの話者による合成音声を聞くことができる。
【0075】図10は、本発明の第10の実施形態の音
声合成装置におけるブロック図を示す。
【0076】図10に示すように、この第10の実施形
態の音声合成装置は、光学的に文字列の認識をする文字
認識手段21と、使用者の音声を認識する音声認識手段
22と、合成音声の出力条件を設定する出力条件設定手
段23と、文字列より合成音声を生成する合成音声生成
手段24と、音声素片データベース25と、音声出力手
段26と、素片データベース選択手段101と、音声素
片データベース102とによって構成される。
【0077】以上のように構成された音声合成装置につ
いて、図10を用いてその処理動作を説明する。
【0078】まず、原稿用紙などに書かれた文章の文字
列を光学的な文字認識手段21によって認識する。使用
者が何も発声しない場合には、予め設定されている出力
条件に従って、合成音声生成手段24によって、音声素
片データベース25を使い合成音声を生成し、音声出力
手段26によって合成音声生成手段24で生成された合
成音声を出力する。使用者が出力条件を設定する言葉を
発声した場合には、音声認識手段22により認識され、
音声認識手段22により認識された言葉を出力条件設定
手段23に入力する。出力条件設定手段23では、入力
された言葉に基づきテンポや音量などの合成音声の出力
条件を設定し、その出力条件に従い、音声素片データベ
ース25を使い合成音声生成手段24によって合成音声
が生成される。最後に音声出力手段26によって合成音
声生成手段24によって生成された合成音声を出力す
る。使用者が予め決まっている素片データベースの話者
名を発声した場合には、音声認識手段22により認識さ
れる。そして素片データベース選択手段101によっ
て、使用者が指定した話者の素片データベースを選択
し、合成音声生成手段24により、素片データベース選
択手段により選択された素片データベースを使って合成
音声を生成する。最後に音声出力手段26によって合成
音声生成手段24によって生成された合成音声を出力す
る。
【0079】このような本発明の第10の実施形態によ
れば、素片データベース選択手段を設けることにより、
好みの話者による合成音声を聞くことができる。
【0080】図11は、本発明の第11の実施形態の音
声合成方法における処理フローを示す。
【0081】図11に示すように、この第11の実施形
態の音声合成方法では、光学的に文字列の認識をする文
字認識処理11と、使用者の音声を認識する音声認識処
理12と、合成音声の出力条件を設定する出力条件設定
処理13と、文字列より合成音声を生成する合成音声生
成処理14と、録音音声読み出し処理111とが行われ
る。
【0082】この音声合成方法について、図11を用い
てその処理動作を説明する。
【0083】まず、原稿用紙などに書かれた文章の文字
列を光学的に文字認識処理11によって認識する。使用
者が何も発声しない場合には、予め設定されている出力
条件に従って、合成音声生成処理13を行い、合成音声
を生成する。使用者が出力条件を設定する言葉を発声し
た場合には、音声認識処理12により認識される。そし
て出力条件設定処理13によって、使用者が指定したテ
ンポや音量などの合成音声の出力条件を設定し、その出
力条件によって合成音声生成処理14を行い、合成音声
を生成する。使用者が予め決まっている動物の鳴き声な
どの録音音声データベース名を発声した場合には、音声
認識処理12により認識される。そして録音音声読み出
し処理115によって、録音音声が読み出される。
【0084】このような本発明の第5の実施形態によれ
ば、録音音声読み出し処理を設けることにより、動物の
鳴き声などの録音音声を聞くことができる。
【0085】図12は、本発明の第12の実施形態の音
声合成装置におけるブロック図を示す。
【0086】図12に示すように、この第12の実施形
態の音声合成装置は、光学的に文字列の認識をする文字
認識手段21と、使用者の音声を認識する音声認識手段
22と、合成音声の出力条件を設定する出力条件設定手
段23と、文字列より合成音声を生成する合成音声生成
手段24と、音声素片データベース25と、音声出力手
段26と、録音音声読み出し手段121と、録音音声デ
ータベース122とによって構成される。
【0087】以上のように構成された音声合成装置につ
いて、図12を用いてその処理動作を説明する。
【0088】まず、原稿用紙などに書かれた文章の文字
列を光学的な文字認識手段21によって認識する。使用
者が何も発声しない場合には、予め設定されている出力
条件に従って、合成音声生成手段24によって、音声素
片データベース25を使い合成音声を生成し、音声出力
手段26によって合成音声生成手段24で生成された合
成音声を出力する。使用者が出力条件を設定する言葉を
発声した場合には、音声認識手段22により認識され、
音声認識手段22により認識された言葉を出力条件設定
手段23に入力する。出力条件設定手段23では、入力
された言葉に基づきテンポや音量などの合成音声の出力
条件を設定し、その出力条件に従い、音声素片データベ
ース25を使い合成音声生成手段24によって合成音声
が生成される。最後に音声出力手段26によって合成音
声生成手段24によって生成された合成音声を出力す
る。使用者が予め決まっている動物の鳴き声などの録音
音声データベース名を発声した場合には、音声認識手段
22により認識される。そして録音音声読み出し手段1
21によって、録音音声データベース122から音声が
読み出され、音声出力手段26によって出力する。
【0089】このような本発明の第12の実施形態によ
れば、録音音声読み出し手段を設けることにより、動物
の鳴き声などの録音音声を聞くことができる。
【0090】
【発明の効果】以上、本発明は、光学的な文字認識方法
により認識された文字列に基づいて音声を生成する音声
合成方法において、音声認識処理により、使用者は煩わ
しい操作をすることなく、好みの出力条件で音声を聞く
ことができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態の音声合成方法におけ
る処理フローを示す図
【図2】本発明の第2の実施形態の音声合成装置におけ
るブロック図
【図3】本発明の第3の実施形態の音声合成方法におけ
る処理フローを示す図
【図4】本発明の第4の実施形態の音声合成装置におけ
るブロック図
【図5】本発明の第5の実施形態の音声合成方法におけ
る処理フローを示す図
【図6】本発明の第6の実施形態の音声合成装置におけ
るブロック図
【図7】本発明の第7の実施形態の音声合成方法におけ
る処理フローを示す図
【図8】本発明の第8の実施形態の音声合成装置におけ
るブロック図
【図9】本発明の第9の実施形態の音声合成方法におけ
る処理フローを示す図
【図10】本発明の第10の実施形態の音声合成装置に
おけるブロック図
【図11】本発明の第11の実施形態の音声合成方法に
おける処理フローを示す図
【図12】本発明の第12の実施形態の音声合成装置に
おけるブロック図
【符号の説明】
21 文字認識手段 22 音声認識手段 23 出力条件設定手段 24 合成音声生成手段 25 音声素片データベース 26 音声出力手段 41 辞書検索手段 42 電子辞書データベース 61 文字列記憶手段 62 文字列記憶用メモリ 81 言語解析手段 82 感情パラメータ付与手段 101 音声素片データベース選択手段 102 音声素片データベース 121 録音音声読み出し手段 122 録音音声データベース
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06K 9/00 G10L 3/00 E G10L 13/06 551Z 15/00 5/04 F Fターム(参考) 5B064 AA07 5D015 AA05 KK01 KK02 KK04 5D045 AB02 DB02

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 音声として認識された言葉によって出力
    条件を設定し、光学的な文字認識方法により認識された
    前記文字列に基づいて前記出力条件により合成音声を生
    成することを特徴とする音声合成方法。
  2. 【請求項2】 光学的に文字列を認識する文字認識手段
    と、音声を認識する音声認識手段と、前記音声認識手段
    により認識された前記音声の言葉によって出力条件を設
    定する条件設定手段と、合成音声を生成するための音声
    素片データベースと、前記文字列に基づいて前記出力条
    件により前記音声素片データベースから合成音声データ
    を生成する合成音声生成手段と、前記合成音声生成手段
    により生成された音声信号を音声出力する音声出力手段
    とを備えたことを特徴とする音声合成装置。
  3. 【請求項3】 前記文字列が、音声として認識されたと
    き、前記文字列の意味を予め設定した電子辞書から検索
    し合成音声として生成することを特徴とする請求項1に
    記載の音声合成方法。
  4. 【請求項4】 前記文字列が、音声として前記音声認識
    手段により認識されたとき、前記文字列の意味を予め定
    めた電子辞書から検索する辞書検索手段を備えたことを
    特徴とする請求項2に記載の音声合成装置。
  5. 【請求項5】 前記文字列の記憶指示が、音声として認
    識されたとき、前記記憶指示された前記文字列を記憶し
    ておくことを特徴とする請求項1に記載の音声合成方
    法。
  6. 【請求項6】 前記文字列の記憶指示が、使用者として
    前記音声認識手段により認識されたとき、前記記憶指示
    された前記文字列を予め定めた文字列記憶用メモリに記
    憶しておく文字列記憶手段を備えたことを特徴とする請
    求項2に記載の音声合成装置。
  7. 【請求項7】 前記文字列の言語解析による結果に基づ
    いて感情パラメータを前記文字列に付与することを特徴
    とする請求項1に記載の音声合成方法。
  8. 【請求項8】 前記文字列の言語解析を行う言語解析手
    段と、前記言語解析手段の結果に基づいて感情パラメー
    タを前記文字列に付与する感情パラメータ付与手段とを
    備えたことを特徴とする請求項2に記載の音声合成装
    置。
  9. 【請求項9】 予め定めた話者名が、音声として認識さ
    れたとき、前記話者名の音声素片データベースを選択し
    て、合成音声を作成することを特徴とする請求項1に記
    載の音声合成方法。
  10. 【請求項10】 予め定めた話者名が、音声として前記
    音声認識手段により認識されたとき、予め定めた複数の
    音声素片データベースから前記話者名の音声素片データ
    ベースを選択する音声素片データベース選択手段を備え
    たことを特徴とする請求項2に記載の音声合成装置。
  11. 【請求項11】 予め定めた録音音声の名が、音声とし
    て認識されたとき、前記録音音声の名によって前記録音
    音声を読み出すことを特徴とする請求項1に記載の音声
    合成方法。
  12. 【請求項12】 予め定めた録音音声の名が、音声とし
    て前記音声認識手段により認識されたとき、前記録音音
    声の名によって予め定めた録音音声データベースから前
    記録音音声を読み出す録音音声読み出し手段を備えたこ
    とを特徴とする請求項2に記載の音声合成装置。
JP2001371112A 2001-12-05 2001-12-05 音声合成方法およびその装置 Pending JP2003173196A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001371112A JP2003173196A (ja) 2001-12-05 2001-12-05 音声合成方法およびその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001371112A JP2003173196A (ja) 2001-12-05 2001-12-05 音声合成方法およびその装置

Publications (1)

Publication Number Publication Date
JP2003173196A true JP2003173196A (ja) 2003-06-20

Family

ID=19180215

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001371112A Pending JP2003173196A (ja) 2001-12-05 2001-12-05 音声合成方法およびその装置

Country Status (1)

Country Link
JP (1) JP2003173196A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100349206C (zh) * 2005-09-12 2007-11-14 周运南 文字语音互转装置
WO2012046726A1 (ja) * 2010-10-05 2012-04-12 新日本製鐵株式会社 点検支援装置、点検支援システム、点検支援方法、及び点検支援プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100349206C (zh) * 2005-09-12 2007-11-14 周运南 文字语音互转装置
WO2012046726A1 (ja) * 2010-10-05 2012-04-12 新日本製鐵株式会社 点検支援装置、点検支援システム、点検支援方法、及び点検支援プログラム
JP5037732B2 (ja) * 2010-10-05 2012-10-03 新日本製鐵株式会社 点検支援装置、点検支援システム、点検支援方法、及び点検支援プログラム
JPWO2012046726A1 (ja) * 2010-10-05 2014-02-24 新日鐵住金株式会社 点検支援装置、点検支援システム、点検支援方法、及び点検支援プログラム

Similar Documents

Publication Publication Date Title
US6823309B1 (en) Speech synthesizing system and method for modifying prosody based on match to database
KR100769033B1 (ko) 스피치 합성 방법
JPH10274997A (ja) 文書読み上げ装置
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US7454345B2 (en) Word or collocation emphasizing voice synthesizer
JP2003295882A (ja) 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
KR950015131A (ko) 정보 액세스 시스템 및 기록 매체
JPH05165486A (ja) テキスト音声変換装置
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
JP4697432B2 (ja) 音楽再生装置、音楽再生方法及び音楽再生用プログラム
JP3518898B2 (ja) 音声合成装置
JP2003173196A (ja) 音声合成方法およびその装置
JP3626398B2 (ja) テキスト音声合成装置、テキスト音声合成方法及びその方法を記録した記録媒体
TWI269191B (en) Method of synchronizing speech waveform playback and text display
JP3060276B2 (ja) 音声合成装置
JP2723214B2 (ja) 音声文書作成装置
JP2001042883A (ja) テキスト音声合成装置
Yong et al. Low footprint high intelligibility Malay speech synthesizer based on statistical data
KR20100003574A (ko) 음성음원정보 생성 장치 및 시스템, 그리고 이를 이용한음성음원정보 생성 방법
JPH11109992A (ja) 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置
JPH04177526A (ja) 文章読み上げ装置
JPH054676B2 (ja)
JP2003345372A (ja) 音声合成装置及び音声合成方法
JPS62229473A (ja) 翻訳装置