JP2008040371A - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP2008040371A
JP2008040371A JP2006217721A JP2006217721A JP2008040371A JP 2008040371 A JP2008040371 A JP 2008040371A JP 2006217721 A JP2006217721 A JP 2006217721A JP 2006217721 A JP2006217721 A JP 2006217721A JP 2008040371 A JP2008040371 A JP 2008040371A
Authority
JP
Japan
Prior art keywords
speech
speech synthesis
attribute information
synthesizer
synthesis data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006217721A
Other languages
English (en)
Inventor
Yusuke Fujita
雄介 藤田
Ryota Kamoshita
亮太 鴨志田
Kenji Nagamatsu
健司 永松
Yoshinori Kitahara
義典 北原
Yuichi Mori
森  有一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2006217721A priority Critical patent/JP2008040371A/ja
Publication of JP2008040371A publication Critical patent/JP2008040371A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephone Function (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 可般型の音声合成装置を用いて、多種多様な音声合成を実現する。
【解決手段】 可般型の音声合成装置に、話者や用途などの情報をあらかじめ記憶しておき、また、他の音声合成装置の話者・用途などの情報を検索する機能を有し、同一の特徴を持つ、他の音声合成装置とデータを結合することにより、音声合成装置の機能を拡張する。
【選択図】 図2

Description

本発明は、可般型の記憶媒体等に格納された音声合成装置に関する。
テキスト音声合成は、入力されたテキストに対して言語処理を行い、読みやアクセントの情報を示す中間記号列を生成した後、基本周波数パタンや音素継続時間長などの韻律パラメータを決定し、韻律パラメータに合わせて音声波形を生成するものである。韻律パラメータから音声波形を生成する方法として、音素や音節に対応する音声素片を組み合わせる、波形接続型音声合成が広く用いられている。
テキスト音声合成を用いた装置は、パーソナルコンピュータや携帯電話などの、個人用途から業務用の音声ガイダンスシステムに至るまで、様々な装置形態を持ち、それぞれ用途に応じた音声合成手段および音声合成用データが用いられる。様々な装置形態に起因する記憶容量の制限や用途に応じて音声合成用データを構成することが、高品質の音声合成を実現するために必要とされている。
特に、可般型の記録媒体で音声合成装置を実現する際には、記憶容量が充分にとれないことがあるため、音声合成用のデータは、大きく圧縮するか、特定の単語のみを高品質に合成できるようにデータが削減する必要がある。従って、パーソナルコンピュータやネットワーク上のサーバで音声合成装置を備える構成に比べて、品質の点で問題がある。
音声合成装置を特定用途に合わせるためには、特定用途のために録音された音声を用いて、音声素片・韻律モデルを学習する方法や、また、これらの音声素片や韻律モデルを、標準的な音声素片・韻律モデルからの変形によって実現する方法が用いられている。また、記憶容量に合わせた音声合成装置を作成するためには、用途に合わせて音声素片や韻律モデルのデータを圧縮する方法がある。
しかしながら、音声合成装置を、特定用途に合わせて構成するためには、音声合成の方式を熟知した技術者が作業を行う必要があり、作業の手間がかかるという問題があった。また、特定用途に応じて構成された音声合成装置は、他の用途に利用すると品質が落ちてしまうため、再利用することが難しいという問題があった。
本発明は、上記の問題を解決するものであり、特定用途に応じて構成された音声合成装置を、簡易な手法で実現することができ、また、音声合成の方法を熟知した技術者でなくとも、直感的な操作で、特定用途に応じた音声合成装置を構成する方法を提供するものである。
本発明は、上記目的を達成するために、入力されたテキストから音声を合成する装置において、音声合成用データと該音声合成用データの属性情報をあらかじめ記憶しておき、他の音声合成装置と接続し、接続された複数の音声合成装置の前記属性情報を検索し、検索結果に基づいて、複数の前記音声合成用データを結合して、結合音声合成用データを生成し、該結合音声合成用データに基づいて、入力されたテキストから音声を合成することを特徴とする。
また本発明は、前記音声合成用データの話者・基本話速・平均基本周波数・声質のいずれかを識別する情報を前記属性情報とし、該属性情報と一致する他の音声合成装置の前記属性情報を検索し、前記属性情報の一致した前記音声合成データを結合して前記結合音声合成用データを生成することを特徴とする。
また本発明は、前記属性情報と対応付けて音声合成装置の形状、色、および材質が加工されることを特徴とする。
また、本発明は、入力されたテキストから音声を合成する装置において、音声合成用データをあらかじめ記憶しておき、他の音声合成装置と接続し、接続された複数の音声合成装置の接続位置情報を取得し、該接続位置情報に基づいて、音声の加工を行う音声合成手段を備えることを特徴とする。
本発明によれば、音声合成装置は特定用途のために構成された音声合成用データと音声合成手段を有するが、他の音声合成装置と接続する手段と、接続された音声合成装置の音声合成用データの属性を検索し、音声合成用データを取得する手段を備えることにより、用途に適した属性を持つ音声合成用データが他の音声合成装置に存在する場合、これらを結合して、用途に適した音声合成用データを生成することにより、結果として、多種多様な入力に対しても高品質な合成音声を得ることを可能とする。
また、本発明によれば、音声合成装置が可般型メモリ等に格納され、記憶容量に制限がある場合においても、他の音声合成装置における話者・基本話速・平均基本周波数・声質などの属性が一致または近いと判定された音声合成用データを取得し、結合することにより、より大きな記憶容量を必要とする音声合成装置を簡易に構成することを可能とする。
また、本発明によれば、音声合成用データの属性を反映した形状・色・材質を有した音声合成装置を構成することにより、接続した複数の音声合成装置によって生成される合成音声の特徴を、視覚的に容易に把握することができるため、音声合成を熟知した技術者でなくとも、用途に合わせた音声合成装置の構成を直感的な操作によって行うことを可能とする。
また、本発明によれば、装置の物理的な接続関係によって、結合される音声合成用データの特徴および音声の加工方法を操作する音声合成手段を備えることにより、接続位置の操作によって簡易に、音声合成装置の用途に応じた構成の変更を可能とする。
このように、本発明によれば、他の音声合成装置と接続して、単体の音声合成装置では生成しえない、多種多様な合成音声を生成することができるようになる。また、物理的な接続構成の変更によって、出力される合成音声の特徴を変えることができるため、より直感的な音声合成装置の操作が可能となる。
以下、本発明の実施形態について説明する。
図1は、本発明の一実施形態に係り、複数のUSBメモリに格納された音声合成装置を用いた、音声合成システムを示すブロック図である。
本実施形態の音声合成装置1は、外部の装置と接続する装置接続部2と、音声素片データベース3および韻律データベース4からなる音声合成用データ記憶部5と、音声合成用データの属性情報を格納する属性情報記憶部6と、外部に接続された音声合成装置の属性情報を検索する属性情報検索部7と、属性情報検索部7から得られた情報に基づき、外部に接続された音声合成装置の音声合成用データと当該装置の音声合成用データを結合する音声合成用データ結合部8と、結合された音声合成用データに基づいて、入力されたテキストを合成する音声合成部9を備えている。
音声合成装置1は、装置接続部2によってUSBポート10に接続され、コンピュータ装置11とキーボード12およびスピーカ13と接続することにより、音声合成システムを構成する。また、USBポート10には、音声合成装置1と同様の構成を持つ音声合成装置14および15を接続することで、拡張された音声合成システムを構成する。
次に、本実施形態に係る音声合成システムの動作について説明する。なお、図2は、本実施形態に係る音声合成システムの接続時の設定動作を示すフローチャートであり、図3は、本実施形態に係る音声合成システムの運用時の動作を示すフローチャートである。
まず、音声合成装置1をUSBポート10に接続することにより、音声合成システムの設定を開始する(ステップ101)。本実施形態においては、USBメモリに格納された複数の音声合成装置を利用するために、コンピュータ装置に内蔵のUSBポートあるいは、外部に接続されているUSBハブなどを用いることが好適であるが、接続の形態はUSB装置に限るものではなく、同様の構成を、イーサネットケーブルや無線を用いたネットワークによって実施することも可能である。
USBポートに接続されると、属性情報検索部7は、音声合成装置1が持つ属性情報記憶部6と同一の属性情報を持つ音声合成装置を、USBポート10を介して検索する(ステップ102)。ここで、外部の音声合成装置に関する情報は、コンピュータ装置11の所定の位置にデータベースとして格納されている情報を読み出すか、コンピュータ装置11を介して、外部の音声合成装置に問い合わせる等の方法で取得することができる。
属性情報記憶部6の構成は図4の例に示すように、話者ID41、平均基本周波数42、平均話速43、声質ID44の情報である。これらは、音声合成用データ5の特徴に対応するものである。話者ID41は、素片データベース3と韻律データベース4の学習に用いられた話者を識別するための番号である。声質ID44は、同一話者であっても、発話スタイルや発話環境が異なる場合に、声の質が異なることを考慮し、これらの違いを識別するための番号として付与する。属性情報6の構成は、音声素片データベースと韻律データベースの構築時に作成されるものを利用することが好適である。
音声合成用データ結合部8は、検索された属性情報に対応して、音声合成用データ5と結合可能な音声合成用データが存在するかを判定する(ステップ103)。ここで、結合可能な音声合成用データが存在しない場合は処理を終了する。
結合可能な音声合成用データが存在する場合は、音声合成用データ結合部は、複数の音声合成用データの情報を結合する(ステップ104)。ここで、図6および図7は、属性情報を用いて複数の音声合成用データを結合する動作の例であり、話者IDの一致する音声合成用データが存在する際に、素片データベースを結合する方法を示している。
図7に示すように、素片データベースの結合は、結合する複数の素片データベースの構成要素を全て有し、素片データベースの音素IDの順に並べ替える等、単一の素片データベースと同様の記憶形式となるようにするものである。韻律データベースの結合は図示しないが、同様に、アクセント型の順序を考慮して並べ替えを行うものであればよい。
音声合成用データの結合を行う方法は、図7に示した結合の例に限らない。例えば、結合素片データベースに、結合される複数の素片データベースの全ての構成要素を含ませず、特定の音素のみを結合することとし、特定用途に必要な音声素片だけを集めることで、計算量の観点で有利になるよう構成することもできる。
結合された音声合成用データの記憶領域としては、音声合成装置1またはコンピュータ装置11のいずれであってもよいが、USBメモリに十分な領域がなくても、音声合成データの結合が可能であるように、コンピュータ装置12上に記憶領域をとることが望ましい。または、結合された音声合成データ全体の記憶領域をとらずとも、音声合成部9の動作時に、外部に接続された音声合成装置の持つ音声合成用データへのアクセスが可能なように構成しておけばよい。
属性情報検索部7は、外部の音声合成装置に関する属性情報に加えて、接続の物理的な位置に関する情報を取得して、音声合成用データ結合部8で利用するようにしてもよい。例えば、隣接するUSBポートに接続されている音声合成装置、もしくは、直列に接続されている音声合成装置についてのみ、音声合成用データの結合の対象とすることにより、視覚的に分かりやすい操作で、音声合成用データの結合を行うことができる。
図8に示すように、音声合成装置の形状を、属性情報記憶部に対応させておくことによって、視覚的に分かりやすい操作で、音声合成用データの結合を行うことができる。ここでは、話者IDと関連する情報を装置の形状とすることにより、同一話者の音声合成用データを結合して、高品質な音声合成システムを構成する操作を支援する。また、装置の長辺の長さを平均基本周波数の逆数と対応させる形状に加工しておくことにより、声の高さに関するバリエーションを考慮した音声合成システムを構築することができる。
次に、音声合成システムの運用時の動作について説明する。
まず、ユーザからキーボード11によってテキストが入力されると、音声合成すべきテキストを決定する(ステップ201)。テキストを入力する方法は、キーボード入力に限るものでなく、例えば、すでにテキストデータのファイルを格納している場合は、そのファイルをユーザが選択することによって行ってもよい。もしくは、あらかじめ記憶されているスケジュールやシナリオに従ってテキストデータを供給するプログラムが構成されている場合には、そのプログラムの実行によって行ってもよい。
USBポートに複数の音声合成装置が接続されている場合には、コンピュータ装置11は、出力に利用する音声合成装置を選択する(ステップ202)。選択方法は、コンピュータ装置に接続されている入力手段を用いて選択するだけでなく、あらかじめ記憶されているスケジュールやシナリオに従って、接続されている音声合成装置の中から選択するプログラムが構成されている場合には、そのプログラムの実行によって行っても良い。
次に、選択された音声合成装置の音声合成部では、入力されたテキストを、音声合成用データに従って合成し、音声データを生成する(ステップ203)。音声合成部の合成方法は、公知技術の組み合わせによって構築することができる。本実施形態では、入力されたテキストに対し、形態素解析および構文解析を行い、各形態素の読み情報、アクセント位置情報などを利用して読み情報を付与したのち、音声合成用データのひとつである韻律データベースを参照して、韻律情報を付与し、さらに音声合成用データのひとつである素片データベースを参照して、素片波形の組み合わせを決定し、波形接続処理を行って音声波形を生成する。
音声合成部9は、生成した音声データを、装置接続部を介してコンピュータ装置へ送り、コンピュータ装置はスピーカ13に音声波形を出力する(ステップ204)。ここで、スピーカ13は、コンピュータ装置に接続される構成としたが、スピーカは、コンピュータ装置に内蔵される形態であってもよく、また、音声合成装置に内蔵される形態、音声合成装置に接続されるヘッドフォンなどの形態であってもよい。
このように、本発明の一実施形態によれば、他の音声合成装置と接続して、単体の音声合成装置では生成しえない、多種多様な合成音声を生成することができるようになる。また、物理的な接続構成の変更によって、出力される合成音声の特徴を変えることができるため、より直感的な音声合成装置の操作が可能となる。
なお、本発明の一実施形態においては、USBメモリに音声合成を行うプログラムおよびデータを格納し、コンピュータ装置に接続して利用する場合を例示したが、これ以外の装置構成にも本発明を適用することができる。例えば、音声合成を行うプログラムおよびデータを格納する可般型の媒体に、CPUなどの演算処理装置を持つ媒体を利用すると、複数の音声合成装置の音声合成用データを結合するためのプログラムの実行は、各可般型媒体のもつ中央演算装置に実行させる構成とすることもできる。また、本実施形態の各手順は、CPUによって実現されてもよいし、DSPなどの音声処理専用に利用できるハードウェアによって実現されてもよい。
本発明の一実施形態における音声合成システムの構成を示すブロック図である。 本発明の一実施形態における音声合成システムの接続時の設定動作を示すフローチャートである。 本発明の一実施形態における音声合成システムの運用時の動作を示すフローチャートである。 属性情報記憶部に記憶される情報を示す図である。 音声合成用データ記憶部に記憶される情報を示す図である。 属性情報検索部と音声合成用データ結合部の動作を説明するための説明図である。 素片データベースの結合動作を説明するための説明図である。 音声合成装置の仕様の例である。
符号の説明
1・・・音声合成装置、2・・・装置接続部、3・・・素片データベース、4・・・韻律データベース、5・・・音声合成用データ記憶部、6・・・属性情報記憶部、7・・・属性情報検索部、8・・・音声合成用データ結合部、9・・・音声合成部。

Claims (4)

  1. 入力されたテキストから音声を合成する装置において、音声合成用データを記憶する音声合成用データ記憶手段と、該音声合成用データの属性情報を記憶する属性情報記憶手段と、他の音声合成装置と接続する装置接続手段と、該装置接続手段に接続された複数の音声合成装置の前記属性情報記憶手段に記憶されている前記属性情報を検索する属性情報検索手段と、該属性情報検索手段の検索結果に基づき、複数の前記音声合成用データを結合し、結合音声合成用データを生成する音声合成用データ結合手段と、該音声合成用データ結合手段により結合された前記結合音声合成用データに基づいて、入力されたテキストから音声を合成する音声合成手段を備えることを特徴とする音声合成装置。
  2. 前記属性情報が、前記音声合成用データの話者・基本話速・平均基本周波数・声質のいずれかを識別する情報であって、前記属性情報検索手段が、前記属性情報と一致する他の音声合成装置の前記属性情報を検索し、前記音声合成用データ結合部が、前記属性情報の一致した前記音声合成データを結合して前記結合音声合成用データを生成することを特徴とする請求項1に記載の音声合成装置。
  3. 前記音声合成装置において、装置の形状・色・材質が、前記属性情報と対応付けて加工されることを特徴とする、請求項1に記載の音声合成装置。
  4. 入力されたテキストから音声を合成する装置において、音声合成用データを記憶する音声合成用データ記憶部と、他の音声合成装置と接続する装置接続手段と、該装置接続手段に接続された複数の音声合成装置の接続位置情報を取得する接続位置情報取得手段と、該接続位置情報取得手段から得られる前記接続位置情報に基づいて、音声の加工を行う音声合成手段を備えることを特徴とする音声合成装置。
JP2006217721A 2006-08-10 2006-08-10 音声合成装置 Pending JP2008040371A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006217721A JP2008040371A (ja) 2006-08-10 2006-08-10 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006217721A JP2008040371A (ja) 2006-08-10 2006-08-10 音声合成装置

Publications (1)

Publication Number Publication Date
JP2008040371A true JP2008040371A (ja) 2008-02-21

Family

ID=39175405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006217721A Pending JP2008040371A (ja) 2006-08-10 2006-08-10 音声合成装置

Country Status (1)

Country Link
JP (1) JP2008040371A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011016597A (ja) * 2009-07-07 2011-01-27 Higashi Nippon Transportec Kk エスカレーター用音声案内装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01226097A (ja) * 1988-03-04 1989-09-08 Matsushita Electric Ind Co Ltd 携帯用音声警報装置
JPH0731748A (ja) * 1992-12-08 1995-02-03 Steven Lebensfeld 視覚言語対応型の玩具人形
JP2000305583A (ja) * 1999-04-19 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2001022375A (ja) * 1999-07-06 2001-01-26 Matsushita Electric Ind Co Ltd 音声認識合成装置
JP2001272992A (ja) * 2000-03-27 2001-10-05 Ricoh Co Ltd 音声処理システムおよびテキスト読上げシステムおよび音声認識システムおよび辞書獲得方法および辞書登録方法および端末装置および辞書サーバーおよび記録媒体
JP2002221979A (ja) * 2001-01-24 2002-08-09 Matsushita Electric Ind Co Ltd 音声合成装置、言語辞書メンテナンス方法および言語辞書メンテナンス装置
JP2002358092A (ja) * 2001-06-01 2002-12-13 Sony Corp 音声合成システム
JP2004013122A (ja) * 2002-06-11 2004-01-15 Fujitsu Ltd テキスト読み上げシステム及び方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01226097A (ja) * 1988-03-04 1989-09-08 Matsushita Electric Ind Co Ltd 携帯用音声警報装置
JPH0731748A (ja) * 1992-12-08 1995-02-03 Steven Lebensfeld 視覚言語対応型の玩具人形
JP2000305583A (ja) * 1999-04-19 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2001022375A (ja) * 1999-07-06 2001-01-26 Matsushita Electric Ind Co Ltd 音声認識合成装置
JP2001272992A (ja) * 2000-03-27 2001-10-05 Ricoh Co Ltd 音声処理システムおよびテキスト読上げシステムおよび音声認識システムおよび辞書獲得方法および辞書登録方法および端末装置および辞書サーバーおよび記録媒体
JP2002221979A (ja) * 2001-01-24 2002-08-09 Matsushita Electric Ind Co Ltd 音声合成装置、言語辞書メンテナンス方法および言語辞書メンテナンス装置
JP2002358092A (ja) * 2001-06-01 2002-12-13 Sony Corp 音声合成システム
JP2004013122A (ja) * 2002-06-11 2004-01-15 Fujitsu Ltd テキスト読み上げシステム及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011016597A (ja) * 2009-07-07 2011-01-27 Higashi Nippon Transportec Kk エスカレーター用音声案内装置

Similar Documents

Publication Publication Date Title
JP5293460B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP4130190B2 (ja) 音声合成システム
JP5471858B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
EP2680254B1 (en) Sound synthesis method and sound synthesis apparatus
KR100859532B1 (ko) 대응 문형 패턴 기반 자동통역 방법 및 장치
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP2009025658A (ja) 音声合成装置、音声合成システム
CN112037755B (zh) 一种基于音色克隆的语音合成方法、装置及电子设备
TW201142822A (en) Speech recognition system and method with adjustable memory usage
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP4287785B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2008040371A (ja) 音声合成装置
JP6644141B2 (ja) 応答装置および応答装置の制御方法、制御プログラム
JP6179884B2 (ja) Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム
Breen et al. A phonologically motivated method of selecting non-uniform units
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP2006189799A (ja) 選択可能な音声パターンの音声入力方法及び装置
JP6314828B2 (ja) 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
JP5701348B2 (ja) 音声認識装置、音声認識方法、およびプログラム
CN105890612A (zh) 一种导航过程中的语音提示方法及装置
JP6124844B2 (ja) サーバ、データベースを利用する方法、プログラム、システム、端末、端末プログラムおよび音声データ出力装置
KR20100003574A (ko) 음성음원정보 생성 장치 및 시스템, 그리고 이를 이용한음성음원정보 생성 방법
JP2009025328A (ja) 音声合成装置
JP6221253B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110225

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111004