JP2014021136A

JP2014021136A - 音声合成システム

Info

Publication number: JP2014021136A
Application number: JP2012156123A
Authority: JP
Inventors: Ikuo Kitagishi; 郁雄北岸
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2012-07-12
Filing date: 2012-07-12
Publication date: 2014-02-03
Also published as: US20140019137A1

Abstract

【課題】従来の音声合成システムでは、ユーザは予めサーバに蓄積された限られた音声辞書からしか合成可能な音声を選択することができず、自らの音声をサーバに蓄積したり、自己の要求を満たすような特徴の音声合成データを得ることは困難であった。
【解決手段】公開されたインターフェイス部と、インターフェイス部を介して外部端末から音声の入力を受付ける音声入力受付部と、インターフェイス部を介して外部端末から音声所有者に関する情報を受付ける登録用情報受付部と、前記音声から作成する音声辞書セットをその音声の入力者に関する登録用情報と関連付けて保持する音声辞書セット保持部と、インターフェイス部を介して外部端末から音声辞書セットを選択できる音声辞書セット選択部とを有するサーバ装置を含む音声合成システムなどを提案する。
【選択図】図１

Description

本発明は音声合成システムに関する。

従来から、ユーザが予めサーバに蓄積された音声モデルを指定することで、当該音声モデルを利用して任意のテキストを読み上げる音声データを生成する音声合成システムが一般的に知られている。これらの音声合成システムは、顧客（ユーザ）が端末を用いて特定の話者を選択し、システム運営者側で特定の文章を前記選択された話者の声の特徴に基づき音声合成を行うことを特徴としている。

例えば、特許文献１では、顧客とサービス提供者との間でネットワークを介してなされる音声合成システムとして、前記顧客に対し選択可能に提示された話者の中から特定の話者を選択可能とし、サーバにおいて任意の文章を前記特定の話者の音声特徴データ（音声モデル）を用いて音声合成処理を行う音声合成システムに関する技術が開示されている。

特開２００２−２３７７７号公報

しかしながら、従来の音声合成システムでは、既に特定の話者の音声モデル（音声辞書）が生成された状態でサーバに保持されている。そのためユーザは、合成音声の提供を受けうたいと考えても、予めサーバに蓄積された限られた数の音声辞書のなかからしか選択することができず、自己の音声を自由に音声辞書化しサーバに蓄積したり、自己の要求を満たすような特徴・性質の音声辞書を選択して作成された音声合成データを受け取ったりすることは困難であった。

以上のような課題を解決するために、本件発明は、読上用テキストと音声辞書セットとを用いて音声合成をする音声合成システムであって、公開されたインターフェイス部と、前記インターフェイス部を介して外部端末から音声辞書セット作成用の音声の入力を受付ける音声入力受付部と、前記インターフェイス部を介して外部端末から音声の入力者である音声所有者に関する登録用情報を受付ける登録用情報受付部と、前記入力を受付けた音声から作成する音声辞書セットをその音声の入力者に関する登録用情報と関連付けて保持する音声辞書セット保持部と、前記インターフェイス部を介して外部端末から音声辞書セット保持部に保持された音声辞書セットを選択できる音声辞書セット選択部と、を有するサーバ装置を含む音声合成システムなどを提案する。

主に以上のような構成をとる本件発明によって、話者は自由に自己の音声の特徴である韻律モデルや音声モデルを記録した音声辞書セットをサーバ内に蓄積させ、当該音声辞書セットを公開することが可能になり、さらに、このように手軽に音声辞書セットを公開することが可能となるため、多くの話者による音声辞書セットの提供が進むことととなり、ユーザが求める条件に沿った音声辞書セットを提供することが可能になる。

実施形態１の音声合成システムの概要を示す図実施形態１の音声合成システムにおけるサーバ装置の機能ブロックの一例を示す図実施形態１のサーバ装置の音声辞書セット保持部での音声辞書セットの保持方法の一例を表す図実施形態１のサーバ装置のハードウェア構成の一例を表す概略図実施形態１のサーバ装置の処理の流れの一例を示す図実施形態２のサーバ装置の機能ブロックの一例を示す図実施形態２のサーバ装置の処理の流れの一例を示す図実施形態３のサーバ装置の機能ブロックの一例を示す図実施形態３のサーバ装置の処理の流れの一例を示す図実施形態４のサーバ装置の機能ブロックの一例を示す図実施形態４のサーバ装置の処理の流れの一例を示す図実施形態５のサーバ装置の機能ブロックの一例を示す図実施形態５のサーバ装置の処理の流れの一例を示す図実施形態６のサーバ装置の機能ブロックの一例を示す図実施形態６のサーバ装置の処理の流れの一例を示す図実施形態７の音声合成システムにおける外部端末装置の機能ブロックの一例を示す図実施形態７の音声合成システムにおける外部端末装置のハードウェア構成の一例を表す概略図実施形態７の外部端末装置の処理の流れの一例を示す図実施形態８の外部端末装置の機能ブロックの一例を示す図実施形態８の外部端末装置の処理の流れの一例を示す図実施形態９の外部端末装置の機能ブロックの一例を示す図実施形態９の外部端末装置の処理の流れの一例を示す図実施形態１０の外部端末装置の機能ブロックの一例を示す図実施形態１０の外部端末装置の処理の流れの一例を示す図

以下に、本発明の各実施形態について適宜図を用いて説明をする。なお、本発明はこれらの実施形態に何ら限定されるものではなく、その要旨を逸脱しない範囲において、様々な実施することが可能である。
<<実施形態１>>
<概要>

図１は、本実施形態の音声合成システムにおけるシステムの概要を示す図である。この図にあるように、話者は、公開されたインターフェイスを介してシステム運用者に対し音声データを提供する。システム運用者が管理するサーバ装置は、提供された音声データに基づき音声辞書セットを作成し、複数の音声辞書セットを保持するデータベースを構成する。そしてユーザは、前記各音声辞書セットの中から自己の求める条件と整合するようなものを選択する。図１の場合、ユーザは、複数の音声辞書セットの中から「音声辞書セットＢ」を選択し、「吾輩は猫である」という内容の読上用テキストを外部端末において入力する。すると、当該音声辞書セットが保持する「Ｂ」という特性の音声情報に従って、「吾輩は猫である」との合成音声の提供を受ける。

なお、以下で説明する本サーバ装置及び後記音声合成端末の機能ブロックは、いずれもハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの両方として実現され得る。具体的には、コンピュータを利用するものとしては、ＣＰＵやメインメモリ、バス、あるいは二次記憶装置（ハードディスクや不揮発性メモリ、ＣＤやＤＶＤなどの記憶メディアとそれらのメディアの読取ドライブなど）、情報入力に利用される入力デバイス、印刷機器や表示装置、マイクロフォンやスピーカー、その他の外部周辺装置などのハードウェア構成部、またその外部周辺装置用のインターフェイス、通信用インターフェイス、それらハードウェアを制御するためのドライバプログラムやアプリケーションプログラム、ユーザ・インターフェイス用アプリケーションプログラムなどが挙げられる。

そして、メインメモリ上に展開したプログラムに従ったＣＰＵの演算処理によって、入力デバイスやその他インターフェイスなどから入力され、メモリやハードディスク上に保持されているデータなどが加工、蓄積されたり、上記各ハードウェアやソフトウェアを制御するための命令が生成されたりする。ここで、上記プログラムは、モジュール化された複数のプログラムとして実現されてもよいし、２以上のプログラムを組み合わせて一のプログラムとして実現されても良い。

また、このような本件発明は装置として実現できるのみならず、方法としても実現可能である。さらに、このような装置の一部をソフトウェアとして構成することも可能である。そして、そのようなソフトウェアをコンピュータに実行されるために用いるソフトウェア製品、及び同製品を記録媒体に固定した記憶媒体も、当然に本件発明の技術的な範囲に含まれる（本実施形態に限らず、本明細書の全体を通じて同様である。）。
<機能的構成>

図２は、本実施形態の音声合成システムにおけるサーバ装置の機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「サーバ装置」０２００は、「インターフェイス部」０２０１と、「音声入力受付部」０２０２と、「登録用情報受付部」０２０３と、「音声辞書セット保持部」０２０４と、「音声辞書セット選択部」０２０５とからなる。

「インターフェイス部」は公開されており、外部端末装置とサーバ装置との間における種々の情報の送受信を媒介する機能を有する。「公開されて」いることにより、コンピュータの利用者は原則として誰でも、外部端末装置を用いて自由にサーバ装置との間で情報の送受信を行うことが可能である。ここで送受信が可能な情報としては、例えば文字情報や画像情報などが考えられ、音声情報も当然ここでいう送受信が可能な情報に含まれる。このように、サーバ装置が音声情報を送受信するインターフェイスを公開する構成をとることにより、自らの音声を音声辞書として公開し多くのユーザに利用してほしいという話者としては、ネットワークを通じて手軽にかつ自由に音声情報を提供することが可能になり、サーバ管理者にとっても、ネットワークを通じて幅広い話者から音声情報の提供を受けることが可能になる。すなわち、上記音声情報の送受信はあくまで公開されたインターフェイスを介して行われる構成であればよく、当該構成を実現可能であれば、必ずしも当該インターフェイスが一の系統である必要はない。端的にいえば、音声情報を受信するためのインターフェイスと、送信するためのインターフェイスはそれぞれ異なっていても良く、具体的な例を挙げると、音声情報の受信には電話回線を用い、音声情報の発信にはインターネット回線を用いるということがあってももちろん構わない。
このように、インターフェイス部は、基本的に不特定多数からのアクセスを受けて、音声の登録と、登録された音声の利用を可能とする市場創設機能を実現する。つまり、インターフェイス部によって音声があたかも商品であるかのように取り引きされ、今まで広く取引の対象足り得なかった音声という情報を誰でも自由に商品として販売し、商品として購入することを可能とした。

「音声入力受付部」は、前記インターフェイス部を介して外部端末から音声辞書セット作成用の音声の入力を受付ける機能を有する。ここで「外部端末から音声辞書セット作成用の音声の入力を受付ける」とは、具体的には、利用者から外部端末に付属するマイクロフォンや電話機などを通じて発出された音声をＡＤ変換してデジタル信号として受付けることを指す。

「音声辞書セット作成用の音声」とは、音声辞書を作成するための素材となるフレーズの音声のことを意味する。音声辞書セットを作成するためには、音声を聞き取り、話者の音声データのほか話者独特の音素や韻律のモデルをも抽出生成する必要があることが技術常識として知られている。韻律モデルは、話者による様々な単語や文章を読み上げを通じて得られる情報である。したがって、「音声辞書を作成するための素材となるフレーズ」とは、音声データのほか韻律モデルを取得するために必要な単語や文章であることが考えられる。音声辞書セットとしては、普段からよく使うことの多い単語や文章に関する韻律モデルや音声データを備えていることが望ましいので、前記フレーズも日常的によく使うことの多い単語や文章であることが望ましい。例えば、先進国の国名や主要都市名、都道府県名、有名人や芸能人の名前、一般名詞、あいさつ文などが考えられる。なお、これらの単語や文章はいずれも一例であり、具体的にどのようなフレーズを用いるかは適宜設定可能である。例えば、特定の学術分野の専門的な単語や文章にのみ対応した音声辞書セットを作成しようと思えば、たとえ一般名詞等ではなくても、当該学術分野の専門用語等を素材となるフレーズにしてももちろん構わない。

「音声の入力」とは、話者が前記素材となるフレーズの音声を読み上げることを意味する。一定程度以上の確度を有する音声辞書の作成には少なくとも数十分の音声の読上げが必要であるのが技術常識であるから、話者は少なくとも数十分間は素材となるフレーズを読み上げる必要がある。なお、話者によるフレーズの読上げは、一度で最初から最後まで読上げを完了しなければならないものではない。読上げは途中で中断してもよく、必要な時間分のテキストを複数回に分けて読み上げてももちろんよい。このように読上げ時間を複数回に分けた場合、後記音声辞書セット保持部は、各中断時点において読み上げられた音声に基づいて作成した未完成の音声辞書セットを保持することとなる。

「登録情報受付部」は、前記インターフェイス部を介して外部端末から音声の入力者である音声所有者に関する登録用情報を受付ける機能を有する。「音声所有者に関する登録用情報」とは、具体的には、当該音声所有者を特定し、あるいは当該音声の特徴を認識する際の判断要素となる固有の情報であって、例えば、性別や年齢、声が似ている有名人、顔写真、ネットワーク上で用いる音声辞書ID、氏名、住所、職業、電話番号、クレジットカード番号、銀行口座番号などが考えられる。当該各情報を受付けることにより、後記音声辞書セットと登録情報とを関連付け、利用者が自己の希望する条件を満たす音声辞書を選びやすくすることが可能になる。具体的には、例えば「２０歳代男性」や「３０歳代のキャリアウーマン風の女性」「現役総理大臣に似ている」「高視聴率のアニメーションのキャラクターの音声に似ている」などの各条件を満たすような音声辞書を探すことが可能になるよう各情報の登録を受付けることを意味する。

さらに、音声辞書セットの提供を有償とし、ユーザが音声辞書セットを選択する回数などにより、当該音声辞書セットに含まれる音声の所有者である話者に対し金銭的利益を配分する構成をとることも考えられる。音声辞書セットの価格は話者が登録用情報として決定してもよいし、サーバ管理者が決定しても良い。そして、このような金銭的利益の配分を効率的に行うため、登録用情報として氏名や銀行口座番号などの情報を登録しておく構成としてもよい。

なお、登録用情報としては様々な種類の情報が考えられるが、なかには個人情報である等の理由から公開することが好ましくないものも含まれる。したがって、登録用情報を入力する際は、各情報のいずれを公開しいずれを非公開とするかを話者が選択可能とする構成をとることが望ましい。

「音声辞書セット保持部」は、前記入力を受付けた音声から作成する音声辞書セットをその音声の入力者に関する登録用情報と関連付けて保持する機能を有する。「音声から作成する音声辞書セット」とは、話者により読上げられた音声の情報から音声データ及び音素・韻律モデルを抽出生成し、任意のテキストに対応する音声情報を提供可能とするような音声辞書セットのことを指す。具体的には、話者の単語や文章ごとの話し方のスピードの高低やアクセントの位置、声の大小および高低などの特徴の情報を話者単位で集約し保持する機能を有する。

「音声辞書セットをその音声の入力者に関する登録用情報と関連付けて保持する」とは、前記音声の入力者である話者が入力した単数あるいは複数の登録用情報と、音声辞書セットとをそれぞれ紐づけて保持することを意味する。ここで、図３は、本実施形態のサーバ装置の音声辞書セット保持部での音声辞書セットの保持方法の一例を表す図である。この図にあるように、音声辞書セットごとに複数の登録用情報を関連付けてテーブル上に保持する構成をとることにより、ユーザは、自らが求める合成音声を特徴づける条件に対応した登録用情報を検索することが可能になるため、当該条件に近似する音声辞書セットを選択することが可能になる。

「音声辞書セット選択部」は、前記インターフェイス部を介して外部端末から音声辞書セット保持部に保持された音声辞書セットを選択可能とする機能を有する。ここで「インターフェイス部を介して外部端末から」「音声辞書セットを選択可能とする」とは、外部端末を用いるユーザが、自己の希望する条件に適した音声辞書セットを選択し得る提示手段が用いられていることを意味する。「自己の希望する条件に適した音声辞書セットを選択し得る提示手段」とは、例えば、ユーザからある条件の入力を受付け、当該条件と整合する内容の登録用情報と関連付けられている音声辞書セットの情報をインターフェイス部を介して表示出力する方法が考えられる。また、ユーザが過去に選択した音声辞書セットの登録用情報をユーザＩＤとともに記憶しておき、同登録用情報と類似する情報をもつ音声辞書セットをユーザが優先的に視認可能となるように表示出力する方法も考えられる。さらには、視聴用音声データの出力が可能とする状態にて各音声辞書セットの情報をインターフェイス部を介して公開し、ユーザの選択により視聴用音声データを視聴することで自らの希望する条件を満たす音声データかどうかを確認する方法も考えられる。視聴用音声データは、例えば、予めサーバ装置内に記録した定型の音声データを再生する方法を用いてもよいし、ユーザから後記読上用テキストの入力を受け、当該読上用テキストを合成音声として再生してもよい。さらには、ユーザではなく話者自身が視聴用に読上用テキストを登録しておき、当該読上用テキストを合成音声として再生する構成としてもよい。

なお、音声辞書セット選択部にてユーザの選択を受けた場合、当該選択を受けた音声辞書セットは、ユーザ側の外部端末にダウンロードしても良いし、従前通りサーバ装置に保持しておき、その後のユーザの出力命令に従って適宜音声合成に用いる方法をとっても良い。
<サーバ装置の具体的な構成>

図４は、前記サーバ装置の機能的な各構成をコンピュータで実現した場合のハードウェア構成の一例を表す概略図である。同図を利用して、それぞれのハードウェア構成部の働きについて説明する。

この図にあるように、サーバ装置は、各部における演算処理を実行するための「ＣＰＵ」０４０１と、「記憶装置（記憶媒体）」０４０２と、「メインメモリ」０４０３と、「入出力インターフェイス」０４０４とを備え、入出力インターフェイスを介してネットワークを通じ、音声合成端末などの「外部端末」０４０５との間で情報の入出力を行う。前記の構成は「システムバス」などのデータ通信経路によって相互に接続され、情報の送受信や処理を行う。

（インターフェイス部の具体的な処理）
ＣＰＵは、「インターフェイスプログラム」を実行し、サーバ装置の音声入力受付部や音声辞書セット選択部などをネットワーク上で外部端末に対し公開するためのインターフェイスを構成する処理を行う。

（音声入力受付部の具体的な処理）
ＣＰＵは、「音声入力受付プログラム」を実行し、インターフェイスを介して話者の音声情報を外部端末から取得する処理を行い、当該情報をメインメモリの所定のアドレスに格納する。ここで、音声情報は、外部端末装置にてＡＤ変換されたデジタル信号として取得する。音声情報の入力時間が予め指定された時間に満たない場合には、当該時点までの音声情報を記憶装置の所定のアドレスに格納し、音声情報の入力が再開される際に記憶装置の前記所定のアドレスから未完成の音声情報を読み出し、さらに音声情報の入力を受ける。

（登録用情報受付部の具体的な処理）
ＣＰＵは、「登録用情報受付プログラム」を実行し、インターフェイスを介して外部端末から出力された登録用情報を受付ける処理を行い、当該情報をメインメモリの所定のアドレスに格納する。

（音声辞書セット保持部の具体的な処理）
ＣＰＵは「音声辞書セット保持プログラム」を実行し、所定のアドレスに格納した前記音声情報及び登録用情報を読み出したうえで、当該情報から韻律モデルと音声データとを抽出する処理を行い、当該処理により得られた情報と登録用情報とを音声辞書セットとしてメインメモリの所定のアドレスに格納する。

（音声辞書セット選択部の具体的な処理）
ＣＰＵは「音声辞書セット選択プログラム」を実行し、外部端末からインターフェイスを介してなされる指示に基づき保持する複数の音声辞書セットのうち当該指示内容に適合する音声辞書セットを選択する処理を行い、処理結果をメインメモリの所定のアドレスに格納する。
<処理の流れ>

図５は、本実施形態のサーバ装置の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップＳ０５０１では、音声の入力を受付ける。次にステップＳ０５０２では、登録用情報の入力を受付ける。次にステップＳ０５０３では、入力を受付けた音声から韻律モデルと音声データとを抽出し、登録用情報とあわせて音声辞書セットを生成する。次にステップＳ０５０４では、外部端末からの指示に基づき、音声辞書セットを選択する。なお、ステップＳ０５０１とステップＳ０５０２の処理順序は、それぞれが逆になっていてもかまわない。
<効果>

本実施形態のサーバ装置を有する音声合成システムにより、ユーザは、自己の音声モデルに基づいた音声辞書セットを自由にサーバ内に蓄積させ、当該音声辞書セットを公開することが可能になり、さらに、このように手軽に音声辞書セットを公開することが可能となることにより多くの音声辞書セットの公開が促される結果、ユーザが求める条件に沿った音声辞書セットを提供することが可能となる。
<<実施形態２>>
<概要>

本実施形態の音声合成システムは、基本的に実施形態１の音声合成システムと同様であるが、前記サーバ装置は、前記インターフェイス部を介して読上用テキストの入力を受付ける機能をさらに有することを特徴とする。かかる特徴を備えた本実施形態の構成をとることにより、ユーザの求める任意のテキストを読み上げることを内容とする音声を合成することが可能となる。
<機能的構成>

図６は、本実施形態の音声合成システムのうちサーバ装置の機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「サーバ装置」０６００は、「インターフェイス部」０６０１と、「音声入力受付部」０６０２と、「登録用情報受付部」０６０３と、「音声辞書セット保持部」０６０４と、「音声辞書セット選択部」０６０５と、「読上用テキスト入力受付部」０６０６とからなる。基本的な構成は実施形態１の図２を用いて説明した音声合成システムにおけるサーバ装置と共通するため、以下では相違点である「読上用エキスト入力受付部」について説明する。

「読上用テキスト入力受付部」は、前記インターフェイス部を介して読上用テキストの入力を受付ける機能を有する。「読上用テキスト」とは、後記合成音声によって読み上げることとなるテキストのことを意味している。テキストは文字情報であることが考えられるが、音声情報であってもよい。読上用テキストを音声情報として入力を受付ける場合には、当該音声情報の内容を正確に認識するため、極めて広範な語彙をカバーする単語辞書や言語モデルを備えた音声辞書を保持する音声認識装置がサーバ装置内に備えられている必要がある。

なお、読上用テキストの入力はユーザがキーボードなどの入力機器を操作することにより自らテキストとなる単語や文章を入力する方法のほか、特定内容のテキストの記録先であるＵＲＬを入力する方法をとってもよい。後者の方法をとることにより、ユーザは自らいちいち文章を入力する手間をかけずに、大量のテキストを入力することが可能になる。

また、読上用テキストの入力を受付ける際には、ユーザによる複数の異なる音声辞書セットの選択を受付ける構成とすることも可能である。このような構成とすることにより、複数のユーザが参加するチャットアプリケーションや複数のキャラクターが登場する内容の電子書籍アプリケーションのように、複数の合成音声が必要となるケースにも対応できる。
<サーバ装置の具体的な構成>

本実施形態の音声合成システムを構成するサーバ装置のハードウェア構成は、基本的に図４を用いて説明した実施形態１のサーバ装置のハードウェア構成と同様である。以下では、実施形態１で説明しなかった読上用テキスト入力受付部の具体的な処理について述べる。
（読上用テキスト入力受付部の具体的な処理）

ＣＰＵは、「読上用テキスト入力受付プログラム」を実行し、インターフェイスを介して読上用テキストの入力を受付ける処理をおこない、その結果をメインメモリの所定のアドレスに格納する。
<処理の流れ>

図７は、本実施形態の音声合成システムを構成するサーバ装置の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップＳ０７０１では、音声の入力を受付ける。次にステップＳ０７０２では、登録用情報の入力を受付ける。次にステップＳ０７０３では、入力を受付けた音声から韻律モデルと音声データとを抽出し、登録用情報とあわせて音声辞書セットを生成する。次にステップＳ０７０４では、外部端末からの指示に基づき、音声辞書セットを選択する。その後ステップＳ０７０５では、読上用テキストの入力を受付ける。なお、ステップＳ０７０１とステップＳ０７０２の処理順序は、それぞれが逆になっていてもかまわない。
<効果>

本実施形態のサーバ装置を有する音声合成システムによって、ユーザの求める任意のテキストを読み上げることを内容とする音声を合成することが可能となる。
<<実施形態３>>
<概要>

本実施形態の音声合成システムは、基本的に実施形態１の音声合成システムと同様であるが、前記読上用テキスト入力受付部は、禁止処理をすべきテキストのリストである第一禁止テキストリストを保持し、入力された読上用テキストと禁止テキストリストとを比較し、比較の結果に応じてその禁止テキストが音声合成に用いられないための禁止処理をすることを特徴とする。このような特徴を備えた本実施形態の構成をとることにより、公序良俗に反する内容の音声を合成することを事前に防ぎ、合成音声が犯罪やいたずらなど話者の意に反して利用されることを回避することが可能となる。
<機能的構成>

図８は、本実施形態の音声合成システムのうちサーバ装置の機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「サーバ装置」０８００は、「インターフェイス部」０８０１と、「音声入力受付部」０８０２と、「登録用情報受付部」０８０３と、「音声辞書セット保持部」０８０４と、「音声辞書セット選択部」０８０５と、「読上用テキスト入力受付部」０８０６からなり、読上用テキスト入力受付部は「第一禁止テキストリスト保持手段」０８０７と、「第一比較手段」０８０８と、「第一禁止処理手段」０８０９とをさらに有する。基本的な構成は実施形態２の図６を用いて説明した音声合成システムにおけるサーバ装置と共通するため、以下では相違点である「第一禁止テキストリスト保持手段」、「第一比較手段」、そして「第一禁止処理手段」について説明する。

「第一禁止テキストリスト保持手段」は、禁止処理をすべきテキストのリストである第一禁止テキストリストを保持する機能を有する。「禁止処理をすべきテキスト」とは、公序良俗に反する内容のテキストや、話者の意に反する内容を意味するテキストなど、音声として外部に出力し公になることが好ましくないと思われるテキストを指す。具体的には、「誘拐」「身代金」のように特定の犯罪行為を想起させる語が含まれるテキストや、誹謗中傷を意味するような内容の語が含まれるテキスト、さらには話者の品位をおとしめる内容のテキストなどが考えられる。

第一禁止テキストリストの構成としては、一般的に禁止すべきと考えられる複数のテキストを予め記録しておく方法が考えられるが、禁止すべきテキストは社会情勢などによって変化することが考えられるため、随時サーバ管理者により内容の加除修正を可能とする構成とすることが望ましい。

なお、第一禁止テキストリストは、本件音声合成システムにおいて統一的に一のリストとして存在してもよいし、音声辞書ごとに個々の第一禁止テキストリストが存在してもよく、統一的なリストと音声辞書ごとの個別のリストとが併存していてもよい。ここで音声辞書ごとの個別のリストは、当該音声辞書の情報を提供した話者によって作成および編集を可能とする構成とすることが考えられる。このような構成とすることにより、犯罪等社会一般的に許容すべきではない音声の合成を事前に禁止することが可能になるのみならず、話者が自己のイメージにそぐわないなどの理由によって出力を望まない音声の合成をも事前に禁止することが可能になる。

「第一比較手段」は、入力された読上用テキストと第一禁止テキストリストとを比較する機能を有する。「入力された読上用テキストと第一禁止テキストリストとを比較する」とは、読上用テキストの内容に、第一禁止テキストリストに含まれる禁止テキストが含まれていないかどうかを確認することを意味している。当該構成とすることにより、音声合成処理を行うべきでない内容のテキストを同合成処理の前段階で認識することが可能となるため、その後の処理を行う手間を早期に排除することが可能になり、サーバ装置にかかる機械的負荷を軽減することが可能になる。

「第一禁止処理手段」は、前記比較の結果に応じて禁止テキストが音声合成に用いられないための禁止処理をする機能を有する。「前記比較の結果に応じてその禁止テキストが音声合成に用いられないための禁止処理をする」とは、前記比較の結果、禁止テキストとして第一禁止テキストリストに登録されているテキストが読上入力されたと確認した場合に、当該テキストを読み上げた内容通りに音声合成を行わないことを意味している。

ここで「禁止テキスト」とは、前記読上用テキストのうち、禁止処理をすべきと判断されたものをさす。読上用テキスト全体を禁止テキストとする構成も考えられるほか、読上用テキストのうち、第一禁止テキストリストに含まれるテキストの部分のみを禁止テキストとする構成も考えられる。すなわち、「当該テキストを読み上げた内容通りに音声合成を行わない」とは、禁止テキストと判断した該当箇所のみの音声合成を行わない構成としても良いし、禁止テキストと判断した内容を含む読上用テキスト全体の音声合成を行わない構成としても良く、両構成を選択可能に保持する構成であってももちろん構わない。
<サーバ装置の具体的な構成>

本実施形態の音声合成システムを構成するサーバ装置のハードウェア構成は、基本的に図４を用いて説明した実施形態２のサーバ装置のハードウェア構成と同様である。以下では、実施形態２で説明しなかった第一禁止テキストリスト保持手段、第一比較手段および第一禁止処理手段の具体的な処理について述べる。
（第一禁止テキストリスト保持手段の具体的な処理）

ＣＰＵは、「第一禁止テキストリスト保持プログラム」を実行し、後記禁止処理すべき内容を含むテキストのリストである第一禁止テキストリストの情報をメインメモリの所定のアドレスに格納する処理を行う。
（第一比較手段の具体的な処理）

ＣＰＵは、「第一比較プログラム」を実行し、メインメモリの所定のアドレスに格納している第一禁止テキストリストと読上用テキストをともに読み出し、それぞれの情報の内容を比較する処理を行う。そして、処理の結果をメインメモリの所定のアドレスに格納する。
（第一禁止処理手段の具体的な処理）

ＣＰＵは、「第一禁止処理プログラム」を実行し、前記第一比較手段における処理で得られた比較の結果に応じて、禁止テキストが音声合成に用いられないためのフィルタリング処理を行い、その結果をメインメモリの所定のアドレスに格納する。
<処理の流れ>

図９は、本実施形態の音声合成システムを構成するサーバ装置の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップＳ０９０１では、音声の入力を受付ける。次にステップＳ０９０２では、登録用情報の入力を受付ける。次にステップＳ０９０３では、入力を受付けた音声から韻律モデルと音声データとを抽出し、登録用情報とあわせて音声辞書セットを生成する。次にステップＳ０９０４では、外部端末からの指示に基づき、音声辞書セットを選択する。その後ステップＳ０９０５では、読上用テキストの入力を受付ける。次にステップＳ０９０６では、入力された読上用テキストに禁止処理をおこなう必要があるかどうかを判断する。ここでの判断が禁止処理をおこなう必要があるとの判断である場合はステップＳ０９０７に移行する。禁止処理をおこなう必要はないとの判断である場合は処理を完了する。そしてステップＳ０９０７では、禁止テキストが音声合成に用いられないためのフィルタリング処理を行う。なお、ステップＳ０９０１とステップＳ０９０２の処理順序は、それぞれが逆になっていてもかまわない。
<効果>

本実施形態のサーバ装置を有する音声合成システムによって、公序良俗に反する内容の音声を合成することを事前に防ぎ、合成した音声が犯罪やいたずらなど話者の意に反して利用されることを回避することが可能となる。
<<実施形態４>>
<概要>

本実施形態の音声合成システムは、基本的に実施形態２の音声合成システムと同様であるが、前記サーバ装置は、前記読上用テキストから音声辞書セットを用いて音声合成をするために用いる中間言語セットを作成することを特徴とする。かかる特徴を備えた本実施形態の構成をとることにより、日々生まれる新しいことばに対しても対応した合成音声の作成が可能となる。
<機能的構成>

図１０は、本実施形態の音声合成システムのうちサーバ装置の機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「サーバ装置」１０００は、「インターフェイス部」１００１と、「音声入力受付部」１００２と、「登録用情報受付部」１００３と、「音声辞書セット保持部」１００４と、「音声辞書セット選択部」１００５と、「読上用テキスト入力受付部」１００６と、「中間言語セット作成部」１００７と、からなる。基本的な構成は実施形態２の図６を用いて説明した音声合成システムにおけるサーバ装置と共通するため、以下では相違点である「中間言語セット作成部」について説明する。

「中間言語セット作成部」は、前記読上用テキストから音声辞書セットを用いて音声合成をするために用いられる中間言語セットを作成する機能を有する。「読上用テキストから音声辞書セットを用いて音声合成をするために用いられる中間言語セットを作成する」とは、端的には、前記読上用テキスト入力受付部にて入力を受付けた読上用テキストに基づいた内容の中間言語セットを作成することを意味している。具体的には、読上用テキストの内容を解析し、解析内容に基づいた読み方の制御に関する記述である中間言語セットを作成することをさす。具体的には、テキストを単分節や単語に分割し、漢字の音訓読みや同音異義語などを峻別して適切な読み方を特定し、各単語の韻律や分節間のフレーズ間隔等を設定する処理を行う。

このように、中間言語セットは、漢字の読みや単語のアクセントを解析する必要があるところ、一般的にことばは日々変化したり、新たに発生したりすることは少なくない。例えば、新語・流行語や、デビューしたての新人芸能人の名前、新しく設立された会社名などのように、従前は誰も使ってこなかったり、一般的ではなかったことばがある瞬間から一般的になったりすることもある。そこで、読上用テキストを適切に中間言語セット化するためには、このようなことばの使われ方の変化に適切に対応するために中間言語セット作成の前提となる後記プログラムを逐一アップデートする必要がある。そして、中間言語セット作成部をサーバ装置の構成要素とする実施形態においては、上記中間言語セット作成のためのプログラムをアップデートすることがサーバ管理者により適切なタイミングで行われることが期待できるため、個々のユーザが上記アップデートをいちいち行うという煩雑さを解消することが可能となる。
<サーバ装置の具体的な構成>

本実施形態の音声合成システムを構成するサーバ装置のハードウェア構成は、基本的に図４を用いて説明した実施形態２のサーバ装置のハードウェア構成と同様である。以下では、実施形態２で説明しなかった中間言語セット作成部の具体的な処理について述べる。
（中間言語セット作成部の具体的な処理）

ＣＰＵは、「中間言語セット作成プログラム」を実行し、メインメモリに格納されている読上用テキストを読み出し、当該テキストに対応する内容の中間言語セットを作成する処理を行い、その結果をメインメモリの所定のアドレスに格納する。
<処理の流れ>

図１２は、本実施形態の音声合成システムを構成するサーバ装置の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップＳ１２０１では、音声の入力を受付ける。次にステップＳ１２０２では、登録用情報の入力を受付ける。次にステップＳ１２０３では、入力を受付けた音声から韻律モデルと音声データとを抽出し、登録用情報とあわせて音声辞書セットを生成する。次にステップＳ１２０４では、外部端末からの指示に基づき、音声辞書セットを選択する。その後ステップＳ１２０５では、読上用テキストの入力を受付ける。次にステップＳ１２０６では、入力された読上用テキストから中間言語セットを作成する処理を行う。なお、ステップＳ１２０１とステップＳ１２０２の処理順序は、それぞれが逆になっていてもかまわない。
<効果>

本実施形態のサーバ装置を有する音声合成システムによって、日々生まれる新しいことばや意味やイントネーションの変化することばに対しても対応した合成音声の作成が可能となる。
<<実施形態５>>
<概要>

本実施形態の音声合成システムは、基本的に実施形態４の音声合成システムと同様であるが、前記中間言語セット作成部は、禁止処理をすべきテキストのリストである第二禁止テキストリストを保持し、中間言語セットを作成するために用いられる読上用テキストと、第二禁止テキストリストとを比較し、比較の結果に応じて当該禁止テキストが音声合成に用いられないための禁止処理をおこなうことを特徴とする。かかる特徴を備えた本実施形態の構成をとることにより、テキストを解析する際に音声の合成を禁止する処理を行うことが可能になるため、随時変更し得るテキスト解析の際に時宜を得た禁止処理を行うことが可能となる。
<機能的構成>

図１１は、本実施形態の音声合成システムのうちサーバ装置の機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「サーバ装置」は、「インターフェイス部」と、「音声入力受付部」と、「登録用情報受付部」と、「音声辞書セット保持部」と、「音声辞書セット選択部」と、「読上用テキスト入力受付部」と、「中間言語セット作成部」と、からなり、「中間言語セット作成部」は、「第二禁止テキストリスト保持手段」と、「第二比較手段」と、「第二禁止処理手段」とを有する。基本的な構成は実施形態４の図９を用いて説明した音声合成システムにおけるサーバ装置と共通するため、以下では相違点である「第二禁止テキストリスト保持手段」「第二比較手段」そして「第二禁止処理手段」についてそれぞれ説明する。

「第二禁止テキストリスト保持手段」は、禁止処理をすべきテキストのリストである第二禁止テキストリストを保持する機能を有する。第二禁止テキストリストの概要は既に述べた第一禁止テキストリストの概要と同様であるが、禁止テキストリストが中間言語を用いて構成されていることが第一禁止テキストリストと異なる。当該構成とすることにより、実施形態３の場合に比べて後記禁止処理手段における処理の精度を高めることが可能となる。

「第二比較手段」は、前記中間言語セットを作成するために用いられる読上用テキストと、第二テキストリストとを比較する機能を有する。第二比較手段の機能も既に説明した第一比較手段と同様である。しかし、第二比較手段においては、上記比較を読上用テキストの前記テキスト解析の際に行うことを特徴とする。読上用テキストの入力受付時に比較を行う構成では、一つの読み方をする単語であっても漢字表記やかな・カナ表記など様々な表記の仕方があるため、禁止テキストリストの構成によっては、本来禁止処理すべきテキストであるにも関わらず、禁止処理すべきでないとの判断になるおそれもある。第二比較手段ではテキスト解析を行い、テキストの読み方やアクセントから同音異義語などを峻別することが可能であるため、たとえ読上用テキストにおいて同じ意味の単語が漢字およびかな・カナ表記されていても、これらを区別することなく全て同一の単語として比較の対象とすることが可能となる。

「第二禁止処理手段」は、前記第二比較手段においてなした比較の結果に応じて当該禁止テキストが音声合成に用いられないための禁止処理をおこなう機能を有する。当該機能についても、その概要は既に説明した第一禁止処理手段と同様である。当該構成をとることにより、様々な表記の仕方がされているテキストに対しても適切に禁止処理を行う精度の高さを実現することが可能となる。
<サーバ装置の具体的な構成>

本実施形態の音声合成システムを構成するサーバ装置のハードウェア構成は、基本的に図４を用いて説明した実施形態４のサーバ装置のハードウェア構成と同様である。以下では、実施形態４で説明しなかった第二禁止テキストリスト保持手段や第二比較手段、そして第二禁止処理手段の具体的な処理について述べる。
（第二禁止テキストリスト保持手段の具体的な処理）

ＣＰＵは、「第二禁止テキストリスト保持プログラム」を実行し、後記禁止処理すべき内容を含むテキストのリストである第二禁止テキストリストの情報をメインメモリの所定のアドレスに格納する処理を行う。
（第二比較手段の具体的な処理）

ＣＰＵは、「第二比較プログラム」を実行し、メインメモリの所定のアドレスに格納している第二禁止テキストリストと入力済みの読上用テキストをともに読み出し、それぞれの情報の内容を比較する処理を行う。そして、処理の結果をメインメモリの所定のアドレスに格納する。
（第二禁止処理手段の具体的な処理）

ＣＰＵは、「第二禁止処理プログラム」を実行し、前記第二比較手段における処理で得られた比較の結果に応じて、禁止テキストについては作成する中間言語セットには含まないことを内容とするフィルタリング処理を行い、その結果をメインメモリの所定のアドレスに格納する。
<処理の流れ>

図１３は、本実施形態の音声合成システムを構成するサーバ装置の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップＳ１３０１では、音声の入力を受付ける。次にステップＳ１３０２では、登録用情報の入力を受付ける。次にステップＳ１３０３では、入力を受付けた音声から韻律モデルと音声データとを抽出し、登録用情報とあわせて音声辞書セットを生成する。次にステップＳ１３０４では、外部端末からの指示に基づき、音声辞書セットを選択する。その後ステップＳ１３０５では、読上用テキストの入力を受付ける。次にステップＳ１３０６では、入力された読上用テキストに禁止処理をおこなう必要があるかどうかを判断する。ここでの判断が禁止処理をおこなう必要があるとの判断である場合はステップＳ１３０７に移行する。禁止処理をおこなう必要はないとの判断である場合はステップＳ１３０８に移行する。そしてステップＳ１３０７では、禁止テキストが音声合成に用いられないためのフィルタリング処理を行う。次にステップＳ１３０８では、入力された読上用テキストから中間言語セットを作成する処理を行う。なお、ステップＳ１３０１とステップＳ１３０２の処理順序は、それぞれが逆になっていてもかまわない。
<効果>

本実施形態のサーバ装置を有する音声合成システムによって、時宜を得た禁止処理を行うことが可能となる。
<<実施形態６>>
<概要>

本実施形態の音声合成システムは、基本的に実施形態４の音声合成システムと同様であるが、前記サーバ装置は、前記インターフェイス部を介して生成された中間言語セットを外部端末に対して出力することを特徴とする。かかる特徴を備えた本実施形態の構成をとることにより、外部端末は中間言語セットを用いて合成音声を作成することが可能になる。
<機能的構成>

図１４は、本実施形態の音声合成システムのうちサーバ装置の機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「サーバ装置」１４００は、「インターフェイス部」１４０１と、「音声入力受付部」１４０２と、「登録用情報受付部」１４０３と、「音声辞書セット保持部」１４０４と、「音声辞書セット選択部」１４０５と、「読上用テキスト入力受付部」１４０６と、「中間言語セット作成部」１４０７と、「中間言語セット出力部」１４０８と、からなる。基本的な構成は実施形態４の図８を用いて説明した音声合成システムにおけるサーバ装置と共通するため、以下では相違点である「中間言語セット出力部」についてそれぞれ説明する。

「中間言語セット出力部」は、前記インターフェイス部を介して生成された中間言語セットを外部端末に対して出力する機能を有する。「中間言語セットを外部端末に対して出力する」とは、具体的には、中間言語セットをデータ形式で出力する方法が考えられる。なお、中間言語セットはストリーミング方式によって外部端末に対し出力する方法をとってもよい。このような構成をとることによって、外部端末では、入力テキストに対応する中間言語セットを随時受け取りつつ合成音声を生成することが可能になるため、例えばチャットのように短時間で短文のテキストを入力するような場合であっても、合成音声の出力までに時間がかかりすぎて間延びしてしまうという弊害を防ぐことが可能となる。
<サーバ装置の具体的な構成>

本実施形態の音声合成システムを構成するサーバ装置のハードウェア構成は、基本的に図４を用いて説明した実施形態４のサーバ装置のハードウェア構成と同様である。以下では、実施形態４で説明しなかった中間言語セット出力部の具体的な処理について述べる。

（中間言語セット出力部の具体的処理）
ＣＰＵは、「中間言語セット出力プログラム」を実行し、生成した中間言語セットをインターフェイスを介して外部端末に対して出力する処理を行う。
<処理の流れ>

図１５は、本実施形態の音声合成システムを構成するサーバ装置の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップＳ１５０１では、音声の入力を受付ける。次にステップＳ１５０２では、登録用情報の入力を受付ける。次にステップＳ１５０３では、入力を受付けた音声から韻律モデルと音声データとを抽出し、登録用情報とあわせて音声辞書セットを生成する。次にステップＳ１５０４では、外部端末からの指示に基づき、音声辞書セットを選択する。その後ステップＳ１５０５では、読上用テキストの入力を受付ける。次にステップＳ１５０６では、入力された読上用テキストから中間言語セットを作成する処理を行う。次にステップＳ１５０７では、中間言語セットを外部端末に対し出力する。なお、ステップＳ１５０１とステップＳ１５０２の処理順序は、それぞれが逆になっていてもかまわない。
<効果>

本実施形態のサーバ装置を有する音声合成システムによって、外部端末は中間言語セットを用いて合成音声を作成することが可能になる。
<<実施形態７>>
<概要>

本実施形態の音声合成システムは、基本的に実施形態１の音声合成システムと同様であるが、前記インターフェイス部を介して音声辞書セット選択部にて音声辞書セットを選択するための選択命令を出力し、出力された選択命令に応じて選択された音声辞書セットを前記インターフェイス部を介して取得し、選択された音声辞書セットを用いて音声合成を行う音声合成端末をさらに有することを特徴とする。かかる特徴を備えた本実施形態の構成をとることにより、ユーザは自ら端末を操作して音声辞書セットを選ぶだけでなく自ら音声合成処理を行い、様々な種類のアプリケーションに利用することが可能になる。
<機能的構成>

図１６は、本実施形態の音声合成システムの機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「サーバ装置」１６００は、「インターフェイス部」１６０１と、「音声入力受付部」１６０２と、「登録用情報受付部」１６０３と、「音声辞書セット保持部」１６０４と、「音声辞書セット選択部」１６０５と、からなり、音声合成端末は、「選択命令出力部」１６０６と、「音声辞書セット取得部」１６０７と、「音声合成部」１６０８とからなる。サーバ装置の基本的な構成は実施形態１の図２を用いて説明した音声合成システムにおけるサーバ装置と共通するため、以下では相違点である「音声合成端末」および音声合成端末における各部についてそれぞれ説明する。

「音声合成端末」は、サーバ装置とネットワークを通じて接続される外部端末である。

「選択命令出力部」は、前記インターフェイス部を介して音声辞書セット選択部にて音声辞書セットを選択するための選択命令を出力する機能を有する。「音声辞書セット選択部にて音声辞書セットを選択するための選択命令」とは、サーバ装置に保持されている音声辞書セットのうち、ユーザの求める条件に適合する内容の音声辞書セットを選択するように指示する情報のことであって、具体的にはこれまで述べてきた年齢や性別、声質が似ている有名人等の情報に基づいてユーザが選択した音声辞書セットを選択するよう指示することを指す。

「音声辞書セット取得部」は、前記出力された選択命令に応じて選択された音声辞書セットを前記インターフェイス部を介して取得する機能を有する。当該構成をとることによるメリットは、実施形態１で述べたところであって、実際に音声合成を行う前の段階として、予め音声辞書セットを外部端末にダウンロードしておくことにより、音声合成から当該合成音声の出力に至るネットワーク環境の安定に資することとなる。

「音声合成部」は、前記選択された音声辞書セットを用いて音声合成をおこなう機能を有する。「選択された音声辞書セットを用いて音声合成をおこなう」とは、具体的には、前記選択された音声辞書セットに含まれている韻律モデルを用いてテキストの各箇所における韻律を予測するとともに、同じくされた音声辞書セットに含まれている音声データベースを用いてテキストの各箇所における波形を選択、特定し、単語ごとの韻律および波形を接続し、テキスト全体として自然な文章となるよう調整を行う処理のことを指す。
<音声合成端末の具体的な構成>

図１７は、前記音声合成端末の機能的な各構成をコンピュータで実現した場合のハードウェア構成の一例を表す概略図である。同図を利用して、それぞれのハードウェア構成部の働きについて説明する。

この図にあるように、音声合成端末は、各種演算処理を実行するための「ＣＰＵ」１７０１と、「記憶装置（記憶媒体）」１７０２と、「メインメモリ」１７０３と、「入出力インターフェイス」１７０４とを備え、入出力インターフェイスを介して「キーボード」１７０５や「マイクロフォン」１７０６、「ディスプレイ」１７０７、「スピーカー」１７０８などと接続されるほか、ネットワークを通じ、「サーバ装置」１７０９との間で情報の入出力を行う。前記の構成は「システムバス」１７１０などのデータ通信経路によって相互に接続され、情報の送受信や処理を行う。
（選択命令出力部の具体的な処理）

ＣＰＵは、「選択命令出力プログラム」を実行し、サーバ装置の音声辞書セット保持部にて保持される音声辞書セットのなかから特定の音声辞書セットを選択するための選択命令を通信装置を介して送信する。
（音声辞書セット取得部の具体的な処理）

ＣＰＵは、「音声辞書セット取得プログラム」を実行し、サーバ装置から音声辞書セットをインターフェイスを介して取得し、当該音声辞書セットの情報をメインメモリの所定のアドレスに格納する。
（音声合成部の具体的処理）

ＣＰＵは、メインメモリの所定のアドレスに格納された音声辞書セットの情報を読み出し、「音声合成プログラム」を実行し、前記音声辞書セットの特徴を備えた合成音声を作成する処理を行い、その結果をメインメモリの所定のアドレスに格納する。
<処理の流れ>

図１８は、本実施形態の音声合成システムを構成する音声合成端末の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップＳ１８０１では、サーバ装置の音声辞書セット保持部にて保持される音声辞書セットのなかから特定の音声辞書セットを選択する。次にステップＳ１８０２では、サーバ装置からインターフェイスを介して音声辞書セットを取得する。次にステップＳ１８０３では、選択により取得した音声辞書セットを用いて音声を合成する。
<効果>

本実施形態の音声合成端末を有する音声合成システムによって、ユーザは自ら端末を操作して音声辞書セットを選ぶだけでなく自ら音声合成処理を行うことが可能になる。
<<実施形態８>>
<概要>

本実施形態の音声合成システムは、基本的に実施形態７の音声合成システムと同様であるが、前記音声合成端末は、読上用テキストを前記インターフェイス部を介して前記読上用テキスト入力受付部に対して出力し、読上用テキスト出力部から出力された読上用テキストに対応して中間言語セットを前記インターフェイス部を介して中間言語セット出力部から取得し、取得した中間言語セットを前記音声合成部に出力することを特徴とする。かかる特徴を備えた本実施形態の構成をとることにより、ユーザは、テキストの入力から合成音声の作成までの処理を同一端末を用いて行うことが可能になる。
<機能的構成>

図１９は、本実施形態の音声合成システムの機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「音声合成端末」１９０９は、「選択命令出力部」１９１０と、「音声辞書セット取得部」１９１１と、「読上用テキスト出力部」１９１２と、「中間言語セット取得部」１９１３と、「中間言語セット送出部」１９１４と、「音声合成部」１９１５とからなる。音声合成端末の基本的な構成は実施形態７の図１６を用いて説明した音声合成システムにおける音声合成端末とおおむね同様であるため、以下では相違点である「読上用テキスト出力部」「中間言語セット取得部」そして「中間言語送出部」についてそれぞれ説明する。

「読上用テキスト出力部」は、読上用テキストを前記インターフェイス部を介して前記読上用テキスト入力受付部に対して出力する機能を有する。「読上用テキストを前記インターフェイス部を介して前記読上用テキスト入力受付部に対して出力する」とは、予め定型でサーバにおいて保持するテキストではなく、ユーザが外部端末より出力した任意のテキストを読上用テキストとして用いることが可能であることを意味している。当該構成をとることにより、本音声合成システムではユーザが要求する様々な内容の合成音声を提供することが可能となる。

「中間言語セット取得部」は、読上用テキスト出力部から出力された読上用テキストに対応して中間言語セットを前記インターフェイス部を介して中間言語セット出力部から取得する機能を有する。中間言語セットの具体的な取得形態としては、実施形態６の中間言語セット出力部の説明で述べたように、同セットの情報を中間言語のファイルとして取得する方法であってもストリーミングにより随時取得する方法であってもよい。

「中間言語セット送出部」は、前記取得した中間言語セットを前記音声合成部に出力する機能を有する。生成される合成音声の分量や合成音声の出力タイミング等の利用形態は、ユーザによって様々考えられることから、中間言語セット送出部においても、取得した中間言語セットをどのようなタイミングで音声合成部に出力するかは適宜調整可能な構成とすることが望ましい。例えば、チャットアプリケーションのように少量のテキストに対応した合成音声の出力をユーザが求めているような場合には、取得した中間言語セットを取得とほぼ同時に順次音声合成部に送出する方法が好ましい。いっぽう、電子書籍アプリケーションのように、ある程度処理量の多いテキストについて複数の音声辞書セットを用いて音声合成処理を行うような場合には、取得した中間言語セットをいったん対応する音声辞書セットごとに振り分け、対応する中間言語セットごとに順番に送出する方法が考えられる。いずれにしても、当該構成をとることにより、ユーザの求める好適な条件のもとで音声合成そして合成音声の出力を実施することが可能となる。
<音声合成端末の具体的な構成>

本実施形態の音声合成システムを構成する音声合成端末のハードウェア構成は、基本的に図１７を用いて説明した実施形態７の音声合成端末のハードウェア構成と同様である。以下では、実施形態７で説明しなかった読上用テキスト出力部や中間言語セット取得部、そして中間言語セット送出部の具体的な処理について述べる。

（読上用テキスト出力部の具体的な処理）
ＣＰＵは、「読上用テキスト出力プログラム」を実行し、通信装置を介し、読上用テキストをサーバ装置の読上用テキスト入力受付部に対して送信する。

（中間言語セット取得部の具体的な処理）
ＣＰＵは、「中間言語セット取得プログラム」を実行し、通信装置を介し、前記読上用テキスト出力プログラムを実行して送信した読上用テキストに対応した中間言語セットをサーバ装置の中間言語セット出力部から取得し、メインメモリ上の所定のアドレスに格納する。

（中間言語セット送出部の具体的処理）
ＣＰＵは、「中間言語セット送出プログラム」を実行し、メインメモリの所定のアドレスから中間言語セットを読み出し、音声合成部に出力する処理を行う。
<処理の流れ>

図２０は、本実施形態の音声合成システムを構成する音声合成端末の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップＳ２００１では、インターフェイスを介してサーバ装置の音声辞書セット保持部にて保持される音声辞書セットのなかから特定の音声辞書セットを選択する。次にステップＳ２００２では、インターフェイスを介してサーバ装置から音声辞書セットを取得する。次にＳ２００３では、読上用テキストをインターフェイスを介してサーバ装置の読上用テキスト入力受付部に対して出力する。次にステップＳ２００４では、前記読上用テキストに対応した中間言語セットをインターフェイスを介してサーバ装置の中間言語セット出力部から取得する。ステップＳ２００５では、選択により取得した音声辞書セットと中間言語セットとを用いて音声を合成する。
<効果>

本実施形態の音声合成端末を有する音声合成システムによって、ユーザはテキストの入力から合成音声の作成までの処理を同一端末を用いて行うことが可能になる。
<<実施形態９>>
<概要>

本実施形態の音声合成システムは、基本的に実施形態７の音声合成システムと同様であるが、前記音声合成端末は、音声合成部にて合成される合成音声を利用するアプリケーションを動作させ、動作しているアプリケーションに応じて音声合成部にて利用する音声辞書セットを選択することを特徴とする。かかる特徴を備えた本実施形態の構成をとることにより、合成音声について様々な利用形態が想定される複数のアプリケーションに対応した合成音声の出力が可能になる。
<機能的構成>

図２１は、本実施形態の音声合成システムの機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「音声合成端末」２１０６は、「選択命令出力部」２１０７と、「音声辞書セット取得部」２１０８と、「音声辞書セット切替部」２１０９と、「音声合成部」２１１０と、「アプリケーション動作部」２１１１と、からなる。音声合成端末の基本的な構成は実施形態７の図１６を用いて説明した音声合成システムにおける音声合成端末とおおむね同様であるため、以下では相違点である「アプリケーション動作部」、「音声辞書セット切替部」についてそれぞれ説明する。

「アプリケーション動作部」は、音声合成部にて合成される合成音声を利用するアプリケーションを動作させる機能を有する。「合成音声を利用するアプリケーション」としては、様々な種類のアプリケーションが考えられるが、例えば、アニメーションアプリケーションのように性質上音声を用いるものや電子書籍アプリケーションや短文の情報送受信アプリケーションのように文字情報を用いる性質のもの、さらには目覚ましアプリケーションやリマインダアプリケーションのように、何らかの音を発する性質のものなど様々なアプリケーションが考えられ、これらいずれのアプリケーションも合成音声を利用することが可能である。

ここで、「利用する」の意味について、前記掲げた各アプリケーションを例にして説明する。アニメーションアプリケーションの場合には、当該アニメーションのキャラクターの発するセリフを合成音声を用いて出力する方法が考えられる。電子書籍アプリケーションや短文の情報送受信アプリケーションのように文字情報を用いるものの場合には、内容となる文章の読上げに合成音声を用いる方法が考えられる。なお、読上げの際には登場人物や送受信者別に異なる音声辞書を用いて音声を合成する構成としてもよい。このような構成をとることにより、一つのアプリケーションで複数の合成音声を利用することが可能になるため、当該アプリケーションを利用して実現可能な表現方法を大幅に広げることが可能となる。さらに、目覚ましアプリケーションやリマインダアプリケーションの場合には、ユーザが、自らの好みの性質をもつ音声辞書を選択して合成音声を出力することにより、ストレスを抱えることなく起床したり予定を実行したりすることを促す効果を高めることを可能とする。

「音声辞書セット切替部」は、動作しているアプリケーションに応じて音声合成部にて利用する音声辞書セットを選択する機能を有する。「動作しているアプリケーションに応じて音声合成部にて利用する音声辞書セットを選択する」とは、ユーザがアプリケーションの性質に適合すると考える音声辞書セットを切替選択することを意味する。前記アプリケーションの各例に置き換えてみると、老人が話をする内容のアニメーションにおいては、老人の登録用情報をもつ音声辞書セットを選択するのが望ましいと通常考えられるほか、電子書籍アプリケーションにおいても、同様に話者となる登場人物の属性と似た登録用情報を有する音声辞書セットを利用するよう切り替えることが想定される。目覚ましアプリケーション等のようにユーザのストレス軽減を図ることが効果の一つして考えられるアプリケーションにおいては、ユーザが自ら気に入っている登録用情報を有する音声辞書セットを選択することが考えられる。

これらの切替選択は、いずれも対応するアプリケーションの内容や性質との関連性が強く、これらの関連性の有無や高低はユーザ個々人の判断に委ねざるを得ない場合も少なくないことから、上記音声辞書セットの選択機能は、複数の音声辞書セットについて、それぞれの登録用情報と関連付けて検索する方法が考えられる。さらには、ユーザによる切替履歴を保持しておき、切替頻度の高い順に並べ替えて選択可能となるよう表示したり、音声辞書セットの入手時期の新しい順に並べ替えて選択可能となるように表示したりする方法などが考えられる。
<音声合成端末の具体的な構成>

本実施形態の音声合成システムを構成する音声合成端末のハードウェア構成は、基本的に図１７を用いて説明した実施形態７の音声合成端末のハードウェア構成と同様である。以下では、実施形態７で説明しなかったアプリケーション動作部および音声辞書セット切替部の具体的な処理について述べる。
（アプリケーション動作部の具体的な処理）

ＣＰＵは、「アプリケーション動作プログラム」を実行し、合成音声を利用するアプリケーションを動作させる処理を行う。
（音声辞書セット切替部の具体的な処理）

ＣＰＵは、「音声辞書セット切替プログラム」を実行し、動作させるアプリケーションに対応して音声合成プログラムにて実行する音声辞書セットを選択する処理を行い、その結果をメインメモリの所定のアドレスに格納する。
<処理の流れ>

図２２は、本実施形態の音声合成システムを構成する音声合成端末の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップＳ２２０１では、サーバ装置の音声辞書セット保持部にて保持される音声辞書セットのなかから特定の音声辞書セットを選択する。次にステップＳ２２０２では、サーバ装置からインターフェイスを介して音声辞書セットを取得する。次にステップＳ２２０３では、後記動作させるアプリケーションに応じて音声合成プログラムにて利用する音声辞書セットを選択する。次にステップＳ２２０４では、音声辞書セットを用いて音声を合成する。次にステップＳ２２０５では、合成した音声を利用してアプリケーションを動作させる。
<効果>

本実施形態の音声合成端末を有する音声合成システムによって、合成音声について様々な利用形態が想定される複数のアプリケーションに対応した合成音声の出力が可能になる。
<<実施形態１０>>
<概要>

本実施形態の音声合成システムは、基本的に実施形態９の音声合成システムと同様であるが、前記音声合成端末は、前記アプリケーション動作部で動作するアプリケーションが発生アニメーションである場合にはアニメーションと音声合成部で合成された合成音声との出力タイミングを同期させることを特徴とする。かかる特徴を備えた本実施形態の構成をとることにより、発声アニメーションにおいて、キャラクターが自然に話しているような感覚で合成音声を出力することが可能になる。
<機能的構成>

図２３は、本実施形態の音声合成システムの機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「音声合成端末」２３０６は、「選択命令出力部」２３０７と、「音声辞書セット取得部」２３０８と、「音声辞書セット切替部」２３０９と、「音声合成部」２３１０と、「同期部」２３１１と、「アプリケーション動作部」２３１２と、からなる。音声合成端末の基本的な構成は実施形態９の図２１を用いて説明した音声合成システムにおける音声合成装置とおおむね同様であるため、以下では相違点である「同期部」についてそれぞれ説明する。

「同期部」は、前記アプリケーション動作部にて動作するアプリケーションが発声アニメーションである場合にはアニメーションと音声合成部で合成された合成音声との出力タイミングを同期させる処理をおこなう機能を有する。発声アニメーションの場合、登場するキャラクターの発声のタイミングに合わせて合成音声を出力しないと、各キャラクターが合成音声を話しているように視認することができず、むしろ不自然な「口パク」のようなアニメーションとなってしまい、出力される合成音声とアニメーションとが整合しない事態が生じてしまう。具体的には、発声アニメーションにおける各キャラクターの発声タイミングを予め記録しておき、上記記録に基づいたタイミングで特定の合成音声を出力する方法が考えられる。
<音声合成端末の具体的な構成>

本実施形態の音声合成システムを構成する音声合成端末のハードウェア構成は、基本的に図１７を用いて説明した実施形態７の音声合成端末のハードウェア構成と同様である。以下では、実施形態７で説明しなかった同期部の具体的な処理について述べる。
（同期部の具体的な処理）

ＣＰＵは、「同期プログラム」を実行し、アニメーションと合成音声との出力タイミングを同期させる処理を行う。
<処理の流れ>

図２４は、本実施形態の音声合成システムを構成する音声合成端末の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップＳ２４０１では、サーバ装置の音声辞書セット保持部にて保持される音声辞書セットのなかから特定の音声辞書セットを選択する。次にステップＳ２４０２では、サーバ装置からインターフェイスを介して音声辞書セットを取得する。次にステップＳ２４０３では、後記動作させるアプリケーションに応じて音声合成プログラムにて利用する音声辞書セットを選択する。次にステップＳ２４０４では、音声辞書セットを用いて音声を合成する。次にステップＳ２４０５では、動作するアプリケーションが発声アニメーションかどうかを判断する。ここでの判断が発声アニメーションであるとの結果の場合はステップＳ２４０６に移行する。発声アニメーションではないとの結果の場合はステップＳ２４０７に移行する。ステップＳ２４０６では、アニメーションと合成音声との出力タイミングを同期させる。次にステップＳ２４０７では、合成した音声を利用してアニメーションアプリケーションを動作させる。
<効果>

本実施形態の音声合成端末を有する音声合成システムによって、発声アニメーションにおいて、キャラクターが自然に話しているような感覚で合成音声を出力することが可能になる。

１９００・・・サーバ装置
１９０１・・・インターフェイス部
１９０２・・・音声入力受付部
１９０３・・・登録用情報受付部
１９０４・・・音声辞書セット保持部
１９０５・・・音声辞書セット選択部
１９０６・・・読上用テキスト入力受付部
１９０７・・・中間言語セット作成部
１９０８・・・中間言語セット出力部
２１００・・・サーバ装置
２１０１・・・インターフェイス部
２１０２・・・音声入力受付部
２１０３・・・登録用情報受付部
２１０４・・・音声辞書セット保持部
２１０５・・・音声辞書セット選択部
２３００・・・サーバ装置
２３０１・・・インターフェイス部
２３０２・・・音声入力受付部
２３０３・・・登録用情報受付部
２３０４・・・音声辞書セット保持部
２３０５・・・音声辞書セット選択部

Claims

読上用テキストと音声辞書セットとを用いて音声合成をする音声合成システムであって、
公開されたインターフェイス部と、
前記インターフェイス部を介して外部端末から音声辞書セット作成用の音声の入力を受付ける音声入力受付部と、
前記インターフェイス部を介して外部端末から音声の入力者である音声所有者に関する登録用情報を受付ける登録用情報受付部と、
前記入力を受付けた音声から作成する音声辞書セットをその音声の入力者に関する登録用情報と関連付けて保持する音声辞書セット保持部と、
前記インターフェイス部を介して外部端末から音声辞書セット保持部に保持された音声辞書セットを選択できる音声辞書セット選択部と、
を有するサーバ装置を含む音声合成システム。
前記サーバ装置は、
前記インターフェイス部を介して読上用テキストの入力を受付ける読上用テキスト入力受付部をさらに有する請求項１に記載の音声合成システム。
前記読上用テキスト入力受付部は、
禁止処理をすべきテキストのリストである第一禁止テキストリスト保持手段と、
入力された読上用テキストと第一禁止テキストリストとを比較する第一比較手段と、
比較の結果に応じて禁止テキストが音声合成に用いられないための禁止処理をする第一禁止処理手段と、
をさらに有する請求項２に記載の音声合成システム。
前記サーバ装置は、
前記読上用テキストから音声辞書セットを用いて音声合成をするために用いる中間言語セットを作成する中間言語セット作成部をさらに有する請求項２または３に記載の音声合成システム。
前記中間言語セット作成部は、
禁止処理をすべきテキストのリストである第二禁止テキストリスト保持手段と、
中間言語を作成するために用いられる読上用テキストと、禁止テキストリストとを比較する第二比較手段と、
比較の結果に応じてその禁止テキストが音声合成に用いられないための禁止処理をする第二禁止処理手段と、
をさらに有する請求項４に記載の音声合成システムのうち請求項２に従属する音声合成システム。
前記サーバ装置は、
前記インターフェイス部を介して生成された中間言語セットを外部端末に対して出力する中間言語セット出力部をさらに有する請求項４又は５に記載の音声合成システム。
前記インターフェイス部を介して音声辞書セット選択部にて音声辞書セットを選択するための選択命令を出力する選択命令出力部と、
出力された選択命令に応じて選択された音声辞書セットを前記インターフェイス部を介して取得する音声辞書セット取得部と、
選択された音声辞書セットを用いて音声合成をする音声合成部と、
を有する外部端末である音声合成端末をさらに有する請求項１から６のいずれか一に記載の音声合成システム。
前記音声合成端末は、読上用テキストを前記インターフェイス部を介して前記読上用テキスト入力受付部に対して出力する読上用テキスト出力部と、
読上用テキスト出力部から出力された読上用テキストに対応して中間言語セットを前記インターフェイス部を介して中間言語セット出力部から取得する中間言語セット取得部と、
取得した中間言語セットを前記音声合成部に出力する中間言語セット送出部と、
をさらに有する請求項７に記載の音声合成システムのうち請求項２ないし請求項６に従属する音声合成システム。
前記音声合成端末は、音声合成部にて合成される合成音声を利用するアプリケーションを動作させるアプリケーション動作部と、
動作しているアプリケーションに応じて音声合成部にて利用する音声辞書セットを選択する音声辞書セット切替部と、
をさらに有する請求項７又は８に記載の音声合成システム。
前記音声合成端末は、前記アプリケーション動作部で動作するアプリケーションが発声アニメーションである場合にはアニメーションと音声合成部で合成された合成音声との出力タイミングを同期させる同期部をさらに有する請求項９に記載の音声合成システム。