JP2007164210A

JP2007164210A - コンテンツ音声化提供システム

Info

Publication number: JP2007164210A
Application number: JP2007014996A
Authority: JP
Inventors: Shinji Hayakawa; 慎司早川; Mayumi Harada; 真弓原田; Satoshi Watanabe; 聡渡辺
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2007-01-25
Filing date: 2007-01-25
Publication date: 2007-06-28

Abstract

【課題】従来通りのサーバにアクセスして、音声化されたコンテンツを聞くことができるようにする。
【解決手段】テキストデータを含むコンテンツを音声化データに変換して提供するコンテンツ音声化提供システムである。このコンテンツ音声化提供システムは、コンテンツ記憶手段と音声合成条件取り込み手段と音声化手段とを有する。上記音声合成条件取り込み手段は、上記コンテンツを記憶しているコンテンツ記憶手段とは異なる装置に設けられると共に、取り込んだ音声合成条件を、上記コンテンツ記憶手段に記憶されている対応するコンテンツに盛り込む形式にし、そのコンテンツに盛り込むことを指示する。
【選択図】図１

Description

本発明はコンテンツ音声化提供システムに関し、例えば、テキスト情報を含むコンテンツを音声化部で音声化してユーザに提供しようとするシステムに関するものである。

一般に、テキストデータを音声データに変換する技術は、テキスト音声変換（ＴｅｘｔＴｏＳｐｅｅｃｈ：ＴＴＳ）技術と呼ばれている。また、ＴＴＳ技術が出力した音声は、合成音声と呼ばれている。現在、ネットワーク上のサーバが自動的にテキスト情報を取得してＴＴＳを行い、でき上がった合成音声をデータ化して、ネットワーク経由でユーザ端末に配信する考え方が、特許文献１や、特許文献２に記載されている。なお、この明細書においては、ネットワーク上に配置されてＴＴＳを行うサーバを、音声化部と呼ぶこととする。

特許文献１には、ネットワーク上からテキスト情報を自動的に入手し、音声化部で音声ファイルを生成し、予め登録されたＷｅｂサーバや電話サーバに配信するシステムが記載されている。

特許文献２には、ユーザが音声化部に対して、予めＷｅｂページのＵＲＬなどを登録しておくと、音声化部が定期的に登録されたＷｅｂページを取得し、更新された部分があれば、それを音声化してユーザに通知するシステムが記載されているである。
特開２００１−２８２２６８号公報特開２００２−１４９５２号公報

しかしながら、従来の音声化部は自律的な動作を前提に構成されており、コンテンツ制作者に対する配慮がなされていない。

例えば、コンテンツ制作者がＴＴＳ後の合成音声について、どのような音声品質なのか、また、どの部分をどのように読んでいるかなど、全く関与、確認することができず、音声化部側で勝手に音声化されてしまっている。これは、コンテンツ制作者にとって極めて不本意な状況であり、ＴＴＳ後の合成音声を確認し、音声化に関与したいという欲求は、コンテンツ制作者にとって、極めて自然である。

勿論、コンテンツ制作者が、音声化部にアクセスして自分のコンテンツを指定すれば、ユーザに提供されている合成音声を確認することはできるが、その出力音に関して修正する術がない。

現在、これを回避するためには、自ら配信用音声を作成する以外に方法がない。しかし、この配信用音声の作成作業は、人間を使って録音する場合であれば、膨大なコストと時間を要するだけでなく、コンテンツを頻繁に更新することは、事実上、困難となる。また、市販の音声合成ソフトウェアを用いる場合でも、音声合成方式が多数あり、選定は困難を極める。また、この方法でも、頻繁なコンテンツの更新には極めて大きな障害となる。

また、コンテンツ制作者側だけでなく、ユーザも、提供される合成音声の品質や属性などについて音声化部へ指示することができない。すなわち、ユーザは、音声化部から提供された合成音声に対し、ユーザ端末における音量や音質などの操作子の操作で変更できる程度しか、合成音声の品質や属性を調整することができない。

そのため、コンテンツ制作者やユーザなどが、コンテンツを音声化した合成音声の品質や属性などに大きく関与し得る、しかも、コンテンツ制作者などの作業負担やコストを抑えることができるコンテンツ音声化提供システムが望まれている。

かかる課題を解決するため、本発明は、テキストデータを含むコンテンツを音声化データに変換して提供するコンテンツ音声化提供システムにおいて、音声化データに変換する任意の音声合成条件をコンテンツに対応付けて取り込む音声合成条件取り込み手段と、この音声合成条件取り込み手段が取り込んだ音声合成条件に従って、提供対象のコンテンツを音声化データに変換して、コンテンツの要求端末に送信する音声化手段とを有し、上記音声合成条件取り込み手段は、上記コンテンツを記憶しているコンテンツ記憶手段とは異なる装置に設けられ、上記音声合成条件取り込み手段は、取り込んだ音声合成条件を、上記コンテンツ記憶手段に記憶されている対応するコンテンツに盛り込む形式にし、そのコンテンツに盛り込むことを指示することを特徴とする。

以上のように、本発明によれば、コンテンツ制作者などが、コンテンツを音声化した合成音声の品質や属性などに大きく関与し得る、コンテンツ制作者などの作業負担やコストを抑えられるコンテンツ音声化提供システムを提供できると共に、ユーザが新たなアクセス場所にアクセスすることなく、従来通りのサーバにアクセスするだけで、音声化されたコンテンツを聞くことができる。

（Ａ）第１の実施形態
以下、本発明によるコンテンツ音声化提供システムの第１の実施形態を図面を参照しながら詳述する。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態のコンテンツ音声化提供システムの全体構成を示すブロック図である。

図１において、第１の実施形態のコンテンツ音声化提供システムは、登録部１、音声化部２及びＷｅｂサーバ３を有し、当該システムへのアクセス装置として、ユーザ端末４やコンテンツ制作者端末５が存在する。これらは、全てデータネットワークＮによって接続されている。ここで、データネットワークＮは、例えば、インターネット、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、ＬＡＮ（ＬоｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＶＰＮ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）、コンピュータ内部のデータバスなどが該当する。

図１では、便宜上、登録部１と音声化部２とが物理的に別々の場所に存在しているように表記しているが、登録部１と音声化部２とを一体の構成としても良い。同様に、登録部１と音声化部２とＷｅｂサーバ３を一体の構成としても良い。

図２は、登録部１の詳細構成を示すブロック図である。登録部１は、図２に示すように、制御部１１、アクセス部１２、プログラム記憶部１３及び情報記憶部１４を有する。

制御部１１は、各部の制御や演算、データ転送などを行い、例えばＣＰＵなどから構成されている。アクセス部１２は、データネットワークＮ及び登録部１間でのデータ入出力を行い、例えば、モデムやイーサネット（登録商標）カードなどで構成されている。プログラム記憶部１３は、制御部１１が実行するプログラムを格納しており、例えば、ハードディスクや光ディスクや半導体メモリなどで構成されている。プログラム記憶部１３に記憶されているプログラムは、例えば、ユーザ端末４やコンテンツ制作者端末５に表示する画面を形成するためのプログラムやＨＴＭＬファイル、音声化部（例えば音声合成サーバ）２へのリクエスト内容を生成するプログラムなどである。情報記憶部１４は、コンテンツ制作者が登録した、コンテンツ情報と音声合成条件が関連付けられて保存され、主に、ユーザ端末４からのリクエストに応じて利用される。情報記憶部１４は、例えば、ハードディスクや光ディスクや半導体メモリなどで構成されている。

上述したように、情報記憶部１４に保存されている内容は、主に、コンテンツ情報と音声合成条件とである。コンテンツ情報とは、コンテンツやコンテンツ制作者に関連する情報を指し、例えば、音声合成の対象となるコンテンツのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）やＵＲｌ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＩｄｅｎｔｉｆｉｅｒ）、ニュースやコラムといったコンテンツの属性、登録サイトの登録名、コンテンツ制作者確認用のユーザＩＤとパスワードなどが該当する。また、音声合成条件とは、音声合成のための条件群を指し、主に音声化部２に送信されて合成音声を生成する段階で用いられる。具体的には、例えば、話者の性別、話す速度（話速）、抑揚、音程、音質、音量、使用する音声合成方式などが該当する。

図２では、便宜上、各機能部を別々の機器として示したが、実際上は１台のコンピュータで全機能部を実現しても良い。

音声化部２は、詳細構成の図示は省略するが、主に、音声合成機能部とデータの送受信機能部とを有する。具体的には、例えば、ＣＰＵなどの演算装置と、ＨＤＤや半導体メモリなどの記憶装置と、モデムやネットワークカードなどのネットワークアクセス装置と、これら上で動作するプログラムとで構成される。

Ｗｅｂサーバ３は、詳細構成の図示は省略するが、主に、記憶機能部とデータの送受信機能部で構成される。具体的には、例えば、ＣＰＵなどの演算装置と、ＨＤＤや半導体メモリなどの記憶装置と、モデムやネットワークカードなどのネットワークアクセス装置と、これら上で動作するプログラムとで構成される。Ｗｅｂサーバ３には、音声合成対象のテキスト本体や、ＨＴＭＬなどの言語で記述された、いわゆるＷｅｂページが保存されている。コンテンツ制作者は、自分が作成したコンテンツを、例えばコンテンツ制作者端末５からこのＷｅｂサーバ３転送して保存させ、又は、Ｗｅｂサーバ３の入力機能部（記録媒体の読み取り機能などを含む）を利用して入力して保存させ、ネットワークＮ上に公開する。

ユーザ端末４は、詳細構成の図示は省略するが、主に、ディスプレイやスピーカなどの情報出力機能と、キーボードやマイクといった情報入力機能とで構成される。具体的には、デスクトップ型パソコン、ノート型パソコン、携帯情報端末、携帯電話、情報家電などが該当する。

コンテンツ制作者端末５も、ユーザ端末４と同様な構成である。図１では、便宜上、ユーザ端末４とコンテンツ制作者端末５を別々に記載したが、コンテンツ制作者端末５に特別に要求される機能はなく、機能的にはユーザ端末４と何ら変わるところはない。コンテンツ制作者端末５と、ユーザ端末４とを同一のものとしても良い。

（Ａ−２）第１の実施形態の動作
以下、第１の実施形態のコンテンツ音声化提供システムにおける動作を、コンテンツの音声合成条件の登録動作及びコンテンツの音声化提供動作の順に説明する。

図３は、コンテンツ制作者端末５上の表示画面の遷移を示しており、具体的には、コンテンツ制作者が、コンテンツ制作者端末５から登録部１にアクセスし、音声合成条件などを登録するまでの画面遷移を示している。

まず、コンテンツ制作者端末５から登録部１にアクセスすると、そのアクセスに対応して、登録部１の制御部１１は、プログラム記憶手段１３からプログラムやデータファイルを取り出し、コンテンツ制作者端末５に画面生成用のデータを送信する。この送信データとしては、例えばＨＴＭＬファイルが該当する。

このデータを受信したコンテンツ制作者端末５には、図３（Ａ）に示す「コンテンツ登録画面」ＳＵＲ１が表示される。勿論、これ以前に、図示しない画面を用いて予めコンテンツ制作者として登録部１側にユーザ登録を行い、また、ログオン画面などを用いて登録ユーザの確認を実行させた後、コンテンツ登録画面ＳＵＲ１を取り出す処理を実行するようにしても良い。

コンテンツ登録画面ＳＵＲ１において、音声合成の対象となるコンテンツに関する情報（コンテンツ情報）の入力を促す。コンテンツに関する情報（コンテンツ情報）は、例えば、Ｗｅｂページの場所（ＵＲＬ、ＵＲＩなど）や、そのＷｅｂページの登録名、属性、キーワード、コンテンツ制作者のメッセージ、コンテンツ制作者の名前や連絡先などが該当する。これらの入力方法として、例えば、コンテンツ登録画面ＳＵＲ１のＵＲＬ入力部分と登録名入力部分では、自由に文字を打ち込めるテキストボックス形式を用い、属性入力部分では、図の▼印部をクリックすることによりメニュー一覧が表示されるプルダウン方式を用いている。但し、入力方法は、上記の例に限定されるものではない。コンテンツ登録画面ＳＵＲ１には「次へ」のボタン（アイコン）が含まれており、コンテンツ制作者は、上述したようなコンテンツ情報の入力が終了すると、この「次へ」のボタンをクリックする。

コンテンツ制作者端末５から、コンテンツ登録画面ＳＵＲ１の「次へ」のボタンがクリックされた際の情報が与えられた登録部１の制御部１１は、コンテンツ制作者端末５に、図３（Ｂ）に示すような「音声合成条件設定画面」ＳＵＲ２を表示するためのデータをプログラム記憶部１３などから取り出して、コンテンツ制作者端末５に送信する。

音声合成条件設定画面ＳＵＲ２は、音声合成時に必要となる音声合成条件の設定を促す画面である。音声合成条件としては、例えば、話者の性別や種類、話す速度、抑揚、音高などが該当する。また、コンテンツ制作者への条件提示方法としては、音声合成条件設定画面ＳＵＲ２の性別項で用いているような択一的なラジオボタン形式や、音声合成条件設定画面ＳＵＲ２の話速項で用いているようなグラフィカルなスライドバーなどを利用できる。ここでも、入力方法は、この例に限定されるものではない。

この音声合成条件設定画面ＳＵＲ２には、「戻る」、「試聴」、「登録」の各ボタンが含まれている。

「戻る」ボタンは、表示画面を、音声合成条件設定画面ＳＵＲ２から上述したコンテンツ登録画面ＳＵＲ１に戻ることを起動するボタンである。

「試聴」ボタンは、コンテンツ制作者に、設定された音声合成条件で実際に出力される音声を試聴させる処理を起動するボタンである。試聴機能により、コンテンツ制作者は、条件設定後、直ちに試聴できるため、設定値と出力音声のマッチングを容易にとれ、条件設定をよりてきせつに実行できるようになる。実際の出力音声を試聴する起動や実行手段は、図３に示す例に限定されるものではなく、別の画面（別の機会）や別の装置に設けるようにしても良い。なお、コンテンツ制作者が行う、音声合成条件の設定と試聴の可能回数は任意である。

試聴時の各部の動作説明は、後述するユーザ端末へのコンテンツ音声の提供動作の説明後に行う。

音声合成条件設定画面ＳＵＲ２の「登録」ボタンは、コンテンツ制作者が、上述したような音声合成条件の設定が終了したときにクリックするものである。コンテンツ制作者端末５から、音声合成条件設定画面ＳＵＲ２の「登録」ボタンがクリックされた際の情報が与えられた登録部１の制御部１１は、コンテンツ情報と音声合成条件の設定値を関連付けて情報記憶部１４に保存すると共に、コンテンツ制作者端末５に、図３（Ｃ）に示すような「登録確認画面」ＳＵＲ３を表示するためのデータをプログラム記憶部１３などから取り出して、コンテンツ制作者端末５に送信する。

コンテンツ情報や音声合成条件の登録に関する画面構成や画面遷移は、上記説明のものに限定されるものではない。例えば、上述したコンテンツ登録画面ＳＵＲ１と音声合成条件設定画面ＳＵＲ２とを１つの画面内に配置し、コンテンツ制作者のボタン操作回数を低減させるようにしても良い。また、登録確認画面ＳＵＲ３を省いたりしても良い。コンテンツ情報の登録項目や音声合成条件の登録項目の数や種類は、上記の例に限定されるものではない。

図４は、コンテンツ情報及び音声合成条件が登録部１に登録されたコンテンツに関し、音声での提供をユーザが受ける場合のシステム全体での処理の流れの第１例を示している。

コンテンツの利用者は、ユーザ端末４から登録部１にアクセスする。このとき、登録部１の制御部１１は、情報記憶部１４に登録されているファイルを検知し、検知情報に基づき、音声で提供可能なコンテンツのリストの情報を含む「音声サイト一覧」画面ＳＵＲ４（図４参照）のデータを完成させ、アクセスしていたユーザ端末４に送信する。

ユーザは、音声サイト一覧画面ＳＵＲ４で提示されたリストの中から、聞きたいコンテンツを選択する。図４の音声サイト一覧画面ＳＵＲ４の例では、複数選択が可能なチェックボックス方式の選択肢が画面に提示されている。

ここで、音声サイト一覧画面ＳＵＲ４が表示されているときに、ユーザが「ＴＴＴＮｅｗｓ」を選択して「開始」ボタンをクリックしたとする。このとき、ユーザ端末４から登録部１に対し、「ＴＴＴＮｅｗｓ」が選択されたことを表すリクエストデータ（選択サイトデータ）が送信される（Ｔ１）。

登録部１では、このリクエストデータを受信すると、内部の制御部１１が、情報記憶部１４を参照し、「ＴＴＴＮｅｗｓ」の登録名で登録されたデータから、コンテンツの場所情報（ここではＵＲＬとする）と、音声合成条件（ここでは、性別、話速、抑揚の各値とする）を取得する。制御部１１は、アクセス部１２を通して、コンテンツのＵＲＬにアクセスし、音声での提供対象となるデータ（ここではＨＴＭＬファイル）を、該当するＷｅｂサーバ３ら取得する（Ｔ２）。

制御部１１は、必要に応じて、プログラム記憶手段１３から所定のプログラムを呼び出して実行し、取得した音声での提供対象データを加工して音声合成用のテキストデータを生成する。この加工とは、例えば、ＨＴＭＬタグの削除、置換、変更、追加や、条件式による文字列の削除、置換、変更、追加などの作業が該当する。勿論、取得した提供対象データが、そのまま音声合成用のテキストデータとして利用可能な場合、このような処理を行う必要はない。登録部１は、少なくとも音声合成用のテキストデータと、先に読み出した音声合成条件のデータとを、音声化部２に送信する（Ｔ３）。この際の送信データには、ユーザ端末４を特定する情報も含まれている。

音声化部２は、受信したデータを使って合成音声（合成音声データ）を形成し、必要に応じて合成音声以外のデータを付加した状態で、ユーザ端末４に送信する（Ｔ４）。合成音声以外のデータとは、例えば、別の音データや、画面表示用のデータなどが該当し、これらは、登録部１から送信されたデータでも良い。図４の例では、画面表示用のデータを付加して送信しているが、合成音声データのみを送信しても良い。音声化部２から、これらのデータを受信したユーザ端末４は、内部の図示しない手段によって受信した音声データをユーザに聴取可能な形態にして提供する（ＳＮＤ１）。

図４の例では付加された画面表示用データも同時に画面出力している（ＳＵＲ５）。すなわち、「ＴＴＴＮｅｗｓ」を構成する複数の項目を並記して表示すると共に、その時点で音声出力に供している項目名を網掛け表示し、また、音声出力に係るトータル時間（合計）と、現在そのうちのどのタイミングを出力しているかを示す時間情報とを表示しており、更に、音声出力を前の項目に切り替えることを指示する「前」ボタンや音声出力を次の項目に切り替えることを指示する「次」ボタンや音声出力を強制停止させることを指示する「停止」ボタンなども表示している。

以上のように、第１の実施形態の場合、音声情報を受信するためには、ユーザ端末４から登録部１にリクエストデータを送信すれば良い。言い換えると、音声情報を受信することに限定すれば、ユーザ端末４から、Ｗｅｂサーバ３へのアクセスは必要ない。

次に、上述した音声合成条件設定画面ＳＵＲ２の「試聴」ボタンがクリックされた際の処理の流れを簡単に説明する。

「試聴」ボタンがクリックされると、コンテンツ制作者端末５は、試聴要求と試聴に係る音声合成条件とを登録部１に通知する。このとき、登録部１の制御部１１は、情報記憶部１４から試聴に供するコンテンツの情報を取り出し、登録部１の制御部１１は、アクセス部１２を通して、そのコンテンツのＵＲＬにアクセスし、音声での提供対象となるデータ（ここではＨＴＭＬファイル）を、該当するＷｅｂサーバ３ら取得する。そして、登録部１の制御部１１は、必要に応じて、プログラム記憶手段１３から所定のプログラムを呼び出して実行し、取得した音声での提供対象データを加工して音声合成用のテキストデータを生成し、少なくとも音声合成用のテキストデータと、先に読み出した音声合成条件のデータとを、音声化部２に送信する。この際の送信データには、コンテンツ制作者端末５を特定する情報も含まれている。音声化部２は、受信したデータを使って合成音声（合成音声データ）を形成し、必要に応じて合成音声以外のデータを付加した状態で、コンテンツ制作者端末５に送信する。

以上のようにして、コンテンツ制作者は、自己が設定した音声合成条件で自己のコンテンツの音声出力の提供（試聴）を受けることができる。

上述した図４（に示す第１例）では、ユーザ端末４に提供する元となるＨＴＭＬファイルを登録部１がＷｅｂサーバ３から取得するものを示したが、これに代え、ユーザ端末４に提供する元となるＨＴＭＬファイルを音声化部２がＷｅｂサーバ３から取得するようにしても良い。

図５は、この場合のシステム全体での処理の流れ（第２例）を示す説明図である。

ユーザ端末４が、登録部１に対し、選択サイトデータ（リクエストデータ）を送信するまでの処理（Ｔ１１）は、上述した図４に示す第１例の場合と同様である。

登録部１では、この選択サイトデータを受信すると、内部の制御部１１が、情報記憶部１４を参照し、選択サイトデータに係るコンテンツの場所情報（例えばＵＲＬ）や音声合成条件を取得し、音声化部２に送信する（Ｔ１２）。この際の送信データには、ユーザ端末４を特定する情報も含まれている。

これにより、音声化部２は、コンテンツのＵＲＬにアクセスし、音声での提供対象となるデータ（ここではＨＴＭＬファイル）を、該当するＷｅｂサーバ３から取得する（Ｔ１３）。

その後、音声化部２は、必要に応じて、取得した音声での提供対象データを加工（ＨＴＭＬタグの削除、置換、変更、追加など）して音声合成用のテキストデータを生成し、その後、受信した音声合成条件データに従って合成音声（合成音声データ）を形成し、必要に応じて合成音声以外のデータを付加した状態で、ユーザ端末４に送信する（Ｔ１４）。このときのユーザ端末４での動作は、第１例の場合と同様である。

登録部１、音声化部２及びＷｅｂサーバ３の役割分担は、上記第１例及び第２例に限定されず、さらに他の分担であっても良い。要は、Ｗｅｂサーバ３から取得したデータを元にしてユーザ端末４に送信するための音声データを形成できれば良い。例えば、音声合成条件も、登録部１からＷｅｂサーバ３を経由して音声化部２に与えるようにしても良い。この場合、Ｗｅｂサーバ３からのＨＴＭＬファイルと共に、音声合成条件が音声化部２に与えられることが好ましい。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、コンテンツ制作者が、コンテンツの音声化に関する条件を自分で設定でき、ユーザに提供される音を実際に確認することができる。そのため、コンテンツ制作者は、常に提供される音声を把握でき、その属性などを自由に変更が可能となる。

また、コンテンツ制作者が、コンテンツの音声化作業を行う必要はなく、システム側が有する音声化部が合成音声に変換する際の条件だけを設定すれば良く、作業が容易であって、コンテンツ制作者への負担は少ない。そのため、音声化対応が、コンテンツ更新の足かせになることはない。

（Ｂ）第２の実施形態
次に、本発明によるコンテンツ音声化提供システムの第２の実施形態を図面を参照しながら詳述する。

（Ｂ−１）第２の実施形態の構成
第２の実施形態のコンテンツ音声化提供システムも、全体構成は、上述した図１で表すことができ、データネットワークＮを介して接続される、登録部１、音声化部２、Ｗｅｂサーバ３、ユーザ端末４及びコンテンツ制作者端末５などを構成要素としている。

登録部１は、第１の実施形態のものと異なっており、第２の実施形態の登録部１は、図６に示すように、制御部１１、アクセス部１２及びプログラム記憶部１３を有し、情報記憶部１４が設けられていない。すなわち、コンテンツ制作者が設定した音声合成条件は、他の装置（Ｗｅｂサーバ３）に記憶されるようになされている。

このように、登録機能が、第１の実施形態と異なるため、登録部１だけでなく、音声化部２、Ｗｅｂサーバ３、ユーザ端末４及びコンテンツ制作者端末５の機能も、第１の実施形態とは異なっているが、その点については、以下の動作説明で明らかにする。

（Ｂ−２）第２の実施形態の動作
第２の実施形態のコンテンツ音声化提供システムにおける動作も、コンテンツの音声合成条件の登録動作及びコンテンツの音声化提供動作の順に説明する。

図７は、第２の実施形態でのコンテンツ制作者端末５上の表示画面の遷移を示しており、具体的には、コンテンツ制作者が、コンテンツ制作者端末５から登録部１にアクセスして開始された一連の処理でのコンテンツ制作者端末５上の画面遷移を示している。

コンテンツ制作者が、コンテンツ制作者端末５から登録部１にアクセスし、図７（Ｃ）に示す「登録確認画面」ＳＵＲ２３がコンテンツ制作者端末５に表示されるまでの、コンテンツ制作者端末５及び登録部１の動作は、第１の実施形態の場合と同様である。

第２の実施形態の場合、登録確認画面ＳＵＲ２３には「次へ」ボタンが含まれており、コンテンツ制作者が登録確認画面ＳＵＲ２３における「次へ」ボタンをクリックすると、登録部１の制御部１１は、これまでに登録部１が取得したコンテンツ情報と音声合成条件（制御部１１内のバッファメモリに格納されている）を用いて、プログラム記憶部１３からプログラムを呼び出して実行し、コンテンツ制作者のＷｅｂページに追加記述すべき内容を形成する。登録部１は、この形成した内容を表示するためにコンテンツ制作者端末５にデータを送信し、コンテンツ制作者端末５に「リンク条件表示画面」ＳＵＲ２４を表示させる。Ｗｅｂページに追加記述すべき内容の形成は、例えば、予めテンプレートを用意しておき、入力された音声合成条件の設定値などを、そのテンプレートに挿入することにより行う。

コンテンツ制作者が、このリンク条件表示画面ＳＵＲ２４に表示された内容を、作成したＷｅｂページなどにリンク形式で記述することにより、コンテンツ制作者が意図した音声をユーザに提供することができるようになる。

すなわち、第２の実施形態の場合、コンテンツ制作者は、Ｗｅｂページの情報として音声合成条件を直接盛り込むことにより、コンテンツ制作者が意図した音声をユーザに提供することができる。

図８は、ユーザが、コンテンツを音声で提供を受ける場合の第２の実施形態のシステム全体での処理の流れを示している。

第１の実施形態では、ユーザ端末４が登録部１にリクエストを送り、ユーザ端末４がＷｅｂサーバ３には直接アクセスしなかったのに対し、第２の実施形態では、ユーザ端末４はＷｅｂサーバ３にアクセスし、登録部１には直接アクセスしない。また、第２の実施形態の場合、ユーザにコンテンツを音声で提供する段階では、登録部１は機能しない。第１の実施形態と第２の実施形態とでは、これらの部分が異なっている。

ユーザ端末４からＷｅｂサーバ３にアクセスし、Ｗｅｂサーバ３からユーザ端末４に、画面ＳＵＲ２５を表示するためのサイトデータ（Ｗｅｂページ）が送信されたとする（Ｔ２１）。

画面ＳＵＲ２５を構成するためのサイトデータにおける各「聞く」ボタンにはそれぞれ、音声での提供が可能なコンテンツ情報や音声合成条件などの情報を含む記述ＳＵＢ２１で規定されているようなリンクが張られている。

ユーザが、いずれかの「聞く」ボタンをクリックことにより、その「聞く」ボタンに係るリンク先記述（記述ＳＵＢ２１参照）に従ったリクエストが、ユーザ端末４から音声化部２に送信される（Ｔ２２）。

このリクエストを受信した音声化部２は、音声化に必要なデータ（例えばＨＴＭＬファイル）を、リクエスト内のコンテンツ場所情報が指定する場所から取得する（Ｔ２３）。

音声化部２は、取得したデータに対し、リクエスト内の音声合成条件などを適用して作成した音声データを、ユーザ端末４に送信する（Ｔ２４）。このデータを受信したユーザ端末では、音出力ＳＮＤ１のように音声が出力される。必要に応じて、画面ＳＵＲ２６のような画面を表示しても良い。

（Ｂ−３）第２の実施形態の効果
第２の実施形態によると、Ｗｅｂサーバ３に保存されているコンテンツに、登録部１が出力した記述を追加することにより、第１の実施形態の効果に加え、ユーザが新たなアクセス場所（例えば、登録部１）にアクセスすることなく、従来通りのＷｅｂサーバ３にアクセスするだけで、音声化されたコンテンツを聞くことができるという効果を奏することができる。

（Ｃ）第３の実施形態
次に、本発明によるコンテンツ音声化提供システムの第３の実施形態を図面を参照しながら詳述する。

（Ｃ−１）第３の実施形態の構成
第３の実施形態のコンテンツ音声化提供システムも、その全体構成は、既述した図１で表すことができ、データネットワークＮを介して接続される、登録部１、音声化部２、Ｗｅｂサーバ３、ユーザ端末４及びコンテンツ制作者端末５などを構成要素としている。登録部１の内部構成も、第１の実施形態と同様に、図２で表すことができる。

但し、各部の機能は、既述した実施形態のものと異なっており、以下の動作説明で明らかにする。

なお、第３の実施形態の場合、登録部１が、音声で提供するコンテンツについては、Ｗｅｂサーバ３の機能をも担っているので、この点から言えば、図１でのＷｅｂサーバ３は省略することができる。

（Ｃ−２）第３の実施形態の動作
図９は、コンテンツを音声でユーザに提供するためのデータ送受信の手順例を示すものである。

コンテンツ制作者は、そのコンテンツ制作者端末５から、自己が制作した図１０に示すようなコンテンツデータと、音声合成条件などを記載した図１１に示すようなサイト識別情報とを、登録部１に送信する（Ｔ３１）。登録部１は、受信したコンテンツデータとサイト識別情報を情報記憶部１４に保存する。

ユーザが、ユーザ端末４から登録部１に登録してあるコンテンツにアクセス（例えば図１１の「ｈｔｔｐ：／／ｗｗｗ．ｘｘｘｘ．ｃｏ．ｊｐ」）すると（Ｔ３２）、登録部１の制御部１１は、プログラム記憶部１３から必要なプログラムを呼び出し、ユーザからリクエストがあったコンテンツデータ（図１０）とサイト識別情報（図１１）とを、情報記憶部１４から読み出す。制御部１１は、サイト識別情報を参照し、コンテンツデータの適切な場所に、音声での提供を要求するためのデータ（リクエスト送信手段）１２１（図１２参照）を付加し、このような付加後のデータをユーザ端末４に送信する（Ｔ３３）。

これにより、ユーザ端末４には、図１２に示すような、テキストデータ１２０と「聞く」ボタン（リクエスト送信手段）１２１とを含む画面が表示される。「聞く」ボタン１２１の情報には、第２の実施形態のときとほぼ同様に、テキストデータの送信先や音声合成条件（性別「男」、話速「６」、抑揚「４」、音質「４」、音量「３」）の情報も含まれている。

ユーザは、この「聞く」ボタン１２１をクリックことにより、少なくともテキストデータ１２０と音声合成条件とを含む音声化リクエストが音声化部２に送信される（Ｔ３４）。ユーザ端末４からリクエストを受信した音声化部２は、リクエストに応じて音声化データを生成し、ユーザ端末４に送信する（Ｔ３５）。これにより、ユーザ端末４から、所望するコンテンツの内容が音声出力される。

図１２は、音声提供要求ボタンである「聞く」ボタンが１個のコンテンツに対応するものであったが、音声提供要求ボタンの操作を、複数の中から選択されたコンテンツに対応させるようにしても良い。図１３は、この場合におけるユーザ端末４での表示画面例（第２の表示例）を示している。

図１３に示す画面では、３個のニュースセクション１３１、１３２、１３３と、「チェック記事を聞く」ボタン（リクエスト送信手段）１３４が備えられている。各ニュースセクション１３１、１３２、１３３にはそれぞれ、チェックボックスが備えられており、ユーザが聞きたいと思うニュースセクションをチェック選択することができる。図１３は、ユーザが、ニュースセクション１３１及び１３３を選択した状態を示している。この段階で、ユーザが、「チェック記事を聞く」ボタン（リクエスト送信手段）１３４をクリックすることにより、少なくとも、チェック選択されたニュースセクション１３１及び１３３の本文が記載されているページ（図１４参照）のＵＲＬと音声合成条件とが音声化部２に送信される。従って、ニュースセクション１３１及び１３３が音声出力される。

また、ユーザ端末４に表示するコンテンツの表示画面形式としては、図１２や図１３に示すものに代え、図１５に示すようなものでも良い。

図１５に示す画面では、ニュースセクション１３１〜１３３と、「チェック記事を聞く」ボタン（リクエスト送信手段）１３４に加え、音声合成条件の再設定画面１５１も備えられている。音声合成条件の再設定画面１５１の初期状態は、コンテンツ制作者が設定した音声合成条件である。ユーザは、聞きたいと思うニュースセクションを選択できるだけでなく、音声合成条件の再設定画面１５１に対する操作を通じて音声合成条件も設定することができる。音声化部２に送信される音声合成条件は、「チェック記事を聞く」ボタン（リクエスト送信手段）１３４がクリックされた際における音声合成条件の再設定画面１５１に設定された内容である。

図１５は、音声合成条件の再設定画面１５１として、ラジオボタン方式による選択方法のものを示したが、図１６に示すようなプルダウン方式による選択方法のものにすることもできる。

なお、コンテンツの選択方法や音声合成条件設定方法の選定方法は、上述したものに限定されないことは勿論である。

（Ｃ−３）第３の実施形態の効果
第３の実施形態によれば、Ｗｅｂページなどのコンテンツデータに加え、ごく簡単なサイト識別情報を、登録部に登録することにより、コンテンツ制作者の意図した音声をユーザに提供することができる。また、サイト識別情報を変更することにより、コンテンツデータを変更することなしに、極めて容易に提供音声を変更することができる。

また、図１５や図１６のような表示画像を適用した場合には、音声化部で、リクエストに含まれている音声合成条件の統計などをとることにより、コンテンツ制作者が、ユーザがどのような音声合成条件で音声化データを聞いたのかを知ることができる。

さらに、この第３の実施形態によっても、音声化部で自動的に音声化データを生成するので、コンテンツ制作者は大量のデータを自ら音声化するという作業は不要である。

（Ｄ）他の実施形態
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。

上記各実施形態における音声合成条件の設定処理に係る画面遷移図においては、便宜上、各処理工程で画面を分割して説明したが、言うまでもなく、全て１画面内に収める構成であっても良い。

また、上記各実施形態における、各構成要素間のデータの送信手順や送信内容、データの加工に関する役割分担などは、全て一例であり、上記実施形態のものに限定されるものではない。

本発明に関し、音声合成条件を設定し得る属性などは、任意に設定することができる。また、上記各実施形態で挙げた音声合成条件についても、その設定し得る選択肢を増減しても良い。例えば、性別に関し、「男性」、「女性」に加え、「ロボット（的音声）」を設けるようにしても良く、「２０代男性」、「３０代男性」、「４０代男性」などの年令をも加味するようにしても良い。また例えば、音声の符号化速度（１６ＫＢＰＳや３２ＫＢＰＳなど）を条件設定できるようにしても良い。さらに例えば、音質などについてもエコーの有無などを設定し得るようにしても良い。

また、第３の実施形態で説明したような、コンテンツ制作者（コンテンツ提供者側）及びユーザ（コンテンツ被提供者側）の双方が音声合成条件を設定し得る場合において、コンテンツ制作者が設定し得る音声属性とユーザが設定し得る音声属性とを同じにしても良く、また、異なるようにしても良い。

さらに、上記実施形態においては、１又は複数のコンテンツに共通に音声合成条件を設定するものを示したが、１コンテンツについても、タイトル部分や要約部分やコンテンツ本体など、部分によって、異なる音声合成条件を設定できるようにしても良い。また、コンテンツ制作者が音声合成条件を設定し得るコンテンツ部分と、ユーザが音声合成条件を設定し得るコンテンツ部分とを区別（一部重複していても良い）するようにしても良い。

さらにまた、第３の実施形態の説明では、ユーザは、コンテンツの提供を受けるそのタイミングにおいて音声合成条件を設定し得るものを示したが、予め、音声合成条件を設定できるようにしても良い。例えば、ユーザがキーワードなどを登録して、メールマガジンの記事の中の該当する記事の提供を受ける場合において、キーワードなどの登録時に、音声合成条件を設定できるようにしても良い。

また、コンテンツの音声出力時の音声合成条件を設定し得る者は、コンテンツ制作者やユーザだけでなく、コンテンツ管理者（例えばプロバイダ）などであっても良い。

さらに、コンテンツ制作者やコンテンツ管理者が音声合成条件を設定する場合において、ユーザ端末が携帯端末であれば、低速の符号化速度、それ以外の端末であれば高速の符号化速度のような、ユーザ端末の種類との関係によって自動的に切り替わるような音声合成条件の設定を認めるようにしても良い。

さらにまた、上記第２及び第３の実施形態では、「聞く」ボタンがクリックされてからデータ（コンテンツや音声合成条件など）を音声化部に与えるものを示したが、「聞く」ボタンを設けず、ユーザ端末が直ちに他の装置から与えられたデータを音声化部に与えるようにしても良い。

また、第２の実施形態においても、第３の実施形態のように、音声合成条件を表示し、ユーザによる修正（再設定）を認めるようにしても良い。

上記各実施形態では、登録部がコンテンツ制作者であることを認証することなく、音声合成条件を取り込むものを示したが、コンテンツ制作者の認証を行った後に音声合成条件を取り込むようにしても良い。

なお、第１〜第３の実施形態の特徴は、組合せが可能なものは組み合わせて良いことは勿論である。

第１の実施形態のコンテンツ音声化提供システムの全体構成を示すブロック図である。第１の実施形態の登録部の詳細構成を示すブロック図である。第１の実施形態のコンテンツの音声合成条件の設定時のコンテンツ制作者端末上の表示画面の遷移を示す説明図である。第１の実施形態におけるコンテンツを音声でユーザに提供する際のシステム全体での処理の第１例を示す説明図である。第１の実施形態におけるコンテンツを音声でユーザに提供する際のシステム全体での処理の第２例を示す説明図である。第２の実施形態の登録部の詳細構成を示すブロック図である。第２の実施形態のコンテンツの音声合成条件の設定時のコンテンツ制作者端末上の表示画面の遷移を示す説明図である。第２の実施形態におけるコンテンツを音声でユーザに提供する際のシステム全体での処理例を示す説明図である。第３の実施形態におけるシステム全体でのデータの送受信例を示す説明図である。第３の実施形態の説明で用いるコンテンツデータを示す説明図である。第３の実施形態の説明で用いる音声合成条件を示す説明図である。第３の実施形態のコンテンツの音声提供要求ボタンを含む第１の表示例を示す説明図である。第３の実施形態のコンテンツの音声提供要求ボタンを含む第２の表示例を示す説明図である。図１３におけるニュースセッションの詳細例を示す説明図である。第３の実施形態のコンテンツの音声提供要求ボタンを含む第３の表示例を示す説明図である。第３の実施形態のコンテンツの音声提供要求ボタンを含む第４の表示例を示す説明図である。

符号の説明

１…登録部、２…音声化部、３…Ｗｅｂサーバ、４…ユーザ端末、５…コンテンツ制作者端末、１１…制御部、１２…アクセス部、１３…プログラム記憶部、１４…情報記憶部。

Claims

テキストデータを含むコンテンツを音声化データに変換して提供するコンテンツ音声化提供システムにおいて、
音声化データに変換する任意の音声合成条件をコンテンツに対応付けて取り込む音声合成条件取り込み手段と、
この音声合成条件取り込み手段が取り込んだ音声合成条件に従って、提供対象のコンテンツを音声化データに変換して、コンテンツの要求端末に送信する音声化手段とを有し、
上記音声合成条件取り込み手段は、上記コンテンツを記憶しているコンテンツ記憶手段とは異なる装置に設けられ、
上記音声合成条件取り込み手段は、取り込んだ音声合成条件を、上記コンテンツ記憶手段に記憶されている対応するコンテンツに盛り込む形式にし、そのコンテンツに盛り込むことを指示することを特徴とするコンテンツ音声化提供システム。
上記コンテンツの要求端末は、上記コンテンツ記憶手段から音声合成条件が盛り込まれたコンテンツを取り出して、上記音声化手段に与えて音声化データに変換させることを特徴とする請求項１に記載のコンテンツ音声化提供システム。
上記音声合成条件が盛り込まれたコンテンツは、音声化を求めるボタンアイコンのデータを含み、上記コンテンツの要求端末は、上記コンテンツ記憶手段から取り出したコンテンツの表示状態で、上記ボタンアイコンのクリックを検出したときに、音声合成条件が盛り込まれたコンテンツを上記音声化手段に与えることを特徴とする請求項２に記載のコンテンツ音声化提供システム。
上記コンテンツの要求端末は、上記コンテンツ記憶手段から複数のコンテンツを取り出し、クリックされた上記ボタンアイコンに係る、音声合成条件が盛り込まれたコンテンツを上記音声化手段に与えることを特徴とする請求項３に記載のコンテンツ音声化提供システム。