JP2007164210A - コンテンツ音声化提供システム - Google Patents

コンテンツ音声化提供システム Download PDF

Info

Publication number
JP2007164210A
JP2007164210A JP2007014996A JP2007014996A JP2007164210A JP 2007164210 A JP2007164210 A JP 2007164210A JP 2007014996 A JP2007014996 A JP 2007014996A JP 2007014996 A JP2007014996 A JP 2007014996A JP 2007164210 A JP2007164210 A JP 2007164210A
Authority
JP
Japan
Prior art keywords
content
speech synthesis
data
voice
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007014996A
Other languages
English (en)
Inventor
Shinji Hayakawa
慎司 早川
Mayumi Harada
真弓 原田
Satoshi Watanabe
聡 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2007014996A priority Critical patent/JP2007164210A/ja
Publication of JP2007164210A publication Critical patent/JP2007164210A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

【課題】従来通りのサーバにアクセスして、音声化されたコンテンツを聞くことができるようにする。
【解決手段】テキストデータを含むコンテンツを音声化データに変換して提供するコンテンツ音声化提供システムである。このコンテンツ音声化提供システムは、コンテンツ記憶手段と音声合成条件取り込み手段と音声化手段とを有する。上記音声合成条件取り込み手段は、上記コンテンツを記憶しているコンテンツ記憶手段とは異なる装置に設けられると共に、取り込んだ音声合成条件を、上記コンテンツ記憶手段に記憶されている対応するコンテンツに盛り込む形式にし、そのコンテンツに盛り込むことを指示する。
【選択図】図1

Description

本発明はコンテンツ音声化提供システムに関し、例えば、テキスト情報を含むコンテンツを音声化部で音声化してユーザに提供しようとするシステムに関するものである。
一般に、テキストデータを音声データに変換する技術は、テキスト音声変換(Text To Speech:TTS)技術と呼ばれている。また、TTS技術が出力した音声は、合成音声と呼ばれている。現在、ネットワーク上のサーバが自動的にテキスト情報を取得してTTSを行い、でき上がった合成音声をデータ化して、ネットワーク経由でユーザ端末に配信する考え方が、特許文献1や、特許文献2に記載されている。なお、この明細書においては、ネットワーク上に配置されてTTSを行うサーバを、音声化部と呼ぶこととする。
特許文献1には、ネットワーク上からテキスト情報を自動的に入手し、音声化部で音声ファイルを生成し、予め登録されたWebサーバや電話サーバに配信するシステムが記載されている。
特許文献2には、ユーザが音声化部に対して、予めWebページのURLなどを登録しておくと、音声化部が定期的に登録されたWebページを取得し、更新された部分があれば、それを音声化してユーザに通知するシステムが記載されているである。
特開2001−282268号公報 特開2002−14952号公報
しかしながら、従来の音声化部は自律的な動作を前提に構成されており、コンテンツ制作者に対する配慮がなされていない。
例えば、コンテンツ制作者がTTS後の合成音声について、どのような音声品質なのか、また、どの部分をどのように読んでいるかなど、全く関与、確認することができず、音声化部側で勝手に音声化されてしまっている。これは、コンテンツ制作者にとって極めて不本意な状況であり、TTS後の合成音声を確認し、音声化に関与したいという欲求は、コンテンツ制作者にとって、極めて自然である。
勿論、コンテンツ制作者が、音声化部にアクセスして自分のコンテンツを指定すれば、ユーザに提供されている合成音声を確認することはできるが、その出力音に関して修正する術がない。
現在、これを回避するためには、自ら配信用音声を作成する以外に方法がない。しかし、この配信用音声の作成作業は、人間を使って録音する場合であれば、膨大なコストと時間を要するだけでなく、コンテンツを頻繁に更新することは、事実上、困難となる。また、市販の音声合成ソフトウェアを用いる場合でも、音声合成方式が多数あり、選定は困難を極める。また、この方法でも、頻繁なコンテンツの更新には極めて大きな障害となる。
また、コンテンツ制作者側だけでなく、ユーザも、提供される合成音声の品質や属性などについて音声化部へ指示することができない。すなわち、ユーザは、音声化部から提供された合成音声に対し、ユーザ端末における音量や音質などの操作子の操作で変更できる程度しか、合成音声の品質や属性を調整することができない。
そのため、コンテンツ制作者やユーザなどが、コンテンツを音声化した合成音声の品質や属性などに大きく関与し得る、しかも、コンテンツ制作者などの作業負担やコストを抑えることができるコンテンツ音声化提供システムが望まれている。
かかる課題を解決するため、本発明は、テキストデータを含むコンテンツを音声化データに変換して提供するコンテンツ音声化提供システムにおいて、音声化データに変換する任意の音声合成条件をコンテンツに対応付けて取り込む音声合成条件取り込み手段と、この音声合成条件取り込み手段が取り込んだ音声合成条件に従って、提供対象のコンテンツを音声化データに変換して、コンテンツの要求端末に送信する音声化手段とを有し、上記音声合成条件取り込み手段は、上記コンテンツを記憶しているコンテンツ記憶手段とは異なる装置に設けられ、上記音声合成条件取り込み手段は、取り込んだ音声合成条件を、上記コンテンツ記憶手段に記憶されている対応するコンテンツに盛り込む形式にし、そのコンテンツに盛り込むことを指示することを特徴とする。
以上のように、本発明によれば、コンテンツ制作者などが、コンテンツを音声化した合成音声の品質や属性などに大きく関与し得る、コンテンツ制作者などの作業負担やコストを抑えられるコンテンツ音声化提供システムを提供できると共に、ユーザが新たなアクセス場所にアクセスすることなく、従来通りのサーバにアクセスするだけで、音声化されたコンテンツを聞くことができる。
(A)第1の実施形態
以下、本発明によるコンテンツ音声化提供システムの第1の実施形態を図面を参照しながら詳述する。
(A−1)第1の実施形態の構成
図1は、第1の実施形態のコンテンツ音声化提供システムの全体構成を示すブロック図である。
図1において、第1の実施形態のコンテンツ音声化提供システムは、登録部1、音声化部2及びWebサーバ3を有し、当該システムへのアクセス装置として、ユーザ端末4やコンテンツ制作者端末5が存在する。これらは、全てデータネットワークNによって接続されている。ここで、データネットワークNは、例えば、インターネット、WAN(Wide Area Network)、LAN(Lоcal Area Network)、VPN(Virtual Private Network)、コンピュータ内部のデータバスなどが該当する。
図1では、便宜上、登録部1と音声化部2とが物理的に別々の場所に存在しているように表記しているが、登録部1と音声化部2とを一体の構成としても良い。同様に、登録部1と音声化部2とWebサーバ3を一体の構成としても良い。
図2は、登録部1の詳細構成を示すブロック図である。登録部1は、図2に示すように、制御部11、アクセス部12、プログラム記憶部13及び情報記憶部14を有する。
制御部11は、各部の制御や演算、データ転送などを行い、例えばCPUなどから構成されている。アクセス部12は、データネットワークN及び登録部1間でのデータ入出力を行い、例えば、モデムやイーサネット(登録商標)カードなどで構成されている。プログラム記憶部13は、制御部11が実行するプログラムを格納しており、例えば、ハードディスクや光ディスクや半導体メモリなどで構成されている。プログラム記憶部13に記憶されているプログラムは、例えば、ユーザ端末4やコンテンツ制作者端末5に表示する画面を形成するためのプログラムやHTMLファイル、音声化部(例えば音声合成サーバ)2へのリクエスト内容を生成するプログラムなどである。情報記憶部14は、コンテンツ制作者が登録した、コンテンツ情報と音声合成条件が関連付けられて保存され、主に、ユーザ端末4からのリクエストに応じて利用される。情報記憶部14は、例えば、ハードディスクや光ディスクや半導体メモリなどで構成されている。
上述したように、情報記憶部14に保存されている内容は、主に、コンテンツ情報と音声合成条件とである。コンテンツ情報とは、コンテンツやコンテンツ制作者に関連する情報を指し、例えば、音声合成の対象となるコンテンツのURL(Uniform Resource Locator)やURl(Uniform Resource Identifier)、ニュースやコラムといったコンテンツの属性、登録サイトの登録名、コンテンツ制作者確認用のユーザIDとパスワードなどが該当する。また、音声合成条件とは、音声合成のための条件群を指し、主に音声化部2に送信されて合成音声を生成する段階で用いられる。具体的には、例えば、話者の性別、話す速度(話速)、抑揚、音程、音質、音量、使用する音声合成方式などが該当する。
図2では、便宜上、各機能部を別々の機器として示したが、実際上は1台のコンピュータで全機能部を実現しても良い。
音声化部2は、詳細構成の図示は省略するが、主に、音声合成機能部とデータの送受信機能部とを有する。具体的には、例えば、CPUなどの演算装置と、HDDや半導体メモリなどの記憶装置と、モデムやネットワークカードなどのネットワークアクセス装置と、これら上で動作するプログラムとで構成される。
Webサーバ3は、詳細構成の図示は省略するが、主に、記憶機能部とデータの送受信機能部で構成される。具体的には、例えば、CPUなどの演算装置と、HDDや半導体メモリなどの記憶装置と、モデムやネットワークカードなどのネットワークアクセス装置と、これら上で動作するプログラムとで構成される。Webサーバ3には、音声合成対象のテキスト本体や、HTMLなどの言語で記述された、いわゆるWebページが保存されている。コンテンツ制作者は、自分が作成したコンテンツを、例えばコンテンツ制作者端末5からこのWebサーバ3転送して保存させ、又は、Webサーバ3の入力機能部(記録媒体の読み取り機能などを含む)を利用して入力して保存させ、ネットワークN上に公開する。
ユーザ端末4は、詳細構成の図示は省略するが、主に、ディスプレイやスピーカなどの情報出力機能と、キーボードやマイクといった情報入力機能とで構成される。具体的には、デスクトップ型パソコン、ノート型パソコン、携帯情報端末、携帯電話、情報家電などが該当する。
コンテンツ制作者端末5も、ユーザ端末4と同様な構成である。図1では、便宜上、ユーザ端末4とコンテンツ制作者端末5を別々に記載したが、コンテンツ制作者端末5に特別に要求される機能はなく、機能的にはユーザ端末4と何ら変わるところはない。コンテンツ制作者端末5と、ユーザ端末4とを同一のものとしても良い。
(A−2)第1の実施形態の動作
以下、第1の実施形態のコンテンツ音声化提供システムにおける動作を、コンテンツの音声合成条件の登録動作及びコンテンツの音声化提供動作の順に説明する。
図3は、コンテンツ制作者端末5上の表示画面の遷移を示しており、具体的には、コンテンツ制作者が、コンテンツ制作者端末5から登録部1にアクセスし、音声合成条件などを登録するまでの画面遷移を示している。
まず、コンテンツ制作者端末5から登録部1にアクセスすると、そのアクセスに対応して、登録部1の制御部11は、プログラム記憶手段13からプログラムやデータファイルを取り出し、コンテンツ制作者端末5に画面生成用のデータを送信する。この送信データとしては、例えばHTMLファイルが該当する。
このデータを受信したコンテンツ制作者端末5には、図3(A)に示す「コンテンツ登録画面」SUR1が表示される。勿論、これ以前に、図示しない画面を用いて予めコンテンツ制作者として登録部1側にユーザ登録を行い、また、ログオン画面などを用いて登録ユーザの確認を実行させた後、コンテンツ登録画面SUR1を取り出す処理を実行するようにしても良い。
コンテンツ登録画面SUR1において、音声合成の対象となるコンテンツに関する情報(コンテンツ情報)の入力を促す。コンテンツに関する情報(コンテンツ情報)は、例えば、Webページの場所(URL、URIなど)や、そのWebページの登録名、属性、キーワード、コンテンツ制作者のメッセージ、コンテンツ制作者の名前や連絡先などが該当する。これらの入力方法として、例えば、コンテンツ登録画面SUR1のURL入力部分と登録名入力部分では、自由に文字を打ち込めるテキストボックス形式を用い、属性入力部分では、図の▼印部をクリックすることによりメニュー一覧が表示されるプルダウン方式を用いている。但し、入力方法は、上記の例に限定されるものではない。コンテンツ登録画面SUR1には「次へ」のボタン(アイコン)が含まれており、コンテンツ制作者は、上述したようなコンテンツ情報の入力が終了すると、この「次へ」のボタンをクリックする。
コンテンツ制作者端末5から、コンテンツ登録画面SUR1の「次へ」のボタンがクリックされた際の情報が与えられた登録部1の制御部11は、コンテンツ制作者端末5に、図3(B)に示すような「音声合成条件設定画面」SUR2を表示するためのデータをプログラム記憶部13などから取り出して、コンテンツ制作者端末5に送信する。
音声合成条件設定画面SUR2は、音声合成時に必要となる音声合成条件の設定を促す画面である。音声合成条件としては、例えば、話者の性別や種類、話す速度、抑揚、音高などが該当する。また、コンテンツ制作者への条件提示方法としては、音声合成条件設定画面SUR2の性別項で用いているような択一的なラジオボタン形式や、音声合成条件設定画面SUR2の話速項で用いているようなグラフィカルなスライドバーなどを利用できる。ここでも、入力方法は、この例に限定されるものではない。
この音声合成条件設定画面SUR2には、「戻る」、「試聴」、「登録」の各ボタンが含まれている。
「戻る」ボタンは、表示画面を、音声合成条件設定画面SUR2から上述したコンテンツ登録画面SUR1に戻ることを起動するボタンである。
「試聴」ボタンは、コンテンツ制作者に、設定された音声合成条件で実際に出力される音声を試聴させる処理を起動するボタンである。試聴機能により、コンテンツ制作者は、条件設定後、直ちに試聴できるため、設定値と出力音声のマッチングを容易にとれ、条件設定をよりてきせつに実行できるようになる。実際の出力音声を試聴する起動や実行手段は、図3に示す例に限定されるものではなく、別の画面(別の機会)や別の装置に設けるようにしても良い。なお、コンテンツ制作者が行う、音声合成条件の設定と試聴の可能回数は任意である。
試聴時の各部の動作説明は、後述するユーザ端末へのコンテンツ音声の提供動作の説明後に行う。
音声合成条件設定画面SUR2の「登録」ボタンは、コンテンツ制作者が、上述したような音声合成条件の設定が終了したときにクリックするものである。コンテンツ制作者端末5から、音声合成条件設定画面SUR2の「登録」ボタンがクリックされた際の情報が与えられた登録部1の制御部11は、コンテンツ情報と音声合成条件の設定値を関連付けて情報記憶部14に保存すると共に、コンテンツ制作者端末5に、図3(C)に示すような「登録確認画面」SUR3を表示するためのデータをプログラム記憶部13などから取り出して、コンテンツ制作者端末5に送信する。
コンテンツ情報や音声合成条件の登録に関する画面構成や画面遷移は、上記説明のものに限定されるものではない。例えば、上述したコンテンツ登録画面SUR1と音声合成条件設定画面SUR2とを1つの画面内に配置し、コンテンツ制作者のボタン操作回数を低減させるようにしても良い。また、登録確認画面SUR3を省いたりしても良い。コンテンツ情報の登録項目や音声合成条件の登録項目の数や種類は、上記の例に限定されるものではない。
図4は、コンテンツ情報及び音声合成条件が登録部1に登録されたコンテンツに関し、音声での提供をユーザが受ける場合のシステム全体での処理の流れの第1例を示している。
コンテンツの利用者は、ユーザ端末4から登録部1にアクセスする。このとき、登録部1の制御部11は、情報記憶部14に登録されているファイルを検知し、検知情報に基づき、音声で提供可能なコンテンツのリストの情報を含む「音声サイト一覧」画面SUR4(図4参照)のデータを完成させ、アクセスしていたユーザ端末4に送信する。
ユーザは、音声サイト一覧画面SUR4で提示されたリストの中から、聞きたいコンテンツを選択する。図4の音声サイト一覧画面SUR4の例では、複数選択が可能なチェックボックス方式の選択肢が画面に提示されている。
ここで、音声サイト一覧画面SUR4が表示されているときに、ユーザが「TTT News」を選択して「開始」ボタンをクリックしたとする。このとき、ユーザ端末4から登録部1に対し、「TTT News」が選択されたことを表すリクエストデータ(選択サイトデータ)が送信される(T1)。
登録部1では、このリクエストデータを受信すると、内部の制御部11が、情報記憶部14を参照し、「TTT News」の登録名で登録されたデータから、コンテンツの場所情報(ここではURLとする)と、音声合成条件(ここでは、性別、話速、抑揚の各値とする)を取得する。制御部11は、アクセス部12を通して、コンテンツのURLにアクセスし、音声での提供対象となるデータ(ここではHTMLファイル)を、該当するWebサーバ3ら取得する(T2)。
制御部11は、必要に応じて、プログラム記憶手段13から所定のプログラムを呼び出して実行し、取得した音声での提供対象データを加工して音声合成用のテキストデータを生成する。この加工とは、例えば、HTMLタグの削除、置換、変更、追加や、条件式による文字列の削除、置換、変更、追加などの作業が該当する。勿論、取得した提供対象データが、そのまま音声合成用のテキストデータとして利用可能な場合、このような処理を行う必要はない。登録部1は、少なくとも音声合成用のテキストデータと、先に読み出した音声合成条件のデータとを、音声化部2に送信する(T3)。この際の送信データには、ユーザ端末4を特定する情報も含まれている。
音声化部2は、受信したデータを使って合成音声(合成音声データ)を形成し、必要に応じて合成音声以外のデータを付加した状態で、ユーザ端末4に送信する(T4)。合成音声以外のデータとは、例えば、別の音データや、画面表示用のデータなどが該当し、これらは、登録部1から送信されたデータでも良い。図4の例では、画面表示用のデータを付加して送信しているが、合成音声データのみを送信しても良い。音声化部2から、これらのデータを受信したユーザ端末4は、内部の図示しない手段によって受信した音声データをユーザに聴取可能な形態にして提供する(SND1)。
図4の例では付加された画面表示用データも同時に画面出力している(SUR5)。すなわち、「TTT News」を構成する複数の項目を並記して表示すると共に、その時点で音声出力に供している項目名を網掛け表示し、また、音声出力に係るトータル時間(合計)と、現在そのうちのどのタイミングを出力しているかを示す時間情報とを表示しており、更に、音声出力を前の項目に切り替えることを指示する「前」ボタンや音声出力を次の項目に切り替えることを指示する「次」ボタンや音声出力を強制停止させることを指示する「停止」ボタンなども表示している。
以上のように、第1の実施形態の場合、音声情報を受信するためには、ユーザ端末4から登録部1にリクエストデータを送信すれば良い。言い換えると、音声情報を受信することに限定すれば、ユーザ端末4から、Webサーバ3へのアクセスは必要ない。
次に、上述した音声合成条件設定画面SUR2の「試聴」ボタンがクリックされた際の処理の流れを簡単に説明する。
「試聴」ボタンがクリックされると、コンテンツ制作者端末5は、試聴要求と試聴に係る音声合成条件とを登録部1に通知する。このとき、登録部1の制御部11は、情報記憶部14から試聴に供するコンテンツの情報を取り出し、登録部1の制御部11は、アクセス部12を通して、そのコンテンツのURLにアクセスし、音声での提供対象となるデータ(ここではHTMLファイル)を、該当するWebサーバ3ら取得する。そして、登録部1の制御部11は、必要に応じて、プログラム記憶手段13から所定のプログラムを呼び出して実行し、取得した音声での提供対象データを加工して音声合成用のテキストデータを生成し、少なくとも音声合成用のテキストデータと、先に読み出した音声合成条件のデータとを、音声化部2に送信する。この際の送信データには、コンテンツ制作者端末5を特定する情報も含まれている。音声化部2は、受信したデータを使って合成音声(合成音声データ)を形成し、必要に応じて合成音声以外のデータを付加した状態で、コンテンツ制作者端末5に送信する。
以上のようにして、コンテンツ制作者は、自己が設定した音声合成条件で自己のコンテンツの音声出力の提供(試聴)を受けることができる。
上述した図4(に示す第1例)では、ユーザ端末4に提供する元となるHTMLファイルを登録部1がWebサーバ3から取得するものを示したが、これに代え、ユーザ端末4に提供する元となるHTMLファイルを音声化部2がWebサーバ3から取得するようにしても良い。
図5は、この場合のシステム全体での処理の流れ(第2例)を示す説明図である。
ユーザ端末4が、登録部1に対し、選択サイトデータ(リクエストデータ)を送信するまでの処理(T11)は、上述した図4に示す第1例の場合と同様である。
登録部1では、この選択サイトデータを受信すると、内部の制御部11が、情報記憶部14を参照し、選択サイトデータに係るコンテンツの場所情報(例えばURL)や音声合成条件を取得し、音声化部2に送信する(T12)。この際の送信データには、ユーザ端末4を特定する情報も含まれている。
これにより、音声化部2は、コンテンツのURLにアクセスし、音声での提供対象となるデータ(ここではHTMLファイル)を、該当するWebサーバ3から取得する(T13)。
その後、音声化部2は、必要に応じて、取得した音声での提供対象データを加工(HTMLタグの削除、置換、変更、追加など)して音声合成用のテキストデータを生成し、その後、受信した音声合成条件データに従って合成音声(合成音声データ)を形成し、必要に応じて合成音声以外のデータを付加した状態で、ユーザ端末4に送信する(T14)。このときのユーザ端末4での動作は、第1例の場合と同様である。
登録部1、音声化部2及びWebサーバ3の役割分担は、上記第1例及び第2例に限定されず、さらに他の分担であっても良い。要は、Webサーバ3から取得したデータを元にしてユーザ端末4に送信するための音声データを形成できれば良い。例えば、音声合成条件も、登録部1からWebサーバ3を経由して音声化部2に与えるようにしても良い。この場合、Webサーバ3からのHTMLファイルと共に、音声合成条件が音声化部2に与えられることが好ましい。
(A−3)第1の実施形態の効果
第1の実施形態によれば、コンテンツ制作者が、コンテンツの音声化に関する条件を自分で設定でき、ユーザに提供される音を実際に確認することができる。そのため、コンテンツ制作者は、常に提供される音声を把握でき、その属性などを自由に変更が可能となる。
また、コンテンツ制作者が、コンテンツの音声化作業を行う必要はなく、システム側が有する音声化部が合成音声に変換する際の条件だけを設定すれば良く、作業が容易であって、コンテンツ制作者への負担は少ない。そのため、音声化対応が、コンテンツ更新の足かせになることはない。
(B)第2の実施形態
次に、本発明によるコンテンツ音声化提供システムの第2の実施形態を図面を参照しながら詳述する。
(B−1)第2の実施形態の構成
第2の実施形態のコンテンツ音声化提供システムも、全体構成は、上述した図1で表すことができ、データネットワークNを介して接続される、登録部1、音声化部2、Webサーバ3、ユーザ端末4及びコンテンツ制作者端末5などを構成要素としている。
登録部1は、第1の実施形態のものと異なっており、第2の実施形態の登録部1は、図6に示すように、制御部11、アクセス部12及びプログラム記憶部13を有し、情報記憶部14が設けられていない。すなわち、コンテンツ制作者が設定した音声合成条件は、他の装置(Webサーバ3)に記憶されるようになされている。
このように、登録機能が、第1の実施形態と異なるため、登録部1だけでなく、音声化部2、Webサーバ3、ユーザ端末4及びコンテンツ制作者端末5の機能も、第1の実施形態とは異なっているが、その点については、以下の動作説明で明らかにする。
(B−2)第2の実施形態の動作
第2の実施形態のコンテンツ音声化提供システムにおける動作も、コンテンツの音声合成条件の登録動作及びコンテンツの音声化提供動作の順に説明する。
図7は、第2の実施形態でのコンテンツ制作者端末5上の表示画面の遷移を示しており、具体的には、コンテンツ制作者が、コンテンツ制作者端末5から登録部1にアクセスして開始された一連の処理でのコンテンツ制作者端末5上の画面遷移を示している。
コンテンツ制作者が、コンテンツ制作者端末5から登録部1にアクセスし、図7(C)に示す「登録確認画面」SUR23がコンテンツ制作者端末5に表示されるまでの、コンテンツ制作者端末5及び登録部1の動作は、第1の実施形態の場合と同様である。
第2の実施形態の場合、登録確認画面SUR23には「次へ」ボタンが含まれており、コンテンツ制作者が登録確認画面SUR23における「次へ」ボタンをクリックすると、登録部1の制御部11は、これまでに登録部1が取得したコンテンツ情報と音声合成条件(制御部11内のバッファメモリに格納されている)を用いて、プログラム記憶部13からプログラムを呼び出して実行し、コンテンツ制作者のWebページに追加記述すべき内容を形成する。登録部1は、この形成した内容を表示するためにコンテンツ制作者端末5にデータを送信し、コンテンツ制作者端末5に「リンク条件表示画面」SUR24を表示させる。Webページに追加記述すべき内容の形成は、例えば、予めテンプレートを用意しておき、入力された音声合成条件の設定値などを、そのテンプレートに挿入することにより行う。
コンテンツ制作者が、このリンク条件表示画面SUR24に表示された内容を、作成したWebページなどにリンク形式で記述することにより、コンテンツ制作者が意図した音声をユーザに提供することができるようになる。
すなわち、第2の実施形態の場合、コンテンツ制作者は、Webページの情報として音声合成条件を直接盛り込むことにより、コンテンツ制作者が意図した音声をユーザに提供することができる。
図8は、ユーザが、コンテンツを音声で提供を受ける場合の第2の実施形態のシステム全体での処理の流れを示している。
第1の実施形態では、ユーザ端末4が登録部1にリクエストを送り、ユーザ端末4がWebサーバ3には直接アクセスしなかったのに対し、第2の実施形態では、ユーザ端末4はWebサーバ3にアクセスし、登録部1には直接アクセスしない。また、第2の実施形態の場合、ユーザにコンテンツを音声で提供する段階では、登録部1は機能しない。第1の実施形態と第2の実施形態とでは、これらの部分が異なっている。
ユーザ端末4からWebサーバ3にアクセスし、Webサーバ3からユーザ端末4に、画面SUR25を表示するためのサイトデータ(Webページ)が送信されたとする(T21)。
画面SUR25を構成するためのサイトデータにおける各「聞く」ボタンにはそれぞれ、音声での提供が可能なコンテンツ情報や音声合成条件などの情報を含む記述SUB21で規定されているようなリンクが張られている。
ユーザが、いずれかの「聞く」ボタンをクリックことにより、その「聞く」ボタンに係るリンク先記述(記述SUB21参照)に従ったリクエストが、ユーザ端末4から音声化部2に送信される(T22)。
このリクエストを受信した音声化部2は、音声化に必要なデータ(例えばHTMLファイル)を、リクエスト内のコンテンツ場所情報が指定する場所から取得する(T23)。
音声化部2は、取得したデータに対し、リクエスト内の音声合成条件などを適用して作成した音声データを、ユーザ端末4に送信する(T24)。このデータを受信したユーザ端末では、音出力SND1のように音声が出力される。必要に応じて、画面SUR26のような画面を表示しても良い。
(B−3)第2の実施形態の効果
第2の実施形態によると、Webサーバ3に保存されているコンテンツに、登録部1が出力した記述を追加することにより、第1の実施形態の効果に加え、ユーザが新たなアクセス場所(例えば、登録部1)にアクセスすることなく、従来通りのWebサーバ3にアクセスするだけで、音声化されたコンテンツを聞くことができるという効果を奏することができる。
(C)第3の実施形態
次に、本発明によるコンテンツ音声化提供システムの第3の実施形態を図面を参照しながら詳述する。
(C−1)第3の実施形態の構成
第3の実施形態のコンテンツ音声化提供システムも、その全体構成は、既述した図1で表すことができ、データネットワークNを介して接続される、登録部1、音声化部2、Webサーバ3、ユーザ端末4及びコンテンツ制作者端末5などを構成要素としている。登録部1の内部構成も、第1の実施形態と同様に、図2で表すことができる。
但し、各部の機能は、既述した実施形態のものと異なっており、以下の動作説明で明らかにする。
なお、第3の実施形態の場合、登録部1が、音声で提供するコンテンツについては、Webサーバ3の機能をも担っているので、この点から言えば、図1でのWebサーバ3は省略することができる。
(C−2)第3の実施形態の動作
図9は、コンテンツを音声でユーザに提供するためのデータ送受信の手順例を示すものである。
コンテンツ制作者は、そのコンテンツ制作者端末5から、自己が制作した図10に示すようなコンテンツデータと、音声合成条件などを記載した図11に示すようなサイト識別情報とを、登録部1に送信する(T31)。登録部1は、受信したコンテンツデータとサイト識別情報を情報記憶部14に保存する。
ユーザが、ユーザ端末4から登録部1に登録してあるコンテンツにアクセス(例えば図11の「http://www.xxxx.co.jp」)すると(T32)、登録部1の制御部11は、プログラム記憶部13から必要なプログラムを呼び出し、ユーザからリクエストがあったコンテンツデータ(図10)とサイト識別情報(図11)とを、情報記憶部14から読み出す。制御部11は、サイト識別情報を参照し、コンテンツデータの適切な場所に、音声での提供を要求するためのデータ(リクエスト送信手段)121(図12参照)を付加し、このような付加後のデータをユーザ端末4に送信する(T33)。
これにより、ユーザ端末4には、図12に示すような、テキストデータ120と「聞く」ボタン(リクエスト送信手段)121とを含む画面が表示される。「聞く」ボタン121の情報には、第2の実施形態のときとほぼ同様に、テキストデータの送信先や音声合成条件(性別「男」、話速「6」、抑揚「4」、音質「4」、音量「3」)の情報も含まれている。
ユーザは、この「聞く」ボタン121をクリックことにより、少なくともテキストデータ120と音声合成条件とを含む音声化リクエストが音声化部2に送信される(T34)。ユーザ端末4からリクエストを受信した音声化部2は、リクエストに応じて音声化データを生成し、ユーザ端末4に送信する(T35)。これにより、ユーザ端末4から、所望するコンテンツの内容が音声出力される。
図12は、音声提供要求ボタンである「聞く」ボタンが1個のコンテンツに対応するものであったが、音声提供要求ボタンの操作を、複数の中から選択されたコンテンツに対応させるようにしても良い。図13は、この場合におけるユーザ端末4での表示画面例(第2の表示例)を示している。
図13に示す画面では、3個のニュースセクション131、132、133と、「チェック記事を聞く」ボタン(リクエスト送信手段)134が備えられている。各ニュースセクション131、132、133にはそれぞれ、チェックボックスが備えられており、ユーザが聞きたいと思うニュースセクションをチェック選択することができる。図13は、ユーザが、ニュースセクション131及び133を選択した状態を示している。この段階で、ユーザが、「チェック記事を聞く」ボタン(リクエスト送信手段)134をクリックすることにより、少なくとも、チェック選択されたニュースセクション131及び133の本文が記載されているページ(図14参照)のURLと音声合成条件とが音声化部2に送信される。従って、ニュースセクション131及び133が音声出力される。
また、ユーザ端末4に表示するコンテンツの表示画面形式としては、図12や図13に示すものに代え、図15に示すようなものでも良い。
図15に示す画面では、ニュースセクション131〜133と、「チェック記事を聞く」ボタン(リクエスト送信手段)134に加え、音声合成条件の再設定画面151も備えられている。音声合成条件の再設定画面151の初期状態は、コンテンツ制作者が設定した音声合成条件である。ユーザは、聞きたいと思うニュースセクションを選択できるだけでなく、音声合成条件の再設定画面151に対する操作を通じて音声合成条件も設定することができる。音声化部2に送信される音声合成条件は、「チェック記事を聞く」ボタン(リクエスト送信手段)134がクリックされた際における音声合成条件の再設定画面151に設定された内容である。
図15は、音声合成条件の再設定画面151として、ラジオボタン方式による選択方法のものを示したが、図16に示すようなプルダウン方式による選択方法のものにすることもできる。
なお、コンテンツの選択方法や音声合成条件設定方法の選定方法は、上述したものに限定されないことは勿論である。
(C−3)第3の実施形態の効果
第3の実施形態によれば、Webページなどのコンテンツデータに加え、ごく簡単なサイト識別情報を、登録部に登録することにより、コンテンツ制作者の意図した音声をユーザに提供することができる。また、サイト識別情報を変更することにより、コンテンツデータを変更することなしに、極めて容易に提供音声を変更することができる。
また、図15や図16のような表示画像を適用した場合には、音声化部で、リクエストに含まれている音声合成条件の統計などをとることにより、コンテンツ制作者が、ユーザがどのような音声合成条件で音声化データを聞いたのかを知ることができる。
さらに、この第3の実施形態によっても、音声化部で自動的に音声化データを生成するので、コンテンツ制作者は大量のデータを自ら音声化するという作業は不要である。
(D)他の実施形態
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
上記各実施形態における音声合成条件の設定処理に係る画面遷移図においては、便宜上、各処理工程で画面を分割して説明したが、言うまでもなく、全て1画面内に収める構成であっても良い。
また、上記各実施形態における、各構成要素間のデータの送信手順や送信内容、データの加工に関する役割分担などは、全て一例であり、上記実施形態のものに限定されるものではない。
本発明に関し、音声合成条件を設定し得る属性などは、任意に設定することができる。また、上記各実施形態で挙げた音声合成条件についても、その設定し得る選択肢を増減しても良い。例えば、性別に関し、「男性」、「女性」に加え、「ロボット(的音声)」を設けるようにしても良く、「20代男性」、「30代男性」、「40代男性」などの年令をも加味するようにしても良い。また例えば、音声の符号化速度(16KBPSや32KBPSなど)を条件設定できるようにしても良い。さらに例えば、音質などについてもエコーの有無などを設定し得るようにしても良い。
また、第3の実施形態で説明したような、コンテンツ制作者(コンテンツ提供者側)及びユーザ(コンテンツ被提供者側)の双方が音声合成条件を設定し得る場合において、コンテンツ制作者が設定し得る音声属性とユーザが設定し得る音声属性とを同じにしても良く、また、異なるようにしても良い。
さらに、上記実施形態においては、1又は複数のコンテンツに共通に音声合成条件を設定するものを示したが、1コンテンツについても、タイトル部分や要約部分やコンテンツ本体など、部分によって、異なる音声合成条件を設定できるようにしても良い。また、コンテンツ制作者が音声合成条件を設定し得るコンテンツ部分と、ユーザが音声合成条件を設定し得るコンテンツ部分とを区別(一部重複していても良い)するようにしても良い。
さらにまた、第3の実施形態の説明では、ユーザは、コンテンツの提供を受けるそのタイミングにおいて音声合成条件を設定し得るものを示したが、予め、音声合成条件を設定できるようにしても良い。例えば、ユーザがキーワードなどを登録して、メールマガジンの記事の中の該当する記事の提供を受ける場合において、キーワードなどの登録時に、音声合成条件を設定できるようにしても良い。
また、コンテンツの音声出力時の音声合成条件を設定し得る者は、コンテンツ制作者やユーザだけでなく、コンテンツ管理者(例えばプロバイダ)などであっても良い。
さらに、コンテンツ制作者やコンテンツ管理者が音声合成条件を設定する場合において、ユーザ端末が携帯端末であれば、低速の符号化速度、それ以外の端末であれば高速の符号化速度のような、ユーザ端末の種類との関係によって自動的に切り替わるような音声合成条件の設定を認めるようにしても良い。
さらにまた、上記第2及び第3の実施形態では、「聞く」ボタンがクリックされてからデータ(コンテンツや音声合成条件など)を音声化部に与えるものを示したが、「聞く」ボタンを設けず、ユーザ端末が直ちに他の装置から与えられたデータを音声化部に与えるようにしても良い。
また、第2の実施形態においても、第3の実施形態のように、音声合成条件を表示し、ユーザによる修正(再設定)を認めるようにしても良い。
上記各実施形態では、登録部がコンテンツ制作者であることを認証することなく、音声合成条件を取り込むものを示したが、コンテンツ制作者の認証を行った後に音声合成条件を取り込むようにしても良い。
なお、第1〜第3の実施形態の特徴は、組合せが可能なものは組み合わせて良いことは勿論である。
第1の実施形態のコンテンツ音声化提供システムの全体構成を示すブロック図である。 第1の実施形態の登録部の詳細構成を示すブロック図である。 第1の実施形態のコンテンツの音声合成条件の設定時のコンテンツ制作者端末上の表示画面の遷移を示す説明図である。 第1の実施形態におけるコンテンツを音声でユーザに提供する際のシステム全体での処理の第1例を示す説明図である。 第1の実施形態におけるコンテンツを音声でユーザに提供する際のシステム全体での処理の第2例を示す説明図である。 第2の実施形態の登録部の詳細構成を示すブロック図である。 第2の実施形態のコンテンツの音声合成条件の設定時のコンテンツ制作者端末上の表示画面の遷移を示す説明図である。 第2の実施形態におけるコンテンツを音声でユーザに提供する際のシステム全体での処理例を示す説明図である。 第3の実施形態におけるシステム全体でのデータの送受信例を示す説明図である。 第3の実施形態の説明で用いるコンテンツデータを示す説明図である。 第3の実施形態の説明で用いる音声合成条件を示す説明図である。 第3の実施形態のコンテンツの音声提供要求ボタンを含む第1の表示例を示す説明図である。 第3の実施形態のコンテンツの音声提供要求ボタンを含む第2の表示例を示す説明図である。 図13におけるニュースセッションの詳細例を示す説明図である。 第3の実施形態のコンテンツの音声提供要求ボタンを含む第3の表示例を示す説明図である。 第3の実施形態のコンテンツの音声提供要求ボタンを含む第4の表示例を示す説明図である。
符号の説明
1…登録部、2…音声化部、3…Webサーバ、4…ユーザ端末、5…コンテンツ制作者端末、11…制御部、12…アクセス部、13…プログラム記憶部、14…情報記憶部。

Claims (4)

  1. テキストデータを含むコンテンツを音声化データに変換して提供するコンテンツ音声化提供システムにおいて、
    音声化データに変換する任意の音声合成条件をコンテンツに対応付けて取り込む音声合成条件取り込み手段と、
    この音声合成条件取り込み手段が取り込んだ音声合成条件に従って、提供対象のコンテンツを音声化データに変換して、コンテンツの要求端末に送信する音声化手段とを有し、
    上記音声合成条件取り込み手段は、上記コンテンツを記憶しているコンテンツ記憶手段とは異なる装置に設けられ、
    上記音声合成条件取り込み手段は、取り込んだ音声合成条件を、上記コンテンツ記憶手段に記憶されている対応するコンテンツに盛り込む形式にし、そのコンテンツに盛り込むことを指示することを特徴とするコンテンツ音声化提供システム。
  2. 上記コンテンツの要求端末は、上記コンテンツ記憶手段から音声合成条件が盛り込まれたコンテンツを取り出して、上記音声化手段に与えて音声化データに変換させることを特徴とする請求項1に記載のコンテンツ音声化提供システム。
  3. 上記音声合成条件が盛り込まれたコンテンツは、音声化を求めるボタンアイコンのデータを含み、上記コンテンツの要求端末は、上記コンテンツ記憶手段から取り出したコンテンツの表示状態で、上記ボタンアイコンのクリックを検出したときに、音声合成条件が盛り込まれたコンテンツを上記音声化手段に与えることを特徴とする請求項2に記載のコンテンツ音声化提供システム。
  4. 上記コンテンツの要求端末は、上記コンテンツ記憶手段から複数のコンテンツを取り出し、クリックされた上記ボタンアイコンに係る、音声合成条件が盛り込まれたコンテンツを上記音声化手段に与えることを特徴とする請求項3に記載のコンテンツ音声化提供システム。
JP2007014996A 2007-01-25 2007-01-25 コンテンツ音声化提供システム Pending JP2007164210A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007014996A JP2007164210A (ja) 2007-01-25 2007-01-25 コンテンツ音声化提供システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007014996A JP2007164210A (ja) 2007-01-25 2007-01-25 コンテンツ音声化提供システム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002237251A Division JP2004077738A (ja) 2002-08-16 2002-08-16 コンテンツ音声化提供システム

Publications (1)

Publication Number Publication Date
JP2007164210A true JP2007164210A (ja) 2007-06-28

Family

ID=38247067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007014996A Pending JP2007164210A (ja) 2007-01-25 2007-01-25 コンテンツ音声化提供システム

Country Status (1)

Country Link
JP (1) JP2007164210A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009050809A1 (ja) * 2007-10-18 2009-04-23 Pioneer Corporation 音声出力装置、音声出力方法、音声出力プログラム及び記憶媒体
CN110134305A (zh) * 2019-04-02 2019-08-16 北京搜狗科技发展有限公司 一种语速调节方法、装置和用于语速调节的装置
JP2022534824A (ja) * 2019-09-18 2022-08-04 ヨプ リ,ジョン 多重音声システムが装着されたオンラインメディアサービス具現方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009050809A1 (ja) * 2007-10-18 2009-04-23 Pioneer Corporation 音声出力装置、音声出力方法、音声出力プログラム及び記憶媒体
JPWO2009050809A1 (ja) * 2007-10-18 2011-02-24 パイオニア株式会社 音声出力装置、音声出力方法、音声出力プログラム及び記憶媒体
CN110134305A (zh) * 2019-04-02 2019-08-16 北京搜狗科技发展有限公司 一种语速调节方法、装置和用于语速调节的装置
CN110134305B (zh) * 2019-04-02 2022-12-09 北京搜狗科技发展有限公司 一种语速调节方法、装置和用于语速调节的装置
JP2022534824A (ja) * 2019-09-18 2022-08-04 ヨプ リ,ジョン 多重音声システムが装着されたオンラインメディアサービス具現方法
JP7262142B2 (ja) 2019-09-18 2023-04-21 ヨプ リ,ジョン 複数の音声システムが装着されたオンラインメディアサービス具現方法

Similar Documents

Publication Publication Date Title
TWI249729B (en) Voice browser dialog enabler for a communication system
TW525393B (en) System and method for collaborative multi-device web browsing
US8717915B2 (en) Process-integrated tree view control for interactive voice response design
JP6971292B2 (ja) 段落と映像を整列させるための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラム
JP2004198872A (ja) 端末装置およびサーバ
JP2005506602A (ja) 文書に注釈をつける方法および装置
JP2008547128A (ja) セマンティックリッチオブジェクトによる動的なユーザエクスペリエンス
JP2005149484A (ja) 逐次的なマルチモーダル入力
US20150278234A1 (en) Inline web previews with dynamic aspect ratios
KR20190139966A (ko) 선택가능한 그래픽 엘리먼트를 통해 자동화된 에이전트로 대화를 초기화하기
US7216287B2 (en) Personal voice portal service
JP2011129009A (ja) 短文コミュニケーション方法
JP2010204834A (ja) アプリケーション実行方法、アプリケーション変更装置、及びアプリケーション変更プログラム
JP2007164210A (ja) コンテンツ音声化提供システム
JP2009009455A (ja) サービス連携支援装置
US9853853B2 (en) Facilitating sharing of setting data in binary format for electronic device
JP4885183B2 (ja) 動画投稿サイト連携システム、装置、および方法
JP2005284880A (ja) 音声認識サービスシステム
US20080104524A1 (en) System and Method for Facilitating Ip Telephony Applications
JP6166390B2 (ja) ソーシャルネットワークサーバ、画面表示方法およびプログラム
JP2004077738A (ja) コンテンツ音声化提供システム
JP2004234380A (ja) テーブル表示切替方法,テキストデータ変換プログラム及びタグプログラム
JP2000347971A (ja) 情報提供処理装置、情報提供処理方法、および情報提供処理プログラム格納媒体
JP2005010992A (ja) 合成音声によるウェブページの説明および広告の方法及びサーバ
JP2007087221A (ja) ショッピングモールシステム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090811

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091013

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100112