JP2012173403A

JP2012173403A - テキスト音声変換装置、テキスト音声変換プログラム及びテキスト音声変換方法

Info

Publication number: JP2012173403A
Application number: JP2011033344A
Authority: JP
Inventors: Hisashi Sugai; 寿須貝
Original assignee: SOLID ARTS Inc
Current assignee: SOLID ARTS Inc
Priority date: 2011-02-18
Filing date: 2011-02-18
Publication date: 2012-09-10

Abstract

【課題】コミュニケーションの感情を十分に表現でき、趣向的に富んだテキスト音声変換再生をすることができるテキスト音声変換装置を提供する。
【解決手段】再生される音声データの抑揚再生条件を設定する再生条件設定部５４と、与えられたテキストデータ３０を前記再生条件設定部５４によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換部５５とを備えるテキスト音声変換装置である。再生条件設定部５４は、互いに交差する第１及び第２方向に広がりを有する描画領域２２に描画された画像情報を前記第１方向に細分したセグメントの画像情報に基づいて音階を決定して線状オブジェクトに変換し、音声変換部５５は、前記線状オブジェクトに沿って割り付けられたテキストデータの文字に前記線状オブジェクトの第２の方向の位置に応じた抑揚再生条件を与える。
【選択図】図６

Description

本発明は、与えられたテキスト（文字）データを音声に変換し、読み上げのための抑揚をつけるテキスト音声変換装置、テキスト音声変換プログラム及びテキスト音声変換方法に関する。

従来、与えられたテキストデータを読み上げる場合に、音声の抑揚、速度を視覚的に表示できる装置が知られており、種々の装置に適用されている。例えば、特許文献１に開示されている音声情報表示装置は、テキストデータの文字の色やサイズを異ならせ、また、フォントを変形し、文字列中の文字の高さを異ならせて表示することによって、読み上げられる音声の強弱、強調、速度を認識できるようにした装置である。

また、特許文献２に開示されている携帯通信端末は、メール文を音声再生する際の音声再生条件を設定し、当該条件に応じた音声データを作成する装置である。そして、添付された音声データを受け取った通信相手は、音声再生条件にしたがった音声データを再生することで、テキストを読み上げた音声を聞くことができるというものである。ここで、音声再生条件は、文字列に沿って配置された変換ポイントを結ぶポイントラインのライン形状を変更することで、音声の高低を決定し、音種メニューバーから特定の音種を選択する（特許文献２の図５参照）。具体的には、男声、女声など予め決められた音種を選択して再生する音種を決定し、ポイントライン中の変換ポイントの上下位置により音の高低、左右位置によりテンポ、再生のタイミングなどを調整して再生条件を設定する。

特許文献１，２に示すように従来のテキスト音声読み上げ装置において再生音の抑揚（高低、アクセント、速度など）を表示、設定する場合には、読み上げられるテキストの文字列に沿って一方向に伸びる線形的なグラフ状のオブジェクトを用い、当該線形的オブジェクトの位置、大きさなどにより、読み上げ音の抑揚を表示、設定する手法が採用されていた。

そして、当該装置の利用者は、与えられた文字列を任意の抑揚で再生させたい場合、文字列中の文字に対応したオブジェクトを調整して再生条件を設定し、自己の趣向に沿った抑揚の文字列再生を行なっていた。

特開平８−１７９７８９号公報特開２００５−４３７７号公報

しかし、昨今のコンピュータ及びネットの普及に伴い、当該文字列読み上げ装置もコミュニケーションツール、エンターテイメントツールとして使用されることが多くなってきた。例えば、特許文献２に開示された携帯通信端末はメールの文字データを音声データに変換して送信するコミュニケーションツールとして用いられるものである。また、コンピュータを用いて作詞作曲することも一般的に用いられており、自己が作曲した曲をコンピュータ中のキャラクターに歌わせたりするアプリケーションソフトも広く用いられている。

ここで、従来の線形的なオブジェクトを用いた再生音の抑揚設定手法では、コミュニケーションとしての感情が十分ではなく、また、エンターテイメント的にも、無味乾燥で面白味に欠けるものであった。

したがって、本発明が解決しようとする技術的課題は、コミュニケーションの感情を豊かに表現でき、趣向的に富んだテキスト音声変換再生をすることができるテキスト音声変換装置、テキスト音声変換プログラム及びテキスト音声変換方法を提供することである。

本発明は、上記技術的課題を解決するために、以下の構成のテキスト音声変換装置を提供する。

本発明の第１態様によれば、再生される音声データの抑揚再生条件を設定する再生条件設定部と、与えられたテキストデータを前記再生条件設定部によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換部とを備えるテキスト音声変換装置であって、
前記再生条件設定部は、互いに交差する第１及び第２方向に広がりを有する描画領域に描画された画像情報を前記第１方向に細分してセグメントを作成し、個々のセグメントの画像情報に基づいて音階を決定して、前記画像情報を第１の方向に伸びる線形的な線状オブジェクトに変換し、
前記音声変換部は、前記線状オブジェクトの第１の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第２の方向の位置に応じた抑揚再生条件を与えることを特徴とする、テキスト音声変換装置を提供する。

本発明の第２態様によれば、前記再生条件設定部は、
前記描画領域に描画された画像情報の被写体輪郭から線分画像情報を作成する線図作成部と、
各セグメントに含まれる線分の座標位置の平均値を取るなど、線分の座標位置に基づいて、演算座標位置を演算する座標演算部と、
前記座標演算部により算出された、各セグメントにそれぞれ対応する演算座標位置を包含して線状オブジェクトを作成するオブジェクト作成部とを備えることを特徴とする、テキスト音声変換装置を提供する。

本発明の第３態様によれば、前記再生条件設定部は、
各セグメントに含まれる画像情報の色情報に基づいて第２方向軸の座標位置を決定して、前記画像情報を第１の方向に伸びる線形的な線状オブジェクトに変換することを特徴とする、テキスト音声変換装置を提供する。各セグメントに含まれる画像情報の色情報は、例えば、各セグメントにもっとも多く存在する色情報を採用するようにしてもよい。

本発明の第４態様によれば、前記音声変換部は、
前記抑揚再生条件を決定に際し、画像情報の色情報に基づいて、予め定められたスケールデータから任意のスケールデータを選択することを特徴とする、テキスト音声変換装置を提供する。スケールデータは、各セグメントに区分してセグメントに割り当てられたテキストデータを再生する場合のスケールデータを選択するようにしてもよい。また、スケールデータの選択は各セグメントに含まれる画像情報の色情報の比率により決定すればよく、例えば、各セグメントにもっとも多く存在する色情報に基づいて決定したり、色情報の種類の数に応じて決定したりすることができる。

本発明の第５態様によれば、前記音声変換部は、
前記抑揚再生条件を決定に際し、前記セグメントに存在する色情報に基づいて、当該セグメントに割り当てられたテキストデータを再生する場合の音量を決定することを特徴とするテキスト音声変換装置を提供する。なお、音量の決定は、各セグメントに含まれる画像情報の色情報の比率により決定すればよく、例えば、各セグメントにもっとも多く存在する色情報の比率に基づいて決定したり、色情報の種類の数に応じて決定することができる。

本発明の第６態様によれば、コンピュータに読み込まれて、前記コンピュータを、再生される音声データの抑揚再生条件を設定する再生条件設定手段と、与えられたテキストデータを前記再生条件設定手段によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換手段とを備えるテキスト音声変換装置として機能させるプログラムであって、
前記再生条件設定手段は、互いに交差する第１及び第２方向に広がりを有する描画領域に描画された画像情報を前記第１方向に細分してセグメントを作成し、個々のセグメントの画像情報に基づいて音階を決定して、前記画像情報を第１の方向に伸びる線形的な線状オブジェクトに変換する機能を備え、
前記音声変換手段は、前記線状オブジェクトの第１の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第２の方向の位置に応じた抑揚再生条件を与える機能を備えることを特徴とするプログラムを提供する。

本発明の第７態様によれば、再生される音声データの抑揚再生条件を設定する再生条件設定手段と、与えられたテキストデータを前記再生条件設定手段によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換手段とを備えるテキスト音声変換装置により実施されるテキスト音声変換方法であって、
前記再生条件設定手段は、互いに交差する第１及び第２方向に広がりを有する描画領域に描画された画像情報を前記第１方向に細分してセグメントを作成し、個々のセグメントの画像情報に基づいて音階を決定して、前記画像情報を第１の方向に伸びる線形的な線状オブジェクトに変換し、
前記音声変換手段は、前記線状オブジェクトの第１の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第２の方向の位置に応じた抑揚再生条件を与えることを特徴とするテキスト音声変換方法を提供する。

本発明によれば、２軸方向に広がりを有する画像情報を前記第１方向に細分したセグメントを用いて線状オブジェクトに変換し、一方向に沿って認識されるテキストオブジェクトの文字列に画像情報を割り付けて、その結果を音階などの抑揚条件の基準とすることができる。従って、例えば、利用者が描画領域に描画したイラストに基づいて線状オブジェクトを作成し、テキストデータの抑揚再生条件を決定することができる。すなわち、本発明によれば、利用者は、例えば自分が描画領域に描いた手書きのイラストや写真データなどを用いた場合、どのような再生条件で再生されるのかについての趣向を持つことができ、イラストによりどのような音声でテキストデータが音声変換されるかを楽しむことができる。よって、本発明によれば、エンターテイメントツールとして優れたテキスト音声変換再生を実現することができる。また、これらのデータを他者に送信することなどで、コミュニケーションの感情を十分に表現でき、趣向的に富むものとすることができる。

本発明の第２態様によれば、画像情報の被写体輪郭に基づいて線分画像を作成し、当該線分画像の各セグメント含まれる線分の座標位置に基づいて線状オブジェクトを作成することができるので、描画領域に表示される画像情報が写真などの線分情報を持たないものであっても再生条件の決定をすることができる。

本発明の第３態様によれば、画像情報を構成する色の情報、例えば、セグメントに含まれる色情報の割合によって第２方向軸の座標位置を決定することで、音階を決定することができる。よって、画像の色調によって音の変化を楽しむことができる。

本発明の第４態様によれば、画像情報を構成する色の情報によって予め定められたスケールデータから任意のスケールデータを選択することにより、再生される音声の感じを異ならせることができる。例えば、明るい色が多い場合はメジャースケールを、暗い色が多い場合はマイナースケールを選択することにより、画像の雰囲気に応じた音声の再生条件を設定することができる。

本発明の第５態様によれば、セグメントに存在する色情報に基づいて、当該セグメントに割り当てられたテキストデータを再生する場合の音量を決定することで、画像の色情報に応じて音量を設定することができ、画像を音声に変換することの趣向性を高めることができる。

本発明の実施形態にかかるテキスト音声変換装置を用いた通信システムのシステム構成を示す図である。本実施形態にかかる電子掲示板システムにおいて用いられる利用者端末の構成を示す図である。本実施形態にかかる電子掲示板システムの動作の流れを示すチャートである。利用者端末に表示されるデータ入力画面の表示例である。本発明の本実施形態にかかる電子掲示板システムに用いられるサーバ装置が行なうテキスト音声変換処理のフローチャートである。本発明の電子掲示板システムに用いられる第１実施形態のサーバ装置の機能ブロックの構成を示す図である。オブジェクト作成部が行なうＹ軸演算の処理について説明する図である。図４の入力画面に描画されたイラストデータの筆跡（ａ）及び当該イラストデータから変換される線状オブジェクト（ｂ）を示す図である。文字列割当部が行なう文字割付の処理について説明する図である。音階変動データのパターンの一例である。本発明の電子掲示板システムに用いられる第２実施形態のサーバ装置の機能ブロックの構成を示す図である。

以下、本発明の一実施形態に係るテキスト音声変換装置を用いた通信システムについて、図面を参照しながら説明する。

図１は、本発明の実施形態にかかるテキスト音声変換装置を用いた通信システムのシステム構成を示す図である。通信システム１は、インターネットＮＴを用いて構成されるネットワークシステムであり、サーバ装置２と利用者端末３とがネットワークＮＴで接続された構成である。なお、図１では、２台の利用者端末３を接続した構成を示しているが、その設置台数は特に限定されるものではない。

サーバ装置２は、汎用あるいは専用のコンピュータで構成されており、後述するように、利用者端末３からのメッセージ及び音声再生条件を受信して、これを音声データに変換するためのテキスト音声変換装置として機能する。また、後述するように本通信システムの使用形態によっては、ウェブサーバ、電子メールサーバなどの機能を併せ持っていてもよい。

利用者端末３は、利用者が操作する、ネットワークに接続することができる汎用コンピュータ、携帯端末などであり、ｗｅｂブラウザ機能を有することが好ましい。後述するように、利用者は利用者端末３を用いてテキスト入力及びイラスト入力を行ない、当該入力したテキストデータがサーバ装置で音声変換された音声情報を受信する。

なお、利用者端末の使用態様としては、自己の利用者端末に入力したテキストデータ、イラストデータに基づいて変換された音声データを自己の利用者端末で再生するようにしてもよいし、電子メール機能や電子掲示板のように、自己の利用者端末で入力したテキストデータ、イラストデータに基づいて変換された音声データを、特定又は不特定の他人の利用者端末へ送り、他人の利用者端末で再生するようにしてもよい。本通信システム１の態様は、サーバ装置２及び利用者端末３の構成により決定されるものであるが、本発明の特徴部分であるサーバ装置２のテキスト音声変換機能については、いずれの態様においても共通する。

以下、本実施形態にかかる通信システムとして、電子掲示板システムを例にとって説明する。電子掲示板システムとは、投稿者である利用者の利用者端末３からサーバ装置２に送信されたテキストデータを掲示し、当該掲示されたテキストデータが不特定多数の閲覧者である利用者の利用者端末３により参照され、閲覧者が興味を持ったテキストデータを特定することでサーバ装置２によって、投稿時に変換された音声データを閲覧者の利用者端末３に送信し閲覧者の利用者端末３が再生されるシステムである。

図２は、本実施形態にかかる電子掲示板システムにおいて用いられる利用者端末の構成を示す図である。図３は、本実施形態にかかる電子掲示板システムの動作の流れを示すチャートである。

図２に示す利用者端末は、汎用コンピュータ又は携帯電話端末などが用いられ、制御演算部１０、通信部１１，記憶装置１２，入力部１３，表示部１４，スピーカ１５を備える。図３に示すように、利用者端末３は、投稿者端末３ａ及び閲覧者端末３ｂとして双方の役割を有する。

制御演算部１０は、ＣＰＵなどからなり、記憶装置に格納されるアプリケーションプログラム１２ａを展開し、当該アプリケーションプログラム１２ａとの協働により、利用者端末３の各部の動作を統括的に制御する。

通信部１１は、有線又は無線の手段によりインターネットＮＴを介して行なわれる利用者端末３外部との通信を司る。

入力部１３は、テキスト入力及びイラスト入力を含む各種情報入力を行なうものであり、文字入力を行なうためのものとしてキーボード、イラスト入力を行なうものとしてタッチパネル、タブレットなどが例示される。また、ＧＵＩ（グラフィカルユーザーインターフェース）による操作を行なうためにマウスなどのポインティングデバイスなども備えている。

表示部１４は、投稿データを入力するための入力画面及びサーバ装置２から送られる掲示画面を表示するためのモニタ装置である。

スピーカ１５は、サーバ装置２から送られる音声データの再生に用いられる。

本実施形態にかかる電子掲示板システムは、上述のように、利用者端末３（投稿者端末３ａ）から投稿されたテキストデータを掲示して、他の利用者端末３（閲覧者端末３ｂ）から閲覧可能とし、さらに、投稿者端末３ａによって入力されたイラストデータに基づいて抑揚再生条件が決定された読み上げ用の音声データを利用者端末３（利用者端末３ａ及び閲覧者端末３ｂ）で再生するシステムである。

図３に示すように、本実施形態にかかる電子掲示板システムの処理の流れは、次の通りである。まず、利用者端末（投稿者端末）３ａがサーバ装置２にログイン（＃１０）すると、サーバ装置２が投稿者端末３ａに入力画面を送信する（＃２０）。

次いで、投稿者端末３ａがテキスト及びイラストのデータ入力を行なう（＃１１）。この際、サーバ装置２との通信を行ない、現在の音声データがどのように再生されるかを確認できるように構成されていてもよい。音声データの確認に際し、サーバ装置２は、テキスト音声変換のデータ変換を行なう（＃２１）。

投稿者は、テキストデータ及びイラストデータの入力が終了すると、利用者端末３ａからデータをサーバ装置２に投稿する（＃１２）。サーバ装置２は、テキストデータの文章を読み上げる音声データに変換する（＃２２）。音声データの変換においては、投稿されたデータのうちイラストデータなどを用いて抑揚再生条件を決定し、音声再生時の音声データの音の高低、抑揚、アクセントなどに反映される。サーバ装置２が行なうデータ変換処理についての詳細は後述する。

サーバ装置２は、投稿されたデータのうち、テキストデータのみを掲示する（＃２３）。

閲覧者端末３ｂは、ログイン（＃３０）後、投稿者端末３ａから投稿されたテキストデータを自由に閲覧することができる（＃３１）。投稿者は、音声データを再生したいテキストデータについて特定（＃３２）すると、この情報がサーバ装置２に送信され、この情報を受信したサーバ装置２が、テキストデータの文章を読み上げる音声データを閲覧者端末３ｂに送信する（＃２４）。閲覧者端末３ｂは、受信した音声データを再生する（＃３３）。

次に、具体的な処理について詳細に説明する。図４は、データ入力（＃１１）時に利用者端末に表示されるデータ入力画面の表示例である。入力画面２０には、テキスト入力欄２１、イラスト入力欄２２が表示されている。また、試聴ボタン２３、投稿ボタン２４、音質調整欄２５、変声ボタン２７、ペン選択欄２８、写真選択ボタン２９なども表示されている。

テキスト入力欄２１は、入力部１３の一例であるキーボードなどを利用して、利用者が決定した任意のテキストデータを入力するための欄である。テキスト入力欄２１に入力されたテキストデータ３０は、音声再生時の読み上げデータとして利用される。

イラスト入力欄２２は、入力部１３の一例であるマウス、タッチパネル、タブレットなどを利用して、利用者が任意のイラストを描画・表示するための領域であり、Ｘ軸、Ｙ軸方向にそれぞれ広がりを有する描画領域である。イラストは利用者が任意に決定することができ、テキスト入力欄に入力したテキストデータとはまったく無関係のものであってもよい。イラストとしては、線分により描画されるイラスト及び写真画像であることが好ましい。入力デバイスの種類によっては筆圧なども検出してイラストの線分の太さを変えるなどさせてもよい。また、後述する写真選択ボタン２９により選択された写真を表示することができ、さらにその上にイラストを追加で描画することもできる。イラスト入力欄２２に描画されたイラストデータ３１は、サーバ装置に送信されて抑揚再生条件の設定に利用され、音声再生時の音声データの音の高低、抑揚、アクセントなどに反映される。このテキスト音声変換に関してサーバ装置２が行なう処理についての詳細は後述する。

試聴ボタン２３は、現在入力されているテキストデータ及びイラストデータその他の条件によってどのような音声データが作成されるかを確認するためのボタンであり、押下すると、音声データが再生される。

投稿ボタン２４は、投稿者端末から入力されたテキストデータ及びイラストデータを決定したあと、下記の諸条件の設定条件を含めてサーバ装置２に送信してするためのボタンであり、押下することで入力データ及び種々の設定条件がサーバ装置に送信される。データを受信したサーバ装置２は、電子掲示板に掲示する処理及びテキスト音声変換の処理を行なう。

音質調整欄２５は、中央にあるマーク２６を移動させることで、再生時の音声のイメージを調整するための欄である。本実施形態では、元気かクールか、及び暖かいか寒い音声かなど感情、感覚的な表現を用いて音質を調整する。音質の調整は、２軸座標中のマーク２６の位置情報がサーバ装置２に送信され、サーバ装置２が音質調整欄２５のマーク２６の位置情報に基づいて再生時の音質を決定する。この処理については後述する。

変声ボタン２７は、再生する音声を選択するためのボタンであり、具体的には、男声、女声、などの音声を選択することができる。選択可能な音声は予めサーバ装置２に記憶されており、利用者端末３において選択された結果に基づいてサーバ装置が選択する。

ペン選択欄２８は、イラスト入力欄２２に描画する場合のペンの種類を選択するための欄である。ペンの種類としては、色、線の太さなどが挙げられる。描画に用いられたペンの種類の情報は、予めサーバ装置２に記憶されており、利用者端末３において選択された結果がサーバに送信され、サーバ装置２におけるテキスト音声変換処理において変換される音声データの音質などの調整に用いられる。

写真選択ボタン２９は、イラスト入力欄２２に入力される画像として写真などを選択することができる。選択される背景画像としては、投稿者端末３ａあるいは投稿者端末３ａが読み書き可能な外部記憶装置に格納されたものを用いることができる。選択された画像は、イラスト入力欄２２の画像サイズにサイズ変更され、例えば背景画像としてイラスト入力欄２２に表示される。投稿者は、当該背景画像の上に手書きのイラストを追加して描画することができる。投稿ボタン２４を押すことにより、イラスト入力欄２２に表示されている背景画像及び追加で手書きしたイラストがサーバ装置２送信される。

次に、サーバ装置２が行なうテキスト音声変換処理について説明する。サーバ装置２は、電子掲示板の管理サーバとしての機能に加えて、利用者端末３（投稿者端末３ａ）から受信したデータに基づいて抑揚再生条件を決定し、テキスト入力欄２１に入力されたテキストデータを抑揚再生条件に基づいて音声変換する機能を有するテキスト音声変換装置としての機能を有する。

図５は、本発明の本実施形態にかかる電子掲示板システムに用いられるサーバ装置が行なうテキスト音声変換処理のフローチャートである。サーバ装置２が行なうテキスト音声変換処理は、図３の＃２２に包含される。

本実施形態にかかるサーバ装置２は、投稿者端末３ａからイラスト入力欄２２に入力されたイラストや背景画像、音質などの設定条件及びテキスト入力欄２１に入力されたテキストデータを含む各種データを受信（＃１０１）する。その後、受信したデータのうち、イラストや背景画像を線状オブジェクトに変換し（＃１０２）、当該線状オブジェクトに沿ってテキストデータの文字列を割り付ける（＃１０３）。

次いで、音質調整欄２５のマーク２６の位置に関する情報及びイラストの線分を描画したペンの情報に基づいて音質を、また、変声ボタン２７により選択された音声に設定・調整する（＃１０４）。その後、線状オブジェクトの曲線の位置に応じて対応する文字での音階を決定する（＃１０５）。

（第１実施形態）
次に、サーバ装置が行なうテキスト音声変換処理を詳細に説明する。図６は、本発明の電子掲示板システムに用いられる第１実施形態のサーバ装置の機能ブロックの構成を示す図である。図６に示すサーバ装置２は、制御演算部５０、送受信部５１、記憶装置５２、掲示板管理部５３を備えている。

制御演算部５０は、ＣＰＵなどからなり、記憶装置５２に格納されるプログラム５６を展開し、当該プログラム５６との協働により、サーバ装置２の各部の動作を統括的に制御することによって、サーバ装置におけるテキスト音声変換処理を実行する。

送受信部５１は、インターネットＮＴを介して行なわれる利用者端末３との通信を司る。具体的には、投稿者端末３ａからの各種データの送受信及び閲覧者端末３ｂからの掲示板閲覧及び音声データ送信を主として行なう。

記憶装置５２には、プログラム５６の他に各種データなどが記憶される。記憶装置５２に記憶されるデータとしては、音声種別データ５７，スケールデータ５８，音階変動データ５９などが存在する。これらの各種データについては後述する。

掲示板管理部５３は、電子掲示板としての機能を統括して行なう。具体的には、データの投稿、投稿されたテキストデータの閲覧及び特定された音声データの送信などの管理を司る。

制御演算部５０には、再生される音声データの抑揚再生条件を決定する処理を行なう再生条件設定部５４と、決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換部５５とが設けられている。

再生条件設定部５４が行なう抑揚再生条件を決定は、上記のように、利用者端末３のイラスト入力欄２２に描画されたイラストデータをサーバ装置２が受信し、線形的な線状オブジェクトに変換（＃１０２）する処理工程を有し、この処理を司る画像分割部６０、線図作成部６１、座標演算部６２及びオブジェクト作成部６３が設けられている。

画像分割部６０は、イラスト入力欄２２に描画されたイラストデータをＸ軸方向に細分してＸ軸方向に微少な幅のセグメントに区分する。セグメントのＸ軸方向の幅は特に限定されるものではないが、１ピクセルごとでもよいし、イラストデータのＸ方向軸を所定数(例えば１０個)に区分する場合に相当するピクセル数でもよい。これらのセグメントの幅はすべて一定であってもよいし、セグメントごとに異なっていてもよい。なお、セグメントの分割は、実際に１つの画像を複数の画像情報に分割する必要はなく、後述する画像処理を進める範囲内において仮想的に行なうことで足りる。

線図作成部６１は、イラスト入力欄２２に描画された写真などのイラストデータから線図を作成する処理を行なう。イラストデータから線図への画像変換は、イラストデータの色情報などを基準として被写体の輪郭を取ることで線図に置き換える処理により実行可能である。なお、他の公知の技術を用いることもできる。イラスト入力欄２２の背景画像として写真が選択され、その上に手書きで線分によるイラストが描画された場合は、これらの画像を一体として線図変換してもよいし、写真の背景画像のみを線図変換してもよい。

座標演算部６２は、線図作成部６１によって分割された各セグメントに存在する線分のＹ軸の座標位置に基づいて、１つのセグメントに対して１つのＹ軸座標を演算する。図７は、座標演算部６２が行なうＹ軸演算の処理について説明する図である。セグメント内に線図に変換されたイラストデータの線分が１つだけ存在する場合は、当該線分の位置がＹ軸座標として特定される。一方、図７に示すように、線図に変換されたイラストデータの任意のセグメント（Ｘａ）に、イラストを構成する線分（Ｙａ〜Ｙｅ）が複数存在する場合は、当該セグメント（Ｘａ）内の線分座標位置に基づいて線状オブジェクトを構成するＹ軸座標位置を演算する。

座標演算部６２が行なうＹ軸の演算座標位置の演算は、自由に決定することができる。一例としては、それぞれのＹ軸座標（Ｙａ〜Ｙｅ）の座標位置の平均値を演算し、当該位置を演算座標位置とすることができる。また、他の例としては、それぞれのＹ軸座標（Ｙａ〜Ｙｅ）の座標位置の任意の一点を、ランダムに選択して演算座標位置としてもよいし、それぞれのＹ軸座標（Ｙａ〜Ｙｅ）の座標値を合算することにより演算座標位置を求めてもよい。

オブジェクト作成部６３は、座標演算部６２によって演算されたそれぞれのセグメントにおけるＹ軸の演算座標を包含する線状オブジェクトを作成する処理を行なう。演算座標間の線状オブジェクトは、線状オブジェクトの曲線がスムーズになるように補完などの変更処理を行なってもよい。

図８は、図４の入力画面に描画されたイラストデータから作成された線状オブジェクトの例を示す図である。線状オブジェクトは、Ｘ軸方向に連続しＹ軸方向に変位があるデータであり、図８に示すように必ずしもグラフ状である必要はなく、Ｘ軸座標に対するＹ軸座標の位置を対応させたテーブルデータであってもよい。

音声変換部５５が行なう決定された抑揚再生条件を具備する読み上げ用の音声データの変換は、文字列割当部６４，抑揚決定部６５，音質・音声調整部６６が司る。

文字列割当部６４は、作成された線状オブジェクトの形状に沿って、文字列を割り当てる。図９を用いて説明すると、テキスト入力欄２１に入力されたテキストデータの文字を文字列が均等になるように線状オブジェクトに割り付けて配置し、それぞれの文字の発音時の抑揚（音の高低）を決定する。具体的には、文字情報の線状オブジェクトへの割り付けは、線状オブジェクトのＸ軸方向距離Ｌｘ（図８参照）を、テキストデータから発音される発音数で等分してそれぞれの音に対応するＸ軸座標を当てはめる作業により行なわれる。

抑揚の決定は抑揚決定部６５が処理を司り、記憶装置に格納されている音階変動データ５９を参照して行なう。抑揚の決定に用いられる音階変動データは、一つの文字に対して抑揚の変化をパターン化したデータである。本実施形態においては、線形オブジェクトの形状が複雑になりやすいため、文字ごとに割り当てられた線状オブジェクトの抑揚をパターン別に類型化する処理を採用する。

図１０は、音階変動データ５９のパターンの一例である。本実施形態では、音階変動データは、（ａ）から（ｅ）までの５つのパターンが設定されている。（ａ）（ｂ）は、始まりの音階に対して音階が上がるパターンであって、音階変動のタイミングが前及び後になっている場合である。（ｃ）（ｄ）は、始まりの音階に対して音階が下がるパターンであって、音階変動のタイミングが前及び後になっている場合である。（ｅ）は、文字の発生途中に音階が変動しないパターンである。なお、これらの音階変動データは、音の再生時の抑揚を決定するものであって、具体的な音階（何度変動するか）などについては、特に定められているものではない。

パターンの選択は、文字ごとに割り当てられた線状オブジェクトの当該文字での始点、中間点、終点のＹ軸座標位置を参照して行なうことができる。例えば、始点より終点の方がＹ座標として大きい場合は、始まりの音に対して音階が上がる（ａ）（ｂ）のパターンを選択する。また、３つの座標値の差分が閾値より小さい場合は、文字の発生途中に音階が変動しない（ｅ）のパターンを選択する。

また、抑揚決定部６５は、スケールデータの選択を行なう。スケールデータは、Ｙ軸の座標に沿って割り当てられる音階のデータであり、全音階、半音階などの伝統的な音階の他、地域特有の民族音楽に特有の音階（例えば沖縄民謡などに用いられる琉球音階）など各種スケールが含まれている。また、各種スケールデータには、メジャーコード及びマイナーコードが含まれている。

抑揚決定部６５によって行なわれるスケールデータの選択は、イラスト入力欄２２に描画されたイラストデータ及び音質調整欄２５におけるマーク２６の位置の双方の情報に基づいて行なわれる。一例として、音質調整欄２５におけるマーク２６の位置により音階を選択し、イラスト入力欄２２に描画されたイラストデータに基づいてメジャーコード、マイナーコードを選択するようにすることができる。

抑揚決定部６５が行なうスケールデータの選択は、イラスト入力欄に描画されたイラストデータの色情報に基づいて行なわれる。例えば、イラストデータに含まれる色情報として明るい色が多い場合はメジャースケールを選択し、暗い色が多い場合はマイナースケールを選択する。

一般に、画像データの色情報は、ＲＧＢの三原色の色の強さを要素としそれぞれの三原色要素の加法混色により決定されるＲＧＢ表色系と、色相、彩度、明度の三つの要素成分からなる色空間で表現されるＨＳＶ表色系のいずれかで表される。スケールデータを選択する色情報の要素としては、単に明度の違いだけではなく、彩度（色の鮮やかさ）、色相も例示することができ、例えば、イラストデータが、彩度や明度の高い色が多く用いられている場合はメジャースケールを選択し、彩度や明度の低い色が多く用いられている場合はマイナースケールを用いるなどの処理を行なうことができる。

なお、抑揚決定部６５が行なうスケールデータの選択は、イラスト入力欄に描画されたイラストデータ全体の色情報に基づいて１つのみが選択されてもよいし、画像分割部６０により作成されたセグメントごとに色情報を判断して、セグメントごとのスケールデータを選択してもよい。

抑揚決定部６５は、音階変動データ５９のパターンの選択及びスケールデータ５８の選択が終了すると、それぞれの文字に割り当てられた抑揚について、両者を参照して、始まりの音の高さ及び変動時の音の高さを決定する。変動時の音の高さは、当該文字に割り当てられた線状オブジェクトの形状によって決定される。なお、セグメントごとにスケールデータが選択された場合は、そのセグメントに割り当てられた文字についての音階の決定に当該選択されたスケールデータを用いる。

音質・音声調整部６６は、抑揚決定部６５によって決定された抑揚を用いて音声再生する場合の音質及び音声を調整する。音質及び音声の調整は、音質調整欄２５のマーク２６の位置及び変声ボタン２７によって音声種別データ５７の中から選択された音声種別及び線分の色などの情報により決定される。

また、音質・音声調整部６６は、各セグメントに含まれるイラストデータの色情報の割合に応じて、当該セグメントに対応する音声の再生時音量を変化させることができる。音量は、例えば、予め３段階程度に設定されており、各セグメントに含まれる色情報の割合に応じてどの音量で再生するかを決定する。

音量の決定は、各セグメントに含まれる色情報の種類の多さによって決定してもよい。たとえば、セグメント内の色情報が、多くなるほど大きい音声で再生するなどのように決定することができる。なお、色情報は減色することによって、近似する色を呈する色情報を同色として取り扱ってもよい。

また、別の例としては、ある特定の色情報に着目し、当該色がセグメント内に占める割合に応じて音量を決定してもよい。例えば、ＨＳＶ表色系における赤色の色相に着目し、セグメント内がすべて赤色色相である場合は最大音量で、赤色色相が５０％のときは半分程度の音量で再生するなどのようにしてもよい。

上記の通り、制御演算部５０の各機能ブロックによって変換された音声データは、掲示板管理部により記憶され、テキストデータの閲覧及び特定のテキストデータの選択による音声再生命令を受信することにより閲覧者端末３ｂに送信され再生される。

本実施形態にかかる電子掲示板システムによれば、テキストデータだけではなく、イラストの雰囲気に応じてテキストの読み上げの抑揚などが変化するため、より趣向的なコミュニケーションをはかることができる。

（第２実施形態）
次に第２実施形態にかかるサーバ装置２について説明する。第２実施形態にかかるサーバ装置２は、利用者端末３のイラスト入力欄２２に描画されたイラストデータに基づいて線状オブジェクトを作成する処理が異なる点で第１実施形態にかかるサーバ装置と異なる。

図１１は、本発明の電子掲示板システムに用いられる第２実施形態のサーバ装置の機能ブロックの構成を示す図である。図１１に示すサーバ装置２は、制御演算部５０、送受信部５１、記憶装置５２、掲示板管理部５３を備えている。図１１に示すサーバ装置は、第１実施形態にかかるサーバ装置と機能的に共通する部分を有するため共通部分については説明を省略し、異なる部分について主に説明する。

再生条件設定部５４が行なう抑揚再生条件の決定は、上記のように、利用者端末３のイラスト入力欄２２に描画されたイラストデータをサーバ装置２が受信し、線形的な線状オブジェクトに変換（＃１０２）することにより行なわれる。この処理を司る画像分割部６０、色情報分析部６７、音階決定部６８及びオブジェクト作成部６３が設けられている。

画像分割部６０は、イラスト入力欄２２に描画されたイラストデータをＸ軸方向に細分してＸ軸方向に微少な幅のセグメントとして識別する。セグメントのＸ軸方向の幅は特に限定されるものではないが、１ピクセルごとに行なうことが好ましいが、イラストデータのＸ方向軸を所定数(例えば１０個)に区分してもよい。なお、セグメントの分割は、実際に１つの画像を複数の画像情報に分割する必要はなく、上述する画像処理を進める範囲内において仮想的に行なうことで足りる。

色情報分析部６７は、画像分割部６０によって分割されたセグメントに含まれるピクセルの色情報を分析する。本実施形態では、各セグメントを構成するピクセルの色情報は、後述する音階決定に用いられる。分析時には色情報の減色処理を行なって近似する色を同色として扱ってもよい。

音階決定部６８は、色情報分析部６７により分析された各セグメントの色情報に基づいて、各セグメントに割り当てられた音階を決定する。ここで音階の決定には、色情報と音階との関連が定義された音階変換テーブル６９を用いる。音階変換テーブルは、色情報を音階に変換するためのものであり、例えば、ＲＧＢ表色系で示した場合（２５５，０，０）の色はラ（周波数４４０Ｈｚ）などに変換するなどの変換情報が格納されている。

色情報をどの音階に変換するかについては、特に決められたものではなく、色情報の割合、色情報の種類数などに応じて、適宜決定することができる。また、変換される音階については、絶対的な音の高さを示すものでなくてもよく、ある任意の基準音に対して何度の音の相違があるかについて決定するなど、相対的な音階を決定するようにしてもよい。

オブジェクト作成部６３は、音階決定部６８によって各セグメントに割り当られた音階にもとづいてＸ軸方向に連続しＹ軸方向に変位がある線状オブジェクトを作成する。線状オブジェクトは、Ｘ軸方向に連続しＹ軸方向に変位があるデータであり、図８に示すように必ずしもグラフ状である必要はなく、Ｘ軸座標に対するＹ軸座標の位置を対応させたテーブルデータであってもよい。

以上の処理により作成された線状オブジェクトに基づいて、音声変換部５５が読み上げ用の音声データの変換を行なう。この処理は、第１実施形態と同様であるため、説明を省略する。

以上、本実施形態によれば、写真などの画像データに基づいてテキストデータの読み上げ時の抑揚などを決定することができる。また、抑揚の決定は、画像の種類により独自のものとなるため、より趣向的なコミュニケーションをはかることができる。

以上説明したように、２軸方向に広がりを有するイラスト入力欄２２の表されたイラストを線状オブジェクトに変換する際に、Ｘ軸方向に細分したセグメントの画像情報によって線状オブジェクトを作成することにより、画像の雰囲気に応じた抑揚を与えることができる。

従って、利用者は、例えば自分が描画領域に描いたイラストや写真データなどを用いた場合、どのような再生条件で再生されるのかについての趣向を持つことができ、イラストによりどのような音声でテキストデータが音声変換されるかを楽しむことができる。よって、本発明によれば、エンターテイメントツールとして優れたテキスト音声変換再生を実現することができる。また、これらのデータを他者に送信することなどで、コミュニケーションの感情を十分に表現でき、趣向的に富むものとすることができる。

なお、本発明は上記実施形態に限定されるものではなく、その他種々の態様で実施可能である。例えば、本実施形態では、電子掲示板システムを構成するサーバ装置の一機能として、テキスト音声変換処理を有する構成としたが、例えば、電子メールサーバに同様の機能を持たせることもできる。また、ネットワークに接続しないスタンドアロン形の装置として同様の機能を持たしてもよい。

また、音階決定の処理工程は、従来広く行なわれている方法を適用することができ、例えば、文字当たりの音階変動を決定する処理に、音階変動データのパターン当てはめを用いることなく、線状オブジェクトの曲線の変化をそのまま音階に用いることができる。この場合、一音ごとの音階の変化が大きくなり、ビブラートをかけたような豊かな再生音を表現することができる。

１通信システム（電子掲示板システム）
２サーバ装置
３利用者端末
３ａ投稿者端末
３ｂ閲覧者端末
１０制御演算部
１１通信部
１２記憶装置
１３入力部
１４表示部
１５スピーカ
２０入力画面
２１テキスト入力欄
２２イラスト入力欄
２３試聴ボタン
２４投稿ボタン
２５音質調整欄
２６マーク
２７変声ボタン
２８ペン選択欄
２９写真選択ボタン
３０テキストデータ
３１イラストデータ
５０制御演算部
５１送受信部
５２記憶装置
５３掲示板管理部
５４再生条件設定部
５５音声変換部
５６プログラム
５７音声種別データ
５８スケールデータ
５９音階変動データ
６０画像分割部
６１線図作成部
６２座標演算部
６３オブジェクト作成部
６４文字列割当部
６５抑揚決定部
６６音質・音声調整部
６７色情報分析部
６８音階決定部
６９音階変換テーブル

Claims

再生される音声データの抑揚再生条件を設定する再生条件設定部と、与えられたテキストデータを前記再生条件設定部によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換部とを備えるテキスト音声変換装置であって、
前記再生条件設定部は、互いに交差する第１及び第２方向に広がりを有する描画領域に描画された画像情報を前記第１方向に細分してセグメントを作成し、個々のセグメントの画像情報に基づいて音階を決定して、前記画像情報を第１の方向に伸びる線形的な線状オブジェクトに変換し、
前記音声変換部は、前記線状オブジェクトの第１の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第２の方向の位置に応じた抑揚再生条件を与えることを特徴とする、テキスト音声変換装置。
前記再生条件設定部は、
前記描画領域に描画された画像情報の被写体輪郭から線分画像情報を作成する線図作成部と、
各セグメントに含まれる線分の座標位置に基づいて、演算座標位置を演算する座標演算部と、
前記座標演算部により算出された、各セグメントにそれぞれ対応する演算座標位置を包含して線状オブジェクトを作成するオブジェクト作成部とを備えることを特徴とする、請求項１に記載のテキスト音声変換装置。
前記座標演算部は、前記セグメントに２以上の線分の座標位置が存在する場合は、各座標位置の平均値を演算座標位置とすることを特徴とする、請求項２に記載のテキスト音声変換装置。
前記再生条件設定部は、
各セグメントに含まれる画像情報の色情報に基づいて第２方向軸の座標位置を決定して、前記画像情報を第１の方向に伸びる線形的な線状オブジェクトに変換することを特徴とする、請求項１に記載のテキスト音声変換装置。
前記再生条件設定部は、
各セグメントに含まれる画像情報の色情報の割合に基づいて音階の高さを決定することを特徴とする、請求項４に記載のテキスト音声変換装置。
前記音声変換部は、
前記抑揚再生条件の決定に際し、画像情報の色情報に基づいて、予め定められたスケールデータから任意のスケールデータを選択することを特徴とする、請求項１から５のいずれか１つに記載のテキスト音声変換装置。
前記音声変換部は、前記セグメントに存在する色情報に基づいて、当該セグメントに割り当てられたテキストデータを再生する場合のスケールデータを選択することを特徴とする請求項６に記載のテキスト音声変換装置。
前記音声変換部は、画像情報の色情報の比率に応じて、前記スケールデータを選択することを特徴とする、請求項６又は７に記載のテキスト音声変換装置。
前記音声変換部は、
前記抑揚再生条件を決定に際し、前記セグメントに存在する色情報に基づいて、当該セグメントに割り当てられたテキストデータを再生する場合の音量を決定することを特徴とする請求項１から８のいずれか１つに記載のテキスト音声変換装置。
前記音声変換部は、前記セグメントに存在する色情報の比率に応じて音量を決定することを特徴とする請求項９に記載のテキスト音声変換装置。
前記音声変換部は、前記セグメントに存在する色情報の種類の数に応じて音量を決定することを特徴とする請求項９に記載のテキスト音声変換装置。
コンピュータに読み込まれて、前記コンピュータを、再生される音声データの抑揚再生条件を設定する再生条件設定手段と、与えられたテキストデータを前記再生条件設定手段によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換手段とを備えるテキスト音声変換装置として機能させるプログラムであって、
前記再生条件設定手段は、互いに交差する第１及び第２方向に広がりを有する描画領域に描画された画像情報を前記第１方向に細分してセグメントを作成し、個々のセグメントの画像情報に基づいて音階を決定して、前記画像情報を第１の方向に伸びる線形的な線状オブジェクトに変換する機能を備え、
前記音声変換手段は、前記線状オブジェクトの第１の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第２の方向の位置に応じた抑揚再生条件を与える機能を備えることを特徴とするプログラム。
前記再生条件設定手段は、
前記描画領域に描画された画像情報の被写体輪郭から線分画像情報を作成する線分作成手段と、
各セグメントに含まれる線分の座標位置に基づいて、演算座標位置を演算する座標演算手段と、
前記座標演算手段により算出された、各セグメントにそれぞれ対応する演算座標位置を包含して線状オブジェクトを作成するオブジェクト作成手段と、を備えることを特徴とする、請求項１２に記載のプログラム。
前記再生条件設定手段は、
各セグメントに含まれる画像情報の色情報に基づいて音階の高さを決定する音階決定手段と、
前記音階決定手段により決定された、各セグメントにそれぞれ対応する演算座標位置を包含して線状オブジェクトを作成するオブジェクト作成手段と、を備えることを特徴とする、請求項１２に記載のプログラム。
再生される音声データの抑揚再生条件を設定する再生条件設定手段と、与えられたテキストデータを前記再生条件設定手段によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換手段とを備えるテキスト音声変換装置により実施されるテキスト音声変換方法であって、
前記再生条件設定手段は、互いに交差する第１及び第２方向に広がりを有する描画領域に描画された画像情報を前記第１方向に細分してセグメントを作成し、個々のセグメントの画像情報に基づいて音階を決定して、前記画像情報を第１の方向に伸びる線形的な線状オブジェクトに変換し、
前記音声変換手段は、前記線状オブジェクトの第１の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第２の方向の位置に応じた抑揚再生条件を与えることを特徴とするテキスト音声変換方法。