JP2015053603A

JP2015053603A - コミュニケーションシステム、コミュニケーション方法及びコンピュータプログラム

Info

Publication number: JP2015053603A
Application number: JP2013185339A
Authority: JP
Inventors: 晃平川又; Kohei Kawamata; 隆浩市川; Takahiro Ichikawa; 雅之綾野; Masayuki Ayano; 勇人米澤; Isato Yonezawa; 健三谷; Takeshi Mitani; 昌平中野渡; Shohei Nakanowatari; 覚史岩崎; Satoshi Iwasaki; 将輔小林; Shosuke Kobayashi
Original assignee: Nippon Telegraph and Telephone Corp; Namco Bandai Games Inc; Nippon Telegraph and Telephone West Corp; Nippon Telegraph and Telephone East Corp
Current assignee: Nippon Telegraph and Telephone Corp; Nippon Telegraph and Telephone West Corp; Nippon Telegraph and Telephone East Corp; Bandai Namco Entertainment Inc
Priority date: 2013-09-06
Filing date: 2013-09-06
Publication date: 2015-03-19
Anticipated expiration: 2033-09-06
Also published as: JP6196850B2

Abstract

【課題】単なる文章だけのやり取りだけでなく、音声データを画像に合成することで新しい形のコミュニケーションを可能にする。【解決手段】ユーザの音声を変換したメッセージに応じて画像を選択する画像選択部１０７と、画像選択部により選択された選択画像に予め付与された領域情報と文字情報に基づいて、メッセージの色、文字数、文字の大きさのうち少なくとも何れか１つの情報を用いてメッセージの内容を選択画像に合成する合成部１０８と、を備えるコミュニケーションシステム。【選択図】図２

Description

本発明は、コミュニケーション技術に関する。

従来、電話以外のコミュニケーションツールとして、メールやチャットなどのメッセージングが利用されている（例えば、特許文献１参照）。各ユーザは、ユーザ間でメッセージをやり取りすることによって、情報交換を行うことができる。

特開２００８−１１３１４２号公報

しかしながら、メールやチャットなどのように文章だけのメッセージのやり取りでは、電話で話している時よりも自分の考えが会話相手に伝わりにくい場合がある。さらに、単なる文章だけのやり取りでは、面白みに欠けてしまい、メールやチャットなどの利用頻度が低下してしまうおそれもある。そのため、ユーザ間でのコミュニケーションにおいて新しい形のコミュニケーション技術が要求されている。
上記事情に鑑み、本発明は、新しい形のコミュニケーションを可能にする技術の提供を目的としている。

本発明の一態様は、ユーザの音声を変換したメッセージに応じて画像を選択する画像選択部と、前記画像選択部により選択された選択画像に予め付与された領域情報に基づいて、前記メッセージの内容を前記選択画像に合成する合成部と、を備えるコミュニケーションシステムである。

本発明の一態様は、上記のコミュニケーションシステムであって、前記画像には、前記画像の特徴を表す語句がタグ情報として付与されており、前記画像選択部は、前記メッセージに含まれている語句ごとに、前記語句から特定される画像を抽出し、抽出された画像の中から前記メッセージに応じた画像を選択する。

本発明の一態様は、上記のコミュニケーションシステムであって、前記合成部は、前記メッセージの音声データを前記選択画像にさらに合成する。

本発明の一態様は、上記のコミュニケーションシステムであって、前記合成部は、前記選択画像に付与された文字情報に基づいて、メッセージの色、文字数、文字の大きさのうち少なくとも何れか１つの情報を用いて前記メッセージの内容を前記選択画像に合成する。

本発明の一態様は、上記のコミュニケーションシステムであって、前記合成部は、前記メッセージの文字数が所定の文字数を超える場合、前記メッセージの冒頭から所定の文字数分の文字を抽出し、抽出した前記文字数分の文字と、前記メッセージの続きを示す記号等を含む所定の文字を、前記選択画像に合成する。

本発明の一態様は、コミュニケーションシステムを構成するコンピュータを制御するコミュニケーション方法において、ユーザの音声を変換したメッセージに応じて画像を選択する画像選択ステップと、前記画像選択ステップにより選択された選択画像に予め付与された領域情報に基づいて、前記メッセージの内容を前記選択画像に合成する合成ステップと、を有するコミュニケーション方法である。

本発明の一態様は、ユーザの音声を変換したメッセージに応じて画像を選択する画像選択ステップと、前記画像選択ステップにより選択された選択画像に予め付与された領域情報に基づいて、前記メッセージの内容を前記選択画像に合成する合成ステップと、をコンピュータに実行させるためのコンピュータプログラムである。

本発明により、新しい形のコミュニケーションが可能となる。

本発明におけるコミュニケーションシステムのシステム構成を示す図である。送信者端末１０及び受信者端末４０の機能構成を表す概略ブロック図である。送信者端末１０の表示部１０９に表示される表示例を表した図である。執筆中パターン画像６８の具体例を示す図である。マンガ音声ファイル生成処理の概略図である。本実施形態における送信者端末１０のマンガ音声ファイル生成処理の流れを示すフローチャートである。本実施形態におけるコミュニケーションシステムの動作の流れを示すシーケンス図である。本実施形態におけるコミュニケーションシステムの動作の流れを示すシーケンス図である。本実施形態におけるコミュニケーションシステムの動作の流れを示すシーケンス図である。

以下、本発明の一実施形態を、図面を参照しながら説明する。
図１は、本発明におけるコミュニケーションシステムのシステム構成を示す図である。本発明のコミュニケーションシステムは、音声認識サーバ２０及びＩＤ通信サーバ３０を備える。コミュニケーションシステムには、ネットワーク５０を介して端末装置１０及び端末装置４０が通信可能に接続されている。なお、以下の説明では、端末装置１０を送信者端末１０と称し、端末装置４０を受信者端末４０と称する。

送信者端末１０は、例えばパーソナルコンピュータ、タブレット装置、スマートフォン、ノートパソコン、ワークステーション、ゲーム機器、テレビ電話装置等の情報処理装置を用いて構成される。送信者端末１０は、ユーザの発話内容を音声データに変換し、変換した音声データを音声認識サーバ２０に送信する。送信者端末１０は、音声認識サーバ２０から音声認識結果（例えば、テキストデータ）を受信する。なお、以下の説明では、音声認識結果の具体例として、テキストデータを用いた例について説明する。音声認識サーバ２０から受信されたテキストデータには、例えば発話内容の「全文ひらがなの文字列」、発話内容が「かな漢字変換」された文字列、発話内容が「形態素解析」された単語の区切り情報等が含まれる。また、送信者端末１０は、ＩＤ通信サーバ３０を介して受信者端末４０との間で、音声通話やメッセージングなどの処理を実行する。メッセージングとは、ユーザ間でテキストデータをやり取りして文字による会話を可能にするサービスである。

音声認識サーバ２０は、情報処理装置を用いて構成される。音声認識サーバ２０は、送信者端末１０から送信された音声データの音声認識を行うことによって、音声データをテキストデータに変換する。
ＩＤ通信サーバ３０は、ＨＴＴＰ（HyperText Transfer Protocol）サーバ３１及びＳＩＰ（Session Initiation Protocol）サーバ３２を備える。ＨＴＴＰサーバ３１は、情報処理装置を用いて構成される。ＨＴＴＰサーバ３１は、送信者端末１０から送信されたデータを蓄積（ストア）する。また、ＨＴＴＰサーバ３１は、蓄積しているデータを受信者端末４０からの要求に応じて受信者端末４０に送信する。ＳＩＰサーバ３２は、ＳＩＰを利用して送信者端末１０と受信者端末４０との間で通信を接続する。

受信者端末４０は、例えばパーソナルコンピュータ、タブレット装置、スマートフォン、ノートパソコン、ワークステーション、ゲーム機器、テレビ電話装置等の情報処理装置を用いて構成される。受信者端末４０は、送信者端末１０から送信されたデータをＨＴＴＰサーバ３１に要求し、ＨＴＴＰサーバ３１からデータを受信する。また、受信者端末４０は、ＩＤ通信サーバ３０を介して送信者端末１０との間で音声通話やメッセージングなどの処理を実行する。
ネットワーク５０は、どのように構成されたネットワークでもよい。例えば、ネットワーク５０はインターネットを用いて構成されてもよい。

図２は、送信者端末１０及び受信者端末４０の機能構成を表す概略ブロック図である。まず、送信者端末１０について説明する。送信者端末１０は、バスで接続されたＣＰＵ（Central Processing Unit）やメモリや補助記憶装置などを備え、マンガ音声ファイル生成プログラムを実行する。マンガ音声ファイル生成プログラムの実行によって、送信者端末１０は、操作入力部１０１、音声入力部１０２、信号処理部１０３、制御部１０４、通信部１０５、マンガデータ記憶部１０６、画像選択部１０７、合成部１０８、表示部１０９、音声出力部１１０を備える装置として機能する。なお、送信者端末１０の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。また、マンガ音声ファイル生成プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、マンガ音声ファイル生成プログラムは、電気通信回線を介して送受信されてもよい。

操作入力部１０１は、例えばタッチパネル、ボタン、キーボード、ポインティングデバイス等の入力装置を用いて構成される。操作入力部１０１は、ユーザによる操作を受け付ける。操作入力部１０１は、例えばユーザからマンガのカテゴリの選択を受け付ける。マンガのカテゴリは、例えばマンガの作家を表してもよいし、マンガのジャンル（系統のこと。例えば、ホラー系、恋愛系）を表してもよいし、他の情報を表してもよい。

音声入力部１０２は、マイク等の音声入力装置である。音声入力部１０２は、ユーザの発話内容を送信者端末１０に入力する。具体的には、音声入力部１０２は、ユーザが発話することによって生じた音波を受け、音波に応じたアナログ信号を生成する。音声入力部１０２は、生成したアナログ信号を信号処理部１０３に出力する。

信号処理部１０３は、音声入力部１０２によって生成されたアナログ信号を、音声認識に必要なデジタル信号の音声データに変換する。
制御部１０４は、送信者端末１０の各機能部を制御する。
通信部１０５は、ネットワーク５０を介して音声認識サーバ２０及びＩＤ通信サーバ３０との間で通信を行う。また、通信部１０５は、ネットワーク５０及びＳＩＰサーバ３２を介して受信者端末４０との間で通信を行う。通信部１０５は、例えば信号処理部１０３によって生成されたデジタル信号の音声データを、ネットワーク５０を介して音声認識サーバ２０に送信する。通信部１０５は、例えばネットワーク５０を介して音声認識サーバ２０からテキストデータを受信する。

マンガデータ記憶部１０６は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。マンガデータ記憶部１０６は、各マンガのカテゴリにおけるコマごとのマンガデータを、マンガデータの特徴を表すタグ情報に対応付けて記憶している。マンガデータとは、吹き出し部分を含む画像のデータである。マンガデータに対応付けられているタグ情報には、２種類のタグ情報がある。２種類のタグ情報は、ステータスタグ情報及び確定タグ情報である。ステータスタグ情報は、マンガデータごとに、マンガデータの特徴を表す単語（語句）を複数含む。確定タグ情報は、マンガデータごとに、マンガデータの特徴を表す単語として特に重要な単語（以下、「重要単語」という。）を含む。なお、確定タグ情報は、必ずしも全てのマンガデータに対応付けて記憶されている必要はない。すなわち、マンガデータ記憶部１０６には、確定タグ情報が対応付けられていないマンガデータが存在してもよい。

画像選択部１０７は、マンガデータ記憶部１０６に記憶されているタグ情報と、受信されたテキストデータとに基づいて候補マンガデータを選択する。候補マンガデータは、送信者端末１０のユーザが発話した内容に合ったマンガデータである。ユーザが発話した内容に合ったマンガデータとは、テキストデータに含まれている単語と一致する単語（以下、「共通単語」という。）を含むタグ情報が対応付けられているマンガデータである。例えば、画像選択部１０７は、共通単語のうち、重要単語を含む確定タグ情報が対応付けられているマンガデータを優先的に候補マンガデータとして選択する。

合成部１０８は、画像選択部１０７によって選択された候補マンガデータと、テキストデータと、音声データとを用いてマンガ音声ファイルを生成する。合成部１０８は、例えば候補マンガデータに対してテキストデータを埋め込むことによってマンガ画像を生成する。そして、合成部１０８は、生成したマンガ画像に音声データを付加することによってマンガ音声ファイルを生成する。
表示部１０９は、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ等の画像表示装置である。表示部１０９は、合成部１０８によって生成されたマンガ音声ファイルのマンガ画像を表示する。

音声出力部１１０は、スピーカーやヘッドホンやイヤホン等の音声出力装置である。音声出力部１１０は、音声出力装置を送信者端末１０に接続するためのインタフェースであってもよい。この場合、音声出力部１１０は、音声データを音声出力するための音声信号を生成し、自身に接続されている音声出力装置に音声信号を出力する。音声出力部１１０は、合成部１０８によって生成されたマンガ音声ファイルの音声データを出力する。

次に、受信者端末４０について説明する。受信者端末４０は、バスで接続されたＣＰＵやメモリや補助記憶装置などを備え、表示プログラムを実行する。表示プログラムの実行によって、受信者端末４０は、通信部４０１、制御部４０２、操作入力部４０３、表示部４０４、音声出力部４０５を備える装置として機能する。なお、受信者端末４０の各機能の全て又は一部は、ＡＳＩＣやＰＬＤやＦＰＧＡ等のハードウェアを用いて実現されてもよい。また、表示プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、表示プログラムは、電気通信回線を介して送受信されてもよい。

通信部４０１は、ネットワーク５０を介してＩＤ通信サーバ３０との間で通信を行う。また、通信部４０１は、ネットワーク５０及びＳＩＰサーバ３２を介して送信者端末１０との間で通信を行う。通信部４０１は、例えば送信者端末１０から送信されたマンガ音声ファイルを識別するためのファイルＩＤを受信する。通信部４０１は、例えば受信したファイルＩＤをＨＴＴＰサーバ３１に送信し、ファイルＩＤで識別されるマンガ音声ファイルを、ＨＴＴＰサーバ３１から受信する。
制御部４０２は、受信者端末４０の各機能部を制御する。

操作入力部４０３は、例えばタッチパネル、ボタン、キーボード、ポインティングデバイス等の入力装置を用いて構成される。操作入力部４０３は、ユーザによる操作を受け付ける。操作入力部４０３は、例えば通信部４０１によって受信されたマンガ音声ファイルを再生する指示をユーザから受け付ける。
表示部４０４は、ＣＲＴディスプレイ、液晶ディスプレイ、有機ＥＬディスプレイ等の画像表示装置である。表示部４０４は、通信部４０１によって受信されたマンガ音声ファイルを表示する。

音声出力部４０５は、スピーカーやヘッドホンやイヤホン等の音声出力装置である。音声出力部４０５は、音声出力装置を受信者端末４０に接続するためのインタフェースであってもよい。この場合、音声出力部４０５は、音声データを音声出力するための音声信号を生成し、自身に接続されている音声出力装置に音声信号を出力する。音声出力部４０５は、通信部４０１によって受信されたマンガ音声ファイルの音声データを出力する。

図３は、送信者端末１０の表示部１０９に表示される表示例を表した図である。図３（Ａ）は、送信者端末１０のユーザから指示を受け付ける受付画面を表す図である。受付画面には、連絡先情報領域６０、複数のサムネイル画像６１−ａ〜６１−ｃ、特定領域６２−ａ〜６２−ｃ、複数の選択ボタン６３−ａ〜６１−ｃ、日付表示領域６４が表示されている。
連絡先情報領域６０は、会話相手のユーザの名前や連絡先などが表示される領域である。図３（Ａ）に示される例では、連絡先情報領域６０には会話相手のユーザの名前として“ＡＡＡＡＡ”が表示されている。

サムネイル画像６１−ａは、マンガ音声ファイルの送受信プレビュー画面に遷移するための画像である。ユーザによってサムネイル画像６１−ａが押下されると、受付画面からマンガ音声ファイルの送受信プレビュー画面（不図示）に切り替わる。
サムネイル画像６１−ｂは、フリートークの発着信履歴の画面である。フリートークとは、ユーザ間において音声を用いた無料通話を可能にする機能（例えば音声チャット機能）である。
サムネイル画像６１−ｃは、クイックコメントの送受信プレビュー画面に遷移するための画像である。クイックコメントは、予め決められた文字列が画像の吹き出し部分に埋め込まれている画像である。ユーザによってサムネイル画像６１−ｃが押下されると、受付画面からクイックコメントの送受信プレビュー画面（不図示）に切り替わる。

サムネイル画像６１−ａの左右どちらか一方には、特定領域６２−ａが表示される。特定領域６２−ａは、サムネイル画像６１−ａで示されるマンガ音声ファイルを送信した人物を表す。例えば、サムネイル画像６１−ａの左側に位置する特定領域６２−ａは、サムネイル画像６１−ａで示されるマンガ音声ファイルを送信した人物が受信者端末４０のユーザ（会話相手）であることを表す。なお、特定領域６２−ａには、サムネイル画像６１−ａで示されるマンガ音声ファイルが送信された時刻が表示される。
サムネイル画像６１−ｂの左右どちらか一方には、特定領域６２−ｂが表示される。特定領域６２−ｂは、フリートークを開始した人物を表す。例えば、サムネイル画像６１−ｂの左側に位置する特定領域６２−ｂは、フリートークを開始した人物が受信者端末４０のユーザ（会話相手）であることを表す。なお、特定領域６２−ｂには、フリートークが開始された時刻が表示される。
サムネイル画像６１−ｃの左右どちらか一方には、特定領域６２−ｃが表示される。特定領域６２−ｃは、サムネイル画像６１−ｃで示されるクイックコメントを送信した人物を表す。例えば、サムネイル画像６１−ｃの右側に位置する特定領域６２−ｃは、サムネイル画像６１−ｃで示されるクイックコメントを送信した人物が送信者端末１０のユーザであることを表す。なお、特定領域６２−ｃには、サムネイル画像６１−ｃで示されるクイックコメントが受信された時刻が表示される。

受付画面に表示されるサムネイル画像（例えば、サムネイル画像６１−ａ〜６１−ｃ）は、時系列順に表示される。
なお、受付画面に表示されるサムネイル画像（例えば、サムネイル画像６１−ａ〜６１−ｃ）のレイアウトは、図３（Ａ）のレイアウトとは異なるように表示されてもよい。例えば、送信者端末１０のユーザが行った動作（例えば、マンガ音声ファイルの送信、フリートークの開始、クイックコメントの送信）に関するサムネイル画像を受付画面の右側に表示し、受信者端末４０のユーザ（会話相手）が行った動作に関するサムネイル画像を受付画面の左側に表示するように構成されてもよい。

選択ボタン６３−ａは、ユーザが定型ファイルの送信や、送信したい写真の撮影や、画像の送信などを行うために使用するオプションボタンである。選択ボタン６３−ｂは、ユーザがマンガのジャンル（カテゴリの一種）を選択するために使用するジャンル選択ボタンである。選択ボタン６３−ｂには、図３に示すようにマンガのジャンルを識別するための画像が表示される。選択ボタン６３−ｃは、ユーザが連絡先情報領域６０に表示されている人物とフリートークを行うために使用するフリートークボタンである。なお、受付画面に表示される各選択ボタン６３は、図３（Ａ）に表示されている配置とは異なる配置で表示されてもよい。

日付表示領域６４は、マンガ音声ファイル又はクイックコメントの送受信、ユーザ間でフリートークが行われた日付が表示される領域である。ユーザによって表示部１０９の画面が上下にスライドされると、表示部１０９に表示される日付も変更される。例えば、ユーザが表示部１０９の画面を上にスライドさせると、受付画面にはスライドさせる前より新しい日付及びその新しい日付に送受信されたファイルやフリートークの履歴に関するサムネイル画像が表示される。すなわち、ユーザが表示部１０９の画面を上にスライドさせ続けると、最終的に最新の日付及びその最新の日付に送受信されたファイルやフリートークの履歴に関するサムネイル画像が表示される。
ユーザによって選択ボタン６３−ｂに表示されている複数の画像の中から１つの画像が押下されると、表示部１０９の表示画面が図３（Ａ）の受付画面から図３（Ｂ）の画面に切り替わる。

図３（Ｂ）は、会話相手に対するメッセージを音声入力させる音声入力画面を表す図である。音声入力画面には、連絡先情報領域６０、画像６６、録音時間を示すタイムバー６７が表示されている。ユーザは、音声入力画面に表示されている画像６６を見ることによって、録音中であることを認識することができる。ユーザは、録音時間（例えば、５秒）の間、会話相手に対するメッセージを音声入力することができる。なお、録音中であることを示す画像６６は、図３（Ｂ）に示される画像６６以外の態様で表示されてもよい。例えば、音声入力画面には、画像６６に代えて録音中であることを示す記号が表示されてもよいし、ユーザが録音中であることを認識できるような態様であればその他の態様で表示されてもよい。また、録音時間は、タイムバー６７以外の表示によって表されてもよい。例えば、録音時間は、数字で表されてもよいし、ユーザが録音時間を認識できるような表示態様であればどのような表示態様で表されてもよい。ユーザによって画像６６が押下されると、又は、録音時間が経過すると、表示部１０９の表示画面が図３（Ｂ）の音声入力画面から図３（Ｃ）の画面に切り替わる。

図３（Ｃ）は、候補マンガデータの選択中であることを示す執筆中画面を表す図である。図３（Ｃ）に示すように、執筆中画面は、音声入力画面に執筆中パターン画像６８を重畳して表示される。執筆中パターン画像６８とは、現在どのような処理が行われているのかを示す画像である。送信者端末１０の処理状況に応じて複数の執筆中パターン画像６８が表示される。執筆中パターン画像６８に関する説明は後述する。画面上に執筆中画面が表示されている間、以下の処理が実行される。音声認識サーバ２０は、音声入力期間中に入力されたメッセージの音声認識を行い、音声認識後に音声認識結果に基づきテキストデータの生成を行う。その後、音声認識サーバ２０は、生成したテキストデータを送信者端末１０に送信する。送信者端末１０の画像選択部１０７は、音声認識サーバ２０から受信されたテキストデータに基づいて候補マンガデータを抽出する。次に、画像選択部１０７は、抽出した候補マンガデータ以外の選択対象として、ユーザに選択されたジャンルに応じた所定数のマンガデータを抽出する。また、抽出された候補マンガデータ及び選択対象のマンガデータの吹き出しに、生成されたテキストデータが合成されると、表示部１０９の表示画面が図３（Ｃ）の執筆中画面から図３（Ｄ）の画面に切り替わる。

図３（Ｄ）は、送信するマンガ音声ファイルの確認画面を表す図である。図３（Ｄ）に示される確認画面には、連絡先情報領域６０、候補マンガデータに対応する候補マンガ画像６９−ａ、選択ジャンルに基づき抽出された選択対象となるマンガデータに対応するマンガ画像６９−ｂ及び６９−ｃ、送信ボタン７０、キャンセルボタン７１、音声状況確認記号７２、タイムバー７３が表示される。
候補マンガ画像６９−ａの吹き出しには、ユーザの発話内容の冒頭から所定数の文字（例えば、１０文字から２０文字）が表示される。なお、吹き出しに表示される発話内容の文字数は、マンガデータごとに異なってもよいし、同じであってもよい。文字数がマンガデータごとに異なる場合には、例えばマンガデータ記憶部１０６が各マンガデータに合成される文字数を対応付けて記憶する。

なお、図３（Ｂ）の音声入力画面でユーザが発話した音声が音声認識サーバ２０において認識されなかった場合、候補マンガ画像６９−ａの吹き出しには“□□△△”などの予め決められた記号又はランダムに生成された文字列が表示される。
また、マンガデータ記憶部１０６には、マンガデータ毎に、領域情報及び文字情報が記憶されている。領域情報とは、吹き出し内のテキストデータが表示又は合成される領域に関する情報であり、例えば文字枠の左上座標（ｘ，ｙ）、文字枠の幅や高さ（ｗ，ｈ）などの情報を含む。文字情報とは、吹き出し内に表示又は合成されるテキストデータの文字に関する情報であり、例えばテキストカラー（例えば、黒、白、青等）、文字枠内の１行あたりの文字数、文字の大きさ（ピクセル）などの情報を含む。

ユーザが、確認画面に表示されている候補マンガ画像６９−ａを左右どちらか一方向にスライドさせると、確認画面に表示される候補マンガ画像６９−ａが切り替わる。具体的には、確認画面に表示されている候補マンガ画像６９−ａが、候補マンガ画像６９−ａと同じジャンルの別のマンガ画像（図３に示す例では、マンガ画像６９−ｂ又はマンガ画像６９−ｃ）に切り替わる。この場合、切り替え後のマンガ画像の吹き出しに表示される発話内容は、切り替え後のマンガ画像のマンガデータに予め定められた領域情報、文字情報に基づいて決定される。なお、テキストデータ生成後にマンガ画像と文字を表示するまでに至る処理は、端末またはＯＳ（Operating System）によって異なる。例えば、マンガ画像（マンガデータ）と文字（テキストデータ）とを合成して、これらとは別に新たに画像を予め生成してから表示する場合と、マンガ画像（マンガデータ）と文字（テキストデータ）とをリアルタイムに重畳し生成して表示する場合がある。予め画像を生成する場合、合成部１０８は候補マンガ画像、切り替え候補として画像選択部１０７によって抽出されたマンガ画像のそれぞれに文字（テキストデータ）を合成した１又は複数の画像を生成する。また、合成部１０８は、候補マンガ画像と、少なくとも候補マンガ画像の左右に配置されるマンガ画像とに予めテキストデータを合成した１又は複数のマンガ画像を生成する。また、合成部１０８は、マンガ画像が表示部１０９の所定位置、例えば中央に移動した時に、中央に位置するマンガ画像にのみテキストデータを合成したマンガ画像を生成する。また、リアルタイムに生成する場合には、合成部１０８は、ユーザのスライド入力に合わせて、マンガ画像と文字とをオブジェクトとして移動させつつ、マンガ画像と文字とをリアルタイムに重畳して表示用のマンガ画像を生成する。

送信ボタン７０は、表示部１０９の中央に表示されているマンガ画像に対応するマンガデータと、テキストデータと、音声データとを用いてマンガ音声ファイルを生成し、ＩＤ通信サーバ３０にアップロードする際に使用されるボタンである。ユーザによって送信ボタン７０が押下されると、表示部１０９に表示されているマンガ音声ファイルがＩＤ通信サーバ３０に送信される。なお、マンガ音声ファイルのアップロードが完了すると、制御部１０４は表示部１０９の表示画面を確認画面から受付画面に切り替える。その後、アップロードされたマンガ音声ファイルのうち少なくともマンガデータに対応するマンガ画像が、最新のサムネイル画像として受付画面に表示される。なお、テキストデータを吹き出しに合成したマンガ画像が、最新のサムネイル画像として受付画面に表示されるようにしてもよい。一方、マンガ音声ファイルのアップロードができなかった場合、制御部１０４はエラーを示す通知（例えば、送信エラーのポップアップ画像）を表示部１０９に表示させる。その後、ユーザの操作によって、エラー表示が解除されると、マンガ音声ファイルを送信する前の確認画面に戻る。

キャンセルボタン７１は、マンガ音声ファイルの送信を取りやめる際に使用されるボタンである。ユーザによってキャンセルボタン７１が押下されると、マンガ音声ファイルの送信が取りやめられ、表示部１０９の表示画面が確認画面から受付画面に切り替わる。この際、録音された送信者端末１０のユーザの音声データは削除される。また、ユーザによって候補マンガ画像６９−ａが押下されると、ユーザが発話した内容の音声が再生される。音声状況確認記号７２は、現在、マンガ音声ファイルの生成前後のマンガ音声ファイルの音声が再生されているか否かを示す記号である。例えば、音声状況確認記号７２が図３（Ｄ）に示すような記号である場合、現在、マンガ音声ファイルの音声出力が停止していることを示す。一方、音声状況確認記号７２が右向き三角（不図示）である場合、現在、マンガ音声ファイルの音声が再生されていることを示す。この際、音声の再生時間に応じてタイムバー７３の表示も変化する。

図４は、執筆中パターン画像６８の具体例を示す図である。図４（Ａ）〜図４（Ｅ）は、候補マンガデータの選択中に執筆中画面に表示される執筆中パターン画像６８である。以下、図４（Ａ）〜図４（Ｅ）について具体的に説明する。
図４（Ａ）及び図４（Ｂ）に示される執筆中パターン画像６８は、送信者端末１０が音声データを音声認識サーバ２０に送信し、音声認識サーバ２０からテキストデータを受信するまでの間、繰り返し執筆中画面に表示される画像である。

図４（Ｃ）に示される執筆中パターン画像６８は、送信者端末１０が音声認識サーバ２０からテキストデータを受信した際に執筆中画面に表示される画像である。
図４（Ｄ）及び図４（Ｅ）に示される執筆中パターン画像６８は、送信者端末１０がテキストデータに基づいて候補マンガデータを選択するまでの間、繰り返し執筆中画面に表示される画像である。

なお、執筆中パターン画像６８は、図４（Ａ）〜図４（Ｅ）に示される執筆中パターン画像６８に限定される必要はない。例えば、候補マンガデータが選択された際に執筆中画面に表示される執筆中パターン画像６８が存在してもよいし、その他の執筆中パターン画像６８が表示されてもよい。また、執筆中パターン画像６８は、所定の時間が経過する度に切り替えて表示されてもよい。また、執筆中パターン画像６８は、必ずしも全ての執筆中パターン画像６８（図４（Ａ）〜図４（Ｅ））が表示されなくてもよい。例えば、候補マンガデータの選択時間に応じて表示される執筆中パターン画像６８が変更されてもよい。

図５は、マンガ音声ファイル生成処理の概略図である。図５（Ａ）〜図５（Ｅ）は、それぞれマンガ音声ファイル生成時に行われる５つのステップの概略を示す図である。以下、図５（Ａ）〜図５（Ｅ）の各ステップについて具体例を挙げて詳細に説明する。
図５（Ａ）に示される第１ステップでは、送信者端末１０は、ユーザの操作に応じて音声入力画面を表示部１０９に表示し、ユーザから音声入力を受け付ける。ユーザは、「アイスとってもおいしいよ！また買ってきてね！よろしく！」と送信者端末１０に発話する。ユーザによって音声入力画面に表示されているアイコンが押下される、又は、録音時間が経過すると、第２ステップに移行する。

図５（Ｂ）に示される第２ステップでは、送信者端末１０は、ユーザが発話した内容の音声データを音声認識サーバ２０に送信し、音声認識サーバ２０から音声認識結果として図５（Ｂ）に示すテキストデータを受信する。その後、第３ステップに移行する。
図５（Ｃ）に示される第３ステップでは、画像選択部１０７は、マンガデータ記憶部１０６に記憶されているマンガデータと、図５（Ｂ）に示されるテキストデータとに基づいて候補マンガデータを選択する。具体的には、まず、画像選択部１０７は、共通単語を含む確定タグ情報があるか否かを判定する。共通単語を含む確定タグ情報がある場合には、画像選択部１０７は当該確定タグ情報が対応付けられているマンガデータを候補マンガデータに選択する。

一方、共通単語を含む確定タグ情報がない場合には、画像選択部１０７は共通単語を含むステータスタグ情報があるか否かを判定する。例えば図５（Ｃ）の識別ＩＤ＿００１で識別されるマンガデータには確定タグ情報として「はっぴー」の単語が対応付けられており、識別ＩＤ＿００２で識別されるマンガデータには確定タグ情報として「ごきげんよう」の単語が対応付けられている。画像選択部１０７は、音声認識結果に含まれている単語「あいす」、「とっても」、「おいしい」、「よ」、「また」、「かって」、「きて」、「ね」、「よろしく」の何れかの単語を含む確定タグ情報を検索する。図３（Ｂ）に示される音声認識結果に含まれている単語には図５（Ｃ）に示される確定タグ情報の単語が存在しない。そのため、画像選択部１０７は、音声認識結果に含まれている単語の何れかの単語を含むステータスタグ情報を検索する。画像選択部１０７は、検索されたステータスタグ情報が対応付けられているマンガデータをマンガデータ記憶部１０６から抽出する。例えば図５（Ｂ）に示される音声認識結果が受信された場合、画像選択部１０７は音声認識結果に含まれている単語「あいす」、「とっても」、「おいしい」、「よ」、「また」、「かって」、「きて」、「ね」、「よろしく」の何れかの単語を含むステータスタグ情報を検索する。そして、画像選択部１０７は、検索されたステータスタグ情報が対応付けられている図５（Ｃ）に示される２つのマンガデータをマンガデータ記憶部１０６から抽出する。

例えば、図５（Ｃ）の上図に示す識別ＩＤ＿００１で識別されるマンガデータには、ステータスタグ情報として「あいして」、「うれしい」、「おいしい」、「かわいい」、「らぶ」の複数の単語が対応付けられている。図５（Ｃ）の下図に示す識別ＩＤ＿００２で識別されるマンガデータには、ステータスタグ情報として「こんにちは」、「やあ」、「よろしく」、「りょうかい」の複数の単語が対応付けられている。

画像選択部１０７は、共通単語を含むＩＤ＿００１で識別されるマンガデータ及びＩＤ＿００２で識別されるマンガデータをマンガデータ記憶部１０６から抽出する。抽出したマンガデータが複数存在するため、画像選択部１０７は抽出した複数のマンガデータの中からランダムで１つのマンガデータを候補マンガデータに選択する。画像選択部１０７によって候補マンガデータが選択されると、第４ステップに移行する。以下、ＩＤ＿００１で識別されるマンガデータが候補マンガデータに選択された場合について説明する。

図５（Ｄ）に示される第４ステップでは、合成部１０８は、選択された候補マンガデータの吹き出しにテキストデータを埋め込むことによって、マンガ画像を生成する。図５（Ｄ）に示される例では、マンガ画像の吹き出し領域には、テキストデータ「あいすとってもおいしいよまたかってきてねよろしく」と、候補マンガデータに記憶されている領域情報及び文字情報とに基づいてテキストデータの冒頭から所定数の文字「アイスとってもおいしいよ」が抽出され、発話内容に続きの内容があることを示す「・・・」（例えば、全角１文字で点３つの記号）を、吹き出し領域の所定の領域内に、所定のテキストカラー、文字の大きさで合成され、「アイスとってもおいしいよ・・・」が表示されている。その後、第５ステップに移行する。

図５（Ｅ）に示される第５ステップでは、合成部１０８は、マンガ画像に音声データを合成することによってマンガ音声ファイルを生成する。その後、制御部１０４は、生成されたマンガ音声ファイルを表示部１０９に表示させる。ユーザによってマンガ音声ファイルの確認画面に表示されているマンガ音声ファイルの画像が押下されると、音声が再生される。
以上で、マンガ音声ファイル生成処理の詳細な説明を終了する。

図６は、本実施形態における送信者端末１０のマンガ音声ファイル生成処理の流れを示すフローチャートである。
表示部１０９は、ユーザの操作に応じて画面上に受付画面を表示し、ユーザからマンガのジャンルの選択を受け付ける（ステップＳ１０１）。ユーザによってマンガのジャンルが選択されると、制御部１０４は表示画面を受付画面から音声入力画面に切り替える。その後、音声入力部１０２は、ユーザから音声入力を受け付ける（ステップＳ１０２）。

通信部１０５は、ユーザの発話した内容の音声データを音声認識サーバ２０に送信する（ステップＳ１０３）。具体的には、まず、ユーザから音声入力がなされると、音声入力部１０２はユーザが発話することによって生じた音波を受け、音波に応じたアナログ信号を生成し、生成したアナログ信号を信号処理部１０３に出力する。次に、信号処理部１０３は、音声入力部１０２によって生成されたアナログ信号を、デジタル信号の音声データに変換する。そして、通信部１０５は、変換された音声データを音声認識サーバ２０に送信する。

通信部１０５は、送信した音声データに対応するテキストデータを音声認識サーバ２０から受信する（ステップＳ１０４）。画像選択部１０７は、マンガデータ記憶部１０６に記憶されているマンガデータの確定タグ情報を参照し、受信された共通単語を含む確定タグ情報があるか否かを判定する（ステップＳ１０５）。共通単語を含む確定タグ情報がある場合（ステップＳ１０５−ＹＥＳ）、画像選択部１０７は共通単語を含む確定タグ情報が複数あるか否かを判定する（ステップＳ１０６）。

共通単語を含む確定タグ情報が複数ある場合（ステップＳ１０６−ＹＥＳ）、画像選択部１０７は共通単語を含む確定タグ情報が対応付けられているマンガデータの中からランダムに１つのマンガデータを候補マンガデータに選択する（ステップＳ１０７）。
一方、共通単語を含む確定タグ情報が複数ない場合（ステップＳ１０６−ＮＯ）、画像選択部１０７は確定タグ情報が対応付けられているマンガデータを候補マンガデータに選択する（ステップＳ１０８）。

次に、合成部１０８は、選択された候補マンガデータと、テキストデータと、音声データとを用いてマンガ音声ファイルを生成する（ステップＳ１０９）。具体的には、合成部１０８は、候補マンガデータに対してテキストデータを埋め込むことによってマンガ画像を生成する。その後、合成部１０８は、生成したマンガ画像にユーザが発話した音声データを合成することによってマンガ音声ファイルを生成する。通信部１０５は、生成されたマンガ音声ファイルをＩＤ通信サーバ３０が備えるＨＴＴＰサーバ３１に送信する（ステップＳ１１０）。具体的には、通信部１０５は、マンガ音声ファイルのマンガ画像及び音声データをそれぞれＨＴＴＰサーバ３１に送信する。その後、処理を終了する。

また、ステップＳ１０５の処理において、共通単語を含む確定タグ情報がない場合（ステップＳ１０５−ＮＯ）、画像選択部１０７はマンガデータ記憶部１０６に記憶されているマンガデータのステータスタグ情報を参照し、共通単語を含むステータスタグ情報があるか否かを判定する（ステップＳ１１１）。共通単語を含むステータスタグ情報がない場合（ステップＳ１１１−ＮＯ）、画像選択部１０７はステップＳ１０１の処理で選択されたジャンルのマンガデータの中からランダムに１つのマンガデータを候補マンガデータに選択する（ステップＳ１１２）。その後、ステップＳ１０９以降の処理が行なわれる。

一方、共通単語を含むステータスタグ情報がある場合（ステップＳ１１１−ＹＥＳ）、画像選択部１０７は共通単語を含むステータスタグ情報が複数あるか否かを判定する（ステップＳ１１３）。共通単語を含むステータスタグ情報が複数ある場合（ステップＳ１１３−ＹＥＳ）、画像選択部１０７は共通単語を含むステータスタグ情報が対応付けられているマンガデータの中からランダムに１つのマンガデータを候補マンガデータに選択する（ステップＳ１１４）。その後、ステップＳ１０９以降の処理が行なわれる。
一方、共通単語を含むステータスタグ情報が複数ない場合（ステップＳ１１３−ＮＯ）、画像選択部１０７はステータスタグ情報が対応付けられているマンガデータを候補マンガデータに選択する（ステップＳ１１５）。その後、ステップＳ１０９以降の処理が行なわれる。

図７〜図９は、本実施形態におけるコミュニケーションシステムの動作の流れを示すシーケンス図である。
送信者端末１０の表示部１０９は、ユーザの操作に応じて画面上に受付画面を表示し、ユーザからマンガのジャンルの選択を受け付ける（ステップＳ２０１）。ユーザによってマンガのジャンルが選択されると、制御部１０４は表示画面を受付画面から音声入力画面に切り替える。その後、音声入力部１０２は、ユーザから音声入力を受け付ける（ステップＳ２０２）。音声入力部１０２は、ユーザの発話内容を送信者端末１０に入力する。具体的には、音声入力部１０２は、ユーザが発話することによって生じた音波を受け、音波に応じたアナログ信号を生成する。音声入力部１０２は、生成したアナログ信号を信号処理部１０３に出力する。

信号処理部１０３は、音声入力部１０２によって生成されたアナログ信号を、デジタル信号の音声データに変換する（ステップＳ２０３）。通信部１０５は、変換された音声データを音声認識サーバ２０に送信する（ステップＳ２０４）。
音声認識サーバ２０は、送信者端末１０から音声データを受信する（ステップＳ２０５）。音声認識サーバ２０は、受信した音声データに基づいてテキストデータを生成する（ステップＳ２０６）。音声認識サーバ２０は、生成したテキストデータを送信者端末１０に送信する（ステップＳ２０７）。

送信者端末１０の通信部１０５は、音声認識サーバ２０からテキストデータを受信する（ステップＳ２０８）。画像選択部１０７は、受信されたテキストデータと、マンガデータ記憶部１０６に記憶されているマンガデータとに基づいて候補マンガデータを選択する（ステップＳ２０９）。合成部１０８は、選択された候補マンガデータと、テキストデータと、音声データとを用いてマンガ音声ファイルを生成する（ステップＳ２１０）。通信部１０５は、アップロード要求信号を生成する。アップロード要求信号は、ファイルやデータのアップロードを要求するために使用される信号である。通信部１０５は、アップロード要求信号をＩＤ通信サーバ３０のＨＴＴＰサーバ３１に送信する（ステップＳ２１１）。

ＨＴＴＰサーバ３１は、送信者端末１０からアップロード要求信号を受信する（ステップＳ２１２）。ＨＴＴＰサーバ３１は、受信したアップロード要求信号の応答としてファイルやデータをアップロードするためのＵＲＩ（Uniform Resource Identifier）を送信者端末１０に送信する（ステップＳ２１３）。ＨＴＴＰサーバ３１は、例えば所定の時間（例えば、３０分、１時間など）有効なワンタイムＵＲＩを送信者端末１０に送信する。送信者端末１０の通信部１０５は、ＨＴＴＰサーバ３１からＵＲＩを受信する（ステップＳ２１４）。通信部１０５は、受信したＵＲＩを利用して、マンガ音声ファイルをＨＴＴＰサーバ３１にアップロードする（ステップＳ２１５）。ＨＴＴＰサーバ３１は、マンガ音声ファイルを送信者端末１０から受信する（ステップＳ２１６）。その後、ＨＴＴＰサーバ３１は、受信したマンガ音声ファイルをバッファに蓄積する。ＨＴＴＰサーバ３１は、蓄積したマンガ音声ファイルを識別するためのファイルＩＤを、マンガ音声ファイルを蓄積したことを示す応答として送信者端末１０に送信する（ステップＳ２１７）。

送信者端末１０の通信部１０５は、ＨＴＴＰサーバ３１からファイルＩＤを受信する（ステップＳ２１８）。通信部１０５は、受信したファイルＩＤを用いてメッセージを生成する。通信部１０５は、生成したメッセージをＩＤ通信サーバ３０のＳＩＰサーバ３２に送信する（ステップＳ２１９）。ＳＩＰサーバ３２は、送信者端末１０からメッセージを受信し、受信者端末４０に転送する（ステップＳ２２０）。受信者端末４０の通信部４０１は、ＳＩＰサーバ３２を介して送信者端末１０からメッセージを受信する（ステップＳ２２１）。通信部４０１は、受信したメッセージからファイルＩＤを取得する。次に、通信部４０１は、ファイルＩＤを取得すると、ダウンロード要求信号を生成する。ダウンロード要求信号は、ファイルやデータのダウンロードを要求するために使用される信号である。なお、ダウンロード要求信号には、ファイルＩＤが格納される。通信部４０１は、生成したダウンロード要求信号をＨＴＴＰサーバ３１に送信する（ステップＳ２２２）。

ＨＴＴＰサーバ３１は、ダウンロード要求信号を受信者端末４０から受信する（ステップＳ２２３）。ＨＴＴＰサーバ３１は、受信したダウンロード要求信号からファイルＩＤを取得する。ＨＴＴＰサーバ３１は、取得したファイルＩＤで識別されるマンガ音声ファイルが蓄積されている場所を示すＵＲＩを受信者端末４０に送信する（ステップＳ２２４）。ＨＴＴＰサーバ３１は、例えば所定の時間（例えば、３０分、１時間など）有効なワンタイムＵＲＩを送信者端末１０に送信する。受信者端末４０の通信部４０１は、ＵＲＩをＨＴＴＰサーバ３１から受信する（ステップＳ２２５）。通信部４０１は、受信したＵＲＩを利用して、マンガ音声ファイルをダウンロードする（ステップＳ２２６）。ＨＴＴＰサーバ３１は、ＵＲＩを受信者端末４０から受信し、受信したＵＲＩで識別されるマンガ音声ファイルを受信者端末４０に送信する（ステップＳ２２７）。受信者端末４０の通信部４０１は、マンガ音声ファイルをＨＴＴＰサーバ３２から受信し、マンガ音声ファイルを受信したことを示す通知を、画面表示とファイル着信音の再生により行う（ステップＳ２２８）。制御部４０２は、ユーザの操作に応じて、受信されたマンガ音声ファイルを表示し、再生する（ステップＳ２２９）。具体的には、制御部４０２は、表示部４０４にマンガ画像を表示させ、音声出力部４０５に音声データを出力させる。

以上のように構成されたコミュニケーションシステムによれば、送信者端末１０のユーザが発話した内容に合ったマンガデータが選択される。さらに、選択されたマンガデータに送信者端末１０のユーザが発話した内容と音声データとが合成されることによってマンガ音声ファイルが生成される。したがって、文字や音声以外に送信者端末１０のユーザが発話した内容に合ったマンガデータがメッセージとして会話相手に送信される。そのため、メールなどの文字でのやり取りや電話でのやり取りよりも会話相手の興味を引くことができる。このように、本発明のコミュニケーションシステムでは、ユーザ間において新しい形のコミュニケーションを取ることが可能になる。

＜変形例＞
本実施形態では、コミュニケーションシステムに接続される送信者端末１０の数は一台であるが、複数台の送信者端末１０がコミュニケーションシステムに接続されるように構成されてもよい。また、本実施形態では、コミュニケーションシステムに接続される受信者端末４０の数は一台であるが、複数台の受信者端末４０がコミュニケーションシステムに接続されるように構成されてもよい。
コミュニケーションシステムは、一台の装置に実装されてもよいし、複数台の装置に実装されてもよい。
本実施形態では、吹き出しに埋め込まれたテキストデータが横書きで表示される構成を示したが、テキストデータが縦書きで表示されるように構成されてもよい。
画像選択部１０７は、かな漢字変換された文字列の単語に基づいて候補マンガデータを選択するように構成されてもよい。
なお、本実施形態では、画像選択部１０７は、発話内容が単語ごとに分割されたテキストデータを用いて候補マンガデータを選択する構成を示したが、これに限定される必要はない。例えば、画像選択部１０７は、テキストデータ全文（全文ひらがな文字列、かな漢字変換）を用いて候補マンガデータを選択するように構成されてもよい。
ファイルＩＤは、ＩＤ通信サーバ３０からのプッシュ通知により受信者端末４０に送信されてもよい。この場合、以下のような処理が行なわれる。まず、送信者端末１０の通信部１０５は、マンガ音声ファイルをＩＤ通信サーバ３０に送信する。次に、ＩＤ通信サーバ３０は、マンガ音声ファイルを送信者端末１０から受信し、ＨＴＴＰサーバ３１のバッファに蓄積する。そして、ＨＴＴＰサーバ３１は、蓄積したマンガ音声ファイルを識別するためのファイルＩＤをＳＩＰサーバ３２に出力する。ＳＩＰサーバ３２は、出力されたファイルＩＤを受信者端末４０に送信する。

また、送信者端末１０は、表示プログラムを実行するように構成されてもよい。この場合、送信者端末１０は、操作入力部４０３、表示部４０４、音声出力部４０５をさらに備えるように構成される。また、受信者端末４０は、マンガ音声ファイル生成プログラムを実行するように構成されてもよい。この場合、受信者端末４０は、音声入力部１０２、信号処理部１０３、マンガデータ記憶部１０６、画像選択部１０７、合成部１０８をさらに備えるように構成される。
また、本実施形態では、送信者端末１０がマンガ音声ファイルを生成して、生成したマンガ音声ファイルをＩＤ通信サーバ３０に送信する構成を示したが、これに限定される必要はない。例えば、送信者端末１０は、音声データのみをＨＴＴＰサーバ３１に蓄積するように構成されてもよい。
この場合、以下のような処理が行なわれる。ＩＤ通信サーバ３０は、送信者端末１０から音声データを受信し、ＨＴＴＰサーバ３１のバッファに蓄積する。ＨＴＴＰサーバ３１は、蓄積した音声データを識別するためのファイルＩＤを、当該音声データを蓄積したことを示す応答として送信者端末１０に送信する。送信者端末１０の通信部１０５は、ＨＴＴＰサーバ３１からファイルＩＤを受信する。通信部１０５は、受信したファイルＩＤと、候補マンガデータを識別するための識別ＩＤと、テキストデータとをメッセージとしてＳＩＰサーバ３２を介して受信者端末４０に送信する。受信者端末４０の通信部４０１は、ＳＩＰサーバ３２を介して送信者端末１０からファイルＩＤ、識別ＩＤ及びテキストデータを受信する。その後、通信部４０１は、受信した識別ＩＤを画像選択部１０７に出力する。画像選択部１０７は、マンガデータ記憶部１０６に記憶されているマンガデータを参照し、出力された識別ＩＤで識別されるマンガデータを候補マンガデータに選択する。また、通信部４０１は、受信したファイルＩＤをＨＴＴＰサーバ３１に送信し、当該ファイルＩＤで識別される音声データをＨＴＴＰサーバ３１から受信する。合成部１０８は、候補マンガデータと、受信された音声データ及びテキストデータとに基づいてマンガ音声ファイルを生成する。その後、制御部４０２は、ユーザの操作に応じて、生成されたマンガ音声ファイルを表示し、再生する。

このように構成されることによって、送信者端末１０は、マンガデータをＩＤ通信サーバ３０に送信する必要がない。したがって、データサイズの大きいマンガデータが送信されないため、帯域が圧迫されてしまうおそれを軽減することができる。そのため、送信者端末１０と受信者端末４０との間で行われる通信における通信効率を向上させることができる。

また、送信者端末１０と音声認識サーバ２０とが一体化されて構成されてもよい。すなわち、送信者端末１０が音声認識を行うことによって、ユーザの発話内容の音声データをテキストデータに変換してもよい。この場合、送信者端末１０は、音声認識部を備えるように構成される。音声認識部は、信号処理部１０３によってユーザが発話した内容に応じたアナログ信号がデジタル信号の音声データに変換されると、当該音声データに対応するテキストデータを生成する。その後、音声認識部は、生成したテキストデータを画像選択部１０７に出力する。

また、本実施形態では、ユーザが発話した内容の音声データに基づいてテキストデータが生成される構成を示したが、これに限定される必要はない。例えば、送信者端末１０のユーザが操作入力部１０１を介して入力した文字情報に基づいてテキストデータが生成されてもよい。この場合、送信者端末１０は、文字認識部を備えるように構成される。文字認識部は、操作入力部１０１を介して入力された文字情報をテキストデータに変換する。このように構成される場合、以下のような処理が行なわれる。

まず、ユーザが操作入力部１０１を操作して会話相手に対するメッセージを入力する。次に、文字認識部は、入力されたメッセージをテキストデータに変換する。画像選択部１０７は、テキストデータに基づいて候補マンガデータを選択する。その後、合成部１０８は、選択された候補マンガデータの吹き出しにテキストデータを合成することによってマンガ画像を生成する。通信部１０５は、生成されたマンガ画像をＨＴＴＰサーバ３１に送信する。ＨＴＴＰサーバ３１は、送信者端末１０からマンガ画像を受信し、受信したマンガ画像を蓄積する。ＨＴＴＰサーバ３１は、蓄積したマンガ画像を識別するためのファイルＩＤを、当該マンガ画像を蓄積したことを示す応答として送信者端末１０に送信する。送信者端末１０の通信部１０５は、ＨＴＴＰサーバ３１からファイルＩＤを受信する。通信部１０５は、ＳＩＰサーバ３２を介して、受信したファイルＩＤをメッセージとして受信者端末４０に送信する。受信者端末４０の通信部４０１は、ＳＩＰサーバ３２を介して送信者端末１０からファイルＩＤを受信する。その後、通信部４０１は、ＨＴＴＰサーバ３１にファイルＩＤを送信し、当該ファイルＩＤに対応するマンガ画像を受信する。その後、制御部４０２は、受信したマンガ画像を表示部４０４に表示させる。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１０…端末装置，２０…音声認識サーバ，３０…ＩＤ通信サーバ，３１…ＨＴＴＰサーバ，３２…ＳＩＰサーバ，４０…端末装置，５０…ネットワーク，１０１…操作入力部，１０２…音声入力部，１０３…信号処理部，１０４…制御部，１０５…通信部，１０６…マンガデータ記憶部，１０７…画像選択部，１０８…合成部，１０９…表示部，１１０…音声出力部，４０１…通信部，４０２…制御部，４０３…操作入力部，４０４…表示部，４０５…音声出力部

Claims

ユーザの音声を変換したメッセージに応じて画像を選択する画像選択部と、
前記画像選択部により選択された選択画像に予め付与された領域情報に基づいて、前記メッセージの内容を前記選択画像に合成する合成部と、
を備えるコミュニケーションシステム。
前記画像には、前記画像の特徴を表す語句がタグ情報として付与されており、
前記画像選択部は、前記メッセージに含まれている語句ごとに、前記語句から特定される画像を抽出し、抽出された画像の中から前記メッセージに応じた画像を選択する、請求項１に記載のコミュニケーションシステム。
前記合成部は、前記メッセージの音声データを前記選択画像にさらに合成する、請求項１又は２に記載のコミュニケーションシステム。
前記合成部は、
前記選択画像に付与された文字情報に基づいて、メッセージの色、文字数、文字の大きさのうち少なくとも何れか１つの情報を用いて前記メッセージの内容を前記選択画像に合成する、請求項１〜３のいずれか１項に記載のコミュニケーションシステム。
前記合成部は、
前記メッセージの文字数が所定の文字数を超える場合、前記メッセージの冒頭から所定の文字数分の文字を抽出し、抽出した前記文字数分の文字と、前記メッセージの続きを示す記号等を含む所定の文字を、前記選択画像に合成する、請求項１〜４のいずれか１項に記載のコミュニケーションシステム。
コミュニケーションシステムを構成するコンピュータを制御するコミュニケーション方法において、
ユーザの音声を変換したメッセージに応じて画像を選択する画像選択ステップと、
前記画像選択ステップにより選択された選択画像に予め付与された領域情報に基づいて、前記メッセージの内容を前記選択画像に合成する合成ステップと、
を有するコミュニケーション方法。
ユーザの音声を変換したメッセージに応じて画像を選択する画像選択ステップと、
前記画像選択ステップにより選択された選択画像に予め付与された領域情報に基づいて、前記メッセージの内容を前記選択画像に合成する合成ステップと、
をコンピュータに実行させるためのコンピュータプログラム。