以下、本発明を実施するための最良の形態を説明する。本実施の形態は、携帯型撮影画像メディアフォーマットとして広く使用されている、交換可能メディア画像ファイルフォーマット(Exchangeable Image File Formqt:Exif、イグジフ)、特にその中で静止画デジタルカメラに広く採用され普及している、DCF(Design Rule for Camera File)システムを用いて撮影画像や音声をリムーバブルメディアに記録すると共に上記リムーバブルメディアから撮影画像や音声を再生する携帯型の画像音声記録再生装置に適用される音声合成装置である。
音声合成装置は、携帯型画像音声記録再生装置が上記DCFシステムにしたがってリムーバブルメディアに記録した撮影メディアフォーマットに記載された情報を用いて文を生成し、生成した文を音声合成して出力する。ここでいう、撮影メディアフォーマットに記載された情報とは、画像又は音響データに付随する情報のことで、ユーザ登録メモ、画像データを格納する格納フォルダ名、記録時の情報、再生頻度、又は好感度情報がある。
図1は音声合成装置1のブロック図である。この音声合成装置1は、画像又は音響データに付随する情報を読み出す情報読み出し部2と、情報読み出し部2によって読み出された情報に基づいて文を生成する文生成部3と、文生成部3によって生成された文を音声合成して出力するテキスト音声合成部4とによって構成される。
図2は音声合成装置の全体的な処理手順を示すフローチャートである。画像又は音響データから情報読み出し部2が必要な情報を抽出し(ステップS1)、その情報を元に文生成部がガイド文を生成し(ステップS2)、生成されたガイド文をテキスト音声合成部が音声合成し(ステップS3)、音声を出力する。
情報読み出し部2は、上述したように、例えば、ユーザ登録メモ、格納フォルダ名、記録時の情報、再生頻度、又は好感度情報からなる、画像又は音響データに付随する情報を読み出す。以下に、情報読み出し部2の上記付随する情報の読み出しについて説明する。図3は交換可能メディア画像ファイルフォーマットであるExifファイルの画像ファイル構成例である。図4はExifファイルのオーディオファイル構成例である。
Exifファイルの画像ファイル構成例では、図3に示すように、SOI(Start Of Image)によりJPEGストリームの先頭が示される。SOIの直後にはAPP1(Application marker segment 1)が挿入される。APP1にはExif情報が記載される。このExif情報については詳細を後述する。APP1に続いてJPEGテーブルが記載される。量子化テーブル、ハフマンテーブル、フレームヘッド、スキャンヘッドなどが含まれる。次に、JPEG基本原画像データが続く。そして、EOI(End OF Image)でJPEGデータの終端が示される。
APP1に記載されるExif情報は、APP1マーカー、APP1のデータ長、Exifの識別コード(ExifIFD)及び付属情報本体から構成される。これら全てを含むAPP1の大きさは、JPEG規格により64kByteを越えない。付属情報は、最大二つのIFD(0thIFD、1stIFD)を記録できる。0thIFDには、圧縮されている画像(主画像)に関する付属情報を記録する。1stIFDには、サムネイル画像(JPEG圧縮基本サムネイルデータ)を記録する。
ExifIFDは、Exif固有の付属情報を記録するためのタグの集まりである。Exifバージョンタグ、画像データ特性タグ、画像構造タグ、ユーザコメントタグ、関連ファイル情報タグ、日時タグ、撮影条件タグ、IFDポインタ互換性からなる。
バージョンタグは、本Exif規格での対応バージョンを示す。このフィールドが存在しなければ、本Exif規格に準拠していないと判断される。本Exif規格に準拠する場合には、4ByteのASCII”0210”を記録する。
画像データ特性タグは、色空間を示す情報である。本規格では、PCモニタによる観察条件から色空間を規定したsRGB(=1)を使用する。
画像構造タグは、実効画像幅(PixelXDimension)、実効画像高さ(PixelYDimension)、各コンポーネントの意味(ComponentsConfiguration)、画像圧縮モード(CompressedBitsPerPixel)からなる。実効画像幅は、圧縮データ固有の情報である。圧縮ファイルを記録する場合には、パディングデータの有無、リスタートマーカの有無に関わらず、有意な画像の幅をこの実効画像幅タグに必ず記録する。非圧縮ファイルでは書かない。実効画像高さも圧縮データ固有の情報である。圧縮ファイルを記録する場合には、パディングデータの有無、リスタートマーカの有無に関わらず、有意な画像の高さをこの実効画像高さタグに必ず記録する。非圧縮ファイルでは書かない。各コンポーネントの意味も圧縮データ固有の情報である。各コンポーネントのチャネルを、第1コンポーネントから第4コンポーネントの順に示す。圧縮画像モードも圧縮データ固有の情報である。画像圧縮時に設定された圧縮モードを単位bit/pelで示す。
ユーザコメントタグは、メーカーノートと共にユーザ情報に関するタグを構成する。メーカーノートは、Exifライターのメーカが個別の情報を記入するためのタグである。内容については各メーカの運用に任せられている。ユーザコメントタグは、イメージディスクリプション以外に画像に対してExifユーザがキーワードやコメントをユーザ登録メモとして書き込むためのタグである。
ユーザコメントに書かれる文字コードを判別するために、文字コードタイプをタグのデータ領域先頭に8バイト固定で記入し、余った領域にはnullでパディングする。文字コードとしてはASCII、JIS、Unicode、Undefinedがあり、リファレンスとしてITU-TT.50IA5、JISX0208-1990、UnicodeStandard、Undefinedがある。Exifのリーダーは、文字コードを判別する機能を必ず持つ。そして、リーダーの能力に応じて表示する。文字コードタイプに続けて、ユーザコメントデータ欄が設けられる。文字コードタイプで識別された文字コードにより、Exifユーザがキーワードやコメントをユーザ登録メモリとして書き込むところである。
関連ファイル情報タグは、画像データに関連する音声ファイル名を記録している。関連情報として、相手先であるExif音声ファイルのファイル名と拡張子を一つだけ記録する。Exif画像ファイルとExif音声ファイルの対応関係には、3通りある。一つのExif画像ファイルに対して一つのExif音声ファイルが対応する関係、複数のExif画像ファイルに対して一つのExif音声ファイルが対応する関係、一つのExif画像ファイルに対して複数のExif音声ファイルが対応する関係である。本タグを用いて画像ファイルと音声ファイルを関連づける場合には、必ず関連付けされた音声ファイル側にも関連情報を記載しなければならない。
日時に関するタグは、原画像の生成日時DateTimeOriginal、デジタルデータ作成日時DateTimeDigitized、DateTimeのサブセックSubsecTime、DateTimeOriginalのサブセックSubsecTimeOriginal、DateTimeDigitizedのサブセックSubsecTimeDigitizedである。
原画像の生成日時DateTimeOriginalは、原画像の生成された日付と時間を示す。デジタルスチルカメラでは、撮影された日付と時間を記載する。フォーマットは”YYYY:MM:DD HH:MM:SS”となる。時間は24時間表示し、日付と時間の間に空白文字[20.H]を一つ埋める。文字列の長さは、NULLを含めて20バイトとする。記載が無いときは不明として扱う。
デジタルデータ作成日時DateTimeDigitizedは、画像がディジタルデータ化された日付と時間を示す。例えば、デジタルスチルカメラにより撮影され、同時にファイルが記録される場合、原画像の生成日時DateTimeOriginalとデジタルデータ作成日時DateTimeDigitizeは同じ内容となる。フォーマットは”YYYY:MM:DD HH:MM:SS”となる。時間は24時間表示し、日付と時間の間に空白文字[20.H]を一つ埋める。文字列の長さは、NULLを含めて20バイトとする。記載が無いときは不明として扱う。
DateTimeのサブセックSubsecTimeは、DateTimeタグに関連して時刻を小数点以下の秒単位まで記録するためのタグである。DateTimeOriginalのサブセックSubsecTimeOriginalは、原画像の生成日時DateTimeOriginalタグに関連して時刻を小数点以下の秒単位まで記録するためのタグである。DateTimeDigitizedのサブセックSubsecTimeDigitizedは、デジタルデータ作成日時DateTimeDigitizedタグに関連して時刻を小数点以下の秒単位まで記録するためのタグである。
撮影条件に関するタグは、露出時間ExposureTime、シャッタースピードShutterSpeedValue、絞り値ApertureValue、輝度値BrightnessValue、露光補正値ExposureBiasValue、レンズ最小F値MaxApertureValue、被写体距離SubjectDistance、測光方式MeteringMode、光源LightSource、フラッシュFlash、レンズ焦点距離FocalLength、FナンバFNumber、露出プログラムExposureProgram、スペクトル感度SpectralSensitivity、ISOスピードレートISOSpeedRatings、光電変換関数OECF、フラッシュ強度FlashEnergy、空間周波数応答SpatialFrequencyResponse、焦点面の幅の解像度FocalPlaneXResolution、焦点面の高さの解像度FocalPlaneYResolution、焦点面解像度単位FocalPlaneResolutionUnit、被写体位置SubjectLocation、露出インデックスExposureIndex、センサ方式SensingMethod、ファイルソースFileSource、シーンタイプSceneType、CFAパターンCFAPatternがある。IFDポインタ互換性は、互換性IFDへのポインタを示す。
Exifファイルのオーディオファイル構成例は、図4に示すようなデータ構造を持つ。オーディオファイルでは、ストレージ領域を区画するファイルフォーマットは「チャンク」という区画名称で各データ区画を呼んでいる。最初の“RIFF”というチャンクID(ckID)に続いてRIFFサイズ指定(ckSize)、その後“WAVE”タイプ指定があり、フォーマットチャンクでのMPEGタグ、ステレオの指定があって、WAVEのMP3Audioが登録されていると判定されるオーディオ登録情報データがある。
つづいて、ファクトチャンクがあって、これに続き、付属情報サブチャンクとして、INFOリストチャンクとExifリストチャンクがある。そのあとに、チャンクID(ckID)としてASCII文字列“Data”(64617461)を開始マーカーとしてMPEG Layer3圧縮形式WAVEのオーディオストリーム本体データが続く。
INFOリストチャンク、Exifリストチャンク、データチャンクの各チャンクについて説明する。INFOリストチャンクには英数字で、タイトルの英数字、ジャンル英数字、ファイル作成年月日英数字、コメント英数字、アーティスト英数字、著作権英数字がある。
Exifリストチャンクは、LISTマーカーから開始して、そのサイズ、“exif”とその規格バージョンが記載され、関連画像ファイルがある場合にはそのファイル名(ポインタは許可されない)が「ファイル名.拡張子」形式で直接記載され、その後に、音声ファイル作成年月日として年:月:日:時:分:秒があって、秒.サブ秒の記載方式でサブ秒まで記載される。
その後に、ユーザコメントeucmのデータフィールドがある。このユーザコメントには、eucmのタグ文字につづき、eucmのチャンクサイズ、それにつづきチャンクデータである、ユーザコメントが記載される。このユーザコメントは先頭8バイトの文字コードのASCII大文字でのタイプ宣言があり、望ましくはUnicode、日本のパソコン事情でShiftJISを使用する場合はUndefinedが指定される。このユーザコメント欄には、2バイトコード文字でのユーザ文字としての、アーティストや曲名、ファイル作成日時、さび部分の歌詞などが文字列登録されている。これが本実施の形態ではユーザ登録メモ情報として使用される。
情報読み出し部2は、上記のような画像ファイルやオーディオファイルと音声合成に必要な情報との対応表を保持している。図5は情報読み出しのための対応表の具体例である。
合成に必要な情報のデータラベル、Exifファイルのどこを参照すればよいかのポインタ、Exifファイルにおける表現形式が対応付けされている。例えば、格納フォルダ名は、Exifリストチャンクから「文字列」を参照する。ファイル名は、Exifリストチャンクから「ファイル名.拡張子」を参照する。撮影時間は、Exifリストチャンクから「年:月:日:時:分:秒」を参照する。撮影の場所は、ユーザコメントeucmから「文字列」を参照する。再生頻度は、ユーザコメントeucmから「数字」を参照する。好感度情報は、ユーザコメントeucmから「文字列」を参照する。ユーザ登録メモは、ユーザコメントeucmから「文字列」を参照する。そして、情報読み出し部において、上記対応表を用いて、ファイルの上記場所から、本実施の形態のファイル属性データの各情報データが参照され、文字列に変換されて読み出される。
図6が情報読み出し部2によって読み出されたデータの例である。情報読み出し部2は、上記情報読み出しのための対応表を用いて、格納フォルダ名から“家族/犬/”を、ファイル名から“モモの散歩.jpg”を、撮影の時間から“2002/06/27”,“09:52:15”を、撮影の場所から“近所の公園”を参照し、各々文字列に変換して読み出す。また、再生頻度から0を、好感度情報から5を、ユーザ登録メモから“モモちゃんが初めて散歩に行った。”を参照し、各々文字列に変換して読み出す。情報読み出し部2によって読み出された、上記図6に示したデータは、文生成部3に送られる。
図7は文生成部3の構成図である。文生成部3は、出力内容を決定する出力内容決定部5と、出力内容決定部5で決定された出力内容に合う文を生成する文出力部6とから構成される。このような構成により、文生成部3は、図6に示したようなデータをもとに、出力内容決定部5で、出力言語、文の内容、文の数を決定し、それに合うテンプレートを選択し、文出力部6では上記テンプレートに基づいて文を生成する。
図8は出力内容決定部5の構成図である。出力内容決定部5は、図6に示したようなデータから得られる情報を元に、生成する文の内容を決定するために、文字列を解析する文字列解析部7aと、文字列解析部7aにて解析された文字列から単語を抽出する単語抽出部7bと、出力言語を決定する出力言語決定部10と、文内容を決定する文内容決定部11と、文の数を決定する文の数決定部12と、テンプレートデータベース14から好適なテンプレートを選択するテンプレート選択部13を備える。
文字列解析部7aは、情報読み出し部2が読み出した上記図6に示したデータに言語的な情報、例えば品詞情報を付与する。文字列は、情報読み出し部2において、単語に分割されているので、文字列解析部7aは、各々の単語をルールファイル8、辞書ファイル9と照らし合わせることによって、言語的な情報を得ることができる。
単語抽出部7bは、文字列解析部7aにて解析された文字列から単語を抽出する。ここで、抽出された単語は、出力言語決定部10、文内容決定部11及び文の数決定部12に渡される。
出力言語決定部10は、出力する言語の種類を決定するためのものであり、例えばユーザ指定、画像音声記録装置の起動時の言語モード、ユーザ登録メモの言語という順番で優先度を付ける。もちろん、出力言語決定部10は、言語判定のためのサブモジュールを有する。言語判定サブモジュールは、文字列を受け取り、その文字列が何語であるかを判定する。
言語判定は、他の自然言語処理アプリケーションで用いられている、どの言語判定手法を用いて良い。例えば、入力文字列の文字コード、字種によって判定することができるし、文字列の並びの特徴を言語判定のためのルールとしてもよい。また、内部に辞書データをもち、入力文字列を辞書引きすることによって言語を判定することもできる。
文内容決定部11は、ガイド文としてどのような文を生成するかを決定する。ユーザ登録メモ、ファイル名、撮影時間、撮影場所のデータから、文字列解析部7aで解析された文字列中、或いは単語抽出部7bから得られた単語データを基に文生成を行う際、どの情報に関する文であるかを決定する。また、文内容決定部11は、再生情報、好感度情報、感性キー情報、アクセス頻度キー情報などをもとに、画像に対するユーザの捉え方に関するガイド文を生成するかどうかを決定する。ユーザの捉え方に関するガイド文を生成することを決定したときには、テキスト音声合成の制御を行なう。また、アプリケーション使用時間帯情報を基にユーザに対して挨拶文を作成するかどうかを決定するようにしてもよい。もちろん、ユーザ指定情報に基づいて文の内容を決定してもよい。
文の数決定部12は、ユーザ登録メモ、ファイル名、撮影時間、撮影場所のデータから、文字列解析部7aで解析された文字列中、或いは単語抽出部7bから得られた単語データを基に文の数を決定する。画像記録のモード情報がファイル名等から判明すれば、連続スライドショーモードであるか否かを判定でき、さらにExifIFD日付タグのサブセコンドタグから連続する画像が何枚であるがわかるので、その枚数に応じて、出力する文の分数を決定することができる。また、文の数決定部12は、好感度情報の数に合わせて、文を追加するようにしてもよい。
テンプレート選択部13は、文内容決定部11で決定された内容で、文の数決定部12で指定された文の数分の、出力言語決定部10からの指示に従った言語のテンプレートを選択する。作成する文がユーザ登録メモを基にした文であれば、テンプレート選択部13は、ユーザ登録メモ用のテンプレートを選択する。また、撮影年月日についての文を生成するのであれば、そのためのテンプレートを選択する。
また、テンプレート選択部13は、好感度キーによる好感度情報にしたがって、テンプレートを選択することもできる。例えば、テンプレートデータベース14に「これは、<名詞>です。」、「これは、お気に入りの<名詞>です。」という2種類のデータが記録されていたとする。もし、好感度キーが、その画像に対する好感度がよいことを示しているならば、テンプレート選択部13は、「これはお気に入りの<名詞>です。」というテンプレートの方を選択する。好感度がよいことをしめしていなければ、他方のテンプレートを選択する。
また、テンプレート選択部13は、どんなユーザがアプリケーションを使用しているかの情報を基に、テンプレートを選択することができる。例えば、ユーザが10代の若者である場合、テンプレート選択部13は、「これは、<名詞>だよ。」というようなくだけた口調のテンプレートを選択することもできる。
図9は出力内容決定部5の処理手順を示すフローチャートである。先ず、概略的に説明すると、文字列解析部7aにより文字列を解析すると共に単語抽出部7bにより単語を抽出し(ステップS11)、出力言語決定部10により出力言語を決定し(ステップS12)、文内容決定部11により文内容を決定し(ステップS13)、文の数決定部12により文の数を決定し(ステップS14)、テンプレート選択部13によりテンプレートを選択する(ステップS15)。出力する文の数だけテンプレートを選択したか否かの判定(ステップS16)によりYESを判定するまで後、各テンプレートは文出力部6に送られる。文出力部6は、各テンプレートに基づいて文を生成する。
以下には、出力内容決定部5の処理手順を詳細に説明する。文字列解析部7aはステップS1にて文字列を解析し、後段の処理に必要な情報を付加する。本実施の形態では、文字列解析部7aの解析内容を、入力文字列に対し、形態素境界と各形態素の品詞を求める形態素解析であると仮定する。このため、文字列解析部7aは、解析のためのにルールファイル8と辞書ファイル9を用いる。
ルールファイル8には、形態素の並びに関する規則(文法や接続マトリックス、形態素Nグラムなど)と辞書に登録されていない形態素に必要な情報を付与する規則とが書かれている。辞書ファイル9には、表記、品詞、読みなど、登録されている形態素に関する情報が納められている。
形態素境界と品詞の判定は、最長一致法または分割数最小法のような経験則による判定手法を用いても良いし、文法的接続可能性や、統計的な言語モデルを使用しての解析を行なっても良い。形態素解析の手法は本実施の形態においては特に特定されず、たとえば、フリーで公開されている形態素解析システム茶筌(http://chasen.aist-nara.ac.jp/hiki/ChaSen/)などをそのまま用いることが出来る。撮影時間や好感度情報など、値に数値を持つものは、図5のフォーマットにしたがって、数値が取り出される。
文字列解析部7aによる文字列の解析の結果、図6のデータは図10のように解析結果が追加されて、出力される。すなわち、格納フォルダ名の“家族/犬/”には、“家族”−[名詞]、“犬”−[名詞]という解析結果が追加されて出力される。また、ファイル名の“モモの散歩.jpg”には、“モモ”−[名詞]、“の”−[格助詞]、“散歩”−[名詞]という解析結果が追加されて出力される。またファイ名拡張子は“jpg”と解析される。撮影の時間の“2002/06/27”は「2002」、「06」、「27」と、また“09:52:15”は「09」、「52」、「15」と解析されて数値が取り出される。また、撮影の場所の“近所の公園”には、“近所”−[名詞]、“の”−[格助詞]、“公園”−[名詞]という解析結果が追加されて、出力される。また、再生頻度“0”からは「0」が、好感度情報“5”からは「5」が取り出される。また、ユーザ登録メモの“モモちゃんが初めて散歩に行った。”には、“モモ”−[名詞]、“ちゃん”−[接尾辞]、“が”−[格助詞]、“初めて”−[副詞]、“散歩”−[名詞]、“に”−[格助詞]、“行”−[動詞]、“っ”−[語尾]、“た”−[助動詞]、“。”−[句点」という解析結果が追加されて出力される。
また、ステップS11では、単語抽出部7bが図10の解析結果から単語を抽出する。ここで、単語抽出部7bによって抽出された単語は、テンプレートデータベース14からテンプレート選択部13によって選択されたテンプレートに当てはめられる。
次に、ステップS12において出力言語決定部10により、何語の文を生成するかが決定される。出力言語決定部10は、データ(図10)のユーザ登録メモ欄に値が入っているかどうかをチェックする。ユーザ登録メモ欄に値が入っていれば、ユーザ登録メモの言語を出力言語とする。ユーザ登録メモ欄に値が入っていないときは、あらかじめデフォルト言語を決めておき、デフォルト言語を出力言語とする。本実施の形態では、デフォルト言語を日本語と仮定して、説明を進める。
ユーザ登録メモがある場合、ユーザ登録メモが何語で書かれているかを判定する必要がある。本実施の形態にあって、出力言語決定部10は、言語ごとの辞書を複数保持しており、言語ごとにユーザ登録メモの形態素が何語辞書に載っていたかをカウントし、最も単語数が多かった辞書の言語を出力言語に決定する。
次に、ステップS13においてどのような内容の文を生成するかを文内容決定部11が決定する。文内容決定部11には、単語抽出部7bから得られたデータのうち、どれをもとに文を生成するか、また、どれをもとにテキスト音声合成の際の制御情報に用いるかの情報を持たせておく。本実施の形態では、ユーザ登録メモ、ファイル名、撮影時間、撮影場所のデータをもとに文生成を行い、どの情報に関する文であるかや、再生情報、好感度情報をもとにテキスト音声合成の制御を行なうとする。
文内容決定部11では、データのラベル名(格納フォルダ名、ファイル名、ファイル名拡張子…)ごとにその値の有無をチェックする。文生成に用いられるデータに値がある場合、その情報と実際の値をテンプレート選択部13に出力する。
次に、ステップS14において、文の数決定部12が内容ごとに文の数を決定する。デフォルト文数は1にしておき、文の数決定ルールにマッチする場合のみ、出力する文の数を変更する。文の数決定ルールとしては、ユーザ登録メモはその文数の文を出力する、好感度情報が5以上の場合にコメント文を1文追加する、画像が連写モードで撮影された場合に連写の数の文を生成する、などが挙げられる。このルールはアプリケーション設計者が自由に定めてよい。
本実施の形態のデータでは、ユーザ登録メモは1つの文のみから構成されているので、ユーザ登録メモに関する文は1文だが、好感度情報が5なので、コメント文が1文追加される。
次に、ステップS15においてテンプレート選択部13が、文内容決定部11で決定された内容に従い、文の数決定部12で指定された文の数のテンプレートを選択する。テンプレートの言語は、出力言語決定部10からの指示に従う。
図11は本実施の形態で用いるテンプレートの具体例である。本実施の形態では、入力データに、画像ファイルであることを示す拡張子jpg、撮影時間、撮影場所が記載されているので、テンプレート選択部13において、テンプレートデータベース14から「この画像は<年>の<月日>に<場所>で撮影しました。」というテンプレートが選ばれる。次に、ユーザ登録メモがあるので、「<ユーザ登録メモ>」というテンプレートが選ばれる。さらに、コメント文が1文追加されることになっており、好感度が高いので、コメント文のうち、ポジティブなものが選択され、「素敵な画像ですね。」が選ばれる。< >で囲んである部分は、後段の処理でデータから値が代入される。< >の中に ","で区切って複数の項目が記載されている場合は、それらはテンプレート適用の制約条件となり、すべての項目を満たしていなければ、そのテンプレートを適用することは出来ない。
出力内容決定部5は、テンプレート選択部13にて選択されたテンプレートを文出力部6に出力する。
次に文出力部6の説明をする。図12は文出力部6の構成図である。文出力部6は、出力内容決定部5からの入力文字列である単語列を変形する単語変形部15と、入力文の構造を判定する文構造判定部17と、上記図10に示したデータから必要な値を抽出してテンプレートに当てはめるテンプレート適用部18とから構成される。
単語変形部15は、出力内容決定部5から得られたテンプレートに、図10の出力されるデータから単語抽出部7bが抽出して得られた文字列を当てはめる際に、テンプレートに当てはまるように、入力文字列を変形する。このとき、単語変形部15は、概念辞書(シソーラス)ファイル16を参照して入力文字列を他の語に置き換えてもよい。つまり、単語変形部15は、単語抽出部7bによって抽出された単語を、テンプレートに当てはまるように変形するか、或いは概念辞書ファイル16を参照して得た他の語に置き換える。概念辞書は、単語間の概念的な関係を表す辞書である。文字列を同じ概念の語、または上位概念を持つ語などで置き換えるのに用いられる。
たとえば、「<ユーザ登録メモ>,<文>」というテンプレートがテンプレート選択部13によって選択されているとする。このテンプレートは、ユーザ登録メモが文という構造を持っていることを要求している。
そこで、文構造判定部17は、ユーザ登録メモが文であるかどうかをチェックする。文構造判定部17は、図13の文構造決定用のルールを有しており、入力がどのような構造を持っているかを調べることが出来る。本実施の形態のルールでは、入力形態素の並びがルールの右辺と合致すれば、左辺のシンボルで代入することができる。最後まで代入して、得られたシンボルが入力の構造となる。この場合、入力は文と判定される。
図13において、入力形態素が“名詞”、或いは“名詞 接尾辞”であれば[名詞句1]で代入できる。また、“名詞 各助詞”、或いは“名詞 接尾辞 各助詞”であれば[名詞句2]で代入できる。また、“名詞句1”、“名詞句2”、“名詞句2 名詞句1”、“名詞句2 名詞句2”、“名詞句2 名詞句2 名詞句1”、“名詞句2 名詞句2 名詞句2”であれば[名詞句]に代入できる。また、入力形態素が“動詞”、“動詞 語尾”、“動詞 助動詞”、“動詞 語尾 助動詞”であれば[動詞句]で代入できる。また、“副詞”であれば[修飾句]で代入できる。そして、“名詞句 動詞句”、“名詞句 助動詞”、“修飾句、名詞句 動詞句”、“名詞句 修飾句、動詞句”、“名詞句、修飾句 名詞句 動詞句”であれば[文]で代入できる。
もし、ユーザ登録メモが名詞句であると判定された場合、テンプレート「<ユーザ登録メモ>,<文>」は使うことが出来ないので、ユーザ登録メモの文字列を変形する必要がある。たとえば、ユーザ登録メモの内容が、「モモちゃんの散歩の様子」であった場合、最後に「です。」をつけることによって、文にすることが出来、テンプレートを適用できるようになる。また、「これはお気に入りの<ファイル名>,<名詞句>です。」というテンプレートの場合、ファイル名の文字列「モモの散歩」は名詞句なので、単語変形部15は特に何もしない。
また、「これは、<“色”>の<“花”>です。」のようなテンプレートが選択されているとき、テンプレートの適用に概念辞書を用いる。上記テンプレートにおいて、“”に囲まれた文字列は、それが概念であることを示す。テンプレートのはじめの部分には、色を表す名詞を当てはめることができる。2番目の部分には、花という概念を持つ語が入る。
例えば、ユーザ登録メモから得られた文字列が、「赤」と、「チューリップ」であったと仮定する。出力内容決定部5の文字列解析部7aで、「赤」と、「チューリップ」が共に名詞であるという情報が得られる。また、概念辞書ファイル16を用いると、赤の上位概念が色であり、チューリップの上位概念が車であることが判明する。
これらの解析結果を用いることで、「赤」、「チューリップ」という文字列を上記テンプレートに当てはめることができることが判定される。その結果、「これは赤のチューリップです。」という文が生成される。
テンプレート適用部18は、テンプレート選択部13によって選択されたテンプレートを用いて文を生成する。具体的に、テンプレート適用部18は、図10に示したデータから、必要な値を抽出し、あるいは単語変形部25により、変形又は置き換えた語をテンプレートに当てはめる。「この画像は<年>の<月日>に<場所>で撮影しました。」というテンプレートの場合、データから撮影時間の年月日と、撮影場所を抽出し、テンプレートに当てはめて、「この画像は、2002年の6月27日に近所の公園で撮影しました。」という文を得る。
次にテキスト音声合成部4の説明をする。テキスト音声合成部4は、文生成部3にて生成されたテキストを音声波形に変換するためのモジュールである。図14は、テキスト音声合成部4の構成を示したものである。テキスト音声合成部4は、入力されたテキストを音声記号列に変換するための言語処理部21と、言語処理部21からの音声記号列を韻律データに変換するための韻律生成部24と、韻律生成部24からの韻律データを元に音声波形を生成するための波形生成部27とによって構成されている。
言語処理部21は、辞書ファイル22と、ルールファイル23とを有し、入力されたテキストを音声記号列に変換する。韻律生成部24は、ルールファイル25と、データファイル26とを有し、言語処理部21からの音声信号列を韻律データに変換する。波形生成部27は、素片ファイル28を有し、韻律生成部24からの韻律データを基に音声波形を生成する。
概略的に動作を説明すると、テキスト音声合成部4は、入力されたテキストを言語処理部21により辞書ファイル22、ルールファイル23を参照して音声信号列に変換し、韻律生成部24によりルールファイル25、データファイル26を参照して上記音声信号列を韻律データに変換し、波形生成部27により上記韻律データを基に素片データベース28を参照して音声波形を生成する。
以下、言語処理部21、韻律生成部24及び波形生成部27の詳細な構成及び動作について図15〜図19を参照しながら説明する。
図15は、言語処理部21の構成を示したものである。言語処理部21は、入力されたテキストを音声記号列に変更するためのものであり、入力されたテキストを解析し、それぞれの形態素の情報を得るためのテキスト解析部29と、形態素情報を元に音声記号を生成するための韻律情報生成部30とからなる。
テキスト解析部29は、ルールファイル30と、辞書ファイル31に接続している。ルールファイル30には、形態素の並びに関する規則(文法や接続マトリックス、形態素Nグラムなど)と辞書に登録されていない形態素に必要な情報を付与する規則とが書かれている。辞書ファイル31には、表記、品詞、読みなど、登録されている形態素に関する情報が納められている。
テキスト音声合成部4に入力されたテキストは、言語処理部21にあるテキスト解析部29に渡される。入力されるテキストは1文の場合も、複数文からなる場合もありうるが、本実施の形態では、説明を容易にするため1文として、話を進める。
入力された文は、テキスト解析部29において、ルールファイル30と辞書ファイル31とを用いて形態素に分割され、辞書ファイル31からそれぞれの形態素に関する情報を得る。辞書ファイル31に登録されていない形態素については、ルールファイル30を用いて、必要な形態素情報を生成する。テキスト音声合成部4の言語処理部21内のテキスト解析部29は、文生成部3の出力内容決定部5の文字列解析部7と同じものを用いることが出来る。このようにして得られた形態素情報は、韻律情報生成部32へと送られる。
韻律情報生成部32は、形態素情報を解析し韻律情報を得るためのルールファイル33を有する。ルールファイル33には、形態素情報をもとにフレージングや読みの変更を行なうための規則が納められている。また、入力された各形態素について、韻律生成のためのさらに詳しい情報を得るため、テキスト解析部29で用いた辞書ファイル31とも接続されている。韻律生成のための情報とは、例えば、複数の形態素が一緒になって複合語を形成する際に、読みがどのように変化するかの情報や、アクセント核位置の移動パターンの情報などである。
本実施の形態では、形態素に関する情報も韻律生成のための情報も1つの辞書ファイル31に納めるという構成を取っているが、それぞれを別の辞書ファイルとして保持し、テキスト解析部29には形態素に関する情報のみが納められた辞書ファイルが接続されており、韻律情報生成部32には韻律生成のための情報のみが納められた辞書ファイルが接続されているという構成で同等の処理を行なうことができる。
韻律情報生成部32では、テキスト解析部29から受け取った形態素情報をもとに、入力文に対し、ルールを用いて韻律情報を付与するという処理を行なう。韻律情報とは、言語によって異なるが、日本語であれば、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などが挙げられる。韻律情報は、装置の設計によって異なるので、上記情報を全て含む必要はなく、上記情報に限定する必要もない。
韻律情報生成部32での処理によって得られる韻律情報は、音声記号列で表現される。音声記号列とは、入力テキストを発音記号、アクセント記号、ポーズ記号、音調記号などを用いて表現したものである。発音記号やアクセント記号では、IPA(国際音声字母、International Phonetic Alphabet)やSAMPAなどが広く知られている。また、ポーズ記号や音調記号については、ToBI(Tone and Break Indices)が有名である。言語処理部21は、得られた音声記号列を韻律生成部24へと出力する。
図16は韻律生成部24の構成を示したものである。韻律生成部24は、入力された音声記号列を韻律データに変換するためのものである。韻律生成部24は、各音素の継続時間長を求めるための継続時間長決定部34と、各音素の基本周波数を求めるための基本周波数決定部39とによって構成されている。
継続時間長決定部34は、言語処理部21からの音声信号列を音素に関する解析データファイル36を用いて解析する音声信号列解析部35と、音声信号列解析部35にて解析されたそれぞれの音素の継続時間長を、継続時間長を決めるためのルールファイル38を用いて決定するルール適用部37とを有する。解析データファイル36に格納されている、音素に関する解析データとは、例えば、それぞれの音素が母音かどうかやそれぞれの音素のデフォルトの継続時間長などを指す。ルールファイル38に格納されている、継続時間長を決めるためのルールとは、どのような音韻環境の時にデフォルト継続時間長を伸縮させるかを決めるための規則のことである。音韻環境とは、その音素が母音であるかどうか、前後の音素が何であるか、音節の何番目の音素であるか、アクセント核位置かどうかなどを指す。
継続時間長決定部34は、音声信号列解析部35にて解析データファイル36を用いて言語処理部21からの音声信号列を解析し、ルール適用部37にてルールファイル38を用いてそれぞれの音素の継続時間長を決定する。つまり、ルール適用部37にてルールを適用するのに必要な情報は入力された音声記号列を音声信号列解析部35にて解析することで得られる。継続時間長決定部34にて決定された継続時間長の情報は基本周波数決定部39へと送られる。
基本周波数決定部39は、言語処理部21からの音声信号列と継続時間長決定部34にて決定された継続時間長の情報から韻律データを生成する。このため、基本周波数決定部39は、上記音声信号列の基本周波数パターンを、基本周波数パターンに関する解析データファイル41を用いて解析してルール適用に必要な情報を得る音声信号列解析部40と、音声信号列解析部40にて得られた情報を基に、パターン選択用ルールファイル43を用いて最適なパターンを選択するルール適用部42と、ルール適用部42にて決定された最適なパターンを継続時間長決定部34にて既に決定されたそれぞれの音素の継続時間長に合わせて変形して音素毎の基本周波数を決定する時間伸縮部44とを備える。
解析データの持ち方とルールデータの選択方法は装置の設計によって、様々な実現形態が考えられるが、本実施の形態では、その音素が属する単語のアクセント型や、アクセントの強さ、係り受けなどの文構造などを基準にルールの適用可能性是非を判定する手法を用いる。
上記基本周波数パターンのデータは、複数の音素にまたがる基本周波数の値を保持しておく。解析データファイルは、ルールで選択できるように、アクセント型や音調など予測要因毎にパターンが分類してある。
基本周波数決定部39は、入力された音声記号列を音声信号列解析部40により上記解析データファイル41を参照して解析し、ルール適用に必要な情報を得る。得られた情報を元に、ルール適用部42がパターン選択用ルールファイル43を参照して、最適なパターンを選択する。ルール適用部42にて選択されたパターンは、継続時間長決定部34ですでに決定されたそれぞれの音素の継続時間長にあわせて、時間伸縮部44にて変形され、音素毎の基本周波数が決定される。継続時間長決定部34で決定された音素毎の継続時間長と基本周波数決定部39で決定された音素毎の基本周波数は、韻律データとして韻律生成部24から、波形生成部27へ送られる。
韻律データの一部を図17及び図18に示す。韻律データの前半は図17の継続時間長(duration)のデータ、後半は図18の基本周波数(pitch)のデータである。図17において、継続時間長のデータは、一番左が音声開始時点からのサンプル数、次が音素列、一番右が音素ごとの継続時間長になっている。図18において基本周波数のデータは、左が音声開始時点からのサンプル数、右が基本周波数の値である。
図19は、波形生成部27の構成を示したものである。波形生成部27は、韻律生成部24の出力である韻律データから音声波形を生成する。このため、本実施の形態で用いられる波形生成部27は、入力された韻律データを音素列情報、音素時間長情報、ピッチパターン情報に分配する韻律データ分配部51と、入力された音素列情報に含まれる音素列を選択し、選択した音素列に対応する音響特長パラメータを音声データファイル53から順次読み出して出力する素片選択部52と、音素列によって時間軸上に並べられた音響特長パラメータを入力とし音素時間情報によってそれぞれの音素の長さに等しくなるようにパラメータを時間軸上で伸縮するパラメータ補正部54と、パラメータ補正部54から出力される音響特長パラメータの系列、また、韻律データ分配部51からのピッチパターン情報に基づいてピッチを変更しながら音声信号波形を合成して出力する波形組み立て部55とにより構成される。
素片選択部52が有している音声データファイル53に格納されている音声データとは、既存の規則音声合成装置に使用されるものと同様のもので、たとえばケプストラム係数などの音声の音響的な特長を示すパラメータなどである。また、素片のひとつひとつの長さは、CV、CVC、その他の合成単位に応じた単位、あるいはコーパスベースの合成方式では特に合成単位を固定せずに保存する場合もある。
この波形生成部27の概略的な動作は以下のようになる。入力された韻律データは、韻律データ分配部51によって音素列情報、音素時間長情報、ピッチパターン情報に分けられ出力される。音素列情報は素片選択部52に送られる。素片選択部52では、入力された音素列情報に基づいて音声データファイル53を参照して上記音素情報に含まれる音素列を選択して、選択した音素列に対応する音響特長パラメータを順次読み出して出力する。パラメータ補正部54は、音素列によって時間軸上に並べられた音響特長パラメータを入力とし、音素時間情報によってそれぞれの音素の長さに等しくなるようにパラメータを時間軸上で伸縮する。また、素片の接続部でのパラメータの不整合を避けるためにパラメータが滑らかに変化するように音響特長パラメータを補正する。また、パラメータを変更することにより、それぞれの音素の強さを変更する。波形組み立て部55は、パラメータ補正部54から出力される音響特長パラメータの系列に基づいて、また、韻律データ分配部51からのピッチパターン情報に基づいてピッチを変更しながら音声信号波形を合成して出力する。
このように本実施の形態の音声合成装置1は、Exifファイルの画像ファイルや、オーディオファイルから画像又は音響データに付随する情報である、ユーザ登録メモ、格納フォルダ名、記録時の情報、再生頻度、又は好感度情報を読み出し、読み出した情報に基づいて文を生成し、生成した文を音声合成して音声として出力することができる。このため、本発明の音声合成装置1を画像音声記録再生装置に適用すれば、音声によって案内される情報によって、画像音声記録再生装置によって記録/再生された画像を検索することができる。
なお、本発明の音声合成装置によれば、出力音声の話速、音量、声の高さ、声色、韻律的特徴を変更することができる。以下に、テキスト音声合成における出力音声変更の手法について説明する。
それぞれの変更は以下の手法にて行われる。
話速=継続時間長の伸縮
音量=パラメータの補正、変更
声の高さ=基本周波数の値を変更
声色=音声データの変更
韻律的特長=音素ごとの継続時間長、パラメータ、基本周波数の変更
韻律的特長とは、たとえば、はつらつとしたイントネーション、強調イントネーション、暗いイントネーションなど、音声を聞いたときの印象に関するものである。
はつらつとしたイントネーションは、高くて大き目の音で、少し速めに合成することによって実現することが出来る。強調イントネーションは、高くて大き目の音で、少しゆっくり目に合成することによって実現することが出来る。このように、合成する音の高さ、長さ、強さを変更することで、異なる韻律的特徴を実現することが可能となる。このように、本発明では、画像又は音響データに付随する情報によって、出力される合成音の話速、音量、声の高さ、声色、韻律的特徴を変更する。
図20は出力する合成音を変更可能な音声合成装置60の構成図である。出力する合成音を変更可能な音声合成装置60は、図1に構成を示した音声合成装置1に加え、音声合成制御部61を有する。
音声合成制御部61は情報読み出し部2にて抽出された情報と、文生成にて生成された文とをもとに合成音をどのように変化させるかを決定し、テキスト音声合成部4をコントロールするためのモジュールである。
また、音声合成制御部61は、効果音のデータベースを有し、合成音と同期させて、効果音を出力することも可能である。たとえば、音声合成制御部61には、文生成部3で生成された文が、ユーザ登録メモをもとに生成されたものである場合、柔らかなイントネーションで音声合成するというルールが保持されているとする。
音声合成制御部61は、情報読み出し部2と文生成部3から得られる情報によって、テキスト音声合成部4が処理しようとしている文がユーザ登録メモから生成されたものであるかどうかを判断する。もし、文がユーザ登録メモから生成されたものであった場合、音声合成制御部61は韻律データと音響特徴パラメータ、音声データを変更する。たとえば、柔らかなイントネーションは、ゆっくり目で穏やかな声によって実現されるとすると、音声合成制御部61は、韻律データの継続時間長の値をそれぞれ同じ割合で伸長させる。また、テキスト音声合成部4の波形生成部27が用いる音声データを、穏やかな声のデータをもとに生成された音声データと入れ替える。そして、音響特徴パラメータの音量に関する部分の値を同じ割合で小さくする。これにより、出力される合成音は柔らかなイントネーションを持つようになる。
同様にして、再生頻度によって、強調イントネーションを実現したり、好感度情報によってはつらつとしたイントネーションを実現したりすることが出来る。また、画像ないし音響データが記録された時間に応じて、合成音と同期させて、効果音を出力することも出来る。
音声合成装置1、音声合成装置60は、携帯型の画像音声記録再生装置に適用できる。図21は、音声合成装置60を内蔵した携帯型画像音声記録再生装置の構成を示す図である。
図21において、画像音声記録再生装置70は、被写体をレンズ71を通して撮像するカメラ撮像部72と、カメラ撮像部72で撮像された被写体画像に記録処理や再生処理を施すと共に、画像圧縮処理や画像伸長処理を施す画像記録再生部73と、画像記録再生部73で記録処理や再生処理が施された画像を後述するシステム制御部74による制御の基に表示する画像表示部75とを備える。
カメラ撮像部72は、撮像した画像を画像記録再生部73に入力する。画像記録再生部73は、カメラ撮像部72で撮像された撮影画像を圧縮してファイルとして撮影画像ファイルデータベース76に記録するための記録処理、ファイルを撮影画像ファイルデータベース76から読み出して伸長する再生処理を行う。また、画像記録再生部73は、必要に応じて音声信号をファイルフォーマットを使用して撮影画像ファイルデータベース76に画像信号と共に入力する。画面表示部75は、好ましくは画像又はアイコン表示の可能な平板表示器であり、画像ファイルに対応してそのファイル内の画像データや見出し用縮小画像であるサムネイル画像を表示する。また、撮影原画像も表示できる。また、文字入力メニュー表示機能も有している。
また、この画像音声記録再生装置70は、画像記録再生部73により記録処理が施された各原画像に対応して付加される情報や撮影メディアフォーマットに記載された情報をシステム制御部74の制御に基づいてファイルデータとして格納している撮影画像ファイルデータベース76と、使用者により操作される操作キー部78と、操作キー部78からの操作入力信号、特に画像選択情報データ、登録文字列情報データ、連続再生スタート画像指定データなどを受けてシステム制御部74に送る登録キー制御部77とを備える。
撮影画像ファイルデータベース76は、書き込み可能な不揮発性メモリまたは書き込み消去可能なメモリメディアであって、例えばメモリカード、カード型HDD、リムーバブル光ディスク等のリムーバブルメディアからなり、DCFファイルシステム等のリムーバブルメディアフォーマットに準拠して読み出しが可能とされる。また、ユーザ登録文字情報がリムーバブルメディアフォーマットに準拠して入力できることが好ましい。
また、この画像音声記録再生装置70は、画像記録再生部73、画像表示部75、撮影画像ファイルデータベース76、登録キー制御部77に接続されて各部を制御するシステム制御部74を備える。システム制御部74は、記録再生制御機能部81、カメラ状態制御機能部82、ファイルシステム制御機能部83、ユーザキー設定機能部84を有する。
また、システム制御部74内の上記カメラ状態機能部82、ファイルシステム機能部83及びユーザキー設定機能部84は、音声合成装置60の情報読み出し部2を構成する。つまり、情報読み出し部2は、システム制御部74内のカメラ状態機能部82、ファイルシステム機能部83及びユーザキー設定機能部84を介して、撮影画像ファイルデータベースから上記画像又は音響データに付随する情報を読み出す。情報読み出し部2で読み出された情報は、音声合成部60を構成する文生成部3に供給される。文生成部3は、読み出した情報を基にテキストを作成する。テキスト音声合成部4は、文生成部3にて作成されたテキストを音声に合成して出力する。音声合成制御部61は、テキスト音声合成部4における音声合成をコントロールする。
情報読み出し部2を構成する、カメラ情報制御機能部82は、デジタルカメラの状態に関する情報を文生成部3に供給する。デジタルカメラの状態とは、使用されているアプリケーションが何語モードで起動されているかや、その時点での何月日、時間、呼び出しメニューのモードなどを指す。
ファイルシステム制御部83は、画像に関する情報を文生成部3に供給する。画像に関する情報とは、その画像の日時、ファイル拡張子、その画像へのアクセス頻度、その画像が格納されているフォルダの名前、ユーザコメント、感性キー情報などを指す。
ユーザキー設定制御機能部84は、出力音声について使用者から指定された情報を供給する。出力音声についてユーザから指定された情報とは、出力音声の言語、ボリューム、スピード、声の高さなどを指す。
音声合成部60は、上述したように、Exifファイルの画像ファイルや、オーディオファイルから画像又は音響データに付随する情報である、ユーザ登録メモ、格納フォルダ名、記録時の情報、再生頻度、又は好感度情報を読み出し、読み出した情報に基づいて文を生成し、生成した文を音声合成して音声として出力することができる。また、音声合成部60は、音声合成制御部61を備えているので、文がユーザ登録メモから生成されたものであった場合、韻律データと音響特徴パラメータ、音声データを変更する。これにより、柔らかなイントネーションを合成音に持たせることができる。同様にして、再生頻度によって、強調イントネーションを実現したり、好感度情報によってはつらつとしたイントネーションを実現したりすることが出来る。また、画像ないし音響データが記録された時間に応じて、合成音と同期させて、効果音を出力することも出来る。
このような音声合成部60を備えることにより、画像音声記録再生装置70は、音声によって案内される情報を基に、記録/再生された画像をユーザに簡単に検索させることができる。
なお、本発明に係る音声合成装置は、デジタルカメラによって撮影されて記録された画像を検索する画像検索装置として用いられてもよい。この画像検索装置は、デジタルカメラから得られる情報を基にテキストを生成する文生成手段と、上記文生成手段によって生成されたテキストを基に音声を合成するテキスト音声合成手段とを備え、上記文生成手段によって生成されたテキストによる文を読み上げる。
この画像検索装置にあって、上記文生成手段は、デジタルカメラの撮影メディアフォーマットに記載された情報、すなわち画像又は音響データに付随する情報を基にテキストを生成する。また、文生成手段は、ユーザ登録メモを基にテキストを生成する。また、上記文生成手段は、画像データを格納するフォルダ名を基にテキストを生成する。また、上記文生成手段は、上記デジタルカメラから得られる情報に基づいて生成する文の数を変える。また、上記文生成手段は、画像へのアクセス頻度に基づいて生成する文の数を変えてもよい。また、好感度キーに基づいて生成する文の数を変えてもよい。
また、上記文生成手段は、ユーザ登録メモから単語抽出し、テンプレートに当てはめて文生成を行う。このとき、上記文生成手段は、ユーザ登録メモに記載された文字列を順に、テンプレートの空欄に当てはめて文生成を行なう。また、上記文生成手段は、ユーザ登録メモに記載された文字列を解析し、単語を抜き出して、テンプレートの空欄に当てはめて文生成を行う。また、上記文生成手段は、ユーザ登録メモに記載された文字列をテンプレートに当てはまるように変形し、テンプレートの空欄に当てはめて文生成を行う。また、上記文生成手段は、ユーザ登録メモに記載された文字列を解析し、単語を抜き出して、テンプレートに当てはまるように変形し、テンプレートの空欄に当てはめて文生成を行う。
また、上記文生成手段は、ユーザ登録メモに記載された単語を用いて、概念辞書から別の単語を選出し、テンプレートに当てはめて文生成を行なう。また、上記文生成手段は、ユーザ登録メモに記載された単語を用いて、概念辞書から同じ意味情報を持つ単語を選出し、テンプレートに当てはめて文生成を行なう。また、上記文生成手段は、ユーザ登録メモに記載された単語を用いて、概念辞書からその単語の上位概念の単語を選出し、テンプレートに当てはめて文生成を行なう。
また、上記文生成手段は、画像データを格納するフォルダー名をテンプレートに当てはめて文生成を行なってもよい。また、上記文生成手段は、撮影情報データから時間情報を抽出し、テンプレートに当てはめて文生成を行ってもよい。また、上記文生成手段は、デジタルカメラから得られる情報の種類によって、使用するテンプレートを選択する。また、上記文生成手段は、デジタルカメラから得られる情報として、ユーザ別アクセス頻度を使用してもよい。また、上記文生成手段は、デジタルカメラから得られる情報として、好感度キーに基づいた好感度情報を使用してもよい。また、上記文生成手段は、デジタルカメラから得られる情報として、ファイルの拡張子によって、使用するテンプレートを選択してもよい。
また、上記文生成手段は、検索対象の他の画像ファイルに付随する情報を用いて、使用するテンプレートを選択してもよい。検索対象の他の画像ファイルに付随する情報として、画像が撮影された時間を用い、使用するテンプレートを選択する。上記文生成手段は、検索対象の他の画像ファイルに付随する情報として、ユーザ登録メモに記載されている単語を用い、使用するテンプレートを選択してもよい。また、上記文生成手段は、ユーザ登録メモから単語を抽出し、メモに記載された単語の情報として、単語の表記、品詞、意味情報のいずれか1つ以上を用いて、テンプレートを選択する。
上記画像検索装置にあって、上記テキスト音声合成手段は、デジタルカメラから得られる言語の情報によって、出力される合成音声の言語を変更する。また、上記テキスト音声合成手段は、ユーザによって指定された言語を合成音の言語として出力してもよい。また、上記テキスト音声合成手段は、デジタルカメラのモードから使用言語を選択してもよい。また、上記テキスト音声合成手段は、ユーザ登録メモに含まれる文字列を解析し、言語判定をする。また、上記テキスト音声合成手段は、決定された言語が、上記文生成手段によって生成された文の言語と異なる場合、生成された文を決定された言語の文に変換する機能を有する。
また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの文体を変更する。また、上記テキスト音声合成手段は、デジタルカメラから得られる情報として、ユーザ登録メモの内容、撮影情報データ、撮影時間、撮影場所、画像へのアクセス頻度、好感度キーによる好感度情報、呼び出しモードのメニューのうちいずれか1つ以上を用いることによって、上記文生成手段によって生成された文を出力するときの文体を変更する。上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの文体を変更する。
また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの合成音声の韻律を切り替える。また、上記テキスト音声合成手段は、韻律として、基本周波数と音韻継続時間長のいずれか1つ以上を切り替える。
また、上記テキスト音声合成手段は、デジタルカメラから得られる情報として、ユーザ登録メモの内容、撮影情報データ、撮影時間、撮影場所、画像へのアクセス頻度、好感度キーによる好感度情報、呼び出しモードのメニューのうちいずれか1つ以上を用いることによって、上記文生成手段によって生成された文を出力するときの合成音声の韻律を切り替える。また、上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの合成音声の韻律を変更する。
また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの合成音声の話速を決定する。また、上記テキスト音声合成手段は、デジタルカメラから得られる情報として、ユーザ登録メモの内容、撮影情報データ、撮影時間、撮影場所、画像へのアクセス頻度、好感度キー、呼び出しモードのメニューのうちいずれか1つ以上を用いることによって、上記文生成手段によって生成された文を出力するときの合成音声の話速を決定する。上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの合成音声の話速を決定する。
また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの合成音声の音量レベルを決定する。また、上記テキスト音声合成手段は、デジタルカメラから得られる情報として、ユーザ登録メモの内容、撮影情報データ、撮影時間、撮影場所、画像へのアクセス頻度、好感度キー、呼び出しモードのメニューのうちいずれか1つ以上を用いることによって、上記文生成手段によって生成された文を出力するときの合成音声の音量レベルを決定する。また、上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの合成音声の音量レベルを決定する。
また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの合成音声の声色を決定する。上記テキスト音声合成手段は、デジタルカメラから得られる情報として、ユーザ登録メモの内容、撮影情報データ、撮影時間、撮影場所、画像へのアクセス頻度、好感度キー、呼び出しモードのメニューのうちいずれか1つ以上を用いることによって、上記文生成手段によって生成された文を出力するときの合成音声の声色を決定する。上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの合成音声の声色を決定する。
また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの合成音声に効果音を付与するか否かを決定する。また、上記テキスト音声合成手段は、デジタルカメラから得られる情報として、ユーザ登録メモの内容、撮影情報データ、撮影時間、撮影場所、画像へのアクセス頻度、好感度キー、呼び出しモードのメニューのうちいずれか1つ以上を用いることによって、上記文生成手段によって生成された文を出力するときの合成音声に効果音を付与するか否かを決定する。また、上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの合成音声に効果音を付与するか否かを決定する。また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの合成音声に付与する効果音の種類を決定する。また、上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの合成音声に付与する効果音の種類を決定する。
1 音声合成装置、2 情報読み出し部、3 文生成部、4 テキスト音声合成装置、5 出力内容決定部、7 文字列解析部、10 出力言語決定部、11 文内容決定部、12 文の数決定部、13 テンプレート選択部、14 テンプレートデータベース