JP2006023592A

JP2006023592A - 音声合成装置及び音声合成方法

Info

Publication number: JP2006023592A
Application number: JP2004202320A
Authority: JP
Inventors: Erika Kumakura; 恵理香熊倉; Shunji Okada; 俊二岡田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-07-08
Filing date: 2004-07-08
Publication date: 2006-01-26
Anticipated expiration: 2024-07-08
Also published as: JP4765274B2

Abstract

【課題】画像又は音響データに付随する情報である、ユーザ登録メモ、格納フォルダ名、記録時の情報、再生頻度、又は好感度情報を読み出し、読み出した情報に基づいて文を生成し、生成した文を音声合成して音声として出力することができる音声合成装置を提供する。
【解決手段】情報読み出し部２は、画像又は音響データに付随する情報を読み出す。文生成部３は、情報読み出し部２によって読み出された情報に基づいて文を生成する。テキスト音声合成部４は、文生成部３によって生成された文を音声合成して出力する。
【選択図】図１

Description

本発明は音声合成装置及び音声合成方法に関し、特に画像又は音響データに付随する情報に基づいて文を生成し、音声合成する音声合成装置及び音声合成方法に関する。

近年、デジタルスチルカメラ、携帯情報端末（ＰＤＡ）等では、着脱型メモリであるリムーバブルメモリに画像、動画及び音楽ファイル等の画像ファイル及び画像に関連するファイルをデジタルカメラファイルフォーマットに基づいて記録し、上記機器間やプリンタ等の関連機器間で簡便にファイルを交換するようになってきた。

例えば、デジタルスチルカメラで撮影し、リムーバブルメディアに上記デジタルカメラフォーマットに基づいて記録した画像ファイルを関連機器等で呼び出そうとする場合には、画像検索が行われる。また、デジタルスチルカメラで後日、目的の画像ファイルを呼び出そうとするときにも画像検索が行われる。

一般的に、画像検索方法、画像検索装置においては、原画像に対応して画像情報検索のデータベースに登録された検索キーを使い、あるいは見出し検索用の縮小画像を配列表示し、フォーカス選択して、縮小画像と原画像とのリンク構造を使用して原画像を表示鑑賞することが以下に記す特許文献などにより様々な形態で行われている。

特許文献１には、プレゼンテーション装置に使用する、縮小見出し画像と付属データの行列表示技術が開示されている。特許文献２には、電子画像の媒体記録再生装置に使用した場合の見出し画像を記録、再生利用する技術が開示されている。特許文献３には、電子画像表示装置で選択された縮小画像に枠フォーカス表示付けて選択状態表示を知らせる技術が開示されている。特許文献４には、検索した画像データに追加属性情報を登録する技術が開示されている。特許文献５には、配列表示された縮小画像の一つを選択して、それを起点に後続の縮小画像集合を配列表示する技術が開示されている。特許文献６には、配列表示された見出し縮小画像で画像検索する静止画動画の画像検索装置があるシステム例の開示がある。特許文献７には、情報サービス受信装置および情報サービス受信方法が開示されている。特許文献８には、「デジタルカメラ」メモリカードの識別名をつけるという技術が開示されている。また、非特許文献１には、データベースの検索のために必要な複数の項目およびデータを日常会話に近い自然語文表現でデータベースを検索できれば操作性が非常に向上することが開示されている。

特開昭６１−２３５９８１号公報特開昭６２−２４８３８９号公報特許第２５３０６１２号公報特許第０３１９２６１３号公報特開平０２−９０８７６号公報特許第３０８１３０４号公報特開平１０−９１４９９号公報特開２００１−１６９２２５号公報「日立評論」ＶＯＬ．６９，Ｎｏ．３（１９８７−３）の第２３〜２７ページ「コンピュータのための自然語インターフェース」

しかしながら、前述の如く、小型化する携帯型画像表示装置において検索画像を閲覧する場合には、装置付属の表示画面サイズがますます小型化され、さらには見出し画像を多数配置するとその微細な情報を認識判別することが非常に困難になってきている。また、登録キーを表示しようにも、表示画面自体が小さいので文字も大きくできず、文字数も多数を同時に表示できず、求める画像を的確に選択するのに困難なものになってきていた。

また、小型携帯型画像表示機器は、その記録内容のパーソナルコンピュータＰＣとの流通性から、小型携帯型画像表示機器専用のメディアファイルフォーマットを使用している。

本発明は、上記実情に鑑みてなされたものであり、画像又は音響データに付随する情報である、ユーザ登録メモ、格納フォルダ名、記録時の情報、再生頻度、又は好感度情報を読み出し、読み出した情報に基づいて文を生成し、生成した文を音声合成して音声として出力することにより、ユーザフレンドリに音声合成によって画像の検索を可能とする音声合成装置及び音声合成方法の提供を目的とする。

本発明に係る音声合成装置は、上記課題を解決するために、画像又は音響データに付随する情報を読み出す情報読み出し手段と、上記情報読み出し手段によって読み出された情報に基づいて文を生成する文生成手段と、上記文生成手段によって生成された文を音声合成して出力する音声合成手段とを有する。

画像又は音響データから情報読み出し部が必要な情報を抽出し、その情報を元に文生成部がガイド文を生成し、生成されたガイド文をテキスト音声合成部が音声合成し、音声を出力する。

本発明に係る音声合成方法は、上記課題を解決するために、画像又は音響データに付随する情報を読み出す情報読み出し工程と、上記情報読み出し工程によって読み出された情報に基づいて文を生成する文生成工程と、上記文生成工程によって生成された文を音声合成して出力する音声合成工程とを有する。

本発明の音声合成装置及び音声合成方法は、画像又は音響データに付随する情報である、ユーザ登録メモ、格納フォルダ名、記録時の情報、再生頻度、又は好感度情報を読み出し、読み出した情報に基づいて文を生成し、生成した文を音声合成して音声として出力することができる。このため、本発明の音声合成装置を携帯型の画像音声記録再生装置に適用することで、音声によって案内される情報によって、画像音声記録再生装置によって記録／再生された画像を検索することができる。

本発明の音声合成装置及び音声合成方法を携帯型の画像音声記録再生装置に適用すると、以下のような効果も得られる。先ず、画像説明または楽曲ファイル対応説明のための説明音声のオーディオデータファイルを別途記録する必要がなくなり、撮影枚数が数桁以上、例えば数千枚以上に増加しても対応する説明音声オーディオファイルを記録することなくテキスト音声合成によるファイル説明のガイド文音声出力が可能になる。

また、書き込み媒体が光ディスクのようなメディア上のシークに時間のかかる場合に、対応する説明音声のオーディオファイルをファイルシステムで検索する制御が不要となり、ファイル数が増大していっても説明音声へのアクセス時間が増加しない。

また、選択表示が縮小画像に付加表示処理された状態で、この選択された縮小画像と対応する画像付加情報コードがテキスト音声合成インターフェース手段に出力されるので、携帯型機器の表示画面がさらに縮小されて縮小画像の内容が認識しにくい場合でも個別の縮小画像が選択されることによって、その選択された縮小画像と対応する画像付加情報が説明音声として認識できる。

また、別途音声説明オーディオファイルの記録必要がなくなるので、書き込み回数の減少により、書き込み回数に上限制限のあるメモリや一括して書き込み消去をおこなう必要のある、たとえばフラッシュメモリを使用するメモリカードの場合、メディアがさらに長く使用できることとなる。

また、音声合成によるので、文字表示することにより小さな画面を隠したり表示妨害することなく、情報を省略する必要なく音声にて聞いて把握することができる。

複数言語にも対応できる。複数ユーザ年齢にも対応できる。複数再生場所にも対応できる。複数記録場所にも対応できる。

以下、本発明を実施するための最良の形態を説明する。本実施の形態は、携帯型撮影画像メディアフォーマットとして広く使用されている、交換可能メディア画像ファイルフォーマット（Exchangeable Image File Formqt：Exif、イグジフ）、特にその中で静止画デジタルカメラに広く採用され普及している、ＤＣＦ（Design Rule for Camera File)システムを用いて撮影画像や音声をリムーバブルメディアに記録すると共に上記リムーバブルメディアから撮影画像や音声を再生する携帯型の画像音声記録再生装置に適用される音声合成装置である。

音声合成装置は、携帯型画像音声記録再生装置が上記ＤＣＦシステムにしたがってリムーバブルメディアに記録した撮影メディアフォーマットに記載された情報を用いて文を生成し、生成した文を音声合成して出力する。ここでいう、撮影メディアフォーマットに記載された情報とは、画像又は音響データに付随する情報のことで、ユーザ登録メモ、画像データを格納する格納フォルダ名、記録時の情報、再生頻度、又は好感度情報がある。

図１は音声合成装置１のブロック図である。この音声合成装置１は、画像又は音響データに付随する情報を読み出す情報読み出し部２と、情報読み出し部２によって読み出された情報に基づいて文を生成する文生成部３と、文生成部３によって生成された文を音声合成して出力するテキスト音声合成部４とによって構成される。

図２は音声合成装置の全体的な処理手順を示すフローチャートである。画像又は音響データから情報読み出し部２が必要な情報を抽出し（ステップＳ１）、その情報を元に文生成部がガイド文を生成し（ステップＳ２）、生成されたガイド文をテキスト音声合成部が音声合成し（ステップＳ３）、音声を出力する。

情報読み出し部２は、上述したように、例えば、ユーザ登録メモ、格納フォルダ名、記録時の情報、再生頻度、又は好感度情報からなる、画像又は音響データに付随する情報を読み出す。以下に、情報読み出し部２の上記付随する情報の読み出しについて説明する。図３は交換可能メディア画像ファイルフォーマットであるExifファイルの画像ファイル構成例である。図４はExifファイルのオーディオファイル構成例である。

Exifファイルの画像ファイル構成例では、図３に示すように、SOI（Start Of Image）によりJPEGストリームの先頭が示される。SOIの直後にはAPP1（Application marker segment 1）が挿入される。APP1にはExif情報が記載される。このExif情報については詳細を後述する。APP1に続いてJPEGテーブルが記載される。量子化テーブル、ハフマンテーブル、フレームヘッド、スキャンヘッドなどが含まれる。次に、JPEG基本原画像データが続く。そして、EOI（End OF Image）でJPEGデータの終端が示される。

APP1に記載されるExif情報は、APP1マーカー、APP1のデータ長、Exifの識別コード（ExifIFD）及び付属情報本体から構成される。これら全てを含むAPP1の大きさは、JPEG規格により64kByteを越えない。付属情報は、最大二つのIFD（0thIFD、1stIFD）を記録できる。0thIFDには、圧縮されている画像（主画像）に関する付属情報を記録する。1stIFDには、サムネイル画像（JPEG圧縮基本サムネイルデータ）を記録する。

ExifIFDは、Exif固有の付属情報を記録するためのタグの集まりである。Exifバージョンタグ、画像データ特性タグ、画像構造タグ、ユーザコメントタグ、関連ファイル情報タグ、日時タグ、撮影条件タグ、IFDポインタ互換性からなる。

バージョンタグは、本Exif規格での対応バージョンを示す。このフィールドが存在しなければ、本Exif規格に準拠していないと判断される。本Exif規格に準拠する場合には、4ByteのASCII”0210”を記録する。

画像データ特性タグは、色空間を示す情報である。本規格では、PCモニタによる観察条件から色空間を規定したsRGB(=1)を使用する。

画像構造タグは、実効画像幅（PixelXDimension）、実効画像高さ（PixelYDimension）、各コンポーネントの意味（ComponentsConfiguration）、画像圧縮モード（CompressedBitsPerPixel）からなる。実効画像幅は、圧縮データ固有の情報である。圧縮ファイルを記録する場合には、パディングデータの有無、リスタートマーカの有無に関わらず、有意な画像の幅をこの実効画像幅タグに必ず記録する。非圧縮ファイルでは書かない。実効画像高さも圧縮データ固有の情報である。圧縮ファイルを記録する場合には、パディングデータの有無、リスタートマーカの有無に関わらず、有意な画像の高さをこの実効画像高さタグに必ず記録する。非圧縮ファイルでは書かない。各コンポーネントの意味も圧縮データ固有の情報である。各コンポーネントのチャネルを、第１コンポーネントから第４コンポーネントの順に示す。圧縮画像モードも圧縮データ固有の情報である。画像圧縮時に設定された圧縮モードを単位bit/pelで示す。

ユーザコメントタグは、メーカーノートと共にユーザ情報に関するタグを構成する。メーカーノートは、Exifライターのメーカが個別の情報を記入するためのタグである。内容については各メーカの運用に任せられている。ユーザコメントタグは、イメージディスクリプション以外に画像に対してExifユーザがキーワードやコメントをユーザ登録メモとして書き込むためのタグである。

ユーザコメントに書かれる文字コードを判別するために、文字コードタイプをタグのデータ領域先頭に8バイト固定で記入し、余った領域にはnullでパディングする。文字コードとしてはASCII、JIS、Unicode、Undefinedがあり、リファレンスとしてITU-TT.50IA5、JISX0208-1990、UnicodeStandard、Undefinedがある。Exifのリーダーは、文字コードを判別する機能を必ず持つ。そして、リーダーの能力に応じて表示する。文字コードタイプに続けて、ユーザコメントデータ欄が設けられる。文字コードタイプで識別された文字コードにより、Exifユーザがキーワードやコメントをユーザ登録メモリとして書き込むところである。

関連ファイル情報タグは、画像データに関連する音声ファイル名を記録している。関連情報として、相手先であるExif音声ファイルのファイル名と拡張子を一つだけ記録する。Exif画像ファイルとExif音声ファイルの対応関係には、３通りある。一つのExif画像ファイルに対して一つのExif音声ファイルが対応する関係、複数のExif画像ファイルに対して一つのExif音声ファイルが対応する関係、一つのExif画像ファイルに対して複数のExif音声ファイルが対応する関係である。本タグを用いて画像ファイルと音声ファイルを関連づける場合には、必ず関連付けされた音声ファイル側にも関連情報を記載しなければならない。

日時に関するタグは、原画像の生成日時DateTimeOriginal、デジタルデータ作成日時DateTimeDigitized、DateTimeのサブセックSubsecTime、DateTimeOriginalのサブセックSubsecTimeOriginal、DateTimeDigitizedのサブセックSubsecTimeDigitizedである。

原画像の生成日時DateTimeOriginalは、原画像の生成された日付と時間を示す。デジタルスチルカメラでは、撮影された日付と時間を記載する。フォーマットは”YYYY:MM:DD HH:MM:SS”となる。時間は24時間表示し、日付と時間の間に空白文字[20.H]を一つ埋める。文字列の長さは、NULLを含めて20バイトとする。記載が無いときは不明として扱う。

デジタルデータ作成日時DateTimeDigitizedは、画像がディジタルデータ化された日付と時間を示す。例えば、デジタルスチルカメラにより撮影され、同時にファイルが記録される場合、原画像の生成日時DateTimeOriginalとデジタルデータ作成日時DateTimeDigitizeは同じ内容となる。フォーマットは”YYYY:MM:DD HH:MM:SS”となる。時間は24時間表示し、日付と時間の間に空白文字[20.H]を一つ埋める。文字列の長さは、NULLを含めて20バイトとする。記載が無いときは不明として扱う。

DateTimeのサブセックSubsecTimeは、DateTimeタグに関連して時刻を小数点以下の秒単位まで記録するためのタグである。DateTimeOriginalのサブセックSubsecTimeOriginalは、原画像の生成日時DateTimeOriginalタグに関連して時刻を小数点以下の秒単位まで記録するためのタグである。DateTimeDigitizedのサブセックSubsecTimeDigitizedは、デジタルデータ作成日時DateTimeDigitizedタグに関連して時刻を小数点以下の秒単位まで記録するためのタグである。

撮影条件に関するタグは、露出時間ExposureTime、シャッタースピードShutterSpeedValue、絞り値ApertureValue、輝度値BrightnessValue、露光補正値ExposureBiasValue、レンズ最小F値MaxApertureValue、被写体距離SubjectDistance、測光方式MeteringMode、光源LightSource、フラッシュFlash、レンズ焦点距離FocalLength、FナンバFNumber、露出プログラムExposureProgram、スペクトル感度SpectralSensitivity、ISOスピードレートISOSpeedRatings、光電変換関数OECF、フラッシュ強度FlashEnergy、空間周波数応答SpatialFrequencyResponse、焦点面の幅の解像度FocalPlaneXResolution、焦点面の高さの解像度FocalPlaneYResolution、焦点面解像度単位FocalPlaneResolutionUnit、被写体位置SubjectLocation、露出インデックスExposureIndex、センサ方式SensingMethod、ファイルソースFileSource、シーンタイプSceneType、CFAパターンCFAPatternがある。IFDポインタ互換性は、互換性IFDへのポインタを示す。

Exifファイルのオーディオファイル構成例は、図４に示すようなデータ構造を持つ。オーディオファイルでは、ストレージ領域を区画するファイルフォーマットは「チャンク」という区画名称で各データ区画を呼んでいる。最初の“RIFF”というチャンクID（ckID）に続いてRIFFサイズ指定（ckSize）、その後“WAVE”タイプ指定があり、フォーマットチャンクでのMPEGタグ、ステレオの指定があって、WAVEのMP3Audioが登録されていると判定されるオーディオ登録情報データがある。

つづいて、ファクトチャンクがあって、これに続き、付属情報サブチャンクとして、INFOリストチャンクとExifリストチャンクがある。そのあとに、チャンクID（ckID）としてASCII文字列“Data”（64617461）を開始マーカーとしてMPEG Layer3圧縮形式WAVEのオーディオストリーム本体データが続く。

INFOリストチャンク、Exifリストチャンク、データチャンクの各チャンクについて説明する。INFOリストチャンクには英数字で、タイトルの英数字、ジャンル英数字、ファイル作成年月日英数字、コメント英数字、アーティスト英数字、著作権英数字がある。

Exifリストチャンクは、LISTマーカーから開始して、そのサイズ、“exif”とその規格バージョンが記載され、関連画像ファイルがある場合にはそのファイル名（ポインタは許可されない）が「ファイル名．拡張子」形式で直接記載され、その後に、音声ファイル作成年月日として年：月：日：時：分：秒があって、秒．サブ秒の記載方式でサブ秒まで記載される。

その後に、ユーザコメントeucmのデータフィールドがある。このユーザコメントには、eucmのタグ文字につづき、eucmのチャンクサイズ、それにつづきチャンクデータである、ユーザコメントが記載される。このユーザコメントは先頭８バイトの文字コードのASCII大文字でのタイプ宣言があり、望ましくはUnicode、日本のパソコン事情でShiftJISを使用する場合はUndefinedが指定される。このユーザコメント欄には、２バイトコード文字でのユーザ文字としての、アーティストや曲名、ファイル作成日時、さび部分の歌詞などが文字列登録されている。これが本実施の形態ではユーザ登録メモ情報として使用される。

情報読み出し部２は、上記のような画像ファイルやオーディオファイルと音声合成に必要な情報との対応表を保持している。図５は情報読み出しのための対応表の具体例である。

合成に必要な情報のデータラベル、Exifファイルのどこを参照すればよいかのポインタ、Exifファイルにおける表現形式が対応付けされている。例えば、格納フォルダ名は、Exifリストチャンクから「文字列」を参照する。ファイル名は、Exifリストチャンクから「ファイル名．拡張子」を参照する。撮影時間は、Exifリストチャンクから「年：月：日：時：分：秒」を参照する。撮影の場所は、ユーザコメントeucmから「文字列」を参照する。再生頻度は、ユーザコメントeucmから「数字」を参照する。好感度情報は、ユーザコメントeucmから「文字列」を参照する。ユーザ登録メモは、ユーザコメントeucmから「文字列」を参照する。そして、情報読み出し部において、上記対応表を用いて、ファイルの上記場所から、本実施の形態のファイル属性データの各情報データが参照され、文字列に変換されて読み出される。

図６が情報読み出し部２によって読み出されたデータの例である。情報読み出し部２は、上記情報読み出しのための対応表を用いて、格納フォルダ名から“家族／犬／”を、ファイル名から“モモの散歩．jpg”を、撮影の時間から“2002/06/27”,“09:52:15”を、撮影の場所から“近所の公園”を参照し、各々文字列に変換して読み出す。また、再生頻度から0を、好感度情報から5を、ユーザ登録メモから“モモちゃんが初めて散歩に行った。”を参照し、各々文字列に変換して読み出す。情報読み出し部２によって読み出された、上記図６に示したデータは、文生成部３に送られる。

図７は文生成部３の構成図である。文生成部３は、出力内容を決定する出力内容決定部５と、出力内容決定部５で決定された出力内容に合う文を生成する文出力部６とから構成される。このような構成により、文生成部３は、図６に示したようなデータをもとに、出力内容決定部５で、出力言語、文の内容、文の数を決定し、それに合うテンプレートを選択し、文出力部６では上記テンプレートに基づいて文を生成する。

図８は出力内容決定部５の構成図である。出力内容決定部５は、図６に示したようなデータから得られる情報を元に、生成する文の内容を決定するために、文字列を解析する文字列解析部７ａと、文字列解析部７ａにて解析された文字列から単語を抽出する単語抽出部７ｂと、出力言語を決定する出力言語決定部１０と、文内容を決定する文内容決定部１１と、文の数を決定する文の数決定部１２と、テンプレートデータベース１４から好適なテンプレートを選択するテンプレート選択部１３を備える。

文字列解析部７ａは、情報読み出し部２が読み出した上記図６に示したデータに言語的な情報、例えば品詞情報を付与する。文字列は、情報読み出し部２において、単語に分割されているので、文字列解析部７ａは、各々の単語をルールファイル８、辞書ファイル９と照らし合わせることによって、言語的な情報を得ることができる。

単語抽出部７ｂは、文字列解析部７ａにて解析された文字列から単語を抽出する。ここで、抽出された単語は、出力言語決定部１０、文内容決定部１１及び文の数決定部１２に渡される。

出力言語決定部１０は、出力する言語の種類を決定するためのものであり、例えばユーザ指定、画像音声記録装置の起動時の言語モード、ユーザ登録メモの言語という順番で優先度を付ける。もちろん、出力言語決定部１０は、言語判定のためのサブモジュールを有する。言語判定サブモジュールは、文字列を受け取り、その文字列が何語であるかを判定する。

言語判定は、他の自然言語処理アプリケーションで用いられている、どの言語判定手法を用いて良い。例えば、入力文字列の文字コード、字種によって判定することができるし、文字列の並びの特徴を言語判定のためのルールとしてもよい。また、内部に辞書データをもち、入力文字列を辞書引きすることによって言語を判定することもできる。

文内容決定部１１は、ガイド文としてどのような文を生成するかを決定する。ユーザ登録メモ、ファイル名、撮影時間、撮影場所のデータから、文字列解析部７ａで解析された文字列中、或いは単語抽出部７ｂから得られた単語データを基に文生成を行う際、どの情報に関する文であるかを決定する。また、文内容決定部１１は、再生情報、好感度情報、感性キー情報、アクセス頻度キー情報などをもとに、画像に対するユーザの捉え方に関するガイド文を生成するかどうかを決定する。ユーザの捉え方に関するガイド文を生成することを決定したときには、テキスト音声合成の制御を行なう。また、アプリケーション使用時間帯情報を基にユーザに対して挨拶文を作成するかどうかを決定するようにしてもよい。もちろん、ユーザ指定情報に基づいて文の内容を決定してもよい。

文の数決定部１２は、ユーザ登録メモ、ファイル名、撮影時間、撮影場所のデータから、文字列解析部７ａで解析された文字列中、或いは単語抽出部７ｂから得られた単語データを基に文の数を決定する。画像記録のモード情報がファイル名等から判明すれば、連続スライドショーモードであるか否かを判定でき、さらにExifIFD日付タグのサブセコンドタグから連続する画像が何枚であるがわかるので、その枚数に応じて、出力する文の分数を決定することができる。また、文の数決定部１２は、好感度情報の数に合わせて、文を追加するようにしてもよい。

テンプレート選択部１３は、文内容決定部１１で決定された内容で、文の数決定部１２で指定された文の数分の、出力言語決定部１０からの指示に従った言語のテンプレートを選択する。作成する文がユーザ登録メモを基にした文であれば、テンプレート選択部１３は、ユーザ登録メモ用のテンプレートを選択する。また、撮影年月日についての文を生成するのであれば、そのためのテンプレートを選択する。

また、テンプレート選択部１３は、好感度キーによる好感度情報にしたがって、テンプレートを選択することもできる。例えば、テンプレートデータベース１４に「これは、＜名詞＞です。」、「これは、お気に入りの＜名詞＞です。」という２種類のデータが記録されていたとする。もし、好感度キーが、その画像に対する好感度がよいことを示しているならば、テンプレート選択部１３は、「これはお気に入りの＜名詞＞です。」というテンプレートの方を選択する。好感度がよいことをしめしていなければ、他方のテンプレートを選択する。

また、テンプレート選択部１３は、どんなユーザがアプリケーションを使用しているかの情報を基に、テンプレートを選択することができる。例えば、ユーザが１０代の若者である場合、テンプレート選択部１３は、「これは、＜名詞＞だよ。」というようなくだけた口調のテンプレートを選択することもできる。

図９は出力内容決定部５の処理手順を示すフローチャートである。先ず、概略的に説明すると、文字列解析部７ａにより文字列を解析すると共に単語抽出部７ｂにより単語を抽出し（ステップＳ１１）、出力言語決定部１０により出力言語を決定し（ステップＳ１２）、文内容決定部１１により文内容を決定し（ステップＳ１３）、文の数決定部１２により文の数を決定し（ステップＳ１４）、テンプレート選択部１３によりテンプレートを選択する（ステップＳ１５）。出力する文の数だけテンプレートを選択したか否かの判定（ステップＳ１６）によりＹＥＳを判定するまで後、各テンプレートは文出力部６に送られる。文出力部６は、各テンプレートに基づいて文を生成する。

以下には、出力内容決定部５の処理手順を詳細に説明する。文字列解析部７ａはステップＳ１にて文字列を解析し、後段の処理に必要な情報を付加する。本実施の形態では、文字列解析部７ａの解析内容を、入力文字列に対し、形態素境界と各形態素の品詞を求める形態素解析であると仮定する。このため、文字列解析部７ａは、解析のためのにルールファイル８と辞書ファイル９を用いる。

ルールファイル８には、形態素の並びに関する規則(文法や接続マトリックス、形態素Nグラムなど)と辞書に登録されていない形態素に必要な情報を付与する規則とが書かれている。辞書ファイル９には、表記、品詞、読みなど、登録されている形態素に関する情報が納められている。

形態素境界と品詞の判定は、最長一致法または分割数最小法のような経験則による判定手法を用いても良いし、文法的接続可能性や、統計的な言語モデルを使用しての解析を行なっても良い。形態素解析の手法は本実施の形態においては特に特定されず、たとえば、フリーで公開されている形態素解析システム茶筌（http://chasen.aist-nara.ac.jp/hiki/ChaSen/）などをそのまま用いることが出来る。撮影時間や好感度情報など、値に数値を持つものは、図５のフォーマットにしたがって、数値が取り出される。

文字列解析部７ａによる文字列の解析の結果、図６のデータは図１０のように解析結果が追加されて、出力される。すなわち、格納フォルダ名の“家族／犬／”には、“家族”−［名詞］、“犬”−［名詞］という解析結果が追加されて出力される。また、ファイル名の“モモの散歩．jpg”には、“モモ”−［名詞］、“の”−［格助詞］、“散歩”−［名詞］という解析結果が追加されて出力される。またファイ名拡張子は“jpg”と解析される。撮影の時間の“2002/06/27”は「2002」、「06」、「27」と、また“09:52:15”は「09」、「52」、「15」と解析されて数値が取り出される。また、撮影の場所の“近所の公園”には、“近所”−［名詞］、“の”−［格助詞］、“公園”−［名詞］という解析結果が追加されて、出力される。また、再生頻度“0”からは「0」が、好感度情報“5”からは「5」が取り出される。また、ユーザ登録メモの“モモちゃんが初めて散歩に行った。”には、“モモ”−［名詞］、“ちゃん”−［接尾辞］、“が”−［格助詞］、“初めて”−［副詞］、“散歩”−［名詞］、“に”−［格助詞］、“行”−［動詞］、“っ”−［語尾］、“た”−［助動詞］、“。”−［句点」という解析結果が追加されて出力される。

また、ステップＳ１１では、単語抽出部７ｂが図１０の解析結果から単語を抽出する。ここで、単語抽出部７ｂによって抽出された単語は、テンプレートデータベース１４からテンプレート選択部１３によって選択されたテンプレートに当てはめられる。

次に、ステップＳ１２において出力言語決定部１０により、何語の文を生成するかが決定される。出力言語決定部１０は、データ（図１０）のユーザ登録メモ欄に値が入っているかどうかをチェックする。ユーザ登録メモ欄に値が入っていれば、ユーザ登録メモの言語を出力言語とする。ユーザ登録メモ欄に値が入っていないときは、あらかじめデフォルト言語を決めておき、デフォルト言語を出力言語とする。本実施の形態では、デフォルト言語を日本語と仮定して、説明を進める。

ユーザ登録メモがある場合、ユーザ登録メモが何語で書かれているかを判定する必要がある。本実施の形態にあって、出力言語決定部１０は、言語ごとの辞書を複数保持しており、言語ごとにユーザ登録メモの形態素が何語辞書に載っていたかをカウントし、最も単語数が多かった辞書の言語を出力言語に決定する。

次に、ステップＳ１３においてどのような内容の文を生成するかを文内容決定部１１が決定する。文内容決定部１１には、単語抽出部７ｂから得られたデータのうち、どれをもとに文を生成するか、また、どれをもとにテキスト音声合成の際の制御情報に用いるかの情報を持たせておく。本実施の形態では、ユーザ登録メモ、ファイル名、撮影時間、撮影場所のデータをもとに文生成を行い、どの情報に関する文であるかや、再生情報、好感度情報をもとにテキスト音声合成の制御を行なうとする。

文内容決定部１１では、データのラベル名（格納フォルダ名、ファイル名、ファイル名拡張子…）ごとにその値の有無をチェックする。文生成に用いられるデータに値がある場合、その情報と実際の値をテンプレート選択部１３に出力する。

次に、ステップＳ１４において、文の数決定部１２が内容ごとに文の数を決定する。デフォルト文数は１にしておき、文の数決定ルールにマッチする場合のみ、出力する文の数を変更する。文の数決定ルールとしては、ユーザ登録メモはその文数の文を出力する、好感度情報が5以上の場合にコメント文を1文追加する、画像が連写モードで撮影された場合に連写の数の文を生成する、などが挙げられる。このルールはアプリケーション設計者が自由に定めてよい。

本実施の形態のデータでは、ユーザ登録メモは１つの文のみから構成されているので、ユーザ登録メモに関する文は1文だが、好感度情報が5なので、コメント文が1文追加される。

次に、ステップＳ１５においてテンプレート選択部１３が、文内容決定部１１で決定された内容に従い、文の数決定部１２で指定された文の数のテンプレートを選択する。テンプレートの言語は、出力言語決定部１０からの指示に従う。

図１１は本実施の形態で用いるテンプレートの具体例である。本実施の形態では、入力データに、画像ファイルであることを示す拡張子jpg、撮影時間、撮影場所が記載されているので、テンプレート選択部１３において、テンプレートデータベース１４から「この画像は<年>の<月日>に<場所>で撮影しました。」というテンプレートが選ばれる。次に、ユーザ登録メモがあるので、「<ユーザ登録メモ>」というテンプレートが選ばれる。さらに、コメント文が1文追加されることになっており、好感度が高いので、コメント文のうち、ポジティブなものが選択され、「素敵な画像ですね。」が選ばれる。< >で囲んである部分は、後段の処理でデータから値が代入される。< >の中に ","で区切って複数の項目が記載されている場合は、それらはテンプレート適用の制約条件となり、すべての項目を満たしていなければ、そのテンプレートを適用することは出来ない。

出力内容決定部５は、テンプレート選択部１３にて選択されたテンプレートを文出力部６に出力する。

次に文出力部６の説明をする。図１２は文出力部６の構成図である。文出力部６は、出力内容決定部５からの入力文字列である単語列を変形する単語変形部１５と、入力文の構造を判定する文構造判定部１７と、上記図１０に示したデータから必要な値を抽出してテンプレートに当てはめるテンプレート適用部１８とから構成される。

単語変形部１５は、出力内容決定部５から得られたテンプレートに、図１０の出力されるデータから単語抽出部７ｂが抽出して得られた文字列を当てはめる際に、テンプレートに当てはまるように、入力文字列を変形する。このとき、単語変形部１５は、概念辞書（シソーラス）ファイル１６を参照して入力文字列を他の語に置き換えてもよい。つまり、単語変形部１５は、単語抽出部７ｂによって抽出された単語を、テンプレートに当てはまるように変形するか、或いは概念辞書ファイル１６を参照して得た他の語に置き換える。概念辞書は、単語間の概念的な関係を表す辞書である。文字列を同じ概念の語、または上位概念を持つ語などで置き換えるのに用いられる。

たとえば、「<ユーザ登録メモ>,<文>」というテンプレートがテンプレート選択部１３によって選択されているとする。このテンプレートは、ユーザ登録メモが文という構造を持っていることを要求している。

そこで、文構造判定部１７は、ユーザ登録メモが文であるかどうかをチェックする。文構造判定部１７は、図１３の文構造決定用のルールを有しており、入力がどのような構造を持っているかを調べることが出来る。本実施の形態のルールでは、入力形態素の並びがルールの右辺と合致すれば、左辺のシンボルで代入することができる。最後まで代入して、得られたシンボルが入力の構造となる。この場合、入力は文と判定される。

図１３において、入力形態素が“名詞”、或いは“名詞接尾辞”であれば［名詞句1］で代入できる。また、“名詞各助詞”、或いは“名詞接尾辞各助詞”であれば［名詞句2］で代入できる。また、“名詞句1”、“名詞句2”、“名詞句2 名詞句1”、“名詞句2 名詞句2”、“名詞句2 名詞句2 名詞句1”、“名詞句2 名詞句2 名詞句2”であれば［名詞句］に代入できる。また、入力形態素が“動詞”、“動詞語尾”、“動詞助動詞”、“動詞語尾助動詞”であれば［動詞句］で代入できる。また、“副詞”であれば［修飾句］で代入できる。そして、“名詞句動詞句”、“名詞句助動詞”、“修飾句、名詞句動詞句”、“名詞句修飾句、動詞句”、“名詞句、修飾句名詞句動詞句”であれば［文］で代入できる。

もし、ユーザ登録メモが名詞句であると判定された場合、テンプレート「<ユーザ登録メモ>,<文>」は使うことが出来ないので、ユーザ登録メモの文字列を変形する必要がある。たとえば、ユーザ登録メモの内容が、「モモちゃんの散歩の様子」であった場合、最後に「です。」をつけることによって、文にすることが出来、テンプレートを適用できるようになる。また、「これはお気に入りの<ファイル名>,<名詞句>です。」というテンプレートの場合、ファイル名の文字列「モモの散歩」は名詞句なので、単語変形部１５は特に何もしない。

また、「これは、＜“色”＞の＜“花”＞です。」のようなテンプレートが選択されているとき、テンプレートの適用に概念辞書を用いる。上記テンプレートにおいて、“”に囲まれた文字列は、それが概念であることを示す。テンプレートのはじめの部分には、色を表す名詞を当てはめることができる。２番目の部分には、花という概念を持つ語が入る。

例えば、ユーザ登録メモから得られた文字列が、「赤」と、「チューリップ」であったと仮定する。出力内容決定部５の文字列解析部７ａで、「赤」と、「チューリップ」が共に名詞であるという情報が得られる。また、概念辞書ファイル１６を用いると、赤の上位概念が色であり、チューリップの上位概念が車であることが判明する。

これらの解析結果を用いることで、「赤」、「チューリップ」という文字列を上記テンプレートに当てはめることができることが判定される。その結果、「これは赤のチューリップです。」という文が生成される。

テンプレート適用部１８は、テンプレート選択部１３によって選択されたテンプレートを用いて文を生成する。具体的に、テンプレート適用部１８は、図１０に示したデータから、必要な値を抽出し、あるいは単語変形部２５により、変形又は置き換えた語をテンプレートに当てはめる。「この画像は<年>の<月日>に<場所>で撮影しました。」というテンプレートの場合、データから撮影時間の年月日と、撮影場所を抽出し、テンプレートに当てはめて、「この画像は、2002年の6月27日に近所の公園で撮影しました。」という文を得る。

次にテキスト音声合成部４の説明をする。テキスト音声合成部４は、文生成部３にて生成されたテキストを音声波形に変換するためのモジュールである。図１４は、テキスト音声合成部４の構成を示したものである。テキスト音声合成部４は、入力されたテキストを音声記号列に変換するための言語処理部２１と、言語処理部２１からの音声記号列を韻律データに変換するための韻律生成部２４と、韻律生成部２４からの韻律データを元に音声波形を生成するための波形生成部２７とによって構成されている。

言語処理部２１は、辞書ファイル２２と、ルールファイル２３とを有し、入力されたテキストを音声記号列に変換する。韻律生成部２４は、ルールファイル２５と、データファイル２６とを有し、言語処理部２１からの音声信号列を韻律データに変換する。波形生成部２７は、素片ファイル２８を有し、韻律生成部２４からの韻律データを基に音声波形を生成する。

概略的に動作を説明すると、テキスト音声合成部４は、入力されたテキストを言語処理部２１により辞書ファイル２２、ルールファイル２３を参照して音声信号列に変換し、韻律生成部２４によりルールファイル２５、データファイル２６を参照して上記音声信号列を韻律データに変換し、波形生成部２７により上記韻律データを基に素片データベース２８を参照して音声波形を生成する。

以下、言語処理部２１、韻律生成部２４及び波形生成部２７の詳細な構成及び動作について図１５〜図１９を参照しながら説明する。

図１５は、言語処理部２１の構成を示したものである。言語処理部２１は、入力されたテキストを音声記号列に変更するためのものであり、入力されたテキストを解析し、それぞれの形態素の情報を得るためのテキスト解析部２９と、形態素情報を元に音声記号を生成するための韻律情報生成部３０とからなる。

テキスト解析部２９は、ルールファイル３０と、辞書ファイル３１に接続している。ルールファイル３０には、形態素の並びに関する規則(文法や接続マトリックス、形態素Nグラムなど)と辞書に登録されていない形態素に必要な情報を付与する規則とが書かれている。辞書ファイル３１には、表記、品詞、読みなど、登録されている形態素に関する情報が納められている。

テキスト音声合成部４に入力されたテキストは、言語処理部２１にあるテキスト解析部２９に渡される。入力されるテキストは1文の場合も、複数文からなる場合もありうるが、本実施の形態では、説明を容易にするため1文として、話を進める。

入力された文は、テキスト解析部２９において、ルールファイル３０と辞書ファイル３１とを用いて形態素に分割され、辞書ファイル３１からそれぞれの形態素に関する情報を得る。辞書ファイル３１に登録されていない形態素については、ルールファイル３０を用いて、必要な形態素情報を生成する。テキスト音声合成部４の言語処理部２１内のテキスト解析部２９は、文生成部３の出力内容決定部５の文字列解析部７と同じものを用いることが出来る。このようにして得られた形態素情報は、韻律情報生成部３２へと送られる。

韻律情報生成部３２は、形態素情報を解析し韻律情報を得るためのルールファイル３３を有する。ルールファイル３３には、形態素情報をもとにフレージングや読みの変更を行なうための規則が納められている。また、入力された各形態素について、韻律生成のためのさらに詳しい情報を得るため、テキスト解析部２９で用いた辞書ファイル３１とも接続されている。韻律生成のための情報とは、例えば、複数の形態素が一緒になって複合語を形成する際に、読みがどのように変化するかの情報や、アクセント核位置の移動パターンの情報などである。

本実施の形態では、形態素に関する情報も韻律生成のための情報も１つの辞書ファイル３１に納めるという構成を取っているが、それぞれを別の辞書ファイルとして保持し、テキスト解析部２９には形態素に関する情報のみが納められた辞書ファイルが接続されており、韻律情報生成部３２には韻律生成のための情報のみが納められた辞書ファイルが接続されているという構成で同等の処理を行なうことができる。

韻律情報生成部３２では、テキスト解析部２９から受け取った形態素情報をもとに、入力文に対し、ルールを用いて韻律情報を付与するという処理を行なう。韻律情報とは、言語によって異なるが、日本語であれば、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などが挙げられる。韻律情報は、装置の設計によって異なるので、上記情報を全て含む必要はなく、上記情報に限定する必要もない。

韻律情報生成部３２での処理によって得られる韻律情報は、音声記号列で表現される。音声記号列とは、入力テキストを発音記号、アクセント記号、ポーズ記号、音調記号などを用いて表現したものである。発音記号やアクセント記号では、IPA(国際音声字母、International Phonetic Alphabet)やSAMPAなどが広く知られている。また、ポーズ記号や音調記号については、ToBI(Tone and Break Indices)が有名である。言語処理部２１は、得られた音声記号列を韻律生成部２４へと出力する。

図１６は韻律生成部２４の構成を示したものである。韻律生成部２４は、入力された音声記号列を韻律データに変換するためのものである。韻律生成部２４は、各音素の継続時間長を求めるための継続時間長決定部３４と、各音素の基本周波数を求めるための基本周波数決定部３９とによって構成されている。

継続時間長決定部３４は、言語処理部２１からの音声信号列を音素に関する解析データファイル３６を用いて解析する音声信号列解析部３５と、音声信号列解析部３５にて解析されたそれぞれの音素の継続時間長を、継続時間長を決めるためのルールファイル３８を用いて決定するルール適用部３７とを有する。解析データファイル３６に格納されている、音素に関する解析データとは、例えば、それぞれの音素が母音かどうかやそれぞれの音素のデフォルトの継続時間長などを指す。ルールファイル３８に格納されている、継続時間長を決めるためのルールとは、どのような音韻環境の時にデフォルト継続時間長を伸縮させるかを決めるための規則のことである。音韻環境とは、その音素が母音であるかどうか、前後の音素が何であるか、音節の何番目の音素であるか、アクセント核位置かどうかなどを指す。

継続時間長決定部３４は、音声信号列解析部３５にて解析データファイル３６を用いて言語処理部２１からの音声信号列を解析し、ルール適用部３７にてルールファイル３８を用いてそれぞれの音素の継続時間長を決定する。つまり、ルール適用部３７にてルールを適用するのに必要な情報は入力された音声記号列を音声信号列解析部３５にて解析することで得られる。継続時間長決定部３４にて決定された継続時間長の情報は基本周波数決定部３９へと送られる。

基本周波数決定部３９は、言語処理部２１からの音声信号列と継続時間長決定部３４にて決定された継続時間長の情報から韻律データを生成する。このため、基本周波数決定部３９は、上記音声信号列の基本周波数パターンを、基本周波数パターンに関する解析データファイル４１を用いて解析してルール適用に必要な情報を得る音声信号列解析部４０と、音声信号列解析部４０にて得られた情報を基に、パターン選択用ルールファイル４３を用いて最適なパターンを選択するルール適用部４２と、ルール適用部４２にて決定された最適なパターンを継続時間長決定部３４にて既に決定されたそれぞれの音素の継続時間長に合わせて変形して音素毎の基本周波数を決定する時間伸縮部４４とを備える。

解析データの持ち方とルールデータの選択方法は装置の設計によって、様々な実現形態が考えられるが、本実施の形態では、その音素が属する単語のアクセント型や、アクセントの強さ、係り受けなどの文構造などを基準にルールの適用可能性是非を判定する手法を用いる。

上記基本周波数パターンのデータは、複数の音素にまたがる基本周波数の値を保持しておく。解析データファイルは、ルールで選択できるように、アクセント型や音調など予測要因毎にパターンが分類してある。

基本周波数決定部３９は、入力された音声記号列を音声信号列解析部４０により上記解析データファイル４１を参照して解析し、ルール適用に必要な情報を得る。得られた情報を元に、ルール適用部４２がパターン選択用ルールファイル４３を参照して、最適なパターンを選択する。ルール適用部４２にて選択されたパターンは、継続時間長決定部３４ですでに決定されたそれぞれの音素の継続時間長にあわせて、時間伸縮部４４にて変形され、音素毎の基本周波数が決定される。継続時間長決定部３４で決定された音素毎の継続時間長と基本周波数決定部３９で決定された音素毎の基本周波数は、韻律データとして韻律生成部２４から、波形生成部２７へ送られる。

韻律データの一部を図１７及び図１８に示す。韻律データの前半は図１７の継続時間長（duration）のデータ、後半は図１８の基本周波数（pitch）のデータである。図１７において、継続時間長のデータは、一番左が音声開始時点からのサンプル数、次が音素列、一番右が音素ごとの継続時間長になっている。図１８において基本周波数のデータは、左が音声開始時点からのサンプル数、右が基本周波数の値である。

図１９は、波形生成部２７の構成を示したものである。波形生成部２７は、韻律生成部２４の出力である韻律データから音声波形を生成する。このため、本実施の形態で用いられる波形生成部２７は、入力された韻律データを音素列情報、音素時間長情報、ピッチパターン情報に分配する韻律データ分配部５１と、入力された音素列情報に含まれる音素列を選択し、選択した音素列に対応する音響特長パラメータを音声データファイル５３から順次読み出して出力する素片選択部５２と、音素列によって時間軸上に並べられた音響特長パラメータを入力とし音素時間情報によってそれぞれの音素の長さに等しくなるようにパラメータを時間軸上で伸縮するパラメータ補正部５４と、パラメータ補正部５４から出力される音響特長パラメータの系列、また、韻律データ分配部５１からのピッチパターン情報に基づいてピッチを変更しながら音声信号波形を合成して出力する波形組み立て部５５とにより構成される。

素片選択部５２が有している音声データファイル５３に格納されている音声データとは、既存の規則音声合成装置に使用されるものと同様のもので、たとえばケプストラム係数などの音声の音響的な特長を示すパラメータなどである。また、素片のひとつひとつの長さは、ＣＶ、ＣＶＣ、その他の合成単位に応じた単位、あるいはコーパスベースの合成方式では特に合成単位を固定せずに保存する場合もある。

この波形生成部２７の概略的な動作は以下のようになる。入力された韻律データは、韻律データ分配部５１によって音素列情報、音素時間長情報、ピッチパターン情報に分けられ出力される。音素列情報は素片選択部５２に送られる。素片選択部５２では、入力された音素列情報に基づいて音声データファイル５３を参照して上記音素情報に含まれる音素列を選択して、選択した音素列に対応する音響特長パラメータを順次読み出して出力する。パラメータ補正部５４は、音素列によって時間軸上に並べられた音響特長パラメータを入力とし、音素時間情報によってそれぞれの音素の長さに等しくなるようにパラメータを時間軸上で伸縮する。また、素片の接続部でのパラメータの不整合を避けるためにパラメータが滑らかに変化するように音響特長パラメータを補正する。また、パラメータを変更することにより、それぞれの音素の強さを変更する。波形組み立て部５５は、パラメータ補正部５４から出力される音響特長パラメータの系列に基づいて、また、韻律データ分配部５１からのピッチパターン情報に基づいてピッチを変更しながら音声信号波形を合成して出力する。

このように本実施の形態の音声合成装置１は、Exifファイルの画像ファイルや、オーディオファイルから画像又は音響データに付随する情報である、ユーザ登録メモ、格納フォルダ名、記録時の情報、再生頻度、又は好感度情報を読み出し、読み出した情報に基づいて文を生成し、生成した文を音声合成して音声として出力することができる。このため、本発明の音声合成装置１を画像音声記録再生装置に適用すれば、音声によって案内される情報によって、画像音声記録再生装置によって記録／再生された画像を検索することができる。

なお、本発明の音声合成装置によれば、出力音声の話速、音量、声の高さ、声色、韻律的特徴を変更することができる。以下に、テキスト音声合成における出力音声変更の手法について説明する。

それぞれの変更は以下の手法にて行われる。
話速＝継続時間長の伸縮
音量＝パラメータの補正、変更
声の高さ＝基本周波数の値を変更
声色＝音声データの変更
韻律的特長＝音素ごとの継続時間長、パラメータ、基本周波数の変更
韻律的特長とは、たとえば、はつらつとしたイントネーション、強調イントネーション、暗いイントネーションなど、音声を聞いたときの印象に関するものである。

はつらつとしたイントネーションは、高くて大き目の音で、少し速めに合成することによって実現することが出来る。強調イントネーションは、高くて大き目の音で、少しゆっくり目に合成することによって実現することが出来る。このように、合成する音の高さ、長さ、強さを変更することで、異なる韻律的特徴を実現することが可能となる。このように、本発明では、画像又は音響データに付随する情報によって、出力される合成音の話速、音量、声の高さ、声色、韻律的特徴を変更する。

図２０は出力する合成音を変更可能な音声合成装置６０の構成図である。出力する合成音を変更可能な音声合成装置６０は、図１に構成を示した音声合成装置１に加え、音声合成制御部６１を有する。

音声合成制御部６１は情報読み出し部２にて抽出された情報と、文生成にて生成された文とをもとに合成音をどのように変化させるかを決定し、テキスト音声合成部４をコントロールするためのモジュールである。

また、音声合成制御部６１は、効果音のデータベースを有し、合成音と同期させて、効果音を出力することも可能である。たとえば、音声合成制御部６１には、文生成部３で生成された文が、ユーザ登録メモをもとに生成されたものである場合、柔らかなイントネーションで音声合成するというルールが保持されているとする。

音声合成制御部６１は、情報読み出し部２と文生成部３から得られる情報によって、テキスト音声合成部４が処理しようとしている文がユーザ登録メモから生成されたものであるかどうかを判断する。もし、文がユーザ登録メモから生成されたものであった場合、音声合成制御部６１は韻律データと音響特徴パラメータ、音声データを変更する。たとえば、柔らかなイントネーションは、ゆっくり目で穏やかな声によって実現されるとすると、音声合成制御部６１は、韻律データの継続時間長の値をそれぞれ同じ割合で伸長させる。また、テキスト音声合成部４の波形生成部２７が用いる音声データを、穏やかな声のデータをもとに生成された音声データと入れ替える。そして、音響特徴パラメータの音量に関する部分の値を同じ割合で小さくする。これにより、出力される合成音は柔らかなイントネーションを持つようになる。

同様にして、再生頻度によって、強調イントネーションを実現したり、好感度情報によってはつらつとしたイントネーションを実現したりすることが出来る。また、画像ないし音響データが記録された時間に応じて、合成音と同期させて、効果音を出力することも出来る。

音声合成装置１、音声合成装置６０は、携帯型の画像音声記録再生装置に適用できる。図２１は、音声合成装置６０を内蔵した携帯型画像音声記録再生装置の構成を示す図である。

図２１において、画像音声記録再生装置７０は、被写体をレンズ７１を通して撮像するカメラ撮像部７２と、カメラ撮像部７２で撮像された被写体画像に記録処理や再生処理を施すと共に、画像圧縮処理や画像伸長処理を施す画像記録再生部７３と、画像記録再生部７３で記録処理や再生処理が施された画像を後述するシステム制御部７４による制御の基に表示する画像表示部７５とを備える。

カメラ撮像部７２は、撮像した画像を画像記録再生部７３に入力する。画像記録再生部７３は、カメラ撮像部７２で撮像された撮影画像を圧縮してファイルとして撮影画像ファイルデータベース７６に記録するための記録処理、ファイルを撮影画像ファイルデータベース７６から読み出して伸長する再生処理を行う。また、画像記録再生部７３は、必要に応じて音声信号をファイルフォーマットを使用して撮影画像ファイルデータベース７６に画像信号と共に入力する。画面表示部７５は、好ましくは画像又はアイコン表示の可能な平板表示器であり、画像ファイルに対応してそのファイル内の画像データや見出し用縮小画像であるサムネイル画像を表示する。また、撮影原画像も表示できる。また、文字入力メニュー表示機能も有している。

また、この画像音声記録再生装置７０は、画像記録再生部７３により記録処理が施された各原画像に対応して付加される情報や撮影メディアフォーマットに記載された情報をシステム制御部７４の制御に基づいてファイルデータとして格納している撮影画像ファイルデータベース７６と、使用者により操作される操作キー部７８と、操作キー部７８からの操作入力信号、特に画像選択情報データ、登録文字列情報データ、連続再生スタート画像指定データなどを受けてシステム制御部７４に送る登録キー制御部７７とを備える。

撮影画像ファイルデータベース７６は、書き込み可能な不揮発性メモリまたは書き込み消去可能なメモリメディアであって、例えばメモリカード、カード型ＨＤＤ、リムーバブル光ディスク等のリムーバブルメディアからなり、ＤＣＦファイルシステム等のリムーバブルメディアフォーマットに準拠して読み出しが可能とされる。また、ユーザ登録文字情報がリムーバブルメディアフォーマットに準拠して入力できることが好ましい。

また、この画像音声記録再生装置７０は、画像記録再生部７３、画像表示部７５、撮影画像ファイルデータベース７６、登録キー制御部７７に接続されて各部を制御するシステム制御部７４を備える。システム制御部７４は、記録再生制御機能部８１、カメラ状態制御機能部８２、ファイルシステム制御機能部８３、ユーザキー設定機能部８４を有する。

また、システム制御部７４内の上記カメラ状態機能部８２、ファイルシステム機能部８３及びユーザキー設定機能部８４は、音声合成装置６０の情報読み出し部２を構成する。つまり、情報読み出し部２は、システム制御部７４内のカメラ状態機能部８２、ファイルシステム機能部８３及びユーザキー設定機能部８４を介して、撮影画像ファイルデータベースから上記画像又は音響データに付随する情報を読み出す。情報読み出し部２で読み出された情報は、音声合成部６０を構成する文生成部３に供給される。文生成部３は、読み出した情報を基にテキストを作成する。テキスト音声合成部４は、文生成部３にて作成されたテキストを音声に合成して出力する。音声合成制御部６１は、テキスト音声合成部４における音声合成をコントロールする。

情報読み出し部２を構成する、カメラ情報制御機能部８２は、デジタルカメラの状態に関する情報を文生成部３に供給する。デジタルカメラの状態とは、使用されているアプリケーションが何語モードで起動されているかや、その時点での何月日、時間、呼び出しメニューのモードなどを指す。

ファイルシステム制御部８３は、画像に関する情報を文生成部３に供給する。画像に関する情報とは、その画像の日時、ファイル拡張子、その画像へのアクセス頻度、その画像が格納されているフォルダの名前、ユーザコメント、感性キー情報などを指す。

ユーザキー設定制御機能部８４は、出力音声について使用者から指定された情報を供給する。出力音声についてユーザから指定された情報とは、出力音声の言語、ボリューム、スピード、声の高さなどを指す。

音声合成部６０は、上述したように、Exifファイルの画像ファイルや、オーディオファイルから画像又は音響データに付随する情報である、ユーザ登録メモ、格納フォルダ名、記録時の情報、再生頻度、又は好感度情報を読み出し、読み出した情報に基づいて文を生成し、生成した文を音声合成して音声として出力することができる。また、音声合成部６０は、音声合成制御部６１を備えているので、文がユーザ登録メモから生成されたものであった場合、韻律データと音響特徴パラメータ、音声データを変更する。これにより、柔らかなイントネーションを合成音に持たせることができる。同様にして、再生頻度によって、強調イントネーションを実現したり、好感度情報によってはつらつとしたイントネーションを実現したりすることが出来る。また、画像ないし音響データが記録された時間に応じて、合成音と同期させて、効果音を出力することも出来る。

このような音声合成部６０を備えることにより、画像音声記録再生装置７０は、音声によって案内される情報を基に、記録／再生された画像をユーザに簡単に検索させることができる。

なお、本発明に係る音声合成装置は、デジタルカメラによって撮影されて記録された画像を検索する画像検索装置として用いられてもよい。この画像検索装置は、デジタルカメラから得られる情報を基にテキストを生成する文生成手段と、上記文生成手段によって生成されたテキストを基に音声を合成するテキスト音声合成手段とを備え、上記文生成手段によって生成されたテキストによる文を読み上げる。

この画像検索装置にあって、上記文生成手段は、デジタルカメラの撮影メディアフォーマットに記載された情報、すなわち画像又は音響データに付随する情報を基にテキストを生成する。また、文生成手段は、ユーザ登録メモを基にテキストを生成する。また、上記文生成手段は、画像データを格納するフォルダ名を基にテキストを生成する。また、上記文生成手段は、上記デジタルカメラから得られる情報に基づいて生成する文の数を変える。また、上記文生成手段は、画像へのアクセス頻度に基づいて生成する文の数を変えてもよい。また、好感度キーに基づいて生成する文の数を変えてもよい。

また、上記文生成手段は、ユーザ登録メモから単語抽出し、テンプレートに当てはめて文生成を行う。このとき、上記文生成手段は、ユーザ登録メモに記載された文字列を順に、テンプレートの空欄に当てはめて文生成を行なう。また、上記文生成手段は、ユーザ登録メモに記載された文字列を解析し、単語を抜き出して、テンプレートの空欄に当てはめて文生成を行う。また、上記文生成手段は、ユーザ登録メモに記載された文字列をテンプレートに当てはまるように変形し、テンプレートの空欄に当てはめて文生成を行う。また、上記文生成手段は、ユーザ登録メモに記載された文字列を解析し、単語を抜き出して、テンプレートに当てはまるように変形し、テンプレートの空欄に当てはめて文生成を行う。

また、上記文生成手段は、ユーザ登録メモに記載された単語を用いて、概念辞書から別の単語を選出し、テンプレートに当てはめて文生成を行なう。また、上記文生成手段は、ユーザ登録メモに記載された単語を用いて、概念辞書から同じ意味情報を持つ単語を選出し、テンプレートに当てはめて文生成を行なう。また、上記文生成手段は、ユーザ登録メモに記載された単語を用いて、概念辞書からその単語の上位概念の単語を選出し、テンプレートに当てはめて文生成を行なう。

また、上記文生成手段は、画像データを格納するフォルダー名をテンプレートに当てはめて文生成を行なってもよい。また、上記文生成手段は、撮影情報データから時間情報を抽出し、テンプレートに当てはめて文生成を行ってもよい。また、上記文生成手段は、デジタルカメラから得られる情報の種類によって、使用するテンプレートを選択する。また、上記文生成手段は、デジタルカメラから得られる情報として、ユーザ別アクセス頻度を使用してもよい。また、上記文生成手段は、デジタルカメラから得られる情報として、好感度キーに基づいた好感度情報を使用してもよい。また、上記文生成手段は、デジタルカメラから得られる情報として、ファイルの拡張子によって、使用するテンプレートを選択してもよい。

また、上記文生成手段は、検索対象の他の画像ファイルに付随する情報を用いて、使用するテンプレートを選択してもよい。検索対象の他の画像ファイルに付随する情報として、画像が撮影された時間を用い、使用するテンプレートを選択する。上記文生成手段は、検索対象の他の画像ファイルに付随する情報として、ユーザ登録メモに記載されている単語を用い、使用するテンプレートを選択してもよい。また、上記文生成手段は、ユーザ登録メモから単語を抽出し、メモに記載された単語の情報として、単語の表記、品詞、意味情報のいずれか１つ以上を用いて、テンプレートを選択する。

上記画像検索装置にあって、上記テキスト音声合成手段は、デジタルカメラから得られる言語の情報によって、出力される合成音声の言語を変更する。また、上記テキスト音声合成手段は、ユーザによって指定された言語を合成音の言語として出力してもよい。また、上記テキスト音声合成手段は、デジタルカメラのモードから使用言語を選択してもよい。また、上記テキスト音声合成手段は、ユーザ登録メモに含まれる文字列を解析し、言語判定をする。また、上記テキスト音声合成手段は、決定された言語が、上記文生成手段によって生成された文の言語と異なる場合、生成された文を決定された言語の文に変換する機能を有する。

また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの文体を変更する。また、上記テキスト音声合成手段は、デジタルカメラから得られる情報として、ユーザ登録メモの内容、撮影情報データ、撮影時間、撮影場所、画像へのアクセス頻度、好感度キーによる好感度情報、呼び出しモードのメニューのうちいずれか１つ以上を用いることによって、上記文生成手段によって生成された文を出力するときの文体を変更する。上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの文体を変更する。

また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの合成音声の韻律を切り替える。また、上記テキスト音声合成手段は、韻律として、基本周波数と音韻継続時間長のいずれか１つ以上を切り替える。

また、上記テキスト音声合成手段は、デジタルカメラから得られる情報として、ユーザ登録メモの内容、撮影情報データ、撮影時間、撮影場所、画像へのアクセス頻度、好感度キーによる好感度情報、呼び出しモードのメニューのうちいずれか１つ以上を用いることによって、上記文生成手段によって生成された文を出力するときの合成音声の韻律を切り替える。また、上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの合成音声の韻律を変更する。

また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの合成音声の話速を決定する。また、上記テキスト音声合成手段は、デジタルカメラから得られる情報として、ユーザ登録メモの内容、撮影情報データ、撮影時間、撮影場所、画像へのアクセス頻度、好感度キー、呼び出しモードのメニューのうちいずれか１つ以上を用いることによって、上記文生成手段によって生成された文を出力するときの合成音声の話速を決定する。上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの合成音声の話速を決定する。

また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの合成音声の音量レベルを決定する。また、上記テキスト音声合成手段は、デジタルカメラから得られる情報として、ユーザ登録メモの内容、撮影情報データ、撮影時間、撮影場所、画像へのアクセス頻度、好感度キー、呼び出しモードのメニューのうちいずれか１つ以上を用いることによって、上記文生成手段によって生成された文を出力するときの合成音声の音量レベルを決定する。また、上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの合成音声の音量レベルを決定する。

また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの合成音声の声色を決定する。上記テキスト音声合成手段は、デジタルカメラから得られる情報として、ユーザ登録メモの内容、撮影情報データ、撮影時間、撮影場所、画像へのアクセス頻度、好感度キー、呼び出しモードのメニューのうちいずれか１つ以上を用いることによって、上記文生成手段によって生成された文を出力するときの合成音声の声色を決定する。上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの合成音声の声色を決定する。

また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの合成音声に効果音を付与するか否かを決定する。また、上記テキスト音声合成手段は、デジタルカメラから得られる情報として、ユーザ登録メモの内容、撮影情報データ、撮影時間、撮影場所、画像へのアクセス頻度、好感度キー、呼び出しモードのメニューのうちいずれか１つ以上を用いることによって、上記文生成手段によって生成された文を出力するときの合成音声に効果音を付与するか否かを決定する。また、上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの合成音声に効果音を付与するか否かを決定する。また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの合成音声に付与する効果音の種類を決定する。また、上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの合成音声に付与する効果音の種類を決定する。

音声合成装置のブロック図である。音声合成装置の全体的な処理手順を示すフローチャートである。 Exifファイルの画像ファイル構成例を示す図である。 Exifファイルのオーディオファイル構成例を示す図である。情報読み出し部が保持している情報読み出しのための対応表を示す図である。情報読み出し部によって読み出されたデータの例を示す図である。文生成部の構成を示すブロック図である。出力内容決定部の構成を示すブロック図である。出力内容決定部の処理手順を示すフローチャートである。文字列解析部によって解析されて出力されるデータの例を示す図である。テンプレートの具体例を示す図である。文生成部内のさらに文生成部の構成を示すブロック図である。文構造判定部が有する構造決定用ルールの具体例を示す図である。テキスト音声合成部の構成を示すブロック図である。言語処理部の構成を示すブロック図である。韻律生成部の構成を示すブロック図である。韻律データの前半部の継続時間長データを示す図である。韻律データの後半部の基本周波数データを示す図である。波形生成部の構成を示すブロック図である。音声合成制御部を備えた音声合成装置の構成を示すブロック図である。音声合成装置を備えた画像音声記録再生装置の構成を示すブロック図である。

符号の説明

１音声合成装置、２情報読み出し部、３文生成部、４テキスト音声合成装置、５出力内容決定部、７文字列解析部、１０出力言語決定部、１１文内容決定部、１２文の数決定部、１３テンプレート選択部、１４テンプレートデータベース

Claims

画像又は音響データに付随する情報を読み出す情報読み出し手段と、
上記情報読み出し手段によって読み出された情報に基づいて文を生成する文生成手段と、
上記文生成手段によって生成された文を音声合成して出力する音声合成手段と
を有することを特徴とする音声合成装置。
上記画像又は音響データに付随する情報は、ユーザ登録メモ、格納フォルダ名、記録時の情報、再生頻度、又は好感度情報であることを特徴とする請求項１記載の音声合成装置。
上記文生成手段は、上記画像又は音響データに付随する情報に応じて、生成する文の数を変更することを特徴とする請求項１記載の音声合成装置。
上記文生成手段は、出力する文の内容を決定するために文字列を解析する文字列解析手段と、上記文字列解析手段にて解析された文字列から単語を抽出する単語抽出手段と、文を生成するために用いるテンプレートを記憶しているテンプレート記憶手段とを更に有し、上記単語抽出手段によって抽出した単語を、上記テンプレート記憶手段から選択したテンプレートに当てはめて文を生成することを特徴とする請求項１記載の音声合成装置。
上記文生成手段は、上記単語抽出手段によって抽出された単語を上記テンプレートに当てはまるように変形し、上記変形した単語を上記テンプレートに当てはめて文を生成することを特徴とする請求項４記載の音声合成装置。
概念辞書を更に有し、
上記文生成手段は、上記単語抽出手段によって抽出した単語に応じた単語を上記概念辞書から選出し、上記テンプレートに当てはめて文を生成することを特徴とする請求項４記載の音声合成装置。
上記文生成手段は、上記画像又は音響データに付随する情報の種類に応じて、上記テンプレート記憶手段から使用するテンプレートを選択することを特徴とする請求項４記載の音声合成装置。
上記文生成手段は、上記画像又は音響データに付随する情報に応じて言語を特定し、特定された言語で文を生成することを特徴とする請求項１記載の音声合成装置。
上記音声合成手段は、上記画像又は音響データに付随する情報に応じて、合成音声の韻律を変更することを特徴とする請求項２記載の音声合成装置。
上記音声合成手段は、上記ユーザ登録メモを音声合成するときは柔らかなイントネーションに、上記記録情報を音声合成するときは硬いイントネーションに韻律を変更することを特徴とする請求項９記載の音声合成装置。
上記音声合成手段は、上記画像又は音響データが記録された時間に応じて、韻律を変更することを特徴とする請求項９記載の音声合成装置。
上記音声合成手段は、再生頻度に応じて強調イントネーションに、好感度情報に応じてはつらつとしたイントネーションに韻律を変更することを特徴とする請求項９記載の音声合成装置。
上記音声合成手段は、上記画像又は音響データに付随する情報に応じて、合成音声に効果音を付加することを特徴とする請求項１記載の音声合成装置。
上記音声合成手段は、上記画像又は音響データに付随する情報に応じて、合成する音声の話速、音量又は声色を変更することを特徴とする請求項１記載の音声合成装置。
上記音声の話速、音量、又は声色の変更は、ユーザ登録メモ、格納フォルダ名、記録時の情報、再生頻度情報、又は好感度情報に応じて変化させることを特徴とする請求項１０記載の音声合成装置。
画像又は音響データに付随する情報を読み出す情報読み出し工程と、
上記情報読み出し工程によって読み出された情報に基づいて文を生成する文生成工程と、
上記文生成工程によって生成された文を音声合成して出力する音声合成工程と
を有することを特徴とする音声合成方法。