JP2008046425A

JP2008046425A - 印象表現出力装置及び方法

Info

Publication number: JP2008046425A
Application number: JP2006222820A
Authority: JP
Inventors: Tadahiko Kumamoto; 忠彦熊本; Akiyo Nadamoto; 明代灘本; Katsumi Tanaka; 克己田中
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2006-08-17
Filing date: 2006-08-17
Publication date: 2008-02-28

Abstract

【課題】読み上げるテキストデータの内容が聞き手に最も効果的に伝わるよう、その印象に合わせた音声及び画像による表現方法を提供すること。
【解決手段】テキストデータからその内容に応じた印象度評価値を算出し、印象度評価値に応じた表現方法により少なくとも音声の読み上げを行う印象表現出力方法を提供する。入力手段５が、テキストデータを装置内に取得する入力ステップ、印象度評価値算出手段２０が、テキストデータに含まれる文字列から少なくとも所定の評価尺度における印象度評価値を算出する印象度評価値算出ステップ、声色選択手段２１が、印象度評価値に基づいて、当該テキストデータを読み上げる声色を選択する声色選択ステップ、音声出力手段２２・４が、選択された声色を用いて音声出力する音声出力ステップを有する。
【選択図】図１

Description

本発明はテキストデータを読み上げる際に、その印象を表現しながら出力する装置及び方法に関し、より詳しくは声色や背景音楽などにより読み上げる文章の印象をわかりやすく聞き手に伝える技術に係るものである。

インターネットの普及、浸透に伴い、様々なウェブコンテンツを閲覧する機会が増えている。現在のウェブコンテンツ閲覧環境は、能動的閲覧環境であり、ユーザ自身が閲覧したいウェブコンテンツを選択し、主体性を持って閲覧する必要がある。
しかしながら、ユーザがインターキットにアクセスできる時間・場所は限られているため、閲覧できるウェブコンテンツの量はさほど多くない。そのため、ウェブコンテンツをテレビ番組風の動画コンテンツに変換することにより、家事、入浴、食事といった日常的な作業を行いながら、あるいは本の中、公園、トイレといった様々な場所で、ウェブコンテンツを視聴するための受動的視聴環境が望まれている。

様々な情報をテレビ番組風の動画コンテンツに変換して提示するという基本概念は、非特許文献１に開示されるFRIEND21プロジェクトにおいてテレビ番組メタファとして提唱されている。
その後、キットニュースの議論から脚本を作成し、台詞をＣＧキャラクタに割り当てることにより、議論をテレビ番組風に提示する方式が非特許文献２に、ウェブページをセグメント化し、セグメントごとに音声とＣＧキャラクタにより表現・提示する方式が非特許文献３に、テキストと画像からなるウェブページをテキストと画像の同期化領域を決定しながらテレビ番組風の情報番組に変換する方式が非特許文献４にそれぞれ提案されている。

H. Nonogaki， and H， Ueda， FRIEND21project: A Construction of 21st Century Human Interface， Proc. of lnternationa1Conference on Human Factors in Computing Systems(CHP91)，pp. 407-414 (1991) 矢部純，高橋伸，柴山悦哉，ニューススレッドからの番組自動生成,情処研報,vol.1999，N0.087(99-HI-85),pp,13-18(1999) T. Yamaguchi, I.Hosomi, and T. Miyashita,WebStage: An Active Media Enhanced world wide web Browser, Proc.of Internationa1Conference on Human Factors in Computing Systems(CHF97)，pp. 391-398 (1997) 灘本明代，服部多栄子，近藤宏行，沢中郁夫，田中克己，webコンテンツの受動的視聴のための自動変換とスクリプト作成マークアップ言語，情報処理学会論文誌:データベース，vol.42，No.SIG1(TOD8)，pp.103-116 (2001)

しかしながら、いずれの方式も単にウェブコンテンツを動画コンテンツに変換するというメディア変換を行っているにすぎず、コンテンツの内容に応じて演出を変えることはできない。そのため、背景音楽やＣＧキャラクタの声色など一旦設定されたものは、コンテンツの内容に関係なく固定され、常に同じ演出になる欠点がある。その結果、生成された動画コンテンツを聞くという行為では、元のウェブコンテンツの有する印象が視聴者にうまく伝わらないという課題が生じていた。

上記のような番組を構成する場合に限らず、一般的にテキストを読み上げて聞き手に聞かせる場合に、その演出が変わらないことは共通の問題である。これを解決する方法は音声合成の分野では試みられており、例えば特許文献１では文章の内容に沿ったより自然な合成音声を生成することができる技術が提案されている。

本方法は、テキスト文字列から韻律パターンを生成して音声波形を合成するテキスト音声合成方法について、単語ごとに文法情報や、読み、アクセントに関する情報を含む言語情報を登録する単語データベースと、合成音声の韻律パターンを生成するための韻律情報を登録する韻律データベースを備えておく。そして、単語データベースに登録されている単語に印象属性情報が付与されており、かつ韻律データベースに登録されている韻律情報が印象属性情報に対応していることで、韻律パターンの生成時には印象属性情報に対応した韻律情報に基づいて、生成する韻律パターンを変更することができるものである。

この方法は、基本的には単語毎に印象属性を付与しておいて、例えば「希望」は明るく読むといった方法をとっている。例外的に「希望がなかった」の場合には、係り受け関係を解析して全体を暗く読むということも提案されている。

しかし、この方法では単語毎、あるいはせいぜい１文毎に印象が付与されてしまい、例えばニュース全体を聞いた時には明るい読み方と暗い読み方が入り交じって不自然な読み上げになる恐れが大きい。

本発明は、上記従来技術の有する問題点に鑑みて創出されたものであり、読み上げるテキストデータの内容が聞き手に最も効果的に伝わるよう、その印象に合わせた音声及び画像による表現方法を提供することを目的とする。

特開２００４−１４５０１５号公報

本発明は、上記の課題を解決するために、次のような印象表現出力装置を提供する。
すなわち、請求項１に記載の発明は、テキストデータからその内容に応じた印象度評価値を算出し、該印象度評価値に応じた表現方法により少なくとも音声の読み上げを行う印象表現出力装置を提供する。
該装置には、テキストデータを装置内に取得する入力手段と、テキストデータに含まれる文字列から少なくとも所定の評価尺度における印象度評価値を算出する印象度評価値算出手段と、印象度評価値に基づいて、当該テキストデータを読み上げる声色を選択する声色選択手段と、選択された声色を用いて音声出力する音声出力手段とを備える。

請求項２に記載の発明は、印象表現出力装置に、予め楽曲毎に少なくとも印象値を格納した背景音楽データベースと、上記の印象度評価値に基づき、背景音楽データベースから背景音楽の選択を行う背景音楽選択手段とを備える。そして、音声と共に選択された背景音楽を音声出力手段から出力することを特徴とする。

請求項３に記載の発明は、本発明装置の印象度評価値算出手段において、テキストデータを形態素解析する形態素解析処理部と、予め単語毎に印象値とその重みを格納した印象辞書データベースと、印象辞書データベースを参照して、形態素解析の結果からテキスト全体の印象度評価値を算出する演算部とを備えるものである。

請求項４に記載の発明は、本発明装置に、テキストデータの少なくとも文末語句、省略語句のいずれかについて、予め備えた表現変換データベースに従い、話し言葉への変換を行う話し言葉変換処理手段を備えたことを特徴とする。

請求項５に記載の発明は、本発明装置に、読み上げ音声に伴って表示するアナウンサー画像を生成するアナウンサー画像合成処理手段と、アナウンサー画像を表示する画像表示手段とを備えて、音声だけでなく映像も同時に視聴者に提示するものである。

請求項６に記載の発明は、印象表現出力装置において、入力されたテキストデータから、少なくともタイトル部分を分離して抽出するタイトル抽出手段を備え、該タイトル部分の読み上げ時に話題転換を表現する語句を挿入することを特徴とする。

請求項７に記載の本発明装置は、入力されたテキストデータから、少なくともタイトル部分を分離して抽出するタイトル抽出手段と、そのタイトル部分のテキストをテロップとして画像表示手段から表示するテロップ画像合成処理手段とを備える。

請求項８に記載の発明は、本発明装置において、入力手段がテキストデータと関連する画像又は映像を画像・映像ファイルとして取得する構成を提案する。
本構成では、画像表示手段が、該テキストデータの読み上げ時に、該画像・映像ファイルをアナウンサー画像と共に表示することを特徴とする。

本発明は、次のような印象表現出力方法を提供することもできる。
すなわち、請求項９に記載の発明は、テキストデータからその内容に応じた印象度評価値を算出し、該印象度評価値に応じた表現方法により少なくとも音声の読み上げを行う印象表現出力方法である。
本方法は、
（１）入力手段が、該テキストデータを装置内に取得する入力ステップ、
（２）印象度評価値算出手段が、該テキストデータに含まれる文字列から少なくとも所定の評価尺度における印象度評価値を算出する印象度評価値算出ステップ、
（３）声色選択手段が、該印象度評価値に基づいて、当該テキストデータを読み上げる声色を選択する声色選択ステップ、
（４）音声出力手段が、選択された声色を用いて音声出力する音声出力ステップ
を有することを特徴とする。

請求項１０に記載の発明は、上記の印象表現出力方法において、予め楽曲毎に少なくとも印象値を格納した背景音楽データベースを備えておき、印象度評価値算出ステップの後で、音楽選択手段が印象度評価値に基いて背景音楽データベースから背景音楽の選択を行う背景音楽選択ステップを有する。
そして、音声出力ステップにおいて、音声と共に選択された背景音楽を音声出力手段から出力することを特徴とする。

請求項１１に記載の発明は、印象度評価値算出手段が、予め単語毎に印象値とその重みを格納した印象辞書データベースを備えておき、印象度評価値算出ステップにおいて、テキストデータを形態素解析する形態素解析処理工程、印象辞書データベースを参照して、形態素解析の結果からテキスト全体の印象度評価値を算出する演算工程を処理する。

請求項１２に記載の発明は、前記印象表現出力方法に加えて、音声出力ステップの前に、話し言葉変換処理手段が、前記テキストデータの少なくとも文末語句、省略語句のいずれかについて、予め備えた表現変換データベースに従い、話し言葉への変換を行う話し言葉変換処理ステップを有することを特徴とする。

請求項１３に記載の発明は、印象表現出力方法において映像を同時に提示することを提案する。すなわち、アナウンサー画像合成処理手段が、前記テキストデータを読み上げる音声に伴ってアナウンサー画像を生成するアナウンサー画像合成処理ステップ、音声出力ステップと共に、画像表示手段が、該アナウンサー画像を表示する画像表示ステップを有することを特徴とする。

請求項１４に記載の発明は、上記の入力ステップの後に、タイトル抽出手段が、入力されたテキストデータから、少なくともタイトル部分を分離して抽出するタイトル抽出ステップを有し、音声ステップにおける該タイトル部分の読み上げ時に話題転換を表現する語句を挿入するものである。

請求項１５に記載の発明は、上記の印象表現出力方法において、入力ステップの後に、タイトル抽出手段が、入力されたテキストデータから、少なくともタイトル部分を分離して抽出するタイトル抽出ステップ、画像表示ステップと同時に、テロップ画像合成処理手段が、該タイトル部分のテキストをテロップとして前記画像表示手段から表示するテロップ画像合成処理ステップを有することを特徴とする。

請求項１６に記載の発明は、上記入力ステップにおいて、入力手段がテキストデータと関連する画像又は映像を画像・映像ファイルとして取得する構成であって、前記画像表示ステップにおいて、前記画像表示手段が、該テキストデータの読み上げ時に、該画像・映像ファイルをアナウンサー画像と共に表示することを特徴とする。

本発明は、上記構成を備えることにより次のような効果を奏する。
すなわち、請求項１及び９に係る発明によれば、テキストデータに対して印象度評価値を算出して、その評価値に基づく声色を用いることで、テキスト全体について統一された表現が可能になる。聞き手が当該テキストデータについて妥当な印象をもつことができるので、内容の理解の促進にも寄与する。

請求項２及び１０に係る発明によれば、声色に加えて背景音楽を追加するため、より印象を適確に伝えることが可能となる。特に、声色だけを変えた場合に比して、相乗的な効果が得られることがわかった。

請求項３及び１１に係る発明によれば、形態素解析で得られた形態素毎に印象辞書データベースから詳細に印象値を付与し、それらを用いて所定の計算式によりテキスト全体の印象度評価値を算出するので、より正確な印象度の算出に寄与する。

請求項４及び１２に係る発明によれば、話し言葉に変換した上で音声出力をするので、聞き手が聞きやすく、また書き言葉独特の省略語句などについて省略されていない語句に変換すれば、正確な理解の助けとなる。

請求項５及び１３に係る発明によれば、アナウンサー画像を表示することができるので、聞き手の注意を集めやすく、聞き手の理解向上に寄与する。また、見た目にも良好な出力が可能となり、演出効果の高い出力方法を実現することができる。

請求項６及び１４に係る発明によれば、タイトル部分を抽出することができ、それに従って、話題の転換を聞き手に伝えることができるので、めりはりがあり、聞きやすい音声出力が可能になる。

請求項７及び１５に係る発明によれば、タイトル部分のテキストをテロップとして画像表示するので、聞き手は話題を正確に把握することができ、聞き手の理解向上に寄与する。

請求項８及び１６に係る発明によれば、画像や映像をアナウンサー画像と共に表示することで、視覚的な情報を聞き手に同時に提供することができ、内容をより詳細に伝達することが可能になる。

以下、本発明の実施形態を、図面に示す実施例を基に説明する。なお、実施形態は下記に限定されるものではない。
本発明における印象表現出力装置の全体構成図を図１に示す。本装置（１）は一般的なパーソナルコンピュータで実施するのが好適である。本実施例でも周知のパーソナルコンピュータを用いるので、その詳細なハードウェア構成については説明を省略する。

本装置（１）には、演算処理等を行うＣＰＵ（２）に、画像表示手段であるモニタ（３）、音声を出力するスピーカ（４）、インターネット等のネットワークに接続するネットワークアダプタ（５）、ユーザが操作を行うマウス・キーボード（６）を接続している。また外部記憶装置（７）にデータを格納して適宜読み出し・書き込みが行える。

まず実施例１として、音声のみを出力する印象表現出力装置について説明する。
図３には本発明の最も基本的な処理のフローチャートを示している。最初にテキストデータを装置（１）内に入力（Ｓ１）する。該テキストデータとして、例えばインターネット上で提供されているニュース記事を例として用いる。あるニュースサイトのサーバー上に蓄積されたデータを所定のタイミングでダウンロードして用いてもよいし、メール等で配信されるデータを用いてもよい。これらの取得方法については公知の方法を適宜利用すればよい。

入力されたテキストデータに対して、印象度評価値算出ステップ（Ｓ２）において、該テキストデータの内容に応じた印象度評価値を算出する。この方法は、必ずしも特定されるものではない。
例えば簡便な方法としては該テキストデータ中に「明るい」「暗い」などの印象を持つ単語が含まれているか否か検出し、そのいずれかの印象の単語数が所定のしきい値を超える場合に、当該テキストデータを「明るい」又は「暗い」話題と判定する方法もある。いずれの単語も超えないときは「普通」の話題と判定すればよい。本発明の算出には、このような単なる計数も含むものとする。

本実施例では、さらに高精度な印象度評価値を算出するために、形態素解析を行い、印象度評価値算出部（２０）に該処理部を設けている。
図２は印象度評価値算出部（２０）の詳細な構成を図示している。すなわち、形態素解析処理部（２００）と、演算部（２０１）とを備え、形態素解析処理部（２００）では公知の形態素解析処理を行う。

形態素解析は様々なモジュールが提供されており、代表的なものは茶筌（非特許文献５で配布）、JUMAN(非特許文献６で紹介、非特許文献７で配布)などが知られている。これらをコンピュータ上で実行することにより簡便に実施できる。その際、外部記憶装置（７）に図示しない形態素辞書（形態素・品詞等の文法情報を含む辞書）を格納しておき、形態素解析処理部により形態素に分割する。

http://chasen.naist.jp/hiki/ChaSen/ 黒橋禎夫,河原大輔,日本語形態素解析システムJUMANversion 4.0 (2003) http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html

テキストデータから抽出された形態素について、次に外部記憶装置（７）内の印象辞書データベース（７０）を用いて、演算部（２０１）により印象度評価値を算出する。
本実施例の評価尺度としては話題の明るさを用い、「明るい」「普通」「暗い」のいずれであるかを判定する。
具体的には、印象尺度「明るい〜暗い」における印象値(O〜1の実数値)として算出され，テキストデータから抽出される内容語(名詞（形式名詞、副詞的名詞、数詞を除く）・動詞・形容詞・カタカナ・副詞)の印象値と重みを印象辞書(単語と印象尺度の対応関係を示す辞書)から取得し、計算式に当てはめることによって求める。

印象辞書は、新聞全文記事データベース(1990〜2001年版の200万強の記事)を以下の手順で解析することにより構築されたものであるが、本発明の実施においては任意の方法で構築されたものを用いることができる。
ｙ年版に掲載された記事のうち、印象語群eに含まれる印象語のいずれかを含む記事の数をdf(ｙ,e)、印象語群eに含まれる印象語と印象辞書において見出し語となる内容語ｗの両方を含む記事の数をdf(y,e＆w)とすると、印象語群ｅのいずれかが現れたときに内容語ｗも現れる確率Ｐ(y,e,w)は、

と表される。
そこで、印象尺度「e１〜e2」を構成する印象語群e1,e２に対し、内容語ｗの印象語群e1に対する出現確率P(y,e1,w)と印象語群e2に対する出現確率Ｐ(y,e2,w)の内分比R(y,e1,e2,w)を数２から求める。

但し、分母＝0のときは、便宜的にR＝0として処理する。
このR値を年版ごとに求め、以下の数３に代入することにより、内容語ｗの印象尺度「e1〜e2」における印象値Ｓが求められる。

但し、Ｔ(y,e1,e2,w)は，df(y,e1&w)+df(y,e2&w)＞0のとき１、そうでないとき０となる関数であり、R式の分母が0となるケースを計算式から除外するために導入されている。

一方、内容語の中には、出現する年や出現頻度が多いものもあれば、少ないものもある。そこで、印象値Ｓに対する重みＭを以下の数４ように定義し、内容語ｗと印象語群e１,e２とが共起した年数と頻度の総和（12年間分）に応じて、増減するように設計した。

以上の方法で構築された印象辞書の一部を次の表１に示す。また、印象尺度「明るい〜暗い」を構成する印象語群を表２に示す。

次に、テキストデータの印象度評価値を算出する手法について説述する。
まず形態素解析処理部（２００）で入力したテキストデータについて形態素解析し、データ中に含まれる名詞、動詞、形容詞、カタカナ、副詞を抽出する。そして、印象辞書データベース（７０）から各単語の印象値Ｓと重みＭを取得する。
さらに、演算部（２０１）では以下の数５を用いて該テキストデータの印象度評価値Ｏを算出する。

この式は｜2S−1｜×Ｍを重みとする印象値Ｓの重みつき平均であり｜2S−1｜項はＳに依存する傾斜配分となっている。この傾斜配分は、印象語群との関係が乏しい一般的な単語（印象値は0.5に近い値をとる）がＯ式の平均操作に及ぼす悪影響を削減するために導入されている。

話題の判定において、しきい値Ｈ1とＨ2（Ｈ1≧Ｈ2）を予め設定し、Ｏ＞Ｈ1のとき「明るい話題」、０＜Ｈ2のとき「暗い話題」、それ以外のとき「普通の話題」と判定する。
以上の方法によれば、記事毎に最適な印象尺度評価値を求めることができるので、従来の方法に比して格段にテキスト内容と判定された印象の整合性が高まり、聞き手において記事内容の理解向上に寄与することができる。
印象尺度値算出部（２０）による処理（Ｓ２）は以上の通りである。

このようにして算出された記事（テキストデータ）の印象値Ｏに基づいて、話題のタイプ（明るい，暗い，普通）を判定し、表３に従って背景音楽（以下、ＢＧＭと呼ぶ）と声色を選択する。表３は後述する（検証結果を示す）ように、聞き手にとって記事の印象を適確に理解するために最も好適な組み合わせであり、本発明の要素の１つである。

なお、上述したように本発明は必ずしもＢＧＭを加えなくとも構成できるが、印象を表現する上で、ＢＧＭを組み合わせることにより相乗的な効果を奏するため、本実施例でも図４に示す処理に従って、ＢＧＭを挿入する構成を合わせて説明する。
すなわち、基本処理に加えて、印象度評価値算出ステップ（Ｓ２）の後に、声色選択ステップ（Ｓ３）と同時又は前後のいずれかで背景音楽選択ステップ（Ｓ５）を実行する。

声色選択ステップ（Ｓ３）において、声色選択部（２１）は音声合成部（２２）で音声合成する際に、用いる韻律情報を「明るい」「暗い」「普通」から選択する。この点、特許文献２に開示されるように、感情の起伏に応じた読み情報を事前に登録しておき、印象尺度に応じて最適な韻律で合成音声を生成する技術を用いることができる。同文献ではさらに、生成された合成音声のピッチを上下動させることなどによって自然に聞こえる音声出力が提案されており、このような公知の技術を適宜用いることが好ましい。
ピッチを変化させる場合には、声色選択部（２１）がそれぞれの印象に応じたピッチを音声合成部（２２）に対して通知するようにすればよい。

特開平９−１７１３９６号公報

背景音楽選択ステップ（Ｓ５）において、背景音楽選択部（２３）は予め明るい楽曲を数曲備えておいて、話題が「明るい」「普通」の時に、その中からランダムに選択するだけでもよい。
より好ましくは、本装置（１）では客観的に明るい曲を選択するために本件発明者が提案した「印象に基づく楽曲検索システム」（非特許文献８）を利用することができる。このシステムは、ユーザが入力した印象に基づいて、印象の近い楽曲を提示することができる。このとき、ユーザの印象入力は、ＧＵＩ（グラフィカルユーザインタフェース）を用いて10本の印象尺度（表４）の中から１本以上を選択し、それぞれを７段階評価することにより行われる。

熊本忠彦，太田公子，印象に基づく楽曲検索システムの設計・構築・公開，人工知能学会論文誌，vo1.21，N0.3(2006)

一方、各楽曲の印象も各印象尺度における印象値（O〜8の実数値）として表現される。例を表５に示す。本装置（１）の印象尺度は、表２に示された印象語から構成されているので、「明るい話題」あるいは「普通の話題」と判定される０値（Ｈ2≦Ｏ≦1）を印象尺度４・印象尺度８上の「明るい」・「楽しい」に対応する値（5〜8）に写像するために数６を導入し、v値を両印象尺度への入力とした。

また、本件発明者による特許（特許文献３）で開示される楽曲印象尺度評価値自動付与装置と組み合わせ、楽曲データベース中の楽曲に印象尺度評価値を自動的に付与した上で、記事の印象度評価値に最も適合する印象尺度評価値の楽曲を選択するようにしてもよい。

特許第３６９７５１５号

以上に説述したように、背景音楽選択部（２３）は外部記憶装置の背景音楽データベース（２３）から最適な背景音楽を選択する。これにより、従来のように決まった楽曲をＢＧＭとして単に流すのではなく、読み上げる記事に適合したＢＧＭが自動的に選択されるようになる。
これにより、聞き手はＢＧＭでも記事内容がどのような種類の話題かを感覚的に把握することができ、適確な理解につながる。

次に、音声出力ステップ（Ｓ４）では、音声合成部（２２）で合成された記事の音声情報と、背景音楽選択部（２３）で選択された背景音楽をスピーカ（４）から出力する。

本発明の別実施例として、図５に示すようにＣＰＵ（２）に、話し言葉変換処理部（２４）を設けると共に、外部記憶装置（７）に表現変換データベース（７２）を格納することを提案する。話し言葉変換処理部（２４）の処理（Ｓ６）は、図６に示すように、印象度評価値算出ステップ（Ｓ２）の後、音声出力ステップ（Ｓ４）の前である。声色選択ステップ（Ｓ３）における処理とは直接関連しないので、同時・前後のいずれでもよい。

一般に、ネットワーク上から取得できるテキストデータは、文語体で書かれている。そのためそのまま読み上げてしまうと、違和感が生じる。そこで、記事を構成する各文の文末と節末（接続助詞「が」が用いられている場合のみ）を口語体（デスマス調）に変換する。変換には、形態素辞書を解析することにより自動構築した表現変換データベース（７２）（表６に一部を示す）を用いる。

話し言葉変換処理部（２４）は、文末もしくは節末に表中のデアル調表現が現れたとき、対応するデスマス調表現と置き換える。なお、デアル調表現のマッチングは、該データベース（７２）の第１行から順に行われ、マッチングした時点で終了する。
以上で述べたデアル調からデスマス調への変換と同時に、記事特有の省略語句や読みが難しい表現を音声読み上げのための表現に変換する。この変換も、表現変換データベースに表７のような変換テーブルを備えて処理する。

さらに、文語体から口語体への変換は、すでにいくつかの技術が知られており、例えば本件出願人が提案している「話し言葉による音声出力装置」（特許文献４）では良好に話し言葉に変換する技術が開示されている。
このように公知の話し言葉への変換技術を本発明の話し言葉変換処理部に導入してもよい。

特許第３５９３５６３号

次に実施例２として、音声に加えて映像を出力する印象表現出力装置について図面に示しながら説明する。図７は実施例１の構成に、アナウンサー画像合成処理部（３０）、タイトル抽出部（３１）、テロップ画像合成処理部（３２）をＣＰＵ（２）に備えた本発明装置（１‘）である。

まずアナウンサー画像合成処理部（３０）について説明する。図８は本処理部（３０）の処理を示すフローチャートである。
本発明では、ニュース記事などを読み上げるときに、アナウンサーが話しているような画面を視聴者に提示すると、視聴者が特に関心をもって話しを聞きやすいことや、無機質な合成音声の欠点を補う効果が期待できることから、アナウンサーのコンピュータグラフィックを読み上げと同時に表示することを提案する。

アナウンサーの表示は公知の画像処理技術を用いて自由に描画することができるが、本実施例では、あらかじめ用意されているスタジオセット・ＣＧキャラクタ（ニュースキャスター）に関する情報と上記処理で決定された読み上げ音声に関する情報をＴＶＭＬ形式のニュース台本に埋め込み、ニュース番組を生成する既存のソフトウェアを用いた。ＴＶＭＬ形式のニュース台本はＴＶＭＬプレーヤーで閲覧可能であり、もっとも簡便にアナウンサー画像の表示が行える方法の１つである。（非特許文献９）

林正樹，めざせ！テレビ番組のクリエイターパソコンと番組記述言語ＴＶＭＬで実現!!，技術評論社(2005)

従って、図８においてアナウンサー画像処理ステップ（Ｓ７）ではアナウンサー画像の合成処理を行い、前記音声出力ステップ（Ｓ４）と同時にモニタ（３）から画像を表示（Ｓ８）する。
これにより、あたかも画面内のアナウンサーが読み上げているかのように見えるため、画像及び音声で視聴者に伝達することができる。なお、実際の表示画面を図１０に示す。

なお、アナウンサー画像（４０）を合成する際に、アナウンサーの画像パターンも「明るい」「暗い」「普通」を用意し、例えば「明るい」話題の時は笑顔を表示、「暗い」話題の時は深刻な表情を表示することもできる。人が状況を知る際に、相手の表情は非常に重要であり、アナウンサーの表情を変化させることで、内容のより適確な伝達が図られる。

さらに、本発明ではタイトル抽出部（３１）を設けて、入力したテキストデータからタイトル部分と本文部分を切り分けることができる。
メールの場合には、タイトルと本文部分は書式上定義されているため、その区別は容易である。また、ホームページなどにおいても、タイトルと本文では通常、フォントの大きさを変えてあるため、大きな文字を指定するタグに囲まれる部分がタイトル、それ以外の部分を本文として抽出することができる。

そして、抽出されたタイトルについては、話題を転換する語句、「例えば、次のニュースです」や、「話しは変わりますが、」などの語句と共に出力するのが好ましい。従来、文章の読み上げにおいて、複数の文章があってもどこで話題が転換したのか、視聴者に効果的に知らせることができなかった。
本発明によれば、読み上げ機会が印象度評価値を付与する際に、記事単位を明確にしていることと、タイトルを抽出することができること、の２点から該タイトルに合わせて話題転換の語句を挿入することで、簡便かつ適確に話題の変化を視聴者に知らせることができる。

また、図９に示すように、入力ステップ（Ｓ１）の直後に、タイトル抽出部（３１）がタイトル抽出（Ｓ９）し、本文についてはそのまま印象度評価値算出（Ｓ２）に進む一方、タイトルはテロップ画像合成処理部（３２）において、テロップ画像合成処理ステップ（Ｓ１０）を実行処理することができる。

テロップ画像合成処理は、タイトルに相当するテキストを画面上に重ねて表示するもので、視聴者において現在の話題を速やかに理解することに寄与する。図１０にはテロップの表示例（４１）を示す。

さらに、本発明では例えばインターネット上でニュースのテキストデータと共に、画像（静止画）や映像（動画）が同時に提供されている場合に、その画像・映像を画面上に表示することも提案する。
テロップや、写真をアナウンサーと共に表示することは、テレビ番組では代表的な画面構成であるが、本発明において印象を加味した表現を行いながら情報伝達をすることが可能になったため、コンピュータによる合成画像でも、内容をわかりやすく視聴者に伝えることができると考えられる。
図１０には写真の表示例（４２）も示している。

以上説述した通り、本発明はテキストデータからその内容の印象に合わせた表現を行うことを提案するもので、声色やＢＧＭによる音声出力と、画像表示とを組み合わせて実施することができる。
上記において、評価尺度に「明るい」「普通」「暗い」を用いたが、異なる評価尺度を用いてもよい。

（実験例）
最後に、本発明の演出効果を確認するため、次の検証実験を行った。
被験者は、男女600人ずつの計1200人であり、20代が268名（22.3％）、30代が571名（47.6％）、40代が247名（20.6％）、50代が88名（7.3％）、その他の代が26名（2.2％）である。
各被験者は、アンケート画面の指示に従い、ニュース番組（画像が与える影響を排除するために、ＢＧＭと合成音声を録音したものを用いた）を聴取し、ニュース番組を構成する各々のニュースの分かりやすさ・好感度・親しみやすさを10点満点（10点：とても-分かりやすい／好感が持てる／親しみが持てる←→0点：とても-わかりにくい／不快である／親しみにくい）で評価した。

まず、ＢＧＭの効果を調べた。
ＢＧＭの有無やＢＧＭから受ける印象の違いがニュースの分かりやすさ、好感度、親しみやすさに与える影響を調べるために、普通の話題のニュース（国の特別天然記念物であるオオサンショウウオが路上にいたという話）、明るい話題のニュース（ノーベル賞を受賞した博士が秋葉原好きの親日家という話）、暗い話題のニュース（小学校や保育園で飼育されていたウサギが殺されたという話）のそれぞれに対し、ＢＧＭなし・普通のＢＧＭ（草薙考司・Next Season）・明るいＢＧＭ（ベートーヴェン・ヴァイオリンソナタ「春」第１楽章）・暗いＢＧＭ（サティ・グノシエンヌ第１番）の４種類のＢＧＭを用意した。

すなわち、記事内容が同じでＢＧＭが異なる４つのニュースをつなぎ合わせ、１つのニュース番組とした。被験者らの評価結果を表８、表９、表１０に示す。なお、ニュースキャスターの声色は、いずれのニュースでも「普通の声」である。

表８は、話題のタイプによらず、「ＢＧＭなし」が高評価であったことを示している。そこで、「ＢＧＭなし」の場合と他のＢＧＭとの間で平均値の差の検定を行ってみたところ、明るい話題のニュースのときの明るいＢＧＭに対しては、有意水準5％でも有意な差はなかったが、明るい話題のニュースのときの普通のＢＧＭに対しては有意水準5％で、他の場合には有意水準1％で有意な差があった。
したがって、分かりやすさという点では、ＢＧＭはない方が良いが、明るい話題のときは明るいＢＧＭでも良いことがわかる。
なお、「ＢＧＭなし」の場合を除いて、ＢＧＭから受ける印象と話題のタイプとの関係を調べてみたところ、明るい話題のニュースに対し暗いＢＧＭを用いたり、暗い話題のニュースに対し明るいＢＧＭを用いたりするのは、好ましくないが、他の組み合わせに対しでは、分かりやすさに違いがないことが示された（有意水準5％）。

表９と表１０は、明るい話題や普通の話題のニュースに関して、好感度も親しみやすさも「明るいＢＧＭ」が高評価であったことを示しでいる。そこで、「明るいＢＧＭ」の場合と他のＢＧＭとの間で平均値の差の検定を行ってみたところ、好感度という点では、「明るいＢＧＭ」と「普通のＢＧＭ」が同程度に高評価（有意水準5％で有意差なし）であり、親しみやすさという点では、「明るいＢＧＭ」のみが高評価（「普通のＢＧＭ」に対しでは有意水準5％で、「ＢＧＭなし」と「暗いＢＧＭ」に対しては有意水準1％で有意差あり）であった。
一方、暗い話題のニュースに関しては、好感度、親しみやすさのいずれにおいても、「ＢＧＭなし」と「普通のＢＧＭ」が高評価であり、これらの間には有意水準5％でも有意な差はなかった。

次に声色の効果を調べる実験を行った。
声色から受ける印象の違いがニュースの分かりやすさ、好感度、親しみやすさに与える影響を調べるために、普通の話題のニュース、明るい話題のニュース、暗い話題のニュースのそれぞれに対し、普通の声、明るい声、暗い声の３種類の声色を用意した。すなわち、記事内容が同じで声色が異なる３つのニュースをつなぎ合わせ、１つのニュース番組とした。被験者らの評価結果を表１１、表１２、表１３にまとめる。なお、ＢＧＭは「ＢＧＭなし」とした。

表１１は、話題のタイプによらず、「普通の声」が高評価であったことを示している。そこで、「普通の声」の場合と他の声色との間で平均値の差の検定を行ってみたところ、「普通の話題・明るい声」の組み合わせに対しては有意水準5％で、他の組み合わせに対しては有意水準1％で有意な差があり、分かりやすさという点では「普通の声」が有効であることが示された。
一方、表１２と表１３は、好感度や親しみやすさという点でも、「普通の声」が高評価であったことを示しているが、「明るい声」との差は大きくない．そこで、平均値の差の検定を行ってみたところ、普通の話題のニュースと明るい話題のニュースに関しては、「普通の声」と「明るい声」は同程度に高評価（有意水準5％で有意差なし）であるが、暗い話題のニュースに関しては、「普通の声」の方が高評価（有意水準1％）であることが示された。

最後に、本発明による演出が印象の伝わり方に及ぼす影響を調べた。
結果を表１４にまとめる。Ａ群とＢ群の間で行った平均値の差の検定の結果も表１４に示す。表中、有意水準１％もしくは５％で統計的に有意な差があるときは、その有意水準を示し、有意水準５％で有意な差がないときは、「」と記した。

表１４に示した検定の結果から、演出を加えることによって、（１）記事内容が同じであってもニュースから受ける印象を変えられること、（２）明るい話題のニュースをより明るく伝えられること、（３）暗い話題のニュースを怖さや緊迫感を和らげながら、暗さを抑えて伝えられることが確認された。
なお、表１４に示されているように、明るい話題を普通の演出（普通のＢＧＭ・普通の声）で読み上げたときは、印象尺度「明るい〜暗い」に対する評価の平均値が4.68と５未満になっており、記事から受ける印象が暗めに伝わっていることがわかる。

一方、本装置では明るい話題に明るい演出を加えることによって、平均値が5.51に改善され、記事から受ける印象が明るめに伝わっていることがわかる。
今回の実験では、以上に加え、暗い話題のニュースに対し「暗いＢＧＭ・暗い声」という演出を加えた場合の実験も行った。その結果を平均値の差の検定の結果とともに、表１５に示す。なお、暗い話題のニュースとして、「インフルエンザの特効薬・タミフルを服用した日本人の死者が24人に及んだ」という話を用いた。表１５に示された検定の結果から、暗い話題のニュースを暗い演出で表現することにより、ニュースから受ける印象をより暗く、より怖くできることが確認された。

暗い話題のニュースに関しては、暗い印象を強めて伝える方がいいのか、それとも抑えて伝える方がいいのかは、個人によって大きく異なるものと考えられる。本装置の演出仕様では、分かりやすさ、好感度、親しみやすさという印象「明るい〜暗い」とは異なる評価指標を導入することによって、暗さを抑えて伝えるための演出を採用しているが、今回の実験において暗い話題を暗い演出で読み上げれば、暗い印象を強めて伝えられることも確認されており、演出に関する個々のユーザの嗜好に応じて本装置のパラメータ（表３）を変更し、どちらの演出にするかを決定することも可能となっている。

以上の分析結果から、本発明では前記の表３を定義した。ＢＧＭに関しては、明るい話題・普通の話題のニュースのとき、好感度と親しみやすさが高評価であった「明るいＢＧＭ」を採用することにし、暗い話題のニュースのとき、分かりやすさ、好感度、親しみやすさのいずれにおいても高評価であった「ＢＧＭなし」とした。
声色に関しては、分かりやすさ、好感度、親しみやすさのいずれにおいても高評価であった「普通の声」を採用した。但し、明るい話題のニュースに対しては、ニュース番組に対する嗜好調査の結果を踏まえ、「普通の声」と同程度の評価を得ている「明るい声」を採用した。

本発明の第１実施例に係る印象表現出力装置の全体図である。同装置における印象度評価値算出部の詳細構成図である。本発明の第１実施例に係る印象表現出力方法のフローチャートである。同方法における背景音楽選択処理を加えたフローチャートである。本発明の第１実施例に係る印象表現出力装置における話し言葉変換処理部の詳細構成図である。本発明の第１実施例に係る印象表現出力方法における話し言葉変換処理を加えたフローチャートである。本発明の第２実施例に係る印象表現出力装置の全体図である。本発明の第２実施例に係る印象表現出力方法のフローチャートである。同方法におけるテロップ画像合成処理を加えたフローチャートである。本発明による画面の表示例である。

符号の説明

１印象表現出力装置
２ＣＰＵ
３モニタ
４スピーカ
５ネットワークアダプタ
６マウス・キーボード
７外部記憶装置
２０印象評価値算出部
２１声色選択部
２２音声合成部
２３背景音楽選択部
７１背景音楽データベース

Claims

テキストデータからその内容に応じた印象度評価値を算出し、該印象度評価値に応じた表現方法により少なくとも音声の読み上げを行う印象表現出力装置であって、
該テキストデータを装置内に取得する入力手段と、
該テキストデータに含まれる文字列から少なくとも所定の評価尺度における印象度評価値を算出する印象度評価値算出手段と、
該印象度評価値に基づいて、当該テキストデータを読み上げる声色を選択する声色選択手段と、
選択された声色を用いて音声出力する音声出力手段と
を備えたことを特徴とする印象表現出力装置。
前記印象表現出力装置において、
予め楽曲毎に少なくとも印象値を格納した背景音楽データベースと、
前記印象度評価値に基づき、該背景音楽データベースから背景音楽の選択を行う背景音楽選択手段と
を備え、前記音声と共に選択された背景音楽を音声出力手段から出力する
ことを特徴とする請求項１に記載の印象表現出力装置。
前記印象度評価値算出手段において、
テキストデータを形態素解析する形態素解析処理部と、
予め単語毎に印象値とその重みを格納した印象辞書データベースと、
該印象辞書データベースを参照して、形態素解析の結果からテキスト全体の印象度評価値を算出する演算部と
を備えたことを特徴とする請求項１又は２に記載の印象表現出力装置。
前記印象表現出力装置において、
前記テキストデータの少なくとも文末語句、省略語句のいずれかについて、予め備えた表現変換データベースに従い、話し言葉への変換を行う話し言葉変換処理手段
を備えたことを特徴とする請求項１ないし３のいずれかに記載の印象表現出力装置。
前記印象表現出力装置において、
前記読み上げ音声に伴って表示するアナウンサー画像を生成するアナウンサー画像合成処理手段と、
該アナウンサー画像を表示する画像表示手段と
を備えたことを特徴とする請求項１ないし４のいずれかに記載の印象表現出力装置。
前記印象表現出力装置において、
入力されたテキストデータから、少なくともタイトル部分を分離して抽出するタイトル抽出手段を備え、
該タイトル部分の読み上げ時に話題転換を表現する語句を挿入する
ことを特徴とする請求項１ないし５のいずれかに記載の印象表現出力装置。
前記印象表現出力装置において、
入力されたテキストデータから、少なくともタイトル部分を分離して抽出するタイトル抽出手段と、
該タイトル部分のテキストをテロップとして前記画像表示手段から表示するテロップ画像合成処理手段と
を備えたことを特徴とする請求項５又は６に記載の印象表現出力装置。
前記印象表現出力装置において、
前記入力手段が前記テキストデータと関連する画像又は映像を画像・映像ファイルとして取得する構成であって、
前記画像表示手段が、該テキストデータの読み上げ時に、該画像・映像ファイルをアナウンサー画像と共に表示する
ことを特徴とする請求項５ないし７のいずれかに記載の印象表現出力装置。
テキストデータからその内容に応じた印象度評価値を算出し、該印象度評価値に応じた表現方法により少なくとも音声の読み上げを行う印象表現出力方法であって、
入力手段が、該テキストデータを装置内に取得する入力ステップ、
印象度評価値算出手段が、該テキストデータに含まれる文字列から少なくとも所定の評価尺度における印象度評価値を算出する印象度評価値算出ステップ、
声色選択手段が、該印象度評価値に基づいて、当該テキストデータを読み上げる声色を選択する声色選択ステップ、
音声出力手段が、選択された声色を用いて音声出力する音声出力ステップ
を有することを特徴とする印象表現出力方法。
前記印象表現出力方法において、
予め楽曲毎に少なくとも印象値を格納した背景音楽データベースを備えておき、前記印象度評価値算出ステップの後で、
背景音楽選択手段が、前記印象度評価値に基づき、該背景音楽データベースから背景音楽の選択を行う背景音楽選択ステップを有して、
前記音声出力ステップにおいて、音声と共に選択された背景音楽を音声出力手段から出力する
ことを特徴とする請求項９に記載の印象表現出力方法。
前記印象度評価値算出ステップにおいて、印象度評価値算出手段が、予め単語毎に印象値とその重みを格納した印象辞書データベースを備え、
テキストデータを形態素解析する形態素解析処理工程、
該印象辞書データベースを参照して、形態素解析の結果からテキスト全体の印象度評価値を算出する演算工程
を処理することを特徴とする請求項９又は１０に記載の印象表現出力方法。
前記印象表現出力方法において、前記音声出力ステップの前に、
話し言葉変換処理手段が、前記テキストデータの少なくとも文末語句、省略語句のいずれかについて、予め備えた表現変換データベースに従い、話し言葉への変換を行う話し言葉変換処理ステップ
を有することを特徴とする請求項９ないし１１のいずれかに記載の印象表現出力方法。
前記印象表現出力方法において、
アナウンサー画像合成処理手段が、前記読み上げ音声に伴って表示するアナウンサー画像を生成するアナウンサー画像合成処理ステップ、
音声出力ステップと共に、画像表示手段が、該アナウンサー画像を表示する画像表示ステップ
を有することを特徴とする請求項９ないし１２のいずれかに記載の印象表現出力方法。
前記印象表現出力方法において、入力ステップの後に、
タイトル抽出手段が、入力されたテキストデータから、少なくともタイトル部分を分離して抽出するタイトル抽出ステップを有し、
音声ステップにおける該タイトル部分の読み上げ時に話題転換を表現する語句を挿入する
ことを特徴とする請求項９ないし１３のいずれかに記載の印象表現出力方法。
前記印象表現出力方法において、入力ステップの後に、
タイトル抽出手段が、入力されたテキストデータから、少なくともタイトル部分を分離して抽出するタイトル抽出ステップ、
前記画像表示ステップと同時に、テロップ画像合成処理手段が、該タイトル部分のテキストをテロップとして前記画像表示手段から表示するテロップ画像合成処理ステップ
を有することを特徴とする請求項１３又は１４に記載の印象表現出力方法。
前記印象表現出力方法の入力ステップにおいて、前記入力手段が前記テキストデータと関連する画像又は映像を画像・映像ファイルとして取得する構成であって、
前記画像表示ステップにおいて、前記画像表示手段が、該テキストデータの読み上げ時に、該画像・映像ファイルをアナウンサー画像と共に表示する
ことを特徴とする請求項１３ないし１５のいずれかに記載の印象表現出力方法。