JP2008046425A - 印象表現出力装置及び方法 - Google Patents
印象表現出力装置及び方法 Download PDFInfo
- Publication number
- JP2008046425A JP2008046425A JP2006222820A JP2006222820A JP2008046425A JP 2008046425 A JP2008046425 A JP 2008046425A JP 2006222820 A JP2006222820 A JP 2006222820A JP 2006222820 A JP2006222820 A JP 2006222820A JP 2008046425 A JP2008046425 A JP 2008046425A
- Authority
- JP
- Japan
- Prior art keywords
- impression
- text data
- evaluation value
- image
- expression output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Processing Or Creating Images (AREA)
Abstract
【課題】 読み上げるテキストデータの内容が聞き手に最も効果的に伝わるよう、その印象に合わせた音声及び画像による表現方法を提供すること。
【解決手段】 テキストデータからその内容に応じた印象度評価値を算出し、印象度評価値に応じた表現方法により少なくとも音声の読み上げを行う印象表現出力方法を提供する。入力手段5が、テキストデータを装置内に取得する入力ステップ、印象度評価値算出手段20が、テキストデータに含まれる文字列から少なくとも所定の評価尺度における印象度評価値を算出する印象度評価値算出ステップ、声色選択手段21が、印象度評価値に基づいて、当該テキストデータを読み上げる声色を選択する声色選択ステップ、音声出力手段22・4が、選択された声色を用いて音声出力する音声出力ステップを有する。
【選択図】 図1
【解決手段】 テキストデータからその内容に応じた印象度評価値を算出し、印象度評価値に応じた表現方法により少なくとも音声の読み上げを行う印象表現出力方法を提供する。入力手段5が、テキストデータを装置内に取得する入力ステップ、印象度評価値算出手段20が、テキストデータに含まれる文字列から少なくとも所定の評価尺度における印象度評価値を算出する印象度評価値算出ステップ、声色選択手段21が、印象度評価値に基づいて、当該テキストデータを読み上げる声色を選択する声色選択ステップ、音声出力手段22・4が、選択された声色を用いて音声出力する音声出力ステップを有する。
【選択図】 図1
Description
本発明はテキストデータを読み上げる際に、その印象を表現しながら出力する装置及び方法に関し、より詳しくは声色や背景音楽などにより読み上げる文章の印象をわかりやすく聞き手に伝える技術に係るものである。
インターネットの普及、浸透に伴い、様々なウェブコンテンツを閲覧する機会が増えている。現在のウェブコンテンツ閲覧環境は、能動的閲覧環境であり、ユーザ自身が閲覧したいウェブコンテンツを選択し、主体性を持って閲覧する必要がある。
しかしながら、ユーザがインターキットにアクセスできる時間・場所は限られているため、閲覧できるウェブコンテンツの量はさほど多くない。そのため、ウェブコンテンツをテレビ番組風の動画コンテンツに変換することにより、家事、入浴、食事といった日常的な作業を行いながら、あるいは本の中、公園、トイレといった様々な場所で、ウェブコンテンツを視聴するための受動的視聴環境が望まれている。
しかしながら、ユーザがインターキットにアクセスできる時間・場所は限られているため、閲覧できるウェブコンテンツの量はさほど多くない。そのため、ウェブコンテンツをテレビ番組風の動画コンテンツに変換することにより、家事、入浴、食事といった日常的な作業を行いながら、あるいは本の中、公園、トイレといった様々な場所で、ウェブコンテンツを視聴するための受動的視聴環境が望まれている。
様々な情報をテレビ番組風の動画コンテンツに変換して提示するという基本概念は、非特許文献1に開示されるFRIEND21プロジェクトにおいてテレビ番組メタファとして提唱されている。
その後、キットニュースの議論から脚本を作成し、台詞をCGキャラクタに割り当てることにより、議論をテレビ番組風に提示する方式が非特許文献2に、ウェブページをセグメント化し、セグメントごとに音声とCGキャラクタにより表現・提示する方式が非特許文献3に、テキストと画像からなるウェブページをテキストと画像の同期化領域を決定しながらテレビ番組風の情報番組に変換する方式が非特許文献4にそれぞれ提案されている。
その後、キットニュースの議論から脚本を作成し、台詞をCGキャラクタに割り当てることにより、議論をテレビ番組風に提示する方式が非特許文献2に、ウェブページをセグメント化し、セグメントごとに音声とCGキャラクタにより表現・提示する方式が非特許文献3に、テキストと画像からなるウェブページをテキストと画像の同期化領域を決定しながらテレビ番組風の情報番組に変換する方式が非特許文献4にそれぞれ提案されている。
H. Nonogaki, and H, Ueda, FRIEND21project: A Construction of 21st Century Human Interface, Proc. of lnternationa1Conference on Human Factors in Computing Systems(CHP91),pp. 407-414 (1991)
矢部純,高橋伸,柴山悦哉,ニューススレッドからの番組自動生成,情処研報,vol.1999,N0.087(99-HI-85),pp,13-18(1999)
T. Yamaguchi, I.Hosomi, and T. Miyashita,WebStage: An Active Media Enhanced world wide web Browser, Proc.of Internationa1Conference on Human Factors in Computing Systems(CHF97),pp. 391-398 (1997)
灘本明代,服部多栄子,近藤宏行,沢中郁夫,田中克己,webコンテンツの受動的視聴のための自動変換とスクリプト作成マークアップ言語,情報処理学会論文誌:データベース,vol.42,No.SIG1(TOD8),pp.103-116 (2001)
しかしながら、いずれの方式も単にウェブコンテンツを動画コンテンツに変換するというメディア変換を行っているにすぎず、コンテンツの内容に応じて演出を変えることはできない。そのため、背景音楽やCGキャラクタの声色など一旦設定されたものは、コンテンツの内容に関係なく固定され、常に同じ演出になる欠点がある。その結果、生成された動画コンテンツを聞くという行為では、元のウェブコンテンツの有する印象が視聴者にうまく伝わらないという課題が生じていた。
上記のような番組を構成する場合に限らず、一般的にテキストを読み上げて聞き手に聞かせる場合に、その演出が変わらないことは共通の問題である。これを解決する方法は音声合成の分野では試みられており、例えば特許文献1では文章の内容に沿ったより自然な合成音声を生成することができる技術が提案されている。
本方法は、テキスト文字列から韻律パターンを生成して音声波形を合成するテキスト音声合成方法について、単語ごとに文法情報や、読み、アクセントに関する情報を含む言語情報を登録する単語データベースと、合成音声の韻律パターンを生成するための韻律情報を登録する韻律データベースを備えておく。そして、単語データベースに登録されている単語に印象属性情報が付与されており、かつ韻律データベースに登録されている韻律情報が印象属性情報に対応していることで、韻律パターンの生成時には印象属性情報に対応した韻律情報に基づいて、生成する韻律パターンを変更することができるものである。
この方法は、基本的には単語毎に印象属性を付与しておいて、例えば「希望」は明るく読むといった方法をとっている。例外的に「希望がなかった」の場合には、係り受け関係を解析して全体を暗く読むということも提案されている。
しかし、この方法では単語毎、あるいはせいぜい1文毎に印象が付与されてしまい、例えばニュース全体を聞いた時には明るい読み方と暗い読み方が入り交じって不自然な読み上げになる恐れが大きい。
本発明は、上記従来技術の有する問題点に鑑みて創出されたものであり、読み上げるテキストデータの内容が聞き手に最も効果的に伝わるよう、その印象に合わせた音声及び画像による表現方法を提供することを目的とする。
本発明は、上記の課題を解決するために、次のような印象表現出力装置を提供する。
すなわち、請求項1に記載の発明は、テキストデータからその内容に応じた印象度評価値を算出し、該印象度評価値に応じた表現方法により少なくとも音声の読み上げを行う印象表現出力装置を提供する。
該装置には、テキストデータを装置内に取得する入力手段と、テキストデータに含まれる文字列から少なくとも所定の評価尺度における印象度評価値を算出する印象度評価値算出手段と、印象度評価値に基づいて、当該テキストデータを読み上げる声色を選択する声色選択手段と、選択された声色を用いて音声出力する音声出力手段とを備える。
すなわち、請求項1に記載の発明は、テキストデータからその内容に応じた印象度評価値を算出し、該印象度評価値に応じた表現方法により少なくとも音声の読み上げを行う印象表現出力装置を提供する。
該装置には、テキストデータを装置内に取得する入力手段と、テキストデータに含まれる文字列から少なくとも所定の評価尺度における印象度評価値を算出する印象度評価値算出手段と、印象度評価値に基づいて、当該テキストデータを読み上げる声色を選択する声色選択手段と、選択された声色を用いて音声出力する音声出力手段とを備える。
請求項2に記載の発明は、印象表現出力装置に、予め楽曲毎に少なくとも印象値を格納した背景音楽データベースと、上記の印象度評価値に基づき、背景音楽データベースから背景音楽の選択を行う背景音楽選択手段とを備える。そして、音声と共に選択された背景音楽を音声出力手段から出力することを特徴とする。
請求項3に記載の発明は、本発明装置の印象度評価値算出手段において、テキストデータを形態素解析する形態素解析処理部と、予め単語毎に印象値とその重みを格納した印象辞書データベースと、印象辞書データベースを参照して、形態素解析の結果からテキスト全体の印象度評価値を算出する演算部とを備えるものである。
請求項4に記載の発明は、本発明装置に、テキストデータの少なくとも文末語句、省略語句のいずれかについて、予め備えた表現変換データベースに従い、話し言葉への変換を行う話し言葉変換処理手段を備えたことを特徴とする。
請求項5に記載の発明は、本発明装置に、読み上げ音声に伴って表示するアナウンサー画像を生成するアナウンサー画像合成処理手段と、アナウンサー画像を表示する画像表示手段とを備えて、音声だけでなく映像も同時に視聴者に提示するものである。
請求項6に記載の発明は、印象表現出力装置において、入力されたテキストデータから、少なくともタイトル部分を分離して抽出するタイトル抽出手段を備え、該タイトル部分の読み上げ時に話題転換を表現する語句を挿入することを特徴とする。
請求項7に記載の本発明装置は、入力されたテキストデータから、少なくともタイトル部分を分離して抽出するタイトル抽出手段と、そのタイトル部分のテキストをテロップとして画像表示手段から表示するテロップ画像合成処理手段とを備える。
請求項8に記載の発明は、本発明装置において、入力手段がテキストデータと関連する画像又は映像を画像・映像ファイルとして取得する構成を提案する。
本構成では、画像表示手段が、該テキストデータの読み上げ時に、該画像・映像ファイルをアナウンサー画像と共に表示することを特徴とする。
本構成では、画像表示手段が、該テキストデータの読み上げ時に、該画像・映像ファイルをアナウンサー画像と共に表示することを特徴とする。
本発明は、次のような印象表現出力方法を提供することもできる。
すなわち、請求項9に記載の発明は、テキストデータからその内容に応じた印象度評価値を算出し、該印象度評価値に応じた表現方法により少なくとも音声の読み上げを行う印象表現出力方法である。
本方法は、
(1)入力手段が、該テキストデータを装置内に取得する入力ステップ、
(2)印象度評価値算出手段が、該テキストデータに含まれる文字列から少なくとも所定の評価尺度における印象度評価値を算出する印象度評価値算出ステップ、
(3)声色選択手段が、該印象度評価値に基づいて、当該テキストデータを読み上げる声色を選択する声色選択ステップ、
(4)音声出力手段が、選択された声色を用いて音声出力する音声出力ステップ
を有することを特徴とする。
すなわち、請求項9に記載の発明は、テキストデータからその内容に応じた印象度評価値を算出し、該印象度評価値に応じた表現方法により少なくとも音声の読み上げを行う印象表現出力方法である。
本方法は、
(1)入力手段が、該テキストデータを装置内に取得する入力ステップ、
(2)印象度評価値算出手段が、該テキストデータに含まれる文字列から少なくとも所定の評価尺度における印象度評価値を算出する印象度評価値算出ステップ、
(3)声色選択手段が、該印象度評価値に基づいて、当該テキストデータを読み上げる声色を選択する声色選択ステップ、
(4)音声出力手段が、選択された声色を用いて音声出力する音声出力ステップ
を有することを特徴とする。
請求項10に記載の発明は、上記の印象表現出力方法において、予め楽曲毎に少なくとも印象値を格納した背景音楽データベースを備えておき、印象度評価値算出ステップの後で、音楽選択手段が印象度評価値に基いて背景音楽データベースから背景音楽の選択を行う背景音楽選択ステップを有する。
そして、音声出力ステップにおいて、音声と共に選択された背景音楽を音声出力手段から出力することを特徴とする。
そして、音声出力ステップにおいて、音声と共に選択された背景音楽を音声出力手段から出力することを特徴とする。
請求項11に記載の発明は、印象度評価値算出手段が、予め単語毎に印象値とその重みを格納した印象辞書データベースを備えておき、印象度評価値算出ステップにおいて、テキストデータを形態素解析する形態素解析処理工程、印象辞書データベースを参照して、形態素解析の結果からテキスト全体の印象度評価値を算出する演算工程を処理する。
請求項12に記載の発明は、前記印象表現出力方法に加えて、音声出力ステップの前に、話し言葉変換処理手段が、前記テキストデータの少なくとも文末語句、省略語句のいずれかについて、予め備えた表現変換データベースに従い、話し言葉への変換を行う話し言葉変換処理ステップを有することを特徴とする。
請求項13に記載の発明は、印象表現出力方法において映像を同時に提示することを提案する。すなわち、アナウンサー画像合成処理手段が、前記テキストデータを読み上げる音声に伴ってアナウンサー画像を生成するアナウンサー画像合成処理ステップ、音声出力ステップと共に、画像表示手段が、該アナウンサー画像を表示する画像表示ステップを有することを特徴とする。
請求項14に記載の発明は、上記の入力ステップの後に、タイトル抽出手段が、入力されたテキストデータから、少なくともタイトル部分を分離して抽出するタイトル抽出ステップを有し、音声ステップにおける該タイトル部分の読み上げ時に話題転換を表現する語句を挿入するものである。
請求項15に記載の発明は、上記の印象表現出力方法において、入力ステップの後に、タイトル抽出手段が、入力されたテキストデータから、少なくともタイトル部分を分離して抽出するタイトル抽出ステップ、画像表示ステップと同時に、テロップ画像合成処理手段が、該タイトル部分のテキストをテロップとして前記画像表示手段から表示するテロップ画像合成処理ステップを有することを特徴とする。
請求項16に記載の発明は、上記入力ステップにおいて、入力手段がテキストデータと関連する画像又は映像を画像・映像ファイルとして取得する構成であって、前記画像表示ステップにおいて、前記画像表示手段が、該テキストデータの読み上げ時に、該画像・映像ファイルをアナウンサー画像と共に表示することを特徴とする。
本発明は、上記構成を備えることにより次のような効果を奏する。
すなわち、請求項1及び9に係る発明によれば、テキストデータに対して印象度評価値を算出して、その評価値に基づく声色を用いることで、テキスト全体について統一された表現が可能になる。聞き手が当該テキストデータについて妥当な印象をもつことができるので、内容の理解の促進にも寄与する。
すなわち、請求項1及び9に係る発明によれば、テキストデータに対して印象度評価値を算出して、その評価値に基づく声色を用いることで、テキスト全体について統一された表現が可能になる。聞き手が当該テキストデータについて妥当な印象をもつことができるので、内容の理解の促進にも寄与する。
請求項2及び10に係る発明によれば、声色に加えて背景音楽を追加するため、より印象を適確に伝えることが可能となる。特に、声色だけを変えた場合に比して、相乗的な効果が得られることがわかった。
請求項3及び11に係る発明によれば、形態素解析で得られた形態素毎に印象辞書データベースから詳細に印象値を付与し、それらを用いて所定の計算式によりテキスト全体の印象度評価値を算出するので、より正確な印象度の算出に寄与する。
請求項4及び12に係る発明によれば、話し言葉に変換した上で音声出力をするので、聞き手が聞きやすく、また書き言葉独特の省略語句などについて省略されていない語句に変換すれば、正確な理解の助けとなる。
請求項5及び13に係る発明によれば、アナウンサー画像を表示することができるので、聞き手の注意を集めやすく、聞き手の理解向上に寄与する。また、見た目にも良好な出力が可能となり、演出効果の高い出力方法を実現することができる。
請求項6及び14に係る発明によれば、タイトル部分を抽出することができ、それに従って、話題の転換を聞き手に伝えることができるので、めりはりがあり、聞きやすい音声出力が可能になる。
請求項7及び15に係る発明によれば、タイトル部分のテキストをテロップとして画像表示するので、聞き手は話題を正確に把握することができ、聞き手の理解向上に寄与する。
請求項8及び16に係る発明によれば、画像や映像をアナウンサー画像と共に表示することで、視覚的な情報を聞き手に同時に提供することができ、内容をより詳細に伝達することが可能になる。
以下、本発明の実施形態を、図面に示す実施例を基に説明する。なお、実施形態は下記に限定されるものではない。
本発明における印象表現出力装置の全体構成図を図1に示す。本装置(1)は一般的なパーソナルコンピュータで実施するのが好適である。本実施例でも周知のパーソナルコンピュータを用いるので、その詳細なハードウェア構成については説明を省略する。
本発明における印象表現出力装置の全体構成図を図1に示す。本装置(1)は一般的なパーソナルコンピュータで実施するのが好適である。本実施例でも周知のパーソナルコンピュータを用いるので、その詳細なハードウェア構成については説明を省略する。
本装置(1)には、演算処理等を行うCPU(2)に、画像表示手段であるモニタ(3)、音声を出力するスピーカ(4)、インターネット等のネットワークに接続するネットワークアダプタ(5)、ユーザが操作を行うマウス・キーボード(6)を接続している。また外部記憶装置(7)にデータを格納して適宜読み出し・書き込みが行える。
まず実施例1として、音声のみを出力する印象表現出力装置について説明する。
図3には本発明の最も基本的な処理のフローチャートを示している。最初にテキストデータを装置(1)内に入力(S1)する。該テキストデータとして、例えばインターネット上で提供されているニュース記事を例として用いる。あるニュースサイトのサーバー上に蓄積されたデータを所定のタイミングでダウンロードして用いてもよいし、メール等で配信されるデータを用いてもよい。これらの取得方法については公知の方法を適宜利用すればよい。
図3には本発明の最も基本的な処理のフローチャートを示している。最初にテキストデータを装置(1)内に入力(S1)する。該テキストデータとして、例えばインターネット上で提供されているニュース記事を例として用いる。あるニュースサイトのサーバー上に蓄積されたデータを所定のタイミングでダウンロードして用いてもよいし、メール等で配信されるデータを用いてもよい。これらの取得方法については公知の方法を適宜利用すればよい。
入力されたテキストデータに対して、印象度評価値算出ステップ(S2)において、該テキストデータの内容に応じた印象度評価値を算出する。この方法は、必ずしも特定されるものではない。
例えば簡便な方法としては該テキストデータ中に「明るい」「暗い」などの印象を持つ単語が含まれているか否か検出し、そのいずれかの印象の単語数が所定のしきい値を超える場合に、当該テキストデータを「明るい」又は「暗い」話題と判定する方法もある。いずれの単語も超えないときは「普通」の話題と判定すればよい。本発明の算出には、このような単なる計数も含むものとする。
例えば簡便な方法としては該テキストデータ中に「明るい」「暗い」などの印象を持つ単語が含まれているか否か検出し、そのいずれかの印象の単語数が所定のしきい値を超える場合に、当該テキストデータを「明るい」又は「暗い」話題と判定する方法もある。いずれの単語も超えないときは「普通」の話題と判定すればよい。本発明の算出には、このような単なる計数も含むものとする。
本実施例では、さらに高精度な印象度評価値を算出するために、形態素解析を行い、印象度評価値算出部(20)に該処理部を設けている。
図2は印象度評価値算出部(20)の詳細な構成を図示している。すなわち、形態素解析処理部(200)と、演算部(201)とを備え、形態素解析処理部(200)では公知の形態素解析処理を行う。
図2は印象度評価値算出部(20)の詳細な構成を図示している。すなわち、形態素解析処理部(200)と、演算部(201)とを備え、形態素解析処理部(200)では公知の形態素解析処理を行う。
形態素解析は様々なモジュールが提供されており、代表的なものは茶筌(非特許文献5で配布)、JUMAN(非特許文献6で紹介、非特許文献7で配布)などが知られている。これらをコンピュータ上で実行することにより簡便に実施できる。その際、外部記憶装置(7)に図示しない形態素辞書(形態素・品詞等の文法情報を含む辞書)を格納しておき、形態素解析処理部により形態素に分割する。
http://chasen.naist.jp/hiki/ChaSen/
黒橋禎夫,河原大輔,日本語形態素解析システムJUMANversion 4.0 (2003)
http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html
テキストデータから抽出された形態素について、次に外部記憶装置(7)内の印象辞書データベース(70)を用いて、演算部(201)により印象度評価値を算出する。
本実施例の評価尺度としては話題の明るさを用い、「明るい」「普通」「暗い」のいずれであるかを判定する。
具体的には、印象尺度「明るい〜暗い」における印象値(O〜1の実数値)として算出され,テキストデータから抽出される内容語(名詞(形式名詞、副詞的名詞、数詞を除く)・動詞・形容詞・カタカナ・副詞)の印象値と重みを印象辞書(単語と印象尺度の対応関係を示す辞書)から取得し、計算式に当てはめることによって求める。
本実施例の評価尺度としては話題の明るさを用い、「明るい」「普通」「暗い」のいずれであるかを判定する。
具体的には、印象尺度「明るい〜暗い」における印象値(O〜1の実数値)として算出され,テキストデータから抽出される内容語(名詞(形式名詞、副詞的名詞、数詞を除く)・動詞・形容詞・カタカナ・副詞)の印象値と重みを印象辞書(単語と印象尺度の対応関係を示す辞書)から取得し、計算式に当てはめることによって求める。
印象辞書は、新聞全文記事データベース(1990〜2001年版の200万強の記事)を以下の手順で解析することにより構築されたものであるが、本発明の実施においては任意の方法で構築されたものを用いることができる。
y年版に掲載された記事のうち、印象語群eに含まれる印象語のいずれかを含む記事の数をdf(y,e)、印象語群eに含まれる印象語と印象辞書において見出し語となる内容語wの両方を含む記事の数をdf(y,e&w)とすると、印象語群eのいずれかが現れたときに内容語wも現れる確率P(y,e,w)は、
y年版に掲載された記事のうち、印象語群eに含まれる印象語のいずれかを含む記事の数をdf(y,e)、印象語群eに含まれる印象語と印象辞書において見出し語となる内容語wの両方を含む記事の数をdf(y,e&w)とすると、印象語群eのいずれかが現れたときに内容語wも現れる確率P(y,e,w)は、
と表される。
そこで、印象尺度「e1〜e2」を構成する印象語群e1,e2に対し、内容語wの印象語群e1に対する出現確率P(y,e1,w)と印象語群e2に対する出現確率P(y,e2,w)の内分比R(y,e1,e2,w)を数2から求める。
但し、分母=0のときは、便宜的にR=0として処理する。
このR値を年版ごとに求め、以下の数3に代入することにより、内容語wの印象尺度「e1〜e2」における印象値Sが求められる。
但し、T(y,e1,e2,w)は,df(y,e1&w)+df(y,e2&w)>0のとき1、そうでないとき0となる関数であり、R式の分母が0となるケースを計算式から除外するために導入されている。
一方、内容語の中には、出現する年や出現頻度が多いものもあれば、少ないものもある。そこで、印象値Sに対する重みMを以下の数4ように定義し、内容語wと印象語群e1,e2とが共起した年数と頻度の総和(12年間分)に応じて、増減するように設計した。
以上の方法で構築された印象辞書の一部を次の表1に示す。また、印象尺度「明るい〜暗い」を構成する印象語群を表2に示す。
次に、テキストデータの印象度評価値を算出する手法について説述する。
まず形態素解析処理部(200)で入力したテキストデータについて形態素解析し、データ中に含まれる名詞、動詞、形容詞、カタカナ、副詞を抽出する。そして、印象辞書データベース(70)から各単語の印象値Sと重みMを取得する。
さらに、演算部(201)では以下の数5を用いて該テキストデータの印象度評価値Oを算出する。
まず形態素解析処理部(200)で入力したテキストデータについて形態素解析し、データ中に含まれる名詞、動詞、形容詞、カタカナ、副詞を抽出する。そして、印象辞書データベース(70)から各単語の印象値Sと重みMを取得する。
さらに、演算部(201)では以下の数5を用いて該テキストデータの印象度評価値Oを算出する。
この式は|2S−1|×Mを重みとする印象値Sの重みつき平均であり|2S−1|項はSに依存する傾斜配分となっている。この傾斜配分は、印象語群との関係が乏しい一般的な単語(印象値は0.5に近い値をとる)がO式の平均操作に及ぼす悪影響を削減するために導入されている。
話題の判定において、しきい値H1とH2(H1≧H2)を予め設定し、O>H1のとき「明るい話題」、0<H2のとき「暗い話題」、それ以外のとき「普通の話題」と判定する。
以上の方法によれば、記事毎に最適な印象尺度評価値を求めることができるので、従来の方法に比して格段にテキスト内容と判定された印象の整合性が高まり、聞き手において記事内容の理解向上に寄与することができる。
印象尺度値算出部(20)による処理(S2)は以上の通りである。
以上の方法によれば、記事毎に最適な印象尺度評価値を求めることができるので、従来の方法に比して格段にテキスト内容と判定された印象の整合性が高まり、聞き手において記事内容の理解向上に寄与することができる。
印象尺度値算出部(20)による処理(S2)は以上の通りである。
このようにして算出された記事(テキストデータ)の印象値Oに基づいて、話題のタイプ(明るい,暗い,普通)を判定し、表3に従って背景音楽(以下、BGMと呼ぶ)と声色を選択する。表3は後述する(検証結果を示す)ように、聞き手にとって記事の印象を適確に理解するために最も好適な組み合わせであり、本発明の要素の1つである。
なお、上述したように本発明は必ずしもBGMを加えなくとも構成できるが、印象を表現する上で、BGMを組み合わせることにより相乗的な効果を奏するため、本実施例でも図4に示す処理に従って、BGMを挿入する構成を合わせて説明する。
すなわち、基本処理に加えて、印象度評価値算出ステップ(S2)の後に、声色選択ステップ(S3)と同時又は前後のいずれかで背景音楽選択ステップ(S5)を実行する。
すなわち、基本処理に加えて、印象度評価値算出ステップ(S2)の後に、声色選択ステップ(S3)と同時又は前後のいずれかで背景音楽選択ステップ(S5)を実行する。
声色選択ステップ(S3)において、声色選択部(21)は音声合成部(22)で音声合成する際に、用いる韻律情報を「明るい」「暗い」「普通」から選択する。この点、特許文献2に開示されるように、感情の起伏に応じた読み情報を事前に登録しておき、印象尺度に応じて最適な韻律で合成音声を生成する技術を用いることができる。同文献ではさらに、生成された合成音声のピッチを上下動させることなどによって自然に聞こえる音声出力が提案されており、このような公知の技術を適宜用いることが好ましい。
ピッチを変化させる場合には、声色選択部(21)がそれぞれの印象に応じたピッチを音声合成部(22)に対して通知するようにすればよい。
ピッチを変化させる場合には、声色選択部(21)がそれぞれの印象に応じたピッチを音声合成部(22)に対して通知するようにすればよい。
背景音楽選択ステップ(S5)において、背景音楽選択部(23)は予め明るい楽曲を数曲備えておいて、話題が「明るい」「普通」の時に、その中からランダムに選択するだけでもよい。
より好ましくは、本装置(1)では客観的に明るい曲を選択するために本件発明者が提案した「印象に基づく楽曲検索システム」(非特許文献8)を利用することができる。このシステムは、ユーザが入力した印象に基づいて、印象の近い楽曲を提示することができる。このとき、ユーザの印象入力は、GUI(グラフィカルユーザインタフェース)を用いて10本の印象尺度(表4)の中から1本以上を選択し、それぞれを7段階評価することにより行われる。
より好ましくは、本装置(1)では客観的に明るい曲を選択するために本件発明者が提案した「印象に基づく楽曲検索システム」(非特許文献8)を利用することができる。このシステムは、ユーザが入力した印象に基づいて、印象の近い楽曲を提示することができる。このとき、ユーザの印象入力は、GUI(グラフィカルユーザインタフェース)を用いて10本の印象尺度(表4)の中から1本以上を選択し、それぞれを7段階評価することにより行われる。
熊本忠彦,太田公子,印象に基づく楽曲検索システムの設計・構築・公開,人工知能学会論文誌,vo1.21,N0.3(2006)
一方、各楽曲の印象も各印象尺度における印象値(O〜8の実数値)として表現される。例を表5に示す。本装置(1)の印象尺度は、表2に示された印象語から構成されているので、「明るい話題」あるいは「普通の話題」と判定される0値(H2≦O≦1)を印象尺度4・印象尺度8上の「明るい」・「楽しい」に対応する値(5〜8)に写像するために数6を導入し、v値を両印象尺度への入力とした。
また、本件発明者による特許(特許文献3)で開示される楽曲印象尺度評価値自動付与装置と組み合わせ、楽曲データベース中の楽曲に印象尺度評価値を自動的に付与した上で、記事の印象度評価値に最も適合する印象尺度評価値の楽曲を選択するようにしてもよい。
以上に説述したように、背景音楽選択部(23)は外部記憶装置の背景音楽データベース(23)から最適な背景音楽を選択する。これにより、従来のように決まった楽曲をBGMとして単に流すのではなく、読み上げる記事に適合したBGMが自動的に選択されるようになる。
これにより、聞き手はBGMでも記事内容がどのような種類の話題かを感覚的に把握することができ、適確な理解につながる。
これにより、聞き手はBGMでも記事内容がどのような種類の話題かを感覚的に把握することができ、適確な理解につながる。
次に、音声出力ステップ(S4)では、音声合成部(22)で合成された記事の音声情報と、背景音楽選択部(23)で選択された背景音楽をスピーカ(4)から出力する。
本発明の別実施例として、図5に示すようにCPU(2)に、話し言葉変換処理部(24)を設けると共に、外部記憶装置(7)に表現変換データベース(72)を格納することを提案する。話し言葉変換処理部(24)の処理(S6)は、図6に示すように、印象度評価値算出ステップ(S2)の後、音声出力ステップ(S4)の前である。声色選択ステップ(S3)における処理とは直接関連しないので、同時・前後のいずれでもよい。
一般に、ネットワーク上から取得できるテキストデータは、文語体で書かれている。そのためそのまま読み上げてしまうと、違和感が生じる。そこで、記事を構成する各文の文末と節末(接続助詞「が」が用いられている場合のみ)を口語体(デスマス調)に変換する。変換には、形態素辞書を解析することにより自動構築した表現変換データベース(72)(表6に一部を示す)を用いる。
話し言葉変換処理部(24)は、文末もしくは節末に表中のデアル調表現が現れたとき、対応するデスマス調表現と置き換える。なお、デアル調表現のマッチングは、該データベース(72)の第1行から順に行われ、マッチングした時点で終了する。
以上で述べたデアル調からデスマス調への変換と同時に、記事特有の省略語句や読みが難しい表現を音声読み上げのための表現に変換する。この変換も、表現変換データベースに表7のような変換テーブルを備えて処理する。
以上で述べたデアル調からデスマス調への変換と同時に、記事特有の省略語句や読みが難しい表現を音声読み上げのための表現に変換する。この変換も、表現変換データベースに表7のような変換テーブルを備えて処理する。
さらに、文語体から口語体への変換は、すでにいくつかの技術が知られており、例えば本件出願人が提案している「話し言葉 による音声出力装置」(特許文献4)では良好に話し言葉に変換する技術が開示されている。
このように公知の話し言葉への変換技術を本発明の話し言葉変換処理部に導入してもよい。
このように公知の話し言葉への変換技術を本発明の話し言葉変換処理部に導入してもよい。
次に実施例2として、音声に加えて映像を出力する印象表現出力装置について図面に示しながら説明する。図7は実施例1の構成に、アナウンサー画像合成処理部(30)、タイトル抽出部(31)、テロップ画像合成処理部(32)をCPU(2)に備えた本発明装置(1‘)である。
まずアナウンサー画像合成処理部(30)について説明する。図8は本処理部(30)の処理を示すフローチャートである。
本発明では、ニュース記事などを読み上げるときに、アナウンサーが話しているような画面を視聴者に提示すると、視聴者が特に関心をもって話しを聞きやすいことや、無機質な合成音声の欠点を補う効果が期待できることから、アナウンサーのコンピュータグラフィックを読み上げと同時に表示することを提案する。
本発明では、ニュース記事などを読み上げるときに、アナウンサーが話しているような画面を視聴者に提示すると、視聴者が特に関心をもって話しを聞きやすいことや、無機質な合成音声の欠点を補う効果が期待できることから、アナウンサーのコンピュータグラフィックを読み上げと同時に表示することを提案する。
アナウンサーの表示は公知の画像処理技術を用いて自由に描画することができるが、本実施例では、あらかじめ用意されているスタジオセット・CGキャラクタ(ニュースキャスター)に関する情報と上記処理で決定された読み上げ音声に関する情報をTVML形式のニュース台本に埋め込み、ニュース番組を生成する既存のソフトウェアを用いた。TVML形式のニュース台本はTVMLプレーヤーで閲覧可能であり、もっとも簡便にアナウンサー画像の表示が行える方法の1つである。(非特許文献9)
林正樹,めざせ!テレビ番組のクリエイター パソコンと番組記述言語TVMLで実現!!,技術評論社(2005)
従って、図8においてアナウンサー画像処理ステップ(S7)ではアナウンサー画像の合成処理を行い、前記音声出力ステップ(S4)と同時にモニタ(3)から画像を表示(S8)する。
これにより、あたかも画面内のアナウンサーが読み上げているかのように見えるため、画像及び音声で視聴者に伝達することができる。なお、実際の表示画面を図10に示す。
これにより、あたかも画面内のアナウンサーが読み上げているかのように見えるため、画像及び音声で視聴者に伝達することができる。なお、実際の表示画面を図10に示す。
なお、アナウンサー画像(40)を合成する際に、アナウンサーの画像パターンも「明るい」「暗い」「普通」を用意し、例えば「明るい」話題の時は笑顔を表示、「暗い」話題の時は深刻な表情を表示することもできる。人が状況を知る際に、相手の表情は非常に重要であり、アナウンサーの表情を変化させることで、内容のより適確な伝達が図られる。
さらに、本発明ではタイトル抽出部(31)を設けて、入力したテキストデータからタイトル部分と本文部分を切り分けることができる。
メールの場合には、タイトルと本文部分は書式上定義されているため、その区別は容易である。また、ホームページなどにおいても、タイトルと本文では通常、フォントの大きさを変えてあるため、大きな文字を指定するタグに囲まれる部分がタイトル、それ以外の部分を本文として抽出することができる。
メールの場合には、タイトルと本文部分は書式上定義されているため、その区別は容易である。また、ホームページなどにおいても、タイトルと本文では通常、フォントの大きさを変えてあるため、大きな文字を指定するタグに囲まれる部分がタイトル、それ以外の部分を本文として抽出することができる。
そして、抽出されたタイトルについては、話題を転換する語句、「例えば、次のニュースです」や、「話しは変わりますが、」などの語句と共に出力するのが好ましい。従来、文章の読み上げにおいて、複数の文章があってもどこで話題が転換したのか、視聴者に効果的に知らせることができなかった。
本発明によれば、読み上げ機会が印象度評価値を付与する際に、記事単位を明確にしていることと、タイトルを抽出することができること、の2点から該タイトルに合わせて話題転換の語句を挿入することで、簡便かつ適確に話題の変化を視聴者に知らせることができる。
本発明によれば、読み上げ機会が印象度評価値を付与する際に、記事単位を明確にしていることと、タイトルを抽出することができること、の2点から該タイトルに合わせて話題転換の語句を挿入することで、簡便かつ適確に話題の変化を視聴者に知らせることができる。
また、図9に示すように、入力ステップ(S1)の直後に、タイトル抽出部(31)がタイトル抽出(S9)し、本文についてはそのまま印象度評価値算出(S2)に進む一方、タイトルはテロップ画像合成処理部(32)において、テロップ画像合成処理ステップ(S10)を実行処理することができる。
テロップ画像合成処理は、タイトルに相当するテキストを画面上に重ねて表示するもので、視聴者において現在の話題を速やかに理解することに寄与する。図10にはテロップの表示例(41)を示す。
さらに、本発明では例えばインターネット上でニュースのテキストデータと共に、画像(静止画)や映像(動画)が同時に提供されている場合に、その画像・映像を画面上に表示することも提案する。
テロップや、写真をアナウンサーと共に表示することは、テレビ番組では代表的な画面構成であるが、本発明において印象を加味した表現を行いながら情報伝達をすることが可能になったため、コンピュータによる合成画像でも、内容をわかりやすく視聴者に伝えることができると考えられる。
図10には写真の表示例(42)も示している。
テロップや、写真をアナウンサーと共に表示することは、テレビ番組では代表的な画面構成であるが、本発明において印象を加味した表現を行いながら情報伝達をすることが可能になったため、コンピュータによる合成画像でも、内容をわかりやすく視聴者に伝えることができると考えられる。
図10には写真の表示例(42)も示している。
以上説述した通り、本発明はテキストデータからその内容の印象に合わせた表現を行うことを提案するもので、声色やBGMによる音声出力と、画像表示とを組み合わせて実施することができる。
上記において、評価尺度に「明るい」「普通」「暗い」を用いたが、異なる評価尺度を用いてもよい。
上記において、評価尺度に「明るい」「普通」「暗い」を用いたが、異なる評価尺度を用いてもよい。
(実験例)
最後に、本発明の演出効果を確認するため、次の検証実験を行った。
被験者は、男女600人ずつの計1200人であり、20代が268名(22.3%)、30代が571名(47.6%)、40代が247名(20.6%)、50代が88名(7.3%)、その他の代が26名(2.2%)である。
各被験者は、アンケート画面の指示に従い、ニュース番組(画像が与える影響を排除するために、BGMと合成音声を録音したものを用いた)を聴取し、ニュース番組を構成する各々のニュースの分かりやすさ・好感度・親しみやすさを10点満点(10点:とても-分かりやすい/好感が持てる/親しみが持てる←→0点:とても-わかりにくい/不快である/親しみにくい)で評価した。
最後に、本発明の演出効果を確認するため、次の検証実験を行った。
被験者は、男女600人ずつの計1200人であり、20代が268名(22.3%)、30代が571名(47.6%)、40代が247名(20.6%)、50代が88名(7.3%)、その他の代が26名(2.2%)である。
各被験者は、アンケート画面の指示に従い、ニュース番組(画像が与える影響を排除するために、BGMと合成音声を録音したものを用いた)を聴取し、ニュース番組を構成する各々のニュースの分かりやすさ・好感度・親しみやすさを10点満点(10点:とても-分かりやすい/好感が持てる/親しみが持てる←→0点:とても-わかりにくい/不快である/親しみにくい)で評価した。
まず、BGMの効果を調べた。
BGMの有無やBGMから受ける印象の違いがニュースの分かりやすさ、好感度、親しみやすさに与える影響を調べるために、普通の話題のニュース(国の特別天然記念物であるオオサンショウウオが路上にいたという話)、明るい話題のニュース(ノーベル賞を受賞した博士が秋葉原好きの親日家という話)、暗い話題のニュース(小学校や保育園で飼育されていたウサギが殺されたという話)のそれぞれに対し、BGMなし・普通のBGM(草薙考司・Next Season)・明るいBGM(ベートーヴェン・ヴァイオリンソナタ「春」第1楽章)・暗いBGM(サティ・グノシエンヌ第1番)の4種類のBGMを用意した。
BGMの有無やBGMから受ける印象の違いがニュースの分かりやすさ、好感度、親しみやすさに与える影響を調べるために、普通の話題のニュース(国の特別天然記念物であるオオサンショウウオが路上にいたという話)、明るい話題のニュース(ノーベル賞を受賞した博士が秋葉原好きの親日家という話)、暗い話題のニュース(小学校や保育園で飼育されていたウサギが殺されたという話)のそれぞれに対し、BGMなし・普通のBGM(草薙考司・Next Season)・明るいBGM(ベートーヴェン・ヴァイオリンソナタ「春」第1楽章)・暗いBGM(サティ・グノシエンヌ第1番)の4種類のBGMを用意した。
すなわち、記事内容が同じでBGMが異なる4つのニュースをつなぎ合わせ、1つのニュース番組とした。被験者らの評価結果を表8、表9、表10に示す。なお、ニュースキャスターの声色は、いずれのニュースでも「普通の声」である。
表8は、話題のタイプによらず、「BGMなし」が高評価であったことを示している。そこで、「BGMなし」の場合と他のBGMとの間で平均値の差の検定を行ってみたところ、明るい話題のニュースのときの明るいBGMに対しては、有意水準5%でも有意な差はなかったが、明るい話題のニュースのときの普通のBGMに対しては有意水準5%で、他の場合には有意水準1%で有意な差があった。
したがって、分かりやすさという点では、BGMはない方が良いが、明るい話題のときは明るいBGMでも良いことがわかる。
なお、「BGMなし」の場合を除いて、BGMから受ける印象と話題のタイプとの関係を調べてみたところ、明るい話題のニュースに対し暗いBGMを用いたり、暗い話題のニュースに対し明るいBGMを用いたりするのは、好ましくないが、他の組み合わせに対しでは、分かりやすさに違いがないことが示された(有意水準5%)。
したがって、分かりやすさという点では、BGMはない方が良いが、明るい話題のときは明るいBGMでも良いことがわかる。
なお、「BGMなし」の場合を除いて、BGMから受ける印象と話題のタイプとの関係を調べてみたところ、明るい話題のニュースに対し暗いBGMを用いたり、暗い話題のニュースに対し明るいBGMを用いたりするのは、好ましくないが、他の組み合わせに対しでは、分かりやすさに違いがないことが示された(有意水準5%)。
表9と表10は、明るい話題や普通の話題のニュースに関して、好感度も親しみやすさも「明るいBGM」が高評価であったことを示しでいる。そこで、「明るいBGM」の場合と他のBGMとの間で平均値の差の検定を行ってみたところ、好感度という点では、「明るいBGM」と「普通のBGM」が同程度に高評価(有意水準5%で有意差なし)であり、親しみやすさという点では、「明るいBGM」のみが高評価(「普通のBGM」に対しでは有意水準5%で、「BGMなし」と「暗いBGM」に対しては有意水準1%で有意差あり)であった。
一方、暗い話題のニュースに関しては、好感度、親しみやすさのいずれにおいても、「BGMなし」と「普通のBGM」が高評価であり、これらの間には有意水準5%でも有意な差はなかった。
一方、暗い話題のニュースに関しては、好感度、親しみやすさのいずれにおいても、「BGMなし」と「普通のBGM」が高評価であり、これらの間には有意水準5%でも有意な差はなかった。
次に声色の効果を調べる実験を行った。
声色から受ける印象の違いがニュースの分かりやすさ、好感度、親しみやすさに与える影響を調べるために、普通の話題のニュース、明るい話題のニュース、暗い話題のニュースのそれぞれに対し、普通の声、明るい声、暗い声の3種類の声色を用意した。すなわち、記事内容が同じで声色が異なる3つのニュースをつなぎ合わせ、1つのニュース番組とした。被験者らの評価結果を表11、表12、表13にまとめる。なお、BGMは「BGMなし」とした。
声色から受ける印象の違いがニュースの分かりやすさ、好感度、親しみやすさに与える影響を調べるために、普通の話題のニュース、明るい話題のニュース、暗い話題のニュースのそれぞれに対し、普通の声、明るい声、暗い声の3種類の声色を用意した。すなわち、記事内容が同じで声色が異なる3つのニュースをつなぎ合わせ、1つのニュース番組とした。被験者らの評価結果を表11、表12、表13にまとめる。なお、BGMは「BGMなし」とした。
表11は、話題のタイプによらず、「普通の声」が高評価であったことを示している。そこで、「普通の声」の場合と他の声色との間で平均値の差の検定を行ってみたところ、「普通の話題・明るい声」の組み合わせに対しては有意水準5%で、他の組み合わせに対しては有意水準1%で有意な差があり、分かりやすさという点では「普通の声」が有効であることが示された。
一方、表12と表13は、好感度や親しみやすさという点でも、「普通の声」が高評価であったことを示しているが、「明るい声」との差は大きくない.そこで、平均値の差の検定を行ってみたところ、普通の話題のニュースと明るい話題のニュースに関しては、「普通の声」と「明るい声」は同程度に高評価(有意水準5%で有意差なし)であるが、暗い話題のニュースに関しては、「普通の声」の方が高評価(有意水準1%)であることが示された。
一方、表12と表13は、好感度や親しみやすさという点でも、「普通の声」が高評価であったことを示しているが、「明るい声」との差は大きくない.そこで、平均値の差の検定を行ってみたところ、普通の話題のニュースと明るい話題のニュースに関しては、「普通の声」と「明るい声」は同程度に高評価(有意水準5%で有意差なし)であるが、暗い話題のニュースに関しては、「普通の声」の方が高評価(有意水準1%)であることが示された。
最後に、本発明による演出が印象の伝わり方に及ぼす影響を調べた。
結果を表14にまとめる。A群とB群の間で行った平均値の差の検定の結果も表14に示す。表中、有意水準1%もしくは5%で統計的に有意な差があるときは、その有意水準を示し、有意水準5%で有意な差がないときは、「 」と記した。
結果を表14にまとめる。A群とB群の間で行った平均値の差の検定の結果も表14に示す。表中、有意水準1%もしくは5%で統計的に有意な差があるときは、その有意水準を示し、有意水準5%で有意な差がないときは、「 」と記した。
表14に示した検定の結果から、演出を加えることによって、(1)記事内容が同じであってもニュースから受ける印象を変えられること、(2)明るい話題のニュースをより明るく伝えられること、(3)暗い話題のニュースを怖さや緊迫感を和らげながら、暗さを抑えて伝えられることが確認された。
なお、表14に示されているように、明るい話題を普通の演出(普通のBGM・普通の声)で読み上げたときは、印象尺度「明るい〜暗い」に対する評価の平均値が4.68と5未満になっており、記事から受ける印象が暗めに伝わっていることがわかる。
なお、表14に示されているように、明るい話題を普通の演出(普通のBGM・普通の声)で読み上げたときは、印象尺度「明るい〜暗い」に対する評価の平均値が4.68と5未満になっており、記事から受ける印象が暗めに伝わっていることがわかる。
一方、本装置では明るい話題に明るい演出を加えることによって、平均値が5.51に改善され、記事から受ける印象が明るめに伝わっていることがわかる。
今回の実験では、以上に加え、暗い話題のニュースに対し「暗いBGM・暗い声」という演出を加えた場合の実験も行った。その結果を平均値の差の検定の結果とともに、表 15に示す。なお、暗い話題のニュースとして、「インフルエンザの特効薬・タミフルを服用した日本人の死者が24人に及んだ」という話を用いた。表15に示された検定の結果から、暗い話題のニュースを暗い演出で表現することにより、ニュースから受ける印象をより暗く、より怖くできることが確認された。
今回の実験では、以上に加え、暗い話題のニュースに対し「暗いBGM・暗い声」という演出を加えた場合の実験も行った。その結果を平均値の差の検定の結果とともに、表 15に示す。なお、暗い話題のニュースとして、「インフルエンザの特効薬・タミフルを服用した日本人の死者が24人に及んだ」という話を用いた。表15に示された検定の結果から、暗い話題のニュースを暗い演出で表現することにより、ニュースから受ける印象をより暗く、より怖くできることが確認された。
暗い話題のニュースに関しては、暗い印象を強めて伝える方がいいのか、それとも抑えて伝える方がいいのかは、個人によって大きく異なるものと考えられる。本装置の演出仕様では、分かりやすさ、好感度、親しみやすさという印象「明るい〜暗い」とは異なる評価指標を導入することによって、暗さを抑えて伝えるための演出を採用しているが、今回の実験において暗い話題を暗い演出で読み上げれば、暗い印象を強めて伝えられることも確認されており、演出に関する個々のユーザの嗜好に応じて本装置のパラメータ(表3)を変更し、どちらの演出にするかを決定することも可能となっている。
以上の分析結果から、本発明では前記の表3を定義した。BGMに関しては、明るい話題・普通の話題のニュースのとき、好感度と親しみやすさが高評価であった「明るいBGM」を採用することにし、暗い話題のニュースのとき、分かりやすさ、好感度、親しみやすさのいずれにおいても高評価であった「BGMなし」とした。
声色に関しては、分かりやすさ、好感度、親しみやすさのいずれにおいても高評価であった「普通の声」を採用した。但し、明るい話題のニュースに対しては、ニュース番組に対する嗜好調査の結果を踏まえ、「普通の声」と同程度の評価を得ている「明るい声」を採用した。
声色に関しては、分かりやすさ、好感度、親しみやすさのいずれにおいても高評価であった「普通の声」を採用した。但し、明るい話題のニュースに対しては、ニュース番組に対する嗜好調査の結果を踏まえ、「普通の声」と同程度の評価を得ている「明るい声」を採用した。
1 印象表現出力装置
2 CPU
3 モニタ
4 スピーカ
5 ネットワークアダプタ
6 マウス・キーボード
7 外部記憶装置
20 印象評価値算出部
21 声色選択部
22 音声合成部
23 背景音楽選択部
71 背景音楽データベース
2 CPU
3 モニタ
4 スピーカ
5 ネットワークアダプタ
6 マウス・キーボード
7 外部記憶装置
20 印象評価値算出部
21 声色選択部
22 音声合成部
23 背景音楽選択部
71 背景音楽データベース
Claims (16)
- テキストデータからその内容に応じた印象度評価値を算出し、該印象度評価値に応じた表現方法により少なくとも音声の読み上げを行う印象表現出力装置であって、
該テキストデータを装置内に取得する入力手段と、
該テキストデータに含まれる文字列から少なくとも所定の評価尺度における印象度評価値を算出する印象度評価値算出手段と、
該印象度評価値に基づいて、当該テキストデータを読み上げる声色を選択する声色選択手段と、
選択された声色を用いて音声出力する音声出力手段と
を備えたことを特徴とする印象表現出力装置。 - 前記印象表現出力装置において、
予め楽曲毎に少なくとも印象値を格納した背景音楽データベースと、
前記印象度評価値に基づき、該背景音楽データベースから背景音楽の選択を行う背景音楽選択手段と
を備え、前記音声と共に選択された背景音楽を音声出力手段から出力する
ことを特徴とする請求項1に記載の印象表現出力装置。 - 前記印象度評価値算出手段において、
テキストデータを形態素解析する形態素解析処理部と、
予め単語毎に印象値とその重みを格納した印象辞書データベースと、
該印象辞書データベースを参照して、形態素解析の結果からテキスト全体の印象度評価値を算出する演算部と
を備えたことを特徴とする請求項1又は2に記載の印象表現出力装置。 - 前記印象表現出力装置において、
前記テキストデータの少なくとも文末語句、省略語句のいずれかについて、予め備えた表現変換データベースに従い、話し言葉への変換を行う話し言葉変換処理手段
を備えたことを特徴とする請求項1ないし3のいずれかに記載の印象表現出力装置。 - 前記印象表現出力装置において、
前記読み上げ音声に伴って表示するアナウンサー画像を生成するアナウンサー画像合成処理手段と、
該アナウンサー画像を表示する画像表示手段と
を備えたことを特徴とする請求項1ないし4のいずれかに記載の印象表現出力装置。 - 前記印象表現出力装置において、
入力されたテキストデータから、少なくともタイトル部分を分離して抽出するタイトル抽出手段を備え、
該タイトル部分の読み上げ時に話題転換を表現する語句を挿入する
ことを特徴とする請求項1ないし5のいずれかに記載の印象表現出力装置。 - 前記印象表現出力装置において、
入力されたテキストデータから、少なくともタイトル部分を分離して抽出するタイトル抽出手段と、
該タイトル部分のテキストをテロップとして前記画像表示手段から表示するテロップ画像合成処理手段と
を備えたことを特徴とする請求項5又は6に記載の印象表現出力装置。 - 前記印象表現出力装置において、
前記入力手段が前記テキストデータと関連する画像又は映像を画像・映像ファイルとして取得する構成であって、
前記画像表示手段が、該テキストデータの読み上げ時に、該画像・映像ファイルをアナウンサー画像と共に表示する
ことを特徴とする請求項5ないし7のいずれかに記載の印象表現出力装置。 - テキストデータからその内容に応じた印象度評価値を算出し、該印象度評価値に応じた表現方法により少なくとも音声の読み上げを行う印象表現出力方法であって、
入力手段が、該テキストデータを装置内に取得する入力ステップ、
印象度評価値算出手段が、該テキストデータに含まれる文字列から少なくとも所定の評価尺度における印象度評価値を算出する印象度評価値算出ステップ、
声色選択手段が、該印象度評価値に基づいて、当該テキストデータを読み上げる声色を選択する声色選択ステップ、
音声出力手段が、選択された声色を用いて音声出力する音声出力ステップ
を有することを特徴とする印象表現出力方法。 - 前記印象表現出力方法において、
予め楽曲毎に少なくとも印象値を格納した背景音楽データベースを備えておき、前記印象度評価値算出ステップの後で、
背景音楽選択手段が、前記印象度評価値に基づき、該背景音楽データベースから背景音楽の選択を行う背景音楽選択ステップを有して、
前記音声出力ステップにおいて、音声と共に選択された背景音楽を音声出力手段から出力する
ことを特徴とする請求項9に記載の印象表現出力方法。 - 前記印象度評価値算出ステップにおいて、印象度評価値算出手段が、予め単語毎に印象値とその重みを格納した印象辞書データベースを備え、
テキストデータを形態素解析する形態素解析処理工程、
該印象辞書データベースを参照して、形態素解析の結果からテキスト全体の印象度評価値を算出する演算工程
を処理することを特徴とする請求項9又は10に記載の印象表現出力方法。 - 前記印象表現出力方法において、前記音声出力ステップの前に、
話し言葉変換処理手段が、前記テキストデータの少なくとも文末語句、省略語句のいずれかについて、予め備えた表現変換データベースに従い、話し言葉への変換を行う話し言葉変換処理ステップ
を有することを特徴とする請求項9ないし11のいずれかに記載の印象表現出力方法。 - 前記印象表現出力方法において、
アナウンサー画像合成処理手段が、前記読み上げ音声に伴って表示するアナウンサー画像を生成するアナウンサー画像合成処理ステップ、
音声出力ステップと共に、画像表示手段が、該アナウンサー画像を表示する画像表示ステップ
を有することを特徴とする請求項9ないし12のいずれかに記載の印象表現出力方法。 - 前記印象表現出力方法において、入力ステップの後に、
タイトル抽出手段が、入力されたテキストデータから、少なくともタイトル部分を分離して抽出するタイトル抽出ステップを有し、
音声ステップにおける該タイトル部分の読み上げ時に話題転換を表現する語句を挿入する
ことを特徴とする請求項9ないし13のいずれかに記載の印象表現出力方法。 - 前記印象表現出力方法において、入力ステップの後に、
タイトル抽出手段が、入力されたテキストデータから、少なくともタイトル部分を分離して抽出するタイトル抽出ステップ、
前記画像表示ステップと同時に、テロップ画像合成処理手段が、該タイトル部分のテキストをテロップとして前記画像表示手段から表示するテロップ画像合成処理ステップ
を有することを特徴とする請求項13又は14に記載の印象表現出力方法。 - 前記印象表現出力方法の入力ステップにおいて、前記入力手段が前記テキストデータと関連する画像又は映像を画像・映像ファイルとして取得する構成であって、
前記画像表示ステップにおいて、前記画像表示手段が、該テキストデータの読み上げ時に、該画像・映像ファイルをアナウンサー画像と共に表示する
ことを特徴とする請求項13ないし15のいずれかに記載の印象表現出力方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006222820A JP2008046425A (ja) | 2006-08-17 | 2006-08-17 | 印象表現出力装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006222820A JP2008046425A (ja) | 2006-08-17 | 2006-08-17 | 印象表現出力装置及び方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008046425A true JP2008046425A (ja) | 2008-02-28 |
Family
ID=39180213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006222820A Pending JP2008046425A (ja) | 2006-08-17 | 2006-08-17 | 印象表現出力装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008046425A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4725936B1 (ja) * | 2011-02-01 | 2011-07-13 | 有限会社Bond | 入力支援装置、入力支援方法及びプログラム |
JP2012150363A (ja) * | 2011-01-20 | 2012-08-09 | Kddi Corp | メッセージ映像編集プログラムおよびメッセージ映像編集装置 |
JP2013025112A (ja) * | 2011-07-21 | 2013-02-04 | Sharp Corp | 電子機器、再生方法、プログラム、及び、記録媒体 |
JP2013114191A (ja) * | 2011-11-30 | 2013-06-10 | Brother Ind Ltd | パラメータ抽出装置、音声合成システム |
JP2013210501A (ja) * | 2012-03-30 | 2013-10-10 | Brother Ind Ltd | 素片登録装置,音声合成装置,及びプログラム |
JP2015176592A (ja) * | 2014-03-18 | 2015-10-05 | Kddi株式会社 | アニメーション生成装置、アニメーション生成方法およびプログラム |
JP2015230640A (ja) * | 2014-06-06 | 2015-12-21 | 日本放送協会 | 手話cg生成装置及びそのプログラム |
JPWO2017175432A1 (ja) * | 2016-04-05 | 2019-03-22 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN110235174A (zh) * | 2017-03-15 | 2019-09-13 | 富士胶片株式会社 | 图像评价装置、图像评价方法及图像评价程序 |
-
2006
- 2006-08-17 JP JP2006222820A patent/JP2008046425A/ja active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012150363A (ja) * | 2011-01-20 | 2012-08-09 | Kddi Corp | メッセージ映像編集プログラムおよびメッセージ映像編集装置 |
US9898850B2 (en) | 2011-02-01 | 2018-02-20 | BOND Co., Ltd. | Support and complement device, support and complement method, and recording medium for specifying character motion or animation |
WO2012105318A1 (ja) * | 2011-02-01 | 2012-08-09 | 有限会社Bond | 入力支援装置、入力支援方法及び記録媒体 |
CN103430217A (zh) * | 2011-02-01 | 2013-12-04 | 有限公司纽带 | 输入支持装置、输入支持方法及记录介质 |
JP4725936B1 (ja) * | 2011-02-01 | 2011-07-13 | 有限会社Bond | 入力支援装置、入力支援方法及びプログラム |
JP2013025112A (ja) * | 2011-07-21 | 2013-02-04 | Sharp Corp | 電子機器、再生方法、プログラム、及び、記録媒体 |
JP2013114191A (ja) * | 2011-11-30 | 2013-06-10 | Brother Ind Ltd | パラメータ抽出装置、音声合成システム |
JP2013210501A (ja) * | 2012-03-30 | 2013-10-10 | Brother Ind Ltd | 素片登録装置,音声合成装置,及びプログラム |
JP2015176592A (ja) * | 2014-03-18 | 2015-10-05 | Kddi株式会社 | アニメーション生成装置、アニメーション生成方法およびプログラム |
JP2015230640A (ja) * | 2014-06-06 | 2015-12-21 | 日本放送協会 | 手話cg生成装置及びそのプログラム |
JPWO2017175432A1 (ja) * | 2016-04-05 | 2019-03-22 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN110235174A (zh) * | 2017-03-15 | 2019-09-13 | 富士胶片株式会社 | 图像评价装置、图像评价方法及图像评价程序 |
CN110235174B (zh) * | 2017-03-15 | 2024-05-31 | 富士胶片株式会社 | 图像评价装置、图像评价方法及记录介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008046425A (ja) | 印象表現出力装置及び方法 | |
Bolozky | Measuring productivity in word formation: The case of Israeli Hebrew | |
Racine et al. | A phonological study of a Swiss French variety | |
Lee | A grammar of Baba Malay with sociophonetic considerations | |
CN112689189A (zh) | 一种视频展示、生成方法及装置 | |
CN110782869A (zh) | 语音合成方法、装置、系统和存储介质 | |
JP2009238199A (ja) | 重要語を抽出するサーバ、システム、方法、およびプログラム | |
Zhao et al. | (Standard) language ideology and regional Putonghua in Chinese social media: a view from Weibo | |
Gatti et al. | Automatic generation of lyrics parodies | |
Pfeiffer et al. | Accessibility for the HTML5 Element | |
Wallrup | Song as Event: On Intermediality and the Auditory | |
JP5533377B2 (ja) | 音声合成装置、音声合成プログラムおよび音声合成方法 | |
METROUH et al. | Multilingual Code Switching in Algerian Rap Song Lyrics: A Functional Approach. | |
Duhamel | Borrowing from Bislama into Raga, Vanuatu: Borrowing frequency, adaptation strategies and semantic considerations | |
Gatti et al. | Cognition and computational linguistic creativity | |
Sorin et al. | Communicating text structure to blind people with Text-To-Speech | |
Gatti et al. | To sing like a mockingbird | |
Yip et al. | Perceiving (non) standardness and the indexicality of new immigrant Cantonese in Hong Kong | |
Hogan | Gendered modes of resistance: Power and women’s songs in West Africa | |
Wang | The code of the streets in Beijing: Style-shifting and changing personae in the performance of Beijing male rappers | |
JPH10228471A (ja) | 音声合成システム,音声用テキスト生成システム及び記録媒体 | |
Granot et al. | Consonance dissonance and cadences: The case of Israeli Arabs | |
Погорецкая et al. | Phonetic, grammatical and lexical features of modern Italian rap exemplified by the Sardinian group Salmo | |
Huang | China Wind Music: Constructing an Imagined Cultural China | |
Moreno | The social stratification of clicks in English interaction |