JP2008234639A - 文書処理装置、文書処理方法、及び記録媒体 - Google Patents
文書処理装置、文書処理方法、及び記録媒体 Download PDFInfo
- Publication number
- JP2008234639A JP2008234639A JP2008043222A JP2008043222A JP2008234639A JP 2008234639 A JP2008234639 A JP 2008234639A JP 2008043222 A JP2008043222 A JP 2008043222A JP 2008043222 A JP2008043222 A JP 2008043222A JP 2008234639 A JP2008234639 A JP 2008234639A
- Authority
- JP
- Japan
- Prior art keywords
- document
- video
- output
- data
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】 電子文書データに付加された1又は複数のビデオデータ指定情報を検出し、1又は複数の特定のビデオデータを選択するビデオ選択手段と、1又は複数の電子文書データのうちの或る電子文書データを提示するために出力制御する文書出力制御手段と、文書出力制御手段の制御により出力された電子文書データに対応して、ビデオ選択手段で選択されたビデオデータを出力制御するビデオ出力制御手段とを備える。
【選択図】図1
Description
第1に、ハイパーテキストを記述する言語であるHTML(Hyper Text Markup Language)は、文書の表現については規定するが、文書の内容についてはほとんど規定しない。第2に、文書間に構成されたハイパーテキストのネットワークは、文書の読者にとって文書の内容を理解するために必ずしも利用しやすいものではない。第3に、一般に文章の著作者は読者の便宜を念頭に置かずに著作するが、文書の読者の便宜が著作者の便宜と調整されることはない。
機械的に処理しないので、高度な文書処理をおこなうことができなかった。換言すると、高度な文書処理を実行するためには、文書を機械的に処理することが必要となる。
また、文書やその要約を表示する文書ビューワや表示部の形態に適した表示スタイルや、表示とともに行われる読み上げ機能、さらには文書や画像の表示と読み上げの連動など、よりユーザーにとって好適な処理が求められている。
そしてさらに、文書データに関連して動画や静止画などのビデオデータを出力することができるようにすれば、ユーザーにとって、より多様かつ高度であり、さらに的確な情報を提供できることが期待されるが、従って、各種の文書処理に加えてビデオデータとの連携化が望まれている。
つまり、各電子文書データにおいてビデオデータ指定情報(タグ)が付されていることに応じて、その電子文書データに関連するビデオデータを判別し、電子文書データに対応して、電子文書データの出力と同時又は個別に、その関連するビデオデータを出力できるようにする。
また、電子文書データ及びビデオデータを、同時もしくは個別に表示する表示手段を当該文書処理装置内に備えるようにしてもよい。
また上記構成に加えて、文書本文としての電子文書データから、その要約文としての電子文書データを作成することのできる要約作成手段を備えるようにし、ビデオ出力制御手段は、文書出力制御手段が要約作成手段により作成された要約文を出力制御する際に、ビデオ選択手段で選択されたビデオデータを出力制御するようにする。
つまり要約文の提示とともに、関連するビデオデータを提示する。
また文書出力制御手段は、電子文書データが部分毎の切換表示もしくは移動表示(テロップ表示)されるように、電子文書データを出力制御するとともに、ビデオ出力制御手段は、文書出力制御手段の制御による電子文書データ出力の進行に対応したタイミングで、出力するビデオデータを切り換えるように制御する。
つまり本文又は要約文としての電子文書データのテロップ表示の進行に対応して、ビデオデータが切り換えられていくようにする。
また上記構成に加えて、電子文書データが読み上げ音声として出力されるように制御する音声出力制御手段を備え、ビデオ出力制御手段は、音声出力制御手段により電子文書データが読み上げ音声として出力制御される際に、ビデオ選択手段で選択されたビデオデータを出力制御するようにする。
つまり本文又は要約文としての電子文書データの読み上げとともに、関連するビデオデータを提示する。
またビデオ出力制御手段は、音声出力制御手段の制御による読み上げ音声出力の進行に対応したタイミングで、出力するビデオデータを切り換えるように制御する。
つまり本文又は要約文としての電子文書データの読み上げの進行に対応して、ビデオデータが切り換えられていくようにする。
また、文書本文としての電子文書データから、その要約文としての電子文書データを作成することのできる要約作成手順を有するようにし、ビデオ出力制御手順では、要約作成手順で作成された要約文が文書出力制御手順において出力制御される際に、ビデオ選択手順で選択されたビデオデータを出力するようにする。
また、文書出力制御手順では、電子文書データが部分毎の切換表示もしくは移動表示(テロップ表示)されるように、電子文書データを出力制御するとともに、ビデオ出力制御手順では、文書出力制御手順での制御による電子文書データ出力の進行に対応したタイミングで、出力するビデオデータを切り換えるように制御する。
また電子文書データが読み上げ音声として出力されるように制御する音声出力制御手順を有するようにし、ビデオ出力制御手順では、音声出力制御手順での制御により電子文書データが読み上げ音声として出力される際に、ビデオ選択手順で選択されたビデオデータが出力されるように制御する。
またビデオ出力制御手順では、音声出力制御手順の制御による読み上げ音声出力の進行に対応したタイミングで、出力するビデオデータを切り換えるように制御する。
また本発明の記録媒体は、以上のような各手順を有する動作制御プログラムが記録されているものとする。
即ち本発明の文書処理装置及び文書処理方法によれば、各電子文書データにおいてビデオデータ指定情報(ビデオタグ)が付されていることに応じて、その電子文書データに関連するビデオデータを判別し、電子文書データに対応して、電子文書データの出力と同時又は個別に、その関連するビデオデータを出力することができる。従って、文書の提示だけでなく、その文書内容と関連する映像をユーザーに提示でき、ユーザーに対して的確で、かつ多様、高度な情報を提供できるという効果がある。
ビデオデータとしては、提供できる情報量の多い動画や、イメージを的確に伝えることのできる静止画を、それぞれ適切に用いることで、ユーザーに対する適切な情報提示が可能となる。
1.文書処理装置の構成
2.文書データ構造
3.文書データに対する手動分類処理
3−1 処理手順
3−2 インデックス作成
3−3 文書閲覧/分類作成/分類操作
3−4 分類モデル作成/登録
4.文書データに対する自動分類処理
4−1 処理手順
4−2 自動分類
5.読み上げ処理
6.要約作成/表示処理
7.ビデオファイルの出力処理
7−1 ビデオファイル及びタグ
7−2 ビデオ出力処理
7−3 要約出力時のビデオ出力処理
7−4 読み上げ時のビデオ出力処理
7−5 各種のビデオ出力形態
8.文書処理装置の機能ブロック構成
本発明の実施の形態としての文書処理装置1は、図1に示すように、制御部11およびインターフェース12を備える本体10と、ユーザからの入力を受けて本体10に送る入力部20と、外部との信号の送受信を行う通信部21と、本体10からの出力を表示する表示部30と、記録媒体32に対して情報を記録/再生する記録/再生部31と、音声出力部33と、HDD(ハードディスクドライブ)34を有している。
制御部11は、この文書処理装置1における処理を実行するCPU13と、揮発性のメモリであるRAM14と、不揮発性のメモリであるROM15とを有している。
CPU13は、たとえばROM15に記録された手順にしたがって、必要な場合にはデータを一時的にRAM14に格納して、プログラムを実行するための制御をおこなう。
この制御部11の動作としては、詳しくはそれぞれ後述していくが、供給された文書データに関する分類処理、要約作成処理、読み上げ動作のための音声読み上げ用ファイルの生成処理、及びこれらの処理に必要な文書解析などがある。さらに、文書データに関連するビデオデータの出力制御処理も行う。そしてこれらの動作のために必要なプログラムやアプリケーションソフトが、ROM15や、HDD34、あるいは記録媒体32に記憶されている。
なお、制御部11が用いる文書処理プログラムは上記のようにあらかじめROM15に格納されたり、あるいは、記録媒体32やHDD34から取り込むことが考えられるが、例えば通信部21を介してインターネット等のネットワークから、外部サーバ等が提供する文書処理プログラムをダウンロードすることも考えられる。
そしてインターフェース12は、制御部11の制御の下に、入力部20からのデータの入力、通信部21との間のデータの入出力、表示部30へのデータの出力、記録/再生部31に対するデータの入出力、音声出力部33へのデータの出力、HDD34に対するデータの入出力の各動作を行う。具体的には制御部11と上記各部の間でのデータの入出力のタイミングを調整したり、データの形式を変換することなどを行う。
なお、以下では文書処理装置1で扱う電子文書を、「文書データ」又は単に「文書」と称することにする。また「エレメント」とは文書を構成する要素であって、たとえば文書、文および語が含まれる。
また、文書データに付随して、もしくは独立して、1又は複数のビデオデータ(ビデオファイル)が通信部21により取り込まれることもある。
なお、ここでは記録媒体32の例としてフロッピーディスク(磁気ディスク)を例をあげているが、もちろん光ディスク、光磁気ディスク、メモリカードなど、可搬性メディアであれば記録媒体32の例として適用できる。そして記録/再生部31は、メディアに応じた記録再生装置(ディスクドライブ、カードドライブなど)であればよい。
また記録媒体32に文書データやビデオデータが記録されていれば、記録/再生部31でそれを読み出して制御部11に供給することができる。即ち文書処理装置1にとって、通信部21による文書データ及びビデオデータの受信とは別の、文書データ及びビデオデータの入力態様となる。
さらに、制御部11は当該文書処理装置1で処理した文書データを記録/再生部31において記録媒体32に記録させることもできる。
即ち音声出力部33は、制御部11が文書情報(後述する読み上げ用ファイル)に基づいた音声合成処理により生成した音声信号が供給された際に、その音声信号の出力処理を行うことで、表示部30とともに文書処理装置1の出力手段として機能する。
このHDD34は、制御部11で実行される各種処理のためのアプリケーションプログラム、例えば音声合成のためのプログラムなどの格納するために用いられたり、例えば当該文書処理装置1に取り込まれた文書データやビデオデータ等を格納しておく部位として用いることなどが可能となる。
続いて、本例における文書データの構造について説明する。本例においては、文書処理は、文書に付与された属性情報であるタグを参照しておこなわれる。本例で用いられるタグには、文書の構造を示す統語論的(syntactic)タグと、多言語間で文書の機械的な内容理解を可能にするような意味的(semantic)・語用論的タグとがある。
タグ付けによる内部構造は、図2に示すように、文書、文、語彙エレメント等の各エレメントが互いに、通常リンク、参照・被参照リンクによりリンクされて構成されている。
図中において、白丸“○”はエレメントを示し、最下位の白丸は文書における最小レベルの語に対応する語彙エレメントである。また、実線は文書、文、語彙エレメント等のエレメント間のつながり示す通常リンク(normal link)であり、破線は参照・被参照による係り受け関係を示す参照リンク(reference link)である。
文書の内部構造は、上位から下位への順序で、文書(documemt)、サブディビジョン(subdivision)、段落(paragraph)、文(sentence)、サブセンテンシャルセグメント(subsentential segment)、・・・、語彙エレメントから構成される。このうち、サブディビジョンと段落はオプションである。
本例におけるタグ付けは、HTML(Hyper Text Markup Language)と同様なXML(Extensible Markup Language)の形式によるものである。
<動詞句><動詞 語義=“fly1”>flies</動詞>
<副詞句><副詞 語義=like0>like</副詞> <名詞句>an
<名詞 語義=“arrow0”>arrow</名詞></名詞句>
</副詞句></動詞句>.</文>
なお、語義(word sense)=“time0”は、語“time”の有する複数の意味、すなわち複数の語義のうちの第0番目の意味を指している。具体的には、語“time”には少なくとも名詞、形容詞、動詞の意味があるが、ここでは語“time”が名詞(=第0番目の意味)であることを示している。同様に、語“オレンジ”は少なくとも植物の名前、色、果物の意味があるが、これらも語義によって区別することができる。
<副詞句 関係=“主語”><名詞句 識別子=“B会”><副詞句 関係=“所属”><人名 識別子=“A氏”>A氏</人名>の</副詞句><組織名 識別子=“B会”>B会</組織名></名詞句>が</副詞句>
終わった</副詞句><地名 識別子=“C市”>C市</地名></名詞句>で、</副詞句><副詞句 関係=“主語”><名詞句 識別子=“press” 統語=“並列”><名詞句><副詞句>一部の</副詞句>大衆紙</名詞句>と<名詞>一般紙</名詞></名詞句>が</副詞句>
<副詞句 関係=“目的語”><副詞句 関係=“内容” 主語=“press”><副詞句 関係=“目的語”><名詞句><副詞句><名詞 共参照=“B会”>そ</名詞>の</副詞句>写真報道</名詞句>を</副詞句>
自主規制する</副詞句>方針を</副詞句>
<副詞句 間係=“位置”>紙面で</副詞句>
明らかにした。</文></文書>
例えば<文書>〜</文書>で1つの文書の範囲が示され、同様に<文>〜</文>で1つの文の範囲が示される。また例えば、<名詞句 識別子=“B会”>〜</名詞句>により、「A氏のB会」という部分が「B会」を識別子とする名詞句として表現される。
即ち上記タグ付により、図3の左半面102に示した文の内部構造が表現される。
3−1 処理手順
本例の文書処理装置1では、例えば通信部21(又は記録/再生部31)により外部から文書データが取り込まれると、その文書データを内容に応じて分類する処理を行う。なお、以下の説明では、外部からの文書データは通信部21を介して取り込まれるとして述べていくが、その説明は、外部からフロッピーディスク等の可搬性メディアの形態で供給され、記録/再生部31から文書データが取り込まれる場合も同様となるものである。
これらの分類処理は、後述する分類モデルに基づいて行われるわけであるが、文書処理装置1においては、初期状態では分類モデルは存在しない。そのため初期状態にある時点では、手動分類処理として、分類モデルの作成を含む分類処理が必要になる。そして、分類モデルが生成された後においては、入力された文書データに対して自動分類処理が可能となるものである。
まずここでは、最初に実行することが必要とされる手動分類処理について説明する。即ちこの手動分類処理とは、初期状態にある文書処理装置1が外部から送られた文書データを受信した際に、ユーザーの操作に基づいて、制御部11が分類モデルの作成及び文書データの分類を行う動作となる。
後述するがインデックスは、その文書に特徴的な、固有名詞、固有名詞以外の語義などを含むものであり、文書の分類や検索に利用できるものである。
入力された文書データに対しては、ユーザーは所要の操作を行うことにより、表示部30の画面上で、その文書内容を閲覧することができる。
そして文書閲覧中は、ユーザーは画面上のアイコン等に対する操作により、例えば後述する要約作成などの各種処理を指示できるが、この手動分類処理に関しては、ステップF14として示すように、分類項目の作成及び分類操作としての処理に進むことになる。
ステップF14では、ユーザーが分類項目(なお本明細書では、分類項目のことをカテゴリともいう)を設定する操作を行うことに応じて、制御部11は分類項目を生成/表示していく。またユーザーが文書データを、設定された分類項目に振り分けていく操作も行うことになり、それに応じて制御部11は文書データの振り分け/表示を行うことになる。
分類モデルは、文書を分類する複数の分類項目(カテゴリ)から構成されるとともに、各カテゴリに対して各文書のインデックス(ステップF12で作成した各文書のインデックス)を対応づけることで、分類状態を規定するデータである。
このような分類モデルを生成したら、ステップF16で、その分類モデルを登録する。即ち制御部11は、分類モデルをたとえばRAM14に記憶させることで登録を行う。
以上の図4の処理により、文書処理状態1が初期状態にある時に入力された1又は複数の各文書データについて、手動分類及び分類モデルの作成が行われたことになる。
この図4のステップF12以下の処理について詳しく述べていく。
ステップF14では、制御部11は入力された文書データについてインデックスの作成を行う。
まず、或る1つの文書データに対して作成されたインデックスの具体例を示す。
<ユーザの操作履歴 最大要約サイズ=“100”>
<選択 エレメントの数=“10”>ピクチャーテル</選択>
・・・
</ユーザの操作履歴>
<要約>減税規模、触れず−X首相の会見</要約>
<語 語義=“0003” 中心活性値=“140.6”>触れず</語>
<語 語義=“0105” 識別子=“X” 中心活性値=“67.2”>首相</語><人名 識別子=“X” 語 語義=“6103” 中心活性値=“150.2”>X首相</語 /人名>
<語 語義=“5301” 中心活性値=“120.6”>求めた</語>
<語 語義=“2350” 識別子=“X” 中心活性値=“31.4”>首相</語>
<語 語義=“9582” 中心活性値=“182.3”>強調した</語>
<語 語義=“2595” 中心活性値=“93.6”>触れる</語>
<語 帝義=“9472” 中心活性値=“12.0”>予告した</語>
<語 語義=“4934” 中心活性値=“46.7”>触れなかった</語>
<語 語義=“0178” 中心活性値=“175.7”>釈明した</語>
<語 語義=“7248” 識別子=“X” 中心活性値=“130.6”>私</語>
<語 語義=“3684” 識別子=“X” 中心活性値=“121.9”>首相</語
>
<語 語義=“1824” 中心活性値=“144.4.”>訴えた</語>
<語 語義=“7289” 中心活性値=“176.8”>見せた</語>
</インデックス>
また、<語>および</語>は語の始端および終端を示している。
さらに例えば、語義=“0003”は、第3番目の語義であることを示している。他についても同様である。上述したように、同じ語でも複数の意味を持つ場合があるので、それを区別するために語義ごとに番号が予め決められており、その該当する語義が番号で表されているものである。
例えばこのようなインデックスを作成するステップF12の処理を、図5〜図8で説明する。なお、図5は1つの文書データに対するインデックス作成処理を示しており、従って複数の文書データについて処理を行う場合は、各文書データについてこの図5の処理が行われることになる。
また図5のステップF31の詳細な処理を図7に示し、さらに図7のステップF43の詳細な処理を図8に示している。
この活性拡散とは、文書データについて、エレメントの中心活性値を文書の内部構造に基づいて拡散することで、中心活性値の高いエレメントと関わりのあるエレメントにも高い中心活性値を与えるような処理である。
即ち、文書を構成する各エレメントに対して初期値としての中心活性値を与えた後、その中心活性値を、文書の内部構造、具体的にはリンク構造に基づいて拡散する。
この中心活性値は、タグ付けによる内部構造に応じて決定されるので、文書の特徴の抽出等に利用されるものである。
制御部11は、このステップF31として、活性拡散を行い、活性拡散の結果として得られた各エレメントの中心活性値を、たとえばRAM14に記憶させることになる。
まずエレメントとエレメントのリンク構造の例を図6に示す。
図6においては、文書を構成するエレメントとリンクの構造の一部として、エレメントE1、E2の周辺を示している。E1〜E8はエレメントの例であり、この中でエレメントE1、E2に注目して説明する。
このエレメントE1,E2は、リンクL12(上述した通常リンクもしくは参照リンク)にて接続されている。
リンクL12のエレメントE1に接続する端点をT12、エレメントE2に接続する端点をT21とする。
エレメントE1は、さらにエレメントE3,E4,E5と、それぞれリンクL13,L14,L15で接続されている。各リンクL13,L14,L15におけるエレメントE1側の端点をそれぞれT13,T14,T15とする。
またエレメントE2は、エレメントE6,E7,E8とも、それぞれリンクL26,L27,L28で接続されている。各リンクL26,L27,L28におけるエレメントE2側の端点をそれぞれT26,T27,T28とする。
このようなリンク構造の例を用いながら、図7、図8の活性拡散処理を説明していく。
中心活性値の初期値としては、例えば固有名詞や、ユーザーが選択(クリック)したエレメント等に高い値を与えるようにする。
また制御部11は、参照リンクと通常リンクに関して、エレメントを連結するリンクの端点T(xx)の端点活性値を0に設定する。制御部11は、このように付与した端点活性値の初期値を、たとえばRAM14に記憶させる。
この中心活性値更新処理について、エレメントE1についての処理を例に挙げながら、図8で詳しく説明する。
この中心活性値更新処理は、エレメントについての端点活性値を更新し、さらに更新された端点活性値と現在の中心活性値を用いて、新たな中心活性値を算出する処理となる。
端点T12の端点活性値t12は、リンク先のエレメントE2の端点活性値のうち、リンクL12以外のリンクに接続するすべての端点の各端点活性値(この場合T26、T27、T28の各端点活性値t26、t27,t28)と、エレメントE2の中心活性値e2を加算し、この加算で得た値を、文書に含まれるエレメントの総数で除することにより求められる。
制御部11は、この様な演算を、RAM14から読み出した各端点活性値および各中心活性値を用いて行うことで、通常リンクと接続された端点についての新たな端点活性値を算出し、算出した端点活性値を、RAM14に記憶させる。つまり端点T12の端点活性値t12を更新する。
即ちこの場合は、端点T12の端点活性値t12は、リンク先のエレメントE2の端点活性値のうち、リンクL12以外のリンクに接続するすべての端点の各端点活性値(この場合T26、T27、T28の各端点活性値t26、t27,t28)と、エレメントE2の中心活性値e2を加算した値とする。(つまり除算がない点が上記通常リンクの場合と異なるものとなる)
そして制御部11は、この様な演算を、RAM14から読み出した各端点活性値および各中心活性値を用いて行うことで、参照リンクと接続された端点についての新たな端点活性値を算出し、算出した端点活性値を、RAM14に記憶させる。つまり端点T12の端点活性値t12を更新する。
即ち続いて、カウント値j=2とされることにより、エレメントE1についての第2のリンク(例えばリンクL13)が参照されることになるため、上記同様にステップF52以降の処理でリンクL13に接続される端点T13の端点活性値t13が算出/更新されることになる。
つまりステップF57でカウント値jがインクリメントされながら処理が繰り返されることで、例えばエレメントE1については、端点T12,T13,T14,T15についてそれぞれ端点活性値t12,t13,t14,t15が更新されていき、その全てが更新された時点で、処理はステップF55からF56に進むことになる。
エレメントEiの新たな中心活性値eiは、エレメントEiの現在の中心活性値eiとエレメントEiのすべての端点の新たな端点活性値の和で求められる。例えば図6のエレメントE1の場合は、新たな中心活性値e1(new)は、
e1(new)=e1+t12+t13+t14+t15
となる。
制御部11は、すべてのエレメントについて中心活性値更新処理が完了していないときは、ステップF47に処理を進め、カウント値iをインクリメントしてステップF43に戻る。
例えば上記のようにエレメントE1についての処理が終わった後であれば、カウント値i=2とされて、今度はエレメントE2が参照されることになる。
そしてエレメントE2について、ステップF43の中心活性値更新処理(即ち図8の処理)が上記同様に行われる。
重複説明となるため詳細は述べないが、図6のリンク例でいえば、エレメントE2の場合は、図8の処理において端点T21,T26,T27,T28の各端点活性値t21,t26,t27,t28が更新された後、新たな中心活性値e2(new)が、
e2(new)=e2+t21+t26+t27+t28
として算出され、更新されることになる。
ステップF45においては、制御部11は、文書に含まれるすべてのエレメントの中心活性値の変化分、すなわち新たに計算された中心活性値の元の中心活性値に対する変化分について平均値を計算する。
例えば制御部11は、RAM14に記憶された旧中心活性値と、更新した新たな中心活性値を、文書に含まれるすべてのエレメントについて読み出す。そして各エレメントについて新中心活性値と旧中心活性値の差分を求め、その差分の総和をエレメントの総数で除することにより、すべてのエレメントの中心活性値の変化分の平均値を計算する。
制御部11は、このように計算したすべてのエレメントの中心活性値の変化分の平均値を、たとえばRAM14に記憶させる。
そして、制御部11は、上記平均値が閾値以内である場合は、活性拡散処理としての一連の行程を終了するが、上記平均値が閾値以内でないときには、ステップF42にもどって、上述した一連の行程を再び実行する。
ところが、この活性拡散を1回行うのみでは、インデックス作成処理の目的を考えたときに、本来中心活性値を引き上げられるべきエレメントの中で、中心活性値が十分に引き上げられないものが発生する場合もありうる。例えば、1回の活性拡散では、中心活性値の初期値が高く設定されたエレメントに直接リンクするエレメントについては、或る程度中心活性値が引き上げられるが、直接リンクしていないエレメントは、それがインデックスとして重要なエレメントであっても十分に中心活性値が引き上げられないことが生ずる。
そこで、ステップF46の判断を介して、必要に応じて活性拡散処理を複数回行うようにすることで、全体的に中心活性値が収束されるようにし、中心活性値が引き上げられない重要なエレメントがなるべく生じないようにするものである。
なお、複数回の活性拡散で、全体的に中心活性値が収束されていくのは、活性拡散処理で更新された各エレメントの中心活性値に基づいて、さらに次の活性拡散処理で各エレメントの中心活性値が更新されていくためである。但し、このような活性拡散処理が多数回行われすぎると、全エレメントの中心活性値が収束しきってほぼ同値となるような事態となり、不適切である。
このため、ステップF45,F46の処理として、中心活性値の変化分の平均値を求めるように、その変化分に基づいて活性拡散処理の終了タイミングを判断することで、インデックス作成に好適な活性拡散が実現されることになる。
ステップF32においては、制御部11は、ステップF31で得られた各エレメントの中心活性値に基づいて、中心活性値があらかじめ設定された閾値を超えるエレメントを抽出する。制御部11は、このように抽出したエレメントをRAM14に記憶させる。
各エレメントが固有名詞であるか否かは、文書に付されたタグに基づいて判断することができる。たとえば、図3に示したタグ付けによる内部構造においては、“A氏”、“B会”および“C市”は、タグによる関係属性がそれぞれ“人名”、“組織名”および“地名”であるので固有名詞であることが分かる。そして、制御部11は、取り出した固有名詞をインデックスに加え、その結果をRAM14に記憶させる。
そしてこのようなインデックスは、文書を代表するような特徴を表す語義および固有名詞を含むので、所望の文書を参照する際に用いることができる。
なお、インデックスには、文書の特徴を表す語義および固有名詞とともに、その文書がRAM14(又はHDD34)において記憶された位置を示す文書アドレスを含めておく。
以上の図5〜図8で説明したインデックス作成処理は図4のステップF12で行われるものとなる。従って図4の手動分類処理としては、続いてステップF13,F14の処理、即ち上述したようにユーザーによる閲覧及び手動分類の処理に移る。
またステップF14においては、ユーザーが分類項目を設定する操作や、文書データを、設定された分類項目に振り分けていく操作を行うことができる。
このステップF13,F14で行われる操作や、それに対応する制御部11の処理及び表示部30の表示例は以下のようになる。
まず図9は、詳しくは後述する分類モデルに対応した文書分類ウインドウ201の表示例である。即ち、文書分類の表示に用いられるグラフィックユーザインターフェース(graphic user interface;GUI)の具体例となる。
この文書分類ウィンドウ201には、操作用のボタン表示202として、画面のウィンドウの状態を初期の位置にもどすポジションリセット(position reset)ボタン202aと、文書の内容を閲読するブラウザ(browser)を呼び出すブラウザボタン202bと、このウィンドウからの脱出(exit)ボタン202cとが表示される。
文書分類エリア203は、“他のトピックス”を表示するエリアとされる。この”他のトピックス”の文書分類エリア203は、まだ分類されていない文書が提示される領域となる。例えば図4のステップF11で受信された各文書(つまりこれから分類しようとする文書)は、この”他のトピックス”の文書分類エリア203に提示される。
文書分類エリア204は、例えば”ビジネスニュース”に分類された文書が提示される領域となる。
文書分類エリア205は、例えば”政治ニュース”に分類された文書が提示される領域となる。
これら以外にも、図中で符号を付していない文書分類エリアは、それぞれ特定の分類項目に応じた文書が提示される領域となる。
また各文書分類エリア203,204・・・の大きさは固定的ではなく、ユーザーがドラッグ操作などにより各文書分類エリアを区切る区切枠211,212,213・・・を移動させることにより、各文書分類エリア203,204・・・の面積を任意に変更させることができる。文書分類エリアの数もユーザーが任意に増減できる。
なお、この文書分類エリアの数及び各タイトルは、後述する分類モデルの分類項目に応じたものとなる。言い換えれば、ユーザーがこの分類ウインドウ201においてマウスやキーボード等による入力部20からの操作で、文書分類エリアの設定や削除、或いはタイトル設定を行うことで、分類モデルの分類項目の数やタイトルが設定されることになる。
例えばユーザーが、図9の分類ウインドウ201において或る文書をクリックして選択した状態としたうえで、ブラウザボタン202bをクリックすることで、制御部11は図10のように選択された文書を表示する閲覧ウインドウ301を開くようにする。
また、ユーザーは要約作成ボタン306aをクリックすることで、文書表示部303に表示される文書についての要約文を作成させ、要約表示部304に表示させることができる。
さらにユーザーは、読み上げボタン306cをクリックすることで、文書表示部303に表示されている文書の本文又は要約文についての読み上げを実行させることができる。
また、ユーザーはビデオボタン306dをクリックすることで、文書表示部303に表示されている文書の本文、または要約表示部304に表示されている要約文に関連するビデオデータの表示を実行させることができる。
なお、要約文作成のための制御部11の処理、読み上げ動作についての処理、及びビデオ出力動作についての処理はそれぞれ後述する。
具体的には、図4のステップF11で受信された1又は複数の文書は、ステップF12でのインデックス作成処理の後、図9のような分類ウインドウ201における”他のトピックス”の文書分類エリア203に表示される。
この分類ウインドウ201において、ユーザーは、文書分類エリア203に表示された各文書を手動で分類していくことになるが、例えば文書のタイトルだけ等では内容がわからない場合は、図10の閲覧ウインドウ301により文書内容を確認する。そのようにユーザの必要に応じて行われる閲覧が図4のステップF13の処理となる。
なお、ユーザーによる分類項目(文書分類エリアのタイトル)の設定/変更は、それが後述する分類モデルに反映されることになる。
具体的には、”他のトピックス”の文書分類エリア203に表示されている文書のアイコンを、例えば入力部20のマウスを用い、所望の分類項目(カテゴリ)に対応する文書分類エリアにドラッグすることによりおこなう。
例えばユーザーは、「スポーツ」というタイトルの文書分類エリアを設定したうえで、”他のトピックス”の文書分類エリア203に表示されているスポーツ関連の文書のアイコンを、“スポーツ”の文書分類エリアにドラッグするような操作を行う。
このようにして手動で分類された各文書のアイコンやタイトルは、以降、そのドラッグされた先の文書分類エリア内で表示される。
以上のようにユーザーによる手動分類操作が行われたら、制御部11は図4のステップF15において、ユーザの分類操作に基づいた複数のカテゴリからなる分類モデルを作成する。すなわち制御部11は、各カテゴリに分類された上記複数の文書のインデックスを集めて、分類モデルを生成する。そして、分類モデルの各カテゴリに上記複数の文書を分類する。
各文書については、上記ステップF12などでインデックスが形成されるが、分類モデルは例えば図11(a)に示すように、各カテゴリについて分類された文書のインデックスが対応づけられたようなデータ構造となる。
この図11(a)では、カテゴリとして「スポーツ」「会社」「コンピュータ」・・・等が設定されているが、これらは上記のように分類ウインドウ201においてユーザーが設定した分類項目となる。なお、もちろんユーザーが設定しなくとも、予め設定されている(つまり分類ウインドウで文書分類エリアとして表示される)カテゴリがあってもよい。
そして各分類項目にはインデックスIDX1、IDX2・・・が対応づけられるが、即ち各分類項目には、ユーザーが上記のように分類した文書のインデックスが対応づけられるものとなる。
例えばインデックスIDX1がカテゴリ「スポーツ」に対応づけられているのは、ユーザーが、分類ウインドウ201において「スポーツ」をタイトルとする文書分類エリアを作成し、さらにインデックスIDX1の文書のアイコンを、その「スポーツ」をタイトルとする文書分類エリアにドラッグするという手動分類を行ったことに基づくものとなる。
そして、例えば図11(a)のように1つの分類項目には1又は複数のインデックスが対応づけられるが、インデックスとして固有名詞、語義、文書アドレス等が含まれるため、分類モデルは図11(b)のようにも表すことができる。
そして分類モデルにおいては、各カテゴリ「スポーツ」「社会」「コンピュータ」「植物」「美術」「イベント」に対して、固有名詞“A氏、・・・”、“B氏、・・・”、“C社、G社、・・・”、“D種、・・・”、“E氏、・・・”および“F氏”等の固有名詞が割り当てられる。
また、“野球(4546)、グランド(2343)、・・・”、“労働(3112)、固有(9821)、・・・”、“モバイル(2102)、・・・”、“桜1(11111)、オレンジ1(9911)”、“桜2(11112)、オレンジ2(9912)”および“桜3(11113)”等の語義も各カテゴリに割り当てられる。
さらに文書アドレス“SP1、SP2、SP3、・・・”、“S01、S02、S03、・・・”、“CO1、CO2、CO3、・・・”、“PL1、PL2、PL3、・・・”、“AR1、AR2、AR3、・・・”および“EV1、EV2、EV3、・・・”も各カテゴリに割り当てられる。
固有名詞以外の場合に語そのものではなく語義を用いるのは、この様に、同じ語でも複数の意味を有することがあるからである。
このように分類モデルが生成/登録されることにより、文書の分類が行われたことになる。
分類モデルが更新されると、分類モデルに更新日時が記録される。図11には、更新日時として“1998年12月10日19時56分10秒”が記録されている。
4−1 処理手順
本例の文書処理装置1では、上記のように一旦分類モデルが作成された後は、例えば通信部21により外部から取り込まれた文書データを、自動的に分類していく自動分類処理が可能となる。
即ち以下説明する自動分類処理とは、文書処理装置1が外部から送られた文書データを受信した際に、その文書データを分類モデルに対して分類していく処理となる。
なお、この例では、一つの文書を受信する毎に以下説明する自動分類処理をおこなうこととするか、複数の所定数の文書を受信する度におこなってもよいし、ユーザが図9の画面を開く操作をしたときにそれまでに受信した全文書に対して自動分類処理をおこなうようにしてもよい。
図12のステップF21は、文書処理装置1の受信部21による文書受信処理を示している。このステップF21では、受信部21は、たとえば通信回線を介して送信された1又は複数の文書を受信する。受信部21は、受信した文書を文書処理装置の本体10に送る。制御部11は供給された1又は複数の文書データをRAM14又はHDD34に格納する。
なお文書データとともに(又は文書データとは独立して)、1又は複数のビデオファイルが受信された場合は、制御部11はそのビデオファイルを取り込んでRAM14又はHDD34に格納することになる。
そしてステップF25では、制御部11は、ステップF24で更新された分類モデルを登録する。例えば分類モデルをRAM14に記憶させる。
すなわちこの自動分類処理においては、受信した文書に対してはインデックスが作成され、さらに自動分類が行われた後、そのインデックスを構成している固有名詞、語義、文書アドレス等が、上記図11のように分類モデル上で或るカテゴリーに対応づけられることになる(分類モデルが更新される)。
また、ステップF24の分類モデルの更新は、ステップF23の自動分類の分類結果に応じてものとなる。
以下、上述の手動分類処理とは異なる処理として、ステップF23の自動分類について詳細に説明する。
図12のステップF23での自動分類の詳しい処理を図13に示す。
図13のステップF61では、制御部11は、分類モデルのカテゴリCiに含まれる固有名詞の集合と、ステップF21で受信した文書から抽出されインデックスに入れられた語のうちの固有名詞の集合とについて、これらの共通集合の数をP(Ci)とする。そして制御部11は、このようにして算出した数P(Ci)をRAM14に記憶させる。
すなわち制御部11は、分類モデルにおける固有名詞以外の語について、全語義間関連度の総和R(Ci)を演算する。そして制御部11は、演算した語義間関連度の総和R(Ci)をRAM14に記憶させる。
語義間関連度は、図14の処理により文書処理装置1が備える電子辞書に含まれる語義について予め算出し、その結果を図15のように保持しておけばよい。つまり、制御部11が予め一度だけ図14の処理を実行しておくようにすることで、図13の自動分類処理の際に用いることができる。
まずステップF71において、制御部11は、電子辞書内の語の語義の説明を用いて、この辞書を使って語義のネットワークを作成する。
すなわち、辞書における各語義の説明とこの説明中に現れる語義との参照関係から、語義のネットワークを作成する。
ネットワークの内部構造は、上述したようなタグ付けにより記述される。文書処理装置の制御部11は、たとえばRAM14に記憶された電子辞書について、語義とその説明を順に読み出して、ネットワークを作成する。
制御部14は、このようにして作成した語義のネットワークをRAM14に記憶させる。
また上記電子辞書は、受信部21にて外部から受信したり、記録/再生部31にて記録媒体32から再生したりすることにより得ることができる。
ステップF76においては、ステップF75で求めた差分△ejを、ステップF74で求めた△eiで除した商△ej/△eiを、語義Siの語義sjに対する語義間関連度とする。
すべての語義の対について語義間関連度の演算が終了していないときには、ステップF73にもどり、語義間関連度の演算が終了していない対について語義間関連度の演算を継続する。
このようなステップF73からステップF77のループにおいて、制御部11は、必要な値をたとえばRAM14から順に読み出して、上述したように語義間関連度を計算する。制御部11は、計算した語義間関連度をたとえばRAM14に順に記憶させる。
そして、すべての語義の対について語義間関連度の演算が終了したときには、ステップF77から、この一連の処理を終了する。
つまりステップF74で或る語義の中心活性値を変化させると、それに応じて関連する(リンクされた)語義の中心活性値が変化するものとなるため、その変化の度合いを調べれば、或る語義に対する他の各語義の関連度がわかるものである。(或るエレメントEiの中心活性値は、上述した活性拡散の説明において述べたように、リンク先のエレメントの中心活性値と端点活性値が反映されて、そのエレメントEi端点活性値が更新されたうえで、そのエレメントEiの端点活性値と現在の中心活性値の和から求められるため、リンク先との関連度が大きいほど中心活性値の変化量は大きくなる)
このような処理を各語義から他の全ての語義に対して行っていくことで、すべての語義の対(組み合わせ)について、関連度を算出することができる。
Rel(Ci)=m1P(Ci)+n1R(Ci)
として算出する。
ここで、係数m1、n1は定数で、それぞれの値の文書分類間関連度への寄与の度合いを表すものである。
制御部11は、ステップF61で算出した共通集合の数P(Ci)およびステップF62で算出した語義間関連度の総和R(Ci)を用いて、上記式の演算を行い、文書分類間関連度Rel(Ci)を算出する。
制御部11は、このように算出した文書分類間関連度Rel(Ci)をRAM14に記憶させる。
また係数m1、n1の値は、統計的手法を使って推定することもできる。すなわち、制御部11は、複数の係数mおよびnの対について文書分類間関連度Rel(Ci)が与えられることで、上記係数を最適化により求めることができる。
すなわち制御部11は、複数のカテゴリに対してそれぞれ文書分類間関連度を作成し、最大の文書分類間関連度が閣値を越えているときには、文書を最大の文書分類間関連度を有する上記カテゴリCiに分類する。これにより文書が自動的に所要のカテゴリに分類されることになる。
なお最大の文書分類間関連度が閾値を越えていないときには、文書の分類はおこなわない。
即ち文書処理装置1に受信された文書データは、自動的に分類されたことになり、ユーザーは例えば図9の分類ウインドウ201において、所要の文書分類エリアにおいて、受信された文書データを確認できることになる。
5.読み上げ処理
続いて、文書データについての読み上げを行う処理について述べる。
上述したようにユーザーは、文書を選択して図10のような閲覧ウインドウ301を開くことにより、文書の本文を閲覧することができる。例えば上述した手動分類処理におけるステップF13の時点や、その他任意の時点において、図9で説明した分類ウインドウ201から、閲覧ウインドウ301を開くことができる。
なお文書表示部303に文書全文が表示できないときには、その文書の一部が表示される。
また要約文が作成されていない時点では、図26のように要約表示部304は空白とされる。要約文の作成及び表示動作については後述する。
即ちCPU13により、ROM15やHDD34に記録されている電子文書処理プログラムのうちの音声読み上げプログラムを起動することで、図16に示すような一連の工程を経ることによって、文書の読み上げを行うことができる。
まずここでは、簡略化した各工程の説明を行い、その後、具体的な文書例を用いて、各工程の説明を詳細に行う。
なお、この音声合成エンジンは、ハードウェアで構成してもよいし、ソフトウェアで実現するようにしてもよい。音声合成エンジンをソフトウェアで実現する場合には、そのアプリケーションプログラムは、ROM15やHDD34等に予め記憶されている。
本例の文書処理装置1において、読み上げ処理や、後述する要約作成/表示処理、ビデオ出力処理などを実行するために形成される機能ブロック構成については、図47を用いて最後にまとめて説明するが、上記音声合成エンジンは、その図47における音声合成エンジン601に相当する。
文書処理装置1は、このような処理を行うことによって、与えられた文書を読み上げることができる。これらの各工程について、以下詳細に説明する。
文書処理装置1は、例えば通信部21から文書(音声合成を行うために必要なタグが既に付与されている文書)を受信する。
または、文書処理装置1は、タグ付けされた文書を受信し、その文書に音声合成を行うために必要なタグを新たに付与して文書を作成する。
「[素敵にエイジング]/8ガン転移、抑えられる!?
がんはこの十数年、わが国の死因第一位を占めている。その死亡率は年齢が進むとともに増加傾向にある。高齢者の健康を考えるとき、がんの問題を避けて通れない。
がんを特徴づけるのは、細胞増殖と転移である。人間の細胞には、自動車でいえばアクセルに当たり、がんをどんどん増殖する「がん遺伝子」と、ブレーキ役の「がん抑制遺伝子」がある。
双方のバランスが取れていれば問題はない。正常な調節機能が失われ、細胞内でブレーキが利かない変異が起こると、がんの増殖が始まる。高齢者の場合、長い年月の間にこの変異が蓄積し、がん化の条件を備えた細胞の割合が増え、がん多発につながるわけだ。
ところで、もう一つの特徴、転移という性質がなければ、がんはそれほど恐れる必要はない。切除するだけで、完治が可能になるからである。転移を抑制することの重要性がここにある。
この転移、がん細胞が増えるだけでは発生しない。がん細胞が細胞と細胞の間にある蛋白(たんぱく)質などを溶かし、自分の進む道をつくって、血管やリンパ管に入り込む。循環しながら新たな“住み家”を探して潜り込む、といった複雑な動きをすることが、近年解明されつつある。」
「During its centennial year, The Wall Street Journal will report events of the past century that stand as milestones of American business history. THREE COMPUTERS THAT CHANGED the face of personal computing were Iaunched in 1977. That year the Apple II, Commodore Pet and Tendy TRS came to market. The computers were crude by today's standerds. Apple ll owners, for example,had to use their television sets as screens and stored data on audiocassettes.」
日本語文書のタグファイルとしては、図18(a)に見出しの部分である「〔素敵にエイジング〕/8ガン転移、抑えられる!?」を抜粋したものを示し、図18(b)に、文書中の最後の段落である「この転移、がん細胞が・・・・近年解明されつつある。」を抜粋したものを示している。残りの段落については省略してある。
なお、実際のタグファイルは、見出し部分から最後の段落までが1つのファイルとして構成されている。
この図18(a)(b)に示すタグファイルは基本的には、図2を用いて文書データ構造を説明した際に用いたタグファイル例と同様にタグが付されているものであり、上述した各タグについての細かい説明は省略するが、所要各所に、音声合成を行うために必要なタグが付与されているものである。
また、音声合成を行うために必要なタグとしては、図中「例2」「例3」に示すように、「リンパ管」のような専門用語や「住み家」のように、誤った読み上げを行う可能性のある難訓部分に付与されるものがある。すなわち、この場合では、「りんぱくだ」や「すみいえ」と読み上げてしまうことを防ぐために、それぞれ、発音=“りんぱかん”、発音=“すみか”という読み仮名を示す読み属性情報が記述されている。
文書処理装置1は、タグファイル中のタグから、読み上げめための属性情報を導出し、この属性情報を埋め込むことによって読み上げ用ファイルを生成する。
具体的には、文書処理装置1は、文書の段落、文、句の先頭を示すタグを見つけ出し、これらのタグに対応して読み上げのための属性情報を埋め込む。また文書処理装置は、文書の要約文を作成した場合には、その要約文に含まれる部分の先頭を文書から見つけ出し、読み上げの際に音量を増大させる属性情報を埋め込み、要約文に含まれる部分であることを強調することなどもできる。
なお、読み上げ用ファイルにおいて、例えば上述したタグファイル中の<形容動詞句><名詞句>のように、同じレベルの統語構造を表すタグが連続して表れる部分に対しては、それぞれに対応する数のCom=begin_phが埋め込まれずに、まとめられて1つのCom=begin_phが埋め込まれる。
すなわち文書処理装置1が、文章の段落、文及び句の先頭こおいて、それぞれ、500ミリ秒、100ミリ秒及び50ミリ秒の休止期間を設けて文書を音声合成エンジンにより読み上げるようにするための情報である。
なお、これらの属性情報は、Com=begin_p、Com=begin_s及びCom=begin_phに対応して埋め込まれる。そのため、例えばタグファイル中の<副詞句><名詞句>のように、同じレベルの統語構造を表すタグが連続して表れる部分は、1つの句として捉えられ、それぞれに対応する数のPau=50が埋め込まれずに、まとめられて1つのPau=50が埋め込まれる。
また、例えばタグファイル中の<段落><文><名詞句>のように、異なるレベルの統語構造を表すタグが連続して表れる部分については、それぞれに対応するPau=***が埋め込まれる。そのため文書処理装置1は、このような部分を読み上げる際には、例えば文書の段落、文及び句のそれぞれの休止期間を加算して得られる650ミリ秒の休止期間を設けて読み上げるようにする。
このように、文書処理装置1は、段落、文及び句に対応した休止期間を設けることで、段落、文及び句の切れ目を考慮した違和感のない読み上げを行うことができる。なお、この休止期間は、文書の段落、文及び句の先頭において、それぞれ、600ミリ秒、100ミリ秒及び50ミリ秒である必要はなく、適宜変更することができる。
さらに、読み上げ用ファイルには、疑問文であることを示すタグに基づいて、その文の語尾のイントネーションを上げるための属性情報が埋め込まれるようにしてもよい。
さらにまた、読み上げ用ファイルには、必要に応じて、いわゆる「である調」の文体を「ですます調」の文体に変換するための属性情報を埋め込むこともできる。なお、この場合、文書処理装置1は、このような属性情報を読み上げ用ファイルに埋め込むのではなく、「である調」の文体を「ですます調」の文体に変換して音声読み上げ用ファイルを生成するようにしてもよい。
また、読み上げ用ファイルには、Com=Vol=***という属性情報が埋め込まれている。この属性情報は、読み上げの時の音量を示す。例えば、Com=Vol=0は、文書処理装置のデフォルトの音量で読み上げることを示している。また、Com=Vol=80は、デフォルトの音量を80%増量した音量で読み上げることを示している。任意の、Com=Vol=***は、次のCom=Vol=***まで有効である。
さらに、読み上げ用ファイルにおいては、タグファイル中で記述されている発音=“two”という読み属性情報に対応して、「II」が「two」に置換されている。
まず文書処理装置1は、ステップF201において、CPU13によって、受信又は作成したタグファイルを解析する。ここで文書処理装置1は、文書を記述している言語を判別するとともに、文書の段落、文及び句の先頭や、読み属性情報をタグに基づいて探し出す。
続いて文書処理装置1は、ステップF202において、CPU13によって、文書を記述している言語に応じて文書の先頭にCom=Lang=***という属性情報を埋め込む。
続いて文書処理装置1は、ステップF205において、CPU13によって、Com=begin_***に対応してPau=***を埋め込む。すなわち文書処理装置1は、Com=begin_pの前にPau=500を埋め込み、Com=begin_sの前にPau=100を埋め込み、Com=begin_phの前にPau=50を埋め込む。
そして文書処理装置1は、ステップF206において、CPU13によって、読み属性情報に基づいて、正しい読みに置換する。すなわち文書処理装置1は、発音=“null”という読み属性情報に基づいて、「(たんぱく)」を除去するとともに、発音=“りんぱかん”、発音=“すみか”という読み属性情報に基づいて、「リンパ管」、「住み家」を、それぞれ、「りんぱかん」、「すみか」に置換する。
文書処理装置1は、読み上げ用ファイルを用いて、ROM15やHDD34等に予め記憶されている音声合成エンジンに適した処理をCPU13の制御のもとに行う。
具体的には、文書処理装置1は、読み上げ用ファイルに埋め込まれているCom=Lang=***という属性情報に基づいて、使用する音声合成エンジンを選択する。
音声合成エンジンは、言語や男声/女声等の種類に応じて識別子が付されており、その情報が例えば初期設定ファイルとしてHDD34に記録されている。文書処理装置1は、初期設定ファイルを参照し、言語に対応した識別子の音声合成エンジンを選択する。
例えば文書処理装置1は、Com=begin_phをMark=10000のように10000番台の番号でマーク付けする。またCom=begin_sをMark=1000のように1000番台の番号でマーク付けし、Com=begin_pをMark=100のように100番台の番号でマーク付けする。
これは、<句>、<文>、<段落>の先頭が、それぞれ10000番台、1000番台、100番台の番号で示されることを意味し、このマークによって<句>、<文>、<段落>の先頭が識別できるようになる。
さらに、読み上げ用ファイルにおいては、音量の属性情報がVoll=***のようにデフォルトの音量の百分率で表されていることから、文書処理装置1は、この属性情報に基づいて、百分率の情報を絶対値の情報に変換して求める。
文書処理装置1は、ユーザが例えば入力部20のマウス等を操作して、先に図10に示した読み上げボタン306cをクリックすることによって、音声合成エンジンを起動する。
そして文書処理装置1は、図22に示すようなユーザインターフェース用の読み上げウインドウ401を表示部30に表示する。
また、この読み上げウインドウ401は、文単位で頭出し、早戻し及び早送りさせるための頭出しボタン411、早戻しボタン412及び早送りボタン413と、段落単位で頭出し、早戻し及び早送りさせるための頭出しボタン414、早戻しボタン415及び早送りボタン416と、句単位で頭出し、早戻し及び早送りさせるための頭出しボタン417、早戻しボタン418及び早送りボタン419とを有する。
また、読み上げ時に画像を表示する画像表示エリア403が設定され、読み上げている人のイメージを表示したり、テロップ表示エリア402が設けられ、読み上げ音声に対応して文字がテロップ表示できるようにされている。
例えば、文書処理装置1は、ユーザが再生ボタン420をクリックすることによって、文書の読み上げを開始する。具体的には制御部11は音声合成処理により生成した音声信号を音声出力部33に供給し、音声として出力する。
また文書処理装置1は、停止ボタン421、一時停止ボタン422のクリックにおいて、読み上げ処理の停止や一時停止を行う。
制御部11は、この頭出しボタン411、414、417の操作に関しては、上記したマーク付により、ジャンプ先を認識するものとなる。即ち、文に関する頭出しボタン411が操作された際には、制御部11は、現在読み上げている文の途中位置から文を遡っていき、1000番台のマークをサーチする。そして1000番台のマークが検出されたら、そこから読み上げを再開するものとなる。段落や句の場合は、それぞれ100番台、10000番台のマークを探して読み上げを再開するものとなる。
この様な処理によって、例えば文書中でユーザが所望の部分を繰り返し再生させたいといった要求に応えることができる。
このようにして文書処理装置1は、所望の文書を音声合成エンジンにより違和感なく読み上げることができる。
この場合、文書処理装置1は、タグファイルを受信又は作成した後、音声合成エンジンを用い、タグファイルに付与されている段落、文及び句を示すタグに基づいて、段落、文及び句の先頭に所定の休止期間を設けて読み上げる。このようにすることによって、文書処理装置1は、音声読み上げ用ファイルを生成することなく、タグファイルに基づいて直接読み上げることができる。
続いて、文書データについての要約文を作成する処理について述べる。
上述したようにユーザーは、文書を選択して図10のような閲覧ウインドウ301を開くことにより、文書の本文を閲覧することができる。
そして閲覧ウインドウ301においては、選択された文書の本文及び要約文が表示される。
但し、また要約文が作成されていない時点では、図26のように要約表示部304は空白とされる。
つまり制御部11は、ソフトウエアもしくはハードウエアで構成される要約作成エンジン(図47で後述)を起動させることにより、ユーザーの要約作成操作に応じて、以下説明するような要約文作成処理を行い、作成後、それを表示する制御を行うものとなる。
文書から要約を作成する処理は、文書のタグ付けによる内部構造に基づいて実行される。
つまり要約文は、要約作成が指示された時点での要約表示部304のサイズに応じたサイズ(文書長)で作成されることになる。
例えば図26では要約表示部304は非常に狭いものとなっているが、ユーザーが仕切枠312を移動させて要約表示部304を広くした上で、要約作成を指示することで、例えば図27のように広げられた要約表示部304に、そのエリアサイズに合った文書長の要約文が作成され、表示されるものとなる。
そこで本例では、要約表示部304としてのウインドウサイズ(ウインドウ内に表示可能な文書長)が所定値以下、例えば図26のような画面上での行数でいうと1〜2行程度未満の場合などには、要約表示部304のサイズを越える文書長の要約文を作成するようにし、ソフトウエアもしくはハードウエアで構成されるテロップ作成エンジン(図47で後述)により、それをテロップ化して表示するようにしている。
ステップF81で行う活性拡散処理は、図6〜図8で説明したものと同様の処理となるが、上述したように活性拡散は、中心活性値の高いエレメントと関わりのあるエレメントにも高い中心活性値を与えるような処理である。すなわち、活性拡散は、照応(共参照)表現とその先行詞の間で中心活性値が等しくなり、それ以外では中心活性値が減衰するような中心活性値についての演算である。この中心活性値は、タグ付けによる内部構造に応じて決定されるので、タグ付けによる内部構造を考慮した文書の分析に利用することができる。
この所定サイズwsthとは、通常、要約文としては十分な文書長(文字数)を表示できるウインドウサイズとして設定されているものである。所定サイズwsthとしての具体的な値は、システム設計上、適切な値が決められるものとなる。
この場合、制御部11の処理は、ステップF83に進み、制御部11は、その時点で表示部30に表示されている閲覧ウィンドウ301の要約表示部304のサイズwsy(具体的にはこの要約表示部304に表示可能な最大文字数)を変数(最大文字数)wsと設定する。
また制御部11は、要約の文字列(要約文を保持する内部レジスタ)sを初期化して初期値s(0)=””と設定する。制御部11は、このように設定した、最大文字数wsおよび文字列sの初期値s(0)を、RAM14に記録する。
そしてステップF86で制御部11は、カウンタのカウント値iに基づいて、文章からi番目に平均中心活性値の高い文の骨格を抽出する。
平均中心活性値とは、一つの文を構成する各エレメントの中心活性値を平均したものである。
制御部11は、たとえばRAM14に記録した文字列s(i−1)を読み出し、この文字列s(i−1)に対して、抽出した文の骨格の文字列を加えて、S(i)とする。そして制御部11は、このようにして得た文字列s(i)をRAM14に記録する。
初回は、文字列s(i−1)は初期値s(0)であるので、今回抽出した文の骨格が文字列S(i)としてRAM14に記憶されることになる。
また以降においてステップF84の処理が行われる場合は、抽出された文の骨格が文字列S(i)に、それまでの文字列S(i)(つまりその時点では文字列S(i−1))に追加されていくものとなる。
また同時に、制御部11はこのステップF84において、上記文の骨格に含まれないエレメントの中心活性値順のリストL(i)を作成し、このリストL(i)をRAM14に記録する。
このステップF87は、要約表示部304のサイズに応じた要約文を作成するための判断処理となる。
ステップF88では制御部11は、文書中で、(i+1)番目に平均中心活性値が高い文のエレメントの中心活性値と、上記ステップF86で作成したリストL(i)の最も中心活性値が高いエレメントの中心活性値を比較する。
つまり、上記ステップF86において要約として採用された文の次に平均中心活性値が高い文(即ち次に要約文に付加する候補となる文)と、ステップF86において要約として採用された文の中で骨格ではないとして要約からは排除されたエレメントの中心活性値を比較する。
このため制御部11の処理はステップF90に進み、リストL(i)における最も中心活性値が高いエレメントを、その時点で記憶されている文字列S(i)に加え、文字列SS(i)とする。
またこのとき、文字列SS(i)に加えたエレメントをリストL(i)から削除する。
そして、ステップF91において、文字列SS(i)が、最大文字数wsより大きいか否かを判断し、大きくなければステップF88に戻る。
つまりステップF88で、(i+1)番目に平均中心活性値が高い文とされた文について、ステップF86で骨格を抽出し、それを文字列S(i)に加えるようにする。
つまり、これはステップF86で文の骨格を加えたことにより、最大文字数wsを越えてしまったことになるため、その骨格を加える前の文字列S(i−1)が、最大文字数wsに近いが最大文字数wsを越えない文字列であると判断して、それを要約文とするものである。
これは、要約表示部304のサイズが小さすぎたことに起因するため、ユーザーは画面上で要約表示部304の面積を広げた上で、再度、要約作成ボタン306aをクリックして、図23の処理が開始されるようにすればよい。
但し、本例の場合、ステップF82において要約表示部304のサイズが小さすぎる場合が判別され、そのような場合は後述するように、要約表示部304のサイズで表示可能な文書長より長い文書長の要約文が作成される処理となるため、実質的に要約文が作成できなくなる事態は、ほとんど発生しない。
そして上記のようにステップF91に進んだ場合は、文字列SS(i)が最大文字数wsを越えたか否かを判別する。
ここで文字列SS(i)が最大文字数wsを越えた場合は、制御部11の処理はステップF93に進み、直前のステップF90で或るエレメントを加える前の文字列S(i)を、要約文とすることになる。
つまり、これはステップF90でエレメントを加えたことにより、最大文字数wsを越えてしまったことになるため、そのエレメントを加える前の文字列S(i)が、最大文字数wsに近いが最大文字数wsを越えない文字列であると判断して、それを要約文とするものである。
この様に作成された要約文は、RAM14に記憶されるとともに、図27のように要約表示部304に、その要約文全体が固定的に表示される。
wsy=wsの場合とは、上記の処理により、その時点の要約表示部304のサイズに適合した要約文が作成された場合である。そこでその場合は、ステップF96に進み、作成された要約文を要約表示部304に表示させる。
これにより、図27のように要約文全体が固定表示される。つまり、ユーザーが予め要約表示部304のサイズを任意に設定した上で要約作成を指示することで、要約表示部304のサイズに応じた文書長の要約が固定的に(つまりテロップ化として切り換えや移動なしに)表示されることになる。
すると、要約表示部304のサイズwsyが、所定サイズwsth以上である限りは、図23の上述した処理により、その時点の要約表示部304のサイズに応じた文書長の要約書が作成され、表示されることになる。
さらに、固定値wsfix=(wsfix−i)×Vとし、固定値初期値wsfix−iを保持するとともに、係数Vの値をユーザーが任意に入力できるようにすることで、固定値wsfixをユーザーが任意に設定できるようにしてもよい。
即ちこの場合も、最大文字数wsを越えない範囲で、最大文字数wsに最も近い文字数としての要約文を作成していくことになる。但しこの場合は、最大文字数ws=wsfixとされているため、その時点の要約表示部304のサイズに応じた文字数とはならず、実際には要約表示部304での表示可能な文字数を越える文字数(文書長)の要約文が生成されることになる。
そしてこの場合は最大文字数wsは要約表示部サイズwsyではないため、ステップF94からF95に進み、テロップ作成エンジンを用いて、生成した要約文をテロップ化して表示していく処理を行うことになる。
まず制御部11(テロップ作成エンジン)はステップF501で変数n=1とセットする。そしてステップF502で、生成した要約文から第nの文を抽出する。従ってまず要約文を構成している第1の文が抽出される。
例えば要約文を構成している1又は複数の文のうちの第1の文が、その時点の要約表示部サイズwsyにおいて表示可能な語数以下であったとすると、制御部11の処理はステップF504に進む。そして、文長Lsに所定の係数kを乗算して、テロップ表示時間T1を算出する。
この表示動作中には、制御部11はステップF507でタイムカウント値を監視しており、タイマによりT1時間が計数された時点で、ステップF515に進む。そして、ステップF515で要約文の最後の文の表示までが完了したか否かを判断し、完了していなければステップF516で変数nをインクリメントしたうえでステップF502に戻る。従って、次に要約文を構成している文のうちの第2の文を抽出することになる。
続いてステップF509で制御部11は内部タイマのカウントをスタートさせるとともに、ステップF510で、その第2の文をテロップとして要約表示部304に表示させる。但し、このとき、文長Lsは要約表示部サイズwsyを越えているため、表示可能な先頭部分のみを表示することになる。つまり第2の文のうちの、先頭から文長Lwsyに相当する部分を表示する。
この表示動作中には、制御部11はステップF511でタイムカウント値を監視しており、タイマによりT1時間が計数された時点で、ステップF512に進む。
待機時間としてのT2時間は、スクロールタイミングを規定する時間となり、これもシステム設計上設定される値となるが、例えば0.5〜1秒程度とすると、適切な速度で、文がスクロールされていくことになる。
そして第3の文について、ステップF504〜F507、もしくはステップF508〜F514の処理によりテロップ表示を実行する。
例えば図26のように要約表示部304が非常に狭くされた状態の閲覧ウインドウ301において要約作成ボタン306aがクリックされ、要約文が作成されるとする。
このとき、上述の図23の処理で要約表示部304での表示可能な文書長よりも長い要約文が作成される。
「[素敵にエイジング]/8ガン転移、抑えられる!?がんを特徴づけるのは、細胞増殖と転移である。人間の細胞には、「がん遺伝子」と、「がん抑制遺伝子」がある。高齢者の場合、長い年月の間に正常な調節機能が失われ、細胞内でブレーキが利かない変異が蓄積し、細胞の割合が増え、がん多発につながるわけだ。転移、がん細胞が増えるだけでは発生しない。がん細胞が蛋白質などを溶かし、道をつくって、血管やリンパ管に入り込む。がんの診断、治療の面から(nm23)の期待が集まっている。」
1[素敵にエイジング]/8ガン転移、抑えられる!?
2がんを特徴づけるのは、細胞増殖と転移である。
3人間の細胞には、「がん遺伝子」と、「がん抑制遺伝子」がある。
4高齢者の場合、長い年月の間に正常な調節機能が失われ、細胞内でブレーキが利かない変異が蓄積し、細胞の割合が増え、がん多発につながるわけだ。
5転移、がん細胞が増えるだけでは発生しない。
6がん細胞が蛋白質などを溶かし、道をつくって、血管やリンパ管に入り込む。
7がんの診断、治療の面から(nm23)の期待が集まっている。
この図25の状態以降の要約表示部304のテロップ表示状態を図29(a)〜(j)で説明していく。
続いて文2、3も文長Ls≦wsyとなるため、それぞれステップF504〜F507の処理で、文長に応じて算出されたT1時間づつ、図29(b)(c)の表示が実行される。
即ちまず図29(d)のように文の先頭部分が、算出されたT1時間表示された後、T2時間毎に、図29(e)→(f)のように、表示が1文字づつスクロールされる。
その後同様にスクロールが進み、図29(g)の状態となることで、文4の表示が完了することになる。
そして、要約文を構成する全文のテロップ表示を完了したら、図25のステップF517、F518として、図30に示すように要約文の先頭部分が表示されるとともに、スクロールバー307が表示される。
即ち、上記テロップ表示により、要約文全体をユーザーに提示した後は、スクロールバー307を用意することで、その後ユーザーが、要約表示部304上の文字を任意にスクロールさせて、要約文内容を確認できるようにするものである。
まず、ユーザーは、要約表示部304のサイズを任意に設定することで、生成される要約文の文書長を設定できる。
つまり詳しい要約文を見たいときには要約表示部304を広くしてから要約作成ボタン306aをクリックし、一方、簡単な内容の要約文を見たいときには要約表示部304を狭くしてから要約作成ボタン306aをクリックすればよい。それにより、ユーザーの望むサイズの要約文が生成され、テロップではなく固定表示される。
従って、例えばユーザーが本文表示部303を広くとりたいためにやむおえず要約表示部304をかなり狭くしたような場合でも、ユーザーは適切な内容の要約文を見ることができるようになる。これにより内容を正確に認識できる。
さらに、文が長い場合は、スクロール表示を実行するため、ユーザーが1つの文を認識することに好適である(後続部分は切換表示でなく移動表示されるために、1つの文が続いていることをユーザーが認識しやすい)。
例えば文単位でなく、文節、句などの単位でテロップ化するようにしてもよいし、文や文節の長さに応じて、表示の区切を変更するようにしてもよい。
また、要約文全体を最初から最後までスクロール表示していくことも考えられる。
いずれにしても、切換表示又は移動表示、もしくはその組み合わせにより、要約文の全体がユーザーに提示されるようにすればよい。
上述のように本例では本文や要約文についての読み上げも可能であるが、テロップ作成エンジンにより行われるテロップ表示のタイミングを、読み上げ音声の出力タイミングに合わせて設定することも可能である。
例えば上述したように読み上げ処理においては、タグファイルから読み上げ用ファイルを生成し、その読み上げ用ファイルを音声合成エンジンに適した形態に変換した上で、音声合成エンジンによって、人が話すような自然な感じでの速度や、段落、文、句の区切によって読み上げが実行されるようにしている。
従って、そのような段落、文、句の区切や、読み上げ速度と同様のテロップ区切や、表示期間の設定を行うことで、ユーザーにとって読みやすいテロップ表示を実現できる。
具体的な手法例としては、上述したように音声合成エンジンによる読み上げ処理を実行させ(但し読み上げ音声の出力は実行させない)、CPU13はその読み上げタイミングを参照して、テロップ表示の区切及び切換タイミングを設定すればよい。例えば音声合成エンジンによって或る句の読み上げが実行されている期間(実際には音声は出力しない)に、その句としての文字列をテロップ表示するとともに、読み上げ音声が次の句に進んだ時点で、次の句のテロップ表示に切り換えるような処理となる。
このような音声合成エンジンとテロップ作成エンジンの連動を実現する構成も図47で後述する。
7−1 ビデオファイル及びタグ
以上の説明は本例の文書処理装置1において主に文書データのみを対象とした処理についてであるが、本例の文書処理装置1では、上記のような各種処理、例えば本文の表示出力、要約文の表示出力、読み上げ音声の出力などと連携して、もしくは独立して、文書データに関連するビデオデータを出力することができる。以下、ビデオデータに関する各種処理を説明していく。
上述したように、例えば通信部21や記録媒体32から文書処理装置1に文書データが取り込まれる際には、同時にビデオファイルが取り込まれることがある。また文書データとは別にビデオファイルが入力されることもある。
図4、図12などで説明したように、文書処理装置1に取り込まれた文書データやビデオファイルは、RAM14やHDD34などに格納される。そして制御部11は必要に応じて格納された文書データを取り出すことで、上述のように文書の本文の表示や、要約作成及び表示、読み上げなどを実行できるが、格納されているビデオファイルに関しても、処理対象となっている文書データに対応するビデオファイルを取り出して表示出力することができる。
文書データ、即ちタグファイルとしては、図示するようにタグファイルTG1、TG2、TG3・・・・というように、各種文書データが格納されている。
一方、ビデオファイルとしても、例えばビデオファイルV1、V2・・・・というように、各種のファイルが格納されている。
ビデオファイルの内容は多様であり、それぞれ文書データやビデオデータを供給するサーバ側が任意に作成するものであるが、例えばビデオファイルV1では複数のシーンとしての動画データVM1〜VM4が含まれている。ビデオファイルV3は2つの動画データVM5、VM6が、ビデオファイルV5は1つの動画データVM9が含まれている。
またビデオファイルV2は、複数の静止画データVS1〜VS7が含まれている。
ビデオファイルV4では、複数の静止画データVS8,VS9と、複数の動画データVM7,VM8が含まれている。
もちろんこれ以外にも、多様なビデオファイルが存在する。
ビデオデータは、例えばMPEGデータなどとされる。
なお、ここでいうオーディオデータとは、動画もしくは静止画としての画像に対応して記録されたオーディオデータであり、関連関係にある文書データの本文や要約文の内容が読み上げられたようなオーディオデータではない(上述のように音声合成処理により発生される読み上げ音声信号のことではなく、また読み上げ音声と同内容の音声信号ではない)。
つまりオーディオデータは、ビデオデータに付随する音声のデータのことをいっており、直接的に文書データと一致するものではない。例えば記録された映像の収録時の周囲音声、効果音、アナウンス/説明等の音声など、通常のビデオデータに含まれる音声データのことである。(但し、情報提供者側の意向により、或る文書データに対応するビデオデータに、その文書データをそのまま読み上げたような内容のオーディオデータを付加することはあり得る。)
このタイムコードTCはビデオファイルにおける各部のアドレス的に機能し、例えばタイムコードを指定することで、任意の箇所(任意の区間)を再生させることができる。例えばビデオファイルV1における動画データVM2を再生させる場合などは、その動画データVM2としての区間の開始フレームと終了フレームのタイムコードが指定されればよい。
つまりタグファイルとしては、文書全体、段落、文、句などの任意の単位で、タグにより関連するビデオデータを指定することができ、文書処理装置1は、そのようなタグ(以下、ビデオデータを指定するタグを、ビデオタグという)に基づいて、文書データに関連するビデオデータを判別し、出力することができる。
図32は、前述した図18と同一の内容としてのタグファイルに、ビデオタグが付加された例である。
図18の場合は、文書範囲を規定するタグとして<文書>〜</文書>が付されていたが、この場合、(例11)としての部分に示すように、文書範囲を示すタグにおいてビデオタグが付加され、
<文書 ビデオファイル=“V3”><シーン=“VM5” in=“00:00:00:00” out=“00:00:03:12”>・・・・・</シーン></文書>
とされている。
このようなタグによって、この文書データの全体に関連するビデオデータが、図31に示したビデオファイルV3に含まれる動画データVM5であることが表されている。また、in=“00:00:00:00”とout=“00:00:03:12”により、ビデオファイルV3内における動画データVM5としてのシーンの開始時間(開始フレーム)と終了時間(終了フレーム)、即ちタイムコードが指定されている。
このようなタグ構造により、制御部11は、当該タグファイルに関連するビデオデータを判別でき、必要に応じて再生出力させることができる。
この例は、文書データ内の1つの文ごとに、対応する1つの静止画データが指定されている例である。
まず、<文書 ビデオファイル=“V2”>・・・・</文書>というタグにより、この文書に関連するビデオデータがビデオファイルV2に含まれていることが示される。
そして各文は、<文>〜</文>というタグで、その範囲が示されるが、(例12)〜(例16)において示すように、それぞれ各文についてのタグが、
<文 シーン=“VS1”>・・・・</文>
<文 シーン=“VS2”>・・・・</文>
<文 シーン=“VS3”>・・・・</文>
<文 シーン=“VS4”>・・・・</文>
<文 シーン=“VS5”>・・・・</文>
とされており、つまり、各文のそれぞれに、静止画データVS1、VS2、VS3、VS4、VS5が対応していることが示されている。
また逆に、動画データの再生区間をデータ名称のみで指定できる場合は、必ずしも上記のようにタイムコードを指定する必要はない。
即ち、<段落>〜</段落>、<**句>〜</**句>などのタグにビデオタグを付加すれば、段落単位や句単位など、任意の単位で或るビデオデータを対応づけることが可能である。
また、1つのタグファイル内で、複数の動画データを対応付けしたり、静止画データと動画データを複合的に対応付けすることも当然可能である。
以上の例のようなタグファイルによれば、文書処理装置1はタグファイルに関連づけてビデオデータを出力することができる。
以下、ビデオデータに関する各種の出力処理(ビデオ出力処理、要約出力時のビデオ出力処理、読み上げ時のビデオ出力処理)を説明していく。
まずここでは、図34〜図36を用いて、要約表示や読み上げに連動しない通常のビデオ出力処理について述べる。
ビデオ出力用ファイルとは、例えば図34(a)(b)に示すように、タグファイルからビデオタグを抽出して生成するファイルである。
図34(a)は図32のタグファイルから生成したビデオ出力用ファイルであり、この場合、上述したビデオタグが抽出され、図示するようにビデオファイルV3における動画データVM5を指定するファイル内容となる。
また図34(b)は図33のタグファイルから生成したビデオ出力用ファイルであり、この場合、図示するようにビデオファイルV2における静止画データVS1〜VS5を指定するファイル内容となる。
ビデオエンジンは、ハードウェアで構成してもよいし、ソフトウェアで実現するようにしてもよい。ビデオエンジンをソフトウェアで実現する場合には、そのアプリケーションプログラムは、ROM15やHDD34等に予め記憶されている。ビデオエンジンを含む機能構成については図47で後述する。
また、この図35の処理や後述する図37、図39の処理では、ビデオ出力用ファイルに基づいてビデオデータが出力されるものとしているが、ビデオエンジンが直接タグファイルに基づいてビデオデータの再生を行うようにすることもできる。
また制御部11はステップF604で、表示部30に例えば図36に示すようなビデオウインドウ501を開く。
このビデオウインドウ501には、文書データファイルのファイル名を表示するファイル名表示部502、そのファイル名の文書データに関連するビデオデータを表示するビデオ表示部503、ビデオ表示部503で表示されている映像の位置(動画データの再生進行位置)を示すビデオバー504、表示されている映像の開始位置としてのタイムコードを表示する開始位置表示部521、表示されている映像の現在の再生位置(カレントポジション)としてのタイムコードを表示する現在位置表示部522、表示されている映像の終了位置としてのタイムコードを表示する終了位置表示部523などが表示される。
さらに、画像再生動作をユーザーが指示するために、再生ボタン505、一時停止ボタン506、停止ボタン507、早戻しボタン508、早送りボタン509、戻し方向の頭出しボタン510、送り方向の頭出しボタン511などが表示される。
例えば図34(a)のようなビデオ出力用ファイルによれば、図31に示したビデオファイルV3の動画データVM5の再生が指定されたことになるが、ビデオウインドウ501で再生ボタン505がクリックされた場合は、制御部11はビデオエンジンにより、動画データVM5の再生を開始させる。これによりビデオ表示部503に動画データVM5の動作映像が表示される。なおこのとき動画データVM5に含まれるオーディオデータは音声出力部33から音声として出力されることになる。
停止ボタン507がクリックされると、制御部11はビデオエンジンによる動画データVM5の再生を停止させる。
早戻しボタン508、又は早送りボタン509がクリックされると、制御部11はビデオエンジンによる動画データVM5の再生動作の早戻し又は早送りを実行させる。
戻し方向の頭出しボタン510、又は送り方向の頭出しボタン511がクリックされると、制御部11はビデオエンジンによる動画データVM5の再生箇所として、例えば前後のシーン(又はポイントとなる特定箇所)の先頭箇所に戻し(又は送り)、その箇所からの再生を実行させる。
さらに、ユーザーがビデオバー504における現在位置の表示部分をドラッグした場合は、それに応じて、ビデオエンジンによる動画データVM5の再生箇所の戻し方向又は進み方向に移動させる。
そしてその場合は、再生ボタン505のクリックにより、静止画データの表示が開始され、またタグファイルにより複数の静止画データが指定されていた場合は、戻し方向の頭出しボタン510、又は送り方向の頭出しボタン511のクリックに応じて、静止画データが切り換えられていくようにすればよい。
そして、このように閲覧ウインドウ301で表示されている文書データに関連したビデオデータがビデオウインドウ501において表示されることで、ユーザーは文書内容に関連したビデオデータを見ることができ、文書内容(情報内容)をより的確かつ詳細に知ることができる。
次に、図37、図38を用いて、要約出力時に行われるビデオ出力処理について述べる。
上述したように、例えば図26のような閲覧ウインドウ301において要約作成ボタン306aをクリックすると、その時点の要約表示部304のサイズに応じた文書長の要約文が作成され、その要約文が要約表示部304に固定的に表示される。又は、要約表示部304のサイズが小さい場合は、要約表示部304のサイズより長い文書長の要約文が作成され、その要約文が要約表示部304にテロップ化されて表示される(切り換え又は移動表示)。
このようなビデオデータ出力を含む、制御部11による要約作成/表示の際の全体の処理を図37に示す。
即ち、図26〜図30で説明したとおり、要約文が作成されるとともに、その要約文が固定表示もしくはテロップ表示により表示される。
従って、要約文のタグファイルには、本文タグファイルに含まれるビデオタグの全部又は一部が含まれることになる。
なお、ビデオタグの一部のみが要約文タグファイルに含まれ、要約文タグファイルに含まれなくなるビデオタグが存在する場合とは、例えば本文タグファイル上で、要約文として抽出されなかった文、句等のみにかかるビデオタグがあった場合である。例えば図33の本文タグファイルから(例14)の部分の文(第3番目の文)が要約文として抽出されなかった場合、その第3番目の文のみにかかるビデオタグ「シーン=“VS3”」は要約文タグファイルには含まれないことになる。
続いて制御部11はステップF706で、ビデオエンジンを起動する。
例えば図38に示すように、閲覧ウインドウ301上で、要約表示部304に作成した要約文を表示させるとともに、本文表示部303とされていた領域を利用してビデオ表示部330を設定して、ビデオエンジンにより出力される画像を表示させる。
なおこのとき閲覧ウインドウ301上には、ビデオ表示部330で表示されている映像の位置を示すビデオバー331、表示されている映像の開始位置としてのタイムコードを表示する開始位置表示部332、表示されている映像の現在の再生位置(カレントポジション)としてのタイムコードを表示する現在位置表示部333、表示されている映像の終了位置としてのタイムコードを表示する終了位置表示部334なども表示させる。
次に、図39、図40を用いて、読み上げ時に行われるビデオ出力処理について述べる。
上述したように、例えば図26のような閲覧ウインドウ301において読み上げボタン306cをクリックすると、その閲覧ウインドウ301において表示されている本文又は要約文の読み上げが実行される。
このとき、本文又は要約文のタグファイルにビデオタグが付されていた場合、読み上げ音声の出力とともに、ビデオデータを表示させることができる。
このようなビデオデータ出力を含む、制御部11による文書読み上げの際の全体の処理を図39に示す。
これにより、図22に示した読み上げウインドウ401において、ユーザーが行う操作に応じて、上述したように読み上げが行われる。
続いて制御部11はステップF806で、ビデオエンジンを起動する。
つまり再生ボタン420のクリックにより読み上げ音声出力が開始されることに応じて、動画データ又は静止画データとしての表示出力を実行する。
なお図示していないが、このとき読み上げウインドウ401上で、上記図38のようなビデオバー、開始位置表示部、現在位置表示部、終了位置表示部などを表示させるようにしてもよい。
以上、本例の文書処理装置1においてビデオデータが出力される際の処理例を説明したが、実際のビデオデータ出力時の出力形態としては、タグファイルの構造や動画/静止画の別、さらには要約表示処理や読み上げ処理の事情などにより、ビデオ再生期間、再生タイミング、再生箇所などがそれぞれ多様な状態となる。以下、図41〜図46でビデオデータの出力形態の各種の例を説明していく。
即ち、文書処理装置1に供給される本文タグファイルから、上述した文書処理装置1の処理よって要約文タグファイルが生成され、またこれらタグファイルから読み上げファイルが生成される場合の模式図である。
このとき、このような本文タグファイルに基づいて生成される要約文タグファイルにも、ビデオタグが含まれ、同じく要約文全体について動画データVM5が指定される状態となる。
この場合、図36のようなビデオウインドウ501上で、ユーザーが再生ボタン505をクリックすることで、例えばt1時点から動画データVM5の再生(及びオーディオデータの再生)が行われ、動画データVM5の再生終了により、例えばt2時点で動画データVM5の再生が終了される。
なお、もちろんこの場合は、ビデオウインドウ501上でのユーザーインターフェース操作に応じて、ビデオデータ再生の一時停止、早送り、早戻し、頭出し、再生途中での停止などもあり得る。
また、t2時点で再生が終了した後は、ビデオウインドウ501を閉じるようにしてもよいが、そのままビデオウインドウ501上で再びリピート再生したり、或いは特定の場面を静止画として継続表示するようにしてもよい。
この場合、図38のような閲覧ウインドウ301上で、例えばt11時点から要約文が固定表示され、その固定表示は以降継続される。
そしてそれとともに、t11時点からビデオ表示部330で動画データVM5の再生(及びオーディオデータの再生)が行われる。例えばt12時点で動画データVM5の再生が終了されたとすると、閲覧ウインドウ301上でビデオ表示部330が閉じられて本文表示部303に戻され、本文の表示が復帰される。例えばt12時点以降は、図27のような表示状態となる。
この場合、図38のようにビデオ表示部330が設定された閲覧ウインドウ301上における要約表示部304において、図28、図29で説明したようなテロップ表示がt21時点から開始される。また、そのテロップ表示がt22時点で完了されたとすると、t22時点以降は図30に示すように要約文の一部が固定表示されることになる。
ここで閲覧ウインドウ301におけるビデオ表示部330では、t21時点から動画データVM5の再生(及びオーディオデータの再生)が開始される。
そしてt22時点でテロップ表示が完了すると、動画データVM5の再生がまだ終了していなくても、テロップ完了とともに中止終了され、t22時点以降は図30に示すように本文が固定表示されている状態に復帰することになる。
例えば図40に示す読み上げウインドウ401で再生ボタン420がクリックされることで、t31時点から本文の読み上げが開始されるが、それと同時に、ビデオ表示部430において動画データVM5の再生が開始される(この場合はオーディオデータの再生出力は行われない)。
なお、読み上げ音声に連動して、読み上げウインドウ401上のテロップ表示部402で本文のテロップ表示も行われる。
ここで、t32時点で本文の読み上げが完了したとすると、動画データVM5の再生がまだ終了していなくても、読み上げ完了とともに中止終了されることになる。
例えば読み上げウィンドウ401で再生ボタン420のクリックにより、t41時点から要約文の読み上げが開始されると、それと同時に、ビデオ表示部430において動画データVM5の再生が開始される(この場合もオーディオデータの再生出力は行われない)。また読み上げ音声に連動して、テロップ表示部402で要約文のテロップ表示も行われる。
そしてt42時点で要約文の読み上げが完了したとすると、動画データVM5の再生は、まだ終了していなくても、読み上げ完了とともに中止終了される。
そしてこのような本文タグファイルに基づいて生成される要約文タグファイルには、動画データVM1、VM4を指定するビデオタグが含まれたとする。
図43に示す本文タグファイルが閲覧ウインドウ301に表示されている状態で、ビデオボタン306dがクリックされることにより実行される、上記図35のビデオ出力処理によるビデオ出力動作は図44(a)のようになる。
また、t102時点で再生が終了した後は、ビデオウインドウ501を閉じるようにしてもよいが、そのままビデオウインドウ501上で再びリピート再生したり、或いは特定の場面を静止画として継続表示するようにしてもよい。
この場合、図38のような閲覧ウインドウ301上で、例えばt111時点から要約文が固定表示され、その固定表示は以降継続される。
そしてそれとともに、t111時点からビデオ表示部330で動画データVM1の再生(オーディオデータ再生を含む)が行われる。t112時点で動画データVM1の再生が終了すると、続いて動画データVM4の再生(オーディオデータ再生を含む)が行われる。
なお、図43の例の場合、要約文タグファイルには動画データVM2、VM3を指定するビデオタグが付されていないため、これらは再生されない。
t113時点で動画データVM4の再生が終了されると、閲覧ウインドウ301上でビデオ表示部330が閉じられて本文表示部303に戻され、本文の表示が復帰される。例えばt113時点以降は、図27のような表示状態となる。
この場合、図38のようにビデオ表示部330が設定された閲覧ウインドウ301上における要約表示部304において、図28、図29で説明したようなテロップ表示がt121時点から開始される。また、そのテロップ表示がt123時点で完了されたとすると、t123時点以降は図30に示すように要約文の一部が固定表示されることになる。
ここで閲覧ウインドウ301におけるビデオ表示部330では、t121時点から動画データVM1の再生(オーディオデータ再生を含む)が開始される。
その後、t122時点で、要約文のテロップが、動画データVM4に対応する部分に到達したとすると、動画データVM1の再生はまだ終了していなくても中止され、続いて動画データVM4の再生が開始される。
そしてt123時点でテロップ表示が完了すると、動画データVM4の再生は、まだ終了していなくても中止終了され、t123時点以降は図30に示すように本文が固定表示されている状態に復帰することになる。
例えば読み上げウインドウ401で再生ボタン420がクリックされることで、t131時点から本文の読み上げが開始されるが、それと同時に、図40に示したビデオ表示部430において動画データVM1の再生が開始される(なお、この場合はオーディオデータの再生出力は行われない:以下同様)。
なお、読み上げ音声に連動して、読み上げウインドウ401上のテロップ表示部402で本文のテロップ表示も行われる。
t132時点で、本文の読み上げが動画データVM2に対応する部分に到達したとすると、動画データVM1の再生は中止終了され、続いて動画データVM2の再生が開始される。以降同様に読み上げの進行に応じて、t133時点で動画データVM2の再生は中止終了されて動画データVM3の再生が開始され、さらにt134時点で動画データVM3の再生が中止終了されて動画データVM4の再生が開始される。
そしてt135時点で本文の読み上げが完了したとすると、動画データVM4の再生は中止終了される。即ち読み上げ完了とともにビデオデータ再生が終了されることになる。
例えば再生ボタン420のクリックにより、t141時点から要約文の読み上げが開始されると、それと同時に、図40に示したビデオ表示部430において動画データVM1の再生が開始される(オーディオデータの再生出力は行われない)。また読み上げ音声に連動して、読み上げウインドウ401上のテロップ表示部402で要約文のテロップ表示も行われる。
t142時点で、要約文の読み上げが動画データVM4に対応する部分に到達したとすると、動画データVM1の再生は中止終了され、続いて動画データVM4の再生が開始される。
そしてt143時点で要約文の読み上げが完了したとすると、動画データVM4の再生は中止終了される。即ち読み上げ完了とともにビデオデータ再生が終了される。
そしてこのような本文タグファイルに基づいて生成される要約文タグファイルには、静止画データVS1、VS3、VS5を指定するビデオタグが含まれたとする。
図45に示す本文タグファイルが閲覧ウインドウ301に表示されている状態で、ビデオボタン306dがクリックされることにより実行される、上記図35のビデオ出力処理によるビデオ出力動作は図46(a)のようになる。
この場合、図36のようなビデオウインドウ501上で、ユーザーが再生ボタン505をクリックすることで、例えばt201時点から静止画データVS1の再生が行われる。この静止画データVS1の再生表示は例えば一定時間TSだけ行われる。
一定時間を経過したt202時点からは、同様に一定時間TSの間、静止画データVS2の再生表示が行われる。
以降同様に一定時間TSづつ、静止画データVS3、VS4、VS5が順次再生表示されていく。
そしてt206時点で、ビデオデータの再生が終了される。
また、t202時点で一連の静止画の再生が終了した後は、ビデオウインドウ501を閉じるようにしてもよいが、そのままビデオウインドウ501上で再び各静止画データを順次再生したり、或いは特定の静止画データを継続表示するようにしてもよい。
なお、上記のようにTS時間毎に静止画データを切り換えることはせずに、ユーザーの操作(戻し方向又は送り方向の頭出しボタン510,511のクリック)に応じて画像を切り換えていくようにしてもよい。
この場合、図38のような閲覧ウインドウ301上で、例えばt211時点から要約文が固定表示され、その固定表示は以降継続される。
そしてそれとともに、t211時点からビデオ表示部330で静止画データVS1の再生が一定時間TSの間、行われる。TS時間後の時点t212からは、続いて静止画データVM3の再生表示が行われる。さらにTS時間後の時点t213からは、続いて静止画データVS5の再生表示が行われる。
なお、図45の例の場合、要約文タグファイルには動画データVS2、VS4を指定するビデオタグが付されていないため、これらは再生されない。
t214時点で各静止画データVS1、VS3、VS5のTS時間づつの再生が終了されると、閲覧ウインドウ301上でビデオ表示部330が閉じられて本文表示部303に戻され、本文の表示が復帰される。例えばt214時点以降は、図27のような表示状態となる。
この場合、図38のようにビデオ表示部330が設定された閲覧ウインドウ301上における要約表示部304において、図28、図29で説明したようなテロップ表示がt221時点から開始される。また、そのテロップ表示がt223時点で完了されたとすると、t223時点以降は図30に示すように要約文の一部が固定表示されることになる。
ここで閲覧ウインドウ301におけるビデオ表示部330では、t221時点から静止画データVS1の再生表示が開始される。
その後、t222時点で、要約文のテロップが、静止画データVS3に対応する部分に到達したとすると、静止画データVS1の再生は終了され、続いて静止画データVS3が再生表示される。
またt223時点で、要約文のテロップが、静止画データVS5に対応する部分に到達したとすると、静止画データVS3の再生は終了され、静止画データVS5が再生表示される。
そしてt224時点でテロップ表示が完了すると、ビデオデータ再生も終了され、t224時点以降は図30に示すように本文が固定表示されている状態に復帰することになる。
例えば読み上げウインドウ401で再生ボタン420がクリックされることで、t231時点から本文の読み上げが開始されるが、それと同時に、図40に示したビデオ表示部430において静止画データVS1の再生が開始される。
なお、読み上げ音声に連動して、読み上げウインドウ401上のテロップ表示部402で本文のテロップ表示も行われる。
t232時点で、本文の読み上げが静止画データVS2に対応する部分に到達したとすると、静止画データVS1の再生は終了され、続いて静止画データVS2の再生表示が行われる。以降同様に読み上げの進行に応じて、対応する静止画データVS3、VS4、VS5の表示がそれぞれ行われていく。
t236時点で本文の読み上げが完了したとすると、静止画としてのビデオデータ再生が終了されることになる。
例えば再生ボタン420のクリックにより、t241時点から要約文の読み上げが開始されると、それと同時に、図40に示したビデオ表示部430において静止画データVS1の再生が開始される。この場合も、読み上げ音声に連動して、読み上げウインドウ401上のテロップ表示部402で本文のテロップ表示も行われる。
t242時点で、要約文の読み上げが静止画データVS3に対応する部分に到達すると、静止画データVS1の再生は終了され、静止画データVS3の再生表示が行われる。また同様に読み上げの進行に応じて、例えばt243時点で、静止画データVS5の再生表示に切り換えられる。
t244時点で要約文の読み上げが完了したとすると、静止画としてのビデオデータ再生が終了されることになる。
もちろん例示した以外にも各種のビデオ出力形態が考えられる。また例えば1つのタグファイルで静止画データと動画データが複合的に指定された場合なども、上記各例に準じてビデオ再生が行われるものとなる。
さらにビデオ出力の期間、開始/終了タイミング、テロップや読み上げとの同期状態など、多様な観点で、ビデオ出力形態としての変形例も考えられる。
以上、文書処理装置1において実現される各種の動作を説明してきた。
本例の文書処理装置1では、これらの処理を実行するために、例えば制御部11内のソフトウエア構成(もしくはハードウエア構成でもよい)及びファイル群構成として、図47のような機能ブロックが形成されている。
さらに、ユーザーインターフェース607として、表示される各種ウインドウ上でのボタンについてのユーザー操作(入力部20としてのマウスのクリック等による操作)についての処理を行う部位が設けられる。
そして、これらの機能ブロックの制御を行うコントローラ600が形成される。
上述したように、本文タグファイル609及びビデオファイル611は、通信部21もしくは記録/再生部31(記録媒体32)から取り込まれるものとなる。また、要約文タグファイル610は、要約作成エンジン603によって本文タグファイル609から生成される。
読み上げ用ファイル608は、本文タグファイル609もしくは要約文タグファイル610が変換されて生成される。
ビデオ出力用ファイル612は、本文タグファイル609もしくは要約文タグファイル610から変換されて(具体的にはビデオタグが抽出されて)生成される。
図16〜図22で説明した読み上げ処理の際には、まず本文タグファイル609もしくは要約文タグファイル610から読み上げ用ファイル608が生成される。
そして音声合成エンジン601はコントローラ600の指示に基づいて読み上げ用ファイル608を参照し、読み上げ用ファイル608に基づいた音声合成処理を行う。
生成された合成音声信号(読み上げ音声信号)Youtは音声制御部605において出力レベル調整等が行われ、音声出力部33に供給されて出力される。
またコントローラは表示制御部606から読み上げウインドウ401としての画像信号を出力させ、表示部30に表示させる。
また読み上げウインドウ401に対するユーザー操作の情報はユーザーインターフェース607で取り込まれてコントローラ600に伝えられ、コントローラ600は、ユーザー操作に応じて音声合成エンジン601の動作を制御する。
図23で説明した要約作成処理の際には、コントローラ600は要約作成エンジン603に指示を出し、本文タグファイル609について要約作成を実行させる。これにより要約文タグファイルが形成される。
なおコントローラ600は、要約作成エンジン603に対して、要約表示部304のサイズ情報を伝えることで、上述のように要約表示部304のサイズに応じた要約生成処理が行われる。
図23、図24、図27で説明したように、要約表示部304のサイズが所定値wsth以上であった場合は、そのサイズに応じた文書長の要約文タグファイル610が生成され、それが固定表示されることになる。
この場合、生成された要約文タグファイル610は、要約作成エンジン603によって表示文書出力Soutとして処理され、表示制御部606に供給される。そして表示制御部606で、閲覧ウインドウ300の画像に合成され、表示部30で図27のように表示される。
図23〜図30で説明したように、要約表示部304のサイズが所定値wsth未満であった場合は、そのサイズを越える文書長の要約文タグファイル610が生成され、それがテロップ表示されることになる。
この場合、生成された要約文タグファイル610は、テロップ作成エンジン602によってテロップ化処理が行われる。そしてテロップ表示文書出力Toutとして逐次出力されていく。表示制御部606では、テロップ表示文書出力Toutを閲覧ウインドウ300の画像に合成し、表示部30で図28〜図30のような表示が実行されていくようにする。
テロップ表示の変形例として、テロップの進行タイミングを読み上げ音声タイミングに合わせることができることを述べた。
その場合、要約文タグファイル610から変換された読み上げ用ファイル608が、音声合成エンジン601とテロップ作成エンジン602の共有ファイルとして用いられる。(図中破線で示す信号系が形成される。)
コントローラ600の制御に基づいて、音声合成エンジン601は読み上げ用ファイル608を用いた音声合成/読み上げ出力を行う。但しこの場合、音声制御部605は生成された合成音声信号Youtについて出力レベルをゼロとすることで、ユーザーに対して読み上げ音声が出力されないようにする。
テロップ作成エンジン602は、読み上げ用ファイル608を用いてテロップ作成を行うが、この際、テロップ作成エンジン602と音声合成エンジン601は相互にタイミング信号の授受を行う。つまり、テロップ作成エンジン602は、読み上げ用ファイル608からのタイミング信号に基づいてテロップ作成/テロップ表示文書出力Toutを実行していく。これにより読み上げ速度によるテロップ表示が実行される。
なお、読み上げ速度(つまりこの場合はテロップ速度)については、ユーザーインターフェース607からの情報に基づいてコントローラ600が音声合成エンジン601での設定を変更することで、変更可能となる。
図35、図36で説明したビデオ出力処理は、ユーザーインターフェース607からの情報に基づくコンピュータ600の指示によって、ビデオエンジン604の処理で行われる。
ビデオエンジン604は、本文タグファイル609もしくは要約文タグファイル610から生成されたビデオ出力用ファイル612を参照し、再生すべきビデオデータを判別して、ビデオファイル611を読み出す。
読み出されたビデオデータは、ビデオエンジン604によって出力用の映像信号Voutとして処理され、表示制御部606に供給される。そして表示制御部606で、ビデオウインドウ501の画像に合成され、表示部30で図36のように表示される。時間軸上で見れば図42(a)、図44(a)、図46(a)のような出力が行われる。
またビデオデータに含まれるオーディオデータについても、ビデオエンジン604によって出力用の音声信号Aoutとして処理され、音声制御部605に供給されてレベル調整等の処理が行われる。そして音声出力部33から再生音声として出力される。
ビデオ出力中には、ビデオウインドウ501に対するユーザー操作の情報はユーザーインターフェース607で取り込まれてコントローラ600に伝えられ、コントローラ600は、ユーザー操作に応じてビデオエンジン601の動作を制御する。
図37、図38で説明した要約作成時のビデオ出力処理は、コンピュータ600の指示に基づいて、ビデオエンジン604及び要約作成エンジン603の処理により行われる。また、要約文がテロップ表示される場合は、ビデオエンジン604によるビデオ出力は、テロップ作成エンジン602からのテロップ出力タイミングに連動して行われる。
まず要約文が固定表示される場合は、上記の要約固定表示処理とともに、ビデオエンジン604が要約文タグファイル610から生成されたビデオ出力用ファイル612を参照し、再生すべきビデオデータを判別して、ビデオファイル611を読み出す。そしてビデオエンジン604は出力用の映像信号Voutを表示制御部606に供給し、また出力用の音声信号Aoutを音声制御部605に供給する。
表示制御部606では、閲覧ウインドウ301の画像に出力用の映像信号Voutを合成し、表示部30で図38のような表示を実行される。時間軸上で見れば図42(b)、図44(b)、図46(b)のような出力が行われる。
また音声制御部605は、音声出力部33からの再生音声出力を実行させる。
要約文がテロップ表示される場合は、上記の要約のテロップ表示処理とともに、ビデオエンジン604が要約文タグファイル610から生成されたビデオ出力用ファイル612を参照し、再生すべきビデオデータを判別して、ビデオファイル611を読み出す。そしてビデオエンジン604は出力用の映像信号Voutを表示制御部606に供給し、また出力用の音声信号Aoutを音声制御部605に供給することで、同様に表示部30で図38のような表示を実行させ、また音声出力部33からの再生音声出力を実行させる。
但しこの場合、ビデオエンジン604はコントローラ600を介して(又は直接)テロップ作成エンジン602のタイミング情報を受け取り、テロップの進行に合わせて出力するビデオデータの切り換えを行っていく。これにより時間軸上で図42(c)、図44(c)、図46(c)で説明したような出力が行われる。
図39、図40で説明した読み上げ時のビデオ出力処理は、コンピュータ600の指示に基づいて、ビデオエンジン604及び音声合成エンジン601の処理により行われる。この場合ビデオエンジン604によるビデオ出力は、音声合成エンジン601からの読み上げ音声出力タイミングに連動して行われる。
即ち上記の読み上げ処理とともに、ビデオエンジン604が本文タグファイル609又は要約文タグファイル610から生成されたビデオ出力用ファイル612を参照し、再生すべきビデオデータを判別して、ビデオファイル611を読み出す。そしてビデオエンジン604は出力用の映像信号Voutを表示制御部606に供給する。なお、この場合出力用の音声信号Aoutは音声制御部605には供給しない。
表示制御部606では、読み上げウインドウ401の画像に出力用の映像信号Voutを合成し、表示部30で図40のような表示を実行される。
但しこの場合、ビデオエンジン604はコントローラ600を介して(又は直接)音声合成エンジン601のタイミング情報を受け取り、読み上げの進行に合わせて出力するビデオデータの切り換えを行っていく。これにより時間軸上で図42(d)(e)、図44(d)(e)、図46(d)(e)で説明したような出力が行われる。
また音声制御部605では合成音声信号(読み上げ音声信号)Youtについて出力レベル調整等を行ない、音声出力部33から読み上げ音声を出力させる。
また読み上げウインドウ401に対するユーザー操作の情報はユーザーインターフェース607で取り込まれてコントローラ600に伝えられ、コントローラ600は、ユーザー操作に応じて音声合成エンジン601の動作を制御する。これに伴ってビデオエンジン604の動作も制御される。
また図47は、ここで説明した表示部30又は音声出力部33からの出力動作に関連する部位のみを示したものであり、例えば文書受信処理、分類処理などを実現する機能ブロックについては省略した。
また文書処理装置1を構成する具体的なデバイス例は多様であり、例えば文書処理装置1における入力部20を例に挙げれば、キーボードやマウスだけでなく、タブレット、ライトペン、赤外線等を利用した無線コマンダ装置等の他のデバイスが考えられる。
さらに、上述の実施の形態においては、日本語および英語の文章を例示したが、本発明がこれらの言語に限られないことはいうまでもない。
このように、本発明は、その趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
即ち本発明の記録媒体が実現できる。なお、図1に示したHDD34としても同様に本発明の記録媒体とすることができる。
そしてそのような記録媒体32によれば、上記してきた文書処理方法を実現するプログラムを提供できることになり、例えば汎用のパーソナルコンピュータ等を用いて、本発明の文書処理装置を容易に実現できる。
もちろん記録媒体32としては、フロッピーディスクの他に、光ディスク、光磁気ディスク、磁気テープ、フラッシュメモリ等によるメモリカード、メモリチップ等としてもよい。
さらに本発明の文書処理方法を実現するプログラムは、例えばインターネット等のネットワーク通信を介しても提供することができるものであり、従って、プログラムサーバ側もしくは通信過程における記録媒体としても本発明は適用できるものである。
つまり、文書処理装置1に対して、記録媒体から電子文書データを提供するときに、同時に動作制御プログラムやビデオファイルをも提供することで、その文書処理装置において、上記のような文書データに対応したビデオ出力処理を実行できるものとなる。
Claims (21)
- 電子文書データに付加された1又は複数のビデオデータ指定情報を検出し、1又は複数の特定のビデオデータを選択するビデオ選択手段と、
1又は複数の電子文書データのうちの或る電子文書データを提示するために出力制御する文書出力制御手段と、
前記文書出力制御手段の制御により出力された電子文書データに対応して、前記ビデオ選択手段で選択されたビデオデータを出力制御するビデオ出力制御手段と、
を備えたことを特徴とする文書処理装置。 - 前記文書出力制御手段により出力制御される電子文書データ、及び前記ビデオ出力制御手段により出力制御されるビデオデータを、同時もしくは個別に表示する表示手段を備えることを特徴とする請求項1に記載の文書処理装置。
- 文書本文としての電子文書データから、その要約文としての電子文書データを作成することのできる要約作成手段を備え、
前記ビデオ出力制御手段は、前記文書出力制御手段が前記要約作成手段により作成された要約文を出力制御する際に、前記ビデオ選択手段で選択されたビデオデータが出力されるように制御することを特徴とする請求項1に記載の文書処理装置。 - 前記ビデオ選択手段は、前記要約作成手段により作成された要約文に関連する1又は複数のビデオデータを選択することを特徴とする請求項3に記載の文書処理装置。
- 前記文書出力制御手段は、電子文書データが部分毎の切換表示もしくは移動表示されるように、電子文書データを出力制御するとともに、
前記ビデオ出力制御手段は、前記文書出力制御手段の制御による電子文書データ出力の進行に対応したタイミングで、出力するビデオデータを切り換えるように制御することを特徴とする請求項1に記載の文書処理装置。 - 電子文書データが読み上げ音声として出力されるように制御する音声出力制御手段を備え、
前記ビデオ出力制御手段は、前記音声出力制御手段の制御により電子文書データが読み上げ音声として出力される際に、前記ビデオ選択手段で選択されたビデオデータが出力されるように制御することを特徴とする請求項1に記載の文書処理装置。 - 前記ビデオ出力制御手段は、前記音声出力制御手段の制御による読み上げ音声出力の進行に対応したタイミングで、出力するビデオデータを切り換えるように制御することを特徴とする請求項6に記載の文書処理装置。
- 前記ビデオデータは動画データであることを特徴とする請求項1に記載の文書処理装置。
- 前記ビデオデータは静止画データであることを特徴とする請求項1に記載の文書処理装置。
- 電子文書データに付加された1又は複数のビデオデータ指定情報を検出し、1又は複数の特定のビデオデータを選択するビデオ選択手順と、
1又は複数の電子文書データのうちの或る電子文書データを提示するために出力制御する文書出力制御手順と、
前記文書出力制御手順での制御により出力された電子文書データに対応して、前記ビデオ選択手順で選択されたビデオデータを出力制御するビデオ出力制御手順と、
が行われることを特徴とする文書処理方法。 - 文書本文としての電子文書データから、その要約文としての電子文書データを作成することのできる要約作成手順を有し、
前記ビデオ出力制御手順では、前記要約作成手順で作成された要約文が前記文書出力制御手順での制御により出力される際に、前記ビデオ選択手順で選択されたビデオデータが出力されるように制御することを特徴とする請求項10に記載の文書処理方法。 - 前記ビデオ選択手順では、前記要約作成手順により作成された要約文に関連する1又は複数のビデオデータを選択することを特徴とする請求項11に記載の文書処理方法。
- 前記文書出力制御手順では、電子文書データが部分毎の切換表示もしくは移動表示されるように、電子文書データを出力制御するとともに、
前記ビデオ出力制御手順では、前記文書出力制御手順での制御による電子文書データ出力の進行に対応したタイミングで、出力するビデオデータを切り換えるように制御することを特徴とする請求項10に記載の文書処理方法。 - 電子文書データが読み上げ音声として出力されるように制御する音声出力制御手順を有し、
前記ビデオ出力制御手順では、前記音声出力制御手順での制御により電子文書データが読み上げ音声として出力される際に、前記ビデオ選択手順で選択されたビデオデータが出力されるように制御することを特徴とする請求項10に記載の文書処理方法。 - 前記ビデオ出力制御手順では、前記音声出力制御手順の制御による読み上げ音声出力の進行に対応したタイミングで、出力するビデオデータを切り換えるように制御することを特徴とする請求項14に記載の文書処理方法。
- 電子文書データに付加された1又は複数のビデオデータ指定情報を検出し、1又は複数の特定のビデオデータを選択するビデオ選択手順と、
1又は複数の電子文書データのうちの或る電子文書データを提示するために出力制御する文書出力制御手順と、
前記文書出力制御手順での制御により出力された電子文書データに対応して、前記ビデオ選択手順で選択されたビデオデータを出力制御するビデオ出力制御手順と、
を有する動作制御プログラムが記録されていることを特徴とする記録媒体。 - 文書本文としての電子文書データから、その要約文としての電子文書データを作成することのできる要約作成手順を有し、
前記ビデオ出力制御手順では、前記要約作成手順で作成された要約文が前記文書出力制御手順での制御により出力される際に、前記ビデオ選択手順で選択されたビデオデータが出力されるように制御する動作制御プログラムが記録されていることを特徴とする請求項16に記載の記録媒体。 - 前記ビデオ選択手順では、前記要約作成手順により作成された要約文に関連する1又は複数のビデオデータを選択することを特徴とする請求項17に記載の記録媒体。
- 前記文書出力制御手順では、電子文書データが部分毎の切換表示もしくは移動表示されるように、電子文書データを出力制御するとともに、
前記ビデオ出力制御手順では、前記文書出力制御手順での制御による電子文書データ出力の進行に対応したタイミングで、出力するビデオデータを切り換えるように制御する動作制御プログラムが記録されていることを特徴とする請求項16に記載の記録媒体。 - 電子文書データが読み上げ音声として出力されるように制御する音声出力制御手順を有し、
前記ビデオ出力制御手順では、前記音声出力制御手順での制御により電子文書データが読み上げ音声として出力される際に、前記ビデオ選択手順で選択されたビデオデータが出力されるように制御する動作制御プログラムが記録されていることを特徴とする請求項16に記載の記録媒体。 - 前記ビデオ出力制御手順では、前記音声出力制御手順の制御による読み上げ音声出力の進行に対応したタイミングで、出力するビデオデータを切り換えるように制御する動作制御プログラムが記録されていることを特徴とする請求項20に記載の記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008043222A JP4798150B2 (ja) | 2008-02-25 | 2008-02-25 | 文書処理装置、文書処理方法、及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008043222A JP4798150B2 (ja) | 2008-02-25 | 2008-02-25 | 文書処理装置、文書処理方法、及び記録媒体 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP21865299A Division JP2001043215A (ja) | 1999-08-02 | 1999-08-02 | 文書処理装置、文書処理方法、及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008234639A true JP2008234639A (ja) | 2008-10-02 |
JP4798150B2 JP4798150B2 (ja) | 2011-10-19 |
Family
ID=39907290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008043222A Expired - Fee Related JP4798150B2 (ja) | 2008-02-25 | 2008-02-25 | 文書処理装置、文書処理方法、及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4798150B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010084524A1 (ja) * | 2009-01-20 | 2010-07-29 | Yamamoto Emi | 情報処理システム及びプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59197926A (ja) * | 1983-04-26 | 1984-11-09 | Toshiba Corp | 動的文書表示装置 |
JPH09135386A (ja) * | 1995-11-10 | 1997-05-20 | Dainippon Printing Co Ltd | テレビ放送用テロップ装置 |
JPH10274997A (ja) * | 1997-03-31 | 1998-10-13 | Sanyo Electric Co Ltd | 文書読み上げ装置 |
JPH1125091A (ja) * | 1997-07-09 | 1999-01-29 | Just Syst Corp | 文書要約支援装置およびその装置としてコンピュータを機能させるためのコンピュータ読み取り可能な記録媒体 |
JPH11184865A (ja) * | 1997-12-19 | 1999-07-09 | Matsushita Electric Ind Co Ltd | 文書要約装置 |
-
2008
- 2008-02-25 JP JP2008043222A patent/JP4798150B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59197926A (ja) * | 1983-04-26 | 1984-11-09 | Toshiba Corp | 動的文書表示装置 |
JPH09135386A (ja) * | 1995-11-10 | 1997-05-20 | Dainippon Printing Co Ltd | テレビ放送用テロップ装置 |
JPH10274997A (ja) * | 1997-03-31 | 1998-10-13 | Sanyo Electric Co Ltd | 文書読み上げ装置 |
JPH1125091A (ja) * | 1997-07-09 | 1999-01-29 | Just Syst Corp | 文書要約支援装置およびその装置としてコンピュータを機能させるためのコンピュータ読み取り可能な記録媒体 |
JPH11184865A (ja) * | 1997-12-19 | 1999-07-09 | Matsushita Electric Ind Co Ltd | 文書要約装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010084524A1 (ja) * | 2009-01-20 | 2010-07-29 | Yamamoto Emi | 情報処理システム及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4798150B2 (ja) | 2011-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4320491B2 (ja) | 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体 | |
JP2001043215A (ja) | 文書処理装置、文書処理方法、及び記録媒体 | |
JP2001051997A (ja) | 文書データ作成装置、文書データ作成方法、及び記録媒体 | |
US20080300872A1 (en) | Scalable summaries of audio or visual content | |
JP2677754B2 (ja) | データ処理方法 | |
US20110153330A1 (en) | System and method for rendering text synchronized audio | |
CN105488094A (zh) | 通过媒体内容的语音搜索元数据 | |
WO2001001390A1 (fr) | Trieuse-liseuse electronique | |
JP2006518872A (ja) | 単一媒体に記録されたコンテンツで言語を学習するシステム | |
KR20050121664A (ko) | 비디오 기반 언어 학습 시스템 | |
JP2013536528A (ja) | リンクベースのマルチメディアを作成しナビゲートする方法 | |
JP2007535018A (ja) | マルチメディアデジタルコンテンツの視覚化及び制御技術 | |
JP2001306599A (ja) | 映像の階層的管理方法および階層的管理装置並びに階層的管理プログラムを記録した記録媒体 | |
JP2001075989A (ja) | 情報提示装置および方法、ならびに情報提示プログラムを記録したコンピュータで読取可能な記録媒体 | |
JP2000231475A (ja) | マルチメディア情報閲覧システムにおける音声読み上げ方法 | |
JP4433532B2 (ja) | 文書処理装置、文書処理方法、記録媒体 | |
JP4798150B2 (ja) | 文書処理装置、文書処理方法、及び記録媒体 | |
JP2010073205A (ja) | 文書処理装置、文書処理方法、記録媒体 | |
JP4449118B2 (ja) | 文書処理装置、文書処理方法、及び記録媒体 | |
JP7229296B2 (ja) | 関連情報提供方法及びシステム | |
KR20090027118A (ko) | 멀티미디어 콘텐츠 제공 시스템 및 방법 | |
JP2001014307A (ja) | 文書処理装置、文書処理方法、及び記録媒体 | |
JP2001014313A (ja) | 文書処理装置、文書処理方法、及び記録媒体 | |
JP2001034384A (ja) | 文書処理装置、文書処理方法、及び記録媒体 | |
JP2010044767A (ja) | 文書処理装置、文書処理方法、及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101019 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101206 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110308 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110608 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110705 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110718 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140812 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140812 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |