JP4058928B2 - 文書表示システム、受信装置、文書表示方法、および記録媒体 - Google Patents
文書表示システム、受信装置、文書表示方法、および記録媒体 Download PDFInfo
- Publication number
- JP4058928B2 JP4058928B2 JP2001303205A JP2001303205A JP4058928B2 JP 4058928 B2 JP4058928 B2 JP 4058928B2 JP 2001303205 A JP2001303205 A JP 2001303205A JP 2001303205 A JP2001303205 A JP 2001303205A JP 4058928 B2 JP4058928 B2 JP 4058928B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- sentence
- documents
- question
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
【発明の属する技術分野】
本発明は、文書表示システムに関し、詳しくは、所定の関係を有する複数の文書から構成された文書群に関し、該文書群に属する文書の少なくとも一部を画面上に閲覧可能に表示する技術に関する。
【0002】
【従来の技術】
通信技術の発達した今日では、インターネットやパソコン通信等のネットワーク上で複数人が文字や画像等を用いて情報を伝達し合うことが日常的に行なわれている。このような情報伝達は、ネットワーク上以外での情報伝達と同様に、他人に向けて自発的に情報を発信する者(発信者)および該情報発信者によって発信された情報を受け取る者(受領者)、受け取った情報に対する回答や意見等を情報発信者に返信する者(返信者)が存在することにより成立している。
【0003】
一方、ネットワーク上での情報伝達は、発信者と受領者ないし返信者とのやりとりが、データの送受信や受信データの閲覧等のサービスを提供するサーバを介して行なわれるという特徴がある。即ち、発信者ないし返信者は、発信ないし返信しようとする情報をネットワークを介してサーバに送る。情報を受け取ったサーバは、受け取った情報をネットワークを介して受領者に送信したり、受け取った情報を受領者がネットワークを介して閲覧可能に表示したり、前記受領者への送信や受領者による閲覧のために保存したりするのである。なお、サーバに接続して上記のサービスを受ける者(上記の発信者や受領者,返信者)のことを、以下、クライアントという。
【0004】
近年では、ネットワーク上での情報伝達の手法として、発信者と特定の受領者との間で文書を送り合うことにより情報伝達を行なう手法(例えば、プッシュ型の電子メール等)以外に、サーバに設けられた電子掲示板(BBS)への文書の書き込みにより多数の者の間で情報伝達を行なう手法が用いられている。具体的には、ある主題の文書を他人に発信しようとする発信者は、発信しようとする文書(以下、投稿文書という)の内容を電子掲示板に書き込む。電子掲示板に書き込まれた投稿文書の内容は、ネットワークを介して多数の者(不特定人若しくは特定のグループ全員)に閲覧可能となる。閲覧により投稿文書の内容を受け取った受領者は、この投稿文書に対する返答や意見等を内容とする文書(以下、投稿に対する返信文書という)を電子掲示板に書き込むことができる。書き込まれた投稿に対する返信文書の内容は、投稿文書と同様に多数の者に閲覧可能となる。閲覧により返信文書の内容を受け取った受領者は、この返信文書に対する返答や意見等を内容とする文書(以下、返信に対する返信文書という)を電子掲示板に書き込むことができる。書き込まれた返信に対する返信文書は、投稿文書等と同様に多数の者に閲覧可能となる。
【0005】
投稿文書と投稿に対する返信文書は、主題が共通する文書として一連のつながりを有しており、所定の関係を有している。このため、従来の電子掲示板では、往信−返信関係を有する一連の文書を一の文書群とみなし、各文書群に属する文書をツリー構造(枝分かれをした階層構造)に整理していた。ここで、ツリー構造の最上層に位置する一の投稿文書から該投稿文書が属するツリー構造の最下層に位置する返信文書までが一の往信−返信関係で接続されるとき、該一の往信−返信関係で接続される全ての文書のまとまりを、以下、スレッドという。
【0006】
従来の電子掲示板では、上記のツリー構造に基づいて各文書群に属する文書の系列図表を作成して、この系列図表を閲覧可能に表示し、文書間の往信−返信関係をクライアントが容易に把握できるようにしていた。また、表示される系列図表中に各文書の表題や各文書の本文の冒頭部分を併記することにより、クライアントが、各文書の本文にアクセスする前に文書の概要を把握できるようにしていた。
【0007】
【発明が解決しようとする課題】
しかしながら、従来のネットワーク上での情報伝達では、所定の関係を有する各文書の要旨を一目で正確に把握することは困難であり、各文書の要旨を正確に把握するためには、最上層に位置する文書から順番に全ての文書の本文にアクセスして本文の内容を理解しなければならず、正確な文書の要旨の把握に時間と労力がかかってしまうという問題があった。特に、クライアントに対して一度に表示される文書数が多い場合には、上記の問題はより顕著であった。
【0008】
例えば、多数の文書を含む系列図表が表示される電子掲示板の場合には、系列図表中に表示される各文書の表題から文書の正確な要旨を把握することは難しかった。各文書の表題は、種々の発信者ないし返信者が思い思いの自由なスタイルで記載したものであるため、文書の正確な要旨を表現しているとは言い難いからである。特に、返信者による返信文書においては、投稿文書の表題の冒頭に「Re:」のようなレス表示を付加したものが自動的に表題とされるような場合があり、このような場合には返信文書の要旨を表題から全く理解することができなかった。また、系列図表に各文書の本文の冒頭部分を併記しても、冒頭に文書の要旨とは関係ないことが記載されている場合には、文書の要旨を把握することはできなかった。
【0009】
また、携帯電話等において多数のメールを一度に受信した場合には多数の各メールの一部(例えば、表題や本文の冒頭部分)がディスプレイに初期表示されるが、この初期表示されるメールの表題からメールの正確な要旨を把握することは上記電子掲示板と同様の理由により難しく、多数のメールの正確な要旨を把握するために、受領者は、初期表示後に、全てのメールについて、メール本文を更に表示するための操作を行なうと共に、メール本文が表示された画面をスクロール等しながらメール本文を読まなければならなかった。
【0010】
また、発信者と特定の受領者との間で文書を送り合う電子メール等の場合にも、送信メールと受信メールとが往信−返信関係にあり、主題が共通する文書として一連のつながりを有している。このような往信−返信関係を有する一連のメールの要旨を、各メール本文にアクセスすることなく、一目で正確に把握する手法については、従来において何ら提案されていなかった。
【0011】
本発明は、かかる問題を解決し、往信−返信関係を有する一連の文書について、各文書の要旨を迅速かつ的確に把握可能とし、文書情報の取捨選択を簡単かつ効率的に行なえるようにすることを目的として、以下の構成を採った。
【0012】
【課題を解決するための手段およびその作用・効果】
本発明の文書表示システムは、
所定の関係を有する複数の文書の少なくとも一部を画面上に閲覧可能に表示する文書表示システムであって、
前記複数の文書からひとまとまりの文書群を抽出する文書群抽出手段と、
前記文書群に属する文書全体によって表わされる内容を考慮して、前記文書群に属する各文書から該文書に所定の相関を有する文を重要文として抽出する重要文抽出手段と、
該重要文抽出手段により抽出された重要文を、前記文書群に属する文書の一部として前記画面上に表示する重要文表示手段と
を備えたことを要旨とする。
【0013】
上記発明の文書表示システムによれば、重要文抽出手段が、ひとまとまりの文書群に属する文書全体によって表わされる内容を考慮して、文書群に属する各文書から該文書に所定の相関を有する文を重要文として抽出し、抽出された重要文を重要文表示手段が文書の一部として画面上に表示する。従って、文書群における主題の展開を、表示された重要文を見ただけで正確に把握することができる。上記所定の関係を有する複数の文書を、往信と返信の関係にある文書上とすることも好ましい。
【0014】
文書群の種類を判別する種類判別手段を備え、該種類判別手段により判別された種類に応じて重要文を抽出する構成としてもよい。こうすれば、文書群の種類に応じた重要文が表示されるので、主題の展開をより正確に把握することができる。
【0015】
この場合において、文書群の種類を、質問表現を含む質問型,複数の話題を含む複数話題型,会話文を含む会話型のうち少なくとも一つとすることも好適である。また、重要文抽出手段が、文書群に属する各文書から該文書に所定の相関を有する文を重要文として抽出する基準を該文書群に属する文書の種類に応じて異ならせる相関設定手段を備えることも望ましい。
【0016】
重要文抽出手段により抽出された重要文に基づいて文書群の要約を作成する要約作成手段を備え、重要文表示手段に替えて、該要約作成手段により作成された要約を画面上に表示する要約表示手段を備えることも望ましい。こうすれば、文書群ごとの話題の内容を迅速かつ的確に把握することができる。
【0017】
こうした要約表示手段と共に、重要文抽出手段により抽出された重要文を文書群に属する文書の一部として前記画面上に表示する重要文表示手段を備える構成としても差し支えない。
【0018】
所定の基準に基づいて前記各文書の文を標準的な表現に書き換える文標準化手段を備えることも好適である。また、要約作成手段が、少なくとも前記重要文抽出手段により抽出された重要文の表現を標準的な表現に書き換える手段を備える構成とすれば、文書作成者の文書作成に関する技量に拘らず均一なレベルの文が文書や文書群の要旨として表示されるので、文書群ごとの話題の内容をより一層把握しやすくなる。
【0019】
上記の文標準化手段としては、例えば、冗長な表現の短文化や自立語の他の自立語への置換,付属語の用法の訂正,方言から標準語への置換,予め定めた文字への置き換え,表記のゆれの統一等を考えることができる。
【0020】
所定の基準に基づいて文書の中から文書の要旨を構成し得ない表現を除いた文を有意味文として抽出する有意味文抽出手段を備え、重要文抽出手段または要約作成手段を、該有意味文を用いて重要文の抽出または要約の作成を行なう手段とすることも好適である。上記の表現抽出手段により抽出される表現としては、例えば、以前の発言の引用箇所や挨拶文、発信者の署名等を考えることができる。こうすれば、重要文の抽出または要約の作成を効率的かつ精度よく行なうことができる。
【0021】
重要文表示手段または要約表示手段を、文書群についての重要文または要約を時系列順に一覧表示する手段とすることも好適である。こうすれば、最新の主題や話題に容易にアクセスすることができる。
【0022】
重要文表示手段または要約表示手段を、文書群に属する文書の作成者を重要文または要約と関連付けて表示する手段としてもよい。こうすれば、各作成者による発言内容の変化を把握しやすくなる。
【0023】
重要文抽出手段による抽出に基づいて文書群の表題を作成する表題作成手段を備え、該表題作成手段により作成された各文書群の表題を重要文または要約と関連付けて表示しても差し支えない。こうすれば、作成者によって付けられた各文書の表題を羅列する場合と比較して、各文書群の話題の種類を把握しやすくなる。
【0024】
本発明の受信装置は、
通信回線を介して文書を受信する受信装置であって、
前記受信した複数の文書からひとまとまりの文書群を抽出する文書群抽出手段と、
該文書群抽出手段により抽出された一の文書群に関し、該文書群に属する各文書から少なくとも本文を取り出す本文取出手段と、
該本文取出手段により取り出された本文全体によって表わされる内容を考慮し、前記文書群に属する各文書から該文書に所定の相関を有する文を重要文として抽出する抽出手段と、
該抽出手段により抽出された前記一の文書群についての重要文を通信回線を介して出力する出力手段と
を備えたことを要旨とする。
【0025】
上記発明の受信装置によれば、文書群抽出手段が、通信回線を介して受信した複数の文書からひとまとまりの文書群を抽出し、抽出された一の文書群に属する各文書から本文取出手段が少なくとも本文を取り出す。抽出手段は、取り出された本文全体によって表わされる内容を考慮して、文書群に属する各文書から該文書に所定の相関を有する文を重要文として抽出し、抽出された一の文書群についての重要文を出力手段が通信回線を介して出力する。従って、出力された重要文を通信回線を介して得ることにより、一の文書群における主題の展開を正確に把握可能なデータを得ることが可能となる。例えば、このデータを表示や印刷等すれば、文書群における主題の展開を、表示ないし印刷された重要文を見ただけで正確に把握することができる。
【0026】
なお、上記の文書群形成手段,本文取出手段,抽出手段および出力手段を二以上の装置に分けて設け、これら二以上の装置を組み合わせて上記発明の受信装置を実現することも可能である。
【0027】
抽出手段により抽出された重要文に基づいて文書の要約を作成する作成手段を備え、該作成手段により作成された要約を通信回線を介して出力する要約出力手段を出力手段に替えて備えることも望ましい。こうすれば、出力された要約を通信回線を介して得ることにより、文書群ごとの話題の内容を迅速かつ的確に把握可能なデータを得ることが可能となる、データの利用価値を高めることができる。
【0028】
本発明の文書表示方法は、
所定の関係を有する複数の文書の少なくとも一部を画面上に閲覧可能に表示する文書表示方法であって、
前記複数の文書からひとまとまりの文書群を抽出し、
前記文書群に属する文書全体によって表わされる内容を考慮して、前記文書群に属する各文書から該文書に所定の相関を有する文を重要文として抽出し、
該抽出された重要文を、前記文書群に属する文書の一部として前記画面上に表示することを要旨とする。
【0029】
上記発明の文書表示方法によれば、ひとまとまりの文書群に関し、該文書群に属する文書全体によって表わされる内容を考慮して、各文書から該文書に所定の相関を有する文を重要文として抽出し、抽出された重要文を文書の一部として画面上に表示する。従って、文書群における主題の展開を、表示された重要文を見ただけで正確に把握することができる。
【0030】
本発明のコンピュータプログラムを記録した記録媒体は、
所定の関係を有する複数の文書の少なくとも一部を画面上に閲覧可能に表示するためのコンピュータプログラムを記録した記録媒体であって、
前記複数の文書からひとまとまりの文書群を抽出する工程と、
前記文書群に属する文書全体によって表わされる内容を考慮して、前記文書群に属する各文書から該文書に所定の相関を有する文を重要文として抽出する工程と、
該抽出された重要文を、前記文書群に属する文書の一部として前記画面上に表示する工程と
をコンピュータに実行させるためのプログラムをコンピュータに読み取り可能に記録したことを要旨とする。
【0031】
上記発明の記録媒体によれば、記録されたプログラムがコンピュータに読み取られることにより、ひとまとまりの文書群に属する文書全体によって表わされる内容を考慮して、各文書から該文書に所定の相関を有する文を重要文として抽出し、抽出された重要文を文書の一部として画面上に表示する。従って、文書群における主題の展開を、表示された重要文を見ただけで正確に把握することができる。
【0032】
なお、上記の記録媒体が備える各工程を二以上の記録媒体に分けて記録し、これら二以上の記録媒体を組み合わせることにより上記発明の記録媒体を実現することも可能である。
【0033】
なお、記録媒体としては、フレキシブルディスク,CD−ROM,DVD−ROM,半導体メモリ(ROM,PROM,EEPROM,フラッシュメモリ等)など、種々の記録媒体を用いることができる。もとより、インターネットなどのネットワーク上に置かれたサーバにこれらのプログラムを記憶しておき、クライアントのコンピュータにダウンロードして利用することも可能である。
【0034】
また、重要文や要約等の表示は、ディスプレイや用紙上に表示するものにとどまらず、重要文を音声合成などを利用して読み上げることで表示することも可能である。耳から聞いて内容を認識する場合、何が重要かをすぐに判別することは、文字を読み取って判断することより困難なので、重要文を抽出して読み上げる構成は、極めて有用である。携帯電話でメール文書を確認するような場合には、重要文を音声で読み上げれば、携帯電話の小さなディスプレイに制約されることがなく、この点でも有用である。
【0035】
【発明の実施の形態】
以下、本発明の実施の形態を実施例に基づいて説明する。
(1)実施例の構成:
はじめに、実施例の構成について図1を用いて説明する。図1は、本発明の第1実施例である掲示板表示システムKSの概略構成を示す説明図である。図1に示すように、掲示板表示システムKSでは、インターネットのような大規模なネットワーク100に、配信サーバ300,310,320・・・およびデータベースサーバ200が接続されている。配信サーバ300には、クライアントのパーソナルコンピュータ900,910,920・・・が電話回線を介して接続されている。また、電子掲示板のウェブページが格納されたサーバ200には、電子掲示板の管理人のパーソナルコンピュータ800が電話回線を介して接続されている。
【0036】
パーソナルコンピュータ900から配信サーバ300に対して電子掲示板のウェブページへのアクセス信号が送出されると、配信サーバ300とデータベースサーバ200内の電子掲示板のウェブページとがネットワーク100を介して接続される。これにより、パーソナルコンピュータ900のディスプレイに電子掲示板のウェブページが表示される。この後、クライアントが電子掲示板への文書の掲載を希望する場合には、掲載しようとする文書をパーソナルコンピュータ900を用いて作成し、作成した文書を電子掲示板のアドレスに送る。作成された文書は、配信サーバ300からネットワーク100を介してデータベースサーバ200内の電子掲示板のウェブページに到達する。これにより、クライアントの作成した文書が電子掲示板に書き込まれ、パーソナルコンピュータ900のディスプレイには、書き込み後の電子掲示板が表示される。なお、他のクライアントのパーソナルコンピュータ910,920・・・を用いた場合も、上記パーソナルコンピュータ900と同様に、電子掲示板へのアクセスないし書き込みが可能である。
【0037】
データベースサーバ200の構造を図2に示す。データベースサーバ200は、ネットワーク100とのデータのやり取りを制御するネットワークインタフェース(NT−I/F)210、処理を行なうCPU220、処理プログラムや固定的なデータを記憶するROM230、ワークエリアとしてのRAM240、時間を管理するタイマ250、後述する各種のデータを蓄積するデータベース蓄積部260、辞書などを記憶しているハードディスク270等を備える。なお、データベース蓄積部260は、実際には、ハードディスクなどの記憶装置に格納されているが、ここでは、説明の都合上、独立の装置として扱うものとする。
【0038】
データベース蓄積部260には、電子掲示板に書き込まれている多数の文書が蓄積されている。これらの文書は、前述した往信−返信関係に基づいて整理された状態で蓄積されている。具体的には、データベース蓄積部260には、投稿文書やこの投稿に対する返信文書,返信に対する返信文書に関する情報として、図3に示すような文書の系列図表が格納されている。
【0039】
図3に示すように、系列図表には、各投稿文書A〜Zおよび返信文書に関する往信−返信関係がツリー構造で表されている。例えば、投稿文書Aに対する返信としては四つの返信文書A−1〜4があり、返信文書A−1に対する返信文書としては二つの返信文書A−1−a〜bがある。なお、系列図表には、各投稿文書A〜Zおよび返信文書の近傍に、各文書が電子掲示板に書き込まれた日付け,メッセージ番号,作成者名等が付記されている(図示せず)。また、各投稿文書A〜Zおよび返信文書の本文は、系列図表とリンクされてデータベース蓄積部260に蓄積されている。
【0040】
前述したスレッドの一例を、図3に二点鎖線で示した。即ち、ツリー構造の最上層である第1層に位置する一の投稿文書Aから該投稿文書Aが属するツリー構造の最下層である第3層に位置する返信文書A−1−aまでは、第2層に位置する返信文書A−1を介して一の往信−返信関係で接続されている。こうした往信−返信関係で接続される全ての文書のまとまり(つまり、投稿文書A,返信文書A−1,返信文書A−1−a)がスレッドTHとなる。図3の系列図表には、図3に表されている限りにおいて、「投稿文書A,返信文書A−1,返信文書A−1−a」、「投稿文書A,返信文書A−1,返信文書A−1−b」、「投稿文書A,返信文書A−2」、「投稿文書A,返信文書A−3,返信文書A−3−a」、「投稿文書A,返信文書A−4」、「投稿文書B,返信文書B−1,返信文書B−1−a」、「投稿文書Z,返信文書Z−1,返信文書Z−1−a」という7個のスレッドTHが存在している。
【0041】
データベースサーバ200のROM230内には、上記の系列図表を作成する処理(以下、系列図表作成処理という)を記述したプログラムが格納されている。このプログラムは、CPU220によって実行されることにより、多数の文書を文書群としてのスレッドごとに分類する分類手段として機能する。この系列図表作成処理の内容および処理手順を系列図表作成処理ルーチンとして図4に示す。本ルーチンは、投稿文書や返信文書が書き込まれたときにCPU220が実行する処理である。本ルーチンが起動されると、まず、書き込まれた文書の宛先とされた文書を系列図表中で特定する処理を行なう(ステップS100)。次に、特定された文書の下層に、特定された文書と関連付けながら、書き込まれた文書の一部(例えば、表題等)を追加する処理を行なう(ステップS120)。次に、系列図表中の投稿文書や返信文書をスレッドごとに分類し直し(ステップS140)、分類後の系列図表をデータベース蓄積部260に更新して記憶して(ステップS160)、本ルーチンを終了する。
【0042】
データベースサーバ200のROM230には、上記の系列図表作成処理の他に、電子掲示板に書き込まれた投稿文書および返信文書の要約を作成し、この作成された要約を系列図表と共にパーソナルコンピュータ900のディスプレイ上に表示する処理(以下、要約作成・表示処理という)の内容が記述されたプログラムが格納されている。この要約作成・表示処理の内容および処理手順を要約作成・表示処理ルーチンとして図5に示す。本ルーチンは、電子掲示板に書き込まれた文書の要約を作成する旨の実行指示がなされたときにCPU220が実行する処理である。
【0043】
本ルーチンが起動されると、まず、▲1▼スレッド特定処理(ステップS200)を実行する。スレッド特定処理は、系列図表の中から要約を作成する対象となる一のスレッドTHを特定する処理である。以後、この特定された一のスレッドTHを対象として、▲2▼有効本文特定処理(ステップS210)、▲3▼重要文抽出処理(ステップS220)、▲4▼要約作成処理(ステップS240)、▲5▼表題作成処理(ステップS260)を実行する。これらの処理の詳細については後述する。これらのステップS220〜S260の処理が全てのスレッドTHについて終了したときに(ステップS270)、後述する▲6▼表示データ出力処理(ステップS280)を実行して、本ルーチンを終了する。
【0044】
以下、▲2▼有効本文特定処理、▲3▼重要文抽出処理、▲4▼要約作成処理、▲5▼表題作成処理、▲6▼表示データ出力処理の内容について順に説明する。なお、▲3▼重要文抽出処理には全体評価後切出処理が含まれており、▲4▼要約作成処理には文標準化処理が含まれているが、これらの処理についても▲3▼重要文抽出処理、▲4▼要約作成処理と併せて説明する。
【0045】
▲2▼有効本文特定処理(図5のステップS210)
有効本文特定処理は、スレッド特定処理により特定されたスレッドTHにつき、該スレッドTH内に属する各文書の本文から文書の要旨を構成し得ない表現を抽出し、抽出された表現を除外した本文(以下、有効本文という)を特定する処理である。具体的には、図3で二点鎖線で囲ったスレッドTHの場合には、投稿文書Aの本文を読み出し、挨拶文や投稿者の署名等の文書の主題の特定に関係の薄い表現を本文から除外し、削除後の本文を有効本文とする。返信文書A−1や返信文書A−1−aについても、本文を読み出して、投稿文書Aと同様の処理を行なう。但し、返信文書A−1や返信文書A−1−aの場合には、投稿文書Aの本文を引用した箇所についても本文から削除し、削除後の本文を有効本文とする。こうした有効本文は、RAM240の所定領域に一時的に記憶される。
【0046】
図3で二点鎖線で囲ったスレッドTHに属する各文書(投稿文書A,返信文書A−1および返信文書A−1−a)の例文を図6に示す。投稿文書Aは甲により作成されて電子掲示板に書き込まれた文書であり、返信文書A−1は、投稿文書Aに対する返信として乙により作成され、電子掲示板に書き込まれた文書である。返信文書A−1−aは返信文書A−1に対する返信として甲により作成され、電子掲示板に書き込まれた文書である。図6に示すように、返信文書A−1,返信文書A−1,返信文書A−1−aには、それぞれ4つの文,6つの文,5つの文が含まれているが、上記の有効本文特定処理の実行により、返信文書A−1の第1文の「いつもお世話になります。」という定型的な挨拶文は削除され、残りの5つの文が有効本文とされる。なお、後の説明をわかりうやすくするため、図6における各文の文頭に、有効本文とされる文の文番号(1〜14)を示している。
【0047】
▲3▼重要文抽出処理(図5のステップS220)
重要文抽出処理は、有効本文特定処理により特定された各文書の有効本文から各文書に所定の相関を有する文を重要文として抽出する処理である。本実施例では、重要文抽出処理において、一のスレッドTH内に属する全有効本文によって表わされる内容を考慮し、各文書に所定の相関を有する文として、全有効本文によって表わされる内容に最も近い意味の文を各文書の本文から切り出す処理(以下、全体評価後切出処理という)を行なう。この全体評価後切出処理の実行により切り出された文が重要文として抽出される。
【0048】
重要文の抽出処理には、種々の手法が考えられるが、この実施例では、次の手法を採用した。重要文抽出処理の内容及び手順を、重要文抽出処理ルーチンとして図7に示す。本ルーチンは有効本文特定処理の終了後に起動する。本ルーチンが起動されると、まず、電子掲示板が有する各スレッドTHの種類を判別する処理を行なう(ステップS300)。スレッドTHの種類に応じてスレッドTHに含まれる各文書からの重要文の抽出手法を変えるためである。このスレッドの種類としては、例えば、スレッド内の各文書により最初の投稿文書の主題とは異なった主題に展開されているか否か(スレッド内の文書の現実の内容)、Q&A方式のスレッドか否か(スレッドの形式)、スレッドがチャットのように往信と返信が頻繁に繰り返される性質のものか否か(スレッドの性質,特質)、スレッド内の一つの文書の長さが長文若しくは短文のいずれの傾向にあるか(スレッド内の文書の傾向)等を考えることができる。本実施例では、スレッドTHの種類を、質問型,複数話題型,会話型の3つのうちのいずれかに判別することとしている。
【0049】
スレッドTHの種類の判別は、以下の要領で行なうことができる。以下、図3で二点鎖線で囲ったスレッドTHを例として説明する。まず、主題を提供する最初の文書である投稿文書Aの有効本文を取り出し、有効本文内に「〜の質問」や「〜がわからない」等の表現がある場合には、このスレッドTHは質問型であると判別される。質問型にあてはまらない場合には、スレッドTH内の全有効本文(投稿文書A,返信文書A−1および返信文書A−1−aの有効本文)を取り出し、全有効本文の一定の範囲内に複数の主題があるか否かを判定する。複数の主題がある場合には、このスレッドTHは複数話題型であると判別され、複数の主題がない場合には、このスレッドTHは会話型であると判別される。なお、複数の主題の有無の判定は、全有効本文をTFIDF法を用いてベクトル表現に変換することにより行なうことができるが、ここでは詳しい説明は省略する。
【0050】
こうしてスレッドTHの種類を判別した後、スレッドTHの種類に応じて重要文を抽出する処理を行なう(ステップS320)。この処理の詳細につき、以下、質問型,複数話題型,会話型に分けて説明する。
【0051】
スレッドTHの種類が質問型である場合の重要文の抽出処理手法を図8のフローチャートに示す。質問型である場合には、まず、主題を提供する最初の文書であ(図3の例では投稿文書A)の有効本文から「〜の質問」や「〜がわからない」等の表現を含む文を抽出し、これを最初の文書の重要文とする(ステップS400、S410)。次に、最初の文書と同じスレッドTH内に最初の文書と同じ者により作成された他の文書(図3の例では返信文書A−1−a)を探し、他の文書の有効本文から「うまくいった」や「解決した」,「わかりました」等の表現を含む文を抽出する。抽出された文が、最初の文書と同じ者により作成された他の文書の重要文となる(ステップS420,S430)。続いて、上記他の文書の有効本文の「うまくいった」等の表現を含む文の前後において質問に対する解決策が含まれている文を取り出し、この文に含まれる単語を解決策を示す単語として切り出す。次に、最初の文書とは異なる者により作成された他人の文書(図3の例では返信文書A−1)の有効本文から上記解決策を示す単語が含まれている文を抽出する。抽出された文が、他人の文書の重要文となる(ステップS440〜S460)。
【0052】
このように、本実施例では、スレッドTHの種類が質問型である場合には、スレッドTH内の各文書から該文書に所定の相関を有する文(本実施例では、全有効本文によって表わされる内容に最も近い意味の文)を切り出す基準を、該文書群に属する文書の種類(図3の例では投稿文書A、返信文書A−1、返信文書A−1−a)に応じて異ならせている。
【0053】
スレッドTHの種類が複数話題型および会話型である場合の重要文の抽出処理手法を図9のフローチャートに示す。複数話題型および会話型の場合には、まず、一のスレッドTH内に属する全文書の有効本文(以下、全有効本文という)を取り出す処理を行なう(ステップS500)。
【0054】
本実施例では、図6に示した例文を有するスレッドTHを会話型とみなし、図9に示す重要文の抽出処理を適用している。図6に示す例文の場合には、投稿文書Aの有効本文(図6に示す文番号1〜4の文),返信文書A−1の有効本文(図6に示す文番号5〜9の文)および返信文書A−1−aの有効本文(図6に示す文番号10〜14の文)の計14個の文が、全有効本文として取り出される。
【0055】
なお、複数話題型の場合には、ステップS500の処理において、全有効本文のうち、ある一の主題に属する本文と他の主題に属する本文とが別々に取り出され、取り出されたそれぞれの本文を全有効本文としてステップS510以下の処理を行なう。
【0056】
次に、全有効本文から名詞である単語を抽出し、抽出された単語が全有効本文を構成する各文において偏って頻出する程度を求める処理を行なう(ステップS510)。
【0057】
単語が偏って頻出する程度は、その単語が、全有効本文内で出現する回数を全有効本文を構成する文の数により正規化した値によって評価することができる。これは、例えばTFIDFとして知られている。TFIDFは、次の式で定義される。なお、以下の式で、dbは、対象となっているひとまとまりのテキストデータ(ここでは全有効本文)であり、dは、全有効本文を構成している各文、tはこのテキストに含まれる単語、とする。
【0058】
TFIDF(d,t)=TF(d,t)×Idf(t) …(1)
但し:
TF(d,t)は、各文d内において単語tが出現する回数、
Idfは、次式(2)による。
Idf(t)=LOGe{DB(db)/f(t,db)} …(2)
ここで、
DB(db)は、全有効本文を構成する文の数、従って、図6に示した例では、値14、
f(t,db)は、全有効本文において、単語tが出現する文の数、である。
【0059】
図10は、図6に示した例文において、該例文に含まれている名詞である単語の出現頻度を数えた結果を示す。こうして名詞である単語の出現頻度を求めた後、本実施例では、出現頻度が2以上の単語につき、上式に基づいてTFIDF値を求めた。こうして求められた各単語のTFIDF値を図11に示す。
【0060】
続いて、各文を構成する名詞である単語のTFIDFを合算する処理を行なう(ステップS520)。この合算処理の結果を図11の合算値の欄に示した。
【0061】
次に、スレッドTHに含まれる各文書の各有効本文ごとに各文の合算値の大小を判定し、合算値が最も大きい2つの文を抽出する処理を行なう(ステップS530)。図11に星印付きで示すように、図6の例文の場合には、投稿文書Aからは文番号1,2の文が、返信文書A−1からは文番号7,8の文が、および返信文書A−1−aからは文番号11,14の文が、それぞれ抽出される。
【0062】
以上のステップS510〜S530までの処理が、前述した全体評価後切出処理に相当する。この全体評価後切出処理によれば、各有効本文内における出現頻度が高くなければ、単語のTFIDF値は高くならない。反面、全有効本文にまんべんなく出現するような単語(例えば、「こと」や「場合」)の場合には、f(t,db)が大きな値となるために、TFIDF値は結局小さな値となる。つまり、各有効本文を構成する各文において高い頻度で出現する単語が存在する文ほど、TFIDF値は大きな値となり、しかもそういう単語が多いほど、合算値は高い値となるのである。
【0063】
以上のように、スレッドTHに含まれる各文書から2つの重要文が抽出される。この後、抽出された重要文をRAM240の所定領域に記憶して(図7のステップS340)本ルーチンを終了し、要約作成処理(図5のステップS240)に移る。
【0064】
▲3▼要約作成処理(図5のステップS240)
要約作成処理次に、重要文抽出処理により抽出された重要文に基づいてスレッドTHの要約を作成する処理である。図3の例では、投稿文書A,返信文書A−1および返信文書A−1−aからなるスレッドTHの要約が作成される。この要約の作成は、具体的には、スレッド内の各文書から抽出された重要文を所定のアルゴリズムに基づいて組み合わせることにより作成される。例えば、図3に二点鎖線で囲ったスレッドTHが質問型であり、投稿文書Aが質問を含み,返信文書A−1が解決策の提案を含み、返信文書A−1−aが解決したという結果を含む場合には、投稿文書Aから抽出された重要文と返信文書A−1−aから抽出された重要文とを組み合わせるウエイトを大きくして、要約を作成すればよい。「…という疑問点が解決した」という文は、一般に、閲覧者に興味を生じさせると考えられるからである。
【0065】
本実施例では、重要文に重要文抽出処理により抽出された重要文を標準的な表現に書き換える処理(以下、文標準化処理という)を行なうことにより、要約を作成している。具体的には、文標準化処理において、冗長な表現の短文化や自立語の他の自立語への置換,付属語の用法の訂正,方言から標準語への置換,予め定めた文字への置き換え,表記のゆれの統一等の処理を行なう。標準化の処理には大別すると、文字の標準化、表記のゆれの統一、自立語の統一などを考えることができる。これらの処理については説明は省略するが、大まかな例示を挙げると以下の通りである。
【0066】
文字の標準化を例示すると、
(A)括弧:『』と「」の置き換えを行なうなど、
(B)引用符:“”と””の置き換えを行なうなど、
(C)一般記号:種々の記号(例えば「:,?!」など)について、半角/全角の置き換えを行なうなど、
(D)カタカナや英数字:全角/半角や大文字/小文字の置き換えを行なうなど、
(E)句点・読点:句点、読点を「、」「。」に統一するなど、
(F)名前の繋文字:「クイーン=エリザベス」を「クイーン・エリザベス」に置き換えるなど、
がある。
【0067】
表記のゆれとは、日本語における表記の曖昧さ、許容幅を言い、例えば、
▲1▼長音記号のゆれ:例、ウィンドウズ、ウィンドーズ、
▲2▼送り仮名のゆれ:例、売上げ、売り上げ、
▲3▼拗音表記のゆれ:例、ウィザード、ウイザード、
▲4▼複合語のかな表記のゆれ:例、売り上げ、売りあげ、
▲5▼外来語表記のゆれ:エンゼル、エンジェル、
▲6▼繰り返し文字のゆれ:例、正正堂堂、正々堂々、
などを挙げることができる。
【0068】
更に、自立語の統一処理としては、
(イ)修飾語:すごく、最高の、一番の、高い、など
(ロ)名詞:パーソナルコンピュータ、パソコン、PC、など
(ハ)動詞:知らせる、連絡する、通知する、など
などを例示することができる。
【0069】
こうした処理を行なうための基準データやルールは、データベースサーバ200のハードディスク270内の辞書に格納されている。予め定めた文字への置き換えを例にとると、「PC」といった単語は「パソコン」という単語に置き換えられる。これにより、一のスレッドTH内における文書や重要文の用語を統一することができる。
【0070】
▲5▼表題作成処理(図5のステップS260)
表題作成処理は、重要文抽出処理により抽出された重要文に基づいてスレッドの表題を作成する処理である。図3の例では、投稿文書A,返信文書A−1および返信文書A−1−aからなるスレッドTHの表題が作成される。具体的には、重要文の文法情報を解析し、必要な単語を切り出して付属語を補完することにより、表題を作成する。
【0071】
▲6▼表示データ出力処理(図5のステップS280)
表示データ出力処理は、上記作成された要約,表題および系列図表を表示データとして出力する処理である。この処理は、図5のステップS270の処理において電子掲示板の全てのスレッドTHについて要約および表題が作成されたと判断されたときに実行される。
【0072】
表示データ出力処理において出力されるデータイメージの一例を図12に示す。図12では、図3に示した系列図表に基づくデータイメージを表している。このデータイメージは、表示データがデータベースサーバ200からネットワーク100を介してクライアントのパーソナルコンピュータ900に到達したときに、パーソナルコンピュータ900のディスプレイのプレビュー画面に初期表示される内容である。
【0073】
図12に示すように、プレビュー画面には、各スレッドごとに要約および表題が表示されている。スレッド名は、系列図表の最下層に位置する返信文書に基づいて付けられており、例えば、図3で二点鎖線で囲ったスレッドTHのスレッド名は、最下層の返信文書名である「A−1−a」とされている。なお、本実施例では、投稿日(投稿文書が書き込まれた日)、更新日(返信文書が書き込まれた最近の日)、階層数(スレッド内における返信文書の数)が併せて表示されるので、これらの表示を話題の選択に関する参考資料とすることができる。
【0074】
各スレッドについての表題および要約は時系列順に一覧表示される。本実施例では、更新日が新しいスレッドから順に表示している。図12で言えば、スレッド名が「B−1−a」のものが最も最近に更新されたスレッドである。これにより、最新の主題や話題に容易にアクセスすることができる。
【0075】
なお、図12に示すプレビュー画面において、表題や要約等の他、各スレッドに属する投稿文書や返信文書の作成者の名前を表示することとしてもよい。こうすれば、各作成者による発言内容の変化を把握しやすくなる。
【0076】
クライアントは、プレビュー画面において表題や要約を参照し、興味のある話題のスレッドを選択することができる。こうしてスレッドが選択されると、選択されたスレッド内に属する全ての文書情報が、文書の往信−返信関係と共に、一覧表示画面に表示される。スレッド名が「A−1−a」のスレッドTHが選択されたときに一覧表示画面に表示される内容を図13に示す。この一覧表示画面により、興味のある話題の内容を詳細に確認することができる。
【0077】
以上説明した本実施例の掲示板表示システムKSは、往信−返信関係を有する投稿文書,投稿に対する返信文書,返信に対する返信文書から構成されたスレッドTHに関し、スレッドTHに属する文書全体によって表わされる内容を考慮して、スレッドTHに属する各文書から文書全体の内容に最も近い意味の文を重要文として抽出し、抽出された重要文に基づいてスレッドTHの要約を作成し、作成された要約を画面上に表示する。従って、スレッドTHごとの話題の内容を迅速かつ的確に把握することが可能となり、話題の取捨選択を迅速かつ容易に行なうことができる。
【0078】
本実施例の掲示板表示システムKSは、スレッドTHの種類を判別し、判別されたスレッドTHの種類に応じて重要文を抽出し、この重要文を表示する。従って、主題の展開や話題の内容をより正確に把握することができる。
【0079】
本実施例の掲示板表示システムKSは、抽出された重要文に文標準化手段を適用して、重要文を標準的な表現に書き換え、要約を作成する。こうすれば、文書作成者の文書作成に関する技量に拘らず均一なレベルの文がスレッドの要旨として表示されるので、文書群ごとの話題の内容をより一層把握しやすくなる。例えば、冗長な表現を有する重要文を短文化した場合には、限られた表示領域において内容の把握しやすい文を表示することができる。
【0080】
本実施例の掲示板表示システムKSは、各スレッドTHに属する文書から文書の要旨を構成し得ない表現を除外した有効本文に基づいて重要文の抽出または要約の作成を行なう。従って、重要文の抽出または要約の作成を効率的かつ精度よく行なうことができる。
【0081】
本実施例の掲示板表示システムKSは、重要文の抽出結果を利用してスレッドTHの表題を作成し、スレッドTHの要約と共に表示する。従って、作成者によって付けられた各文書の表題を羅列する場合と比較して、各スレッドTHの話題の種類を把握しやすくなる。
【0082】
(2)第2実施例:
往信−返信関係を有する文書には、電子掲示板への書き込み文書以外に、発信者と特定の受領者との間で文書を送り合う電子メールがある。このような電子メールのまとまりに対して重要文を抽出し、要約を作成する実施例をメール表示システムMSとして説明する。図14は、本発明の第2実施例であるメール表示システムMSの概略構成を示す説明図である。図14に示すように、メール表示システムMSは、掲示板表示システムKSとほぼ共通の構成を備えているが、データベースサーバ200を備えない点で掲示板表示システムKSと異なる。なお、図14では、この共通の構成につき、符号の上二桁を図1と同じ数字を用いて表わしている。
【0083】
配信サーバ30,31のROMには、特定の発信者と特定の受領者との間で送受信されたメールのまとまり(以下、メール束という)を受信ないし送信日時順に整理して時系列図表を作成する処理を記述したプログラムが格納されている。このプログラムが実行されると、図15に示すような時系列図表が作成される。図15に示すように、X氏からY氏に送信したメールX1を受け取ったY氏は、X氏に対してメールY1を送信し、このメールY1を受け取ったX氏は、Y氏に対してメールX2を送信している。図15では、こうしたX氏とY氏との間のメールの送受信が5回続いている。これにより、X氏とY氏との間でやりとりされたメールは、「メールX1→メールY1→メールX2→メールY1→メールX3→メールY3→メールX4→メールY4→メールX5→メールY5」というように時系列順に連鎖している。このように連鎖する合計10通のメールがメール束MBとなる。なお、時系列図表中の各メールの本文は、時系列図表とリンクされて配信サーバ30,31内のハードディスクに蓄積されている。
【0084】
配信サーバ30,31のROMには、上記の第1実施例と同様の、要約作成・表示処理の内容が記述されたプログラムが格納されている。このプログラムが配信サーバ30,31のCPUの命令によって実行されることにより、メール束に対して、第1実施例におけるスレッドTHと同様に、▲1▼スレッド特定処理、有効本文特定処理、▲3▼重要文抽出処理、▲4▼要約作成処理、▲5▼表題作成処理、▲6▼表示データ出力処理と同様の処理が行なわれる。この結果、メール束に属するメール全体によって表わされる内容を考慮して、メール束に属する各メールからメール全体の内容に最も近い意味の文が重要文として抽出され、抽出された重要文に基づいてメール束の要約が作成される。こうしたメール束の要約は、X氏のパーソナルコンピュータ90とY氏のパーソナルコンピュータ91の双方のプレビュー画面上に表示される。従って、クライアントは、メール束ごとの話題の内容を迅速かつ的確に把握することが可能となり、メールの取捨選択を迅速かつ容易に行なうことができる。
【0085】
なお、上記の実施例では、メールの本文の表示を例として取り上げたが、こうした表示の手法は、メール本文の表示に限定されるものではなく、複数の文から構成されたデータについても適用することができる。例えば、論文データベースの抄録文を対象として、抄録文の中から更に重要文を抽出し、これを論文の表題と共に表示するといった態様で実現することができる。あるいは電子カルテの記載や、電子的に配信される新聞などの記事から重要文を抽出して表示するといった実現形態も存在する。抽出した重要文は、モニタに表示するだけでなく、モニタへの表示に代えて、あるいは表示と共に、音声により読み上げることも好適である。もとより、プリンタなどで印字することも差し支えない。
【0086】
以上、本発明の実施の形態について説明したが、本発明はこうした実施の形態に何等限定されるものではなく、例えば、重要文を他とは異なる態様(例えば色違い)で表示するなど、本発明の要旨を逸脱しない範囲内において、更に種々なる形態で実施し得ることは勿論である。
【0087】
第1実施例では、系列図表作成処理(図4)や要約作成・表示処理(図5)をデータベースサーバ200が実行することとしたが、系列図表作成処理や要約作成・表示処理の内容を記述したプログラムをデータベースサーバ200以外の装置に格納し、
データベースサーバ200以外の装置が実行する構成としてもよい。例えば、配信サーバ300,310,320やクライアントのパーソナルコンピュータ900,910,920が実行する構成等を考えることができる。
【0088】
また、第2実施例では、系列図表作成処理や要約作成・表示処理を配信サーバ30,31が実行することとしたが、系列図表作成処理や要約作成・表示処理の内容を記述したプログラムを配信サーバ30,31以外の装置に格納し、配信サーバ30,31以外の装置が実行する構成としてもよい。例えば、上記プログラムを読み取ったパーソナルコンピュータ90,91が実行する構成等を考えることができる。
【0089】
また、上記実施例では、重要文抽出処理において、電子掲示板への書き込み文書が、平均的な文の数が約5つ程度であり、一文が比較的短い傾向にあることを考慮し、抽出する文の数を2つと定めたが(図9のステップS530の処理)、抽出する文の数は、スレッドTHに含まれる各文書(図3で言えば、投稿文書A,返信文書A−1,返信文書A−1−a)の長さ等に応じて任意に定めることができる。
【0090】
上記実施例では、重要文を抽出した後、この重要文に対して文標準化処理を行なったが、重要文を抽出する前に有効本文(投稿文書や返信文書の本文等)に対して文標準化処理を行なう構成としてもよい。
【0091】
上記実施例では、重要文抽出処理(図5のステップS220)の終了後、要約作成処理(図5のステップS240),表題作成処理(図5のステップS260)を行なったが、この要約作成処理や表題作成処理を行なうことなく、重要文抽出処理で抽出された各文書の重要文を表示データ出力処理(図5のステップS280)により表示可能に出力する構成としてもよい。この構成によっても、スレッドTHメール束に属する文書全体によって表わされる内容を考慮して、スレッドTHに属する各文書から文書全体の内容に最も近い意味の文が重要文として抽出され、抽出された重要文が画面上に表示される。従って、各スレッドTHや各メール束における主題の展開を、表示された重要文を見ただけで正確に把握することができる。
【0092】
特に、メール束に属する各メールから重要文を抽出し、この重要文を時系列に配列した場合には、このように配列された重要文をモニタ上に表示したり、プリントアウトすることにより、過去のやり取りを一目で把握することが可能となり、ビジネスシーン等において有効に活用することができる。過去のやり取りにおける特定の内容(例えば、双方が合意した納期)を調べようとする際に、メール束に属する各メールを順次にモニタに表示したり若しくはプリントアウトし、メール束から特定の内容を探すという必要がないからである。
【0093】
以上本発明のいくつかの実施例と変形例について説明したが、本発明は、これらの実施例に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の態様で実施することができる。例えば、複数の文書の関係は、往信−返信の関係に限られるものではなく、例えば、同一の作成者が作成した複数の文書、コメントや日記、報告書などであっても差し支えない。また、本発明の文書表示を行なう部分は、複数の文書を蓄積しているサーバ上に置いても良いし、複数の文書を閲覧するクライアント側においても良い。あるいはこれらのサーバ−クライアントシステムの中間に、専用のサーバとして置くことも可能である。これらのシステムを構成するためのプログラムは、CD−ROMなどの媒体の形態で取り扱っても良いし、プログラムをサーバ上に置き、使用するものがこれをダウンロードして、自らのコンピュータ上で、上述した文書表示システムの少なくとも一部を構築するものとしても良い。
【図面の簡単な説明】
【図1】本発明の第1実施例である掲示板表示システムKSの概略構成を示す説明図である。
【図2】データベースサーバ200の構造を示す説明図である。
【図3】電子掲示板に書き込まれている文書の系列図表を示す説明図である。
【図4】系列図表作成処理ルーチンを示すフローチャートである。
【図5】要約作成・表示処理ルーチンを示すフローチャートである。
【図6】図3で二点鎖線で囲ったスレッドTHに属する各文書の例文を示す説明図である。
【図7】重要文抽出処理ルーチンを示すフローチャートである。
【図8】スレッドTHの種類が質問型である場合の重要文の抽出処理を示すフローチャートである。
【図9】スレッドTHの種類が複数話題型および会話型である場合の重要文の抽出処理を示すフローチャートである。
【図10】図9の例文を用いて各単語のTFIDF値を計算した計算例を示す説明図である。
【図11】図9の例文におけるTFIDF値の文単位の合算値を例示する説明図である。
【図12】表示データの出力後にパーソナルコンピュータ900のディスプレイのプレビュー画面に初期表示される内容を示す説明図である。
【図13】一覧表示画面の一例を示す説明図である。
【図14】メール表示システムMSの概略構成を他の実施例として示す説明図である。
【図15】配信サーバ30,31により作成されるメールの時系列図表を示す説明図である。
【符号の説明】
10…ネットワーク
30,31…配信サーバ
90,91…パーソナルコンピュータ
100…ネットワーク
200…データベースサーバ
210…ネットワークインタフェース
220…CPU
230…ROM
240…RAM
250…タイマ
260…データベース蓄積部
270…ハードディスク
300,310,320…配信サーバ
800…パーソナルコンピュータ
900,910,920…パーソナルコンピュータ
KS…掲示板表示システム
MS…メール表示システム
MB…メール束
TH…スレッド
Claims (7)
- 往信−返信関係に基づくツリー構造を有する複数の文書の少なくとも一部を画面上に閲覧可能に表示する文書表示システムであって、
前記複数の文書から、直列的な前記往信−返信関係を有する一連の文書の最上層から最下層までのひとまとまりの文書群を抽出する文書群抽出手段と、
前記文書群が質問型であることを判断するために予め設定された質問キーワードを、前記文書群のうちの時系列的に最初の文書内において検索し、前記質問キーワードが検索された場合には、前記文書群が質問型であると決定する種類判別手段と、
前記質問型と決定された場合には、質問文と、解決文と、回答文と、を重要文として抽出する重要文抽出手段と、
該重要文抽出手段により抽出された重要文を、前記文書群に属する文書の一部として前記画面上に表示する重要文表示手段と、
を備え、
前記質問文は、前記最初の文書の中で前記質問キーワードを含む文であり、
前記解決文は、前記文書群のうちの前記最初の文書の投稿者である質問者によって投稿された文書のうち、前記最初の文書以外の文書内に含まれる文であって、前記文書群のいずれかの文書でなされた質問が解決したことを判断するために予め設定された解決キーワードを含む文であり、
前記回答文は、前記文書群のうち前記質問者以外の者によって投稿された文書内に含まれる文であって、前記解決文と前記解決文の前後の文とに含まれる単語を含む文として抽出された文である文書表示システム。 - 請求項1に記載の文書表示システムであって、
前記重要文抽出手段は、前記質問キーワードが検索されなかった場合には、前記文書群に含まれる各文書について前記各文書に含まれる各単語の出現数と、前記文書群に含まれる複数の文書のうちの前記各単語が含まれる文書数と、に応じて算出された出現頻度値に応じて選択された単語を含む文を重要文として抽出する文書表示システム。 - 請求項2に記載の文書表示システムであって、
前記出現頻度値は、(1)式によって算出される値TFIDFである文書表示システム。
TFIDF=TF×Idf .........(1)
Idf=LOGe(DB/f) ...(2)
ここで、前記TFは前記各文書内において前記各単語が出現する回数を示し、前記DBは前記文書群に含まれる複数の文書の数を示し、前記fは前記文書群に含まれる複数の文書のうち前記各単語が出現する文の数を示す。 - 請求項2または3に記載の文書表示システムであって、
前記文書群に含まれる各文書から前記出現頻度値が高い順に予め設定された数の文だけ抽出する文書表示システム。 - 通信回線を介して往信−返信関係に基づくツリー構造を有する複数の文書を受信する受信装置であって、
前記複数の文書から、直列的な前記往信−返信関係を有する一連の文書の最上層から最下層までのひとまとまりの文書群を抽出する文書群抽出手段と、
前記文書群が質問型であることを判断するために予め設定された質問キーワードを、前記文書群のうちの時系列的に最初の文書内において検索し、前記質問キーワードが検索された場合には、前記文書群が質問型であると決定する種類判別手段と、
前記質問型との決定に応じて、質問文と、解決文と、回答文と、を重要文として抽出する重要文抽出手段と、
該抽出手段により抽出された前記文書群についての重要文を通信回線を介して出力する出力手段と、
を備え、
前記質問文は、前記最初の文書の中で前記質問キーワードを含む文であり、
前記解決文は、前記文書群のうちの前記最初の文書の投稿者である質問者によって投稿された文書のうち、前記最初の文書以外の文書内に含まれる文であって、前記文書群のいずれかの文書でなされた質問が解決したことを判断するために予め設定された解決キーワードを含む文であり、
前記回答文は、前記文書群のうち前記質問者以外の者によって投稿された文書内に含まれる文であって、前記解決文と前記解決文の前後の文とに含まれる単語を含む文として抽出された文である受信装置。 - 往信−返信関係に基づくツリー構造を有する複数の文書の少なくとも一部を画面上に閲覧可能に表示する文書表示方法であって、
前記複数の文書から、直列的な前記往信−返信関係を有する一連の文書の最上層から最下層までのひとまとまりの文書群を抽出する文書群抽出工程と、
前記文書群が質問型であることを判断するために予め設定された質問キーワードを、前記文書群のうちの時系列的に最初の文書内において検索し、前記質問キーワードが検索された場合には、前記文書群が質問型であると決定する種類判別工程と、
前記質問型との決定に応じて、質問文と、解決文と、回答文と、を重要文として抽出する重要文抽出工程と、
該重要文抽出手段により抽出された重要文を、前記文書群に属する文書の一部として前記画面上に表示する重要文表示工程と、
を備え、
前記質問文は、前記最初の文書の中で前記質問キーワードを含む文であり、
前記解決文は、前記文書群のうちの前記最初の文書の投稿者である質問者によって投稿された文書のうち、前記最初の文書以外の文書内に含まれる文であって、前記文書群のいずれかの文書でなされた質問が解決したことを判断するために予め設定された解決キーワードを含む文であり、
前記回答文は、前記文書群のうち前記質問者以外の者によって投稿された文書内に含まれる文であって、前記解決文と前記解決文の前後の文とに含まれる単語を含む文として抽出された文である文書表示方法。 - 往信−返信関係に基づくツリー構造を有する複数の文書の少なくとも一部を画面上に閲覧可能に表示するためのコンピュータプログラムを記録した記録媒体であって、
前記コンピュータプログラムは、
前記複数の文書から、直列的な前記往信−返信関係を有する一連の文書の最上層から最下層までのひとまとまりの文書群を抽出する文書群抽出機能と、
前記文書群が質問型であることを判断するために予め設定された質問キーワードを、前記文書群のうちの時系列的に最初の文書内において検索し、前記質問キーワードが検索された場合には、前記文書群が質問型であると決定する種類判別機能と、
前記質問型との決定に応じて、質問文と、解決文と、回答文と、を重要文として抽出する重要文抽出機能と、
該重要文抽出手段により抽出された重要文を、前記文書群に属する文書の一部として前記画面上に表示する重要文表示機能と、
をコンピュータに実行させるためのプログラムを備え、
前記質問文は、前記最初の文書の中で前記質問キーワードを含む文であり、
前記解決文は、前記文書群のうちの前記最初の文書の投稿者である質問者によって投稿された文書のうち、前記最初の文書以外の文書内に含まれる文であって、前記文書群のい ずれかの文書でなされた質問が解決したことを判断するために予め設定された解決キーワードを含む文であり、
前記回答文は、前記文書群のうち前記質問者以外の者によって投稿された文書内に含まれる文であって、前記解決文と前記解決文の前後の文とに含まれる単語を含む文として抽出された文である記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001303205A JP4058928B2 (ja) | 2001-09-28 | 2001-09-28 | 文書表示システム、受信装置、文書表示方法、および記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001303205A JP4058928B2 (ja) | 2001-09-28 | 2001-09-28 | 文書表示システム、受信装置、文書表示方法、および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003108278A JP2003108278A (ja) | 2003-04-11 |
JP4058928B2 true JP4058928B2 (ja) | 2008-03-12 |
Family
ID=19123332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001303205A Expired - Fee Related JP4058928B2 (ja) | 2001-09-28 | 2001-09-28 | 文書表示システム、受信装置、文書表示方法、および記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4058928B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11847407B2 (en) | 2021-05-28 | 2023-12-19 | Samsung Sds Co., Ltd. | Apparatus for removing text noise for text analysis and method thereof |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9819624B2 (en) | 2004-03-31 | 2017-11-14 | Google Inc. | Displaying conversations in a conversation-based email system |
US7912904B2 (en) | 2004-03-31 | 2011-03-22 | Google Inc. | Email system with conversation-centric user interface |
US7269621B2 (en) | 2004-03-31 | 2007-09-11 | Google Inc. | Method system and graphical user interface for dynamically updating transmission characteristics in a web mail reply |
US7814155B2 (en) | 2004-03-31 | 2010-10-12 | Google Inc. | Email conversation management system |
US7979501B1 (en) | 2004-08-06 | 2011-07-12 | Google Inc. | Enhanced message display |
JP4367355B2 (ja) | 2005-02-24 | 2009-11-18 | セイコーエプソン株式会社 | 写真画像検索装置、写真画像検索方法、記録媒体、およびプログラム |
US9002725B1 (en) | 2005-04-20 | 2015-04-07 | Google Inc. | System and method for targeting information based on message content |
US7949714B1 (en) | 2005-12-05 | 2011-05-24 | Google Inc. | System and method for targeting advertisements or other information using user geographical information |
JP5359399B2 (ja) * | 2009-03-11 | 2013-12-04 | ソニー株式会社 | テキスト分析装置および方法、並びにプログラム |
JP5110122B2 (ja) | 2010-06-18 | 2012-12-26 | コニカミノルタビジネステクノロジーズ株式会社 | コンテンツ収集装置、コンテンツ収集方法およびコンテンツ収集プログラム |
US8972409B2 (en) | 2011-07-27 | 2015-03-03 | Google Inc. | Enabling search for conversations with two messages each having a query team |
-
2001
- 2001-09-28 JP JP2001303205A patent/JP4058928B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11847407B2 (en) | 2021-05-28 | 2023-12-19 | Samsung Sds Co., Ltd. | Apparatus for removing text noise for text analysis and method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP2003108278A (ja) | 2003-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10706060B2 (en) | Systems and methods for re-ranking displayed conversations | |
CN102521733B (zh) | 在基于对话的电子邮件系统中标注对话和消息 | |
US9794207B2 (en) | Email conversation management system | |
KR20060136476A (ko) | 대화-기반 이메일 시스템에서 대화들을 디스플레이하는방법 및 장치 | |
JP4058928B2 (ja) | 文書表示システム、受信装置、文書表示方法、および記録媒体 | |
JP2006302146A (ja) | 情報管理システム、情報管理方法、プログラム及び記録媒体 | |
CN102609831B (zh) | 在基于对话的电子邮件系统中搜索消息 | |
JP2000172587A (ja) | 電子メール装置、及び電子メールプログラムが記録された記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060516 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060711 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071127 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071210 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101228 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101228 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111228 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111228 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121228 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |