JP2009265770A - 重要文提示システム - Google Patents

重要文提示システム Download PDF

Info

Publication number
JP2009265770A
JP2009265770A JP2008111748A JP2008111748A JP2009265770A JP 2009265770 A JP2009265770 A JP 2009265770A JP 2008111748 A JP2008111748 A JP 2008111748A JP 2008111748 A JP2008111748 A JP 2008111748A JP 2009265770 A JP2009265770 A JP 2009265770A
Authority
JP
Japan
Prior art keywords
sentence
importance
document
important
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008111748A
Other languages
English (en)
Inventor
Tatsuma Bise
竜馬 備瀬
Naoyuki Tamura
直之 田村
Hirokazu Kasahara
博和 笠原
Tomohiro Nihongi
智洋 二本木
Mitsuaki Morimoto
光昭 森本
Masaki Takada
政樹 高田
Osamu Nakagawa
修 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2008111748A priority Critical patent/JP2009265770A/ja
Publication of JP2009265770A publication Critical patent/JP2009265770A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 単に重要単語を含むかどうかだけでなく、重要度の高い文を重要文として提示することが可能な重要文提示システムを提供する。
【解決手段】 重要語をキーワードとして、その重要度と対応付けてキーワード記憶手段20に記憶しておく。利用者から文書データの指定が行われると、重要度算出手段30は、指定された文書データを文書記憶手段10から読み込み、各文が含む単語の重要度をキーワード記憶手段20を参照して取得し、その重要度を基に各文の重要度を算出する。重要文設定手段40は、事前に設定された閾値と各文の重要度を比較し、重要度が閾値より大きい場合には、その文を重要文として設定する。文書出力手段50は、重要文を他の文より大きい文字サイズに設定して文書データを出力する。
【選択図】 図1

Description

本発明は、テキストを提示する際に、重要な文ほど大きく提示するための技術に関する。
従来より、テキスト文書をコンピュータで処理して様々な体裁で表示することが行われている。しかし、通常は、どの部分が重要であるかは示されていないため、文書が長い場合でも、利用者は丁寧に読んで情報を得なければならなかった。これに対して、対象文章中から重要単語を含む文を重要文として抽出する技術が提案されている(特許文献1参照)。
特許第2783558号公報
しかしながら、上記特許文献1に記載の技術では、対象文章中から重要単語を含む文を抽出し、重要文としているため、重要単語を含む文は全て重要文となってしまい、複数の重要文が抽出された際に、利用者はどの文を見れば良いかわからないという問題がある。
そこで、本発明は、単に重要単語を含むかどうかだけでなく、重要度の高い文を重要文として提示することが可能な重要文提示システムを提供することを課題とする。
上記課題を解決するため、本発明では、文書データを記憶した文書記憶手段と、重要キーワードをその重要度を示す値とともに記憶したキーワード記憶手段と、前記文書記憶手段から文書データを読み込み、当該文書データ中の各文の重要度を、各文に含まれる前記キーワードの重要度に基づいて求める重要度算出手段と、前記重要度算出手段により算出された重要度が所定の値以上の場合に、当該文を重要文として設定する重要文設定手段と、前記文書データ中の重要文を他の文より大きな文字で出力する文書出力手段を有する重要文提示システムを提供する。
本発明によれば、重要なキーワードに重要度を付与しておき、各文の重要度を、その文が含むキーワードの重要度に基づいて算出し、所定の重要度を有する文を重要文として他の文より大きな文字で出力するようにしたので、単に重要単語を含むかどうかだけでなく、重要度の高い文を重要文として提示することが可能となる。
本発明によれば、単に重要単語を含むかどうかだけでなく、重要度の高い文を重要文として提示することが可能となるという効果を奏する。
(1.第1の実施形態)
以下、本発明の好適な実施形態について図面を参照して詳細に説明する。図1は、本発明第1の実施形態に係る重要文提示システムの構成図である。図1において、10は文書記憶手段、20はキーワード記憶手段、30は重要度算出手段、40は重要文設定手段、50は文書出力手段である。
文書記憶手段10は、出力対象とする文書データを記憶したものである。キーワード記憶手段20は、重要単語であるキーワードを、その重要度とともに記憶したものである。重要度算出手段30は、文書記憶手段10に記憶された文書データの構文解析を行うとともに、キーワード記憶手段20に記憶されたキーワードを参照し、文書データ内の各文の重要度を算出する。重要文設定手段40は、各文の重要度を所定の閾値と比較し、閾値より大きい場合に、その文を重要文として設定する。文書出力手段50は、文書データを出力する際、重要文とそうでない文との体裁を区別して出力する。図1に示した重要文提示システムは、実際にはキーボードやマウス等の入力機器、ディスプレイやプリンタ等の出力機器を有するコンピュータに専用のプログラムを組み込むことにより実現される。また、文書記憶手段10、キーワード記憶手段20は、コンピュータに接続されたハードディスク等の記憶装置により実現される。
図2は、キーワード記憶手段20に記憶された情報の一例を示す図である。図2に示すように、キーワード記憶手段20には、キーワードに対応付けて重要度が記憶されている。キーワードとは、管理者が重要語であると判断したものである。重要度は、様々な手法で設定することが可能であるが、本実施形態では、重要度が高いほど数値が大きくなるように設定している。図2の例では、キーワード“重要”の重要度が“5”で最も高く、キーワード“お陰”の重要度が“3”で最も低くなっている。
次に、図1に示した装置の処理動作について説明する。重要文提示システム100が起動した後、利用者が用語を指定すると、重要文提示システム100は、文書記憶手段10に記憶された文書データを、指定された用語で全文検索し、指定された用語を含む文書データを抽出する。そして、重要文提示システム100は抽出した文書データの一部(ファイル名、タイトル等)を表示手段に表示して、利用者に選択を促す。利用者が、ファイル名等で確認した後、所望の文書データを選択する指示をマウス等を用いて行うと、重要度算出手段30が、選択指示された文書データを文書記憶手段10から読み込む。
続いて、重要度算出手段30は、読み込んだ文書データ内の文章を文単位に分割する処理を行う。具体的には、文単位への分割は、「。」が出現した部分を末尾と判断して行う等の公知の手法により行う。例えば、図3(a)に示すような文書データに対して分割処理を行った場合、図3(b)に示すような4つの文に分割される。
次に、重要度算出手段30は、各文に対して形態素解析を行い、単語に分解するとともに各単語の品詞を特定する処理を実行する。続いて、重要度算出手段30は、形態素解析により分解された各単語のうち、特定品詞の単語を抽出する処理を実行する。本実施形態では、特定品詞として名詞を設定しており、重要度算出手段30は、名詞のみを抽出することになる。
次に、重要度算出手段30は、抽出した名詞でキーワード記憶手段20を参照し、各文単位の重要度を算出する。具体的には、各文が含む名詞の重要度をキーワード記憶手段20から取得し、各文単位でその和を算出する。例えば、図3の例では、文Aは、「簿記」「3級」「合格」の3つの名詞を有するので、これらを用いて、キーワード記憶手段20を参照することになるが、これらの名詞はいずれもキーワード記憶手段20に登録されていないため、各名詞の重要度は“0”と判断され、文Aの重要度は“0”と算出される。また、図3の例では、文Bは、「xxxセミナー」「xxx先生」「熱意」「講義」「お陰」の5つの名詞を有するが、このうち、キーワード記憶手段20に登録されているのは、「お陰」だけである。したがって、「お陰」の重要度が“3”であり、他の4つの重要度は“0”であるため、文Bの重要度は“3”と算出される。同様に、図3(c)に示すように、文Cの重要度は“0”、文Dの重要度は“5”と算出される。
各文の重要度が算出されたら、重要文設定手段40が、各文の重要度と、事前に設定された閾値とを比較し、各文の重要度が閾値より大きい場合に、その文を重要文として設定する。重要文の設定については、どの程度の段階とするかを適宜設定しておくことが可能である。例えば、重要文であるかそうでないかの2段階に設定しておくことも可能であるし、さらに細かく多段階に設定しておくことも可能である。
続いて、文書出力手段50が、文書データのうち、重要文として設定された文を他の文よりも大きい文字サイズで出力する。この結果、図3(a)に示した文書データは、図4に示すような体裁で出力される。図4に示すように、重要度が“5”である「重要なのは、…」の文が最も大きく表示され、重要度が“3”である「これは、…」の文が次に大きく表示され、重要度が“0”である「簿記3級…」の文と「3級は…」の文が最も小さく表示される。この例では、重要度が0〜5までの6段階で重要文の設定を行っているが、文書データ中の各文に設定された重要度が“0” “3” “5”の3段階であるので、図4の例では、3段階の大きさで出力されている。このような状態で文書データが出力されるため、利用者は、文書中のどの箇所が重要であるかを一目で把握することが可能となり、全文を読む必要がなく、重要な箇所から読むことが可能となる。
文書データの出力手法としては、様々な手法を用いることが可能であるが、本実施形態では、HTMLデータとして出力している。HTMLデータで出力する場合、重要文設定手段40は、文の重要度に応じて、文字サイズを示すタグで各文を囲む処理を行う。例えば、重要度<1の場合、タグ<li class="tagcloud0">で囲い、1≦重要度<4の場合、タグ<li class="tagcloud1">で囲い、4≦重要度<7の場合、タグ<li class="tagcloud2">で囲い、7≦重要度<10の場合、タグ<li class="tagcloud3">で囲い、重要度≧10の場合、タグ<li class="tagcloud4">で囲う。また、重要文設定手段40は、タグ<li class="tagcloud0">が文字サイズ“8”、タグ<li class="tagcloud1">が文字サイズ“12”、タグ<li class="tagcloud2">が文字サイズ“16”、タグ<li class="tagcloud3">が文字サイズ“20”、タグ<li class="tagcloud4">が文字サイズ“22”であることを記述したCSS(Cascading Style Sheets)を保持しており、このCSSを、作成したHTMLデータとともに、文書出力手段50に渡す。
文書出力手段50は、重要文設定手段40から受け取ったHTMLデータとCSSを用いて、文書を出力する処理を行う。この結果、図4に示したような体裁で文書が出力されることになる。
(2.第2の実施形態)
上記第1の実施形態では、選択された1つの文書データ内の各文を重要度に応じて変更して出力するようにしたが、複数の文書データから文を抽出して出力するようにすることも可能である。次に、このような第2の実施形態について説明する。第2の実施形態は、第1の実施形態と異なる部分についてのみ説明することにする。第2の実施形態では、重要度算出手段30は利用者から指定された用語を含む文書データを全て文書記憶手段10から抽出する。さらに、重要度算出手段30は、第1の実施形態と同様にして、抽出した文書データ中の各文の重要度を算出する。重要度が算出されたら、重要文設定手段40が、重要度が所定の閾値を超える文を所定数抽出する。重要度の閾値、および抽出する数は事前に設定しておくことが可能である。続いて、重要文設定手段40は、複数の文書データから抽出された文を、重要度に応じて文字サイズを定めるタグで囲んだHTMLデータを作成する処理を行う。この処理は、第1の実施形態と同様である。
そして、重要文設定手段40は、上記CSSを、作成したHTMLデータとともに、文書出力手段50に渡す。文書出力手段50は、重要文設定手段40から受け取ったHTMLデータとCSSを用いて、文書を出力する処理を行う。この結果、図4に示したような体裁で文書が出力されることになるが、第1の実施形態では、1つの文書が表示されるのに対して、第2の実施形態では、複数の文書データから抽出された複数の文が重要度に応じて大きさが変化して表示される。このようにして、表示された状態は、いわゆる“タグクラウド”と同じである。タグクラウド (tag cloud)とは、ウェブサイト上で使用されるタグの視覚的記述であり、雲のように表示されるタグ文字列が大小さまざまに浮かんでいるように見えることからそう呼ばれるものである。ただし、従来、タグクラウドで表示を行う場合は、単語の出現頻度でサイズを決定していたが、本発明では、重要度に応じて文字の大きさを変化させ、タグクラウド形式で表示する。
(3.有効な利用形態)
次に、本発明に係る重要文提示システムの利用形態について説明する。本発明に係る重要文提示システムは、上記実施形態に限定されず、様々な形態で利用可能であるが、例えば、インターネット上に公開された文書データを、利用者が自身の端末装置に表示させる際に利用することも可能である。図5は、本発明に係る重要文提示システムをインターネット上の文書管理サーバに適用した例を示す図である。
図5において、文書管理サーバ200は、WWWサーバ機能、データベースサーバ機能を有するサーバコンピュータであり、重要文提示システム100としての機能も有している。利用者端末300は、インターネットを介して、文書管理サーバ200にアクセスし、データの送受信が可能な端末装置であり、ネットワーク通信機能を有する汎用のコンピュータにWWWブラウザを組み込むことにより実現される。図5に示す形態では、文書記憶手段10、キーワード記憶手段20、重要度算出手段30、重要文設定手段40は、文書管理サーバ200に搭載され、文書出力手段50は、文書管理サーバ200と利用者端末300の連携により実現される。文書管理サーバ200の一例としては、簡易型の日記風ホームページであるブログに関する情報を収集したブログ収集サーバなどがある。このような形態で利用すれば、利用者は、文書管理サーバ200にアクセスして好みのブログに関する情報を閲覧する際、重要な文だけを拡大した状態で閲覧することができるため、数多くあるブログを閲覧する際でも、1つのブログの重要な箇所を迅速に把握することが可能となる。
本発明に係る重要文提示システムの構成図である。 キーワード記憶手段20に記憶された情報の一例を示す図である。 文書データの分割処理および各文の重要度算出の様子を示す図である。 文書データの出力体裁を示す図である。 本発明に係る重要文提示システムをインターネット上の文書管理サーバに適用した例を示す図である。
符号の説明
10・・・文書記憶手段
20・・・キーワード記憶手段
30・・・重要度算出手段
40・・・重要文設定手段
50・・・文書出力手段
100・・・重要文提示システム
200・・・文書管理サーバ
300・・・利用者端末

Claims (4)

  1. 文書データを記憶した文書記憶手段と、
    重要キーワードをその重要度を示す値とともに記憶したキーワード記憶手段と、
    前記文書記憶手段から文書データを読み込み、当該文書データ中の各文の重要度を、各文に含まれる前記キーワードの重要度に基づいて求める重要度算出手段と、
    前記重要度算出手段により算出された重要度が所定の値以上の場合に、当該文を重要文として設定する重要文設定手段と、
    前記文書データ中の重要文を他の文より大きな文字で出力する文書出力手段と、
    を有することを特徴とする重要文提示システム。
  2. 前記重要文設定手段は、重要度を多段階で設定し、
    前記文書出力手段は、前記重要度が多段階で設定された各文を重要度に応じた大きさで出力することを特徴とする請求項1に記載の重要文提示システム。
  3. 前記重要度算出手段は、前記文書記憶手段から複数の文書データを抽出し、各文書データ内の各文の重要度を算出し、
    前記重要文設定手段は、重要度が所定の閾値を超える文を複数の文書データから所定数抽出し、
    前記文書出力手段は、複数の文書データから抽出された所定数の文を出力することを特徴とする請求項1または請求項2に記載の重要文提示システム。
  4. 請求項1から請求項3のいずれかに記載の重要文提示システムとして、コンピュータを機能させるためのプログラム。
JP2008111748A 2008-04-22 2008-04-22 重要文提示システム Pending JP2009265770A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008111748A JP2009265770A (ja) 2008-04-22 2008-04-22 重要文提示システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008111748A JP2009265770A (ja) 2008-04-22 2008-04-22 重要文提示システム

Publications (1)

Publication Number Publication Date
JP2009265770A true JP2009265770A (ja) 2009-11-12

Family

ID=41391581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008111748A Pending JP2009265770A (ja) 2008-04-22 2008-04-22 重要文提示システム

Country Status (1)

Country Link
JP (1) JP2009265770A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003516A (ja) * 2010-06-17 2012-01-05 Yahoo Japan Corp 文字列長を伸縮可能なタグクラウド構成装置及び方法
JP2013077327A (ja) * 2013-01-16 2013-04-25 Yahoo Japan Corp 文字列長を伸縮可能なタグクラウド構成装置及び方法
JP2013225212A (ja) * 2012-04-20 2013-10-31 Atsuo Nutahara 文章表示装置
WO2014064777A1 (ja) * 2012-10-24 2014-05-01 株式会社 日立製作所 文書評価支援システム、及び文書評価支援方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006216022A (ja) * 2005-01-07 2006-08-17 Ricoh Co Ltd 情報処理装置、情報処理方法、プログラム及び記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006216022A (ja) * 2005-01-07 2006-08-17 Ricoh Co Ltd 情報処理装置、情報処理方法、プログラム及び記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003516A (ja) * 2010-06-17 2012-01-05 Yahoo Japan Corp 文字列長を伸縮可能なタグクラウド構成装置及び方法
JP2013225212A (ja) * 2012-04-20 2013-10-31 Atsuo Nutahara 文章表示装置
WO2014064777A1 (ja) * 2012-10-24 2014-05-01 株式会社 日立製作所 文書評価支援システム、及び文書評価支援方法
JPWO2014064777A1 (ja) * 2012-10-24 2016-09-05 株式会社日立製作所 文書評価支援システム、及び文書評価支援方法
JP2013077327A (ja) * 2013-01-16 2013-04-25 Yahoo Japan Corp 文字列長を伸縮可能なタグクラウド構成装置及び方法

Similar Documents

Publication Publication Date Title
US7788262B1 (en) Method and system for creating context based summary
US8725717B2 (en) System and method for identifying topics for short text communications
JP5469244B2 (ja) 選択的なコンテンツ抽出
US9081765B2 (en) Displaying examples from texts in dictionaries
Smith et al. Evaluating visual representations for topic understanding and their effects on manually generated topic labels
JP2011100403A (ja) 情報処理装置、情報抽出方法、プログラム及び情報処理システム
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP3832693B2 (ja) 構造化文書検索表示方法及び装置
JP4900158B2 (ja) 検索システム、方法およびプログラム
JP2009265770A (ja) 重要文提示システム
KR20170140808A (ko) 단어 사이의 불확실성에 따른 단어 공백의 비대칭 포맷팅을 위한 시스템 및 방법
JP5272764B2 (ja) 音声合成装置、音声合成方法及びコンピュータプログラム
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP4774087B2 (ja) 動画評価方法、装置及びプログラム
JP2007140639A (ja) データ表示装置、データ表示方法およびデータ表示プログラム
JP2009086903A (ja) 検索サービス装置
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
JP3937741B2 (ja) 文書の標準化
JP6114090B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP5187187B2 (ja) 体験情報検索システム
JP2011107880A (ja) 情報整合性判別装置、その方法及びプログラム
JP2005011301A (ja) 文書処理装置及び文書処理プログラム
JP2009169761A (ja) 電子辞書システム、電子辞書の表示制御方法、コンピュータプログラムおよびデータ記憶媒体
JP2010250389A (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP5094835B2 (ja) 意味属性推定装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120925

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121109

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121204