JP4719921B2 - データ表示装置およびデータ表示プログラム - Google Patents
データ表示装置およびデータ表示プログラム Download PDFInfo
- Publication number
- JP4719921B2 JP4719921B2 JP2005330009A JP2005330009A JP4719921B2 JP 4719921 B2 JP4719921 B2 JP 4719921B2 JP 2005330009 A JP2005330009 A JP 2005330009A JP 2005330009 A JP2005330009 A JP 2005330009A JP 4719921 B2 JP4719921 B2 JP 4719921B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- document
- data
- frequency
- screen
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
知りたい操作がすぐわかる 標準 Excel全機能Bible 2003,村田吉徳著,技術評論社,2004.2.1発行
一般に、重要なキーワードを含む文書の検索には、主にTF/IDF法が用いられる。ここで、TFとは、一般に、ある文書でのあるキーワードの出現回数を意味し、IDFとは、一般に、予め用意された多数の文書のうち、上記キーワードが出現する文書数の逆数を意味する。
上記の式において、wは、ユーザが入力するキーワード、Σは、tf(w,D)×log(N/df(w))をw∈Wで加算することを意味する。Wは、ユーザが入力するキーワードの集合を意味する。また、tf(w,D)は、文書Dでのwの出現回数であり、df(w)は、全文書においてwが出現した文書の数であり、Nは、文書の総数である。
一般に、Okapiのウェイティング法(下記の文献(1)参照)では、以下の式で算出されるScore(D)が高い文書を検索結果として出力する。
(1)形態素解析を用いた単語の認識による手法
まず、キーワード抽出部11は、書誌データDB19に蓄積されている文書について、形態素解析を行い、単語の認識を行う。そして、特定の名詞の単語をキーワードとして取り出す。例えば、名詞だけをキーワードとして取り出す。但し、「こと」、「もの」などの一般的な名詞は、予め収集しておき、それらの名詞がキーワードとしては取り出されないようにしておく。キーワードとしては、名詞だけでなく、動詞などの他の品詞も取り出すこととしてもよい。
ChaSen は、日本語文を分割し、さらに、各単語の品詞も推定してくれる。
へ ヘ へ 助詞- 格助詞− 一般
行く イク 行く 動詞- 自立 五段・カ行促音便 基本形
EOS
このように、各行に一個の単語が入るように分割され,各単語に読みや品詞の情報が付与される。
(2)TF/IDF法などを利用した方法
書誌データDB19に蓄積されている文書について、形態素解析を行い、例えば、名詞だけを取り出す。そして、取り出された各名詞について、前述したTF/IDF法に基づいて算出される所定のスコアを求め、求まったスコアが所定の値よりも大きいものか、スコアが所定の値よりも大きいものから順に所定の値の個数だけ取り出したものをキーワードとする。なお、上記のスコアは、前述したOkapiのウェイティング法を用いて算出されるスコアを用いてもよい。
(3)高精度な既存のキーワード抽出のツールを利用する方法
一般に文書中では複数の単語の組み合わせで複雑な概念を表す場合が多く、文書の内容が専門的な事項に特化すれば、その傾向はさらに顕著なものとなる。そこで、例えば、(a)形態素解析プログラムによる単語分割、(b)複合語の作成、(c)文書中における重要度の計算、という3つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文書中から抽出することができる。
なお、本発明の実施の形態において、キーワード抽出部11によるキーワードの抽出方法は、上述した3つの方法に限定されるものではない。キーワード抽出部11は、他の任意のキーワードの抽出方法を用いてキーワードを抽出することができる。
11 キーワード抽出部
12 頻度算出部
13 スコア算出部
14 データソート部
15 表示部
16 キーワード選択部
17 内部頻度算出部
18 内部スコア算出部
19 書誌データDB
20 表示データ指定部
Claims (10)
- データ表示装置であって,
複数の文書から構成される文書群中に含まれるキーワードを抽出するキーワード抽出手段と,
前記抽出された各キーワードの,前記文書群中に出現する頻度を算出する頻度算出手段と,
前記算出された頻度に基づいて,前記各キーワードのスコアを算出するスコア算出手段と,
前記算出された各キーワードのスコアの値の高いものから降順に前記各キーワードの優先度を設定し,各キーワードが文書に存在するとビット1,存在しないとビット0を割り当てて,各文書について前記設定された優先度の降順にキーワードの存否を表す複数ビットから成る2進数で表し,前記文書群を構成する各文書の文書データを優先度が高いキーワードを含む文書の順にするため,各文書を表す前記2進数の大きい数値の順にソートするデータソート手段と,
前記ソートされた文書データを表示データとして画面表示するとともに,前記文書データが画面表示される画面と同一画面上において,前記各キーワードを前記優先度が高い順に表示データとして画面表示する表示手段とを備え,
前記表示手段は,さらに,前記画面表示された各文書データに対応する文書が前記画面表示された各キーワードを含んでいるかを示す情報を表示データとして画面表示する
ことを特徴とするデータ表示装置。 - データ表示装置であって,
入力された,文書群中の文書と各文書に含まれるキーワードとに基づいて,各キーワードの,前記文書群中に出現する頻度を算出する頻度算出手段と,
前記算出された頻度に基づいて,前記各キーワードのスコアを算出するスコア算出手段と,
前記算出された各キーワードのスコアの値の高いものから降順に前記各キーワードの優先度を設定し,各キーワードが文書に存在するとビット1,存在しないとビット0を割り当てて,各文書について前記設定された優先度の降順にキーワードの存否を表す複数ビットから成る2進数で表し,前記文書群を構成する各文書の文書データを優先度が高いキーワードを含む文書の順にするため,各文書を表す前記2進数の大きい数値の順にソートするデータソート手段と,
前記ソートされた文書データを表示データとして画面表示するとともに,前記文書データが画面表示される画面と同一画面上において,前記各キーワードを前記優先度が高い順に表示データとして画面表示する表示手段とを備え,
前記表示手段は,さらに,前記画面表示された各文書データに対応する文書が前記画面表示された各キーワードを含んでいるかを示す情報を表示データとして画面表示する
ことを特徴とするデータ表示装置。 - 請求項1に記載のデータ表示装置において,
キーワードを選択するキーワード選択手段と,
前記キーワード抽出手段によって抽出された各キーワードの,前記選択されたキーワードを含む文書群中に出現する頻度である内部頻度を算出する内部頻度算出手段と,
前記内部頻度算出手段が算出した内部頻度に基づいて,前記各キーワードの内部スコアを算出する内部スコア算出手段とを備え,
前記データソート手段は,前記算出された内部スコアを,前記各キーワードの優先度として設定し,設定された優先度がより高いキーワードを含む文書の順に,前記文書群を構成する文書の文書データをソートする
ことを特徴とするデータ表示装置。 - 請求項3に記載のデータ表示装置において,
前記内部頻度算出手段は,前記キーワード選択手段によって複数のキーワードが選択された場合に,前記キーワード抽出手段によって抽出された各キーワードの,前記選択された複数のキーワードの全てを含む文書群中に出現する頻度を,前記内部頻度として算出する
ことを特徴とするデータ表示装置。 - 請求項3または請求項4に記載のデータ表示装置において,
前記スコア算出手段は,前記キーワード抽出手段によって抽出された各キーワードの文字数と,前記頻度算出手段によって算出された頻度とに基づいて,前記各キーワードのスコアを算出し,
前記データソート手段は,前記頻度算出手段によって算出された頻度と前記スコア算出手段によって算出されたスコアとに基づいて,前記各キーワードの優先度を設定し,前記内部頻度算出手段によって算出された内部頻度と前記内部スコア算出手段によって算出された内部スコアとに基づいて,前記各キーワードの優先度を更新し,各文書について前記更新された優先度の降順にキーワードの存否を表す複数ビットから成る2進数で表し,前記文書群を構成する各文書の文書データを前記優先度が高いキーワードを含む文書の順にするため,各文書を表す前記2進数の大きい数値の順に,前記文書群を構成する文書データをソートする
ことを特徴とするデータ表示装置。 - 請求項1乃至請求項5のいずれか1項に記載のデータ表示装置において,
前記表示手段は,前記画面表示された各文書データに対応する文書が前記画面表示された各キーワードを何個含んでいるかを示す情報を表示データとして画面表示する
ことを特徴とするデータ表示装置。 - 請求項1乃至請求項6のいずれか1項に記載のデータ表示装置において,
前記表示手段は,前記頻度算出手段によって算出された頻度が予め定められた閾値未満であるキーワードを含む文書については,その文書が前記頻度が前記閾値未満であるキーワードを含むことを示す情報を,前記頻度が予め定められた閾値以上であるキーワードを画面表示する表示領域とは別の表示領域に表示データとして画面表示する
ことを特徴とするデータ表示装置。 - 請求項1乃至請求項7のいずれか1項に記載のデータ表示装置において,
前記表示手段によって画面表示される表示データを指定する表示データ指定手段を備え,
前記表示手段は,前記表示データ指定手段によって指定された表示データのみを画面表示する
ことを特徴とするデータ表示装置。 - 請求項1乃至請求項8のいずれか1項に記載のデータ表示装置において,
前記データソート手段は,前記文書群を構成する文書の文書データを,各文書に関連する日付について降順または昇順にソートする
ことを特徴とするデータ表示装置。 - データ表示装置が備えるコンピュータに実行させるためのプログラムであって,
前記コンピュータを,
複数の文書から構成される文書群中に含まれるキーワードを抽出するキーワード抽出手段と,
前記抽出された各キーワードの,前記文書群中に出現する頻度を算出する頻度算出手段と,
前記算出された頻度に基づいて,前記各キーワードのスコアを算出するスコア算出手段と,
前記算出された各キーワードのスコアの値の高いものから降順に前記各キーワードの優先度を設定し,各キーワードが文書に存在するとビット1,存在しないとビット0を割り当てて,各文書について前記設定された優先度の降順にキーワードの存否を表す複数ビットから成る2進数で表し,前記文書群を構成する各文書の文書データを優先度が高いキーワードを含む文書の順にするため,各文書を表す前記2進数の大きい数値の順にソートするデータソート手段と,
前記ソートされた文書データを表示データとして画面表示するとともに,前記文書データが画面表示される画面と同一画面上において,前記各キーワードを前記優先度が高い順に表示データとして画面表示する表示手段として機能させるためのプログラムであって,
前記表示手段は,さらに,前記画面表示された各文書データに対応する文書が前記画面表示された各キーワードを含んでいるかを示す情報を表示データとして画面表示する
ことを特徴とするデータ表示プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005330009A JP4719921B2 (ja) | 2005-11-15 | 2005-11-15 | データ表示装置およびデータ表示プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005330009A JP4719921B2 (ja) | 2005-11-15 | 2005-11-15 | データ表示装置およびデータ表示プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007140639A JP2007140639A (ja) | 2007-06-07 |
JP4719921B2 true JP4719921B2 (ja) | 2011-07-06 |
Family
ID=38203453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005330009A Expired - Fee Related JP4719921B2 (ja) | 2005-11-15 | 2005-11-15 | データ表示装置およびデータ表示プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4719921B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5114646B2 (ja) * | 2007-06-13 | 2013-01-09 | 隼也 瀬端 | 収斂型データベース構築システム及び構築方法 |
JP5155710B2 (ja) * | 2008-03-25 | 2013-03-06 | 株式会社 日立東日本ソリューションズ | 文書群分析支援装置 |
JP5347307B2 (ja) * | 2008-03-31 | 2013-11-20 | 株式会社リコー | 情報検索装置、情報検索方法、制御プログラム |
JP5362427B2 (ja) * | 2009-04-24 | 2013-12-11 | 富士フイルム株式会社 | 検索結果表示方法及び装置、並びに検索結果表示プログラム |
JP7139631B2 (ja) * | 2018-03-13 | 2022-09-21 | 富士通株式会社 | 情報処理プログラム、情報処理方法、および情報処理装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001142887A (ja) * | 1999-11-10 | 2001-05-25 | Sharp Corp | 文書検索方法および文書検索装置およびプログラム記録媒体 |
JP2004021763A (ja) * | 2002-06-19 | 2004-01-22 | Hitachi Ltd | テキストマイニングプログラム、方法、及び装置 |
JP2005011301A (ja) * | 2003-06-20 | 2005-01-13 | Takaaki Yamaoka | 文書処理装置及び文書処理プログラム |
JP2005056125A (ja) * | 2003-08-04 | 2005-03-03 | Nippon Telegr & Teleph Corp <Ntt> | 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3607462B2 (ja) * | 1997-07-02 | 2005-01-05 | 松下電器産業株式会社 | 関連キーワード自動抽出装置及びこれを用いた文書検索システム |
-
2005
- 2005-11-15 JP JP2005330009A patent/JP4719921B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001142887A (ja) * | 1999-11-10 | 2001-05-25 | Sharp Corp | 文書検索方法および文書検索装置およびプログラム記録媒体 |
JP2004021763A (ja) * | 2002-06-19 | 2004-01-22 | Hitachi Ltd | テキストマイニングプログラム、方法、及び装置 |
JP2005011301A (ja) * | 2003-06-20 | 2005-01-13 | Takaaki Yamaoka | 文書処理装置及び文書処理プログラム |
JP2005056125A (ja) * | 2003-08-04 | 2005-03-03 | Nippon Telegr & Teleph Corp <Ntt> | 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2007140639A (ja) | 2007-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5238418B2 (ja) | 情報推薦装置および情報推薦方法 | |
US7783644B1 (en) | Query-independent entity importance in books | |
US9183281B2 (en) | Context-based document unit recommendation for sensemaking tasks | |
WO2009154153A1 (ja) | 文書検索システム | |
JP4719921B2 (ja) | データ表示装置およびデータ表示プログラム | |
JP4931114B2 (ja) | データ表示装置、データ表示方法及びデータ表示プログラム | |
JP2007047974A (ja) | 情報抽出装置および情報抽出方法 | |
JP4967133B2 (ja) | 情報取得装置、そのプログラム及び方法 | |
JPH0484271A (ja) | 文書内情報検索装置 | |
US6620207B1 (en) | Method and apparatus for processing chinese teletext | |
WO2000026839A1 (en) | Advanced model for automatic extraction of skill and knowledge information from an electronic document | |
JP4610543B2 (ja) | 期間抽出装置,期間抽出方法,その方法を実装した期間抽出プログラム及びそのプログラムを格納した記録媒体 | |
JP2806867B2 (ja) | ドキュメントデータベースの構築方法、表示方法、及び表示装置 | |
JP4106470B2 (ja) | 解データ編集処理装置および処理方法 | |
WO2010103916A1 (ja) | 文書の特徴語提示装置及び特徴語の優先度付与プログラム | |
JP4423385B2 (ja) | 文書分類支援装置およびコンピュータプログラム | |
JP4187213B2 (ja) | 自動要約処理装置および自動要約処理方法 | |
JPH0934911A (ja) | 情報検索装置 | |
JP2009265770A (ja) | 重要文提示システム | |
CN114328895A (zh) | 新闻摘要的生成方法、装置以及计算机设备 | |
JP2007323238A (ja) | 強調表示装置及びプログラム | |
JP2000250908A (ja) | 電子書籍の作成支援装置 | |
Behrisch et al. | The News Auditor: Visual Exploration of Clusters of Stories. | |
JP2000105769A (ja) | 文書表示方法 | |
JPH10162011A (ja) | 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081015 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090428 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090428 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101221 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110124 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110315 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110317 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140415 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |