JP4907927B2 - データ表示装置、データ表示方法およびデータ表示プログラム - Google Patents
データ表示装置、データ表示方法およびデータ表示プログラム Download PDFInfo
- Publication number
- JP4907927B2 JP4907927B2 JP2005266409A JP2005266409A JP4907927B2 JP 4907927 B2 JP4907927 B2 JP 4907927B2 JP 2005266409 A JP2005266409 A JP 2005266409A JP 2005266409 A JP2005266409 A JP 2005266409A JP 4907927 B2 JP4907927 B2 JP 4907927B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- keywords
- data
- input
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
知りたい操作がすぐわかる 標準 Excel全機能Bible 2003,村田吉徳著,技術評論社,2004.2.1発行
(1) :キーワードに関するデータを表示するデータ表示装置であって、複数のキーワードが入力キーワードとして入力されるキーワード入力手段と、前記入力キーワードに基づいて、前記入力キーワードと同じ分野のキーワードを含む一定量のキーワード抽出用の文書データを格納したデータベースから抽出することで、前記入力キーワードの数より多いキーワードを抽出し、キーワードの総数を増加させるキーワード増加手段と、前記出力された各キーワードに関するデータを表示データとして作成する表示データ作成手段と、前記作成された表示データを画面表示するデータ表示手段とを備えると共に、前記キーワード増加手段は、前記入力キーワードを前記データベースで全文検索し、検索結果において前記入力キーワードの直前及び直後の文字列をパターンとして抽出するパターン抽出手段と、前記パターン抽出手段で抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出すると同時に、前記パターンで抽出される表現での前記入力キーワードの割合(p i )によりスコアを算出し、前記抽出した表現を該スコアの大きい順にソートして、キーワードとして出力するキーワード抽出手段とを備えることを特徴とする。
以下に、パターン抽出部121が抽出するパターンについて、該パターンが国名Aである場合を例にとって説明する。
日本
中国
朝鮮
タイ
韓国
・抽出パターンの例(1) :(両端とも利用、スピードは遅いが性能は良い)
日、A軍
人のA人女性
日本はAと
〔A通信・
省。駐A大使な
・抽出パターンの例(2) :(片方のみ利用、片方は平仮名文字、スピードは早い)
[..A国]。
[..A国]側
[..A国]伝来
A語入力
ただし、[..A..]は、それ自体が国名Aにマッチすることを意味する。例えば[A国]だとそのマッチした用語の最後が国であることを意味する。
入力する少数のキーワードとして、例えば、評価データの代表形で毎日新聞での頻度の多い方から有名そうな用語を五つ選択するものとする。また、例えば、CD毎日新聞(コンパクトディスクに記録された毎日新聞)1991−2000年度版をキーワード抽出用DB15とする。抽出の手順は以下のとおりである。
手法1は、抽出した表現expのScoreとして、パターンci の中でpi が最も大きかったパターンのpi を使用する手法である。ここで、pi はパターンci で抽出される表現expでの入力キーワードの割合(確からしさ、すなわち確信度となる)である。
Π((1−Δ)/Δ*pi +1) 式(3)
を利用する構成をとることもできる。ここで、Δは微小値の定数であり、例えば、0.0001を用いる。
手法3は、抽出した表現expのScoreとして、抽出されたパターンの個数(総数)を用いる。つまり、多くのパターンで抽出されたものほどScoreを大きくする。
手法5は、抽出した表現expのScoreとして、少なくとも一つは確からしくなる値を用いるものである。
(a)字種とKRを利用する方法
図3に示す例で、抽出方法には、さらに字種とKRを利用する方法を用いた。ここで、字種とは、漢字、カタカナ、ひらがな、記号、数字などであり、例えば英語だと、アルファベット、数字、記号、単語の先頭が大文字かどうかなどである。
品詞に基づく方法では、例えば、入力表現に名詞しかない場合は出力時に名詞以外の表現を省く、また、入力表現に形容詞しかない場合は出力時に形容詞以外の表現を省くというものである。さらに、表現が複数の単語で構成されている場合は、末尾の単語(形態素)の品詞の情報を使うようにすることができる。
入力キーワードとして次のものであった場合、
「楽しい」「哀しい」「嬉しい」「とても嬉しい」「とても哀しい」
抽出物として次のものが得られる場合、
「とても」「新しい」「美しい」「とても美しい」「とても難しい」
上記抽出物の表現中の末尾の単語の品詞を推定し、上記入力キーワードでは、末尾の単語の品詞は「形容詞」しかないので、抽出物の中で、末尾の単語の品詞が「形容詞」でない、副詞(「とても」)を除いて出力するようにする。
入力キーワードとして次のものであった場合、
「楽しい」「歓喜」「悲痛」「悲しい」
上記入力キーワードでは、「形容詞」と「名詞」のように複数種類があった場合は、それらの品詞は出力し、それらの品詞以外の表現は出力しないようにする。
日本語を単語に分割するために、キーワード抽出部122で形態素解析システムを利用することが必要になる。ここではChaSenについて説明する(奈良先端大で開発されている形態素解析システム茶筌。http://chasen.aist-nara.ac.jp/index.html.jp で公開されている)。
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
例えば、入力表現がすべて同じ「しい」という共通末尾表現を持っている場合、出力時に「しい」を持たない表現を省くものである。なお、これは末尾だけでなく、先頭の文字列でも同様にできる。
入力キーワードとして次のものであった場合、
「悲しい」「楽しい」「嬉しい」
抽出されるものが次の場合、
「歓喜」「悲痛」「美しい」「新しい」
上記入力キーワードの共通部分文字列が「しい」なので、「しい」を持たない「歓喜」と「悲痛」を削除して出力するものである。
上記では、入力表現から自動で制約を得る方法を説明したが、この制約はユーザにさせることもできる。例えば、ユーザが「漢字のみ」というオプションを選択すると出力では漢字以外の字種を用いた表現を出力しないことができる。また、ユーザが末尾は「しい」というオプションを選択すると出力では「しい」を末尾に持たない表現を出力しないようにすることができる。さらに、ユーザが品詞は名詞というオプションを選択すると出力では名詞以外の表現を出力しないようにする。
図5は、本発明の実施の形態におけるデータ表示処理フローの一例を示す図である。以下図5の処理S1〜S5に従って説明する。図5に示すデータ表示処理フローは、表示データ作成部13が、キーワード抽出部122によって出力されたキーワードに関する数値データを表示データとして作成する場合の例である。
S3:キーワード増加部12のキーワード抽出部122で、パターン抽出部121で抽出したパターンci をキーワード抽出用DB15で全文検索し、パターンci によって抽出される表現expを抽出すると同時に、抽出した表現expをScoreの値の大きい順にソートし、キーワードとして出力する。
ソ連:12590 04 192
例えば、両単語の分類番号の上位5レベルにおいて、最初の5桁が一致するので、算出されるキーワード「日本」と分類語彙表中の単語「ソ連」との類似度は、類似度5である。
学校:12630 10 012
例えば、両単語の分類番号の上位5レベルにおいて、最初の5桁が一致するので、算出されるキーワード「母校」と分類語彙表中の単語「学校」との類似度は、類似度5である。
学園:12630 10 015
例えば、両単語の分類番号の上位5レベルにおいて、最初の5桁が一致し、また、6レベル目の2桁の数字「10」が一致するので、算出されるキーワード「学校」と分類語彙表中の単語「学園」との類似度は、類似度7である。
ソ連:12590 04 192
例えば、両単語の分類番号の上位5レベルにおいて、最初の2桁が一致するため、算出されるキーワード「学校」と分類語彙表中の単語「ソ連」との類似度は、類似度2である。
11 キーワード入力部
12、21 キーワード増加部
13 表示データ作成部
14 データ表示部
15 キーワード抽出用DB
16 書誌データDB
22 単語データDB
23 シソーラスDB
121 パターン抽出部
122、212 キーワード抽出部
211 類似度算出部
Claims (3)
- キーワードに関するデータを表示するデータ表示装置であって、
複数のキーワードが入力キーワードとして入力されるキーワード入力手段と、
前記入力キーワードに基づいて、前記入力キーワードと同じ分野のキーワードを含む一定量のキーワード抽出用の文書データを格納したデータベースから抽出することで、前記入力キーワードの数より多いキーワードを抽出し、キーワードの総数を増加させるキーワード増加手段と、
前記出力された各キーワードに関するデータを表示データとして作成する表示データ作成手段と、
前記作成された表示データを画面表示するデータ表示手段とを備えると共に、
前記キーワード増加手段は、
前記入力キーワードを前記データベースで全文検索し、検索結果において前記入力キーワードの直前及び直後の文字列をパターンとして抽出するパターン抽出手段と、
前記パターン抽出手段で抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出すると同時に、前記パターンで抽出される表現での前記入力キーワードの割合(pi )によりスコアを算出し、前記抽出した表現を該スコアの大きい順にソートして、キーワードとして出力するキーワード抽出手段とを備える
ことを特徴とするデータ表示装置。 - キーワードに関するデータを表示するデータ表示方法であって、
複数のキーワードが入力キーワードとして入力するステップと、
前記入力キーワードに基づいて、前記入力キーワードと同じ分野のキーワードを含む一定量のキーワード抽出用の文書データを格納したデータベースから抽出することで、前記入力キーワードの数より多いキーワードを抽出し、キーワードの総数を増加させるステップと、
前記出力された各キーワードに関するデータを表示データとして作成するステップと、
前記作成された表示データを画面表示するステップとを有すると共に、
前記キーワードを増加させるステップは、
前記入力キーワードを前記データベースで全文検索し、検索結果において前記入力キーワードの直前及び直後の文字列をパターンとして抽出するステップと、
前記パターン抽出ステップで抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出すると同時に、前記パターンで抽出される表現での前記入力キーワードの割合(pi )によりスコアを算出し、前記抽出した表現を該スコアの大きい順にソートして、キーワードとして出力するステップとを有することを特徴とするデータ表示方法。 - キーワードに関するデータを表示するデータ表示装置が備えるコンピュータに実行させるためのプログラムであって、
前記コンピュータを、
複数のキーワードが入力キーワードとして入力されるキーワード入力手段と、
前記入力キーワードに基づいて、前記入力キーワードと同じ分野のキーワードを含む一定量のキーワード抽出用の文書データを格納したデータベースから抽出することで、前記入力キーワードの数より多いキーワードを抽出し、キーワードの総数を増加させるキーワード増加手段と、
前記出力された各キーワードに関するデータを表示データとして作成する表示データ作成手段と、
前記作成された表示データを画面表示するデータ表示手段と、
前記キーワード増加手段が備える、前記入力キーワードを前記データベースで全文検索し、検索結果において前記入力キーワードの直前及び直後の文字列をパターンとして抽出するパターン抽出手段と、
前記パターン抽出手段で抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出すると同時に、前記パターンで抽出される表現での前記入力キーワードの割合(pi )によりスコアを算出し、前記抽出した表現を該スコアの大きい順にソートして、キーワードとして出力するキーワード抽出手段として機能させるためのデータ表示プログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005266409A JP4907927B2 (ja) | 2005-09-14 | 2005-09-14 | データ表示装置、データ表示方法およびデータ表示プログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005266409A JP4907927B2 (ja) | 2005-09-14 | 2005-09-14 | データ表示装置、データ表示方法およびデータ表示プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2007079898A JP2007079898A (ja) | 2007-03-29 |
| JP4907927B2 true JP4907927B2 (ja) | 2012-04-04 |
Family
ID=37940144
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005266409A Expired - Fee Related JP4907927B2 (ja) | 2005-09-14 | 2005-09-14 | データ表示装置、データ表示方法およびデータ表示プログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4907927B2 (ja) |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000315206A (ja) * | 1999-04-30 | 2000-11-14 | Fujitsu Ltd | 検索条件の組み合わせに基づく検索システムおよび方法 |
| JP2000331012A (ja) * | 1999-05-19 | 2000-11-30 | Oki Electric Ind Co Ltd | 電子化文書検索方法 |
| JP4649036B2 (ja) * | 2000-10-25 | 2011-03-09 | ヤフー株式会社 | 検索サーバーによるカテゴリの報告方法、レコードの報告方法、検索サービス装置 |
| JP2006113733A (ja) * | 2004-10-13 | 2006-04-27 | Matsushita Electric Ind Co Ltd | 検索方法、検索プログラムおよび検索装置 |
-
2005
- 2005-09-14 JP JP2005266409A patent/JP4907927B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2007079898A (ja) | 2007-03-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Weiss et al. | Text mining: predictive methods for analyzing unstructured information | |
| CN101887414B (zh) | 对包含图像符号的文本消息传达的评价自动打分的服务器 | |
| US20040236566A1 (en) | System and method for identifying special word usage in a document | |
| US20100228711A1 (en) | Enterprise Search Method and System | |
| CN105005556A (zh) | 一种基于地质大数据的标引关键词提取方法和系统 | |
| CN105426360A (zh) | 一种关键词抽取方法及装置 | |
| JP2008287517A (ja) | 強調表示装置及びプログラム | |
| Pouliquen et al. | Multilingual person name recognition and transliteration | |
| Scharkow | Content analysis, automatic | |
| JP4849596B2 (ja) | 質問応答装置、質問応答方法および質問応答プログラム | |
| CN110008312A (zh) | 一种文档写作助手实现方法、系统及电子设备 | |
| Stanković et al. | Distant reading in digital humanities: Case study on the serbian part of the eltec collection | |
| JP4931114B2 (ja) | データ表示装置、データ表示方法及びデータ表示プログラム | |
| JP4293145B2 (ja) | クチコミ情報判定方法及び装置及びプログラム | |
| Yohannes et al. | Amharic document clustering using semantic information from neural word embedding and encyclopedic knowledge | |
| Helmy et al. | Towards building a standard dataset for arabic keyphrase extraction evaluation | |
| Schneider | Text analytics for corpus linguistics and digital humanities: Simple R scripts and tools | |
| JPH09319767A (ja) | 類義語辞書登録方法 | |
| JP4907927B2 (ja) | データ表示装置、データ表示方法およびデータ表示プログラム | |
| Georgantopoulos | MSc in Speech and Language Processing Dissertation: Automatic summarising based on sentence extraction: A statistical approach | |
| JP2000194721A (ja) | 文書群分類装置および文書群分類方法 | |
| JP4719921B2 (ja) | データ表示装置およびデータ表示プログラム | |
| KR101247346B1 (ko) | 사전 검색 서비스 시스템 및 방법 | |
| Eiken et al. | Ord i dag: Mining Norwegian daily newswire | |
| Riaz | Improving Search via Named Entity Recognition in Morphologically Rich Languages–A Case Study in Urdu |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080801 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090428 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090428 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101112 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101130 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110127 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110823 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110922 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120110 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120112 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150120 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |
