JP5657851B2 - 文書データ表示処理プログラム,固有名詞抽出処理プログラム,文書データ表示処理方法,文書データ表示処理装置,文書データ表示処理システム,表示制御プログラム,および表示制御方法 - Google Patents

文書データ表示処理プログラム,固有名詞抽出処理プログラム,文書データ表示処理方法,文書データ表示処理装置,文書データ表示処理システム,表示制御プログラム,および表示制御方法 Download PDF

Info

Publication number
JP5657851B2
JP5657851B2 JP2007104464A JP2007104464A JP5657851B2 JP 5657851 B2 JP5657851 B2 JP 5657851B2 JP 2007104464 A JP2007104464 A JP 2007104464A JP 2007104464 A JP2007104464 A JP 2007104464A JP 5657851 B2 JP5657851 B2 JP 5657851B2
Authority
JP
Japan
Prior art keywords
document
proper noun
display
document data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007104464A
Other languages
English (en)
Other versions
JP2008262383A (ja
Inventor
杉山 岳文
岳文 杉山
徹史 小林
徹史 小林
晶子 岩橋
晶子 岩橋
義文 難波
義文 難波
絢子 須藤
絢子 須藤
飯伏 勝俊
勝俊 飯伏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007104464A priority Critical patent/JP5657851B2/ja
Publication of JP2008262383A publication Critical patent/JP2008262383A/ja
Application granted granted Critical
Publication of JP5657851B2 publication Critical patent/JP5657851B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は,コンピュータに組み込まれたプログラムにより実行される,文書データ表示処理技術に関する。本発明は,特に,コンピュータによって表示された文書データから固有名詞を抽出し,固有名詞または固有名詞に付加された情報を文書データとともに表示させるようにする文書データ表示処理技術に関する。
ここで,固有名詞とは,人名,地名,商品名などの事物または事象に唯一的に与えられた名称を表すものだけでなく,所定の辞書データベースに定義されている名詞を含むものとする。
コンピュータで文書が表示されている場合に,文書中の固有名詞を抽出し,固有名詞に紐づけられた別の文書へのハイパーリンクを設定したり,その固有名詞を用いた検索処理を提案したりするなどして,文書閲覧中のユーザの新たな気付きを支援する仕組みが提案されている。
従来の第1の手法では,文書の提供者は,ユーザから文書閲覧が要求される前に,文書中に含まれる固有名詞を抽出し,必要なリンク情報を設定していた。例えば,百科事典のように,見出し語の意味内容を説明した文書を提供するWebサイトでは,表示された説明文中に含まれた固有名詞に,予めハイパーリンクを設定しておき,ユーザの選択によって,その固有名詞を見出し語とする別の説明文のWebページを参照できるようにしている(非特許文献1参照)。
また,従来の第2の手法として,文書中に抽出するべき固有名詞が増加する傾向に対処するため,ユーザが文書を閲覧要求した時点で,対象文書から固有名詞を抽出する手法が提案されていた。
Wikipedia,http://ja.wikipedia.org/wiki/,2007年1月23日
しかし,従来の第1の手法では,文書の提供側は,ユーザが閲覧する可能性のあるすべての文書に対して予め固有名詞抽出処理を行っておく必要があった。固有名詞は,常にその語彙が増加し続けているため,過去に固有名詞抽出処理を実施した文書データに対しても,語彙の増加にあわせて固有名詞抽出処理をやり直す必要が生じていた。そのため,予め固有名詞抽出処理を実行しておく手法では,処理コストに無駄が大きいという問題があった。
また,従来の第2の手法では,増加する固有名詞への対処として,文書データがユーザの閲覧要求時点で固有名詞抽出処理を行うが,文書データ送信前に固有名詞抽出処理を行う必要があった。しかし,ユーザの第一目的は文書閲覧であり,固有名詞を抽出してユーザに気付きを与えるというサービスは,補助的なものにすぎない。第2の手法では,ユーザが文書を閲覧する前に固有名詞抽出の処理時間が発生し,ユーザの閲覧要求に対するレスポンスタイムが悪化するという問題があった。
また,上記の2つの従来の手法においては,文書を提供するシステムごとに,固有名詞抽出処理機能を持つ必要があった。このため,固有名詞抽出処理で用いる語彙データベースのメンテナンスを文書提供システムごとに行う必要があり,トータルのメンテナンスコストがかかるという問題点があった。
本発明の目的は,文書閲覧というユーザの主目的に対する応答性能を犠牲にすることなく,文書中の固有名詞を抽出し,固有名詞または固有名詞に付加された付加情報をユーザに提示することによって,ユーザの新たな気付きを支援するデータ処理技術を提供することである。
本発明は,表示装置を備えるコンピュータに以下の処理を実行させるためのプログラムである。
本発明を実施する第一のコンピュータは,例えば,文書データを蓄積する文書データ提供装置と固有名詞抽出処理を行う第二のコンピュータとの間にクライアントとして介在する。そして,文書データ提供装置またはローカルな文書データ記憶部から,表示対象の文書データを取得し,文書データを表示装置の表示部に表示する。この表示処理と並行して,文書データに含まれる全てまたは一部のテキストデータを抽出し,固有名詞抽出処理を行う第二のコンピュータへ送信する。
そして,第二のコンピュータにおいて,所定の固有名詞を記憶する辞書データベースを用いて,前記テキストデータから辞書データベースに存在する固有名詞を抽出する固有名詞抽出処理が実行される。前記第一のコンピュータは,第二のコンピュータの固有名詞抽出処理によって前記テキストデータから抽出された固有名詞と,抽出された固有名詞に基づいて特定される,前記文書データと関連する関連文書情報の格納情報とを第二のコンピュータから受信し,抽出された固有名詞と関連文書情報の格納情報へのリンクを設定した構成要素とを,文書データを表示する表示部の文書データの表示位置と異なる表示位置に表示する。
前記第一のコンピュータでは,表示装置に文書データを表示しつつ,もしくは文書データの表示処理が完了してから,前記第二のコンピュータに対して文書データに含まれるテキストデータを送信し,ユーザが文書データを閲覧しているのと並行して,前記第二のコンピュータで実行された処理結果(辞書データベースに存在した固有名詞)を取得することができる。
これにより,ユーザが文書データを閲覧するたびに,固有名詞抽出処理が実行されるため,予め全ての文書データに固有名詞抽出処理を実施したり,固有名詞抽出処理をやり直したりする必要がなくなり,処理コストを軽減することができる。
また,ユーザが文書データを閲覧しているのと並行して固有名詞抽出処理が行われるので,ユーザに対する文書データ表示のレスポンスタイムを悪化させることがない。
さらに,本発明が実行されるコンピュータが,クライアントとして,文書提供装置と固有名詞抽出処理装置とを介する構成の場合に,複数の文書提供装置から提供される文書データに対する固有名詞抽出処理を,一つの固有名詞抽出処理装置によって処理することができる。このため,固有名詞抽出処理に用いる辞書データベースの語彙のメンテナンスを一箇所で行えばよいため,文書提供者ごとに固有名詞抽出処理機能を保持および維持するコストをなくすことができる。
また,本発明は,前記固有名詞抽出処理において,テキストデータから抽出した固有名詞を,テキストデータに付与されている文書識別情報と対応付けて固有名詞抽出履歴記憶部に保存する。また,前記固有名詞抽出処理に先だって,受信したテキストデータの文書識別情報と一致する文書識別情報が固有名詞抽出履歴記憶部に保存されているかを判定し,一致する文書識別情報がある場合に,文書識別情報に対応付けられた固有名詞を,固有名詞抽出処理で抽出した固有名詞とすることができる。
これにより,文書データの一意性を確認して,固有名詞抽出処理結果のキャッシュ処理を実現する。同一の文書データに対して重複して固有名詞抽出処理を行う必要がなくなり,処理コストをより一層削減することができる。
また,本発明は,固有名詞抽出履歴保存処理において,受信したテキストデータに文書識別情報が付与されていない場合に,テキストデータの特徴値を算出し,算出した特徴値にもとづく文書識別情報を付与し,固有名詞抽出処理で抽出した固有名詞をこの文書識別情報と対応付けて固有名詞抽出履歴記憶部に保存することができる。
例えば,文書データのサイズ,ハッシュ関数によるハッシュ値などの算出処理,チェックサムの算出処理など複数の手法を組み合わせて,文書データの特徴値を算出し,この特徴値を用いて,固有名詞抽出処理装置側で文書識別情報を割り当て,固有名詞抽出処理の処理結果のキャッシュ処理を実現する。
これにより,文書提供者が文書データごとに文書識別情報を管理する管理コストを削減することができる。また,文書データに文書識別情報を付け忘れた場合でも文書データの識別が可能となり,重複して固有名詞抽出処理を行う必要がなくなり,処理コストを削減することができる。
また,本発明は,固有名詞表示処理において,抽出された固有名詞を,ユーザ操作を誘導するような所定の態様(誘導態様)による表示となるような構成に変換し,変換した固有名詞を表示することができる。
これにより,抽出された固有名詞を,ユーザに新たな気付きを提示するような状態で表示することができる。例えば,抽出された固有名詞を,ハイパーリンクが設定された構成に変換した場合に,ユーザに対し,固有名詞に設定されたリンク情報のクリックを促し,よって固有名詞の詳細情報などを確認させることができる。
また,抽出された固有名詞を,検索キーとする検索処理の実行が設定された構成に変換した場合に,ユーザに対し,固有名詞を検索キーとして直ちに検索処理が実行できる機会を与えて,固有名詞の関連情報を確認させることができる。
さらに,本発明は,前記固有名詞抽出処理において,固有名詞が見出し語として定義された当該固有名詞の付加情報を記憶する前記辞書データベースを用いて,テキストデータから見出し語として存在する固有名詞およびその付加情報を抽出する処理が実行される場合に,前記固有名詞表示処理において,抽出された固有名詞および付加情報を受信し,固有名詞と付加情報,または付加情報をもとに構成した情報を,表示装置に表示することができる。
単に固有名詞を表示するだけでなく,固有名詞に紐づけられた付加情報を提示することによって,より多くの情報をユーザに提示することができるようになる。
例えば,固有名詞の付加情報として,その分類情報(企業名・人名・商品名)などを紐づけることによって,ユーザに有益な情報を知らせることができる。例えば,固有名詞が企業名である場合に,その株価,企業ロゴマーク,企業所在地を示す地図情報などを表示することができ,ユーザに有益な情報を提供することができる。
また,本発明は,文書データを蓄積する文書提供サーバと,所定の固有名詞を記憶する辞書データベースを備える固有名詞抽出処理サーバと,表示装置を備えるクライアント端末とで構成される文書データ表示処理システムである。
クライアント端末では,文書提供サーバから,表示対象の文書データを取得し,文書データを表示装置に表示し,文書データに含まれる全てまたは一部のテキストデータを抽出し,テキストデータを固有名詞抽出処理サーバへ送信する。そして,固有名詞抽出処理サーバから受信した,テキストデータから抽出された固有名詞を,前記文書データと並べて表示装置に表示する。また,固有名詞抽出処理サーバでは,テキストデータから,辞書データベースに存在する固有名詞を抽出し,抽出した固有名詞を前記クライアント端末に送信する。
なお,本発明にかかるプログラムは,コンピュータが読み取り可能な可搬媒体メモリ,半導体メモリ,ハードディスクなどの適当な記録媒体に格納することができ,これらの記録媒体に記録して提供され,または,通信インタフェースを介して種々の通信網を利用した送受信により提供される。
本発明によれば,ユーザが文書データを閲覧するたびに,文書データから固有名詞が抽出されるため,予め全文書データから固有名詞を抽出しておく必要がなく,処理コストを軽減することができる。
また,文書データの表示処理と並行して,固有名詞抽出処理が行われるので,表示処理でのレスポンスタイムを悪化させずに,表示の都度,固有名詞を抽出することができる。
さらに,複数の文書提供装置で提供される文書データに対し,一つの固有名詞抽出処理装置で処理することができるため,辞書データベースのメンテナンスコストを軽減することができる。
よって,文書データの表示処理の応答を損なわずに,閲覧要求ごとの固有名詞抽出処理を実現し,有意な情報によるユーザの気付きを支援することができる。
図1は,本発明の実施の形態における構成例を示す図である。
文書データ表示処理システムは,それぞれネットワークNを介してデータを送受信する,クライアント端末1,固有名詞抽出サーバ2,一または複数の文書提供サーバ3(3A,3B,3C)で構成される。
クライアント端末1は,CPUおよびメモリからなるコンピュータであり,ソフトウェアプログラムなどによって構成される,文書表示処理部11,テキスト抽出部12,固有名詞取得部13,および固有名詞表示処理部14を備える。
文書表示処理部11は,文書提供サーバ3から表示対象の文書データを取得し,文書データを表示装置(図示しない)に表示する。
テキスト抽出部12は,文書データに含まれる,全てまたは一部のテキストデータを抽出し,このテキストデータを固有名詞抽出サーバ2へ送信する。なお,文書提供サーバ3から取得した文書データに文書識別情報(文書ID)が付与されている場合に,文書IDとテキストデータとを固有名詞抽出サーバ2へ送信する。
固有名詞取得部13は,固有名詞抽出サーバ2から,文書データから抽出された固有名詞,または,固有名詞とその付加情報とを受信する。
固有名詞表示処理部14は,固有名詞抽出サーバ2から受信した固有名詞を文書データと並べて表示装置に表示する。
また,固有名詞表示処理部14は,固有名詞を,ユーザが操作を誘導されるような所定の誘導態様の表示の構成に変換し,変換した固有名詞を表示装置に表示する。例えば,固有名詞を,所定の参照先へのリンク情報を設定した構成要素に変換し,固有名詞にリンクが設定されていることを示す誘導態様で表示する。または,固有名詞を,この固有名詞を検索条件とする検索処理と関連付けた構成要素に変換し,固有名詞により検索できることを示す誘導態様で表示する。
さらに,固有名詞表示処理部14は,固有名詞の付加情報,または,付加情報をもとに所定の手順によって構成した情報を表示装置に表示する。
固有名詞抽出サーバ2は,CPUおよびメモリからなるコンピュータであり,ソフトウェアプログラムなどによって構成される,固有名詞データベース21,文書管理データベース22,固有名詞抽出履歴データベース23,処理要否判定部24,文書ID生成部25,固有名詞抽出部26,および付加情報取得部27を備える。
固有名詞データベース21は,所定の固有名詞を記憶するデータベースである。
または,固有名詞データベース21は,固有名詞が見出し語として定義され,その固有名詞の付加情報を記憶するデータベースである。
文書管理データベース22は,文書ID生成部25で算出された,受信したテキストデータの特徴値と,この特徴値にもとづいて付与された仮の文書IDを登録するデータベースである。
固有名詞抽出履歴データベース23は,テキストデータから抽出された固有名詞とその文書IDと対応付けて保存するデータベースである。
処理要否判定部24は,受信したテキストデータに付与された文書ID,または,文書ID生成部によって発行された仮の文書IDと一致する文書ID/仮文書IDが固有名詞抽出履歴データベース23に保存されているかを判定し,一致する文書ID/仮文書IDがある場合に,対応付けられた固有名詞を,固有名詞抽出処理で抽出した固有名詞とする。
文書ID生成部25は,受信したテキストデータに文書IDが付与されていない場合に,テキストデータの特徴値を算出し,算出した特徴値にもとづいて仮文書IDを発行し,文書管理データベース22に,算出した特徴値と仮文書IDとを登録する。
また,文書ID生成部25は,受信したテキストデータの特徴値を算出し,文書管理データベース22に,算出した特徴値に対応する仮文書IDが登録されていれば,仮文書IDを処理要否判定部24へ通知する。
固有名詞抽出部26は,テキストデータに所定の言語解析処理を施して語単位に分析し,分析した語のうち,固有名詞データベース21に存在する語を固有名詞として抽出し,この固有名詞をクライアント端末1に送信する。
また,固有名詞抽出部26は,テキストデータの語から抽出した固有名詞と文書IDとを対応付けて,固有名詞抽出履歴データベース23に保存する。
付加情報取得部27は,固有名詞抽出部26によって,テキストデータから抽出された固有名詞について,固有名詞を見出し語として付加情報を記憶する固有名詞データベース21から,該当する付加情報を抽出し,抽出した固有名詞およびその付加情報をクライアント端末1に送信する。
文書提供サーバ3(3A,3B,3C)は,CPUおよびメモリからなるコンピュータであり,蓄積した文書データを,クライアント端末1からの閲覧要求に応じて提供する。
図2は,本発明の処理の流れを示す図である。
文書提供サーバ3Aは,文書データとして,見出しデータおよび本文データからなる新聞記事を蓄積している。文書提供サーバ3Aは,図3に示すように,見出しおよび本文データに文書IDを付与して文書を管理している。
ステップS1: 文書提供サーバ3Aは,閲覧要求を発したクライアント端末1に,該当する文書データ(見出し)を送信する。図4に示す見出し一覧画面がクライアント端末1の文書表示処理部11で表示され,見出しh1が選択される。
ステップS2: 文書提供サーバ3Aは,見出しh1に対応する本文データb1および文書ID(000001)を出力する。
ステップS3: 文書表示処理部11では,図5に示すように,見出しh1と本文b1を表示する。
ステップS4: ステップS2の表示処理と並行して,テキスト抽出部12は,本文b1からテキストデータ(この場合は,本文データ全て)を取得し,テキストデータと文書IDを,固有名詞抽出サーバ2へ送信する。
ステップS5: 固有名詞抽出サーバ2は,文書IDとテキストデータを受信する。
ステップS6: 固有名詞抽出サーバ2の処理要否判定部24は,固有名詞抽出履歴データベース23を参照して,文書IDが一致する固有名詞が保存されているかを調べる。
図6に,固有名詞抽出履歴データベース23のデータ構成例を示す。固有名詞抽出履歴データベース23には,既に固有名詞抽出処理を行った文書データの文書ID,処理実行日時(抽出日時),抽出された固有名詞(抽出固有名詞)が保存される。なお,文書IDの代わりに,文書データの格納情報(URL)を用いてもよい。
ステップS7: ステップS6の判定処理で,文書IDが一致する固有名詞が保存されていなければ(NO),固有名詞抽出部26は,言語解析処理によりテキストデータから語を抽出し,抽出した語が固有名詞データベース21に存在すれば,その語を固有名詞とする。
ステップS8: ステップS6の判定処理で,文書IDが一致する固有名詞が保存されていれば(YES),固有名詞抽出履歴データベース23から文書IDが一致する固有名詞を取り出す。さらに,付加情報取得部27は,この固有名詞をもとに,固有名詞データベース21から該当する付加情報を取得する。そして,抽出した固有名詞およびその付加情報を出力する。
ステップS9: 付加情報取得部27は,その固有名詞に対応する付加情報を固有名詞データベース21から取得する。そして,固有名詞と付加情報とを出力する。
図7に,固有名詞データベース21のデータ構成例を示す。
固有名詞データベース21には,抽出対象となる固有名詞,その品詞,付加情報が定義されている。例えば,固有名詞pn1は,品詞=人名であり,付加情報として,その人物の別名,プロフィール,生年月日,出身地などの情報が登録されている。また,固有名詞pn2は,品詞=企業名であり,付加情報として,所在地,資本金,経営者名,企業ホームページURLなどの情報が登録されている。
ステップS10: クライアント端末1の固有名詞取得部13は,固有名詞抽出サーバ2から,固有名詞(pn1,pn2)とその付加情報とを取得する。固有名詞表示処理部14は,図8に示すように,文書表示処理部11によって表示された文書データに,固有名詞と付加情報とを組み込んで表示する。
なお,ステップS4の処理において,テキストデータのみが固有名詞抽出サーバ2へ送信された場合,文書ID生成部25は,テキストデータのサイズ,ハッシュ関数により算出されたハッシュ値,チェックサムから,テキストデータ独自の特徴値を算出する。そして,この特徴値をもとに,仮文書IDを生成し,文書管理データベース22に,特徴値と仮文書IDとを登録する。
また,ステップS1の代わりに,ステップS1’として,クライアント端末1のローカルな領域に保存された文書データから,表示対象の文書データが選択されてもよい。
図9に,文書管理データベース22のデータ構成例を示す。文書管理データベース22には,生成した仮文書IDとともに,特徴値算出に用いた各値,データサイズ,ハッシュ値,チェックサムが保存される。
図10および図11に,文書データと固有名詞およびその付加情報の表示画面例を示す。
図10は,文書データがブログページの場合の表示画面例である。ブログページが本文を表示するメインページと関連情報やリンクを表示するサイドバーで構成されている場合に,メインページに表示された本文データ(テキストデータ)が固有名詞抽出サーバ2へ送信される。そして,本文データに含まれる固有名詞,例えば,人名(□□□),企業名(■■■),地名(▽▽県○○市)などが抽出される。さらに,固有名詞の付加情報として,人名「□□□」の役職名,企業「■■■」の業種,株価,ホームページのURL,地名「▽▽県○○市」の地図情報などが取得される。これらの固有名詞とその付加情報は,サイドバーの表示に組み込まれて表示される。
図11は,文書データがニュースサイトの場合の記事表示画面例である。ニュースサイトの記事ページに表示された記事データ(テキストデータ)が固有名詞抽出サーバ2へ送信され,記事データに含まれる固有名詞が抽出される。これらの固有名詞とその付加情報は,記事データのページ上に生成されたポップアップ枠で表示される。
以上,本発明をその実施の形態により説明したが,本発明はその主旨の範囲において種々の変形が可能であることは当然である。
本発明の形態および実施例の特徴を列記すると以下のとおりである。
(付記1) 表示装置を備えるコンピュータに,
表示対象の文書データを取得する文書データ取得処理と,
前記文書データを表示装置に表示する文書データ表示処理と,
前記文書データに含まれる全てまたは一部のテキストデータを抽出し,当該テキストデータを所定の固有名詞抽出処理装置へ送信するテキストデータ送信処理と,
前記固有名詞抽出処理装置において,所定の固有名詞を記憶する辞書データベースを用いて,前記テキストデータから前記辞書データベースに存在する固有名詞を抽出する固有名詞抽出処理によって,前記テキストデータから抽出された固有名詞を受信し,当該抽出された固有名詞を前記文書データと並べて表示する固有名詞表示処理とを,
実行させるための文書データ表示処理プログラム。
(付記2) 前記固有名詞抽出処理において,
前記テキストデータから抽出した固有名詞を,前記受信したテキストデータに付与されている文書識別情報と対応付けて固有名詞抽出履歴記憶部に保存する固有名詞抽出履歴保存処理と,
前記固有名詞抽出処理に先だって,前記受信したテキストデータの文書識別情報と一致する文書識別情報が前記固有名詞抽出履歴記憶部に保存されているかを判定し,一致する文書識別情報がある場合に,当該文書識別情報に対応付けられた固有名詞を,前記固有名詞抽出処理で抽出した固有名詞とする処理要否判定処理とを,
実行させることを特徴とする前記付記1に記載の文書データ表示処理プログラム。
(付記3) 前記固有名詞抽出履歴保存処理において,前記受信したテキストデータに文書識別情報が付与されていない場合に,前記テキストデータの特徴値を算出し,算出した特徴値にもとづく文書識別情報を付与し,前記固有名詞抽出処理で抽出した固有名詞を当該文書識別情報と対応付けて前記固有名詞抽出履歴記憶部に保存する処理を,
実行させることを特徴とする前記付記2に記載の文書データ表示処理プログラム。
(付記4)
固有名詞表示処理において,前記抽出された固有名詞を,ユーザ操作を誘導する所定の態様で表示される構成に変換して表示する処理を,
実行させることを特徴とする前記付記1〜3のいずれか一項に記載の文書データ表示処理プログラム。
(付記5) 前記固有名詞抽出処理において,前記固有名詞が見出し語として定義された当該固有名詞の付加情報を記憶する前記辞書データベースを用いて,前記テキストデータから前記見出し語として存在する固有名詞および当該固有名詞の付加情報を抽出する処理が実行される場合に,前記固有名詞表示処理において,前記固有名詞抽出処理装置から,前記テキストデータから抽出された固有名詞および付加情報を受信し,前記付加情報または当該付加情報をもとに構成した情報を前記表示装置に表示する処理を,
実行させることを特徴とする前記付記1〜4のいずれか一項に記載の文書データ表示処理プログラム。
(付記6) 表示装置を備えるコンピュータに,
表示対象の文書データを取得する文書データ取得処理過程と,
前記文書データを表示装置に表示する文書データ表示処理過程と,
前記文書データに含まれる全てまたは一部のテキストデータを抽出し,当該テキストデータを所定の固有名詞抽出処理装置へ送信するテキストデータ送信処理過程と,
前記固有名詞抽出処理装置において,所定の固有名詞を記憶する辞書データベースを用いて,前記テキストデータから前記辞書データベースに存在する固有名詞を抽出する固有名詞抽出処理過程と,
前記固有名詞抽出処理装置から,前記テキストデータから抽出された固有名詞を受信し,当該抽出された固有名詞を,前記文書データと並べて表示する固有名詞表示処理過程とを,
実行させる文書データ表示処理方法。
(付記7) 表示対象の文書データを取得する文書データ取得処理部と,
前記文書データを表示装置に表示する文書データ表示処理部と,
前記文書データに含まれる全てまたは一部のテキストデータを抽出し,当該テキストデータを所定の固有名詞抽出処理装置へ送信するテキストデータ送信処理部と,
前記固有名詞抽出処理装置において,所定の固有名詞を記憶する辞書データベースを用いて,前記テキストデータから前記辞書データベースに存在する固有名詞を抽出する固有名詞抽出処理過程によって,前記テキストデータから抽出された固有名詞を受信し,当該抽出された固有名詞を前記文書データと並べて表示する固有名詞表示処理部とを,
備える文書データ表示処理装置。
(付記8) 所定の固有名詞を記憶する辞書データベースと,
クライアント端末で表示された文書データに含まれるテキストデータの全部または一部を受信するテキストデータ取得処理部と,
前記テキストデータから,前記辞書データベースに存在する固有名詞を抽出する固有名詞抽出処理部と,
前記抽出した固有名詞を前記クライアント端末に送信する処理結果送信処理部とを備える
ことを特徴とする固有名詞抽出処理装置。
(付記9) 文書データを蓄積する文書提供サーバと,所定の固有名詞を記憶する辞書データベースを備える固有名詞抽出処理サーバと,表示装置を備えるクライアント端末とで構成される文書データ表示処理システムであって,
前記クライアント端末に,
前記文書提供サーバから,表示対象の文書データを取得する文書データ取得処理部と,
前記文書データを表示装置に表示する文書データ表示処理部と,
前記文書データに含まれる全てまたは一部のテキストデータを抽出し,当該テキストデータを前記固有名詞抽出処理サーバへ送信するテキストデータ送信処理部と,
前記固有名詞抽出処理サーバから受信した,前記テキストデータから抽出された固有名詞を,前記文書データと並べて表示する固有名詞表示処理部とを備え,
前記固有名詞抽出処理サーバに,
前記テキストデータから,前記辞書データベースに存在する固有名詞を抽出する固有名詞抽出処理部と,
前記抽出した固有名詞を前記クライアント端末に送信する処理結果送信処理部とを備える
ことを特徴とする文書データ表示処理システム。
本発明の実施の形態における構成例を示す図である。 本発明の処理の流れを示す図である。 文書IDによる文書データの管理の例を示す図である。 見出し一覧画面の例を示す図である。 見出しと本文の表示画面の例を示す図である。 固有名詞抽出履歴データベースのデータ構成例を示す図である。 固有名詞データベースのデータ構成例を示す図である。 文書データに組み込まれた固有名詞と付加情報の表示例を示す図である。 文書管理データベースのデータ構成例を示す図である。 文書データがブログページの場合の文書データと固有名詞およびその付加情報の表示例を示す図である。 文書データがニュースサイトの場合の文書データと固有名詞およびその付加情報の表示例を示す図である。
符号の説明
1 クライアント端末
11 文書表示処理部
12 テキスト抽出部
13 固有名詞取得部
14 固有名詞表示処理部
2 固有名詞抽出サーバ
21 固有名詞データベース
22 文書管理データベース
23 固有名詞抽出履歴データベース
24 処理要否判定部
25 文書ID生成部
26 固有名詞抽出部
27 付加情報取得部
3(3A,3B,3C) 文書提供サーバ
N ネットワーク

Claims (14)

  1. 表示装置を備える第一のコンピュータに,
    表示対象の文書データを取得する文書データ取得処理と,
    取得した前記文書データを表示装置の表示部に表示する文書データ表示処理と,
    前記文書データ表示処理により表示したまたは該文書データ表示処理を実行中の前記文書データに含まれる全てまたは一部のテキストデータを抽出し,該テキストデータを第二のコンピュータへ送信するテキストデータ送信処理と,
    所定の固有名詞を記憶する辞書データベースに接続可能な前記第二のコンピュータによる,前記テキストデータから前記辞書データベースに存在する固有名詞を抽出する固有名詞抽出処理によって前記テキストデータから抽出された固有名詞と,抽出された前記固有名詞に基づいて特定される,前記文書データと関連する関連文書情報の格納情報とを該第二のコンピュータから受信し,抽出された前記固有名詞と前記関連文書情報の格納情報へのリンクを設定した構成要素とを,前記文書データを表示する前記表示部の前記文書データの表示位置と異なる表示位置に表示する固有名詞表示処理とを,
    実行させるための文書データ表示処理プログラム。
  2. 表示装置を備える第一のコンピュータと接続可能な第二のコンピュータに,
    前記第一のコンピュータが,
    表示対象として取得し前記第一のコンピュータの前記表示装置の表示部に表示したまたは前記表示装置の表示部への表示処理を実行中の文書データに含まれる全てまたは一部のテキストデータを受信する処理と,
    受信した前記テキストデータから,前記第二のコンピュータが接続可能な所定の固有名詞を記憶する辞書データベースに存在する固有名詞と,抽出された前記固有名詞に基づいて特定される,前記文書データと関連する関連文書情報の格納情報とを抽出する固有名詞抽出処理と,
    抽出した前記固有名詞と前記関連文書情報の格納情報とを,受信した前記テキストデータに付与されている文書識別情報と対応付けて固有名詞抽出履歴記憶部に保存する固有名詞抽出履歴保存処理と,
    前記固有名詞抽出処理に先だって,受信した前記テキストデータの文書識別情報と一致する文書識別情報が前記固有名詞抽出履歴記憶部に保存されているかを判定し,一致する文書識別情報がある場合に,該文書識別情報に対応付けられた固有名詞と前記関連文書情報の格納情報とを前記固有名詞抽出処理の処理結果とする処理要否判定処理とを,
    実行させるための固有名詞抽出処理プログラム。
  3. 前記第二のコンピュータに,
    前記固有名詞抽出履歴保存処理において,受信した前記テキストデータに文書識別情報が付与されていない場合に,前記テキストデータの特徴値を算出し,算出した特徴値に基づく文書識別情報を前記固有名詞抽出処理で抽出した固有名詞に対応付けて前記固有名詞抽出履歴記憶部に保存する処理を,
    実行させることを特徴とする請求項2に記載の固有名詞抽出処理プログラム。
  4. 前記第一のコンピュータに,
    前記固有名詞表示処理において,抽出された前記固有名詞を,ユーザ操作を誘導する所定の態様で表示される構成に変換して表示する処理を,
    実行させることを特徴とする請求項1に記載の文書データ表示処理プログラム。
  5. 前記第一のコンピュータに,
    前記第二のコンピュータによる,前記固有名詞が見出し語として定義され該固有名詞の付加情報を記憶する前記辞書データベースを用いた前記固有名詞抽出処理によって前記テキストデータから抽出された固有名詞および付加情報を,該第二のコンピュータから受信し,受信した付加情報または該付加情報をもとに構成した情報を前記表示装置に表示する処理を,実行させる
    ことを特徴とする請求項1または請求項4に記載の文書データ表示処理プログラム。
  6. 表示装置を備える第一のコンピュータが,
    表示対象の文書データを取得し,
    取得した前記文書データを表示装置の表示部に表示し,
    前記文書データ表示処理により表示したまたは該文書データ表示処理を実行中の前記文書データに含まれる全てまたは一部のテキストデータを抽出し,該テキストデータを第二のコンピュータへ送信し,
    所定の固有名詞を記憶する辞書データベースに接続可能な前記第二のコンピュータによる,前記テキストデータから前記辞書データベースに存在する固有名詞を抽出する固有名詞抽出処理によって前記テキストデータから抽出された固有名詞と,抽出された前記固有名詞に基づいて特定される,前記文書データと関連する関連文書情報の格納情報とを該第二のコンピュータから受信し,
    前記文書データを表示し,抽出された前記固有名詞と,前記関連文書情報の格納情報へのリンクを設定した構成要素とを,前記文書データを表示する前記表示部の前記文書データの表示位置と異なる表示位置に表示する,処理とを,実行する
    ことを特徴とする文書データ表示処理方法。
  7. 表示対象の文書データを取得する文書データ取得処理部と,
    取得した前記文書データを表示装置の表示部に表示する文書データ表示処理部と,
    前記文書データ表示処理により表示したまたは該文書データ表示処理を実行中の前記文書データに含まれる全てまたは一部のテキストデータを抽出し,当該テキストデータを第二のコンピュータへ送信するテキストデータ送信処理部と,
    所定の固有名詞を記憶する辞書データベースに接続可能な前記第二のコンピュータによる,前記テキストデータから前記辞書データベースに存在する固有名詞を抽出する固有名詞抽出処理によって前記テキストデータから抽出された固有名詞と,抽出された前記固有名詞に基づいて特定される,前記文書データと関連する関連文書情報の格納情報とを該第二のコンピュータから受信し,抽出された前記固有名詞と前記関連文書情報の格納情報へのリンクを設定した構成要素とを,前記文書データを表示する前記表示部の前記文書データの表示位置と異なる表示位置に表示する固有名詞表示処理部とを,
    備えることを特徴とする文書データ表示処理装置。
  8. 文書データを蓄積する文書提供サーバと,所定の固有名詞を記憶する辞書データベースを備える固有名詞抽出処理サーバと,表示装置を備えるクライアント端末とで構成される文書データ表示処理システムであって,
    前記クライアント端末が,
    前記文書提供サーバから,表示対象の文書データを取得する文書データ取得処理部と,
    前記文書データを表示装置の表示部に表示する文書データ表示処理部と,
    前記文書データ表示処理部により表示された,又は,表示処理を実行中の前記文書データに含まれる全てまたは一部のテキストデータを抽出し,当該テキストデータを前記固有名詞抽出処理サーバへ送信するテキストデータ送信処理部と,
    前記固有名詞抽出処理サーバから受信した,前記テキストデータから抽出された固有名詞と,抽出された前記固有名詞に基づいて特定される,前記文書データと関連する関連文書情報の格納情報へのリンクを設定した構成要素とを,前記文書データを表示する前記表示部の前記文書データの表示位置と異なる表示位置に表示する固有名詞表示処理部とを備え,
    前記固有名詞抽出処理サーバが,
    前記クライアント端末から送信されたテキストデータから,前記辞書データベースに存在する固有名詞を抽出する固有名詞抽出処理部と,
    前記抽出した固有名詞と,抽出された前記固有名詞に基づいて特定される,前記文書データと関連する関連文書情報の格納情報とを前記クライアント端末に送信する処理結果送信処理部とを備える
    ことを特徴とする文書データ表示処理システム。
  9. コンピュータに,
    表示部に表示された,又は,表示処理を実行中の文書情報から,該文書情報に含まれる全てまたは一部のテキストデータを抽出し,
    前記テキストデータを他のコンピュータに送信し,
    送信した前記テキストデータから前記他のコンピュータによって抽出された語句と,該語句に対応する付加情報とを受信し,
    受信した前記語句と前記付加情報とを,前記文書情報と関連する他の文書情報である関連文書情報を参照する際に選択可能な,該関連文書情報の所在へのリンクを設定した構成要素に変換し
    前記文書情報と,前記構成要素とを共通の表示部に表示する,処理を実行させ,
    前記構成要素は,前記表示部における前記文書情報の表示位置と異なる表示位置に表示される,
    ことを特徴とする表示制御プログラム。
  10. 前記構成要素は,前記文書情報が表示される欄との間を線で区切られた別の欄に表示される,
    ことを特徴とする請求項9に記載の表示制御プログラム。
  11. 前記別の欄には,前記構成要素以外にも抽出された前記語句に関連する地図情報が表示される,
    ことを特徴とする請求項10に記載の表示制御プログラム。
  12. コンピュータが,
    表示部に表示された,又は,表示処理を実行中の文書情報から,該文書情報に含まれる全てまたは一部のテキストデータを抽出し,
    前記テキストデータを他のコンピュータに送信し,
    送信した前記テキストデータから前記他のコンピュータによって抽出された語句と,該語句に対応する付加情報とを受信し,
    受信した前記語句と前記付加情報とを,前記文書情報と関連する関連文書情報を参照する際に選択可能な,該関連文書情報の所在へのリンクを設定した構成要素に変換し
    前記文書情報と,前記構成要素とを共通の表示部に表示する,処理を実行し,
    前記構成要素は,前記表示部における前記文書情報の表示位置と異なる表示位置に表示される,
    ことを特徴とする表示制御方法。
  13. 前記構成要素は,前記文書情報が表示される欄との間を線で区切られた別の欄に表示される,
    ことを特徴とする請求項12に記載の表示制御方法。
  14. 前記別の欄には,前記構成要素以外にも抽出された前記語句に関連する地図情報が表示される,
    ことを特徴とする請求項13に記載の表示制御方法。


JP2007104464A 2007-04-12 2007-04-12 文書データ表示処理プログラム,固有名詞抽出処理プログラム,文書データ表示処理方法,文書データ表示処理装置,文書データ表示処理システム,表示制御プログラム,および表示制御方法 Active JP5657851B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007104464A JP5657851B2 (ja) 2007-04-12 2007-04-12 文書データ表示処理プログラム,固有名詞抽出処理プログラム,文書データ表示処理方法,文書データ表示処理装置,文書データ表示処理システム,表示制御プログラム,および表示制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007104464A JP5657851B2 (ja) 2007-04-12 2007-04-12 文書データ表示処理プログラム,固有名詞抽出処理プログラム,文書データ表示処理方法,文書データ表示処理装置,文書データ表示処理システム,表示制御プログラム,および表示制御方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2014210325A Division JP2015035223A (ja) 2014-10-14 2014-10-14 制御プログラムおよびコンピュータ

Publications (2)

Publication Number Publication Date
JP2008262383A JP2008262383A (ja) 2008-10-30
JP5657851B2 true JP5657851B2 (ja) 2015-01-21

Family

ID=39984810

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007104464A Active JP5657851B2 (ja) 2007-04-12 2007-04-12 文書データ表示処理プログラム,固有名詞抽出処理プログラム,文書データ表示処理方法,文書データ表示処理装置,文書データ表示処理システム,表示制御プログラム,および表示制御方法

Country Status (1)

Country Link
JP (1) JP5657851B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4856217B2 (ja) * 2009-07-21 2012-01-18 富士通株式会社 データ格納プログラム、データ格納方法およびデータ格納システム
US9110869B2 (en) * 2013-09-27 2015-08-18 Nokia Technologies Oy Visual representation of a character identity and a location identity
JP6880859B2 (ja) 2017-03-14 2021-06-02 富士通株式会社 位置情報出力プログラム、位置情報出力方法および情報処理装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3347506B2 (ja) * 1995-02-10 2002-11-20 沖電気工業株式会社 機械翻訳システム
JPH0916593A (ja) * 1995-06-27 1997-01-17 Mitsubishi Electric Corp 専門用語抽出装置及び文書理解支援システム
JP2000082061A (ja) * 1998-09-04 2000-03-21 Toshiba Corp 結果再利用情報処理システム
JP2006058495A (ja) * 2004-08-18 2006-03-02 Asahi Koyo Kk 地名・地図リンク方法、装置及びプログラム
JP2006072844A (ja) * 2004-09-03 2006-03-16 Oki Electric Ind Co Ltd キーワード特定装置、キーワード特定方法及びキーワード特定プログラム
JP2006113976A (ja) 2004-10-18 2006-04-27 Toshiba Corp コンテンツ表示装置及びコンテンツ表示方法
JP4521343B2 (ja) * 2005-09-29 2010-08-11 株式会社東芝 文書処理装置及び文書処理方法

Also Published As

Publication number Publication date
JP2008262383A (ja) 2008-10-30

Similar Documents

Publication Publication Date Title
US9098599B1 (en) Query suggestions for a document based on user history
US8001135B2 (en) Search support apparatus, computer program product, and search support system
US9576066B2 (en) Webpage form optimization
US8195653B2 (en) Relevance improvements for implicit local queries
JP5379978B2 (ja) 検索システム及び検索方法
EP2255301B1 (en) Providing content using stored query information
EP2557511B1 (en) Information processing device, information processing method, information processing programme, and recording medium
US20110040769A1 (en) Query-URL N-Gram Features in Web Ranking
JP5013065B2 (ja) 風説監視システム、風説監視方法及びプログラム
JP5237353B2 (ja) 検索装置、検索システム、検索方法、検索プログラム、及び検索プログラムを記憶するコンピュータ読取可能な記録媒体
JP5657851B2 (ja) 文書データ表示処理プログラム,固有名詞抽出処理プログラム,文書データ表示処理方法,文書データ表示処理装置,文書データ表示処理システム,表示制御プログラム,および表示制御方法
KR20090130364A (ko) 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그 결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US20120072281A1 (en) Method and system to monetize domain queries in sponsored search
KR20100117335A (ko) 검색어가 포함된 텍스트를 기초로 검색 사이트를 특정하여 검색 결과를 요청하는 검색 중계 서버 및 그 제어방법
EP2618277A1 (en) Information processing device, information processing method, program for information processing device, and recording medium
JP5321777B2 (ja) 参考キーワードを提示する機能を備えた商品検索装置および商品検索方法
US20030176996A1 (en) Content of electronic documents
US9208232B1 (en) Generating synthetic descriptive text
US9208233B1 (en) Using synthetic descriptive text to rank search results
JP4869311B2 (ja) 広告入札用語句提案装置、広告入札用語句提案システムおよび広告入札用語句提案方法
JP2013008207A (ja) 情報提供装置、情報提供方法、情報提供プログラム、情報表示プログラム、及び情報提供プログラムを記憶するコンピュータ読取可能な記録媒体
US20110072038A1 (en) Web site with content based on referring link information
JP2015035223A (ja) 制御プログラムおよびコンピュータ
KR101308821B1 (ko) 검색엔진용 키워드 추출 시스템 및 추출 방법
JP4842921B2 (ja) 検索システムおよびその方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120827

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20120827

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120827

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130219

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130422

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130716

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131016

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20131023

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20131213

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141014

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141127

R150 Certificate of patent or registration of utility model

Ref document number: 5657851

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150