JP2008269069A - 情報処理システム及び情報処理方法 - Google Patents
情報処理システム及び情報処理方法 Download PDFInfo
- Publication number
- JP2008269069A JP2008269069A JP2007108282A JP2007108282A JP2008269069A JP 2008269069 A JP2008269069 A JP 2008269069A JP 2007108282 A JP2007108282 A JP 2007108282A JP 2007108282 A JP2007108282 A JP 2007108282A JP 2008269069 A JP2008269069 A JP 2008269069A
- Authority
- JP
- Japan
- Prior art keywords
- block
- document
- display
- search
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】検索キーと関連度の高い部分領域を表示するために、文書を部分領域(ブロック)に分割し、ブロック単位の検索を行い、検索結果のブロック集合から特徴度を持った特徴ベクトルを生成し、その特徴ベクトルとの類似度が高いブロックを追加表示する。非表示ブロックの内容を表すラベルを生成するために、文字列もしくは文字列の種類を表すタグごとに、表示ブロックにおける文特徴度と、非表示ブロックにおける特徴度の和を重要度とし、重要度の高いものを非表示ブロックのラベルとして表示する。
【選択図】図1
Description
ここで、ブロックの一次検索及び二次検索で用いられる類似検索の原理について説明する。一般に類似文書検索では、文書や単語集合をクエリとして類似文書を検索する。その場合、文書を構成する単語の頻度分布の数学的な類似度(ベクトルとしての角度のコサインなど)を用いて類似度の高い順にソートして必要とされる個数の上位を出力する。検索される対象は単語集合を持つものであればよいので、本発明の例のように、文書の構造により決定されるブロック単位で類似検索を行ってもよい。
以下に、ブロック内の単語の特徴度を元に、ブロック間の類似度を計算する方法の一例を示す。式(1)は、超幾何分布関数に基づき各単語の出現の“珍しさ”を計算する式を表す。
以下に、領域の重要度に従って、類似度に従って、二次検索結果のブロックを追加する手順について説明する。式(2)によって計算されるブロック間類似度の高いブロックから順に表示ブロックを追加する。ブロックの追加は、以下の条件を満たす範囲で行う。
表示ブロックラベル生成手段180は、前記表示ブロックと非表示ブロックの文字列の分布に従い、各非表示ブロックに特徴的な単語やタグを選択し、要約表示に反映させる。特徴量の計算は、例えば以下のように行う。
図2Aは、検索キーワード“OCR”により、閲覧中の文書を構造要約した場合の表示例を表す。ブロック202、203、205、206、207、208が展開領域であり、ブロック204が縮約領域である。構造要約表示領域は、段落を代表する文、例えば先頭数行などを表示している。これらの展開、非展開領域は、マウスによるクリック操作で切り替えられる。以上のような表示方法により、展開表示ブロックについては元文書のレイアウトを保持したままで、全体文書量を圧縮する。また、展開領域の特徴単語を表すタグクラウド209及び非展開領域の特徴単語を表すタグクラウド210により、ユーザが見落としていた単語による再検索を支援する。
Claims (10)
- 複数のブロックに領域分けされた文書に対してブロック単位に検索を行い、入力された検索キーに類似するブロックを検索するブロック検索手段と、
前記検索されたブロックから特徴度を持った特徴ベクトルを生成し、その特徴ベクトルと類似するブロックを類似度が高い順に出力し、ブロック全体の特徴度が増加する間、前記検索されたブロックに前記出力された類似ブロックを追加して表示ブロックを決定する類似ブロック追加手段と、
文字列もしくは文字列の種類を表すタグごとに、前記表示ブロックにおける特徴度と非表示ブロックにおける特徴度の和を重要度とし、重要度の高いものを非表示ブロックのラベルとする非表示ブロックラベル生成手段と、
前記表示ブロックについてはその内容を表示し、前記非表示ブロックについては前記ラベルを表示するブロック縮約/展開表示手段と、
を有することを特徴とする情報処理システム。 - 請求項1記載の情報処理システムにおいて、文書の構造解析を行い論理的なまとまりのあるブロックを抽出する文書構造化手段を有することを特徴とする情報処理システム。
- 請求項1記載の情報処理システムにおいて、前記ラベルの表示をブロック毎に行うことを特徴とする情報処理システム。
- 請求項1記載の情報処理システムにおいて、前記ラベルとして、タイトルと単語のbi-gram、表構造から得られる項目−値関係のbi-gram、文書の係り受け解析から得られるS(主語)−V(動詞)関係を用いることを特徴とする情報処理システム。
- 請求項2記載の情報処理システムにおいて、サーバ内に前記ブロック検索手段、前記類似ブロック追加手段、前記非表示ブロックラベル生成手段、前記文書構造化手段、及びページ内検索手段を備え、前記表示ブロックについてはその内容を表示し前記非表示ブロックについては前記ラベルを表示した文書をクライアントに配信することを特徴とする情報処理システム。
- 請求項2記載の情報処理システムにおいて、サーバもしくは中継サーバにより、配信中の文書中に、ページ内検索手段、前記文書構造解析手段、前記ブロック選択手段及び縮約/展開表示手段を埋め込み、クライアント側に送信することを特徴とする情報処理システム。
- 請求項2記載の情報処理システムにおいて、クライアント側にページ内検索手段、前記ブロック選択手段、縮約/展開表示手段のうち少なくとも一つを持ち、サーバ側に少なくとも前記文書構造解析手段を持つことを特徴とする情報処理システム。
- 検索キーの入力を受け付ける工程と、
文書の構造解析を行って論理的なまとまりのあるブロックを抽出し、前記文書を複数のブロックに領域分けする工程と、
前記複数のブロックに領域分けされた文書に対してブロック単位に検索を行い、前記入力された検索キーに類似するブロックを検索する工程と、
前記検索されたブロックから特徴度を持った特徴ベクトルを生成し、その特徴ベクトルと類似するブロックを類似度が高い順に出力し、ブロック全体の特徴度が増加する間、前記検索されたブロックに前記出力された類似ブロックを追加して表示ブロックを決定する工程と、
文字列もしくは文字列の種類を表すタグごとに、前記表示ブロックにおける特徴度と非表示ブロックにおける特徴度の和を重要度とし、重要度の高いものを非表示ブロックのラベルとする工程と、
前記表示ブロックについてはその内容を表示し、前記非表示ブロックについては前記ラベルを表示する工程と、
を有することを特徴とする情報処理方法。 - 請求項8記載の情報処理方法において、前記ラベルの表示はブロック毎に行うことを特徴とする情報処理方法。
- 請求項8記載の情報処理方法において、
ブロックの選択を受け付ける工程と、
前記選択されたブロックの表示・非表示を切り換える工程を有することを特徴とする情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007108282A JP5103051B2 (ja) | 2007-04-17 | 2007-04-17 | 情報処理システム及び情報処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007108282A JP5103051B2 (ja) | 2007-04-17 | 2007-04-17 | 情報処理システム及び情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008269069A true JP2008269069A (ja) | 2008-11-06 |
JP5103051B2 JP5103051B2 (ja) | 2012-12-19 |
Family
ID=40048520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007108282A Expired - Fee Related JP5103051B2 (ja) | 2007-04-17 | 2007-04-17 | 情報処理システム及び情報処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5103051B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010122823A (ja) * | 2008-11-18 | 2010-06-03 | Nec Corp | テキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラム |
JP2011048730A (ja) * | 2009-08-28 | 2011-03-10 | Nippon Telegr & Teleph Corp <Ntt> | ウェブページ閲覧アシスト方法 |
JP2012248129A (ja) * | 2011-05-31 | 2012-12-13 | Casio Comput Co Ltd | ユーザー探索システム、ユーザー探索装置並びにプログラム |
WO2014196191A1 (ja) * | 2013-06-04 | 2014-12-11 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報表示方法およびプログラム |
US9054066B2 (en) | 2012-08-30 | 2015-06-09 | Kabushiki Kaisha Toshiba | Semiconductor device |
US9740930B2 (en) | 2014-04-17 | 2017-08-22 | Fujitsu Limited | Read determining device and method |
JP2018124914A (ja) * | 2017-02-03 | 2018-08-09 | 日本電信電話株式会社 | パッセージ型質問応答装置、方法、及びプログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106959958B (zh) * | 2016-01-11 | 2020-04-07 | 阿里巴巴集团控股有限公司 | 地图兴趣点简称获取方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003030178A (ja) * | 2001-05-10 | 2003-01-31 | Oki Electric Ind Co Ltd | 電子メール装置および電子メールシステム |
JP2004118721A (ja) * | 2002-09-27 | 2004-04-15 | Toshiba Corp | メッセージのツリー表示装置、メッセージのツリー表示方法、プログラム及び記録媒体 |
JP2004126770A (ja) * | 2002-09-30 | 2004-04-22 | Toshiba Corp | 構造化文書検索方法、構造化文書検索システム及び構造化文書データベース管理装置 |
JP2004295712A (ja) * | 2003-03-28 | 2004-10-21 | Hitachi Ltd | 類似文書検索方法および類似文書検索装置 |
JP2004334803A (ja) * | 2003-05-12 | 2004-11-25 | Shin Etsu Polymer Co Ltd | 文書検索装置 |
JP2006072744A (ja) * | 2004-09-02 | 2006-03-16 | Canon Inc | 文書処理装置、その制御方法、プログラム、及び記憶媒体 |
-
2007
- 2007-04-17 JP JP2007108282A patent/JP5103051B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003030178A (ja) * | 2001-05-10 | 2003-01-31 | Oki Electric Ind Co Ltd | 電子メール装置および電子メールシステム |
JP2004118721A (ja) * | 2002-09-27 | 2004-04-15 | Toshiba Corp | メッセージのツリー表示装置、メッセージのツリー表示方法、プログラム及び記録媒体 |
JP2004126770A (ja) * | 2002-09-30 | 2004-04-22 | Toshiba Corp | 構造化文書検索方法、構造化文書検索システム及び構造化文書データベース管理装置 |
JP2004295712A (ja) * | 2003-03-28 | 2004-10-21 | Hitachi Ltd | 類似文書検索方法および類似文書検索装置 |
JP2004334803A (ja) * | 2003-05-12 | 2004-11-25 | Shin Etsu Polymer Co Ltd | 文書検索装置 |
JP2006072744A (ja) * | 2004-09-02 | 2006-03-16 | Canon Inc | 文書処理装置、その制御方法、プログラム、及び記憶媒体 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010122823A (ja) * | 2008-11-18 | 2010-06-03 | Nec Corp | テキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラム |
JP2011048730A (ja) * | 2009-08-28 | 2011-03-10 | Nippon Telegr & Teleph Corp <Ntt> | ウェブページ閲覧アシスト方法 |
JP2012248129A (ja) * | 2011-05-31 | 2012-12-13 | Casio Comput Co Ltd | ユーザー探索システム、ユーザー探索装置並びにプログラム |
US9054066B2 (en) | 2012-08-30 | 2015-06-09 | Kabushiki Kaisha Toshiba | Semiconductor device |
US9324815B2 (en) | 2012-08-30 | 2016-04-26 | Kabushiki Kaisha Toshiba | Semiconductor device |
WO2014196191A1 (ja) * | 2013-06-04 | 2014-12-11 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報表示方法およびプログラム |
CN104584014A (zh) * | 2013-06-04 | 2015-04-29 | 松下电器(美国)知识产权公司 | 信息显示方法及程序 |
JPWO2014196191A1 (ja) * | 2013-06-04 | 2017-02-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 情報表示方法およびプログラム |
CN104584014B (zh) * | 2013-06-04 | 2018-11-20 | 松下电器(美国)知识产权公司 | 信息显示方法及记录介质 |
US9740930B2 (en) | 2014-04-17 | 2017-08-22 | Fujitsu Limited | Read determining device and method |
JP2018124914A (ja) * | 2017-02-03 | 2018-08-09 | 日本電信電話株式会社 | パッセージ型質問応答装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5103051B2 (ja) | 2012-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7715625B2 (en) | Image processing device, image processing method, and storage medium storing program therefor | |
JP5103051B2 (ja) | 情報処理システム及び情報処理方法 | |
CN105706080B (zh) | 扩增并呈现捕获的数据 | |
US9323827B2 (en) | Identifying key terms related to similar passages | |
US8464158B2 (en) | Method and arrangement for sharing information search results | |
CN101877004B (zh) | 直接导航至目标文档特定部分的系统和方法 | |
US9183281B2 (en) | Context-based document unit recommendation for sensemaking tasks | |
US9195754B2 (en) | Expansion of search result information | |
US8954839B2 (en) | Contract authoring system and method | |
US9639627B2 (en) | Method to search a task-based web interaction | |
US20090222298A1 (en) | Data Mining Method for Automatic Creation of Organizational Charts | |
JP5516918B2 (ja) | 画像要素検索 | |
JP6840597B2 (ja) | 検索結果要約装置、プログラム及び方法 | |
Xiao et al. | Browsing on small displays by transforming web pages into hierarchically structured subpages | |
Liu et al. | Main content extraction from web pages based on node characteristics | |
KR20020075359A (ko) | 디지털 소스로부터 정보를 포착하고 관리하기 위한 시스템및 방법 | |
JP5484113B2 (ja) | 文書画像関連情報提供装置、及び文書画像関連情報取得システム | |
CN101593187A (zh) | 用于管理书签的方法和系统 | |
KR20120020558A (ko) | 폭소노미 기반 개인화 웹 검색 방법 및 이를 수행하는 시스템 | |
JP7081155B2 (ja) | 選択プログラム、選択方法、及び選択装置 | |
Baldauf et al. | Getting context on the go: mobile urban exploration with ambient tag clouds | |
US8832082B2 (en) | Presentation of search results with diagrams | |
JP2017204054A (ja) | 相性算出装置、相性算出方法、およびコンピュータプログラム | |
JP5870036B2 (ja) | ページの遷移管理システム、遷移管理用サーバ装置および遷移管理用プログラム | |
JP2009110506A (ja) | 情報処理装置及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120306 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120502 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120904 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121001 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151005 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151005 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |