JP2013506913A - 視覚的要素をブロック分割し、識別し、インデクスを付けて、ドキュメントを検索するためのシステムおよび方法 - Google Patents
視覚的要素をブロック分割し、識別し、インデクスを付けて、ドキュメントを検索するためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2013506913A JP2013506913A JP2012532139A JP2012532139A JP2013506913A JP 2013506913 A JP2013506913 A JP 2013506913A JP 2012532139 A JP2012532139 A JP 2012532139A JP 2012532139 A JP2012532139 A JP 2012532139A JP 2013506913 A JP2013506913 A JP 2013506913A
- Authority
- JP
- Japan
- Prior art keywords
- block
- document
- metadata
- visual element
- blocks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 306
- 238000000034 method Methods 0.000 title claims abstract description 118
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000000638 solvent extraction Methods 0.000 claims description 48
- 230000002452 interceptive effect Effects 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 10
- 239000003607 modifier Substances 0.000 claims description 6
- 230000003190 augmentative effect Effects 0.000 claims description 5
- 238000009877 rendering Methods 0.000 claims 2
- 206010012601 diabetes mellitus Diseases 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 230000015654 memory Effects 0.000 description 11
- 230000011218 segmentation Effects 0.000 description 8
- 241000282372 Panthera onca Species 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 206010036067 polydipsia Diseases 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000004580 weight loss Effects 0.000 description 2
- 101001094649 Homo sapiens Popeye domain-containing protein 3 Proteins 0.000 description 1
- 101000608234 Homo sapiens Pyrin domain-containing protein 5 Proteins 0.000 description 1
- 101000578693 Homo sapiens Target of rapamycin complex subunit LST8 Proteins 0.000 description 1
- 208000004880 Polyuria Diseases 0.000 description 1
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 1
- 102100027802 Target of rapamycin complex subunit LST8 Human genes 0.000 description 1
- 206010047513 Vision blurred Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000012489 doughnuts Nutrition 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
本出願は、「視覚的要素をブロック分割し、識別し、インデクスを付けて、ドキュメントを検索するためのシステムおよび方法」と題されて2009年10月2日に出願された61/247,973号の、米国特許仮出願の利益を享受するものであり、その内容は参照によって本明細書に組み込まれる。
このセクションにおける記載は、本願の開示に関係した背景となる情報を開示しているに過ぎず、従来技術を構成しない。
計算機器200の各コンポーネント間で通信を可能にするパスを含んでよい。
特に、ドキュメントをブロックに区分けすることは、ドキュメントの視覚的要素を配置する処理においてさらなる助けとなる。ブロック分割およびインデクス付けロジック106(図1)によって識別されたブロックを示すために、図15から図37においては、長方形の点線で描かれたボックスがソースコンテンツに重ね合わされている。図15から図37をさらに参照して後述するように、ブロック分割およびインデクス付けロジック106(図1)は、ブロック視覚的要素のプロファイルとインライン視覚的要素とのデータおよびメタデータのルールにより、ソースコンテンツに含まれる視覚的要素を識別してインデクスを付ける。
Claims (97)
- ドキュメントを処理する方法であって、
ソースコンテンツとプレゼンテーションセマンティクスとを含むドキュメントの予備的なメタデータを生成し、
前記予備的なメタデータを用いて、前記ドキュメントを1つまたは複数の識別されたブロックに分割し、
前記1つまたは複数の識別されたブロックのブロックリストを用意し、
ブロック処理を用いて、前記ブロックリストに含まれる前記1つまたは複数の識別されたブロックを処理し、
前記ブロックリストに含まれる少なくとも1つの識別されたブロックの少なくとも1つのタイトルのブロックアイテムを識別することを含むことを特徴とする方法。 - ドキュメントのソースコンテンツは、マークアップ言語にしたがって形式化されていることを特徴とする請求項1に記載の方法。
- 前記ドキュメントのソースコンテンツは、平文で形式化されていることを特徴とする請求項1に記載の方法。
- 前記ドキュメントのソースコンテンツは、インターフェースをとおしてアクセス可能な言語にしたがって形式化されていることを特徴とする請求項1に記載の方法。
- 前記ドキュメントは、暗黙的なプレゼンテーションセマンティクスであることを特徴とする請求項1に記載の方法。
- 前記ドキュメントは、リンクされたファイルに含まれる明示的なプレゼンテーションセマンティクスであることを特徴とする請求項1に記載の方法。
- 前記ドキュメントは、明示的に埋め込まれたプレゼンテーションセマンティクスであることを特徴とする請求項1に記載の方法。
- 前記予備的なメタデータは、前記ドキュメントのテキストコンテンツから導出可能な任意の情報であることを特徴とする請求項1に記載の方法。
- 前記予備的なメタデータは、前記ドキュメントのマークアップコンテンツから導出可能な任意の情報であることを特徴とする請求項1に記載の方法。
- 前記予備的なメタデータは、前記ドキュメントの明示的な、および/または、暗示的なプレゼンテーションセマンティクスから導出可能な任意の情報であることを特徴とする請求項1に記載の方法。
- 前記予備的なメタデータは、前記ドキュメントの描画から導出可能な任意の情報であることを特徴とする請求項1に記載の方法。
- 前記予備的なメタデータは、以前に計算されたメタデータから計算される任意の情報であることを特徴とする請求項1に記載の方法。
- 前記ドキュメントは、所定のメタデータのルールを用いて、ブロックに分割されることを特徴とする請求項1に記載の方法。
- 前記ブロックは、ネストされることを特徴とする請求項1に記載の方法。
- 前記ドキュメントの全体はブロックであることを特徴とする請求項1に記載の方法。
- 子ブロックをもたないブロックは、ブロックアイテムとして識別されることを特徴とする請求項1に記載の方法。
- 前記ドキュメントのテキストコンテンツは、1つの、かつ、唯一のブロックアイテムに属することを特徴とする請求項1に記載の方法。
- 前記ブロックリストに含まれるブロックアイテムに対して、ブロックアイテムのフォントメタデータ属性は、ブロックフォントファミリ、ブロックフォントサイズ、およびブロックフォントウェイトが計算されることを特徴とする請求項1に記載の方法。
- 統計的な最頻値が、ブロックアイテムのフォントメタデータ属性の計算において用いられることを特徴とする請求項18に記載の方法。
- 統計的な平均値が、ブロックアイテムのフォントメタデータ属性の計算において用いられることを特徴とする請求項18に記載の方法。
- 数学的な公式が、ブロックアイテムのフォントメタデータ属性の計算において用いられることを特徴とする請求項18に記載の方法。
- 前記ブロックリストに含まれるブロックアイテムに対して、ブロックアイテムインポータンスのメタデータ属性が計算されることを特徴とする請求項1に記載の方法。
- ドキュメントをブロックに分割するときに生成される付加情報は、既存のメタデータに増補されることを特徴とする請求項1に記載の方法。
- 前記ブロックリストを生成することは、所定のメタデータのルールを用いて、前記ブロックリストから空のブロックを削除することをさらに含むことを特徴とする請求項1に記載の方法。
- 前記ブロックリストを生成することは、所定のメタデータのルールを用いて、重複したブロックを削除することをさらに含むことを特徴とする請求項1に記載の方法。
- 前記ブロックリストを生成することは、所定のメタデータのルールを用いて、中間的なブロックを削除することをさらに含むことを特徴とする請求項1に記載の方法。
- 前記ブロックリストを生成することは、所定のデータおよびメタデータのルールを用いて、ブロックを結合することをさらに含むことを特徴とする請求項1に記載の方法。
- 前記ブロックリストを生成することは、所定のメタデータのルールを用いて、ブロックを分割することをさらに含むことを特徴とする請求項1に記載の方法。
- 識別されたブロックのリストを用意するときに生成される付加情報は、既存のメタデータに増補されることを特徴とする請求項1に記載の方法。
- 検索クエリとの関連性にしたがって、ドキュメントを処理して識別する方法であって、
ソースコンテンツとプレゼンテーションセマンティクスとを含むドキュメントの予備的なメタデータを生成し、
前記予備的なメタデータを用いて、前記ドキュメントをブロックに分割し、
前記識別されたブロックのリストを用意し、
ブロック処理を用いて、前記ブロックのリストに含まれるブロックを処理し、
前記ブロックのリストに含まれるそれぞれのブロックに対して、タイトルのブロックを識別し、
インライン視覚的要素が含まれている場合、所定のデータおよびメタデータのルールを用いて、前記ブロックリストに含まれるブロックアイテムの少なくとも1つのインライン視覚的要素を識別し、
ブロック視覚的要素が含まれている場合、所定のプロファイルを用いて、前記ブロックリストに含まれる少なくとも1つのブロックの少なくとも1つのブロック視覚的要素を識別し、
発見された視覚的要素のインデクスを生成し、
グラフィカルユーザインターフェース(GUI)を介して検索クエリのデータを受信し、前記検索クエリデータは、少なくとも1つの選択された視覚的要素の種類を含み、
前記検索クエリに関係すると決定されたそれぞれのドキュメントを識別して、前記検索クエリに対する応答を生成することを含むことを特徴とする方法。 - ドキュメントのソースコンテンツは、マークアップ言語にしたがって形式化されていることを特徴とする請求項30に記載の方法。
- 前記ドキュメントのソースコンテンツは、平文で形式化されていることを特徴とする請求項30に記載の方法。
- 前記ドキュメントのソースコンテンツは、インターフェースをとおしてアクセス可能な言語にしたがって形式化されていることを特徴とする請求項30に記載の方法。
- 前記ドキュメントは、暗黙的なプレゼンテーションセマンティクスであることを特徴とする請求項30に記載の方法。
- 前記ドキュメントは、リンクされたファイルに含まれる明示的なプレゼンテーションセマンティクスであることを特徴とする請求項30に記載の方法。
- 前記ドキュメントは、明示的に埋め込まれたプレゼンテーションセマンティクスであることを特徴とする請求項30に記載の方法。
- 前記予備的なメタデータは、前記ドキュメントのテキストコンテンツから導出可能な任意の情報であることを特徴とする請求項30に記載の方法。
- 前記予備的なメタデータは、前記ドキュメントのマークアップコンテンツから導出可能な任意の情報であることを特徴とする請求項30に記載の方法。
- 前記予備的なメタデータは、前記ドキュメントの明示的な、および/または、暗示的なプレゼンテーションセマンティクスから導出可能な任意の情報であることを特徴とする請求項30に記載の方法。
- 前記予備的なメタデータは、前記ドキュメントの描画から導出可能な任意の情報であることを特徴とする請求項30に記載の方法。
- 前記予備的なメタデータは、以前に計算されたメタデータから計算される任意の情報であることを特徴とする請求項30に記載の方法。
- 前記ドキュメントは、所定のメタデータのルールを用いて、ブロックに分割されることを特徴とする請求項30に記載の方法。
- 前記ブロックは、ネストされることを特徴とする請求項30に記載の方法。
- 前記ドキュメントの全体はブロックであることを特徴とする請求項30に記載の方法。
- 子ブロックをもたないブロックは、ブロックアイテムとして識別されることを特徴とする請求項30に記載の方法。
- 前記ドキュメントのテキストコンテンツは、1つの、かつ、唯一のブロックアイテムに属することを特徴とする請求項30に記載の方法。
- 前記ブロックリストに含まれるブロックアイテムに対して、ブロックアイテムのフォントメタデータ属性は、ブロックフォントファミリ、ブロックフォントサイズ、およびブロックフォントウェイトが計算されることを特徴とする請求項30に記載の方法。
- 統計的な最頻値が、ブロックアイテムのフォントメタデータ属性の計算において用いられることを特徴とする請求項30に記載の方法。
- 統計的な平均値が、ブロックアイテムのフォントメタデータ属性の計算において用いられることを特徴とする請求項30に記載の方法。
- 数学的な公式が、ブロックアイテムのフォントメタデータ属性の計算において用いられることを特徴とする請求項30に記載の方法。
- 前記ブロックリストに含まれるブロックアイテムに対して、ブロックアイテムインポータンスのメタデータ属性が計算されることを特徴とする請求項30に記載の方法。
- ドキュメントをブロックに分割するときに生成される付加情報は、既存のメタデータに増補されることを特徴とする請求項30に記載の方法。
- 前記ブロックリストを生成することは、所定のメタデータのルールを用いて、前記ブロックリストから空のブロックを削除することをさらに含むことを特徴とする請求項30に記載の方法。
- 前記ブロックリストを生成することは、所定のメタデータのルールを用いて、重複したブロックを削除することをさらに含むことを特徴とする請求項30に記載の方法。
- 前記ブロックリストを生成することは、所定のメタデータのルールを用いて、中間的なブロックを削除することをさらに含むことを特徴とする請求項30に記載の方法。
- 前記ブロックリストを生成することは、所定のデータおよびメタデータのルールを用いて、ブロックを結合することをさらに含むことを特徴とする請求項30に記載の方法。
- 前記ブロックリストを生成することは、所定のメタデータのルールを用いて、ブロックを分割することをさらに含むことを特徴とする請求項30に記載の方法。
- 識別されたブロックのリストを用意するときに生成される付加情報は、既存のメタデータに増補されることを特徴とする請求項30に記載の方法。
- 前記視覚的要素の種類は、リストであることを特徴とする請求項30に記載の方法。
- 前記視覚的要素の種類は、表であることを特徴とする請求項30に記載の方法。
- 前記視覚的要素の種類は、パラグラフであることを特徴とする請求項30に記載の方法。
- 前記視覚的要素の種類は、メニューであることを特徴とする請求項30に記載の方法。
- 前記視覚的要素の種類は、キー/値であることを特徴とする請求項30に記載の方法。
- 前記視覚的要素の種類は、質問/回答であることを特徴とする請求項30に記載の方法。
- 前記視覚的要素の種類は、固定幅テキストであることを特徴とする請求項30に記載の方法。
- 前記視覚的要素の種類は、グラフ/チャートであることを特徴とする請求項30に記載の方法。
- 前記視覚的要素の種類は、インタラクティブであることを特徴とする請求項30に記載の方法。
- 前記視覚的要素の種類は、タイムラインであることを特徴とする請求項30に記載の方法。
- 前記所定のプロファイルは、1つまたは複数の所定のブロックにおける、所定のデータおよびメタデータの集合であることを特徴とする請求項30に記載の方法。
- 前記タイトルは、インライン視覚的要素およびブロック視覚的要素の両方のために識別されることを特徴とする請求項30に記載の方法。
- 視覚的要素の特定の性質は、インライン視覚的要素およびブロック視覚的要素の両方のために識別されることを特徴とする請求項30に記載の方法。
- 少なくとも1つの所定のヒントは、少なくとも1つの視覚的要素に関して、ドキュメントの著者または所有者によって、ドキュメントのソースコンテンツの中で提供されることを特徴とする請求項30に記載の方法。
- 前記ヒントは、前記視覚的要素を識別することを特徴とする請求項72に記載の方法。
- 前記ヒントは、前記視覚的要素の種類を識別することを特徴とする請求項72に記載の方法。
- 前記ヒントは、前記視覚的要素のタイトルを識別することを特徴とする請求項72に記載の方法。
- 前記ヒントは、前記視覚的要素の特徴を識別することを特徴とする請求項72に記載の方法。
- インライン視覚的要素およびブロック視覚的要素に用意されるインデクスは、視覚的要素のタイトルおよび視覚的要素の特別な特徴を含むことを特徴とする請求項30に記載の方法。
- 前記GUIは、視覚的要素の種類を指定するためにユーザが選択するための、キーワードを入力するテキストボックスに隣接したトグルボタンを含むことを特徴とする請求項30に記載の方法。
- 前記GUIは、視覚的要素の種類を指定するためにユーザが選択するための、キーワードを入力するテキストボックスに隣接したチェックボックスを含むことを特徴とする請求項30に記載の方法。
- 前記GUIは、受信するステップにおいて検索クエリが受信されるたびに、当該検索クエリに関係したデータを表示することを特徴とする請求項30に記載の方法。
- 前記GUIは、受信するステップにおいて検索クエリが受信されるたびに、当該検索クエリに関係した応答結果を表示することを特徴とする請求項30に記載の方法。
- 前記検索クエリは、少なくとも1つの視覚的要素の種類を含むリクエストを含むことを特徴とする請求項30に記載の方法。
- 前記検索クエリは、少なくとも1つの視覚的要素の特定の性質を含むリクエストを含むことを特徴とする請求項30に記載の方法。
- 前記検索クエリは、少なくとも1つの負のモディファイアを含むリクエストを含むことを特徴とする請求項30に記載の方法。
- 前記検索クエリは、少なくとも1つのモディファイアを含むリクエストを含むことを特徴とする請求項30に記載の方法。
- 前記検索クエリは、少なくとも1つの制限された位置オペレータを含むリクエストを含むことを特徴とする請求項30に記載の方法。
- 前記検索クエリは、少なくとも1つの視覚的要素の種類の識別オペレータを含むリクエストを含むことを特徴とする請求項30に記載の方法。
- 前記検索クエリは、少なくとも1つの全包括的オペレータを含むリクエストを含むことを特徴とする請求項30に記載の方法。
- 前記応答結果は、ユーザが要求した視覚的要素の種類で示されることを特徴とする請求項30に記載の方法。
- 前記応答結果は、前記視覚的要素の種類で、および元のドキュメントで発見された前記視覚的要素と同一のプレゼンテーションセマンティクスで示されることを特徴とする請求項30に記載の方法。
- 前記応答結果は、水平リストの形式で示されることを特徴とする請求項30に記載の方法。
- 前記応答結果は、垂直リストの形式で示されることを特徴とする請求項30に記載の方法。
- 前記応答結果は、格子の形式で示されることを特徴とする請求項30に記載の方法。
- 前記応答を生成するステップは、広告データを表示することをさらに含むことを特徴とする請求項30に記載の方法。
- 前記応答を生成するステップは、選択された前記視覚的要素の種類に基づいて、広告データを表示することをさらに含むことを特徴とする請求項30に記載の方法。
- 1つまたは複数のウェブサーバと通信可能に接続されたネットワーク機器と、
前記ネットワーク機器を介して、前記1つまたは複数のウェブサーバから少なくとも1つのドキュメントを受信するように設計されたロジックとを含み、
前記ロジックは、前記ドキュメントの予備的なメタデータを生成するようにさらに設計され、
前記ドキュメントは、ドキュメントのコンテンツを含み、前記ドキュメントのコンテンツを分割し、前記予備的なメタデータを用いて1つまたは複数の識別されたブロックに分割し、1つまたは複数の識別されたブロックのリストを用意し、それぞれのブロックは、少なくとも1つのブロックアイテムを含み、
前記ロジックは、ブロック処理を用いて前記識別されたブロックを処理し、前記識別されたブロックのそれぞれに含まれるタイトルのブロックアイテムを識別するようにさらに設計されていることを特徴とする分割システム。 - 1つまたは複数のウェブサーバと通信可能に接続されたネットワーク機器と、
前記ネットワーク機器を介して、前記1つまたは複数のウェブサーバからドキュメントを検索するように設計されたロジックとを含み、
前記ロジックは、前記ドキュメントの予備的なメタデータを生成するようにさらに設計され、
前記ドキュメントは、ドキュメントのコンテンツを含み、前記ドキュメントのコンテンツを分割し、前記予備的なメタデータを用いて1つまたは複数の識別されたブロックに分割し、1つまたは複数の識別されたブロックのリストを用意し、それぞれのブロックは、少なくとも1つのブロックアイテムを含み、
前記ロジックは、ブロック処理を用いて発見されたブロックを処理し、データおよびメタデータを用いて、それぞれのブロックアイテムに含まれるインライン視覚的要素を識別するようにさらに設計されており、
前記ロジックは、プロファイルを用いて前記識別されたブロックおよびブロックアイテムのそれぞれに含まれるブロック視覚的要素を識別し、発見された視覚的要素のインデクスを生成するようにさらに設計されており、
前記ロジックは、検索クエリの一部として1つまたは複数の視覚的要素に対するリクエストをユーザから受信するようにさらに設計されており、
前記検索クエリは、視覚的要素の種類をさらに含み、当該検索クエリに対する応答をユーザに対して生成することを特徴とする検索システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US24797309P | 2009-10-02 | 2009-10-02 | |
US61/247,973 | 2009-10-02 | ||
PCT/US2010/051357 WO2011041795A1 (en) | 2009-10-02 | 2010-10-04 | System and method for block segmenting, identifying and indexing visual elements, and searching documents |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2013506913A true JP2013506913A (ja) | 2013-02-28 |
JP2013506913A5 JP2013506913A5 (ja) | 2013-11-21 |
JP6116247B2 JP6116247B2 (ja) | 2017-04-19 |
Family
ID=43823993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012532139A Active JP6116247B2 (ja) | 2009-10-02 | 2010-10-04 | 視覚的要素をブロック分割し、識別し、インデクスを付けて、ドキュメントを検索するためのシステムおよび方法 |
Country Status (7)
Country | Link |
---|---|
US (4) | US10223455B2 (ja) |
EP (1) | EP2483816A4 (ja) |
JP (1) | JP6116247B2 (ja) |
CN (1) | CN102741838B (ja) |
AU (2) | AU2010300317C1 (ja) |
CA (1) | CA2776541A1 (ja) |
WO (1) | WO2011041795A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8499000B2 (en) * | 2009-07-30 | 2013-07-30 | Novell, Inc. | System and method for floating index navigation |
US9229984B2 (en) * | 2011-01-25 | 2016-01-05 | Hewlett Packard Enterprise Development Lp | Parameter expressions for modeling user defined function execution in analytical data processing systems |
US9355145B2 (en) | 2011-01-25 | 2016-05-31 | Hewlett Packard Enterprise Development Lp | User defined function classification in analytical data processing systems |
WO2013179348A1 (ja) * | 2012-05-31 | 2013-12-05 | 富士通株式会社 | インデックス生成プログラム及び検索プログラム |
US9721010B2 (en) * | 2012-12-13 | 2017-08-01 | Microsoft Technology Licensing, Llc | Content reaction annotations |
US10242080B1 (en) * | 2013-11-20 | 2019-03-26 | Google Llc | Clustering applications using visual metadata |
US10503357B2 (en) * | 2014-04-03 | 2019-12-10 | Oath Inc. | Systems and methods for delivering task-oriented content using a desktop widget |
US10621676B2 (en) * | 2015-02-04 | 2020-04-14 | Vatbox, Ltd. | System and methods for extracting document images from images featuring multiple documents |
JP6631337B2 (ja) * | 2016-03-14 | 2020-01-15 | コニカミノルタ株式会社 | 検索装置およびプログラム |
US10459900B2 (en) * | 2016-06-15 | 2019-10-29 | International Business Machines Corporation | Holistic document search |
US10698485B2 (en) * | 2016-06-27 | 2020-06-30 | Microsoft Technology Licensing, Llc | Augmenting text narration with haptic feedback |
CN107742096A (zh) * | 2017-09-26 | 2018-02-27 | 阿里巴巴集团控股有限公司 | 获取图表特征信息的方法及装置、电子设备、存储介质 |
CN110633399B (zh) * | 2018-06-01 | 2024-09-13 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN109284480B (zh) * | 2018-07-27 | 2024-01-16 | 创新先进技术有限公司 | 一种业务文档处理方法、装置及服务器 |
US11194953B1 (en) * | 2020-04-29 | 2021-12-07 | Indico | Graphical user interface systems for generating hierarchical data extraction training dataset |
CA3178385A1 (en) * | 2020-05-09 | 2021-11-18 | Bradley Stephen Daily | Generating and modifying content using data structures |
CN112100426B (zh) * | 2020-09-22 | 2024-05-24 | 哈尔滨工业大学(深圳) | 基于视觉和文本特征的通用表格信息检索的方法与系统 |
US12056946B2 (en) * | 2021-08-12 | 2024-08-06 | Toyota Research Institute, Inc. | Method and system to align quantitative and qualitative statistical information in documents |
US11657078B2 (en) * | 2021-10-14 | 2023-05-23 | Fmr Llc | Automatic identification of document sections to generate a searchable data structure |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001265773A (ja) * | 2000-03-16 | 2001-09-28 | Matsushita Electric Ind Co Ltd | 文書処理装置 |
JP2004038827A (ja) * | 2002-07-08 | 2004-02-05 | Nec Corp | 情報抽出方法、情報抽出装置および情報抽出プログラム |
JP2004054631A (ja) * | 2002-07-19 | 2004-02-19 | Internatl Business Mach Corp <Ibm> | 情報検索システム、情報検索方法、html文書の構造解析方法及びプログラム |
US20050028077A1 (en) * | 2003-07-28 | 2005-02-03 | Ji-Rong Wen | Vision-based document segmentation |
JP2005108006A (ja) * | 2003-09-30 | 2005-04-21 | Sorun Corp | 文書データ管理方法、文書データ管理システム及び文書データ管理用コンピュータプログラム |
JP2008257537A (ja) * | 2007-04-06 | 2008-10-23 | Fuji Xerox Co Ltd | 情報登録装置、情報検索装置、情報検索システム、情報登録プログラム、および情報検索プログラム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6963920B1 (en) * | 1993-11-19 | 2005-11-08 | Rose Blush Software Llc | Intellectual asset protocol for defining data exchange rules and formats for universal intellectual asset documents, and systems, methods, and computer program products related to same |
US5991739A (en) * | 1997-11-24 | 1999-11-23 | Food.Com | Internet online order method and apparatus |
US6763496B1 (en) * | 1999-03-31 | 2004-07-13 | Microsoft Corporation | Method for promoting contextual information to display pages containing hyperlinks |
US6275229B1 (en) * | 1999-05-11 | 2001-08-14 | Manning & Napier Information Services | Computer user interface for graphical analysis of information using multiple attributes |
US20030050927A1 (en) * | 2001-09-07 | 2003-03-13 | Araha, Inc. | System and method for location, understanding and assimilation of digital documents through abstract indicia |
US7177948B1 (en) * | 1999-11-18 | 2007-02-13 | International Business Machines Corporation | Method and apparatus for enhancing online searching |
US20060173873A1 (en) * | 2000-03-03 | 2006-08-03 | Michel Prompt | System and method for providing access to databases via directories and other hierarchical structures and interfaces |
US8677505B2 (en) * | 2000-11-13 | 2014-03-18 | Digital Doors, Inc. | Security system with extraction, reconstruction and secure recovery and storage of data |
US9311499B2 (en) * | 2000-11-13 | 2016-04-12 | Ron M. Redlich | Data security system and with territorial, geographic and triggering event protocol |
CN1567303A (zh) * | 2003-07-03 | 2005-01-19 | 富士通株式会社 | 结构文档信息块的自动分割方法和装置 |
US8150824B2 (en) * | 2003-12-31 | 2012-04-03 | Google Inc. | Systems and methods for direct navigation to specific portion of target document |
US7941397B2 (en) * | 2004-02-25 | 2011-05-10 | International Business Machines Corporation | Dynamically capturing data warehouse population activities for analysis, archival, and mining |
US20050210008A1 (en) * | 2004-03-18 | 2005-09-22 | Bao Tran | Systems and methods for analyzing documents over a network |
US8719700B2 (en) * | 2010-05-04 | 2014-05-06 | Xerox Corporation | Matching a page layout for each page of a document to a page template candidate from a list of page layout candidates |
US20100004957A1 (en) * | 2006-01-27 | 2010-01-07 | Robert Ball | Interactive system and methods for insurance-related activities |
US20070150494A1 (en) * | 2006-12-14 | 2007-06-28 | Xerox Corporation | Method for transformation of an extensible markup language vocabulary to a generic document structure format |
US8335754B2 (en) * | 2009-03-06 | 2012-12-18 | Tagged, Inc. | Representing a document using a semantic structure |
US20110016427A1 (en) * | 2009-07-17 | 2011-01-20 | Andre Gene Douen | Systems, Methods and Articles For Managing Presentation of Information |
US8595220B2 (en) * | 2010-06-16 | 2013-11-26 | Microsoft Corporation | Community authoring content generation and navigation |
-
2010
- 2010-10-04 US US12/897,500 patent/US10223455B2/en active Active
- 2010-10-04 EP EP10821413.1A patent/EP2483816A4/en not_active Withdrawn
- 2010-10-04 CA CA2776541A patent/CA2776541A1/en not_active Abandoned
- 2010-10-04 WO PCT/US2010/051357 patent/WO2011041795A1/en active Application Filing
- 2010-10-04 AU AU2010300317A patent/AU2010300317C1/en not_active Ceased
- 2010-10-04 JP JP2012532139A patent/JP6116247B2/ja active Active
- 2010-10-04 CN CN201080054420.8A patent/CN102741838B/zh not_active Expired - Fee Related
-
2014
- 2014-06-12 US US14/302,448 patent/US9703874B2/en active Active
-
2016
- 2016-05-17 AU AU2016203199A patent/AU2016203199A1/en not_active Abandoned
-
2019
- 2019-01-15 US US16/248,172 patent/US11314824B2/en active Active
-
2022
- 2022-03-24 US US17/703,943 patent/US20220215063A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001265773A (ja) * | 2000-03-16 | 2001-09-28 | Matsushita Electric Ind Co Ltd | 文書処理装置 |
JP2004038827A (ja) * | 2002-07-08 | 2004-02-05 | Nec Corp | 情報抽出方法、情報抽出装置および情報抽出プログラム |
JP2004054631A (ja) * | 2002-07-19 | 2004-02-19 | Internatl Business Mach Corp <Ibm> | 情報検索システム、情報検索方法、html文書の構造解析方法及びプログラム |
US20050028077A1 (en) * | 2003-07-28 | 2005-02-03 | Ji-Rong Wen | Vision-based document segmentation |
JP2005050344A (ja) * | 2003-07-28 | 2005-02-24 | Microsoft Corp | ビジョンベースの文書セグメンテーション |
JP2005108006A (ja) * | 2003-09-30 | 2005-04-21 | Sorun Corp | 文書データ管理方法、文書データ管理システム及び文書データ管理用コンピュータプログラム |
JP2008257537A (ja) * | 2007-04-06 | 2008-10-23 | Fuji Xerox Co Ltd | 情報登録装置、情報検索装置、情報検索システム、情報登録プログラム、および情報検索プログラム |
Non-Patent Citations (3)
Title |
---|
CSNG200600461001; 西口 直樹: '見出しの階層関係を利用したWWW検索精度の改善' 電子情報通信学会技術研究報告 第105巻,第595巻, 20060127, page 1-6, 社団法人電子情報通信学会ation and Communication En * |
JPN6014019862; 西口 直樹: '見出しの階層関係を利用したWWW検索精度の改善' 電子情報通信学会技術研究報告 第105巻,第595巻, 20060127, page 1-6, 社団法人電子情報通信学会ation and Communication En * |
JPN7014001459; Sandip Debnath: 'Aoutomatic Identification of Informative Sections of Web Pages' IEEE transactions on knowledge and engineering , 200509, page 1233-1246 * |
Also Published As
Publication number | Publication date |
---|---|
WO2011041795A1 (en) | 2011-04-07 |
CN102741838A (zh) | 2012-10-17 |
JP6116247B2 (ja) | 2017-04-19 |
US20190147010A1 (en) | 2019-05-16 |
US9703874B2 (en) | 2017-07-11 |
EP2483816A4 (en) | 2014-04-02 |
US20110082868A1 (en) | 2011-04-07 |
EP2483816A1 (en) | 2012-08-08 |
US10223455B2 (en) | 2019-03-05 |
US11314824B2 (en) | 2022-04-26 |
US20220215063A1 (en) | 2022-07-07 |
AU2016203199A1 (en) | 2016-06-16 |
AU2010300317A1 (en) | 2012-05-24 |
CN102741838B (zh) | 2017-05-03 |
US20150363495A1 (en) | 2015-12-17 |
AU2010300317C1 (en) | 2016-09-01 |
AU2010300317B2 (en) | 2016-06-09 |
CA2776541A1 (en) | 2011-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11314824B2 (en) | System and method for block segmenting, identifying and indexing visual elements, and searching documents | |
US11354356B1 (en) | Video segments for a video related to a task | |
US7873901B2 (en) | Small form factor web browsing | |
US8135739B2 (en) | Online relevance engine | |
JP5603337B2 (ja) | バーティカル提案により検索要求を支援するためのシステム及び方法 | |
US9514216B2 (en) | Automatic classification of segmented portions of web pages | |
RU2696305C2 (ru) | Браузинг изображений через интеллектуально проанализированные связанные гиперссылкой фрагменты текста | |
US20150067476A1 (en) | Title and body extraction from web page | |
US20080294619A1 (en) | System and method for automatic generation of search suggestions based on recent operator behavior | |
US20070098266A1 (en) | Cascading cluster collages: visualization of image search results on small displays | |
KR20070039072A (ko) | 검색 엔진에서의 결과물 기반의 광고 개인화 | |
US10282358B2 (en) | Methods of furnishing search results to a plurality of client devices via a search engine system | |
JP2003114906A (ja) | ユーザ定義可能なパーソナリティを備えたメタ文書管理システム | |
Ahmadi et al. | User-centric adaptation of Web information for small screens | |
JP5146108B2 (ja) | 文書重要度算出システム、文書重要度算出方法およびプログラム | |
JP4610543B2 (ja) | 期間抽出装置,期間抽出方法,その方法を実装した期間抽出プログラム及びそのプログラムを格納した記録媒体 | |
JP6800478B2 (ja) | Webページを構成する成分キーワードの評価プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131004 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131004 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140520 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140820 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150624 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20150731 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20151002 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20160707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161019 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170321 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6116247 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R154 | Certificate of patent or utility model (reissue) |
Free format text: JAPANESE INTERMEDIATE CODE: R154 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |