JP6116247B2 - 視覚的要素をブロック分割し、識別し、インデクスを付けて、ドキュメントを検索するためのシステムおよび方法 - Google Patents
視覚的要素をブロック分割し、識別し、インデクスを付けて、ドキュメントを検索するためのシステムおよび方法 Download PDFInfo
- Publication number
- JP6116247B2 JP6116247B2 JP2012532139A JP2012532139A JP6116247B2 JP 6116247 B2 JP6116247 B2 JP 6116247B2 JP 2012532139 A JP2012532139 A JP 2012532139A JP 2012532139 A JP2012532139 A JP 2012532139A JP 6116247 B2 JP6116247 B2 JP 6116247B2
- Authority
- JP
- Japan
- Prior art keywords
- block
- document
- blocks
- visual element
- metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims description 336
- 238000000034 method Methods 0.000 title claims description 133
- 238000012545 processing Methods 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 20
- 230000002452 interceptive effect Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 12
- 239000003607 modifier Substances 0.000 claims description 8
- 238000009877 rendering Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 description 48
- 206010012601 diabetes mellitus Diseases 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 230000015654 memory Effects 0.000 description 11
- 230000011218 segmentation Effects 0.000 description 8
- 230000003190 augmentative effect Effects 0.000 description 5
- 241000282372 Panthera onca Species 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 206010036067 polydipsia Diseases 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000004580 weight loss Effects 0.000 description 2
- 101001094649 Homo sapiens Popeye domain-containing protein 3 Proteins 0.000 description 1
- 101000608234 Homo sapiens Pyrin domain-containing protein 5 Proteins 0.000 description 1
- 101000578693 Homo sapiens Target of rapamycin complex subunit LST8 Proteins 0.000 description 1
- 208000004880 Polyuria Diseases 0.000 description 1
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 1
- 102100027802 Target of rapamycin complex subunit LST8 Human genes 0.000 description 1
- 206010047513 Vision blurred Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000012489 doughnuts Nutrition 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Description
本出願は、「視覚的要素をブロック分割し、識別し、インデクスを付けて、ドキュメントを検索するためのシステムおよび方法」と題されて2009年10月2日に出願された61/247,973号の、米国特許仮出願の利益を享受するものであり、その内容は参照によって本明細書に組み込まれる。
このセクションにおける記載は、本願の開示に関係した背景となる情報を開示しているに過ぎず、従来技術を構成しない。
計算機器200の各コンポーネント間で通信を可能にするパスを含んでよい。
特に、ドキュメントをブロックに区分けすることは、ドキュメントの視覚的要素を配置する処理においてさらなる助けとなる。ブロック分割およびインデクス付けロジック106(図1)によって識別されたブロックを示すために、図15から図37においては、長方形の点線で描かれたボックスがソースコンテンツに重ね合わされている。図15から図37をさらに参照して後述するように、ブロック分割およびインデクス付けロジック106(図1)は、ブロック視覚的要素のプロファイルとインライン視覚的要素とのデータおよびメタデータのルールにより、ソースコンテンツに含まれる視覚的要素を識別してインデクスを付ける。
〔請求項1〕
ドキュメントを処理する方法であって、
ソースコンテンツとプレゼンテーションセマンティクスとを含むドキュメントの予備的なメタデータを生成し、
前記予備的なメタデータを用いて、前記ドキュメントを1つまたは複数の識別されたブロックに分割し、
前記1つまたは複数の識別されたブロックのブロックリストを用意し、
ブロック処理を用いて、前記ブロックリストに含まれる前記1つまたは複数の識別されたブロックを処理し、
前記ブロックリストに含まれる少なくとも1つの識別されたブロックの少なくとも1つのタイトルのブロックアイテムを識別することを含むことを特徴とする方法。
〔請求項2〕
ドキュメントのソースコンテンツは、マークアップ言語にしたがって形式化されていることを特徴とする請求項1に記載の方法。
〔請求項3〕
前記ドキュメントのソースコンテンツは、平文で形式化されていることを特徴とする請求項1に記載の方法。
〔請求項4〕
前記ドキュメントのソースコンテンツは、インターフェースをとおしてアクセス可能な言語にしたがって形式化されていることを特徴とする請求項1に記載の方法。
〔請求項5〕
前記ドキュメントは、暗黙的なプレゼンテーションセマンティクスであることを特徴とする請求項1に記載の方法。
〔請求項6〕
前記ドキュメントは、リンクされたファイルに含まれる明示的なプレゼンテーションセマンティクスであることを特徴とする請求項1に記載の方法。
〔請求項7〕
前記ドキュメントは、明示的に埋め込まれたプレゼンテーションセマンティクスであることを特徴とする請求項1に記載の方法。
〔請求項8〕
前記予備的なメタデータは、前記ドキュメントのテキストコンテンツから導出可能な任意の情報であることを特徴とする請求項1に記載の方法。
〔請求項9〕
前記予備的なメタデータは、前記ドキュメントのマークアップコンテンツから導出可能な任意の情報であることを特徴とする請求項1に記載の方法。
〔請求項10〕
前記予備的なメタデータは、前記ドキュメントの明示的な、および/または、暗示的なプレゼンテーションセマンティクスから導出可能な任意の情報であることを特徴とする請求項1に記載の方法。
〔請求項11〕
前記予備的なメタデータは、前記ドキュメントの描画から導出可能な任意の情報であることを特徴とする請求項1に記載の方法。
〔請求項12〕
前記予備的なメタデータは、以前に計算されたメタデータから計算される任意の情報であることを特徴とする請求項1に記載の方法。
〔請求項13〕
前記ドキュメントは、所定のメタデータのルールを用いて、ブロックに分割されることを特徴とする請求項1に記載の方法。
〔請求項14〕
前記ブロックは、ネストされることを特徴とする請求項1に記載の方法。
〔請求項15〕
前記ドキュメントの全体はブロックであることを特徴とする請求項1に記載の方法。
〔請求項16〕
子ブロックをもたないブロックは、ブロックアイテムとして識別されることを特徴とする請求項1に記載の方法。
〔請求項17〕
前記ドキュメントのテキストコンテンツは、1つの、かつ、唯一のブロックアイテムに属することを特徴とする請求項1に記載の方法。
〔請求項18〕
前記ブロックリストに含まれるブロックアイテムに対して、ブロックアイテムのフォントメタデータ属性は、ブロックフォントファミリ、ブロックフォントサイズ、およびブロックフォントウェイトが計算されることを特徴とする請求項1に記載の方法。
〔請求項19〕
統計的な最頻値が、ブロックアイテムのフォントメタデータ属性の計算において用いられることを特徴とする請求項18に記載の方法。
〔請求項20〕
統計的な平均値が、ブロックアイテムのフォントメタデータ属性の計算において用いられることを特徴とする請求項18に記載の方法。
〔請求項21〕
数学的な公式が、ブロックアイテムのフォントメタデータ属性の計算において用いられることを特徴とする請求項18に記載の方法。
〔請求項22〕
前記ブロックリストに含まれるブロックアイテムに対して、ブロックアイテムインポータンスのメタデータ属性が計算されることを特徴とする請求項1に記載の方法。
〔請求項23〕
ドキュメントをブロックに分割するときに生成される付加情報は、既存のメタデータに増補されることを特徴とする請求項1に記載の方法。
〔請求項24〕
前記ブロックリストを生成することは、所定のメタデータのルールを用いて、前記ブロックリストから空のブロックを削除することをさらに含むことを特徴とする請求項1に記載の方法。
〔請求項25〕
前記ブロックリストを生成することは、所定のメタデータのルールを用いて、重複したブロックを削除することをさらに含むことを特徴とする請求項1に記載の方法。
〔請求項26〕
前記ブロックリストを生成することは、所定のメタデータのルールを用いて、中間的なブロックを削除することをさらに含むことを特徴とする請求項1に記載の方法。
〔請求項27〕
前記ブロックリストを生成することは、所定のデータおよびメタデータのルールを用いて、ブロックを結合することをさらに含むことを特徴とする請求項1に記載の方法。
〔請求項28〕
前記ブロックリストを生成することは、所定のメタデータのルールを用いて、ブロックを分割することをさらに含むことを特徴とする請求項1に記載の方法。
〔請求項29〕
識別されたブロックのリストを用意するときに生成される付加情報は、既存のメタデータに増補されることを特徴とする請求項1に記載の方法。
〔請求項30〕
検索クエリとの関連性にしたがって、ドキュメントを処理して識別する方法であって、
ソースコンテンツとプレゼンテーションセマンティクスとを含むドキュメントの予備的なメタデータを生成し、
前記予備的なメタデータを用いて、前記ドキュメントをブロックに分割し、
前記識別されたブロックのリストを用意し、
ブロック処理を用いて、前記ブロックのリストに含まれるブロックを処理し、
前記ブロックのリストに含まれるそれぞれのブロックに対して、タイトルのブロックを識別し、
インライン視覚的要素が含まれている場合、所定のデータおよびメタデータのルールを用いて、前記ブロックリストに含まれるブロックアイテムの少なくとも1つのインライン視覚的要素を識別し、
ブロック視覚的要素が含まれている場合、所定のプロファイルを用いて、前記ブロックリストに含まれる少なくとも1つのブロックの少なくとも1つのブロック視覚的要素を識別し、
発見された視覚的要素のインデクスを生成し、
グラフィカルユーザインターフェース(GUI)を介して検索クエリのデータを受信し、前記検索クエリデータは、少なくとも1つの選択された視覚的要素の種類を含み、
前記検索クエリに関係すると決定されたそれぞれのドキュメントを識別して、前記検索クエリに対する応答を生成することを含むことを特徴とする方法。
〔請求項31〕
ドキュメントのソースコンテンツは、マークアップ言語にしたがって形式化されていることを特徴とする請求項30に記載の方法。
〔請求項32〕
前記ドキュメントのソースコンテンツは、平文で形式化されていることを特徴とする請求項30に記載の方法。
〔請求項33〕
前記ドキュメントのソースコンテンツは、インターフェースをとおしてアクセス可能な言語にしたがって形式化されていることを特徴とする請求項30に記載の方法。
〔請求項34〕
前記ドキュメントは、暗黙的なプレゼンテーションセマンティクスであることを特徴とする請求項30に記載の方法。
〔請求項35〕
前記ドキュメントは、リンクされたファイルに含まれる明示的なプレゼンテーションセマンティクスであることを特徴とする請求項30に記載の方法。
〔請求項36〕
前記ドキュメントは、明示的に埋め込まれたプレゼンテーションセマンティクスであることを特徴とする請求項30に記載の方法。
〔請求項37〕
前記予備的なメタデータは、前記ドキュメントのテキストコンテンツから導出可能な任意の情報であることを特徴とする請求項30に記載の方法。
〔請求項38〕
前記予備的なメタデータは、前記ドキュメントのマークアップコンテンツから導出可能な任意の情報であることを特徴とする請求項30に記載の方法。
〔請求項39〕
前記予備的なメタデータは、前記ドキュメントの明示的な、および/または、暗示的なプレゼンテーションセマンティクスから導出可能な任意の情報であることを特徴とする請求項30に記載の方法。
〔請求項40〕
前記予備的なメタデータは、前記ドキュメントの描画から導出可能な任意の情報であることを特徴とする請求項30に記載の方法。
〔請求項41〕
前記予備的なメタデータは、以前に計算されたメタデータから計算される任意の情報であることを特徴とする請求項30に記載の方法。
〔請求項42〕
前記ドキュメントは、所定のメタデータのルールを用いて、ブロックに分割されることを特徴とする請求項30に記載の方法。
〔請求項43〕
前記ブロックは、ネストされることを特徴とする請求項30に記載の方法。
〔請求項44〕
前記ドキュメントの全体はブロックであることを特徴とする請求項30に記載の方法。
〔請求項45〕
子ブロックをもたないブロックは、ブロックアイテムとして識別されることを特徴とする請求項30に記載の方法。
〔請求項46〕
前記ドキュメントのテキストコンテンツは、1つの、かつ、唯一のブロックアイテムに属することを特徴とする請求項30に記載の方法。
〔請求項47〕
前記ブロックリストに含まれるブロックアイテムに対して、ブロックアイテムのフォントメタデータ属性は、ブロックフォントファミリ、ブロックフォントサイズ、およびブロックフォントウェイトが計算されることを特徴とする請求項30に記載の方法。
〔請求項48〕
統計的な最頻値が、ブロックアイテムのフォントメタデータ属性の計算において用いられることを特徴とする請求項30に記載の方法。
〔請求項49〕
統計的な平均値が、ブロックアイテムのフォントメタデータ属性の計算において用いられることを特徴とする請求項30に記載の方法。
〔請求項50〕
数学的な公式が、ブロックアイテムのフォントメタデータ属性の計算において用いられることを特徴とする請求項30に記載の方法。
〔請求項51〕
前記ブロックリストに含まれるブロックアイテムに対して、ブロックアイテムインポータンスのメタデータ属性が計算されることを特徴とする請求項30に記載の方法。
〔請求項52〕
ドキュメントをブロックに分割するときに生成される付加情報は、既存のメタデータに増補されることを特徴とする請求項30に記載の方法。
〔請求項53〕
前記ブロックリストを生成することは、所定のメタデータのルールを用いて、前記ブロックリストから空のブロックを削除することをさらに含むことを特徴とする請求項30に記載の方法。
〔請求項54〕
前記ブロックリストを生成することは、所定のメタデータのルールを用いて、重複したブロックを削除することをさらに含むことを特徴とする請求項30に記載の方法。
〔請求項55〕
前記ブロックリストを生成することは、所定のメタデータのルールを用いて、中間的なブロックを削除することをさらに含むことを特徴とする請求項30に記載の方法。
〔請求項56〕
前記ブロックリストを生成することは、所定のデータおよびメタデータのルールを用いて、ブロックを結合することをさらに含むことを特徴とする請求項30に記載の方法。
〔請求項57〕
前記ブロックリストを生成することは、所定のメタデータのルールを用いて、ブロックを分割することをさらに含むことを特徴とする請求項30に記載の方法。
〔請求項58〕
識別されたブロックのリストを用意するときに生成される付加情報は、既存のメタデータに増補されることを特徴とする請求項30に記載の方法。
〔請求項59〕
前記視覚的要素の種類は、リストであることを特徴とする請求項30に記載の方法。
〔請求項60〕
前記視覚的要素の種類は、表であることを特徴とする請求項30に記載の方法。
〔請求項61〕
前記視覚的要素の種類は、パラグラフであることを特徴とする請求項30に記載の方法。
〔請求項62〕
前記視覚的要素の種類は、メニューであることを特徴とする請求項30に記載の方法。
〔請求項63〕
前記視覚的要素の種類は、キー/値であることを特徴とする請求項30に記載の方法。
〔請求項64〕
前記視覚的要素の種類は、質問/回答であることを特徴とする請求項30に記載の方法。
〔請求項65〕
前記視覚的要素の種類は、固定幅テキストであることを特徴とする請求項30に記載の方法。
〔請求項66〕
前記視覚的要素の種類は、グラフ/チャートであることを特徴とする請求項30に記載の方法。
〔請求項67〕
前記視覚的要素の種類は、インタラクティブであることを特徴とする請求項30に記載の方法。
〔請求項68〕
前記視覚的要素の種類は、タイムラインであることを特徴とする請求項30に記載の方法。
〔請求項69〕
前記所定のプロファイルは、1つまたは複数の所定のブロックにおける、所定のデータおよびメタデータの集合であることを特徴とする請求項30に記載の方法。
〔請求項70〕
前記タイトルは、インライン視覚的要素およびブロック視覚的要素の両方のために識別されることを特徴とする請求項30に記載の方法。
〔請求項71〕
視覚的要素の特定の性質は、インライン視覚的要素およびブロック視覚的要素の両方のために識別されることを特徴とする請求項30に記載の方法。
〔請求項72〕
少なくとも1つの所定のヒントは、少なくとも1つの視覚的要素に関して、ドキュメントの著者または所有者によって、ドキュメントのソースコンテンツの中で提供されることを特徴とする請求項30に記載の方法。
〔請求項73〕
前記ヒントは、前記視覚的要素を識別することを特徴とする請求項72に記載の方法。
〔請求項74〕
前記ヒントは、前記視覚的要素の種類を識別することを特徴とする請求項72に記載の方法。
〔請求項75〕
前記ヒントは、前記視覚的要素のタイトルを識別することを特徴とする請求項72に記載の方法。
〔請求項76〕
前記ヒントは、前記視覚的要素の特徴を識別することを特徴とする請求項72に記載の方法。
〔請求項77〕
インライン視覚的要素およびブロック視覚的要素に用意されるインデクスは、視覚的要素のタイトルおよび視覚的要素の特別な特徴を含むことを特徴とする請求項30に記載の方法。
〔請求項78〕
前記GUIは、視覚的要素の種類を指定するためにユーザが選択するための、キーワードを入力するテキストボックスに隣接したトグルボタンを含むことを特徴とする請求項30に記載の方法。
〔請求項79〕
前記GUIは、視覚的要素の種類を指定するためにユーザが選択するための、キーワードを入力するテキストボックスに隣接したチェックボックスを含むことを特徴とする請求項30に記載の方法。
〔請求項80〕
前記GUIは、受信するステップにおいて検索クエリが受信されるたびに、当該検索クエリに関係したデータを表示することを特徴とする請求項30に記載の方法。
〔請求項81〕
前記GUIは、受信するステップにおいて検索クエリが受信されるたびに、当該検索クエリに関係した応答結果を表示することを特徴とする請求項30に記載の方法。
〔請求項82〕
前記検索クエリは、少なくとも1つの視覚的要素の種類を含むリクエストを含むことを特徴とする請求項30に記載の方法。
〔請求項83〕
前記検索クエリは、少なくとも1つの視覚的要素の特定の性質を含むリクエストを含むことを特徴とする請求項30に記載の方法。
〔請求項84〕
前記検索クエリは、少なくとも1つの負のモディファイアを含むリクエストを含むことを特徴とする請求項30に記載の方法。
〔請求項85〕
前記検索クエリは、少なくとも1つのモディファイアを含むリクエストを含むことを特徴とする請求項30に記載の方法。
〔請求項86〕
前記検索クエリは、少なくとも1つの制限された位置オペレータを含むリクエストを含むことを特徴とする請求項30に記載の方法。
〔請求項87〕
前記検索クエリは、少なくとも1つの視覚的要素の種類の識別オペレータを含むリクエストを含むことを特徴とする請求項30に記載の方法。
〔請求項88〕
前記検索クエリは、少なくとも1つの全包括的オペレータを含むリクエストを含むことを特徴とする請求項30に記載の方法。
〔請求項89〕
前記応答結果は、ユーザが要求した視覚的要素の種類で示されることを特徴とする請求項30に記載の方法。
〔請求項90〕
前記応答結果は、前記視覚的要素の種類で、および元のドキュメントで発見された前記視覚的要素と同一のプレゼンテーションセマンティクスで示されることを特徴とする請求項30に記載の方法。
〔請求項91〕
前記応答結果は、水平リストの形式で示されることを特徴とする請求項30に記載の方法。
〔請求項92〕
前記応答結果は、垂直リストの形式で示されることを特徴とする請求項30に記載の方法。
〔請求項93〕
前記応答結果は、格子の形式で示されることを特徴とする請求項30に記載の方法。
〔請求項94〕
前記応答を生成するステップは、広告データを表示することをさらに含むことを特徴とする請求項30に記載の方法。
〔請求項95〕
前記応答を生成するステップは、選択された前記視覚的要素の種類に基づいて、広告データを表示することをさらに含むことを特徴とする請求項30に記載の方法。
〔請求項96〕
1つまたは複数のウェブサーバと通信可能に接続されたネットワーク機器と、
前記ネットワーク機器を介して、前記1つまたは複数のウェブサーバから少なくとも1つのドキュメントを受信するように設計されたロジックとを含み、
前記ロジックは、前記ドキュメントの予備的なメタデータを生成するようにさらに設計され、
前記ドキュメントは、ドキュメントのコンテンツを含み、前記ドキュメントのコンテンツを分割し、前記予備的なメタデータを用いて1つまたは複数の識別されたブロックに分割し、1つまたは複数の識別されたブロックのリストを用意し、それぞれのブロックは、少なくとも1つのブロックアイテムを含み、
前記ロジックは、ブロック処理を用いて前記識別されたブロックを処理し、前記識別されたブロックのそれぞれに含まれるタイトルのブロックアイテムを識別するようにさらに設計されていることを特徴とする分割システム。
〔請求項97〕
1つまたは複数のウェブサーバと通信可能に接続されたネットワーク機器と、
前記ネットワーク機器を介して、前記1つまたは複数のウェブサーバからドキュメントを検索するように設計されたロジックとを含み、
前記ロジックは、前記ドキュメントの予備的なメタデータを生成するようにさらに設計され、
前記ドキュメントは、ドキュメントのコンテンツを含み、前記ドキュメントのコンテンツを分割し、前記予備的なメタデータを用いて1つまたは複数の識別されたブロックに分割し、1つまたは複数の識別されたブロックのリストを用意し、それぞれのブロックは、少なくとも1つのブロックアイテムを含み、
前記ロジックは、ブロック処理を用いて発見されたブロックを処理し、データおよびメタデータを用いて、それぞれのブロックアイテムに含まれるインライン視覚的要素を識別するようにさらに設計されており、
前記ロジックは、プロファイルを用いて前記識別されたブロックおよびブロックアイテムのそれぞれに含まれるブロック視覚的要素を識別し、発見された視覚的要素のインデクスを生成するようにさらに設計されており、
前記ロジックは、検索クエリの一部として1つまたは複数の視覚的要素に対するリクエストをユーザから受信するようにさらに設計されており、
前記検索クエリは、視覚的要素の種類をさらに含み、当該検索クエリに対する応答をユーザに対して生成することを特徴とする検索システム。
Claims (15)
- 検索クエリとの関連性にしたがって、元のドキュメントを処理して識別するコンピュータが実行する方法であって、
ソースコンテンツとプレゼンテーションセマンティクスとを含むドキュメントの予備的なメタデータを生成し、
前記予備的なメタデータのメタデータ属性のルールであるブロック識別基準の集合を用いて、前記ドキュメントを、1つまたは複数のブロックに識別されたブロックであって、表示されたときに視覚的に識別される当該ドキュメント内の視覚的要素を含むブロックに分割し、
識別されたブロックのリストを用意し、
ブロック処理を用いて前記ブロックを処理し、
前記ブロックのリストに含まれるそれぞれのブロックに対して、タイトルのブロックを識別し、
インライン視覚的要素が含まれている場合、所定のデータおよびメタデータのルールを用いて、ブロックアイテムに含まれる少なくとも1つのインライン視覚的要素を識別し、
ブロック視覚的要素が含まれている場合、所定のプロファイルを用いて、少なくとも1つの前記ブロックに含まれる少なくとも1つのブロック視覚的要素を識別し、
発見された視覚的要素のインデクスを生成し、
受信された検索クエリのデータに基づいて検索クエリを実行し、前記検索クエリのデータは、少なくとも1つの選択された視覚的要素の種類を含み、
前記検索クエリに関係すると決定されたそれぞれのドキュメントを識別して、前記検索クエリに対する応答を生成することを含むことを特徴とする方法。 - 前記予備的なメタデータは、ドキュメントのテキストコンテンツ、ドキュメントのマークアップコンテンツ、ドキュメントの明示的および/または暗示的なプレゼンテーションセマンティクス、ドキュメントのレンダリング、または、メタデータから導出可能な任意の情報であることを特徴とする請求項1に記載の方法。
- 子ブロックを持たないブロックに対して、ブロックアイテムインポータンスのメタデータ属性が計算されることを特徴とする請求項1に記載の方法。
- 前記ブロックを処理することは、所定のメタデータのルールを用いて、空のブロックを削除すること、重複したブロックを削除すること、中間的なブロックを削除すること、ブロックを結合すること、または、ブロックを分割することをさらに含むことを特徴とする請求項1に記載の方法。
- 前記視覚的要素の種類は、リスト、表、パラグラフ、メニュー、キー/値、質問/回答、固定幅テキスト、グラフ/チャート、インタラクティブ、および、タイムラインから成る群から選択された1つであることを特徴とする請求項1に記載の方法。
- 前記所定のプロファイルは、1つまたは複数のブロックにおける、所定のデータおよびメタデータの集合であることを特徴とする請求項1に記載の方法。
- タイトルは、インライン視覚的要素およびブロック視覚的要素の両方のために識別されることを特徴とする請求項1に記載の方法。
- 前記視覚的要素の種類に特有の情報は、インライン視覚的要素およびブロック視覚的要素の両方のために識別されることを特徴とする請求項1に記載の方法。
- 少なくとも1つの所定のヒントは、少なくとも1つの視覚的要素に関して、ドキュメントの著者または所有者によって、ドキュメントのソースコンテンツの中で提供され、前記視覚的要素、前記視覚的要素の種類、前記視覚的要素のタイトル、または、前記視覚的要素の前記種類に特有の情報を識別することを特徴とする請求項1に記載の方法。
- インライン視覚的要素およびブロック視覚的要素に用意されるインデクスは、視覚的要素のタイトルおよび前記視覚的要素の種類に特有の情報を含むことを特徴とする請求項1に記載の方法。
- 視覚的要素の種類を指定するためにユーザが選択するための、キーワードを入力するテキストボックスに隣接したトグルボタンまたはチェックボックスが、前記コンピュータによって提供されるグラフィカルユーザインターフェース(GUI)に含まれることを特徴とする請求項1に記載の方法。
- 前記検索クエリは、少なくとも1つの視覚的要素の種類、前記少なくとも1つの視覚的要素の前記種類に特有の情報、少なくとも1つの「not」モディファイア、少なくとも1つのモディファイア、少なくとも1つのオペレータ「site」、少なくとも1つの視覚的要素の種類の識別オペレータ、または、少なくとも1つのオペレータ「comp」を含むリクエストを含むことを特徴とする請求項1に記載の方法。
- 応答結果は、ユーザが要求した視覚的要素の種類で示されることを特徴とする請求項1に記載の方法。
- 応答結果は、水平リストの形式、垂直リストの形式、または、格子の形式で示されることを特徴とする請求項1に記載の方法。
- 1つまたは複数のウェブサーバと通信可能に接続されたネットワーク機器と、
前記ネットワーク機器を介して、前記1つまたは複数のウェブサーバから元のドキュメントを検索するように設計されたロジックとを含み、
前記ロジックは、前記ドキュメントの予備的なメタデータを生成するようにさらに設計され、
前記ドキュメントは、ドキュメントのコンテンツを含み、前記予備的なメタデータのメタデータ属性のルールであるブロック識別基準の集合を用いて前記ドキュメントを、1つまたは複数の識別されたブロックであって、表示されたときに視覚的に識別される当該ドキュメント内の視覚的要素を含むブロックに分割し、前記ブロックのリストを用意し、それぞれのブロックは、少なくとも1つのブロックアイテムを含み、
前記ロジックは、ブロック処理を用いて発見された前記ブロックを処理し、インライン視覚的要素が含まれている場合、所定のデータおよびメタデータのルールを用いて、それぞれのブロックアイテムに含まれるインライン視覚的要素を識別するようにさらに設計されており、
前記ロジックは、ブロック視覚的要素が含まれている場合、所定のプロファイルを用いて、少なくとも1つの前記ブロックに含まれるブロック視覚的要素を識別し、発見された視覚的要素のインデクスを生成するようにさらに設計されており、
前記ロジックは、検索クエリのデータの受信に基づいて、検索クエリを実行し、当該検索クエリに対するユーザへの応答を生成するようにさらに設計されており、
前記検索クエリは、視覚的要素の種類をさらに含むことを特徴とする検索システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US24797309P | 2009-10-02 | 2009-10-02 | |
US61/247,973 | 2009-10-02 | ||
PCT/US2010/051357 WO2011041795A1 (en) | 2009-10-02 | 2010-10-04 | System and method for block segmenting, identifying and indexing visual elements, and searching documents |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2013506913A JP2013506913A (ja) | 2013-02-28 |
JP2013506913A5 JP2013506913A5 (ja) | 2013-11-21 |
JP6116247B2 true JP6116247B2 (ja) | 2017-04-19 |
Family
ID=43823993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012532139A Active JP6116247B2 (ja) | 2009-10-02 | 2010-10-04 | 視覚的要素をブロック分割し、識別し、インデクスを付けて、ドキュメントを検索するためのシステムおよび方法 |
Country Status (7)
Country | Link |
---|---|
US (4) | US10223455B2 (ja) |
EP (1) | EP2483816A4 (ja) |
JP (1) | JP6116247B2 (ja) |
CN (1) | CN102741838B (ja) |
AU (2) | AU2010300317C1 (ja) |
CA (1) | CA2776541A1 (ja) |
WO (1) | WO2011041795A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8499000B2 (en) * | 2009-07-30 | 2013-07-30 | Novell, Inc. | System and method for floating index navigation |
US9229984B2 (en) * | 2011-01-25 | 2016-01-05 | Hewlett Packard Enterprise Development Lp | Parameter expressions for modeling user defined function execution in analytical data processing systems |
US9355145B2 (en) | 2011-01-25 | 2016-05-31 | Hewlett Packard Enterprise Development Lp | User defined function classification in analytical data processing systems |
EP2857986A4 (en) * | 2012-05-31 | 2015-10-14 | Fujitsu Ltd | INDEX GENERATION PROGRAM AND RESEARCH PROGRAM |
US9721010B2 (en) * | 2012-12-13 | 2017-08-01 | Microsoft Technology Licensing, Llc | Content reaction annotations |
US10242080B1 (en) * | 2013-11-20 | 2019-03-26 | Google Llc | Clustering applications using visual metadata |
US10503357B2 (en) * | 2014-04-03 | 2019-12-10 | Oath Inc. | Systems and methods for delivering task-oriented content using a desktop widget |
EP3149659A4 (en) * | 2015-02-04 | 2018-01-10 | Vatbox, Ltd. | A system and methods for extracting document images from images featuring multiple documents |
JP6631337B2 (ja) * | 2016-03-14 | 2020-01-15 | コニカミノルタ株式会社 | 検索装置およびプログラム |
US10459900B2 (en) * | 2016-06-15 | 2019-10-29 | International Business Machines Corporation | Holistic document search |
US10698485B2 (en) * | 2016-06-27 | 2020-06-30 | Microsoft Technology Licensing, Llc | Augmenting text narration with haptic feedback |
CN107742096A (zh) * | 2017-09-26 | 2018-02-27 | 阿里巴巴集团控股有限公司 | 获取图表特征信息的方法及装置、电子设备、存储介质 |
CN110633399B (zh) * | 2018-06-01 | 2024-09-13 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN109284480B (zh) * | 2018-07-27 | 2024-01-16 | 创新先进技术有限公司 | 一种业务文档处理方法、装置及服务器 |
US11194953B1 (en) * | 2020-04-29 | 2021-12-07 | Indico | Graphical user interface systems for generating hierarchical data extraction training dataset |
EP4147137A4 (en) * | 2020-05-09 | 2024-05-22 | Intuit Inc. | GENERATING AND EDITING CONTENT USING DATA STRUCTURES |
CN112100426B (zh) * | 2020-09-22 | 2024-05-24 | 哈尔滨工业大学(深圳) | 基于视觉和文本特征的通用表格信息检索的方法与系统 |
US12056946B2 (en) * | 2021-08-12 | 2024-08-06 | Toyota Research Institute, Inc. | Method and system to align quantitative and qualitative statistical information in documents |
US11657078B2 (en) * | 2021-10-14 | 2023-05-23 | Fmr Llc | Automatic identification of document sections to generate a searchable data structure |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6963920B1 (en) * | 1993-11-19 | 2005-11-08 | Rose Blush Software Llc | Intellectual asset protocol for defining data exchange rules and formats for universal intellectual asset documents, and systems, methods, and computer program products related to same |
US5991739A (en) * | 1997-11-24 | 1999-11-23 | Food.Com | Internet online order method and apparatus |
US6763496B1 (en) * | 1999-03-31 | 2004-07-13 | Microsoft Corporation | Method for promoting contextual information to display pages containing hyperlinks |
US6275229B1 (en) * | 1999-05-11 | 2001-08-14 | Manning & Napier Information Services | Computer user interface for graphical analysis of information using multiple attributes |
US20030050927A1 (en) * | 2001-09-07 | 2003-03-13 | Araha, Inc. | System and method for location, understanding and assimilation of digital documents through abstract indicia |
US7177948B1 (en) * | 1999-11-18 | 2007-02-13 | International Business Machines Corporation | Method and apparatus for enhancing online searching |
US20060173873A1 (en) * | 2000-03-03 | 2006-08-03 | Michel Prompt | System and method for providing access to databases via directories and other hierarchical structures and interfaces |
JP3719089B2 (ja) * | 2000-03-16 | 2005-11-24 | 松下電器産業株式会社 | 文書処理装置 |
US8677505B2 (en) * | 2000-11-13 | 2014-03-18 | Digital Doors, Inc. | Security system with extraction, reconstruction and secure recovery and storage of data |
US9311499B2 (en) * | 2000-11-13 | 2016-04-12 | Ron M. Redlich | Data security system and with territorial, geographic and triggering event protocol |
JP3941610B2 (ja) * | 2002-07-08 | 2007-07-04 | 日本電気株式会社 | 情報抽出方法、情報抽出装置および情報抽出プログラム |
JP2004054631A (ja) * | 2002-07-19 | 2004-02-19 | Internatl Business Mach Corp <Ibm> | 情報検索システム、情報検索方法、html文書の構造解析方法及びプログラム |
CN1567303A (zh) * | 2003-07-03 | 2005-01-19 | 富士通株式会社 | 结构文档信息块的自动分割方法和装置 |
US7428700B2 (en) * | 2003-07-28 | 2008-09-23 | Microsoft Corporation | Vision-based document segmentation |
JP2005108006A (ja) * | 2003-09-30 | 2005-04-21 | Sorun Corp | 文書データ管理方法、文書データ管理システム及び文書データ管理用コンピュータプログラム |
US8150824B2 (en) * | 2003-12-31 | 2012-04-03 | Google Inc. | Systems and methods for direct navigation to specific portion of target document |
US7941397B2 (en) * | 2004-02-25 | 2011-05-10 | International Business Machines Corporation | Dynamically capturing data warehouse population activities for analysis, archival, and mining |
US20050210008A1 (en) * | 2004-03-18 | 2005-09-22 | Bao Tran | Systems and methods for analyzing documents over a network |
US8719700B2 (en) * | 2010-05-04 | 2014-05-06 | Xerox Corporation | Matching a page layout for each page of a document to a page template candidate from a list of page layout candidates |
US20100004957A1 (en) * | 2006-01-27 | 2010-01-07 | Robert Ball | Interactive system and methods for insurance-related activities |
US20070150494A1 (en) * | 2006-12-14 | 2007-06-28 | Xerox Corporation | Method for transformation of an extensible markup language vocabulary to a generic document structure format |
JP2008257537A (ja) * | 2007-04-06 | 2008-10-23 | Fuji Xerox Co Ltd | 情報登録装置、情報検索装置、情報検索システム、情報登録プログラム、および情報検索プログラム |
US8335754B2 (en) * | 2009-03-06 | 2012-12-18 | Tagged, Inc. | Representing a document using a semantic structure |
US20110016427A1 (en) * | 2009-07-17 | 2011-01-20 | Andre Gene Douen | Systems, Methods and Articles For Managing Presentation of Information |
US8595220B2 (en) * | 2010-06-16 | 2013-11-26 | Microsoft Corporation | Community authoring content generation and navigation |
-
2010
- 2010-10-04 JP JP2012532139A patent/JP6116247B2/ja active Active
- 2010-10-04 WO PCT/US2010/051357 patent/WO2011041795A1/en active Application Filing
- 2010-10-04 CA CA2776541A patent/CA2776541A1/en not_active Abandoned
- 2010-10-04 AU AU2010300317A patent/AU2010300317C1/en not_active Ceased
- 2010-10-04 EP EP10821413.1A patent/EP2483816A4/en not_active Withdrawn
- 2010-10-04 US US12/897,500 patent/US10223455B2/en active Active
- 2010-10-04 CN CN201080054420.8A patent/CN102741838B/zh not_active Expired - Fee Related
-
2014
- 2014-06-12 US US14/302,448 patent/US9703874B2/en active Active
-
2016
- 2016-05-17 AU AU2016203199A patent/AU2016203199A1/en not_active Abandoned
-
2019
- 2019-01-15 US US16/248,172 patent/US11314824B2/en active Active
-
2022
- 2022-03-24 US US17/703,943 patent/US20220215063A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN102741838B (zh) | 2017-05-03 |
US20110082868A1 (en) | 2011-04-07 |
CN102741838A (zh) | 2012-10-17 |
AU2016203199A1 (en) | 2016-06-16 |
CA2776541A1 (en) | 2011-04-07 |
US11314824B2 (en) | 2022-04-26 |
US10223455B2 (en) | 2019-03-05 |
AU2010300317B2 (en) | 2016-06-09 |
US20220215063A1 (en) | 2022-07-07 |
EP2483816A4 (en) | 2014-04-02 |
US20150363495A1 (en) | 2015-12-17 |
US9703874B2 (en) | 2017-07-11 |
AU2010300317C1 (en) | 2016-09-01 |
WO2011041795A1 (en) | 2011-04-07 |
US20190147010A1 (en) | 2019-05-16 |
EP2483816A1 (en) | 2012-08-08 |
AU2010300317A1 (en) | 2012-05-24 |
JP2013506913A (ja) | 2013-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11314824B2 (en) | System and method for block segmenting, identifying and indexing visual elements, and searching documents | |
US11354356B1 (en) | Video segments for a video related to a task | |
US7873901B2 (en) | Small form factor web browsing | |
US9514216B2 (en) | Automatic classification of segmented portions of web pages | |
US8135739B2 (en) | Online relevance engine | |
JP5603337B2 (ja) | バーティカル提案により検索要求を支援するためのシステム及び方法 | |
US7904455B2 (en) | Cascading cluster collages: visualization of image search results on small displays | |
RU2696305C2 (ru) | Браузинг изображений через интеллектуально проанализированные связанные гиперссылкой фрагменты текста | |
US20150067476A1 (en) | Title and body extraction from web page | |
US20080294619A1 (en) | System and method for automatic generation of search suggestions based on recent operator behavior | |
US20030237053A1 (en) | Function-based object model for web page display in a mobile device | |
US20050081146A1 (en) | Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus | |
KR20070039072A (ko) | 검색 엔진에서의 결과물 기반의 광고 개인화 | |
BRPI0203479B1 (pt) | Sistema para enriquecer conteúdo de documento | |
US10282358B2 (en) | Methods of furnishing search results to a plurality of client devices via a search engine system | |
Ahmadi et al. | User-centric adaptation of Web information for small screens | |
JP5146108B2 (ja) | 文書重要度算出システム、文書重要度算出方法およびプログラム | |
JP6800478B2 (ja) | Webページを構成する成分キーワードの評価プログラム | |
US20160019269A1 (en) | System and method for variable presentation semantics of search results in a search environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131004 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131004 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140520 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140820 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150624 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20150731 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20151002 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20160707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161019 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170321 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6116247 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R154 | Certificate of patent or utility model (reissue) |
Free format text: JAPANESE INTERMEDIATE CODE: R154 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |