JP2012515407A - Retrieve and display information from unstructured electronic document collections - Google Patents

Retrieve and display information from unstructured electronic document collections Download PDF

Info

Publication number
JP2012515407A
JP2012515407A JP2011546411A JP2011546411A JP2012515407A JP 2012515407 A JP2012515407 A JP 2012515407A JP 2011546411 A JP2011546411 A JP 2011546411A JP 2011546411 A JP2011546411 A JP 2011546411A JP 2012515407 A JP2012515407 A JP 2012515407A
Authority
JP
Japan
Prior art keywords
instance
collection
attribute
structured
structured presentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011546411A
Other languages
Japanese (ja)
Other versions
JP5581339B2 (en
JP2012515407A5 (en
Inventor
ダニエル・エヌ・クアイン
ダニエル・ロレト
ボグダン・カプリタ
アントネッラ・パヴィーズ
ジェフリー・シー・レイナー
アンドリュー・ウィリアム・ホーグ
アンソニー・ジェイ・アイウト
ジョン・アレクサンダー・コモロスケ
Original Assignee
グーグル・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US12/355,607 external-priority patent/US8615707B2/en
Priority claimed from US12/355,103 external-priority patent/US8977645B2/en
Priority claimed from US12/355,228 external-priority patent/US20100185651A1/en
Priority claimed from US12/355,459 external-priority patent/US8412749B2/en
Priority claimed from US12/355,554 external-priority patent/US8452791B2/en
Application filed by グーグル・インコーポレーテッド filed Critical グーグル・インコーポレーテッド
Publication of JP2012515407A publication Critical patent/JP2012515407A/en
Publication of JP2012515407A5 publication Critical patent/JP2012515407A5/ja
Application granted granted Critical
Publication of JP5581339B2 publication Critical patent/JP5581339B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

非構造化電子文書コレクションから情報を取り出し、表示するための、コンピュータ記憶媒体上に格納されているコンピュータプログラムを含む、方法、システム、および装置を実現する。一態様は、ユーザーから機械可読検索クエリを受け取るアクションと検索クエリに関連するインスタンスの構造化プレゼンテーションをユーザーに提示するための命令で検索クエリに応答するアクションを含む機械実装方法により具現化されうる。構造化プレゼンテーションの視覚的提示は、インスタンスとインスタンスの属性を特徴付ける値との間の関連付けを、インスタンスの識別子と値の配列によって表す。  A method, system, and apparatus is implemented that includes a computer program stored on a computer storage medium for retrieving and displaying information from an unstructured electronic document collection. One aspect may be embodied by a machine-implemented method that includes an action to receive a machine-readable search query from a user and an action to respond to the search query with instructions for presenting the user with a structured presentation of instances associated with the search query. The visual presentation of a structured presentation represents the association between an instance and the values that characterize the attributes of the instance by an array of instance identifiers and values.

Description

本明細書は、非構造化電子文書コレクション(unstructured electronic document collection)から情報を取り出して表示する方法に関する。   The present specification relates to a method for extracting and displaying information from an unstructured electronic document collection.

電子文書は、機械可読データのコレクションである。電子文書は、一般的に個別のファイルであり、定義済みのフォーマット(例えば、PDF、TIFF、HTML、MS Word、PCL、PostScript、または同様のもの)に従ってフォーマットされる。電子文書は、電子的に格納され、電子的に配布されうる。いくつかの場合において、電子文書は、オーディオコンテンツ、ビジュアルコンテンツ、および他の情報、さらにはテキストおよび他の電子文書へのリンクを含む。   An electronic document is a collection of machine-readable data. Electronic documents are typically individual files and are formatted according to a predefined format (eg, PDF, TIFF, HTML, MS Word, PCL, PostScript, or the like). Electronic documents can be stored electronically and distributed electronically. In some cases, the electronic document includes audio content, visual content, and other information, as well as links to text and other electronic documents.

電子文書は、電子文書コレクションにまとめることができる。電子文書コレクションは、構造化されていないか、または構造化されているかのいずれかとすることができる。非構造化電子文書コレクションに含まれる文書のフォーマットは、所定の構造に準じるように制約されず、多くの場合に予見できない形で発展しうる。言い換えると、非構造化電子文書コレクション内の個別の文書のフォーマットは、文書コレクション全体にわたって制限的でも、または永続的でもない。さらに、非構造化電子文書コレクションでは、新規文書があるフォーマットに従うこと、またはフォーマットへの変更がすでに存在している文書に適用されることを確実にするためのメカニズムはない。したがって、非構造化電子文書コレクション内の文書は、情報の抽出の際に利用可能な共通構造を共有することを期待できない。非構造化電子文書コレクションの例として、インターネット上で利用可能な文書、レジュメのコレクション、雑誌記事のコレクション、およびニュース記事のコレクションが挙げられる。いくつかの非構造化電子文書コレクション内の文書は、そのコレクションの内部の他の文書および外部の他の文書へのリンクを含むことを禁じられる。   Electronic documents can be collected in an electronic document collection. Electronic document collections can be either unstructured or structured. The format of documents included in an unstructured electronic document collection is not constrained to conform to a predetermined structure and can evolve in an unpredictable manner in many cases. In other words, the format of individual documents within an unstructured electronic document collection is neither restrictive nor persistent throughout the document collection. Furthermore, in an unstructured electronic document collection, there is no mechanism for ensuring that a new document follows a certain format, or that changes to the format are applied to an existing document. Therefore, documents in an unstructured electronic document collection cannot be expected to share a common structure that can be used when extracting information. Examples of unstructured electronic document collections include documents available on the Internet, resume collections, magazine article collections, and news article collections. Documents in some unstructured electronic document collections are prohibited from including links to other documents inside the collection and other documents outside the collection.

それとは対照的に、構造化電子文書コレクション内の文書は、一般的には、制限的でかつ永続的とすることができるフォーマットに従う。構造化電子文書コレクション内の文書に適用されるフォーマットは、適用されるフォーマットが完全には適していない場合でも共通フォーマットがそれらのコレクション内の文書すべてに適用されるという点において制限的であってよい。これらのフォーマットは、構造化電子文書コレクションを構築する当事者による特定のフォーマットへの顕著な関わりが一般的に要求されるという点で永続的であってよい。さらに、これらのコレクションのユーザー(特に、コレクション内の文書を使用するプログラム)は、期待されるフォーマットを有する文書に依存する。その結果、フォーマットの変更は、実施しにくいことがある。構造化電子文書コレクションは、情報内容が単純で安定したカテゴリ化に役立つアプリケーションに最適である。したがって、構造化電子文書コレクション内の文書は、情報の抽出の際に利用可能な共通構造を一般的には共有する。構造化電子文書コレクションの例として、階層データモデルおよびリレーショナルデータモデルに従ってデータベース管理システム(DBMS)を通じて整理され、閲覧されるデータベース、さらには情報を矛盾なく提示するように単一のエンティティによって作成された電子文書のコレクションが挙げられる。例えば、個別の書籍に関する情報を提示するためにオンライン書店が提供するウェブページのコレクションは、構造化電子文書コレクションを形成することができる。他の例として、サーバーサイドスクリプトによって作成され、アプリケーションサーバーを通じて閲覧されるウェブページのコレクションは、構造化電子文書コレクションを形成することができる。そこで、1つまたは複数の構造化電子文書コレクションのそれぞれを、非構造化電子文書コレクションのサブセットとしてもよい。   In contrast, documents in a structured electronic document collection generally follow a format that can be restrictive and permanent. The format applied to documents in structured electronic document collections is restrictive in that a common format applies to all documents in those collections, even if the applied format is not entirely suitable. Good. These formats may be permanent in that a significant involvement in a particular format by the party building the structured electronic document collection is generally required. In addition, users of these collections (especially programs that use the documents in the collection) rely on documents having the expected format. As a result, format changes can be difficult to implement. Structured electronic document collections are ideal for applications that help categorize information content simply and stably. Thus, the documents in a structured electronic document collection generally share a common structure that can be used in extracting information. An example of a structured electronic document collection, organized through a database management system (DBMS) according to a hierarchical data model and a relational data model, created by a single entity to present and consistently present a database to be viewed A collection of electronic documents. For example, a collection of web pages provided by an online bookstore to present information about individual books can form a structured electronic document collection. As another example, a collection of web pages created by server-side script and viewed through an application server can form a structured electronic document collection. Thus, each of the one or more structured electronic document collections may be a subset of the unstructured electronic document collection.

本明細書では、非構造化電子文書コレクション、例えば、インターネット上で利用可能な電子文書から情報を取り出し、表示する段階に関係する技術について説明する。電子文書コレクションは非構造化コレクションであってよいが、非構造化電子文書コレクションの情報内容は、構造化プレゼンテーション(structured presentation)で表示することができる。特に、非構造化電子文書コレクションの情報内容は、属性の値を決定するためだけではなく、構造化プレゼンテーションで属性およびインスタンスを識別し、選択し、名前を付けるためにも使用できる。このような構造化プレゼンテーションを使用すると、情報源の多様性にもかかわらず、情報を首尾一貫した様式でユーザーに提示することができる。構造化プレゼンテーションの例として、テーブル、およびレコードの他のコレクションが挙げられる。   In this specification, a technique related to the stage of extracting and displaying information from an unstructured electronic document collection, for example, an electronic document available on the Internet will be described. The electronic document collection may be an unstructured collection, but the information content of the unstructured electronic document collection can be displayed in a structured presentation. In particular, the information content of an unstructured electronic document collection can be used not only to determine attribute values, but also to identify, select, and name attributes and instances in structured presentations. Using such structured presentations, information can be presented to the user in a consistent manner despite the diversity of information sources. Examples of structured presentations include tables and other collections of records.

一般に、本明細書で説明される発明対象の一態様は、ユーザーから機械可読検索クエリを受け取るアクションと、検索クエリに関連するインスタンスの構造化プレゼンテーションをユーザーに提示するための命令で検索クエリに応答するアクションとを含む機械実装方法により具現化されうる。構造化プレゼンテーションの視覚的提示は、インスタンスとインスタンスの属性を特徴付ける値との間の関連付けを、インスタンスの識別子と値の配列によって表す。インスタンスの識別子と値は、電子文書の非構造化コレクション内の2つまたはそれ以上の文書から引き出される。電子文書コレクションは、電子文書コレクション内の電子文書のフォーマットが制限的でも永続的でもないという点で非構造化コレクションである。   In general, one aspect of the subject matter described herein is to respond to a search query with an action to receive a machine-readable search query from a user and instructions for presenting the user with a structured presentation of instances associated with the search query. And an action to be implemented. The visual presentation of a structured presentation represents the association between an instance and the values that characterize the attributes of the instance by an array of instance identifiers and values. Instance identifiers and values are derived from two or more documents in an unstructured collection of electronic documents. An electronic document collection is an unstructured collection in that the format of electronic documents within the electronic document collection is neither restrictive nor permanent.

この態様および他の態様は、以下の特徴のうちの1つまたは複数を含みうる。検索クエリに応答する段階は、インスタンスに関係する非構造化コレクション内の電子文書の第1のコレクションを識別する段階と、電子文書の第1のコレクションからインスタンスの属性の値を抽出する段階と、構造化プレゼンテーションに2つまたはそれ以上の電子文書から抽出された値を書き込む段階とを含むことができる。検索クエリに応答する段階は、第1の電子文書から第1のインスタンスの第1の属性の第1の値を抽出する段階と、第2の電子文書から第1のインスタンスの第2の属性の第2の値を抽出する段階と、第1の値および第2の値を第1のインスタンスに構造化プレゼンテーションにおいて単一のものとして関連付ける段階とを含むことができる。第1の属性は、第2の属性と異なっていてよく、また第1の電子文書は、第2の電子文書と異なっていてよい。検索クエリに応答する段階は、第1の電子文書から第1のインスタンスの属性の第1の値を抽出する段階と、第1の電子文書から第2のインスタンスの属性の第2の値を抽出する段階と、第1の値を第1のレコード内の第1のインスタンスに関連付ける段階と、第2の値を第2のレコード内の第2のインスタンスに関連付ける段階とを含むことができる。第1のインスタンスは、第2のインスタンスと異なっていてもよい。構造化プレゼンテーションは、テーブルを含み、レコードは、そのテーブルの行または列を含むことができる。構造化プレゼンテーションは、カードのコレクションを含み、レコードは、そのコレクション内の個別のカードであってよい。この方法は、新規インスタンスを構造化プレゼンテーションに追加するためのトリガーを受け取る段階、およびそのトリガーに応答して構造化プレゼンテーションに追加する新規インスタンスを提案する段階も含むことができる。この方法は、ユーザーから制約条件の指定を受け取る段階を含むこともでき、また新規インスタンスを提案する段階は、ユーザー指定制約条件を満たす新規インスタンスを提案する段階を含む。この方法は、新規属性を構造化プレゼンテーションに追加するためのトリガーを受け取る段階と、そのトリガーに応答して構造化プレゼンテーションに新規属性を追加する段階とを含むことができる。この方法は、新規属性の特質のユーザー指定を受け取る段階と、ユーザー指定の特質に基づいて構造化プレゼンテーションに属性の値を書き込む段階とを含むこともできる。非構造化電子文書コレクションは、インターネット上で利用可能な電子文書を含むことができる。構造化プレゼンテーションは、ディスプレイ画面の1つまたは複数の要素を物理的に変換する段階を含めて、ディスプレイ画面上に物理的に提示することができる。   This and other aspects can include one or more of the following features. Responding to the search query includes identifying a first collection of electronic documents in an unstructured collection related to the instance; extracting an instance attribute value from the first collection of electronic documents; Writing values extracted from two or more electronic documents to a structured presentation. Responsive to the search query includes extracting a first value of the first attribute of the first instance from the first electronic document and second attribute of the first instance from the second electronic document. Extracting a second value and associating the first value and the second value with the first instance as a single in the structured presentation may be included. The first attribute may be different from the second attribute, and the first electronic document may be different from the second electronic document. In response to the search query, the first value of the first instance attribute is extracted from the first electronic document, and the second value of the second instance attribute is extracted from the first electronic document. And associating the first value with the first instance in the first record and associating the second value with the second instance in the second record. The first instance may be different from the second instance. A structured presentation includes a table, and a record can include a row or column of the table. A structured presentation includes a collection of cards, and a record may be an individual card within that collection. The method can also include receiving a trigger to add a new instance to the structured presentation and proposing a new instance to add to the structured presentation in response to the trigger. The method can also include receiving a constraint specification from the user, and proposing a new instance includes proposing a new instance that satisfies the user-specified constraint condition. The method can include receiving a trigger to add a new attribute to the structured presentation and adding a new attribute to the structured presentation in response to the trigger. The method may also include receiving a user designation of the new attribute characteristic and writing an attribute value to the structured presentation based on the user-specified characteristic. An unstructured electronic document collection can include electronic documents available on the Internet. A structured presentation can be physically presented on the display screen, including physically transforming one or more elements of the display screen.

この態様の他の実施形態は、対応するシステム、装置、およびそれぞれこれらの方法のオペレーションを実行するように構成されているコンピュータ記憶デバイス上に記録されたコンピュータプログラムを含む。   Other embodiments of this aspect include corresponding systems, apparatus, and computer programs recorded on computer storage devices that are each configured to perform the operations of these methods.

本明細書で説明されている発明対象の他の態様は、1つまたは複数のデータ処理機にオペレーションを実行させるように動作可能な命令を格納する1つまたは複数の機械可読データ記憶媒体を備える装置により具現化されうる。これらのオペレーションは、事前に存在している構造化プレゼンテーションを記述する記述データを受け取る段階と、第1のウェブサイトから第1のインスタンスの識別子を引き出す段階と、第2のウェブサイトから第1のインスタンスの第1の属性の第1の値を引き出す段階と、第1のインスタンスの識別子および新規値を事前に存在している構造化プレゼンテーションに追加して新規構造化プレゼンテーション内に新規レコードを形成する段階と、新規構造化プレゼンテーションを視覚的に提示するための命令を出力する段階とを含むことができる。事前に存在している構造化プレゼンテーションの視覚的提示は、構造化設計に適合するシステム配置で情報を視覚的に提示する。構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す。   Other aspects of the subject matter described herein comprise one or more machine-readable data storage media that store instructions operable to cause one or more data processors to perform operations. It can be embodied by a device. These operations include receiving descriptive data describing a pre-existing structured presentation, retrieving a first instance identifier from a first website, and a first from a second website. Deriving the first value of the first attribute of the instance and adding the first instance identifier and new value to the pre-existing structured presentation to form a new record in the new structured presentation And outputting instructions for visually presenting the new structured presentation. Visual presentation of pre-existing structured presentation visually presents information in a system layout that matches the structured design. A structured presentation represents the association between an instance and the values characterizing the attributes of the instance in the visual presentation of the structured presentation by an instance identifier and an array of values.

この態様および他の態様は、以下の特徴のうちの1つまたは複数を含みうる。第1のウェブサイトから第1のインスタンスの識別子を引き出す段階は、事前に存在している構造化プレゼンテーションの特性を事前に存在している構造化プレゼンテーションのコンテンツと比較する段階を含むことができる。これらのオペレーションは、ユーザーから第2のインスタンスの識別子を受け取る段階を含むこともできる。新規構造化プレゼンテーションは、第2のインスタンスの第1の属性の第2の値に関連して第2のインスタンスを提示する第2の新規レコードを含むことができる。これらのオペレーションは、ユーザーから第2の値を受け取る段階を含むことができる。候補値のコレクションをユーザーに対して提示し、第2の値の選択をユーザーから受け取ることができる。候補値のコレクションは、第2の値を含む。第2のインスタンスの第1の属性の候補値のコレクションを識別することができ、候補値のそれぞれについて、候補値が正しい確かさを決定することができる。これらのオペレーションは、構造化プレゼンテーションに追加すべき新規インスタンスのコレクションを提案する段階を含むことができる。新規インスタンスのコレクションは、事前に存在している構造化プレゼンテーションの特性を第1のウェブサイトおよび第2のウェブサイトのコンテンツと比較することによって、および/または機械可読検索クエリを第1のウェブサイトおよび第2のウェブサイトのコンテンツと比較することによって提案されうる。第2のウェブサイトから第1の値を引き出す段階は、第2のウェブサイトがレビューを含むことを識別する段階、第1のウェブサイトから直接的に識別子を抽出する段階、または第1のウェブサイトから抽出された情報を含む機械可読データベースから識別子を抽出する段階を含むことができる。事前に存在している構造化プレゼンテーションは、テーブルを含み、レコードは、そのテーブルの行または列を含むことができる。事前に存在している構造化プレゼンテーションは、カードのコレクションを含み、レコードは、そのコレクション内の個別のカードであってよい。これらのオペレーションは、ディスプレイ画面の1つまたは複数の要素を物理的に変換する段階を含めて、新規構造化プレゼンテーションをディスプレイ画面上に視覚的に表示する段階を含むことができる。   This and other aspects can include one or more of the following features. Deriving the identifier of the first instance from the first website may include comparing pre-existing structured presentation characteristics with pre-existing structured presentation content. These operations may also include receiving a second instance identifier from the user. The new structured presentation can include a second new record that presents the second instance in relation to the second value of the first attribute of the second instance. These operations can include receiving a second value from the user. A collection of candidate values can be presented to the user and a second value selection can be received from the user. The collection of candidate values includes the second value. A collection of candidate values for the first attribute of the second instance can be identified, and for each candidate value, the certainty that the candidate value is correct can be determined. These operations can include proposing a collection of new instances to be added to the structured presentation. A collection of new instances is created by comparing pre-existing structured presentation characteristics with the content of the first website and the second website, and / or machine-readable search queries on the first website. And can be proposed by comparing with the content of the second website. Deriving the first value from the second website may include identifying that the second website includes reviews, extracting an identifier directly from the first website, or first web Extracting the identifier from a machine readable database containing information extracted from the site may be included. A pre-existing structured presentation includes a table, and a record can include a row or column of that table. A pre-existing structured presentation includes a collection of cards, and a record may be an individual card within that collection. These operations can include visually displaying the new structured presentation on the display screen, including physically transforming one or more elements of the display screen.

この態様の他の実施形態は、対応するシステム、装置、および方法を含む。   Other embodiments of this aspect include corresponding systems, devices, and methods.

他の態様では、システムは、クライアントデバイスおよびクライアントデバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータを備える。これらのオペレーションは、事前に存在している構造化プレゼンテーションを記述する記述データを受け取る段階と、第1のウェブサイトから第1のインスタンスの識別子を引き出す段階と、第2のウェブサイトから第1のインスタンスの第1の属性の第1の値を引き出す段階と、第1のインスタンスの識別子および新規値を事前に存在している構造化プレゼンテーションに追加して新規構造化プレゼンテーション内に新規レコードを形成する段階と、新規構造化プレゼンテーションを視覚的に提示するための命令をクライアントデバイスに出力する段階とを含む。事前に存在している構造化プレゼンテーションの視覚的提示は、構造化設計に適合するシステム配置で情報を視覚的に提示する。構造化プレゼンテーションはレコードのコレクションを含み、これらのそれぞれは構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す。   In other aspects, the system comprises a client device and one or more computers programmed to interact with the client device and perform operations. These operations include receiving descriptive data describing a pre-existing structured presentation, retrieving a first instance identifier from a first website, and a first from a second website. Deriving the first value of the first attribute of the instance and adding the first instance identifier and new value to the pre-existing structured presentation to form a new record in the new structured presentation And outputting to the client device instructions for visually presenting the new structured presentation. Visual presentation of pre-existing structured presentation visually presents information in a system layout that matches the structured design. A structured presentation includes a collection of records, each of which represents an association between an instance and a value characterizing the attributes of the instance by an instance identifier and an array of values in the visual presentation of the structured presentation.

この態様および他の態様は、以下の特徴のうちの1つまたは複数を含みうる。1つまたは複数のコンピュータは、データ通信ネットワークを通じてクライアントデバイスをインタラクティブに操作するように動作可能なサーバーを含んでいてよく、またクライアントデバイスは、クライアントとしてサーバーをインタラクティブに操作するように動作可能である。   This and other aspects can include one or more of the following features. The one or more computers may include a server operable to interact with the client device through the data communication network, and the client device is operable to interact with the server as a client. .

この態様の他の実施形態は、対応するシステム、装置、および方法を含む。   Other embodiments of this aspect include corresponding systems, devices, and methods.

他の態様では、システムは、クライアントデバイスおよびクライアントデバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータを備える。これらのオペレーションは、クライアントデバイスから機械可読検索クエリを受け取る段階と、検索クエリに関連するインスタンスの構造化プレゼンテーションを提示するための命令をクライアントデバイスに送信することによって検索クエリに応答する段階とを含む。構造化プレゼンテーションの視覚的提示は、インスタンスとインスタンスの属性を特徴付ける値との間の関連付けを、インスタンスの識別子と値の配列によって表す。インスタンスの識別子と値は、電子文書の非構造化コレクション内の2つまたはそれ以上の文書から引き出される。電子文書コレクションは、電子文書コレクション内の電子文書のフォーマットが制限的でも永続的でもないという点で非構造化コレクションである。   In other aspects, the system comprises a client device and one or more computers programmed to interact with the client device and perform operations. These operations include receiving a machine readable search query from a client device and responding to the search query by sending instructions to the client device to present a structured presentation of instances associated with the search query. . The visual presentation of a structured presentation represents the association between an instance and the values that characterize the attributes of the instance by an array of instance identifiers and values. Instance identifiers and values are derived from two or more documents in an unstructured collection of electronic documents. An electronic document collection is an unstructured collection in that the format of electronic documents within the electronic document collection is neither restrictive nor permanent.

この態様および他の態様は、以下の特徴のうちの1つまたは複数を含みうる。1つまたは複数のコンピュータは、データ通信ネットワークを通じてクライアントデバイスをインタラクティブに操作するように動作可能なサーバーを含んでいてよく、またクライアントデバイスは、クライアントとしてサーバーをインタラクティブに操作するように動作可能である。   This and other aspects can include one or more of the following features. The one or more computers may include a server operable to interact with the client device through the data communication network, and the client device is operable to interact with the server as a client. .

この態様の他の実施形態は、対応するシステム、装置、および方法を含む。   Other embodiments of this aspect include corresponding systems, devices, and methods.

本明細書で説明される発明対象の他の態様は、事前に存在している構造化プレゼンテーションを記述する記述データを受け取るアクションと、事前に存在している構造化プレゼンテーションの特性を電子文書の非構造化コレクション内の電子文書のコンテンツと比較して事前に存在している構造化プレゼンテーションに関連する新規インスタンスを識別する電子文書を特定するアクションと、新規インスタンスの識別子を事前に存在している構造化プレゼンテーションに追加して拡張構造化プレゼンテーションを形成するアクションと、拡張構造化プレゼンテーションを提示するための命令を出力するアクションとを含む機械実装方法により具現化されうる。事前に存在している構造化プレゼンテーションの視覚的提示は、構造化設計に適合するシステム配置で情報を視覚的に提示する。構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す。   Another aspect of the subject matter described herein is the action of receiving descriptive data describing a pre-existing structured presentation and the characteristics of the pre-existing structured presentation. An action that identifies an electronic document that identifies a new instance associated with a pre-existing structured presentation compared to the content of the electronic document in the structured collection, and a structure that pre-exists the identifier of the new instance It can be embodied by a machine-implemented method including an action for forming an extended structured presentation in addition to a structured presentation and an action for outputting a command for presenting the extended structured presentation. Visual presentation of pre-existing structured presentation visually presents information in a system layout that matches the structured design. A structured presentation represents the association between an instance and the values characterizing the attributes of the instance in the visual presentation of the structured presentation by an instance identifier and an array of values.

この態様および他の態様は、以下の特徴のうちの1つまたは複数を含みうる。新規インスタンスの識別子を追加する段階は、インスタンス提案(instance suggestions)のコレクションを構成する(formulating a collection of)段階と、インスタンス提案コレクションをユーザーに提供する段階と、新規インスタンスのユーザー選択を受け取る段階とを含むことができ、ただし、新規インスタンスはインスタンス提案のコレクションに含まれる。事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーションで識別されたインスタンスに関係する構造化コンポーネントを含む電子文書コレクション内の文書を識別する段階を含むことができる。インスタンス提案のコレクションを構成する段階は、事前に存在している構造化プレゼンテーションで識別されたインスタンスの識別子を含み、テンプレートに従って配列されている電子文書コレクション内の第1の文書を識別する段階と、テンプレートに従って配列されているが、第2のインスタンスに関連している第2の文書を識別する段階と、第2のインスタンスをインスタンス提案コレクションに含める段階とを含むことができる。事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーション内の1つまたは複数のインスタンスに関する情報を含む電子文書コレクション内の文書を識別する段階、インスタンスと属性との関連付けの格納されているコレクション内の新規インスタンスを特定する段階、事前に存在している構造化プレゼンテーションの特性を事前に存在している構造化プレゼンテーションにおいて特徴付けられている属性と比較する段階、事前に存在している構造化プレゼンテーション内のインスタンスを特徴付けるために使用される属性を電子文書のコンテンツと比較する段階、事前に存在している構造化プレゼンテーション内のインスタンスを特徴付けるために使用される属性の値を電子文書のコンテンツと比較する段階、および事前に存在している構造化プレゼンテーション内のインスタンスを含むインスタンスのカテゴリを電子文書のコンテンツと比較する段階のうちの1つまたは複数を含むことができる。電子文書のコレクションは、インターネット上で利用可能な電子文書を含むことができる。電子文書は、ウェブページを含むことができる。拡張構造化プレゼンテーションは、テーブル、またはカードのコレクションを含むことができる。この方法は、ディスプレイ画面の1つまたは複数の要素を物理的に変換する段階を含めて、拡張構造化プレゼンテーションをディスプレイ画面上に視覚的に表示する段階を含むことができる。   This and other aspects can include one or more of the following features. Adding a new instance identifier includes forming a collection of instance suggestions, providing the instance proposal collection to the user, and receiving a user selection of the new instance. However, the new instance is included in the collection of instance proposals. Comparing the characteristics of a pre-existing structured presentation with the content of the electronic document includes documents in the electronic document collection that contain structured components related to the instances identified in the pre-existing structured presentation. Can be included. Configuring a collection of instance proposals includes identifying an instance document identified in a pre-existing structured presentation and identifying a first document in an electronic document collection arranged according to a template; Identifying a second document arranged according to the template but related to the second instance and including the second instance in the instance proposal collection may be included. Comparing the characteristics of a pre-existing structured presentation with the content of an electronic document is the process of comparing documents in an electronic document collection that contain information about one or more instances in the pre-existing structured presentation. Characterized in the pre-existing structured presentation, the identifying stage, identifying new instances in the stored collection of instance-attribute associations, pre-existing structured presentation characteristics Comparing with existing attributes, comparing attributes used to characterize instances in a pre-existing structured presentation with the content of the electronic document, instances in pre-existing structured presentations Used to characterize Comparing one or more of comparing the value of the attribute with the content of the electronic document and comparing the category of instances, including instances in a pre-existing structured presentation, with the content of the electronic document be able to. The collection of electronic documents can include electronic documents available on the Internet. The electronic document can include a web page. An extended structured presentation can include a table or a collection of cards. The method can include visually displaying the expanded structured presentation on the display screen, including physically transforming one or more elements of the display screen.

この態様の他の実施形態は、対応するシステム、装置、およびそれぞれこれらの方法のオペレーションを実行するように構成されているコンピュータ記憶デバイス上に記録されたコンピュータプログラムを含む。   Other embodiments of this aspect include corresponding systems, apparatus, and computer programs recorded on computer storage devices that are each configured to perform the operations of these methods.

本明細書で説明されている発明対象の他の態様は、1つまたは複数のデータ処理機にオペレーションを実行させるように動作可能な命令を格納する1つまたは複数の機械可読データ記憶媒体を備える装置により具現化されうる。これらのオペレーションは、非構造化電子文書コレクション内の2つまたはそれ以上の文書のコンテンツに基づいてインスタンス提案のコレクションを構成する段階と、インスタンス提案コレクションをユーザーに提供する段階と、インスタンス提案のコレクション内の第1のインスタンスのユーザー選択を受け取る段階と、第1のインスタンス提案の識別子を構造化プレゼンテーションに追加する段階とを含む。電子文書コレクションは、電子文書コレクション内の電子文書のフォーマットが制限的でも永続的でもないという点で非構造化コレクションである。構造化プレゼンテーションの視覚的提示により、情報が整理された形で視覚的に提示される。構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す。   Other aspects of the subject matter described herein comprise one or more machine-readable data storage media that store instructions operable to cause one or more data processors to perform operations. It can be embodied by a device. These operations consist of constructing a collection of instance proposals based on the content of two or more documents in an unstructured electronic document collection, providing the instance proposal collection to the user, and collecting the instance proposal collection. Receiving a user selection of the first instance of the first instance and adding an identifier of the first instance proposal to the structured presentation. An electronic document collection is an unstructured collection in that the format of electronic documents within the electronic document collection is neither restrictive nor permanent. Visual presentation of structured presentations presents information visually in an organized manner. A structured presentation represents the association between an instance and the values characterizing the attributes of the instance in the visual presentation of the structured presentation by an instance identifier and an array of values.

この態様および他の態様は、以下の特徴のうちの1つまたは複数を含みうる。インスタンス提案のコレクションを構成する段階は、事前に存在している構造化プレゼンテーションの特性を電子文書コレクション内の電子文書のコンテンツと比較する段階、事前に存在している構造化プレゼンテーション内で識別されているインスタンスに関係する構造化コンポーネントを含む電子文書コレクション内の文書を識別する段階、事前に存在している構造化プレゼンテーションで識別されたインスタンスに関連し、テンプレートに従って配列されている、電子文書コレクション内の第1の文書を識別する段階、テンプレートに従って配列されているが、第2のインスタンスに関連している第2の文書を識別する段階、第2のインスタンスをインスタンス提案コレクションに含める段階、事前に存在している構造化プレゼンテーション内の1つまたは複数のインスタンスの識別子を含む電子文書コレクション内の文書を識別する段階、事前に存在している構造化プレゼンテーション内のインスタンスを特徴付けるために使用される追加の属性を識別する段階、事前に存在している構造化プレゼンテーション内のインスタンスを特徴付けるために使用される属性の値をインスタンス提案の値と比較する段階、事前に存在している構造化プレゼンテーション内のインスタンスを含むインスタンスのカテゴリを識別する段階、インスタンスのそのカテゴリ内のインスタンスを使用してインスタンス提案のコレクションを構成する段階、インスタンスと属性との関連付けの格納されているコレクション内のインスタンス提案を識別する段階、および事前に存在している構造化プレゼンテーションにおいて特徴付けられている属性を非構造化電子文書コレクション内の文書のコンテンツと比較する段階のうちの1つまたは複数を含むことができる。電子文書のコレクションは、インターネット上で利用可能な文書を含むことができる。電子文書は、ウェブページを含むことができる。構造化プレゼンテーションは、テーブル、またはカードのコレクションを含むことができる。   This and other aspects can include one or more of the following features. The stage of constructing a collection of instance proposals is identified in the preexisting structured presentation, comparing the characteristics of the preexisting structured presentation with the content of the electronic documents in the electronic document collection. Identifying a document in an electronic document collection that contains structured components related to the existing instance, in the electronic document collection related to the instance identified in the pre-existing structured presentation and arranged according to the template Identifying the first document of the first, identifying the second document arranged according to the template but related to the second instance, including the second instance in the instance proposal collection, in advance Existing structured presentation Identifying documents in an electronic document collection that include identifiers of one or more instances in, identifying additional attributes used to characterize instances in pre-existing structured presentations; Comparing the value of an attribute used to characterize an instance in a pre-existing structured presentation with the value of the instance proposal, and the category of the instance containing the instance in the pre-existing structured presentation Identifying, using the instances in that category of instances to configure a collection of instance proposals, identifying instance proposals in the collection that stores the associations between instances and attributes, and pre-existing Structured presentations One or more of comparing the attributes characterized in the application to the content of the documents in the unstructured electronic document collection. A collection of electronic documents can include documents available on the Internet. The electronic document can include a web page. A structured presentation can include a table or a collection of cards.

この態様の他の実施形態は、対応するシステム、装置、および方法を含む。   Other embodiments of this aspect include corresponding systems, devices, and methods.

本明細書で説明されている発明対象の他の態様は、クライアントデバイスおよびクライアントデバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータを備えるシステムにより具現化できる。これらのオペレーションは、事前に存在している構造化プレゼンテーションを記述する記述データを受け取る段階と、事前に存在している構造化プレゼンテーションの特性を電子文書の非構造化コレクション内の電子文書のコンテンツと比較して事前に存在している構造化プレゼンテーションに関連する新規インスタンスを識別する電子文書を特定する段階と、新規インスタンスの識別子を事前に存在している構造化プレゼンテーションに追加して拡張構造化プレゼンテーションを形成する段階と、クライアントデバイスとデータ通信を行うように結合されているディスプレイデバイス上に拡張構造化プレゼンテーションを提示するための命令を出力する段階とを含む。事前に存在している構造化プレゼンテーションの視覚的提示は、構造化設計に適合するシステム配置で情報を視覚的に提示する。構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す。   Other aspects of the inventive subject matter described herein can be embodied by a system comprising a client device and one or more computers programmed to interact with the client device and perform operations. These operations involve receiving descriptive data describing pre-existing structured presentations, and pre-existing structured presentation characteristics with the contents of electronic documents in an unstructured collection of electronic documents. Identifying an electronic document that identifies new instances associated with a pre-existing structured presentation by comparison, and adding an identifier of the new instance to the pre-existing structured presentation to extend the structured presentation And outputting instructions for presenting the extended structured presentation on a display device that is coupled in data communication with the client device. Visual presentation of pre-existing structured presentation visually presents information in a system layout that matches the structured design. A structured presentation represents the association between an instance and the values characterizing the attributes of the instance in the visual presentation of the structured presentation by an instance identifier and an array of values.

この態様の他の実施形態は、対応するコンピュータプログラム製品、装置、および方法を含む。   Other embodiments of this aspect include corresponding computer program products, apparatus, and methods.

本明細書で説明されている発明対象の他の態様は、クライアントデバイスおよびクライアントデバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータを備えるシステムにより具現化できる。これらのオペレーションは、非構造化電子文書コレクション内の2つまたはそれ以上の文書のコンテンツに基づいてインスタンス提案のコレクションを構成する段階と、クライアントデバイスを使用してインスタンス提案コレクションをユーザーに提供する段階と、インスタンス提案のコレクション内の第1のインスタンスのユーザー選択を受け取る段階と、クライアントデバイスとデータ通信を行うように結合されているディスプレイデバイス上に提示される構造化プレゼンテーションに第1のインスタンス提案の識別子を追加する段階とを含み、構造化プレゼンテーションの視覚的提示により、情報が整理された形で視覚的に提示される。電子文書コレクションは、電子文書コレクション内の電子文書のフォーマットが制限的でも永続的でもないという点で非構造化コレクションである。構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す。   Other aspects of the inventive subject matter described herein can be embodied by a system comprising a client device and one or more computers programmed to interact with the client device and perform operations. These operations consist of configuring a collection of instance proposals based on the content of two or more documents in an unstructured electronic document collection and providing the instance proposal collection to the user using a client device. Receiving a user selection of the first instance in the collection of instance proposals, and the first instance proposal in a structured presentation presented on a display device coupled to perform data communication with the client device. Adding the identifier, and the visual presentation of the structured presentation visually presents the information in an organized manner. An electronic document collection is an unstructured collection in that the format of electronic documents within the electronic document collection is neither restrictive nor permanent. A structured presentation represents the association between an instance and the values characterizing the attributes of the instance in the visual presentation of the structured presentation by an instance identifier and an array of values.

この態様および他の態様は、以下の特徴のうちの1つまたは複数を含みうる。1つまたは複数のコンピュータは、データ通信ネットワークを通じてクライアントデバイスをインタラクティブに操作するように動作可能なサーバーを含むことができる。クライアントデバイスは、クライアントとしてサーバーをインタラクティブに操作するように動作可能であってよい。クライアントデバイスは、ウェブブラウザを実行するパーソナルコンピュータを含んでよい。パーソナルコンピュータは、ディスプレイデバイスを備えることができる。   This and other aspects can include one or more of the following features. The one or more computers can include a server operable to interact with client devices through a data communication network. The client device may be operable to interact with the server as a client. The client device may include a personal computer that runs a web browser. The personal computer can include a display device.

この態様の他の実施形態は、対応するコンピュータプログラム製品、装置、および方法を含む。   Other embodiments of this aspect include corresponding computer program products, apparatus, and methods.

本明細書で説明される発明対象の他の態様は、事前に存在している構造化プレゼンテーションを記述する記述データを受け取るアクションと、事前に存在している構造化プレゼンテーションの特性を電子文書の非構造化コレクション内の電子文書のコンテンツと比較して事前に存在している構造化プレゼンテーションに関連する新規属性を識別する電子文書を特定するアクションと、新規属性の識別子を事前に存在している構造化プレゼンテーションに追加して拡張構造化プレゼンテーションを形成するアクションと、拡張構造化プレゼンテーションを提示するための命令を出力するアクションとを含む機械実装方法により具現化されうる。事前に存在している構造化プレゼンテーションの視覚的提示は、構造化設計に適合するシステム配置で情報を視覚的に提示する。構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す。   Another aspect of the subject matter described herein is the action of receiving descriptive data describing a pre-existing structured presentation and the characteristics of the pre-existing structured presentation. An action that identifies an electronic document that identifies a new attribute associated with a pre-existing structured presentation compared to the content of the electronic document in the structured collection, and a structure that pre-exists with an identifier for the new attribute It can be embodied by a machine-implemented method including an action for forming an extended structured presentation in addition to a structured presentation and an action for outputting a command for presenting the extended structured presentation. Visual presentation of pre-existing structured presentation visually presents information in a system layout that matches the structured design. A structured presentation represents the association between an instance and the values characterizing the attributes of the instance in the visual presentation of the structured presentation by an instance identifier and an array of values.

この態様および他の態様は、以下の特徴のうちの1つまたは複数を含みうる。新規属性の識別子を追加する段階は、属性提案(attribute suggestions)のコレクションを構成する段階と、属性提案コレクションをユーザーに提供する段階と、新規属性のユーザー選択を受け取る段階とを含むことができる。新規属性はインスタンス提案のコレクション内にあってもよい。事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーションで識別されたインスタンスに関係する構造化コンポーネントを含む電子文書コレクション内の文書を識別する段階を含むことができる。属性提案コレクションを構成する段階は、事前に存在している構造化プレゼンテーションで識別されたインスタンスに関連し、テンプレートに従って配列されている、電子文書コレクション内の第1の文書を識別する段階と、属性提案コレクション内のインスタンスを特徴付けるために第1の文書内で使用される属性を追加する段階とを含むことができる。事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーション内の1つまたは複数のインスタンスに関する情報を含む電子文書コレクション内の文書を識別する段階、インスタンスと属性との関連付けの格納されているコレクション内の新規属性を識別する段階、事前に存在している構造化プレゼンテーションにおいて特徴付けられているインスタンスを電子文書のコンテンツと比較する段階、事前に存在している構造化プレゼンテーションにおいて識別されているインスタンスに関係する追加のインスタンスを識別する段階、事前に存在している構造化プレゼンテーション内のインスタンスを特徴付けるために使用される属性または属性の値を電子文書のコンテンツと比較する段階、事前に存在している構造化プレゼンテーション内のインスタンスを含むインスタンスのカテゴリを電子文書のコンテンツと比較する段階のうちの1つまたは複数を含むことができる。電子文書のコレクションは、インターネット上で利用可能な電子文書を含むことができ、電子文書は、ウェブページを含むことができる。拡張構造化プレゼンテーションは、テーブル、またはカードのコレクションを含むことができる。この方法は、ディスプレイ画面の1つまたは複数の要素を物理的に変換する段階を含めて、拡張構造化プレゼンテーションをディスプレイ画面上に視覚的に提示する段階を含むことができる。   This and other aspects can include one or more of the following features. Adding a new attribute identifier may include configuring a collection of attribute suggestions, providing the user with an attribute suggestion collection, and receiving a user selection of the new attribute. New attributes may be in the instance proposal collection. Comparing the characteristics of a pre-existing structured presentation with the content of the electronic document includes documents in the electronic document collection that contain structured components related to the instances identified in the pre-existing structured presentation. Can be included. Configuring the attribute proposal collection involves identifying a first document in the electronic document collection that is associated with the instance identified in the pre-existing structured presentation and arranged according to the template; Adding an attribute used in the first document to characterize an instance in the proposal collection. Comparing the characteristics of a pre-existing structured presentation with the content of an electronic document is the process of comparing documents in an electronic document collection that contain information about one or more instances in the pre-existing structured presentation. Identifying, identifying a new attribute in a stored collection of instance-attribute associations, comparing an instance characterized in a pre-existing structured presentation with the content of the electronic document Identifying additional instances related to the instances identified in the pre-existing structured presentation, attributes or attributes used to characterize the instances in the pre-existing structured presentation The value of the electronic document One or more of comparing with the content, comparing a category of instances, including instances in a pre-existing structured presentation, with the content of the electronic document may be included. The collection of electronic documents can include electronic documents available on the Internet, and the electronic documents can include web pages. An extended structured presentation can include a table or a collection of cards. The method can include visually presenting the augmented structured presentation on the display screen, including physically transforming one or more elements of the display screen.

この態様の他の実施形態は、対応するシステム、装置、およびコンピュータプログラム製品を含む。   Other embodiments of this aspect include corresponding systems, devices, and computer program products.

本明細書で説明されている発明対象の他の態様は、1つまたは複数のデータ処理機にオペレーションを実行させるように動作可能な命令を格納する1つまたは複数の機械可読データ記憶媒体を備える装置により具現化されうる。これらのオペレーションは、非構造化電子文書コレクション内の2つまたはそれ以上の文書のコンテンツに基づいて属性提案のコレクションを構成する段階と、属性提案コレクションをユーザーに提供する段階と、属性提案のコレクション内の第1の属性のユーザー選択を受け取る段階と、第1の属性提案の識別子を構造化プレゼンテーションに追加する段階とを含むことができる。電子文書コレクションは、電子文書コレクション内の電子文書のフォーマットが制限的でも永続的でもないという点で非構造化コレクションである。構造化プレゼンテーションの視覚的提示により、情報が整理された形で視覚的に提示される。構造化プレゼンテーションは、構造化プレゼンテーションの提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す。   Other aspects of the subject matter described herein comprise one or more machine-readable data storage media that store instructions operable to cause one or more data processors to perform operations. It can be embodied by a device. These operations consist of constructing a collection of attribute proposals based on the contents of two or more documents in an unstructured electronic document collection, providing the user with an attribute proposal collection, and collecting attribute proposals. Receiving a user selection of the first attribute of the first attribute and adding an identifier of the first attribute proposal to the structured presentation. An electronic document collection is an unstructured collection in that the format of electronic documents within the electronic document collection is neither restrictive nor permanent. Visual presentation of structured presentations presents information visually in an organized manner. A structured presentation represents the association between an instance and the values that characterize the attributes of the instance in the presentation of the structured presentation by an array of instance identifiers and values.

この態様および他の態様は、以下の特徴のうちの1つまたは複数を含みうる。属性提案のコレクションを構成する段階は、事前に存在している構造化プレゼンテーションの特性を電子文書コレクション内の電子文書のコンテンツと比較する段階、事前に存在している構造化プレゼンテーション内で識別されているインスタンスを特徴付ける構造化コンポーネントを含む電子文書コレクション内の文書を識別する段階、事前に存在している構造化プレゼンテーションで識別されたインスタンスに関連し、テンプレートに従って配列されている、電子文書コレクション内の第1の文書を識別する段階と、属性提案コレクション内のインスタンスを特徴付けるために使用される属性を含める段階、事前に存在している構造化プレゼンテーション内の1つまたは複数のインスタンスに関する情報を含む電子文書コレクション内の文書を識別する段階のうちの1つまたは複数を含むことができる。事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーションにおいて識別されているインスタンスを電子文書のコンテンツと比較する段階、事前に存在している構造化プレゼンテーション内のインスタンスを特徴付けるために使用される属性または属性の値を電子文書のコンテンツと比較する段階のうちの1つまたは複数を含むことができる。属性提案のコレクションを構成する段階は、事前に存在している構造化プレゼンテーション内のインスタンスを含むインスタンスのカテゴリを識別する段階と、インスタンスのそのカテゴリ内のインスタンスを特徴付けるために使用される属性から属性提案のコレクションを構成する段階とを含むことができる。属性提案のコレクションは、インスタンスと属性との関連付けの格納されているコレクション内の属性提案を識別することによって構成することもできる。電子文書のコレクションは、インターネット上で利用可能な電子文書を含むことができ、電子文書は、ウェブページを含むことができる。構造化プレゼンテーションは、テーブル、またはカードのコレクションを含むことができる。これらのオペレーションは、ディスプレイ画面の1つまたは複数の要素を物理的に変換する段階を含めて、構造化プレゼンテーションをディスプレイ画面上に視覚的に提示する段階を含むこともできる。   This and other aspects can include one or more of the following features. The stage of constructing the collection of attribute proposals is identified in the pre-existing structured presentation, comparing the characteristics of the pre-existing structured presentation with the content of the electronic documents in the electronic document collection. Identifying a document in an electronic document collection that contains a structured component that characterizes the existing instance, associated with the instance identified in the pre-existing structured presentation, and arranged in a template An electronic that contains information about one or more instances in a pre-existing structured presentation, identifying the first document, including the attributes used to characterize the instances in the attribute proposal collection Statements in the document collection It may include one or more of identifying a. The step of comparing pre-existing structured presentation characteristics with the content of the electronic document is pre-existing, comparing the instance identified in the pre-existing structured presentation with the content of the electronic document. One or more of comparing an attribute or attribute value used to characterize an instance in a structured presentation to the content of the electronic document may be included. The stage of constructing a collection of attribute proposals is to identify an instance category that includes an instance in a pre-existing structured presentation, and attributes from the attributes used to characterize the instances in that category of instances. Composing a collection of proposals. A collection of attribute proposals can also be constructed by identifying attribute proposals in the collection in which the association of instances and attributes is stored. The collection of electronic documents can include electronic documents available on the Internet, and the electronic documents can include web pages. A structured presentation can include a table or a collection of cards. These operations may also include visually presenting the structured presentation on the display screen, including physically transforming one or more elements of the display screen.

この態様の他の実施形態は、対応するシステム、装置、およびコンピュータプログラム製品を含む。   Other embodiments of this aspect include corresponding systems, devices, and computer program products.

本明細書で説明されている発明対象の他の態様は、ディスプレイ画面を備えるクライアントデバイスおよびクライアントデバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータを備えるシステムにより具現化できる。これらのオペレーションは、事前に存在している構造化プレゼンテーションを記述する記述データを受け取る段階と、事前に存在している構造化プレゼンテーションの特性を電子文書の非構造化コレクション内の電子文書のコンテンツと比較して事前に存在している構造化プレゼンテーションに関連する新規属性を識別する電子文書を特定する段階と、新規属性の識別子を事前に存在している構造化プレゼンテーションに追加して拡張構造化プレゼンテーションを形成する段階と、拡張構造化プレゼンテーションをディスプレイ画面上に提示するための命令を出力する段階とを含む。事前に存在している構造化プレゼンテーションの視覚的提示は、構造化設計に適合するシステム配置で情報を視覚的に提示する。構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す。   Another aspect of the subject matter described herein is by a system comprising a client device comprising a display screen and one or more computers programmed to interact with the client device and perform operations. Can be embodied. These operations involve receiving descriptive data describing pre-existing structured presentations, and pre-existing structured presentation characteristics with the contents of electronic documents in an unstructured collection of electronic documents. Identifying an electronic document that identifies new attributes associated with a pre-existing structured presentation by comparison, and adding a new attribute identifier to the pre-existing structured presentation to expand the structured presentation And outputting instructions for presenting the extended structured presentation on the display screen. Visual presentation of pre-existing structured presentation visually presents information in a system layout that matches the structured design. A structured presentation represents the association between an instance and the values characterizing the attributes of the instance in the visual presentation of the structured presentation by an instance identifier and an array of values.

この態様の他の実施形態は、対応するコンピュータプログラム製品、装置、および方法を含む。   Other embodiments of this aspect include corresponding computer program products, apparatus, and methods.

本明細書で説明されている発明対象の他の態様は、ディスプレイ画面を備えるクライアントデバイスおよびクライアントデバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータを備えるシステムにより具現化できる。これらのオペレーションは、非構造化電子文書コレクション内の2つまたはそれ以上の文書のコンテンツに基づいて属性提案のコレクションを構成する段階と、属性提案コレクションをクライアントデバイスに提供する段階と、クライアントデバイスから属性提案のコレクション内の第1の属性の選択を受け取る段階と、第1の属性提案の識別子をディスプレイ画面上に提示される構造化プレゼンテーションに追加する段階とを含む。電子文書コレクションは、電子文書コレクション内の電子文書のフォーマットが制限的でも永続的でもないという点で非構造化コレクションである。構造化プレゼンテーションの視覚的提示により、情報が整理された形で視覚的に提示される。構造化プレゼンテーションは、構造化プレゼンテーションの提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す。   Another aspect of the subject matter described herein is by a system comprising a client device comprising a display screen and one or more computers programmed to interact with the client device and perform operations. Can be embodied. These operations consist of configuring a collection of attribute proposals based on the contents of two or more documents in the unstructured electronic document collection, providing the attribute proposal collection to the client device, and from the client device Receiving a selection of a first attribute in the collection of attribute proposals and adding an identifier of the first attribute proposal to the structured presentation presented on the display screen. An electronic document collection is an unstructured collection in that the format of electronic documents within the electronic document collection is neither restrictive nor permanent. Visual presentation of structured presentations presents information visually in an organized manner. A structured presentation represents the association between an instance and the values that characterize the attributes of the instance in the presentation of the structured presentation by an array of instance identifiers and values.

この態様の他の実施形態は、対応するコンピュータプログラム製品、装置、および方法を含む。   Other embodiments of this aspect include corresponding computer program products, apparatus, and methods.

本明細書で説明される発明対象の他の態様は、事前に存在している構造化プレゼンテーションを記述する記述データを受け取るアクションと、事前に存在している構造化プレゼンテーションの特性を電子文書の非構造化コレクション内の電子文書のコンテンツと比較して事前に存在している構造化プレゼンテーションに関連する新規値を識別する電子文書を特定するアクションと、新規値を事前に存在している構造化プレゼンテーションに追加して新規構造化プレゼンテーションを形成するアクションと、新規構造化プレゼンテーションを視覚的に提示するための命令を出力するアクションとを含む機械実装方法により具現化されうる。事前に存在している構造化プレゼンテーションの視覚的提示は、構造化設計に適合するシステム配置で情報を視覚的に提示する。構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す。   Another aspect of the subject matter described herein is the action of receiving descriptive data describing a pre-existing structured presentation and the characteristics of the pre-existing structured presentation. An action that identifies an electronic document that identifies a new value associated with a pre-existing structured presentation compared to the content of the electronic document in the structured collection, and a structured presentation that pre-exists the new value In addition, the machine-implemented method may include an action for forming a new structured presentation and an action for outputting a command for visually presenting the new structured presentation. Visual presentation of pre-existing structured presentation visually presents information in a system layout that matches the structured design. A structured presentation represents the association between an instance and the values characterizing the attributes of the instance in the visual presentation of the structured presentation by an instance identifier and an array of values.

この態様および他の態様は、以下の特徴のうちの1つまたは複数を含みうる。第1の電子文書において構造化プレゼンテーション内に出現する第1のインスタンスの識別子を特定し、新規値を第1の電子文書から抽出することができる。新規値を追加する段階は、第1のインスタンスの第1の属性の値のコレクションを識別する段階と、識別された値のうちの1つまたは複数の値のサブセットを、第1のインスタンスの第1の属性を適切に特徴付けるものとして確定する段階とを含むことができる。値のサブセットを適切なものとして確定する段階は、コレクション内の値をいくつかのグループに分ける段階、サブセット内の値の個数に少なくとも一部は基づいてサブセットを選択する段階、ユーザー指定制約条件を満たすサブセット内の値に少なくとも一部は基づいてサブセットを選択する段階、サブセット内の値が高品質文書から引き出される段階に少なくとも一部は基づいてサブセットを選択する段階、サブセット内の値が事前に存在している構造化プレゼンテーション内の他のインスタンスに関連する文書から引き出される段階に少なくとも一部は基づいてサブセットを選択する段階、サブセット内の値が事前に存在している構造化プレゼンテーション内の他の属性に関連する文書から引き出される段階に少なくとも一部は基づいてサブセットを選択する段階のうちの1つまたは複数を含むことができる。電子文書のコレクションは、インターネットであってもよく、電子文書は、ウェブページであってもよい。事前に存在している構造化プレゼンテーションは、テーブル、またはカードのコレクションを含むことができる。この方法は、ディスプレイ画面の1つまたは複数の要素を物理的に変換する段階を含めて、新規構造化プレゼンテーションをディスプレイ画面上に視覚的に提示する段階を含むことができる。   This and other aspects can include one or more of the following features. The identifier of the first instance that appears in the structured presentation in the first electronic document can be identified and a new value can be extracted from the first electronic document. Adding a new value includes identifying a collection of values for the first attribute of the first instance, and substituting a subset of one or more of the identified values for the first instance. Determining that one attribute is appropriately characterized. Determining a subset of values as appropriate involves dividing the values in the collection into groups, selecting a subset based at least in part on the number of values in the subset, and providing user-specified constraints. Selecting a subset based at least in part on the values in the satisfying subset, selecting a subset based at least in part on the values in the subset being extracted from the high quality document, and pre-setting the values in the subset Selecting a subset based at least in part on steps derived from documents associated with other instances in an existing structured presentation; others in a structured presentation in which values in the subset already exist Based at least in part on the steps derived from the document associated with the attribute It may include one or more of the steps of selecting a subset. The collection of electronic documents may be the Internet, and the electronic documents may be web pages. The pre-existing structured presentation can include a table or a collection of cards. The method can include visually presenting the new structured presentation on the display screen, including physically transforming one or more elements of the display screen.

この態様の他の実施形態は、対応するシステム、装置、およびコンピュータプログラム製品を含む。   Other embodiments of this aspect include corresponding systems, devices, and computer program products.

本明細書で説明されている発明対象の他の態様は、1つまたは複数のデータ処理機にオペレーションを実行させるように動作可能な命令を格納する1つまたは複数の機械可読データ記憶媒体を備える装置により具現化されうる。これらのオペレーションは、第1のインスタンス、第2のインスタンス、および第1の属性を記述する記述データを受け取る段階と、非構造化電子文書コレクションの2つまたはそれ以上の文書から第1のインスタンスの第1の属性の値の第1のコレクションを抽出する段階と、非構造化電子文書コレクションの2つまたはそれ以上の文書から第2のインスタンスの第1の属性の値の第2のコレクションを抽出する段階と、値の第1のコレクションの第1のサブセットを、第1のインスタンスの第1の属性を適切に特徴付けるものとして確定する段階と、値の第2のコレクションの第2のサブセットを、第2のインスタンスの第1の属性を適切に特徴付けるものとして確定する段階と、第1のサブセットの第1の値および第2のサブセットの第2の値を含む構造化プレゼンテーションを表示するための機械可読命令を生成する段階とを含むことができる。構造化プレゼンテーションは、インスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す。   Other aspects of the subject matter described herein comprise one or more machine-readable data storage media that store instructions operable to cause one or more data processors to perform operations. It can be embodied by a device. These operations receive descriptive data describing a first instance, a second instance, and a first attribute, and the first instance of two or more documents in the unstructured electronic document collection Extracting a first collection of first attribute values and extracting a second collection of first attribute values of a second instance from two or more documents of an unstructured electronic document collection Determining a first subset of the first collection of values as appropriately characterizing the first attribute of the first instance, and a second subset of the second collection of values, A structured presentation including determining a first attribute of the second instance as appropriately characterizing and including a first value of the first subset and a second value of the second subset Deployment may include the steps of generating a machine-readable instructions for displaying. A structured presentation represents the association between an instance and the values that characterize the attributes of the instance by an array of instance identifiers and values.

この態様および他の態様は、以下の特徴のうちの1つまたは複数を含みうる。値の第1のサブセットは、第1のコレクション内の値をいくつかのグループに分けることによって適切なものとして確定することができ、ただし、それぞれのグループは値の第1のコレクションのサブセットを含む。値の第1のサブセットは、第1のサブセット内の値の個数に少なくとも一部は基づき第1のサブセットを選択することによって適切なものとして確定することができる。値の第1のサブセットは、第1のサブセット内の値をそれらの値に対するユーザー指定制約条件と比較することによって適切なものとして確定することができる。値の第1のサブセットは、第1のサブセット内の値が高品質文書から引き出されたと判定することによって適切なものとして確定することができる。値の第1のサブセットは、第1のサブセット内の値が第2のインスタンスに関連する文書から引き出されたと判定することによって適切なものとして確定することができる。値の第1のサブセットは、第1のサブセット内の値が第1のインスタンスおよび第2のインスタンスの両方を特徴付ける他の属性に関連する文書から引き出されたと判定することによって適切なものとして確定することができる。第1のインスタンスの記述は、事前に存在している構造化プレゼンテーション内に出現する第1のインスタンスの識別子を含むことができる。第2のインスタンスの記述は、事前に存在している構造化プレゼンテーション内に出現する第2のインスタンスの識別子を含むことができる。第1の属性の記述は、事前に存在している構造化プレゼンテーションに追加される新規属性の記述を含むことができる。非構造化電子文書コレクションは、インターネット上で利用可能な電子文書を含むことができる。構造化プレゼンテーションは、テーブル、またはカードのコレクションであってよい。構造化プレゼンテーションは、ディスプレイ画面の1つまたは複数の要素を物理的に変換する段階を含めて、ディスプレイ画面上に視覚的に提示することができる。   This and other aspects can include one or more of the following features. The first subset of values can be determined as appropriate by dividing the values in the first collection into groups, but each group contains a subset of the first collection of values . The first subset of values may be determined as appropriate by selecting the first subset based at least in part on the number of values in the first subset. The first subset of values can be determined as appropriate by comparing the values in the first subset with user-specified constraints on those values. The first subset of values can be determined as appropriate by determining that the values in the first subset were derived from a high quality document. The first subset of values can be determined as appropriate by determining that the values in the first subset are derived from documents associated with the second instance. The first subset of values is determined as appropriate by determining that the values in the first subset are derived from documents associated with other attributes that characterize both the first instance and the second instance be able to. The description of the first instance may include an identifier of the first instance that appears in the pre-existing structured presentation. The description of the second instance can include an identifier of the second instance that appears in the pre-existing structured presentation. The description of the first attribute can include a description of a new attribute that is added to the pre-existing structured presentation. An unstructured electronic document collection can include electronic documents available on the Internet. A structured presentation may be a table or a collection of cards. A structured presentation can be presented visually on a display screen, including physically transforming one or more elements of the display screen.

この態様の他の実施形態は、対応するシステム、装置、および方法を含む。   Other embodiments of this aspect include corresponding systems, devices, and methods.

本明細書で説明されている発明対象の他の態様は、デバイスおよびデバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータを備えるシステムにより具現化されうる。これらのオペレーションは、事前に存在している構造化プレゼンテーションを記述する記述データを受け取る段階と、事前に存在している構造化プレゼンテーションの特性を電子文書の非構造化コレクション内の電子文書のコンテンツと比較して事前に存在している構造化プレゼンテーションに関連する新規値を識別する電子文書を特定する段階と、新規値を事前に存在している構造化プレゼンテーションに追加して新規構造化プレゼンテーションを形成する段階と、新規構造化プレゼンテーションをデバイス上に視覚的に提示するための命令を出力する段階とを含む。事前に存在している構造化プレゼンテーションの視覚的提示は、構造化設計に適合するシステム配置で情報を視覚的に提示する。構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す。   Other aspects of the inventive subject matter described herein may be embodied by a system comprising a device and one or more computers programmed to interact with the device and perform operations. These operations involve receiving descriptive data describing pre-existing structured presentations, and pre-existing structured presentation characteristics with the contents of electronic documents in an unstructured collection of electronic documents. Identify electronic documents that compare and identify new values associated with pre-existing structured presentations, and add new values to pre-existing structured presentations to form new structured presentations And outputting instructions for visually presenting the new structured presentation on the device. Visual presentation of pre-existing structured presentation visually presents information in a system layout that matches the structured design. A structured presentation represents the association between an instance and the values characterizing the attributes of the instance in the visual presentation of the structured presentation by an instance identifier and an array of values.

この態様の他の実施形態は、対応するコンピュータプログラム製品、装置、および方法を含む。   Other embodiments of this aspect include corresponding computer program products, apparatus, and methods.

本明細書で説明されている発明対象の他の態様は、デバイスおよびデバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータを備えるシステムにより具現化されうる。これらのオペレーションは、第1のインスタンス、第2のインスタンス、および第1の属性を記述する記述データを受け取る段階と、非構造化電子文書コレクションの2つまたはそれ以上の文書から第1のインスタンスの第1の属性の値の第1のコレクションを抽出する段階と、非構造化電子文書コレクションの2つまたはそれ以上の文書から第2のインスタンスの第1の属性の値の第2のコレクションを抽出する段階と、値の第1のコレクションの第1のサブセットを、第1のインスタンスの第1の属性を適切に特徴付けるものとして確定する段階と、値の第2のコレクションの第2のサブセットを、第2のインスタンスの第1の属性を適切に特徴付けるものとして確定する段階と、第1のサブセットの第1の値および第2のサブセットの第2の値を含む構造化プレゼンテーションを表示するための機械可読命令を生成する段階であって、構造化プレゼンテーションは、インスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す、段階と、機械可読命令をデバイスに送信する段階とを含む。   Other aspects of the inventive subject matter described herein may be embodied by a system comprising a device and one or more computers programmed to interact with the device and perform operations. These operations receive descriptive data describing a first instance, a second instance, and a first attribute, and the first instance of two or more documents in the unstructured electronic document collection Extracting a first collection of first attribute values and extracting a second collection of first attribute values of a second instance from two or more documents of an unstructured electronic document collection Determining a first subset of the first collection of values as appropriately characterizing the first attribute of the first instance, and a second subset of the second collection of values, A structured presentation including determining a first attribute of the second instance as appropriately characterizing and including a first value of the first subset and a second value of the second subset Generating machine readable instructions for displaying an action, wherein the structured presentation represents an association between an instance and a value characterizing the instance attribute by an instance identifier and an array of values; Transmitting readable instructions to the device.

この態様の他の実施形態は、対応するコンピュータプログラム製品、装置、および方法を含む。   Other embodiments of this aspect include corresponding computer program products, apparatus, and methods.

本明細書で説明される発明対象の他の態様は、構造化プレゼンテーションをディスプレイデバイス上に表示するアクションと、表示される構造化プレゼンテーションに対するユーザーインタラクションを特徴付ける、構造化プレゼンテーションの第1のインスタンスおよび第1の属性の指定を含むデータを受け取るアクションと、データを受け取ったことに応答してディスプレイデバイス上に以前には隠されていた検索インターフェイスを表示するアクションとを含む機械実装方法によって具現化されうる。構造化プレゼンテーションは、構造化設計に適合する組織的な構造化された配列で情報を視覚的に提示する。構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す。検索インターフェイスは、電子文書コレクション内の第1のインスタンスの第1の属性を特徴付ける第1の値の位置を識別する情報もしくはインタラクティブ要素を含む。   Other aspects of the subject matter described herein include a first instance and a first instance of a structured presentation that characterizes actions for displaying the structured presentation on a display device and user interaction with the displayed structured presentation. May be embodied by a machine-implemented method including an action of receiving data including an attribute specification of 1 and an action of displaying a search interface previously hidden on the display device in response to receiving the data . A structured presentation visually presents information in an organized structured arrangement that fits the structured design. A structured presentation represents the association between an instance and the values characterizing the attributes of the instance in the visual presentation of the structured presentation by an instance identifier and an array of values. The search interface includes information or interactive elements that identify the location of the first value that characterizes the first attribute of the first instance in the electronic document collection.

この態様および他の態様は、以下の特徴のうちの1つまたは複数を含む。表示される構造化プレゼンテーションに対するユーザーインタラクションを特徴付けるデータを受け取る段階は、構造化プレゼンテーション内のセルに関連付けられている第1のインスタンスおよび第1の属性の手動によるユーザー指定を受け取る段階、または構造化プレゼンテーション内のセルに対するユーザーインタラクションを特徴付けるデータを受け取る段階を含むことができる。セルは、構造化プレゼンテーション内の第1のインスタンスおよび第1の属性の識別子に関するセルの配列を用いて第1のインスタンスおよび第1の属性に関連付けることができる。セルに対するユーザーインタラクションを特徴付けるデータを受け取る段階は、空のセルに対するユーザーインタラクションを特徴付けるデータを受け取る段階も含みうる。以前には隠されていた検索インターフェイスを表示する段階は、電子文書コレクションの検索をトリガーし、第1の値を特定するためにユーザー側で選択できるインタラクティブ要素を表示する段階、第1のインスタンスの第1の属性を特徴付ける値を指定するためにユーザー側で選択できるインタラクティブ値入力要素を表示する段階、電子文書コレクションの第1の文書内の第1の値のコンテキストを特徴付けるスニペットを表示する段階、および第1の値を特定するために電子文書コレクションの事前検索の結果を表示する段階のうちの1つまたは複数を含むことができる。第1の値は、第1のインスタンスの第1の属性を特徴付ける値として構造化プレゼンテーション内に出現しうる。以前には隠されていた検索インターフェイスを表示する段階は、電子文書コレクション内の第1の電子文書の識別子を表示する段階も含むことができ、第1の値は、第1の電子文書から引き出される。この方法は、第1の電子文書が機能せず第1の値を提供することができないと判定する段階と、第1の文書が機能しないことを示す視覚的指示を表示する段階も含むことができる。ユーザーに対して、第1の文書と第1のインスタンスおよび第1の属性との関連性の変化に関係なく第1の文書から矛盾なく第1の値を選択するオプション、または第1のインスタンスおよび第1の属性に最も関連している第1の文書から第1の値を選択するオプションを提示することができる。この方法は、検索インターフェイスに対するユーザーインタラクションに応答して第1の値を特定するために電子文書の非構造化コレクションを検索する段階と、第1の値を構造化プレゼンテーションに追加する段階も含むことができる。第1のインスタンスおよび第1の属性の指定を受け取る段階は、属性のコレクションまたはインスタンスのコレクションの指定を受け取る段階を含むことができる。この方法は、時間の経過に応じて構造化プレゼンテーションの表示を更新する段階も含みうる。   This and other aspects include one or more of the following features. Receiving data characterizing user interaction with the displayed structured presentation includes receiving manual user designation of the first instance and the first attribute associated with a cell in the structured presentation, or the structured presentation Receiving data characterizing user interaction with the cells within can be included. The cell can be associated with the first instance and the first attribute using an array of cells with respect to the identifier of the first instance and the first attribute in the structured presentation. Receiving data characterizing user interaction with a cell may also include receiving data characterizing user interaction with an empty cell. Displaying a previously hidden search interface triggers a search of an electronic document collection and displays interactive elements that can be selected by the user to identify the first value. Displaying an interactive value input element that can be selected by the user to specify a value that characterizes the first attribute; displaying a snippet characterizing the context of the first value in the first document of the electronic document collection; And one or more of displaying the results of a pre-search of the electronic document collection to identify the first value. The first value may appear in the structured presentation as a value that characterizes the first attribute of the first instance. Displaying the previously hidden search interface can also include displaying the identifier of the first electronic document in the electronic document collection, where the first value is derived from the first electronic document. It is. The method may also include determining that the first electronic document does not function and cannot provide the first value and displaying a visual indication that the first document does not function. it can. An option for the user to select the first value consistently from the first document regardless of changes in the association of the first document with the first instance and the first attribute, or the first instance and An option may be presented to select the first value from the first document that is most relevant to the first attribute. The method also includes searching the unstructured collection of electronic documents to identify the first value in response to user interaction with the search interface and adding the first value to the structured presentation. Can do. Receiving the designation of the first instance and the first attribute may include receiving a designation of the collection of attributes or the collection of instances. The method may also include updating the display of the structured presentation over time.

この態様の他の実施形態は、対応するシステム、装置、およびコンピュータプログラム製品を含む。   Other embodiments of this aspect include corresponding systems, devices, and computer program products.

本明細書で説明されている発明対象の他の態様は、クライアントデバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータを備えるシステムにより具現化されうる。これらのオペレーションは、ディスプレイデバイス上に表示される構造化プレゼンテーションの第1のセルを指定するユーザーインタラクションを特徴付けるデータを受け取る段階と、第1のセルに第1の値を書き込むために事前検索が実施されたと判定する段階と、事前検索が実施されたと判定したことに応答して、ディスプレイデバイス上に事前検索を特徴付ける情報を表示する段階とを含む。構造化プレゼンテーションは、構造化設計に適合する組織的な構造化された配列で情報を視覚的に提示する。構造化プレゼンテーションは、インスタンスとインスタンスの属性を特徴付ける値との間の関連付けをセル内の値の配列によって表す。   Other aspects of the inventive subject matter described herein may be embodied by a system comprising one or more computers programmed to interact with client devices and perform operations. These operations receive data characterizing user interaction that specifies the first cell of the structured presentation displayed on the display device, and a pre-search is performed to write the first value to the first cell. Determining that the pre-search has been performed, and displaying information characterizing the pre-search on the display device in response to determining that the pre-search has been performed. A structured presentation visually presents information in an organized structured arrangement that fits the structured design. A structured presentation represents the association between an instance and the values that characterize the attributes of the instance by an array of values in the cell.

この態様および他の態様は、以下の特徴のうちの1つまたは複数を含む。第1のセルを指定するユーザーインタラクションを特徴付けるデータは、第1のセルに関連付けられている第1のインスタンスおよび第1の属性の手動によるユーザー指定を含むことができる。事前検索を特徴付ける情報は、第1の値の引き出し元となる電子文書を識別する情報を含むことができる。事前検索を特徴付ける情報は、第1の値の引き出し元になった可能性のある電子文書のコレクション、第1の値の引き出し元となる電子文書コレクション内の第1の電子文書を識別する情報、電子文書コレクションの第1の文書内の第1の値のコンテキストを特徴付けるスニペットのうちの1つまたは複数を含むことができる。事前検索を特徴付ける情報は、例えば以前には隠されていた検索インターフェイスの表示要素内に、表示することができる。これらのオペレーションは、第1の電子文書が操作不能であり第1の値を提供することができないと判定する段階と、第1の文書が操作不能であることを示す視覚的指示を表示する段階も含むことができる。これらのオペレーションは、ユーザーインタラクションに応答して構造化プレゼンテーションの第1のセル内の値の表示を更新する段階も含みうる。電子文書のコレクションは、インターネット上で利用可能な電子文書を含むことができる。電子文書は、ウェブページを含むことができる。構造化プレゼンテーションは、カードのコレクションであってよい。   This and other aspects include one or more of the following features. The data characterizing the user interaction specifying the first cell may include a manual user specification of the first instance and the first attribute associated with the first cell. The information characterizing the pre-search can include information for identifying the electronic document from which the first value is derived. Information that characterizes the prior search includes a collection of electronic documents that may have been the source of the first value, information that identifies the first electronic document in the electronic document collection from which the first value has been extracted, One or more of the snippets that characterize the context of the first value in the first document of the electronic document collection may be included. Information characterizing the pre-search can be displayed, for example, in a search interface display element that was previously hidden. These operations include determining that the first electronic document is inoperable and cannot provide the first value, and displaying a visual indication that the first document is inoperable Can also be included. These operations may also include updating the display of values in the first cell of the structured presentation in response to user interaction. The collection of electronic documents can include electronic documents available on the Internet. The electronic document can include a web page. A structured presentation may be a collection of cards.

この態様の他の実施形態は、対応するコンピュータプログラム製品、装置、およびコンピュータプログラム製品を含む。   Other embodiments of this aspect include corresponding computer program products, apparatus, and computer program products.

本明細書で説明されている発明対象の他の態様は、ディスプレイデバイスを備えるクライアントデバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータを備えるシステムにより具現化されうる。これらのオペレーションは、構造化プレゼンテーションをディスプレイデバイス上に表示する段階と、表示される構造化プレゼンテーションに対するユーザーインタラクションを特徴付けるデータを受け取る段階と、データを受け取ったことに応答してディスプレイデバイス上に以前には隠されていた検索インターフェイスを表示する段階とを含む。構造化プレゼンテーションは、構造化設計に適合する組織的な構造化された配列で情報を視覚的に提示する。構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す。データは、構造化プレゼンテーションの第1のインスタンスおよび第1の属性の指定を含む。検索インターフェイスは、電子文書コレクション内の第1のインスタンスの第1の属性を特徴付ける第1の値の位置を識別する情報もしくはインタラクティブ要素を含む。   Other aspects of the inventive subject matter described herein are embodied by a system comprising one or more computers programmed to interactively operate and perform operations on a client device comprising a display device. sell. These operations include displaying a structured presentation on a display device, receiving data characterizing user interaction with the displayed structured presentation, and previously displaying data on the display device in response to receiving the data. Includes displaying a hidden search interface. A structured presentation visually presents information in an organized structured arrangement that fits the structured design. A structured presentation represents the association between an instance and the values characterizing the attributes of the instance in the visual presentation of the structured presentation by an instance identifier and an array of values. The data includes a first instance of the structured presentation and a first attribute specification. The search interface includes information or interactive elements that identify the location of the first value that characterizes the first attribute of the first instance in the electronic document collection.

この態様の他の実施形態は、対応するコンピュータプログラム製品、装置、およびコンピュータプログラム製品を含む。   Other embodiments of this aspect include corresponding computer program products, apparatus, and computer program products.

1つまたは複数の実施形態の詳細は、付属の図面および以下の説明で述べられる。他の特徴および利点は、説明および図面、ならびに請求項から明らかになるであろう。   The details of one or more embodiments are set forth in the accompanying drawings and the description below. Other features and advantages will be apparent from the description and drawings, and from the claims.

電子文書コレクションからの情報が構造化プレゼンテーションでユーザーに提示されるシステムを示す略図である。1 is a schematic diagram illustrating a system in which information from an electronic document collection is presented to a user in a structured presentation. 電子文書コレクションからの情報が構造化プレゼンテーションでユーザーに提示される他のシステムの一実装を示す略図である。FIG. 6 is a schematic diagram illustrating one implementation of another system in which information from an electronic document collection is presented to a user in a structured presentation. 例示的な構造化プレゼンテーションの略図である。1 is a schematic diagram of an exemplary structured presentation. 例示的な構造化プレゼンテーションの略図である。1 is a schematic diagram of an exemplary structured presentation. 例示的な構造化プレゼンテーションの略図である。1 is a schematic diagram of an exemplary structured presentation. 電子文書コレクションからの情報を構造化プレゼンテーションでユーザーに提示するための例示的なプロセスの流れ図である。2 is a flowchart of an exemplary process for presenting information from an electronic document collection to a user in a structured presentation. 電子文書コレクション内の2つまたはそれ以上の関連する文書を識別するための例示的なプロセスの流れ図である。2 is a flow diagram of an example process for identifying two or more related documents in an electronic document collection. 電子文書コレクション内の2つまたはそれ以上の関連する文書を識別するための例示的なプロセスの流れ図である。2 is a flow diagram of an example process for identifying two or more related documents in an electronic document collection. 新規インスタンスを構造化プレゼンテーションに提案および/または追加するためのプロセスの流れ図である。FIG. 6 is a flow diagram of a process for proposing and / or adding a new instance to a structured presentation. 構造化プレゼンテーションの修正を指定するユーザー入力を受け取るためのユーザーインターフェイスコンポーネントの略図である。Fig. 6 is a schematic diagram of a user interface component for receiving user input specifying a modification of a structured presentation. 新規インスタンスを構造化プレゼンテーションに追加するための技術を指定するユーザー入力を受け取るためのユーザーインターフェイスコンポーネントの略図である。FIG. 6 is a schematic diagram of a user interface component for receiving user input specifying a technique for adding a new instance to a structured presentation. 新規インスタンスを構造化プレゼンテーションに追加するためにユーザー指定制約条件オプションで使用される制約条件を指定するユーザー入力を受け取るためのユーザーインターフェイスコンポーネントの略図である。FIG. 6 is a schematic diagram of a user interface component for receiving user input specifying constraints that are used in user specified constraint options to add a new instance to a structured presentation. 新規属性を構造化プレゼンテーションに追加するための例示的なプロセスの流れ図である。2 is a flow diagram of an exemplary process for adding new attributes to a structured presentation. 新規属性を構造化プレゼンテーションに追加するためのユーザーインターフェイスコンポーネントの略図である。Fig. 6 is a schematic diagram of a user interface component for adding new attributes to a structured presentation. 新規属性値を構造化プレゼンテーションに追加するための例示的なプロセスの流れ図である。2 is a flow diagram of an exemplary process for adding new attribute values to a structured presentation. 新規属性値を構造化プレゼンテーションに追加するための例示的なプロセスの流れ図である。2 is a flow diagram of an exemplary process for adding new attribute values to a structured presentation. 構造化プレゼンテーションに追加すべき候補値を選択するためのユーザーインターフェイスコンポーネントの略図である。Fig. 4 is a schematic diagram of a user interface component for selecting candidate values to be added to a structured presentation. 中に提示される属性値の不足のハイライトを含む構造化プレゼンテーションの略図である。FIG. 6 is a schematic representation of a structured presentation including highlights of lack of attribute values presented therein. 構造化プレゼンテーションに追加すべき候補属性を選択するためのユーザーインターフェイスコンポーネントの略図である。Fig. 6 is a schematic diagram of a user interface component for selecting candidate attributes to be added to a structured presentation. 構造化プレゼンテーションに追加すべき候補インスタンスを選択するためのユーザーインターフェイスコンポーネントの略図である。Fig. 6 is a schematic diagram of a user interface component for selecting candidate instances to be added to a structured presentation. 事前に存在している構造化プレゼンテーションを拡張するために新規インスタンスを追加することができるプロセスの略図である。FIG. 6 is a schematic diagram of a process by which new instances can be added to extend a pre-existing structured presentation. 電子文書コレクション内の文書のコンテンツに基づいてインスタンスを構造化プレゼンテーションに追加するための例示的なプロセスの流れ図である。3 is a flow diagram of an example process for adding an instance to a structured presentation based on the content of documents in an electronic document collection. 事前に存在している構造化プレゼンテーションの特性に基づいて電子文書コレクション内の電子文書からインスタンス提案を構成するための例示的なプロセスの流れ図である。4 is a flow diagram of an example process for constructing an instance proposal from electronic documents in an electronic document collection based on pre-existing structured presentation characteristics. 事前に存在している構造化プレゼンテーションの特性に基づく電子文書コレクション内の電子文書からのインスタンス提案の構成を表す図である。It is a figure showing the structure of the instance proposal from the electronic document in the electronic document collection based on the characteristic of the structured presentation which exists beforehand. 事前に存在している構造化プレゼンテーションの特性に基づいて電子文書コレクション内の電子文書からインスタンス提案を構成するための例示的なプロセスの流れ図である。4 is a flow diagram of an example process for constructing an instance proposal from electronic documents in an electronic document collection based on pre-existing structured presentation characteristics. 動画を記述するためのパターンとして使用されるハイパーテキストマークアップ言語のテンプレートの一部を表す図である。It is a figure showing a part of template of the hypertext markup language used as a pattern for describing a moving image. 事前に存在している構造化プレゼンテーション内の情報に基づいて新規インスタンス提案のコレクションを構成することができるプロセスの略図である。FIG. 6 is a schematic diagram of a process by which a collection of new instance proposals can be constructed based on information in a pre-existing structured presentation. 電子文書コレクション内の属性およびインスタンスを関連付けるテーブルの略図である。4 is a schematic diagram of a table associating attributes and instances in an electronic document collection. 事前に存在している構造化プレゼンテーションの特性に基づいてインスタンスおよび属性のコレクションからインスタンス提案を構成するためのプロセスの流れ図である。FIG. 6 is a flow diagram of a process for constructing an instance proposal from a collection of instances and attributes based on pre-existing structured presentation characteristics. 事前に存在している構造化プレゼンテーション内の情報に基づいて新規インスタンス提案のコレクションを構成するためのプロセスの流れ図である。FIG. 4 is a flow diagram of a process for constructing a collection of new instance proposals based on information in a pre-existing structured presentation. 事前に存在している構造化プレゼンテーション内の情報に基づいて新規インスタンス提案のコレクションを構成するためのプロセスの流れ図である。FIG. 4 is a flow diagram of a process for constructing a collection of new instance proposals based on information in a pre-existing structured presentation. データコレクション内の属性、インスタンス、およびそれらの値を関連付けるテーブルの略図である。Fig. 6 is a schematic diagram of a table that associates attributes, instances, and their values in a data collection. 事前に存在している構造化プレゼンテーション内の情報に基づいて新規インスタンス提案のコレクションを構成するためのプロセスの流れ図である。FIG. 4 is a flow diagram of a process for constructing a collection of new instance proposals based on information in a pre-existing structured presentation. 事前に存在している構造化プレゼンテーションの特性に基づく電子文書コレクション内の電子文書からのインスタンス提案の構成を表す図である。It is a figure showing the structure of the instance proposal from the electronic document in the electronic document collection based on the characteristic of the structured presentation which exists beforehand. 事前に存在している構造化プレゼンテーション内の情報に基づいて新規インスタンス提案のコレクションを構成するために使用されうるプロセスのコレクションの略図である。FIG. 4 is a schematic illustration of a collection of processes that can be used to construct a collection of new instance proposals based on information in a pre-existing structured presentation. 事前に存在している構造化プレゼンテーション内の情報に基づいて新規インスタンス提案のコレクションを構成するためのプロセスの流れ図である。FIG. 4 is a flow diagram of a process for constructing a collection of new instance proposals based on information in a pre-existing structured presentation. 事前に存在している構造化プレゼンテーションを拡張するために新規属性を追加することができるプロセスの略図である。FIG. 6 is a schematic diagram of a process by which new attributes can be added to extend a pre-existing structured presentation. 電子文書コレクション内の文書のコンテンツに基づいて属性を構造化プレゼンテーションに追加するための例示的なプロセスの流れ図である。3 is a flow diagram of an example process for adding attributes to a structured presentation based on the content of documents in an electronic document collection. 事前に存在している構造化プレゼンテーションの特性に基づいて電子文書コレクション内の電子文書から属性提案を構成するための例示的なプロセスの流れ図である。6 is a flowchart of an exemplary process for constructing attribute proposals from electronic documents in an electronic document collection based on pre-existing structured presentation characteristics. 事前に存在している構造化プレゼンテーションの特性に基づく電子文書コレクション内の電子文書からの属性提案の構成を表す図である。It is a figure showing the structure of the attribute proposal from the electronic document in the electronic document collection based on the characteristic of the structured presentation which exists beforehand. 事前に存在している構造化プレゼンテーションの特性に基づいて電子文書コレクション内の電子文書から属性提案を構成するための例示的なプロセスの流れ図である。6 is a flowchart of an exemplary process for constructing attribute proposals from electronic documents in an electronic document collection based on pre-existing structured presentation characteristics. 動画を記述するためのパターンとして使用されるハイパーテキストマークアップ言語(HTML)のテンプレートの一部を表す図である。It is a figure showing a part of template of the hypertext markup language (HTML) used as a pattern for describing a moving image. 事前に存在している構造化プレゼンテーション内の情報に基づいて新規属性提案のコレクションを構成することができるプロセスの略図である。FIG. 6 is a schematic diagram of a process by which a collection of new attribute proposals can be constructed based on information in a pre-existing structured presentation. 電子文書コレクション内の属性およびインスタンスを関連付けるテーブルの略図である。4 is a schematic diagram of a table associating attributes and instances in an electronic document collection. 事前に存在している構造化プレゼンテーションの特性に基づいてインスタンスおよび属性のコレクションから属性提案を構成するためのプロセスの流れ図である。FIG. 6 is a flow diagram of a process for constructing an attribute proposal from a collection of instances and attributes based on pre-existing structured presentation characteristics. 事前に存在している構造化プレゼンテーション内の情報に基づいて新規属性提案のコレクションを構成するためのプロセスの流れ図である。FIG. 5 is a flow diagram of a process for constructing a collection of new attribute proposals based on pre-existing information in a structured presentation. 事前に存在している構造化プレゼンテーション内の情報に基づいて属性提案を構成する際に使用する関係するインスタンスを識別するためのプロセスの流れ図である。FIG. 4 is a flow diagram of a process for identifying related instances for use in constructing an attribute proposal based on information in a pre-existing structured presentation. 事前に存在している構造化プレゼンテーション内の情報に基づいて新規属性提案のコレクションを構成するためのプロセスの流れ図である。FIG. 5 is a flow diagram of a process for constructing a collection of new attribute proposals based on pre-existing information in a structured presentation. 事前に存在している構造化プレゼンテーションの特性に基づく電子文書コレクション内の電子文書からの属性提案の構成を表す図である。It is a figure showing the structure of the attribute proposal from the electronic document in the electronic document collection based on the characteristic of the structured presentation which exists beforehand. 事前に存在している構造化プレゼンテーション内の情報に基づいて新規属性提案のコレクションを構成するために使用されうるプロセスのコレクションの略図である。FIG. 4 is a schematic illustration of a collection of processes that can be used to construct a collection of new attribute proposals based on information in a pre-existing structured presentation. 事前に存在している構造化プレゼンテーション内の情報に基づいて新規属性提案のコレクションを構成するためのプロセスの流れ図である。FIG. 5 is a flow diagram of a process for constructing a collection of new attribute proposals based on pre-existing information in a structured presentation. 電子文書コレクション内の2つまたはそれ以上の電子文書から引き出される属性値が構造化プレゼンテーションでユーザーに提示されるシステムを示す略図である。1 is a schematic diagram illustrating a system in which attribute values derived from two or more electronic documents in an electronic document collection are presented to a user in a structured presentation. 電子文書コレクション内の2つまたはそれ以上の電子文書から引き出される属性値が構造化プレゼンテーションでユーザーに提示されるシステムの一実装を示す略図である。1 is a schematic diagram illustrating one implementation of a system in which attribute values derived from two or more electronic documents in an electronic document collection are presented to a user in a structured presentation. 電子文書コレクション内の属性、値、およびインスタンスを関連付けることができるテーブルの略図である。Fig. 6 is a schematic diagram of a table that can associate attributes, values, and instances in an electronic document collection. 電子文書コレクション内の2つまたはそれ以上の電子文書から引き出される属性値を構造化プレゼンテーションでユーザーに提示するための例示的なプロセスの流れ図である。6 is a flow diagram of an example process for presenting attribute values derived from two or more electronic documents in an electronic document collection to a user in a structured presentation. 構造化プレゼンテーションで提示する1つまたは複数の値を選択するためのプロセスの流れ図である。2 is a flow diagram of a process for selecting one or more values to present in a structured presentation. 構造化プレゼンテーションで提示する1つまたは複数の値を選択するためのプロセスの流れ図である。2 is a flow diagram of a process for selecting one or more values to present in a structured presentation. 構造化プレゼンテーションで提示する1つまたは複数の値を選択するための例示的なプロセスの流れ図である。2 is a flow diagram of an example process for selecting one or more values to present in a structured presentation. 電子文書コレクション内の電子文書から引き出される属性値が構造化プレゼンテーションでユーザーに提示される状況を示す略図である。4 is a schematic diagram illustrating a situation in which attribute values derived from electronic documents in an electronic document collection are presented to a user in a structured presentation. 属性と属性値の両方が電子文書コレクション内の電子文書から引き出され、構造化プレゼンテーションでユーザーに提示されるプロセスを示す略図である。FIG. 6 is a schematic diagram illustrating a process in which both attributes and attribute values are derived from an electronic document in an electronic document collection and presented to a user in a structured presentation. 電子文書コレクション内の文書のコンテンツに基づいて値を構造化プレゼンテーションに追加するためのプロセスの流れ図である。3 is a flow diagram of a process for adding values to a structured presentation based on the content of documents in an electronic document collection. 検索インターフェイスが隠されている構造化プレゼンテーションの略図である。Fig. 6 is a schematic representation of a structured presentation with a hidden search interface. 検索インターフェイスが隠されている構造化プレゼンテーションの略図である。Fig. 6 is a schematic representation of a structured presentation with a hidden search interface. 検索インターフェイスが隠されている構造化プレゼンテーションの略図である。Fig. 6 is a schematic representation of a structured presentation with a hidden search interface. 以前には隠されていた検索インターフェイスが提示される表示要素を例示する図である。FIG. 6 illustrates a display element on which a previously hidden search interface is presented. 以前には隠されていた検索インターフェイスが提示される表示要素を例示する図である。FIG. 6 illustrates a display element on which a previously hidden search interface is presented. 以前には隠されていた検索インターフェイスが提示される表示要素を例示する図である。FIG. 6 illustrates a display element on which a previously hidden search interface is presented. 以前には隠されていた検索インターフェイスが提示される表示要素を例示する図である。FIG. 6 illustrates a display element on which a previously hidden search interface is presented. 以前には隠されていた検索インターフェイスが提示される表示要素を例示する図である。FIG. 6 illustrates a display element on which a previously hidden search interface is presented. 以前には隠されていた検索インターフェイスが提示される表示要素を例示する図である。FIG. 6 illustrates a display element on which a previously hidden search interface is presented. 電子文書コレクション内の文書のコンテンツから値を引き出すことによって値を構造化プレゼンテーションに追加するためのプロセスの流れ図である。2 is a flow diagram of a process for adding values to a structured presentation by extracting values from the content of documents in an electronic document collection. 以前には隠されていた検索インターフェイスが提示される表示要素を例示する図である。FIG. 6 illustrates a display element on which a previously hidden search interface is presented. 以前には隠されていた検索インターフェイスが提示される表示要素を例示する図である。FIG. 6 illustrates a display element on which a previously hidden search interface is presented. 以前には隠されていた検索インターフェイスが提示される表示要素を例示する図である。FIG. 6 illustrates a display element on which a previously hidden search interface is presented. 電子文書コレクション内の文書のコンテンツに基づいて値を構造化プレゼンテーションに追加するためのプロセスの流れ図である。3 is a flow diagram of a process for adding values to a structured presentation based on the content of documents in an electronic document collection.

さまざまな図面内の類似の参照記号は、類似の要素を示す。   Like reference symbols in the various drawings indicate like elements.

図1は、非構造化電子文書コレクション102からの情報が構造化プレゼンテーション106でユーザーに提示されるシステム100を示す略図である。電子文書コレクション102に加えて、システム100は、ディスプレイ画面104およびデータ通信インフラストラクチャ108を備える。動作中、システム100は、電子文書102の非構造化コレクションから情報を抽出し、その抽出された情報を構造化プレゼンテーション106でディスプレイ画面104に提示する。   FIG. 1 is a schematic diagram illustrating a system 100 in which information from an unstructured electronic document collection 102 is presented to a user in a structured presentation 106. In addition to the electronic document collection 102, the system 100 includes a display screen 104 and a data communication infrastructure 108. In operation, the system 100 extracts information from an unstructured collection of electronic documents 102 and presents the extracted information on the display screen 104 in a structured presentation 106.

電子文書コレクション102は、電子文書コレクション102内の個別の文書内の情報の編成が情報の抽出に際して利用することができる所定の構造に適合する必要はないという点で非構造化コレクションである。例えば、電子文書コレクション102内に3つの電子文書、つまり、電子文書110、112、114を考える。各電子文書のコンテンツを別々に編成する3人の異なるユーザーによって文書110、112、114がコレクション102に追加された。ユーザーは、文書110、112、114内の情報が、特定のフォーマットであることを保証するために共同作業する必要はない。さらに、一方のユーザーが文書110のフォーマットの変更を望んでいる場合、そのユーザーは他のユーザーによって追加された文書のフォーマットと無関係にそのようにすることができる。ユーザーが他のユーザーにその変更を通知する必要はない。実際、文書は、自動車メーカー3社、またはデジタルカメラの販売会社3社など、共同作業できないだけでなく、お互い敵同士である競合会社でもあるエンティティによってコレクション102に追加される場合もある。文書をコレクション102に追加するエンティティ同士の特定の連携があっても、文書内の情報がそれらの文書内において同様に編成されていることを保証する公式のメカニズムはない。さらに、コレクション102内のそれぞれの文書のそれぞれにおける情報の編成に変更がないことを保証する公式のメカニズムもない。   The electronic document collection 102 is an unstructured collection in that the organization of information in individual documents in the electronic document collection 102 does not have to conform to a predetermined structure that can be utilized in extracting information. For example, consider three electronic documents in the electronic document collection 102, that is, electronic documents 110, 112, 114. Documents 110, 112, 114 were added to collection 102 by three different users who organized the contents of each electronic document separately. Users do not need to collaborate to ensure that the information in documents 110, 112, 114 is in a particular format. Furthermore, if one user wants to change the format of document 110, that user can do so regardless of the format of the document added by the other user. The user does not need to notify other users of the change. In fact, documents may be added to the collection 102 by entities that are not only collaborative, but also competitors, such as three car manufacturers or three digital camera sales companies. Even though there is a specific linkage between entities that add documents to the collection 102, there is no official mechanism to ensure that the information in the documents is similarly organized within those documents. In addition, there is no formal mechanism to ensure that the organization of information in each of the documents in collection 102 is unchanged.

それとは対照的に、構造化プレゼンテーション106は、構造化されており、整理されたシステム配置のコレクション102内の文書から引き出された情報を提示する。したがって、構造化プレゼンテーション106内の情報のグループ分け、セグメント分割、および配列は、その中の情報がコレクション102内の多様な一組の文書における異なるコンテキストから引き出されるとしても、構造化設計に従う。さらに、構造化プレゼンテーション106の設計の一態様に加えられた変更は、構造化プレゼンテーション106全体に伝搬しうる。   In contrast, structured presentation 106 is structured and presents information derived from documents in a collection 102 of organized system arrangements. Thus, the grouping, segmentation, and arrangement of information in the structured presentation 106 follows the structured design even though the information therein is drawn from different contexts in the diverse set of documents in the collection 102. Further, changes made to one aspect of the design of the structured presentation 106 can propagate throughout the structured presentation 106.

構造化プレゼンテーションの例としては、スプレッドシートテーブル、カードまたは他のレコードのコレクション、および他の構造化プレゼンテーションフォーマットが挙げられる。このような構造化プレゼンテーションは、ディスプレイにおける情報の空間的配列、構造化プレゼンテーションの編成および情報に関するさまざまな態様(例えば、列見出し、行見出し、単位識別子、および同様のもの)の位置決めおよび識別、値のグラフィック表現、および他の特性を指定する規則に従うものとすることができる。   Examples of structured presentations include spreadsheet tables, collections of cards or other records, and other structured presentation formats. Such structured presentations are the positioning and identification of values, the spatial arrangement of information on the display, the organization of the structured presentation and various aspects of information (e.g., column headings, row headings, unit identifiers, and the like), values It may follow the rules for specifying the graphical representation of and other characteristics.

構造化プレゼンテーション内の情報の構造化により、一般的に、閲覧者による情報の理解がしやすくなる。例えば、閲覧者は、見出しを読み取ることによって構造化プレゼンテーション内に格納されている情報の性質を認識することができる。閲覧者は、構造化プレゼンテーション内に記述されている値を、ディスプレイに示されているそれらの値の配列および位置決めに基づいて容易に識別し、比較することができる。例えば、ユーザーは、構造化プレゼンテーション内のいくつかの値がすべて、異なる自動車の属性(つまり、特性)に関係することを簡単に確認し、それらの値を容易に比較することができる。   The structuring of information in structured presentations generally makes it easier for viewers to understand the information. For example, the viewer can recognize the nature of the information stored in the structured presentation by reading the headline. The viewer can easily identify and compare the values described in the structured presentation based on the arrangement and positioning of those values shown on the display. For example, the user can easily verify that some values in the structured presentation are all related to different car attributes (ie, characteristics) and easily compare those values.

システム100は、コレクション102内の文書から引き出された値を構造化プレゼンテーション106内に単に書き込むことに制限されない。その代わりに、多くの実装において、システム100は、構造化プレゼンテーション106内に記述されるエンティティ(つまり、「インスタンス」)、それらのインスタンスの属性を特徴付ける値、さらには構造化プレゼンテーション106の適切な構造化を決定することができる。このような決定は、特定のフォーマット、永続的フォーマット、またはその両方を有することに制限されていないコレクション102内の異なる文書から引き出された情報に基づいて行うことができる。例えば、構造化プレゼンテーション106内に出現する属性は、以下でさらに詳しく説明するように、いくつかのインスタンスを特徴付けるためにコレクション102内の文書で使用される属性に基づくものとすることができる。他の例として、構造化プレゼンテーション106内に出現する値の単位(例えば、メートル、フィート、インチ、マイル)は、コレクション102内の文書内に出現する値の単位に基づくものとすることができる。他の例として、構造化プレゼンテーション106内に出現するインスタンスは、コレクション102内の文書内に出現するインスタンスのコレクションに基づいて決定されうる。   System 100 is not limited to simply writing values derived from documents in collection 102 into structured presentation 106. Instead, in many implementations, the system 100 is responsible for the entities described in the structured presentation 106 (ie, “instances”), the values that characterize the attributes of those instances, and the appropriate structure of the structured presentation 106. Can be determined. Such a determination can be made based on information derived from different documents in the collection 102 that are not limited to having a particular format, a permanent format, or both. For example, attributes appearing in the structured presentation 106 may be based on attributes used in documents in the collection 102 to characterize some instances, as will be described in more detail below. As another example, the units of value that appear in structured presentation 106 (eg, meters, feet, inches, miles) may be based on the units of value that appear in documents in collection 102. As another example, instances that appear in structured presentation 106 may be determined based on a collection of instances that appear in documents in collection 102.

さらに、多くの実装において、そのような情報は、コレクション102内の以前に指定されていない文書から引き出すことができる。例えば、検索クエリを使用して、コレクション102内の文書を識別し、それらの文書から情報を引き出すことができる。情報の引き出し元となりうる文書の識別または種類に対し事前に存在する制限がある必要はない。例えば、識別された文書は、特定の個人のアカウントに関連付けられるもの、または特定の小売店に由来するものに制限される必要はない。その代わりに、情報は、以前に指定されていない文書から引き出すことができる。   Further, in many implementations, such information can be derived from previously unspecified documents in collection 102. For example, a search query can be used to identify documents in collection 102 and extract information from those documents. There is no need to have pre-existing restrictions on the identification or type of documents from which information can be derived. For example, the identified documents need not be limited to those associated with a particular individual's account or from a particular retail store. Instead, the information can be extracted from documents that have not been previously specified.

システム100は、こうして、さまざまな異なる方法でコレクション102内の文書の多様な情報内容を利用して、構造化プレゼンテーションをユーザーに提示することができる。電子文書コレクション102が多数の文書を含む場合、利用できる情報の量は、非常に大きくなる可能性がある。さらに、これは、以下でさらに詳しく説明するように、多くの場合、自動的に、または人によるインタラクティブな操作を比較的わずかに抑えて実行することができる。   The system 100 can thus present a structured presentation to the user using the diverse information content of the documents in the collection 102 in a variety of different ways. If the electronic document collection 102 includes a large number of documents, the amount of information available can be very large. Furthermore, this can often be performed automatically or with relatively little human interaction as described in more detail below.

図2は、非構造化電子文書コレクション102からの情報が構造化プレゼンテーション106でユーザーに提示されるシステム200の一実装を示す略図である。システム200では、データ通信インフラストラクチャ108が、電子文書コレクション102と、ディスプレイ画面104と、検索エンジン202、クローラー204、データセンター208、ならびに、文書圧縮、インデックス付け、および順位付けモジュール210を含むデータ記憶要素および処理要素のコレクションとを相互接続する。   FIG. 2 is a schematic diagram illustrating one implementation of a system 200 in which information from an unstructured electronic document collection 102 is presented to a user in a structured presentation 106. In system 200, data communication infrastructure 108 includes electronic document collection 102, display screen 104, search engine 202, crawler 204, data center 208, and data storage including document compression, indexing and ranking module 210. Interconnect elements and collections of processing elements.

検索エンジン202は、非構造化電子文書コレクション102を検索するように、1つまたは複数の機械可読命令セットによりプログラムされる。検索エンジン202は、1つまたは複数の地理的位置に配備されている1つまたは複数のコンピュータ上に実装することができる。   The search engine 202 is programmed with one or more machine readable instruction sets to search the unstructured electronic document collection 102. Search engine 202 may be implemented on one or more computers that are deployed in one or more geographic locations.

クローラー204は、非構造化電子文書コレクション102に対しクローリングを実行するように、1つまたは複数の機械可読命令セットによりプログラムされる。クローラー204は、1つまたは複数の地理的位置に配備されている1つまたは複数のコンピュータ上に実装することができる。   The crawler 204 is programmed with one or more machine readable instruction sets to perform crawling on the unstructured electronic document collection 102. The crawler 204 can be implemented on one or more computers that are deployed in one or more geographic locations.

圧縮、インデックス付け、および順位付けモジュール210は、コレクション102内の文書の圧縮、インデックス付け、および順位付けを行うように、1つまたは複数の機械可読命令セットによりプログラムされる。圧縮、インデックス付け、および順位付けモジュール210は、1つまたは複数の地理的位置に配備されている1つまたは複数のコンピュータ上に実装することができる。   The compression, indexing, and ranking module 210 is programmed with one or more machine-readable instruction sets to compress, index, and rank documents in the collection 102. The compression, indexing, and ranking module 210 can be implemented on one or more computers deployed at one or more geographic locations.

データセンター208は、電子文書コレクション102内の電子文書を特徴付ける情報を格納する。そのような電子文書を特徴付ける情報は、インデックス付きキーワードおよびキーワードを見つけることができるコレクション102内の文書の位置を含むインデックス付きデータベースの形態で格納されうる。インデックス付きデータベースは、例えば、クローラー204によって形成されうる。   The data center 208 stores information characterizing the electronic documents in the electronic document collection 102. Information characterizing such an electronic document may be stored in the form of an indexed database that includes indexed keywords and the location of the document in the collection 102 where the keywords can be found. The indexed database may be formed by the crawler 204, for example.

いくつかの実装では、データセンター208内に格納されている情報はそれ自体、構造化プレゼンテーション106をユーザーに提示しやすいように編成されうる。例えば、情報は、いくつかのトピックに関連する構造化プレゼンテーション106を提示することが必要であることを予想してクローラー204ならびに圧縮、インデックス付け、および順位付けモジュール210によって編成されうる。データセンター208内の情報の構造は、構造化プレゼンテーション106内の情報のグループ分け、セグメント分割、および配列を行いやすくするものであってよい。この編成は、さまざまな異なるファクタに基づいて行うことができる。例えば、オントロジーを使用して、データセンター208内に格納されている情報を整理することができる。他の例として、前の構造化プレゼンテーション106の履歴レコードを使用して、データセンター208内に格納されている情報を整理することができる。他の例として、本明細書で説明されているデータテーブルを使用して、データセンター208内に格納されている情報を整理することができる。   In some implementations, the information stored in the data center 208 may itself be organized to facilitate presenting the structured presentation 106 to the user. For example, information may be organized by crawler 204 and compression, indexing, and ranking module 210 in anticipation that it is necessary to present structured presentation 106 related to several topics. The structure of the information in the data center 208 may facilitate grouping, segmenting, and arranging information in the structured presentation 106. This organization can be based on a variety of different factors. For example, an ontology can be used to organize information stored in the data center 208. As another example, the historical records of the previous structured presentation 106 can be used to organize the information stored in the data center 208. As another example, the data tables described herein can be used to organize information stored in the data center 208.

図示されているように、システム200は、機械可読命令に従って構造化プレゼンテーションを提示することができる複数のディスプレイ画面104を備える。ディスプレイ画面104としては、例えば、陰極線(CRT)、発光ダイオード(LED)画面、液晶ディスプレイ(LCD)、ガスプラズマディスプレイ、および同様のものが挙げられる。ディスプレイ画面104は、自給式データ処理システム、例えば、パーソナルデータアシスタント(PDA)215、デスクトップコンピュータ217、または携帯電話の欠くことのできない部分であるものとすることができる。一般に、構造化プレゼンテーションを提示するための命令は、そのような自給式データ処理システムが受け取った後にディスプレイ画面104の仕様に合わせて修正される。しかし、これは必ずしもそうではない。例えば、ディスプレイ画面104は、構造化プレゼンテーションを提示するための命令の処理がそれらの命令がディスプレイ画面104に届く前に完了している、より分散度の高いシステムの一部であってもよい。例えば、ディスプレイ画面104は、「ダム」デバイス、例えば、テレビ受像機またはコンピュータのモニタに組み込むことができ、これらはローカルもしくはリモートのソースから構造化プレゼンテーション106を提示するための命令を受け取る。   As shown, system 200 includes a plurality of display screens 104 that can present a structured presentation according to machine-readable instructions. Examples of the display screen 104 include a cathode ray (CRT), a light emitting diode (LED) screen, a liquid crystal display (LCD), a gas plasma display, and the like. Display screen 104 may be an integral part of a self-contained data processing system, such as a personal data assistant (PDA) 215, desktop computer 217, or mobile phone. In general, instructions for presenting a structured presentation are modified to the display screen 104 specifications after being received by such a self-contained data processing system. But this is not always the case. For example, the display screen 104 may be part of a more distributed system in which processing of instructions to present a structured presentation is completed before the instructions reach the display screen 104. For example, display screen 104 can be incorporated into a “dumb” device, such as a television receiver or computer monitor, which receives instructions for presenting structured presentation 106 from a local or remote source.

動作中、システム200は、コレクション102内の非構造化情報を、閲覧者に提示される構造化プレゼンテーション106に変換することができる。このような変換は、検索エンジンがコレクション102内の電子文書から抽出された情報に基づいて情報要求を受け取り、その情報要求に応答するウェブ検索の状況において実行されうる。   In operation, the system 200 can convert unstructured information in the collection 102 into a structured presentation 106 that is presented to the viewer. Such conversion may be performed in the context of a web search where a search engine receives an information request based on information extracted from an electronic document in collection 102 and responds to the information request.

例えば、パーソナルデータアシスタント(PDA)215またはデスクトップコンピュータ217は、ユーザーと情報をやり取りし、これにより、例えば、ウェブブラウザアプリケーションを使って検索クエリを受け取ることができる。クエリの記述212は、無線データリンク219および/または有線データリンク221を介して検索エンジン202に伝送されうる。これに対する応答として、検索エンジン202は、クエリ記述212を使用して、ディスプレイ画面104上に構造化プレゼンテーション106を提示する際に使用できるデータセンター208内の情報を識別することができる。識別された情報は、非構造化電子文書コレクション102内の2つまたはそれ以上の指定されていない電子文書から引き出すことができる。いくつかの場合において、クエリ記述212は、情報を取り出して構造化プレゼンテーション106をユーザーに提示するために検索エンジン202によって使用される検索語を含むことができる。例えば、クエリ記述212内の検索語を使用することで、データセンター208内において、関係するインスタンス、そのようなインスタンスを特徴付ける属性、個別のインスタンスを特徴付ける値、および/または構造化プレゼンテーション106の他の態様からなるコレクションを識別することができる。   For example, a personal data assistant (PDA) 215 or desktop computer 217 can exchange information with the user, thereby receiving a search query using, for example, a web browser application. Query description 212 may be transmitted to search engine 202 via wireless data link 219 and / or wired data link 221. In response, search engine 202 can use query description 212 to identify information in data center 208 that can be used in presenting structured presentation 106 on display screen 104. The identified information can be derived from two or more unspecified electronic documents in the unstructured electronic document collection 102. In some cases, the query description 212 may include search terms that are used by the search engine 202 to retrieve information and present the structured presentation 106 to a user. For example, by using a search term in query description 212, other instances within data center 208 are associated with the instance, attributes that characterize such instances, values that characterize individual instances, and / or other structured presentation 106 A collection of aspects can be identified.

検索エンジン202は、クエリ記述212への応答214を生成することもできる。応答214は、ユーザーに対し構造化プレゼンテーション106を提示するために使用されうる。一般に、応答214は、構造化プレゼンテーション106を提示するためにシステム215、217内のデータ処理デバイスによって解釈できる機械可読命令を含む。例えば、応答214は、構造化プレゼンテーション106の特性およびコンテンツを指定するためにHTMLでコード化することができる。他の実装では、応答214は、構造化プレゼンテーション106を提示するために使用されるデータセンター208からのテキストスニペットまたは他の情報を含むことができる。例えば、応答214は、以下でさらに詳しく説明するように、値、新規属性の名前、構造化プレゼンテーション106で表示する値が正しい確率の推定からなるコレクションを含むことができる。   The search engine 202 can also generate a response 214 to the query description 212. The response 214 can be used to present the structured presentation 106 to the user. In general, the response 214 includes machine-readable instructions that can be interpreted by a data processing device in the systems 215, 217 to present the structured presentation 106. For example, the response 214 can be encoded in HTML to specify the characteristics and content of the structured presentation 106. In other implementations, the response 214 can include a text snippet or other information from the data center 208 that is used to present the structured presentation 106. For example, the response 214 can include a collection of values, names of new attributes, and estimates of the probability that the value displayed in the structured presentation 106 is correct, as will be described in more detail below.

多くの場合において、システム200は、データセンター208内に格納されている情報を使用して、クエリ記述212において記述されているクエリに関連する1つまたは複数の文書の位置を識別する。例えば、検索エンジン202は、クエリ記述212内のキーワードをデータセンター208内に格納されているキーワードのインデックスと比較することができる。この比較結果を使用して、クエリ記述212に関連するコレクション102内の文書を識別することができる。そのような識別された文書の位置は、応答214内に、例えば、記述されたクエリに応答する文書へのハイパーリンクとして含めることができる。   In many cases, system 200 uses information stored in data center 208 to identify the location of one or more documents associated with the query described in query description 212. For example, the search engine 202 can compare keywords in the query description 212 with keyword indexes stored in the data center 208. This comparison result can be used to identify documents in the collection 102 associated with the query description 212. The location of such identified document can be included in response 214, eg, as a hyperlink to a document that responds to the described query.

いくつかの実装では、システム200は、構造化プレゼンテーション106内の情報のグループ分け、セグメント分割、および配列を行いやすいように属性および/またはそれらの各値を格納することができる。例えば、システム215、217などのクライアントシステムをユーザーがインタラクティブに操作することによって修正し、変更するときに、インスタンス、それらの属性、およびそれらの値からなるコレクションを構造化プレゼンテーション106としてデータセンター208内に格納することができる。例えば、第1の閲覧者に提示される一方の構造化プレゼンテーション106内のインスタンス、属性、および値をデータセンター208内に格納し、他の閲覧者にその後の構造化プレゼンテーション106を提供する際に使用することができる。   In some implementations, the system 200 may store attributes and / or their respective values to facilitate grouping, segmentation, and arrangement of information in the structured presentation 106. For example, when a user interacts with and modifies a client system such as systems 215, 217, a collection of instances, their attributes, and their values as a structured presentation 106 in data center 208 Can be stored. For example, when storing instances, attributes, and values in one structured presentation 106 presented to a first viewer in the data center 208 and providing subsequent structured presentations 106 to other viewers Can be used.

図3は、例示的な構造化プレゼンテーション106、つまり、テーブル300を含むものの略図である。テーブル300は、インスタンスの1つまたは複数の識別子、さらにはそれらのインスタンスの特定の属性の値の整理されたシステム配置である。インスタンスは、個別に識別可能なエンティティであり、一般的に、少なくともいくつかの共通の属性を共有する。属性は、エンティティのプロパティ、特徴、または特性である。例えば、Tom、Dick、およびHarryは、個人のインスタンスである。それぞれのそのような個人は、名前、身長、体重、および同様のものなどの属性を有する。他の例として、都市インスタンスはそれぞれ、地理的位置、市長、および人口を有する。さらに他の例として、製品インスタンスは、モデル名、製造会社、および年を有するものとしてよい。   FIG. 3 is a schematic diagram of an exemplary structured presentation 106, ie, including table 300. Table 300 is an organized system arrangement of one or more identifiers of instances, as well as the values of certain attributes of those instances. Instances are individually identifiable entities and generally share at least some common attributes. An attribute is a property, feature, or characteristic of an entity. For example, Tom, Dick, and Harry are personal instances. Each such individual has attributes such as name, height, weight, and the like. As another example, each city instance has a geographical location, a mayor, and a population. As yet another example, a product instance may have a model name, manufacturer, and year.

インスタンスの属性は、値によって特徴付けることができる。したがって、特定のインスタンスの特定の属性の値は、その特定のインスタンスを特徴付ける。例えば、個人の名前は「Tom」という値を有し、市の人口は値「400万」を有し、製品のモデル名は値「Wrangler」を有することができる。いくつかの実装では、テーブル300などの構造化プレゼンテーションは、属性の識別子、さらには値を表す際に使用する単位の識別子も含むことができる。   Instance attributes can be characterized by values. Thus, the value of a particular attribute of a particular instance characterizes that particular instance. For example, an individual's name may have a value of “Tom”, a city population may have a value of “4 million”, and a product model name may have a value of “Wrangler”. In some implementations, structured presentations, such as table 300, may also include attribute identifiers as well as unit identifiers used in representing values.

テーブル300内の情報のグループ分け、セグメント分割、および配列は、ユーザーによって情報を理解しやすいように選択されうる。この点で、テーブル300は、行302のコレクションを含む。それぞれの行302は、インスタンス識別子306と関連付けられている属性値307のコレクションとを含む。したがって、行302内の属性値307およびインスタンス識別子306の配列および位置決めは、それらの間の関連付けをグラフィックで表す。例えば、ユーザーは、属性値307と同じ行302内にあるインスタンス識別子306との間の関連付けを認識することができる。   The grouping, segmentation, and arrangement of information in the table 300 can be selected so that the user can easily understand the information. In this regard, the table 300 includes a collection of rows 302. Each row 302 includes a collection of attribute values 307 associated with the instance identifier 306. Thus, the arrangement and positioning of attribute values 307 and instance identifiers 306 in row 302 graphically represent the association between them. For example, the user can recognize an association between the attribute value 307 and the instance identifier 306 in the same row 302.

テーブル300は、列304のコレクションも含む。それぞれの列304は、属性識別子308と関連付けられている属性値307のコレクションとを含む。したがって、列304内の属性値307および属性識別子308の配列および位置決めは、それらの間の関連付けをグラフィックで表す。例えば、ユーザーは、その連携に基づいて属性値307と同じ列304内にある属性識別子308との間の関連付けを認識することができる。   Table 300 also includes a collection of columns 304. Each column 304 includes a collection of attribute values 307 associated with the attribute identifier 308. Thus, the arrangement and positioning of attribute values 307 and attribute identifiers 308 in column 304 graphically represent the association between them. For example, the user can recognize an association between the attribute value 307 and the attribute identifier 308 in the same column 304 based on the cooperation.

それぞれの行302は、それぞれの行302が単一のインスタンス識別子306を関連付けられている属性値307のコレクションに関連付けるという点で構造化レコード310である。さらに、一方の構造化レコード310内のそれらの関連付けを表すために使用される配列および位置決めは、他方の構造化レコード310内(つまり、他の行302内)に複製される。実際、多くの場合において、構造化プレゼンテーション106内の構造化レコード310はすべて、情報の同じ配列および位置決めを有することに制限される。例えば、属性「ATTR_2」の値307は、すべての行302における同じ列304に出現することに制限される。他の例として、属性識別子308はすべて、同じ列304内に出現する値307と同じ空間的関係を有する。さらに、一方の構造化レコード310内の情報の配列および位置決めに加えられた変更は、一般的に、構造化プレゼンテーション106内の他の構造化レコード310に伝搬する。例えば、新規属性(例えば、「ATTR_23/4」)を特徴付ける新規属性値307が一方の構造化レコード310に追加される場合、すべてのインスタンスの属性「ATTR_23/4」の値が構造化プレゼンテーション106に追加できるように新規列304が構造化プレゼンテーション106に追加される。 Each row 302 is a structured record 310 in that each row 302 associates a single instance identifier 306 with an associated collection of attribute values 307. Further, the arrays and positioning used to represent their association in one structured record 310 are replicated in the other structured record 310 (ie, in the other row 302). In fact, in many cases, all structured records 310 in structured presentation 106 are limited to having the same arrangement and positioning of information. For example, the value “307” of the attribute “ATTR_2” is restricted to appear in the same column 304 in all rows 302. As another example, all attribute identifiers 308 have the same spatial relationship as values 307 appearing in the same column 304. In addition, changes made to the arrangement and positioning of information in one structured record 310 generally propagate to other structured records 310 in the structured presentation 106. For example, a new attribute (e.g., "Attr_2 3/4") if the new attribute value 307 characterizing be added to one of the structured record 310, the value is structured presentation attributes for all instances "Attr_2 3/4" A new column 304 is added to structured presentation 106 so that it can be added to 106.

いくつかの実装では、テーブル300内の値307は、いくつかの測定単位で提示することができる。測定単位の例としては、フィート、ヤード、インチ、マイル、秒、ガロン、リットル、℃、および同様の単位が挙げられる。いくつかの場合に、値307を提示する際に使用する測定単位は、単位識別子309で示される。単位識別子309は、例えば、値307の横に、および/または関連する属性識別子308の横に表示されうる。単位識別子309と測定単位が示される値307との間の関連付けは、そのような配置によって閲覧者に対し示される。多くの場合において、単一の属性に関連付けられている値307のすべて(例えば、単一の列304内の値307のすべて)が、同じ測定単位での提示に制限される。   In some implementations, the value 307 in the table 300 can be presented in several units of measurement. Examples of units of measurement include feet, yards, inches, miles, seconds, gallons, liters, degrees Celsius, and similar units. In some cases, the unit of measurement used in presenting the value 307 is indicated by the unit identifier 309. The unit identifier 309 may be displayed beside the value 307 and / or beside the associated attribute identifier 308, for example. The association between the unit identifier 309 and the value 307 indicating the unit of measurement is indicated to the viewer by such an arrangement. In many cases, all of the values 307 associated with a single attribute (eg, all of the values 307 in a single column 304) are limited to presentation in the same unit of measure.

システム100、200によって電子文書コレクション102から抽出された情報は、ユーザーへのテーブル300の提示にさまざまな形で影響を及ぼしうる。例えば、電子文書コレクション102から抽出された情報を使用して、テーブル300に書き込む値307を決定することができる。他の例として、電子文書コレクション102から抽出された情報を使用することにより、テーブル300に追加する新規属性および/または新規インスタンスを提案することができる。   Information extracted from the electronic document collection 102 by the systems 100, 200 can affect the presentation of the table 300 to the user in various ways. For example, the value 307 to be written to the table 300 can be determined using information extracted from the electronic document collection 102. As another example, by using information extracted from the electronic document collection 102, new attributes and / or new instances to be added to the table 300 can be proposed.

いくつかの実装では、インスタンス識別子306を1つまたは複数の検索文字列に基づいて選択することができる。例えば、検索エンジン202がユーザーから検索文字列「hybrid vehicles」を受け取ると、システム200などのシステムが、検索文字列を使用して電子文書コレクション102から抽出された情報に基づいてテーブル300を生成し、テーブル300に書き込むことができる。例えば、システム200は、データセンター208にアクセスし、検索文字列に関連する電子文書内のインスタンス識別子306を識別し、識別されたインスタンスに対する一組の共通属性(さらにはそれらの属性の識別子308およびそれらの属性に対する値307)を決定することができる。実際、システム200は、受け取った検索文字列に基づいてインスタンス識別子306、属性識別子308、さらには関連付けられている値307を決定することができる。   In some implementations, the instance identifier 306 can be selected based on one or more search strings. For example, when search engine 202 receives a search string “hybrid vehicles” from a user, a system such as system 200 generates a table 300 based on information extracted from electronic document collection 102 using the search string. , Can be written to the table 300. For example, the system 200 accesses the data center 208, identifies the instance identifier 306 in the electronic document associated with the search string, and sets a set of common attributes for the identified instance (and identifiers 308 and Values 307) for those attributes can be determined. In fact, the system 200 can determine an instance identifier 306, an attribute identifier 308, and an associated value 307 based on the received search string.

いくつかの実装では、1つまたは複数の属性識別子308、インスタンス識別子306、および/または値307を、テーブル300の表示を見るユーザーから受け取ることができる。以下でさらに詳しく説明するように、システム200などのシステムは、1つまたは複数の受け取った属性識別子308、インスタンス識別子306、および/または値307を使用し電子文書コレクション102から抽出された情報に基づいてテーブル300を生成し、テーブル300に書き込むことができる。実際、システム200は、受け取った属性識別子308、インスタンス識別子306、および/または値307に基づいて新規インスタンス識別子306、属性識別子308、さらには関連付けられている値307を構成することができる。   In some implementations, one or more attribute identifiers 308, instance identifiers 306, and / or values 307 may be received from a user viewing the display of table 300. As described in more detail below, a system such as system 200 is based on information extracted from electronic document collection 102 using one or more received attribute identifiers 308, instance identifiers 306, and / or values 307. The table 300 can be generated and written to the table 300. Indeed, the system 200 can configure the new instance identifier 306, the attribute identifier 308, and even the associated value 307 based on the received attribute identifier 308, instance identifier 306, and / or value 307.

図4は、構造化プレゼンテーション、つまり、テーブル400を含むものの他の実装の略図である。行302および列304内に編成されている属性識別子308、インスタンス識別子306、値307、単位識別子309を含むことに加えて、テーブル400は、ユーザーが情報をやり取りするための多数のインタラクティブ要素も含む。特に、テーブル400は、インスタンス選択ウィジェット(instance selection widgets)405のコレクション、アクショントリガー(action triggers)410のコレクション、列アクショントリガーウィジェット(column action trigger widgets)415のコレクション、および注釈列(notes column)420を含む。   FIG. 4 is a schematic diagram of another implementation of a structured presentation, ie, one that includes a table 400. In addition to including attribute identifiers 308, instance identifiers 306, values 307, unit identifiers 309 organized in rows 302 and columns 304, table 400 also includes a number of interactive elements for users to exchange information. . In particular, table 400 includes a collection of instance selection widgets 405, a collection of action triggers 410, a collection of column action trigger widgets 415, and a notes column 420. including.

インスタンス選択ウィジェット405は、ユーザーがテーブル400内の構造化レコード310を選択することを可能にするユーザーインターフェイスコンポーネントである。例えば、インスタンス選択ウィジェット405は、その構造化レコード310に関係する配列および位置決めを用いて特定の構造化レコード310に関連付けられているクリック可能なチェックボックスのコレクションであってよい。インスタンス選択ウィジェット405は、ユーザーがマウス(例えば、コンポーネントの上でホバリングし、特定のマウスボタンをクリックする)、スタイラス(例えば、スタイラスでタッチスクリーン上に表示されているユーザーインターフェイスコンポーネントを押す)、キーボード、またはそのコンポーネントが備える機能を呼び出す他の入力デバイスを使用してウィジェット405をインタラクティブに操作することができるという点で「クリック可能」である。   The instance selection widget 405 is a user interface component that allows a user to select a structured record 310 in the table 400. For example, the instance selection widget 405 may be a collection of clickable check boxes that are associated with a particular structured record 310 using an array and positioning associated with that structured record 310. The instance selection widget 405 includes a mouse (e.g., hovering over a component and clicking a specific mouse button), a stylus (e.g., pressing a user interface component displayed on the touch screen with the stylus), a keyboard Or “clickable” in that the widget 405 can be manipulated interactively using other input devices that invoke functions provided by the component.

アクショントリガー410は、ユーザーがインスタンス選択ウィジェット405を使用して選択されたテーブル400内の1つまたは複数の構造化レコード310に対するアクションの実行をトリガーすることを可能にするユーザーインターフェイスコンポーネントである。例えば、アクショントリガー410はクリック可能なテキストフレーズとすることができ、それぞれ、フレーズ内に記述されたアクションをトリガーするためにユーザーが使用できる。例えば、「keep and remove others」アクショントリガー410は、テーブル400の表示からのインスタンス選択ウィジェット405を使用して選択されていない構造化レコード310の削除のトリガーとなる。他の例として、「remove selected」アクショントリガー410は、テーブル400の表示からのインスタンス選択ウィジェット405を使用して選択されている構造化レコード310の削除のトリガーとなる。さらに他の例として、「show on map」アクショントリガー410は、地図上でインスタンス選択ウィジェット405を使用して選択されている構造化レコード310の位置の表示のトリガーとなる。例えば、選択されたインスタンスが自動車である場合、選択された自動車を販売しているカーディーラーの所在地が、地図上に表示されうる。他の例として、選択されたインスタンスが春休みの旅行先である場合、それらの旅行先を地図上に表示することができる。   Action trigger 410 is a user interface component that allows a user to trigger the execution of an action on one or more structured records 310 in table 400 selected using instance selection widget 405. For example, the action trigger 410 can be a clickable text phrase, each of which can be used by a user to trigger an action described in the phrase. For example, the “keep and remove others” action trigger 410 triggers the deletion of a structured record 310 that has not been selected using the instance selection widget 405 from the display of the table 400. As another example, the “remove selected” action trigger 410 triggers the removal of the structured record 310 that has been selected using the instance selection widget 405 from the display of the table 400. As yet another example, the “show on map” action trigger 410 triggers the display of the location of the structured record 310 that is selected using the instance selection widget 405 on the map. For example, if the selected instance is a car, the location of the car dealer selling the selected car can be displayed on the map. As another example, if the selected instance is a spring vacation destination, those destinations can be displayed on a map.

列アクショントリガーウィジェット415は、ユーザーが単一の列304内のセルのすべてにアクションを適用することを可能にするユーザーインターフェイスコンポーネントである。ユーザーがクリック可能な「+」記号をインタラクティブに操作したときに、他のユーザーインターフェイスコンポーネントが表示され、ユーザーに、実行すべき可能な一組のアクションが与えられる。この一組のアクションとしては、例えば、構造化プレゼンテーション400から列304全体を削除する段階、または現在ブランクになっている列304内のすべてのセルに対する値を見つける検索が挙げられる。   Column action trigger widget 415 is a user interface component that allows a user to apply an action to all of the cells in a single column 304. When the user interacts with the clickable “+” symbol, other user interface components are displayed, giving the user a set of possible actions to perform. This set of actions includes, for example, deleting the entire column 304 from the structured presentation 400, or searching to find values for all cells in the column 304 that are currently blank.

注釈列420は、ユーザーが情報をインスタンス識別子306に関連付けることを可能にするユーザーインターフェイスコンポーネントである。特に、注釈列420は、その構造化レコード310に関係する配列および位置決めを用いて構造化レコード310にそれぞれ関連付けられている1つまたは複数の注釈425を含む。注釈425の情報内容は、列304とは異なり、注釈425が特定の属性の値であると主張されないという点で無制限である。その代わり、注釈425に含まれる情報は、構造化レコード310で識別されているインスタンスの無関係の態様を特徴付けることができる。   Annotation column 420 is a user interface component that allows a user to associate information with instance identifier 306. In particular, the annotation column 420 includes one or more annotations 425 that are each associated with the structured record 310 using the alignment and positioning associated with that structured record 310. Unlike the column 304, the information content of the annotation 425 is unlimited in that the annotation 425 is not claimed to be the value of a particular attribute. Instead, the information contained in the annotation 425 can characterize an unrelated aspect of the instance identified in the structured record 310.

いくつかの実装では、テーブル400は、特定の属性の値以外の追加情報を含みうる。例えば、テーブル400は、その構造化レコード310に関係する配列および位置決めを用いて構造化レコード310において識別されているインスタンスに関連付けられているイメージ430のコレクションを含むことができる。他の例として、テーブル400は、コレクション102内の電子文書から抽出されたテキストスニペット435のコレクションを含むことができる。スニペットのソースは、インスタンス識別子306を検索文字列として使用して実行される検索の高順位の結果としてよい。テキストスニペット435は、その構造化レコード310に関係する配列および位置決めを用いて構造化レコード310において識別されているインスタンスに関連付けられる。   In some implementations, the table 400 may include additional information other than the values of certain attributes. For example, the table 400 can include a collection of images 430 that are associated with the instance identified in the structured record 310 using the alignment and positioning associated with that structured record 310. As another example, table 400 can include a collection of text snippets 435 extracted from electronic documents in collection 102. The source of the snippet may be a high order result of a search performed using the instance identifier 306 as a search string. Text snippet 435 is associated with the instance identified in structured record 310 using the alignment and positioning associated with that structured record 310.

他の例として、テーブル400は、コレクション102内の個別の電子文書への1つまたは複数のハイパーテキストリンク440を含むことができる。例えば、リンク付き文書は、インスタンス識別子306を検索文字列として使用して実行される検索の高順位の結果としてよい。他の例として、リンク付き文書は、テーブル400に書き込むために抽出された値307のソースであってよい。いくつかの場合において、ハイパーテキストリンク440のインタラクティブな操作によって、ハイパーテキスト440に埋め込まれた情報(例えば、ウェブサイトアドレス)に基づいてソースの電子文書へのナビゲーションがトリガーされうる。   As another example, the table 400 may include one or more hypertext links 440 to individual electronic documents in the collection 102. For example, a linked document may be the result of a high order search performed using the instance identifier 306 as a search string. As another example, the linked document may be the source of the extracted value 307 for writing to the table 400. In some cases, interactive manipulation of the hypertext link 440 may trigger navigation to the source electronic document based on information embedded in the hypertext 440 (eg, a website address).

図5は、構造化プレゼンテーション、つまり、カードのコレクション500を含むものの他の実装の略図である。カードコレクション500は、インスタンスの1つまたは複数の識別子、さらにはそれらのインスタンスの特定の属性の値の整理されたシステム配置である。インスタンスの属性は、値で指定することができる。さらには、カードコレクション500は、一般的に、属性の識別子、さらには適宜、値を表す際に使用する単位の識別子も含む。   FIG. 5 is a schematic diagram of another implementation of a structured presentation, ie, one that includes a collection 500 of cards. Card collection 500 is an organized system arrangement of one or more identifiers of instances, as well as the values of certain attributes of those instances. Instance attributes can be specified by value. Further, the card collection 500 generally includes an identifier of an attribute, and an identifier of a unit used when representing a value as appropriate.

カードコレクション500内の情報のグループ分け、セグメント分割、および配列は、ユーザーによって情報を理解しやすいように選択されうる。この点で、カードコレクション500は、カード502のコレクションを含む。それぞれのカード502は、インスタンス識別子306と関連付けられている属性値307のコレクションとを含む。したがって、カード502内の属性値307およびインスタンス識別子306の配列および位置決めは、それらの間の関連付けをグラフィックで表す。例えば、ユーザーは、属性値307と同じカード502内にあるインスタンス識別子306との間の関連付けを認識することができる。   The grouping, segmentation, and arrangement of information in the card collection 500 can be selected so that the user can easily understand the information. In this regard, the card collection 500 includes a collection of cards 502. Each card 502 includes a collection of attribute values 307 associated with the instance identifier 306. Accordingly, the arrangement and positioning of the attribute value 307 and the instance identifier 306 in the card 502 graphically represents the association between them. For example, the user can recognize the association between the attribute value 307 and the instance identifier 306 in the same card 502.

例示されている実装において、カードコレクション500内のカード502は、属性識別子308のコレクションも含む。属性識別子308は、列504内に編成され、属性値307は、列506内に編成される。列504、506は、互いに隣接する位置に置かれ、個別の属性識別子308がその識別された属性を特徴付ける属性値307の隣に配置されるように整列される。この位置決めおよび配列を使用することで、閲覧者は属性識別子308とそれらの属性を特徴付ける属性値307との間の関連付けを認識することができる。   In the illustrated implementation, the card 502 in the card collection 500 also includes a collection of attribute identifiers 308. Attribute identifier 308 is organized in column 504 and attribute value 307 is organized in column 506. Columns 504, 506 are placed adjacent to each other and aligned so that individual attribute identifiers 308 are placed next to attribute values 307 that characterize the identified attributes. Using this positioning and alignment, the viewer can recognize the association between attribute identifiers 308 and attribute values 307 characterizing those attributes.

それぞれのカード502は、それぞれのカード502が単一のインスタンス識別子306を関連付けられている属性値307のコレクションに関連付けるという点で構造化レコード310である。さらに、一方のカード502内のそれらの関連付けを表すために使用される配列および位置決めは、他方のカード502内に複製される。実際、多くの場合において、カード502のすべてが、情報の同じ配列および位置決めを有することに制限される。例えば、属性「ATTR_1」を特徴付ける値307は、すべてのカード502においてインスタンス識別子306との空間的関係が同じになるように制限される。他の例として、カード502のすべてにおける属性識別子308の順序および位置決めは同じである。   Each card 502 is a structured record 310 in that each card 502 associates a single instance identifier 306 with an associated collection of attribute values 307. Further, the arrangement and positioning used to represent their association in one card 502 is replicated in the other card 502. In fact, in many cases, all of the cards 502 are limited to having the same arrangement and positioning of information. For example, the value 307 that characterizes the attribute “ATTR_1” is restricted so that the spatial relationship with the instance identifier 306 is the same for all cards 502. As another example, the order and positioning of attribute identifiers 308 in all of the cards 502 is the same.

さらに、一方のカード502内の情報の配列および位置決めに加えられた変更は、一般的に、カードコレクション500内の他のカード502に伝搬する。例えば、新規属性(例えば、「ATTR_1 3/4」)を特徴付ける新規属性値307が一方のカード502内の属性値「value_1_1」と「value_2_1」との間に挿入された場合、他方のカード502内の対応する属性値307の位置決めも同様に変更される。   In addition, changes made to the arrangement and positioning of information in one card 502 generally propagate to other cards 502 in the card collection 500. For example, if a new attribute value 307 characterizing a new attribute (for example, “ATTR_1 3/4”) is inserted between attribute values “value_1_1” and “value_2_1” in one card 502, The positioning of the corresponding attribute value 307 is similarly changed.

いくつかの実装では、カードコレクション500内のカード502は、他の特徴を備えることもできる。例えば、カード502は、ユーザーと情報をやり取りするためのインタラクティブ要素、例えば、インスタンス選択ウィジェット、アクショントリガー、属性選択ウィジェット、注釈入力機能、および同様のものを備えることができる。他の例として、カードコレクション500内のカード502は、特定の属性の値以外の追加の情報、例えば、イメージおよび/または識別されたインスタンスに関連付けられているテキストスニペットを含むことができる。他の例として、カードコレクション500内のカード502は、コレクション102内の個別の電子文書への1つまたは複数のハイパーテキストリンクを含むことができる。そのような特徴は、そのインスタンスを識別するインスタンス識別子306を含むカード502上に表示することによって特定のインスタンスに関連付けられうる。   In some implementations, the cards 502 in the card collection 500 may have other features. For example, the card 502 can include interactive elements for interacting with the user, such as instance selection widgets, action triggers, attribute selection widgets, annotation input functions, and the like. As another example, a card 502 in the card collection 500 can include additional information other than the value of a particular attribute, for example, a text snippet associated with an image and / or an identified instance. As another example, cards 502 in card collection 500 can include one or more hypertext links to individual electronic documents in collection 102. Such a feature can be associated with a particular instance by displaying it on a card 502 that includes an instance identifier 306 that identifies that instance.

動作中、閲覧者は、カードコレクション500を提示するシステムをインタラクティブに操作して1つまたは複数のカード502の表示を変更することができる。例えば、閲覧者は、それらのカード上で識別されている特定のインスタンスの比較がしやすいようにカード502のうちの2つまたはそれ以上のカードの隣り合わせで並べた表示をトリガーすることができる。他の例として、閲覧者は、カード502の並べ替え、特定のカード502の表示の終了、または同様の操作をトリガーすることができる。他の例として、閲覧者は、カード502内に表示される属性および/またはインスタンスの選択、変更、追加、および/または削除をトリガーすることができる。さらに別の例として、閲覧者は、例えばカード内の属性値307の値に応じてカードをソートして複数の山に分ける操作をトリガーすることができる。   In operation, a viewer can interactively manipulate the system presenting the card collection 500 to change the display of one or more cards 502. For example, the viewer can trigger a side-by-side display of two or more of the cards 502 to facilitate comparison of specific instances identified on those cards. As another example, the viewer can trigger a rearrangement of cards 502, termination of display of a particular card 502, or a similar operation. As another example, a viewer can trigger selection, modification, addition, and / or deletion of attributes and / or instances displayed in card 502. As yet another example, the viewer can trigger an operation of sorting the cards into a plurality of mountains, for example, according to the value of the attribute value 307 in the card.

いくつかの実装では、カード502は、「両面」で表示される。例えば、第1の側は、インスタンス識別子306によって識別されるインスタンスのグラフィック表現を含み、第2の側は、インスタンス識別子306および値307を含むことができる。これは、例えば、ユーザーがカードのコレクション500内の特定のカードを検索する場合に有用であり、ユーザーはカード502の第1の側にあるグラフィック表現をざっと見るだけで特定のカードを識別することができる。   In some implementations, the card 502 is displayed “double-sided”. For example, the first side can include a graphical representation of the instance identified by the instance identifier 306, and the second side can include the instance identifier 306 and the value 307. This is useful, for example, when a user searches for a particular card in the card collection 500, where the user can identify a particular card simply by looking at the graphic representation on the first side of the card 502. Can do.

図6は、電子文書コレクションからの情報を構造化プレゼンテーションでユーザーに提示するための例示的なプロセス600の流れ図である。プロセス600は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータによって実行されうる。例えば、プロセス600は、システム200内の検索エンジン202によって実行されうる。いくつかの実装では、プロセス600は、トリガー、例えば、ユーザー要求を受け取ったことに応答して実行され、これにより、構造化プレゼンテーションを作成または変更することができる。   FIG. 6 is a flowchart of an exemplary process 600 for presenting information from an electronic document collection to a user in a structured presentation. Process 600 may be performed by one or more computers that perform operations by executing one or more machine-readable instruction sets. For example, process 600 can be performed by search engine 202 within system 200. In some implementations, the process 600 is performed in response to receiving a trigger, eg, a user request, which can create or modify a structured presentation.

プロセス600を実行するシステムは、電子文書コレクション内の2つまたはそれ以上の応答電子文書(responsive electronic documents)を識別することができる(ステップ605)。応答文書は、多くの異なる方法で識別されうる。いくつかの場合において、文書は、閲覧者から受け取った「新規」情報(例えば、新規検索クエリ)に基づいて識別される。例えば、システムは、新たに受け取った検索クエリを、文字列比較を用いて電子文書コレクション内の電子文書のコンテンツと比較することができる。他の例として、システムは、データセンター208などのデータセンターにアクセスして、検索クエリ内の検索語をキーワードのインデックスと比較し、応答電子文書の位置を識別することができる。   The system performing process 600 may identify two or more responsive electronic documents in the electronic document collection (step 605). The response document can be identified in many different ways. In some cases, the document is identified based on “new” information (eg, a new search query) received from the viewer. For example, the system can compare a newly received search query with the content of an electronic document in the electronic document collection using string comparison. As another example, the system may access a data center, such as data center 208, to compare the search terms in the search query to the keyword index and identify the location of the response electronic document.

いくつかの場合において、文書は、構造化プレゼンテーション内にすでに見つかっている「旧」情報に基づいて識別される。構造化プレゼンテーション内に見つかる情報には、インスタンス、属性、値、および値を表す単位の識別が含まれる。プロセス600を実行するシステムは、この旧情報を使用して電子文書コレクション内の応答電子文書を識別することができる。例えば、構造化プレゼンテーション内にすでに見つかっているインスタンスを含む文書は、応答文書であるとして識別されうる。他の例として、構造化プレゼンテーション内にすでに見つかっている属性を使用してインスタンスを特徴付ける文書は、応答文書であるとして識別されうる。このような識別の他の例を以下で説明する。   In some cases, documents are identified based on “old” information already found in the structured presentation. Information found in the structured presentation includes identification of instances, attributes, values, and units that represent values. The system executing process 600 can use this old information to identify response electronic documents in the electronic document collection. For example, a document containing an instance already found in a structured presentation can be identified as being a response document. As another example, a document that characterizes an instance using attributes already found in a structured presentation can be identified as being a response document. Other examples of such identification are described below.

プロセス600を実行するシステムは、識別された電子文書から情報を収集することもできる(ステップ610)。収集された情報は、1つまたは複数のインスタンス、属性、および/または値に関するものとしてよい。プロセス600を実行するシステムは、この情報を電子文書コレクション内の文書から直接的に、または電子文書コレクション内の電子文書を特徴付ける情報のすでに集められているコレクションから収集することができる。例えば、システム200(図2)の背景状況において、プロセス600を実行するシステムは、コレクション102内の文書を特定し、特定された文書にアクセスし、コレクション102内の元の文書から直接的に情報を抽出することができる。システム200(図2)の背景状況における他の例として、プロセス600を実行するシステムは、データセンター208内の情報のコレクションにアクセスし、例えばキーワードのインデックスおよびそれらのキーワードを含む文書の場所、オントロジー、および/またはコレクション102内の文書から抽出された情報を使用して提示された以前の構造化プレゼンテーションの履歴レコードを格納しているデータベースから情報を収集することができる。   The system performing process 600 may also collect information from the identified electronic document (step 610). The collected information may relate to one or more instances, attributes, and / or values. The system performing process 600 can collect this information directly from the documents in the electronic document collection or from an already collected collection of information characterizing the electronic documents in the electronic document collection. For example, in the context of system 200 (FIG. 2), the system executing process 600 identifies a document in collection 102, accesses the identified document, and directly receives information from the original document in collection 102. Can be extracted. As another example in the context of system 200 (FIG. 2), the system performing process 600 accesses a collection of information in data center 208, such as an index of keywords and the location of documents that contain those keywords, an ontology. Information may be collected from a database that stores historical records of previous structured presentations that were presented using information extracted from documents in collection 102 and / or.

プロセス600を実行するシステムは、収集された情報を使用し、その収集された情報に基づいて構造化プレゼンテーションを提示するための命令を供給することができる(ステップ615)。例えば、プロセス600を実行するシステムは、構造化プレゼンテーション、例えば、テーブル300、400またはカードのコレクション500を提示するための機械可読命令を生成することができる。   The system performing process 600 may use the collected information and provide instructions for presenting the structured presentation based on the collected information (step 615). For example, a system performing process 600 may generate machine-readable instructions for presenting a structured presentation, eg, table 300, 400 or collection of cards 500.

図7は、電子文書コレクション内の応答文書を識別するための例示的なプロセス700の流れ図である。プロセス700は、他のデータ処理活動から独立して、または連携して実行されうる。例えば、プロセス700は、プロセス600におけるステップ605で実行されうる(図6)。   FIG. 7 is a flow diagram of an example process 700 for identifying response documents in an electronic document collection. Process 700 may be performed independently of or in conjunction with other data processing activities. For example, process 700 may be performed at step 605 in process 600 (FIG. 6).

プロセス700を実行するシステムは、検索クエリを受け取る(ステップ705)。例えば、システムは、ユーザーから1つまたは複数の検索文字列(例えば、「hybrid vehicles」)を受け取ることができる。他の例として、システムは、他のプロセスもしくはシステムから検索文字列を受け取ることができる。いくつかの実装では、アプリケーションプログラミングインターフェイス(API)、共通ゲートウェイインターフェイス(CGI)スクリプト、または他のプログラミングインターフェイスを通じて検索文字列を受け取る。他の実装では、ウェブポータル、ウェブページ、もしくはウェブサイト、または同様のものを通じて検索文字列を受け取る。   The system executing process 700 receives the search query (step 705). For example, the system can receive one or more search strings (eg, “hybrid vehicles”) from a user. As another example, the system can receive search strings from other processes or systems. In some implementations, the search string is received through an application programming interface (API), a common gateway interface (CGI) script, or other programming interface. In other implementations, the search string is received through a web portal, web page, or website, or the like.

それに応答して、プロセス700を実行するシステムは、検索クエリに応答するインスタンス、属性、および/または値を含む2つまたはそれ以上の文書を識別する(ステップ710)。これらの文書は、検索クエリ内の検索語が構造化プレゼンテーションにおいて果たすべき役割を分類することによって識別されうる。例えば、検索クエリ内の検索語は、例えば、検索クエリ内の特定の検索語、検索クエリの検索語の分類の仕方のユーザーによる明示的な指示、および/または検索の背景状況に基づいて構造化プレゼンテーション内に出現すべきインスタンスのカテゴリ化として分類されうる。例えば、検索クエリ「cities in California」内の検索語は、複数形の語「cities」が属性によって特徴付けられている、つまり、「in California」で修飾されているため「San Diego」、「Los Angeles」、および「Bakersfield」などのインスタンスのカテゴリ化として分類することができる。他の例として、検索クエリ「Ivy League schools」内の検索語は、複数形の語「schools」が属性「Ivy League」によって特徴付けられているためインスタンス(「Cornell」、「Columbia」、および「Brown」など)のカテゴリ化として分類することができる。   In response, the system executing process 700 identifies two or more documents that include instances, attributes, and / or values that respond to the search query (step 710). These documents can be identified by categorizing the role that the search terms in the search query should play in the structured presentation. For example, the search terms in the search query are structured based on, for example, specific search terms in the search query, explicit instructions by the user on how to classify the search terms in the search query, and / or the search context It can be categorized as a categorization of instances that should appear in the presentation. For example, the search terms in the search query “cities in California” are “San Diego”, “Los” because the plural word “cities” is characterized by an attribute, that is, qualified by “in California”. Can be categorized as an categorization of instances such as "Angeles" and "Bakersfield". As another example, the search terms in the search query "Ivy League schools" are instances ("Cornell", "Columbia", and "" because the plural word "schools" is characterized by the attribute "Ivy League". Brown ”etc.).

いくつかの場合において、検索クエリ内の検索語を分類するために追加の情報を使用しなければならない。例えば、検索クエリ「Ivy League」は、「school」のインスタンスのカテゴリ化として、または「Atlantic Coast Conference」および「PAC-10」などのインスタンスを含むカテゴリ「athletic conferences」の例示的なインスタンスとしてみなしても妥当である。このような場合、これらの検索語は、例えば、分類の仕方に関するユーザーによる明示的な指示または検索セッションにおける検索語の背景状況に基づいて分類することができる。例えば、ユーザーがフレーズ「Atlantic Coast Conference」および「PAC-10」を検索クエリとして以前に入力したことがある場合、検索クエリ「Ivy League」は、他のインスタンスとともに構造化プレゼンテーション内に出現する例示的インスタンスとみなすことができる。   In some cases, additional information must be used to classify search terms within the search query. For example, the search query “Ivy League” can be viewed as an categorization of an instance of “school” or as an exemplary instance of a category “athletic conferences” that includes instances such as “Atlantic Coast Conference” and “PAC-10”. Is also reasonable. In such a case, these search terms can be classified based on, for example, an explicit instruction from the user regarding how to classify or the background status of the search terms in the search session. For example, if the user has previously entered the phrases “Atlantic Coast Conference” and “PAC-10” as search queries, the search query “Ivy League” would appear in a structured presentation along with other instances. It can be regarded as an instance.

これらの文書は、電子文書コレクション102において直接的に、または電子データセンター208内の情報に基づいて間接的に識別されうる。このような識別情報は、例えば、クローリングして最後に見つかった文書のURLを含むことができる。   These documents may be identified directly in the electronic document collection 102 or indirectly based on information in the electronic data center 208. Such identification information can include, for example, the URL of the last document found after crawling.

図8は、電子文書コレクション内の2つまたはそれ以上の応答文書を識別するための例示的なプロセス800の他の流れ図である。プロセス800は、他のデータ処理活動から独立して、または連携して実行されうる。例えば、プロセス800は、プロセス600(図6)におけるステップ605で実行されうる。他の例として、プロセス800は、プロセス600(図6)におけるステップ605でプロセス700と連携して実行されうる。例えば、プロセス700、800は、反復的なインタラクティブプロセスの一部とすることができ、このプロセスにおいて検索クエリを受け取り、これを使用して応答文書の第1のコレクションを識別し、識別された文書から引き出されたコンテンツを含む第1の構造化プレゼンテーションをユーザーに提示し、ユーザー修正を受け取り、修正された構造化プレゼンテーションの記述を使用して関連する文書の第2のコレクションを識別する。いくつかの実装では、プロセス800は複数回実行できる。いくつかの実装では、プロセス800は、例えばシステム200(図2)におけるクローラー204によって、ユーザー入力なしで実行することができる。   FIG. 8 is another flow diagram of an example process 800 for identifying two or more response documents in an electronic document collection. Process 800 may be performed independently of or in conjunction with other data processing activities. For example, process 800 may be performed at step 605 in process 600 (FIG. 6). As another example, process 800 may be performed in conjunction with process 700 at step 605 in process 600 (FIG. 6). For example, the processes 700, 800 can be part of an iterative interactive process, in which a search query is received and used to identify a first collection of response documents and the identified documents A first structured presentation that includes content derived from is presented to the user, receives user modifications, and uses the modified structured presentation description to identify a second collection of related documents. In some implementations, the process 800 can be executed multiple times. In some implementations, the process 800 can be performed without user input, for example by the crawler 204 in the system 200 (FIG. 2).

プロセス800を実行するシステムは、構造化プレゼンテーションの既存のコンテンツの記述を受け取る(ステップ805)。特に、システムは、インスタンス、属性、値、および/または値を既存の構造化プレゼンテーションにおいて提示する単位の記述が受け取ることができる。記述は、例えば、インスタンスおよび属性の識別子および/または属性の値の範囲を含むことができる。記述は、インスタンスおよび/または属性のカテゴリ化も含むことができる。このようなカテゴリ化は、例えば、オントロジーを使用して、または閲覧者によって構造化プレゼンテーションに割り当てられたカテゴリ化に基づいて決定されうる。例えば、ユーザーが構造化プレゼンテーションに「Ivy League Schools」とタイトルを付けた場合、このタイトルは、その構造化プレゼンテーション内のインスタンスのカテゴリ化とみなせる。   The system performing process 800 receives a description of the existing content of the structured presentation (step 805). In particular, the system can receive a description of units that present instances, attributes, values, and / or values in an existing structured presentation. The description may include, for example, an instance and attribute identifier and / or a range of attribute values. The description can also include categorization of instances and / or attributes. Such categorization can be determined, for example, using an ontology or based on a categorization assigned to a structured presentation by a viewer. For example, if a user titles a structured presentation “Ivy League Schools”, this title can be considered as a categorization of the instances in the structured presentation.

それに応答して、プロセス800を実行するシステムは、既存のコンテンツに関連するインスタンス、属性、および/または値を含む1つまたは複数の文書を識別することができる(ステップ810)。例えば、システムは、インスタンスおよび/または属性の識別子をインデックス付きキーワードと比較して、特定の文書が構造化プレゼンテーションの既存のコンテンツ内にすでに出現しているインスタンスおよび/または属性のうちの1つまたは複数のインスタンスおよび/または属性を含むかどうかを判定することができる。他の例として、システムは、新規インスタンス、その属性、およびそのような属性の値をそのような文書から識別し、それらの値を構造化プレゼンテーションの既存のコンテンツ内にすでに出現している値と比較し、新規インスタンスが構造化プレゼンテーションの既存のコンテンツに潜在的に関連しているかどうかを判定することができる。   In response, the system performing process 800 may identify one or more documents that include instances, attributes, and / or values associated with existing content (step 810). For example, the system compares an instance and / or attribute identifier with an indexed keyword to determine one or more of the instances and / or attributes that a particular document already appears in the existing content of the structured presentation or It can be determined whether to include multiple instances and / or attributes. As another example, the system identifies a new instance, its attributes, and the values of such attributes from such a document, and identifies those values as values that already appear in the existing content of the structured presentation. By comparison, it can be determined whether the new instance is potentially related to the existing content of the structured presentation.

これらの文書は、電子文書コレクション102において直接的に、または電子データセンター208内の識別情報を使用して識別されうる。このような識別情報は、例えば、クローリングして最後に見つかった文書のメモリロケーションを含むことができる。   These documents can be identified directly in the electronic document collection 102 or using identification information in the electronic data center 208. Such identification information can include, for example, the memory location of the last document found by crawling.

図9は、新規インスタンスを構造化プレゼンテーションに提案および/または追加するためのプロセス900の流れ図である。プロセス900は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータによって実行されうる。これらのデジタルデータ処理デバイスは、キーボード、マウス、タッチスクリーン、ディスプレイ画面、および同様のものなどの入力および出力デバイス上でユーザーと情報をやり取りすることができる。例えば、システム200(図2)の背景状況において、プロセス900におけるユーザーインタラクションをPDA215またはデスクトップコンピュータ217などのクライアント側で実行できる。   FIG. 9 is a flow diagram of a process 900 for proposing and / or adding a new instance to a structured presentation. Process 900 may be performed by one or more computers that perform operations by executing one or more machine-readable instruction sets. These digital data processing devices can exchange information with the user on input and output devices such as a keyboard, mouse, touch screen, display screen, and the like. For example, in the context of system 200 (FIG. 2), user interaction in process 900 can be performed on the client side, such as PDA 215 or desktop computer 217.

プロセス900は、単独で、または他のデータ処理活動と連携して実行されうる。例えば、以下でさらに詳しく説明するように、プロセス900は、事前に存在している構造化プレゼンテーションに加えてインスタンス提案を構成するためにさまざまなプロセスと連携して実行されうる。このような構成プロセスの例は、図21〜26および関連する本文において説明されている。一般に、プロセス900は、複数のデジタルデータ処理デバイスによって実行される。例えば、システム200(図2)の背景状況において、インスタンス提案を構成するための活動を検索エンジン202側で実行することができ、その一方で、ユーザーインタラクションはPDA215またはデスクトップコンピュータ217(図2)などのクライアント側で実行されうる。   Process 900 may be performed alone or in conjunction with other data processing activities. For example, as described in more detail below, process 900 may be performed in conjunction with various processes to construct an instance proposal in addition to pre-existing structured presentations. Examples of such configuration processes are described in FIGS. 21-26 and related text. In general, process 900 is performed by a plurality of digital data processing devices. For example, in the context of the system 200 (FIG. 2), activities for composing instance proposals can be performed on the search engine 202 side, while user interaction is such as PDA 215 or desktop computer 217 (FIG. 2) Can be executed on the client side.

プロセス900を実行するシステムは、新規インスタンストリガーを受け取ることができる(ステップ905)。新規インスタンスは、構造化プレゼンテーション、例えば、構造化プレゼンテーション106(図1)に現在表示されていないインスタンスである。新規インスタンストリガーは、新規インスタンスを構造化プレゼンテーションに追加するためのプロセスをアクティベートする。例えば、新規インスタンスは、マウス、スタイラス、キーボード、または同様のものを介して受け取ったユーザー入力によってトリガーされうる。他の実装では、新規インスタンスは、他のプロセスまたはシステムによってトリガーされうる。新規インスタンストリガーは、2つほど例を挙げると、プロセス間通信またはアプリケーションのメッセージハンドラを通じて受け取ることができる。   The system executing process 900 can receive a new instance trigger (step 905). A new instance is an instance that is not currently displayed in a structured presentation, eg, structured presentation 106 (FIG. 1). A new instance trigger activates a process for adding a new instance to a structured presentation. For example, a new instance can be triggered by user input received via a mouse, stylus, keyboard, or the like. In other implementations, the new instance can be triggered by other processes or systems. New instance triggers can be received through inter-process communication or application message handlers, to name a few.

プロセス900を実行するシステムは、ユーザーに対して、新規インスタンスを構造化プレゼンテーションに追加するためのオプションを提示することができる(ステップ910)。オプションは、新規インスタンスを追加するための代替えアプローチである。オプションの例として、完全自動オプション、ユーザー指定制約条件を含む自動オプション、および手動オプションが挙げられる。これらのオプションについて、以下でさらに詳しく説明する。   The system performing process 900 may present the user with the option to add a new instance to the structured presentation (step 910). The option is an alternative approach for adding new instances. Examples of options include fully automatic options, automatic options with user-specified constraints, and manual options. These options are described in more detail below.

プロセス900を実行するシステムは、ユーザーに対して、ユーザーインターフェイスデバイス、例えば、ディスプレイ画面を使用するオプションを提示することができる。多くの場合において、オプションを提示するディスプレイ画面は、インスタンスを追加する構造化プレゼンテーションを提示する同じディスプレイ画面であってもよい。例えば、オプションは、ディスプレイ画面104(図1)を使用してユーザーに提示することができる。   The system performing process 900 may present the user with an option to use a user interface device, such as a display screen. In many cases, the display screen presenting options may be the same display screen presenting a structured presentation that adds instances. For example, options can be presented to the user using display screen 104 (FIG. 1).

プロセス900を実行するシステムは、オプションのユーザー選択を受け取ることができる(ステップ915)。ユーザー選択は、1つまたは複数の入力デバイス、例えば、キーボード、タッチパッド、またはタッチスクリーンを使用して受け取ることができる。システムは、ユーザーによって選択されたオプションの性質を判定することもできる(ステップ920)。   The system performing process 900 may receive an optional user selection (step 915). User selections can be received using one or more input devices, such as a keyboard, touchpad, or touch screen. The system may also determine the nature of the option selected by the user (step 920).

プロセス900を実行するシステムが、ユーザーが「自動オプション」を選択したと判定した場合、システムは、追加のインスタンスを提案し、および/またはユーザーとの情報のやり取りなしで、その追加のインスタンスを構造化プレゼンテーションに追加することができる。   If the system running process 900 determines that the user has selected "Automatic Options", the system will suggest additional instances and / or structure the additional instances without interacting with the user Can be added to the presentation.

ユーザー指定の自動オプションの一実装では、構造化プレゼンテーションの特性に基づいて新規インスタンスを提案し、および/または追加することができる(ステップ925)。そのような特性の例として、構造化プレゼンテーションにおいてすでに指定されているインスタンスの性質、それらのインスタンスのカテゴリ化、およびそれらのインスタンスの属性が挙げられる。このような特性に基づいて新規インスタンスを構成するためのアプローチは、図21〜26および関連する本文において説明されている。例えば、そこで説明されているように、検索クエリは、事前に存在している構造化プレゼンテーションから引き出された属性識別子、事前に存在している構造化プレゼンテーションから引き出された属性値、および/またはそれらの組み合わせを使用して構築することができる。これらの検索クエリを使用し、文字列比較結果または他のマッチング技術を使用して構造化プレゼンテーションに追加するインスタンスを識別することができる。   In one implementation of a user-specified automatic option, a new instance can be proposed and / or added based on the characteristics of the structured presentation (step 925). Examples of such properties include the nature of the instances already specified in the structured presentation, the categorization of those instances, and the attributes of those instances. An approach for constructing a new instance based on such characteristics is described in FIGS. 21-26 and the associated text. For example, as described therein, a search query may include attribute identifiers derived from pre-existing structured presentations, attribute values derived from pre-existing structured presentations, and / or Can be built using a combination of These search queries can be used to identify instances to add to the structured presentation using string comparison results or other matching techniques.

プロセス900を実行するシステムが、ユーザーが「ユーザー指定制約条件」オプションを選択したと判定した場合、システムは、追加のインスタンスの性質に対するユーザー指定制約条件に基づいて追加のインスタンスを提案し、および/または自動的にその追加のインスタンスを構造化プレゼンテーションに追加することができる。これらの制約条件は、提案された、および/または追加されたインスタンスを特徴付ける1つまたは複数のパラメータとして表すことができる。例えば、これらの制約条件は、インスタンスの属性の許容可能な値として、または属性の許容可能な値の範囲として表すことができる。   If the system executing process 900 determines that the user has selected the “user-specified constraints” option, the system suggests additional instances based on user-specified constraints on the nature of the additional instances, and / or Or that additional instance can be automatically added to the structured presentation. These constraints can be expressed as one or more parameters that characterize the proposed and / or added instances. For example, these constraints can be expressed as an acceptable value for an instance attribute or as a range of acceptable values for an attribute.

ユーザー指定制約条件オプションの一実装では、プロセス900を実行するシステムは、新規インスタンスの属性の値を制約するためのオプションをユーザーに対して提示する(ステップ930)。例えば、システムは、構造化プレゼンテーション内のインスタンスを特徴付ける属性のリスト、さらにはユーザーがそれらの属性の値に対する制約条件を入力することを可能にする入力フィールドを表示することができる。多くの場合、そのようなリスト内の属性は、新規インスタンスの追加先の構造化プレゼンテーション内にも出現する。しかし、いくつかの実装では、そのようなリスト内の属性は、電子文書コレクションの文書内など、他の場所にあるインスタンスを特徴付けるために使用される属性に基づいて構成することができる。このような属性を構成するための例示的なアプローチは、図37〜51および関連する本文において説明されている。   In one implementation of the user-specified constraint option, the system executing process 900 presents the user with an option to constrain the value of the new instance attribute (step 930). For example, the system can display a list of attributes that characterize instances in the structured presentation, as well as input fields that allow the user to enter constraints on the values of those attributes. In many cases, attributes in such lists also appear in structured presentations to which new instances are added. However, in some implementations, attributes in such lists can be configured based on attributes used to characterize instances elsewhere, such as in documents of an electronic document collection. An exemplary approach for configuring such attributes is described in FIGS. 37-51 and the associated text.

プロセス900を実行するシステムは、新規インスタンスの属性の値に対する1つまたは複数の制約条件のユーザー指定を受け取ることもできる(ステップ935)。上で説明されているように、これらの制約条件は、1つまたは複数の属性の値を特定の値もしくは値の範囲に制限することができる。例えば、自動車を特徴付ける1つの属性は、「気筒数」である。この属性の値のユーザー指定制約条件は、新規自動車インスタンスの気筒数を特定の値(例えば、「6」)または値の範囲(例えば、「6から8」または「6超」)に制限することができる。   The system executing process 900 may also receive a user specification of one or more constraints on the value of the new instance attribute (step 935). As explained above, these constraints can limit the value of one or more attributes to a specific value or range of values. For example, one attribute characterizing a car is “number of cylinders”. A user-specified constraint on the value of this attribute restricts the number of cylinders in a new car instance to a specific value (for example, “6”) or a range of values (for example, “6 to 8” or “greater than 6”) Can do.

プロセス900を実行するシステムは、ユーザー指定制約条件および構造化プレゼンテーションの特性に基づいて新規インスタンスを提案し、および/または追加することもできる(ステップ940)。構造化プレゼンテーションの特性の例として、構造化プレゼンテーションにおいてすでに指定されているインスタンスの性質、それらのインスタンスのカテゴリ化、およびそれらのインスタンスの属性が挙げられる。このような特性に基づいて新規インスタンスを構成するためのアプローチは、図37〜51および関連する本文において説明されている。他の例として、検索クエリは、事前に存在している構造化プレゼンテーションから引き出された属性識別子、事前に存在している構造化プレゼンテーションから引き出された属性値、および/またはそれらの組み合わせ、さらにはユーザーによって指定された制約条件を使用して構築することができる。これらの検索クエリを使用し、文字列比較結果または他のマッチング技術を使用してインスタンスを識別することができる。次いで、識別されたインスタンスが提案され、および/または構造化プレゼンテーションに追加されうる。   The system performing process 900 may also propose and / or add new instances based on user-specified constraints and structured presentation characteristics (step 940). Examples of characteristics of a structured presentation include the nature of instances already specified in the structured presentation, the categorization of those instances, and the attributes of those instances. An approach for constructing a new instance based on such characteristics is described in FIGS. 37-51 and the associated text. As another example, the search query may be attribute identifiers derived from pre-existing structured presentations, attribute values derived from pre-existing structured presentations, and / or combinations thereof, or even Can be built using constraints specified by the user. These search queries can be used to identify instances using string comparison results or other matching techniques. The identified instances can then be proposed and / or added to the structured presentation.

プロセス900を実行するシステムが、ユーザーが「手動オプション」を選択したと判定した場合、システムは、ユーザーの指示に従って追加のインスタンスを構造化プレゼンテーションに追加することができる。   If the system executing process 900 determines that the user has selected the “manual option”, the system can add additional instances to the structured presentation according to the user's instructions.

手動オプションの一実装では、プロセス900を実行するシステムは、ユーザーから新規インスタンスを受け取ることができる(ステップ945)。例えば、ユーザーは、キーボードまたは他のユーザー入力デバイスを使用してインスタンス名を入力することができる。プロセス900を実行するシステムは、新規インスタンスを構造化プレゼンテーションに追加することができる(ステップ950)。一般に、新規インスタンスの名前は、新規構造化レコード310内のインスタンス識別子306として構造化プレゼンテーションに直接追加することができる。いくつかの実装では、新規構造化レコード310は、新規行302(図3、4)または新規カード502(図5)とすることができる。   In one implementation of the manual option, the system executing process 900 can receive a new instance from the user (step 945). For example, a user can enter an instance name using a keyboard or other user input device. The system executing process 900 can add a new instance to the structured presentation (step 950). In general, the name of the new instance can be added directly to the structured presentation as the instance identifier 306 in the new structured record 310. In some implementations, the new structured record 310 can be a new row 302 (FIGS. 3 and 4) or a new card 502 (FIG. 5).

いくつかの実施形態では、プロセス900を実行するシステムは、受け取った新規インスタンスに基づいて追加のオペレーションを実行することもできる。例えば、このシステムは、新規インスタンスを使用して、その一組の提案されたインスタンスまたは一組の提案された属性を改善することができる。   In some embodiments, the system performing process 900 may also perform additional operations based on the received new instance. For example, the system can use the new instance to improve the set of proposed instances or the set of proposed attributes.

図10は、構造化プレゼンテーションの修正を指定するユーザー入力を受け取るためのユーザーインターフェイスコンポーネント1000の略図である。例えば、プロセス900(図9)のステップ905において、ユーザーインターフェイスコンポーネント1000を使用して、新規インスタンストリガーを受け取ることができる。   FIG. 10 is a schematic diagram of a user interface component 1000 for receiving user input specifying a modification of a structured presentation. For example, at step 905 of process 900 (FIG. 9), user interface component 1000 can be used to receive a new instance trigger.

ユーザーインターフェイスコンポーネント1000は、属性修正領域1005およびインスタンス修正領域1010を備える。属性修正領域1005は、ヘッダ1015、それぞれが属性識別子選択ウィジェット1030に関連付けられている属性識別子1025のコレクション1020、および新規属性追加トリガー1035を備える。   The user interface component 1000 includes an attribute correction area 1005 and an instance correction area 1010. The attribute modification area 1005 includes a header 1015, a collection 1020 of attribute identifiers 1025 each associated with an attribute identifier selection widget 1030, and a new attribute addition trigger 1035.

ヘッダ1015は、属性修正領域1005とのユーザーインタラクションがユーザーが属性を修正することを実際に可能にすることを識別するテキストまたは他の情報を含む。属性識別子1025は、構造化プレゼンテーションに含まれる属性を識別するテキストまたは他の情報である。例えば、属性識別子1025は、構造化プレゼンテーション300、400、500(図3、4、5)内に属性識別子308として出現する同じテキストであってよい。属性識別子選択ウィジェット1030は、ユーザーが構造化プレゼンテーションで表示するための属性の選択および選択解除を行うことを可能にするインタラクティブ表示要素である。例えば、コレクション1020において、それぞれの属性識別子選択ウィジェット1030は、互いに隣接するその配列および位置決めを用いて単一の属性識別子1025に関連付けられる。属性識別子選択ウィジェット1030は、1つまたは複数のグラフィック表示、例えば、示されているチェックマークおよび色あいを使用して属性識別子1025を表示のために選択または選択解除するかどうかを示すことができる。例えば、ユーザーが属性識別子1025「Attribute_1」に関連付けられているチェックされた属性識別子選択ウィジェット1030をインタラクティブに操作する場合、属性識別子選択ウィジェット1030内の色およびチェックされたステータスが変更され、構造化プレゼンテーションからの「Attribute_1」に関連付けられている属性識別子(さらには「Attribute_1」に対応する値とともに)の削除がトリガーされる。   The header 1015 includes text or other information that identifies that user interaction with the attribute modification area 1005 actually allows the user to modify the attribute. The attribute identifier 1025 is text or other information that identifies an attribute included in the structured presentation. For example, attribute identifier 1025 may be the same text that appears as attribute identifier 308 in structured presentations 300, 400, 500 (FIGS. 3, 4, 5). The attribute identifier selection widget 1030 is an interactive display element that allows a user to select and deselect attributes for display in a structured presentation. For example, in collection 1020, each attribute identifier selection widget 1030 is associated with a single attribute identifier 1025 using its arrangement and positioning adjacent to each other. The attribute identifier selection widget 1030 can indicate whether one or more graphical displays, eg, the check mark and tint shown, are used to select or deselect the attribute identifier 1025 for display. For example, if the user interactively manipulates the checked attribute identifier selection widget 1030 associated with attribute identifier 1025 “Attribute_1”, the color and checked status in the attribute identifier selection widget 1030 is changed and the structured presentation Is triggered to delete the attribute identifier associated with “Attribute_1” (along with a value corresponding to “Attribute_1”).

新規属性追加トリガー1035は、構造化プレゼンテーションへの新規属性の追加をトリガーするためにユーザーが使用することができるインタラクティブ表示要素である。追加する新規属性の構成方法は、図37〜51および関連する本文において説明されている。新規属性の追加も、以下で、例えば、図13〜15において、さらに詳しく説明される。   Add new attribute trigger 1035 is an interactive display element that the user can use to trigger the addition of a new attribute to the structured presentation. The method of configuring the new attribute to be added is described in FIGS. 37-51 and the associated text. The addition of new attributes is also described in more detail below, for example, in FIGS.

インスタンス修正領域1010は、新規インスタンス追加トリガー1040およびインスタンスフィルタートリガー1045を備える。新規インスタンス追加トリガー1040は、構造化プレゼンテーションへの新規インスタンスの追加をトリガーするためにユーザーが使用することができるインタラクティブ表示要素である。例えば、新規インスタンス追加トリガー1040は、プロセス900(図9)におけるステップ905で使用されうる。   The instance modification area 1010 includes a new instance addition trigger 1040 and an instance filter trigger 1045. Add new instance trigger 1040 is an interactive display element that a user can use to trigger the addition of a new instance to a structured presentation. For example, the add new instance trigger 1040 can be used at step 905 in the process 900 (FIG. 9).

インスタンスフィルタートリガー1045は、構造化プレゼンテーション内のインスタンスのフィルター処理をトリガーするためにユーザーが使用できるインタラクティブ表示要素である。インスタンスのフィルター処理により、1つまたは複数の基準を満たすインスタンスのコレクションが生成される。例えば、フィルター処理により、特定のいくつかの値、または指定された範囲内のいくつかの値を持つインスタンスのコレクションを生成することができる。したがって、フィルター処理により、構造化プレゼンテーションに含まれるインスタンスの個数を減らすことができる。   Instance filter trigger 1045 is an interactive display element that a user can use to trigger filtering of instances in a structured presentation. Instance filtering generates a collection of instances that meet one or more criteria. For example, filtering can generate a collection of instances that have a certain number of values or a number of values within a specified range. Therefore, the number of instances included in the structured presentation can be reduced by filtering.

インスタンスフィルタートリガー1045によってトリガーされるフィルター処理は、ユーザーが1つまたは複数のフィルター処理基準を指定することを可能にするユーザーインターフェイスコンポーネントを提示することと、基準を満たすことができないインスタンスが表示されないように構造化プレゼンテーションを修正することとを含むことができる。   Filtering triggered by instance filter trigger 1045 presents a user interface component that allows the user to specify one or more filtering criteria, and does not display instances that cannot meet the criteria Modifying the structured presentation.

いくつかの実装では、ユーザーインターフェイスコンポーネント1000は、ユーザーインターフェイスコンポーネント1000を使用して、または他の何らかの方法でユーザーが行った修正に動的に応答することができる。例えば、ユーザーがトリガーを実行し、新規属性を構造化プレゼンテーションに追加する場合、その新規属性の識別子をコレクション1020に追加し、ユーザーインターフェイスコンポーネント1000内に提示することができる。例えば、ユーザーが「Attribute_9」を構造化プレゼンテーションに追加する場合、属性識別子「Attribute_9」を、関連するアクショントリガー1030でユーザーインターフェイスコンポーネント1000に追加することができる。   In some implementations, the user interface component 1000 can dynamically respond to modifications made by the user using the user interface component 1000 or in some other way. For example, when a user executes a trigger and adds a new attribute to the structured presentation, the identifier of the new attribute can be added to the collection 1020 and presented in the user interface component 1000. For example, if the user adds “Attribute_9” to the structured presentation, the attribute identifier “Attribute_9” may be added to the user interface component 1000 with an associated action trigger 1030.

図11は、新規インスタンスを構造化プレゼンテーションに追加するための技術を指定するユーザー入力を受け取るためのユーザーインターフェイスコンポーネント1100の略図である。例えば、ユーザーインターフェイスコンポーネント1100を使用することで、ステップ910において、新規インスタンスを構造化プレゼンテーションに追加するためのオプションを提示し、プロセス900(図9)のステップ915において、オプションのユーザー選択を受け取ることができる。   FIG. 11 is a schematic diagram of a user interface component 1100 for receiving user input specifying a technique for adding a new instance to a structured presentation. For example, using the user interface component 1100 presents an option to add a new instance to the structured presentation at step 910 and receives an optional user selection at step 915 of the process 900 (FIG. 9). Can do.

ユーザーインターフェイスコンポーネント1100は、ヘッダ1105、プロンプト1110、それぞれ選択ウィジェット1130、1135、1140に関連付けられている構造化プレゼンテーション1115、1120、1125に新規インスタンスを追加するための技術の記述のコレクションを含む。   The user interface component 1100 includes a collection of technical descriptions for adding new instances to a header 1105, a prompt 1110, and structured presentations 1115, 1120, 1125 associated with selection widgets 1130, 1135, 1140, respectively.

ヘッダ1105は、ユーザーインターフェイスコンポーネント1100とのユーザーインタラクションがユーザーが新規インスタンスを追加するための技術を指定することを実際に可能にすることを識別するテキストまたは他の情報を含む。プロンプト1110により、ユーザーはユーザーインターフェイスコンポーネント1100をインタラクティブに操作して新規インスタンスを追加するための技術を指定することを促される。   The header 1105 includes text or other information that identifies that user interaction with the user interface component 1100 actually allows the user to specify a technique for adding a new instance. Prompt 1110 prompts the user to specify techniques for interacting with user interface component 1100 to add a new instance.

記述1115には、この技術をユーザーが指定した結果としてユーザー指定制約条件オプションによって新規インスタンスが追加されることが記述される。選択ウィジェット1130のユーザーインタラクションにより、ユーザーが記述1115によって記述されているユーザー指定制約条件オプションを指定することが可能になる。   A description 1115 describes that a new instance is added by a user-specified constraint option as a result of the user specifying this technique. The user interaction of the selection widget 1130 allows the user to specify user-specified constraint options described by the description 1115.

記述1120には、この技術をユーザーが指定した結果としてユーザー指定制約条件オプションによって新規インスタンスが追加されることが記述される。記述1120は、制約条件追加ウィジェット1145および制約条件クリアウィジェット1150を含む。制約条件追加ウィジェット1145に対するユーザーインタラクションにより、ユーザー指定制約条件オプションで使用される新規制約条件の追加がトリガーされる。制約条件クリアウィジェット1150に対するユーザーインタラクションにより、すべての現在の制約条件がクリアされる。選択ウィジェット1135のユーザーインタラクションにより、ユーザーが記述1120によって記述されているユーザー指定制約条件オプションを指定することが可能になる。   The description 1120 describes that a new instance is added by a user-specified constraint option as a result of the user specifying this technique. The description 1120 includes a constraint addition widget 1145 and a constraint clear widget 1150. User interaction with the add constraint widget 1145 triggers the addition of a new constraint used in the user specified constraint option. All current constraints are cleared by user interaction with the constraint clear widget 1150. The user interaction of the selection widget 1135 allows the user to specify user-specified constraint options described by the description 1120.

記述1125には、この技術をユーザーが指定した結果として手動オプションによって新規インスタンスが追加されることが記述される。記述1125は、新規インスタンス識別子入力フィールド1155を含む。新規インスタンス識別子入力フィールド1155に対するユーザーインタラクションにより、ユーザーは新規インスタンスを、例えば、名前で識別することができる。選択ウィジェット1140のユーザーインタラクションにより、ユーザーが記述1125によって記述されている手動オプションを指定することが可能になる。   Description 1125 describes that a new instance is added by a manual option as a result of the user specifying this technique. Description 1125 includes a new instance identifier input field 1155. User interaction with the new instance identifier input field 1155 allows the user to identify the new instance, eg, by name. The user interaction of the selection widget 1140 allows the user to specify the manual options described by the description 1125.

図12は、新規インスタンスを構造化プレゼンテーションに追加するためにユーザー指定制約条件オプションで使用される制約条件を指定するユーザー入力を受け取るためのユーザーインターフェイスコンポーネント1200の略図である。ユーザーインターフェイスコンポーネント1200は、他のユーザーインターフェイスコンポーネントから独立して(例えば、専用ウィンドウまたはポータル上で)、または他のユーザーインターフェイスコンポーネントと連携して使用することができる。例えば、ユーザーインターフェイスコンポーネント1200は、技術記述1120(図11)のすぐ下のユーザーインターフェイス1100内に挿入することができる。例えば、ユーザーインターフェイスコンポーネント1200は、ステップ930において構造化プレゼンテーションに追加される新規インスタンスの属性の値を指定するためのオプションを提示し、プロセス900(図9)のステップ935で属性のそのような値のユーザー指定を受け取るために使用することができる。   FIG. 12 is a schematic diagram of a user interface component 1200 for receiving user input specifying constraints that are used with user-specified constraint options to add a new instance to a structured presentation. The user interface component 1200 can be used independently of other user interface components (eg, on a dedicated window or portal) or in conjunction with other user interface components. For example, the user interface component 1200 can be inserted into the user interface 1100 immediately below the technical description 1120 (FIG. 11). For example, the user interface component 1200 presents an option to specify the value of an attribute for a new instance that is added to the structured presentation at step 930, and such value of the attribute at step 935 of process 900 (Figure 9). Can be used to receive user specifications.

ユーザーインターフェイスコンポーネント1200は、それぞれが値指定領域1215、1220に関連付けられている1つまたは複数の属性選択ウィジェット1205のコレクションを含む。属性選択ウィジェット1205、1210は、値が制約される属性をユーザーが選択することを可能にするインタラクティブ表示要素である。例示されている実装では、それぞれの属性選択ウィジェット1205、1210は、属性の識別子をリストするドロップダウンボックスウィジェットである。いくつかの実装では、リストされている属性識別子は、新規インスタンスが追加される構造化プレゼンテーション内の属性識別子308と同一のものとすることができる。   The user interface component 1200 includes a collection of one or more attribute selection widgets 1205, each associated with a value specification area 1215, 1220. The attribute selection widgets 1205 and 1210 are interactive display elements that allow the user to select an attribute whose value is constrained. In the illustrated implementation, each attribute selection widget 1205, 1210 is a drop-down box widget that lists attribute identifiers. In some implementations, the listed attribute identifier may be the same as the attribute identifier 308 in the structured presentation to which the new instance is added.

値指定領域1215、1220は、ユーザーが各属性選択ウィジェット1205、1210において識別された属性の値に対し1つまたは複数の制約条件を指定することを可能にするインタラクティブ表示要素である。例示されている実装では、値指定領域1215は、ユーザーが属性選択ウィジェット1205において識別された属性の値の許容可能な範囲を指定することを可能にする一対のテキスト入力フィールド1225を備える。値指定領域1220は、ユーザーが属性選択ウィジェット1210において識別された属性の許容可能な値を指定することを可能にするインタラクティブチェックボックス1230のコレクションを備える。   The value specification areas 1215 and 1220 are interactive display elements that allow the user to specify one or more constraints on the value of the attribute identified in each attribute selection widget 1205 and 1210. In the illustrated implementation, the value specification area 1215 includes a pair of text input fields 1225 that allow a user to specify an acceptable range of values for the attributes identified in the attribute selection widget 1205. The value specification area 1220 comprises a collection of interactive checkboxes 1230 that allow the user to specify acceptable values for the attributes identified in the attribute selection widget 1210.

動作中、ユーザーが属性選択ウィジェット1205、1210を使用して特定の属性識別子を選択すると、関連付けられている値指定領域1215、1220における変更がトリガーされうる。例えば、インタラクティブ要素の性質および関連付けられている値指定領域1215、1220において指定されうる値および/または範囲を変更することができる。いくつかの実装では、これらの変更は、新規インスタンスが追加される構造化プレゼンテーション内のそのような属性の値の分布に基づくものとすることができる。例えば、属性「maker」の4つの値のみが構造化プレゼンテーション内に出現する場合、これらの同じ4つの値は、関連付けられている値指定領域における指定のために提示することができる。他の実装では、関連付けられている値指定領域1215、1220に加えられる変更は、電子文書コレクション102内の類似のインスタンスを特徴付ける属性の値に基づくものとすることができる。例えば、自動車のインスタンスの属性「maker」は、より多様な値を使用して電子文書コレクション102内の文書において特徴付けることができる。これらの値は、関連付けられている値指定領域内の指定について識別し、提示することができる。   In operation, when a user selects a particular attribute identifier using the attribute selection widget 1205, 1210, a change in the associated value specification area 1215, 1220 may be triggered. For example, the nature of the interactive element and the values and / or ranges that can be specified in the associated value specification areas 1215, 1220 can be changed. In some implementations, these changes may be based on the distribution of the values of such attributes in the structured presentation where new instances are added. For example, if only four values of the attribute “maker” appear in the structured presentation, these same four values can be presented for specification in the associated value specification area. In other implementations, changes made to the associated value specification areas 1215, 1220 may be based on the values of attributes that characterize similar instances in the electronic document collection 102. For example, the attribute “maker” of the car instance can be characterized in documents in the electronic document collection 102 using more diverse values. These values can be identified and presented for specification within the associated value specification area.

図13は、新規属性を構造化プレゼンテーションに追加するための例示的なプロセス1300の流れ図である。プロセス1300は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータによって実行されうる。これらのデジタルデータ処理デバイスは、入力および出力デバイス、例えば、キーボード、マウス、タッチスクリーン、ディスプレイ画面、および同様のものを介してユーザーと情報をやり取りすることができる。例えば、システム200(図2)の背景状況において、プロセス1300におけるユーザーインタラクションをPDA215またはデスクトップコンピュータ217などのクライアント側で実行できる。   FIG. 13 is a flowchart of an exemplary process 1300 for adding a new attribute to a structured presentation. Process 1300 may be performed by one or more computers that perform operations by executing one or more machine-readable instruction sets. These digital data processing devices can exchange information with the user via input and output devices such as a keyboard, mouse, touch screen, display screen, and the like. For example, in the context of system 200 (FIG. 2), user interaction in process 1300 can be performed on the client side, such as PDA 215 or desktop computer 217.

プロセス1300は、単独で、または他のデータ処理活動と連携して実行されうる。例えば、以下でさらに詳しく説明するように、プロセス1300は、事前に存在している構造化プレゼンテーションに加えて属性提案を構成するためにさまざまなプロセスと連携して実行されうる。このような構成プロセスの例は、図37〜51および関連する本文において、また図21〜26および関連する本文において説明されている。一般に、プロセス1300は、複数のデジタルデータ処理デバイスによって実行される。例えば、システム200(図2)の背景状況において、属性提案を構成するための活動を検索エンジン202側で実行することができ、その一方で、ユーザーインタラクションはPDA215またはデスクトップコンピュータ217(図2)などのクライアント側で実行されうる。   Process 1300 may be performed alone or in conjunction with other data processing activities. For example, as described in more detail below, process 1300 may be performed in conjunction with various processes to construct attribute proposals in addition to pre-existing structured presentations. Examples of such configuration processes are described in FIGS. 37-51 and related text, and in FIGS. 21-26 and related text. In general, process 1300 is performed by a plurality of digital data processing devices. For example, in the context of the system 200 (FIG. 2), activities for composing attribute proposals can be performed on the search engine 202 side, while user interaction is such as PDA 215 or desktop computer 217 (FIG. 2) Can be executed on the client side.

プロセス1300を実行するシステムは、新規属性トリガーを受け取ることができる(ステップ1305)。新規属性は、構造化プレゼンテーション、例えば、構造化プレゼンテーション106(図1)に現在表示されていない属性である。新規属性トリガーは、新規属性を構造化プレゼンテーションに追加するためのプロセスをアクティベートする。例えば、新規属性は、マウス、スタイラス、キーボード、または同様のものを介して受け取ったユーザー入力によってトリガーされうる。他の実装では、新規属性は、他のプロセスまたはシステムによってトリガーされうる。新規属性トリガーは、2つほど例を挙げると、プロセス間通信またはアプリケーションのメッセージハンドラを通じて受け取ることができる。例えば、いくつかの実装では、システムは、新規属性追加トリガー1035(図10)のユーザー選択を通じてユーザーインターフェイスコンポーネント1000から新規属性トリガーを受け取ることができる。   The system executing process 1300 may receive a new attribute trigger (step 1305). A new attribute is an attribute that is not currently displayed in a structured presentation, eg, structured presentation 106 (FIG. 1). The new attribute trigger activates a process for adding new attributes to the structured presentation. For example, a new attribute can be triggered by user input received via a mouse, stylus, keyboard, or the like. In other implementations, the new attribute may be triggered by other processes or systems. New attribute triggers can be received through interprocess communication or application message handlers, to name a few. For example, in some implementations, the system can receive a new attribute trigger from the user interface component 1000 through a user selection of an add new attribute trigger 1035 (FIG. 10).

プロセス1300を実行するシステムは、新規属性を指定するためのオプションを提示することができる(ステップ1310)。例えば、システムは、構造化プレゼンテーション内のインスタンスを特徴付けるために使用される新規属性のリスト、さらにはユーザーがそれらの属性のうちの1つまたは複数の属性を選択することを可能にするインタラクティブ表示要素を表示することができる。いくつかの実装では、そのようなリスト内の属性は、電子文書コレクションの文書内など、他の場所にあるインスタンスを特徴付けるために使用される属性に基づいて構成することができる。このような属性を構成するための例示的なアプローチは、図37〜51および関連する本文において説明されている。   The system executing process 1300 may present an option for specifying new attributes (step 1310). For example, the system provides a list of new attributes used to characterize instances in structured presentations, as well as interactive display elements that allow the user to select one or more of those attributes Can be displayed. In some implementations, the attributes in such a list can be configured based on attributes used to characterize instances elsewhere, such as in documents of an electronic document collection. An exemplary approach for configuring such attributes is described in FIGS. 37-51 and the associated text.

プロセス1300を実行するシステムは、ユーザーから新規属性の指定を受け取ることができる(ステップ1315)。属性の指定では、例えば、新規属性の名前もしくは他の識別子を含む新規属性の特質もしくは特性、新規属性に関連付けられているキーワード、新規属性に関する信頼できる情報源、および同様のものを特徴付けることができる。属性の指定は、1つまたは複数の入力デバイス、例えば、キーボード、タッチパッド、またはタッチスクリーンを介してユーザーから受け取ることができる。   The system executing process 1300 may receive a new attribute specification from the user (step 1315). An attribute specification can, for example, characterize the attributes or characteristics of the new attribute, including the name or other identifier of the new attribute, keywords associated with the new attribute, reliable sources of information about the new attribute, and the like . The attribute designation can be received from the user via one or more input devices, eg, a keyboard, touchpad, or touch screen.

プロセス1300を実行するシステムは、指定された新規属性を構造化プレゼンテーションに追加することができる(ステップ1320)。例えば、プロセス1300を実行するシステムは、新規属性識別子308および列304をテーブル300、400に追加することができる(図3、4)。他の例として、システムは、カードコレクション500(図5)の列506内の対応する属性値307とともに、新規属性識別子308を列504内に追加することができる。いくつかの実装では、プロセス1300を実行するシステムは、新規属性を構造化プレゼンテーションに追加するだけでなく、構造化プレゼンテーションの修正を指定するユーザー入力を受け取るためにユーザーインターフェイスコンポーネントにも追加することができる。例えば、システムは、新規属性をユーザーインターフェイスコンポーネント1000(図10)の属性修正領域1005に追加することができる。   The system executing process 1300 can add the specified new attribute to the structured presentation (step 1320). For example, a system performing process 1300 can add a new attribute identifier 308 and column 304 to tables 300, 400 (FIGS. 3, 4). As another example, the system can add a new attribute identifier 308 in column 504 along with the corresponding attribute value 307 in column 506 of card collection 500 (FIG. 5). In some implementations, the system performing process 1300 may not only add new attributes to the structured presentation, but also add it to the user interface component to receive user input that specifies modifications to the structured presentation. it can. For example, the system can add a new attribute to the attribute modification area 1005 of the user interface component 1000 (FIG. 10).

プロセス1300を実行するシステムは、ユーザー指定に少なくとも一部は基づいて属性値を書き込むことができる(ステップ1325)。システムは、以下でさらに詳しく説明するように、さまざまな技術を使用して属性値を書き込むことができる。   The system executing process 1300 may write the attribute value based at least in part on the user specification (step 1325). The system can write attribute values using a variety of techniques, as described in more detail below.

図14は、新規属性を構造化プレゼンテーションに追加するためのユーザーインターフェイスコンポーネント1400の略図である。ユーザーインターフェイスコンポーネント1400は、新規属性の1つまたは複数の特質もしくは特性の指定に関してユーザーと情報をやり取りすることができる。これらの特質または特性は、例えば、新規属性および属性値を構造化プレゼンテーションに追加する際に使用することができる。例えば、ユーザーインターフェイスコンポーネント1400を使用することで、ステップ1310において新規属性クラスを構造化プレゼンテーションに追加するためオプションを提示し、プロセス1300(図13)のステップ1315において新規属性のユーザー指定を受け取ることができる。   FIG. 14 is a schematic diagram of a user interface component 1400 for adding new attributes to a structured presentation. The user interface component 1400 can interact with the user regarding the specification of one or more attributes or characteristics of the new attribute. These attributes or characteristics can be used, for example, when adding new attributes and attribute values to a structured presentation. For example, using the user interface component 1400 may present an option to add a new attribute class to the structured presentation at step 1310 and receive a user specification of the new attribute at step 1315 of the process 1300 (FIG. 13). it can.

ユーザーインターフェイスコンポーネント1400は、ヘッダ1405および新規属性を特徴付ける特質を識別する特質識別子1410、1415、1420、1425のコレクションを含む。それぞれの特質識別子1410、1415、1420、1425は、特質指定ウィジェット1430、1435、1440、1445に関連付けられ、そのウィジェットに対するユーザーインタラクションによって指定されうる特質を識別する。ヘッダ1405は、ユーザーインターフェイスコンポーネント1400とのユーザーインタラクションが、ユーザーが新規インスタンスを構造化プレゼンテーションに追加することを実際に可能にすることを識別するテキストまたは他の情報を含む。   The user interface component 1400 includes a header 1405 and a collection of attribute identifiers 1410, 1415, 1420, 1425 that identify the characteristics that characterize the new attribute. Each characteristic identifier 1410, 1415, 1420, 1425 is associated with a characteristic specification widget 1430, 1435, 1440, 1445 and identifies a characteristic that can be specified by user interaction with that widget. The header 1405 includes text or other information that identifies that user interaction with the user interface component 1400 actually allows the user to add a new instance to the structured presentation.

特質識別子1410は、ユーザーが特質指定ウィジェット1430をインタラクティブに操作することによって構造化プレゼンテーションに追加される属性のクラスを指定することができることを識別する。属性のクラスは、属性およびその値がどのように識別されるかを示す。例えば、属性クラスにより、電子文書コレクションにおいて属性およびその値を識別するために使用する技術を指定することができる。属性クラスの例としては、「auto-find values」、「search results」、「review」、および「note」クラスが挙げられる。これらの属性クラスに関する詳細を以下でさらに説明する。特質指定ウィジェット1430は、ユーザーが構造化プレゼンテーションに追加される属性のクラスを指定することを可能にするインタラクティブ表示要素である。例示されている実装では、特質指定ウィジェット1430は、ドロップダウンボックスウィジェットである。   The attribute identifier 1410 identifies that the user can specify a class of attributes that are added to the structured presentation by interacting with the attribute specification widget 1430. The attribute class indicates how the attribute and its value are identified. For example, an attribute class can specify the technology used to identify an attribute and its value in an electronic document collection. Examples of attribute classes include “auto-find values”, “search results”, “review”, and “note” classes. Details regarding these attribute classes are further described below. The attribute specification widget 1430 is an interactive display element that allows the user to specify a class of attributes to be added to the structured presentation. In the illustrated implementation, the attribute specification widget 1430 is a drop-down box widget.

特質識別子1415は、ユーザーが特質指定ウィジェット1435をインタラクティブに操作することによって新規属性の名前または他の識別子を指定することができることを識別する。特質指定ウィジェット1435は、ユーザーが構造化プレゼンテーションに追加される新規属性の名前または他の識別子を指定することを可能にするインタラクティブ表示要素である。例示されている実装では、特質指定ウィジェット1435は、テキスト入力フィールドを含む。一般に、特質識別子1415において識別される属性識別子は、属性識別子308として構造化プレゼンテーション内に直接追加することができる。   The attribute identifier 1415 identifies that the user can specify the name of the new attribute or other identifier by interactively operating the attribute specification widget 1435. The attribute specification widget 1435 is an interactive display element that allows the user to specify the name or other identifier of a new attribute to be added to the structured presentation. In the illustrated implementation, the attribute specification widget 1435 includes a text input field. In general, the attribute identifier identified in characteristic identifier 1415 can be added directly in the structured presentation as attribute identifier 308.

特質識別子1420は、ユーザーが特質指定ウィジェット1440をインタラクティブに操作することによって新規属性を特徴付けるキーワードを指定することができることを識別する。特質指定ウィジェット1440は、ユーザーが構造化プレゼンテーションに追加される属性を特徴付ける1つまたは複数のキーワードを指定することを可能にするインタラクティブ表示要素である。例示されている実装では、特質指定ウィジェット1440は、1つまたは複数のキーワードを入力することができるテキスト入力フィールドを含む。キーワードは、例えば、属性識別子の背景状況を特徴付ける属性識別子または検索語の同義語を含んでいてもよい。例えば、属性識別子が「bank」である場合、特質指定ウィジェット1440において識別されるキーワードは、「NASCAR」および「speedway」を含み、その属性が金融機関とは反対にレーストラックの「bank」を指すことを示すことができる。   The characteristic identifier 1420 identifies that the user can specify a keyword that characterizes the new attribute by interactively operating the characteristic specification widget 1440. The feature specification widget 1440 is an interactive display element that allows the user to specify one or more keywords that characterize the attributes added to the structured presentation. In the illustrated implementation, the attribute specification widget 1440 includes a text entry field in which one or more keywords can be entered. The keyword may include, for example, an attribute identifier that characterizes the background of the attribute identifier or a synonym for the search term. For example, if the attribute identifier is “bank”, the keywords identified in the attribute designation widget 1440 include “NASCAR” and “speedway”, and the attribute points to “bank” of the racetrack as opposed to the financial institution. Can show that.

動作中、特質指定ウィジェット1440で指定されたキーワードは、電子文書コレクションの検索の際にインスタンス、属性、および/または属性値を識別するために使用されうる。例えば、キーワードは、図21〜26および関連する本文ならびに図37〜51および関連する本文において説明されているような新規属性および/または新規インスタンスを構成するときに使用できる。   In operation, the keywords specified in the attribute specification widget 1440 can be used to identify instances, attributes, and / or attribute values when searching an electronic document collection. For example, keywords can be used when constructing new attributes and / or new instances as described in FIGS. 21-26 and related text and FIGS. 37-51 and related text.

特質識別子1425は、ユーザーが特質指定ウィジェット1445をインタラクティブに操作することによって新規属性を特徴付ける「favorite sites」を指定することができることを識別する。「favorite sites」は、電子文書コレクション内の文書である。文書の「favorite sites」としてのユーザー指定は、文書のコンテンツが新規属性に関連すると同時に、真である可能性が高いとユーザーがみなすことを示す。したがって、例えば、(以下でさらに説明するように)事前に存在している構造化プレゼンテーションに追加するために新規インスタンスおよび新規属性を構成する際に、「favorite sites」のコンテンツに高い信頼値を割り当てることができる。文書の「favorite sites」としてのユーザー指定は、文書のコンテンツが構造化プレゼンテーションに書き込む属性値に関して信頼できるものであること示す指標として使用することもできる。   The attribute identifier 1425 identifies that the user can specify “favorite sites” that characterize the new attribute by interactively operating the attribute specification widget 1445. “Favorite sites” are documents in the electronic document collection. User designation of a document as “favorite sites” indicates that the user considers the content of the document to be relevant to the new attribute and at the same time likely to be true. So, for example, when configuring new instances and attributes to add to pre-existing structured presentations (as described further below), assign a high confidence value to the content of “favorite sites” be able to. User designation of a document as “favorite sites” can also be used as an indicator that the content of the document is reliable with respect to attribute values that are written to the structured presentation.

特質指定ウィジェット1445は、ユーザーが電子文書コレクション内の1つまたは複数の文書を「favorite sites」として指定することを可能にするインタラクティブ表示要素である。例示されている実装では、特質指定ウィジェット1445は、例えば1つまたは複数のドメイン名または電子文書の他のロケーションを入力することができるテキスト入力フィールドを含む。   The property specification widget 1445 is an interactive display element that allows a user to specify one or more documents in the electronic document collection as “favorite sites”. In the illustrated implementation, the attribute specification widget 1445 includes a text input field that can enter, for example, one or more domain names or other locations of the electronic document.

いくつかの実装では、特質「指定解除」ウィジェットは、ユーザーが電子文書コレクション内の1つまたは複数の文書が「disfavored」サイトであると識別することを可能にする。文書の「disfavored site」としてのユーザー指定は、ユーザーがその文書を属性値のソースとして信頼していないことを示す。このような特質指定解除ウィジェットは、例えば1つまたは複数のドメイン名または電子文書の他のロケーションを入力することができるテキスト入力フィールドを含むことができる。   In some implementations, the feature “de-designate” widget allows the user to identify one or more documents in the electronic document collection as being a “disfavored” site. A user designation as a “disfavored site” for a document indicates that the user does not trust the document as a source of attribute values. Such a feature de-designation widget may include a text entry field where, for example, one or more domain names or other locations of the electronic document can be entered.

図15は、新規属性値を構造化プレゼンテーションに追加するための例示的なプロセス1500の流れ図である。プロセス1500は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータによって実行されうる。プロセス1500は、単独で、または他のデータ処理活動と連携して実行されうる。例えば、以下でさらに詳しく説明するように、プロセス1500は、新規属性を構造化プレゼンテーションに追加するためのさまざまなプロセス、例えば、プロセス1300(図13)と連携して実行されうる。   FIG. 15 is a flow diagram of an example process 1500 for adding new attribute values to a structured presentation. Process 1500 may be performed by one or more computers that perform operations by executing one or more machine-readable instruction sets. Process 1500 may be performed alone or in conjunction with other data processing activities. For example, as described in more detail below, process 1500 may be performed in conjunction with various processes for adding new attributes to a structured presentation, eg, process 1300 (FIG. 13).

プロセス1500を実行するシステムは、新規属性のクラスのユーザー指定を受け取ることができる(ステップ1505)。上述のように、属性のクラスは、属性およびその値がどのように識別されるかを示す。新規属性のクラスを受け取ることは、プロセス1300(図13)のステップ1315における新規属性の指定を受け取ることの一部とすることができる。いくつかの実装では、新規属性のクラスのユーザー指定は、ユーザーインターフェイスコンポーネント1400(図14)において特質指定ウィジェット1430を介して受け取ることができる。   The system executing process 1500 can receive a user designation of a class of new attributes (step 1505). As described above, the class of attribute indicates how the attribute and its value are identified. Receiving the new attribute class may be part of receiving the new attribute designation in step 1315 of process 1300 (FIG. 13). In some implementations, a user specification of a class of new attributes can be received via the attribute specification widget 1430 at the user interface component 1400 (FIG. 14).

プロセス1500を実行するシステムは、どのクラスが新規属性に対して指定されるかを決定することができる(ステップ1510)。指定されたクラスに基づき、プロセス1500を実行するシステムは、新規属性値を構造化プレゼンテーションに追加するためのさまざまなサブプロセスのうちのどれが実行されるかを決定することができる。例えば、システムは、「note」クラスに関連付けられているサブプロセス、「reviews」クラスに関連付けられているサブプロセス、「search results」クラスに関連付けられているサブプロセス、または「already found」クラスに関連付けられているサブプロセスに従って属性値を追加することを決定することができる。   The system executing process 1500 can determine which class is designated for the new attribute (step 1510). Based on the specified class, the system executing process 1500 can determine which of the various sub-processes to add a new attribute value to the structured presentation is executed. For example, the system associates a subprocess associated with the “note” class, a subprocess associated with the “reviews” class, a subprocess associated with the “search results” class, or an “already found” class. It is possible to decide to add attribute values according to the subprocess being performed.

プロセス1500を実行するシステムが、「note」クラスに関連付けられているサブプロセスを使用して新規属性値を追加することを決定する場合、システムは、属性値にユーザーから受け取った注釈を書き込むことができる(ステップ1515)。例えば、図4の背景状況において、テーブル400内の注釈列420内の値をユーザーから受け取り、これを使用して新規属性の値を書き込むことができる。   If the system running process 1500 decides to add a new attribute value using the subprocess associated with the “note” class, the system may write the annotation received from the user to the attribute value. Yes (step 1515). For example, in the background situation of FIG. 4, the value in the annotation column 420 in the table 400 can be received from the user and used to write the value of the new attribute.

プロセス1500を実行するシステムが、「reviews」クラスに関連付けられているサブプロセスを使用して新規属性値を追加することを決定する場合、システムは、レビューを含む電子文書を検索し、識別することができる(ステップ1520)。レビューは、新規属性によって特徴付けられている1つまたは複数のインスタンスの厳しい評価である。いくつかの場合において、レビューは、批評家などの、インスタンスを評価する専門知識を有する誰かが作成することができる。レビューは、例えば、ラベル、またはそれらのレビューをレビューとして識別する他のテキストに基づいて識別されうる。例えば、特定のドメイン名(例えば、http://www.google.com/prdhp、http://www.epinions.com/、http://www.amazon.com/)を使用して、レビューを含む電子文書を識別することができる。レビューを含む電子文書は、電子文書コレクション、例えば、コレクション102内で見つけることができる。   If the system running process 1500 decides to add a new attribute value using the subprocess associated with the “reviews” class, the system will search and identify the electronic document that contains the review (Step 1520). A review is a rigorous evaluation of one or more instances that are characterized by new attributes. In some cases, the review can be created by someone with expertise to assess the instance, such as a critic. Reviews may be identified based on, for example, labels or other text that identifies those reviews as reviews. For example, review using a specific domain name (e.g. http://www.google.com/prdhp, http://www.epinions.com/, http://www.amazon.com/) The containing electronic document can be identified. Electronic documents that contain reviews can be found in an electronic document collection, eg, collection 102.

プロセス1500を実行するシステムは、識別されたレビューからのコンテンツを使用して属性値を書き込むことができる(ステップ1525)。例えば、システムは、1つまたは複数のテキストもしくはテーブルベースの抽出パターンを使用してレビューから値を抽出し、それらの抽出された値を構造化プレゼンテーションで提示することができる。これらの抽出パターンは、「感情集中(sentiment focused)」であるレビュー文書のセグメントを優先的に選択することができる。感情集中セグメントは、特定の主題に関して、肯定的なまたは否定的な声に出す強い感情として識別される。例えば、レストランのレビューは、「the food is exceptionally good」(その食べ物は並外れて良い)および「the service was very poor indeed」(サービスは全く悪かった)などの感情集中セグメントを含むことも可能である。構造化プレゼンテーションにおけるこれらの抽出された値の提示は、プロセス1300(図13)のステップ1325における構造化プレゼンテーションの書き込みの一部とすることができる。   The system performing process 1500 may write the attribute value using content from the identified review (step 1525). For example, the system can extract values from the review using one or more text or table-based extraction patterns and present those extracted values in a structured presentation. These extraction patterns can preferentially select segments of the review document that are “sentiment focused”. Emotion concentration segments are identified as strong emotions that speak positively or negatively on a particular subject. For example, restaurant reviews can include emotionally focused segments such as “the food is exceptionally good” and “the service was very poor indeed”. . Presentation of these extracted values in the structured presentation can be part of the writing of the structured presentation in step 1325 of process 1300 (FIG. 13).

プロセス1500を実行するシステムが、「search results」クラスに関連付けられているサブプロセスを使用して新規属性値を追加することを決定する場合、システムは、電子文書コレクション、例えば、コレクション102から検索結果のコレクションを生成することができる(ステップ1530)。この検索は、レビューに限定されない結果集合を生成することができるが、むしろ、さまざまな電子文書を含みうる。電子文書は、電子文書コレクション、例えば、コレクション102内で見つけることができる。   If the system executing process 1500 decides to add a new attribute value using the subprocess associated with the “search results” class, the system will retrieve the search results from the electronic document collection, eg, collection 102. Can be generated (step 1530). This search can generate a result set that is not limited to reviews, but rather can include a variety of electronic documents. Electronic documents can be found in an electronic document collection, eg, collection 102.

検索結果は、新規属性の識別子、さらにはその属性によって特徴付けられたインスタンスの識別子に基づく検索によって生成されうる。いくつかの実装では、新規属性に関連付けられている追加のキーワードを使用して、検索結果、例えば、ユーザーインターフェイスコンポーネント1400(図14)の特質指定ウィジェット1440を介してユーザーから受け取ったキーワードを改善することができる。   The search results can be generated by a search based on the identifier of the new attribute, as well as the identifier of the instance characterized by that attribute. Some implementations use additional keywords associated with the new attribute to improve the search results, for example, keywords received from the user via the attributed widget 1440 of the user interface component 1400 (Figure 14). be able to.

プロセス1500を実行するシステムは、検索結果集合からのコンテンツを構造化プレゼンテーション内の属性値に書き込むことができる(ステップ1535)。例えば、システムは、1つまたは複数のテキストもしくはテーブルベースの抽出パターンを使用して検索結果集合から1つまたは複数の値を抽出し、それらの抽出された値を構造化プレゼンテーションで提示することができる。これらの属性値に検索結果集合のコンテンツを書き込むことは、プロセス1300(図13)のステップ1325における構造化プレゼンテーションの書き込みの一部とすることができる。   The system performing process 1500 can write the content from the search result set to attribute values in the structured presentation (step 1535). For example, the system may extract one or more values from a search result set using one or more text or table-based extraction patterns and present those extracted values in a structured presentation. it can. Writing the contents of the search result set to these attribute values can be part of writing the structured presentation in step 1325 of process 1300 (FIG. 13).

プロセス1500を実行するシステムが、「already found」クラスに関連付けられているサブプロセスを使用して新規属性値を追加することを決定する場合、システムは、すでに見つかっていて、電子文書コレクション、例えば、電子文書コレクション102から抽出されている値を識別することができる(ステップ1540)。「already found」値は、例えば、電子文書を特徴付ける情報のコレクション、例えば、システム200(図2)内のデータセンター208に格納することができる。いくつかの実装では、情報のそのようなコレクションは、前の構造化プレゼンテーションの履歴レコードを含むことができる。プロセス1500を実行するシステムは、すでに抽出されている値を構造化プレゼンテーションの属性値に書き込むことができる(ステップ1545)。これらの属性値に検索結果集合のコンテンツを書き込むことは、プロセス1300(図13)のステップ1325における構造化プレゼンテーションの書き込みの一部とすることができる。   If the system running process 1500 decides to add a new attribute value using a subprocess associated with the “already found” class, the system has already found an electronic document collection, for example, Values that are extracted from the electronic document collection 102 can be identified (step 1540). The “already found” value can be stored, for example, in a collection of information characterizing the electronic document, eg, data center 208 in system 200 (FIG. 2). In some implementations, such a collection of information can include historical records of previous structured presentations. The system performing process 1500 may write the already extracted value to the structured presentation attribute value (step 1545). Writing the contents of the search result set to these attribute values can be part of writing the structured presentation in step 1325 of process 1300 (FIG. 13).

図16は、新規属性値を構造化プレゼンテーションに追加するための例示的なプロセス1600の流れ図である。特に、プロセス1600は、構造化プレゼンテーションの属性値を書き込む際に使用する属性値を選択することに関連する。プロセス1600は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータによって実行されうる。プロセス1600は、単独で、または他のデータ処理活動と連携して実行されうる。例えば、プロセス1600は、プロセス1300(図13)のステップ1325において、プロセス1500(図15)のステップ1525において、プロセス1500(図15)のステップ1535において、および/またはプロセス1500(図15)のステップ1545において実行されうる。   FIG. 16 is a flow diagram of an example process 1600 for adding a new attribute value to a structured presentation. In particular, the process 1600 relates to selecting attribute values to use when writing structured presentation attribute values. Process 1600 may be performed by one or more computers that perform operations by executing one or more machine-readable instruction sets. Process 1600 may be performed alone or in conjunction with other data processing activities. For example, process 1600 may be performed at step 1325 of process 1300 (FIG. 13), at step 1525 of process 1500 (FIG. 15), at step 1535 of process 1500 (FIG. 15), and / or at step of process 1500 (FIG. 15). May be implemented at 1545.

プロセス1600を実行するシステムは、属性値の候補を識別することができる(ステップ1605)。属性値の候補は、例えば、コンテンツ(レビューまたは電子文書コレクション内の他の文書など)から直接抽出されるか、またはすでに抽出されている属性値のコレクションから識別されうる。例えば、図2の背景状況において、システムは、データセンター208にアクセスして、1つまたは複数の格納されている属性値を抽出することができる。   The system performing process 1600 may identify candidate attribute values (step 1605). Candidate attribute values can be extracted, for example, directly from content (such as reviews or other documents in an electronic document collection) or identified from a collection of attribute values that have already been extracted. For example, in the context of FIG. 2, the system can access the data center 208 and extract one or more stored attribute values.

プロセス1600を実行するシステムは、識別された候補値における確かさを決定することができる(ステップ1610)。候補値における確かさは、候補値がインスタンスの属性を正しく特徴付ける確度を特徴付けるものであるべきである。値の正確さの確かさは、例えば、インスタンスの属性を特徴付けるためにその値が使用される回数、インスタンスの属性を特徴付けるために使用される値の出所の文書の品質、および同様のものに基づいて決定することができる。   The system performing process 1600 may determine the certainty in the identified candidate value (step 1610). The certainty in the candidate value should characterize the probability that the candidate value correctly characterizes the attributes of the instance. The certainty of value accuracy is based on, for example, the number of times the value is used to characterize an instance attribute, the quality of the document from which the value is used to characterize the instance attribute, and the like Can be determined.

プロセス1600を実行するシステムは、候補値のうちのいくつかの確かさが低、中、または高であるかを判定することができる(ステップ1615)。属性値の確かさが低の場合、これは、候補値がインスタンスの属性を正しく特徴付ける可能性が低いことを示す。属性値の確かさが高の場合、これは、候補値がインスタンスの属性を正しく特徴付ける可能性が高いことを示す。   The system performing process 1600 may determine whether certain of the candidate values are low, medium, or high (step 1615). If the attribute value certainty is low, this indicates that the candidate value is unlikely to characterize the instance attribute correctly. If the attribute value confidence is high, this indicates that the candidate value is likely to characterize the instance attribute correctly.

プロセス1600を実行するシステムが、候補値のうちのいくつかの確かさが高であると判定した場合、システムは、構造化プレゼンテーションにおける属性値に抽出した値を書き込むことができる(ステップ1545)。これは、自動的に、つまり、ユーザー入力なしで、実行できる。   If the system executing process 1600 determines that some of the candidate values are highly certain, the system can write the extracted value to the attribute value in the structured presentation (step 1545). This can be done automatically, ie without user input.

プロセス1600を実行するシステムが、候補値のうちのいくつかの確かさが中であると判定した場合、システムは、その候補値をユーザーに提供することができる(ステップ1625)。例えば、システムは、候補値をそれらの候補値によって潜在的に特徴付けられるインスタンスおよび属性の識別子に関連して提示するユーザーインターフェイスコンポーネントを生成することができる。   If the system performing process 1600 determines that some of the candidate values are medium certain, the system can provide the candidate values to the user (step 1625). For example, the system can generate a user interface component that presents candidate values in association with identifiers of instances and attributes potentially characterized by those candidate values.

プロセス1600を実行するシステムは、提示される値のうちのいくつかの値のユーザー選択を受け取ることができる(ステップ1630)。ユーザー選択は、1つまたは複数のユーザー入力として受け取ることができる。例えば、候補値を提示するユーザーインターフェイスコンポーネントは、ユーザーが構造化プレゼンテーションに書き込むための候補値を選択することを可能にする1つまたは複数の選択ウィジェットを備えることができる。この選択は、マウス、キーボード、または他のユーザー入力デバイスを使用してユーザーから受け取ることができる。   The system performing process 1600 may receive a user selection of some of the presented values (step 1630). User selections can be received as one or more user inputs. For example, a user interface component that presents candidate values can comprise one or more selection widgets that allow a user to select candidate values for writing to a structured presentation. This selection can be received from the user using a mouse, keyboard, or other user input device.

プロセス1600を実行するシステムは、選択された値を属性値に書き込むことができる(ステップ1635)。例えば、プロセス1600を実行するシステムは、構造化プレゼンテーションにおいて選択された値を提示することができる。   The system executing process 1600 may write the selected value to the attribute value (step 1635). For example, a system performing process 1600 can present selected values in a structured presentation.

いくつかの実装では、選択された属性値は、構造化プレゼンテーションで提示される属性、値、および/またはインスタンスをさらに改善するために使用できる。例えば、ユーザーがインスタンスの属性の値が数千ドルであると指定した場合、その値の大きさを使用して、構造化プレゼンテーションから著しく異なる大きさの値を除外することができる。他の例として、ユーザーがインスタンスの属性の値が数千ドルであると指定した場合、その値の大きさを使用して、大きさが著しく異なるその属性の値を有するインスタンスを除外することができる。   In some implementations, the selected attribute value can be used to further improve the attributes, values, and / or instances presented in the structured presentation. For example, if a user specifies that the value of an instance attribute is thousands of dollars, the magnitude of that value can be used to exclude values of significantly different magnitude from the structured presentation. As another example, if a user specifies that an instance attribute has a value of thousands of dollars, the magnitude of that value can be used to exclude instances that have that attribute value that are significantly different in magnitude. it can.

プロセス1600を実行するシステムが、候補値のうちのいくつかの確かさが低であると判定した場合、プロセス1600を実行するシステムは、構造化プレゼンテーションにおけるそのような不足をハイライト表示することができる(ステップ1640)。これらの不足は、例えば、未確定の入力項目を残すか、または着色もしくは他の印を使用して低い信頼値をハイライト表示することによってハイライト表示することができる。システムは、インタラクティブ要素、例えば、未確定入力項目内のテキストフィールドまたは不足のある入力項目に隣接する注釈セルをインタラクティブに操作するユーザーからそれらの不足を是正する候補値を受け取ることもできる場合がある。   If the system running process 1600 determines that some of the candidate values are uncertain, the system running process 1600 may highlight such a lack in the structured presentation. Yes (step 1640). These deficiencies can be highlighted, for example, by leaving uncertain input items or highlighting low confidence values using color or other marks. The system may also be able to receive candidate values to correct those deficiencies from interactive elements, such as users interacting with text fields in uncertain input items or annotation cells adjacent to missing input items. .

図17は、構造化プレゼンテーションに追加すべき候補値を選択するためのユーザーインターフェイスコンポーネント1700の略図である。ユーザーインターフェイスコンポーネント1700は、ユーザーと情報をやり取りして、構造化プレゼンテーションにおいて新規属性を特徴付ける値を選択することができる。例えば、ユーザーインターフェイスコンポーネント1700は、ステップ1625においてユーザーに対して提示され、プロセス1600(図16)のステップ1630においてユーザー選択を受け取ることができる。   FIG. 17 is a schematic diagram of a user interface component 1700 for selecting candidate values to be added to a structured presentation. User interface component 1700 can interact with the user to select values that characterize the new attribute in the structured presentation. For example, the user interface component 1700 can be presented to the user at step 1625 and receive a user selection at step 1630 of the process 1600 (FIG. 16).

ユーザーインターフェイス1700は、ヘッダ1705およびテーブル1710を含む。ヘッダ1705は、ユーザーインターフェイスコンポーネント1700とのユーザーインタラクションがユーザーがインスタンスの属性の値を構造化プレゼンテーションにおいて表示するために選択することを可能にすることを識別するテキストまたは他の情報を含む。テーブル1710は、列1715、1720、1725に編成された候補値情報のコレクション、さらには行選択ウィジェット1730のコレクションを含む。   User interface 1700 includes a header 1705 and a table 1710. The header 1705 includes text or other information that identifies that user interaction with the user interface component 1700 allows the user to select the value of the attribute of the instance for display in the structured presentation. Table 1710 includes a collection of candidate value information organized in columns 1715, 1720, 1725, as well as a collection of row selection widgets 1730.

特に、列1715は、列ヘッダ1735とともに候補値識別子のコレクションをも含む。候補値識別子は、電子文書コレクション102の文書から直接的に、またはデータセンター208を介して間接的に抽出されている可能性がある。いくつかの実装では、値は、特定の値307に対する測定単位を指定する単位識別子309も含むことができる。列ヘッダ1735で、候補値識別子が列1715内に見つかることが識別される。   In particular, column 1715 also includes a collection of candidate value identifiers along with column header 1735. Candidate value identifiers may be extracted directly from documents in the electronic document collection 102 or indirectly through the data center 208. In some implementations, the value can also include a unit identifier 309 that specifies the unit of measurement for the particular value 307. Column header 1735 identifies that a candidate value identifier is found in column 1715.

列1720は、列ヘッダ1740とともに信頼値のコレクションをも含む。信頼値は、列1715で識別されている候補値が正しい可能性を示す。信頼値は、数値または単語で表すことができる。例えば、信頼値は、例えば、値が正しい値であるか、または数字目盛上にあるかを確率としてパーセンテージで表すことができる。列ヘッダ1740で、信頼値が列1720内に見つかることが識別される。   Column 1720 also includes a collection of confidence values along with column header 1740. The confidence value indicates the likelihood that the candidate value identified in column 1715 is correct. The confidence value can be represented by a numerical value or a word. For example, the confidence value can be expressed as a percentage as a probability, for example, whether the value is a correct value or on a numerical scale. Column header 1740 identifies that a confidence value is found in column 1720.

列1725は、列ヘッダ1745とともにソース識別子のコレクションをも含む。ソース識別子は、列1715において識別された候補値の1つまたは複数のソースを識別する。ソースは、例えば、電子文書の表題、ドメイン名、作成者の名前、または同様のものを使用して識別することができる。いくつかの実装では、ソース識別子は、列1715において識別された候補値を含むテキストスニペットを含むことができる。列ヘッダ1745で、ソース識別子が列1720内に見つかることが識別される。   Column 1725 also includes a collection of source identifiers along with column header 1745. The source identifier identifies one or more sources of candidate values identified in column 1715. The source can be identified using, for example, the title of the electronic document, the domain name, the author's name, or the like. In some implementations, the source identifier can include a text snippet that includes the candidate values identified in column 1715. Column header 1745 identifies that the source identifier is found in column 1720.

選択ウィジェットコレクション1730は、ユーザーから入力を受け取るために1つまたは複数のユーザーインタラクティブ要素を備える。ユーザー入力は、列1715で識別された候補値が構造化プレゼンテーションに追加されることを識別することができる。   The selection widget collection 1730 comprises one or more user interactive elements to receive input from the user. User input can identify that the candidate value identified in column 1715 is added to the structured presentation.

いくつかの実装では、ユーザーインターフェイスコンポーネント1700は、信頼値に基づく順序で候補値を提示することができる。例えば、最高の信頼値を持つ候補値は、列1715の一番上に提示され、最低の信頼値を持つ候補値は、列1715の一番下に提示されうる。   In some implementations, the user interface component 1700 can present candidate values in an order based on confidence values. For example, the candidate value with the highest confidence value may be presented at the top of column 1715 and the candidate value with the lowest confidence value may be presented at the bottom of column 1715.

いくつかの実装では、ユーザーインターフェイスコンポーネント1700は、列1725で識別されている特定のソース内の属性および値の周りのテキストのスニペットも含みうる。このようなスニペットを使用することで、ユーザーは背景状況における値を見ることができる。   In some implementations, the user interface component 1700 may also include a snippet of text around the attributes and values in the particular source identified in column 1725. By using such a snippet, the user can see the value in the background situation.

図18は、中に提示される属性値の不足のハイライト1802を含む構造化プレゼンテーション1800の略図である。示されている例では、インスタンス「INSTANCE_1」の属性「ATTR_1」および「ATTRIBUTE_N」を特徴付けるための候補となる値における確かさは、インスタンス「INSTANCE_2」の属性「ATTR_2」を特徴付けるための候補となる値における確かさと同様に、低い。インスタンス「INSTANCE_1」の属性「ATTR_1」の場合、この信頼の欠如は、空のセル1804によってハイライト表示される。インスタンス「INSTANCE_1」の属性「ATTRIBUTE_N」およびインスタンス「INSTANCE_2」の属性「ATTR_2」の場合、この信頼の欠如は、カラーの印1806によってハイライト表示される。このようなハイライト表示は、特定の属性値の性質に関するフィードバックの直観的な形態をもたらす。つまり、ユーザーは、テーブル300を閲覧し、その直後に、正しさが疑わしいのはどの値かを判定することができる。システムは、ハイライト表示された不足のうちの1つまたは複数を是正するユーザー入力を受け取ることができる。例えば、システムは、手動で入力された属性値、追加の制約条件、またはシステムが追加の属性値を確実に識別するために使用できるこの指定に記述されている他のユーザー入力を受け取ることができる。   FIG. 18 is a schematic representation of a structured presentation 1800 that includes a lack of attribute value highlight 1802 presented therein. In the example shown, the certainty in the candidate values for characterizing the attributes "ATTR_1" and "ATTRIBUTE_N" of the instance "INSTANCE_1" is the candidate value for characterizing the attribute "ATTR_2" of the instance "INSTANCE_2" Like the certainty in the low. For the attribute “ATTR_1” of instance “INSTANCE_1”, this lack of trust is highlighted by an empty cell 1804. In the case of the attribute “ATTRIBUTE_N” of the instance “INSTANCE_1” and the attribute “ATTR_2” of the instance “INSTANCE_2”, this lack of trust is highlighted by a color mark 1806. Such highlighting provides an intuitive form of feedback regarding the nature of a particular attribute value. That is, the user can browse the table 300 and immediately determine which value is suspected of being correct. The system may receive user input that corrects one or more of the highlighted deficiencies. For example, the system can receive manually entered attribute values, additional constraints, or other user input described in this designation that can be used by the system to reliably identify additional attribute values. .

いくつかの実装では、不足がハイライト表示されているセルに対するユーザーインタラクションは、不足を是正することを対象とする検索をトリガーすることができる。例えば、空のセル1804に対するユーザーインタラクションは、検索をトリガーしうる。検索では、例えば、ディスプレイ内のインスタンスのカテゴリ、新規値によって特徴付けられるインスタンスの識別子、および/または新規値によって特徴付けられる属性の識別子に基づくカスタマイズ可能なクエリを使用することができる。検索結果の集合を返した後、システムは、不足を是正する値を指定するインタラクションをさらに受けることができる。いくつかの実装では、返される検索結果の集合は、潜在的値を区別するテキストスニペットにおける属性特有のハイライト表示を含むことができる。   In some implementations, user interaction with a cell that has a deficiency highlighted can trigger a search that is aimed at correcting the deficiency. For example, user interaction with an empty cell 1804 may trigger a search. The search can use, for example, a customizable query based on the category of the instance in the display, the identifier of the instance characterized by the new value, and / or the identifier of the attribute characterized by the new value. After returning the set of search results, the system can further receive an interaction specifying a value that corrects the deficiency. In some implementations, the set of returned search results can include attribute-specific highlighting in text snippets that distinguish potential values.

図19は、構造化プレゼンテーションに追加すべき候補属性を選択するためのユーザーインターフェイスコンポーネント1900の略図である。ユーザーインターフェイスコンポーネント1900は、ユーザーと情報をやり取りして、構造化プレゼンテーションにおいてインスタンスを特徴付ける属性を選択することができる。例えば、プロセス1300(図13)のステップ1320において構造化された表示に追加する属性を選択できるようにユーザーインターフェイスコンポーネント1900をユーザーに提示することができる。   FIG. 19 is a schematic diagram of a user interface component 1900 for selecting candidate attributes to be added to a structured presentation. User interface component 1900 can interact with the user to select attributes that characterize the instance in the structured presentation. For example, the user interface component 1900 can be presented to the user so that attributes can be selected for addition to the structured display at step 1320 of the process 1300 (FIG. 13).

ユーザーインターフェイス1900は、ヘッダ1905およびテーブル1910を含む。ヘッダ1905は、ユーザーインターフェイスコンポーネント1900とのユーザーインタラクションがユーザーがインスタンスの属性を構造化プレゼンテーションにおいて表示するために選択することを可能にすることを識別するテキストまたは他の情報を含む。テーブル1910は、列1915、1920、1925に編成された候補属性情報のコレクション、さらには行選択ウィジェット1930のコレクションを含む。   User interface 1900 includes a header 1905 and a table 1910. The header 1905 includes text or other information that identifies that user interaction with the user interface component 1900 allows the user to select an instance attribute to display in the structured presentation. Table 1910 includes a collection of candidate attribute information organized in columns 1915, 1920, 1925, as well as a collection of row selection widgets 1930.

特に、列1915は、列ヘッダ1935とともに候補属性識別子のコレクションをも含む。候補属性識別子は、電子文書コレクション102の文書から直接的に、またはデータセンター208を介して間接的に抽出されている可能性がある。いくつかの実装では、属性は、型変換される候補属性の値の測定単位を指定する単位識別子309も含むことができる。列ヘッダ1935で、候補属性識別子が列1915内に見つかることが識別される。   In particular, column 1915 also includes a collection of candidate attribute identifiers along with column header 1935. Candidate attribute identifiers may be extracted directly from the documents in the electronic document collection 102 or indirectly through the data center 208. In some implementations, the attribute may also include a unit identifier 309 that specifies the unit of measure for the value of the candidate attribute to be converted. Column header 1935 identifies that a candidate attribute identifier is found in column 1915.

列1920は、列ヘッダ1940とともに信頼値のコレクションをも含む。信頼値は、列1915で識別されている候補属性が正しい可能性を示す。信頼値は、数値または単語で表すことができる。例えば、信頼値は、例えば、属性が正しい属性であるか、または数字目盛上にあるかを確率としてパーセンテージで表すことができる。列ヘッダ1940で、信頼値が列1920内に見つかることが識別される。   Column 1920 also includes a collection of confidence values along with column header 1940. The confidence value indicates the likelihood that the candidate attribute identified in column 1915 is correct. The confidence value can be represented by a numerical value or a word. For example, the confidence value can be expressed as a percentage as a probability, for example, whether the attribute is the correct attribute or is on a numeric scale. Column header 1940 identifies that a confidence value is found in column 1920.

列1925は、列ヘッダ1945とともにソース識別子のコレクションをも含む。ソース識別子は、列1915において識別された候補属性の1つまたは複数のソースを識別するものである。ソースは、例えば、電子文書の表題、ドメイン名、作成者の名前、または同様のものを使用して識別することができる。いくつかの実装では、ソース識別子は、列1915において識別された候補属性を含むテキストスニペットを含むことができる。列ヘッダ1945で、ソース識別子が列1920内に見つかることが識別される。   Column 1925 also includes a collection of source identifiers along with column header 1945. The source identifier identifies one or more sources of candidate attributes identified in column 1915. The source can be identified using, for example, the title of the electronic document, the domain name, the author's name, or the like. In some implementations, the source identifier can include a text snippet that includes the candidate attributes identified in column 1915. Column header 1945 identifies that the source identifier is found in column 1920.

選択ウィジェットコレクション1930は、ユーザーから入力を受け取るために1つまたは複数のユーザーインタラクティブ要素を備える。ユーザー入力は、列1915で識別された候補属性が構造化プレゼンテーションに追加されることを識別することができる。   The selection widget collection 1930 includes one or more user interactive elements to receive input from the user. The user input can identify that the candidate attribute identified in column 1915 is added to the structured presentation.

いくつかの実装では、ユーザーインターフェイスコンポーネント1900は、信頼値に基づく順序で候補属性を提示することができる。例えば、最高の信頼値を持つ候補属性は、列1915の一番上に提示され、最低の信頼値を持つ候補属性は、列1915の一番下に提示されうる。   In some implementations, the user interface component 1900 can present candidate attributes in an order based on confidence values. For example, the candidate attribute with the highest confidence value may be presented at the top of column 1915 and the candidate attribute with the lowest confidence value may be presented at the bottom of column 1915.

いくつかの実装では、ユーザーインターフェイスコンポーネント1900は、列1925で識別されている特定のソース内のインスタンスおよび属性の周りのテキストのスニペットも含みうる。このようなスニペットを使用することで、ユーザーは背景状況における属性を見ることができる。   In some implementations, the user interface component 1900 may also include text snippets around instances and attributes in the particular source identified in column 1925. By using such a snippet, the user can see the attributes in the background situation.

図20は、構造化プレゼンテーションに追加すべき候補インスタンスを選択するためのユーザーインターフェイスコンポーネント2000の略図である。ユーザーインターフェイスコンポーネント2000は、ユーザーと情報をやり取りして、構造化プレゼンテーションに追加するインスタンスを選択することができる。例えば、プロセス900(図9)のステップ925、940において構造化された表示に追加するインスタンスを選択できるようにユーザーインターフェイスコンポーネント2000をユーザーに提示することができる。   FIG. 20 is a schematic diagram of a user interface component 2000 for selecting candidate instances to be added to a structured presentation. User interface component 2000 can interact with the user to select instances to add to the structured presentation. For example, the user interface component 2000 can be presented to the user so that an instance can be selected for addition to the structured display at steps 925, 940 of the process 900 (FIG. 9).

ユーザーインターフェイス2000は、ヘッダ2005およびテーブル2010を含む。ヘッダ2005は、ユーザーインターフェイスコンポーネント2000とのユーザーインタラクションがユーザーがインスタンスを構造化プレゼンテーションにおいて表示するために選択することを可能にすることを識別するテキストまたは他の情報を含む。テーブル2010は、列2015、2020、2025に編成された候補インスタンス情報のコレクション、さらには行選択ウィジェット2030のコレクションを含む。   The user interface 2000 includes a header 2005 and a table 2010. The header 2005 includes text or other information identifying that user interaction with the user interface component 2000 allows the user to select an instance for display in the structured presentation. Table 2010 includes a collection of candidate instance information organized in columns 2015, 2020, and 2025, as well as a collection of row selection widgets 2030.

特に、列2015は、列ヘッダ2035とともに候補インスタンス識別子のコレクションをも含む。候補インスタンス識別子は、電子文書コレクション102の文書から直接的に、またはデータセンター208を介して間接的に抽出されている可能性がある。列ヘッダ2035で、候補インスタンス識別子が列2015内に見つかることが識別される。   In particular, column 2015 also includes a collection of candidate instance identifiers along with column header 2035. Candidate instance identifiers may be extracted directly from documents in the electronic document collection 102 or indirectly through the data center 208. Column header 2035 identifies that a candidate instance identifier is found in column 2015.

列2020は、列ヘッダ2040とともに信頼値のコレクションをも含む。信頼値は、列2015で識別されている候補インスタンスが追加される可能性を示す。信頼値は、数値または単語で表すことができる。例えば、信頼値は、例えば、インスタンスがユーザー指定制約条件に合致する確率をパーセンテージで表すことができる。列ヘッダ2040で、信頼値が列2020内に見つかることが識別される。   Column 2020 also includes a collection of confidence values along with column header 2040. The confidence value indicates the likelihood that the candidate instance identified in column 2015 will be added. The confidence value can be represented by a numerical value or a word. For example, the confidence value can represent, as a percentage, the probability that an instance meets a user-specified constraint, for example. Column header 2040 identifies that a confidence value is found in column 2020.

列2025は、列ヘッダ2045とともにソース識別子のコレクションをも含む。ソース識別子は、列2015において識別された候補インスタンスの1つまたは複数のソースを識別する。ソースは、例えば、電子文書の表題、ドメイン名、作成者の名前、または同様のものを使用して識別することができる。いくつかの実装では、ソース識別子は、列2015内の候補インスタンスの識別子を含むテキストスニペットを含むことができる。列ヘッダ2045で、ソース識別子が列2020内に見つかることが識別される。   Column 2025 also includes a collection of source identifiers along with column header 2045. The source identifier identifies one or more sources of candidate instances identified in column 2015. The source can be identified using, for example, the title of the electronic document, the domain name, the author's name, or the like. In some implementations, the source identifier may include a text snippet that includes identifiers of candidate instances in column 2015. Column header 2045 identifies that the source identifier is found in column 2020.

選択ウィジェットコレクション2030は、ユーザーから入力を受け取るために1つまたは複数のユーザーインタラクティブ要素を備える。ユーザー入力は、列2015で識別された候補インスタンスが構造化プレゼンテーションに追加されることを識別することができる。   The selection widget collection 2030 includes one or more user interactive elements to receive input from the user. The user input can identify that the candidate instance identified in column 2015 is added to the structured presentation.

いくつかの実装では、ユーザーインターフェイスコンポーネント2000は、信頼値に基づく順序で候補インスタンスを提示することができる。例えば、最高の信頼値を持つ候補インスタンスは、列2015の一番上に提示され、最低の信頼値を持つ候補インスタンスは、列2015の一番下に提示されうる。   In some implementations, the user interface component 2000 can present candidate instances in an order based on a confidence value. For example, the candidate instance with the highest confidence value may be presented at the top of column 2015 and the candidate instance with the lowest confidence value may be presented at the bottom of column 2015.

いくつかの実装では、ユーザーインターフェイスコンポーネント2000は、列2025で識別されている特定のソース内のインスタンス識別子の周りのテキストのスニペットも含みうる。このようなスニペットを使用することで、ユーザーは背景状況におけるインスタンスを見ることができる。   In some implementations, the user interface component 2000 may also include a snippet of text around the instance identifier in the particular source identified in column 2025. By using such a snippet, the user can see an instance in the background situation.

本明細書で説明されているシステムおよびプロセスを使用して構造化プレゼンテーションに加えられた変更は、それらの変更が追加のインスタンス、属性、および/または値を識別するために使用される反復プロセスの一部とすることができる。例えば、プロセス800(図8)は、数回繰り返すことができる。既存のコンテンツの範囲は増大するので、識別される追加のインスタンス、属性、および/または値は、増大する確かさを持つものとなる可能性がある。   Changes made to structured presentations using the systems and processes described herein are an iterative process in which those changes are used to identify additional instances, attributes, and / or values. Can be part. For example, the process 800 (FIG. 8) can be repeated several times. As the range of existing content increases, additional instances, attributes, and / or values that are identified can have increased certainty.

図21は、事前に存在している構造化プレゼンテーションを拡張するために新規インスタンスを追加することができるプロセス2100の略図である。プロセス2100は、1つまたは複数の機械可読命令セットによってオペレーションを実行する1つまたは複数のコンピュータのシステム、例えば、システム200(図2)によって実行されうる。   FIG. 21 is a schematic diagram of a process 2100 in which a new instance can be added to extend a pre-existing structured presentation. Process 2100 may be performed by one or more computer systems, eg, system 200 (FIG. 2), that perform operations with one or more machine-readable instruction sets.

プロセス2100は、電子文書コレクション102内の文書から引き出された情報に基づいて新規インスタンスを事前に存在している構造化プレゼンテーションに追加する抽出オペレーション2105とマージオペレーション2110とを含む。特に、プロセス2100は、事前に存在している構造化プレゼンテーション106で提示される情報に基づき1つまたは複数の新規インスタンスを提案する。例えば、構造化プレゼンテーションがいくつかの動画に対応する多数のインスタンスを含む場合、システム200は、電子文書コレクションから引き出された情報に従って動画の追加のインスタンスを提案することができる。つまり、システム200は、属性識別子の類似度、属性値の測定単位、属性値の値、またはこれらの組み合わせに従って追加のインスタンスを識別し、提案することができる。例えば、システム200は、類似のショータイム、劇場、または放映時間を持つ動画を提案することができる。   Process 2100 includes an extract operation 2105 and a merge operation 2110 that add a new instance to a pre-existing structured presentation based on information derived from documents in electronic document collection 102. In particular, the process 2100 proposes one or more new instances based on information presented in a pre-existing structured presentation 106. For example, if the structured presentation includes multiple instances corresponding to several videos, the system 200 may suggest additional instances of the videos according to information derived from the electronic document collection. That is, the system 200 can identify and suggest additional instances according to the similarity of the attribute identifier, the unit of measurement of the attribute value, the value of the attribute value, or a combination thereof. For example, the system 200 can suggest a video with similar showtime, theater, or airtime.

図21に示されているように、抽出オペレーション2105では、事前に存在している構造化プレゼンテーション106の特性を使用して、電子文書コレクション102から新規インスタンス提案のコレクションを抽出する。特性の例として、事前に存在している構造化プレゼンテーション内のインスタンス、事前に存在している構造化プレゼンテーション内の属性、および事前に存在している構造化プレゼンテーション内の属性の値が挙げられる。事前に存在している構造化プレゼンテーション106の特性は、機械可読情報のコレクションとして表すことができ、これを1つまたは複数の機械可読命令セットによりオペレーションを実行する1つまたは複数のコンピュータのシステムが受け取ることができる。例えば、検索エンジン202(図2)が、事前に存在している構造化プレゼンテーション106の特性を受け取ることができる。   As shown in FIG. 21, the extraction operation 2105 extracts a collection of new instance proposals from the electronic document collection 102 using pre-existing characteristics of the structured presentation 106. Examples of properties include instances in a pre-existing structured presentation, attributes in a pre-existing structured presentation, and values of attributes in a pre-existing structured presentation. The pre-existing characteristics of the structured presentation 106 can be represented as a collection of machine-readable information that can be represented by one or more computer systems that perform operations with one or more machine-readable instruction sets. Can receive. For example, search engine 202 (FIG. 2) can receive pre-existing characteristics of structured presentation 106.

抽出オペレーション2105において、電子文書コレクション102内の文書のコンテンツおよび事前に存在している構造化プレゼンテーション106の特性に基づいて、1つまたは複数の新規インスタンス提案を構成することができる。以下でさらに説明されるように、新規インスタンス提案を構成するためのさまざまな異なる技術が使用されうる。   In an extraction operation 2105, one or more new instance proposals can be constructed based on the content of the documents in the electronic document collection 102 and the characteristics of the pre-existing structured presentation 106. As described further below, a variety of different techniques for composing a new instance proposal may be used.

マージオペレーション2110で新規インスタンス提案の一部または全部を事前に存在している構造化プレゼンテーション106にマージして、拡張構造化プレゼンテーション106を形成することができる。閲覧者に対して、例えば、ディスプレイ画面104などのディスプレイデバイスに拡張構造化プレゼンテーションを表示することができる。   A merge operation 2110 may merge some or all of the new instance proposals with the pre-existing structured presentation 106 to form an extended structured presentation 106. For the viewer, the expanded structured presentation can be displayed on a display device, such as the display screen 104, for example.

抽出オペレーション2105で構成されたすべての新規インスタンス提案は、事前に存在している構造化プレゼンテーション106とマージされ、閲覧者向けに表示される必要はない。例えば、いくつかの実装では、新規インスタンス提案のコレクションを、閲覧者が追加される1つまたは複数のインスタンスを選択することを可能にするインタラクティブ要素とともに閲覧者に対して提示することができる。しかし、他の実装では、新規インスタンス提案は、ユーザーインタラクションなしで、また表示する前の新規インスタンス提案の選別なしで、自動的に追加することができる。マージャーに関するさらなる詳細は、例えば、図9〜20および関連する本文にある。   All new instance proposals configured in the extract operation 2105 are merged with the pre-existing structured presentation 106 and need not be displayed to the viewer. For example, in some implementations, a collection of new instance proposals can be presented to the viewer with interactive elements that allow the viewer to select one or more instances to be added. However, in other implementations, new instance proposals can be added automatically without user interaction and without screening new instance proposals prior to display. Further details regarding mergers can be found, for example, in FIGS. 9-20 and associated text.

図22は、電子文書コレクション内の文書のコンテンツに基づいてインスタンスを構造化プレゼンテーションに追加するための例示的なプロセス2200の流れ図である。プロセス2200は、1つまたは複数の機械可読命令セットによってオペレーションを実行する1つまたは複数のコンピュータのシステムによって実行されうる。例えば、プロセス2200は、システム200内の検索エンジン202によって実行されうる。   FIG. 22 is a flow diagram of an example process 2200 for adding an instance to a structured presentation based on the content of documents in an electronic document collection. Process 2200 may be performed by a system of one or more computers that perform operations with one or more machine-readable instruction sets. For example, process 2200 may be performed by search engine 202 within system 200.

いくつかの実装では、プロセス2200は、例えば、ユーザーまたは構造化プレゼンテーション106の更新をトリガーする他のシステムもしくはプロセスから入力を受け取ったことに応答して実行されうる。例えば、プロセス2200は、1つまたは複数の新規インスタンスを構造化プレゼンテーション106に追加するユーザー要求への応答として実行されうる。他の例として、プロセス2200は、検索クエリを受け取ったことに対する応答として、検索エンジン、例えば、検索エンジン202(図2)によって実行されうる。   In some implementations, process 2200 may be performed in response to receiving input from a user or other system or process that triggers an update of structured presentation 106, for example. For example, process 2200 can be performed in response to a user request to add one or more new instances to structured presentation 106. As another example, process 2200 may be performed by a search engine, eg, search engine 202 (FIG. 2) in response to receiving a search query.

プロセス2200を実行するシステムは、事前に存在している構造化表示の1つまたは複数の特性を受け取ることができる(ステップ2205)。例えば、システムは、事前に存在している構造化プレゼンテーションの1つまたは複数の属性識別子を受け取ることができる。他の例として、システムは、事前に存在している構造化プレゼンテーション内に出現する1つまたは複数のインスタンス識別子を受け取ることができる。   The system performing process 2200 may receive one or more characteristics of a pre-existing structured representation (step 2205). For example, the system can receive one or more attribute identifiers of a pre-existing structured presentation. As another example, the system can receive one or more instance identifiers that appear in a pre-existing structured presentation.

プロセス2200を実行するシステムは、事前に存在している構造化プレゼンテーションの1つまたは複数の特性に基づいて電子文書コレクション内の文書から1つまたは複数のインスタンス提案を構成することができる(ステップ2210)。インスタンス提案は、多数の異なる方法でこれらの特性に基づき構成することができる。例えば、一実装では、システムは、事前に存在している構造化プレゼンテーションから引き出された属性識別子を使用して検索クエリを構築することによって電子文書コレクション102内の文書からインスタンス提案を構成することができる。これらの検索クエリを使用し、文字列比較結果または他のマッチング技術を使用して類似の属性を共有できるインスタンスを識別することができる。他のアプローチの例について以下でさらに説明する。   The system performing process 2200 may construct one or more instance proposals from documents in the electronic document collection based on one or more characteristics of a pre-existing structured presentation (step 2210). ). Instance proposals can be constructed based on these characteristics in a number of different ways. For example, in one implementation, the system may construct an instance proposal from documents in the electronic document collection 102 by constructing a search query using attribute identifiers derived from pre-existing structured presentations. it can. These search queries can be used to identify instances that can share similar attributes using string comparison results or other matching techniques. Examples of other approaches are further described below.

プロセス2200を実行するシステムは、1つまたは複数のインスタンス提案をユーザーに提供することができる(ステップ2215)。例えば、インスタンス提案のリストを、事前に存在している構造化プレゼンテーションを表示する同じディスプレイ画面上にユーザー向けに表示することができる。   The system executing process 2200 may provide one or more instance suggestions to the user (step 2215). For example, a list of instance proposals can be displayed for the user on the same display screen that displays a pre-existing structured presentation.

プロセス2200を実行するシステムは、1つまたは複数のインスタンス提案のユーザー選択を受け取ることができる(ステップ2220)。例えば、ユーザーインターフェイスコンポーネントがユーザーとやり取りして、1つまたは複数のインスタンス提案を選択する1つまたは複数のユーザー入力(例えば、マウスのクリック、キーの押下、または他のユーザー入力)を受け取ることができる。   The system performing process 2200 may receive a user selection of one or more instance proposals (step 2220). For example, a user interface component interacts with the user and receives one or more user inputs (e.g. mouse clicks, key presses, or other user inputs) that select one or more instance suggestions. it can.

プロセス2200を実行するシステムは、選択されたインスタンス提案を構造化プレゼンテーションに新規構造化レコードとして追加することができる(ステップ2225)。例えば、構造化プレゼンテーションが、テーブル300(図3)などのテーブルである場合、システムは新規行302を追加することができる。他の例として、構造化プレゼンテーションが、カードのコレクション500(図5)などのカードのコレクションである場合、システムは新規カード502を追加することができる。   The system executing process 2200 may add the selected instance proposal as a new structured record to the structured presentation (step 2225). For example, if the structured presentation is a table such as table 300 (FIG. 3), the system can add a new row 302. As another example, if the structured presentation is a collection of cards, such as a collection of cards 500 (FIG. 5), the system can add a new card 502.

図23は、事前に存在している構造化プレゼンテーションの特性に基づいて電子文書コレクション内の電子文書からインスタンス提案を構成するための例示的なプロセス2300の流れ図である。プロセス2300は、単独で、または他の活動と連携して実行されうる。例えば、プロセス2300は、プロセス2200(図22)におけるステップ2210で実行されうる。   FIG. 23 is a flow diagram of an example process 2300 for constructing an instance proposal from electronic documents in an electronic document collection based on pre-existing structured presentation characteristics. Process 2300 may be performed alone or in conjunction with other activities. For example, process 2300 may be performed at step 2210 in process 2200 (FIG. 22).

プロセス2300は、1つまたは複数の機械可読命令セットによってオペレーションを実行する1つまたは複数のコンピュータのシステムによって実行されうる。例えば、プロセス2300は、システム200(図2)内の検索エンジン202によって実行されうる。   Process 2300 may be performed by a system of one or more computers that perform operations with one or more machine-readable instruction sets. For example, process 2300 may be performed by search engine 202 in system 200 (FIG. 2).

プロセス2300を実行するシステムは、事前に存在している構造化プレゼンテーションにおいて指定されているインスタンスに関係する構造化コンポーネントを含む1つまたは複数の文書を識別することができる(ステップ2305)。構造化コンポーネントは、構造化されている電子文書のいくつかの部分または領域である。構造化コンポーネントの例としては、テーブル、リスト、レコード、属性-値の対のコレクション、および同様のものが挙げられる、こうして、構造化コンポーネントは、構造化プレゼンテーションとほぼ同様にし、定義済みの構造と一致するように属性値およびインスタンス識別子を編成することができる。   The system performing process 2300 may identify one or more documents that include a structured component related to an instance specified in a pre-existing structured presentation (step 2305). A structured component is a number of parts or regions of an electronic document that are structured. Examples of structured components include tables, lists, records, collections of attribute-value pairs, and the like. Thus, structured components are similar to structured presentations, with predefined structures and Attribute values and instance identifiers can be organized to match.

構造化コンポーネントを含む電子文書の全体が構造化されている必要はない。例えば、電子文書は、非構造化テキストの2つの段落の間にテーブルが挟まれていてもよい。さらに、異なる文書内の構造化コンポーネントが、同じフォーマットを有する、または所定の、もしくは永続的な構造に従っている必要はない。実際、1つの構造化コンポーネント内の情報の編成は、一般的には、他の文書内に出現する構造化コンポーネント内の情報の編成とは無関係に変更されうる。例えば、1人の人の履歴書中の学校の構造化されたリストが卒業年を削除するように変更される場合、他の履歴書中の学校の他の構造化されたリストも同様に変更されることを保証する必要はない。   The entire electronic document including the structured component need not be structured. For example, an electronic document may have a table sandwiched between two paragraphs of unstructured text. Furthermore, structured components in different documents need not have the same format or follow a predetermined or permanent structure. In fact, the organization of information within one structured component can generally be changed independently of the organization of information within the structured component that appears in other documents. For example, if a structured list of schools in one person's resume is changed to remove the graduation year, the other structured lists of schools in other resumes will be changed as well There is no need to guarantee that

プロセス2300を実行するシステムは、さまざまな方法で構造化コンポーネントを含む文書を識別することができる。例えば、テーブルおよび他の構造化コンポーネントは、文書それ自体の中に見つかる、メタデータラベル、例えば、HTMLタグを使用して識別されうる。他の例として、構造化コンポーネントは、文書内の反復要素(例えば、一連のコンマまたはタブ区切り記号)を識別することによって識別されうる。   A system performing process 2300 may identify documents that include structured components in a variety of ways. For example, tables and other structured components can be identified using metadata labels, eg, HTML tags, found in the document itself. As another example, a structured component can be identified by identifying repetitive elements (eg, a series of commas or tab delimiters) in the document.

構造化コンポーネントは、それらが指定されたインスタンスに関連する情報を含む場合に事前に存在している構造化プレゼンテーションで指定されたインスタンスに関係する。例えば、1つまたは複数の属性値を持つ指定されたインスタンスのうちの1つまたは複数のインスタンスを特徴付ける構造化コンポーネントは、事前に存在している構造化プレゼンテーション内で指定されたインスタンスに関連するものとして考えることができる。他の例として、事前に存在している構造化プレゼンテーションで指定されたインスタンスとは異なるインスタンスの同じ属性のうちの1つまたは複数の属性を特徴付ける構造化コンポーネントは、指定されたインスタンスに関連するものとして考えることができる。多くの実装において、インスタンスおよび/または属性識別子は同じである必要はない。むしろ、概念的に関係するインスタンスおよび属性は、構造化コンポーネントを含む文書を識別するために使用されうる。   Structured components are related to the specified instance in a pre-existing structured presentation if they contain information related to the specified instance. For example, a structured component that characterizes one or more of the specified instances with one or more attribute values is related to the specified instance in a pre-existing structured presentation Can be thought of as As another example, a structured component that characterizes one or more of the same attributes of an instance that is different from the instance specified in the pre-existing structured presentation is related to the specified instance Can be thought of as In many implementations, the instance and / or attribute identifiers need not be the same. Rather, conceptually related instances and attributes can be used to identify documents that contain structured components.

したがって、いくつかの実装では、プロセス2300を実行するシステムは、事前に存在している構造化プレゼンテーション内に見つかるような同じもしくは関係するインスタンス識別子および/または事前に存在している構造化プレゼンテーション内に見つかるような同じもしくは関係する属性識別子を含む文書を識別することによって事前に存在している構造化プレゼンテーションにおいて指定されているインスタンスに関係する構造化コンポーネントを含む1つまたは複数の文書を識別することができる。   Thus, in some implementations, the system performing process 2300 may be in the same or related instance identifier and / or preexisting structured presentation as found in the preexisting structured presentation. Identify one or more documents that contain structured components related to instances specified in pre-existing structured presentations by identifying documents that contain the same or related attribute identifiers as found Can do.

プロセス2300を実行するシステムは、構造化コンポーネントから1つまたは複数のインスタンス提案を選択することができる(ステップ2310)。この選択プロセスでは、ユーザーに対して提案されるインスタンスを選別して個数を減らすことができる。インスタンス提案の選択は、さまざまな方法で実行できる。例えば、システムは、以下でさらに説明するように、構造化コンポーネント内のインスタンス、構造化コンポーネント内のインスタンスの属性、および/または構造化コンポーネント内のインスタンスの属性の値のカテゴリに基づいてインスタンス提案を選択することができる。   The system performing process 2300 may select one or more instance proposals from the structured component (step 2310). This selection process can reduce the number of instances proposed to the user. The selection of instance proposals can be performed in various ways. For example, the system may make an instance suggestion based on a category of values of instances in a structured component, attributes of instances in the structured component, and / or attributes of instances in the structured component, as further described below. You can choose.

図24は、事前に存在している構造化プレゼンテーションの特性に基づく電子文書コレクション内の電子文書からのインスタンス提案の構成を表す表現2400である。特に、表現2400は、プロセス2300(図23)の一実装を使用するインスタンス提案の構成を示している。   FIG. 24 is a representation 2400 that represents the configuration of an instance proposal from an electronic document in an electronic document collection based on pre-existing structured presentation characteristics. In particular, representation 2400 illustrates the configuration of an instance proposal that uses one implementation of process 2300 (FIG. 23).

図示されているように、事前に存在している構造化プレゼンテーションでは、インスタンス2405のコレクションを指定する(つまり、インスタンス「Philadelphia」および「Chicago」)。さらに、電子文書コレクション(例えば、コレクション102)内の異なる文書は、異なる構造化コンポーネント2410、2415、2420を含む。構造化コンポーネント2410、2415、2420は、例えば中に出現する同じインスタンス識別子「Philadelphia」および「Chicago」に基づいて指定されたインスタンス2405に関連するものとして識別されうる。   As shown, the pre-existing structured presentation specifies a collection of instances 2405 (ie, instances “Philadelphia” and “Chicago”). Further, different documents in an electronic document collection (eg, collection 102) include different structured components 2410, 2415, 2420. The structured components 2410, 2415, 2420 may be identified as being associated with the instance 2405 designated based on, for example, the same instance identifiers “Philadelphia” and “Chicago” appearing therein.

図示されているように、構造化コンポーネント2410、2415、2420は、異なる背景状況に基づくさまざまな異なる潜在的インスタンス提案を含む。特に、構造化コンポーネント2410の背景状況では、インスタンス「Philadelphia」および「Chicago」は、さまざまな市の特性を表す表形式コンポーネントの一部である。構造化コンポーネント2415の背景状況では、インスタンス「Philadelphia」および「Chicago」は、1970年代のある時期のナショナルリーグ東地区の順位表の一部を表す構造化コンポーネントの一部である。構造化コンポーネント2420の背景状況では、インスタンス「Philadelphia」および「Chicago」は、さまざまな動画の特性を表す表形式コンポーネントの一部である。   As shown, the structured components 2410, 2415, 2420 include a variety of different potential instance proposals based on different background situations. In particular, in the context of structured component 2410, instances "Philadelphia" and "Chicago" are part of a tabular component that represents various city characteristics. In the context of the structured component 2415, the instances “Philadelphia” and “Chicago” are part of the structured component that represents a portion of the standings of the National League East District at some point in the 1970s. In the context of the structured component 2420, the instances “Philadelphia” and “Chicago” are part of a tabular component that represents various animation characteristics.

構造化コンポーネント2410、2415、2420内に見つかるさまざまなインスタンスすべてをユーザーに対して提案する代わりに、それらのインスタンスを特徴付けるために使用される属性に基づいてコンポーネント2410、2415、2420からインスタンス選択を選択することができる。特に、図示されているように、事前に存在している構造化プレゼンテーション106は、属性「year」、「rating」、および「box office receipts」の値を使用してインスタンス「Philadelphia」および「Chicago」を特徴付ける。構造化コンポーネント2410は、属性「population」および「area」の値を使用してインスタンス「Philadelphia」および「Chicago」を特徴付ける。構造化コンポーネント2415は、属性「wins」、「losses」、および「GB」(つまり、ゲーム差)の値を使用してインスタンス「Philadelphia」および「Chicago」を特徴付ける。構造化コンポーネント2420は、属性「year」、「runtime」、および「rating」の値を使用してインスタンス「Philadelphia」および「Chicago」を特徴付ける。   Instead of suggesting all the various instances found in structured components 2410, 2415, 2420 to the user, select an instance selection from components 2410, 2415, 2420 based on the attributes used to characterize those instances can do. In particular, as shown, the pre-existing structured presentation 106 uses the values of the attributes “year”, “rating”, and “box office receipts” to create instances “Philadelphia” and “Chicago”. Characterize. The structured component 2410 characterizes the instances “Philadelphia” and “Chicago” using the values of the attributes “population” and “area”. The structured component 2415 characterizes the instances “Philadelphia” and “Chicago” using the values of the attributes “wins”, “losses”, and “GB” (ie, game differences). The structured component 2420 characterizes the instances “Philadelphia” and “Chicago” using the values of the attributes “year”, “runtime”, and “rating”.

システムは、これらの特徴付けられた属性に基づいて構造化コンポーネント2410、2415、2420内のインスタンスから選択することができる。例えば、システムは、事前に存在している構造化プレゼンテーション106における属性識別子「year」および「rating」と構造化コンポーネント2420における属性識別子「year」および「rating」との間の対応関係を識別して、インスタンス「Peter Pan」および「Star Wars」を事前に存在している構造化プレゼンテーション106に追加する提案として選択することができる。   The system can select from instances within the structured components 2410, 2415, 2420 based on these characterized attributes. For example, the system identifies the correspondence between attribute identifiers “year” and “rating” in pre-existing structured presentation 106 and attribute identifiers “year” and “rating” in structured component 2420. , Instances “Peter Pan” and “Star Wars” can be selected as suggestions to add to the pre-existing structured presentation 106.

図37〜51および関連する本文において説明されているように、システムは、追加の属性識別子を提案もしくは追加することもできる。例えば、構造化コンポーネント2420は、属性識別子「runtime」を含む。したがって、このようなシステムでは、対応する属性値を使用して、または対応する属性値なしで、属性識別子「runtime」を提案することができる。   As described in FIGS. 37-51 and the associated text, the system may also suggest or add additional attribute identifiers. For example, the structured component 2420 includes an attribute identifier “runtime”. Thus, in such a system, the attribute identifier “runtime” can be proposed with or without a corresponding attribute value.

いくつかの実装では、構造化コンポーネント2410、2415から引き出されたインスタンスが特定の構成で提案されていない場合であっても、そのようなインスタンスは、将来の情報要求の際に使用できるように格納することができる。例えば、構造化コンポーネント2410で表されている市が、インスタンス提案として選択されていないとしても、それらの市は、各属性識別子(例えば、「population」および「area」)およびデータコレクション(例えば、データセンター208など)内の属性値とともに格納することができる。その後にユーザーが1つまたは複数の市に関する情報を要求した場合、そのようなシステムは、この格納されている情報にアクセスして、追加の情報をユーザーに提供することができる。   In some implementations, even if instances derived from structured components 2410, 2415 are not proposed in a particular configuration, such instances are stored for use in future information requests. can do. For example, even if the cities represented by the structured component 2410 have not been selected as instance proposals, those cities will have their respective attribute identifiers (eg, “population” and “area”) and data collections (eg, data Can be stored along with attribute values in the center 208). If the user subsequently requests information about one or more cities, such a system can access this stored information and provide additional information to the user.

図25は、事前に存在している構造化プレゼンテーションの特性に基づいて電子文書コレクション内の電子文書からインスタンス提案を構成するための例示的なプロセス2500の流れ図である。プロセス2500は、単独で、または他の活動と連携して実行されうる。例えば、プロセス2500は、プロセス2200(図22)におけるステップ2210で実行されうる。   FIG. 25 is a flow diagram of an example process 2500 for constructing an instance proposal from electronic documents in an electronic document collection based on pre-existing structured presentation characteristics. Process 2500 may be performed alone or in conjunction with other activities. For example, process 2500 may be performed at step 2210 in process 2200 (FIG. 22).

プロセス2500は、1つまたは複数の機械可読命令セットによってオペレーションを実行する1つまたは複数のコンピュータのシステムによって実行されうる。例えば、プロセス2500は、システム200(図2)内の検索エンジン202によって実行されうる。   Process 2500 may be performed by a system of one or more computers that perform operations with one or more machine-readable instruction sets. For example, process 2500 may be performed by search engine 202 in system 200 (FIG. 2).

プロセス2500を実行するシステムは、1つまたは複数の指定されたインスタンスに関連する1つまたは複数の文書を識別することができる(ステップ2505)。例えば、プロセス2500を実行するシステムは、文字列比較を使用することで、指定されたインスタンスおよびその属性および/または値のうちの1つまたは複数と電子文書コレクション102などの電子文書コレクション内の文書とのマッチングを行うことができる。他の例では、プロセス2500を実行するシステムは、格納されている情報(データセンター208内の情報など)にアクセスして、指定されたインスタンスに関連する電子文書を識別することができる。   The system performing process 2500 may identify one or more documents associated with one or more specified instances (step 2500). For example, a system executing process 2500 uses a string comparison to document one or more of the specified instance and its attributes and / or values and an electronic document collection such as electronic document collection 102. Can be matched. In other examples, the system executing process 2500 can access stored information (such as information in data center 208) to identify the electronic document associated with the specified instance.

プロセス2500を実行するシステムは、識別された文書のうちの1つまたは複数の文書のテンプレートを抽出することができる(ステップ2510)。文書テンプレートは、電子文書コレクション内の文書のサブコレクション内の個別の文書のコンテンツの配列に対するパターンとして使用される。サブコレクション内の文書は、一般的に、単一の企業などの単一のソースに由来するものである。例えば、書籍販売店は、単一の文書テンプレートを、異なる書籍を記述したコンテンツの配列に対するパターンとして使用することができる。他の例では、家具小売店は、単一の文書テンプレートを、異なるソファのパンフレットのコンテンツの配列に対するパターンとして使用することができる。例えば、ソファ用の電子パンフレットのテンプレートにより、ソファのブランド名、ソファの写真、ソファが示されている色をユーザーが選択することを可能にするインタラクティブ要素、テキスト形式のソファの説明、ならびにソファの寸法、入手状況、および価格を特徴付けるテーブルの配列をパンフレット上に指定することができる。こうして、文書テンプレートは、構造化プレゼンテーションとほぼ同様にし、定義済みの構造と一致するようにインスタンスに関する情報を編成することができる。   The system performing process 2500 may extract a template for one or more of the identified documents (step 2510). The document template is used as a pattern for the arrangement of the content of individual documents in a sub-collection of documents in the electronic document collection. The documents in a subcollection are generally from a single source, such as a single company. For example, a book store can use a single document template as a pattern for an array of content describing different books. In another example, a furniture retailer can use a single document template as a pattern for an array of different sofa brochure content. For example, a template for an e-brochure for a sofa allows the user to select the sofa brand name, sofa photo, sofa color, textual sofa description, and sofa An array of tables characterizing dimensions, availability, and prices can be specified on the brochure. In this way, the document template can organize information about the instances in much the same way as a structured presentation and to match a predefined structure.

一般に、文書テンプレートは、電子文書のコンテンツ全体に対するパターンとして使用することができ、上述のように、文書内の構造化コンポーネントの配列を指定することさえできる。しかし、文書テンプレートでは非構造化電子文書コレクション内の文書のサブコレクションのコンテンツの配列を指定するだけなので、電子文書コレクションそれ自体は非構造化のままである。例えば、AMAZON.COMでは1つのテンプレートをAMAZON.COMが販売するすべての書籍の説明の配列に対するパターンとして使用する場合であっても、BARNESANDNOBLE.COMおよび他の書籍販売店は、その同じテンプレートを書籍店が販売する書籍の説明の配列に対するパターンとして必ずしも使用しない。さらに、文書テンプレートは、その変更を必ずしも電子文書のコレクション全体、さらにはサブコレクションに伝搬させなくても変更できる。   In general, a document template can be used as a pattern for the entire content of an electronic document, and can even specify an array of structured components within the document, as described above. However, since the document template only specifies the content array of the sub-collection of documents in the unstructured electronic document collection, the electronic document collection itself remains unstructured. For example, even if AMAZON.COM uses one template as a pattern for an array of descriptions for all books sold by AMAZON.COM, BARNESANDNOBLE.COM and other book stores will use the same template as the book. It is not necessarily used as a pattern for the description arrangement of books sold by the store. Furthermore, document templates can be changed without necessarily propagating the changes to the entire collection of electronic documents, and even to a sub-collection.

図26は、動画(つまり、動画「Philadelphia」)を記述するためのパターンとして使用されるハイパーテキストマークアップ言語(HTML)のテンプレート2600の一部を表す図である。テンプレート部分2600のハイパーテキストマークアップ言語(HTML)コードは、機械可読かつ人間可読である。例えば、ブラウザでテンプレート部分2600のHTMLコードを使用して、ウェブページを生成することができる。   FIG. 26 is a diagram showing a part of a hypertext markup language (HTML) template 2600 used as a pattern for describing a moving image (that is, moving image “Philadelphia”). The hypertext markup language (HTML) code of the template portion 2600 is machine readable and human readable. For example, the web page can be generated using the HTML code of the template portion 2600 in the browser.

示されている例では、テンプレート部分2600は、2つのサブセクション2605、2610に分割される。サブセクション2605は、動画「Philadelphia」を識別するテキストの配列に対するパターンとして使用される。サブセクション2610は、さまざまな属性識別子およびその値の配列に対するパターンとして使用される。一般に、異なる動画を記述するために電子文書内の文書の特定のサブコレクションにおいて、サブセクション2605、2610内のパターンを何回も繰り返す。   In the example shown, the template portion 2600 is divided into two subsections 2605, 2610. Subsection 2605 is used as a pattern for an array of text that identifies the video “Philadelphia”. Subsection 2610 is used as a pattern for various attribute identifiers and their value arrays. In general, the patterns in subsections 2605, 2610 are repeated many times in a particular sub-collection of documents within an electronic document to describe different videos.

HTMLパーサーを使用して、テンプレート部分2600から出力書式を抽出することができ、したがって、出力書式を使用して、同じテンプレートを有する文書を識別することができる。例えば、HTMLタグ<title>、<div>、他のHTMLタグ、および互いに相対的な位置は、HTMLパーサーによって識別されうる。このようなHTMLパーサーは、HTMLタグ<title>がHTMLタグ<div>の前に出現するものとして判定することができる。したがって、HTMLパーサーは、テンプレートに従って配列されているコンテンツからのテンプレート部分2600から出力書式を抽出することができる。   An HTML parser can be used to extract the output format from the template portion 2600, and thus the output format can be used to identify documents having the same template. For example, HTML tags <title>, <div>, other HTML tags, and positions relative to each other can be identified by an HTML parser. Such an HTML parser can determine that the HTML tag <title> appears before the HTML tag <div>. Thus, the HTML parser can extract the output format from the template portion 2600 from the content arranged according to the template.

図25に戻ると、テンプレートを抽出した後に、プロセス2500を実行するシステムは、同じテンプレートを有する1つまたは複数の文書を識別することができる(ステップ2515)。例えば、システムは、電子文書コレクション内の文書のテンプレートを抽出されたテンプレートと比較することができる。   Returning to FIG. 25, after extracting the template, the system performing process 2500 may identify one or more documents having the same template (step 2515). For example, the system can compare a template of a document in the electronic document collection with the extracted template.

プロセス2500を実行するシステムは、同じテンプレートを有するものとして識別されている文書から1つまたは複数のインスタンス提案を構成することもできる(ステップ2520)。特に、システムは、文書のサブコレクション内でテンプレートの反復を使用して、サブコレクション内の文書がインスタンスの同じカテゴリに関する同じ種類のコンテンツを含むと推論することができる。言い換えると、システムは、同じテンプレートが異なる文書のパターンとして使用されているため、2つの文書の背景状況が同じであると推論することができる。   The system performing process 2500 may also construct one or more instance proposals from documents that are identified as having the same template (step 2520). In particular, the system can use template iteration within a sub-collection of documents to infer that the documents in the sub-collection contain the same type of content for the same category of instances. In other words, the system can infer that the background status of two documents is the same because the same template is used as a pattern for different documents.

同様の背景状況の文書が識別された後、テンプレートそれ自体を使用して、インスタンス提案を構成することができる。例えば、テンプレート部分2600(図26)内のHTMLタグは、その文書内に記述されている映画の表題が「Philadelphia (1993)」であると識別する。同じテンプレートを共有する文書内の同様にタグ付けされたテキストを検索することによって、システムは、他の映画の表題を識別することができる。   After documents with similar background status are identified, the template itself can be used to construct an instance proposal. For example, the HTML tag in the template portion 2600 (FIG. 26) identifies that the movie title described in the document is “Philadelphia (1993)”. By searching for similarly tagged text in documents that share the same template, the system can identify titles for other movies.

さらに、いくつかの実装では、文書テンプレート内の追加のコンテンツは、インスタンス提案を構成する際に使用することができる。例えば、特定の値(例えば、George Lucas)を「映画監督」として識別することを利用して、文書のサブコレクションから特定のインスタンス提案を選択することができる。言い換えると、テンプレート部分2600のサブセクション2610の構文解析を行うか、または他の何らかの形で分析して、属性が類似の値、識別子、または他の特性を有するかどうかを判定することができる。そのような状況では、インスタンス識別子は、サブセクション2605から抽出されうる。   Further, in some implementations, additional content in the document template can be used in constructing the instance proposal. For example, identifying a particular value (eg, George Lucas) as a “movie director” can be used to select a particular instance proposal from a sub-collection of documents. In other words, the subsection 2610 of the template portion 2600 can be parsed or analyzed in some other manner to determine whether an attribute has a similar value, identifier, or other characteristic. In such a situation, the instance identifier may be extracted from subsection 2605.

図27は、事前に存在している構造化プレゼンテーション106内の情報に基づいて新規インスタンス提案2115のコレクションを構成することができるプロセス2700の略図である。プロセス2700は、1つまたは複数の機械可読命令セット(図2)によってオペレーションを実行する1つまたは複数のコンピュータのシステムによって実行されうる。   FIG. 27 is a schematic diagram of a process 2700 that can construct a collection of new instance proposals 2115 based on pre-existing information in the structured presentation 106. Process 2700 may be performed by a system of one or more computers that perform operations with one or more machine-readable instruction sets (FIG. 2).

プロセス2700は、事前に存在している構造化プレゼンテーション106内の情報に基づきインスタンス/属性コレクション2710に対し抽出オペレーション2705を実行する。インスタンス/属性コレクション2710は、インスタンスをその属性に、またいくつかの実装では、それらの属性の値にも関連付ける情報のコレクションである。コレクション2710内の情報は、トリガーを受け取ったことに対する応答として(例えば、検索クエリ)、またはトリガーを受け取ることを予想して、例えば、電子文書コレクション102のインデックスを作成するプロセスの一部として、電子文書コレクション102内の文書から抽出されうる。いくつかの実装では、コレクション2710内の情報は、現在のユーザーまたは他のユーザーに対して提示された前の構造化プレゼンテーションのコンテンツを含むことができる。一般に、インスタンス提案は、例えばステップ2215、2220、2225(図22)において説明されているように、構造化プレゼンテーションに追加されるインスタンス提案を選択するユーザーに提供される。   The process 2700 performs an extraction operation 2705 on the instance / attribute collection 2710 based on information in the pre-existing structured presentation 106. An instance / attribute collection 2710 is a collection of information that associates an instance with its attributes and, in some implementations, with the values of those attributes. The information in collection 2710 can be used as a response to receiving a trigger (e.g., a search query) or as part of the process of indexing electronic document collection 102 in anticipation of receiving a trigger, e.g. It can be extracted from the documents in the document collection 102. In some implementations, the information in collection 2710 can include the content of previous structured presentations presented to the current user or other users. In general, the instance proposal is provided to a user who selects an instance proposal to be added to the structured presentation, eg, as described in steps 2215, 2220, 2225 (FIG. 22).

インスタンスとその属性の間の関連付けは、コレクション2710内の情報記憶域を構造化することによってコレクション2710内で確立されうる。図28は、コレクション2710内の属性およびインスタンスを関連付けるテーブル2800の略図である。テーブル2800は、レコード2802、2804、2806、2808、2810、2812、2814のコレクションを含み、それぞれのレコードはインスタンスの識別子を文書のロケーションの記述およびそれらの文書内の識別されたインスタンスを特徴付ける属性に関連付ける。レコード2802、2804、2806、2808、2810、2812、2814内の情報は、列2815、2820、2825、2830、2835、2840のコレクション内に編成されうる。特に、列2815は、インスタンス識別子を含むことができる。列2820は、列2815で識別されているインスタンスを含む電子文書のロケーションの記述を含むことができる。列2825、2830、2835、2840は、列2820内にロケーションが記述されている文書内の列2815で識別されるインスタンスを特徴付ける属性を識別することができる。   An association between an instance and its attributes can be established within collection 2710 by structuring information storage within collection 2710. FIG. 28 is a schematic diagram of a table 2800 that associates attributes and instances in collection 2710. Table 2800 contains a collection of records 2802, 2804, 2806, 2808, 2810, 2812, 2814, each record with an instance identifier as a description of the document location and attributes that characterize the identified instances within those documents. Associate. Information in records 2802, 2804, 2806, 2808, 2810, 2812, 2814 may be organized in a collection of columns 2815, 2820, 2825, 2830, 2835, 2840. In particular, column 2815 can include an instance identifier. Column 2820 may include a description of the location of the electronic document that includes the instance identified in column 2815. Columns 2825, 2830, 2835, 2840 may identify attributes that characterize the instance identified in column 2815 in the document whose location is described in column 2820.

図示されているように、異なる電子文書は、同じインスタンスを特徴付ける異なるカテゴリおよび量の情報を含むことができる。例えば、ロケーションがレコード2804の列2820で識別される文書は、インスタンス「INSTANCE_2」の2つの属性を含むが、ロケーションがレコード2810の列2820で識別される文書は、インスタンス「INSTANCE_2」の3つの属性を含む。さらに、レコード2804内の属性(つまり、属性「ATTR_5」および属性「ATTR_6」)は、レコード2810内の属性(つまり、属性「ATTR_5」、属性「ATTR_8」、および属性「ATTR_9」)と一部異なる。   As shown, different electronic documents can include different categories and quantities of information that characterize the same instance. For example, a document whose location is identified in column 2820 of record 2804 contains two attributes for instance "INSTANCE_2", whereas a document whose location is identified in column 2820 of record 2810 is three attributes of instance "INSTANCE_2" including. Furthermore, the attributes in record 2804 (ie, attribute “ATTR_5” and attribute “ATTR_6”) are partially different from the attributes in record 2810 (ie, attribute “ATTR_5”, attribute “ATTR_8”, and attribute “ATTR_9”). .

属性およびインスタンスを関連付けるデータコレクション2710(テーブル280など)は、いくつもの異なる方法で形成されうる。例えば、内部的な構造化コンポーネントを含む文書が識別されうる。このような内部的な構造化コンポーネントの例として、HTML文書中に出現するテーブルおよびリストが挙げられる。これらの内部的な構造化コンポーネント内の属性とインスタンスとの間の関係をコピーしてデータコレクション2710を形成することができる。   A data collection 2710 (such as table 280) that associates attributes and instances can be formed in a number of different ways. For example, a document that includes an internal structured component may be identified. Examples of such internal structured components are tables and lists that appear in HTML documents. The relationship between attributes and instances in these internal structured components can be copied to form a data collection 2710.

他の例として、コレクション2710は、現在のユーザーまたは他のユーザーに対して提示された前の構造化プレゼンテーションのコンテンツから形成することができる。   As another example, collection 2710 can be formed from the content of previous structured presentations presented to the current user or other users.

さらに他の例として、第1の文書が属性およびインスタンスを含むものとして識別された後、その文書のテンプレートを使用して、同じテンプレートを含む他の文書から属性およびインスタンスを抽出することができる。例えば、ステレオ小売業者が同じ文書テンプレートを使用して販売のため提供される異なるステレオを記述する場合、第1のステレオに関する第1の電子文書内の情報の配列を使用して、他のステレオに関する他の電子文書から情報を抽出することができる。   As yet another example, after a first document is identified as containing attributes and instances, the template for that document can be used to extract attributes and instances from other documents that contain the same template. For example, if a stereo retailer describes different stereos offered for sale using the same document template, it uses the arrangement of information in the first electronic document for the first stereo to Information can be extracted from other electronic documents.

いくつかの実装では、自然言語構文解析などの技術を使用して、インスタンスおよび属性を識別することができる。例えば、電子文書の構文解析を行って、電子文書内の「[Instance] has a/an [attribute]」などのフレーズを識別することができる。   In some implementations, techniques such as natural language parsing can be used to identify instances and attributes. For example, the electronic document can be parsed to identify phrases such as “[Instance] has a / an [attribute]” in the electronic document.

いくつかの実装では、データコレクション2710は、インスタンスおよびその属性を分類することができる。例えば、インスタンスおよび属性は、北米の都市、ナショナルリーグ東地区チーム、または人気のある映画としてカテゴリ化することができる。データコレクション2710への情報の格納は、そのような分類に基づくことができる。例えば、異なるカテゴリを異なるファイル、レコード、および同様のものに格納することができる。   In some implementations, the data collection 2710 can classify instances and their attributes. For example, instances and attributes can be categorized as North American cities, National League East District teams, or popular movies. Storage of information in the data collection 2710 can be based on such classification. For example, different categories can be stored in different files, records, and the like.

図27を再び参照すると、プロセス2700は、事前に存在している構造化プレゼンテーション106で提示される情報に基づき1つまたは複数の新規インスタンスを提案することがわかる。例えば、構造化プレゼンテーションがいくつかの動画に対応する多数のインスタンスを含む場合、システム200は、データコレクション2710から引き出された情報に従って動画の追加のインスタンスを提案することができる。つまり、システム200は、属性識別子の類似度に従って追加のインスタンスを識別し、提案することができる。例えば、システム200は、類似のショータイム、劇場、または放映時間を持つ動画を提案することができる。   Referring again to FIG. 27, it can be seen that the process 2700 proposes one or more new instances based on information presented in the pre-existing structured presentation 106. For example, if the structured presentation includes multiple instances corresponding to several videos, the system 200 may suggest additional instances of the videos according to information derived from the data collection 2710. That is, the system 200 can identify and suggest additional instances according to the similarity of attribute identifiers. For example, the system 200 can suggest a video with similar showtime, theater, or airtime.

図29は、事前に存在している構造化プレゼンテーションの特性に基づいてインスタンスおよび属性のコレクションからインスタンス提案を構成するためのプロセス2900の流れ図である。プロセス2900は、1つまたは複数の機械可読命令セットによってオペレーションを実行する1つまたは複数のコンピュータのシステムによって実行されうる。例えば、プロセス2900は、システム200(図2)内の検索エンジン202によって実行されうる。   FIG. 29 is a flow diagram of a process 2900 for constructing an instance proposal from a collection of instances and attributes based on pre-existing structured presentation characteristics. Process 2900 may be performed by a system of one or more computers that perform operations with one or more machine-readable instruction sets. For example, process 2900 may be performed by search engine 202 in system 200 (FIG. 2).

プロセス2900は、単独で、または他の活動と連携して実行されうる。例えば、プロセス2900は、プロセス2700(図27)で実行されうる。他の例として、プロセス2900は、プロセス2200(図22)におけるステップ2210で、単独で、またはプロセス2300、2500(図23、25)の一方または両方と連携して実行されうる。   Process 2900 may be performed alone or in conjunction with other activities. For example, process 2900 may be performed in process 2700 (FIG. 27). As another example, process 2900 may be performed at step 2210 in process 2200 (FIG. 22) alone or in conjunction with one or both of processes 2300, 2500 (FIGS. 23, 25).

プロセス2900を実行するシステムは、インスタンスおよびその属性のコレクションにアクセスすることができる(ステップ2905)。例えば、プロセス2900を実行するシステムは、データセンター208(図2)に格納されているインスタンスおよび属性コレクション2710(図27)にアクセスすることができる。   The system executing process 2900 can access the collection of instances and their attributes (step 2905). For example, a system executing process 2900 can access an instance and attribute collection 2710 (FIG. 27) stored in data center 208 (FIG. 2).

プロセス2900を実行するシステムは、事前に存在している構造化プレゼンテーションにおいて指定されているインスタンス属性の特性に基づいて1つまたは複数の関連するインスタンスを識別することができる(ステップ2910)。例えば、システムは、インスタンスおよび属性コレクション2710(図27)内に格納されているインスタンスのインスタンス属性を構造化プレゼンテーション106で指定されているインスタンスと比較することができる。システムは、この比較結果を使用して、もしあれば格納されているインスタンスのうちのどれが属性識別子、または関係する属性を事前に存在している構造化プレゼンテーション106で指定されている属性と共有するかを決定することができる。例えば、事前に存在している構造化プレゼンテーション106は、属性「ATTR_3」および「ATTR_5」を使用してインスタンスのコレクションを特徴付けると推定する。テーブル2800(図28)などのインスタンスおよび属性コレクション2710を検討した後、システムは、インスタンス「INSTANCE_1」および「INSTANCE_2」を、同じ属性「ATTR_3」および「ATTR_5」がレコード2802、2806内のインスタンスを特徴付けるために使用されることに基づいて、提案することができる。   The system performing process 2900 may identify one or more related instances based on the properties of the instance attributes specified in the pre-existing structured presentation (step 2910). For example, the system can compare the instance attributes of the instances stored in the instance and attribute collection 2710 (FIG. 27) with the instances specified in the structured presentation 106. The system uses this comparison result to share any of the stored instances, if any, with the attribute identifier, or the attribute specified in the structured presentation 106 that already has the attribute concerned. You can decide what to do. For example, pre-existing structured presentation 106 presumes to use the attributes “ATTR_3” and “ATTR_5” to characterize the collection of instances. After reviewing the instance and attribute collection 2710, such as table 2800 (Figure 28), the system characterizes the instances "INSTANCE_1" and "INSTANCE_2" and the same attributes "ATTR_3" and "ATTR_5" in records 2802, 2806 Can be proposed based on what is used.

図30は、事前に存在している構造化プレゼンテーション106内の情報に基づいて新規インスタンス提案2115のコレクションを構成するためのプロセス3000の流れ図である。プロセス3000は、1つまたは複数の機械可読命令セットによってオペレーションを実行する1つまたは複数のコンピュータのシステム、例えば、システム200(図2)によって実行されうる。プロセス3000は、単独で、または他の活動と連携して実行されうる。例えば、プロセス3000は、プロセス2700(図27)で実行されうる。他の例として、プロセス3000は、プロセス2200(図22)におけるステップ2210で、単独で、またはプロセス2300、2500、2900(図23、25、29)のうちの1つまたは複数と連携して実行されうる。いくつかの実装では、プロセス3000は、入力を(例えば、システム200のユーザーから、または他のシステムもしくはプロセスから)受け取ったことに応答して実行されうる。例えば、プロセス3000は、検索文字列を受け取ったことに応答して検索エンジン202によって実行されうる。   FIG. 30 is a flow diagram of a process 3000 for constructing a collection of new instance proposals 2115 based on pre-existing information in the structured presentation 106. Process 3000 may be performed by one or more computer systems that perform operations according to one or more machine-readable instruction sets, eg, system 200 (FIG. 2). Process 3000 may be performed alone or in conjunction with other activities. For example, process 3000 may be performed at process 2700 (FIG. 27). As another example, process 3000 is performed at step 2210 in process 2200 (FIG. 22) alone or in conjunction with one or more of processes 2300, 2500, 2900 (FIGS. 23, 25, 29). Can be done. In some implementations, process 3000 may be performed in response to receiving input (eg, from a user of system 200 or from another system or process). For example, process 3000 may be performed by search engine 202 in response to receiving a search string.

プロセス3000を実行するシステムは、1つまたは複数の指定されたインスタンスに関する1つまたは複数の信頼できるソースを識別することができる(ステップ3005)。例えば、システムは、例えばプログラマーによってアセンブルされた電子文書コレクション102内の文書の信頼できるソースのコレクションにアクセスすることができる。   The system performing process 3000 may identify one or more trusted sources for one or more specified instances (step 3005). For example, the system can access a collection of trusted sources of documents in the electronic document collection 102 assembled, for example, by a programmer.

他の例として、システムは、電子文書コレクション102内の文書の1つまたは複数の信頼できるソースをそのユーザーの観点から「信頼できる」ものとして識別するユーザー特有の入力を受け取ることができる。例えば、事前に存在している構造化プレゼンテーション106を表示するディスプレイ画面104は、閲覧者が文書の信頼できるソースを指定することを可能にするGUIコンポーネントを備えることができる。信頼できるソースの識別は、検索クエリを受け取ることと連動して受け取ることができる。例えば、閲覧者は、JD POWER AND ASSOCIATES、AMAZON.COM、およびMAJOR LEAGUE BASEBALLをそれぞれhttp://www.jdpower.com/、http://www.amazon.com/、およびhttp://www.mlb.com/にある文書の信頼できるソースとして識別することができる。いくつかの実装では、ユーザー特有の入力は、ソースが信頼できるものである主題を識別することができる。例えば、MAJOR LEAGUE BASEBALLは、ベースボールの統計の信頼できるソースして識別されうるが、薬物検査に関する情報の信頼できるソースとしてはみなされえない。   As another example, the system may receive user-specific input that identifies one or more trusted sources of documents in the electronic document collection 102 as “trusted” from the user's perspective. For example, the display screen 104 displaying the pre-existing structured presentation 106 can include a GUI component that allows the viewer to specify a trusted source of the document. The identity of the trusted source can be received in conjunction with receiving a search query. For example, viewers can use JD POWER AND ASSOCIATES, AMAZON.COM, and MAJOR LEAGUE BASEBALL at http://www.jdpower.com/, http://www.amazon.com/, and http: // www. Can be identified as a trusted source of documents at mlb.com/. In some implementations, user-specific input can identify the subject matter for which the source is reliable. For example, MAJOR LEAGUE BASEBALL can be identified as a reliable source of baseball statistics, but cannot be considered as a reliable source of information about drug tests.

さらに他の例として、プロセス3000を実行するシステムは、信頼できるソースの「一般」コレクションをアセンブルするために複数のユーザーからの信頼できるソースを識別するユーザー特有の入力のコレクションを分析することができる。例えば、多数のユーザーが、AMERICAN AUTOMOBILE ASSOCIATION (AAA)を信頼できるものとして識別することができる。次いで、これらの識別結果の統計分析に基づき、AAAを信頼できるソースのコレクションに追加することができる。   As yet another example, a system performing process 3000 can analyze a collection of user-specific inputs that identify trusted sources from multiple users to assemble a “generic” collection of trusted sources. . For example, many users can identify AMERICAN AUTOMOBILE ASSOCIATION (AAA) as trusted. AAA can then be added to the collection of trusted sources based on statistical analysis of these identification results.

プロセス3000を実行するシステムは、事前に存在している構造化プレゼンテーションにおいて指定されているインスタンスに対する信頼できるソースから追加の属性を決定することができる(ステップ3010)。例えば、システムは、信頼できるソースによって提供される文書にアクセスし、1つまたは複数の属性を使用して指定されたインスタンスを特徴付ける1つまたは複数の文書を識別することができる。システムは、パーサーまたは他の文字列比較技術を使用してこれらの文書から属性識別子を抽出することができる。   The system performing process 3000 may determine additional attributes from a trusted source for the instance specified in the pre-existing structured presentation (step 3010). For example, the system can access documents provided by a trusted source and identify one or more documents that characterize a specified instance using one or more attributes. The system can extract attribute identifiers from these documents using parsers or other string comparison techniques.

他の例として、システムは、テーブル2800(図28)などの属性およびインスタンスを関連付けるデータコレクションにアクセスすることができる。システムは、レコード2802、2804、2806、2808、2810、2812、2814などのレコードを、事前に存在している構造化プレゼンテーションで識別されたインスタンスおよびロケーションがレコード2802、2804、2806、2808、2810、2812、2814で識別される文書が信頼できるソースに由来するものであったかどうかの両方に基づいてフィルター処理することができる。例えば、AMAZON.COMが信頼できるソースである場合、属性およびインスタンスを関連付けるコレクションをスキャンして、http://www.amazon.com/ドメインを持つ文書を識別することができる。   As another example, the system can access a data collection that associates attributes and instances, such as table 2800 (FIG. 28). The system records 2802, 2804, 2806, 2808, 2810, 2812, 2814, etc., and records 2802, 2804, 2806, 2808, 2810, instances and locations identified in pre-existing structured presentations. It can be filtered based on both whether the documents identified by 2812, 2814 were from a trusted source. For example, if AMAZON.COM is a trusted source, a collection that associates attributes and instances can be scanned to identify documents that have the http://www.amazon.com/ domain.

プロセス3000を実行するシステムは、これらの追加の属性をテーブル2800(図28)などのインスタンスおよび属性コレクション内の属性と比較することができる(ステップ3015)。例えば、システムは、文字列比較、または他の比較技術を使用して、追加の属性をインスタンスおよび属性コレクションに格納されている属性と比較することができる。   The system executing process 3000 may compare these additional attributes to instances such as table 2800 (FIG. 28) and attributes in the attribute collection (step 3015). For example, the system can use string comparison, or other comparison techniques, to compare additional attributes with attributes stored in instances and attribute collections.

プロセス3000を実行するシステムは、これらの比較結果に基づいてインスタンスおよび属性コレクション内のインスタンスを識別することができる(ステップ3020)。例えば、システムは、信頼できるソースからの文書内のインスタンスを特徴付けるために使用される属性の数ならびにインスタンスおよび属性コレクション内の他のインスタンスに関連付けられている属性を決定することができる。   The system executing process 3000 may identify instances and instances in the attribute collection based on these comparison results (step 3020). For example, the system can determine the number of attributes used to characterize an instance in a document from a trusted source and the attributes associated with the instance and other instances in the attribute collection.

図31は、事前に存在している構造化プレゼンテーション106内の情報に基づいて新規インスタンス提案2115のコレクションを構成するためのプロセス3100の流れ図である。プロセス3100は、1つまたは複数の機械可読命令セットによってオペレーションを実行する1つまたは複数のコンピュータのシステム、例えば、システム200(図2)によって実行されうる。プロセス3100は、単独で、または他の活動と連携して実行されうる。例えば、プロセス3100は、プロセス2700(図27)で実行されうる。他の例として、プロセス3100は、プロセス2200(図22)におけるステップ2210で、単独で、またはプロセス2300、2500、2900、3000(図23、25、29、30)のうちの1つまたは複数と連携して実行されうる。いくつかの実装では、プロセス3100は、入力を(例えば、システム200のユーザーから、または他のシステムもしくはプロセスから)受け取ったことに応答して実行されうる。例えば、プロセス3100は、検索文字列を受け取ったことに応答して検索エンジン202によって実行されうる。   FIG. 31 is a flow diagram of a process 3100 for constructing a collection of new instance proposals 2115 based on pre-existing information in the structured presentation 106. Process 3100 may be performed by one or more computer systems, eg, system 200 (FIG. 2), that perform operations with one or more machine-readable instruction sets. Process 3100 may be performed alone or in conjunction with other activities. For example, process 3100 may be performed in process 2700 (FIG. 27). As another example, process 3100 may be performed alone or with one or more of processes 2300, 2500, 2900, 3000 (FIGS. 23, 25, 29, 30) at step 2210 in process 2200 (FIG. 22). Can be executed in conjunction. In some implementations, process 3100 may be performed in response to receiving input (eg, from a user of system 200 or from another system or process). For example, process 3100 may be performed by search engine 202 in response to receiving a search string.

プロセス3100を実行するシステムは、事前に存在している構造化プレゼンテーションにおいて指定されているインスタンスの属性値に基づいて1つまたは複数の関連するインスタンスを識別することができる。例えば、システムは、指定されたインスタンスの属性値を他のインスタンスの属性値と比較することによって関連するインスタンスを識別し、他のインスタンスが適切な提案であるかどうかを判定することができる。このような比較では、例えば、属性値が同一のものである、または属性値が特定の範囲内にあるということが要求される場合がある。このような範囲は、例えば、インタラクティブ要素を介してユーザーによって指定されるか、または事前に存在している構造化プレゼンテーション内のインスタンスをすでに特徴付けている属性値の範囲に基づいて決定することができる。   The system executing process 3100 may identify one or more related instances based on the instance attribute values specified in the pre-existing structured presentation. For example, the system can identify the associated instance by comparing the attribute value of the specified instance with the attribute value of the other instance and determine whether the other instance is a suitable proposal. Such a comparison may require, for example, that the attribute values are the same or that the attribute values are within a certain range. Such ranges can be determined based on attribute value ranges that have already been characterized, for example, by instances specified in the user via interactive elements or pre-existing in the structured presentation. it can.

いくつかの実装では、プロセス3100を実行するシステムは、属性値を比較する前に属性値を通常の測定単位に変換することができる。例えば、指定された測定単位がフィートであるが、1つまたは複数の抽出された属性値の測定単位がメートルである場合、システムは、通常の技術を使用してメートル単位の値をフィートに変換することができる。このような一アプローチの概略表現を以下で詳述する。   In some implementations, the system performing process 3100 can convert attribute values to normal units of measure before comparing the attribute values. For example, if the specified unit of measure is feet, but the unit of measure for one or more extracted attribute values is meters, the system converts the metric value to feet using normal techniques. can do. A schematic representation of one such approach is detailed below.

図32は、データコレクション内の属性、インスタンス、およびそれらの値を関連付けるテーブル3200の略図である。テーブル3200は、属性およびインスタンスを関連付けるので、テーブル3200は、インスタンス/属性コレクション2710(図27)として使用することもできる。テーブル3200は、電子文書のコレクション、例えば電子文書コレクション102から引き出された情報に基づいて生成されうる。テーブル3200は、例えば、クローリングプロセスの実行中に生成され、例えば、その後使用するためデータセンター208内に格納されうる。   FIG. 32 is a schematic diagram of a table 3200 that associates attributes, instances, and their values in a data collection. Because table 3200 associates attributes and instances, table 3200 can also be used as instance / attribute collection 2710 (FIG. 27). Table 3200 may be generated based on information derived from a collection of electronic documents, eg, electronic document collection 102. The table 3200 can be generated, for example, during the execution of the crawling process and stored in the data center 208 for later use, for example.

テーブル3200は、レコード3202、3204、3206、3208、3210、3212、3214のコレクションを含み、それぞれのレコードはインスタンスの識別子を文書のロケーションの記述、それらの文書内の識別されたインスタンスを特徴付ける属性、およびそれらの文書内のそれらの属性を特徴付ける値に関連付ける。レコード3202、3204、3206、3208、3210、3212、3214内の情報は、列3215、3220、3225、3230、3235、3240のコレクション内に編成されうる。特に、列3215は、インスタンス識別子を含むことができる。列3220は、列3215で識別されているインスタンスを含む電子文書のロケーションの記述を含むことができる。列3225、3235は、列3220内にロケーションが記述されている文書内の列3215で識別されるインスタンスを特徴付ける属性を識別することができる。列3230、3240は、列3225、3235で示されている属性を特徴付ける値を含むことができる。   The table 3200 includes a collection of records 3202, 3204, 3206, 3208, 3210, 3212, 3214, each record having an instance identifier, a description of the document's location, attributes that characterize the identified instances in those documents, And associated with values that characterize those attributes in those documents. Information in records 3202, 3204, 3206, 3208, 3210, 3212, 3214 may be organized in a collection of columns 3215, 3220, 3225, 3230, 3235, 3240. In particular, column 3215 can include an instance identifier. Column 3220 may include a description of the location of the electronic document that includes the instance identified in column 3215. Columns 3225, 3235 may identify attributes that characterize the instance identified in column 3215 in the document whose location is described in column 3220. Columns 3230, 3240 can include values that characterize the attributes shown in columns 3225, 3235.

示されている例では、それぞれのレコード3202、3204、3206、3208、3210、3212、3214は異なるインスタンスに関係する(例えば、INSTANCE_10からINSTANCE_N)。これらのインスタンスのそれぞれが、属性識別子ATTR_3、ATTR_6によって少なくとも1つの文書内で特徴付けられる。そのようなものとして、インスタンス提案がINSTANCE_10からINSTANCE_Nを特徴付けるために使用できる属性のみに基づいて構成された場合、すべてのINSTANCE_10からINSTANCE_Nをユーザーに対して提案することができたことになる。   In the example shown, each record 3202, 3204, 3206, 3208, 3210, 3212, 3214 is associated with a different instance (eg, INSTANCE_10 through INSTANCE_N). Each of these instances is characterized in at least one document by attribute identifiers ATTR_3, ATTR_6. As such, if the instance proposal was configured based solely on attributes that could be used to characterize INSTANCE_10 through INSTANCE_N, then all INSTANCE_10 through INSTANCE_N could be proposed to the user.

多くの状況において、これは受け入れられない。例えば、世界中のすべての専門学校または大学の同じ属性の多く(例えば、学生数、学生/教師の比率、所在地など)がインターネット上で利用可能な何らかの電子文書において特徴付けられる可能性がある。しかし、すべての専門学校または大学を含む提案のリストは、通う学校を探している学生にとっては役立たない。   In many situations this is unacceptable. For example, many of the same attributes of all vocational schools or universities around the world (eg, student count, student / teacher ratio, location, etc.) may be characterized in any electronic document available on the Internet. However, a list of proposals that includes all vocational schools or universities does not help students looking for a school to attend.

したがって、プロセス3100(図31)について上で説明されているように、関連するインスタンスは、事前に存在している構造化プレゼンテーションで指定されているインスタンスの属性値を他のインスタンスの属性値と比較することによって識別されうる。例えば、構造化プレゼンテーション内の指定されたインスタンスが、単位「unit_a」の値「VAL_3」でインスタンスの属性「ATTR_3」を、単位「unit_c」の値「VAL_6」でインスタンスの属性「ATTR_6」を特徴付ける場合、検索エンジン202などのシステムは、共通の値(単位は異なるとしても)に基づいてレコード3202、3206で識別されたインスタンス(つまり、「INSTANCE_10」および「INSTANCE_12」)がユーザーに提案されうると識別することができる。そこで、システムは、セル3245、3250、および3255、3260内の値を共通測定単位に変換し、それらの値を比較してそれらの値が類似しているかどうかを判定することができる。こうして、それらの値を表す単位が異なっていても、同様のインスタンスを選択することができる。   Thus, as described above for process 3100 (Figure 31), the associated instance compares the attribute value of the instance specified in the pre-existing structured presentation with the attribute value of the other instance. Can be identified. For example, the specified instance in the structured presentation characterizes the instance attribute “ATTR_3” with the unit “unit_a” value “VAL_3” and the instance attribute “ATTR_6” with the unit “unit_c” value “VAL_6” , Systems such as search engine 202 identify that the instances identified in records 3202, 3206 (i.e., `` INSTANCE_10 '' and `` INSTANCE_12 '') can be proposed to the user based on a common value (even if the units are different) can do. Thus, the system can convert the values in cells 3245, 3250, and 3255, 3260 into a common unit of measure and compare the values to determine if the values are similar. In this way, even if the units representing these values are different, similar instances can be selected.

さらに、レコード3208で識別されたインスタンス(つまり、INSTANCE_13)は、属性「ATTR_3」の共通の値を構造化プレゼンテーション内の指定されたインスタンスと共有するけれども、レコード3208で示されたインスタンスは、ユーザーに対して提案されなくてもよい。特に、このインスタンスの属性「ATTR_6」を特徴付ける値は、値「VAL_8」であり、これは構造化プレゼンテーション内の指定されたインスタンスのこの属性を特徴付ける値と異なる。この相違に基づいて、レコード3208で識別されたインスタンスを提案されるインスタンスのリストから除外することができる。   In addition, the instance identified in record 3208 (that is, INSTANCE_13) shares the common value of attribute “ATTR_3” with the specified instance in the structured presentation, but the instance indicated in record 3208 is It does not have to be proposed. In particular, the value characterizing the attribute “ATTR_6” of this instance is the value “VAL_8”, which is different from the value characterizing this attribute of the specified instance in the structured presentation. Based on this difference, the instance identified in record 3208 can be excluded from the list of suggested instances.

インスタンスを提案されるインスタンスのリストに入れ、また除外するために異なる基準を使用することができる。例えば、類似していなければならない属性値の個数は異なっていてもよい。他の例として、いくつかの実装では、ユーザーは、提案されるインスタンスのリストを構成する際に考慮される属性値の個数および/または性質を指定することができる。さらに他の例では、インスタンスの順位付けを、それらの属性値と事前に存在している構造化プレゼンテーション内の1つまたは複数の指定されたインスタンスの属性値との間の対応関係に基づいて実行できる。さらに他の例として、ある範囲の値を、構造化プレゼンテーションで指定されている1つまたは複数のインスタンスの属性を特徴付ける値に基づいて決定することができ、またこの範囲を使用して、提案されるインスタンスのリストに入れる関連するインスタンスを識別することができる。   Different criteria can be used to put and exclude instances in the list of proposed instances. For example, the number of attribute values that must be similar may be different. As another example, in some implementations, a user can specify the number and / or nature of attribute values that are considered when constructing a list of suggested instances. In yet another example, instance ranking is performed based on the correspondence between these attribute values and the attribute values of one or more specified instances in a pre-existing structured presentation. it can. As yet another example, a range of values can be determined based on values that characterize the attributes of one or more instances specified in the structured presentation, and can be proposed using this range. Related instances to be included in the list of instances to be identified.

図9〜20および関連する本文で説明されているように、いくつかの実装では、システムは、値が適切である確率を反映する基準に基づいて異なる値のコレクションのうちから値を選択することができる。このようなものの例として、ユーザー指定範囲、特定の値を持つ属性を特徴付ける文書の数、および/または特定の値を持つ属性を特徴付ける文書の品質が挙げられる。   As described in FIGS. 9-20 and the associated text, in some implementations, the system selects a value from a collection of different values based on criteria that reflect the probability that the value is appropriate. Can do. Examples of such are user-specified ranges, the number of documents that characterize attributes with specific values, and / or the quality of documents that characterize attributes with specific values.

図33は、事前に存在している構造化プレゼンテーション106内の情報に基づいて新規インスタンス提案2115のコレクションを構成するためのプロセス3300の流れ図である。プロセス3300は、1つまたは複数の機械可読命令セットによってオペレーションを実行する1つまたは複数のコンピュータのシステム、例えば、システム200(図2)によって実行されうる。プロセス3300は、単独で、または他の活動と連携して実行されうる。例えば、プロセス3300は、プロセス2700(図27)で実行されうる。他の例として、プロセス3300は、プロセス2200(図22)におけるステップ2210で、単独で、またはプロセス2300、2500、2900、3000、3100(図23、25、29、30、31)のうちの1つまたは複数と連携して実行されうる。いくつかの実装では、プロセス3300は、入力を(例えば、システム200のユーザーから、または他のシステムもしくはプロセスから)受け取ったことに応答して実行されうる。例えば、プロセス3300は、検索文字列を受け取ったことに応答して検索エンジン202によって実行されうる。   FIG. 33 is a flow diagram of a process 3300 for constructing a collection of new instance proposals 2115 based on pre-existing information in the structured presentation 106. Process 3300 may be performed by a system of one or more computers that performs operations with one or more machine-readable instruction sets, eg, system 200 (FIG. 2). Process 3300 may be performed alone or in conjunction with other activities. For example, process 3300 may be performed at process 2700 (FIG. 27). As another example, process 3300 is a step 2210 in process 2200 (FIG. 22), alone or one of processes 2300, 2500, 2900, 3000, 3100 (FIGS. 23, 25, 29, 30, 31). Can be performed in conjunction with one or more. In some implementations, process 3300 may be performed in response to receiving input (eg, from a user of system 200 or from another system or process). For example, process 3300 may be performed by search engine 202 in response to receiving a search string.

プロセス3300を実行するシステムは、インスタンスおよび属性のカテゴリ化されたコレクションにアクセスすることができる(ステップ3305)。例えば、システムは、前の検索時に生成されたインスタンスおよび属性の1つまたは複数のカテゴリ化されたコレクションにアクセスするために、インスタンスおよび属性コレクション2710にアクセスすることができる。   The system executing process 3300 may access a categorized collection of instances and attributes (step 3305). For example, the system can access the instance and attribute collection 2710 to access one or more categorized collections of instances and attributes generated during previous searches.

プロセス3300を実行するシステムは、指定されたインスタンスを含むカテゴリを識別することができる(ステップ3310)。いくつかの実装では、システムは、類似の属性、類似の属性値、これらの特性の組み合わせ、および/または他の技術に基づくインスタンスを含むカテゴリを識別することができる。   The system executing process 3300 may identify the category that includes the specified instance (step 3310). In some implementations, the system may identify categories that include instances based on similar attributes, similar attribute values, combinations of these characteristics, and / or other technologies.

プロセス3300を実行するシステムは、識別されたカテゴリから1つまたは複数のインスタンス提案を選択することができる(ステップ3315)。例えば、いくつかの実装では、インスタンス提案を識別されたカテゴリから、指定されたインスタンスの属性値とそのカテゴリ内のインスタンスの属性値との間の類似度に基づいて選択することができる。   The system performing process 3300 may select one or more instance proposals from the identified category (step 3315). For example, in some implementations, an instance proposal can be selected from an identified category based on the similarity between the attribute value of the specified instance and the attribute value of the instances in that category.

図34は、事前に存在している構造化プレゼンテーションの特性に基づく電子文書コレクション内の電子文書からのインスタンス提案の構成を表す表現3400である。特に、表現3400は、プロセス3300(図33)の一実装を使用するインスタンス提案の構成を示している。   FIG. 34 is a representation 3400 representing the configuration of an instance proposal from an electronic document in an electronic document collection based on pre-existing structured presentation characteristics. In particular, representation 3400 shows the configuration of an instance proposal that uses one implementation of process 3300 (FIG. 33).

図示されているように、事前に存在している構造化プレゼンテーションでは、インスタンス2405のコレクションを指定する(つまり、インスタンス「Philadelphia」および「Chicago」)。さらに、電子文書コレクション(例えば、コレクション102)内の異なる文書から引き出されたインスタンスは、異なるコレクション3410、3415、3420にすでにカテゴリ化されている。カテゴリ化されたインスタンスコレクション3410、3415、3420は、例えば中に出現する同じインスタンス識別子「Philadelphia」および「Chicago」に基づいて指定されたインスタンス2405に関連するものとして識別されうる。   As shown, the pre-existing structured presentation specifies a collection of instances 2405 (ie, instances “Philadelphia” and “Chicago”). Further, instances derived from different documents in an electronic document collection (eg, collection 102) have already been categorized into different collections 3410, 3415, 3420. The categorized instance collections 3410, 3415, 3420 can be identified as being associated with the instance 2405 designated based on, for example, the same instance identifiers “Philadelphia” and “Chicago” appearing therein.

図示されているように、カテゴリ化されたインスタンスコレクション3410、3415、3420は、さまざまな異なる方法でカテゴリ化されている。特に、カテゴリ化されたインスタンスコレクション3410は、「North American Cities」のコレクションとしてカテゴリ化されている。カテゴリ化されたインスタンスコレクション3415は、「National League East Teams」のコレクションとしてカテゴリ化されている。カテゴリ化されたインスタンスコレクション3420は、「Popular Movies」のコレクションとしてカテゴリ化されている。システム200の背景状況において、カテゴリ化されたインスタンスコレクション3410、3415、3420は、データセンター208(図2)に格納することができる。つまり、システム200は、すでに受け取っている検索文字列に基づいてインスタンスの1つまたは複数のカテゴリを生成することができる。したがって、検索エンジン202が、検索文字列に基づいて検索を実行した後、検索エンジン202は、結果をカテゴリ化し、それらをデータセンター208内に格納することができる。その後の検索時に、これらのカテゴリ化された結果にアクセスし、分析して、インスタンス提案を生成することができる。   As shown, the categorized instance collections 3410, 3415, 3420 are categorized in a variety of different ways. In particular, the categorized instance collection 3410 is categorized as a collection of “North American Cities”. Categorized instance collection 3415 is categorized as a collection of “National League East Teams”. The categorized instance collection 3420 is categorized as a collection of “Popular Movies”. In the context of the system 200, the categorized instance collections 3410, 3415, 3420 can be stored in the data center 208 (FIG. 2). That is, system 200 can generate one or more categories of instances based on search strings that have already been received. Thus, after search engine 202 performs a search based on the search string, search engine 202 can categorize the results and store them in data center 208. During subsequent searches, these categorized results can be accessed and analyzed to generate instance suggestions.

事前に存在している構造化プレゼンテーションで指定されているインスタンスを含むカテゴリ化されたインスタンスコレクションは、例えば、指定されたインスタンスを特徴付ける属性と異なるカテゴリに含まれるインスタンスを特徴付ける属性との間の類似度に基づいて識別されうる。例えば、属性「year」および「rating」の一般的な使用では、事前に存在している構造化プレゼンテーションおよびカテゴリ化されたインスタンスコレクション3420を使用して、カテゴリ化されたインスタンスコレクション3420がインスタンス2405を含むものとして識別することができる。   A categorized instance collection that includes instances specified in pre-existing structured presentations, for example, the similarity between the attributes that characterize the specified instances and the attributes that characterize instances in different categories Can be identified based on For example, a common use of the attributes “year” and “rating” uses a pre-existing structured presentation and a categorized instance collection 3420, and a categorized instance collection 3420 uses an instance 2405 Can be identified as including.

いくつかの実装では、カテゴリ化されたインスタンスコレクション内のインスタンスのサブセットは、カテゴリに含まれるインスタンスを特徴付ける値に基づいてインスタンス提案として選択されうる。例えば、インスタンス「Star Wars」は、「Philadelphia」および「Chicago」の「rating」属性を特徴付ける値に類似している「Star Wars」の「rating」属性を特徴付ける値に基づいてインスタンス提案のリスト上に含めることができる。他の例として、インスタンス「Peter Pan」は、「Philadelphia」および「Chicago」の「rating」属性を特徴付ける値と異なる「Peter Pan」の「rating」属性を特徴付ける値に基づいてインスタンス提案のリスト上で除外することができる。   In some implementations, a subset of instances in the categorized instance collection may be selected as an instance proposal based on values that characterize the instances included in the category. For example, the instance “Star Wars” is on the list of instance proposals based on the value that characterizes the “rating” attribute of “Star Wars”, which is similar to the value that characterizes the “rating” attribute of “Philadelphia” and “Chicago” Can be included. As another example, the instance “Peter Pan” is on the list of instance proposals based on a value that characterizes the “rating” attribute of “Peter Pan” that is different from the value that characterizes the “rating” attribute of “Philadelphia” and “Chicago”. Can be excluded.

図35は、事前に存在している構造化プレゼンテーション106内の情報に基づいて新規インスタンス提案2115のコレクションを構成するために使用されうるプロセスのコレクション3500の略図である。   FIG. 35 is a schematic diagram of a collection of processes 3500 that can be used to construct a collection of new instance proposals 2115 based on pre-existing information in the structured presentation.

コレクション3500内のプロセスは、潜在的インスタンス3505の大きなコレクションに連続的に適用され、インスタンス提案のより小さなコレクション3510を生成するフィルターとみなすことができる。プロセスコレクション3500は、カテゴリフィルター3515、関係する属性フィルター3520、および関係する値フィルター3525を備える。カテゴリフィルター3515は、例えば、プロセス3300(図33)のいくつかの態様を含むことができる。関係する属性フィルター3520は、例えば、プロセス2300(図23)の態様、プロセス2500(図25)、プロセス2900(図29)、および/またはプロセス3000(図30)の態様を含むことができる。関係する値フィルター3525は、例えば、プロセス2300(図23)の態様、プロセス2500(図25)、プロセス3100(図31)の態様、および/またはプロセス3300(図33)の態様を含むことができる。それぞれのフィルターは、ユーザーに提示されるか、または構造化プレゼンテーションに直接追加されうるインスタンス提案コレクション3510から潜在的インスタンス3505を除外することができる。   The processes in collection 3500 can be viewed as a filter that is applied continuously to a large collection of potential instances 3505 and produces a smaller collection 3510 of instance proposals. The process collection 3500 includes a category filter 3515, a related attribute filter 3520, and a related value filter 3525. Category filter 3515 can include, for example, some aspects of process 3300 (FIG. 33). Related attribute filters 3520 can include, for example, aspects of process 2300 (FIG. 23), process 2500 (FIG. 25), process 2900 (FIG. 29), and / or process 3000 (FIG. 30). Related value filter 3525 can include, for example, an embodiment of process 2300 (FIG. 23), an embodiment of process 2500 (FIG. 25), an embodiment of process 3100 (FIG. 31), and / or an embodiment of process 3300 (FIG. 33). . Each filter can exclude potential instances 3505 from the instance proposal collection 3510 that can be presented to the user or added directly to the structured presentation.

フィルター3515、3520、3525は、任意の順序で適用できる。しかし、一般に、フィルター3515、3520、3525は、粒度の順序で適用される。特に、潜在的インスタンスの数を最大量減らすフィルター3515、3520、3525が最初に適用され、潜在的インスタンスの数を最小量減らすフィルター3515、3520、3525が最後に適用される。   Filters 3515, 3520, 3525 can be applied in any order. However, in general, filters 3515, 3520, 3525 are applied in order of granularity. In particular, filters 3515, 3520, 3525 that reduce the number of potential instances by a maximum amount are applied first, and filters 3515, 3520, 3525 that reduce the number of potential instances by a minimum amount are applied last.

いくつかの実装では、フィルター3515、3520、3525のうちのどれかをコレクション3500から省き、および/または追加のフィルターをコレクション3500に追加することができる。例えば、ユーザーによって供給される入力に従って潜在的インスタンス3505をフィルター処理することができるユーザー指定フィルターをコレクション3500に追加することができる。   In some implementations, any of the filters 3515, 3520, 3525 can be omitted from the collection 3500 and / or additional filters can be added to the collection 3500. For example, a user specified filter can be added to collection 3500 that can filter potential instances 3505 according to input supplied by the user.

図36は、事前に存在している構造化プレゼンテーション106内の情報に基づいて新規インスタンス提案2115のコレクションを構成するためのプロセス3600の流れ図である。プロセス3600は、1つまたは複数の機械可読命令セットによってオペレーションを実行する1つまたは複数のコンピュータのシステム、例えば、システム200(図2)によって実行されうる。プロセス3600は、単独で、または他の活動と連携して実行されうる。例えば、プロセス3600は、プロセスコレクション3500におけるプロセスの1つまたは複数と連携して反復実行されうる。いくつかの実装では、プロセス3600は検索文字列を受け取ったことに応答して実行されうる。   FIG. 36 is a flow diagram of a process 3600 for constructing a collection of new instance proposals 2115 based on pre-existing information in the structured presentation 106. Process 3600 may be performed by a system of one or more computers that performs operations with one or more machine-readable instruction sets, eg, system 200 (FIG. 2). Process 3600 may be performed alone or in conjunction with other activities. For example, process 3600 may be performed iteratively in conjunction with one or more of the processes in process collection 3500. In some implementations, the process 3600 may be performed in response to receiving a search string.

プロセス3600を実行するシステムは、事前に存在している構造化プレゼンテーション106で指定されたインスタンスと文書コレクションから引き出されたインスタンスとの間の初期マッチングを行うことができる(ステップ3605)。初期マッチングは、プロセスコレクション3500内のフィルター処理プロセスのうちの1つまたは複数に基づくことができる。   The system performing process 3600 may perform an initial match between the instance specified in the pre-existing structured presentation 106 and the instance derived from the document collection (step 3605). The initial matching can be based on one or more of the filtering processes in the process collection 3500.

プロセス3600を実行するシステムは、マッチングの数が大きすぎるか、小さすぎるか、または適切であるかを判定することができる(ステップ3610)。マッチングの数が少なすぎる場合、システムは、指定されたインスタンスの名前を広げることができる(ステップ3615)。例えば、プロセス3600を実行するシステムは、プロセスコレクション3500内のプロセスのうちの1つまたは複数で指定されているインスタンスについて代替スペリング、略語、同義語、代替名、ニックネーム、および/または他のキーワードを使用することができる。   The system performing process 3600 may determine whether the number of matches is too large, too small, or appropriate (step 3610). If there are too few matches, the system can expand the name of the specified instance (step 3615). For example, a system executing process 3600 may use alternative spellings, abbreviations, synonyms, alternative names, nicknames, and / or other keywords for instances specified in one or more of the processes in process collection 3500. Can be used.

プロセス3600を実行するシステムは、関係する値フィルター処理3525(図35)で使用される属性値の1つまたは複数の範囲を広げることもできる(ステップ3618)。この範囲は、ユーザーから受け取った入力に基づいて、または自動的に、ユーザー入力なしで広げることができる。例えば、いくつかの実装では、システムは、例えば、特定の割合のインスタンスまたは所定の数のインスタンスを含むように、インスタンスの選択されたグループに対する属性値の分布に基づいて範囲を広げることができる。   The system performing process 3600 may also extend one or more ranges of attribute values used in related value filtering 3525 (FIG. 35) (step 3618). This range can be expanded based on input received from the user or automatically, without user input. For example, in some implementations, the system can expand the range based on the distribution of attribute values for a selected group of instances, eg, to include a certain percentage of instances or a predetermined number of instances.

プロセス3600を実行するシステムは、関係する属性フィルター処理3520(図35)で使用される属性および/またはインスタンスの数を減らすこともできる(ステップ3620)。属性および/またはインスタンスの数は、例えば、特定の属性および/またはインスタンスによって除外される潜在的インスタンスの数に基づいて減らすことができる。例えば、潜在的インスタンスを特徴付けるために特定の属性を使用するという要求条件により、潜在的インスタンスのすべてが除外される場合、この属性は、関係する属性フィルター処理から省くことができる。除去すべき属性および/またはインスタンスは、例えば、自動的に、ユーザー入力なしで、またはユーザーから受け取った入力に基づいて決定されうる。   The system performing process 3600 may also reduce the number of attributes and / or instances used in related attribute filtering 3520 (FIG. 35) (step 3620). The number of attributes and / or instances can be reduced, for example, based on the number of potential instances that are excluded by a particular attribute and / or instance. For example, if a requirement to use a particular attribute to characterize a potential instance excludes all of the potential instances, this attribute can be omitted from the associated attribute filtering. The attributes and / or instances to be removed can be determined, for example, automatically, without user input, or based on input received from the user.

ここでもまた、システムは、事前に存在している構造化プレゼンテーション106で指定されたインスタンスと文書コレクションから引き出されたインスタンスとの間のマッチングを行おうとすることができるが、このときには、変更されたパラメータを使用する(ステップ3622)。このマッチングは、プロセスコレクション3500内のフィルター処理プロセスのうちの1つまたは複数を使用して行うこともできる。   Again, the system can try to match between the instance specified in the pre-existing structured presentation 106 and the instance drawn from the document collection, but this time it has changed The parameter is used (step 3622). This matching can also be done using one or more of the filtering processes in the process collection 3500.

マッチングの数が多すぎると判定された場合(ステップ3610)、プロセス3600を実行するシステムは、関係する値フィルター処理3525(図35)で使用される属性値の1つまたは複数の範囲を狭めることができる(ステップ3625)。この範囲は、ユーザーから受け取った入力に基づいて、または自動的に、ユーザー入力なしで狭めることができる。例えば、いくつかの実装では、システムは、例えば、特定の割合のインスタンスまたは所定の数のインスタンスを除外するように、インスタンスの選択されたグループに対する属性値の分布に基づいて範囲を狭めることができる。   If it is determined that there are too many matches (step 3610), the system performing process 3600 may narrow one or more ranges of attribute values used in the associated value filtering 3525 (Figure 35). (Step 3625). This range can be narrowed based on input received from a user or automatically, without user input. For example, in some implementations, the system can narrow the range based on the distribution of attribute values for a selected group of instances, for example, to exclude a certain percentage of instances or a predetermined number of instances. .

プロセス3600を実行するシステムは、関係する属性フィルター3520(図35)で使用される属性および/またはインスタンスの数を増やすこともできる(ステップ3628)。属性および/またはインスタンスの数は、例えば、特定の属性および/またはインスタンスによって除外される潜在的インスタンスの数に基づいて増やすことができる。追加すべき属性および/またはインスタンスは、例えば、自動的に、ユーザー入力なしで、またはユーザーから受け取った入力に基づいて決定されうる。   The system performing process 3600 may also increase the number of attributes and / or instances used in the associated attribute filter 3520 (FIG. 35) (step 3628). The number of attributes and / or instances can be increased based on, for example, the number of potential instances excluded by a particular attribute and / or instance. The attributes and / or instances to be added can be determined, for example, automatically, without user input, or based on input received from the user.

プロセス3600を実行するシステムは、変更されたパラメータに基づいてマッチングを選別することができる(ステップ3630)。特に、属性および/またはインスタンスの狭められた範囲および/または増やした数を関係する値フィルター処理3525(図35)で使用することができる。   The system performing process 3600 may screen matches based on the changed parameters (step 3630). In particular, a narrowed range and / or an increased number of attributes and / or instances can be used in the associated value filtering 3525 (FIG. 35).

マッチングの数が受け入れられると判定された場合(ステップ3610)、プロセス3600を実行するシステムは、マッチしたインスタンスをユーザーに提案することができる(ステップ3635)。例えば、プロセス3600を実行するシステムは、ディスプレイ画面、例えば、ディスプレイ画面104上のGUIで1つまたは複数のインスタンス提案を提示することができる。   If it is determined that the number of matches is acceptable (step 3610), the system performing process 3600 may suggest matched instances to the user (step 3635). For example, a system performing process 3600 may present one or more instance suggestions on a display screen, eg, a GUI on display screen 104.

図37は、事前に存在している構造化プレゼンテーションを拡張するために新規属性を追加することができるプロセス3700の略図である。プロセス3700は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータを備えるシステム、例えば、システム200(図2)によって実行されうる。   FIG. 37 is a diagram of a process 3700 in which new attributes can be added to extend a preexisting structured presentation. Process 3700 may be performed by a system comprising one or more computers that perform operations by executing one or more machine-readable instruction sets, eg, system 200 (FIG. 2).

プロセス3700は、電子文書コレクション102内の文書から引き出された情報に基づいて新規属性を事前に存在している構造化プレゼンテーションに追加する抽出オペレーション3705とマージオペレーション3710とを含む。特に、プロセス3700は、事前に存在している構造化プレゼンテーション106で提示される情報に基づき1つまたは複数の新規属性を提案する。例えば、構造化プレゼンテーションがいくつかの動画に対応する多数のインスタンスを含む場合、システム200は、電子文書コレクションから引き出された情報に従って追加の動画属性を提案することができる。つまり、システム200は、インスタンス識別子の類似度、インスタンスのカテゴリ、属性の値、またはこれらの組み合わせに従って追加の属性を識別し、提案することができる。   Process 3700 includes an extract operation 3705 and a merge operation 3710 that add new attributes to a pre-existing structured presentation based on information derived from documents in electronic document collection 102. In particular, the process 3700 proposes one or more new attributes based on information presented in the pre-existing structured presentation 106. For example, if the structured presentation includes multiple instances corresponding to several videos, the system 200 may suggest additional video attributes according to information derived from the electronic document collection. That is, the system 200 can identify and suggest additional attributes according to instance identifier similarity, instance categories, attribute values, or combinations thereof.

図37に示されているように、抽出オペレーション3705では、事前に存在している構造化プレゼンテーション106の特性を使用して、電子文書コレクション102から新規属性提案のコレクションを抽出する。特性の例として、事前に存在している構造化プレゼンテーション内のインスタンス、事前に存在している構造化プレゼンテーション内のインスタンスのカテゴリ、および事前に存在している構造化プレゼンテーション内の属性の値が挙げられる。事前に存在している構造化プレゼンテーション106の特性は、機械可読情報のコレクションとして表すことができ、これを1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータが受け取ることができる。例えば、検索エンジン202(図2)が、事前に存在している構造化プレゼンテーション106の特性を受け取ることができる。   As shown in FIG. 37, an extraction operation 3705 extracts a collection of new attribute proposals from the electronic document collection 102 using pre-existing characteristics of the structured presentation 106. Examples of characteristics include instances in pre-existing structured presentations, categories of pre-existing structured presentations, and attribute values in pre-existing structured presentations. It is done. The pre-existing structured presentation 106 characteristic can be represented as a collection of machine-readable information that is executed by executing one or more machine-readable instruction sets to perform one or more operations. The computer can receive. For example, search engine 202 (FIG. 2) can receive pre-existing characteristics of structured presentation 106.

抽出オペレーション3705において、電子文書コレクション102内の文書のコンテンツおよび事前に存在している構造化プレゼンテーション106の特性に基づいて、1つまたは複数の新規属性提案を構成することができる。以下でさらに説明されるように、新規属性提案を構成するためのさまざまな異なる技術が使用されうる。   In an extraction operation 3705, one or more new attribute proposals can be constructed based on the content of the documents in the electronic document collection 102 and the characteristics of the pre-existing structured presentation 106. As described further below, a variety of different techniques for composing new attribute proposals can be used.

マージオペレーション3710で新規属性提案の一部または全部を事前に存在している構造化プレゼンテーション106にマージして、拡張構造化プレゼンテーション106を形成することができる。閲覧者に対して、例えば、ディスプレイ画面104などのディスプレイデバイスに拡張構造化プレゼンテーションを表示することができる。   In merge operation 3710, some or all of the new attribute proposals can be merged into pre-existing structured presentation 106 to form extended structured presentation 106. For the viewer, the expanded structured presentation can be displayed on a display device, such as the display screen 104, for example.

抽出オペレーション3705で構成されたすべての新規属性提案は、事前に存在している構造化プレゼンテーション106とマージされ、閲覧者向けに表示される必要はない。例えば、いくつかの実装では、新規属性提案のコレクションを、閲覧者が追加される1つまたは複数の属性を選択することを可能にするインタラクティブ要素とともに閲覧者に対して提示することができる。しかし、他の実装では、新規属性提案は、ユーザーインタラクションなしで、また表示する前の新規属性提案の選別なしで、自動的に追加することができる。マージャーに関するさらなる詳細は、例えば、図9〜20および関連する本文にある。   All new attribute proposals configured in the extraction operation 3705 are merged with the pre-existing structured presentation 106 and need not be displayed to the viewer. For example, in some implementations, a collection of new attribute proposals can be presented to the viewer with interactive elements that allow the viewer to select one or more attributes to be added. However, in other implementations, new attribute proposals can be added automatically without user interaction and without screening new attribute proposals prior to display. Further details regarding mergers can be found, for example, in FIGS. 9-20 and associated text.

図38は、電子文書コレクション内の文書のコンテンツに基づいて属性を構造化プレゼンテーションに追加するための例示的なプロセス3800の流れ図である。プロセス3800は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータのシステムによって実行されうる。例えば、プロセス3800は、システム200内の検索エンジン202によって実行されうる。   FIG. 38 is a flow diagram of an example process 3800 for adding attributes to a structured presentation based on the content of documents in an electronic document collection. Process 3800 may be performed by a system of one or more computers that perform operations by executing one or more machine-readable instruction sets. For example, process 3800 can be performed by search engine 202 in system 200.

いくつかの実装では、プロセス3800は、例えば、ユーザーまたは構造化プレゼンテーション106の更新をトリガーする他のシステムもしくはプロセスから入力を受け取ったことに応答して実行されうる。例えば、プロセス3800は、1つまたは複数の新規属性を構造化プレゼンテーション106に追加するユーザー要求への応答として実行されうる。他の例として、プロセス3800は、検索クエリを受け取ったことに対する応答として、検索エンジン、例えば、検索エンジン202(図2)によって実行されうる。   In some implementations, the process 3800 may be performed in response to receiving input from a user or other system or process that triggers an update of the structured presentation 106, for example. For example, process 3800 can be performed in response to a user request to add one or more new attributes to structured presentation 106. As another example, process 3800 may be performed by a search engine, eg, search engine 202 (FIG. 2) in response to receiving a search query.

プロセス3800を実行するシステムは、事前に存在している構造化プレゼンテーションの1つまたは複数の特性を受け取ることができる(ステップ3805)。例えば、システムは、事前に存在している構造化プレゼンテーション内に出現する1つまたは複数のインスタンス識別子を受け取ることができる。他の例として、システムは、事前に存在している構造化プレゼンテーションで識別されたインスタンスを含むカテゴリの記述を受け取ることができる。   The system performing process 3800 may receive one or more characteristics of a pre-existing structured presentation (step 3805). For example, the system can receive one or more instance identifiers that appear in a pre-existing structured presentation. As another example, the system may receive a description of a category that includes an instance identified in a pre-existing structured presentation.

プロセス3800を実行するシステムは、事前に存在している構造化プレゼンテーションの1つまたは複数の特性に基づいて電子文書コレクション内の文書から1つまたは複数の属性提案を構成することができる(ステップ3810)。属性提案は、多数の異なる方法でこれらの特性に基づき構成することができる。例えば、一実装では、システムは、事前に存在している構造化プレゼンテーションから引き出されたインスタンス識別子を使用して検索クエリを構築することによって電子文書コレクション102内の文書から属性提案を構成することができる。これらの検索クエリを使用し、文字列比較結果または他のマッチング技術を使用して同じまたは類似のインスタンスを特徴付けることができる属性を識別することができる。他のアプローチの例について以下でさらに説明する。   The system performing process 3800 may construct one or more attribute proposals from documents in the electronic document collection based on one or more characteristics of the pre-existing structured presentation (step 3810). ). Attribute proposals can be constructed based on these characteristics in a number of different ways. For example, in one implementation, the system may construct an attribute proposal from documents in the electronic document collection 102 by constructing a search query using instance identifiers derived from pre-existing structured presentations. it can. These search queries can be used to identify attributes that can characterize the same or similar instances using string comparison results or other matching techniques. Examples of other approaches are further described below.

プロセス3800を実行するシステムは、1つまたは複数の属性提案をユーザーに提供することができる(ステップ3815)。例えば、属性提案のリストを、事前に存在している構造化プレゼンテーションを表示する同じディスプレイ画面上にユーザー向けに表示することができる。   The system performing process 3800 may provide one or more attribute suggestions to the user (step 3815). For example, a list of attribute proposals can be displayed for the user on the same display screen that displays a pre-existing structured presentation.

プロセス3800を実行するシステムは、1つまたは複数の属性提案のユーザー選択を受け取ることができる(ステップ3820)。例えば、ユーザーインターフェイスコンポーネントがユーザーとやり取りして、1つまたは複数の属性提案を選択する1つまたは複数のユーザー入力(例えば、マウスのクリック、キーの押下、または他のユーザー入力)を受け取ることができる。   The system performing process 3800 may receive a user selection of one or more attribute proposals (step 3820). For example, a user interface component interacts with the user and receives one or more user inputs (e.g., mouse clicks, key presses, or other user inputs) that select one or more attribute suggestions. it can.

プロセス3800を実行するシステムは、選択された属性提案を構造化プレゼンテーションに追加することができる(ステップ3825)。特に、選択された属性提案は、構造化プレゼンテーション内の既存の構造化レコードを拡張するために使用することができる。例えば、構造化プレゼンテーションが、テーブル300(図3)などのテーブルである場合、システムは新規列304を追加することができる。他の例として、構造化プレゼンテーションが、カードのコレクション500(図5)などのカードのコレクションである場合、システムは新規属性識別子308をカード502に追加することができる。   The system performing process 3800 may add the selected attribute proposal to the structured presentation (step 3825). In particular, the selected attribute proposal can be used to extend an existing structured record in the structured presentation. For example, if the structured presentation is a table such as table 300 (FIG. 3), the system can add a new column 304. As another example, if the structured presentation is a collection of cards, such as a collection of cards 500 (FIG. 5), the system can add a new attribute identifier 308 to the card 502.

図39は、事前に存在している構造化プレゼンテーションの特性に基づいて電子文書コレクション内の電子文書から属性提案を構成するための例示的なプロセス3900の流れ図である。プロセス3900は、単独で、または他の活動と連携して実行されうる。例えば、プロセス3900は、プロセス3800(図38)におけるステップ3810で実行されうる。   FIG. 39 is a flow diagram of an example process 3900 for constructing attribute proposals from electronic documents in an electronic document collection based on pre-existing structured presentation characteristics. Process 3900 may be performed alone or in conjunction with other activities. For example, process 3900 may be performed at step 3810 in process 3800 (FIG. 38).

プロセス3900は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータのシステムによって実行されうる。例えば、プロセス3900は、システム200(図2)内の検索エンジン202によって実行されうる。   Process 3900 may be performed by a system of one or more computers that perform operations by executing one or more machine-readable instruction sets. For example, process 3900 can be performed by search engine 202 in system 200 (FIG. 2).

プロセス3900を実行するシステムは、事前に存在している構造化プレゼンテーションにおいて指定されているインスタンスに関係する構造化コンポーネントを含む1つまたは複数の文書を識別することができる(ステップ3905)。構造化コンポーネントは、構造化されている電子文書のいくつかの部分または領域である。構造化コンポーネントの例としては、テーブル、リスト、レコード、属性-値の対のコレクション、および同様のものが挙げられる、こうして、構造化コンポーネントは、構造化プレゼンテーションとほぼ同様にし、定義済みの構造と一致するように属性値およびインスタンス識別子を編成することができる。   The system performing process 3900 may identify one or more documents that include structured components related to the instance specified in the pre-existing structured presentation (step 3905). A structured component is a number of parts or regions of an electronic document that are structured. Examples of structured components include tables, lists, records, collections of attribute-value pairs, and the like. Thus, structured components are similar to structured presentations, with predefined structures and Attribute values and instance identifiers can be organized to match.

構造化コンポーネントを含む電子文書の全体が構造化されている必要はない。例えば、電子文書は、非構造化テキストの2つの段落の間にテーブルが挟まれていてもよい。さらに、異なる文書内の構造化コンポーネントが、同じフォーマットを有する、または所定の、もしくは永続的な構造に従っている必要はない。実際、1つの構造化コンポーネント内の情報の編成は、一般的には、他の文書内に出現する構造化コンポーネント内の情報の編成とは無関係に変更されうる。例えば、1人の人の履歴書中の学校の構造化されたリストが卒業年を削除するように変更される場合、他の履歴書中の学校の他の構造化されたリストも同様に変更されることを保証する必要はない。   The entire electronic document including the structured component need not be structured. For example, an electronic document may have a table sandwiched between two paragraphs of unstructured text. Furthermore, structured components in different documents need not have the same format or follow a predetermined or permanent structure. In fact, the organization of information within one structured component can generally be changed independently of the organization of information within the structured component that appears in other documents. For example, if a structured list of schools in one person's resume is changed to remove the graduation year, the other structured lists of schools in other resumes will be changed as well There is no need to guarantee that

プロセス3900を実行するシステムは、さまざまな方法で構造化コンポーネントを含む文書を識別することができる。例えば、テーブルおよび他の構造化コンポーネントは、文書それ自体の中に見つかる、HTMLタグなどのメタデータラベルを使用して識別されうる。他の例として、構造化コンポーネントは、文書内の反復要素(例えば、一連のコンマまたはタブ区切り記号)を識別することによって識別されうる。   A system performing process 3900 may identify documents that include structured components in a variety of ways. For example, tables and other structured components can be identified using metadata labels, such as HTML tags, found in the document itself. As another example, a structured component can be identified by identifying repetitive elements (eg, a series of commas or tab delimiters) in the document.

構造化コンポーネントは、それらが指定されたインスタンスに関連する情報を含む場合に事前に存在している構造化プレゼンテーションで指定されたインスタンスに関係する。例えば、1つまたは複数の属性値を持つ指定されたインスタンスのうちの1つまたは複数のインスタンスを特徴付ける構造化コンポーネントは、事前に存在している構造化プレゼンテーション内で指定されたインスタンスに関連するものとして考えることができる。他の例として、事前に存在している構造化プレゼンテーションで指定されたインスタンスとは異なるインスタンスの同じ属性のうちの1つまたは複数の属性を特徴付ける構造化コンポーネントは、指定されたインスタンスに関連するものとして考えることができる。多くの実装において、インスタンスおよび/または属性識別子は同じである必要はない。むしろ、概念的に関係するインスタンスおよび属性は、構造化コンポーネントを含む文書を識別するために使用されうる。   Structured components are related to the specified instance in a pre-existing structured presentation if they contain information related to the specified instance. For example, a structured component that characterizes one or more of the specified instances with one or more attribute values is related to the specified instance in a pre-existing structured presentation Can be thought of as As another example, a structured component that characterizes one or more of the same attributes of an instance that is different from the instance specified in the pre-existing structured presentation is related to the specified instance Can be thought of as In many implementations, the instance and / or attribute identifiers need not be the same. Rather, conceptually related instances and attributes can be used to identify documents that contain structured components.

したがって、いくつかの実装では、プロセス3900を実行するシステムは、事前に存在している構造化プレゼンテーション内に見つかるような同じもしくは関係するインスタンス識別子および/または事前に存在している構造化プレゼンテーション内に見つかるような同じもしくは関係する属性識別子を含む文書を識別することによって事前に存在している構造化プレゼンテーションにおいて指定されているインスタンスに関係する構造化コンポーネントを含む1つまたは複数の文書を識別することができる。   Thus, in some implementations, the system performing process 3900 is within the same or related instance identifier and / or preexisting structured presentation as found in the preexisting structured presentation. Identify one or more documents that contain structured components related to instances specified in pre-existing structured presentations by identifying documents that contain the same or related attribute identifiers as found Can do.

プロセス3900を実行するシステムは、構造化コンポーネントから1つまたは複数の属性提案を選択することができる(ステップ3910)。この選択プロセスでは、ユーザーに対して提案される属性を選別して個数を減らすことができる。属性提案の選択は、さまざまな方法で実行できる。例えば、システムは、以下でさらに説明するように、構造化コンポーネント内のインスタンスおよび/または構造化コンポーネント内のインスタンスの属性の値のカテゴリに基づいて属性提案を選択することができる。   The system performing process 3900 may select one or more attribute proposals from the structured component (step 3910). In this selection process, attributes proposed to the user can be selected to reduce the number. The selection of attribute proposals can be performed in various ways. For example, the system may select an attribute suggestion based on an instance value in the structured component and / or an attribute value of the instance in the structured component, as further described below.

図40は、事前に存在している構造化プレゼンテーションの特性に基づく電子文書コレクション内の電子文書からの属性提案の構成を表す表現4000である。特に、表現4000は、プロセス3900(図39)の一実装を使用する属性提案の構成を示している。   FIG. 40 is a representation 4000 representing the composition of attribute proposals from electronic documents in an electronic document collection based on pre-existing structured presentation characteristics. In particular, representation 4000 shows the configuration of an attribute proposal that uses one implementation of process 3900 (FIG. 39).

図示されているように、事前に存在している構造化プレゼンテーションでは、インスタンス4005のコレクションを指定する(つまり、インスタンス「Philadelphia」および「Chicago」)。さらに、電子文書コレクション(例えば、コレクション102)内の異なる文書は、異なる構造化コンポーネント4010、4015、4020を含む。構造化コンポーネント4010、4015、4020は、例えば中に出現する同じインスタンス識別子「Philadelphia」および「Chicago」に基づいて指定されたインスタンス4005に関連するものとして識別されうる。   As shown, the pre-existing structured presentation specifies a collection of instances 4005 (ie, instances “Philadelphia” and “Chicago”). Further, different documents in an electronic document collection (eg, collection 102) include different structured components 4010, 4015, 4020. The structured components 4010, 4015, 4020 can be identified as being associated with the instance 4005 designated based on, for example, the same instance identifiers “Philadelphia” and “Chicago” appearing therein.

図示されているように、構造化コンポーネント4010、4015、4020は、異なる背景状況に基づくさまざまな異なる潜在的属性提案を含む。特に、構造化コンポーネント4010の背景状況では、インスタンス「Philadelphia」および「Chicago」は、さまざまな市の特徴を表す表形式コンポーネントの一部である。構造化コンポーネント4015の背景状況では、インスタンス「Philadelphia」および「Chicago」は、1970年代のある時期のナショナルリーグ東地区の順位表の一部を表す構造化コンポーネントの一部である。構造化コンポーネント4020の背景状況では、インスタンス「Philadelphia」および「Chicago」は、さまざまな動画の特徴を表す表形式コンポーネントの一部である。   As shown, the structured components 4010, 4015, 4020 include a variety of different potential attribute proposals based on different background situations. In particular, in the context of the structured component 4010, the instances “Philadelphia” and “Chicago” are part of a tabular component that represents various city characteristics. In the context of the structured component 4015, the instances “Philadelphia” and “Chicago” are part of the structured component that represents a portion of the standings of the National League East District at some point in the 1970s. In the context of the structured component 4020, the instances “Philadelphia” and “Chicago” are part of a tabular component that represents various animated features.

構造化コンポーネント4010、4015、4020内に見つかるさまざまな属性すべてをユーザーに対して提案する代わりに、それらのインスタンスを特徴付けるために使用される属性に基づいてコンポーネント4010、4015、4020から属性選択を選択することができる。特に、図示されているように、事前に存在している構造化プレゼンテーション106は、属性「year」、「rating」、および「box office receipts」の値を使用してインスタンス「Philadelphia」および「Chicago」を特徴付ける。構造化コンポーネント4010は、属性「population」および「area」の値を使用してインスタンス「Philadelphia」および「Chicago」を特徴付ける。構造化コンポーネント4015は、属性「wins」、「losses」、および「GB」(つまり、ゲーム差)の値を使用してインスタンス「Philadelphia」および「Chicago」を特徴付ける。構造化コンポーネント4020は、属性「year」、「runtime」、および「rating」の値を使用してインスタンス「Philadelphia」および「Chicago」を特徴付ける。   Instead of suggesting all the various attributes found in structured components 4010, 4015, 4020 to the user, select attribute selection from components 4010, 4015, 4020 based on the attributes used to characterize those instances can do. In particular, as shown, the pre-existing structured presentation 106 uses the values of the attributes “year”, “rating”, and “box office receipts” to create instances “Philadelphia” and “Chicago”. Characterize. The structured component 4010 characterizes the instances “Philadelphia” and “Chicago” using the values of the attributes “population” and “area”. The structured component 4015 characterizes the instances “Philadelphia” and “Chicago” using the values of the attributes “wins”, “losses”, and “GB” (ie, game differences). The structured component 4020 characterizes the instances “Philadelphia” and “Chicago” using the values of the attributes “year”, “runtime”, and “rating”.

システムは、これらの特徴付けられた属性に基づいて構造化コンポーネント4010、4015、4020内の属性から選択することができる。例えば、システムは、事前に存在している構造化プレゼンテーション106における属性識別子「year」および「rating」と構造化コンポーネント4020における属性識別子「year」および「rating」との間の対応関係を識別して、属性「director」および「runtime」を事前に存在している構造化プレゼンテーション106に追加する提案として選択することができる。   The system can select from attributes within the structured components 4010, 4015, 4020 based on these characterized attributes. For example, the system identifies the correspondence between attribute identifiers “year” and “rating” in pre-existing structured presentation 106 and attribute identifiers “year” and “rating” in structured component 4020. , The attributes “director” and “runtime” can be selected as a proposal to add to the pre-existing structured presentation 106.

図21〜36および関連する本文において説明されているように、いくつかの実装では、システムは、追加のインスタンス識別子を提案もしくは追加することもできる。例えば、構造化コンポーネント4020は、インスタンス識別子「Peter Pan」および「Star Wars」を含む。したがって、このようなシステムは、これらのインスタンス識別子を構造化プレゼンテーションに含むように提案することができる。   As described in FIGS. 21-36 and the associated text, in some implementations, the system may also suggest or add additional instance identifiers. For example, the structured component 4020 includes instance identifiers “Peter Pan” and “Star Wars”. Thus, such a system can be proposed to include these instance identifiers in the structured presentation.

いくつかの実装では、構造化コンポーネント4010、4015から引き出された属性が特定の構成で提案されていない場合であっても、そのような属性は、将来の情報要求の際に使用できるように格納することができる。例えば、構造化コンポーネント4010で表されている市が、属性提案として選択されていないとしても、それらの市は、各属性識別子(例えば、「population」および「area」)およびデータコレクション(例えば、データセンター208など)内の属性値とともに格納することができる。その後にユーザーが1つまたは複数の市に関する情報を要求した場合、そのようなシステムは、この格納されている情報にアクセスして、追加の情報をユーザーに提供することができる。   In some implementations, even if attributes derived from structured components 4010, 4015 are not proposed in a particular configuration, such attributes are stored for use in future information requests. can do. For example, even if the cities represented by the structured component 4010 have not been selected as attribute proposals, those cities will have their respective attribute identifiers (eg, “population” and “area”) and data collections (eg, data Can be stored along with attribute values in the center 208). If the user subsequently requests information about one or more cities, such a system can access this stored information and provide additional information to the user.

図41は、事前に存在している構造化プレゼンテーションの特性に基づいて電子文書コレクション内の電子文書から属性提案を構成するための例示的なプロセス4100の流れ図である。プロセス4100は、単独で、または他の活動と連携して実行されうる。例えば、プロセス4100は、プロセス3800(図38)におけるステップ3810で実行されうる。   FIG. 41 is a flow diagram of an example process 4100 for constructing attribute proposals from electronic documents in an electronic document collection based on pre-existing structured presentation characteristics. Process 4100 may be performed alone or in conjunction with other activities. For example, process 4100 may be performed at step 3810 in process 3800 (FIG. 38).

プロセス4100は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータのシステムによって実行されうる。例えば、プロセス4100は、システム200(図2)内の検索エンジン202によって実行されうる。   Process 4100 may be performed by a system of one or more computers that perform operations by executing one or more machine-readable instruction sets. For example, process 4100 may be performed by search engine 202 in system 200 (FIG. 2).

プロセス4100を実行するシステムは、1つまたは複数の指定されたインスタンスに関連する1つまたは複数の文書を識別することができる(ステップ4105)。例えば、プロセス4100を実行するシステムは、文字列比較を使用することで、指定されたインスタンスおよびその属性および/または値のうちの1つまたは複数と電子文書コレクション102などの電子文書コレクション内の文書とのマッチングを行うことができる。他の例では、プロセス4100を実行するシステムは、格納されている情報(例えば、データセンター208内の情報)にアクセスして、指定されたインスタンスに関連する電子文書を識別することができる。   The system performing process 4100 may identify one or more documents associated with one or more specified instances (step 4105). For example, the system performing process 4100 uses a string comparison to document one or more of the specified instance and its attributes and / or values and an electronic document collection such as electronic document collection 102. Can be matched. In other examples, the system performing process 4100 can access stored information (eg, information in data center 208) to identify the electronic document associated with the specified instance.

プロセス4100を実行するシステムは、識別された文書のうちの1つまたは複数の文書のテンプレートを抽出することができる(ステップ4110)。文書テンプレートは、電子文書コレクション内の文書のサブコレクション内の個別の文書のコンテンツの配列に対するパターンとして使用される。サブコレクション内の文書は、一般的に、単一のソース、例えば、単一の企業に由来するものである。例えば、書籍販売店は、単一の文書テンプレートを、異なる書籍を記述したコンテンツの配列に対するパターンとして使用することができる。他の例では、家具小売店は、単一の文書テンプレートを、異なるソファのパンフレットのコンテンツの配列に対するパターンとして使用することができる。例えば、ソファ用の電子パンフレットのテンプレートにより、ソファのブランド名、ソファの写真、ソファが示されている色をユーザーが選択することを可能にするインタラクティブ要素、テキスト形式のソファの説明、ならびにソファの寸法、入手状況、および価格を特徴付けるテーブルの配列をパンフレット上に指定することができる。こうして、文書テンプレートは、構造化プレゼンテーションとほぼ同様にし、定義済みの構造と一致するようにインスタンスに関する情報を編成することができる。   The system performing process 4100 may extract a template for one or more of the identified documents (step 4110). The document template is used as a pattern for the arrangement of the content of individual documents in a sub-collection of documents in the electronic document collection. Documents in a sub-collection are generally from a single source, eg, a single company. For example, a book store can use a single document template as a pattern for an array of content describing different books. In another example, a furniture retailer can use a single document template as a pattern for an array of different sofa brochure content. For example, a template for an e-brochure for a sofa allows the user to select the sofa brand name, sofa photo, sofa color, textual sofa description, and sofa An array of tables characterizing dimensions, availability, and prices can be specified on the brochure. In this way, the document template can organize information about the instances in much the same way as a structured presentation and to match a predefined structure.

一般に、文書テンプレートは、電子文書のコンテンツ全体に対するパターンとして使用することができ、上述のように、文書内の構造化コンポーネントの配列を指定することさえできる。しかし、文書テンプレートでは非構造化電子文書コレクション内の文書のサブコレクションのコンテンツの配列を指定するだけなので、電子文書コレクションそれ自体は非構造化のままである。例えば、AMAZON.COMでは1つのテンプレートをAMAZON.COMが販売するすべての書籍の説明の配列に対するパターンとして使用する場合であっても、BARNESANDNOBLE.COMおよび他の書籍販売店は、その同じテンプレートを書籍店が販売する書籍の説明の配列に対するパターンとして必ずしも使用しない。   In general, a document template can be used as a pattern for the entire content of an electronic document, and can even specify an array of structured components within the document, as described above. However, since the document template only specifies the content array of the sub-collection of documents in the unstructured electronic document collection, the electronic document collection itself remains unstructured. For example, even if AMAZON.COM uses one template as a pattern for an array of descriptions for all books sold by AMAZON.COM, BARNESANDNOBLE.COM and other book stores will use the same template as the book. It is not necessarily used as a pattern for the description arrangement of books sold by the store.

さらに、文書テンプレートは、その変更を必ずしも電子文書のコレクション全体、さらにはサブコレクションに伝搬させなくても変更できる。   Furthermore, document templates can be changed without necessarily propagating the changes to the entire collection of electronic documents, and even to a sub-collection.

図42は、動画(つまり、動画「Philadelphia」)を記述するためのパターンとして使用されるハイパーテキストマークアップ言語(HTML)のテンプレート4200の一部を表す図である。テンプレート部分4200のハイパーテキストマークアップ言語(HTML)コードは、機械可読かつ人間可読である。例えば、ブラウザでテンプレート部分4200のHTMLコードを使用して、ウェブページを生成することができる。   FIG. 42 is a diagram showing a part of a hypertext markup language (HTML) template 4200 used as a pattern for describing a moving image (that is, moving image “Philadelphia”). The hypertext markup language (HTML) code of the template portion 4200 is machine readable and human readable. For example, the web page can be generated using the HTML code of the template portion 4200 in the browser.

示されている例では、テンプレート部分4200は、2つのサブセクション4205、4210に分割される。サブセクション4205は、動画「Philadelphia」を識別するテキストの配列に対するパターンとして使用される。サブセクション4210は、さまざまな属性識別子およびその値の配列に対するパターンとして使用される。一般に、異なる動画を記述するために電子文書内の文書の特定のサブコレクションにおいて、サブセクション4205、4210内のパターンを何回も繰り返す。   In the example shown, the template portion 4200 is divided into two subsections 4205, 4210. Subsection 4205 is used as a pattern for an array of text that identifies the video “Philadelphia”. Subsection 4210 is used as a pattern for the array of various attribute identifiers and their values. In general, the patterns in subsections 4205, 4210 are repeated many times in a particular sub-collection of documents within an electronic document to describe different videos.

HTMLパーサーを使用して、テンプレート部分4200から出力書式を抽出することができ、したがって、出力書式を使用して、同じテンプレートを有する文書を識別することができる。例えば、HTMLタグ<title>、<div>、他のHTMLタグ、および互いに相対的な位置は、HTMLパーサーによって識別されうる。このようなHTMLパーサーは、HTMLタグ<title>がHTMLタグ<div>の前に出現するものとして判定することができる。したがって、HTMLパーサーは、テンプレートに従って配列されているコンテンツからのテンプレート部分4200から出力書式を抽出することができる。   An HTML parser can be used to extract the output format from the template portion 4200, and thus the output format can be used to identify documents having the same template. For example, HTML tags <title>, <div>, other HTML tags, and positions relative to each other can be identified by an HTML parser. Such an HTML parser can determine that the HTML tag <title> appears before the HTML tag <div>. Thus, the HTML parser can extract the output format from the template portion 4200 from the content arranged according to the template.

再び図41を参照すると、テンプレートを抽出した後に、プロセス4100を実行するシステムは、テンプレートを使用して1つまたは複数の新規属性を識別することができる(ステップ4115)。例えば、システムは、そのテンプレート内の事前に存在している構造化表示から引き出された属性の配列を識別することができる。この配列は、他の属性を推論するために使用できる。システム4100を実行するシステムは、そのテンプレートを使用して識別される属性から1つまたは複数の属性提案を構成することもできる(ステップ4120)。したがって、これらのテンプレートそれ自体を使用して、属性提案を構成することができる。例えば、テンプレート部分4200(図42)内のHTMLタグは、映画に題名が付けられていることを識別する。   Referring again to FIG. 41, after extracting the template, the system performing process 4100 may use the template to identify one or more new attributes (step 4115). For example, the system can identify an array of attributes derived from pre-existing structured representations in the template. This array can be used to infer other attributes. The system executing system 4100 may also construct one or more attribute proposals from the attributes identified using the template (step 4120). Thus, these templates themselves can be used to construct attribute proposals. For example, the HTML tag in the template portion 4200 (FIG. 42) identifies that the movie is titled.

「Philadelphia (1993)」は、属性「Director」、「Writer」、および「Release Date」によって特徴付けられる。これらの属性のどれかを使用して、1つまたは複数の属性提案を構成することができる。   “Philadelphia (1993)” is characterized by the attributes “Director”, “Writer”, and “Release Date”. Any of these attributes can be used to construct one or more attribute proposals.

さらに、いくつかの実装では、文書テンプレート内の追加のコンテンツは、属性提案を構成する際に使用することができる。例えば、属性の値は、属性提案を構成する際に使用することができる。例えば、属性「year」の値が、例えば、1976である場合、属性「start time」は、映画を特徴付けるために属性提案のコレクションから除外されうる。   Further, in some implementations, additional content in the document template can be used in constructing attribute suggestions. For example, attribute values can be used in constructing attribute proposals. For example, if the value of attribute “year” is, for example, 1976, attribute “start time” may be excluded from the collection of attribute proposals to characterize the movie.

図43は、事前に存在している構造化プレゼンテーション106内の情報に基づいて新規属性提案3715のコレクションを構成することができるプロセス4300の略図である。プロセス4300は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータのシステム、例えば、システム200(図2)によって実行されうる。   FIG. 43 is a diagram of a process 4300 in which a collection of new attribute proposals 3715 can be constructed based on pre-existing information in the structured presentation 106. Process 4300 may be performed by one or more computer systems, eg, system 200 (FIG. 2), that perform operations by executing one or more machine-readable instruction sets.

プロセス4300は、事前に存在している構造化プレゼンテーション106内の情報に基づきインスタンス/属性コレクション4310に対し抽出オペレーション4305を実行する。インスタンス/属性コレクション4310は、インスタンスをその属性に、またいくつかの実装では、それらの属性の値にも関連付ける情報のコレクションである。コレクション4310内の情報は、トリガーを受け取ったことに対する応答として(例えば、検索クエリ)、またはトリガーを受け取ることを予想して、例えば、電子文書コレクション102のインデックスを作成するプロセスの一部として、電子文書コレクション102内の文書から抽出されうる。いくつかの実装では、コレクション4310内の情報は、現在のユーザーまたは他のユーザーに対して提示された前の構造化プレゼンテーションのコンテンツを含むことができる。一般に、属性提案は、ステップ3815、3820、3825(図38)において説明されているような、構造化プレゼンテーションに追加される属性提案を選択するユーザーに提供される。   Process 4300 performs an extract operation 4305 on instance / attribute collection 4310 based on pre-existing information in structured presentation 106. An instance / attribute collection 4310 is a collection of information that associates an instance with its attributes and, in some implementations, with the values of those attributes. The information in the collection 4310 can be used as a response to receiving a trigger (e.g., a search query) or as part of the process of indexing the electronic document collection 102 in anticipation of receiving a trigger, e.g. It can be extracted from the documents in the document collection 102. In some implementations, the information in the collection 4310 can include the content of previous structured presentations presented to the current user or other users. In general, the attribute proposal is provided to a user who selects an attribute proposal to be added to the structured presentation, as described in steps 3815, 3820, 3825 (FIG. 38).

インスタンスとその属性の間の関連付けは、コレクション4310内の情報記憶域を構造化することによってコレクション4310内で確立されうる。図44は、コレクション4310内の属性およびインスタンスを関連付けるテーブル4400の略図である。テーブル4400は、レコード4402、4404、4406、4408、4410、4412、4414のコレクションを含み、それぞれのレコードはインスタンスの識別子を文書のロケーションの記述およびそれらの文書内の識別されたインスタンスを特徴付ける属性に関連付ける。レコード4402、4404、4406、4408、4410、4412、4414内の情報は、列4415、4420、4425、4430、4435、4440のコレクション内に編成されうる。特に、列4415は、インスタンス識別子を含むことができる。列4420は、列4415で識別されているインスタンスを含む電子文書のロケーションの記述を含むことができる。列4425、4430、4435、4440は、列4420内にロケーションが記述されている文書内の列4415で識別されるインスタンスを特徴付ける属性を識別することができる。   An association between an instance and its attributes can be established in collection 4310 by structuring information storage in collection 4310. FIG. 44 is a schematic diagram of a table 4400 associating attributes and instances in collection 4310. Table 4400 contains a collection of records 4402, 4404, 4406, 4408, 4410, 4412, 4414, each record with an instance identifier as a description of the document's location and attributes that characterize the identified instances within those documents. Associate. Information in records 4402, 4404, 4406, 4408, 4410, 4412, 4414 may be organized in a collection of columns 4415, 4420, 4425, 4430, 4435, 4440. In particular, column 4415 can include an instance identifier. Column 4420 may include a description of the location of the electronic document that includes the instance identified in column 4415. Columns 4425, 4430, 4435, 4440 may identify attributes that characterize the instance identified in column 4415 in the document whose location is described in column 4420.

図示されているように、異なる電子文書は、同じインスタンスを特徴付ける異なるカテゴリおよび量の情報を含むことができる。例えば、ロケーションがレコード4404の列4420で識別される文書は、インスタンス「INSTANCE_2」の2つの属性を含むが、ロケーションがレコード4410の列4420で識別される文書は、インスタンス「INSTANCE_2」の3つの属性を含む。さらに、レコード4404内の属性(つまり、属性「ATTR_5」および属性「ATTR_6」)は、レコード4410内の属性(つまり、属性「ATTR_5」、属性「ATTR_8」、および属性「ATTR_9」)と一部異なる。   As shown, different electronic documents can include different categories and quantities of information that characterize the same instance. For example, a document whose location is identified in column 4420 of record 4404 contains two attributes for instance "INSTANCE_2", while a document whose location is identified in column 4420 of record 4410 is three attributes of instance "INSTANCE_2" including. Further, the attributes in record 4404 (ie, attribute “ATTR_5” and attribute “ATTR_6”) are partially different from the attributes in record 4410 (ie, attribute “ATTR_5”, attribute “ATTR_8”, and attribute “ATTR_9”). .

属性およびインスタンスを関連付けるデータコレクション4310(テーブル4400など)は、いくつもの異なる方法で形成されうる。例えば、内部的な構造化コンポーネントを含む文書が識別されうる。このような内部的な構造化コンポーネントの例として、HTML文書中に出現するテーブルおよびリストが挙げられる。これらの内部的な構造化コンポーネント内の属性とインスタンスとの間の関係をコピーしてデータコレクション4310を形成することができる。   A data collection 4310 (such as table 4400) that associates attributes and instances may be formed in a number of different ways. For example, a document that includes an internal structured component may be identified. Examples of such internal structured components are tables and lists that appear in HTML documents. The relationship between attributes and instances in these internal structured components can be copied to form data collection 4310.

他の例として、コレクション4310は、現在のユーザーまたは他のユーザーに対して提示された前の構造化プレゼンテーションのコンテンツから形成することができる。   As another example, collection 4310 can be formed from the content of previous structured presentations presented to the current user or other users.

さらに他の例として、第1の文書が属性およびインスタンスを含むものとして識別された後、その文書のテンプレートを使用して、同じテンプレートを含む他の文書から属性およびインスタンスを抽出することができる。例えば、ステレオ小売業者が同じ文書テンプレートを使用して販売のため提供される異なるステレオを記述する場合、第1のステレオに関する第1の電子文書内の情報の配列を使用して、他のステレオに関する他の電子文書から情報を抽出することができる。   As yet another example, after a first document is identified as containing attributes and instances, the template for that document can be used to extract attributes and instances from other documents that contain the same template. For example, if a stereo retailer describes different stereos offered for sale using the same document template, it uses the arrangement of information in the first electronic document for the first stereo to Information can be extracted from other electronic documents.

いくつかの実装では、自然言語構文解析などの技術を使用して、インスタンスおよび属性を識別することができる。例えば、電子文書の構文解析を行って、電子文書内の「[Instance] has a/an [attribute]」などのフレーズを識別することができる。   In some implementations, techniques such as natural language parsing can be used to identify instances and attributes. For example, the electronic document can be parsed to identify phrases such as “[Instance] has a / an [attribute]” in the electronic document.

いくつかの実装では、データコレクション4310は、インスタンスおよびその属性を分類することができる。例えば、インスタンスおよび属性は、北米の都市、ナショナルリーグ東地区チーム、または人気のある映画としてカテゴリ化することができる。データコレクション4310への情報の格納は、そのような分類に基づくことができる。例えば、異なるカテゴリを異なるファイル、レコード、および同様のものに格納することができる。   In some implementations, the data collection 4310 can classify instances and their attributes. For example, instances and attributes can be categorized as North American cities, National League East District teams, or popular movies. Storage of information in the data collection 4310 can be based on such classification. For example, different categories can be stored in different files, records, and the like.

図43を再び参照すると、プロセス4300は、事前に存在している構造化プレゼンテーション106で提示される情報に基づき1つまたは複数の新規属性を提案している。例えば、構造化プレゼンテーションがいくつかの動画に対応する多数のインスタンスを含む場合、システム200は、データコレクション4310から引き出された情報に従って動画の追加の属性を提案することができる。つまり、システム200は、同じインスタンスを特徴付けるために使用される属性に基づいて追加の属性を識別し、提案することができる。例えば、システム200は、ショータイム、劇場、または放映時間などの、動画を特徴付けるために通常使用される他の属性を提案することができる。   Referring again to FIG. 43, the process 4300 proposes one or more new attributes based on information presented in the pre-existing structured presentation 106. For example, if the structured presentation includes multiple instances corresponding to several videos, the system 200 may suggest additional attributes for the videos according to information derived from the data collection 4310. That is, the system 200 can identify and suggest additional attributes based on the attributes used to characterize the same instance. For example, the system 200 can suggest other attributes that are typically used to characterize a video, such as showtime, theater, or airtime.

図45は、事前に存在している構造化プレゼンテーションの特性に基づいてインスタンスおよび属性のコレクションから属性提案を構成するためのプロセス4500の流れ図である。プロセス4500は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータのシステムによって実行されうる。例えば、プロセス4500は、システム200(図2)内の検索エンジン202によって実行されうる。   FIG. 45 is a flow diagram of a process 4500 for constructing an attribute proposal from a collection of instances and attributes based on pre-existing structured presentation characteristics. Process 4500 may be performed by a system of one or more computers that perform operations by executing one or more machine-readable instruction sets. For example, process 4500 may be performed by search engine 202 in system 200 (FIG. 2).

プロセス4500は、単独で、または他の活動と連携して実行されうる。例えば、プロセス4500は、プロセス4300(図43)で実行されうる。他の例として、プロセス4500は、プロセス3800(図38)におけるステップ3810で、単独で、またはプロセス3900、4100(図39、41)の一方または両方と連携して実行されうる。   Process 4500 may be performed alone or in conjunction with other activities. For example, process 4500 may be performed in process 4300 (FIG. 43). As another example, process 4500 may be performed at step 3810 in process 3800 (FIG. 38) alone or in conjunction with one or both of processes 3900, 4100 (FIGS. 39, 41).

プロセス4500を実行するシステムは、インスタンスおよびその属性のコレクションにアクセスすることができる(ステップ4505)。例えば、プロセス4500を実行するシステムは、データセンター208(図2)に格納されているインスタンスおよび属性コレクション4310(図43)にアクセスすることができる。   The system executing process 4500 can access the collection of instances and their attributes (step 4505). For example, a system executing process 4500 can access an instance and attribute collection 4310 (FIG. 43) stored in data center 208 (FIG. 2).

プロセス4500を実行するシステムは、事前に存在している構造化プレゼンテーションにおいて指定されているインスタンス属性の特性に基づいて1つまたは複数の関連する属性を識別することができる(ステップ4510)。例えば、システムは、インスタンスおよび属性コレクション4310(図43)内に格納されているインスタンスのインスタンス属性を構造化プレゼンテーション106で指定されているインスタンスと比較することができる。システムは、この比較結果を使用して、もしあれば格納されているインスタンスのうちのどれが属性識別子、または関係する属性を事前に存在している構造化プレゼンテーション106で指定されている属性と共有するかを決定することができる。例えば、事前に存在している構造化プレゼンテーション106は、属性「ATTR_3」および「ATTR_5」を使用してインスタンスのコレクションを特徴付けると推定する。テーブル4400(図44)などのインスタンスおよび属性コレクション4310を検討した後、システムは、属性「ATTR_7」および「ATTR_7」を、レコード4402、4406内のインスタンス「INSTANCE_1」および「INSTANCE_2」を特徴付ける際に「ATTR_3」および「ATTR_5」と連携して使用することに基づいて、提案することができる。   The system performing process 4500 may identify one or more related attributes based on the instance attribute characteristics specified in the pre-existing structured presentation (step 4510). For example, the system can compare the instance attributes of the instances stored in the instance and attribute collection 4310 (FIG. 43) with the instances specified in the structured presentation 106. The system uses this comparison result to share any of the stored instances, if any, with the attribute identifier, or the attribute specified in the structured presentation 106 that already has the attribute concerned. You can decide what to do. For example, pre-existing structured presentation 106 presumes to use the attributes “ATTR_3” and “ATTR_5” to characterize the collection of instances. After reviewing instance and attribute collection 4310, such as table 4400 (Figure 44), the system uses attributes "ATTR_7" and "ATTR_7" to characterize instances "INSTANCE_1" and "INSTANCE_2" in records 4402, 4406. Suggestions can be made based on use in conjunction with ATTR_3 and ATTR_5.

図46は、事前に存在している構造化プレゼンテーション106内の情報に基づいて新規属性提案3715のコレクションを構成するためのプロセス4600の流れ図である。プロセス4600は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータのシステム、例えば、システム200(図2)によって実行されうる。プロセス4600は、単独で、または他の活動と連携して実行されうる。例えば、プロセス4600は、プロセス4300(図43)で実行されうる。他の例として、プロセス4600は、プロセス3800(図38)におけるステップ3810で、単独で、またはプロセス3900、4100、4500(図39、41、45)のうちの1つまたは複数と連携して実行されうる。いくつかの実装では、プロセス4600は、入力を(例えば、システム200のユーザーから、または他のシステムもしくはプロセスから)受け取ったことに応答して実行されうる。例えば、プロセス4600は、検索文字列を受け取ったことに応答して検索エンジン202によって実行されうる。   FIG. 46 is a flow diagram of a process 4600 for constructing a collection of new attribute proposals 3715 based on pre-existing information in the structured presentation 106. Process 4600 may be performed by one or more computer systems, eg, system 200 (FIG. 2), that perform operations by executing one or more machine-readable instruction sets. Process 4600 may be performed alone or in conjunction with other activities. For example, process 4600 may be performed in process 4300 (FIG. 43). As another example, process 4600 may be performed alone or in conjunction with one or more of processes 3900, 4100, 4500 (FIGS. 39, 41, 45) at step 3810 in process 3800 (FIG. 38). Can be done. In some implementations, process 4600 may be performed in response to receiving input (eg, from a user of system 200 or from another system or process). For example, process 4600 may be performed by search engine 202 in response to receiving a search string.

プロセス4600を実行するシステムは、1つまたは複数の指定されたインスタンスに関する1つまたは複数の信頼できるソースを識別することができる(ステップ4605)。例えば、システムは、例えばプログラマーによってアセンブルされた電子文書コレクション102内の文書の信頼できるソースのコレクションにアクセスすることができる。   The system performing process 4600 may identify one or more trusted sources for one or more specified instances (step 4605). For example, the system can access a collection of trusted sources of documents in the electronic document collection 102 assembled, for example, by a programmer.

他の例として、システムは、電子文書コレクション102内の文書の1つまたは複数の信頼できるソースをそのユーザーの観点から「信頼できる」ものとして識別するユーザー特有の入力を受け取ることができる。例えば、事前に存在している構造化プレゼンテーション106を表示するディスプレイ画面104は、閲覧者が文書の信頼できるソースを指定することを可能にするGUIコンポーネントを備えることができる。信頼できるソースの識別は、検索クエリと連動して受け取ることができる。例えば、閲覧者は、JD POWER AND ASSOCIATES、AMAZON.COM、およびMAJOR LEAGUE BASEBALLをそれぞれhttp://www.jdpower.com/、http://www.amazon.com/、およびhttp://www.mlb.com/にある文書の信頼できるソースとして識別することができる。いくつかの実装では、ユーザー特有の入力は、ソースが信頼できるものである主題を識別することができる。例えば、MAJOR LEAGUE BASEBALLは、ベースボールの統計の信頼できるソースして識別されうるが、薬物検査に関する情報の信頼できるソースとしてはみなされえない。   As another example, the system may receive user-specific input that identifies one or more trusted sources of documents in the electronic document collection 102 as “trusted” from the user's perspective. For example, the display screen 104 displaying the pre-existing structured presentation 106 can include a GUI component that allows the viewer to specify a trusted source of the document. The identity of the trusted source can be received in conjunction with the search query. For example, viewers can use JD POWER AND ASSOCIATES, AMAZON.COM, and MAJOR LEAGUE BASEBALL at http://www.jdpower.com/, http://www.amazon.com/, and http: // www. Can be identified as a trusted source of documents at mlb.com/. In some implementations, user-specific input can identify the subject matter for which the source is reliable. For example, MAJOR LEAGUE BASEBALL can be identified as a reliable source of baseball statistics, but cannot be considered as a reliable source of information about drug tests.

さらに他の例として、プロセス4600を実行するシステムは、信頼できるソースの「一般」コレクションをアセンブルするために複数のユーザーからの信頼できるソースを識別するユーザー特有の入力のコレクションを分析することができる。例えば、多数のユーザーが、AMERICAN AUTOMOBILE ASSOCIATION (AAA)を信頼できるものとして識別することができる。次いで、これらの識別結果の統計分析に基づき、AAAを信頼できるソースのコレクションに追加することができる。   As yet another example, a system performing process 4600 can analyze a collection of user-specific inputs that identify trusted sources from multiple users to assemble a “generic” collection of trusted sources. . For example, many users can identify AMERICAN AUTOMOBILE ASSOCIATION (AAA) as trusted. AAA can then be added to the collection of trusted sources based on statistical analysis of these identification results.

プロセス4600を実行するシステムは、事前に存在している構造化プレゼンテーションにおいて指定されているインスタンスに対する信頼できるソースから追加の属性を決定することができる(ステップ4610)。例えば、システムは、信頼できるソースによって提供される文書にアクセスし、1つまたは複数の属性を使用して指定されたインスタンスを特徴付ける1つまたは複数の文書を識別することができる。システムは、パーサーまたは他の文字列比較技術を使用してこれらの文書から属性識別子を抽出することができる。   The system performing process 4600 may determine additional attributes from a trusted source for the instance specified in the pre-existing structured presentation (step 4610). For example, the system can access documents provided by a trusted source and identify one or more documents that characterize a specified instance using one or more attributes. The system can extract attribute identifiers from these documents using parsers or other string comparison techniques.

他の例として、システムは、テーブル4400(図44)などの属性およびインスタンスを関連付けるデータコレクションにアクセスすることができる。システムは、レコード4402、4404、4406、4408、4410、4412、4414などのレコードを、事前に存在している構造化プレゼンテーションで識別されたインスタンスおよびロケーションがレコード4402、4404、4406、4408、4410、4412、4414で識別される文書が信頼できるソースに由来するものであったかどうかの両方に基づいてフィルター処理することができる。例えば、AMAZON.COMが信頼できるソースである場合、属性およびインスタンスを関連付けるコレクションをスキャンして、http://www.amazon.com/ドメインを持つ文書を識別することができる。   As another example, the system can access a data collection that associates attributes and instances, such as table 4400 (FIG. 44). The system records 4440, 4404, 4406, 4408, 4410, 4412, 4414, etc., and records 4402, 4404, 4406, 4408, 4410, instances and locations identified in a pre-existing structured presentation. The documents identified at 4412, 4414 can be filtered based both on whether they came from a trusted source. For example, if AMAZON.COM is a trusted source, a collection that associates attributes and instances can be scanned to identify documents that have the http://www.amazon.com/ domain.

プロセス4600を実行するシステムは、これらの追加のインスタンスをテーブル4400(図44)などのインスタンスおよび属性コレクション内の属性と比較することができる(ステップ4615)。例えば、システムは、文字列比較、または他の比較技術を使用して、追加のインスタンスをインスタンスおよび属性コレクションに格納されているインスタンスと比較することができる。   The system performing process 4600 may compare these additional instances to instances such as table 4400 (FIG. 44) and attributes in the attribute collection (step 4615). For example, the system can use string comparison, or other comparison techniques, to compare additional instances with instances stored in instances and attribute collections.

プロセス4600を実行するシステムは、これらの比較結果に基づいてインスタンスおよび属性コレクション内の属性を識別することができる(ステップ4620)。   The system performing process 4600 may identify attributes in the instance and attribute collection based on these comparison results (step 4620).

図47は、事前に存在している構造化プレゼンテーション106内の情報に基づいて属性提案を構成する際に使用する関係するインスタンスを識別するためのプロセス4700の流れ図である。プロセス4700は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータのシステム、例えば、システム200(図2)によって実行されうる。プロセス4700は、単独で、または他の活動と連携して実行されうる。例えば、プロセス4700は、プロセス1500(図15)で実行されうる。他の例として、プロセス4700は、プロセス3800(図38)におけるステップ3810で、単独で、またはプロセス3900、4100、4500、4600(図39、41、45、46)のうちの1つまたは複数と連携して実行されうる。いくつかの実装では、プロセス4700は、入力を(例えば、システム200のユーザーから、または他のシステムもしくはプロセスから)受け取ったことに応答して実行されうる。例えば、プロセス4700は、検索文字列を受け取ったことに応答して検索エンジン202によって実行されうる。   FIG. 47 is a flow diagram of a process 4700 for identifying related instances for use in constructing attribute proposals based on information in pre-existing structured presentation 106. Process 4700 may be performed by one or more computer systems, eg, system 200 (FIG. 2), that perform operations by executing one or more machine-readable instruction sets. Process 4700 may be performed alone or in conjunction with other activities. For example, process 4700 may be performed in process 1500 (FIG. 15). As another example, process 4700 may be performed at step 3810 in process 3800 (FIG. 38) alone or with one or more of processes 3900, 4100, 4500, 4600 (FIGS. 39, 41, 45, 46). Can be executed in conjunction. In some implementations, process 4700 may be performed in response to receiving input (eg, from a user of system 200 or from another system or process). For example, process 4700 may be performed by search engine 202 in response to receiving a search string.

プロセス4700を実行するシステムは、事前に存在している構造化プレゼンテーションにおいて指定されているインスタンスを特徴付ける属性および/または属性値に基づいて1つまたは複数の関係するインスタンスを識別することができる。例えば、システムは、指定されたインスタンスの属性値を他のインスタンスの属性値と比較することによって関係するインスタンスを識別し、他のインスタンスが関係しているかどうかを判定することができる。このような比較では、例えば、属性値が同一のものである、または属性値が特定の範囲内にあるということが要求される場合がある。このような範囲は、例えば、インタラクティブ要素を介してユーザーによって指定されるか、または事前に存在している構造化プレゼンテーション内のインスタンスをすでに特徴付けている属性値の範囲に基づいて決定することができる。   The system performing process 4700 may identify one or more related instances based on attributes and / or attribute values that characterize the instances specified in the pre-existing structured presentation. For example, the system can identify a related instance by comparing the attribute value of the specified instance with the attribute value of the other instance and determine whether the other instance is related. Such a comparison may require, for example, that the attribute values are the same or that the attribute values are within a certain range. Such ranges can be determined based on attribute value ranges that have already been characterized, for example, by instances specified in the user via interactive elements or pre-existing in the structured presentation. it can.

いくつかの実装では、プロセス4700を実行するシステムは、属性値を比較する前に属性値を通常の測定単位に変換することができる。例えば、指定された測定単位がフィートであるが、1つまたは複数の抽出された属性値の測定単位がメートルである場合、システムは、通常の技術を使用してメートル単位の値をフィートに変換することができる。   In some implementations, the system performing process 4700 may convert attribute values to normal units of measure before comparing the attribute values. For example, if the specified unit of measure is feet, but the unit of measure for one or more extracted attribute values is meters, the system converts the metric value to feet using normal techniques. can do.

図48は、事前に存在している構造化プレゼンテーション106内の情報に基づいて新規属性提案3715のコレクションを構成するためのプロセス4800の流れ図である。プロセス4800は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータのシステム、例えば、システム200(図2)によって実行されうる。プロセス4800は、単独で、または他の活動と連携して実行されうる。例えば、プロセス4800は、プロセス1500(図15)で実行されうる。他の例として、プロセス4800は、プロセス3800(図38)におけるステップ3810で、単独で、またはプロセス3900、4100、4500、4600、4700(図39、41、45、46、47)のうちの1つまたは複数と連携して実行されうる。いくつかの実装では、プロセス4800は、入力を(例えば、システム200のユーザーから、または他のシステムもしくはプロセスから)受け取ったことに応答して実行されうる。例えば、プロセス4800は、検索文字列を受け取ったことに応答して検索エンジン202によって実行されうる。   FIG. 48 is a flow diagram of a process 4800 for composing a collection of new attribute proposals 3715 based on pre-existing information in the structured presentation 106. Process 4800 may be performed by one or more computer systems, eg, system 200 (FIG. 2), that perform operations by executing one or more machine-readable instruction sets. Process 4800 may be performed alone or in conjunction with other activities. For example, process 4800 may be performed in process 1500 (FIG. 15). As another example, process 4800 is a step 3810 in process 3800 (FIG. 38), either alone or one of processes 3900, 4100, 4500, 4600, 4700 (FIGS. 39, 41, 45, 46, 47). Can be performed in conjunction with one or more. In some implementations, process 4800 may be performed in response to receiving input (eg, from a user of system 200 or from another system or process). For example, process 4800 may be performed by search engine 202 in response to receiving a search string.

プロセス4800を実行するシステムは、インスタンスおよび属性のカテゴリ化されたコレクションにアクセスすることができる(ステップ4805)。例えば、システムは、前の検索時に生成されたインスタンスおよび属性の1つまたは複数のカテゴリ化されたコレクションにアクセスするために、インスタンスおよび属性コレクション1510にアクセスすることができる。   The system executing process 4800 may access a categorized collection of instances and attributes (step 4805). For example, the system can access the instance and attribute collection 1510 to access one or more categorized collections of instances and attributes generated during previous searches.

プロセス4800を実行するシステムは、指定されたインスタンスを含むカテゴリを識別することができる(ステップ4810)。いくつかの実装では、システムは、類似の属性、類似の属性値、これらの特性の組み合わせ、および/または他の技術に基づくインスタンスを含むカテゴリを識別することができる。   The system executing process 4800 may identify a category that includes the specified instance (step 4810). In some implementations, the system may identify categories that include instances based on similar attributes, similar attribute values, combinations of these characteristics, and / or other technologies.

プロセス4800を実行するシステムは、識別されたカテゴリから1つまたは複数の属性提案を選択することができる(ステップ4815)。例えば、いくつかの実装では、属性提案を識別されたカテゴリから、そのカテゴリ内のインスタンスを特徴付けるためにそれらの属性が使用される回数に基づいて選択することができる。   The system performing process 4800 may select one or more attribute proposals from the identified category (step 4815). For example, in some implementations, attribute proposals can be selected from an identified category based on the number of times those attributes are used to characterize instances within that category.

図49は、事前に存在している構造化プレゼンテーションの特性に基づく電子文書コレクション内の電子文書からの属性提案の構成を表す表現4900である。特に、表現4900は、プロセス4800(図48)の一実装を使用する属性提案の構成を示している。   FIG. 49 is a representation 4900 representing the composition of attribute proposals from electronic documents in an electronic document collection based on pre-existing structured presentation characteristics. In particular, representation 4900 shows the configuration of an attribute proposal that uses one implementation of process 4800 (FIG. 48).

図示されているように、事前に存在している構造化プレゼンテーションでは、インスタンス4005のコレクションを指定する(つまり、インスタンス「Philadelphia」および「Chicago」)。さらに、電子文書コレクション(例えば、コレクション102)内の異なる文書から引き出されたインスタンスは、異なるコレクション4910、4915、4920にすでにカテゴリ化されている。カテゴリ化されたインスタンスコレクション4910、4915、4920は、例えば中に出現する同じインスタンス識別子「Philadelphia」および「Chicago」に基づいて指定されたインスタンス4005に関連するものとして識別されうる。   As shown, the pre-existing structured presentation specifies a collection of instances 4005 (ie, instances “Philadelphia” and “Chicago”). Further, instances derived from different documents in an electronic document collection (eg, collection 102) have already been categorized into different collections 4910, 4915, 4920. The categorized instance collection 4910, 4915, 4920 may be identified as being associated with the instance 4005 designated based on, for example, the same instance identifiers “Philadelphia” and “Chicago” appearing therein.

図示されているように、カテゴリ化されたインスタンスコレクション4910、4915、4920は、さまざまな異なる方法でカテゴリ化されている。特に、カテゴリ化されたインスタンスコレクション4910は、「North American Cities」のコレクションとしてカテゴリ化されている。カテゴリ化されたインスタンスコレクション4915は、「National League East Teams」のコレクションとしてカテゴリ化されている。カテゴリ化されたインスタンスコレクション4920は、「Popular Movies」のコレクションとしてカテゴリ化されている。システム200の背景状況において、カテゴリ化されたインスタンスコレクション4910、4915、4920は、データセンター208(図2)に格納することができる。つまり、システム200は、すでに受け取っている検索文字列に基づいてインスタンスの1つまたは複数のカテゴリを生成することができる。したがって、検索エンジン202が、検索文字列に基づいて検索を実行した後、検索エンジン202は、結果をカテゴリ化し、それらをデータセンター208内に格納することができる。その後の検索時に、これらのカテゴリ化された結果にアクセスし、分析して、属性提案を生成することができる。   As shown, the categorized instance collections 4910, 4915, 4920 are categorized in a variety of different ways. In particular, the categorized instance collection 4910 is categorized as a collection of “North American Cities”. Categorized instance collection 4915 is categorized as a collection of “National League East Teams”. Categorized instance collection 4920 is categorized as a collection of “Popular Movies”. In the context of the system 200, the categorized instance collections 4910, 4915, 4920 can be stored in the data center 208 (FIG. 2). That is, system 200 can generate one or more categories of instances based on search strings that have already been received. Thus, after search engine 202 performs a search based on the search string, search engine 202 can categorize the results and store them in data center 208. During subsequent searches, these categorized results can be accessed and analyzed to generate attribute proposals.

事前に存在している構造化プレゼンテーションで指定されているインスタンスを含むカテゴリ化されたインスタンスコレクションは、例えば、指定されたインスタンスを特徴付ける属性と異なるカテゴリに含まれるインスタンスを特徴付ける属性との間の類似度に基づいて識別されうる。例えば、属性「year」および「rating」の一般的な使用では、事前に存在している構造化プレゼンテーションおよびカテゴリ化されたインスタンスコレクション4920を使用して、カテゴリ化されたインスタンスコレクション4920がインスタンス4005を含むものとして識別することができる。   A categorized instance collection that includes instances specified in pre-existing structured presentations, for example, the similarity between the attributes that characterize the specified instances and the attributes that characterize instances in different categories Can be identified based on For example, a common use of the attributes “year” and “rating” is to use a pre-existing structured presentation and a categorized instance collection 4920 as the categorized instance collection 4920 Can be identified as including.

いくつかの実装では、カテゴリ化されたインスタンスコレクション内の属性のサブセットは、カテゴリに含まれるインスタンスを特徴付ける属性に基づいて属性提案として選択されうる。例えば、属性「Start time」を使用して動画インスタンスを特徴付けることは、現在再生中の動画に関する情報のみが構造化表示に含まれるという指示としてみなすことができる。したがって、「playing at」および「coupons available」などの属性は、属性提案のリストに含まれうる。他の例として、属性「year」は、属性「Start time」を使用して事前に存在している構造化表示における動画インスタンスを特徴付けることに基づき属性提案のリストから除外することができる。   In some implementations, a subset of attributes in the categorized instance collection may be selected as an attribute proposal based on attributes that characterize the instances included in the category. For example, characterizing a video instance using the attribute “Start time” can be viewed as an indication that only information about the currently playing video is included in the structured display. Thus, attributes such as “playing at” and “coupons available” may be included in the list of attribute proposals. As another example, the attribute “year” may be excluded from the list of attribute proposals based on characterizing the animated instance in the pre-existing structured display using the attribute “Start time”.

図50は、事前に存在している構造化プレゼンテーション106内の情報に基づいて新規属性提案3715のコレクションを構成するために使用されうるプロセスのコレクション5000の略図である。   FIG. 50 is a schematic diagram of a collection 5000 of processes that can be used to construct a collection of new attribute proposals 3715 based on pre-existing information in structured presentation 106.

コレクション5000内のプロセスは、潜在的属性5005の大きなコレクションに連続的に適用され、属性提案のより小さなコレクション5010を生成するフィルターとみなすことができる。それぞれのフィルターは、ユーザーに提示されるか、または構造化プレゼンテーションに直接追加されうる属性提案コレクション5010から潜在的属性5005を除外することができる。   The processes in collection 5000 can be viewed as a filter that is applied continuously to a large collection of potential attributes 5005 and produces a smaller collection 5010 of attribute proposals. Each filter can exclude potential attributes 5005 from the attribute proposal collection 5010 that can be presented to the user or added directly to the structured presentation.

フィルター5015、5020、5025は、任意の順序で適用できる。しかし、一般に、フィルター5015、5020、5025は、粒度の順序で適用される。特に、潜在的属性の数を最大量減らすフィルター5015、5020、5025が最初に適用され、潜在的属性の数を最小量減らすフィルター5015、5020、5025が最後に適用される。   Filters 5015, 5020, 5025 can be applied in any order. However, in general, the filters 5015, 5020, 5025 are applied in order of particle size. In particular, filters 5015, 5020, 5025 that reduce the number of potential attributes by a maximum amount are applied first, and filters 5015, 5020, 5025 that reduce the number of potential attributes by a minimum amount are applied last.

いくつかの実装では、フィルター5015、5020、5025のうちのどれかをコレクション5000から省き、および/または追加のフィルターをコレクション5000に追加することができる。例えば、ユーザーによって供給される入力に従って潜在的属性5005をフィルター処理することができるユーザー指定フィルターをコレクション5000に追加することができる。   In some implementations, any of the filters 5015, 5020, 5025 can be omitted from the collection 5000 and / or additional filters can be added to the collection 5000. For example, a user-specified filter can be added to collection 5000 that can filter potential attributes 5005 according to input supplied by the user.

図51は、事前に存在している構造化プレゼンテーション106内の情報に基づいて新規属性提案3715のコレクションを構成するためのプロセス5100の流れ図である。プロセス5100は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータのシステム、例えば、システム200(図2)によって実行されうる。プロセス5100は、単独で、または他の活動と連携して実行されうる。例えば、プロセス5100は、プロセスコレクション5000におけるプロセスの1つまたは複数と連携して反復実行されうる。いくつかの実装では、プロセス5100は検索文字列を受け取ったことに応答して実行されうる。   FIG. 51 is a flow diagram of a process 5100 for composing a collection of new attribute proposals 3715 based on pre-existing information in the structured presentation 106. Process 5100 may be performed by one or more computer systems, eg, system 200 (FIG. 2), that perform operations by executing one or more machine-readable instruction sets. Process 5100 may be performed alone or in conjunction with other activities. For example, process 5100 may be performed iteratively in conjunction with one or more of the processes in process collection 5000. In some implementations, the process 5100 may be performed in response to receiving a search string.

プロセス5100を実行するシステムは、事前に存在している構造化プレゼンテーション106で指定されたインスタンスと文書コレクションから引き出された属性との間の初期マッチングを行うことができる(ステップ5105)。初期マッチングは、プロセスコレクション5000内のフィルター処理プロセスのうちの1つまたは複数に基づくことができる。   The system performing process 5100 may perform an initial match between the instance specified in the pre-existing structured presentation 106 and the attributes derived from the document collection (step 5105). The initial matching can be based on one or more of the filtering processes in the process collection 5000.

プロセス5100を実行するシステムは、マッチングの数が大きすぎるか、小さすぎるか、または適切であるかを判定することができる(ステップ5110)。マッチングの数が少なすぎる場合、システムは、指定されたインスタンスの名前を広げることができる(ステップ5115)。例えば、プロセス5100を実行するシステムは、プロセスコレクション5000内のプロセスのうちの1つまたは複数で指定されているインスタンスについて代替スペリング、略語、同義語、代替名、ニックネーム、および/または他のキーワードを使用することができる。   The system performing process 5100 may determine whether the number of matches is too large, too small, or appropriate (step 5110). If there are too few matches, the system can widen the name of the specified instance (step 5115). For example, a system executing process 5100 may use alternative spellings, abbreviations, synonyms, alternative names, nicknames, and / or other keywords for instances specified in one or more of the processes in process collection 5000. Can be used.

プロセス5100を実行するシステムは、関係するインスタンスおよび/または属性フィルター処理5020(図50)で使用される属性および/またはインスタンスの数を減らすこともできる(ステップ5120)。属性および/またはインスタンスの数は、例えば、特定の属性および/またはインスタンスによって除外される潜在的インスタンスの数に基づいて減らすことができる。例えば、特定のインスタンスが属性によって特徴付けられるという要求条件により潜在的属性のすべてが除外される場合、このインスタンスは、関係するインスタンスおよび/または属性フィルター処理から省くことができる。除去すべき属性および/またはインスタンスは、例えば、自動的に、ユーザー入力なしで、またはユーザーから受け取った入力に基づいて決定されうる。   The system performing process 5100 may also reduce the number of attributes and / or instances used in the related instance and / or attribute filtering 5020 (FIG. 50) (step 5120). The number of attributes and / or instances can be reduced, for example, based on the number of potential instances that are excluded by a particular attribute and / or instance. For example, if the requirement that a particular instance is characterized by an attribute excludes all of the potential attributes, this instance can be omitted from the related instances and / or attribute filtering. The attributes and / or instances to be removed can be determined, for example, automatically, without user input, or based on input received from the user.

ここでもまた、システムは、事前に存在している構造化プレゼンテーション106で指定されたインスタンスと文書コレクションから引き出されたインスタンスとの間のマッチングを行おうとすることができるが、このときには変更されたパラメータを使用する(ステップ5122)。このマッチングは、プロセスコレクション5000内のフィルター処理プロセスのうちの1つまたは複数を使用して行うこともできる。   Again, the system can attempt to match between the instance specified in the pre-existing structured presentation 106 and the instance derived from the document collection, but this time the modified parameter Is used (step 5122). This matching can also be done using one or more of the filtering processes in the process collection 5000.

マッチングの数が多すぎると判定された場合(ステップ5110)、プロセス5100を実行するシステムは、関係する属性および/またはインスタンスフィルター処理5020(図50)で使用される属性および/またはインスタンスの数を増やすことができる(ステップ5128)。属性および/またはインスタンスの数は、例えば、特定の属性および/またはインスタンスによって除外される潜在的属性の数に基づいて増やすことができる。追加すべき属性および/またはインスタンスは、例えば、自動的に、ユーザー入力なしで、またはユーザーから受け取った入力に基づいて決定されうる。例えば、追加するインスタンスは、プロセス4800(図48)を使用して決定することができる。   If it is determined that there are too many matches (step 5110), the system performing process 5100 determines the number of attributes and / or instances used in the relevant attribute and / or instance filtering 5020 (Figure 50). It can be increased (step 5128). The number of attributes and / or instances can be increased based on, for example, the number of potential attributes that are excluded by a particular attribute and / or instance. The attributes and / or instances to be added can be determined, for example, automatically, without user input, or based on input received from the user. For example, the instance to add can be determined using process 4800 (FIG. 48).

プロセス5100を実行するシステムは、変更されたパラメータに基づいてマッチングを選別することができる(ステップ5130)。特に、インスタンスの狭められた範囲および/または増やした数を関係する値フィルター処理5025(図50)で使用することができる。   The system performing process 5100 may screen matches based on the changed parameters (step 5130). In particular, a narrowed range and / or an increased number of instances can be used in the associated value filtering 5025 (FIG. 50).

マッチングの数が受け入れられると判定された場合(ステップ5110)、プロセス5100を実行するシステムは、マッチした属性をユーザーに提案することができる(ステップ5135)。例えば、プロセス5100を実行するシステムは、ディスプレイ画面、例えば、ディスプレイ画面104上のGUIで1つまたは複数の属性提案を提示することができる。   If it is determined that the number of matches is acceptable (step 5110), the system performing process 5100 may suggest matched attributes to the user (step 5135). For example, a system performing process 5100 can present one or more attribute proposals on a display screen, eg, a GUI on display screen 104.

図52は、電子文書コレクション内の2つまたはそれ以上の電子文書から引き出される属性値307が構造化プレゼンテーションでユーザーに提示されるシステム5200を示す略図である。電子文書コレクション102、ディスプレイ画面104、およびデータ通信経路108に加えて、システム5200は、構造化データ5205およびマージモジュール5210を備える。動作中、システム5200は、電子文書コレクション102における電子文書の非構造化コレクションから属性値を抽出し、その情報を構造化データ5205から引き出された情報とマージして構造化プレゼンテーション106に書き込む。   FIG. 52 is a schematic diagram illustrating a system 5200 in which attribute values 307 derived from two or more electronic documents in an electronic document collection are presented to a user in a structured presentation. In addition to electronic document collection 102, display screen 104, and data communication path 108, system 5200 includes structured data 5205 and merge module 5210. In operation, the system 5200 extracts attribute values from an unstructured collection of electronic documents in the electronic document collection 102, merges the information with information derived from the structured data 5205, and writes it to the structured presentation 106.

システム5200は、構造化プレゼンテーション106のすべてまたは一部にのみ、属性値を書き込むことができる。構造化プレゼンテーションの一部のみに属性値が書き込まれる状況は多数ある。例えば、このような書き込みは、新規インスタンス(したがって新規構造化レコード)を構造化プレゼンテーション106に追加する一環として行われうる。他の例として、このような書き込みは、新規属性を構造化プレゼンテーション106に追加する一環として行われうる。さらに他の例として、このような書き込みは、構造化プレゼンテーション106内で既存の属性値の一部の改善の一環とすることができる。例えば、オリジナルの属性値のある部分は、正確かどうかをチェックしたり、または特徴付けられているインスタンスが変更されていないことを確認するためにチェックすることができる。   System 5200 can write attribute values to all or only a portion of structured presentation 106. There are many situations in which attribute values are written to only part of a structured presentation. For example, such writing can be done as part of adding a new instance (and thus a new structured record) to the structured presentation 106. As another example, such writing can be done as part of adding a new attribute to the structured presentation 106. As yet another example, such writing can be part of an improvement in some of the existing attribute values within structured presentation 106. For example, certain parts of the original attribute value can be checked to see if they are correct or to verify that the instance being characterized has not changed.

構造化データ5205は、情報の構造化コレクションである。構造化データ5205内の情報は、定義済みデータモデルに従って編成されうる。例えば、構造化データ5205は、階層または関係データモデルに従って編成され、データ記憶デバイスに格納されうる。いくつかの場合において、構造化データ5205の全部または一部を構造化プレゼンテーションでユーザーに提示することができる。例えば、いくつかの実装では、構造化データ5205は、コレクション102から引き出された新規属性値が書き込まれた構造化プレゼンテーション106を提示する同じディスプレイ画面104上でユーザーに対し提示される事前に存在している構造化プレゼンテーション106とすることができる。   Structured data 5205 is a structured collection of information. Information in structured data 5205 may be organized according to a predefined data model. For example, structured data 5205 can be organized according to a hierarchical or relational data model and stored in a data storage device. In some cases, all or part of the structured data 5205 can be presented to the user in a structured presentation. For example, in some implementations, structured data 5205 is pre-presented to the user on the same display screen 104 that presents the structured presentation 106 with the new attribute values drawn from the collection 102 written. The structured presentation 106 can be.

マージモジュール5210は、1つまたは複数のデータ処理デバイス上に配備される1つまたは複数の機械可読命令セットのコレクションである。マージモジュール5210は、新規属性値を識別するとともに、書き込まれる構造化プレゼンテーション106内に値を配置するための機能を備えることができる。マージモジュール5210によって実行されるオペレーションについては、以下でさらに詳しく説明する。   The merge module 5210 is a collection of one or more machine readable instruction sets that are deployed on one or more data processing devices. The merge module 5210 can provide functionality for identifying new attribute values and for placing values in the structured presentation 106 to be written. The operations performed by merge module 5210 are described in further detail below.

図53は、電子文書コレクション102内の2つまたはそれ以上の電子文書から引き出される属性値が構造化プレゼンテーションでユーザーに提示されるシステム5300の一実装を示す略図である。電子文書コレクション102、ディスプレイ画面104、データ通信経路108、検索エンジン202、クローラー204、ならびに圧縮、インデックス付け、および順位付けモジュール210に加えて、システム5300は、データセンター208に属性/値/インスタンスコレクション5305も備える。   FIG. 53 is a schematic diagram illustrating one implementation of a system 5300 in which attribute values derived from two or more electronic documents in the electronic document collection 102 are presented to a user in a structured presentation. In addition to electronic document collection 102, display screen 104, data communication path 108, search engine 202, crawler 204, and compression, indexing, and ranking module 210, system 5300 includes attribute / value / instance collection in data center 208. 5305 is also provided.

属性/値/インスタンスコレクション5305は、インスタンスをその属性に、さらにそれらの属性の値にも関連付ける情報のコレクションである。コレクション5305内の情報は、トリガーを受け取ったことに対する応答として(例えば、検索クエリ)、またはトリガーを受け取ることを予想して、例えば、電子文書コレクション102のインデックスを作成するプロセスの一部として、コレクション5305内の電子文書から抽出されうる。   The attribute / value / instance collection 5305 is a collection of information that associates an instance with its attributes and also with the values of those attributes. Information in collection 5305 is collected as a response to receiving a trigger (e.g., a search query) or as part of the process of indexing electronic document collection 102 in anticipation of receiving a trigger, e.g. It can be extracted from the electronic document in 5305.

インスタンス、属性、およびその値の間の関連付けは、コレクション5305内の情報記憶域を構造化することによってコレクション5305内で確立されうる。例えば、図54は、コレクション5305(図53)内の属性、値、およびインスタンスを関連付けることができるテーブル5400の略図である。テーブル5400は、レコード5402、5404、5406、5408、5410のコレクションを含み、それぞれのレコードはインスタンスの識別子を文書のロケーションの記述および識別されたインスタンスを特徴付ける属性および値に関連付ける。レコード5402、5404、5406、5408、5410内の情報は、列5415、5420、5425、5430、5435、5440、5445、5450のコレクション内に編成されうる。特に、列5415は、インスタンス識別子を含むことができる。列5420は、列5415で識別されているインスタンスを含む電子文書のロケーションの記述を含むことができる。列5425、5435、5445は、列5415で識別されるインスタンスを特徴付けるとともに、列5420内にロケーションが記述されている文書内の値でそれ自体特徴付けられる属性の記述を含むことができる。列5430、5440、5450は、列5420内にロケーションが記述されている文書内の列5415で識別されるインスタンスの列5425、5435、5445に記述されている属性を特徴付ける値の記述を含むことができる。   Associations between instances, attributes, and their values may be established within collection 5305 by structuring information storage within collection 5305. For example, FIG. 54 is a schematic diagram of a table 5400 that can associate attributes, values, and instances in collection 5305 (FIG. 53). Table 5400 includes a collection of records 5402, 5404, 5406, 5408, 5410, each record associating an instance identifier with a description of the document location and attributes and values characterizing the identified instance. Information in records 5402, 5404, 5406, 5408, 5410 may be organized in a collection of columns 5415, 5420, 5425, 5430, 5435, 5440, 5445, 5450. In particular, column 5415 can include an instance identifier. Column 5420 can include a description of the location of the electronic document that includes the instance identified in column 5415. Columns 5425, 5435, 5445 may characterize the instance identified in column 5415, and may include descriptions of attributes that are themselves characterized by values in the document whose location is described in column 5420. Columns 5430, 5440, 5450 may contain a description of values that characterize the attributes described in columns 5425, 5435, 5445 of the instance identified in column 5415 in the document whose location is described in column 5420. it can.

図示されているように、異なる電子文書は、同じインスタンスを特徴付ける異なるカテゴリおよび量の情報を含むことができる。例えば、ロケーションがレコード5404の列5420で識別される文書は、インスタンス「INSTANCE_1」の3つの属性を特徴付ける情報を含むが、ロケーションがレコード5406の列5420で識別される文書は、インスタンス「INSTANCE_1」の2つの属性を特徴付ける情報を含む。さらに、レコード5404で特徴付けられる属性(つまり、属性「ATTR_5」、属性「ATTR_6」、属性「ATTR_7」)は、レコード5406で特徴付けられる属性(つまり、属性「ATTR_3」、属性「ATTR_4」)と異なる。   As shown, different electronic documents can include different categories and quantities of information that characterize the same instance. For example, a document whose location is identified in column 5420 of record 5404 includes information characterizing the three attributes of instance “INSTANCE_1”, but a document whose location is identified in column 5420 of record 5406 is of instance “INSTANCE_1”. Contains information that characterizes two attributes. In addition, the attributes characterized in record 5404 (i.e. attribute `` ATTR_5 '', attribute `` ATTR_6 '', attribute `` ATTR_7 '') are attributed to record 5406 (i.e. attribute `` ATTR_3 '', attribute `` ATTR_4 '') Different.

さらに、たとえ同じエンティティの同じ属性を特徴付けるために使用される値でも、異なる電子文書内では異なることがある。例えば、ロケーションがレコード5402の列5420で識別される文書は、インスタンス「INSTANCE_1」の属性「ATTR_3」を特徴付ける値「VALUE_3A」を含むが、ロケーションがレコード5406の列5420で識別される文書は、同じインスタンス「INSTANCE_1」の同じ属性「ATTR_3」を特徴付ける値「VALUE_3B」を含む。   Furthermore, even values used to characterize the same attributes of the same entity may be different in different electronic documents. For example, the document whose location is identified in column 5420 of record 5402 contains the value “VALUE_3A” that characterizes the attribute “ATTR_3” of instance “INSTANCE_1”, but the document whose location is identified in column 5420 of record 5406 is the same. Contains the value “VALUE_3B” that characterizes the same attribute “ATTR_3” of the instance “INSTANCE_1”.

異なる文書において同じエンティティの同じ属性を特徴付ける値の間のそのような不一致の異なる潜在的発生源は多数ある。例えば、文書は、エンティティの属性を間違って特徴付ける偽情報を含むことがある。不注意による誤りだけでなく、属性の値が長い間に変更される可能性もある。これの例としては、例えば、ハイスクールのバスケットボール選手のインスタンスの「height」属性の値、家のインスタンスの「list price」属性の値、市のインスタンスの「mayor」属性の値が挙げられる。正しい値で更新することができる文書があるが、オリジナルであるが現在は不正な値を保持する文書もある。   There are many different potential sources of such discrepancies between values that characterize the same attributes of the same entity in different documents. For example, a document may contain fake information that incorrectly characterizes an entity's attributes. Not only inadvertent mistakes, attribute values can change over time. Examples of this include the value of the “height” attribute of the instance of a high school basketball player, the value of the “list price” attribute of the house instance, and the value of the “mayor” attribute of the city instance. Some documents can be updated with the correct values, but some documents are original but currently hold incorrect values.

さらに、完全に正確な文書であっても、異なる方法で同じエンティティの同じ属性を特徴付ける場合がある。例えば、異なる文書は、異なる単位を使用して、同じ値を表現することができる。他の例として、異なる文書は、異なる精度で同じ値を表すことができる(例えば、「about a two hour drive to Phoenix」(フェニックスまで車で約2時間)と「a 130 minute drive to Phoenix at the posted speed limits」(標識に示されている制限速度でフェニックスまで車で130分))。   Furthermore, even a completely accurate document may characterize the same attributes of the same entity in different ways. For example, different documents can represent the same value using different units. As another example, different documents can represent the same value with different accuracies (e.g., `` about a two hour drive to Phoenix '' and `` a 130 minute drive to Phoenix at the posted speed limits "(130 minutes drive to Phoenix at the speed limit shown on the sign)).

そのような不一致は、非構造化電子文書コレクション、例えば、文書コレクション102の背景状況に本質的に固有なものである。この点に関して、上で説明したように、情報を異なる仕方で提示する異なるユーザーが異なる文書をコレクション102に追加することができる。文書を追加するユーザーは、情報が矛盾なく提示されるように共同作業をすることはせず、また異なる文書内の情報の提示が変更を受けないままであることを保証するための正式なメカニズムもない。   Such inconsistencies are inherently inherent in the context of the unstructured electronic document collection, eg, the document collection 102. In this regard, as described above, different users presenting information in different ways can add different documents to the collection 102. Formal users to add documents do not collaborate so that the information is presented consistently, and a formal mechanism to ensure that the presentation of information in different documents remains unchanged Nor.

属性、値、およびインスタンスを関連付けるデータコレクション5305(例えば、テーブル5400)は、いくつもの異なる方法で形成されうる。例えば、内部的な構造化コンポーネントを含む文書が識別されうる。このような内部的な構造化コンポーネントの例として、HTML文書中に出現するテーブルおよびリスト、および同様のものが挙げられる。これらの内部的な構造化コンポーネント内の属性、値、およびインスタンスの間の関係をコピーしてデータコレクション5305を形成することができる。   A data collection 5305 (eg, table 5400) that associates attributes, values, and instances may be formed in a number of different ways. For example, a document that includes an internal structured component may be identified. Examples of such internal structured components include tables and lists that appear in HTML documents, and the like. Relationships between attributes, values, and instances in these internal structured components can be copied to form data collection 5305.

他の例として、第1の文書が属性、値、および/またはインスタンスを含むものとして識別された後、その文書のテンプレートを使用して、同じテンプレートを含む他の文書から属性、値、およびインスタンスを抽出することができる。例えば、ステレオ小売業者が同じ文書テンプレートを使用して販売のため提供される異なるステレオを記述する場合、第1のステレオに関する第1の電子文書内の情報の配列を使用して、他のステレオに関する他の電子文書から情報を抽出することができる。   As another example, after a first document is identified as containing attributes, values, and / or instances, the template for that document is used to attribute, values, and instances from other documents that contain the same template. Can be extracted. For example, if a stereo retailer describes different stereos offered for sale using the same document template, it uses the arrangement of information in the first electronic document for the first stereo to Information can be extracted from other electronic documents.

さらに他の例では、単一の文書のテンプレートを使用して、その文書から属性、値、および/またはインスタンスを抽出することができる。例えば、テンプレートにより、複数の属性およびそれらの属性を特徴付ける値の配列をインスタンスの識別子に関して指定することができる。これらの属性および/または値のいくつかが知られている場合、それらの知られている属性および/または値の配列を識別し、使用して、他の属性および/または値を識別することができる。   In yet another example, a single document template can be used to extract attributes, values, and / or instances from the document. For example, a template may specify multiple attributes and an array of values characterizing those attributes with respect to an instance identifier. If some of these attributes and / or values are known, an array of those known attributes and / or values can be identified and used to identify other attributes and / or values it can.

例えば、単一のウェブページのテンプレートにより、動画インスタンス「Citizen Kane」の識別子に関して属性/値の対の配列「Director: Orson Welles」、「Writer: Orson Welles, Herman J. Mankiewicz」、および「Release Date: May 1, 1941」を指定することができる。属性と値「Director: Orson Welles」と「Release Date: May 1, 1941」がすでに知られていた場合、動画インスタンス識別子「Citizen Kane」に関するこれらの属性および値の配列を使用して、属性/値の対「Writer: Orson Welles, Herman J. Mankiewicz」を外挿することができる。   For example, a template for a single web page might use an array of attribute / value pairs “Director: Orson Welles”, “Writer: Orson Welles, Herman J. Mankiewicz”, and “Release Date” for the identifier of the video instance “Citizen Kane”. : May 1, 1941 "can be specified. If the attributes and values "Director: Orson Welles" and "Release Date: May 1, 1941" were already known, use the attribute / value array for these video instance identifiers "Citizen Kane" "Writer: Orson Welles, Herman J. Mankiewicz" can be extrapolated.

いくつかの実装では、自然言語構文解析などの技術を使用して、インスタンス、属性、およびそれらの値を識別することができる。例えば、電子文書の構文解析を行って、電子文書内の「[Instance] has a/an [attribute] of [value]」などのフレーズを識別することができる。   In some implementations, techniques such as natural language parsing can be used to identify instances, attributes, and their values. For example, the electronic document can be parsed to identify phrases such as “[Instance] has a / an [attribute] of [value]” in the electronic document.

図55は、電子文書コレクション内の2つまたはそれ以上の電子文書から引き出される属性値を構造化プレゼンテーションでユーザーに提示するための例示的なプロセス5500の流れ図である。プロセス5500は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータによって実行されうる。プロセス5500は、他のデータ処理活動から独立して、または連携して実行されうる。例えば、プロセス5500は、プロセス600(図6)の一部として実行されうる。   FIG. 55 is a flow diagram of an example process 5500 for presenting attribute values derived from two or more electronic documents in an electronic document collection to a user in a structured presentation. Process 5500 may be performed by one or more computers that perform operations by executing one or more machine-readable instruction sets. Process 5500 may be performed independently of or in conjunction with other data processing activities. For example, process 5500 may be performed as part of process 600 (FIG. 6).

プロセス5500を実行するシステムは、インスタンス識別子および属性識別子を受け取ることができる(ステップ5505)。プロセス5500を実行するシステムは、ユーザーから直接的に(例えば、検索クエリの形で)、または間接的に(例えば、構造化データコレクション905(図9)の一部として)インスタンス識別子および属性識別子を受け取ることができる。   The system executing process 5500 may receive the instance identifier and attribute identifier (step 5505). The system performing process 5500 can retrieve instance and attribute identifiers directly from the user (e.g., in the form of a search query) or indirectly (e.g., as part of structured data collection 905 (Figure 9)). Can receive.

プロセス5500を実行するシステムは、属性の値を含む受け取ったインスタンスに関連する電子文書を識別することができる(ステップ5510)。例えば、システムは、データセンター208(図53)内の属性/値/インスタンスコレクション5305にアクセスして、関連する電子文書を識別することができる。他の例として、検索エンジン(例えば、検索エンジン202)は、インスタンスおよび属性識別子を使用してキーワード検索を実行することで関連する文書を識別することができる。いくつかの場合において、そのようなキーワード検索は、言語構文解析、または値の識別を容易にする他の技術で補うことができる。   The system performing process 5500 may identify an electronic document associated with the received instance that includes the value of the attribute (step 5510). For example, the system can access the attribute / value / instance collection 5305 in the data center 208 (FIG. 53) to identify the associated electronic document. As another example, a search engine (eg, search engine 202) can identify related documents by performing a keyword search using the instance and attribute identifier. In some cases, such keyword searches can be supplemented with linguistic parsing, or other techniques that facilitate value identification.

プロセス5500を実行するシステムは、構造化プレゼンテーションで提示するために識別されたインスタンスの識別された属性に対する値のサブセットを画定することができる。これらの値のサブセットは、構造化プレゼンテーションに書き込むために適切であると考えられる、または適切である可能性がある、1つまたは複数の値を含むことができる。特に、これらの値のサブセットは、識別されたインスタンスの識別された属性を、正確に、かつ構造化プレゼンテーションの閲覧者の望みに一致する形で、特徴付けるものとして考えることができる。さらに以下で説明されているように、構造化プレゼンテーションの閲覧者の望みは、例えば、閲覧者から受け取った値の選択結果に基づいて、または例えば、構造化データ905(図9)などの情報の事前に存在している構造化コレクション内の同じ、または他のインスタンスの同じ、または他の属性の特徴付けに基づいて確認することができる。   The system performing process 5500 may define a subset of values for the identified attributes of the identified instances for presentation in the structured presentation. These subsets of values may include one or more values that are considered or may be appropriate for writing to the structured presentation. In particular, a subset of these values can be thought of as characterizing the identified attributes of the identified instance exactly and in a manner consistent with the desire of the viewer of the structured presentation. As described further below, the viewer's desire for a structured presentation can be based on, for example, the results of selection of values received from the viewer, or for information such as, for example, structured data 905 (FIG. 9). Confirmation can be based on the characterization of the same or other attributes of the same or other instances in a pre-existing structured collection.

プロセス5500を実行するシステムは、値のサブセットが書き込まれた構造化プレゼンテーションを表示するための命令を備えることができる(ステップ5520)。そこで、構造化プレゼンテーションは、電子文書のコレクションから収集された情報(つまり、電子文書コレクションから収集された値のサブセット)に基づいて提示することができる(ステップ615、図6)。   The system performing process 5500 may comprise instructions for displaying the structured presentation with the subset of values written (step 5520). Thus, the structured presentation can be presented based on information collected from the collection of electronic documents (ie, a subset of values collected from the electronic document collection) (step 615, FIG. 6).

いくつかの実装では、プロセス5500を数回、例えば、インスタンス識別子および/または属性識別子の個数の分だけ実行することができる。   In some implementations, the process 5500 may be performed several times, for example, the number of instance identifiers and / or attribute identifiers.

図56は、構造化プレゼンテーションで提示する1つまたは複数の値を確定するためのプロセス5600の流れ図である。プロセス5600は、単独で、または他の活動と連携して実行されうる。例えば、プロセス5600は、プロセス5500におけるステップ5515で実行されうる。   FIG. 56 is a flow diagram of a process 5600 for determining one or more values to present in a structured presentation. Process 5600 may be performed alone or in conjunction with other activities. For example, process 5600 may be performed at step 5515 in process 5500.

プロセス5600を実行するシステムは、電子文書コレクション内の2つまたはそれ以上の文書からの属性の値を2つまたはそれ以上のグループに分けることができる(ステップ5605)。グループ分けされた値は、電子文書から直接引き出されるか、またはテーブル5400(図54)のような属性、値、およびインスタンスの関連付けなどの電子文書のコンテンツの記述から引き出されうる。   The system performing process 5600 may divide the values of attributes from two or more documents in the electronic document collection into two or more groups (step 5605). Grouped values can be derived directly from the electronic document or can be derived from a description of the content of the electronic document, such as attribute, value, and instance associations such as table 5400 (FIG. 54).

システムは、値をいつグループ分けすべきかを決定するための1つまたは複数の異なる標準を使用して値をグループ分けすることができる。例えば、1つの標準では、グループ分けされた値が同一であることを要求することができる。例えば、2つの値「4」をグループにまとめることができる。他の標準では、数値が同一である特定の範囲内にあることを要求することができる。例えば、値「3.14」および「3.14159」をグループにまとめることができる。他の標準では、語の値が同一であるか、または同一の意味を持つことを要求することができる。例えば、語「czar」、「czar」、および「tsar」はすべて、グループにまとめることができる。他の標準では、語の値が概念のオントロジーにおいて同じ概念を表すことを要求することができる。例えば、語「pink」および「mauve」をグループにまとめることができる。他の標準では、異なるフォーマットで書き込まれる値をグループにまとめることができる。例えば、日付「July 25, 1982」および「7/25/1982」をグループにまとめることができる。他の標準では、異なる単位で書き込まれる値をグループにまとめることができる。例えば、測定単位「1m」および「100cm」をグループにまとめることができる。他の標準では、異なるが、ほぼ等しい単位で書き込まれる値をグループにまとめることができる。例えば、測定単位「1m」および「39 inches」をグループにまとめることができる。   The system can group values using one or more different standards for determining when the values should be grouped. For example, one standard may require that grouped values are the same. For example, two values “4” can be grouped together. Other standards may require that numerical values be within a specific range that is the same. For example, the values “3.14” and “3.14159” can be grouped together. Other standards may require that the word values be identical or have the same meaning. For example, the words “czar”, “czar”, and “tsar” can all be grouped together. Other standards may require that word values represent the same concept in the concept ontology. For example, the words “pink” and “mauve” can be grouped together. Other standards allow values written in different formats to be grouped together. For example, the dates “July 25, 1982” and “7/25/1982” can be grouped together. In other standards, values written in different units can be grouped together. For example, the measurement units “1 m” and “100 cm” can be grouped together. Other standards allow groups of values that are written in different but nearly equal units. For example, measurement units “1 m” and “39 inches” can be grouped together.

これらのグループ分けを使用することで、プロセス5600を実行するシステムは、以下のサブプロセスのうちの1つまたは複数を任意の順序で実行し、1つのグループを選択し、したがって、属性値のコレクションから値のサブセットを選択することができる。   Using these groupings, the system running process 5600 performs one or more of the following subprocesses in any order, selects a group, and therefore a collection of attribute values A subset of values can be selected.

第1のサブプロセスでは、プロセス5600を実行するシステムは、構造化プレゼンテーションで提示するため最高の「value」を持つグループを選択することができる(ステップ5610)。いくつかの実装では、グループの「value」は、そのグループ内の値のカウントを反映する。統計用語によれば、プロセス5500を実行するシステムは、電子文書コレクション内で高い頻度を有する値を選択することができる。実際、このアプローチにより、電子文書コレクション内の文書はインスタンスの属性の値について「vote」することができる。   In the first sub-process, the system performing process 5600 may select the group with the highest “value” to present in the structured presentation (step 5610). In some implementations, the “value” of a group reflects the count of values within that group. According to statistical terms, the system performing process 5500 can select a value that has a high frequency in the electronic document collection. In fact, this approach allows documents in an electronic document collection to “vote” on the value of an instance attribute.

他の実装では、グループの「value」は、値のカウントを反映するだけでなく、値が引き出される文書の特性を反映するパラメータによる個別のカウントの重みまたはスコアとなる。例えば、カウントは、例えば、値が引き出される文書のページランク、ユーザーによって与えられたその文書に対する重み係数、その文書から引き出された他の値の個数、または文書の「age」に基づいて重み付けすることができる。例えば、最近作成された文書ほど、特定のインスタンスの属性を特徴付ける際の正確さが増すものと考えることができる。   In other implementations, the “value” of the group is not only a value count, but also an individual count weight or score with parameters that reflect the characteristics of the document from which the value is derived. For example, the count is weighted based on, for example, the page rank of the document from which the value is drawn, the weighting factor for that document given by the user, the number of other values drawn from the document, or the “age” of the document be able to. For example, a more recently created document may be considered more accurate when characterizing attributes of a particular instance.

このサブプロセスのアプローチは、例えば、1つの電子文書上の値が誤字であるときの、不注意による属性の特徴付けの誤りをなくすうえで有効である。しかし、単独では、このアプローチは、特定の状況の下で、不適切な値を選択する可能性がある。例えば、多数の文書が体積属性をリットル単位で特徴付けているとしても、閲覧者は、構造化プレゼンテーションにおいてガロン単位で特徴付けられたその属性を有することに関心がある場合がある。   This sub-process approach is effective, for example, in eliminating inadvertent attribute characterization errors when values on one electronic document are typographical errors. However, alone, this approach may select inappropriate values under certain circumstances. For example, even if a large number of documents characterize a volume attribute in liters, a viewer may be interested in having that attribute characterized in gallons in a structured presentation.

第2のサブプロセスでは、プロセス5600を実行するシステムは、例えば、許容可能な値の範囲、または許容可能な値の単位に対する制約条件のユーザー指定を受け取ることができる(ステップ5615)。例えば、システムは、ディスプレイ画面、例えば、ディスプレイ104(図1)に、ユーザーが値の範囲もしくは測定制約条件の単位を選択することを可能にするGUIコンポーネントを備えることができる。制約条件は、上限なし(例えば、「値>1」)または上下限が決まっている(例えば、1から10までの範囲の値)とすることができる。   In the second sub-process, the system performing process 5600 may receive a user specification of constraints on, for example, an acceptable value range, or an acceptable value unit (step 5615). For example, the system can include a GUI component that allows a user to select a range of values or units of measurement constraints on a display screen, eg, display 104 (FIG. 1). The constraint condition may be that there is no upper limit (for example, “value> 1”) or that the upper and lower limits are determined (for example, a value in the range of 1 to 10).

この制約条件を受け取った後、プロセス5600を実行するシステムは、構造化プレゼンテーションで提示するため受け取った制約条件と合致するグループを選択することができる(ステップ5620)。例えば、ユーザーが「meters」を適切な測定単位として選択した場合、システムの実行により、メートル単位で表される値の1つまたは複数のグループを選択することができる。   After receiving this constraint, the system performing process 5600 may select a group that matches the received constraint for presentation in the structured presentation (step 5620). For example, if the user selects “meters” as the appropriate unit of measurement, the system implementation may select one or more groups of values expressed in meters.

このサブプロセスのアプローチは、構造化プレゼンテーションで掲示される値が編成された、システム配置で提示されることを保証するうえで有効である。例えば、Michael Jordanの身長を例えば特徴付けるために使用される値の測定単位は、Magic Johnsonの身長を特徴付けるために使用される値の測定単位と同一であるように制約することができる。このような編成された、システム配置により、ユーザーは、値を提示する単位を気にせずに、異なるインスタンスの同じ属性の値を容易に比較することができる。   This sub-process approach is effective in ensuring that the values posted in structured presentations are presented in an organized system layout. For example, the unit of measure of the value used to characterize Michael Jordan's height, for example, can be constrained to be the same as the unit of measure of the value used to characterize Magic Johnson's height. Such an organized system arrangement allows the user to easily compare the values of the same attribute in different instances without having to worry about the unit in which the value is presented.

第3のサブプロセスでは、プロセス5600を実行するシステムは、それぞれのグループ内の属性値を引き出した文書の「quality」を決定することができる(ステップ5625)。文書の「quality」は、文書内の情報が正確であり、属性の値を誤って特徴付けることをしない確率を反映するものとしてよい。例えば、商品の商業的サプライヤーは、一般的に、それらの商品に関する正確な情報を提供する。したがって、商業的サプライヤーによって提供される情報の「quality」は、個人によって提供される情報の「quality」より高いとみなすことができる。他の例として、情報が引き出される文書の品質を決定する際にバイアスを考慮することができる。例えば、独立情報源であると言われているソース(例えば、連邦議会予算事務局など)から引き出された情報は、政党から引き出された情報に比べて品質が高いと考えてよい。   In the third sub-process, the system executing process 5600 can determine the “quality” of the document from which the attribute value in each group was derived (step 5625). The “quality” of the document may reflect the probability that the information in the document is accurate and does not mischaracterize the value of the attribute. For example, commercial suppliers of goods generally provide accurate information about those goods. Thus, the “quality” of information provided by a commercial supplier can be considered higher than the “quality” of information provided by an individual. As another example, bias can be taken into account when determining the quality of the document from which information is retrieved. For example, information derived from a source that is said to be an independent information source (eg, Congressional Budget Office) may be considered of higher quality than information derived from political parties.

他の例として、文書の品質は、ユーザーによる文書のソース、または文書それ自体の品質の指定に基づくものとすることができる。例えば、ユーザーは、コンシューマーユニオン (コンシューマーレポートの発行元)から引き出された自動車信頼性情報は高品質であるが、ロード&トラック誌から引き出された自動車信頼性情報はそうでないと指示することができる。プロセス5600を実行するシステムは、最高品質の文書から引き出された値を含むグループを選択することもできる(ステップ5630)。   As another example, the quality of a document may be based on the user's specification of the source of the document or the quality of the document itself. For example, the user can indicate that the car reliability information drawn from the consumer union (the publisher of the consumer report) is high quality, but the car reliability information drawn from Road & Truck magazine is not. . The system performing process 5600 may also select a group that includes values derived from the highest quality document (step 5630).

このサブプロセスのアプローチは、属性の値が議論のテーマとなっている状況では特に有効である。例えば、大学のポイントガードの真の身長、フィラデルフィア最高のチーズステーキ、および特定のホテルに与えられた星の数など、さまざまな値に関する意見の相違がある。閲覧者がそのような属性を特徴付ける値の好ましい「high quality」提供者を指定できるようにすることで、構造化プレゼンテーションを閲覧者の期待にそって修正することができる。   This sub-process approach is particularly useful in situations where attribute values are the subject of discussion. There are disagreements about various values, for example, the true height of a college point guard, the best cheese steak in Philadelphia, and the number of stars given to a particular hotel. By allowing the viewer to specify a preferred “high quality” provider of values that characterize such attributes, the structured presentation can be modified to meet the viewer's expectations.

上述のように、これらの活動および他の活動の組み合わせを実行して、構造化プレゼンテーションで提示するための1つまたは複数の値を選択することができる。例えば、値の総数のうちのあるパーセンテージ(例えば、>10%)を代表する値のすべてのグループを、第1のスクリーニングで選択し(ステップ5610)、その後、単位指定に基づいてこれらのグループをさらに選別することができる(ステップ5620)。残りのグループは、それぞれのグループ内の属性値を引き出した文書の品質に基づいてさらに選別することができる(ステップ5630)。したがって、いくつかの実装では、プロセス5600は、首尾一貫した測定単位とともに、特徴付けの誤りのない、また閲覧者が好むソースから引き出された、残りのグループからの1つまたは複数の値を提供することができる。   As described above, a combination of these activities and other activities can be performed to select one or more values for presentation in the structured presentation. For example, all groups of values that represent a certain percentage of the total number of values (e.g.,> 10%) are selected in the first screening (step 5610), and then these groups are selected based on unit designation. Further sorting can be performed (step 5620). The remaining groups can be further screened based on the quality of the document from which the attribute values within each group are derived (step 5630). Thus, in some implementations, process 5600 provides one or more values from the remaining groups that are consistent with the unit of measure and that are derived from a source that is not mischaracterized and preferred by the viewer. can do.

図57は、構造化プレゼンテーションで提示する1つまたは複数の値を選択するためのプロセス5700の流れ図である。プロセス5700は、単独で、または他の活動と連携して実行されうる。例えば、プロセス5700は、プロセス5500(図55)におけるステップ5515で、単独で、またはプロセス5600(図56)のサブプロセスのうちの1つまたは複数と連携して実行されうる。   FIG. 57 is a flow diagram of a process 5700 for selecting one or more values to present in a structured presentation. Process 5700 may be performed alone or in conjunction with other activities. For example, process 5700 may be performed at step 5515 in process 5500 (FIG. 55) alone or in conjunction with one or more of the sub-processes of process 5600 (FIG. 56).

プロセス5700を実行するシステムは、電子文書コレクション内の2つまたはそれ以上の文書から抽出された属性の値を2つまたはそれ以上のグループに分けることができる(ステップ5605)。プロセス5700を実行するシステムは、値のグループの記述をユーザーに提示することができる(ステップ5705)。例えば、システムは、それぞれのグループ内の最も一般的な値、またはそれぞれのグループ内の値のうちのいくつかの値のリストを、ディスプレイに、例えば、ディスプレイ画面104(図1)に、ユーザーに向けて表示することができる。いくつかの実装では、値のグループの記述は、それらのグループを特徴付ける追加の情報を含んでいてもよい。例えば、それぞれのグループ内の値の個数の計数を表示すること、それぞれのグループ内に見つかる抽出された値のパーセントを反映するパーセンテージを表示すること、および/またはグループ内の測定単位の記述を表示することが可能である。他の例として、それぞれのグループ内の値の抽出元であった電子文書の品質の推定を表示することができる。さらに他の例として、それぞれのグループ内の値の抽出元であった文書の識別、ロケーション、および/またはスニペットもしくは他の抜粋を表示することができる。   The system performing process 5700 may divide the values of attributes extracted from two or more documents in the electronic document collection into two or more groups (step 5605). The system executing process 5700 may present a description of the group of values to the user (step 5705). For example, the system can list the most common values in each group, or a list of some of the values in each group, on the display, for example, on the display screen 104 (FIG. 1). Can be displayed. In some implementations, the group description of values may include additional information that characterizes those groups. For example, display a count of the number of values in each group, display a percentage that reflects the percentage of extracted values found in each group, and / or display a description of the units of measure within the group Is possible. As another example, an estimate of the quality of the electronic document from which the values in each group were extracted can be displayed. As yet another example, the identification, location, and / or snippet or other excerpt from which the values in each group were extracted can be displayed.

いくつかの実装では、値のグループの記述は、確かさベースの順序付けでソートされる。つまり、値のグループの記述は、プロセス5700を実行するシステムに対するそれぞれのグループ内の値の正確さに関する確かさに応じて順序付けられる。それぞれのグループ内の値の正確さの確かさは、例えば、それぞれのグループ内の値の個数、それらの値の抽出元となった文書の品質、および同様のものに基づいて決定できる。   In some implementations, descriptions of groups of values are sorted with certainty-based ordering. That is, the description of the group of values is ordered according to the certainty regarding the accuracy of the values within each group for the system executing process 5700. The certainty of the accuracy of the values in each group can be determined based on, for example, the number of values in each group, the quality of the document from which those values were extracted, and the like.

プロセス5700を実行するシステムは、値の所望のグループのユーザー選択を受け取ることができる(ステップ5710)。例えば、システムは、所望の値のグループの選択を識別するユーザーインタラクションを受け取ることができる。   The system performing process 5700 may receive a user selection of a desired group of values (step 5710). For example, the system can receive a user interaction that identifies a selection of a group of desired values.

いくつかの実装では、プロセス5700を実行するシステムは、ユーザー選択に基づいて構造化プレゼンテーションの他の態様を変更することもできる(ステップ5715)。例えば、ユーザーがメートルの測定単位で値のグループを選択し、他のインスタンスの同じ属性を特徴付けるが、フィートの測定単位で提示される他の値がある場合、そのような値は、構造化プレゼンテーション106で変換され、メートル単位で掲示されうる。   In some implementations, the system performing process 5700 may change other aspects of the structured presentation based on user selection (step 5715). For example, if a user selects a group of values in meter units of measurement and characterizes the same attributes of other instances, but there are other values presented in feet units of measure, such values are structured presentations. Converted at 106 and can be posted in meters.

図58は、構造化プレゼンテーションで提示する1つまたは複数の値を選択するための例示的なプロセス5800の流れ図である。プロセス5800は、単独で、または他の活動と連携して実行されうる。例えば、プロセス5800は、プロセス5500(図55)におけるステップ5515で、単独で、またはプロセス5600(図56)のサブプロセスのうちの1つまたは複数および/またはプロセス5700(図57)と連携して実行されうる。   FIG. 58 is a flow diagram of an example process 5800 for selecting one or more values to present in a structured presentation. Process 5800 may be performed alone or in conjunction with other activities. For example, process 5800 may be used alone or in conjunction with one or more of the sub-processes of process 5600 (FIG. 56) and / or process 5700 (FIG. 57) at step 5515 in process 5500 (FIG. 55). Can be executed.

プロセス5800を実行するシステムは、構造化データコレクション、例えば、構造化データコレクション905においてインスタンスおよび他の属性に関連する電子文書コレクション内の電子文書を識別することができる(ステップ5805)。上述のように、構造化データコレクション905は、構造化プレゼンテーション106の一バージョンとすることができる。   The system performing process 5800 may identify electronic documents in a structured data collection, eg, an electronic document collection associated with instances and other attributes in structured data collection 905 (step 5805). As described above, the structured data collection 905 can be a version of the structured presentation 106.

構造化データコレクション内のインスタンスおよび他の属性に関連する文書は、さまざまな方法で識別されうる。例えば、プロセス5800を実行するシステムは、インスタンス、それらの属性、およびこれらの属性を特徴付ける値を関連付けるデータコレクション、例えば、属性/値/インスタンスコレクション5305(図53)にアクセスすることができる。構造化データコレクション内のインスタンスおよび他の属性に関連する情報を含む文書は、例えば、両方のデータコレクション内のインスタンスの識別子および属性を比較することによって、その中で識別されうる。他の例として、プロセス5800を実行するシステムは、インスタンスの識別子および属性を1つまたは複数の検索クエリにおける検索語として使用することができる。このような検索クエリは、単独で、または言語構文解析および文字列比較などの他の抽出技術と連携して、電子文書コレクション内の関連する文書を識別するために使用することができる。   Documents related to instances and other attributes in the structured data collection can be identified in various ways. For example, a system executing process 5800 may access a data collection that associates instances, their attributes, and the values that characterize these attributes, eg, attribute / value / instance collection 5305 (FIG. 53). A document that contains information related to instances and other attributes in the structured data collection can be identified therein, for example, by comparing the identifiers and attributes of the instances in both data collections. As another example, a system performing process 5800 may use an instance identifier and attribute as a search term in one or more search queries. Such search queries can be used alone or in conjunction with other extraction techniques such as language parsing and string comparison to identify relevant documents in an electronic document collection.

プロセス5800を実行するシステムは、識別された文書から構造化プレゼンテーションで提示する1つまたは複数の値を選択することもできる(ステップ5810)。図59は、電子文書コレクション102内の電子文書から引き出される属性値が構造化プレゼンテーション106でユーザーに提示される状況を示す略図である。特に、システム900(図9)などのシステムは、電子文書コレクション102内の電子文書から引き出された属性、値、およびインスタンスを関連付けるテーブル5400から属性値を引き出す。このシステムは、これらの属性値を初期構造化プレゼンテーション106とマージして、最終構造化プレゼンテーション106を形成することも行う。そのため、初期構造化プレゼンテーション106は、構造化データ905(図9)として働く。   The system performing process 5800 may also select one or more values to present in the structured presentation from the identified document (step 5810). FIG. 59 is a schematic diagram illustrating a situation in which attribute values derived from electronic documents in the electronic document collection 102 are presented to the user in the structured presentation 106. In particular, a system such as system 900 (FIG. 9) derives attribute values from table 5400 that associates attributes, values, and instances derived from electronic documents in electronic document collection 102. The system also merges these attribute values with the initial structured presentation 106 to form the final structured presentation 106. Thus, the initial structured presentation 106 serves as structured data 905 (FIG. 9).

示されている例では、初期構造化プレゼンテーションは、新規属性(つまり、属性「AIRPORT」)の値を構造化プレゼンテーションで識別されたインスタンスに関連付けるように修正されている。特に、新規列5905が初期構造化プレゼンテーションに追加されている。列5905の先頭に、語「AIRPORT」を使用して新規属性を識別する属性識別子5910が付く。構造化プレゼンテーションへの新規属性の値の追加は、例えば、さらに図9〜20および関連する本文で説明されているように、ユーザーによるインタラクティブな操作に基づいて、または自動的にトリガーされうる。   In the example shown, the initial structured presentation has been modified to associate the value of the new attribute (ie, attribute “AIRPORT”) with the instance identified in the structured presentation. In particular, a new column 5905 has been added to the initial structured presentation. At the top of column 5905 is an attribute identifier 5910 that identifies the new attribute using the word “AIRPORT”. The addition of a new attribute value to the structured presentation may be triggered, for example, based on an interactive operation by the user or automatically, as further described in FIGS. 9-20 and related text.

検索エンジン202などのシステムは、電子文書コレクション102(テーブル5400など)内の電子文書から引き出された属性、値、およびインスタンスを関連付けるデータコレクションにアクセスすることができる。このようなデータコレクションを使用することで、システムは、初期構造化プレゼンテーションにおけるインスタンスの1つまたは複数の新規属性を特徴付ける1つまたは複数の値を選択することができる。例えば、例示されている状況では、値5915(つまり、値「value_ai」)は、文書「DOC_3」内にインスタンス「NEW YORK」の属性「AIRPORT」を特徴付ける。必要ならば、システムは、例えばプロセス5600、5700、5800(図56、57、58)のうちの1つまたは複数を使用して、表示する新規属性の1つまたは複数の値を選択することができる。   A system, such as search engine 202, can access a data collection that associates attributes, values, and instances derived from electronic documents in electronic document collection 102 (such as table 5400). Using such a data collection, the system can select one or more values that characterize one or more new attributes of the instance in the initial structured presentation. For example, in the illustrated situation, the value 5915 (ie, the value “value_ai”) characterizes the attribute “AIRPORT” of the instance “NEW YORK” in the document “DOC_3”. If necessary, the system may select one or more values for the new attribute to display using, for example, one or more of processes 5600, 5700, 5800 (FIGS. 56, 57, 58). it can.

初期構造化プレゼンテーションにおけるインスタンスのうちの1つまたは複数のインスタンスの新規属性を特徴付ける値が選択された後、最終構造化プレゼンテーション106を閲覧者に提示することができる。最終構造化プレゼンテーション106は、構造化プレゼンテーションにおけるインスタンスのうちの1つまたは複数のインスタンスの新規属性を特徴付ける選択された値を含むことができる。例えば、図示されているように、値5915を閲覧者が見られるように最終構造化プレゼンテーション106で提示することができる。   After the values characterizing the new attributes of one or more of the instances in the initial structured presentation are selected, the final structured presentation 106 can be presented to the viewer. The final structured presentation 106 can include selected values that characterize new attributes of one or more of the instances in the structured presentation. For example, as shown, the value 5915 can be presented in the final structured presentation 106 for viewing by a viewer.

図60は、属性と属性値の両方が電子文書コレクション内の電子文書から引き出され、構造化プレゼンテーションでユーザーに提示されるプロセス6000を示す略図である。   FIG. 60 is a schematic diagram illustrating a process 6000 in which both attributes and attribute values are derived from an electronic document in an electronic document collection and presented to the user in a structured presentation.

プロセス6000では、初期構造化データコレクション905は、事前に存在している構造化プレゼンテーション6005を含むことができる。事前に存在している構造化プレゼンテーション6005は、1つまたは複数の属性値、例えば列6010内の属性値を使用してインスタンスを特徴付けることができる。事前に存在している構造化プレゼンテーション6005におけるインスタンスを特徴付ける新規属性は、図37〜51および関連する本文において説明されているように、電子文書コレクション102内の電子文書のコンテンツに基づいて構成することができる。新規属性は、ステップ6015で事前に存在している構造化プレゼンテーション6005に追加することができ、構造化プレゼンテーション6020の一部として表示することができる。このような属性の新規値は、本明細書で説明されているように、電子文書コレクション102内の電子文書のコンテンツ基づいて構成することができる。新規値は、ステップ6025で事前に存在している構造化プレゼンテーション6005に追加することができ、構造化プレゼンテーション6020の一部として表示することができる。特に、示されている例では、新規列6030は、新規属性を識別する新規属性識別子308(つまり、属性識別子6035)および新規属性を特徴付ける属性値307(つまり、属性値6040、6045)の新規コレクションを含みうる。実際、事前に存在している構造化プレゼンテーション6005のコンテンツは、電子文書コレクション102から引き出されたコンテンツとマージされている。   In process 6000, the initial structured data collection 905 can include a pre-existing structured presentation 6005. Pre-existing structured presentation 6005 can characterize an instance using one or more attribute values, eg, attribute values in column 6010. New attributes that characterize instances in pre-existing structured presentation 6005 should be constructed based on the content of the electronic documents in electronic document collection 102, as described in FIGS. 37-51 and the associated text. Can do. New attributes can be added to the pre-existing structured presentation 6005 at step 6015 and displayed as part of the structured presentation 6020. Such new values of attributes can be constructed based on the contents of the electronic documents in the electronic document collection 102 as described herein. The new value can be added to the pre-existing structured presentation 6005 at step 6025 and displayed as part of the structured presentation 6020. In particular, in the example shown, the new column 6030 includes a new collection of new attribute identifiers 308 (ie, attribute identifier 6035) that identify the new attributes and attribute values 307 (ie, attribute values 6040, 6045) that characterize the new attributes. Can be included. In fact, the pre-existing structured presentation 6005 content is merged with the content pulled from the electronic document collection 102.

図61は、電子文書コレクション内の文書のコンテンツに基づいて値を構造化プレゼンテーションに追加するためのプロセス6100の流れ図である。プロセス6100は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータのシステムによって実行されうる。例えば、プロセス6100は、システム200内の検索エンジン202によって実行されうる。プロセス6100は、単独で、または他の活動と連携して実行されうる。例えば、プロセス6100は、プロセス700、600、800(図6、7、8)のうちの1つまたは複数のプロセスの一部として実行されうる。   FIG. 61 is a flow diagram of a process 6100 for adding values to a structured presentation based on the content of documents in an electronic document collection. Process 6100 may be performed by a system of one or more computers that perform operations by executing one or more machine-readable instruction sets. For example, process 6100 may be performed by search engine 202 within system 200. Process 6100 may be performed alone or in conjunction with other activities. For example, process 6100 may be performed as part of one or more of processes 700, 600, 800 (FIGS. 6, 7, 8).

いくつかの実装では、プロセス6100は、例えば、ユーザーまたは新規構造化プレゼンテーションの作成もしくは構造化プレゼンテーションの更新をトリガーする他のシステムもしくはプロセスから入力を受け取ったことに応答して実行されうる。例えば、プロセス6100は、1つまたは複数の新規属性を構造化プレゼンテーション106に追加するユーザー要求への応答として実行されうる。他の例として、プロセス6100は、検索クエリを受け取ったことに対する応答として、検索エンジン、例えば、検索エンジン202(図2)によって実行されうる。   In some implementations, the process 6100 may be performed in response to receiving input from, for example, a user or other system or process that triggers creation of a new structured presentation or update of a structured presentation. For example, process 6100 may be performed in response to a user request to add one or more new attributes to structured presentation 106. As another example, process 6100 may be performed by a search engine, eg, search engine 202 (FIG. 2) in response to receiving a search query.

プロセス6100を実行するシステムは、構造化プレゼンテーションにおけるインスタンスおよび属性の指定を受け取ることができる(ステップ6105)。構造化プレゼンテーションは、新規もしくは事前に存在している構造化プレゼンテーションであるものとしてよい。例えば、システムは、構造化プレゼンテーションにおいて特徴付けられるインスタンス、もしくはインスタンスのカテゴリを指定する検索クエリを受け取ることができる。   The system executing process 6100 may receive an instance and attribute specification in the structured presentation (step 6105). A structured presentation may be a new or pre-existing structured presentation. For example, the system can receive a search query that specifies an instance or category of instances characterized in a structured presentation.

他の例として、ユーザーが事前に存在している構造化プレゼンテーションをインタラクティブに操作して、インスタンス、および属性、またはその両方を指定することができる。事前に存在している構造化プレゼンテーションに対するユーザーインタラクションにより、インスタンスおよび/または属性を内在的に、または手動で指定することができる。内在的指定では、構造化表示におけるインスタンスおよび属性識別子のシステム配置を利用して、セルに対するユーザーインタラクションによりそのセルに関連付けられているインスタンスおよび属性を指定する。   As another example, a user can interact with a pre-existing structured presentation to specify instances and / or attributes. Instances and / or attributes can be specified internally or manually by user interaction with a pre-existing structured presentation. In the intrinsic specification, the instance and attribute associated with the cell are specified by user interaction with the cell by using the system arrangement of the instance and the attribute identifier in the structured display.

それとは対照的に、手動により指定では、ユーザーは、どのセルがセルに関連付けられているインスタンスおよび属性の識別子を含むかを手動で識別する。例えば、ユーザーは、構造化プレゼンテーション内のインスタンス識別子、属性識別子、またはその両方の配列を指定する検索クエリをセルに入力することができる。例えば、式「(CELL_1, CELL_2)」を含む検索クエリは、このセルがセル「CELL_1」で識別されるインスタンスのセル「CELL_2」で指定される属性に関連付けられること、およびこのインスタンスのこの属性に対する検索を実行することを指定することができる。インスタンスおよび属性識別子のこのような手動による指定は、インスタンスおよび属性識別子の位置がユーザーには明らかであるが、構造化プレゼンテーションを提示するデータ処理デバイスには未知のものである場合に、スプレッドシートテーブルなどの構造化プレゼンテーションにおいて特に有用である。1つまたは複数のインスタンスおよび属性を指定するための事前に存在している構造化プレゼンテーションに対するユーザーインタラクションの他の例について、以下で詳述する。   In contrast, with manual designation, the user manually identifies which cells contain the instance and attribute identifiers associated with the cells. For example, a user can enter a search query into a cell that specifies an array of instance identifiers, attribute identifiers, or both in a structured presentation. For example, a search query that contains the formula “(CELL_1, CELL_2)” is associated with the attribute specified in cell “CELL_2” of the instance identified by cell “CELL_1” and for this attribute of this instance You can specify to perform a search. Such manual specification of instance and attribute identifiers is a spreadsheet table where the location of the instance and attribute identifiers is obvious to the user but is unknown to the data processing device presenting the structured presentation. It is particularly useful in structured presentations such as Other examples of user interaction with pre-existing structured presentations for specifying one or more instances and attributes are detailed below.

プロセス6100を実行するシステムは、インスタンスの指定された属性に対し電子文書コレクション内の文書から1つまたは複数の値提案を構成することができる(ステップ6110)。値提案は、多数の異なる方法で指定された属性について構成することができる。例えば、一実装では、システムは、指定されたインスタンスおよび属性を使用して構築される検索クエリを使用して検索を実行することによって電子文書コレクション102内の文書から値提案を構成することができる。例えば、値提案は、例えば、図52〜60および関連する本文で説明されているように、指定されたインスタンスおよび属性に関係する構造化コンポーネントを含む文書を見つけることによって構成されうる。   The system executing process 6100 may construct one or more value propositions from the documents in the electronic document collection for the specified attributes of the instance (step 6110). Value proposals can be configured for attributes specified in a number of different ways. For example, in one implementation, the system can construct value suggestions from documents in electronic document collection 102 by performing a search using a search query that is constructed using specified instances and attributes. . For example, a value proposal may be constructed by finding a document that includes a structured component related to a specified instance and attribute, eg, as described in FIGS. 52-60 and the associated text.

他の例としては、検索クエリにおいて、インスタンスの属性を特徴付ける値が出現する可能性が高いことを示す言語パターン中に指定されたインスタンスおよび属性の識別子が見つかることが要求される場合がある。このようなパターンの例として、「the <attribute> of <entity> is」、「<entity> with an <attribute> of」、「<entity> has an <attribute> of」、「<entity>' s <attribute> is」、および同様のものが挙げられる。このようなパターンを使用して、電子文書内のテキストコンテンツから値提案を抽出することができる。   As another example, a search query may require that a specified instance and attribute identifier be found in a language pattern indicating that a value characterizing the instance attribute is likely to appear. Examples of such patterns are "the <attribute> of <entity> is", "<entity> with an <attribute> of", "<entity> has an <attribute> of", "<entity> 's <attribute> is ”, and the like. Such a pattern can be used to extract value proposals from text content in an electronic document.

プロセス6100を実行するシステムは、1つまたは複数の値提案をユーザーに提供することができる(ステップ6115)。例えば、値提案のリストを、事前に存在している構造化プレゼンテーションを表示する同じディスプレイ画面上にユーザー向けに表示することができる。値提案のリストの表示は、事前に存在している構造化プレゼンテーションに追加するために値を選択する前に、実行することができる。   The system performing process 6100 may provide one or more value suggestions to the user (step 6115). For example, a list of value propositions can be displayed for the user on the same display screen that displays a pre-existing structured presentation. Displaying a list of value propositions can be performed before selecting values for addition to a pre-existing structured presentation.

他の例として、いくつかの実装では、構造化プレゼンテーションにおいて、検索情報およびインタラクティブ要素とともに、値提案を隠すこともできる。そのような実装の例について以下でさらに説明する。   As another example, in some implementations, the value proposal can be hidden in the structured presentation along with the search information and interactive elements. Examples of such implementations are further described below.

プロセス6100を実行するシステムは、構造化表示で提示される値提案のユーザー選択を受け取ることができる(ステップ6120)。例えば、インタラクティブ要素がユーザーとやり取りして、値提案を選択する1つまたは複数のユーザー入力(例えば、マウスのクリック、キーの押下、または他のユーザー入力)を受け取ることができる。いくつかの実装では、インタラクティブ要素は、以下でさらに説明するように、構造化プレゼンテーションにおいて隠すことができる。プロセス6100を実行するシステムは、選択された値を構造化プレゼンテーションに追加し(ステップ6125)、構造化プレゼンテーションにおいて選択された値を表示することもできる。   The system performing process 6100 may receive a user selection of value propositions presented in a structured display (step 6120). For example, the interactive element can interact with the user to receive one or more user inputs (eg, mouse clicks, key presses, or other user inputs) that select a value proposition. In some implementations, interactive elements can be hidden in structured presentations, as described further below. The system performing process 6100 may also add the selected value to the structured presentation (step 6125) and display the selected value in the structured presentation.

図62は、検索インターフェイスが隠されている構造化プレゼンテーション、つまり、構造化プレゼンテーション6200の略図である。検索インターフェイスは、検索情報、1つまたは複数の検索インタラクティブ要素、またはそれらの組み合わせを含むことができる。インタラクティブ要素は、ユーザーとやり取りすることができる、例えば、入力された命令を受け取ることができるグラフィカルユーザーインターフェイスのコンポーネントである。検索インタラクティブ要素および検索情報は、検索に関連するものである。検索は、電子文書コレクション内の情報を見つけるプロセスである。検索インターフェイスは、例えば、構造化プレゼンテーションに値を書き込むために検索が利用可能かどうかを示す情報、そのような検索を実行すべきであることをユーザーが示すことを可能にするインタラクティブ要素、検索時に特定された電子文書を識別する表示、構造化プレゼンテーションに値を書き込むために複数の電子文書のうちから電子文書をユーザーが選択することを可能にするインタラクティブ要素、またはこれらの機能および他の機能の組み合わせを含むことができる。   FIG. 62 is a schematic representation of a structured presentation with the search interface hidden, ie, structured presentation 6200. The search interface can include search information, one or more search interactive elements, or a combination thereof. An interactive element is a component of a graphical user interface that can interact with a user, for example, can receive input commands. The search interactive element and the search information are related to the search. Search is the process of finding information in an electronic document collection. The search interface, for example, information indicating whether a search is available to write a value to a structured presentation, interactive elements that allow the user to indicate that such a search should be performed, at the time of the search A display that identifies the identified electronic document, an interactive element that allows the user to select an electronic document from multiple electronic documents to write values to the structured presentation, or of these and other functions Combinations can be included.

構造化プレゼンテーション6200は、上述の構造化プレゼンテーションのうちのどれかを含む、任意の形態の構造化プレゼンテーションであってよい。例えば、構造化プレゼンテーション6200は、図示されているように、スプレッドシートフレームワーク内に表示されるデータテーブルであってもよい。構造化プレゼンテーション6200のデータテーブルは、行302および列304のコレクションを含む。それぞれの行302は、各インスタンス識別子306を含み、それぞれの列304は、各属性識別子308を含む。行302および列304内のインスタンス識別子306および属性識別子308の配列および位置決めは、構造化プレゼンテーション6200が表示されるスプレッドシートフレームワークのそれぞれのセルをインスタンスおよび属性に関連付ける。例えば、構造化プレゼンテーション6200内のセル6205は、「Tesla Roadster」として識別されるインスタンスおよび「mpg」として識別される属性に関連付けられる。構造化プレゼンテーション6200内のセル6210は、「Chevy Volt」として識別されるインスタンスおよび「range」として識別される属性に関連付けられる。構造化プレゼンテーション6200内のセル6215は、「Myers NmG」として識別されるインスタンスおよび「top speed」として識別される属性に関連付けられる。構造化プレゼンテーション6200内のセル6220は、「Myers NmG」として識別されるインスタンスおよび「mpg」として識別される属性に関連付けられる。   The structured presentation 6200 may be any form of structured presentation, including any of the structured presentations described above. For example, structured presentation 6200 may be a data table displayed within a spreadsheet framework, as shown. The structured presentation 6200 data table includes a collection of rows 302 and columns 304. Each row 302 includes each instance identifier 306, and each column 304 includes each attribute identifier 308. The arrangement and positioning of instance identifier 306 and attribute identifier 308 in row 302 and column 304 associates each cell of the spreadsheet framework in which structured presentation 6200 is displayed with the instance and attribute. For example, cell 6205 in structured presentation 6200 is associated with an instance identified as “Tesla Roadster” and an attribute identified as “mpg”. Cell 6210 in structured presentation 6200 is associated with an instance identified as “Chevy Volt” and an attribute identified as “range”. Cell 6215 in structured presentation 6200 is associated with an instance identified as “Myers NmG” and an attribute identified as “top speed”. Cell 6220 in structured presentation 6200 is associated with an instance identified as “Myers NmG” and an attribute identified as “mpg”.

インスタンス、属性、およびセル6205、6210、6215、6220などのセルの間の関連付けを使用して、ユーザーからインスタンスおよび属性の指定を受け取ることができる。例えば、セル6220を選択するユーザーインタラクションを受け取ることは、「Myers NmG」として識別されるインスタンスおよび「mpg」として識別される属性を指定する入力とみなすことができる。セルを選択するユーザーインタラクションは、例えば、セル上のカーソル6225の位置を決める入力を受け取ること、ユーザーがセルをクリックすること、または同様のものを含むものとしてよい。いくつかの実装では、セルの選択は、セルの中、またはセルの周りで周囲ハイライト6230などの視覚的な印を位置決めすることによって表すことができる。   Instances, attributes, and associations between cells such as cells 6205, 6210, 6215, 6220 can be used to receive instance and attribute specifications from the user. For example, receiving a user interaction selecting cell 6220 can be considered an input specifying an instance identified as “Myers NmG” and an attribute identified as “mpg”. User interaction to select a cell may include, for example, receiving input to position the cursor 6225 on the cell, the user clicking on the cell, or the like. In some implementations, the selection of a cell can be represented by positioning visual indicia such as ambient highlights 6230 in or around the cell.

例示されている実装では、選択時には、選択されたセル6220に値307が入っていない。これに対する理由はいくつかある。例えば、構造化プレゼンテーション6200は、値をまだ書き込まれていない新規構造化プレゼンテーションとすることができる。他の例として、構造化プレゼンテーション6200は、値が削除された事前に存在している構造化プレゼンテーションであってもよい。さらに他の例として、構造化プレゼンテーション6200は、何らかの理由により、もはや値の供給源として機能しえないソース文書から以前の値を引き出した事前に存在している構造化プレゼンテーションであってもよい。   In the illustrated implementation, upon selection, the selected cell 6220 does not contain the value 307. There are several reasons for this. For example, the structured presentation 6200 may be a new structured presentation that has not yet been written with values. As another example, structured presentation 6200 may be a pre-existing structured presentation with values removed. As yet another example, the structured presentation 6200 may be a pre-existing structured presentation that, for some reason, derives previous values from a source document that can no longer function as a source of values.

図63は、検索インターフェイスが隠されている他の構造化プレゼンテーション6300の略図である。構造化プレゼンテーション6200との関連で、構造化プレゼンテーション6300は、選択されたセル6220内の値307を含む。これに対する理由はいくつかある。例えば、セル6220は、自動的に、例えば、検索クエリを受け取ったことに対する応答として、値307を書き込まれていることがある。他の例として、セル6220への書き込みは、ユーザーが手動でセル6220をインタラクティブに操作して値を入力することによって行われている場合がある。さらに他の例として、セル6220は、ユーザーが(内在的にまたは手動で)セル6220に関連付けられているインスタンス、属性、またはその両方を指定したことに応答して値307が書き込まれている可能性がある。いずれにせよ、セル6220の選択では、「Myers NmG」として識別されるインスタンスおよびそれに関連付けられている「mpg」として識別される属性を指定する。   FIG. 63 is a diagram of another structured presentation 6300 where the search interface is hidden. In the context of the structured presentation 6200, the structured presentation 6300 includes the value 307 in the selected cell 6220. There are several reasons for this. For example, cell 6220 may have been automatically filled with value 307, for example, in response to receiving a search query. As another example, writing to the cell 6220 may be performed by a user manually operating the cell 6220 and inputting a value. As yet another example, cell 6220 may be filled with value 307 in response to a user specifying an instance, attribute, or both associated with cell 6220 (either implicitly or manually). There is sex. In any case, selection of cell 6220 specifies an instance identified as “Myers NmG” and an attribute identified as “mpg” associated therewith.

図64は、検索インターフェイスが隠されている他の構造化プレゼンテーション6400の略図である。構造化プレゼンテーション6400は、視覚的な印6405を含む。視覚的な印6405は、隠されている検索情報またはインタラクティブ要素が構造化プレゼンテーション6400からアクセス可能であることを視覚的に示す。   FIG. 64 is a schematic diagram of another structured presentation 6400 where the search interface is hidden. Structured presentation 6400 includes visual indicia 6405. Visual indicia 6405 visually indicates that hidden search information or interactive elements are accessible from structured presentation 6400.

例示されている実装では、それぞれの視覚的な印6405は、セル6205、6210、6215、6220などの個別のセルに見られる。セル内の視覚的な印6405の位置決めおよび配列(それに付随して、行302および列304内のインスタンス識別子306および属性識別子308に相対的な視覚的な印6405の位置決めおよび配列)は、以下でさらに説明するように、隠されている検索情報およびインタラクティブ要素の関連性および機能を視覚的に示すことができる。   In the illustrated implementation, each visual indicia 6405 is found in a separate cell, such as cell 6205, 6210, 6215, 6220. The positioning and arrangement of visual indicia 6405 in the cell (and concomitantly, the positioning and arrangement of visual indicia 6405 relative to instance identifier 306 and attribute identifier 308 in row 302 and column 304) are as follows: As further described, hidden search information and relevance and function of interactive elements can be visually shown.

動作中、構造化プレゼンテーション6200、6300、6400に対するユーザーインタラクションは、隠されている検索インターフェイスを提示するトリガーとなりうる。上述のように、検索インターフェイスは、検索情報、検索インタラクティブ要素、またはその両方を含むことができる。検索インターフェイスは、検索情報およびインタラクティブ要素が構造化プレゼンテーション内で常に認識できる必要はないという点で構造化プレゼンテーション内に隠すことができる。むしろ、隠されている検索インターフェイスは、構造化プレゼンテーションがいくつかの状態にある間、視界から完全にまたは部分的に隠すことができる。例えば、閲覧者が構造化プレゼンテーションの他の情報コンテンツをレビューしている可能性が高い状態において、隠し検索インターフェイスを隠すことができる。このように隠すことで、他の情報の提示に利用可能な構造化プレゼンテーションの部分を拡大し、構造化プレゼンテーションの可読性を改善するために見えている散乱しているものを減らすことができる。   In operation, user interaction with structured presentations 6200, 6300, 6400 can trigger a hidden search interface. As described above, the search interface can include search information, search interactive elements, or both. The search interface can be hidden in the structured presentation in that the search information and interactive elements need not always be visible in the structured presentation. Rather, the hidden search interface can be completely or partially hidden from view while the structured presentation is in several states. For example, the hidden search interface can be hidden while the viewer is likely to be reviewing other information content in the structured presentation. This concealment can expand the portion of the structured presentation that can be used to present other information and reduce the scatter that is visible to improve the readability of the structured presentation.

図65は、以前に隠されていた検索インターフェイスが提示される表示要素6500の図である。いくつかの実装では、構造化プレゼンテーションそれ自体に対するユーザーインタラクションに応答して表示要素6500を提示することができる。表示要素6500は、セル6220に対するユーザーインタラクションに応答して、構造化プレゼンテーション(構造化プレゼンテーション6200、6300、6400など)の前に「ポップアップ」し、ウィンドウ6510内に検索インタラクティブ要素6505を提示することができる。例えば、検索インタラクティブ要素6505およびウィンドウ6510は、ユーザーがマウスを使用してセル6220をクリックしたことに応答して提示されうる。検索インタラクティブ要素6505は、セル6220に書き込むために「more options...」が利用可能であることを示すテキストを含むハイパーリンクである。   FIG. 65 is an illustration of a display element 6500 in which a previously hidden search interface is presented. In some implementations, the display element 6500 can be presented in response to user interaction with the structured presentation itself. Display element 6500 may “pop up” in front of a structured presentation (structured presentation 6200, 6300, 6400, etc.) and present search interactive element 6505 in window 6510 in response to user interaction with cell 6220. it can. For example, search interactive element 6505 and window 6510 may be presented in response to a user clicking cell 6220 using a mouse. Search interactive element 6505 is a hyperlink that includes text indicating that “more options ...” is available to write to cell 6220.

図66は、以前に隠されていた検索インターフェイスが提示される表示要素6600の図である。いくつかの実装では、構造化プレゼンテーションそれ自体に対するユーザーインタラクションに応答して表示要素6600を提示することができる。検索インタラクティブ要素6505に加えて、表示要素6600は、セル6220に対するユーザーインタラクションに応答してウィンドウ6510内にソース識別子6605を提示する。ソース識別子6605は、セル6220に書き込む値307のソースである電子文書を識別するテキストまたは他の情報を含む。ソース識別子6605によって識別されたソース文書は、事前検索の結果として特定された文書であってもよい。いくつかの実装では、ソース識別子6605は、ソース文書へのハイパーリンクを含むこともできる。   FIG. 66 is an illustration of a display element 6600 where a previously hidden search interface is presented. In some implementations, the display element 6600 can be presented in response to user interaction with the structured presentation itself. In addition to search interactive element 6505, display element 6600 presents source identifier 6605 in window 6510 in response to user interaction with cell 6220. Source identifier 6605 includes text or other information identifying the electronic document that is the source of value 307 to be written to cell 6220. The source document identified by source identifier 6605 may be a document identified as a result of a pre-search. In some implementations, the source identifier 6605 can also include a hyperlink to the source document.

図67は、以前に隠されていた検索インターフェイスが提示される表示要素6700の図である。いくつかの実装では、構造化プレゼンテーションそれ自体に対するユーザーインタラクションに応答して表示要素6700を提示することができる。検索インタラクティブ要素6505およびソース識別子6605に加えて、表示要素6700は、セル6220に対するユーザーインタラクションに応答してウィンドウ6510内にスニペット6705を提示する。スニペット6705は、セル6220に書き込む値307のソースである電子文書内の値の背景状況を記述するテキストまたは他の情報である。   FIG. 67 is an illustration of a display element 6700 on which a previously hidden search interface is presented. In some implementations, the display element 6700 can be presented in response to user interaction with the structured presentation itself. In addition to search interactive element 6505 and source identifier 6605, display element 6700 presents snippet 6705 in window 6510 in response to user interaction with cell 6220. The snippet 6705 is text or other information that describes the background status of the value in the electronic document that is the source of the value 307 to be written to the cell 6220.

図68は、以前に隠されていた検索インターフェイスが提示される表示要素6800の図である。いくつかの実装では、構造化プレゼンテーションそれ自体に対するユーザーインタラクションに応答して、または以前に隠されていた検索インタラクティブ要素6505に対するユーザーインタラクションに応答して表示要素6800を提示することができる。表示要素6800は、ヘッダ6802、関連するソース選択領域6805、および一致するソース選択領域6810を含む。ヘッダ6802は、値の追加先となるセルを識別するテキストまたは他の情報を含むことができる。例示されている実装では、セル6220は、セル6220内の値307によって特徴付けられている属性と値(つまり、Myers NmG: mpg)によって識別される。   FIG. 68 is an illustration of a display element 6800 where a previously hidden search interface is presented. In some implementations, the display element 6800 can be presented in response to user interaction with the structured presentation itself or in response to user interaction with a previously hidden search interactive element 6505. Display element 6800 includes a header 6802, an associated source selection area 6805, and a matching source selection area 6810. The header 6802 may include text or other information that identifies the cell to which the value is added. In the illustrated implementation, cell 6220 is identified by the attribute and value characterized by value 307 in cell 6220 (ie, Myers NmG: mpg).

関連するソース選択領域6805は、指定されたインスタンスおよび属性に対するソース電子文書の関連性を構造化プレゼンテーションに書き込む値を選択する際に使用するとユーザーが指定することを可能にする情報およびインタラクティブ要素を備えることができる。例示されている実装では、ユーザーは、単一の「最も関連性の高い」文書が構造化プレゼンテーションに書き込む値の単独のソースであると指定することができる。文書の関連性により、文書と例えば、検索が定義する属性およびインスタンスとマッチングする程度を特徴付けることができる。   The associated source selection area 6805 comprises information and interactive elements that allow the user to specify the relevance of the source electronic document for the specified instance and attribute to be used when selecting values to be written to the structured presentation. be able to. In the illustrated implementation, the user can specify that a single “most relevant” document is the single source of values to write to the structured presentation. The relevance of a document can characterize the degree to which the document matches, for example, attributes and instances defined by the search.

例示されている実装では、関連するソース選択領域6805は、ヘッダ6815、選択ウィジェット6820、値識別子6825、およびソース識別子6830を含む。ヘッダ6815は、関連するソース選択領域6805を使用することで最も関連性の高い電子文書をヘッダ6802において識別されているセルに書き込む値のソースとして使用することをユーザーが指定することが可能であることを識別するテキストまたは他の情報を含む。選択ウィジェット6820を使用することで、ユーザーは、最も関連性の高い文書を構造化プレゼンテーションに書き込む値のソースとして使用することを選択することができる。値識別子6825は、現在最も関連性の高い文書から引き出された値を識別するテキストまたは他の情報を含む。ソース識別子6830は、現在最も関連性の高い電子文書を識別するテキストまたは他の情報を含む。いくつかの実装では、ソース識別子6830は、現在最も関連性の高い文書へのハイパーリンクを含むこともできる。最も関連性の高い文書は、時間が経過するにつれ変わることがあるため、値識別子6825によって識別された値およびソース識別子6830によって識別された文書も、時間が経過するにつれ変わりうる。   In the illustrated implementation, the associated source selection area 6805 includes a header 6815, a selection widget 6820, a value identifier 6825, and a source identifier 6830. The header 6815 allows the user to specify that the most relevant electronic document is used as the source of values to be written to the cell identified in the header 6802 by using the associated source selection area 6805. Include text or other information to identify things. Using the selection widget 6820, the user can choose to use the most relevant document as the source of values to write to the structured presentation. Value identifier 6825 includes text or other information that identifies a value derived from the currently most relevant document. The source identifier 6830 includes text or other information that identifies the currently most relevant electronic document. In some implementations, the source identifier 6830 can also include a hyperlink to the currently most relevant document. Since the most relevant documents can change over time, the values identified by value identifier 6825 and the document identified by source identifier 6830 can also change over time.

一致するソース選択領域6810は、ソース電子文書を構造化プレゼンテーションに書き込む値を選択する際に矛盾なく使用するとユーザーが指定することを可能にする情報およびインタラクティブ要素を備えることができる。例示されている実装では、ユーザーは、構造化プレゼンテーションに書き込む値のソースとして矛盾なく使用されるその文書を指定するために3つの候補文書のうちから文書を選択することができる。   The matching source selection area 6810 may comprise information and interactive elements that allow the user to specify that the source electronic document be used consistently when selecting values to write to the structured presentation. In the illustrated implementation, the user can select a document from among three candidate documents to specify that document to be used consistently as a source of values to write to the structured presentation.

例示されている実装では、首尾一貫したソース選択領域6810は、ヘッダ6835、選択ウィジェット6840のコレクション、値識別子6845のコレクション、およびソース識別子6850のコレクションを含む。   In the illustrated implementation, the consistent source selection area 6810 includes a header 6835, a collection of selection widgets 6840, a collection of value identifiers 6845, and a collection of source identifiers 6850.

ヘッダ6835は、関連するソース選択領域6805を使用することでソース電子文書が値を選択する際に矛盾なく使用されることをユーザーが指定することが可能であることを識別するテキストまたは他の情報を含む。選択ウィジェット6840では、ユーザーは、矛盾なく使用される文書を選択することができる。例示されている実装では、ユーザーは、3つの異なる文書のうちから文書を選択することができる。値識別子6845は、構造化プレゼンテーションに書き込むために特定の文書から引き出されうる現在値を識別するテキストまたは他の情報を含む。ソース識別子6850は、値識別子6825によって識別される値が引き出される電子文書を識別するテキストまたは他の情報を含む。いくつかの実装では、ソース識別子6850は、値識別子6825によって識別される値が引き出される電子文書へのハイパーリンクを含むこともできる。   Header 6835 is text or other information that identifies that the user can specify that the source electronic document should be used consistently when selecting values using the associated source selection area 6805 including. Selection widget 6840 allows the user to select a document to be used consistently. In the illustrated implementation, the user can select a document from three different documents. The value identifier 6845 includes text or other information that identifies a current value that can be derived from a particular document for writing to a structured presentation. The source identifier 6850 includes text or other information that identifies the electronic document from which the value identified by the value identifier 6825 is derived. In some implementations, the source identifier 6850 can also include a hyperlink to the electronic document from which the value identified by the value identifier 6825 is derived.

電子文書の関連性と電子文書内の値は、両方とも、時間の経過とともに変化しうる。例えば、電子文書を電子文書コレクションに追加する人は、インスタンスおよび属性に対するその文書の関連性が変化するように電子文書のコンテンツを変えることができる。他の例として、電子文書を電子文書コレクションに追加する人は、インスタンスの属性を特徴付けるために使用される値を変えることができる。ヘッダ6815、6835は、発生する可能性のある変化の性質を識別するテキストまたは他の情報を含むことができる。例えば、例示されている実装では、ヘッダ6815は、指定されたインスタンスおよび属性に対するソース電子文書の関連性が構造化プレゼンテーションに書き込む値を選択する際に使用されるとユーザーが指定したときに最も関連性の高い文書と属性の値の両方が変化しうることを識別するテキストを含む。他の例として、例示されている実装では、ヘッダ6835は、ソース電子文書が構造化プレゼンテーションに書き込む値を選択する際に矛盾なく使用されるとユーザーが指定したときに属性の値が変化しうることを述べたテキストを含む。   Both the relevance of an electronic document and the value in the electronic document can change over time. For example, a person who adds an electronic document to an electronic document collection can change the content of the electronic document such that the relevance of the document to instances and attributes changes. As another example, a person who adds an electronic document to an electronic document collection can change the values used to characterize the attributes of the instance. The headers 6815, 6835 may include text or other information that identifies the nature of the change that may occur. For example, in the illustrated implementation, header 6815 is most relevant when the user specifies that the relevance of the source electronic document to the specified instance and attribute is used in selecting values to write to the structured presentation. Contains text that identifies both likely documents and attribute values can change. As another example, in the illustrated implementation, the header 6835 may change the value of the attribute when the user specifies that the source electronic document is used consistently when selecting values to write to the structured presentation. Include text that states.

図69は、以前に隠されていた検索インターフェイスが提示される表示要素6900の図である。いくつかの実装では、構造化プレゼンテーションそれ自体に対するユーザーインタラクションに応答して、または以前に隠されていた検索インタラクティブ要素6505に対するユーザーインタラクションに応答して、表示要素6900を提示することができる。ヘッダ6802、6815、6835、選択ウィジェット6820、6840、値識別子6825、6845、およびソース識別子6830、6850に加えて、表示要素6900は、スニペット6905のコレクションおよび検索インタラクティブ要素6910のコレクションを含む。それぞれのスニペット6905は、識別された値のソースである電子文書内の値識別子6825、6845によって識別される各値の背景状況を記述するテキストまたは他の情報である。検索インタラクティブ要素6910は、各値識別子6845によって識別される値のソースである各電子文書へユーザーが移動することを可能にするハイパーリンクである。   FIG. 69 is an illustration of a display element 6900 where a previously hidden search interface is presented. In some implementations, the display element 6900 can be presented in response to user interaction with the structured presentation itself or in response to user interaction with a previously hidden search interactive element 6505. In addition to headers 6802, 6815, 6835, selection widgets 6820, 6840, value identifiers 6825, 6845, and source identifiers 6830, 6850, display element 6900 includes a collection of snippets 6905 and a collection of search interactive elements 6910. Each snippet 6905 is text or other information that describes the background status of each value identified by the value identifiers 6825, 6845 in the electronic document that is the source of the identified value. Search interactive element 6910 is a hyperlink that allows the user to navigate to each electronic document that is the source of the value identified by each value identifier 6845.

図70は、以前に隠されていた検索インターフェイスが提示される表示要素7000の図である。いくつかの実装では、構造化プレゼンテーションそれ自体に対するユーザーインタラクションに応答して、または以前に隠されていた検索インタラクティブ要素6505に対するユーザーインタラクションに応答して、表示要素7000を提示することができる。ヘッダ6802、6815、6835、選択ウィジェット6820、6840、値識別子6825、6845、およびソース識別子6830、6850、スニペット6905、および検索インタラクティブ要素6910に加えて、表示要素6900は検索トリガー7005を含む。検索トリガー7005は、電子文書コレクションの検索をトリガーするインタラクティブ要素である。前の検索の結果の記述と一緒に表示する場合(値識別子6825、6845、ソース識別子6830、6850、スニペット6905、および検索インタラクティブ要素6910など)、検索トリガー7005を使用することで、ユーザーは前の検索の結果に満足していないことを示すことができる。いくつかの実装では、検索トリガー7005によってトリガーされる検索は、Google(登録商標)検索エンジンなどの汎用検索エンジンを使用して実行される「全文検索」とすることができる。いくつかの実装では、検索エンジンは、前のユーザーインタラクションによって指定されたインスタンスおよび属性を使用して自動生成されるクエリとともに提示されうる。   FIG. 70 is a diagram of a display element 7000 on which a previously hidden search interface is presented. In some implementations, the display element 7000 can be presented in response to user interaction with the structured presentation itself, or in response to user interaction with a previously hidden search interactive element 6505. In addition to headers 6802, 6815, 6835, selection widgets 6820, 6840, value identifiers 6825, 6845, and source identifiers 6830, 6850, snippets 6905, and search interactive element 6910, display element 6900 includes search trigger 7005. A search trigger 7005 is an interactive element that triggers a search of the electronic document collection. When displayed with a description of the results of a previous search (for example, value identifier 6825, 6845, source identifier 6830, 6850, snippet 6905, and search interactive element 6910), search trigger 7005 allows the user to You can show that you are not satisfied with the search results. In some implementations, the search triggered by search trigger 7005 may be a “full text search” performed using a general purpose search engine, such as a Google search engine. In some implementations, the search engine may be presented with a query that is automatically generated using the instances and attributes specified by the previous user interaction.

図65〜70に図示されているように、以前に隠されていた検索情報およびインタラクティブ要素の表示をトリガーするユーザーインタラクションの性質により、表示される検索情報およびインタラクティブ要素のカテゴリが決定されうる。例えば、構造化プレゼンテーション内で単一のセルを指定するユーザーインタラクションにより、同じセルに値を書き込むことに関連する検索情報およびインタラクティブ要素の提示がトリガーされうる。他の実装では、列、行、またはセルの他のコレクションに対するユーザーインタラクションにより、セルのコレクションに値を書き込むことに関連する検索情報およびインタラクティブ要素の提示がトリガーされうる。例えば、列に対するユーザーインタラクションを使用することで、ユーザーは、その列に書き込む値が単一のソース文書またはソース文書群から矛盾なく引き出されることを指定することができる。他の例として、行に対するユーザーインタラクションを使用することで、ユーザーは、その行に書き込む値がインスタンスおよびその行の属性に最も関連するソース文書から引き出されることを指定することができる。   As illustrated in FIGS. 65-70, the search information that was previously hidden and the nature of the user interaction that triggers the display of the interactive element can determine the category of search information and interactive elements that are displayed. For example, user interaction specifying a single cell within a structured presentation can trigger the presentation of search information and interactive elements related to writing values to the same cell. In other implementations, user interaction with a column, row, or other collection of cells may trigger the presentation of search information and interactive elements associated with writing values to the collection of cells. For example, using user interaction with a column, the user can specify that the value to be written to the column is consistently derived from a single source document or group of source documents. As another example, using user interaction with a row, the user can specify that the value to write to that row is derived from the source document most relevant to the instance and its attributes.

図71は、電子文書コレクション内の文書のコンテンツから値を引き出すことによって値を構造化プレゼンテーションに追加するためのプロセス7100の流れ図である。プロセス7100は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータのシステムによって実行されうる。例えば、プロセス7100は、システム200内の検索エンジン202によって実行されうる。プロセス7100は、単独で、または他の活動と連携して実行されうる。例えば、プロセス7100は、プロセス6100(図61)のステップ6105、6115、および6120の一部として実行されうる。   FIG. 71 is a flow diagram of a process 7100 for adding values to a structured presentation by extracting values from the content of documents in an electronic document collection. Process 7100 may be performed by a system of one or more computers that perform operations by executing one or more machine-readable instruction sets. For example, process 7100 can be performed by search engine 202 in system 200. Process 7100 may be performed alone or in conjunction with other activities. For example, process 7100 may be performed as part of steps 6105, 6115, and 6120 of process 6100 (FIG. 61).

プロセス7100を実行するシステムは、構造化プレゼンテーションの1つまたは複数のセルを指定するユーザーインタラクションを特徴付けるデータを受け取ることができる(ステップ7105)。構造化プレゼンテーションは、新規または事前に存在している構造化プレゼンテーションであってよい。それに付随して、上で説明されているように、1つまたは複数のセルに対するインタラクティブな操作により、1つまたは複数の属性およびインスタンスを指定することができる。   The system performing process 7100 may receive data characterizing user interaction specifying one or more cells of the structured presentation (step 7105). A structured presentation may be a new or pre-existing structured presentation. Concomitantly, one or more attributes and instances can be specified by interactive operations on one or more cells, as described above.

プロセス7100を実行するシステムは、1つまたは複数のセルに書き込む1つまたは複数の値が電子文書コレクションの事前検索の結果得られたものかどうかを判定することができる(ステップ7110)。このような判定は、構造化プレゼンテーションに目に見える形で表示される情報を特徴付ける情報だけでなく、構造化プレゼンテーションに書き込むために実行された事前検索を特徴付ける情報をも格納するデータ記憶デバイスにアクセスすることによって行うことができる。事前検索を特徴付ける格納されている情報は、例えば、検索が実際に実行されたことを示す情報、前の検索の結果セット内のソース文書のURL、およびソース文書内の値の背景状況を特徴付けるスニペットを含むことができる。   The system performing process 7100 may determine whether the one or more values to write to the one or more cells are the result of a pre-search of the electronic document collection (step 7110). Such a determination accesses a data storage device that stores not only the information that characterizes the information that is visible in the structured presentation, but also the information that characterizes the pre-search performed to write to the structured presentation. Can be done. The stored information that characterizes the pre-search is, for example, information that indicates that the search was actually performed, the URL of the source document in the result set of the previous search, and a snippet that characterizes the background status of the values in the source document Can be included.

プロセス7100を実行するシステムが、値が前の検索の結果として得られたと判定した場合、システムは、事前検索を特徴付ける検索情報を提示することができる(ステップ7115)。そのような情報は、例えば、値が引き出された結果セット内のソース文書を識別する情報、ソース文書内の値の背景状況を特徴付けるスニペット、およびソース文書へのハイパーリンクを含むことができる。例えば、システムは、表示要素6600、6700(図66、67)などのプレゼンテーションにおける単一のソース文書を特徴付ける検索情報を提示することができる。他の例として、システムは、表示要素6800、6900、7000(図68、69、70)などのプレゼンテーションにおける複数のソース文書(構造化プレゼンテーションに目に見える形で書き込む値とは異なる値を有するソース文書を含む)に関する検索情報を提示することができる。   If the system executing process 7100 determines that the value was obtained as a result of a previous search, the system can present search information that characterizes the prior search (step 7115). Such information can include, for example, information identifying the source document in the result set from which the value was derived, a snippet characterizing the background status of the value in the source document, and a hyperlink to the source document. For example, the system can present search information that characterizes a single source document in a presentation, such as display elements 6600, 6700 (FIGS. 66, 67). As another example, the system may have multiple source documents in a presentation, such as display elements 6800, 6900, 7000 (FIGS. 68, 69, 70) (sources having values that are different from values that are visibly written to a structured presentation) Search information can be presented (including documents).

いくつかの実装では、プロセス7100を実行するシステムは、ユーザーとやり取りしたその応答として単一のソース文書に関する検索情報の提示と複数のソース文書に関する検索情報との間で遷移することができる。例えば、システムは、検索インタラクティブ要素6505などの検索インタラクティブ要素に対するユーザーインタラクションを受け取り、表示要素6600、6700と表示要素6800、6900、7000(図65〜70)との間で遷移することができる。   In some implementations, the system performing process 7100 can transition between presenting search information for a single source document and search information for multiple source documents in response to interacting with the user. For example, the system can receive user interaction with a search interactive element, such as search interactive element 6505, and transition between display elements 6600, 6700 and display elements 6800, 6900, 7000 (FIGS. 65-70).

いくつかの実装では、プロセス7100を実行するシステムは、新規検索を実行し、その新規検索によって得られた結果セット内の1つまたは複数の電子文書を特徴付ける情報を供給することができる(ステップ7120)。特徴付ける情報としては、例えば、電子文書の名前およびURL、電子文書のスニペット、電子文書の要約、または同様のものが挙げられる。結果セットは、表示要素6600、6700(図66、67)などのプレゼンテーションにおける単一のソース文書または表示要素6800、6900、7000(図68、69、70)などのプレゼンテーションにおける複数のソース文書を特徴付けることができる。いくつかの実装では、システムは、ユーザーとやり取りしたその応答として単一のソース文書に関する検索情報の提示と複数のソース文書に関する検索情報との間で遷移することができる。例えば、システムは、検索インタラクティブ要素6505などの検索インタラクティブ要素に対するユーザーインタラクションを受け取り、表示要素6600、6700と表示要素6800、6900、7000(図65〜70)との間で遷移することができる。   In some implementations, the system performing process 7100 can perform a new search and provide information characterizing one or more electronic documents in the result set obtained by the new search (step 7120). ). The information to be characterized includes, for example, an electronic document name and URL, an electronic document snippet, an electronic document summary, or the like. The result set characterizes a single source document in a presentation such as display elements 6600, 6700 (Figures 66, 67) or multiple source documents in a presentation such as display elements 6800, 6900, 7000 (Figures 68, 69, 70) be able to. In some implementations, the system can transition between presenting search information for a single source document and search information for multiple source documents in response to interacting with the user. For example, the system can receive user interaction with a search interactive element, such as search interactive element 6505, and transition between display elements 6600, 6700 and display elements 6800, 6900, 7000 (FIGS. 65-70).

図72は、以前に隠されていた検索インターフェイスが提示される表示要素7200の図である。いくつかの実装では、構造化プレゼンテーションそれ自体に対するユーザーインタラクションに応答して、または以前に隠されていた検索インタラクティブ要素7005に対するユーザーインタラクションに応答して表示要素7200を提示することができる。表示要素7200は、検索、例えば、汎用検索エンジンを使用して実行される検索の結果得られる値を受け取ることができる。表示要素7200が受け取る値を構造化プレゼンテーションに追加して、インスタンスの属性を特徴付けることができる。表示要素7200は、ヘッダ7205、インスタンス識別子7210、属性識別子7215、値入力要素7220、値使用トリガー要素7225、およびプレゼンテーション閉じる要素7230を備える。   FIG. 72 is an illustration of a display element 7200 that presents a previously hidden search interface. In some implementations, the display element 7200 can be presented in response to user interaction with the structured presentation itself or in response to user interaction with a previously hidden search interactive element 7005. Display element 7200 can receive values resulting from a search, eg, a search performed using a general purpose search engine. Values received by the display element 7200 can be added to the structured presentation to characterize the attributes of the instance. The display element 7200 includes a header 7205, an instance identifier 7210, an attribute identifier 7215, a value input element 7220, a value use trigger element 7225, and a presentation closing element 7230.

ヘッダ7205は、表示要素7200がインスタンスの属性の値を受け取ることができると記述するテキストまたは他の情報である。ヘッダ7205は、検索の結果得られる値を入力することをユーザーに促すものであってもよい。例えば、ヘッダ7205は、検索が正常に実行されたかどうかを尋ねるテキストであってもよい。   The header 7205 is text or other information that describes that the display element 7200 can receive the value of an instance attribute. The header 7205 may prompt the user to input a value obtained as a result of the search. For example, the header 7205 may be text that asks whether the search was successful.

インスタンス識別子7210は、表示要素7200を使用して入力された値によって特徴付けられる、インスタンス、もしくはインスタンスのカテゴリを識別するテキストまたは他の情報である。例示されている実装では、インスタンス識別子7210は、インスタンス「China」を識別するテキストである。属性識別子7215は、インスタンス識別子7210によって識別されるインスタンスの属性を識別するテキストまたは他の情報である。属性識別子7215によって識別される属性は、表示要素7200が受け取る値によって特徴付けることができる。例示されている実装では、属性識別子7215は、属性「Population」を識別するテキストである。それとともに、インスタンス識別子7210および属性識別子7215は、中国の人口が表示要素7200を使用して受け取った値によって特徴付けられると識別する。   The instance identifier 7210 is text or other information that identifies the instance, or category of instances, characterized by a value entered using the display element 7200. In the illustrated implementation, the instance identifier 7210 is text that identifies the instance “China”. The attribute identifier 7215 is text or other information that identifies the attribute of the instance identified by the instance identifier 7210. The attribute identified by the attribute identifier 7215 can be characterized by the value received by the display element 7200. In the illustrated implementation, the attribute identifier 7215 is text that identifies the attribute “Population”. Together, the instance identifier 7210 and the attribute identifier 7215 identify that the Chinese population is characterized by the value received using the display element 7200.

値入力要素7220は、インスタンス識別子7210によって識別されるインスタンスの属性識別子7215によって識別された属性を特徴付ける値をユーザーが指定することを可能にするインタラクティブ要素である。値入力要素7220は、例えば、テキスト入力フィールドであってよい。   The value input element 7220 is an interactive element that allows a user to specify a value that characterizes the attribute identified by the attribute identifier 7215 of the instance identified by the instance identifier 7210. The value input element 7220 may be a text input field, for example.

値使用トリガー要素7225は、構造化プレゼンテーションにおいてインスタンス識別子7210によって識別されるインスタンスの属性識別子7215によって識別された属性を特徴付けるためにユーザーが値入力要素7220に入力された値の使用をトリガーすることを可能にするインタラクティブ要素である。値使用トリガー要素7225は、例えば、値使用トリガー要素7225に対するユーザーインタラクションの結果、値入力要素7220に入力された値が構造化プレゼンテーションにおいて使用されることを識別するテキストを含むボタンであるものとしてよい。   The value usage trigger element 7225 triggers the user to use the value entered in the value input element 7220 to characterize the attribute identified by the instance attribute identifier 7215 identified by the instance identifier 7210 in the structured presentation. An interactive element that enables. The value usage trigger element 7225 may be, for example, a button that includes text identifying that the value entered in the value input element 7220 is used in the structured presentation as a result of user interaction with the value usage trigger element 7225. .

プレゼンテーション閉じる要素7230は、表示要素7200をユーザーが閉じることを可能にするインタラクティブ要素である。表示要素7200は、プレゼンテーション閉じる要素7230に対するユーザーインタラクションに応答して、値入力要素7220に入力された値が、構造化プレゼンテーションにおいて、インスタンス識別子7210によって識別されるインスタンスの属性識別子7215によって識別された属性を特徴付けるために使用されるかどうかに関係なく閉じられる。プレゼンテーション閉じる要素7230は、例えば、プレゼンテーション閉じる要素7230に対するユーザーインタラクションにより表示要素7200が閉じられることを識別するテキストを含むボタンとすることができる。   Presentation close element 7230 is an interactive element that allows the user to close display element 7200. The display element 7200 is an attribute identified by the attribute identifier 7215 of the instance whose value entered in the value input element 7220 is identified by the instance identifier 7210 in the structured presentation in response to user interaction with the presentation close element 7230. Regardless of whether used to characterize. Presentation close element 7230 can be, for example, a button that includes text identifying that display element 7200 is closed by user interaction with presentation close element 7230.

図73は、以前に隠されていた検索インターフェイスが提示される表示要素7300の図である。いくつかの実装では、構造化プレゼンテーションそれ自体に対するユーザーインタラクションに応答して、または以前に隠されていた検索インタラクティブ要素7005に対するユーザーインタラクションに応答して表示要素7300を提示することができる。表示要素7300は、構造化プレゼンテーションに追加するインスタンスの属性の値を受け取ることができる。ヘッダ7205、インスタンス識別子7210、属性識別子7215、値入力要素7220、値使用トリガー要素7225、およびプレゼンテーション閉じる要素7230に加えて、表示要素7300は、ソース入力要素7305およびソース入力要素識別子7310を含む。   FIG. 73 is a diagram of a display element 7300 where a previously hidden search interface is presented. In some implementations, the display element 7300 can be presented in response to user interaction with the structured presentation itself or in response to user interaction with a previously hidden search interactive element 7005. The display element 7300 can receive the value of an instance attribute to add to the structured presentation. In addition to the header 7205, instance identifier 7210, attribute identifier 7215, value input element 7220, value usage trigger element 7225, and presentation close element 7230, the display element 7300 includes a source input element 7305 and a source input element identifier 7310.

ソース入力要素7305は、インスタンス識別子7210によって識別されるインスタンスの属性識別子7215によって識別された属性を特徴付ける値のソースをユーザーが指定することを可能にするインタラクティブ要素である。ソース入力要素7305は、例えば、テキスト入力フィールドであってよい。ソース入力要素識別子7310は、ソース入力要素7305を使用して値のソースを指定することができることを記述するテキストまたは他の情報である。   Source input element 7305 is an interactive element that allows the user to specify the source of the values that characterize the attribute identified by the instance attribute identifier 7215 identified by the instance identifier 7210. The source input element 7305 may be, for example, a text input field. The source input element identifier 7310 is text or other information that describes that the source input element 7305 can be used to specify the source of the value.

いくつかの実装では、表示要素7200、7300は、検索に失敗した後、ユーザーのために、ディスプレイ画面上に表示されうる。例えば、表示要素7200、7300は、前の検索の結果にユーザーが満足していないことを示す情報をユーザーから受け取ったことに応答して表示することができる。例えば、表示要素7200、7300の表示は、検索トリガー7005(図70)に対するユーザーインタラクションによってトリガーされうる。他の例として、表示要素7200、7300は、インスタンスの属性の値に対する自動検索が実行されたが満足できる結果が得られなかった場合に表示されうる。   In some implementations, the display elements 7200, 7300 may be displayed on the display screen for the user after a failed search. For example, the display elements 7200, 7300 can be displayed in response to receiving information from the user indicating that the user is not satisfied with the results of the previous search. For example, the display of display elements 7200, 7300 may be triggered by user interaction with search trigger 7005 (FIG. 70). As another example, the display elements 7200 and 7300 may be displayed when an automatic search for an instance attribute value is performed but a satisfactory result is not obtained.

値の検索から満足できる結果が得られない理由は多数ある。例えば、属性、およびインスタンス、またはその両方の指定が、例えば、綴り違いまたは他の誤りにより正しくないことが考えられる。他の例として、属性またはインスタンスが、誤りはないが、未知の、または不定の値に関して指定される場合もある。例えば、インスタンス「suitable for Jim and Diane」は、不定の値、つまり、JimおよびDianeの識別、さらに彼らにとって「suitable」であるものの性質に関して指定される。他の例として、インスタンス「my car」は、不定の値、つまり、特徴付けられる自動車の持ち主の識別に関して指定される。   There are many reasons why a search for a value does not give satisfactory results. For example, the specification of attributes and / or instances may be incorrect due to misspellings or other errors, for example. As another example, an attribute or instance may be specified with respect to an unknown or indefinite value that is error-free. For example, the instance “suitable for Jim and Diane” is specified in terms of indeterminate values, namely the identity of Jim and Diane, and the nature of what is “suitable” to them. As another example, the instance “my car” is specified with an indeterminate value, ie, identification of the owner of the car being characterized.

値の検索により、事前検索の結果得られた電子文書が構造化プレゼンテーションに対する値を与えるようには機能しないために、満足できる結果が得られない場合もある。例えば、値が引き出されるソース文書が利用不可能になる可能性がある。ソース文書は、例えば、ソース文書を追加した当事者が電子文書コレクションからその文書を引き出すときに利用不可能になることがある。さらに他の例として、そのようなソース文書はまだ利用可能ではあるが、値それ自体はソース文書内で利用不可能になっている場合もある。値は、例えば、ソース文書を電子文書コレクションに追加した当事者がソース文書のコンテンツを変更したときに利用不可能になることがある。   Searching for values may not provide satisfactory results because the electronic document obtained as a result of the pre-search does not function to provide values for the structured presentation. For example, the source document from which the value is derived may become unavailable. The source document may become unavailable, for example, when the party that added the source document retrieves the document from the electronic document collection. As yet another example, such a source document may still be available, but the value itself is not available in the source document. The value may become unavailable, for example, when the party who added the source document to the electronic document collection changes the content of the source document.

図74は、以前に隠されていた検索インターフェイスが提示される表示要素7400の図である。表示要素7400は、ユーザーインタラクションに応答して、またはトリガーイベントに応答して自動的に提示されうる。例えば、表示要素7400は、事前検索が機能しなくなったことに応答して自動的に掲示されうる。   FIG. 74 is an illustration of a display element 7400 where a previously hidden search interface is presented. Display element 7400 may be presented automatically in response to user interaction or in response to a trigger event. For example, the display element 7400 can be automatically posted in response to the pre-search not working.

表示要素7400は、検索インタラクティブ要素6505、ソース識別子6605、およびウィンドウ6510内のエラーメッセージ7405を含む。検索インタラクティブ要素6505は、セル6220に書き込むために「more options...」が値の検索に利用可能であることを示すアンカーテキストを含むハイパーリンクである。ソース識別子6605は、セル6220に書き込む値307のソースである電子文書を識別するテキストのコレクションである。   Display element 7400 includes a search interactive element 6505, a source identifier 6605, and an error message 7405 in window 6510. Search interactive element 6505 is a hyperlink that includes anchor text indicating that “more options ...” is available to search for a value to write to cell 6220. Source identifier 6605 is a collection of text that identifies the electronic document that is the source of value 307 to be written to cell 6220.

エラーメッセージ7405は、事前検索の結果が機能しなくなったことを示すテキストまたは他の情報を含むことができる。例えば、エラーメッセージ7405は、値307がソース識別子6605によって識別されるソース文書内で利用不可能になったことを示すことができる。エラーメッセージ7405は、機能不全の性質を記述するか、またはエラーが発生したことを単純に示す情報を含むことができる。例えば、例示されている実装では、エラーメッセージ7405は、電子文書それ自体はまだ利用可能なのに値がもはや電子文書内で利用できなくなっていることを示す。   Error message 7405 can include text or other information indicating that the results of the pre-search have stopped working. For example, error message 7405 can indicate that value 307 has become unavailable in the source document identified by source identifier 6605. Error message 7405 may describe the nature of the malfunction or may include information that simply indicates that an error has occurred. For example, in the illustrated implementation, error message 7405 indicates that the electronic document itself is still available, but the value is no longer available in the electronic document.

図75は、電子文書コレクション内の文書のコンテンツに基づいて値を構造化プレゼンテーションに追加するためのプロセス7500の流れ図である。プロセス7500は、1つまたは複数の機械可読命令セットを実行することによってオペレーションを実行する1つまたは複数のコンピュータのシステムによって実行されうる。例えば、プロセス7500は、システム200内の検索エンジン202によって実行されうる。プロセス7500は、単独で、または他の活動と連携して実行されうる。例えば、プロセス7100は、プロセス6100(図61)の一部として実行されうる。   FIG. 75 is a flow diagram of a process 7500 for adding values to a structured presentation based on the content of documents in an electronic document collection. Process 7500 may be performed by a system of one or more computers that perform operations by executing one or more machine-readable instruction sets. For example, process 7500 can be performed by search engine 202 in system 200. Process 7500 may be performed alone or in conjunction with other activities. For example, process 7100 may be performed as part of process 6100 (FIG. 61).

プロセス7500を実行するシステムは、事前に存在している構造化プレゼンテーションの1つまたは複数のセルの1つまたは複数の値の更新をトリガーする更新トリガーを受け取ることができる(ステップ7505)。更新トリガーは、例えば、前の更新以降一定期間経過したことに応答して自動的に、ユーザーインタラクションに応答して手動で、または同様の形で生成されうる。例えば、上述のように、セル6220(図62、63、64)に対するユーザーインタラクションは、セルの更新をトリガーしうる。更新トリガーは、構造化プレゼンテーション内の値または単一のセル、セルのコレクションの値、またはすべてのセルの値の更新をトリガーしうる。それに付随して、上で説明されているように、更新トリガーにより、1つまたは複数のインスタンスの1つまたは複数の属性を指定することができる。   The system performing process 7500 may receive an update trigger that triggers an update of one or more values of one or more cells of a pre-existing structured presentation (step 7505). The update trigger can be generated, for example, automatically in response to a certain period of time since the previous update, manually in response to user interaction, or the like. For example, as described above, user interaction with cell 6220 (FIGS. 62, 63, 64) may trigger a cell update. An update trigger may trigger an update of a value or a single cell, a collection of cells, or all cell values in a structured presentation. Concomitantly, as described above, an update trigger can specify one or more attributes of one or more instances.

プロセス7500を実行するシステムは、構造化プレゼンテーションに値を書き込むために1つまたは複数の事前検索が機能しなくなっているかどうかを判定することができる(ステップ7510)。このような判定は、構造化プレゼンテーションに書き込む値が引き出される文書にアクセスしようとすることによって行われうる。   The system performing process 7500 may determine whether one or more pre-searches are not working to write values to the structured presentation (step 7510). Such a determination can be made by attempting to access a document from which values to write to the structured presentation are derived.

プロセス7100を実行するシステムが、事前検索が機能しなくなっていると判定した場合、システムは、事前検索で識別されている1つまたは複数のソース文書のコンテンツで構造化プレゼンテーションを更新することができる(ステップ7515)。構造化プレゼンテーションを更新するために使用される新規値は、構造化プレゼンテーションに書き込むためにすでに使用されている値と同一である必要はない。むしろ、更新された構造化プレゼンテーションは、その現在のコンテンツとともにソース電子文書によって提供される値を含むことができる。   If the system performing process 7100 determines that the pre-search is no longer working, the system can update the structured presentation with the content of one or more source documents identified in the pre-search. (Step 7515). The new value used to update the structured presentation need not be the same as the value already used to write to the structured presentation. Rather, the updated structured presentation can include values provided by the source electronic document along with its current content.

プロセス7100を実行するシステムが、事前検索が機能しなくなったと判定した場合、システムは、事前検索が操作不能であることをユーザーに通知することができる(ステップ7520)。例えば、表示要素7400など表示要素を使用して、操作可能であることをユーザーに通知することができ、またこれにより、ユーザーは新規検索を実行して構造化プレゼンテーションに値を書き込む機会を得ることができる。いくつかの実装では、システムは、プロセス7100(図71)のステップ7120を参照しつつ説明されているように、新規検索を実行し、その新規検索によって得られた結果セット内の1つまたは複数の電子文書を特徴付ける情報を供給することができる。   If the system executing process 7100 determines that the pre-search has stopped working, the system can notify the user that the pre-search is inoperable (step 7520). For example, a display element such as display element 7400 can be used to notify the user that it is operational, and this gives the user the opportunity to perform a new search and write a value to the structured presentation. Can do. In some implementations, the system performs a new search, as described with reference to step 7120 of process 7100 (FIG. 71), and one or more in the result set obtained by the new search. Information that characterizes the electronic document can be provided.

そこで、本明細書の表示および主題は、例えば、以下に番号付きで示されている実施形態を含む、多数の本発明の実施形態により実現することができる。   Thus, the display and subject matter herein can be implemented by a number of embodiments of the invention, including, for example, the embodiments numbered below.

実施形態1:機械実装方法であって、この方法は、事前に存在している構造化プレゼンテーションを記述する記述データを受け取る段階であって、事前に存在している構造化プレゼンテーションの視覚的提示は、構造化設計に適合するシステム配置で情報を視覚的に提示し、構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す、段階と、事前に存在している構造化プレゼンテーションの特性を電子文書の非構造化コレクション内の電子文書のコンテンツと比較して事前に存在している構造化プレゼンテーションに関連する新規インスタンスを識別する電子文書を特定する段階と、新規インスタンスの識別子を事前に存在している構造化プレゼンテーションに追加して拡張構造化プレゼンテーションを形成する段階と、拡張構造化プレゼンテーションをディスプレイデバイス上に提示するための命令を出力する段階とを含む、機械実装方法。   Embodiment 1: A machine-implemented method, which is a step of receiving descriptive data describing a pre-existing structured presentation, wherein the visual presentation of the pre-existing structured presentation is Visually present information in a system layout that conforms to the structured design, and the structured presentation provides an association between the instance and the values that characterize the attributes of the instance in the visual presentation of the structured presentation. A new representation associated with a pre-existing structured presentation by comparing the characteristics of the pre-existing structured presentation with the contents of the electronic document in an unstructured collection of electronic documents, represented by an array of Identify the electronic document that identifies the instance and identify the new instance Forming an extended structured presentation in addition to the structured presentation that is present in advance, an extended structured presentation and a step of outputting an instruction for presentation on a display device, machine implementation.

実施形態2:新規インスタンスの識別子を追加する段階は、インスタンス提案のコレクションを構成する段階と、インスタンス提案コレクションをユーザーに提供する段階と、新規インスタンスのユーザー選択を受け取る段階とを含み、新規インスタンスはインスタンス提案のコレクションに含まれる、実施形態1の方法。   Embodiment 2: Adding a new instance identifier includes configuring an instance proposal collection, providing an instance proposal collection to a user, and receiving a user selection of the new instance, wherein the new instance is The method of embodiment 1 included in the collection of instance proposals.

実施形態3:事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーションで識別されたインスタンスに関係する構造化コンポーネントを含む電子文書コレクション内の文書を識別する段階を含む、実施形態2の方法。   Embodiment 3: Comparing the characteristics of a preexisting structured presentation with the content of the electronic document includes an electronic document that includes a structured component related to an instance identified in the preexisting structured presentation 3. The method of embodiment 2 comprising identifying documents in the collection.

実施形態4:インスタンス提案のコレクションを構成する段階は、事前に存在している構造化プレゼンテーションで識別されたインスタンスの識別子を含み、テンプレートに従って配列されている電子文書コレクション内の第1の文書を識別する段階と、テンプレートに従って配列されているが、第2のインスタンスに関連している第2の文書を識別する段階と、第2のインスタンスをインスタンス提案コレクションに含める段階とを含む、実施形態2の方法。   Embodiment 4: The step of configuring a collection of instance proposals includes an identifier of an instance identified in a pre-existing structured presentation and identifies a first document in an electronic document collection arranged according to a template Embodiment 2 comprising: identifying a second document arranged according to the template but related to the second instance; and including the second instance in the instance proposal collection. Method.

実施形態5:事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーション内の1つまたは複数のインスタンスに関する情報を含む電子文書コレクション内の文書を識別する段階を含む、実施形態1の方法。   Embodiment 5: Comparing the characteristics of a pre-existing structured presentation with the content of the electronic document includes electronic document collection including information about one or more instances in the pre-existing structured presentation 2. The method of embodiment 1, comprising identifying a document within.

実施形態6:事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、インスタンスと属性との関連付けの格納されているコレクション内の新規インスタンスを特定する段階を含む、実施形態1の方法。   Embodiment 6: Comparing pre-existing structured presentation characteristics with content of an electronic document includes identifying a new instance in a stored collection of instance-attribute associations Form 1 method.

実施形態7:事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーションの特性を事前に存在している構造化プレゼンテーションにおいて特徴付けられている属性と比較する段階を含む、実施形態1の方法。   Embodiment 7: The step of comparing the characteristics of a pre-existing structured presentation with the content of the electronic document is characterized by pre-existing structured presentation characteristics in the pre-existing structured presentation. Embodiment 2. The method of embodiment 1 comprising comparing to the attribute being

実施形態8:事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーション内のインスタンスを特徴付けるために使用される属性を電子文書のコンテンツと比較する段階を含む、実施形態1の方法。   Embodiment 8: The step of comparing the characteristics of a pre-existing structured presentation with the content of the electronic document includes the attributes used to characterize the instances in the pre-existing structured presentation. The method of embodiment 1, comprising the step of comparing with the content.

実施形態9:事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーション内のインスタンスを特徴付けるために使用される属性の値を電子文書のコンテンツと比較する段階を含む、実施形態1の方法。   Embodiment 9: The step of comparing the characteristics of a pre-existing structured presentation with the content of an electronic document is to electronically calculate the values of attributes used to characterize instances in the pre-existing structured presentation. The method of embodiment 1, comprising the step of comparing with the content of the document.

実施形態10:事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーション内のインスタンスを含むインスタンスのカテゴリを電子文書のコンテンツと比較する段階を含む、実施形態1の方法。   Embodiment 10: The step of comparing the characteristics of a pre-existing structured presentation with the content of the electronic document includes comparing the category of the instance including the instance in the pre-existing structured presentation with the content of the electronic document. The method of embodiment 1, comprising the step of:

実施形態11:電子文書のコレクションは、インターネット上で利用可能な電子文書を含み、電子文書は、ウェブページを含む、実施形態1の方法。   Embodiment 11: The method of Embodiment 1, wherein the collection of electronic documents includes electronic documents available on the Internet, and the electronic documents include web pages.

実施形態12:拡張構造化プレゼンテーションは、テーブルを含む、実施形態1の方法。   Embodiment 12: The method of Embodiment 1, wherein the extended structured presentation includes a table.

実施形態13:拡張構造化プレゼンテーションは、カードのコレクションを含む、実施形態1の方法。   Embodiment 13: The method of Embodiment 1, wherein the extended structured presentation includes a collection of cards.

実施形態14:ディスプレイ画面の1つまたは複数の要素を物理的に変換する段階を含めて、拡張構造化プレゼンテーションをディスプレイ画面上に視覚的に提示する段階をさらに含む、実施形態1の方法。   Embodiment 14: The method of Embodiment 1, further comprising visually presenting the augmented structured presentation on the display screen, including physically transforming one or more elements of the display screen.

実施形態15:1つまたは複数のデータ処理機にオペレーションを実行させるように動作可能な命令を格納する1つまたは複数の機械可読データ記憶媒体を備える装置であって、これらのオペレーションは、非構造化電子文書コレクション内の2つまたはそれ以上の文書のコンテンツに基づいてインスタンス提案のコレクションを構成する段階であって、電子文書コレクションは、電子文書コレクション内の電子文書のフォーマットが制限的でも永続的でもないという点で非構造化コレクションである、段階と、インスタンス提案コレクションをユーザーに提供する段階と、インスタンス提案のコレクション内の第1のインスタンスのユーザー選択を受け取る段階と、第1のインスタンス提案の識別子をディスプレイデバイス上に提示される構造化プレゼンテーションに追加する段階であって、構造化プレゼンテーションの視覚的提示により、情報が整理された形で視覚的に提示され、構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す、段階とを含む。   Embodiment 15: An apparatus comprising one or more machine-readable data storage media storing instructions operable to cause one or more data processors to perform operations, wherein the operations are unstructured Configure a collection of instance proposals based on the content of two or more documents in a structured electronic document collection, where the electronic document collection is permanent even if the electronic document format in the electronic document collection is limited A stage that is an unstructured collection in terms of providing a user with an instance proposal collection, receiving a user selection of the first instance in the instance proposal collection, and An identifier is presented on the display device to the structured pre In the presentation, where the presentation of the structured presentation visually presents the information in an organized form, and the structured presentation is the visual presentation of the structured presentation, and the instance and instance attributes And the step of representing the association between the values characterizing by an instance identifier and an array of values.

実施形態16:インスタンス提案のコレクションを構成する段階は、事前に存在している構造化プレゼンテーションの特性を電子文書コレクション内の電子文書のコンテンツと比較する段階を含む、実施形態15の装置。   Embodiment 16: The apparatus of Embodiment 15, wherein configuring the collection of instance proposals includes comparing pre-existing structured presentation characteristics with the content of the electronic documents in the electronic document collection.

実施形態17:インスタンス提案のコレクションを構成する段階は、事前に存在している構造化プレゼンテーション内で識別されているインスタンスに関係する構造化コンポーネントを含む電子文書コレクション内の文書を識別する段階を含む、実施形態16の装置。   Embodiment 17: Configuring a collection of instance proposals includes identifying a document in an electronic document collection that includes a structured component related to the identified instance in a pre-existing structured presentation. Embodiment 16

実施形態18:インスタンス提案コレクションを構成する段階は、事前に存在している構造化プレゼンテーションで識別されたインスタンスに関連し、テンプレートに従って配列されている、電子文書コレクション内の第1の文書を識別する段階と、テンプレートに従って配列されているが、第2のインスタンスに関連している第2の文書を識別する段階と、第2のインスタンスをインスタンス提案コレクションに含める段階とを含む、実施形態16の装置。   Embodiment 18: The step of configuring an instance proposal collection identifies a first document in an electronic document collection that is associated with an instance identified in a pre-existing structured presentation and arranged according to a template 17. The apparatus of embodiment 16, comprising: identifying a second document arranged according to the template but related to the second instance; and including the second instance in the instance proposal collection .

実施形態19:インスタンス提案のコレクションを構成する段階は、事前に存在している構造化プレゼンテーション内の1つまたは複数のインスタンスの識別子を含む電子文書コレクション内の文書を識別する段階を含む、実施形態16の装置。   Embodiment 19: An embodiment wherein configuring a collection of instance proposals includes identifying documents in an electronic document collection that includes identifiers of one or more instances in a pre-existing structured presentation. 16 devices.

実施形態20:インスタンス提案のコレクションを構成する段階は、事前に存在している構造化プレゼンテーション内のインスタンスを特徴付けるために使用される追加の属性を識別する段階を含む、実施形態16の装置。   Embodiment 20: The apparatus of Embodiment 16, wherein configuring the collection of instance proposals includes identifying additional attributes used to characterize the instances in the pre-existing structured presentation.

実施形態21:インスタンス提案のコレクションを構成する段階は、事前に存在している構造化プレゼンテーション内のインスタンスを特徴付けるために使用される属性の値をインスタンス提案の値と比較する段階を含む、実施形態16の装置。   Embodiment 21: An embodiment wherein configuring a collection of instance proposals comprises comparing the value of an attribute used to characterize an instance in a pre-existing structured presentation with the value of the instance proposal. 16 devices.

実施形態22:インスタンス提案のコレクションを構成する段階は、事前に存在している構造化プレゼンテーション内のインスタンスを含むインスタンスのカテゴリを識別する段階と、インスタンスのそのカテゴリ内のインスタンスを使用してインスタンス提案のコレクションを構成する段階とを含む、実施形態16の装置。   Embodiment 22: Configuring a collection of instance proposals includes identifying a category of instances that includes instances in a pre-existing structured presentation, and using the instances in that category of instances, instance proposals 17. The apparatus of embodiment 16, comprising the steps of:

実施形態23:インスタンス提案のコレクションを構成する段階は、インスタンスと属性との関連付けの格納されているコレクション内のインスタンス提案を識別する段階を含む、実施形態15の装置。   Embodiment 23: The apparatus of Embodiment 15, wherein configuring a collection of instance proposals includes identifying an instance proposal in a collection in which the association of instances and attributes is stored.

実施形態24:インスタンス提案のコレクションを構成する段階は、事前に存在している構造化プレゼンテーションにおいて特徴付けられている属性を非構造化電子文書コレクション内の文書のコンテンツと比較する段階を含む、実施形態15の装置。   Embodiment 24: Configuring the collection of instance proposals includes comparing the attributes characterized in the pre-existing structured presentation with the content of the documents in the unstructured electronic document collection Form 15 device.

実施形態25:電子文書のコレクションは、インターネット上で利用可能な文書を含み、電子文書は、ウェブページを含む、実施形態15の装置。   Embodiment 25: The apparatus of Embodiment 15, wherein the collection of electronic documents includes documents available on the Internet, and the electronic documents include web pages.

実施形態26:構造化プレゼンテーションは、テーブルを含む、実施形態15の装置。   Embodiment 26: The apparatus of Embodiment 15, wherein the structured presentation includes a table.

実施形態27:構造化プレゼンテーションは、カードのコレクションを含む、実施形態15の装置。   Embodiment 27: The apparatus of Embodiment 15, wherein the structured presentation includes a collection of cards.

実施形態28:クライアントデバイスと、クライアントデバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータであって、これらのオペレーションは、事前に存在している構造化プレゼンテーションを記述する記述データを受け取る段階であって、事前に存在している構造化プレゼンテーションの視覚的提示は、構造化設計に適合するシステム配置で情報を視覚的に提示し、構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す、段階と、事前に存在している構造化プレゼンテーションの特性を電子文書の非構造化コレクション内の電子文書のコンテンツと比較して事前に存在している構造化プレゼンテーションに関連する新規インスタンスを識別する電子文書を特定する段階と、新規インスタンスの識別子を事前に存在している構造化プレゼンテーションに追加して拡張構造化プレゼンテーションを形成する段階と、クライアントデバイスとデータ通信を行うように結合されているディスプレイデバイス上に拡張構造化プレゼンテーションを提示するための命令を出力する段階とを含む、1つまたは複数のコンピュータとを備えるシステム。   Embodiment 28: A client device and one or more computers programmed to operate the client device interactively and perform operations, wherein these operations are pre-existing structured presentations. At the stage of receiving descriptive data to describe, the visual presentation of a pre-existing structured presentation visually presents information in a system layout that conforms to the structured design, and the structured presentation is structured An electronic document unstructured stage that represents the association between an instance and the values that characterize the attributes of the instance in the visual presentation of the presentation, represented by an instance identifier and an array of values, and pre-existing structured presentation characteristics Of electronic documents in a collection Identifying an electronic document that identifies a new instance associated with a pre-existing structured presentation compared to the content, and adding an identifier for the new instance to the pre-existing structured presentation to extend the structure One or more computers comprising: forming a structured presentation; and outputting instructions for presenting the enhanced structured presentation on a display device that is coupled in data communication with the client device; A system comprising:

実施形態29:クライアントデバイスと、クライアントデバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータであって、これらのオペレーションは、非構造化電子文書コレクション内の2つまたはそれ以上の文書のコンテンツに基づいてインスタンス提案のコレクションを構成する段階であって、電子文書コレクションは、電子文書コレクション内の電子文書のフォーマットが制限的でも永続的でもないという点で非構造化コレクションである、段階と、クライアントデバイスを使用してインスタンス提案コレクションをユーザーに提供する段階と、インスタンス提案のコレクション内の第1のインスタンスのユーザー選択を受け取る段階と、クライアントデバイスとデータ通信を行うように結合されているディスプレイデバイス上に提示される構造化プレゼンテーションに第1のインスタンス提案の識別子を追加する段階とを含み、構造化プレゼンテーションの視覚的提示により、情報が整理された形で視覚的に提示され、構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す、段階とを含む、1つまたは複数のコンピュータとを備えるシステム。   Embodiment 29: A client device and one or more computers programmed to operate the client device interactively and perform operations, wherein these operations are two in an unstructured electronic document collection The stage of constructing a collection of instance proposals based on the content of the document or higher, and the electronic document collection is unstructured in that the format of the electronic document in the electronic document collection is neither restrictive nor permanent A collection, a stage using a client device to provide an instance proposal collection to a user, a stage receiving a user selection of the first instance in the instance proposal collection, and data communication with the client device. Adding the identifier of the first instance proposal to the structured presentation presented on the display devices that are coupled in a visual manner, and the visual presentation of the structured presentation visually displays the information in an organized manner. A structured presentation comprising a stage, wherein an association between an instance and a value characterizing an instance attribute is represented by an instance identifier and an array of values in the visual presentation of the structured presentation, A system comprising a plurality of computers.

実施形態30:1つまたは複数のコンピュータは、データ通信ネットワークを通じてクライアントデバイスをインタラクティブに操作するように動作可能なサーバーを含み、クライアントデバイスは、クライアントとしてサーバーをインタラクティブに操作するように動作可能であり、クライアントデバイスは、ウェブブラウザを実行するパーソナルコンピュータを含み、パーソナルコンピュータは、ディスプレイデバイスを備える、実施形態29のシステム。   Embodiment 30: One or more computers include a server operable to interact with a client device through a data communication network, and the client device is operable to interact with the server as a client. 30. The system of embodiment 29, wherein the client device comprises a personal computer executing a web browser, the personal computer comprising a display device.

実施形態31:機械実装方法であって、この方法は、事前に存在している構造化プレゼンテーションを記述する記述データを受け取る段階であって、事前に存在している構造化プレゼンテーションの視覚的提示は、構造化設計に適合するシステム配置で情報を視覚的に提示し、構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す、段階と、事前に存在している構造化プレゼンテーションの特性を電子文書の非構造化コレクション内の電子文書のコンテンツと比較して事前に存在している構造化プレゼンテーションに関連する新規属性を識別する電子文書を特定する段階と、新規属性の識別子を事前に存在している構造化プレゼンテーションに追加して拡張構造化プレゼンテーションを形成する段階と、拡張構造化プレゼンテーションをディスプレイ画面上に提示するための命令を出力する段階とを含む機械実装方法。   Embodiment 31: A machine-implemented method, the method comprising receiving descriptive data describing a pre-existing structured presentation, wherein the visual presentation of the pre-existing structured presentation is Visually present information in a system layout that conforms to the structured design, and the structured presentation provides an association between the instance and the values that characterize the attributes of the instance in the visual presentation of the structured presentation. A new representation associated with a pre-existing structured presentation by comparing the characteristics of the pre-existing structured presentation with the contents of the electronic document in an unstructured collection of electronic documents, represented by an array of Identifying the electronic document that identifies the attribute and the identifier of the new attribute Machine implemented method comprising the steps of forming additional to extend structured presentation structured presentation are, and an extended structured presentation step of outputting an instruction for presentation on a display screen.

実施形態32:新規属性の識別子を追加する段階は、属性提案のコレクションを構成する段階と、属性提案コレクションをユーザーに提供する段階と、新規属性のユーザー選択を受け取る段階とを含み、新規属性はインスタンス提案のコレクションに含まれる、実施形態31の方法。   Embodiment 32: Adding an identifier of a new attribute includes configuring a collection of attribute proposals, providing the attribute proposal collection to a user, and receiving a user selection of the new attribute, wherein the new attribute is 32. The method of embodiment 31 included in a collection of instance proposals.

実施形態33:属性提案コレクションを構成する段階は、事前に存在している構造化プレゼンテーションで識別されたインスタンスに関連し、テンプレートに従って配列されている、電子文書コレクション内の第1の文書を識別する段階と、属性提案コレクション内のインスタンスを特徴付けるために第1の文書内で使用される属性を追加する段階とを含む、実施形態32の方法。   Embodiment 33: The step of configuring the attribute proposal collection identifies a first document in the electronic document collection that is related to the instance identified in the pre-existing structured presentation and arranged according to the template. 33. The method of embodiment 32 comprising the steps of: adding attributes used in the first document to characterize instances in the attribute proposal collection.

実施形態34:事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーションで識別されたインスタンスに関係する構造化コンポーネントを含む電子文書コレクション内の文書を識別する段階を含む、実施形態31の方法。   Embodiment 34: The step of comparing the characteristics of the preexisting structured presentation with the contents of the electronic document includes an electronic document that includes a structured component related to the instance identified in the preexisting structured presentation. 32. The method of embodiment 31, comprising identifying documents in the collection.

実施形態35:事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーション内の1つまたは複数のインスタンスに関する情報を含む電子文書コレクション内の文書を識別する段階を含む、実施形態31の方法。   Embodiment 35: The step of comparing pre-existing structured presentation characteristics with the content of the electronic document includes information about one or more instances in the pre-existing structured presentation. 32. The method of embodiment 31, comprising identifying a document within.

実施形態36:事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、インスタンスと属性との関連付けの格納されているコレクション内の新規属性を識別する段階を含む、実施形態31の方法。   Embodiment 36: Comparing pre-existing structured presentation characteristics with the content of an electronic document includes identifying new attributes in a stored collection of instance-attribute associations The method of form 31.

実施形態37:事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーションにおいて特徴付けられているインスタンスを電子文書のコンテンツと比較する段階を含む、実施形態31の方法。   Embodiment 37: The step of comparing the characteristics of the preexisting structured presentation with the contents of the electronic document compares the instance characterized in the preexisting structured presentation with the contents of the electronic document. The method of embodiment 31, comprising the steps.

実施形態38:事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーションにおいて識別されているインスタンスに関係する追加のインスタンスを識別する段階を含む、実施形態31の方法。   Embodiment 38: The step of comparing the characteristics of a preexisting structured presentation with the content of the electronic document identifies additional instances related to the instances identified in the preexisting structured presentation The method of embodiment 31, comprising the steps.

実施形態39:事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーション内のインスタンスを特徴付けるために使用される属性または属性の値を電子文書のコンテンツと比較する段階を含む、実施形態31の方法。   Embodiment 39: The step of comparing the characteristics of a preexisting structured presentation with the content of the electronic document is to use an attribute or attribute value used to characterize an instance in the preexisting structured presentation 32. The method of embodiment 31, comprising comparing the to the content of the electronic document.

実施形態40:事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーション内のインスタンスを含むインスタンスのカテゴリを電子文書のコンテンツと比較する段階を含む、実施形態31の方法。   Embodiment 40: The step of comparing the characteristics of a pre-existing structured presentation with the content of the electronic document includes comparing the category of the instance including the instance in the pre-existing structured presentation with the content of the electronic document. 32. The method of embodiment 31, comprising the step of:

実施形態41:電子文書のコレクションは、インターネット上で利用可能な電子文書を含み、電子文書は、ウェブページを含む、実施形態31の方法。   Embodiment 41: The method of Embodiment 31, wherein the collection of electronic documents includes electronic documents available on the Internet, and the electronic documents include web pages.

実施形態42:拡張構造化プレゼンテーションは、テーブルを含む、実施形態31の方法。   Embodiment 42: The method of Embodiment 31, wherein the extended structured presentation includes a table.

実施形態43:拡張構造化プレゼンテーションは、カードのコレクションを含む、実施形態31の方法。   Embodiment 43: The method of Embodiment 31, wherein the extended structured presentation includes a collection of cards.

実施形態44:ディスプレイ画面の1つまたは複数の要素を物理的に変換する段階を含めて、拡張構造化プレゼンテーションをディスプレイ画面上に視覚的に提示する段階をさらに含む、実施形態31の方法。   Embodiment 44: The method of Embodiment 31, further comprising visually presenting the augmented structured presentation on the display screen, including physically transforming one or more elements of the display screen.

実施形態45:1つまたは複数のデータ処理機にオペレーションを実行させるように動作可能な命令を格納する1つまたは複数の機械可読データ記憶媒体を備える装置であって、これらのオペレーションは、非構造化電子文書コレクション内の2つまたはそれ以上の文書のコンテンツに基づいて属性提案のコレクションを構成する段階であって、電子文書コレクションは、電子文書コレクション内の電子文書のフォーマットが制限的でも永続的でもないという点で非構造化コレクションである、段階と、属性提案コレクションをユーザーに提供する段階と、属性提案のコレクション内の第1の属性のユーザー選択を受け取る段階と、第1の属性提案の識別子をディスプレイ画面上に提示される構造化プレゼンテーションに追加する段階であって、構造化プレゼンテーションの視覚的提示により、情報が整理された形で視覚的に提示され、構造化プレゼンテーションは、構造化プレゼンテーションの提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す、段階とを含む、装置。   Embodiment 45: An apparatus comprising one or more machine-readable data storage media storing instructions operable to cause one or more data processors to perform operations, wherein the operations are unstructured Configure a collection of attribute proposals based on the content of two or more documents in a structured electronic document collection, where the electronic document collection is permanent even if the electronic document format in the electronic document collection is limited A stage that is an unstructured collection, a stage that provides the user with an attribute proposal collection, a stage that receives a user selection of the first attribute in the collection of attribute proposals, and Adding an identifier to a structured presentation presented on a display screen, the structured The visual presentation of the presentation visually presents the information in an organized manner, and the structured presentation provides an association between the instance identifier and the value that characterizes the instance attributes in the structured presentation presentation. A device comprising steps represented by an array of values.

実施形態46:属性提案のコレクションを構成する段階は、事前に存在している構造化プレゼンテーションの特性を電子文書コレクション内の電子文書のコンテンツと比較する段階を含む、実施形態45の装置。   Embodiment 46: The apparatus of Embodiment 45, wherein configuring the collection of attribute proposals includes comparing pre-existing structured presentation characteristics with the content of the electronic document in the electronic document collection.

実施形態47:属性提案のコレクションを構成する段階は、事前に存在している構造化プレゼンテーション内で識別されているインスタンスを特徴付ける構造化コンポーネントを含む電子文書コレクション内の文書を識別する段階を含む、実施形態46の装置。   Embodiment 47: Configuring a collection of attribute proposals includes identifying documents in an electronic document collection that includes a structured component that characterizes an instance identified in a pre-existing structured presentation. Embodiment 46. The apparatus of embodiment 46.

実施形態48:属性提案コレクションを構成する段階は、事前に存在している構造化プレゼンテーションで識別されたインスタンスに関連し、テンプレートに従って配列されている、電子文書コレクション内の第1の文書を識別する段階と、属性提案コレクション内のインスタンスを特徴付けるために使用される属性を含める段階を含む、実施形態46の装置。   Embodiment 48: The step of constructing the attribute proposal collection identifies the first document in the electronic document collection that is related to the identified instance in the pre-existing structured presentation and arranged according to the template. 47. The apparatus of embodiment 46 comprising the steps and including attributes used to characterize instances in the attribute proposal collection.

実施形態49:属性提案のコレクションを構成する段階は、事前に存在している構造化プレゼンテーション内の1つまたは複数のインスタンスに関する情報を含む電子文書コレクション内の文書を識別する段階を含む、実施形態46の装置。   Embodiment 49: An embodiment wherein configuring a collection of attribute proposals includes identifying documents in an electronic document collection that includes information about one or more instances in a pre-existing structured presentation. 46 devices.

実施形態50:事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーションにおいて識別されているインスタンスを電子文書のコンテンツと比較する段階を含む、実施形態46の装置。   Embodiment 50: The step of comparing the characteristics of a pre-existing structured presentation with the content of the electronic document is comparing the instance identified in the pre-existing structured presentation with the content of the electronic document. 47. The apparatus of embodiment 46, comprising:

実施形態51:事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、事前に存在している構造化プレゼンテーション内のインスタンスを特徴付けるために使用される属性または属性の値を電子文書のコンテンツと比較する段階を含む、実施形態46の装置。   Embodiment 51: The step of comparing the characteristics of a pre-existing structured presentation with the content of the electronic document is to use an attribute or attribute value used to characterize an instance in the pre-existing structured presentation 47. The apparatus of embodiment 46, comprising comparing the to the content of the electronic document.

実施形態52:属性提案のコレクションを構成する段階は、事前に存在している構造化プレゼンテーション内のインスタンスを含むインスタンスのカテゴリを識別する段階と、インスタンスのそのカテゴリ内のインスタンスを特徴付けるために使用される属性から属性提案のコレクションを構成する段階とを含む、実施形態46の装置。   Embodiment 52: The step of constructing a collection of attribute proposals is used to identify a category of instances that include instances in a pre-existing structured presentation and to characterize instances within that category of instances. 47. The apparatus of embodiment 46, comprising: constructing a collection of attribute proposals from the attributes.

実施形態53:属性提案のコレクションを構成する段階は、インスタンスと属性との関連付けの格納されているコレクション内の属性提案を識別する段階を含む、実施形態45の装置。   Embodiment 53: The apparatus of Embodiment 45, wherein configuring the collection of attribute proposals includes identifying an attribute proposal in the collection in which the association of instances and attributes is stored.

実施形態54:電子文書のコレクションは、インターネット上で利用可能な電子文書を含み、電子文書は、ウェブページを含む、実施形態45の装置。   Embodiment 54: The apparatus of Embodiment 45, wherein the collection of electronic documents includes electronic documents available on the Internet, and the electronic documents include web pages.

実施形態55:構造化プレゼンテーションは、テーブルを含む、実施形態45の装置。   Embodiment 55: The apparatus of Embodiment 45, wherein the structured presentation includes a table.

実施形態56:構造化プレゼンテーションは、カードのコレクションを含む、実施形態45の装置。   Embodiment 56: The apparatus of Embodiment 45, wherein the structured presentation includes a collection of cards.

実施形態57:ディスプレイ画面を備えるクライアントデバイスと、クライアントデバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータであって、これらのオペレーションは、事前に存在している構造化プレゼンテーションを記述する記述データを受け取る段階であって、事前に存在している構造化プレゼンテーションの視覚的提示は、構造化設計に適合するシステム配置で情報を視覚的に提示し、構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す、段階と、事前に存在している構造化プレゼンテーションの特性を電子文書の非構造化コレクション内の電子文書のコンテンツと比較して事前に存在している構造化プレゼンテーションに関連する新規属性を識別する電子文書を特定する段階と、新規属性の識別子を事前に存在している構造化プレゼンテーションに追加して拡張構造化プレゼンテーションを形成する段階と、拡張構造化プレゼンテーションをディスプレイ画面上に提示するための命令を出力する段階とを含む、1つまたは複数のコンピュータとを備えるシステム。   Embodiment 57: A client device comprising a display screen and one or more computers programmed to operate the client device interactively and perform operations, the operations are pre-existing At the stage of receiving descriptive data describing the structured presentation, the visual presentation of the pre-existing structured presentation visually presents information in a system layout that conforms to the structured design, and the structured presentation The electronic representation of the stage and the characteristics of a pre-existing structured presentation, where the visual presentation of the structured presentation represents the association between the instance and the values characterizing the attributes of the instance by an instance identifier and an array of values. Unstructured document Identifying an electronic document that identifies a new attribute associated with a pre-existing structured presentation compared to the content of the electronic document in the collection, and a structured presentation pre-existing with an identifier for the new attribute A system comprising one or more computers, including: adding to form an extended structured presentation; and outputting instructions for presenting the extended structured presentation on a display screen.

実施形態58:ディスプレイ画面を備えるクライアントデバイスと、クライアントデバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータであって、これらのオペレーションは、非構造化電子文書コレクション内の2つまたはそれ以上の文書のコンテンツに基づいて属性提案のコレクションを構成する段階であって、電子文書コレクションは、電子文書コレクション内の電子文書のフォーマットが制限的でも永続的でもないという点で非構造化コレクションである、段階と、属性提案コレクションをクライアントデバイスに提供する段階と、クライアントデバイスから属性提案のコレクション内の第1の属性の選択を受け取る段階と、第1の属性提案の識別子をディスプレイ画面上に提示される構造化プレゼンテーションに追加する段階であって、構造化プレゼンテーションの視覚的提示により、情報が整理された形で視覚的に提示され、構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す、段階とを含む、1つまたは複数のコンピュータとを備えるシステム。   Embodiment 58: A client device comprising a display screen and one or more computers programmed to interact with the client device and perform operations, the operations comprising an unstructured electronic document collection Constructing a collection of attribute proposals based on the content of two or more documents in an electronic document collection, where the format of the electronic documents in the electronic document collection is neither restrictive nor permanent An unstructured collection, providing an attribute proposal collection to the client device, receiving a selection of the first attribute in the collection of attribute proposals from the client device, and an identifier for the first attribute proposal On the display screen In addition to the structured presentation shown, the visual presentation of the structured presentation visually presents the information in an organized form, and the structured presentation is instantiated with the visual presentation of the structured presentation. A system comprising one or more computers including a stage, wherein an association between values characterizing an instance attribute is represented by an instance identifier and an array of values.

実施形態59:機械実装方法であって、この方法は、事前に存在している構造化プレゼンテーションを記述する記述データを受け取る段階であって、事前に存在している構造化プレゼンテーションの視覚的提示は、構造化設計に適合するシステム配置で情報を視覚的に提示し、構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す、段階と、事前に存在している構造化プレゼンテーションの特性を電子文書の非構造化コレクション内の電子文書のコンテンツと比較して事前に存在している構造化プレゼンテーションに関連する新規値を識別する電子文書を特定する段階と、新規値を事前に存在している構造化プレゼンテーションに追加して新規構造化プレゼンテーションを形成する段階と、新規構造化プレゼンテーションを視覚的に提示するための命令を出力するアクションとを含む、機械実装方法。   Embodiment 59: A machine-implemented method, the method comprising receiving descriptive data describing a pre-existing structured presentation, wherein the visual presentation of the pre-existing structured presentation is Visually present information in a system layout that conforms to the structured design, and the structured presentation provides an association between the instance and the values that characterize the attributes of the instance in the visual presentation of the structured presentation. A new representation associated with a pre-existing structured presentation by comparing the characteristics of the pre-existing structured presentation with the contents of the electronic document in an unstructured collection of electronic documents, represented by an array of Identifying the electronic document that identifies the value and structuring the new value pre-existing Comprising forming a new structured presentation in addition to the presentation, and the action of outputting an instruction for visually presenting the new structured presentation, the machine mounting method.

実施形態60:事前に存在している構造化プレゼンテーションの特性を電子文書のコンテンツと比較する段階は、第1の電子文書において構造化プレゼンテーション内に出現する第1のインスタンスの識別子を特定する段階を含み、この方法は、新規値を第1の電子文書から抽出する段階をさらに含む、実施形態59の方法。   Embodiment 60: The step of comparing the characteristics of the pre-existing structured presentation with the content of the electronic document includes identifying an identifier of the first instance that appears in the structured presentation in the first electronic document. 60. The method of embodiment 59, further comprising extracting the new value from the first electronic document.

実施形態61:新規値を追加する段階は、第1のインスタンスの第1の属性の値のコレクションを識別する段階と、識別された値のうちの1つまたは複数の値のサブセットを、第1のインスタンスの第1の属性を適切に特徴付けるものとして確定する段階とを含む、実施形態59の方法。   Embodiment 61: The step of adding a new value comprises identifying a collection of values of a first attribute of a first instance, a subset of one or more of the identified values, a first 60. The method of embodiment 59, comprising: determining the first attribute of the instance of as appropriately characterizing.

実施形態62:値のサブセットを適切なものとして確定する段階は、コレクション内の値をいくつかのグループに分ける段階を含む、実施形態61の方法。   Embodiment 62: The method of embodiment 61, wherein determining the subset of values as appropriate comprises dividing the values in the collection into groups.

実施形態63:値のサブセットを適切なものとして確定する段階は、サブセット内の値の個数に少なくとも一部は基づいてサブセットを選択する段階を含む、実施形態61の方法。   Embodiment 63: The method of Embodiment 61, wherein determining the subset of values as appropriate includes selecting the subset based at least in part on the number of values in the subset.

実施形態64:値のサブセットを適切なものとして確定する段階は、ユーザー指定制約条件を満たすサブセット内の値に少なくとも一部は基づいてサブセットを選択する段階を含む、実施形態61の方法。   Embodiment 64: The method of Embodiment 61, wherein determining the subset of values as appropriate includes selecting the subset based at least in part on values in the subset that satisfy a user-specified constraint condition.

実施形態65:値のサブセットを適切なものとして確定する段階は、サブセット内の値が高品質文書から引き出される段階に少なくとも一部は基づいてサブセットを選択する段階を含む、実施形態61の方法。   Embodiment 65: The method of embodiment 61, wherein determining the subset of values as appropriate includes selecting the subset based at least in part on the values in the subset being derived from the high quality document.

実施形態66:値のサブセットを適切なものとして確定する段階は、サブセット内の値が事前に存在している構造化プレゼンテーション内の他のインスタンスに関連する文書から引き出される段階に少なくとも一部は基づいてサブセットを選択する段階を含む、実施形態61の方法。   Embodiment 66: Determining a subset of values as appropriate is based at least in part on steps derived from documents associated with other instances in the structured presentation for which the values in the subset already exist. 62. The method of embodiment 61, comprising selecting a subset.

実施形態67:値のサブセットを適切なものとして確定する段階は、サブセット内の値が事前に存在している構造化プレゼンテーション内の他の属性に関連する文書から引き出される段階に少なくとも一部は基づいてサブセットを選択する段階を含む、実施形態61の方法。   Embodiment 67: Determining a subset of values as appropriate is based at least in part on being derived from documents associated with other attributes in the structured presentation for which the values in the subset are pre-existing. 62. The method of embodiment 61, comprising selecting a subset.

実施形態68:電子文書のコレクションは、インターネット上で利用可能な電子文書を含み、電子文書は、ウェブページを含む、実施形態59の方法。   Embodiment 68: The method of embodiment 59, wherein the collection of electronic documents includes electronic documents available on the Internet, and the electronic documents include web pages.

実施形態69:事前に存在している構造化プレゼンテーションは、テーブルを含む、実施形態59の方法。   Embodiment 69 The method of embodiment 59, wherein the pre-existing structured presentation includes a table.

実施形態70:事前に存在している構造化プレゼンテーションは、カードのコレクションを含む、実施形態59の方法。   Embodiment 70: The method of embodiment 59, wherein the pre-existing structured presentation comprises a collection of cards.

実施形態71:ディスプレイ画面の1つまたは複数の要素を物理的に変換する段階を含めて、新規構造化プレゼンテーションをディスプレイ画面上に視覚的に提示する段階をさらに含む、実施形態59の方法。   Embodiment 71 The method of embodiment 59, further comprising visually presenting the new structured presentation on the display screen, including physically transforming one or more elements of the display screen.

実施形態72:1つまたは複数のデータ処理機にオペレーションを実行させるように動作可能な命令を格納する1つまたは複数の機械可読データ記憶媒体を備える装置であって、これらのオペレーションは、第1のインスタンス、第2のインスタンス、および第1の属性を記述する記述データを受け取る段階と、非構造化電子文書コレクションの2つまたはそれ以上の文書から第1のインスタンスの第1の属性の値の第1のコレクションを抽出する段階と、非構造化電子文書コレクションの2つまたはそれ以上の文書から第2のインスタンスの第1の属性の値の第2のコレクションを抽出する段階と、値の第1のコレクションの第1のサブセットを、第1のインスタンスの第1の属性を適切に特徴付けるものとして確定する段階と、値の第2のコレクションの第2のサブセットを、第2のインスタンスの第1の属性を適切に特徴付けるものとして確定する段階と、第1のサブセットの第1の値および第2のサブセットの第2の値を含む構造化プレゼンテーションを表示するための機械可読命令を生成する段階であって、構造化プレゼンテーションは、インスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す、段階とを含む、装置。   Embodiment 72: An apparatus comprising one or more machine-readable data storage media storing instructions operable to cause one or more data processors to perform an operation, the operations comprising: Receiving descriptive data describing the first instance, second instance, and first attribute, and the value of the first attribute of the first instance from two or more documents in the unstructured electronic document collection Extracting a first collection; extracting a second collection of first attribute values of a second instance from two or more documents of an unstructured electronic document collection; and Establishing a first subset of a collection of 1 as appropriately characterizing a first attribute of a first instance, and a second subset of a second collection of values. Display a structured presentation including the first value of the first subset and the second value of the second subset. Generating a machine readable instruction for the structured presentation, wherein the structured presentation represents an association between the instance and the value characterizing the attribute of the instance by an instance identifier and an array of values.

実施形態73:値の第1のサブセットを適切なものとして確定する段階は、第1のコレクション内の値をいくつかのグループに分ける段階を含み、それぞれのグループは値の第1のコレクションのサブセットを含む、実施形態72の装置。   Embodiment 73: Determining the first subset of values as appropriate includes dividing the values in the first collection into groups, each group being a subset of the first collection of values The device of embodiment 72, comprising:

実施形態74:値の第1のサブセットを適切なものとして確定する段階は、第1のサブセット内の値の個数に少なくとも一部は基づき第1のサブセットを選択する段階を含む、実施形態72の装置。   Embodiment 74: The embodiment of the embodiment 72 wherein determining the first subset of values as appropriate comprises selecting the first subset based at least in part on the number of values in the first subset. apparatus.

実施形態75:値の第1のサブセットを適切なものとして確定する段階は、第1のサブセット内の値をそれらの値に対するユーザー指定制約条件と比較する段階を含む、実施形態72の装置。   Embodiment 75: The apparatus of embodiment 72, wherein determining the first subset of values as appropriate includes comparing the values in the first subset with user-specified constraints on those values.

実施形態76:値の第1のサブセットを適切なものとして確定する段階は、第1のサブセット内の値が高品質文書から引き出されたと判定する段階を含む、実施形態72の装置。   Embodiment 76: The apparatus of embodiment 72, wherein determining the first subset of values as appropriate includes determining that the values in the first subset have been derived from a high quality document.

実施形態77:値の第1のサブセットを適切なものとして確定する段階は、第1のサブセット内の値が第2のインスタンスに関連する文書から引き出されたと判定する段階を含む、実施形態72の装置。   Embodiment 77: The method of Embodiment 72 wherein determining the first subset of values as appropriate includes determining that the values in the first subset are derived from a document associated with the second instance. apparatus.

実施形態78:値の第1のサブセットを適切なものとして確定する段階は、第1のサブセット内の値が第1のインスタンスおよび第2のインスタンスの両方を特徴付ける他の属性に関連する文書から引き出されたと判定する段階を含む、実施形態72の装置。   Embodiment 78: Determining a first subset of values as appropriate is derived from documents whose values in the first subset are related to other attributes that characterize both the first instance and the second instance. 73. The apparatus of embodiment 72, comprising determining that it has been.

実施形態79:第1のインスタンスの記述は、事前に存在している構造化プレゼンテーション内に出現する第1のインスタンスの識別子を含み、第2のインスタンスの記述は、事前に存在している構造化プレゼンテーション内に出現する第2のインスタンスの識別子を含む、実施形態72の装置。   Embodiment 79: The description of the first instance includes the identifier of the first instance that appears in the pre-existing structured presentation, and the description of the second instance is the pre-existing structured [00117] 73. The apparatus of embodiment 72 comprising an identifier of a second instance that appears in the presentation.

実施形態80:第1の属性の記述は、事前に存在している構造化プレゼンテーションに追加される新規属性の記述を含む、実施形態72の装置。   Embodiment 80: The apparatus of Embodiment 72, wherein the description of the first attribute includes a description of the new attribute that is added to the pre-existing structured presentation.

実施形態81:非構造化電子文書コレクションは、インターネット上で利用可能な電子文書を含む、実施形態72の装置。   Embodiment 81 The apparatus of Embodiment 72, wherein the unstructured electronic document collection includes electronic documents available on the Internet.

実施形態82:構造化プレゼンテーションは、テーブルを含む、実施形態72の装置。   Embodiment 82: The apparatus of Embodiment 72, wherein the structured presentation includes a table.

実施形態83:構造化プレゼンテーションは、カードのコレクションを含む、実施形態72の装置。   Embodiment 83: The apparatus of Embodiment 72, wherein the structured presentation includes a collection of cards.

実施形態84:ディスプレイ画面の1つまたは複数の要素を物理的に変換する段階を含めて、構造化プレゼンテーションをディスプレイ画面上に視覚的に提示する段階をさらに含む、実施形態72の装置。   Embodiment 84: The apparatus of embodiment 72 further comprising the step of visually presenting the structured presentation on the display screen, including physically transforming one or more elements of the display screen.

実施形態85:デバイスと、デバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータであって、これらのオペレーションは、事前に存在している構造化プレゼンテーションを記述する記述データを受け取る段階であって、事前に存在している構造化プレゼンテーションの視覚的提示は、構造化設計に適合するシステム配置で情報を視覚的に提示し、構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す、段階と、事前に存在している構造化プレゼンテーションの特性を電子文書の非構造化コレクション内の電子文書のコンテンツと比較して事前に存在している構造化プレゼンテーションに関連する新規値を識別する電子文書を特定する段階と、新規値を事前に存在している構造化プレゼンテーションに追加して新規構造化プレゼンテーションを形成する段階と、新規構造化プレゼンテーションをデバイス上に視覚的に提示するための命令を出力する段階とを含む、1つまたは複数のコンピュータとを備える、システム。   Embodiment 85: A device and one or more computers programmed to interact with the device and perform operations, which describe pre-existing structured presentations At the stage of receiving descriptive data, a pre-existing visual presentation of a structured presentation visually presents information in a system layout that conforms to the structured design. An unstructured collection of electronic documents that describes the stage and characteristics of pre-existing structured presentations, representing the association between instances and values characterizing instance attributes in a visual presentation by an instance identifier and an array of values In advance compared to the content of the electronic document in Identifying an electronic document that identifies a new value associated with an existing structured presentation, adding a new value to the pre-existing structured presentation to form a new structured presentation, Outputting one or more computers including outputting instructions for visually presenting the new structured presentation on the device.

実施形態86:デバイスと、デバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータであって、これらのオペレーションは、第1のインスタンス、第2のインスタンス、および第1の属性を記述する記述データを受け取る段階と、非構造化電子文書コレクションの2つまたはそれ以上の文書から第1のインスタンスの第1の属性の値の第1のコレクションを抽出する段階と、非構造化電子文書コレクションの2つまたはそれ以上の文書から第2のインスタンスの第1の属性の値の第2のコレクションを抽出する段階と、値の第1のコレクションの第1のサブセットを、第1のインスタンスの第1の属性を適切に特徴付けるものとして確定する段階と、値の第2のコレクションの第2のサブセットを、第2のインスタンスの第1の属性を適切に特徴付けるものとして確定する段階と、第1のサブセットの第1の値および第2のサブセットの第2の値を含む構造化プレゼンテーションを表示するための機械可読命令を生成する段階であって、構造化プレゼンテーションは、インスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す、段階と、機械可読命令をデバイスに送信する段階とを含む、1つまたは複数のコンピュータとを備える、システム。   Embodiment 86: a device and one or more computers programmed to interact with the device and perform operations, the operations comprising a first instance, a second instance, and a second instance Receiving descriptive data describing one attribute; extracting a first collection of first attribute values of a first instance from two or more documents of an unstructured electronic document collection; Extracting a second collection of values of the first attribute of the second instance from two or more documents of the unstructured electronic document collection, and a first subset of the first collection of values, Determining the first attribute of the first instance as appropriately characterizing, and the second subset of the second collection of values from the second instance. Machine-readable instructions for displaying a structured presentation including a first value of a first subset and a second value of a second subset; Generating a structured presentation comprising: representing an association between an instance and a value characterizing the attribute of the instance by an instance identifier and an array of values; and sending machine-readable instructions to the device. A system comprising one or more computers.

実施形態87:機械実装方法であって、この方法は、構造化プレゼンテーションをディスプレイデバイス上に表示する段階であって、構造化プレゼンテーションは、構造化設計に適合する組織的な構造化された配列で情報を視覚的に提示し、構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す、段階と、表示される構造化プレゼンテーションに対するユーザーインタラクションを特徴付ける、構造化プレゼンテーションの第1のインスタンスおよび第1の属性の指定を含むデータを受け取る段階と、データを受け取ったことに応答してディスプレイデバイス上に以前には隠されていた検索インターフェイスを表示する段階であって、検索インターフェイスは電子文書コレクション内の第1のインスタンスの第1の属性を特徴付ける第1の値の位置を識別する情報もしくはインタラクティブ要素を含む、段階とを含む、機械実装方法。   Embodiment 87: A machine-implemented method, wherein the method is a step of displaying a structured presentation on a display device, wherein the structured presentation is an organized structured array that conforms to the structured design. Visually presenting the information, the structured presentation is displayed with steps that represent the association between the instance and the values characterizing the attributes of the instance in the visual presentation of the structured presentation by an instance identifier and an array of values. Receiving data including a first instance of the structured presentation and a first attribute specification that characterizes user interaction with the structured presentation, and previously hidden on the display device in response to receiving the data. Search interface that had been And wherein the search interface includes information or interactive elements that identify a position of a first value that characterizes the first attribute of the first instance in the electronic document collection. .

実施形態88:表示される構造化プレゼンテーションに対するユーザーインタラクションを特徴付けるデータを受け取る段階は、構造化プレゼンテーション内のセルに関連付けられている第1のインスタンスおよび第1の属性の手動によるユーザー指定を受け取る段階を含む、実施形態87の方法。   Embodiment 88: Receiving data characterizing user interaction with a displayed structured presentation comprises receiving a manual user designation of a first instance and a first attribute associated with a cell in the structured presentation. The method of embodiment 87, comprising.

実施形態89:ユーザーインタラクションを特徴付けるデータを受け取る段階は、構造化プレゼンテーション内のセルに対するユーザーインタラクションを特徴付けるデータを受け取る段階を含み、セルは構造化プレゼンテーション内の第1のインスタンスおよび第1の属性の識別子に関するセルの配列を用いて第1のインスタンスおよび第1の属性に関連付けられる、実施形態87の方法。   Embodiment 89: Receiving data characterizing a user interaction comprises receiving data characterizing user interaction for a cell in a structured presentation, wherein the cell is an identifier of a first instance and a first attribute in the structured presentation. 90. The method of embodiment 87 wherein the array of cells is associated with the first instance and the first attribute.

実施形態90:セルに対するユーザーインタラクションを特徴付けるデータを受け取る段階は、空のセルに対するユーザーインタラクションを特徴付けるデータを受け取る段階を含む、実施形態89の方法。   Embodiment 90: The method of embodiment 89, wherein receiving data characterizing user interaction with a cell comprises receiving data characterizing user interaction with an empty cell.

実施形態91:以前には隠されていた検索インターフェイスを表示する段階は、電子文書コレクションの検索をトリガーし、第1の値を特定するためにユーザー側で選択できるインタラクティブ要素を表示する段階を含む、実施形態87の方法。   Embodiment 91: Displaying a previously hidden search interface includes triggering a search of an electronic document collection and displaying an interactive element that can be selected by a user to identify a first value. The method of embodiment 87.

実施形態92:以前には隠されていた検索インターフェイスを表示する段階は、第1のインスタンスの第1の属性を特徴付ける値を指定するためにユーザー側で選択できるインタラクティブ値入力要素を表示する段階を含む、実施形態87の方法。   Embodiment 92: Displaying a previously hidden search interface comprises displaying an interactive value input element that can be selected by a user to specify a value that characterizes the first attribute of the first instance. The method of embodiment 87, comprising.

実施形態93:以前には隠されていた検索インターフェイスを表示する段階は、電子文書コレクションの第1の文書内の第1の値のコンテキストを特徴付けるスニペットを表示する段階を含む、実施形態87の方法。   Embodiment 93: The method of embodiment 87, wherein displaying the previously hidden search interface comprises displaying a snippet characterizing the context of the first value in the first document of the electronic document collection. .

実施形態94:以前には隠されていた検索インターフェイスを表示する段階は、第1の値を特定するために電子文書コレクションの事前検索の結果を表示する段階を含む、実施形態87の方法。   Embodiment 94: The method of embodiment 87, wherein displaying the previously hidden search interface includes displaying a result of a pre-search of the electronic document collection to identify the first value.

実施形態95:第1の値は、第1のインスタンスの第1の属性を特徴付ける値として構造化プレゼンテーション内に出現し、以前には隠されていた検索インターフェイスを表示する段階は、電子文書コレクション内の第1の電子文書の識別子を表示する段階を含み、第1の値は、第1の電子文書から引き出される、実施形態87の方法。   Embodiment 95: The first value appears in the structured presentation as a value characterizing the first attribute of the first instance, and displaying the previously hidden search interface is within the electronic document collection. 90. The method of embodiment 87, comprising: displaying an identifier of the first electronic document, wherein the first value is derived from the first electronic document.

実施形態96:第1の電子文書が機能せず第1の値を提供することができないと判定する段階と、第1の文書が機能しないことを示す視覚的指示を表示する段階とをさらに含む、実施形態87の方法。   Embodiment 96: further comprising determining that the first electronic document does not function and cannot provide the first value, and displaying a visual indication indicating that the first document does not function The method of embodiment 87.

実施形態97:以前には隠されていた検索インターフェイスを表示する段階は、第1の文書と第1のインスタンスおよび第1の属性との関連性の変化に関係なく第1の文書から矛盾なく第1の値を選択するオプションをユーザーに提示する段階を含む、実施形態87の方法。   Embodiment 97: The step of displaying a search interface that has been previously hidden is consistent with the first document regardless of changes in the relationship between the first document and the first instance and the first attribute. 90. The method of embodiment 87 comprising presenting the user with an option to select a value of 1.

実施形態98:以前には隠されていた検索インターフェイスを表示する段階は、第1のインスタンスおよび第1の属性に最も関連している第1の文書から第1の値を選択するオプションをユーザーに提示する段階を含む、実施形態87の方法。   Embodiment 98: The step of displaying a previously hidden search interface comprises providing the user with an option to select a first value from the first document that is most relevant to the first instance and the first attribute. 90. The method of embodiment 87 comprising the step of presenting.

実施形態99:検索インターフェイスに対するユーザーインタラクションに応答して第1の値を特定するために電子文書の非構造化コレクションを検索する段階と、第1の値を構造化プレゼンテーションに追加する段階とをさらに含む、実施形態87の方法。   Embodiment 99: further comprising searching an unstructured collection of electronic documents to identify the first value in response to user interaction with the search interface; and adding the first value to the structured presentation. The method of embodiment 87, comprising.

実施形態100:第1のインスタンスおよび第1の属性の指定を受け取る段階は、属性のコレクションまたはインスタンスのコレクションの指定を受け取る段階を含む、実施形態87の方法。   Embodiment 100: The method of embodiment 87, wherein receiving a specification of a first instance and a first attribute comprises receiving a specification of a collection of attributes or a collection of instances.

実施形態101:時間の経過に応じて構造化プレゼンテーションの表示を更新する段階をさらに含む、実施形態87の方法。   Embodiment 101: The method of embodiment 87, further comprising updating the display of the structured presentation over time.

実施形態102:クライアントデバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータであって、これらのオペレーションは、ディスプレイデバイス上に表示される構造化プレゼンテーションの第1のセルを指定するユーザーインタラクションを特徴付けるデータを受け取る段階であって、構造化プレゼンテーションは、構造化設計に適合する組織的な構造化された配列で情報を視覚的に提示し、構造化プレゼンテーションは、インスタンスとインスタンスの属性を特徴付ける値との間の関連付けをセル内の値の配列によって表す、段階と、第1のセルに第1の値を書き込むために事前検索が実施されたと判定する段階と、事前検索が実施されたと判定したことに応答して、ディスプレイデバイス上に事前検索を特徴付ける情報を表示する段階とを含む、1つまたは複数のコンピュータを備える、システム。   Embodiment 102: One or more computers programmed to interact with a client device and perform operations, wherein these operations are the first of a structured presentation displayed on a display device. Receiving data characterizing user interaction specifying a cell, where the structured presentation visually presents information in an organized structured array that conforms to the structured design, and the structured presentation is an instance Representing an association between the attribute and the value characterizing the instance attribute by an array of values in the cell; determining that a pre-search has been performed to write the first value to the first cell; In response to determining that the search has been performed, And a step of displaying the information characterizing the advance search on the device, provided with one or more computers, systems.

実施形態103:第1のセルを指定するユーザーインタラクションを特徴付けるデータを受け取る段階は、第1のセルに関連付けられている第1のインスタンスおよび第1の属性の手動によるユーザー指定を特徴付けるデータを受け取る段階を含む、実施形態102のシステム。   Embodiment 103: Receiving data characterizing user interaction designating a first cell is receiving data characterizing manual user designation of a first instance and a first attribute associated with the first cell 102. The system of embodiment 102, comprising:

実施形態104:事前検索を特徴付ける情報を表示する段階は、第1の値の引き出し元となる電子文書を識別する情報を表示する段階を含む、実施形態102のシステム。   Embodiment 104: The system of embodiment 102, wherein displaying information characterizing the pre-search includes displaying information identifying the electronic document from which the first value is derived.

実施形態105:事前検索を特徴付ける情報を表示する段階は、第1の値の引き出し元になった可能性のある電子文書のコレクションを識別する情報を表示する段階を含む、実施形態102のシステム。   Embodiment 105: The system of embodiment 102, wherein displaying the information characterizing the pre-search includes displaying information identifying a collection of electronic documents that may have been derived from the first value.

実施形態106:事前検索を特徴付ける情報を表示する段階は、以前には隠されていた検索インターフェイスの表示要素内に情報を表示する段階を含む、実施形態102のシステム。   Embodiment 106: The system of embodiment 102, wherein displaying information characterizing the pre-search includes displaying information in a display element of a search interface that was previously hidden.

実施形態107:事前検索を特徴付ける情報を表示する段階は、第1の値の引き出し元となる電子文書コレクション内の第1の電子文書を識別する情報を表示する段階を含む、実施形態102のシステム。   Embodiment 107: The system of embodiment 102, wherein displaying the information characterizing the pre-search includes displaying information identifying the first electronic document in the electronic document collection from which the first value is derived. .

実施形態108:これらのオペレーションは、第1の電子文書が操作不能であり第1の値を提供することができないと判定する段階と、第1の文書が操作不能であることを示す視覚的指示を表示する段階とをさらに含む、実施形態107のシステム。   Embodiment 108: These operations comprise determining that the first electronic document is inoperable and cannot provide the first value, and a visual indication indicating that the first document is inoperable 108. The system of embodiment 107, further comprising:

実施形態109:これらのオペレーションは、ユーザーインタラクションに応答して構造化プレゼンテーションの第1のセル内の値の表示を更新する段階をさらに含む、実施形態102のシステム。   Embodiment 109: The system of Embodiment 102, wherein these operations further comprise updating the display of values in the first cell of the structured presentation in response to user interaction.

実施形態110:事前検索を特徴付ける情報を表示する段階は、電子文書コレクションの第1の文書内の第1の値のコンテキストを特徴付けるスニペットを表示する段階を含む、実施形態102のシステム。   Embodiment 110: The system of embodiment 102, wherein displaying the information characterizing the pre-search comprises displaying a snippet characterizing the context of the first value in the first document of the electronic document collection.

実施形態111:電子文書のコレクションは、インターネット上で利用可能な電子文書を含み、電子文書は、ウェブページを含む、実施形態110のシステム。   Embodiment 111: The system of embodiment 110, wherein the collection of electronic documents includes electronic documents available on the Internet, and the electronic documents include web pages.

実施形態112:構造化プレゼンテーションは、カードのコレクションを含む、実施形態102のシステム。   Embodiment 112 The system of embodiment 102, wherein the structured presentation includes a collection of cards.

実施形態113:ディスプレイデバイスを備えるクライアントデバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータであって、これらのオペレーションは、構造化プレゼンテーションをディスプレイデバイス上に表示する段階であって、構造化プレゼンテーションは、構造化設計に適合する組織的な構造化された配列で情報を視覚的に提示し、構造化プレゼンテーションは、構造化プレゼンテーションの視覚的提示でインスタンスとインスタンスの属性を特徴付ける値との間の関連付けをインスタンスの識別子と値の配列によって表す、段階と、表示される構造化プレゼンテーションに対するユーザーインタラクションを特徴付ける、構造化プレゼンテーションの第1のインスタンスおよび第1の属性の指定を含むデータを受け取る段階と、データを受け取ったことに応答してディスプレイデバイス上に以前には隠されていた検索インターフェイスを表示する段階であって、検索インターフェイスは、電子文書コレクション内の第1のインスタンスの第1の属性を特徴付ける第1の値の位置を識別する情報もしくはインタラクティブ要素を含む、段階とを含む、1つまたは複数のコンピュータを備える、システム。   Embodiment 113: One or more computers programmed to interactively operate and perform operations on a client device comprising a display device, the operations displaying a structured presentation on the display device A structured presentation is a visual presentation of information in an organized, structured array that conforms to a structured design, and a structured presentation is a visual presentation of structured presentations, The first instance of the structured presentation that characterizes the stage and the user interaction with the displayed structured presentation, where the association between the values that characterize the attribute is represented by an instance identifier and an array of values And receiving data including the designation of the first attribute and displaying a search interface that was previously hidden on the display device in response to receiving the data, the search interface comprising: A system comprising: one or more computers comprising: an information or interactive element that identifies a location of a first value that characterizes a first attribute of a first instance in a document collection.

発明対象および本明細書で説明されている機能するオペレーションのこれらの実施形態および他の実施形態は、デジタル電子回路で、または本明細書で開示されている構造およびその構造的等価物を含むコンピュータソフトウェア、ファームウェア、もしくはハードウェアで、またはこれらのうちの1つまたは複数のものの組み合わせで実装することができる。本明細書で説明されている発明対象の実施形態は、1つまたは複数のコンピュータプログラム、つまり、データ処理装置による実行のため、またはデータ処理装置のオペレーションを制御するためにコンピュータ記憶媒体上に符号化されたコンピュータプログラム命令からなる1つまたは複数のモジュールとして実装されうる。代替えとして、またはそれに加えて、プログラム命令は、データ処理装置による実行のため好適な受信機装置に伝送する情報を符号化するように生成される、人工的に生成された信号である伝搬信号、例えば、機械で生成された電気、光、または電磁信号に符号化できる。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムもしくはシリアルアクセスメモリデバイス、またはこれらのうちの1つもしくは複数のものの組み合わせとすることができる。   These and other embodiments of the subject matter and functional operations described herein may be digital electronic circuits or computers including the structures disclosed herein and their structural equivalents. It can be implemented in software, firmware, or hardware, or a combination of one or more of these. Embodiments of the subject matter described herein are encoded on a computer storage medium for execution by one or more computer programs, ie, data processing devices, or for controlling the operation of data processing devices. Can be implemented as one or more modules of computerized computer program instructions. Alternatively, or in addition, the program instructions are propagated signals that are artificially generated signals that are generated to encode information for transmission to a suitable receiver device for execution by the data processor. For example, it can be encoded into a machine-generated electrical, optical, or electromagnetic signal. The computer storage medium may be a machine readable storage device, a machine readable storage substrate, a random or serial access memory device, or a combination of one or more of these.

「データ処理装置」という用語は、例えば、プログラム可能なプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含む、データを処理するためのあらゆる種類の装置、デバイス、および機械を包含する。装置は、専用論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)、またはASIC(特定用途向け集積回路)を含んでいてもよい。装置は、ハードウェアに加えて、注目しているコンピュータプログラム用の実行環境を作成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはこれらのうちの1つもしくは複数のものの組み合わせを構成するコードを含むものとしてもよい。   The term “data processing apparatus” encompasses any type of apparatus, device, and machine for processing data, including, for example, a programmable processor, a computer, or multiple processors or computers. The device may include dedicated logic, for example, an FPGA (Field Programmable Gate Array), or an ASIC (Application Specific Integrated Circuit). In addition to hardware, the device is code that creates an execution environment for the computer program of interest, eg, processor firmware, protocol stack, database management system, operating system, or one or more of these It is good also as what contains the code which constitutes a combination.

コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとも呼ばれる)は、コンパイル言語もしくはインタプリタ言語、または宣言型言語もしくは手続き型言語を含む、任意の形態のプログラミング言語で書かれ、スタンドアロンプログラム、またはモジュール、コンポーネント、サブルーチン、またはコンピューティング環境において使用するのに適している他のユニットを含む、任意の形態で配備されうる。コンピュータプログラムは、ファイルシステム内のファイルに対応するものとしてよいが、そうである必要はない。プログラムは、他のプログラムもしくはデータ(例えば、マークアップ言語文書内に格納される1つまたは複数のスクリプト)を保持するファイルの一部に、注目するプログラム専用の単一ファイル内に、または複数の調整されたファイル(例えば、1つまたは複数のモジュール、サブプログラム、またはコードの一部を格納するファイル)に格納されうる。コンピュータプログラムは、1つのコンピュータ上で、または1つのサイトに配置されるか、または複数のサイトにまたがって分散され、通信ネットワークによって相互接続されている複数のコンピュータ上で実行されるように配備されうる。   A computer program (also called a program, software, software application, script, or code) is written in any form of programming language, including a compiled or interpreted language, or a declarative or procedural language, a stand-alone program, or It can be deployed in any form including modules, components, subroutines, or other units suitable for use in a computing environment. A computer program may correspond to a file in a file system, but need not be. A program can be part of a file that holds other programs or data (e.g., one or more scripts stored in a markup language document), a single file dedicated to the program of interest, or multiple It can be stored in a conditioned file (eg, a file that stores one or more modules, subprograms, or portions of code). A computer program is deployed to be executed on one computer, on one site, or on multiple computers distributed across multiple sites and interconnected by a communications network. sell.

本明細書で説明されているプロセスおよび論理の流れは、入力データを操作し、出力を生成することによって機能を実行するように1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラム可能なプロセッサによって実行されうる。プロセスおよび論理の流れも、専用論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)、またはASIC(特定用途向け集積回路)によって実行され、また装置も、専用論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)、またはASIC(特定用途向け集積回路)によって実装されうる。   The process and logic flows described herein are one or more programmable that execute one or more computer programs to perform functions by manipulating input data and generating output. Can be executed by any processor. Processes and logic flows are also performed by dedicated logic circuits, such as FPGAs (Field Programmable Gate Arrays), or ASICs (Application Specific Integrated Circuits), and devices are also dedicated logic circuits such as FPGAs (Field Programmable Gate Arrays). ) Or ASIC (application specific integrated circuit).

コンピュータプログラムの実行に適しているプロセッサとしては、例えば、汎用マイクロプロセッサ、専用マイクロプロセッサ、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサが挙げられる。一般に、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリまたはその両方から命令およびデータを受け取る。コンピュータの不可欠な要素は、命令を遂行または実行するためのプロセッサならびに命令およびデータを格納するための1つまたは複数のメモリデバイスである。一般に、コンピュータは、データを格納するための1つまたは複数の大容量記憶装置デバイス、例えば、磁気ディスク、光磁気ディスク、または光ディスクも備え、これらからデータを受け取るか、またはこれらにデータを転送するか、またはその両方を行うように動作可能なように結合される。しかし、コンピュータはこのようなデバイスを備える必要はない。さらに、コンピュータは、他のデバイス、例えば、2、3例を挙げると、携帯電話、パーソナルデジタルアシスタント(PDA)、携帯オーディオまたはビデオプレーヤー、ゲーム機、全地球測位システム(GPS)受信機、またはポータブル記憶デバイス(例えば、ユニバーサルシリアルバス(USB)フラッシュドライブ)に埋め込むことができる。   Processors suitable for the execution of computer programs include, for example, general purpose microprocessors, special purpose microprocessors, and any one or more processors of any type of digital computer. Generally, a processor will receive instructions and data from a read-only memory or a random access memory or both. The essential elements of a computer are a processor for executing or executing instructions and one or more memory devices for storing instructions and data. In general, a computer also includes one or more mass storage devices for storing data, eg, magnetic disks, magneto-optical disks, or optical disks, that receive data from or transfer data to them Or operably coupled to do both. However, the computer need not include such a device. In addition, a computer can be another device, such as a mobile phone, personal digital assistant (PDA), portable audio or video player, game console, global positioning system (GPS) receiver, or portable to name a few. It can be embedded in a storage device (eg, Universal Serial Bus (USB) flash drive).

コンピュータプログラムの命令およびデータを格納するのに適したコンピュータ可読媒体は、例えば、半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば、内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD-ROMおよびDVD-ROMディスクを含む、あらゆる形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路で補完されるか、または専用論理回路に組み込まれうる。   Computer readable media suitable for storing computer program instructions and data include, for example, semiconductor memory devices such as EPROM, EEPROM, and flash memory devices, magnetic disks such as internal hard disk or removable disks, magneto-optical disks, And all forms of non-volatile memory, media, and memory devices, including CD-ROM and DVD-ROM discs. The processor and the memory can be supplemented by, or incorporated in, dedicated logic circuitry.

ユーザーと情報のやり取りを行うために、本明細書で説明されている発明対象の実施形態は、ユーザーに情報を表示するためのディスプレイデバイス、例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ、ならびにユーザーがコンピュータに入力を送るために使用できるキーボードおよびポインティングデバイス、例えば、マウスもしくはトラックボール、を有するコンピュータ上で実装することができる。他の種類のデバイスも、ユーザーと情報をやり取りするために使用することができ、例えば、ユーザーに返されるフィードバックは、任意の形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック、とすることができ、ユーザーからの入力は、音響、話し声、または触覚入力を含む、任意の形態で受け取ることができる。それに加えて、コンピュータは、ユーザーが使用するデバイスに文書を送信し、そのデバイスから文書を受け取ることによって、例えば、ウェブページをユーザーのクライアントデバイス上のウェブブラウザに、ウェブブラウザから受け取った要求に応答して送信することによって、ユーザーと情報をやり取りすることができる。   In order to exchange information with a user, the inventive embodiments described herein provide a display device for displaying information to the user, such as a CRT (cathode ray tube) or LCD (liquid crystal display) monitor. , And a keyboard and pointing device that a user can use to send input to the computer, such as a mouse or trackball. Other types of devices can also be used to interact with the user, for example, the feedback returned to the user can be any form of sensory feedback, such as visual feedback, audio feedback, or tactile feedback, and The input from the user can be received in any form, including acoustic, spoken, or tactile input. In addition, the computer responds to requests received from the web browser, for example by sending a document to the device that the user uses and receiving the document from that device, for example, a web page to the web browser on the user's client device. Information can be exchanged with the user.

本明細書は、多くの実装固有の詳細事項を含んでいるが、これらは、任意の発明の範囲または請求内容の範囲に対する制限として解釈すべきではなく、むしろ特定の発明の特定の実施形態に特有のものであると思われる特徴の説明として解釈すべきである。別々の実施形態の背景状況において本明細書で説明されているいくつかの特徴も、単一の実施形態において組み合わせて実装されうる。逆に、単一の実施形態の背景状況において説明されているさまざまな特徴は、複数の実施形態で別々に、または好適な部分的組み合わせで、実装することも可能である。さらに、上ではいくつかの特徴を特定の組み合わせで動作するものとして説明することができ、さらには最初にそのようなものとして請求されうるが、請求されている組み合わせから得られる1つまたは複数の特徴は、場合によっては、組み合わせから切り取られ、また請求された組み合わせは、部分的組み合わせまたは部分的組み合わせの変更形態を対象とするものとすることもできる。   This specification contains many implementation-specific details, but these should not be construed as limitations on the scope of any invention or claim, but rather on a particular embodiment of a particular invention. It should be construed as an explanation of features that appear to be unique. Certain features that are described in this specification in the context of separate embodiments can also be implemented in combination in a single embodiment. Conversely, various features that are described in the context of a single embodiment can also be implemented in multiple embodiments separately or in any suitable subcombination. Furthermore, some features may be described as operating in a particular combination, and may be initially claimed as such, but one or more resulting from the claimed combination Features may be cut from the combination in some cases, and the claimed combination may be directed to a partial combination or modification of a partial combination.

同様に、オペレーションは図面内に特定の順序で示されているが、これは、そのようなオペレーションが図示されている特定の順序で、または順番に実行されること、または例示されているオペレーションが、望ましい結果が得られるように実行されることを要求していると理解されるべきではない。さらに、上述の実施形態においてさまざまなシステムコンポーネントが分離しているが、すべての実施形態においてそのような分離が必要とされていると理解されるべきではなく、また説明されているプログラムコンポーネントおよびシステムは、一般的に、単一のソフトウェア製品に一体化されうるか、または複数のソフトウェア製品にパッケージングされうることは理解されるであろう。   Similarly, operations are shown in a particular order in the drawings, as long as such operations are performed or performed in the particular order shown or in sequence. Should not be construed as requiring execution to achieve the desired result. Further, although various system components are separated in the above-described embodiments, it should not be understood that all such embodiments require such separation, and the program components and systems described It will be appreciated that generally can be integrated into a single software product or packaged into multiple software products.

本明細書で説明されている発明対象の特定の実施形態が説明された。他の実施形態も、以下の請求項の範囲内に収まる。例えば、請求項に記載のアクションは、異なる順序で実行することができ、それでも、所望の結果が得られる。一例として、付属の図面に示されているプロセスは、所望の結果を得るために、図示されている特定の順序、または順番を必ずしも必要としない。   Particular embodiments of the subject matter described in this specification have been described. Other embodiments are within the scope of the following claims. For example, the actions recited in the claims can be performed in a different order and still achieve desirable results. By way of example, the processes shown in the accompanying drawings do not necessarily require the particular order shown, or order, to achieve the desired result.

100 システム
102 非構造化電子文書コレクション
104 ディスプレイ画面
106 構造化プレゼンテーション
108 データ通信インフラストラクチャ
110、112、114 電子文書
100 system
102 Unstructured electronic document collection
104 display screen
106 structured presentation
108 Data communication infrastructure
110, 112, 114 Electronic documents

Claims (31)

機械実装方法であって、
ユーザーから機械可読検索クエリを受け取る段階と、
前記検索クエリに関連するインスタンスの構造化プレゼンテーションを前記ユーザーに提示するための命令で前記検索クエリに応答する段階とを含み、
前記構造化プレゼンテーションの視覚的提示は、前記インスタンスと前記インスタンスの属性を特徴付ける値との間の関連付けを、前記インスタンスの識別子と前記値の配列によって表し、
前記インスタンスの前記識別子と前記値は、非構造化電子文書コレクション内の2つまたはそれ以上の文書から引き出され、
前記電子文書コレクションは、前記電子文書コレクション内の前記電子文書のフォーマットが制限的でも永続的でもないという点で非構造化コレクションである機械実装方法。
A machine mounting method,
Receiving a machine-readable search query from a user;
Responding to the search query with instructions for presenting a structured presentation of instances associated with the search query to the user;
The visual presentation of the structured presentation represents an association between the instance and a value characterizing the instance attribute by an identifier of the instance and an array of the values;
The identifier and value of the instance are derived from two or more documents in an unstructured electronic document collection;
The machine-implemented method, wherein the electronic document collection is an unstructured collection in that the format of the electronic document in the electronic document collection is neither restrictive nor permanent.
前記検索クエリに応答する段階は、
前記インスタンスに関係する前記非構造化電子文書コレクション内の電子文書の第1のコレクションを識別する段階と、
電子文書の前記第1のコレクションから前記インスタンスの前記属性の値を抽出する段階と、
前記構造化プレゼンテーションに2つまたはそれ以上の電子文書から抽出された値を書き込む段階とを含む請求項1に記載の方法。
Responding to the search query comprises:
Identifying a first collection of electronic documents in the unstructured electronic document collection related to the instance;
Extracting the value of the attribute of the instance from the first collection of electronic documents;
2. The method of claim 1, comprising writing values extracted from two or more electronic documents to the structured presentation.
前記検索クエリに応答する段階は、
第1の電子文書から第1のインスタンスの第1の属性の第1の値を抽出する段階と、
第2の電子文書から前記第1のインスタンスの第2の属性の第2の値を抽出する段階と、
前記第1の値および前記第2の値を前記構造化プレゼンテーションにおける単一のレコード内の前記第1のインスタンスに関連付ける段階とを含み、
前記第1の属性は、前記第2の属性と異なり、前記第1の電子文書は、前記第2の電子文書と異なる請求項1に記載の方法。
Responding to the search query comprises:
Extracting a first value of a first attribute of a first instance from a first electronic document;
Extracting a second value of a second attribute of the first instance from a second electronic document;
Associating the first value and the second value with the first instance in a single record in the structured presentation;
2. The method according to claim 1, wherein the first attribute is different from the second attribute, and the first electronic document is different from the second electronic document.
前記検索クエリに応答する段階は、
第1の電子文書から第1のインスタンスの属性の第1の値を抽出する段階と、
前記第1の電子文書から第2のインスタンスの属性の第2の値を抽出する段階と、
前記第1の値を第1のレコード内の前記第1のインスタンスに関連付ける段階と、
前記第2の値を第2のレコード内の前記第2のインスタンスに関連付ける段階とを含み、
前記第1のインスタンスは、前記第2のインスタンスと異なる請求項1に記載の方法。
Responding to the search query comprises:
Extracting a first value of an attribute of a first instance from a first electronic document;
Extracting a second value of an attribute of a second instance from the first electronic document;
Associating the first value with the first instance in a first record;
Associating the second value with the second instance in a second record;
The method of claim 1, wherein the first instance is different from the second instance.
前記構造化プレゼンテーションは、テーブルを含む請求項1に記載の方法。   The method of claim 1, wherein the structured presentation includes a table. 前記構造化プレゼンテーションは、カードのコレクションを含む請求項1に記載の方法。   The method of claim 1, wherein the structured presentation includes a collection of cards. 新規インスタンスを前記構造化プレゼンテーションに追加するためのトリガーを受け取る段階と、
前記トリガーに応答して前記構造化プレゼンテーションに追加する新規インスタンスを提案する段階とをさらに含む請求項1に記載の方法。
Receiving a trigger to add a new instance to the structured presentation;
The method of claim 1, further comprising proposing a new instance to add to the structured presentation in response to the trigger.
ユーザーから制約条件の指定を受け取る段階をさらに含み、
新規インスタンスを提案する段階は、前記ユーザー指定制約条件を満たす新規インスタンスを提案する段階を含む請求項7に記載の方法。
Further comprising receiving a constraint specification from the user;
The method of claim 7, wherein proposing a new instance includes proposing a new instance that satisfies the user-specified constraint condition.
新規属性を前記構造化プレゼンテーションに追加するためのトリガーを受け取る段階と、
前記トリガーに応答して前記構造化プレゼンテーションに新規属性を追加する段階とをさらに含む請求項1に記載の方法。
Receiving a trigger to add a new attribute to the structured presentation;
The method of claim 1, further comprising adding a new attribute to the structured presentation in response to the trigger.
新規属性の特質のユーザー指定を受け取る段階と、
前記ユーザー指定の特質に基づいて前記構造化プレゼンテーションに前記属性の値を書き込む段階とをさらに含む請求項1に記載の方法。
Receiving a user designation of the attributes of the new attribute;
2. The method of claim 1, further comprising writing the value of the attribute to the structured presentation based on the user-specified attribute.
前記非構造化電子文書コレクションは、インターネット上で利用可能な電子文書を含む請求項1に記載の方法。   The method of claim 1, wherein the unstructured electronic document collection includes electronic documents available on the Internet. ディスプレイ画面の1つまたは複数の要素を物理的に変換する段階を含めて、前記構造化プレゼンテーションを前記ディスプレイ画面上に視覚的に提示する段階をさらに含む請求項1に記載の方法。   The method of claim 1, further comprising visually presenting the structured presentation on the display screen, including physically transforming one or more elements of the display screen. 1つまたは複数のデータ処理機にオペレーションを実行させるように動作可能な命令を格納する1つまたは複数の機械可読データ記憶媒体を備える装置であって、前記オペレーションは、
事前に存在している構造化プレゼンテーションを記述する記述データを受け取る手段と、
第1のウェブサイトから第1のインスタンスの識別子を引き出す手段と、
第2のウェブサイトから前記第1のインスタンスの第1の属性の第1の値を引き出す手段と、
第1のインスタンスの前記識別子および前記新規値を前記事前に存在している構造化プレゼンテーションに追加して新規構造化プレゼンテーション内に新規レコードを形成する手段と、
前記新規構造化プレゼンテーションを視覚的に提示するための命令を出力する手段とを具備し、
前記事前に存在している構造化プレゼンテーションの視覚的提示は構造化設計に適合するシステム配置で情報を視覚的に提示し、前記構造化プレゼンテーションはレコードのコレクションを含み、これらのそれぞれは前記構造化プレゼンテーションの視覚的提示でインスタンスと前記インスタンスの属性を特徴付ける値との間の関連付けを前記インスタンスの識別子と前記値の配列によって表す装置。
An apparatus comprising one or more machine-readable data storage media storing instructions operable to cause one or more data processors to perform an operation, the operation comprising:
Means for receiving descriptive data describing a pre-existing structured presentation;
Means for deriving the identifier of the first instance from the first website;
Means for deriving a first value of a first attribute of the first instance from a second website;
Means for adding the identifier of the first instance and the new value to the pre-existing structured presentation to form a new record in the new structured presentation;
Means for outputting instructions for visually presenting the new structured presentation;
The visual presentation of the pre-existing structured presentation visually presents information in a system arrangement that conforms to the structured design, the structured presentation includes a collection of records, each of which is the structure An apparatus for representing an association between an instance and a value characterizing an attribute of the instance in a visual presentation of a structured presentation by an identifier of the instance and an array of the values
前記第1のウェブサイトから前記第1のインスタンスの前記識別子を引き出す手段は、前記事前に存在している構造化プレゼンテーションの特性を前記事前に存在している構造化プレゼンテーションのコンテンツと比較する手段を具備する請求項13に記載の装置。   The means for retrieving the identifier of the first instance from the first website compares characteristics of the pre-existing structured presentation with content of the pre-existing structured presentation 14. An apparatus according to claim 13, comprising means. 前記オペレーションは、前記ユーザーから第2のインスタンスの識別子を受け取る手段をさらに含み、
新規の前記構造化プレゼンテーションは、前記第2のインスタンスの前記第1の属性の第2の値に関連して前記第2のインスタンスを提示する第2の新規レコードを含む請求項13に記載の装置。
The operation further comprises means for receiving an identifier of a second instance from the user;
14. The apparatus of claim 13, wherein the new structured presentation includes a second new record that presents the second instance in relation to a second value of the first attribute of the second instance. .
前記オペレーションは、前記ユーザーから前記第2の値を受け取る手段をさらに具備する請求項15に記載の装置。   16. The apparatus of claim 15, wherein the operation further comprises means for receiving the second value from the user. 前記オペレーションは、
前記ユーザーに候補値のコレクションを提示する手段と
前記ユーザーから前記第2の値の選択を受け取る手段とをさらに具備し、
前記コレクションは前記第2の値を含む請求項15に記載の装置。
Said operation is
Means for presenting a collection of candidate values to the user; and means for receiving a selection of the second value from the user;
The apparatus of claim 15, wherein the collection includes the second value.
前記オペレーションは、
前記第2のインスタンスの前記第1の属性の候補値のコレクションを識別する手段と、
前記候補値のそれぞれについて、前記候補値が正しいという確かさを決定する手段とをさらに具備する請求項15に記載の装置。
Said operation is
Means for identifying a collection of candidate values for the first attribute of the second instance;
16. The apparatus of claim 15, further comprising means for determining a certainty that the candidate value is correct for each of the candidate values.
前記オペレーションは、前記構造化プレゼンテーションに追加する新規インスタンスのコレクションを提案する手段をさらに具備する請求項13に記載の装置。   14. The apparatus of claim 13, wherein the operation further comprises means for proposing a collection of new instances to add to the structured presentation. 新規インスタンスの前記コレクションを提案する手段は、前記事前に存在している構造化プレゼンテーションの特性を前記第1のウェブサイトおよび前記第2のウェブサイトのコンテンツと比較する手段を具備する請求項19に記載の装置。   20. The means for proposing the collection of new instances comprises means for comparing characteristics of the pre-existing structured presentation with content of the first website and the second website. The device described in 1. 新規インスタンスの前記コレクションを提案する手段は、機械可読検索クエリを前記第1のウェブサイトおよび前記第2のウェブサイトのコンテンツと比較する手段を具備する請求項19に記載の装置。   20. The apparatus of claim 19, wherein means for proposing the collection of new instances comprises means for comparing machine readable search queries with content of the first website and the second website. 前記第2のウェブサイトから前記第1の値を引き出す手段は、前記第2のウェブサイトがレビューを含むことを識別する手段を具備する請求項13に記載の装置。   14. The apparatus of claim 13, wherein the means for deriving the first value from the second website comprises means for identifying that the second website includes a review. 前記第1のウェブサイトから前記識別子を引き出す手段は、前記第1のウェブサイトから直接的に前記識別子を抽出する手段を具備する請求項13に記載の装置。   14. The apparatus of claim 13, wherein the means for extracting the identifier from the first website comprises means for extracting the identifier directly from the first website. 前記第1のウェブサイトから前記識別子を引き出す手段は、前記第1のウェブサイトから抽出された情報を含む機械可読データベースから前記識別子を抽出する手段を具備する請求項13に記載の装置。   14. The apparatus of claim 13, wherein the means for retrieving the identifier from the first website comprises means for extracting the identifier from a machine readable database that includes information extracted from the first website. 前記事前に存在している構造化プレゼンテーションは、テーブルを含み、
前記レコードは、前記テーブルの行または列を含む請求項13に記載の装置。
The pre-existing structured presentation includes a table;
14. The apparatus of claim 13, wherein the record includes a row or column of the table.
前記事前に存在している構造化プレゼンテーションは、カードのコレクションを含み、
前記レコードは、前記コレクション内に個別のカードを含む請求項13に記載の装置。
The pre-existing structured presentation includes a collection of cards;
14. The apparatus of claim 13, wherein the record includes individual cards in the collection.
前記オペレーションは、ディスプレイ画面の1つまたは複数の要素を物理的に変換する手段を含めて、前記新規構造化プレゼンテーションを前記ディスプレイ画面上に視覚的に提示する手段をさらに具備する請求項13に記載の装置。   14. The operation of claim 13, further comprising means for visually presenting the new structured presentation on the display screen, including means for physically transforming one or more elements of the display screen. Equipment. クライアントデバイスと、前記クライアントデバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータとを具備するシステムであって、
前記オペレーションは、
事前に存在している構造化プレゼンテーションを記述する記述データを受け取る手段と、
第1のウェブサイトから第1のインスタンスの識別子を引き出す手段と、
第2のウェブサイトから前記第1のインスタンスの第1の属性の第1の値を引き出す手段と、
第1のインスタンスの前記識別子および前記新規値を前記事前に存在している構造化プレゼンテーションに追加して新規構造化プレゼンテーション内に新規レコードを形成する手段と、
前記新規構造化プレゼンテーションを視覚的に提示するための命令を前記クライアントデバイスに出力する手段とを具備し、
前記事前に存在している構造化プレゼンテーションの視覚的提示は構造化設計に適合するシステム配置で情報を視覚的に提示し、前記構造化プレゼンテーションはレコードのコレクションを含み、これらのそれぞれは前記構造化プレゼンテーションの視覚的提示でインスタンスと前記インスタンスの属性を特徴付ける値との間の関連付けを前記インスタンスの識別子と前記値の配列によって表すシステム。
A system comprising a client device and one or more computers programmed to operate the client device interactively and perform operations,
Said operation is
Means for receiving descriptive data describing a pre-existing structured presentation;
Means for deriving the identifier of the first instance from the first website;
Means for deriving a first value of a first attribute of the first instance from a second website;
Means for adding the identifier of the first instance and the new value to the pre-existing structured presentation to form a new record in the new structured presentation;
Means for outputting instructions for visually presenting the new structured presentation to the client device;
The visual presentation of the pre-existing structured presentation visually presents information in a system arrangement that conforms to the structured design, the structured presentation includes a collection of records, each of which is the structure A system for representing an association between an instance and a value characterizing an attribute of the instance in a visual presentation of a structured presentation by an identifier of the instance and an array of the values.
前記1つまたは複数のコンピュータは、データ通信ネットワークを通じて前記クライアントデバイスをインタラクティブに操作するように動作可能なサーバーを具備し、
前記クライアントデバイスは、クライアントとして前記サーバーをインタラクティブに操作するように動作可能である請求項28に記載のシステム。
The one or more computers comprise a server operable to interactively operate the client device through a data communication network;
30. The system of claim 28, wherein the client device is operable to interact with the server as a client.
クライアントデバイスと、前記クライアントデバイスをインタラクティブに操作し、オペレーションを実行するようにプログラムされた1つまたは複数のコンピュータとを具備するシステムであって、
前記オペレーションは、
前記クライアントデバイスから機械可読検索クエリを受け取る手段と、
前記検索クエリに関連するインスタンスの構造化プレゼンテーションを提示するための命令を前記クライアントデバイスに送信することによって前記検索クエリに応答する手段とを具備し、
前記構造化プレゼンテーションの視覚的提示は、前記インスタンスと前記インスタンスの属性を特徴付ける値との間の関連付けを、前記インスタンスの識別子と前記値の配列によって表し、前記インスタンスの前記識別子と前記値は、非構造化電子文書コレクション内の2つまたはそれ以上の文書から引き出され、前記電子文書コレクションは、前記電子文書コレクション内の前記電子文書のフォーマットが制限的でも永続的でもないという点で非構造化コレクションであるシステム。
A system comprising a client device and one or more computers programmed to operate the client device interactively and perform operations,
Said operation is
Means for receiving a machine readable search query from the client device;
Responding to the search query by sending instructions to the client device to present a structured presentation of instances associated with the search query;
The visual presentation of the structured presentation represents an association between the instance and a value characterizing the instance's attributes by an identifier of the instance and an array of values, the identifier of the instance and the value being non- Derived from two or more documents in a structured electronic document collection, the electronic document collection being an unstructured collection in that the format of the electronic document in the electronic document collection is neither restrictive nor permanent System.
前記1つまたは複数のコンピュータは、データ通信ネットワークを通じて前記クライアントデバイスをインタラクティブに操作するように動作可能なサーバーを具備し、
前記クライアントデバイスは、クライアントとして前記サーバーをインタラクティブに操作するように動作可能である請求項30に記載のシステム。
The one or more computers comprise a server operable to interactively operate the client device through a data communication network;
32. The system of claim 30, wherein the client device is operable to interact with the server as a client.
JP2011546411A 2009-01-16 2010-01-16 Retrieve and display information from unstructured electronic document collections Active JP5581339B2 (en)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US12/355,554 2009-01-16
US12/355,607 US8615707B2 (en) 2009-01-16 2009-01-16 Adding new attributes to a structured presentation
US12/355,103 US8977645B2 (en) 2009-01-16 2009-01-16 Accessing a search interface in a structured presentation
US12/355,103 2009-01-16
US12/355,228 US20100185651A1 (en) 2009-01-16 2009-01-16 Retrieving and displaying information from an unstructured electronic document collection
US12/355,459 US8412749B2 (en) 2009-01-16 2009-01-16 Populating a structured presentation with new values
US12/355,607 2009-01-16
US12/355,228 2009-01-16
US12/355,554 US8452791B2 (en) 2009-01-16 2009-01-16 Adding new instances to a structured presentation
US12/355,459 2009-01-16
PCT/US2010/021290 WO2010083478A2 (en) 2009-01-16 2010-01-16 Retrieving and displaying information from an unstructured electronic document collection

Publications (3)

Publication Number Publication Date
JP2012515407A true JP2012515407A (en) 2012-07-05
JP2012515407A5 JP2012515407A5 (en) 2013-03-07
JP5581339B2 JP5581339B2 (en) 2014-08-27

Family

ID=42340312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011546411A Active JP5581339B2 (en) 2009-01-16 2010-01-16 Retrieve and display information from unstructured electronic document collections

Country Status (3)

Country Link
EP (1) EP2387756A4 (en)
JP (1) JP5581339B2 (en)
WO (1) WO2010083478A2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014167647A1 (en) * 2013-04-09 2014-10-16 株式会社日立製作所 Data management device, date management method, and permanent storage medium
JP2016031758A (en) * 2014-07-28 2016-03-07 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Method and apparatus for providing search result

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181445B2 (en) * 2003-09-05 2007-02-20 Bellsouth Intellectual Property Corporation Aggregating, retrieving, and providing access to document visuals
US7293017B2 (en) * 2004-07-01 2007-11-06 Microsoft Corporation Presentation-level content filtering for a search result
US8386453B2 (en) * 2004-09-30 2013-02-26 Google Inc. Providing search information relating to a document
NO20054720L (en) * 2005-10-13 2007-04-16 Fast Search & Transfer Asa Information access with user-driven metadata feedback

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG199901105015; 西野 文人 他: '新聞記事からの人物・企業情報の抽出' 情報処理学会研究報告 Vol.98 No.81 , 19980918, pp.125-132, 社団法人情報処理学会 *
CSNG200100680013; 山本 あゆみ 他: 'ワールドワイドウェブからの人物情報の自動収集' 電子情報通信学会技術研究報告 Vol.99 No.534 AI99-77〜89 人工知能と知識処理 , 20000113, pp.93-100, 社団法人電子情報通信学会 *
CSNG200600799008; 木村 塁 他: '人物情報辞典の自動生成のための時系列情報自動収集' 電子情報通信学会技術研究報告 Vol.106 No.149 DE2006-50〜91 データ工学 , 20060706, pp.41-46, 社団法人電子情報通信学会 *
JPN6014006025; 西野 文人 他: '新聞記事からの人物・企業情報の抽出' 情報処理学会研究報告 Vol.98 No.81 , 19980918, pp.125-132, 社団法人情報処理学会 *
JPN6014006028; 木村 塁 他: '人物情報辞典の自動生成のための時系列情報自動収集' 電子情報通信学会技術研究報告 Vol.106 No.149 DE2006-50〜91 データ工学 , 20060706, pp.41-46, 社団法人電子情報通信学会 *
JPN6014006030; 山本 あゆみ 他: 'ワールドワイドウェブからの人物情報の自動収集' 電子情報通信学会技術研究報告 Vol.99 No.534 AI99-77〜89 人工知能と知識処理 , 20000113, pp.93-100, 社団法人電子情報通信学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014167647A1 (en) * 2013-04-09 2014-10-16 株式会社日立製作所 Data management device, date management method, and permanent storage medium
JP6042974B2 (en) * 2013-04-09 2016-12-14 株式会社日立製作所 Data management apparatus, data management method, and non-temporary recording medium
JP2016031758A (en) * 2014-07-28 2016-03-07 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Method and apparatus for providing search result

Also Published As

Publication number Publication date
WO2010083478A3 (en) 2010-10-28
EP2387756A2 (en) 2011-11-23
JP5581339B2 (en) 2014-08-27
EP2387756A4 (en) 2013-06-12
WO2010083478A2 (en) 2010-07-22

Similar Documents

Publication Publication Date Title
US8412749B2 (en) Populating a structured presentation with new values
US8615707B2 (en) Adding new attributes to a structured presentation
US20100185651A1 (en) Retrieving and displaying information from an unstructured electronic document collection
US8452791B2 (en) Adding new instances to a structured presentation
Carenini et al. Multi‐document summarization of evaluative text
US8977645B2 (en) Accessing a search interface in a structured presentation
Vaughan Web scale discovery services
US9684724B2 (en) Organizing search history into collections
AU2010284506B2 (en) Semantic trading floor
US8010544B2 (en) Inverted indices in information extraction to improve records extracted per annotation
US9336279B2 (en) Hidden text detection for search result scoring
Aletras et al. Evaluating topic representations for exploring document collections
US20130191723A1 (en) Web Browser Device for Structured Data Extraction and Sharing via a Social Network
US20050149538A1 (en) Systems and methods for creating and publishing relational data bases
US10713291B2 (en) Electronic document generation using data from disparate sources
US9424353B2 (en) Related entities
Brown et al. Librarian's guide to online searching: Cultivating database skills for research and instruction
JP5581339B2 (en) Retrieve and display information from unstructured electronic document collections
Kules III Supporting exploratory web search with meaningful and stable categorized overviews
Niu Beyond text queries and ranked lists: Faceted search in library catalogs
Brown Librarian's guide to online searching: cultivating database skills for research and instruction
Khoo et al. Task-based navigation of a taxonomy interface to a digital repository
Wakimoto Scope of the library catalog in times of transition
Krzesaj Information quality problems on websites
Chowdhury et al. Information access.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130116

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140616

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140714

R150 Certificate of patent or registration of utility model

Ref document number: 5581339

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250