CN1702653A - 查询到任务的映射 - Google Patents
查询到任务的映射 Download PDFInfo
- Publication number
- CN1702653A CN1702653A CNA2005100740312A CN200510074031A CN1702653A CN 1702653 A CN1702653 A CN 1702653A CN A2005100740312 A CNA2005100740312 A CN A2005100740312A CN 200510074031 A CN200510074031 A CN 200510074031A CN 1702653 A CN1702653 A CN 1702653A
- Authority
- CN
- China
- Prior art keywords
- character
- file
- trail
- tabulation
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 claims description 49
- 230000000694 effects Effects 0.000 claims description 7
- 230000002596 correlated effect Effects 0.000 claims description 6
- 239000012141 concentrate Substances 0.000 claims description 5
- 238000012423 maintenance Methods 0.000 claims 3
- 230000003760 hair shine Effects 0.000 claims 1
- 230000008878 coupling Effects 0.000 description 53
- 238000010168 coupling process Methods 0.000 description 53
- 238000005859 coupling reaction Methods 0.000 description 53
- 238000005516 engineering process Methods 0.000 description 17
- 230000015654 memory Effects 0.000 description 13
- 230000000295 complement effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 241000234295 Musa Species 0.000 description 5
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000007689 inspection Methods 0.000 description 3
- 230000013011 mating Effects 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 235000014443 Pyrus communis Nutrition 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009429 electrical wiring Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- D—TEXTILES; PAPER
- D21—PAPER-MAKING; PRODUCTION OF CELLULOSE
- D21J—FIBREBOARD; MANUFACTURE OF ARTICLES FROM CELLULOSIC FIBROUS SUSPENSIONS OR FROM PAPIER-MACHE
- D21J3/00—Manufacture of articles by pressing wet fibre pulp, or papier-mâché, between moulds
- D21J3/12—Manufacture of articles by pressing wet fibre pulp, or papier-mâché, between moulds of sheets; of diaphragms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
-
- D—TEXTILES; PAPER
- D21—PAPER-MAKING; PRODUCTION OF CELLULOSE
- D21J—FIBREBOARD; MANUFACTURE OF ARTICLES FROM CELLULOSIC FIBROUS SUSPENSIONS OR FROM PAPIER-MACHE
- D21J3/00—Manufacture of articles by pressing wet fibre pulp, or papier-mâché, between moulds
- D21J3/10—Manufacture of articles by pressing wet fibre pulp, or papier-mâché, between moulds of hollow bodies
-
- E—FIXED CONSTRUCTIONS
- E04—BUILDING
- E04B—GENERAL BUILDING CONSTRUCTIONS; WALLS, e.g. PARTITIONS; ROOFS; FLOORS; CEILINGS; INSULATION OR OTHER PROTECTION OF BUILDINGS
- E04B1/00—Constructions in general; Structures which are not restricted either to walls, e.g. partitions, or floors or ceilings or roofs
- E04B1/62—Insulation or other protection; Elements or use of specified material therefor
- E04B1/74—Heat, sound or noise insulation, absorption, or reflection; Other building methods affording favourable thermal or acoustical conditions, e.g. accumulating of heat within walls
- E04B1/76—Heat, sound or noise insulation, absorption, or reflection; Other building methods affording favourable thermal or acoustical conditions, e.g. accumulating of heat within walls specifically with respect to heat only
- E04B1/78—Heat insulating elements
- E04B1/80—Heat insulating elements slab-shaped
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02W—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
- Y02W30/00—Technologies for solid waste management
- Y02W30/50—Reuse, recycling or recovery technologies
- Y02W30/64—Paper recycling
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Manufacturing & Machinery (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Architecture (AREA)
- Acoustics & Sound (AREA)
- Electromagnetism (AREA)
- Civil Engineering (AREA)
- Structural Engineering (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Devices For Executing Special Programs (AREA)
Abstract
在两个短字符串集之间生成候选映射。选择与这两个字符串集相关的文件集。在该文件集中,搜索来自这两个字符串集的每个字符串。与相同的文件匹配的任何两个字符串被认为相关,并被共同映射。然后,可以由注解者/审阅器来检验这些候选映射。
Description
技术领域
本发明一般涉及字符串联合领域。更具体地说,本发明涉及:发现短文本串之间的联合。
背景技术
有许多应用程序——其中,短文本串需要在概念上被链接到(或被映射到)其他短文本串。例如,在分类器训练中,需要使来自查询记录的查询与任务或意图说明发生联系。在搜索情况中,可能需要将额外的元数据与搜索项联系起来。如果将要匹配的这些字符串足够长,那么,可以使用这些字符串之间的词重叠来确定它们是否相关。但是,如果这些字符串很短,那么,会很难认出可能的关系或需要联合创建这些字符串之间的映射通过之间的联合可以识别,这是“这些字符串本身所包含的信息不足”的结果,由此,可以认出联合,并可以创建映射。
以前,精通该有关技术领域的人类注解者已被用来创建这些字符串之间的映射。这会是一个缓慢的劳动密集型过程。在分类器训练中,例如,关于每项给定任务,人类注解者手动地选择他们发现与该任务相关的查询。假定可能存在成百上千项任务和成千上万个查询,那么,对于注解者而言,难以记住所有这些任务和查询并且把注解工作做得前后一致。此外,由于人类的认识力有限,因此,该过程会容易出错,并且前后矛盾。为了减少错误,多个注解者可以从事于相同的查询到任务的映射。但是,假定该领域的复杂性和这些注解者所要求的知识水平,则运用多个人类注解者的花费会十分昂贵。
鉴于前述内容,需要能克服原先技术的各种限制和缺点的系统和方法。
发明内容
半自动系统被用来生成两个短字符串集之间的候选映射,然后,由注解者来对它们进行检查。选择足够大的文件集,这些文件集较佳地与这两个字符串集相关。在这些大文件集中搜索来自这两个字符串集的每个字符串。与字符串匹配的每个文件被认为与那个字符串相关,并且可以提供有关该字符串的额外信息和上下文,它被用来生成这两个字符串集之间的这些候选映射。明确地说,与某个数量的文件匹配的任何两个字符串被认为是相关的,并且被共同映射。然后,这些候选映射可以由注解者来检验。
这些注解者可以与本发明的这些候选映射协力来担当检阅者,而不是如原先技术中所示的那样来让这些注解者生成这些候选映射。他们不必记住来自每个集合的所有这些字符串,他们可以只验证:这些候选映射看起来是否有意义(即适当)。这是一个不太容易出错并且快得多的过程。由于自动生成这些候选映射,因此,它们更加一致。这样,通过根据本发明来注解数据,花费将会便宜得多,总体映射质量也会更高。此外,这个方法将可用于使用任何语言的字符串。
通过以下参照附图来继续详细地描述说明性实施例,本发明的额外的特点和优点将变得一目了然。
附图说明
图1展示了根据本发明的、查询到文件集的示范映射;
图2展示了根据本发明的、任务到文件集的示范映射;
图3展示了根据本发明的、查询到文件集的映射与任务到文件集的映射之间的示范重叠;
图4是流程图,展示了根据本发明的、查询到任务的映射的示范方法;
图5是举例说明,可用于描述根据本发明的、用于为所生成的映射分配加权的示范方法;
图6是框图,展示了根据本发明的示范系统的各个组件;以及,
图7是框图,表现了可以在其中执行本发明的各个方面的示范计算环境。
具体实施方式
图1展示了查询到文件集的示范映射;图2展示了任务到文件集的示范映射;并且,图3展示了查询到文件集的映射与任务到文件集的映射之间的示范重叠。这些图被用来展示一种示范方法,用于确定:短字符串查询(在图1中被示作查询101)与短字符串任务(在图2中被示作任务202)之间是否存在关系。
任务202和查询101被映射到文本文件集——在图1-3中被示作搜索空间110。在图2和图3中,在230处示出文件匹配任务202。在图1和图3中,在120处示出文件匹配查询101。在图3中,在350处示出文件匹配查询101与任务202之间的该重叠。该重叠越大,该任务与查询就越“相关”。参照任务和查询字符串来描述该实施例,但本发明可适用于生成任何短字符串集之间的映射。
更具体地说,图1展示了该短字符串查询101到搜索空间110中的更丰富的文本文件集的示范映射。由于查询101是短字符串(例如,单一词),因此,有很少的内容可用于建立图2中所示的、该查询101与任务202之间的可能的关系。为了发现查询101与任务202之间的可能的关系,需要首先将该查询101和任务202映射到更丰富的尺度(例如,搜索空间110)。映射到更丰富的尺度可提供更多信息,通过该信息,可以比较任务202和查询101,并确定:它们之间是否存在关系。
如120处所示,查询101被映射到搜索空间110中的几个文件(被表示为空间120)。为了确定该映射,搜索空间110中的每个文件需要加以文本搜索,以寻找查询101。为了对文件进行文本搜索,可按需要扫描或搜索该文件,以寻找查询101所表示的那个词或项的出现。可以使用用于在文件中搜索文本串的该技术领域内已知的任何系统、方法或技术,来实行该文本搜索。导致匹配的任何文件推测起来与查询101相关,并且可以提供与查询101的该含义有关的进一步的信息。匹配可以是确切匹配;例如,那个词或项确切地出现在该文件的该文本中。该匹配也可以是部分匹配——其中,在该文件中只发现那个词或项的一部分。此外,可以使用更精密复杂的搜索方法来发现匹配——例如,为这些搜索项考虑普通的拼写错误或形态异体(例如,作为“runs”的替换物的“run”、“ran”、“running”)。可以使用用于匹配文本串的该技术领域内已知的任何系统、技术或方法。
然后,可以使用该信息来生成候选映射。在图1中,在120处示出这个匹配文件集。例如,假设:搜索空间110包含两个文件——文件1包含词“foo”、“bar”和“banana”;以及,文件2包含词“apple”、“pear”和“banana”。也假设:该搜索项是“foo”。在这个例子中,在对文件1和文件2进行文本搜索来寻找“foo”之后,“foo”与文件1匹配,而不是与文件2匹配。这样,该项“foo”映射到文件1,而不是映射到文件2。同样,如果该搜索项是“banana”,那么,“banana”将会与文件1和文件2匹配。这样,该项“banana”将会映射到文件1和文件2。
特定的匹配文件是否与查询101相关取决于该搜索空间110的大小以及该搜索空间110与该查询的相关性。例如,如果选择大的搜索空间(例如,因特网),那么,可以想得到:不会在任何两个文本串之间发现匹配。如果选择太小的搜索空间,那么,可能会发现太多的匹配。所以,谨慎地选择该搜索空间110是至关重要的。
用于确保“给定匹配有意义”并减少符合匹配的一种方法是:只考虑实现在某个用户确定的等级评定之上的等级评定的匹配。可以使用用于为特定搜索项的返回匹配分等级的该技术领域内已知的任何系统、方法或技术,来生成该等级评定。例如,在该项将被认为与那个文件匹配之前,该用户确定的等级评定按需要依靠某个数字、与那个搜索项必须出现在文件中的次数相关或表示该次数。这个数字可以通过实验来加以确定,并且可以根据该搜索空间110中的文件数量、以及为任何给定搜索项而匹配的文件数量来加以调整。
例如,查询101只可以在特定文件中出现一次,而它可以在另一个文件中出现100次。直观地说,与它在其中只出现一次的那个文件相比,查询101更有可能与它在其中出现100次的该文件相关。通过只考虑包含大于某个用户确定的频率或次数的该查询101的文件,实施例可以对这一点加以开发利用。这个例子根据出现在特定文件中的该搜索项的频率来讨论“为搜索结果分等级”,但可以使用任何其他用于为搜索结果分等级的方法。此外,如根据图5的进一步的讨论,这个等级评定可以被进一步用来为所提议的查询到任务的映射分等级。
如图2中所展示的,如230处所表示的,任务202按需要被映射到搜索空间110中的几个文件上。为了确定该映射,搜索空间110中的每个文件需要加以文本搜索,以寻找任务202。导致匹配的任何文件推测起来与任务202相关,并且可以提供与任务202的该含义有关的进一步的信息。然后,可以使用该信息来生成候选映射。可以用如根据图1中的该查询到文件的映射而描述的类似的方法来为这些候选映射分等级。
图3展示了与查询101匹配的搜索空间110中的这些文件和与任务202匹配的搜索空间110中的这些文件之间的该重叠。在图3中,在350处示出120与230之间的这些重叠文件。这个重叠集由来自搜索空间110的文件来填充,这些文件包含这些文件的该文本中的某处的查询101和任务202。这个重叠区域越大,包含查询101和任务202的文件就越多,并且,查询与任务202之间更可能有关系或连接。此外,其他因素可以指出查询101与任务102之间的关系或连接的高概率——例如,与该基础查询到文件的映射以及任务到文件的映射相关联的高加权或等级评定可以指出关系的高概率,即使在实际上映射的文件很少的情况下,也是如此。
重叠的大小350和查询101与任务202之间存在关系的概率之间的该关系可以被用来分等级或将加权分配给所提议的映射。如根据图4和图5的进一步的描述,按需要用类似于上述方式的方式来比较多个查询101项和任务202项。这些查询101和任务202项将与比其他查询101和任务202项更多数量的文件相匹配。直观地说,这指出:这些项更有可能相关。同样,与特定文件匹配的一些查询101和任务202项将接收关于该匹配文件的更高的加权或等级评定。与相同的文件匹配的查询101项和任务202项(每个项具有高等级评定)也指出:这些项有可能相关。
如上所述,可以使用人类审阅器来验证匹配。这些人类审阅器花费昂贵,又耗时。这样,需要将人在检查被提议的匹配的过程中所花费的时间减到最少。为此目的,可以为被提议的匹配分等级,并且,可以移除降到某个所需的用户确定的门限以下的那些匹配。这样,这个(这些)匹配将不会被发送给人类注解者,以验证该匹配。该用户确定的门限可以由管理员根据各种因素(例如,被提议的匹配的数量、以及该搜索空间110中的文件数量)来确定。根据图5来更加详细地描述示范方法。
图4是根据本发明的、用于生成查询到任务的映射的示范方法的流程图。通过将查询和任务映射到文件或文本文档的选择并且结合这些结果,来生成这些查询与这些任务之间的映射。选择样品文件集,并且,在这些文件上生成索引。在该生成的索引上搜索查询集,并且,用来自该文件样品集的这些文件来生成加权列表,这些文件与包括该查询集中的每个查询相匹配。在该生成的索引上搜索任务集,并且,用来自该文件样品集的这些文件来生成加权列表,这些文件与包括该任务集中的每项任务相匹配。
倒置来自与每项任务相匹配的该文件样品集的该文件等级列表,以提供每个文件的列表、以及与那个文件匹配的任务的各个加权列表。查询和这些匹配文件的这个列表可以与文件和匹配任务的该列表结合,以生成查询和匹配任务的加权列表。参照任务和查询来讨论该示范实施例,但该方法可适用于创建任何短字符串集之间的映射。
更具体地说,在401处,创建该文件集。如先前根据图1的讨论,该文件集按需要与是该映射的主题的这些任务和查询的一般域相关。此外,应该选择足够大的文件集。如果选择太多文件,那么,在这些任务与文件以及这些查询与文件之间可能没有足够的匹配,以创建这些查询与任务之间的有意义的映射。但是,如果为该文件集选择太少的文件,则有“生成太多的符合匹配”的危险(这会(例如)为这些注解者造成额外的工作)。一般而言,假定任何符合匹配将会按需要具有与它们关联的很小的加权,则这个危险很小,并且因此可以被排除(例如,在任何随后的注解过程之前)。
在405处,按需要使用这些被选择的文件来创建索引。给文件集编索允许迅速搜索那些文件。关于文件的索引项可以包括那个文件中所包含的每个词的列表。更加精密复杂的索引可以包括每个词在文件中的出现次数,从而允许为匹配给出“该匹配有意义”的等级或可能性。匹配的词在文件中出现的次数越多,“该文件与该匹配的词相关”的可能性就越大。同样,可以通过使用文本规格化(包括使用拼写法、形态分析、标点符号、短语等)来改善给定的文件索引。例如,该索引可以包括在这些文件中发现的词的普通拼写错误。在一个实施例中,可以使用标准操作系统索引服务来创建该文件索引,但也可以使用用于在一组文件上创建索引的该技术领域内已知的任何系统、方法或技术。
在408处,在这些文件的该索引上搜索每项任务。按需要生成包含与每项任务相匹配的这些文件的列表。假定所使用的索引类型,则可以为与每项任务匹配的该文件列表分等级,或者提供指出该匹配的质量或“它精确”的可能性的置信度。然后,通过移除(例如,用户确定的)等级或置信度以下的那些匹配,可以缩减该文件列表。预期:可以使用用于文件搜索的该技术领域内已知的任何系统、方法或技术。
在411处,按需要用包括关于每项任务的条目和包含那项任务的这些文件的该列表来生成新的列表,这个新的列表包括关于该文件集中的每个文件的条目和与该文件条目匹配的这些关联的任务。通过倒置或颠倒包括关于每项任务的条目和包含那项任务的这些文件的该列表,来按需要生成该列表。这个新的列表包括关于该文件集中的每个文件的条目、以及与该文件条目匹配的这些关联的任务。与每个匹配关联的任何等级评定或置信度按需要被保存在这个新的列表中。
在415处,在与这些任务相同的这些文件的索引上搜索每个查询。按需要生成包含与每个查询相匹配的这些文件的列表。按需要为每个匹配规定等级或置信度。类似于以上陈述的该任务缩减,假定所使用的索引类型,则可以通过移除用户确定的等级或置信度以下的那些匹配,来缩减与每个查询匹配的文件的该列表。可以使用用于文件搜索的该技术领域内已知的任何系统、方法或技术。
在417处,包含该查询到文件的映射的这个生成的列表按需要与包含这些文件到任务的映射的该列表结合,从而创建该查询到任务的映射。此外,如以下根据图5的进一步的描述,可以根据该查询和任务对在文件中的匹配次数,或根据被所使用的该搜索系统返回的该任务到文件以及查询到文件的映射加权的函数,来为每个被提议的查询到任务的映射分等级或加权。在生成这些候选映射之后,可以将它们提交给人类审阅器(或其它自动化系统)——在那里,随后可以移除巧合或假映射。
图5是举例说明,可用于描述根据本发明的、用于为生成的映射分配加权的示范方法。在示范实施例中,通过搜索文本文件集中的这些查询项,来创建查询项到文本文件的映射。按类似的方式来生成任务项到文本文件的映射。倒置或颠倒查询到文件的该映射,从而创建文件到查询项的映射。任务到文件的该映射与文件到查询的该映射结合,从而创建任务到查询的映射。可以使用特定任务被映射到特定查询的次数,来为这些结果分等级。同样,可以使用该基础查询到文件以及任务到文件的映射的这些等级评定或置信度,来生成关于该查询到任务的映射的总体等级评定或置信度。然后,可以确定门限,以移除某个等级以下的匹配,这样可确保:这些生成的匹配是精确的。在查询和任务方面讨论该示范实施例,但它同样可适用于在一个或多个短字符串集与另一个或多个短字符串集之间生成映射。
在501处,生成从这些查询到这些文件的该映射。出于这个例子的目的,假设:有三个查询项1-3和十五个文本文件1-15。如所示,查询1映射到文件3、5、10和15;查询2映射到文件5和15;并且,查询3映射到文件3。在这个例子中,当该查询项在该文件中至少出现一次时,特定查询被发现映射到文件。
如根据图4的讨论,可以为特定映射分配置信度或加权。在用于为搜索结果分配加权或置信度的技术领域内有已知的许多技术——包括倒置文档频率、该搜索项有多罕见或普通、以及如这个例子中所使用的术语频率。通过使用术语频率,可根据在该文件中发现该查询的次数来为特定匹配分等级。如果匹配在某个等级以下,那么,可以移除或忽视它们。例如,如果特定的文件集和搜索项产生大量匹配,那么,该系统或用户可以移除低于某个等级的任何匹配,以增加“这些匹配文件与该搜索项相关”的可能性。可以连同用于为任务与查询之间的被提议的关系分等级的方法,来使用为这些匹配分配置信度的这个方法。
在505处,按需要倒置或颠倒从这些查询到这些文件的该映射,从而提供从这些文件到这些查询的映射。如所示,文件3映射到查询1和3;文件5映射到查询2和1;文件10映射到查询1;并且,文件15映射到查询2和1。省略文件1、2、4、6、7、8、9、11、12、13和14,因为它们不与任何查询相匹配。
在508处,生成从这些任务到这些文件的该映射。出于这个例子的目的,假设:有三个任务项1-3以及十五个文本文件1-15。如所示,任务1映射到文件5和10;任务2映射到文件3、10和15;并且,任务3映射到文件15。
在511处,从这些任务到这些文件的该映射与从这些文件到这些查询的该映射结合,从而创建从这些任务到查询的映射。每个文件可以映射到几个不同的查询、以及几项不同的任务。结果,当这两个映射结合时,一些任务被示出多次映射到相同的查询。任务与特定查询匹配的次数可以提供关于“它是多好的匹配”的洞察力,而不是多余的。如所示,任务1映射到查询2一次,映射到查询1两次;任务2映射到查询1三次,映射到查询2一次,映射到查询3一次;并且,任务3映射到查询2一次,映射到查询1一次。
在515处,生成关于每个映射的等级评定或置信度。如所示,利用所发现的重复匹配的数量,来为每个任务到查询的映射分等级。每个重复的映射表示包含该查询项和该任务项的文件。该等级越高,“这些任务与查询之间的该映射有意义”的机会就越大。
除了利用重复匹配的数量来进行等级评定以外,还可以使用用于为搜索项分配加权或置信度的该技术领域内已知的任何系统、方法或技术,来生成关于每个映射的该等级评定或置信度。例如,如果使用被该搜索系统返回的这些加权(匹配程度),那么,在一些情况下,可能碰巧会有单一的大加权重叠,它比正发现的重复更重要。
为了节省人类检查这些生成的映射所花费的时间和金钱,用户可以根据某个门限来过滤这些生成的映射。这些检阅者检查每个生成的映射,以确定:该查询与任务之间的真实关系是否存在,或该匹配只是巧合、还是该文件集中的差的文本文件的结果。由于该检查是精通该技术领域的人所执行的花费昂贵的过程,因此,需要将被检查的映射的数量减到最少。为此目的,在这些审阅器将考虑该映射之前,该用户按需要确定可以在任务与查询之间发现的最低等级评定。在根据图5而描述的这个例子中,确定:重复匹配的数量应该至少是2。如以上515中的该虚线所示,只有任务2与查询1、以及任务1与查询1之间的这些映射符合这个标准。在实践中,匹配所需的最适宜的等级评定将在很大程度上取决于这些查询和任务被映射到那里的该搜索空间的大小、以及这些文件的相关性。
图6是框图,展示了根据本发明的示范系统的各个组件。该系统包括选择器组件602、搜索器组件605、第一生成器组件606、第二生成器组件607、第三生成器组件611和审阅器组件615。
该选择器组件602按需要被用来选择文件集,该文件集可以被用来创建短查询字符串集与短任务字符串集之间的映射。由于这些查询和任务是短字符串,因此,有很少可以通过其来生成映射的信息。如根据图1的描述,按需要选择与这些查询和任务字符串的域相关的文件集。然后,这些查询和任务按需要被映射到该文件集。映射到相同文件的查询和任务被认为相关,所以共同映射。利用这个方式,生成这些查询与任务之间的映射。为此目的,由选择器组件602选择的该文件集需要与这些查询和任务的一般域相关,并且需要具有足够的大小,以便有足够的文件来创建该映射;并不是每个查询都映射到每项任务。可以使用硬件、软件或两者的组合,来执行选择器组件602。在查询和任务集方面讨论该实施例,但它可适用于创建任何短字符串集之间的映射。
该搜索器组件605按需要被用来在这些被选择的文本文件中搜索来自该查询集和该任务集的这些字符串的出现。按需要在该文件集中对每个查询和任务进行文本搜索。如根据图1-3的进一步的讨论,对这些被选择的文件进行文本搜索,以寻找每个查询和任务的出现。此外,搜索器组件605按需要为被发现的任何匹配分配加权或置信度,从而指出:那个特定文件与该搜索项有多相关。可以使用用于在文本文件集中搜索字符串并为这些结果分配加权或置信度的该技术领域内已知的任何系统、方法或技术。可以使用硬件、软件或两者的组合来执行搜索器组件605。
该第一生成器组件606按需要被用来生成这些查询与该文件集之间的该映射。该生成的映射可以包括包含关于每个查询项的条目的列表、以及包含那个查询项的来自该文件集的每个文件。通过只增加实现过某个等级或置信度的文件,可以由第一生成器组件606来为给定项进一步改进该生成的映射。例如,被搜索器组件605发现与特定查询项匹配的给定文件可能已接收低加权,而与该查询项匹配的另一个文件可能已接收很高的加权。通过定义,与具有该低加权的该文件相比,具有该高加权的该文件更有可能与该查询项相关。第一生成器组件606可以将条目加入该列表——在那里,该文件与具有用户规定的数量以上的加权或置信度的该查询项相匹配。可以在硬件、软件或两者的组合中执行第一生成器606。
该第二生成器组件607按需要被用来生成这些任务与这些被选择的文件之间的该映射。该生成的映射可以包括包含关于每个任务项的条目的列表、以及包含那个任务项的来自该文件集的每个文件。通过只增加包含具有某个用户规定的数量以上的加权或置信度的该任务项的文件,可以由第二生成器组件607来为给定项进一步改进该生成的映射。根据第一生成器组件606来更加详细地描述这一点。可以使用硬件、软件或两者的组合来执行第二生成器组件607。
该第三生成器组件611按需要被用来生成该短查询集与该短任务集之间的该映射。通过将从这些查询项到该文件集的映射与从这些任务项到该文件集的映射结合,来按需要生成该映射。查询与任务之间的每个单独的映射对应于包含该查询和该任务项的那个文件集中的至少一个文件。一些查询和任务项在来自该文件集的多个文件中加以匹配或被共同包含于其中。通过移除共同出现在小于某个被确定的门限内的那些查询和任务映射,第三生成器组件611可以进一步改进该映射。可以参照被提议的映射的总数或该初始文件集的大小,来确定该门限。
同样,通过根据与该查询到文件的映射以及该任务到文件的映射相关联的基础等级评定或置信度来创建关于每个映射的等级评定或置信度,可以改进该查询与任务项之间的该映射。如该搜索器组件605所生成的,每个匹配的查询和任务项具有关于该基础查询到文件的映射以及该任务到文件的映射的关联的加权或置信度。通过结合这两个等级评定,可以为该查询到任务的映射生成组合等级评定。第三生成器组件611可以移除接收某个被确定的门限以下的等级评定的那些查询和任务映射。可以在硬件、软件或两者的组合中执行第三生成器组件611。
该审阅器组件615按需要确定:查询与任务之间的这些生成的映射中的哪些有意义;并且,按需要移除没有意义的那些映射。按需要掌握这些查询和任务项的该有关主题方面的技能的、担当审阅器的人类注解者可以检查每个映射,并且如果该查询和任务项看起来不相关,则可以移除映射。这个检查也可以自动化或计算机化。在这类情况下,可以在硬件、软件或两者的组合中执行这个检阅者组件615。
示范计算环境
图7展示了可以在其中执行本发明的合适的计算系统环境700的例子。计算系统环境700只是合适的计算环境的一个例子,它并不意在对本发明的使用或功能性的范围提出任何限制。也不应该将计算环境700解释为具有涉及示范操作环境700中所展示的任何一个组件或组件组合的任何从属性或要求。
本发明可用于众多其他的通用或专用计算系统环境或配置。可能适用于本发明的众所周知的计算系统、环境和/或配置的例子包括(但不局限于)个人计算机、服务器计算机、手持设备或便携式设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PCs、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等。
可以在正由计算机执行的计算机可执行指令(例如,程序模块)的一般背景中描述本发明。通常,程序模块包括执行特殊任务或实施特殊的抽象数据类型的例行程序、程序、对象、组件、数据结构等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络或其他数据传输介质而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块和其他数据可以位于包括记忆存储设备的本地计算机存储介质和远程计算机存储介质中。
参照图7,用于执行本发明的示范系统包括采取计算机710的形式的通用计算设备。计算机710的组件可以包括(但不局限于)处理单元720、系统存储器730和系统总线721,系统总线721将包括该系统存储器的各种系统组件耦合到处理单元720。系统总线721可以是几种类型的总线结构(包括存储总线或存储控制器、外围总线、以及使用各种总线构造中的任何总线构造的局域总线)中的任何总线结构。
计算机710通常包括各种计算机可读介质。计算机可读介质可以是可由计算机710存取的任何可用介质,它包括易失和非易失介质、可移动和不可移动的介质。举例来讲(不作限制),计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括易失和非易失的可移动和不可移动的介质,该介质用关于信息(例如,计算机可读指令、数据结构、程序模块或其他数据)存储的任何方法或技术来加以执行。计算机存储介质包括(但不局限于)RAM、ROM、EEPROM、快闪存储器或其他存储技术、CD-ROM、数字通用光盘(DVD)或其他光盘存储器、盒式磁带、磁带、磁盘存储器或其他磁性存储设备、或可以被用来存储所需信息并可以由计算机710来进行存取的其他任何介质。通信介质通常具体表现计算机可读指令、数据结构、程序模块或调制数据信号(例如,载波或其他传送机制)中的其他数据,它包括任何信息传递介质。举例来讲(不作限制),通信介质包括有线介质(例如,有线网络或直线连接)和无线介质(例如,声音、RF、红外线和其他无线介质)。以上任何内容的组合也应该被包括在计算机可读介质的范围以内。
系统存储器730包括采取易失和/或非易失存储器(例如,ROM 731和RAM 732)的形式的计算机存储介质。基本输入/输出系统733(BIOS)通常被存储在ROM 731中,该基本输入/输出系统包含有助于在计算机710内的各个元件之间传送信息(例如,在启动期间)的这些基本例行程序。RAM 732通常包含可立即由处理单元720存取并且/或者目前正由处理单元720进行操作的数据和/或程序模块。举例来讲(不作限制),图7展示了操作系统734、应用程序735、其他程序模块736和程序数据737。
计算机710也可以包括其他可移动/不可移动的易失/非易失计算机存储介质。只举例来讲,图7展示了从不可移动的非易失磁性介质读取或对其写入的硬盘驱动器740、从可移动的非易失磁盘752读取或对其写入的磁盘驱动器751,以及从可移动的非易失光盘756(例如,CD-ROM或其他光学介质)读取或对其写入的光盘驱动器755。可以被用于该示范操作环境中的其他可移动/不可移动的易失/非易失计算机存储介质包括(但不局限于)卡型盒式磁带机、快闪存储卡、数字通用光盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器741通常通过不可移动的存储接口(例如,接口740)而被连接到系统总线721,磁盘驱动器751和光盘驱动器755通常由可移动的存储接口(例如,接口750)连接到系统总线721。
这些驱动器及其关联的计算机存储介质为计算机710提供计算机可读指令、数据结构、程序模块和其他数据的存储。在图7中,例如,硬盘驱动器741被展示为存储操作系统744、应用程序745、其他程序模块746和程序数据747。注意,这些组件可以等同于或不同于操作系统734、应用程序735、其他程序模块736和程序数据737。这里为操作系统744、应用程序745、其他程序模块746和程序数据747提供不同的号码,以展示:它们至少是不同的副本。用户可以通过输入设备(例如,键盘762和通常被称作“鼠标”、“跟踪球”或“触垫”的定点设备761),来将命令和信息输入计算机710。这些和其他的输入设备经常通过被耦合到该系统总线的用户输入接口760而被连接到处理单元720,但也可以由其他接口和总线结构来加以连接。监视器791或其他类型的显示设备也经由接口(例如,视频接口790)而被连接到系统总线721。除该监视器以外,计算机也可以包括其他外围输出设备(例如,扬声器797和打印机796),这些外围输出设备可以通过输出外围接口795来加以连接。
计算机710可以使用与一台或多台远程计算机(例如,远程计算机780)的逻辑连接而在联网环境中进行操作。远程计算机780可能是个人计算机、服务器、路由器、网络PC、对等设备或其他共同的网络节点,它通常包括以上相对于计算机710而描述的许多或所有这些元件,尽管图7中只展示了记忆存储设备781。所描绘的这些逻辑连接包括LAN 771和WAN 773,但也可以包括其他网络。
当被用于LAN联网环境中时,计算机710通过网络接口或适配器770而被连接到LAN 771。当被用于WAN联网环境中时,计算机710通常包括调制解调器772或用于在WAN 773(例如,因特网)上建立通信的其他装置。调制解调器772(可能是内置的,也可能是外置的)可以经由用户输入接口760或其他适当的机制而被连接到系统总线721。在联网环境中,相对于计算机710或其各个部分而描绘的程序模块可以被存储在该远程记忆存储设备中。举例来讲(不作限制),图7将远程应用程序785展示为驻留在存储设备781上。将会理解:所示的这些网络连接起示范的作用,可以使用在这些计算机之间建立通信链路的其他手段。
如上所述,已连同各种计算设备来描述本发明的示范实施例,但这些基础概念可以被应用于任何计算设备或系统。
可以连同硬件或软件,或者在适当的情况下可以连同两者的组合来执行这里所描述的各种技术。这样,本发明的这些方法和装置、或某些方面或其各个部分可以采取在有形介质(例如,软盘、CD-ROMs、硬驱动器、或任何其他的机器可读存储介质)中被具体表现的程序代码(即指令)的形式,其中,当该程序代码被载入机器(例如,计算机)并由该机器来执行时,该机器成为用于实践本发明的装置。在可编程序计算机上的程序代码执行的情况中,该计算设备将通常包括处理器、该处理器可读的存储介质(包括易失和非易失存储器和/或存储元件)、至少一个输入设备、以及至少一个输出设备。如果需要的话,可以用汇编或机器语言来执行这个(这些)程序。无论如何,该语言可能是编译或解释语言,并且可能与硬件实施结合。
本发明的这些方法和装置也可以经由以程序代码的形式而得到具体表现的通信来加以实践,该程序代码在某个传输介质上(例如,在电线线路或电缆线路上、通过光纤、或经由任何其他形式的传输)被传送,其中,当该程序代码被机器(例如,EPROM、门阵列、可编程逻辑设备(PLD)、客户计算机、或类似的机器)接收、被载入该机器并且被该机器执行时,该机器成为用于实践本发明的装置。当在通用处理器上被执行时,该程序代码与该处理器结合,以提供独特的装置,该装置进行操作来调用本发明的该功能性。另外,连同本发明来加以使用的任何存储技术一定可以是硬件和软件的组合。
已连同各幅图中的这些较佳实施例来描述本发明,但将会理解:在不脱离本发明的前提下,可以使用其他类似的实施例,或者,可以对用于执行本发明的相同功能的这些所描述的实施例进行修改或添加。所以,本发明不应该局限于任何单一的实施例,而应该根据所附权利要求书来在阔度和范围上加以解释。
Claims (31)
1.一种用于确定第一字符串集与第二字符串集之间的关系的方法,其特征在于,包括:
选择一文件集;
利用所述文件集来创建索引;
在所述索引中搜索与所述第一字符串集相关的文件;
创建第一列表,所述第一列表包括关于来自所述第一字符串集的每个字符串的条目,以及与该字符串相关的来自所述文件集的文件;
在所述索引中搜索与所述第二字符串集相关的文件;
创建第二列表,所述第二列表包括关于来自所述第二字符串集的每个字符串的条目,以及与该字符串相关的来自所述文件集的文件;
从所述第一列表中生成第三列表,所述第三列表包括关于来自所述文件集的每个文件的条目,以及与该文件相关的来自所述第一字符串集的字符串;以及
从所述第二列表和所述第三列表中生成第四列表,所述第四列表包括关于来自所述第二字符串集的每个字符串的条目,以及来自所述第一字符串集的字符串(如果有的话),这些字符串与来自所述第二字符串集的字符串所相关的来自所述文件集的同一文件相关。
2.如权利要求1所述的方法,其特征在于,还包括:
确定所述第四列表中的条目是否表示来自所述第二字符串集的字符串与来自所述第一字符串集的字符串之间的有效关系;以及
从所述第四列表中移除不表示来自所述第二字符串集的字符串与来自所述第一字符串集的字符串之间的有效关系的任何条目。
3.如权利要求1所述的方法,其特征在于,还包括:生成关于所述第一列表和所述第二列表中的每个条目的等级评定;并且,使用来自所述第一列表和所述第二列表的这些生成的等级评定,来生成关于所述第四列表中的每个条目的等级评定。
4.如权利要求3所述的方法,其特征在于,还包括确定一最低等级;并且,从所述第四列表中移除具有所述最低等级以下的等级的任何条目。
5.如权利要求4所述的方法,其特征在于,还包括:
确定所述第四列表中的条目是否表示来自所述第二字符串集的字符串与来自所述第一字符串集的字符串之间的有效关系;以及
从所述第四列表中移除不表示来自所述第二字符串集的字符串与来自所述第一字符串集的字符串之间的有效关系的任何条目。
6.如权利要求1所述的方法,其特征在于,选择文件集包括在与所述第一字符串集和所述第二字符串集相同的域中选择文件集。
7.一种用于确定第一字符串集与第二字符串集之间的关系的系统,其特征在于,包括:
选择器组件,它选择被存储在存储设备中的文件集;
搜索器组件,它在所述文件集中搜索来自所述第一字符串集和所述第二字符串集的字符串;
第一生成器组件,它生成包括至少一个对的第一列表,所述对包括来自所述第一字符串集的字符串和与所述字符串相关的来自所述文件集的文件;
第二生成器组件,它生成包括至少一个对的第二列表,所述对包括来自所述第二字符串集的字符串和与所述字符串相关的来自所述文件集的文件;以及,
第三生成器组件,它使用所述第一列表和所述第二列表来生成包括至少一个对的第三列表,所述对包括来自所述第一字符串集的字符串和来自所述第二字符串集的字符串,其中,来自所述第一字符串集的字符串和来自所述第二字符串集的字符串与来自所述文件集的至少一个文件彼此相关。
8.如权利要求7所述的系统,其特征在于,还包括审阅器组件,它验证所述第三列表中的各个对,并从所述第三列表中移除无法被验证的各个对。
9.如权利要求7所述的系统,其特征在于,对于所述第一列表中的每一个对,所述第一列表还包括置信度指示符。
10.如权利要求9所述的系统,其特征在于,所述搜索器组件基于来自所述第一字符串集的字符串与来自所述文件集的文件相关的概率,来确定所述对的置信度指示符。
11.如权利要求10所述的系统,其特征在于,如果所述置信度指示符小于预定数量,那么,所述第一生成器组件从所述第一列表中移除一个对。
12.如权利要求10所述的系统,其特征在于,如果所述置信度指示符低于所述第一列表的平均置信度指示符,那么,所述第一生成器组件从所述列表中移除一个对。
13.如权利要求7所述的系统,其特征在于,对于所述第二列表中的每一个对,所述第二列表还包括置信度指示符。
14.如权利要求13所述的系统,其特征在于,所述搜索器组件基于来自所述第二字符串集的字符串与来自所述文件集的文件相关的概率,来确定所述对的置信度指示符。
15.如权利要求13所述的系统,其特征在于,如果所述置信度指示符小于预定数量,那么,所述第二生成器组件从所述第二列表中移除一个对。
16.如权利要求13所述的系统,其特征在于,如果所述置信度指示符低于所述第二列表的平均置信度指示符,那么,所述第二生成器组件从所述第二列表中移除一个对。
17.如权利要求7所述的方法,其特征在于,所述选择器组件选择在与所述第一字符串集和所述第二字符串集相同的域中的文件集。
18.一种用于创建第一字符串集与第二字符串集之间的映射的方法,其特征在于,包括:
维护文件索引;
创建所述第一字符串集与所述文件索引之间的第一映射;
创建所述第二字符串集与所述文件索引之间的第二映射;以及
根据所述第一映射和所述第二映射,来创建所述第一字符串集与所述第二字符串集之间的映射。
19.如权利要求18所述的方法,其特征在于,维护文件索引包括选择在与所述第一字符串集和所述第二字符串集相同的域中的文件索引。
20.如权利要求18所述的方法,其特征在于,创建第一映射包括:
在所述文件索引中搜索与来自所述第一字符串集中的至少一个字符串相关的文件;以及
对于所述第一字符串集中与来自所述文件索引的文件相关的每个字符串,在第一列表中形成条目,所述条目包括来自所述第一字符串集的字符串、以及与来自所述第一字符串集的字符串相关的来自所述文件索引的每个文件。
21.如权利要求20所述的方法,其特征在于,创建第二映射包括:
在所述文件索引中搜索与来自所述第二字符串集中的至少一个字符串相关的文件;以及
对于所述第二字符串集中与来自所述文件索引的文件相关的每个字符串,在第二列表中形成条目,所述条目包括来自所述第二字符串集的字符串、以及与来自所述第二字符串集的字符串相关的来自所述文件索引的每个文件。
22.如权利要求21所述的方法,其特征在于,创建第一字符串集与该第二字符串集之间的映射包括:
从所述第二列表中生成第三列表,其中,所述第三列表包括关于与来自所述第二字符串集的字符串相关的来自所述文件索引的每个文件的条目、以及与所述文件相关的来自所述第二字符串集的每个字符串;
从所述第三列表和所述第一列表中生成第四列表,其中,所述第四列表包括关于与来自所述文件索引的文件相关的来自所述第一字符串集的每个字符串的条目、以及与来自所述第一字符串的字符串所相关的同一文件相关的来自所述第二字符串集的每个字符串。
23.如权利要求22所述的方法,其特征在于,还包括生成关于所述第四列表中的每个条目的等级评定。
24.一种用于创建第一字符串集与第二字符串集之间的映射的系统,其特征在于,包括:
存储设备,用于维护文件索引;以及
处理器,用于创建所述第一字符串集与所述文件索引之间的第一映射、创建所述第二字符串集与所述文件索引之间的第二映射、以及基于所述第一映射和所述第二映射来创建所述第一字符串集与所述第二字符串集之间的映射。
25.权利要求24的系统,其特征在于,还包括用于接收所述第一字符串集和所述第二字符串集的输入设备。
26.权利要求24的系统,其特征在于,所述处理器通过以下动作来创建所述第一映射:
在所述文件索引中搜索与来自所述第一字符串集中的至少一个字符串相关的文件;以及
对于所述第一字符串集中与来自所述文件索引的文件相关的每个字符串,在第一列表中形成条目,所述条目包括来自所述第一字符串集的字符串、以及与来自所述第一字符串集的字符串相关的来自所述文件索引的每个文件。
27.如权利要求26所述的系统,其特征在于,所述处理器通过以下动作来创建所述第二映射:
在所述文件索引中搜索与来自所述第二字符串集中的至少一个字符串相关的文件;以及
对于所述第二字符串集中与来自所述文件索引的文件相关的每个字符串,在第二列表中形成条目,所述条目包括来自所述第二字符串集的字符串、以及与来自所述第二字符串集的字符串相关的来自所述文件索引的每个文件。
28.如权利要求27所述的系统,其特征在于,所述处理器通过以下动作来创建所述第一字符串集与所述第二字符串集之间的映射:
从所述第二列表中生成第三列表,其中,所述第三列表包括关于包含来自所述第二字符串集的字符串的来自所述文件索引的每个文件的条目、以及与所述文件相关的来自所述第二字符串集的每个字符串;以及
从所述第三列表和所述第一列表中生成第四列表,其中,所述第四列表包括关于与来自所述文件索引的文件相关的来自所述第一字符串集的每个字符串的条目、以及与来自所述第一字符串的字符串所相关的同一文件相关的来自所述第二字符串集的每个字符串。
29.如权利要求28所述的系统,其特征在于,还包括:通过所述处理器,来生成关于所述第四列表中的每个条目的等级评定。
30.一种用于确定第一字符串集与第二字符串集之间的关系的方法,其特征在于,包括:
接收第一字符串集与第二字符串集之间的生成的映射,所述映射包括多个条目,每个条目包括来自所述第一字符串集的字符串和来自所述第二字符串集的字符串;
确定条目是否表示来自所述第一字符串集的字符串与来自所述第二字符串集的字符串之间的有效关系;以及
移除不表示有效关系的条目。
31.如权利要求30所述的方法,其特征在于,还包括:
选择文件集;
从所述文件集中生成索引;
生成从所述第一字符串集到所述文件集的第一映射;
生成从所述第二字符串集到所述文件集的第二映射;
使用所述第一映射和所述第二映射,来生成从所述第一字符串集到所述第二字符串集的第三映射;以及
将所述第三映射发送给审阅器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/852,734 | 2004-05-24 | ||
US10/852,734 US20050262058A1 (en) | 2004-05-24 | 2004-05-24 | Query to task mapping |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1702653A true CN1702653A (zh) | 2005-11-30 |
CN100468399C CN100468399C (zh) | 2009-03-11 |
Family
ID=34939748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2005100740312A Expired - Fee Related CN100468399C (zh) | 2004-05-24 | 2005-05-24 | 查询到任务的映射 |
Country Status (10)
Country | Link |
---|---|
US (1) | US20050262058A1 (zh) |
EP (1) | EP1600861A3 (zh) |
JP (1) | JP2005339542A (zh) |
KR (1) | KR20060045720A (zh) |
CN (1) | CN100468399C (zh) |
AU (1) | AU2005201890B2 (zh) |
BR (1) | BRPI0501833A (zh) |
CA (1) | CA2505294A1 (zh) |
MX (1) | MXPA05004419A (zh) |
RU (1) | RU2378693C2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101978371B (zh) * | 2008-03-25 | 2014-12-10 | 微软公司 | 用于联合式搜索的模式 |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US7904187B2 (en) | 1999-02-01 | 2011-03-08 | Hoffberg Steven M | Internet appliance system and method |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US7707039B2 (en) | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US8521772B2 (en) | 2004-02-15 | 2013-08-27 | Google Inc. | Document enhancement system and method |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US8799303B2 (en) | 2004-02-15 | 2014-08-05 | Google Inc. | Establishing an interactive environment for rendered documents |
US20060041484A1 (en) | 2004-04-01 | 2006-02-23 | King Martin T | Methods and systems for initiating application processes by data capture from rendered documents |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
US20070300142A1 (en) | 2005-04-01 | 2007-12-27 | King Martin T | Contextual dynamic advertising based upon captured rendered text |
US8793162B2 (en) | 2004-04-01 | 2014-07-29 | Google Inc. | Adding information or functionality to a rendered document via association with an electronic counterpart |
US20080313172A1 (en) | 2004-12-03 | 2008-12-18 | King Martin T | Determining actions involving captured information and electronic content associated with rendered documents |
US9008447B2 (en) | 2004-04-01 | 2015-04-14 | Google Inc. | Method and system for character recognition |
US8621349B2 (en) | 2004-04-01 | 2013-12-31 | Google Inc. | Publishing techniques for adding value to a rendered document |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US8713418B2 (en) | 2004-04-12 | 2014-04-29 | Google Inc. | Adding value to a rendered document |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
US8874504B2 (en) | 2004-12-03 | 2014-10-28 | Google Inc. | Processing techniques for visual capture data from a rendered document |
US9460346B2 (en) | 2004-04-19 | 2016-10-04 | Google Inc. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
US20110029504A1 (en) * | 2004-12-03 | 2011-02-03 | King Martin T | Searching and accessing documents on private networks for use with captures from rendered documents |
US7979452B2 (en) * | 2006-04-14 | 2011-07-12 | Hrl Laboratories, Llc | System and method for retrieving task information using task-based semantic indexes |
EP2067119A2 (en) | 2006-09-08 | 2009-06-10 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
US20110035662A1 (en) | 2009-02-18 | 2011-02-10 | King Martin T | Interacting with rendered documents using a multi-function mobile device, such as a mobile phone |
CN101645125B (zh) * | 2008-08-05 | 2011-07-20 | 珠海金山软件有限公司 | 过滤以及监控程序的行为的方法 |
US8990235B2 (en) | 2009-03-12 | 2015-03-24 | Google Inc. | Automatically providing content associated with captured information, such as information captured in real-time |
US8447066B2 (en) * | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
CN102033877A (zh) * | 2009-09-27 | 2011-04-27 | 阿里巴巴集团控股有限公司 | 检索方法和装置 |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
FR2973134B1 (fr) * | 2011-03-23 | 2015-09-11 | Xilopix | Procede pour affiner les resultats d'une recherche dans une base de donnees |
US9116996B1 (en) * | 2011-07-25 | 2015-08-25 | Google Inc. | Reverse question answering |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3611601B2 (ja) * | 1994-09-01 | 2005-01-19 | 富士通株式会社 | リスト処理システムとその方法 |
US5530852A (en) * | 1994-12-20 | 1996-06-25 | Sun Microsystems, Inc. | Method for extracting profiles and topics from a first file written in a first markup language and generating files in different markup languages containing the profiles and topics for use in accessing data described by the profiles and topics |
US6081774A (en) * | 1997-08-22 | 2000-06-27 | Novell, Inc. | Natural language information retrieval system and method |
US5991756A (en) * | 1997-11-03 | 1999-11-23 | Yahoo, Inc. | Information retrieval from hierarchical compound documents |
US6094649A (en) * | 1997-12-22 | 2000-07-25 | Partnet, Inc. | Keyword searches of structured databases |
US6360215B1 (en) * | 1998-11-03 | 2002-03-19 | Inktomi Corporation | Method and apparatus for retrieving documents based on information other than document content |
US6873982B1 (en) * | 1999-07-16 | 2005-03-29 | International Business Machines Corporation | Ordering of database search results based on user feedback |
WO2001071448A2 (en) * | 2000-03-20 | 2001-09-27 | Freeman Robert J | Natural-language processing system using a large corpus |
US7149732B2 (en) * | 2001-10-12 | 2006-12-12 | Microsoft Corporation | Clustering web queries |
-
2004
- 2004-05-24 US US10/852,734 patent/US20050262058A1/en not_active Abandoned
-
2005
- 2005-04-14 KR KR1020050031147A patent/KR20060045720A/ko not_active Application Discontinuation
- 2005-04-21 RU RU2005112058/09A patent/RU2378693C2/ru not_active IP Right Cessation
- 2005-04-22 CA CA002505294A patent/CA2505294A1/en not_active Abandoned
- 2005-04-25 MX MXPA05004419A patent/MXPA05004419A/es not_active Application Discontinuation
- 2005-05-04 AU AU2005201890A patent/AU2005201890B2/en not_active Ceased
- 2005-05-10 EP EP05103842A patent/EP1600861A3/en not_active Withdrawn
- 2005-05-13 BR BR0501833-1A patent/BRPI0501833A/pt not_active IP Right Cessation
- 2005-05-19 JP JP2005146932A patent/JP2005339542A/ja active Pending
- 2005-05-24 CN CNB2005100740312A patent/CN100468399C/zh not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101978371B (zh) * | 2008-03-25 | 2014-12-10 | 微软公司 | 用于联合式搜索的模式 |
Also Published As
Publication number | Publication date |
---|---|
AU2005201890B2 (en) | 2011-03-31 |
EP1600861A3 (en) | 2006-06-28 |
EP1600861A2 (en) | 2005-11-30 |
MXPA05004419A (es) | 2007-11-14 |
BRPI0501833A (pt) | 2006-01-10 |
AU2005201890A1 (en) | 2005-12-08 |
CN100468399C (zh) | 2009-03-11 |
US20050262058A1 (en) | 2005-11-24 |
RU2005112058A (ru) | 2006-10-27 |
CA2505294A1 (en) | 2005-11-24 |
RU2378693C2 (ru) | 2010-01-10 |
JP2005339542A (ja) | 2005-12-08 |
KR20060045720A (ko) | 2006-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100468399C (zh) | 查询到任务的映射 | |
US10586155B2 (en) | Clarification of submitted questions in a question and answer system | |
US10169706B2 (en) | Corpus quality analysis | |
US10102254B2 (en) | Confidence ranking of answers based on temporal semantics | |
US9633309B2 (en) | Displaying quality of question being asked a question answering system | |
US10282419B2 (en) | Multi-domain natural language processing architecture | |
US9715531B2 (en) | Weighting search criteria based on similarities to an ingested corpus in a question and answer (QA) system | |
US20200285687A1 (en) | Intent Encoder Trained Using Search Logs | |
US10832049B2 (en) | Electronic document classification system optimized for combining a plurality of contemporaneously scanned documents | |
US10430713B2 (en) | Predicting and enhancing document ingestion time | |
US11222053B2 (en) | Searching multilingual documents based on document structure extraction | |
US9697099B2 (en) | Real-time or frequent ingestion by running pipeline in order of effectiveness | |
US20150278253A1 (en) | Images for a question answering system | |
US9760828B2 (en) | Utilizing temporal indicators to weight semantic values | |
US20150324350A1 (en) | Identifying Content Relationship for Content Copied by a Content Identification Mechanism | |
CN104699737A (zh) | 用于管理搜索的方法和系统 | |
JP2010538375A (ja) | 間接話法内の意味論的関係の識別 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090311 Termination date: 20140524 |