JP2005339542A - クエリからタスクへのマッピング - Google Patents

クエリからタスクへのマッピング Download PDF

Info

Publication number
JP2005339542A
JP2005339542A JP2005146932A JP2005146932A JP2005339542A JP 2005339542 A JP2005339542 A JP 2005339542A JP 2005146932 A JP2005146932 A JP 2005146932A JP 2005146932 A JP2005146932 A JP 2005146932A JP 2005339542 A JP2005339542 A JP 2005339542A
Authority
JP
Japan
Prior art keywords
strings
file
list
character
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005146932A
Other languages
English (en)
Inventor
Aravind Bala
バラ アラビンド
Hsiao-Wuen Hon
ホン シャオ−ウェン
Raman Chandrasekar
チャンドラセカル ラマン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005339542A publication Critical patent/JP2005339542A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • DTEXTILES; PAPER
    • D21PAPER-MAKING; PRODUCTION OF CELLULOSE
    • D21JFIBREBOARD; MANUFACTURE OF ARTICLES FROM CELLULOSIC FIBROUS SUSPENSIONS OR FROM PAPIER-MACHE
    • D21J3/00Manufacture of articles by pressing wet fibre pulp, or papier-mâché, between moulds
    • D21J3/12Manufacture of articles by pressing wet fibre pulp, or papier-mâché, between moulds of sheets; of diaphragms
    • DTEXTILES; PAPER
    • D21PAPER-MAKING; PRODUCTION OF CELLULOSE
    • D21JFIBREBOARD; MANUFACTURE OF ARTICLES FROM CELLULOSIC FIBROUS SUSPENSIONS OR FROM PAPIER-MACHE
    • D21J3/00Manufacture of articles by pressing wet fibre pulp, or papier-mâché, between moulds
    • D21J3/10Manufacture of articles by pressing wet fibre pulp, or papier-mâché, between moulds of hollow bodies
    • EFIXED CONSTRUCTIONS
    • E04BUILDING
    • E04BGENERAL BUILDING CONSTRUCTIONS; WALLS, e.g. PARTITIONS; ROOFS; FLOORS; CEILINGS; INSULATION OR OTHER PROTECTION OF BUILDINGS
    • E04B1/00Constructions in general; Structures which are not restricted either to walls, e.g. partitions, or floors or ceilings or roofs
    • E04B1/62Insulation or other protection; Elements or use of specified material therefor
    • E04B1/74Heat, sound or noise insulation, absorption, or reflection; Other building methods affording favourable thermal or acoustical conditions, e.g. accumulating of heat within walls
    • E04B1/76Heat, sound or noise insulation, absorption, or reflection; Other building methods affording favourable thermal or acoustical conditions, e.g. accumulating of heat within walls specifically with respect to heat only
    • E04B1/78Heat insulating elements
    • E04B1/80Heat insulating elements slab-shaped
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02WCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
    • Y02W30/00Technologies for solid waste management
    • Y02W30/50Reuse, recycling or recovery technologies
    • Y02W30/64Paper recycling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Architecture (AREA)
  • Manufacturing & Machinery (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Electromagnetism (AREA)
  • Civil Engineering (AREA)
  • Structural Engineering (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Devices For Executing Special Programs (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 短文字列の2つの集合の間のマッピングの候補を作成する方法を提供する。
【解決手段】 文字列の2つの集合に関係するファイルの集合を選択する。ファイルの集合内で文字列の2つの集合からの各々の文字列を検索する。同じファイルと一致する2つの文字列は、関係があるとみなされ、一緒にマッピングされる。その後、これらのマッピングの候補は、アノテータ/レビューア側でチェックすることができる。
【選択図】 図3

Description

本発明は、一般には、文字列の関連付けの分野に関し、より詳細には、短文の文字列間の関連付けを見つけることに関する。
短文の文字列を他の短文の文字列に概念的にリンクさせる(またはマッピングさせる)必要があるアプリケーションが多数ある。例えば、分類子学習(classifier training)では、クエリログからクエリをタスクまたは意図記述(intent descriptions)に関連付ける必要性がある。検索を行う場合、追加メタデータと検索する語とを関連付けることが望ましい場合がある。照合される文字列が十分に長ければ、文字列間で単語の重複部分を使用して、それらが関連しているのかどうかを決定することも可能である。しかし、文字列が短いと、文字列間のマッピングを形成するために必要な考えられる関係または関連付けを認識することは非常に困難な場合がある。これは、関連付けを認識し、マッピングを形成する際に使用される文字列自体に含まれる情報が不十分なためである。
以前には、文字列間のマッピングを形成するために、関連技術分野の熟練した、人のアノテータが用いられていた。これは、時間のかかる労働集約的なプロセスとなる可能性がある。例えば、分類子学習では、人のアノテータは、与えられたタスク毎に手作業で、そのタスクに関係していることがわかったクエリを選択する。タスクが数百あり、クエリが数千もある場合だと、アノテータがすべてのタスクおよびクエリを覚えておいて、一貫したアノテーションの作業を行うことは困難である。さらに、人間の認識能力の限界のため、このプロセスでは間違いを生じやすく、また食い違いも生じる可能性がある。誤りを減らすために、複数のアノテータが同じクエリからタスクへのマッピングを操作することがある。しかし、この分野が複雑であること、およびアノテータに高い知識レベルが必要とされることを考慮すれば、複数の人のアノテータを用いると、コストは非常に高くつく可能性がある。
前記の点を考慮すると、従来技術のこれらの制限および欠点を克服するシステムおよび方法が必要であることが理解される。
短文字列の2つの集合の間でマッピングの候補を作成し、結果としてアノテータが検証することができるような、半自動システムが使用される。文字列の2つの集合に関係する十分に大きなファイル集合を選択することが望ましい。大きなファイル集合内で文字列の2つの集合からの各々の文字列が検索される。特定の文字列に一致する各ファイルをその文字列に関係するとみなし、文字列に関する情報およびコンテキストを追加することができる。追加した情報およびコンテキストを用いて、文字列の2つの集合の間でマッピングの候補を作成する。特に、特定の個数のファイルに一致する2つの文字列は関係があるとみなされ、一緒にマッピングされる。これらのマッピングの候補は、アノテータ側でチェックすることができる。
従来技術で示されているように、アノテータにマッピングの候補を作成させるよりもむしろ、アノテータは本発明のマッピングの候補と連動してレビューアとして作業することができる。各々の集合からのすべての文字列を覚えておく必要はなく、マッピングの候補が意味の有無(つまり、適切かどうか)を確認するだけでよい。これは、誤りが少なく、かなり高速なプロセスである。マッピングの候補は自動的に作成されるため、これらはかなり一貫性が高い。したがって、本発明によるアノテートのデータは、かなり安く、またより高い全般的なマッピングの品質が得られる。さらに、この方法は、どのような言語の文字列でもうまく機能するであろう。
本発明の追加の特徴および利点は、添付の図面を参照して行われる実施例についての以下の詳細な説明から明白になる。
図1は、クエリからファイルの集合へのマッピングの例を示し、図2は、タスクからファイルの集合へのマッピングの例を示し、および図3は、クエリからファイルの集合へのマッピングとタスクからファイルの集合へのマッピングとの間の重複部分の例を示す。これらの図は、図1にクエリ101として示されている短文字列のクエリと図2にタスク202として示されている短文字列のタスクとの間に関係が存在するかどうかを決定するための方法の例を示すのに使用する。
タスク202およびクエリ101は、図1〜3に探索空間110として示されているテキストファイルの集合にマッピングされる。タスク202に一致するファイルを図2および3に230という符号で示す。クエリ101に一致するファイルを図1および3に120という符号で示す。クエリ101とタスク202とに一致するファイル間の重複部分を、図3に350という符号で示す。重複部分が大きいほど、タスクとクエリとの「関連性」は強まる。この実施形態はタスクおよびクエリの文字列に関して説明するが、本発明は、短文字列の集合との間でマッピングを作成するのにも適用可能である。
より具体的には、図1は、短文字列のクエリ101から探索空間110内のテキストファイルのより大きな集合へのマッピング例を示す。クエリ101は短文字列、例えば、単一の単語であるため、図2に示されているクエリ101とタスク202との存在しうる関係を確立する際に用いることが出来る内容は非常に少ない。クエリ101とタスク202との存在しうる関係を見つけるために、まずクエリ101およびタスク202をより大きな次元(例えば、探索空間110)にマッピングするのが望ましい。より大きな次元にマッピングすることにより、用いることができる情報が増えるので、これにより、タスク202およびクエリ101を比較し、それらの間に関係が存在するかどうかを決定する。
120に示すように、クエリ101は探索空間110内の複数のファイル(空間120として表されている)にマッピングされる。このマッピングを決定するために、探索空間110内の各ファイルは、クエリ101について検索されるテキストであるのが望ましい。ファイルのテキスト検索を行うためには、そのファイル内で、クエリ101が表す単語または語句の出現をスキャンまたは検索することが望ましい。テキスト検索を実行するために、ファイル内のテキスト文字列を検索する本技術分野で知られているシステム、方法、または手法を使用する。一致が見つかったファイルは、クエリ101に関係しているとみなされ、クエリ101の意味に関する他の情報を提供できる。一致が完全一致である場合があり、例えば、単語または語句がファイルのテキスト内に正確な形で出現する。一致は、また、部分一致の場合もあり、これは単語または語句の一部のみがファイル内に見つかる場合である。さらに、より高度な検索方法を使用して、検索される語句にありがちなつづりの誤りまたは形態論的な異形(例えば、「runs」の代替えとして「run」、「ran」、「running」)などの一致を見つけることができる。テキスト文字列の照合に関する本技術分野で知られているシステム、手法、または方法が使用できる。
次に、この情報を使用することにより、マッピングの候補を作成することができる。マッチングファイルの集合を図1に120という符号で示す。例えば、探索空間110は2つのファイルを含み、ファイル1は単語「foo」、「bar」、および「banana」を含み、ファイル2は単語「apple」、「pear」、および「banana」を含むものと仮定する。さらに、検索する語は「foo」であるものとする。この例では、ファイル1内およびファイル2内で「foo」をテキスト検索した後、「foo」はファイル1内で一致し、ファイル2内では一致しない。したがって、検索する語「foo」はファイル1にマッピングされ、ファイル2にはマッピングされない。同様に、検索する語が「banana」であった場合、「banana」はファイル1とファイル2で一致する。したがって、検索する語「banana」はファイル1およびファイル2にマッピングされる。
特定の一致したファイルがクエリ101に関係しているかどうかは、探索空間110のサイズおよび探索空間110とクエリとの関連度の両方に依存する。例えば、大きな探索空間、例えば、インターネットが選択された場合、どの2つのテキスト文字列についても一致が見つからないことも考えられる。選択された探索空間が小さすぎる場合、一致が見つかりすぎることがある。したがって、探索空間110の選択は慎重に行うことが重要である。
所望の一致に意味があることを保証し、偶然の一致を減らす方法の1つは、ユーザが決定する特定の順位付けよりも高い順位付けとなる一致のみを対象とすることである。順位付けは、本技術分野で知られているシステム、方法、または手法を使用して、特定の検索する語について返される一致を順位付けすることにより作成することができる。例えば、ユーザが決定する順位付けは、検索する語が所定のファイルと一致すると見なされる前にその語がそのファイル内に出現していなければならない回数に依存し、または関係する、もしくは他の何らかの形でその回数を表すある所定の数であるのが望ましい。この数は、実験を行って決定することができ、また探索空間110内のファイルの個数とともに、所望の検索する語と一致したファイルの個数に応じて調整することができる。
例えば、クエリ101は、特定のファイル内に1回しか出現しないが、別のファイル内には100回出現することがある。直観的には、クエリ101は、それが1回だけ出現するファイルよりもそれが100回出現するファイルと関係する可能性が高いといえる。一実施形態では、これを利用して何らかのユーザが決定する頻度または回数よりも多いクエリ101を含むだけで、そのファイルと見なすことができる。この例では、特定のファイル内に検索する語が出現する頻度に基づいて検索結果の順位付けを考察しているが、検索結果の順位付けを行う他の方法も使用可能である。さらに、この順位付けは、図5に関してさらに説明するように、所望のクエリからタスクへのマッピングに順位付けを行うために使用することができる。
図2に例示されているように、タスク202は、230という符号で表されるように、探索空間110内の複数のファイルにマッピングされることが望ましい。このマッピングを決定するために、探索空間110内の各ファイルは、タスク202について検索されるテキストであるのが望ましい。ファイルが一致するとタスク202に関係しているとみなされ、タスク202の意味に関する他の情報を提供することができる。続いて、この情報を使用することにより、マッピングの候補を作成することができる。マッピングの候補は、図1のクエリからファイルへのマッピングに関して説明されているのと類似の方法で順位付けすることができる。
図3は、探索空間110内でクエリ101にマッチングするファイルと探索空間110内でタスク202にマッチングするファイルとの間の重複部分を例示している。120と230との間で重複するファイルを、図3に350という符号で示す。この重複部分の集合は、それらのファイルのテキスト内のどこかにあるクエリ101とタスク202の両方を含む探索空間110からのファイルを含む。重複部分のこの領域が大きいほど、クエリ101とタスク202の両方を含むファイルが多く、クエリ101とタスク202との間の関係または接続がある可能性が高くなる。さらに、他の要因が、クエリ101とタスク102との間に関係または接続の存在する確率が高いことを示すこともあり、例えば、基本的なクエリからファイルへのマッピングおよびタスクからファイルへのマッピングに関連付けられた高い重みまたは順位は、実際にマッピングされているファイルが少ししかなくても関係の存在する確率が高いことを示す場合がある。
重複部分350のサイズと、クエリ101とタスク202との間に関係の存在する確率との間の関係を使用することにより、所望のマッピングへの順位か、または重みをそれに割り当てることができる。図4および5に関してさらに説明するように、複数のクエリ101の語およびタスク202の語を、上で説明した方法と同様にして、比較するのが望ましい。いくつかのクエリ101およびタスク202の語に一致するファイルの数は、他のクエリ101およびタスク202の語と一致するファイルの数よりも多い。直観的に、これは、それらの語との関係が存在している可能性が高いことを示している。同様に、特定のファイルに一致するいくつかのクエリ101およびタスク202の語は、その一致するファイルについてより高い重みまたは順位を受ける。同じファイルに一致するクエリ101の語およびタスク202の語は、各々高い順位を持ち、それらの語との関係が存在している可能性があることを示す。
上述のように、一致を検証するために、人のレビューアを用いることができる。人のレビューアを用いると、費用がかかり時間もかかる。そこで、所望の一致を検証するために人が費やす時間を極力短くすることが望ましい。この目的のために、所望の一致を順位付けし、特定の望ましくはユーザが決定するしきい値よりもその一致が低い場合を排除することができる。したがって、一致は、一致を検証する、人のアノテータには送られない。ユーザが決定するしきい値は、所望の一致の数、および探索空間110内のファイルの数の要因に応じて、管理者により決定することができる。実施例の方法を、図5を参照して詳述する。
図4は、本発明によるクエリからタスクへのマッピングを作成する方法の例を示すフローチャートである。クエリとタスクとの間のマッピングは、クエリおよびタスクをファイルまたはテキストドキュメントの選択にマッピングし、それらの結果を組み合わせることにより作成される。サンプルファイルの集合を選択し、それらのファイルのインデックスを作成する。その作成されたインデックスに基づいてクエリの集合を検索し、クエリの集合を含むクエリの各々と一致するファイルのサンプル集合からのファイルの重み付けリストを作成する。その作成されたインデックスに基づいてタスクの集合を検索し、タスクの集合を含むタスクの各々と一致するファイルのサンプル集合からのファイルの重み付けリストを作成する。
それらのタスクの各々と一致するファイルのサンプル集合からのファイルの順位付けリストを反転して、各ファイルのリストおよびそのファイルに一致するタスクの重み付けリストを取得する。クエリおよびマッチングファイルのリストを、ファイルおよびマッチングタスクのリストと組み合わせて、クエリおよびマッチングタスクの重み付けリストを作成することができる。この実施例はタスクおよびクエリに関して説明するが、この方法は、短文字列の集合の間のマッピングを作成するのに適用することができる。
より具体的には、401で、ファイル集合が作成される。図1に関して上で述べたように、ファイル集合は、マッピングの対象であるタスクおよびクエリの一般的な領域に関係するのが望ましい。さらに、十分に大きなファイルの集合を選択すべきである。選択されたファイルが多すぎると、タスクとファイルとの間に、およびクエリとファイルとの間に十分な一致がなくなり、クエリとタスクとの間に意味のあるマッピングを形成することができない。しかし、そのファイル集合に対して選択されたファイルが少なすぎると、偶然の一致を非常に多く作成する危険性が生じる(例えば、アノテータにとってよけいな仕事が増える)。一般に、偶然の一致はそれらに関連付けられる重みを非常に小さくすることが望ましく、その結果(例えば、その後のアノテーションプロセスの前に)、排除できるのであれば、この危険性は小さくなる。
405で、選択された複数のファイルを使用しインデックスを作成するのが望ましい。ファイルの集合にインデックスを付けることにより、ファイルをすばやく検索することができる。ファイルのインデックスエントリは、そのファイルに含まれるすべての単語のリストを含むことができる。より高度なインデックスだと、ファイル内の各単語の出現数を含むようにすることができ、これにより、一致に、その一致が意味を持つ順位または確率を付与することができる。ファイル内の一致した単語の出現回数が多いほど、ファイルが一致した単語に関係する確率は高くなる。同様に、スペリング、形態素解析、句読点、フレーズなどの使用を含む、テキストの正規化を使用して、与えられたファイルインデックスを改善することができる。例えば、ファイル内に見つかる単語のよくあるつづりの誤りをインデックスに含めることができる。一実施形態では、オペレーティングシステム標準のインデックス付けサービスを使用して、ファイルインデックスを作成することができるが、ファイルのグループのインデックスを作成するための本技術分野で知られているシステム、方法、または手法を使用することもできる。
408で、タスクの各々をファイルのインデックス上で検索する。これらのタスクの各々と一致したファイルを含むリストを作成するのが望ましい。使用するインデックス付けの種類を定めたら、各タスクと一致するファイルのリストに対し、順位付けを行うか、または一致の品質またはそれが正確である確率を示す信頼水準を付与することができる。(例えば、ユーザが決定する)順位または信頼水準よりも低い一致を排除することによりファイルのリストを縮小することができる。ファイル検索に関する本技術分野で知られているシステム、方法、または手法を使用することが可能であることも理解される。
411で、ファイル集合内の各ファイルおよびそのファイルエントリと一致する関連付けられたタスクに対するエントリを含む、新しいリストを、各タスクおよびそのタスクを含んでいたファイルに対するエントリを含むリストから作成するのが望ましい。このリストは、各タスクおよびそのタスクを含んでいたファイルに対するエントリを含むリストを反転または逆にすることにより作成するのが望ましい。新しいリストは、ファイル集合内の各ファイルおよびそのファイルエントリと一致する関連付けられたタスクに対するエントリを含む。各一致に関連付けられた順位付けまたは信頼水準は、新しいリストに保存するのが望ましい。
415で、クエリの各々を、タスクと同じ、ファイルのインデックス上で検索する。これらのクエリの各々と一致したファイルを含むリストを作成するのが望ましい。順位または信頼水準は、一致ごとに指定するのが望ましい。上で述べたタスクの低減と同様に、使用されるインデックス付けの種類が指定された場合、各クエリと一致するファイルのリストを縮小するために、ユーザが決定する順位または信頼水準よりも低い一致を排除する。ファイル検索に関する本技術分野で知られているシステム、手法、または方法を使用することができる。
417で、クエリからファイルへのマッピングを含む作成されたリストをファイルからタスクへのマッピングを含むリストと組み合わせて、クエリからタスクへのマッピングを作成することが望ましい。さらに、図5を参照して以下に詳述するように、各々の提案されているクエリからタスクへのマッピングに対し、クエリとタスクのペアがファイル内で一致した回数に基づくか、または使用される検索システムが返すタスクからファイルへおよびクエリからファイルへのマッピングの重み関数に基づいて、順位付けまたは重み付けをすることができる。マッピングの候補は、作成された後、人のレビューア(または他の自動システム)に送られ、そこで、偶然一致または誤ったマッピングを除去することができる。
図5は、本発明により作成されたマッピングに重みを割り当てる方法の一例を説明するための図である。一実施例では、クエリの語からテキストファイルへのマッピングは、テキストファイルの集合内でクエリの語を検索することにより作成される。タスクの語からテキストファイルへのマッピングも、同様に作成される。クエリからファイルへのマッピングを反転または逆にして、ファイルからクエリの語へのマッピングを作成する。タスクからファイルへのマッピングをファイルからクエリへのマッピングと組み合わせることにより、タスクからクエリへのマッピングを作成する。特定のタスクが特定のクエリにマッピングされる回数を使用して、それらの結果を順位付けすることができる。同様に、基本的なクエリからファイルへの、およびタスクからファイルへのマッピングの順位付けまたは信頼水準を使用して、クエリからタスクへのマッピングの全体的な順位付けまたは信頼水準を作成することができる。しきい値を定めて、特定の順位よりも下の一致を排除し、それによって、作成された一致が正確であることを保証することができる。この実施例についてはクエリおよびタスクにおいて説明されているが、短文字列の別の集合または複数の集合により、短文字列の集合または複数の集合の間でマッピングを作成することに同様に適用することができる。
501で、クエリからファイルへのマッピングが作成される。この実施例の目的のために、3つのクエリの語1〜3および15個のテキストファイル1〜15があると仮定する。図に示されているように、クエリ1はファイル3、5、10、および15にマッピングされ、クエリ2はファイル5および15にマッピングされ、クエリ3はファイル3にマッピングされる。この実施例では、クエリの語がファイル内に少なくとも1回出現する場合に、ファイルにマッピングされる特定のクエリが見つかる。
図4について説明したように、特定のマッピングに信頼度または重みを割り当てることができる。本技術分野では、逆ドキュメント頻度(inverse document frequency)、検索する語がどれだけまれであるか、またはありふれているか、およびこの実施例で使用されている語の出現頻度を含む、検索結果に重みまたは信頼度を割り当てる多数の手法が知られている。語の出現頻度を使用し、クエリがファイル内に見つかる回数に応じて特定の一致を順位付けする。特定の順位よりも下であれば、一致は排除または無視することができる。例えば、特定のファイル集合および検索する条件について一致が多数得られた場合、システムまたはユーザは、特定の順位よりも低い一致を排除し、一致したファイルが検索された条件に関係している可能性を高めることも可能である。信頼度をこれらの一致に割り当てるこの方法を、複数のタスクと複数のクエリとの間での所望の関係を順位付けする方法とともに使用することができる。
505で、クエリからファイルへのマッピングを反転または逆にし、ファイルからクエリへのマッピングを実現するのが望ましい。図に示されているように、ファイル3はクエリ1および3にマッピングされ、ファイル5はクエリ2および1にマッピングされ、ファイル10はクエリ1にマッピングされ、ファイル15はクエリ2および1にマッピングされる。ファイル1、2、4、6、7、8、9、11、12、13、および14は、クエリのどれとも一致していないため省かれる。
508で、タスクからファイルへのマッピングが作成される。この実施例のために、3つのタスクの語1〜3および15個のテキストファイル1〜15があると仮定する。図に示されているように、タスク1はファイル5および10にマッピングされ、タスク2はファイル3、10、および15にマッピングされ、タスク3はファイル15にマッピングされる。
511で、タスクからファイルへのマッピングをファイルからクエリへのマッピングと組み合わせて、タスクからクエリへのマッピングを作成する。各々のファイルは、複数の異なるクエリ、および複数の異なるタスクにマッピングすることができる。その結果、2つのマッピングを組み合わせた場合、いくつかのタスクは同じクエリに複数回マッピングされることが示される。タスクが特定のクエリと一致する回数は、冗長であるというよりはむしろ、一致の近似度を知る手がかりとなるであろう。図に示すように、タスク1はクエリ2に1回、クエリ1に2回マッピングされ、タスク2はクエリ1に3回、クエリ2に1回、クエリ3に1回マッピングされ、タスク3はクエリ2に1回、クエリ1に1回マッピングされる。
515で、各々のマッピングに対する順位付けまたは信頼水準が作成される。図に示されているように、各々のタスクからクエリへのマッピングは、見つかった重複する一致の数により順位付けされる。各々の重複するマッピングは、クエリの語とタスクの語の両方を含んでいたファイルを表す。順位が高いほど、タスクとクエリとの間のマッピングが意味を持つ可能性が高くなる。
重複する一致の数により順位付けするほかに、重みまたは信頼水準を検索される語に割り当てる本技術分野で知られているシステム、方法、または手法を使用して、各々のマッピングに対する順位付けまたは信頼水準を作成することができる。例えば、検索システムにより返される重み(一致の度合い)が使用される場合、場合によっては、単一の大きな重みの重複部分が生じる可能性もあり、これは、重複が見つかること以上に重要である。
作成されるマッピングを人が検証するのに費やす時間と費用を節約するために、ユーザは何らかのしきい値に基づき作成されたマッピングをフィルタ処理することができる。レビューアは、作成された各々のマッピングを調べて、クエリとタスクとの間に実際に関係が存在するのかどうか、一致が単に偶然の一致であるか、またはファイルの集合内のテキストファイルが不良である結果だったのかを決定する。本技術分野者によって行われるレビューは費用のかかるプロセスであるため、レビューされるマッピングの数を極力少なくすることが望ましい。この目的のために、ユーザ側で、マッピングがレビューアにより検証される前に、タスクとクエリとの間に見つかる最小の順位付けを決定することが望ましい。図5に関して説明されている実施例では、重複する一致の数は少なくとも2つであると決定されていた。515の点線の上に示されているように、タスク2とクエリ1、およびタスク1とクエリ1との間のマッピングは、この基準を満たしていた。実際、一致に対する望ましい最適な順位付けは、複数のクエリおよび複数のタスクがマッピングされる検索空間のサイズとともに、それらのファイルの関連度にも大きく依存する。
図6は、本発明によるシステムの例のコンポーネントを例示するブロック図である。システムは、セレクタコンポーネント602、サーチャコンポーネント605、第1のジェネレータコンポーネント606、第2のジェネレータコンポーネント607、第3のジェネレータコンポーネント611、およびレビューアコンポーネント615を備える。
セレクタコンポーネント602は、短いクエリ文字列の集合と短いタスク文字列の集合との間のマッピングを作成するために使用できるファイルの集合を選択する場合に使用するのが望ましい。クエリおよびタスクは短文字列なので、マッピングを作成するために使用できる情報はわずかしかない。図1について説明したように、クエリおよびタスク文字列の領域に関係するファイルの集合を選択するのが望ましい。クエリおよびタスクをファイルの集合にマッピングするのが望ましい。同じファイルにマッピングされるクエリおよびタスクは、関係があるとみなされ、したがって一緒にマッピングされる。このようにして、クエリとタスクとの間のマッピングが作成される。この目的のために、セレクタコンポーネント602により選択されたファイルの集合は、クエリおよびタスクの一般的な領域と関係づけられ、マッピングを作成するための十分なファイルがあるようなサイズであり、すべてのクエリがすべてのタスクにマッピングされないことが望ましい。セレクタコンポーネント602は、ハードウェア、もしくはソフトウェアを使用するか、またはハードウェアとソフトウェアとを併用して実装することができる。この実施形態はクエリおよびタスクの集合に関して説明されているが、短文字列の集合の間のマッピングを作成するのにも適用可能である。
サーチャコンポーネント605は、クエリの集合およびタスクの集合から文字列の出現を、選択された複数のテキストファイル内で検索する場合に使用するのが望ましい。各々のクエリおよびタスクは、ファイルの集合内で検索されるテキストであることが望ましい。図1〜3について詳述したように、選択されたファイルは、各々のクエリおよびタスクの出現について検索されるテキストである。さらに、サーチャコンポーネント605は、重みまたは信頼水準を見つかった一致に割り当てて、その特定のファイルが検索する語にどれだけ関連しているかを示すことが望ましい。テキストファイルの集合内で文字列を検索し、重みまたは信頼水準をそれらの結果に割り当てる、本技術分野で知られているシステム、方法、または手法を使用することができる。サーチャコンポーネント605は、ハードウェア、またはソフトウェアを使用するか、またはハードウェアとソフトウェアとを併用して実装することができる。
第1のジェネレータコンポーネント606は、複数のクエリと複数のファイルの集合との間のマッピングを作成するために使用するのが望ましい。作成されたマッピングは、そのクエリの語を含むファイルの集合からの各々のファイルとともに、各クエリの語に対するエントリを含むリストを備えることができる。作成されたマッピングは、さらに、所与の語について第1のジェネレータコンポーネント606により、特定の順位または信頼水準を達成したファイルを追加するだけで、より精密にすることができる。例えば、サーチャコンポーネント605により特定のクエリの語と一致することが判明した所与のファイルの、重みが低い可能性があり、その一方で、クエリの語と一致する別のファイルは重みが非常に高い可能性がある。定義により、重みが高いファイルは、重みが低いファイルよりもそのクエリの語に関係する可能性が高い。第1のジェネレータコンポーネント606は、ファイルがユーザ指定値を超える重みまたは信頼水準を有するクエリの語と一致する場合にエントリをリストに加えることができる。第1のジェネレータ606は、ハードウェア、もしくはソフトウェアを使用するか、またはハードウェアとソフトウェアとを併用して実装することができる。
第2のジェネレータコンポーネント607は、複数のタスクと選択された複数のファイルとの間のマッピングを作成するために使用するのが望ましい。作成されたマッピングは、そのタスクの検索する語を含むファイルの集合からの各々のファイルとともに、各タスクの語に対するエントリを含むリストを備えることができる。作成されたマッピングは、さらに、所与の語について第2のジェネレータコンポーネント607により、特定のユーザ指定値を超える重みまたは信頼水準を有するタスクの検索する語を含んだファイルを追加するだけで、より精密にすることができる。これについては、第1のジェネレータコンポーネント606に関して詳しく説明した。第2のジェネレータコンポーネント607は、ハードウェア、もしくはソフトウェアを使用するか、またはハードウェアとソフトウェアとを併用して実装することができる。
第3のジェネレータコンポーネント611は、短いクエリの集合と短いタスクの集合との間のマッピングを作成するために使用するのが望ましい。このマッピングは、クエリの語からファイル集合へのマッピングと、タスクの語からファイル集合へのマッピングとを組み合わせることにより作成するのが望ましい。クエリとタスクとの間の各々の個別マッピングは、クエリおよびタスクの両方の語を含んでいたファイル集合内の少なくとも1つのファイルに呼応する。いくつかのクエリおよびタスクの語がファイル集合からとった複数のファイル内で一致したか、またはその中に含まれていた。第3のジェネレータコンポーネント611は、さらに、決定されたしきい値よりも小さい値で一緒に出現したクエリおよびタスクのマッピングを排除することにより、マッピングをより精密にすることができる。このしきい値は、所望のマッピングの総数、または初期のファイル集合のサイズを参照して決定することができる。
同様に、クエリとタスクの語との間のマッピングは、クエリからファイルへのマッピングおよびタスクからファイルへのマッピングに関連付けられている基本的な順位付けまたは信頼水準に基づいてマッピング毎に順位付けまたは信頼水準を作成することによって、より精密にすることができる。各々の一致したクエリおよびタスクの語は、サーチャコンポーネント605の作成した、基本的なクエリからファイルへのマッピングおよびタスクからファイルへのマッピングの両方について関連付けられた重みまたは信頼水準を持つ。これら2つの順位付けを組み合わせることにより、複合の順位付けをクエリからタスクへのマッピングについて作成することができる。第3のジェネレータコンポーネント611は、決定されたしきい値よりも低い順位付けを受け取るクエリおよびタスクのマッピングを排除することができる。第3のジェネレータコンポーネント611は、ハードウェア、もしくはソフトウェアを使用するか、またはハードウェアとソフトウェアとを併用して実装することができる。
レビューアコンポーネント615は、複数のクエリと複数のタスクとの間の作成されたマッピングのうちどれが意味のあるものかを決定し、および意味のないマッピングを排除することが望ましい。レビューアとして作業する、人のアノテータは、クエリおよびタスクの語の関連する技術に精通したものであるのが望ましく、これにより、各々のマッピングを調べて、クエリおよびタスクの語に関係があるように思われない場合にマッピングを排除することができる。さらに、このレビューは自動化またはコンピュータ化することもできる。このような場合、このレビューアコンポーネント615は、ハードウェア、もしくはソフトウェアを使用するか、またはハードウェアとソフトウェアとを併用して実装することができる。
コンピューティング環境の実施例
図7は、本発明を実施するのに適しているコンピューティングシステム環境700の一実施例の図である。コンピューティングシステム環境700は、適当なコンピューティング環境の一例にすぎず、本発明の用途または機能性の範囲に関する制限を示唆する意図はない。コンピューティング環境700は、動作環境例700に例示されている1つのコンポーネントまたはその組み合わせに関係する何らかの依存関係または要求条件がその環境にあるものと解釈すべきでない。
本発明は、他の数多くの汎用または専用コンピューティングシステム環境または構成で動作する。本発明とともに使用するのに適していると思われるよく知られているコンピューティングシステム、環境、および/または構成の例として、これらに限定はしないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記システムまたはデバイスを含む分散コンピューティング環境などがある。
本発明は、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的背景状況において説明することができる。一般に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。また、本発明は、通信ネットワークまたは他のデータ伝送媒体を通じてリンクされているリモート処理デバイスによりタスクが実行される分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、プログラムモジュールおよびその他のデータをメモリ記憶デバイスなどのローカルとリモートの両方のコンピュータ記憶媒体に配置できる。
図7では、本発明を実装する例示されているシステムは、コンピュータ710の形態の汎用コンピューティングデバイスを備える。コンピュータ710が備えるコンポーネントとしては、これらに限定はしないが、処理ユニット720、システムメモリ730、およびシステムメモリを備えるさまざまなシステムコンポーネントを処理ユニット720に結合するシステムバス721などがある。システムバス721には、メモリバスまたはメモリコントローラ、周辺機器バス、およびさまざまなバスアーキテクチャを使用するローカルバスを含む数種類のバス構造がありえる。
コンピュータ710は通常、さまざまなコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ710によってアクセスされることができる媒体であればどのような媒体でも使用可能であり、揮発性および不揮発性媒体、取り外し可能および取り外し不可能媒体を含む。例えば、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造体、プログラムモジュール、またはその他のデータなどの情報を格納する方法または技術で実装される揮発性および不揮発性、取り外し可能および取り外し不可能媒体を含む。コンピュータ記憶媒体としては、これらに限定はしないが、RAM、ROM、EEPROM、フラッシュメモリまたはその他のメモリ技術、CD−ROM、デジタル多目的ディスク(DVD)またはその他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶デバイス、または所望の情報を格納するために使用することができコンピュータ710によりアクセスできるその他の媒体がある。通信媒体は、通常、コンピュータ可読命令、データ構造体、プログラムモジュール、または搬送波もしくはその他のトランスポートメカニズムなどの変調データ信号によるその他のデータを具現するものであり、任意の情報配信媒体を含む。例えば、限定しないが、通信媒体としては、有線ネットワークまたは直接配線接続などの有線媒体、ならびに、音響、RF、赤外線、およびその他の無線媒体などの無線媒体がある。上記のいずれの組み合わせもコンピュータ可読媒体の範囲に収まらなければならない。
システムメモリ730は、ROM 731およびRAM 732などの揮発性および/または不揮発性メモリの形態のコンピュータ記憶媒体を備える。起動時などにコンピュータ710内の要素間の情報伝送を助ける基本ルーチンを含む基本入出力システム733(BIOS)は、通常、ROM 731に格納される。通常、RAM 732は、処理ユニット720に直接アクセス可能な、および/または処理ユニット120によって現在操作されているデータおよび/またはプログラムモジュールを格納する。例えば、限定しないが、図7は、オペレーティングシステム734、アプリケーションプログラム735、その他のプログラムモジュール736、およびプログラムデータ737を例示している。
コンピュータ710はさらに、その他の取り外し可能/取り外し不可能な揮発性/不揮発性コンピュータ記憶媒体を備えることもできる。例えば、図7は、取り外し不可能な不揮発性磁気媒体の読み出しまたは書き込みを行うハードディスクドライブ740、取り外し可能な不揮発性磁気ディスク752の読み出しまたは書き込みを行う磁気ディスクドライブ751、およびCD ROMまたはその他の光媒体などの取り外し可能な不揮発性光ディスク756の読み出しまたは書き込みを行う光ディスクドライブ755を例示している。動作環境の実施例で使用できる他の取り外し可能/取り外し不可能な揮発性/不揮発性コンピュータ記憶媒体としては、これらに限定はしないが、磁気テープカセット、フラッシュメモリカード、デジタル多目的ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどがある。ハードディスクドライブ741は、通常、インターフェイス740などの取り外し不可能なメモリインターフェイスを介してシステムバス721に接続され、磁気ディスクドライブ751および光ディスクドライブ755は、通常、インターフェイス750などの取り外し可能なメモリインターフェイスによりシステムバス721に接続される。
ドライブおよび関連するコンピュータ記憶媒体は、コンピュータ710用のコンピュータ可読命令、データ構造、プログラムモジュール、およびその他のデータを格納するための記憶装置を実現する。例えば、図7では、ハードディスクドライブ741は、オペレーティングシステム744、アプリケーションプログラム745、その他のプログラムモジュール746、およびプログラムデータ747を格納するものとして例示されている。これらのコンポーネントは、オペレーティングシステム734、アプリケーションプログラム735、その他のプログラムモジュール736、およびプログラムデータ737と同じである場合もあれば異なる場合もあることに注意されたい。オペレーティングシステム744、アプリケーションプログラム745、その他のプログラムモジュール746、およびプログラムデータ747に対しては、ここで、異なる番号を割り当てて、最低でも、それが異なるコピーであることを示している。ユーザは、キーボード762、およびマウス、トラックボール、またはタッチパッドと一般に呼ばれるポインティングデバイス761などの入力デバイスを介してコンピュータ710にコマンドおよび情報を入力できる。これらの入力デバイスやその他の入力デバイスは、システムバスに結合されているユーザ入力インターフェイス760を介して処理ユニット720に接続されることが多いが、他のインターフェイスおよびバス構造により接続することもできる。モニタ791またはその他の種類の表示デバイスも、ビデオインターフェイス790などのインターフェイスを介してシステムバス721に接続される。モニタのほかに、コンピュータはさらにスピーカ797およびプリンタ796などの他の周辺出力デバイスも備えることができ、これらは出力周辺インターフェイス795を介して接続することができる。
コンピュータ710は、リモートコンピュータ780などの1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク接続環境で動作することができる。リモートコンピュータ780は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピアデバイス、またはその他の共通ネットワークノードでもよく、通常は、コンピュータ710に関係する上述の要素の多くまたはすべてを含むが、メモリ記憶デバイス781だけが図7に例示されている。示されている論理接続は、LAN771およびWAN773を含むが、他のネットワークを含むこともできる。
LANネットワーキング環境で使用される場合、ネットワークインターフェイスまたはアダプタ770を介してLAN 771にコンピュータ710が接続される。WANネットワーキング環境で使用される場合、コンピュータ710は、通常、モデム772またはインターネットなどのWAN 773上で通信を確立するためのその他の手段を備える。モデム772は、内蔵でも外付けでもよいが、ユーザ入力インターフェイス760またはその他の適切なメカニズムを介してシステムバス721に接続することができる。ネットワーク接続環境では、コンピュータ710またはその一部に関して示されているプログラムモジュールは、リモートメモリ記憶デバイスに格納することができる。例えば、限定しないが、図7には、リモートアプリケーションプログラム785がメモリデバイス781に置かれているものとして例示されている。図に示されているネットワーク接続は実施例であり、コンピュータ間の通信リンクを確立するのに他の手段が使用可能であることは理解されるであろう。
上述のように、さまざまなコンピューティングデバイスに関連して本発明の複数の実施例が説明されたが、基本的な概念は、どのようなコンピューティングデバイスまたはシステムにも適用可能である。
本明細書で説明されているさまざまな手法は、ハードウェアまたはソフトウェアに関連して、または該当する場合には、その両方の組み合わせに関連して実装することができる。したがって、本発明の方法および装置、またはそれらのいくつかの態様または一部は、フロッピー(登録商標)ディスク、CD−ROM、ハードドライブ、またはその他の機械可読記憶媒体などの有形な媒体内に具現化されたプログラムコード(つまり、命令)の形態を取ることができ、プログラムコードがコンピュータなどの機械に読み込まれ実行されると、機械は本発明を実施するための装置となる。プログラムコードがプログラム可能なコンピュータ上で実行される場合、コンピューティングデバイスは、一般に、プロセッサ、プロセッサにより読み取り可能な記憶媒体(揮発性および不揮発性メモリおよび/または記憶素子を含む)、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスを含む。プログラムは、必要ならば、アセンブリまたは機械語で実装することができる。いずれの場合も、言語は、コンパイル型言語またはインタプリタ型言語であり、ハードウェア実装と組み合わせることができる。
本発明の方法および装置は、さらに、光ファイバを使用する電気配線またはケーブル配線などの何らかの伝送媒体上で伝送されるプログラムコードの形態で具現化される通信を介して、または他の形態の伝送を介して実施することもでき、プログラムコードがEPROM、ゲートアレイ、プログラム可能論理回路(PLD)、クライアントコンピュータなどのマシンにより受信され、読み込まれ、実行されると、マシンは本発明を実施するための装置となる。汎用プロセッサ上に実装された場合、プログラムコードとプロセッサとが組み合わさって、本発明の機能を呼び出す動作をする独自の装置を実現する。さらに、本発明に関連して使用される格納手法は、常に、ハードウェアとソフトウェアとの組み合わせであってよい。
本発明において、さまざまな形の実施形態に関連して説明したが、他の類似の実施形態を使用するか、または説明されている実施形態に修正および追加を行って、本発明から逸脱することなく本発明の同じ機能を実行するようにできることは理解されるであろう。したがって、本発明は、単一の実施形態に限定すべきではなく、むしろ、特許請求の範囲の定める範囲内で解釈すべきである。
本発明による、ファイルの集合へのクエリのマッピングの例を示す図である。 本発明による、ファイルの集合へのタスクのマッピングの例を示す図である。 本発明による、クエリからファイルの集合へのマッピングとタスクからファイルの集合へのマッピングとの間の重複部分の例を示す図である。 本発明による、クエリからタスクへのマッピングの方法の一例を示すフローチャートである。 本発明による、作成されたマッピングに重みを割り当てる方法の一例を説明するための図である。 本発明による、システムの一例のコンポーネントを示すブロック図である。 本発明のいくつかの態様を実装することができるコンピューティング環境の一例を示すブロック図である。

Claims (31)

  1. 第1の文字列の集合と第2の文字列の集合との間の関係を決定する方法であって、
    ファイルの集合を選択するステップと、
    前記ファイルの集合からインデックスを作成するステップと、
    前記第1の文字列の集合に関係する前記ファイルのインデックスを検索するステップと、
    前記第1の文字列の集合からの各々の文字列および前記文字列に関係する前記ファイルの集合からの複数の前記ファイルに対するエントリを含む第1のリストを作成するステップと、
    前記第2の文字列の集合に関係する前記ファイルのインデックスを検索するステップと、
    前記第2の文字列の集合からの各々の文字列および前記文字列に関係する前記ファイルの集合からの複数の前記ファイルに対するエントリを含む第2のリストを作成するステップと、
    前記第1のリストから、前記ファイルの集合からの各々のファイルおよび前記ファイルに関係する前記第1の文字列の集合からの複数の前記文字列に対するエントリを含む第3のリストを作成するステップと、
    前記第2のリストおよび前記第3のリストから、前記第2の文字列の集合からの各々の文字列および、もしあれば、前記第2の文字列の集合からの前記文字列と同じ、前記ファイルの集合からのファイルに関係する、前記第1の文字列の集合からの前記文字列に対するエントリを含む第4のリストを作成するステップと
    を備えたことを特徴とする方法。
  2. 前記第4のリスト内のエントリが前記第2の文字列の集合からの文字列と前記第1の文字列の集合からの文字列との間の有効な関係を表すかどうかを決定するステップと、
    前記第4のリストから、前記第2の文字列の集合からの文字列と前記第1の文字列の集合からの文字列との間の有効な関係を表さないエントリを削除するステップと
    をさらに備えたことを特徴とする請求項1に記載の方法。
  3. 前記第1のリストおよび前記第2のリスト内の各々のエントリに対する順位付けを作成するステップと、
    前記第1のリストおよび前記第2のリストから作成された順位付けを使用して前記第4のリスト内の各々のエントリに対する順位付けを作成するステップと
    を備えたことを特徴とする請求項1に記載の方法。
  4. 最低順位を決定するステップと、前記最低順位よりも低い順位を持つエントリを前記第4のリストから削除するステップとを備えたことを特徴とする請求項3に記載の方法。
  5. 前記第4のリスト内のエントリが前記第2の文字列の集合からの文字列と前記第1の文字列の集合からの文字列との間の有効な関係を表すかどうかを決定するステップと、
    前記第4のリストから、前記第2の文字列の集合からの文字列と前記第1の文字列の集合からの文字列との間の有効な関係を表さないエントリを削除するステップと
    を備えたことを特徴とする請求項4に記載の方法。
  6. 前記ファイルの集合を選択するステップは、前記第1の文字列の集合および前記第2の文字列の集合と同じ領域内のファイルの集合を選択するステップを含むことを特徴とする請求項1に記載の方法。
  7. 第1の文字列の集合と第2の文字列の集合との間の関係を決定するシステムであって、
    記憶デバイス内に格納されているファイルの集合を選択するセレクタコンポーネントと、
    前記ファイルの集合内の前記第1の文字列の集合および前記第2の文字列の集合からの複数の文字列を検索するサーチャコンポーネントと、
    前記第1の文字列の集合からの文字列と前記文字列に関係する前記ファイル集合からのファイルとを含む、少なくとも1つのペアを含む第1のリストを作成する第1のジェネレータコンポーネントと、
    前記第2の文字列の集合からの文字列と前記文字列に関係する前記ファイル集合からのファイルとを含む、少なくとも1つのペアを含む第2のリストを作成する第2のジェネレータコンポーネントと、
    前記第1のリストおよび前記第2のリストを使用して、前記第1の文字列の集合からの文字列および前記第2の文字列の集合からの文字列を含む、少なくとも1つのペアを含む、第3のリストを作成する第3のジェネレータコンポーネントと
    を備え、前記第1の文字列の集合からの前記文字列および前記第2の文字列の集合からの前記文字列が前記ファイル集合からの少なくとも1つのファイルに相互に関係することを特徴とするシステム。
  8. 前記第3のリスト内のペアを検証し、前記第3のリストから検証できないペアを削除するレビューアコンポーネントをさらに備えたことを特徴とする請求項7に記載のシステム。
  9. 前記第1のリストは、前記第1のリスト内のペア毎に、信頼水準を含むことを特徴とする請求項7に記載のシステム。
  10. 前記サーチャコンポーネントは、前記第1の文字列の集合からの前記文字列が前記ファイルの集合からの前記ファイルに関係する確率に基づいて前記ペアの前記信頼水準を決定することを特徴とする請求項9に記載のシステム。
  11. 前記第1のジェネレータコンポーネントは、前記信頼水準が所定の値よりも小さい場合に前記第1のリストからペアを削除することを特徴とする請求項10に記載のシステム。
  12. 前記第1のジェネレータコンポーネントは、前記信頼水準が前記第1のリストに対する信頼水準の平均よりも低い場合に前記リストからペアを削除することを特徴とする請求項10に記載のシステム。
  13. 前記第2のリストは、さらに、前記第2のリスト内のペア毎に、信頼水準を含むことを特徴とする請求項7に記載のシステム。
  14. 前記サーチャコンポーネントは、前記第2の文字列の集合からの前記文字列が前記ファイルの集合からの前記ファイルに関係する確率に基づいて前記ペアの前記信頼水準を決定することを特徴とする請求項13に記載のシステム。
  15. 前記第2のジェネレータコンポーネントは、前記信頼水準が所定の値よりも小さい場合に前記第2のリストからペアを削除することを特徴とする請求項13に記載のシステム。
  16. 前記第2のジェネレータコンポーネントは、前記信頼水準が前記第2のリストに対する信頼水準の平均よりも低い場合に前記第2のリストからペアを削除することを特徴とする請求項13に記載のシステム。
  17. 前記セレクタコンポーネントは、前記第1の文字列の集合および前記第2の文字列の集合と同じ領域内にあるファイルの集合を選択することを特徴とする請求項7に記載のシステム。
  18. 第1の文字列の集合と第2の文字列の集合との間のマッピングを作成する方法であって、
    ファイルのインデックスを保持するステップと、
    前記第1の文字列の集合と前記ファイルのインデックスとの間の第1のマッピングを作成するステップと、
    前記第2の文字列の集合と前記ファイルのインデックスとの間の第2のマッピングを作成するステップと、
    前記第1のマッピングおよび前記第2のマッピングに基づいて文字列の第1の集合と前記第2の文字列の集合との間の前記マッピングを作成するステップと
    を備えたことを特徴とする方法。
  19. 前記ファイルのインデックスを保持するステップは、前記第1の文字列の集合および前記第2の文字列の集合の同じ領域内にあるファイルのインデックスを選択するステップを含むことを特徴とする請求項18に記載の方法。
  20. 前記第1のマッピングを作成するステップは、
    前記第1の文字列の集合から前記複数の文字列のうちの少なくとも1つに関係する複数のファイルに対する前記ファイルのインデックスを検索するステップと、
    前記ファイルのインデックスからのファイルに関係する前記第1の文字列の集合内の文字列毎に、第1のリスト内に前記第1の文字列の集合からの前記文字列および前記第1の文字列の集合からの前記文字列に関係する複数の前記ファイルのインデックスからの各々のファイルを含むエントリを作成するステップと
    を含むことを特徴とする請求項18に記載の方法。
  21. 前記第2のマッピングを作成するステップは、
    前記第2の文字列の集合から前記複数の文字列のうちの少なくとも1つに関係する複数のファイルに対する前記ファイルのインデックスを検索するステップと、
    前記ファイルのインデックスからのファイルに関係する前記第2の文字列の集合内の文字列毎に、第2のリスト内に前記第2の文字列の集合からの前記文字列および前記第2の文字列の集合からの前記文字列に関係する複数の前記ファイルのインデックスからの各々のファイルを含むエントリを作成するステップと
    を含むことを特徴とする請求項20に記載の方法。
  22. 前記第1の文字列の集合と前記第2の文字列の集合との間の前記マッピングを作成するステップは、
    前記第2のリストから、前記ファイルに関係する前記第2の文字列の集合からの各々の文字列とともに、前記第2の文字列の集合からの文字列に関係する前記ファイルのインデックスからの各々のファイルのエントリを含む第3のリストを作成するステップと、
    前記第3のリストおよび前記第1のリストから、前記ファイルのインデックスからのファイルに関係する前記第1の文字列の集合からの各々の文字列および前記第1の文字列の集合からの文字列と同じファイルに関係する前記第2の文字列の集合からの各々の文字列に対するエントリを含む第4のリストを作成するステップと
    を含むことを特徴とする請求項21に記載の方法。
  23. さらに、前記第4のリスト内のエントリ毎に順位付けを作成するステップを含むことを特徴とする請求項22に記載の方法。
  24. 第1の文字列の集合と第2の文字列の集合との間のマッピングを作成するシステムであって、
    ファイルのインデックスを保持するための格納デバイスと、
    前記第1の文字列の集合と前記ファイルのインデックスとの間の第1のマッピングを作成し、前記第2の文字列の集合と前記ファイルのインデックスとの間の第2のマッピングを作成し、前記第1のマッピングおよび前記第2のマッピングに基づいて前記第1の文字列の集合と前記第2の文字列の集合との間の前記マッピングを作成するプロセッサと
    を備えたことを特徴とするシステム。
  25. 前記第1の文字列の集合と前記第2の文字列の集合とを受け取るための入力デバイスをさらに備えたことを特徴とする請求項24に記載のシステム。
  26. 前記プロセッサは、
    前記第1の文字列の集合から前記複数の文字列のうちの少なくとも1つに関係する複数のファイルに対する前記ファイルのインデックスを検索するステップと、
    前記ファイルのインデックスからのファイルに関係する前記第1の文字列の集合内の文字列毎に、第1のリスト内に前記第1の文字列の集合からの前記文字列および前記第1の文字列の集合からの前記文字列に関係する複数の前記ファイルのインデックスからの各々のファイルを含むエントリを作成するステップと
    により前記第1のマッピングを作成することを特徴とする請求項24に記載のシステム。
  27. 前記プロセッサであって、
    前記第2の文字列の集合から前記複数の文字列のうちの少なくとも1つに関係する複数のファイルに対する前記ファイルのインデックスを検索するステップと、
    前記ファイルのインデックスからのファイルに関係する前記第2の文字列の集合内の文字列毎に、第2のリスト内に前記第2の文字列の集合からの前記文字列および前記第2の文字列の集合からの前記文字列に関係する複数の前記ファイルのインデックスからの各々のファイルを含むエントリを作成するステップと
    により前記第2のマッピングを作成することを特徴とする請求項26に記載のシステム。
  28. 前記プロセッサであって、
    前記第2のリストから、前記ファイルに関係する前記第2の文字列の集合からの各々の文字列とともに、前記第2の文字列の集合からの文字列を含んでいた前記ファイルのインデックスからの各々のファイルのエントリを含む第3のリストを作成するステップと、
    前記第3のリストおよび前記第1のリストから、前記ファイルのインデックスからのファイルに関係する前記第1の文字列の集合からの各々の文字列および前記第1の文字列の集合からの文字列と同じファイルに関係する前記第2の文字列の集合からの各々の文字列に対するエントリを含む第4のリストを作成するステップと
    により前記第1の文字列の集合と前記第2の文字列の集合との間の前記マッピングを作成することを特徴とする請求項27に記載のシステム。
  29. 前記プロセッサにより、前記第4のリスト内のエントリ毎に、順位付けを作成するステップをさらに含むことを特徴とする請求項28に記載のシステム。
  30. 第1の文字列の集合と第2の文字列の集合との間の関係を決定する方法であって、
    第1の文字列の集合と第2の文字列の集合との間の、各々のエントリが前記第1の文字列の集合からの文字列および前記第2の文字列の集合からの文字列を含む複数のエントリを含む作成されたマッピングを受け取るステップと、
    エントリが前記第1の文字列の集合からの前記文字列と前記第2の文字列の集合からの前記文字列との間の有効な関係を表すかどうかを決定するステップと、
    有効な関係を表さないエントリを削除するステップと
    を備えたことを特徴とする方法。
  31. ファイルの集合を選択するステップと、
    前記ファイルの集合からインデックスを作成するステップと、
    前記第1の文字列の集合から前記ファイルの集合への第1のマッピングを作成するステップと、
    前記第2の文字列の集合から前記ファイルの集合への第2のマッピングを作成するステップと、
    前記第1のマッピングおよび前記第2のマッピングを使用して、文字列の第1の集合から前記第2の文字列の集合への第3のマッピングを作成するステップと、
    前記第3のマッピングをレビューアに送るステップと
    をさらに備えたことを特徴とする請求項30に記載の方法。
JP2005146932A 2004-05-24 2005-05-19 クエリからタスクへのマッピング Pending JP2005339542A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/852,734 US20050262058A1 (en) 2004-05-24 2004-05-24 Query to task mapping

Publications (1)

Publication Number Publication Date
JP2005339542A true JP2005339542A (ja) 2005-12-08

Family

ID=34939748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005146932A Pending JP2005339542A (ja) 2004-05-24 2005-05-19 クエリからタスクへのマッピング

Country Status (10)

Country Link
US (1) US20050262058A1 (ja)
EP (1) EP1600861A3 (ja)
JP (1) JP2005339542A (ja)
KR (1) KR20060045720A (ja)
CN (1) CN100468399C (ja)
AU (1) AU2005201890B2 (ja)
BR (1) BRPI0501833A (ja)
CA (1) CA2505294A1 (ja)
MX (1) MXPA05004419A (ja)
RU (1) RU2378693C2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011530121A (ja) * 2008-08-05 2011-12-15 北京金山▲軟▼件有限公司 プログラム動作をフィルタリング・モニタリングするための方法とシステム

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US20060041484A1 (en) 2004-04-01 2006-02-23 King Martin T Methods and systems for initiating application processes by data capture from rendered documents
US8799303B2 (en) 2004-02-15 2014-08-05 Google Inc. Establishing an interactive environment for rendered documents
US8521772B2 (en) 2004-02-15 2013-08-27 Google Inc. Document enhancement system and method
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US20070300142A1 (en) 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20080313172A1 (en) 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US8621349B2 (en) 2004-04-01 2013-12-31 Google Inc. Publishing techniques for adding value to a rendered document
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8793162B2 (en) 2004-04-01 2014-07-29 Google Inc. Adding information or functionality to a rendered document via association with an electronic counterpart
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US9460346B2 (en) 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US20110029504A1 (en) * 2004-12-03 2011-02-03 King Martin T Searching and accessing documents on private networks for use with captures from rendered documents
US7979452B2 (en) * 2006-04-14 2011-07-12 Hrl Laboratories, Llc System and method for retrieving task information using task-based semantic indexes
US8229963B2 (en) * 2008-03-25 2012-07-24 Microsoft Corporation Schema for federated searching
WO2010096192A1 (en) 2009-02-18 2010-08-26 Exbiblio B.V. Interacting with rendered documents using a multi-function mobile device, such as a mobile phone
WO2010105245A2 (en) 2009-03-12 2010-09-16 Exbiblio B.V. Automatically providing content associated with captured information, such as information captured in real-time
US8447066B2 (en) * 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
CN102033877A (zh) 2009-09-27 2011-04-27 阿里巴巴集团控股有限公司 检索方法和装置
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
FR2973134B1 (fr) * 2011-03-23 2015-09-11 Xilopix Procede pour affiner les resultats d'une recherche dans une base de donnees
US9116996B1 (en) * 2011-07-25 2015-08-25 Google Inc. Reverse question answering

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3611601B2 (ja) * 1994-09-01 2005-01-19 富士通株式会社 リスト処理システムとその方法
US5530852A (en) * 1994-12-20 1996-06-25 Sun Microsystems, Inc. Method for extracting profiles and topics from a first file written in a first markup language and generating files in different markup languages containing the profiles and topics for use in accessing data described by the profiles and topics
US6081774A (en) * 1997-08-22 2000-06-27 Novell, Inc. Natural language information retrieval system and method
US5991756A (en) * 1997-11-03 1999-11-23 Yahoo, Inc. Information retrieval from hierarchical compound documents
US6094649A (en) * 1997-12-22 2000-07-25 Partnet, Inc. Keyword searches of structured databases
US6360215B1 (en) * 1998-11-03 2002-03-19 Inktomi Corporation Method and apparatus for retrieving documents based on information other than document content
US6873982B1 (en) * 1999-07-16 2005-03-29 International Business Machines Corporation Ordering of database search results based on user feedback
US7392174B2 (en) * 2000-03-20 2008-06-24 Freeman Robert J Natural-language processing system using a large corpus
US7149732B2 (en) * 2001-10-12 2006-12-12 Microsoft Corporation Clustering web queries

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CSNG200000475006, 丹羽 芳樹, "動的な共起解析を用いた対話的文書検索支援", 情報処理学会研究報告 Vol.96 No.88 IPSJ SIG Notes, 19960913, 第96巻第88号, 41−48, JP, 社団法人情報処理学会 *
CSNG200100155017, 佐藤 進也 他, "サーチエンジンへの問い合わせの解析", 情報処理学会研究報告 Vol.2000 No.29 IPSJ SIG Notes, 20000322, 第2000巻第29号, 135−142, JP, 社団法人情報処理学会 *
JPN6010057215, 原田 昌紀 他, "WWW検索システムにおける不特定多数の操作履歴の活用", 情報処理学会研究報告. [システムソフトウェアとオペレーティング・システム], 19970227, 第97巻第20号, 61−66, JP, 社団法人情報処理学会 *
JPN6010057216, 佐藤 進也 他, "サーチエンジンへの問い合わせの解析", 情報処理学会研究報告 Vol.2000 No.29 IPSJ SIG Notes, 20000322, 第2000巻第29号, 135−142, JP, 社団法人情報処理学会 *
JPN6010057218, 丹羽 芳樹, "動的な共起解析を用いた対話的文書検索支援", 情報処理学会研究報告 Vol.96 No.88 IPSJ SIG Notes, 19960913, 第96巻第88号, 41−48, JP, 社団法人情報処理学会 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011530121A (ja) * 2008-08-05 2011-12-15 北京金山▲軟▼件有限公司 プログラム動作をフィルタリング・モニタリングするための方法とシステム

Also Published As

Publication number Publication date
RU2378693C2 (ru) 2010-01-10
US20050262058A1 (en) 2005-11-24
CN100468399C (zh) 2009-03-11
CN1702653A (zh) 2005-11-30
BRPI0501833A (pt) 2006-01-10
RU2005112058A (ru) 2006-10-27
KR20060045720A (ko) 2006-05-17
EP1600861A2 (en) 2005-11-30
AU2005201890B2 (en) 2011-03-31
EP1600861A3 (en) 2006-06-28
AU2005201890A1 (en) 2005-12-08
MXPA05004419A (es) 2007-11-14
CA2505294A1 (en) 2005-11-24

Similar Documents

Publication Publication Date Title
JP2005339542A (ja) クエリからタスクへのマッピング
US10586155B2 (en) Clarification of submitted questions in a question and answer system
US9558264B2 (en) Identifying and displaying relationships between candidate answers
US11645317B2 (en) Recommending topic clusters for unstructured text documents
US10795922B2 (en) Authorship enhanced corpus ingestion for natural language processing
RU2501078C2 (ru) Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе
US20190362267A1 (en) Method of and system for generating a prediction model and determining an accuracy of a prediction model
US8316007B2 (en) Automatically finding acronyms and synonyms in a corpus
US7814097B2 (en) Discovering alternative spellings through co-occurrence
US8285702B2 (en) Content analysis simulator for improving site findability in information retrieval systems
US20080189273A1 (en) System and method for utilizing advanced search and highlighting techniques for isolating subsets of relevant content data
US7805426B2 (en) Defining a web crawl space
US20110145269A1 (en) System and method for quickly determining a subset of irrelevant data from large data content
WO2011152925A2 (en) Detection of junk in search result ranking
EP2192503A1 (en) Optimised tag based searching
US20080256055A1 (en) Word relationship driven search
KR100594180B1 (ko) 온라인을 이용한 통합 검색 방법
US11449516B2 (en) Ranking of documents belonging to different domains based on comparison of descriptors thereof
US11238052B2 (en) Refining a search request to a content provider
JP2000276470A (ja) 情報検索性能評価方法および情報検索性能評価装置並びに情報検索性能評価処理プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101005

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110311