JP2004110835A - 確認文を検索するための方法およびシステム - Google Patents
確認文を検索するための方法およびシステム Download PDFInfo
- Publication number
- JP2004110835A JP2004110835A JP2003328738A JP2003328738A JP2004110835A JP 2004110835 A JP2004110835 A JP 2004110835A JP 2003328738 A JP2003328738 A JP 2003328738A JP 2003328738 A JP2003328738 A JP 2003328738A JP 2004110835 A JP2004110835 A JP 2004110835A
- Authority
- JP
- Japan
- Prior art keywords
- query
- sentence
- confirmation
- indexing unit
- terms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/40—Data acquisition and logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】 サーチエンジンが、クエリに応答して文データベースから確認文を検索する。確認文を検索する際に、サーチエンジンは、クエリに基づいて索引付けユニットを定義する。索引付けユニットは、クエリからの見出し語とクエリに関連付けられた拡張索引付けユニットの双方を含む。次いで、サーチエンジンは、サーチパラメータとして定義された索引付けユニットを使用して、文データベースから複数の文を検索する。複数の検索された文のそれぞれとクエリの間の類似度が、サーチエンジンによって決定され、それぞれの類似度が、クエリ内の言語重みに応じて決定される。次いで、サーチエンジンは、決定された類似度に基づいて複数の検索された確認文をランク付けする。
【選択図】 図3
Description
サーチエンジン315が改良されるベースラインシステムは、従来のIRシステムにおいて広く使用されているアプローチである。このアプローチの一実施形態の一般的な説明は、以下の通りである。
前述の例などのベースラインアプローチを文検索に使用することに加えて、またはそれの代わりに、NLP使用可能な数言語にまたがる情報検索方法またはアプローチを使用することにより、サーチエンジン315がそのアプローチに基づいて構築する。NLP技術の方法は、以下に説明するように、検索精度を改良する。検索精度を向上するために、システム300が、2つの拡張索引付けユニットの方法を、単独でまたは組み合わせて利用する。第1に、文を構成する際の言語上の重要性を反映するために、異なるタイプの索引付けユニットに異なる重みが割り当てられる。第2に、ヒント文検索を向上するために、新しいアプローチが用いられる。クエリ文については、単語のすべてが、それらと類似の単語または関係する単語、たとえば類語辞典からの同義語と取り替えられる。次いで、3組依存性データベースを使用して、可能な派手な展開を除去するために、間違ったコロケーションをフィルタリングする。
3組依存性(dependency triple、トライグラム)は、ヘッド、ディペンダント、ヘッドとディペンダントの間の依存性関係から構成される。依存性パーサを使用して、文が、式(Equation)5に例示されているような形態の、1つの3組依存性trpへと分析される。
については(英語では、「The nation has issued the plan」)、依存性パーサが、図4−2に示されているように、1つの3組依存性を得ることができる。依存性パージング結果の標準的な表現は、
である。
本発明によれば、サーチエンジン315が、「確認文」検索結果を改良するための2つの方法のうちの1つまたは双方を利用する。1つの方法では、拡張索引付け用語を利用する。他の方法では、検索された確認文をランク付けするための、新しいランク付けアルゴリズムを利用する。
従来のIRアプローチを使用して、サーチエンジン315は、サーチのための索引付けユニットを定義するために、入力クエリの見出し語のみを使用して文ベース320をサーチする。「見出し語」とは、ステムとしても知られる、基本的な語尾変化のない形態の単語である。本発明に従って、文データベース320内の確認文のためのサーチを改良するために、以下の1つまたは複数が、見出し語、すなわち、(1)ことばの一部分(POS)を有する見出し語の単語、(2)句動詞、(3)3組依存性に加えて、索引付けユニットとして追加される。
サーチエンジン315が、たとえば前述の拡張索引付けユニット方法または他の方法を使用して、データベースからいくつかの確認文を検索した後、確認文は、文法上または構造上、最も入力クエリに類似する文を決定するために、ランク付けされる。次いで、出力325を使用して、1つまたは複数の確認文がユーザに表示され、最も高いランク付け(最も類似している)確認文が最初に提供されるか、または最も関連する確認文として表される。たとえば、ランク付けされた確認文は、図3に例が示されているように、番号付けされたリストとして表示できる。
Diは、i番目の確認文Di→(di1,di2,...,dim)のベクトル重み表示である(前述の式(Equation)1を参照のこと)。
Qjは、入力クエリQj→(Qj1,Qj2,...,Qjm)のベクトル重み表示である。
Liは、Diの文の長さである。
f(Li)は、文の長さ関数またはLiの関数である(たとえば、f(Li)=Li 2)。
Wjkは、用語qjkの言語重みである。
システム300においては、サーチエンジン315が、本発明のクエリ展開方法を使用してヒント文検索を改良する。クエリ展開方法400は、図5−2のブロック図に全体が示されている。クエリ展開方法は、文データベース320をサーチする際に使用する代替表現を提供する。
たとえば、
クエリ:I will take the job
Synset:take|accept|acquire|admit|aim|ask|...
3組データベース内の3組:accept〜Dobj〜job
残りの展開された用語:accept〜Dobj〜job
時々、ユーザが、第1言語の単語と第2言語の文法構造の混合文を使用して、クエリを入力することがある。たとえば、英語で書いている中国人のユーザが、一般に「中国語のような英語」と呼ばれるクエリを入力することがある。本発明のいくつかの実施形態では、サーチエンジン315が、ヒント文について文データベースをサーチする前に、ユーザの意図を見極めるよう設計されている。サーチエンジンは、2つの方法のうちのいずれかまたは双方を使用して、ユーザの意図を見極めることができる。
に翻訳される。次いで、480に示されステップ465に対応する、中国語のクエリは、元のクエリのコロケーション間違いを含まない英語のクエリ「Turn on the light」に翻訳し戻される。この方法は、ユーザの思考挙動を模倣するために使用されるが、これには、正確な翻訳コンポーネントが必要である。方法450では、翻訳品質が良くない場合には、余りにも多くのノイズを作成することがある。したがって、代わりに、図6−2に示されている方法500が使用できる。
翻訳の単語の対と元の単語の対が同じである任意の組の単語の対、すなわち、{翻訳の英語、元の英語}つまり(Eng',Eng}が、コンフュージョンセットで識別され、そこから除去される。翻訳の英語が元の英語と同じではない組は、コンフュージョンセットデータベース505内に残る。コンフュージョンセットはまた、テキストブック525に定義されているまたは混乱した単語の個人用集合530内に存在する、いくつかの代表的な混乱した単語の対を追加することによって展開できる。
サーチエンジン315はまた、図7に示されているように、クエリ翻訳を使用して文の検索を改良する。(655に示された)ユーザのクエリが与えられると、660に示されているように、鍵となる3組依存性が頑強なパーサで抽出される。次いで、665に示されているように、3組が1つずつ翻訳される。最後に、3組の翻訳のすべてが、サーチエンジン315により、クエリ用語として使用される。
さらに、
次いで、
図8は、本明細書に開示されているさまざまな確認文およびヒント文検索コンセプトを有するサーチエンジン315の一実施形態315−1を示すブロック図である。図8に示されているサーチエンジンの実施形態315−1は、前述のように、本明細書に開示されているさまざまな機能の組合せを利用して、確認文およびヒント文検索を改良するが、サーチエンジン315の他の実施形態では、これらの機能のうちのただ1つ、またはこれらの機能のさまざまな組合せを含む。したがって、本発明のサーチエンジンは、前述の機能のあらゆる組合せを含むものと理解されたい。
110 コンピュータ
120 処理ユニット
121 システムバス
130 システムメモリ
131 読取専用メモリ(ROM)
132 ランダムアクセスメモリ(RAM)
133 基本入出力システム
134 オペレーティングシステム
135 アプリケーションプログラム
136 他のプログラムモジュール
137 プログラムデータ
140、150、190 インターフェース
141 ハードディスクドライブ
144 オペレーティングシステム
145 アプリケーションプログラム
146 他のプログラムモジュール
147 プログラムデータ
151 磁気ディスクドライブ
152 取外し可能不揮発性磁気ディスク
155 光学ディスクドライブ
156 取外し可能な不揮発性光学ディスク
160 ユーザ入力インターフェース
161 ポインティングデバイス
162 キーボード
163 マイクロホン
171 ローカルエリアネットワーク(LAN)
172 モデム
173 ワイドエリアネットワーク(WAN)
180 リモートコンピュータ
185 リモートアプリケーションプログラム
191 モニタ
196 プリンタ
197 スピーカ
200 モバイルデバイス
202 マイクロプロセッサ
204 メモリ
206 入出力(I/O)コンポーネント
208 通信インターフェース
210 バス
212 オペレーティングシステム
214 アプリケーションプログラム
216 オブジェクト記憶装置
300 システム
305 入力
310 クエリ処理コンポーネント
315 サーチエンジン
320 文データベース
325 文出力コンポーネント
355 依存性パーサ
360 3組依存性データベース
505 コンフュージョンセットデータベース
510 バイリンガルコーパス
525 テキストブック
530 個人用集合
610 比較コンポーネント
715 クエリ翻訳モジュールまたはコンポーネント
720 分析コンポーネントまたはステップ
725 パーサ
730 用語
735 検索コンポーネント
740 ランク付けコンポーネントまたはステップ
745 ヒント文
750 展開コンポーネントまたはステップ
755 類語辞典
760 フィルタリングコンポーネントまたはステップ
765 展開された用語
Claims (73)
- クエリに応答して文データベースからの文をユーザに提供する方法であって、
前記クエリを受け取るステップと、
前記クエリに基づいて索引付けユニットを定義するステップであって、そこでは、前記索引付けユニットは、前記クエリからの見出し語と前記クエリに関連付けられた拡張索引付けユニットの双方を含むステップと、
サーチパラメータとして当該定義された索引付けユニットを使用して、前記文データベースから複数の文を検索するステップと、
当該複数の検索された文のそれぞれと前記クエリの間の類似度を決定するステップであって、そこでは、それぞれの類似度は、前記クエリ内の用語の言語重みに応じて決定されるステップと、
当該決定された類似度に基づいて、前記複数の検索された文をランク付けするステップと
を含むことを特徴とする方法。 - 前記クエリ内の用語の言語重みは、ことばのその部分に応じて、前記クエリ内の用語に割り当てられた重みであることを特徴とする請求項1に記載の方法。
- 前記複数の検索された文のそれぞれと前記クエリの間の類似度を決定するステップは、前記クエリ内の複数の用語の言語重みに応じて、それぞれの類似度を決定するステップをさらに含むことを特徴とする請求項2に記載の方法。
- 前記複数の検索された文のそれぞれと前記クエリの間の類似度を決定するステップは、前記クエリ内の複数の用語のそれぞれのベクトル重みと前記クエリ内の複数の用語のそれぞれの言語重みとに応じて、それぞれの類似度を決定するステップをさらに含むことを特徴とする請求項3に記載の方法。
- 前記クエリ内の複数の用語のそれぞれのベクトル重みは、前記クエリ内の各用語の発生頻度に応じて決定されることを特徴とする請求項4に記載の方法。
- 前記クエリ内の複数の用語のそれぞれのベクトル重みは、文データベース内の各用語の発生頻度に応じて決定されることを特徴とする請求項5に記載の方法。
- 前記複数の検索された文のそれぞれと前記クエリの間の類似度を決定するステップは、特定の文内の複数の用語のそれぞれのベクトル重みと、前記クエリ内の複数の用語のそれぞれのベクトル重みと、前記クエリ内の複数の用語のそれぞれの言語重みとに応じて、特定の検索された文についての類似度を決定するステップをさらに含むことを特徴とする請求項6に記載の方法。
- 前記特定の検索された文内の複数の用語のそれぞれのベクトル重みは、前記特定の検索された文内の各用語の発生頻度に応じて決定されることを特徴とする請求項7に記載の方法。
- 前記特定の検索された文内の複数の用語のそれぞれのベクトル重みは、文データベース内の各用語の発生頻度に応じて決定されることを特徴とする請求項8に記載の方法。
- 前記複数の検索された文のそれぞれと前記クエリの間の類似度を決定するステップは、前記クエリ内の複数の用語のベクトル重みと、前記特定の検索された文内の複数の用語のベクトル重みと、前記クエリ内の複数の用語のそれぞれの言語重みとの内積に応じて、前記特定の検索された文についての類似度を決定するステップをさらに含むことを特徴とする請求項9に記載の方法。
- それぞれの類似度が、前記複数の検索された文のうちの対応する1つの長さに対応する文の長さ関数に応じてさらに決定されることを特徴とする請求項1に記載の方法。
- 前記文の長さ関数は、前記複数の検索された文のうちの前記対応する1つの長さの関数であることを特徴とする請求項11に記載の方法。
- 前記文の長さ関数は、前記複数の検索された文のうちの前記対応する1つの長さの指数関数であることを特徴とする請求項12に記載の方法。
- 前記クエリに基づいて索引付けユニットを定義するステップは、
前記クエリからの前記見出し語とことばのそれらに対応する部分を有する前記クエリからの見出し語の双方を含むよう前記索引付けユニットを定義するステップをさらに含むことを特徴とする請求項1に記載の方法。 - 前記クエリに基づいて前記索引付けユニットを定義するステップは、
前記クエリからの見出し語と前記クエリからの句動詞の双方を含むように前記索引付けユニットを定義するステップをさらに含むことを特徴とする請求項1に記載の方法。 - 前記クエリに基づいて前記索引付けユニットを定義するステップは、
前記クエリからの見出し語と前記クエリに対応する3組依存性の双方を含むよう前記索引付けユニットを定義するステップをさらに含むことを特徴とする請求項1に記載の方法。 - 前記クエリに基づいて前記索引付けユニットを定義するステップは、
前記クエリからの見出し語と、ことばのそれらに対応する部分を有するクエリからの見出し語と、前記クエリからの句動詞と、前記クエリに対応する3組依存性とを含むように前記索引付けユニットを定義するステップをさらに含むことを特徴とする請求項1に記載の方法。 - クエリに応答して文データベースからの確認文をユーザに提供する方法であって、
前記クエリに応答して前記文データベースから複数の確認文を検索するステップと、
当該複数の検索された確認文のそれぞれと前記クエリの間の類似度を決定するステップであって、そこでは、それぞれの類似度が、前記クエリ内の用語の言語重みに応じて決定されるステップと、
当該決定された類似度に基づいて、前記複数の検索された確認文をランク付けするステップと
を含むことを特徴とする方法。 - 前記クエリ内の用語の言語重みは、ことばのその部分に応じて、前記クエリ内の用語に割り当てられた重みであることを特徴とする請求項18に記載の方法。
- 前記複数の検索された確認文のそれぞれと前記クエリの間の類似度を決定するステップは、前記クエリ内の複数の用語の言語重みに応じて、それぞれの類似度を決定するステップをさらに含むことを特徴とする請求項19に記載の方法。
- 前記複数の検索された確認文のそれぞれと前記クエリの間の類似度を決定するステップは、前記クエリ内の複数の用語のそれぞれのベクトル重みと前記クエリ内の複数の用語のそれぞれの言語重みとに応じて、それぞれの類似度を決定するステップをさらに含むことを特徴とする請求項20に記載の方法。
- 前記クエリ内の複数の用語のそれぞれのベクトル重みは、前記クエリ内の各用語の発生頻度に応じて決定されることを特徴とする請求項21に記載の方法。
- 前記クエリ内の複数の用語のそれぞれのベクトル重みは、前記文データベース内の各用語の発生頻度に応じて決定されることを特徴とする請求項22に記載の方法。
- 前記複数の検索された確認文のそれぞれと前記クエリの間の類似度を決定するステップは、特定の確認文内の複数の用語のそれぞれのベクトル重みと、前記クエリ内の複数の用語のそれぞれのベクトル重みと、前記クエリ内の複数の用語のそれぞれの言語重みとに応じて、前記特定の確認文についての類似度を決定するステップをさらに含むことを特徴とする請求項23に記載の方法。
- 前記特定の確認文内の複数の用語のそれぞれのベクトル重みは、前記特定の確認文内の各用語の発生頻度に応じて決定されることを特徴とする請求項24に記載の方法。
- 前記特定の確認文内の複数の用語のそれぞれのベクトル重みは、前記文データベース内の各用語の発生頻度に応じて決定されることを特徴とする請求項25に記載の方法。
- 前記複数の検索された確認文のそれぞれと前記クエリの間の類似度を決定するステップは、前記クエリ内の複数の用語のベクトル重みと、前記特定の確認文内の複数の用語のベクトル重みと、前記クエリ内の複数の用語のそれぞれの言語重みとの内積に応じて、前記特定の確認文についての類似度を決定するステップをさらに含むことを特徴とする請求項26に記載の方法。
- それぞれの類似度が、前記複数の確認文のうちの対応する1つの長さに対応する文の長さ関数に応じてさらに決定されることを特徴とする請求項18に記載の方法。
- 前記文の長さ関数は、前記複数の確認文のうちの対応する1つの長さの関数であることを特徴とする請求項28に記載の方法。
- 前記文の長さ関数は、前記複数の確認文のうちの対応する1つの長さの指数関数であることを特徴とする請求項29に記載の方法。
- 前記複数の確認文を検索するステップは、前記クエリから拡張索引付けユニットを決定するステップと、前記拡張索引付けユニットを検索語として使用して前記文データベースをサーチするステップとをさらに含むことを特徴とする請求項18に記載の方法。
- コンピュータ実行可能命令を有するコンピュータ読取り可能媒体であって、前記コンピュータ実行可能命令は、
クエリに応答して文データベースから複数の確認文を検索するステップと、
前記複数の検索された確認文のそれぞれと前記クエリの間の類似度を決定するステップであって、そこでは、それぞれの類似度が、前記クエリ内の用語の言語重みに応じて決定されるステップと、
当該決定された類似度に基づいて前記複数の検索された確認文をランク付けするステップと
を実行することを特徴とするコンピュータ読取り可能媒体。 - 前記クエリ内の用語の言語重みは、ことばのその部分に応じて、前記クエリ内の用語に割り当てられた重みであることを特徴とする請求項32に記載のコンピュータ読取り可能媒体。
- 前記複数の検索された確認文のそれぞれと前記クエリの間の類似度を決定するステップは、前記クエリ内の複数の用語の言語重みに応じて、それぞれの類似度を決定するステップをさらに含むことを特徴とする請求項33に記載のコンピュータ読取り可能媒体。
- 前記複数の検索された確認文のそれぞれと前記クエリの間の類似度を決定するステップは、前記クエリ内の複数の用語のそれぞれのベクトル重みと前記クエリ内の複数の用語のそれぞれの言語重みとに応じて、それぞれの類似度を決定するステップをさらに含むことを特徴とする請求項34に記載のコンピュータ読取り可能媒体。
- 前記クエリ内の複数の用語のそれぞれのベクトル重みが、前記クエリ内の各用語の発生頻度に応じて決定されることを特徴とする請求項35に記載のコンピュータ読取り可能媒体。
- 前記クエリ内の複数の用語のそれぞれのベクトル重みが、前記文データベース内の各用語の発生頻度に応じて決定されることを特徴とする請求項36に記載のコンピュータ読取り可能媒体。
- 前記複数の検索された確認文のそれぞれと前記クエリの間の類似度を決定するステップは、特定の確認文内の複数の用語のそれぞれのベクトル重みと、前記クエリ内の複数の用語のそれぞれのベクトル重みと、前記クエリ内の複数の用語のそれぞれの言語重みとに応じて、前記特定の確認文についての類似度を決定するステップをさらに含むことを特徴とする請求項37に記載のコンピュータ読取り可能媒体。
- 前記特定の確認文内の複数の用語のそれぞれのベクトル重みが、前記特定の確認文内の各用語の発生頻度に応じて決定されることを特徴とする請求項38に記載のコンピュータ読取り可能媒体。
- 前記特定の確認文内の複数の用語のそれぞれのベクトル重みが、前記文データベース内の各用語の発生頻度に応じて決定されることを特徴とする請求項39に記載のコンピュータ読取り可能媒体。
- 前記複数の検索された確認文のそれぞれと前記クエリの間の類似度を決定するステップは、前記クエリ内の複数の用語のベクトル重みと、前記特定の確認文内の複数の用語のベクトル重みと、前記クエリ内の複数の用語のそれぞれの言語重みとの内積に応じて、前記特定の確認文についての類似度を決定するステップをさらに含むことを特徴とする請求項40に記載のコンピュータ読取り可能媒体。
- それぞれの類似度が、前記複数の確認文のうちの対応する1つの長さに対応する文の長さ関数に応じてさらに決定されることを特徴とする請求項32に記載のコンピュータ読取り可能媒体。
- 前記文の長さ関数は、前記複数の確認文のうちの前記対応する1つの長さの関数であることを特徴とする請求項42に記載のコンピュータ読取り可能媒体。
- 前記文の長さ関数は、前記複数の確認文のうちの前記対応する1つの長さの指数関数であることを特徴とする請求項43に記載のコンピュータ読取り可能媒体。
- 前記複数の確認文を検索するステップは、前記クエリから拡張索引付けユニットを決定するステップと、前記拡張索引付けユニットを検索語として使用して前記文データベースをサーチするステップとをさらに含むことを特徴とする請求項32に記載のコンピュータ読取り可能媒体。
- クエリに応答して文データベースから確認文を検索するためのシステムであって、
前記クエリを入力として受け取る入力コンポーネントと、
前記入力コンポーネントに結合されたサーチエンジンとを備え、
前記サーチエンジンは、
前記クエリに応答して、前記文データベースから複数の確認文を検索するよう構成された検索コンポーネントと、
当該検索された複数の確認文のそれぞれと前記クエリの間の類似度を決定するように構成されたランク付けコンポーネントであって、そこでは、それぞれの類似度が、前記クエリ内の用語の言語重みに応じて決定され、前記ランク付けコンポーネントが、当該決定された類似度に基づいて前記複数の検索された確認文をランク付けするように構成されたランク付けコンポーネントと
を有することを特徴とするシステム。 - 前記クエリ内の用語の言語重みは、ことばのその部分に応じて、前記クエリ内の用語に割り当てられた重みであることを特徴とする請求項46に記載のシステム。
- 前記ランク付けコンポーネントが、前記クエリ内の複数の用語の言語重みに応じてそれぞれの類似度を決定することにより、前記複数の検索された確認文のそれぞれと前記クエリの間の類似度を決定するよう構成されることを特徴とする請求項47に記載のシステム。
- 前記ランク付けコンポーネントが、特定の確認文内の複数の用語のそれぞれのベクトル重みと、前記クエリ内の複数の用語のそれぞれのベクトル重みと、前記クエリ内の複数の用語のそれぞれの言語重みとに応じて、前記特定の検索された確認文と前記クエリの間の類似度を決定するよう構成されることを特徴とする請求項48に記載のシステム。
- 前記特定の確認文内の複数の用語のまたは前記クエリの前記複数の用語のそれぞれのベクトル重みは、前記特定の確認文内または前記クエリ内の各用語の発生頻度の関数であることを特徴とする請求項49に記載のシステム。
- 前記特定の確認文内の複数の用語のまたは前記クエリの前記複数の用語のそれぞれのベクトル重みは、前記文データベース内の各用語の発生頻度の関数であることを特徴とする請求項50に記載のシステム。
- 前記ランク付けコンポーネントが、前記複数の確認文のうちの対応する1つの長さに対応する文の長さ関数に応じて、それぞれの類似度を決定するようさらに構成されることを特徴とする請求項46に記載のシステム。
- 前記ランク付けコンポーネントが、前記複数の確認文のうちの前記対応する1つの長さの指数関数に応じて、それぞれの類似度を決定するようさらに構成されることを特徴とする請求項52に記載のシステム。
- 前記クエリからの拡張索引付けユニットを決定し、および、前記拡張索引付けユニットを検索語として使用して前記文データベースをサーチすることにより、前記検索コンポーネントが、前記複数の確認文を検索するように構成されることを特徴とする請求項53に記載のシステム。
- クエリに応答して文データベースからの文をユーザに提供する方法であって、
前記クエリを受け取るステップと、
前記クエリに基づいて索引付けユニットを定義するステップであって、そこでは、前記索引付けユニットは、前記クエリからの見出し語と前記クエリに関連付けられた拡張索引付けユニットの双方を含むステップと、
サーチパラメータとして当該定義された索引付けユニットを使用して、前記文データベースから少なくとも1つの文を検索するステップと
を含むことを特徴とする方法。 - 前記クエリに基づいて前記索引付けユニットを定義するステップは、
前記クエリからの見出し語とことばのそれらに対応する部分を有する前記クエリからの見出し語の双方を含むように前記索引付けユニットを定義するステップをさらに含むことを特徴とする請求項55に記載の方法。 - 前記クエリに基づいて前記索引付けユニットを定義するステップは、
前記クエリからの見出し語と前記クエリからの句動詞の双方を含むよう前記索引付けユニットを定義するステップをさらに含むことを特徴とする請求項55に記載の方法。 - 前記クエリに基づいて前記索引付けユニットを定義するステップは、
前記クエリからの見出し語と前記クエリに対応する3組依存性の双方を含むよう前記索引付けユニットを定義するステップをさらに含むことを特徴とする請求項55に記載の方法。 - 前記クエリに基づいて前記索引付けユニットを定義するステップは、
前記クエリからの見出し語と、ことばのそれらに対応する部分を有する前記クエリからの見出し語と、前記クエリからの句動詞と、前記クエリに対応する3組依存性とを含むよう前記索引付けユニットを定義するステップをさらに含むことを特徴とする請求項55に記載の方法。 - 前記サーチパラメータとして定義された索引付けユニットを使用して、前記文データベースから少なくとも1つの文を検索するステップは、
前記サーチパラメータとして定義された索引付けユニットを使用して、前記文データベースから複数の確認文を検索するステップをさらに含むことを特徴とする請求項55に記載の方法。 - 前記複数の検索された確認文のそれぞれと前記クエリの間の類似度を決定するステップであって、そこでは、それぞれの類似度が、前記クエリ内の用語の言語重みに応じて決定され、
当該決定された類似度に基づいて、前記複数の検索された確認文をランク付けするステップをさらに含むことを特徴とする請求項60に記載の方法。 - コンピュータ実行可能命令を有するコンピュータ読取り可能媒体であって、前記コンピュータ事項可能命令は、
クエリを受け取るステップと、
前記クエリに基づいて索引付けユニットを定義するステップであって、そこでは、前記索引付けユニットは、前記クエリからの見出し語と前記クエリに関連付けられた拡張索引付けユニットの双方を含むステップと、
サーチパラメータとして当該定義された索引付けユニットを使用して、文データベースから少なくとも1つの文を検索するステップと
を実行することを特徴とするコンピュータ読取り可能媒体。 - 前記クエリに基づいて前記索引付けユニットを定義する前記ステップは、
前記クエリからの見出し語とことばのそれらに対応する部分を有する前記クエリからの見出し語の双方を含むよう前記索引付けユニットを定義するステップをさらに含むことを特徴とする請求項62に記載のコンピュータ読取り可能媒体。 - 前記クエリに基づいて前記索引付けユニットを定義する前記ステップは、前記クエリからの見出し語と前記クエリからの句動詞の双方を含むよう前記索引付けユニットを定義するステップをさらに含むことを特徴とする請求項62に記載のコンピュータ読取り可能媒体。
- 前記クエリに基づいて前記索引付けユニットを定義する前記ステップは、前記クエリからの見出し語と前記クエリに対応する3組依存性の双方を含むよう前記索引付けユニットを定義するステップをさらに含むことを特徴とする請求項62に記載のコンピュータ読取り可能媒体。
- 前記クエリに基づいて前記索引付けユニットを定義する前記ステップは、前記クエリからの見出し語と、ことばのそれらに対応する部分を有する前記クエリからの見出し語と、前記クエリからの句動詞と、前記クエリに対応する3組依存性とを含むよう前記索引付けユニットを定義するステップをさらに含むことを特徴とする請求項62に記載のコンピュータ読取り可能媒体。
- サーチパラメータとして前記定義された索引付けユニットを使用して、前記文データベースから少なくとも1つの文を検索する前記ステップは、サーチパラメータとして前記定義された索引付けユニットを使用して、前記文データベースから複数の確認文を検索するステップをさらに含むことを特徴とする請求項62に記載のコンピュータ読取り可能媒体。
- クエリに応答して文データベースから確認文を検索するためのシステムであって、
前記クエリを入力として受け取る入力コンポーネントと、
前記入力コンポーネントに結合されたサーチエンジンであって、前記クエリに基づいて索引付けユニットを定義するよう構成され、前記索引付けユニットは、前記クエリからの見出し語と前記クエリに関連付けられた拡張索引付けユニットの双方を含み、前記サーチエンジンは、サーチパラメータとして前記定義された索引付けユニットを使用して、前記文データベースから少なくとも1つの確認文を検索するサーチエンジンと
を有することを特徴とするシステム。 - 前記サーチエンジンが、前記クエリからの見出し語とことばのそれらに対応する部分を有する前記クエリからの見出し語の双方を含むよう前記索引付けユニットを定義するよう構成されることを特徴とする請求項68に記載のシステム。
- 前記サーチエンジンが、前記クエリからの見出し語と前記クエリからの句動詞の双方を含むよう前記索引付けユニットを定義するよう構成されることを特徴とする請求項68に記載のシステム。
- 前記サーチエンジンが、前記クエリからの見出し語と前記クエリに対応する3組依存性の双方を含むよう前記索引付けユニットを定義するよう構成されることを特徴とする請求項68に記載のシステム。
- 前記サーチエンジンは、前記クエリからの見出し語と、ことばのそれらに対応する部分を有する前記クエリからの見出し語と、前記クエリからの句動詞と、前記クエリに対応する3組依存性とを含むよう前記索引付けユニットを定義するよう構成されることを特徴とする請求項68に記載のシステム。
- 前記サーチエンジンは、サーチパラメータとして前記定義された索引付けユニットを使用して、前記文データベースから複数の確認文を検索し、前記サーチエンジンが、前記複数の検索された確認文のそれぞれと前記クエリの間の類似度を決定するようさらに構成され、それぞれの類似度が、前記クエリ内の用語の言語重みに応じて決定され、前記サーチエンジンは、前記決定された類似度に基づいて前記複数の検索された確認文をランク付けすることを特徴とする請求項72に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/247,596 US7194455B2 (en) | 2002-09-19 | 2002-09-19 | Method and system for retrieving confirming sentences |
US10/247,596 | 2002-09-19 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004110835A true JP2004110835A (ja) | 2004-04-08 |
JP2004110835A5 JP2004110835A5 (ja) | 2006-11-02 |
JP4974445B2 JP4974445B2 (ja) | 2012-07-11 |
Family
ID=31946440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003328738A Expired - Fee Related JP4974445B2 (ja) | 2002-09-19 | 2003-09-19 | 確認文を提供する方法およびシステム |
Country Status (9)
Country | Link |
---|---|
US (2) | US7194455B2 (ja) |
EP (1) | EP1400901A3 (ja) |
JP (1) | JP4974445B2 (ja) |
KR (1) | KR101004515B1 (ja) |
CN (1) | CN100507903C (ja) |
AU (1) | AU2003243989A1 (ja) |
BR (1) | BR0304150A (ja) |
CA (1) | CA2441448A1 (ja) |
RU (1) | RU2003128061A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008547093A (ja) * | 2005-06-14 | 2008-12-25 | マイクロソフト コーポレーション | モノリンガルコーポラおよび使用可能なバイリンガルコーポラからのコロケーション翻訳 |
JP2012506596A (ja) * | 2008-10-21 | 2012-03-15 | マイクロソフト コーポレーション | コンパラブルコーパスを使用する固有表現の翻字 |
KR101137147B1 (ko) | 2004-09-30 | 2012-04-19 | 마이크로소프트 코포레이션 | 질의 강제 인덱싱 |
JP2016091269A (ja) * | 2014-11-04 | 2016-05-23 | 株式会社東芝 | 外国語文作成支援装置、方法及びプログラム |
Families Citing this family (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7027987B1 (en) * | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
US8380491B2 (en) * | 2002-04-19 | 2013-02-19 | Educational Testing Service | System for rating constructed responses based on concepts and a model answer |
US7171351B2 (en) * | 2002-09-19 | 2007-01-30 | Microsoft Corporation | Method and system for retrieving hint sentences using expanded queries |
US7293015B2 (en) * | 2002-09-19 | 2007-11-06 | Microsoft Corporation | Method and system for detecting user intentions in retrieval of hint sentences |
US7194455B2 (en) * | 2002-09-19 | 2007-03-20 | Microsoft Corporation | Method and system for retrieving confirming sentences |
US7174346B1 (en) * | 2003-07-31 | 2007-02-06 | Google, Inc. | System and method for searching an extended database |
US20050125218A1 (en) * | 2003-12-04 | 2005-06-09 | Nitendra Rajput | Language modelling for mixed language expressions |
US8296126B2 (en) * | 2004-02-25 | 2012-10-23 | Research In Motion Limited | System and method for multi-lingual translation |
US7693825B2 (en) * | 2004-03-31 | 2010-04-06 | Google Inc. | Systems and methods for ranking implicit search results |
US7707142B1 (en) | 2004-03-31 | 2010-04-27 | Google Inc. | Methods and systems for performing an offline search |
US8041713B2 (en) | 2004-03-31 | 2011-10-18 | Google Inc. | Systems and methods for analyzing boilerplate |
US9009153B2 (en) | 2004-03-31 | 2015-04-14 | Google Inc. | Systems and methods for identifying a named entity |
US8631001B2 (en) * | 2004-03-31 | 2014-01-14 | Google Inc. | Systems and methods for weighting a search query result |
US20080040315A1 (en) * | 2004-03-31 | 2008-02-14 | Auerbach David B | Systems and methods for generating a user interface |
US7272601B1 (en) * | 2004-03-31 | 2007-09-18 | Google Inc. | Systems and methods for associating a keyword with a user interface area |
US7664734B2 (en) * | 2004-03-31 | 2010-02-16 | Google Inc. | Systems and methods for generating multiple implicit search queries |
US20050256700A1 (en) * | 2004-05-11 | 2005-11-17 | Moldovan Dan I | Natural language question answering system and method utilizing a logic prover |
BE1016079A6 (nl) * | 2004-06-17 | 2006-02-07 | Vartec Nv | Werkwijze voor het indexeren en terugvinden van documenten, computerprogramma daarbij toegepast en informatiedrager die is voorzien van het voornoemde computerprogramma. |
US8131754B1 (en) | 2004-06-30 | 2012-03-06 | Google Inc. | Systems and methods for determining an article association measure |
US7788274B1 (en) | 2004-06-30 | 2010-08-31 | Google Inc. | Systems and methods for category-based search |
US20060224566A1 (en) * | 2005-03-31 | 2006-10-05 | Flowers John S | Natural language based search engine and methods of use therefor |
US7447683B2 (en) * | 2005-03-31 | 2008-11-04 | Jiles, Inc. | Natural language based search engine and methods of use therefor |
US7555475B2 (en) * | 2005-03-31 | 2009-06-30 | Jiles, Inc. | Natural language based search engine for handling pronouns and methods of use therefor |
US20060224569A1 (en) * | 2005-03-31 | 2006-10-05 | Desanto John A | Natural language based search engine and methods of use therefor |
US20060287910A1 (en) * | 2005-06-21 | 2006-12-21 | Kuchar Olga A | Scenario analysis methods, scenario analysis devices, articles of manufacture, and data signals |
DE102005030965B4 (de) * | 2005-06-30 | 2007-07-19 | Daimlerchrysler Ag | Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments |
US7689411B2 (en) * | 2005-07-01 | 2010-03-30 | Xerox Corporation | Concept matching |
US7809551B2 (en) * | 2005-07-01 | 2010-10-05 | Xerox Corporation | Concept matching system |
CN101030197A (zh) * | 2006-02-28 | 2007-09-05 | 株式会社东芝 | 双语词对齐方法和装置、训练双语词对齐模型的方法和装置 |
KR100816912B1 (ko) * | 2006-04-13 | 2008-03-26 | 엘지전자 주식회사 | 문서검색 시스템 및 그 방법 |
US8706470B2 (en) * | 2006-05-08 | 2014-04-22 | David T. Lorenzen | Methods of offering guidance on common language usage utilizing a hashing function consisting of a hash triplet |
US20080168049A1 (en) * | 2007-01-08 | 2008-07-10 | Microsoft Corporation | Automatic acquisition of a parallel corpus from a network |
US8051061B2 (en) * | 2007-07-20 | 2011-11-01 | Microsoft Corporation | Cross-lingual query suggestion |
US20090077180A1 (en) * | 2007-09-14 | 2009-03-19 | Flowers John S | Novel systems and methods for transmitting syntactically accurate messages over a network |
US9754022B2 (en) * | 2007-10-30 | 2017-09-05 | At&T Intellectual Property I, L.P. | System and method for language sensitive contextual searching |
KR100903599B1 (ko) * | 2007-11-22 | 2009-06-18 | 한국전자통신연구원 | 내적을 이용한 암호화된 데이터 검색 방법 및 이를 위한단말 장치와 서버 |
US20090150141A1 (en) * | 2007-12-07 | 2009-06-11 | David Scott Wible | Method and system for learning second or foreign languages |
US7917488B2 (en) * | 2008-03-03 | 2011-03-29 | Microsoft Corporation | Cross-lingual search re-ranking |
US8521516B2 (en) * | 2008-03-26 | 2013-08-27 | Google Inc. | Linguistic key normalization |
US8332394B2 (en) * | 2008-05-23 | 2012-12-11 | International Business Machines Corporation | System and method for providing question and answers with deferred type evaluation |
US8275803B2 (en) | 2008-05-14 | 2012-09-25 | International Business Machines Corporation | System and method for providing answers to questions |
KR101224660B1 (ko) * | 2008-07-09 | 2013-01-21 | 고려대학교 산학협력단 | 유사 문장 검색 장치, 검색 방법, 저장 매체, 자동 대화서비스 시스템 및 서비스 방법 |
US8484014B2 (en) * | 2008-11-03 | 2013-07-09 | Microsoft Corporation | Retrieval using a generalized sentence collocation |
US8463806B2 (en) | 2009-01-30 | 2013-06-11 | Lexisnexis | Methods and systems for creating and using an adaptive thesaurus |
US20100299132A1 (en) * | 2009-05-22 | 2010-11-25 | Microsoft Corporation | Mining phrase pairs from an unstructured resource |
EP2400400A1 (en) * | 2010-06-22 | 2011-12-28 | Inbenta Professional Services, S.L. | Semantic search engine using lexical functions and meaning-text criteria |
US10002608B2 (en) * | 2010-09-17 | 2018-06-19 | Nuance Communications, Inc. | System and method for using prosody for voice-enabled search |
US8401853B2 (en) | 2010-09-22 | 2013-03-19 | At&T Intellectual Property I, L.P. | System and method for enhancing voice-enabled search based on automated demographic identification |
US8892550B2 (en) | 2010-09-24 | 2014-11-18 | International Business Machines Corporation | Source expansion for information retrieval and information extraction |
JP5858456B2 (ja) * | 2011-01-21 | 2016-02-10 | 国立研究開発法人情報通信研究機構 | 情報検索サービス提供装置及びコンピュータプログラム |
TWI480742B (zh) * | 2011-03-18 | 2015-04-11 | Ind Tech Res Inst | 基於動態語言模型之推薦方法與推薦系統 |
KR101109508B1 (ko) * | 2011-04-04 | 2012-01-31 | 신성산건 주식회사 | 미관을 향상시킨 디자인 방음벽 |
US10198506B2 (en) * | 2011-07-11 | 2019-02-05 | Lexxe Pty Ltd. | System and method of sentiment data generation |
US8661049B2 (en) * | 2012-07-09 | 2014-02-25 | ZenDesk, Inc. | Weight-based stemming for improving search quality |
US10614725B2 (en) | 2012-09-11 | 2020-04-07 | International Business Machines Corporation | Generating secondary questions in an introspective question answering system |
WO2014040263A1 (en) * | 2012-09-14 | 2014-03-20 | Microsoft Corporation | Semantic ranking using a forward index |
US20140350931A1 (en) * | 2013-05-24 | 2014-11-27 | Microsoft Corporation | Language model trained using predicted queries from statistical machine translation |
US11227113B2 (en) * | 2016-01-20 | 2022-01-18 | International Business Machines Corporation | Precision batch interaction with a question answering system |
CN107085568B (zh) * | 2017-03-29 | 2022-11-22 | 腾讯科技(深圳)有限公司 | 一种文本相似度判别方法及装置 |
CN107123318B (zh) * | 2017-03-30 | 2020-05-08 | 河南工学院 | 一种基于输入法装置的外文写作学习系统 |
US10241716B2 (en) | 2017-06-30 | 2019-03-26 | Microsoft Technology Licensing, Llc | Global occupancy aggregator for global garbage collection scheduling |
CN107731230A (zh) * | 2017-11-10 | 2018-02-23 | 北京联华博创科技有限公司 | 一种庭审笔录系统及方法 |
CN108052686B (zh) * | 2018-01-26 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 一种摘要提取方法及相关设备 |
CN109740161B (zh) * | 2019-01-08 | 2023-06-20 | 北京百度网讯科技有限公司 | 数据泛化方法、装置、设备和介质 |
US11397776B2 (en) | 2019-01-31 | 2022-07-26 | At&T Intellectual Property I, L.P. | Systems and methods for automated information retrieval |
CN110008312A (zh) * | 2019-04-10 | 2019-07-12 | 成都信息工程大学 | 一种文档写作助手实现方法、系统及电子设备 |
CN111078849B (zh) * | 2019-12-02 | 2023-07-25 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
EP4220474A1 (en) * | 2019-12-18 | 2023-08-02 | Fujitsu Limited | Information processing program, information processing method, and information processing device |
KR102535852B1 (ko) * | 2020-06-04 | 2023-05-24 | 동국대학교 산학협력단 | Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치 |
US20230325424A1 (en) * | 2022-04-08 | 2023-10-12 | Language Logic, Llc | Systems and methods for generating codes and code books based using cosine proximity |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08278794A (ja) * | 1995-04-07 | 1996-10-22 | Sony Corp | 音声認識装置および音声認識方法並びに音声翻訳装置 |
JPH09293078A (ja) * | 1996-04-17 | 1997-11-11 | Internatl Business Mach Corp <Ibm> | 情報検索方法、情報検索装置及び情報検索プログラムを格納する記憶媒体 |
JPH1031676A (ja) * | 1996-07-16 | 1998-02-03 | Sharp Corp | 対訳例文検索装置 |
JP2001117939A (ja) * | 1999-10-20 | 2001-04-27 | Just Syst Corp | クエリ出力装置、文献検索システム、クエリ出力方法、文献検索方法、並びに、記録媒体 |
JP2001243230A (ja) * | 2000-02-25 | 2001-09-07 | Nippon Telegr & Teleph Corp <Ntt> | 類似性判別方法 |
JP2001357065A (ja) * | 2000-06-14 | 2001-12-26 | Nippon Telegr & Teleph Corp <Ntt> | 類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体 |
JP2002014999A (ja) * | 2000-06-28 | 2002-01-18 | Matsushita Electric Ind Co Ltd | 類似文書検索装置及び関連キーワード抽出装置 |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3956230A (en) * | 1968-02-01 | 1976-05-11 | Champion International Corporation | Compatibilization of hydroxyl-containing fillers and thermoplastic polymers |
US4187210A (en) * | 1973-12-14 | 1980-02-05 | E. I. Du Pont De Nemours And Company | Homogeneous, highly-filled, polyolefin composites |
US4661537A (en) * | 1985-07-11 | 1987-04-28 | Union Carbide Corporation | Impact promoters for mineral-filled thermoplastics |
EP0366142B1 (en) * | 1988-10-28 | 1997-08-06 | Kabushiki Kaisha Toshiba | Method and apparatus of machine translation |
NL8900247A (nl) | 1989-02-01 | 1990-09-03 | Bso Buro Voor Systeemontwikkel | Werkwijze en stelsel voor het weergeven van meervoudige analyses in een afhankelijkheidsgrammatica, alsmede ontleed-inrichting voor het genereren van een dergelijke weergave. |
JP3090942B2 (ja) | 1990-11-02 | 2000-09-25 | 三菱化学株式会社 | 冷蔵庫内箱用熱可塑性樹脂組成物及びそれを成形して得られた冷蔵庫内箱 |
US5528491A (en) * | 1992-08-31 | 1996-06-18 | Language Engineering Corporation | Apparatus and method for automated natural language translation |
US6278967B1 (en) * | 1992-08-31 | 2001-08-21 | Logovista Corporation | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis |
GB2279164A (en) * | 1993-06-18 | 1994-12-21 | Canon Res Ct Europe Ltd | Processing a bilingual database. |
JP2855409B2 (ja) | 1994-11-17 | 1999-02-10 | 日本アイ・ビー・エム株式会社 | 自然言語処理方法及びシステム |
US5642502A (en) * | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
JPH08254206A (ja) | 1995-03-17 | 1996-10-01 | Fujitsu Ten Ltd | ブラケット構造 |
US5963940A (en) * | 1995-08-16 | 1999-10-05 | Syracuse University | Natural language information retrieval system and method |
SG49804A1 (en) * | 1996-03-20 | 1998-06-15 | Government Of Singapore Repres | Parsing and translating natural language sentences automatically |
JPH10105555A (ja) * | 1996-09-26 | 1998-04-24 | Sharp Corp | 対訳例文検索装置 |
US5946376A (en) * | 1996-11-05 | 1999-08-31 | Ericsson, Inc. | Cellular telephone including language translation feature |
US6076051A (en) * | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
US6233545B1 (en) * | 1997-05-01 | 2001-05-15 | William E. Datig | Universal machine translator of arbitrary languages utilizing epistemic moments |
US5933822A (en) | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
US6081774A (en) | 1997-08-22 | 2000-06-27 | Novell, Inc. | Natural language information retrieval system and method |
KR980004126A (ko) | 1997-12-16 | 1998-03-30 | 양승택 | 다국어 웹 문서 검색을 위한 질의어 변환 장치 및 방법 |
AU4126899A (en) * | 1998-06-08 | 1999-12-30 | Kaufman Consulting Services Ltd. | Method and system for retrieving relevant documents from a database |
JP3114703B2 (ja) | 1998-07-02 | 2000-12-04 | 富士ゼロックス株式会社 | 対訳文検索装置 |
US6408294B1 (en) * | 1999-03-31 | 2002-06-18 | Verizon Laboratories Inc. | Common term optimization |
KR20010004404A (ko) * | 1999-06-28 | 2001-01-15 | 정선종 | 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법 |
US6654950B1 (en) * | 1999-08-24 | 2003-11-25 | Bae Systems Mission Solutions Inc. | Software rehosting system and method |
US6766287B1 (en) * | 1999-12-15 | 2004-07-20 | Xerox Corporation | System for genre-specific summarization of documents |
US6473729B1 (en) | 1999-12-20 | 2002-10-29 | Xerox Corporation | Word phrase translation using a phrase index |
CN1174332C (zh) | 2000-03-10 | 2004-11-03 | 松下电器产业株式会社 | 转换表达方式的方法和装置 |
JP2001273299A (ja) | 2000-03-24 | 2001-10-05 | Toshiba Corp | 検索装置 |
US7107204B1 (en) | 2000-04-24 | 2006-09-12 | Microsoft Corporation | Computer-aided writing system and method with cross-language writing wizard |
US6687689B1 (en) * | 2000-06-16 | 2004-02-03 | Nusuara Technologies Sdn. Bhd. | System and methods for document retrieval using natural language-based queries |
US6622123B1 (en) | 2000-06-23 | 2003-09-16 | Xerox Corporation | Interactive translation system and method |
US20040059654A1 (en) * | 2000-07-07 | 2004-03-25 | Hans Schroder | Method and system for processing and display of variables in a user generated network diagram representing a balanced system |
US6810376B1 (en) * | 2000-07-11 | 2004-10-26 | Nusuara Technologies Sdn Bhd | System and methods for determining semantic similarity of sentences |
WO2002054265A1 (en) | 2001-01-02 | 2002-07-11 | Julius Cherny | Document storage, retrieval, and search systems and methods |
US7146308B2 (en) * | 2001-04-05 | 2006-12-05 | Dekang Lin | Discovery of inference rules from text |
US6778979B2 (en) * | 2001-08-13 | 2004-08-17 | Xerox Corporation | System for automatically generating queries |
KR100453227B1 (ko) * | 2001-12-28 | 2004-10-15 | 한국전자통신연구원 | 번역 지원 시스템에서의 유사 문장 검색 방법 |
US7003516B2 (en) * | 2002-07-03 | 2006-02-21 | Word Data Corp. | Text representation and method |
US7024408B2 (en) * | 2002-07-03 | 2006-04-04 | Word Data Corp. | Text-classification code, system and method |
US7181451B2 (en) * | 2002-07-03 | 2007-02-20 | Word Data Corp. | Processing input text to generate the selectivity value of a word or word group in a library of texts in a field is related to the frequency of occurrence of that word or word group in library |
US7194455B2 (en) * | 2002-09-19 | 2007-03-20 | Microsoft Corporation | Method and system for retrieving confirming sentences |
US7171351B2 (en) * | 2002-09-19 | 2007-01-30 | Microsoft Corporation | Method and system for retrieving hint sentences using expanded queries |
US7293015B2 (en) * | 2002-09-19 | 2007-11-06 | Microsoft Corporation | Method and system for detecting user intentions in retrieval of hint sentences |
-
2002
- 2002-09-19 US US10/247,596 patent/US7194455B2/en not_active Expired - Lifetime
-
2003
- 2003-08-29 AU AU2003243989A patent/AU2003243989A1/en not_active Abandoned
- 2003-08-29 EP EP03019758A patent/EP1400901A3/en not_active Ceased
- 2003-09-16 BR BR0304150-6A patent/BR0304150A/pt not_active IP Right Cessation
- 2003-09-18 CA CA002441448A patent/CA2441448A1/en not_active Abandoned
- 2003-09-18 RU RU2003128061/09A patent/RU2003128061A/ru not_active Application Discontinuation
- 2003-09-19 CN CNB031249892A patent/CN100507903C/zh not_active Expired - Fee Related
- 2003-09-19 KR KR1020030065039A patent/KR101004515B1/ko active IP Right Grant
- 2003-09-19 JP JP2003328738A patent/JP4974445B2/ja not_active Expired - Fee Related
-
2005
- 2005-07-22 US US11/187,567 patent/US7974963B2/en not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08278794A (ja) * | 1995-04-07 | 1996-10-22 | Sony Corp | 音声認識装置および音声認識方法並びに音声翻訳装置 |
JPH09293078A (ja) * | 1996-04-17 | 1997-11-11 | Internatl Business Mach Corp <Ibm> | 情報検索方法、情報検索装置及び情報検索プログラムを格納する記憶媒体 |
JPH1031676A (ja) * | 1996-07-16 | 1998-02-03 | Sharp Corp | 対訳例文検索装置 |
JP2001117939A (ja) * | 1999-10-20 | 2001-04-27 | Just Syst Corp | クエリ出力装置、文献検索システム、クエリ出力方法、文献検索方法、並びに、記録媒体 |
JP2001243230A (ja) * | 2000-02-25 | 2001-09-07 | Nippon Telegr & Teleph Corp <Ntt> | 類似性判別方法 |
JP2001357065A (ja) * | 2000-06-14 | 2001-12-26 | Nippon Telegr & Teleph Corp <Ntt> | 類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体 |
JP2002014999A (ja) * | 2000-06-28 | 2002-01-18 | Matsushita Electric Ind Co Ltd | 類似文書検索装置及び関連キーワード抽出装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101137147B1 (ko) | 2004-09-30 | 2012-04-19 | 마이크로소프트 코포레이션 | 질의 강제 인덱싱 |
JP2008547093A (ja) * | 2005-06-14 | 2008-12-25 | マイクロソフト コーポレーション | モノリンガルコーポラおよび使用可能なバイリンガルコーポラからのコロケーション翻訳 |
JP2012506596A (ja) * | 2008-10-21 | 2012-03-15 | マイクロソフト コーポレーション | コンパラブルコーパスを使用する固有表現の翻字 |
JP2016091269A (ja) * | 2014-11-04 | 2016-05-23 | 株式会社東芝 | 外国語文作成支援装置、方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP1400901A2 (en) | 2004-03-24 |
KR101004515B1 (ko) | 2010-12-31 |
AU2003243989A1 (en) | 2004-04-08 |
RU2003128061A (ru) | 2005-03-10 |
EP1400901A3 (en) | 2004-06-30 |
JP4974445B2 (ja) | 2012-07-11 |
US20040059718A1 (en) | 2004-03-25 |
BR0304150A (pt) | 2004-09-08 |
US7194455B2 (en) | 2007-03-20 |
US7974963B2 (en) | 2011-07-05 |
CN1490744A (zh) | 2004-04-21 |
CN100507903C (zh) | 2009-07-01 |
US20050273318A1 (en) | 2005-12-08 |
KR20040025642A (ko) | 2004-03-24 |
CA2441448A1 (en) | 2004-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4974445B2 (ja) | 確認文を提供する方法およびシステム | |
US7293015B2 (en) | Method and system for detecting user intentions in retrieval of hint sentences | |
US7171351B2 (en) | Method and system for retrieving hint sentences using expanded queries | |
US7797303B2 (en) | Natural language processing for developing queries | |
JP4694121B2 (ja) | 句の間の翻訳関係を学習するための統計的な方法および装置 | |
US7356457B2 (en) | Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words | |
JP3114181B2 (ja) | 異言語交信用翻訳方法およびシステム | |
JP4237001B2 (ja) | 文書のコロケーション誤りを自動的に検出するシステムおよび方法 | |
US7243305B2 (en) | Spelling and grammar checking system | |
US7228269B2 (en) | Computer-aided reading system and method with cross-language reading wizard | |
JP4173774B2 (ja) | 重み付き編集距離に基づく例文の自動検索用システムおよび方法 | |
US20150199339A1 (en) | Semantic refining of cross-lingual information retrieval results | |
US20030023422A1 (en) | Scaleable machine translation system | |
US20060235689A1 (en) | Question answering system, data search method, and computer program | |
TW201314476A (zh) | 基於本體之自動自助式使用者支援 | |
JP2008547093A (ja) | モノリンガルコーポラおよび使用可能なバイリンガルコーポラからのコロケーション翻訳 | |
Srinivas et al. | An approach to robust partial parsing and evaluation metrics | |
US20210263915A1 (en) | Search Text Generation System and Search Text Generation Method | |
JPH0855123A (ja) | イディオム登録機能を有する機械翻訳装置 | |
Liu et al. | PENS: A machine-aided English writing system for Chinese users | |
JP3682915B2 (ja) | 自然文マッチング装置、自然文マッチング方法、及び自然文マッチングプログラム | |
KR950013129B1 (ko) | 기계번역장치 및 방법 | |
JP2839419B2 (ja) | イディオム登録機能を持つ機械翻訳装置 | |
JPH1115846A (ja) | 情報検索装置および記録媒体 | |
JPH0973454A (ja) | 文書作成装置及び文書作成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060919 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060919 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091002 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100603 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100618 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20101019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20101019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120307 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120410 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4974445 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150420 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |