JP2004280259A - 検索装置 - Google Patents
検索装置 Download PDFInfo
- Publication number
- JP2004280259A JP2004280259A JP2003068185A JP2003068185A JP2004280259A JP 2004280259 A JP2004280259 A JP 2004280259A JP 2003068185 A JP2003068185 A JP 2003068185A JP 2003068185 A JP2003068185 A JP 2003068185A JP 2004280259 A JP2004280259 A JP 2004280259A
- Authority
- JP
- Japan
- Prior art keywords
- language
- words
- word
- input
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】2種類の言語を用いて文書を検索するのに好適な検索装置等を提供する。
【解決手段】検索装置101の対訳記憶部102は、第1言語の単語列と、第2言語の単語列と、を対訳対としてあらかじめ記憶し、入力受付部103は、第1言語の単語の入力を1つ以上受け付け、抽出部104は、入力を受け付けられた1つ以上の第1言語の単語のそれぞれについて、当該第1言語の単語と、あらかじめ記憶された対訳対における第2言語の単語と、の共起強度により、第2言語の単語を1つ以上抽出し、表示部105は、抽出された1つ以上の第2言語の単語を表示し、選択部106は、当該表示された第2言語の単語からいずれか1つ以上を指定する選択入力を受け付け、検索部は、受け付けられた選択入力に指定された第2言語の単語を含む文書を検索する。
【選択図】 図1
【解決手段】検索装置101の対訳記憶部102は、第1言語の単語列と、第2言語の単語列と、を対訳対としてあらかじめ記憶し、入力受付部103は、第1言語の単語の入力を1つ以上受け付け、抽出部104は、入力を受け付けられた1つ以上の第1言語の単語のそれぞれについて、当該第1言語の単語と、あらかじめ記憶された対訳対における第2言語の単語と、の共起強度により、第2言語の単語を1つ以上抽出し、表示部105は、抽出された1つ以上の第2言語の単語を表示し、選択部106は、当該表示された第2言語の単語からいずれか1つ以上を指定する選択入力を受け付け、検索部は、受け付けられた選択入力に指定された第2言語の単語を含む文書を検索する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、2種類の言語を用いて文書を検索するのに好適な検索装置、検索方法、ならびに、これらをコンピュータ上で実現するプログラムに関する。
【0002】
【従来の技術】
従来から、単語を検索用キーワードとして受け付け、当該検索用キーワードが出現する文書を検索する文書データベースシステムやウェブ検索エンジン等の検索技術が提案されている。このような文書検索技術においては、文書が作成されている言語を問わずにそのまま検索キーワードの綴りが出現する文書を検索するか、あらかじめ言語を選択し、その言語で検索キーワードを指定して検索を行っていた。
【0003】
【発明が解決しようとする課題】
しかしながら、ある言語で検索キーワードを指定する一方で、これとは異なる言語で記載された文書を容易に検索したい、という要望は大きい。この際に、複数の言語間の飜訳には曖昧性や同義語があることから、これを適切に処理できるような検索の技術が特に望まれている。
【0004】
本発明は、上記の課題を解決するもので、2種類の言語を用いて文書を検索するのに好適な検索装置、検索方法、ならびに、これらをコンピュータ上で実現するプログラムを提供することを目的とする。
【0005】
【課題を解決するための手段】
以上の目的を達成するため、本発明の原理にしたがって、下記の発明を開示する。
【0006】
本発明の第1の観点に係る検索装置は、対訳記憶部と、入力受付部と、抽出部と、表示部と、選択部と、検索部と、を備え、以下のように構成する。
【0007】
すなわち、対訳記憶部は、第1言語の単語列と、第2言語の単語列と、を対訳対としてあらかじめ記憶する。
【0008】
一方、入力受付部は、第1言語の単語の入力を1つ以上受け付ける。
【0009】
さらに、抽出部は、入力を受け付けられた1つ以上の第1言語の単語のそれぞれについて、当該第1言語の単語と、あらかじめ記憶された対訳対における第2言語の単語と、の共起強度により、第2言語の単語を1つ以上抽出する。
【0010】
そして、表示部は、抽出された1つ以上の第2言語の単語を表示する。
【0011】
一方、選択部は、当該表示された第2言語の単語からいずれか1つ以上を指定する選択入力を受け付ける。
【0012】
さらに、検索部は、受け付けられた選択入力に指定された第2言語の単語を含む文書を検索する。
【0013】
また、本発明の検索装置において、表示部は、入力を受け付けられた第1言語の単語が複数ある場合、当該第1言語の単語ごとに、これに対して1つ以上抽出された当該第2言語の単語を表示するように構成することができる。
【0014】
また、本発明の検索装置は、以下のように構成することができる。
【0015】
すなわち、抽出部は、前記入力を受け付けられた1つ以上の第1言語の単語のそれぞれについて、前記あらかじめ記憶された対訳対における共起強度により、第1言語の単語を1つ以上さらに抽出する。
【0016】
一方、表示部は、抽出された1つ以上の第1言語の単語をさらに表示する。
【0017】
さらに、選択部は、表示された第1言語の単語もしくは第2言語の単語からいずれか1つ以上を指定する選択入力をさらに受け付ける。
【0018】
そして、検索部は、第1言語の文書と第2言語の文書との文書対から、文書対であって、受け付けられた選択入力に第1言語の単語が指定されている場合、その第1言語の文書が当該第1言語の単語を含み、受け付けられた選択入力に第2言語の単語が指定されている場合、その第2言語の文書が当該第2言語の単語を含むものを検索する。
【0019】
また、本発明の検索装置において、検索部により検索される文書対は、対訳記憶部にあらかじめ記憶される対訳対であり、当該文書対の第1言語の文書は当該対訳対の第1言語の単語列であり、当該文書対の第2言語の文書は当該対訳対の第2言語の単語列であるように構成することができる。
【0020】
また、本発明の検索装置において、入力受付部は、第1言語の自然文の入力を受け付け、これを第1言語の単語列に分割して、分割したものを1つ以上の第1言語の単語の入力として受け付けるように構成することができる。
【0021】
本発明のその他の観点に係る検索方法は、第1言語の単語列と、第2言語の単語列と、を対訳対としてあらかじめ記憶する対訳記憶部を用い、入力受付工程と、抽出工程と、表示工程と、選択工程と、検索工程と、を備え、以下のように構成する。
【0022】
すなわち、入力受付工程では、第1言語の単語の入力を1つ以上受け付ける。
【0023】
一方、抽出工程では、入力を受け付けられた1つ以上の第1言語の単語のそれぞれについて、当該第1言語の単語と、あらかじめ記憶された対訳対における第2言語の単語と、の共起強度により、第2言語の単語を1つ以上抽出する。
【0024】
さらに、表示工程では、抽出された1つ以上の第2言語の単語を表示する。
【0025】
そして、選択工程では、当該表示された第2言語の単語からいずれか1つ以上を指定する選択入力を受け付ける。
【0026】
一方、検索工程では、受け付けられた選択入力に指定された第2言語の単語を含む文書を検索する。
【0027】
また、本発明の検索方法において、表示工程では、入力を受け付けられた第1言語の単語が複数ある場合、当該第1言語の単語ごとに、これに対して1つ以上抽出された当該第2言語の単語を表示するように構成することができる。
【0028】
また、本発明の検索方法は、以下のように構成することができる。
【0029】
すなわち、抽出工程では、前記入力を受け付けられた1つ以上の第1言語の単語のそれぞれについて、前記あらかじめ記憶された対訳対における共起強度により、第1言語の単語を1つ以上さらに抽出する。
【0030】
一方、表示工程では、抽出された1つ以上の第1言語の単語をさらに表示する。
【0031】
さらに、選択工程では、表示された第1言語の単語もしくは第2言語の単語からいずれか1つ以上を指定する選択入力をさらに受け付ける。
【0032】
そして、検索工程では、第1言語の文書と第2言語の文書との文書対から、文書対であって、受け付けられた選択入力に第1言語の単語が指定されている場合、その第1言語の文書が当該第1言語の単語を含み、受け付けられた選択入力に第2言語の単語が指定されている場合、その第2言語の文書が当該第2言語の単語を含むものを検索する。
【0033】
また、本発明の検索方法において、検索工程により検索される文書対は、対訳記憶部にあらかじめ記憶される対訳対であり、当該文書対の第1言語の文書は当該対訳対の第1言語の単語列であり、当該文書対の第2言語の文書は当該対訳対の第2言語の単語列であるように構成することができる。
【0034】
また、本発明の検索方法において、入力受付工程では、第1言語の自然文の入力を受け付け、これを第1言語の単語列に分割して、分割したものを1つ以上の第1言語の単語の入力として受け付けるように構成することができる。
【0035】
本発明の他の観点に係るプログラムは、コンピュータを、上記の検索装置として機能させ、もしくは、コンピュータに、上記の検索方法を実行させるように構成する。
【0036】
当該プログラムは、コンパクトディスク、フレキシブルディスク、ハードディスク、光磁気ディスク、ディジタルビデオディスク、磁気テープ、半導体メモリ等のコンピュータ読取可能な情報記録媒体に記録することができる。
【0037】
上記プログラムは、当該プログラムが実行されるコンピュータとは独立して、コンピュータ通信網を介して配布・販売することができる。また、上記情報記録媒体は、当該コンピュータとは独立して配布・販売することができる。
【0038】
【発明の実施の形態】
以下に本発明の実施形態を説明する。なお、以下に説明する実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。したがって、当業者であればこれらの各要素もしくは全要素をこれと均等なものに置換した実施形態を採用することが可能であるが、これらの実施形態も本願発明の範囲に含まれる。
【0039】
(発明の実施の形態)
図1は、本発明の実施形態に係る検索装置の概要構成を示す模式図である。図2は、当該検索装置にて実行される検索方法の制御の流れを示すフローチャートである。以下、本図を参照して説明する。
【0040】
本実施形態の検索装置101は、対訳記憶部102と、入力受付部103と、抽出部104と、表示部105と、選択部106と、検索部107と、を備える。
【0041】
まず、対訳記憶部102は、第1言語の単語列と、第2言語の単語列と、を対訳対としてあらかじめ記憶する。図3は、対訳記憶部102に各言語の単語列が記憶される様子を示す説明図である。
【0042】
図3に示す例では、XML(eXtensible Markup Language)形式の文書に、第1言語の単語列として日本語の文が、第2言語の単語列として英語語の文が、それぞれ記録されている。それぞれの対訳はタグ<T>〜</T>に囲まれており、日本語の文は<J>〜</J>に、英語の文は<E>〜</E>に、それぞれ囲まれている。
【0043】
さて、検索処理が開始されると、まず、入力受付部103は、第1言語の単語の入力を1つ以上受け付ける(ステップS201)。この際に、第1言語の自然文の入力を受け付け、これを第1言語の単語列に分割して、分割したものを1つ以上の第1言語の単語の入力として受け付けても良い。
【0044】
以下、理解を容易にするため、日本語文(第1言語の自然文)として「イスラエル機、ナイフ持った男が乗っ取り未遂」を入力した場合を例にあげて考える。これを形態素解析すれば、「イスラエル」「機」「ナイフ」「持っ」「た」「男」「が」「乗っ取り」「未遂」となる。
【0045】
さらに、利用の便を向上させるため、図4のようにウェブブラウザに表示された文書において、マウスを利用して検索に利用したい部分を領域指定し、右クリックによってメニューを表示して、本実施形態の入力受付部103に送ることもできる。
【0046】
本実施例では、主に名詞を検索キーワードとして採用すべき単語として選定することにより、「イスラエル」「機」「ナイフ」「男」「未遂」を第1言語の単語の入力として受け付ける。採用基準については、他の基準を適宜採用することができる。
【0047】
ついで、抽出部104は、入力を受け付けられた1つ以上の第1言語の単語のそれぞれについて、当該第1言語の単語と、あらかじめ記憶された対訳対における第2言語の単語と、の共起強度により、第2言語の単語を1つ以上抽出する(ステップS202)。尚、共起強度の計算手法については、後述する。
【0048】
上記例においては、「イスラエル」「機」「ナイフ」「男」「未遂」のそれぞれの単語について、対訳記憶部102を参照して、共起強度を計算することにより、その飜訳語(もしくは、これに関連する英単語)を取得する。ある新聞記事の日本語文と英文との対訳を記憶した対訳記憶部102を利用した場合に得られる英語の飜訳語は、以下のようになる。
「イスラエル」israel,israeli,palestinian,arab,palestinians,pease,...
「機」planes,plane,aircraft,machines,fighter,machine,air,jet,fighters,...
「ナイフ」knife,knives,stabbed,police,boy,threatened,stab,boys,policeman,...
「男」man,police,men,wearing,arrested,who,he,car,was,fled,tall,him,...
「未遂」attempted,murder,arrested,police,suspision,indicted,charges,man,...
【0049】
対訳として、通常の英和辞典や和英辞典、シソーラスのみならず、種々の文書を選ぶことができ、より柔軟に、飜訳語や関連語を得ることができる点が本実施形態の特徴の1つである。
【0050】
ついで、表示部105は、抽出された1つ以上の第2言語の単語を表示する(ステップS203)。本実施形態では、入力を受け付けられた第1言語の単語が複数ある場合、当該第1言語の単語ごとに、これに対して1つ以上抽出された当該第2言語の単語を表示する。
【0051】
図5は、表示部105による表示例を示す説明図である。
【0052】
画面501の上段502には、ユーザから入力された日本語の自然文が表示されている。中段503には、日本語の自然文から得られた検索用の単語「イスラエル」「機」「ナイフ」「男」「未遂」ごとに、ステップS202で得られた対訳が表示されている。
【0053】
そして、選択部106は、当該表示された第2言語の単語からいずれか1つ以上を指定する選択入力を受け付ける(ステップS204)。図5を参照すると、ユーザは、中段503に表示されたものの中から所望の単語をマウスでクリックすることにより、第2言語の単語を指定することができる。画面501の中段503では、「israel」「planes」「knife」が指定されたこととなっている。また、下段504には、指定された単語が表示されている。
【0054】
さらに、検索部107は、受け付けられた選択入力に指定された第2言語の単語を含む文書を検索する(ステップS205)。上記の例では、英語の文書から、「israel」「planes」「knife」が出現する文書を検索するのである。図6は、このような文書を検索した結果を示す表示例である。
【0055】
すなわち、本実施例では、上段502にユーザが日本語文を直接入力して、ボタン511をクリックすると、中段503に英語の飜訳語および関連語が表示される。そして、英語の飜訳語、関連語から所望の単語を選択して、ボタン512をクリックすると、英語の文書が検索される。
【0056】
本実施形態の検索装置は、ある程度日本語と英語の知識があるユーザに特に好適である。特に、対訳を参照することにより、単なる飜訳語のみならず、関連語も提示されるので、検索装置をアイディアプロセッサとして利用することも可能である。
【0057】
(共起強度の計算手法)
本発明では共起強度の計算手法として種々の技術を適用することができるが、以下では、その例について述べる。したがって、以下に示す計算手法以外の手法によって共起強度を計算する実施形態も、本発明の範囲に含まれる。
【0058】
まず、n個の対訳対
T ={T1,T2,…,Tn}
が、対訳記憶部102に記憶されているものとする。各対訳Ti (1≦i≦n)は、上記のように、日本語文Jiと英文Eiとからなる。すなわち、
Ti =〈Ji,Ei〉
である。
【0059】
また、対訳対Tのうち、日本語文に日本語の単語wを含む対訳対を、Tj(w)と書く。すなわち、
Tj(w) ={〈J,E〉|〈J,E〉∈ T,w∈J }
である。
【0060】
同様に、対訳対Tのうち、英文に英語の単語vを含む対訳対を、Te(v)と書く。すなわち、
Te(v) ={〈J,E〉|〈J,E〉∈ T,v∈E }
である。
【0061】
また、対訳対Tに含まれる対訳の数を#Tと書く。明らかに、
#T = n;
#T ≧ #Tj(w);
#T ≧ #Te(v)
が成立する。
【0062】
さて、このような場合に、本実施形態では、ある日本語単語wと英単語vが与えられた場合に、以下のパラメータを考える。
【0063】
以下は、日本語文に日本語単語wが出現する対訳の数である。
f1 = # Tj(w)
【0064】
以下は、日本語文に日本語単語wが出現し、かつ、英文に英単語vが出現する対訳の数である。
f11 = # (Tj(w))e(v) = # (Te(v))j(w)
【0065】
以下は、日本語文に日本語単語wが出現し、かつ、英文に英単語vが出現しない対訳の数である。
f12 = f1 − f12
【0066】
以下は、英文に英単語vが出現する対訳の数である。
f2 = # Te(v);
【0067】
以下は、日本語文に日本語単語wが出現せず、かつ、英文に英単語vが出現する対訳の数である。
f21 = f2 − f11;
【0068】
以下は、日本語単語wも英単語vも出現しない対訳の数である。
f22 = n − f11 − f12 − f21
【0069】
これらのパラメータから、T,w,vについての対数尤度比c(T,w,v)を、以下のように定めることができる。
c(T,w,v) = 2Σi=1 2 Σj=1 2 fij{log(fij/n) − log(fifj/(n×n))}
【0070】
ある日本語単語wが与えられたときに、対訳対に現れる英単語のすべてについて、この対数尤度比を求め、対数尤度比が大きい順に英単語を並べ、その上位を所定の数選択することにより、当該日本語単語wの英語による飜訳語(関連飜訳語)とするのである。
【0071】
なお、このような共起強度としては、この他に、以下のようなものが考えられる。
【0072】
以下では、理解を用意にするため、パラメータとして、a,b,c,d,px1,px0,py1,py0,px1y1,px1y0,px0y1,px0y0,Iを用いる。それぞれの定義は、以下の通りである。
a = f11;
b = f12;
c = f21;
d = f22;
【0073】
p1 = (a+b)/n;
p0 = (c+d)/n;
q1 = (a+c)/n;
q0 = (b+d)/n;
【0074】
r11 = a/n;
r10 = b/n;
r01 = c/n;
r00 = d/n;
【0075】
【0076】
但し
sgn(x) = 1 (x>0);
sgn(0) = 0;
sgn(x) = −1 (x<0)
である。
【0077】
また、関数xlx(・)とabs(・)を
xlx(0) = 0;
xlx(x) = x log(x);
abs(x) = x sgn(x)
のように定義しておく。
【0078】
これらのパラメータを用いた場合に、共起強度として、以下のようなものを採用することができる。
(1)相互情報量 I
(2)共起頻度 a
(3)ベイズ比 (a+1)/(b+c+2)
(4)尤度比 (xlx(a)+xlx(b)+xlx(c)+xlx(d)+xlx(n)) − (xlx(a+b)+xlx(a+c)+xlx(b+d)+xlx(c+d))
【0079】
(5)χ2値 (n(ad−bc)2/((a+b)(c+d)(a+c)(b+d))
(6)χ2のYates補正値 (n(abs(ad−bc)−n/2)2/((a+b)(c+d)(a+c)(b+d))
(7)自己相互情報量 log(n)+log(a)−log(a+b)−log(a+c)
(8)dice係数 2a/(a+c+a+b)
【0080】
(9)Iplus値 r11 log(r11/p1/q1) + r00 log(r00/p0/q0)
(10)補完類似度 (ad−bc)/((a+c)(b+d))1/2
(11)上記のそれぞれの値をtとしたときの t sgn(ad−bc)
(12)上記のいずれかの線形結合。すなわち、上記の共起強度からいずれか複数を選択し、それぞれに所定の重みを乗じたものの和。
【0081】
本発明では、このような種々の値を共起強度として適用することができる。
【0082】
(その他の実施形態)
上記実施形態においては、検索の対象となる文書群は、必ずしも対訳記憶部102に記憶されたものに限られなかった。本実施形態は、検索対象を特に対訳の存在する文書に限ることにより、どのような飜訳が行われているかの用例を参照するのに適する。
【0083】
本実施形態では、抽出部104は、対訳対を参照して、日本語の単語をも抽出し、表示部105は、図7に示すように、これらを言語ごとに表示する。以下、詳細に説明する。
【0084】
まず、抽出部104は、日本語の単語列w1,…,wmが入力された場合、対訳対Tに含まれる第2言語の単語v1,…,vkについて、上記のような共起強度を計算する。wiとvjの共起強度をs(wi,vj)と書いたとき、「入力された日本語の単語列w1,…,wm」に対する第2言語の単語vjのスコアscore(vj)を以下のように定める。
score(vj) = Σi=1 m s(wi,vj)
もしくは、
score(vj) = maxi=1 m s(wi,vj)
【0085】
なお、スコアの計算手法として、以下の手法を採用することもできる。まず、日本語の単語w1,…,wmに対して、これらをすべて含む対訳対を以下のように表記する。
Tj(w1,…,wm)
= Tj(w1)∩…∩Tj(wm)
={〈J,E〉|〈J,E〉∈T,w1∈J,…,wm∈J }
【0086】
そして、共起強度の計算は、上記のTj(w)のかわりにTj(w1,…,wm)を用いれば良い。
【0087】
このほか、Tj(w1,…,wm)を、「w1,…,wmのいずれかを含む対訳」「w1,…,wmのいずれかを所定の個数以上含む対訳」「w1,…,wmのいずれかを所定の割合以上含む対訳」などのように定義した場合のスコアも同様に利用することができる。
【0088】
そして、このスコアが高い順に第2言語の単語を抽出して、表示部105に表示させる。これにより、図7右欄に表示されるように、英単語の列が表示される。
【0089】
一方、日本語の単語列w1,…,wmが入力された場合、日本語の単語を対訳対から抽出するには、以下のようにする。
【0090】
すなわち、以下のような自己対訳対T’を仮想的に考える。
T’ ={〈J,J〉|〈J,E〉∈T }
【0091】
すなわち、自己対訳対T’の第2言語は、日本語である。
【0092】
そして、T’について、上と同様に第2言語の単語(日本語)v1,...,vhに対し、スコアを計算し、スコアの高い順に第2言語の単語(日本語)を抽出して、表示部105に表示させる。これにより、図7左欄に表示されるように、日本語の単語の列が表示される。
【0093】
図7の表示例は、日本語の自然文として「聖域なき構造改革」を入力した場合に対する応答である。入力受付部103の形態素解析と前処理によって、日本語の単語として「聖域」「構造」「改革」が選ばれるが、抽出部104において、これに対する関連語が対訳対の中から、日本語については「聖域」「なき」「改革」「構造」「小泉首相」「掲げる」…の順に、英語については「sacred」「koizumi」「cows」「structural」…の順に抽出されたのである。
【0094】
さて、このようにして、第1言語の単語と第2言語の単語が表示部105により表示された後、本実施形態では、選択部106は、表示された第1言語の単語もしくは第2言語の単語からいずれか1つ以上を指定する選択入力を受け付ける。図7では、「構造」と「structural」を指定している。
【0095】
そして、本実施形態では、検索部107は、第1言語の文書と第2言語の文書との文書対から、以下の条件を満たす文書対を検索する。
(a)受け付けられた選択入力に第1言語の単語が指定されている場合、その第1言語の文書が当該第1言語の単語を含む。
(b)受け付けられた選択入力に第2言語の単語が指定されている場合、その第2言語の文書が当該第2言語の単語を含む。
【0096】
特に、対訳記憶部102にあらかじめ記憶されている対訳対を検索対象となる文書対とすることができる。図8は、このようにして検索された文書を表示したもので、図中左欄には第2言語(英語)の文章が、図中右欄には第1言語(日本語の文章が、文書対ごとに区分けされて、それぞれ表示されている。
【0097】
また、表示の際には、検索対象となった第2言語の単語「structural」に下線が引かれて強調表示がされている。第1言語においては、当初入力された「聖域なき構造改革」に下線が引かれて強調表示がされているが、検索対象となった単語「構造」のみを強調表示したり、当初入力された単語列と検索対象の単語列とを異なる表示手法で強調表示するなどの種々の手法を採用することができる。
【0098】
このように、これらの実施形態では、第1言語の単語に関連する第2言語の飜訳語を適切に絞り込んで文書を検索したり、飜訳用例を容易に調査したりすることができるようになる。
【0099】
【発明の効果】
以上説明したように、本発明によれば、2種類の言語を用いて文書を検索するのに好適な検索装置、検索方法、ならびに、これらをコンピュータ上で実現するプログラムを提供することができる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る検索装置の概要構成を示す模式図である。
【図2】本実施形態の検索装置にて実行される検索処理の制御の流れを示すフローチャートである。
【図3】対訳記憶部に各言語の単語列が記憶される様子を示す説明図である。
【図4】ウェブブラウザに文書が表示される様子を示す説明図である。
【図5】表示部による表示例を示す説明図である。
【図6】文書の検索結果を表示する表示例を示す説明図である。
【図7】表示部による表示例を示す説明図である。
【図8】文書の検索結果を表示する表示例を示す説明図である。
【符号の説明】
101 検索装置
102 対訳記憶部
103 入力受付部
104 抽出部
105 表示部
106 選択部
107 検索部
501 画面
502 上段
503 中段
504 下段
511 ボタン
512 ボタン
【発明の属する技術分野】
本発明は、2種類の言語を用いて文書を検索するのに好適な検索装置、検索方法、ならびに、これらをコンピュータ上で実現するプログラムに関する。
【0002】
【従来の技術】
従来から、単語を検索用キーワードとして受け付け、当該検索用キーワードが出現する文書を検索する文書データベースシステムやウェブ検索エンジン等の検索技術が提案されている。このような文書検索技術においては、文書が作成されている言語を問わずにそのまま検索キーワードの綴りが出現する文書を検索するか、あらかじめ言語を選択し、その言語で検索キーワードを指定して検索を行っていた。
【0003】
【発明が解決しようとする課題】
しかしながら、ある言語で検索キーワードを指定する一方で、これとは異なる言語で記載された文書を容易に検索したい、という要望は大きい。この際に、複数の言語間の飜訳には曖昧性や同義語があることから、これを適切に処理できるような検索の技術が特に望まれている。
【0004】
本発明は、上記の課題を解決するもので、2種類の言語を用いて文書を検索するのに好適な検索装置、検索方法、ならびに、これらをコンピュータ上で実現するプログラムを提供することを目的とする。
【0005】
【課題を解決するための手段】
以上の目的を達成するため、本発明の原理にしたがって、下記の発明を開示する。
【0006】
本発明の第1の観点に係る検索装置は、対訳記憶部と、入力受付部と、抽出部と、表示部と、選択部と、検索部と、を備え、以下のように構成する。
【0007】
すなわち、対訳記憶部は、第1言語の単語列と、第2言語の単語列と、を対訳対としてあらかじめ記憶する。
【0008】
一方、入力受付部は、第1言語の単語の入力を1つ以上受け付ける。
【0009】
さらに、抽出部は、入力を受け付けられた1つ以上の第1言語の単語のそれぞれについて、当該第1言語の単語と、あらかじめ記憶された対訳対における第2言語の単語と、の共起強度により、第2言語の単語を1つ以上抽出する。
【0010】
そして、表示部は、抽出された1つ以上の第2言語の単語を表示する。
【0011】
一方、選択部は、当該表示された第2言語の単語からいずれか1つ以上を指定する選択入力を受け付ける。
【0012】
さらに、検索部は、受け付けられた選択入力に指定された第2言語の単語を含む文書を検索する。
【0013】
また、本発明の検索装置において、表示部は、入力を受け付けられた第1言語の単語が複数ある場合、当該第1言語の単語ごとに、これに対して1つ以上抽出された当該第2言語の単語を表示するように構成することができる。
【0014】
また、本発明の検索装置は、以下のように構成することができる。
【0015】
すなわち、抽出部は、前記入力を受け付けられた1つ以上の第1言語の単語のそれぞれについて、前記あらかじめ記憶された対訳対における共起強度により、第1言語の単語を1つ以上さらに抽出する。
【0016】
一方、表示部は、抽出された1つ以上の第1言語の単語をさらに表示する。
【0017】
さらに、選択部は、表示された第1言語の単語もしくは第2言語の単語からいずれか1つ以上を指定する選択入力をさらに受け付ける。
【0018】
そして、検索部は、第1言語の文書と第2言語の文書との文書対から、文書対であって、受け付けられた選択入力に第1言語の単語が指定されている場合、その第1言語の文書が当該第1言語の単語を含み、受け付けられた選択入力に第2言語の単語が指定されている場合、その第2言語の文書が当該第2言語の単語を含むものを検索する。
【0019】
また、本発明の検索装置において、検索部により検索される文書対は、対訳記憶部にあらかじめ記憶される対訳対であり、当該文書対の第1言語の文書は当該対訳対の第1言語の単語列であり、当該文書対の第2言語の文書は当該対訳対の第2言語の単語列であるように構成することができる。
【0020】
また、本発明の検索装置において、入力受付部は、第1言語の自然文の入力を受け付け、これを第1言語の単語列に分割して、分割したものを1つ以上の第1言語の単語の入力として受け付けるように構成することができる。
【0021】
本発明のその他の観点に係る検索方法は、第1言語の単語列と、第2言語の単語列と、を対訳対としてあらかじめ記憶する対訳記憶部を用い、入力受付工程と、抽出工程と、表示工程と、選択工程と、検索工程と、を備え、以下のように構成する。
【0022】
すなわち、入力受付工程では、第1言語の単語の入力を1つ以上受け付ける。
【0023】
一方、抽出工程では、入力を受け付けられた1つ以上の第1言語の単語のそれぞれについて、当該第1言語の単語と、あらかじめ記憶された対訳対における第2言語の単語と、の共起強度により、第2言語の単語を1つ以上抽出する。
【0024】
さらに、表示工程では、抽出された1つ以上の第2言語の単語を表示する。
【0025】
そして、選択工程では、当該表示された第2言語の単語からいずれか1つ以上を指定する選択入力を受け付ける。
【0026】
一方、検索工程では、受け付けられた選択入力に指定された第2言語の単語を含む文書を検索する。
【0027】
また、本発明の検索方法において、表示工程では、入力を受け付けられた第1言語の単語が複数ある場合、当該第1言語の単語ごとに、これに対して1つ以上抽出された当該第2言語の単語を表示するように構成することができる。
【0028】
また、本発明の検索方法は、以下のように構成することができる。
【0029】
すなわち、抽出工程では、前記入力を受け付けられた1つ以上の第1言語の単語のそれぞれについて、前記あらかじめ記憶された対訳対における共起強度により、第1言語の単語を1つ以上さらに抽出する。
【0030】
一方、表示工程では、抽出された1つ以上の第1言語の単語をさらに表示する。
【0031】
さらに、選択工程では、表示された第1言語の単語もしくは第2言語の単語からいずれか1つ以上を指定する選択入力をさらに受け付ける。
【0032】
そして、検索工程では、第1言語の文書と第2言語の文書との文書対から、文書対であって、受け付けられた選択入力に第1言語の単語が指定されている場合、その第1言語の文書が当該第1言語の単語を含み、受け付けられた選択入力に第2言語の単語が指定されている場合、その第2言語の文書が当該第2言語の単語を含むものを検索する。
【0033】
また、本発明の検索方法において、検索工程により検索される文書対は、対訳記憶部にあらかじめ記憶される対訳対であり、当該文書対の第1言語の文書は当該対訳対の第1言語の単語列であり、当該文書対の第2言語の文書は当該対訳対の第2言語の単語列であるように構成することができる。
【0034】
また、本発明の検索方法において、入力受付工程では、第1言語の自然文の入力を受け付け、これを第1言語の単語列に分割して、分割したものを1つ以上の第1言語の単語の入力として受け付けるように構成することができる。
【0035】
本発明の他の観点に係るプログラムは、コンピュータを、上記の検索装置として機能させ、もしくは、コンピュータに、上記の検索方法を実行させるように構成する。
【0036】
当該プログラムは、コンパクトディスク、フレキシブルディスク、ハードディスク、光磁気ディスク、ディジタルビデオディスク、磁気テープ、半導体メモリ等のコンピュータ読取可能な情報記録媒体に記録することができる。
【0037】
上記プログラムは、当該プログラムが実行されるコンピュータとは独立して、コンピュータ通信網を介して配布・販売することができる。また、上記情報記録媒体は、当該コンピュータとは独立して配布・販売することができる。
【0038】
【発明の実施の形態】
以下に本発明の実施形態を説明する。なお、以下に説明する実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。したがって、当業者であればこれらの各要素もしくは全要素をこれと均等なものに置換した実施形態を採用することが可能であるが、これらの実施形態も本願発明の範囲に含まれる。
【0039】
(発明の実施の形態)
図1は、本発明の実施形態に係る検索装置の概要構成を示す模式図である。図2は、当該検索装置にて実行される検索方法の制御の流れを示すフローチャートである。以下、本図を参照して説明する。
【0040】
本実施形態の検索装置101は、対訳記憶部102と、入力受付部103と、抽出部104と、表示部105と、選択部106と、検索部107と、を備える。
【0041】
まず、対訳記憶部102は、第1言語の単語列と、第2言語の単語列と、を対訳対としてあらかじめ記憶する。図3は、対訳記憶部102に各言語の単語列が記憶される様子を示す説明図である。
【0042】
図3に示す例では、XML(eXtensible Markup Language)形式の文書に、第1言語の単語列として日本語の文が、第2言語の単語列として英語語の文が、それぞれ記録されている。それぞれの対訳はタグ<T>〜</T>に囲まれており、日本語の文は<J>〜</J>に、英語の文は<E>〜</E>に、それぞれ囲まれている。
【0043】
さて、検索処理が開始されると、まず、入力受付部103は、第1言語の単語の入力を1つ以上受け付ける(ステップS201)。この際に、第1言語の自然文の入力を受け付け、これを第1言語の単語列に分割して、分割したものを1つ以上の第1言語の単語の入力として受け付けても良い。
【0044】
以下、理解を容易にするため、日本語文(第1言語の自然文)として「イスラエル機、ナイフ持った男が乗っ取り未遂」を入力した場合を例にあげて考える。これを形態素解析すれば、「イスラエル」「機」「ナイフ」「持っ」「た」「男」「が」「乗っ取り」「未遂」となる。
【0045】
さらに、利用の便を向上させるため、図4のようにウェブブラウザに表示された文書において、マウスを利用して検索に利用したい部分を領域指定し、右クリックによってメニューを表示して、本実施形態の入力受付部103に送ることもできる。
【0046】
本実施例では、主に名詞を検索キーワードとして採用すべき単語として選定することにより、「イスラエル」「機」「ナイフ」「男」「未遂」を第1言語の単語の入力として受け付ける。採用基準については、他の基準を適宜採用することができる。
【0047】
ついで、抽出部104は、入力を受け付けられた1つ以上の第1言語の単語のそれぞれについて、当該第1言語の単語と、あらかじめ記憶された対訳対における第2言語の単語と、の共起強度により、第2言語の単語を1つ以上抽出する(ステップS202)。尚、共起強度の計算手法については、後述する。
【0048】
上記例においては、「イスラエル」「機」「ナイフ」「男」「未遂」のそれぞれの単語について、対訳記憶部102を参照して、共起強度を計算することにより、その飜訳語(もしくは、これに関連する英単語)を取得する。ある新聞記事の日本語文と英文との対訳を記憶した対訳記憶部102を利用した場合に得られる英語の飜訳語は、以下のようになる。
「イスラエル」israel,israeli,palestinian,arab,palestinians,pease,...
「機」planes,plane,aircraft,machines,fighter,machine,air,jet,fighters,...
「ナイフ」knife,knives,stabbed,police,boy,threatened,stab,boys,policeman,...
「男」man,police,men,wearing,arrested,who,he,car,was,fled,tall,him,...
「未遂」attempted,murder,arrested,police,suspision,indicted,charges,man,...
【0049】
対訳として、通常の英和辞典や和英辞典、シソーラスのみならず、種々の文書を選ぶことができ、より柔軟に、飜訳語や関連語を得ることができる点が本実施形態の特徴の1つである。
【0050】
ついで、表示部105は、抽出された1つ以上の第2言語の単語を表示する(ステップS203)。本実施形態では、入力を受け付けられた第1言語の単語が複数ある場合、当該第1言語の単語ごとに、これに対して1つ以上抽出された当該第2言語の単語を表示する。
【0051】
図5は、表示部105による表示例を示す説明図である。
【0052】
画面501の上段502には、ユーザから入力された日本語の自然文が表示されている。中段503には、日本語の自然文から得られた検索用の単語「イスラエル」「機」「ナイフ」「男」「未遂」ごとに、ステップS202で得られた対訳が表示されている。
【0053】
そして、選択部106は、当該表示された第2言語の単語からいずれか1つ以上を指定する選択入力を受け付ける(ステップS204)。図5を参照すると、ユーザは、中段503に表示されたものの中から所望の単語をマウスでクリックすることにより、第2言語の単語を指定することができる。画面501の中段503では、「israel」「planes」「knife」が指定されたこととなっている。また、下段504には、指定された単語が表示されている。
【0054】
さらに、検索部107は、受け付けられた選択入力に指定された第2言語の単語を含む文書を検索する(ステップS205)。上記の例では、英語の文書から、「israel」「planes」「knife」が出現する文書を検索するのである。図6は、このような文書を検索した結果を示す表示例である。
【0055】
すなわち、本実施例では、上段502にユーザが日本語文を直接入力して、ボタン511をクリックすると、中段503に英語の飜訳語および関連語が表示される。そして、英語の飜訳語、関連語から所望の単語を選択して、ボタン512をクリックすると、英語の文書が検索される。
【0056】
本実施形態の検索装置は、ある程度日本語と英語の知識があるユーザに特に好適である。特に、対訳を参照することにより、単なる飜訳語のみならず、関連語も提示されるので、検索装置をアイディアプロセッサとして利用することも可能である。
【0057】
(共起強度の計算手法)
本発明では共起強度の計算手法として種々の技術を適用することができるが、以下では、その例について述べる。したがって、以下に示す計算手法以外の手法によって共起強度を計算する実施形態も、本発明の範囲に含まれる。
【0058】
まず、n個の対訳対
T ={T1,T2,…,Tn}
が、対訳記憶部102に記憶されているものとする。各対訳Ti (1≦i≦n)は、上記のように、日本語文Jiと英文Eiとからなる。すなわち、
Ti =〈Ji,Ei〉
である。
【0059】
また、対訳対Tのうち、日本語文に日本語の単語wを含む対訳対を、Tj(w)と書く。すなわち、
Tj(w) ={〈J,E〉|〈J,E〉∈ T,w∈J }
である。
【0060】
同様に、対訳対Tのうち、英文に英語の単語vを含む対訳対を、Te(v)と書く。すなわち、
Te(v) ={〈J,E〉|〈J,E〉∈ T,v∈E }
である。
【0061】
また、対訳対Tに含まれる対訳の数を#Tと書く。明らかに、
#T = n;
#T ≧ #Tj(w);
#T ≧ #Te(v)
が成立する。
【0062】
さて、このような場合に、本実施形態では、ある日本語単語wと英単語vが与えられた場合に、以下のパラメータを考える。
【0063】
以下は、日本語文に日本語単語wが出現する対訳の数である。
f1 = # Tj(w)
【0064】
以下は、日本語文に日本語単語wが出現し、かつ、英文に英単語vが出現する対訳の数である。
f11 = # (Tj(w))e(v) = # (Te(v))j(w)
【0065】
以下は、日本語文に日本語単語wが出現し、かつ、英文に英単語vが出現しない対訳の数である。
f12 = f1 − f12
【0066】
以下は、英文に英単語vが出現する対訳の数である。
f2 = # Te(v);
【0067】
以下は、日本語文に日本語単語wが出現せず、かつ、英文に英単語vが出現する対訳の数である。
f21 = f2 − f11;
【0068】
以下は、日本語単語wも英単語vも出現しない対訳の数である。
f22 = n − f11 − f12 − f21
【0069】
これらのパラメータから、T,w,vについての対数尤度比c(T,w,v)を、以下のように定めることができる。
c(T,w,v) = 2Σi=1 2 Σj=1 2 fij{log(fij/n) − log(fifj/(n×n))}
【0070】
ある日本語単語wが与えられたときに、対訳対に現れる英単語のすべてについて、この対数尤度比を求め、対数尤度比が大きい順に英単語を並べ、その上位を所定の数選択することにより、当該日本語単語wの英語による飜訳語(関連飜訳語)とするのである。
【0071】
なお、このような共起強度としては、この他に、以下のようなものが考えられる。
【0072】
以下では、理解を用意にするため、パラメータとして、a,b,c,d,px1,px0,py1,py0,px1y1,px1y0,px0y1,px0y0,Iを用いる。それぞれの定義は、以下の通りである。
a = f11;
b = f12;
c = f21;
d = f22;
【0073】
p1 = (a+b)/n;
p0 = (c+d)/n;
q1 = (a+c)/n;
q0 = (b+d)/n;
【0074】
r11 = a/n;
r10 = b/n;
r01 = c/n;
r00 = d/n;
【0075】
【0076】
但し
sgn(x) = 1 (x>0);
sgn(0) = 0;
sgn(x) = −1 (x<0)
である。
【0077】
また、関数xlx(・)とabs(・)を
xlx(0) = 0;
xlx(x) = x log(x);
abs(x) = x sgn(x)
のように定義しておく。
【0078】
これらのパラメータを用いた場合に、共起強度として、以下のようなものを採用することができる。
(1)相互情報量 I
(2)共起頻度 a
(3)ベイズ比 (a+1)/(b+c+2)
(4)尤度比 (xlx(a)+xlx(b)+xlx(c)+xlx(d)+xlx(n)) − (xlx(a+b)+xlx(a+c)+xlx(b+d)+xlx(c+d))
【0079】
(5)χ2値 (n(ad−bc)2/((a+b)(c+d)(a+c)(b+d))
(6)χ2のYates補正値 (n(abs(ad−bc)−n/2)2/((a+b)(c+d)(a+c)(b+d))
(7)自己相互情報量 log(n)+log(a)−log(a+b)−log(a+c)
(8)dice係数 2a/(a+c+a+b)
【0080】
(9)Iplus値 r11 log(r11/p1/q1) + r00 log(r00/p0/q0)
(10)補完類似度 (ad−bc)/((a+c)(b+d))1/2
(11)上記のそれぞれの値をtとしたときの t sgn(ad−bc)
(12)上記のいずれかの線形結合。すなわち、上記の共起強度からいずれか複数を選択し、それぞれに所定の重みを乗じたものの和。
【0081】
本発明では、このような種々の値を共起強度として適用することができる。
【0082】
(その他の実施形態)
上記実施形態においては、検索の対象となる文書群は、必ずしも対訳記憶部102に記憶されたものに限られなかった。本実施形態は、検索対象を特に対訳の存在する文書に限ることにより、どのような飜訳が行われているかの用例を参照するのに適する。
【0083】
本実施形態では、抽出部104は、対訳対を参照して、日本語の単語をも抽出し、表示部105は、図7に示すように、これらを言語ごとに表示する。以下、詳細に説明する。
【0084】
まず、抽出部104は、日本語の単語列w1,…,wmが入力された場合、対訳対Tに含まれる第2言語の単語v1,…,vkについて、上記のような共起強度を計算する。wiとvjの共起強度をs(wi,vj)と書いたとき、「入力された日本語の単語列w1,…,wm」に対する第2言語の単語vjのスコアscore(vj)を以下のように定める。
score(vj) = Σi=1 m s(wi,vj)
もしくは、
score(vj) = maxi=1 m s(wi,vj)
【0085】
なお、スコアの計算手法として、以下の手法を採用することもできる。まず、日本語の単語w1,…,wmに対して、これらをすべて含む対訳対を以下のように表記する。
Tj(w1,…,wm)
= Tj(w1)∩…∩Tj(wm)
={〈J,E〉|〈J,E〉∈T,w1∈J,…,wm∈J }
【0086】
そして、共起強度の計算は、上記のTj(w)のかわりにTj(w1,…,wm)を用いれば良い。
【0087】
このほか、Tj(w1,…,wm)を、「w1,…,wmのいずれかを含む対訳」「w1,…,wmのいずれかを所定の個数以上含む対訳」「w1,…,wmのいずれかを所定の割合以上含む対訳」などのように定義した場合のスコアも同様に利用することができる。
【0088】
そして、このスコアが高い順に第2言語の単語を抽出して、表示部105に表示させる。これにより、図7右欄に表示されるように、英単語の列が表示される。
【0089】
一方、日本語の単語列w1,…,wmが入力された場合、日本語の単語を対訳対から抽出するには、以下のようにする。
【0090】
すなわち、以下のような自己対訳対T’を仮想的に考える。
T’ ={〈J,J〉|〈J,E〉∈T }
【0091】
すなわち、自己対訳対T’の第2言語は、日本語である。
【0092】
そして、T’について、上と同様に第2言語の単語(日本語)v1,...,vhに対し、スコアを計算し、スコアの高い順に第2言語の単語(日本語)を抽出して、表示部105に表示させる。これにより、図7左欄に表示されるように、日本語の単語の列が表示される。
【0093】
図7の表示例は、日本語の自然文として「聖域なき構造改革」を入力した場合に対する応答である。入力受付部103の形態素解析と前処理によって、日本語の単語として「聖域」「構造」「改革」が選ばれるが、抽出部104において、これに対する関連語が対訳対の中から、日本語については「聖域」「なき」「改革」「構造」「小泉首相」「掲げる」…の順に、英語については「sacred」「koizumi」「cows」「structural」…の順に抽出されたのである。
【0094】
さて、このようにして、第1言語の単語と第2言語の単語が表示部105により表示された後、本実施形態では、選択部106は、表示された第1言語の単語もしくは第2言語の単語からいずれか1つ以上を指定する選択入力を受け付ける。図7では、「構造」と「structural」を指定している。
【0095】
そして、本実施形態では、検索部107は、第1言語の文書と第2言語の文書との文書対から、以下の条件を満たす文書対を検索する。
(a)受け付けられた選択入力に第1言語の単語が指定されている場合、その第1言語の文書が当該第1言語の単語を含む。
(b)受け付けられた選択入力に第2言語の単語が指定されている場合、その第2言語の文書が当該第2言語の単語を含む。
【0096】
特に、対訳記憶部102にあらかじめ記憶されている対訳対を検索対象となる文書対とすることができる。図8は、このようにして検索された文書を表示したもので、図中左欄には第2言語(英語)の文章が、図中右欄には第1言語(日本語の文章が、文書対ごとに区分けされて、それぞれ表示されている。
【0097】
また、表示の際には、検索対象となった第2言語の単語「structural」に下線が引かれて強調表示がされている。第1言語においては、当初入力された「聖域なき構造改革」に下線が引かれて強調表示がされているが、検索対象となった単語「構造」のみを強調表示したり、当初入力された単語列と検索対象の単語列とを異なる表示手法で強調表示するなどの種々の手法を採用することができる。
【0098】
このように、これらの実施形態では、第1言語の単語に関連する第2言語の飜訳語を適切に絞り込んで文書を検索したり、飜訳用例を容易に調査したりすることができるようになる。
【0099】
【発明の効果】
以上説明したように、本発明によれば、2種類の言語を用いて文書を検索するのに好適な検索装置、検索方法、ならびに、これらをコンピュータ上で実現するプログラムを提供することができる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る検索装置の概要構成を示す模式図である。
【図2】本実施形態の検索装置にて実行される検索処理の制御の流れを示すフローチャートである。
【図3】対訳記憶部に各言語の単語列が記憶される様子を示す説明図である。
【図4】ウェブブラウザに文書が表示される様子を示す説明図である。
【図5】表示部による表示例を示す説明図である。
【図6】文書の検索結果を表示する表示例を示す説明図である。
【図7】表示部による表示例を示す説明図である。
【図8】文書の検索結果を表示する表示例を示す説明図である。
【符号の説明】
101 検索装置
102 対訳記憶部
103 入力受付部
104 抽出部
105 表示部
106 選択部
107 検索部
501 画面
502 上段
503 中段
504 下段
511 ボタン
512 ボタン
Claims (12)
- 対訳記憶部と、入力受付部と、抽出部と、表示部と、選択部と、検索部と、を備える検索装置であって、
前記対訳記憶部は、第1言語の単語列と、第2言語の単語列と、を対訳対としてあらかじめ記憶し、
前記入力受付部は、第1言語の単語の入力を1つ以上受け付け、
前記抽出部は、前記入力を受け付けられた1つ以上の第1言語の単語のそれぞれについて、当該第1言語の単語と、前記あらかじめ記憶された対訳対における第2言語の単語と、の共起強度により、第2言語の単語を1つ以上抽出し、
前記表示部は、前記抽出された1つ以上の第2言語の単語を表示し、
前記選択部は、当該表示された第2言語の単語からいずれか1つ以上を指定する選択入力を受け付け、
前記検索部は、前記受け付けられた選択入力に指定された第2言語の単語を含む文書を検索する
ことを特徴とするもの。 - 請求項1に記載の検索装置であって、
前記表示部は、前記入力を受け付けられた第1言語の単語が複数ある場合、当該第1言語の単語ごとに、これに対して1つ以上抽出された当該第2言語の単語を表示する
ことを特徴とするもの。 - 請求項1に記載の検索装置であって、
前記抽出部は、前記入力を受け付けられた1つ以上の第1言語の単語のそれぞれについて、前記あらかじめ記憶された対訳対における共起強度により、第1言語の単語を1つ以上さらに抽出し、
前記表示部は、前記抽出された1つ以上の第1言語の単語をさらに表示し、
前記選択部は、前記表示された第1言語の単語もしくは第2言語の単語からいずれか1つ以上を指定する選択入力をさらに受け付け、
前記検索部は、第1言語の文書と第2言語の文書との文書対から、文書対であって、前記受け付けられた選択入力に第1言語の単語が指定されている場合、その第1言語の文書が当該第1言語の単語を含み、前記受け付けられた選択入力に第2言語の単語が指定されている場合、その第2言語の文書が当該第2言語の単語を含むものを検索する
ことを特徴とするもの。 - 請求項3に記載の検索装置であって、
前記検索部により検索される文書対は、前記対訳記憶部にあらかじめ記憶される対訳対であり、当該文書対の第1言語の文書は当該対訳対の第1言語の単語列であり、当該文書対の第2言語の文書は当該対訳対の第2言語の単語列である
ことを特徴とするもの。 - 請求項1から4のいずれか1項に記載の検索装置であって、
前記入力受付部は、第1言語の自然文の入力を受け付け、これを第1言語の単語列に分割して、分割したものを1つ以上の第1言語の単語の入力として受け付ける
ことを特徴とするもの。 - 第1言語の単語列と、第2言語の単語列と、を対訳対としてあらかじめ記憶する対訳記憶部を用いる検索方法であって、入力受付工程と、抽出工程と、表示工程と、選択工程と、検索工程と、を備え、
前記入力受付工程では、第1言語の単語の入力を1つ以上受け付け、
前記抽出工程では、前記入力を受け付けられた1つ以上の第1言語の単語のそれぞれについて、当該第1言語の単語と、前記あらかじめ記憶された対訳対における第2言語の単語と、の共起強度により、第2言語の単語を1つ以上抽出し、前記表示工程では、前記抽出された1つ以上の第2言語の単語を表示し、
前記選択工程では、当該表示された第2言語の単語からいずれか1つ以上を指定する選択入力を受け付け、
前記検索工程では、前記受け付けられた選択入力に指定された第2言語の単語を含む文書を検索する
ことを特徴とする方法。 - 請求項6に記載の検索方法であって、
前記表示工程では、前記入力を受け付けられた第1言語の単語が複数ある場合、当該第1言語の単語ごとに、これに対して1つ以上抽出された当該第2言語の単語を表示する
ことを特徴とする方法。 - 請求項6に記載の検索方法であって、
前記抽出工程では、前記入力を受け付けられた1つ以上の第1言語の単語のそれぞれについて、前記あらかじめ記憶された対訳対における共起強度により、第1言語の単語を1つ以上さらに抽出し、
前記表示工程では、前記抽出された1つ以上の第1言語の単語をさらに表示し、
前記選択工程では、前記表示された第1言語の単語もしくは第2言語の単語からいずれか1つ以上を指定する選択入力をさらに受け付け、
前記検索工程では、第1言語の文書と第2言語の文書との文書対から、文書対であって、前記受け付けられた選択入力に第1言語の単語が指定されている場合、その第1言語の文書が当該第1言語の単語を含み、前記受け付けられた選択入力に第2言語の単語が指定されている場合、その第2言語の文書が当該第2言語の単語を含むものを検索する
ことを特徴とする方法。 - 請求項8に記載の検索方法であって、
前記検索工程により検索される文書対は、前記対訳記憶部にあらかじめ記憶される対訳対であり、当該文書対の第1言語の文書は当該対訳対の第1言語の単語列であり、当該文書対の第2言語の文書は当該対訳対の第2言語の単語列である
ことを特徴とする方法。 - 請求項6から9のいずれか1項に記載の検索方法であって、
前記入力受付工程では、第1言語の自然文の入力を受け付け、これを第1言語の単語列に分割して、分割したものを1つ以上の第1言語の単語の入力として受け付ける
ことを特徴とする方法。 - コンピュータを、請求項1から5のいずれか1項に記載の検索装置として機能させることを特徴とするプログラム。
- コンピュータに、請求項6から10のいずれか1項に記載の検索方法を実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003068185A JP2004280259A (ja) | 2003-03-13 | 2003-03-13 | 検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003068185A JP2004280259A (ja) | 2003-03-13 | 2003-03-13 | 検索装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004280259A true JP2004280259A (ja) | 2004-10-07 |
Family
ID=33285594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003068185A Pending JP2004280259A (ja) | 2003-03-13 | 2003-03-13 | 検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004280259A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011227825A (ja) * | 2010-04-22 | 2011-11-10 | Kddi Corp | タグ付与装置、変換規則生成装置およびタグ付与プログラム |
KR101098703B1 (ko) * | 2006-02-28 | 2011-12-23 | 야후! 인크. | 다수의 기입 시스템을 가진 언어들에 대한 관련 쿼리들을 식별하기 위한 시스템 및 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05342253A (ja) * | 1992-06-09 | 1993-12-24 | Mitsubishi Electric Corp | 辞書構築支援装置及び辞書構築支援方法 |
JPH06274541A (ja) * | 1993-03-17 | 1994-09-30 | Nippon Steel Corp | 文献検索システム |
JPH0944523A (ja) * | 1995-07-27 | 1997-02-14 | Fuji Xerox Co Ltd | 関連語提示装置 |
JPH1145274A (ja) * | 1997-07-28 | 1999-02-16 | Just Syst Corp | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001306602A (ja) * | 2000-04-25 | 2001-11-02 | Taikiyoku Kk | 情報提供方法及び情報提供サーバ並びに記録媒体 |
JP2002063201A (ja) * | 2000-08-17 | 2002-02-28 | Nova Asia:Kk | コンピュータネットワークを用いた多言語対応情報検索方法及び検索兼翻訳ツールバー |
-
2003
- 2003-03-13 JP JP2003068185A patent/JP2004280259A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05342253A (ja) * | 1992-06-09 | 1993-12-24 | Mitsubishi Electric Corp | 辞書構築支援装置及び辞書構築支援方法 |
JPH06274541A (ja) * | 1993-03-17 | 1994-09-30 | Nippon Steel Corp | 文献検索システム |
JPH0944523A (ja) * | 1995-07-27 | 1997-02-14 | Fuji Xerox Co Ltd | 関連語提示装置 |
JPH1145274A (ja) * | 1997-07-28 | 1999-02-16 | Just Syst Corp | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001306602A (ja) * | 2000-04-25 | 2001-11-02 | Taikiyoku Kk | 情報提供方法及び情報提供サーバ並びに記録媒体 |
JP2002063201A (ja) * | 2000-08-17 | 2002-02-28 | Nova Asia:Kk | コンピュータネットワークを用いた多言語対応情報検索方法及び検索兼翻訳ツールバー |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101098703B1 (ko) * | 2006-02-28 | 2011-12-23 | 야후! 인크. | 다수의 기입 시스템을 가진 언어들에 대한 관련 쿼리들을 식별하기 위한 시스템 및 방법 |
JP2011227825A (ja) * | 2010-04-22 | 2011-11-10 | Kddi Corp | タグ付与装置、変換規則生成装置およびタグ付与プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6904429B2 (en) | Information retrieval apparatus and information retrieval method | |
US7783644B1 (en) | Query-independent entity importance in books | |
US9323827B2 (en) | Identifying key terms related to similar passages | |
US6366908B1 (en) | Keyfact-based text retrieval system, keyfact-based text index method, and retrieval method | |
JP5216063B2 (ja) | 未登録語のカテゴリを決定する方法と装置 | |
US20070219986A1 (en) | Method and apparatus for extracting terms based on a displayed text | |
TW200842614A (en) | Automatic disambiguation based on a reference resource | |
JP2003167914A (ja) | マルチメディア情報検索方法、プログラム、記録媒体及びシステム | |
US20100257177A1 (en) | Document rating calculation system, document rating calculation method and program | |
KR100396826B1 (ko) | 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법 | |
Alami et al. | Arabic text summarization based on graph theory | |
Bhoir et al. | Question answering system: A heuristic approach | |
Taghva et al. | Manicure document processing system | |
JP2004280259A (ja) | 検索装置 | |
JP2002123544A (ja) | 検索前処理装置、文書検索装置、検索前処理方法及び文書検索方法 | |
JP5094096B2 (ja) | 有名人の別表現の自動抽出装置、方法 | |
JP2009093429A (ja) | 検索システム及び検索方法 | |
Ababneh et al. | Arabic information retrieval: a relevancy assessment survey | |
JP2005234772A (ja) | 文書管理装置および方法 | |
Subalalitha et al. | Query Focused Summary Generation System using Unique Discourse Structure | |
JP7441982B2 (ja) | クエリ整形システム、クエリ整形方法、及びプログラム | |
Suryavanshi et al. | Hindi Multi-Document Text Summarization Using Text Rank Algorithm | |
Ratianantitra et al. | Malagasy text summarization by sentence extraction | |
US20230096564A1 (en) | Chunking execution system, chunking execution method, and information storage medium | |
JP2006039811A (ja) | ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060418 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060801 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061205 |