JP2002259424A - クロスリンガル情報検索方法及び装置及びプログラム - Google Patents

クロスリンガル情報検索方法及び装置及びプログラム

Info

Publication number
JP2002259424A
JP2002259424A JP2001059290A JP2001059290A JP2002259424A JP 2002259424 A JP2002259424 A JP 2002259424A JP 2001059290 A JP2001059290 A JP 2001059290A JP 2001059290 A JP2001059290 A JP 2001059290A JP 2002259424 A JP2002259424 A JP 2002259424A
Authority
JP
Japan
Prior art keywords
word
search
language
cross
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001059290A
Other languages
English (en)
Inventor
Norio Goto
功雄 後藤
Terumasa Ebara
暉将 江原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2001059290A priority Critical patent/JP2002259424A/ja
Publication of JP2002259424A publication Critical patent/JP2002259424A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 本発明は、検索対象の外来の単語が辞書に登
録されていない場合にもクロスリンガル情報検索が可能
なクロスリンガル情報検索方法及び装置及びプログラム
を提供することを目的とする。 【解決手段】 検索対象の単語に関連する単語を文章中
の周辺文脈から抽出し、抽出された単語を他言語に翻訳
して検索用のキーワードを作成し、キーワードを用いて
他言語データベース中の文書を検索することにより、検
索対象の外来の単語が辞書に登録されていない場合にも
クロスリンガル情報検索が可能となる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、クロスリンガル情
報検索方法及び装置及びプログラムに関し、外来の単語
に対して他言語データベースから他言語の検索対象を検
索するクロスリンガル情報検索方法及び装置及びプログ
ラムに関する。
【0002】
【従来の技術】従来から、検索元言語として例えば日本
語で書かれた文章中にある外来の単語に対して、外国語
すなわち検索対象言語(他言語)の元の単語を、WWW
(World Wide Web)ページの集合等の他
言語データベースから検索するクロスリンガル情報検索
装置が開発されている。
【0003】従来のクロスリンガル情報検索装置では、
検索対象の外来の単語そのものを辞書を利用して検索対
象言語(他言語)に翻訳し、キーワードを作成する。そ
して、そのキーワードを利用して検索対象である他言語
データベースの検索を行っている。
【0004】
【発明が解決しようとする課題】従来の技術では、検索
対象の表現そのものを、辞書を利用して検索対象言語に
翻訳してキーワードを作成しているために、新しい外来
の単語など辞書に登録されていない単語を対象としたク
ロスリンガル情報検索を行うことは不可能であるという
問題があった。
【0005】本発明は、上記の点に鑑みなされたもの
で、検索対象の外来の単語が辞書に登録されていない場
合にもクロスリンガル情報検索が可能なクロスリンガル
情報検索方法及び装置及びプログラムを提供することを
目的とする。
【0006】
【課題を解決するための手段】請求項1に記載の発明
は、検索対象の単語に関連する単語を前記文章中の周辺
文脈から抽出し、抽出された単語を他言語に翻訳して検
索用のキーワードを作成し、前記キーワードを用いて前
記他言語データベース中の文書を検索することにより、
検索対象の外来の単語が辞書に登録されていない場合に
もクロスリンガル情報検索が可能となる。
【0007】請求項2に記載の発明では、検索された文
書中の前記キーワードの近辺から抽出した他言語の単語
と前記外来の単語との発音に基づく類似度を計算して類
似度の高い他言語の単語を検索結果とすることにより、
外来の単語の発音が他言語の元の発音に類似するという
特性を利用して精度の高い検索結果を得ることができ
る。
【0008】請求項3に記載の発明は、検索された文書
中の前記キーワードの近辺から抽出した他言語の単語か
ら推定した検索元言語の文字列と、検索元言語の前記外
来の単語の文字列との類似度を計算して類似度の高い他
言語の単語を検索結果とすることにより、他言語の単語
から推定した検索元言語の文字列が外来の単語に類似す
るという特性を利用して精度の高い検索結果を得ること
ができる。
【0009】請求項4に記載の発明は、検索された文書
中の前記キーワードの近辺から抽出した他言語の単語の
文字列と、検索元言語の前記外来の単語から推定した他
言語の文字列との類似度を計算して類似度の高い他言語
の単語を検索結果とすることにより、他言語の単語が外
来の単語から推定した他言語の文字列に類似するという
特性を利用して精度の高い検索結果を得ることができ
る。
【0010】請求項5に記載の発明は、検索対象の単語
に関連する単語を前記文章中の周辺文脈から抽出する抽
出手段と、抽出された単語を他言語に翻訳して検索用の
キーワードを作成するキーワード作成手段と、前記キー
ワードを用いて前記他言語データベース中の文書を検索
する検索手段とを有することにより、検索対象の外来の
単語が辞書に登録されていない場合にもクロスリンガル
情報検索が可能となる。
【0011】請求項6に記載の発明では、前記検索手段
で検索された文書中の前記キーワードの近辺から抽出し
た他言語の単語と前記外来の単語との発音に基づく類似
度を計算して類似度の高い他言語の単語を検索結果とす
る判別手段を有することより、外来の単語の発音が他言
語の元の発音に類似するという特性を利用して精度の高
い検索結果を得ることができる。
【0012】請求項7に記載の発明は、検索された文書
中の前記キーワードの近辺から抽出した他言語の単語か
ら推定した検索元言語の文字列と、検索元言語の前記外
来の単語の文字列との類似度を計算して類似度の高い他
言語の単語を検索結果とする判別手段を有することによ
り、他言語の単語から推定した検索元言語の文字列が外
来の単語に類似するという特性を利用して精度の高い検
索結果を得ることができる。
【0013】請求項8に記載の発明は、検索された文書
中の前記キーワードの近辺から抽出した他言語の単語の
文字列と、検索元言語の前記外来の単語から推定した他
言語の文字列との類似度を計算して類似度の高い他言語
の単語を検索結果とする判別手段を有することにより、
他言語の単語が外来の単語から推定した他言語の文字列
に類似するという特性を利用して精度の高い検索結果を
得ることができる。
【0014】請求項9に記載の発明は、検索対象の単語
に関連する単語を前記文章中の周辺文脈から抽出させ、
抽出された単語を他言語に翻訳して検索用のキーワード
を作成させ、前記キーワードを用いて前記他言語データ
ベース中の文書を検索させることにより、検索対象の外
来の単語が辞書に登録されていない場合にもクロスリン
ガル情報検索が可能となる。
【0015】請求項10に記載の発明では、検索された
文書中の前記キーワードの近辺から抽出した他言語の単
語と前記外来の単語との発音に基づく類似度を計算させ
類似度の高い他言語の単語を検索結果とすることより、
外来の単語の発音が他言語の元の発音に類似するという
特性を利用して精度の高い検索結果を得ることができ
る。
【0016】請求項11に記載の発明は、検索された文
書中の前記キーワードの近辺から抽出した他言語の単語
から推定した検索元言語の文字列と、検索元言語の前記
外来の単語の文字列との類似度を計算して類似度の高い
他言語の単語を検索結果とすることにより、他言語の単
語から推定した検索元言語の文字列が外来の単語に類似
するという特性を利用して精度の高い検索結果を得るこ
とができる。
【0017】請求項12に記載の発明は、請求項9記載
のクロスリンガル情報検索プログラムにおいて、検索さ
れた文書中の前記キーワードの近辺から抽出した他言語
の単語の文字列と、検索元言語の前記外来の単語から推
定した他言語の文字列との類似度を計算して類似度の高
い他言語の単語を検索結果とすることにより、他言語の
単語が外来の単語から推定した他言語の文字列に類似す
るという特性を利用して精度の高い検索結果を得ること
ができる。
【0018】
【発明の実施の形態】以下、図面を参照して本発明の実
施例について説明する。
【0019】まず、本発明の概要を説明する。検索対象
の文章中の外来の単語について、他言語の検索対象言語
に翻訳するための辞書に、その外来の単語が登録されて
なく、直接キーワードを作成できない場合にもクロスリ
ンガル情報検索を行うために、その検索対象の文章中の
外来の単語の周辺文脈からキーワードを作成してクロス
リンガル情報検索を行う。検索対象の外来の単語の周辺
文脈で、その外来の単語が人名である場合は、社会的位
置づけを意味的に説明している所属や、肩書き等のその
外来の単語に関連のある単語を、辞書を用いて検索対象
言語に変換し、キーワード候補の集合を作成する。
【0020】作成したキーワード候補を組み合わせて複
数のキーワードを作成し、そのキーワードを利用してW
WWページの集合等の他言語データベース中の文書を検
索する。キーワードが複数のキーワード候補より構成さ
れる場合は、検索時に複数のキーワード候補の単語が他
言語データベース中の文書中で近い位置に出現する文書
を優先する。
【0021】検索された文書中でキーワードが出現した
近辺において、外来の単語に対し他言語の元の単語を推
定する。外来の単語は、出典となる他言語の発音の影響
を大きく受けており、他言語の元の発音に類似している
ので、検索対象である検索元の言語で表現された外来の
単語と、外国語の元の単語であると推定した検索対象言
語で表現された単語とを、それぞれの文字列から発音を
推定してその発音を記号化し、それらを比較して類似度
を計算し、類似度の高いものを検索結果として表示す
る。
【0022】以上の方法により、検索対象の外来の単語
が辞書に登録されていない場合にも他言語データベース
の文書からクロスリンガル情報検索を行うことを可能に
したものである。
【0023】次に、具体例を挙げて説明する。本実施例
では情報検索システムの一例としてインターネット上に
ハイパーテキストを構築し、他言語で表現された資源の
検索処理をクライアントとサーバとの間で行う。なお、
他言語で表現された資源の集合としては、インターネッ
ト上のWWWページの集合を用いる。ハイパーテキスト
はHTML(Hypertext Transfer
Markup Language)を用いて表現する。
クライアントとサーバとの通信プロトコルとしては、H
TTP(Hypertext Transfer Pr
otocol)を用いる。この他に、画像等を表現でき
る各種の言語を併用することも可能である。
【0024】図1は、本発明の情報検索システムの一実
施例の構成図を示す。同図中、クライアント側の情報検
索装置100と、他言語で表現された資源を提供するサ
ーバ装置200とは、インターネット300に接続され
ている。
【0025】情報検索装置100には、装置全体の統括
的な処理を行うCPU、及び本発明に係る制御プログラ
ムを記録したROM,RAM,その他の記憶装置を有す
る処理部110と、表示部120と、抽出部130と、
キーワード作成部140と、検索部150と、判別部1
60と、インターネット300を介して通信を行う通信
部170とが設けられており、これら各部は内部バス1
80によって接続されている。
【0026】表示部120は、検索元の文章を表示して
その文章中から外来の単語を選択し、また、検索結果の
単語及び文書を表示または印刷等により出力する。抽出
部130は、表示部120に表示されている文章中から
選択された外来の単語の周辺文脈で、その外来の単語に
関連する単語を抽出する。
【0027】キーワード作成部140は、抽出部130
で抽出された単語を辞書を用いて検索対象言語つまり他
言語に変換してキーワード候補の集合を作成し、その組
み合わせにより複数のキーワードを作成する。検索部1
50は、インターネット100に接続されたサーバ装置
200側のWWWページの集合からキーワードを含むW
WWページ210を検索する。
【0028】判別部160は、検索結果の適切さの度合
いを判別して、適切さの度合いが高いものを検索結果と
して表示部120に表示させる。ここでは、検索キーワ
ード近辺から抽出した検索対象言語の単語と、検索対象
である検索元言語で表現された外来の単語との発音の類
似度を計算し、発音の類似度が高いものほど適切さの度
合いを高くする。
【0029】図2及び図3は、情報検索装置100が実
行する情報検索処理の一実施例のフローチャートを示
す。利用者は他言語データベースから情報検索を行う場
合、図2のステップS1で、情報検索装置100の表示
部150に表示されている文章中の検索を行いたい外来
の単語を選択し、検索ボタンを押す。例えば、他言語デ
ータベースをインターネット上のWWWページの集合と
し、検索元言語を日本語、検索対象言語を英語とし、
「ユニセフのベラミー事務総長が…」という文章中のカ
タカナで表現された外来の単語「ベラミー」を選択して
検索対象とする。
【0030】ステップS2では、選択された外来の単語
の周辺文脈で、例えば、その外来の単語が人名である場
合は、社会的位置づけを意味的に説明している所属や肩
書き等のその外来の単語に関連がある単語を抽出する。
例えば「ユニセフ」と「事務総長」を抽出する。
【0031】ステップS3では、抽出された単語を、辞
書を用いて検索対象言語に変換し、キーワード候補の集
合を作成する。例えば「ユニセフ」を”Unice
f”,”United Nations Childr
en’s Fund”に変換し、「事務総長」を”Di
rector General”,”executiv
esecuretary”,”securetary
general”,”Executive Direc
tor” に変換する。
【0032】ステップS4では、作成したキーワードの
候補の集合から、キーワードの候補の組み合わせにより
複数のキーワードを作成する。例えば「”Unice
f””Director General”」,「”U
nicef” ”executive securet
ary”」,「”Unicef” ”secureta
ry general”」,「”Unicef” ” E
xecutive Director”」,「”Uni
ted Nations Children’s Fu
nd” ”Director General”」「”
UnitedNations Children’s
Fund” ”executivesecuretar
y”」,「”United Nations Chil
dren’s Fund” ”securetary
general”」,「”United Nation
s Children’s Fund” ” Execu
tive Director”」をキーワードとして作
成する。
【0033】ステップS5では、作成したキーワードを
用いてWWWページの集合等の、他言語データベース中
の文書の検索を行う。
【0034】図3のステップS6では、検索時にキーワ
ードが複数の単語より構成される場合は、キーワードで
ある複数の単語が互いに近い位置に出現する文書を優先
する。「”Unicef” ”Director Ge
neral”」で検索を行った場合、”Unicef”
と ”Director General”が、例えば
1頁以内等の互いに近い位置に出現している文書を検索
結果として優先する。
【0035】ステップS7では、検索された文書におけ
るキーワードの近辺(例えば数単語から10数単語等の
所定単語数以内)の単語を検索結果の翻訳語候補と推定
して抽出する。ここでは、キーワードに近い単語を優先
しつつ、固有名詞など外来の単語になりやすい単語を優
先し、キーワードが含まれる文に含まれる単語を翻訳語
候補と推定する。例えば、検索された文書が「UNCE
F Executive Director Caro
l Bellamy visited…」となっていた
場合に、単語「Caro1 Bellamy」を抽出す
る。
【0036】ステップS8では、ステップS7で抽出し
た単語の言語である検索対象言語で表現された単語と、
ステップS1で選択した検索対象である検索元言語で表
現された外来の単語を、それぞれ文字列から発音を推定
してその発音を記号化する。ここでは、発音の記号化を
ローマ字のアルファベットを用いると、検索元言語の
「ベラミー」を「berami」と記号化し、検索対象
言語の「Carol」を「kyarol」と記号化し、
検索対象言語の「Bellamy」を「berami」
と記号化する。
【0037】ステップS9では、ステップS8で発音を
記号化したものを比較して類似度を計算してスコア付け
を行い、類似度の高いものを検索結果として表示部12
0に表示する。ここで、「ベラミー」と「Carol」
は、記号化された発音表現が異なるので、類似度は非常
に低いものの、「ベラミー」と「Bellamy」は、
記号化された発音表現では「berami」で同一であ
るので、類似度は非常に高い。したがって、「Caro
l Bellamy」は、対訳表現である可能性が高い
と判断する。これによって、検索結果は以下の通りとな
る。 検索結果の単語表現:「Carol Bellamy」 検索結果文書:「Carol Bellamy」が含ま
れるWWWページ このように、文章中の外来の単語などの検索対象となる
単語に周辺文脈のある場合についてクロスリンガル情報
検索を行う際に、検索対象の外来の単語が辞書に登録さ
れていない場合にもクロスリンガル情報検索が可能とな
り、次々に出てくる新しい外来の単語の情報検索におい
て、検索可能な単語の範囲を飛躍的に拡大することがで
きる。
【0038】なお、上記実施例では、検索対象言語(他
言語)で表現された単語と検索元言語で表現された外来
の単語それぞれの発音を記号化して類似度を計算してい
るが、検索対象言語で表現された単語の文字列パターン
を分析する等によって検索元言語の文字列を推定し、こ
の推定した文字列と検索元言語で表現された外来の単語
の文字列との類似度を計算しても良い。
【0039】また逆に、検索元言語で表現された外来の
単語の文字列パターンを分析する等によって検索対象言
語の文字列を推定し、この推定した文字列と検索対象言
語で表現された単語の文字列との類似度を計算しても良
く、上記実施例に限定されない。
【0040】なお、抽出部130が請求項記載の抽出手
段に対応し、キーワード作成部140がキーワード作成
手段に対応し、検索部150が検索手段に対応し、判別
部160が判別手段に対応する。
【0041】
【発明の効果】上述の如く、請求項1に記載の発明は、
検索対象の単語に関連する単語を文章中の周辺文脈から
抽出し、抽出された単語を他言語に翻訳して検索用のキ
ーワードを作成し、キーワードを用いて他言語データベ
ース中の文書を検索することにより、検索対象の外来の
単語が辞書に登録されていない場合にもクロスリンガル
情報検索が可能となる。
【0042】請求項2に記載の発明では、検索された文
書中のキーワードの近辺から抽出した他言語の単語と外
来の単語との発音に基づく類似度を計算して類似度の高
い他言語の単語を検索結果とすることにより、外来の単
語の発音が他言語の元の発音に類似するという特性を利
用して精度の高い検索結果を得ることができる。
【0043】請求項3に記載の発明は、検索された文書
中のキーワードの近辺から抽出した他言語の単語から推
定した検索元言語の文字列と、検索元言語の外来の単語
の文字列との類似度を計算して類似度の高い他言語の単
語を検索結果とすることにより、他言語の単語から推定
した検索元言語の文字列が外来の単語に類似するという
特性を利用して精度の高い検索結果を得ることができ
る。
【0044】請求項4に記載の発明は、検索された文書
中のキーワードの近辺から抽出した他言語の単語の文字
列と、検索元言語の外来の単語から推定した他言語の文
字列との類似度を計算して類似度の高い他言語の単語を
検索結果とすることにより、他言語の単語が外来の単語
から推定した他言語の文字列に類似するという特性を利
用して精度の高い検索結果を得ることができる。
【0045】請求項5に記載の発明は、検索対象の単語
に関連する単語を文章中の周辺文脈から抽出する抽出手
段と、抽出された単語を他言語に翻訳して検索用のキー
ワードを作成するキーワード作成手段と、キーワードを
用いて他言語データベース中の文書を検索する検索手段
ととを有することにより、検索対象の外来の単語が辞書
に登録されていない場合にもクロスリンガル情報検索が
可能となる。
【0046】請求項6に記載の発明では、検索手段で検
索された文書中のキーワードの近辺から抽出した他言語
の単語と外来の単語との発音に基づく類似度を計算して
類似度の高い他言語の単語を検索結果とする判別手段を
有することより、外来の単語の発音が他言語の元の発音
に類似するという特性を利用して精度の高い検索結果を
得ることができる。
【0047】請求項7に記載の発明は、検索された文書
中のキーワードの近辺から抽出した他言語の単語から推
定した検索元言語の文字列と、検索元言語の外来の単語
の文字列との類似度を計算して類似度の高い他言語の単
語を検索結果とする判別手段を有することにより、他言
語の単語から推定した検索元言語の文字列が外来の単語
に類似するという特性を利用して精度の高い検索結果を
得ることができる。
【0048】請求項8に記載の発明は、検索された文書
中のキーワードの近辺から抽出した他言語の単語の文字
列と、検索元言語の外来の単語から推定した他言語の文
字列との類似度を計算して類似度の高い他言語の単語を
検索結果とする判別手段を有することにより、他言語の
単語が外来の単語から推定した他言語の文字列に類似す
るという特性を利用して精度の高い検索結果を得ること
ができる。
【0049】請求項9に記載の発明は、検索対象の単語
に関連する単語を文章中の周辺文脈から抽出させ、抽出
された単語を他言語に翻訳して検索用のキーワードを作
成させ、キーワードを用いて他言語データベース中の文
書を検索させることにより、検索対象の外来の単語が辞
書に登録されていない場合にもクロスリンガル情報検索
が可能となる。
【0050】請求項10に記載の発明では、検索された
文書中のキーワードの近辺から抽出した他言語の単語と
外来の単語との発音に基づく類似度を計算させ類似度の
高い他言語の単語を検索結果とすることより、外来の単
語の発音が他言語の元の発音に類似するという特性を利
用して精度の高い検索結果を得ることができる。
【0051】請求項11に記載の発明は、検索された文
書中のキーワードの近辺から抽出した他言語の単語から
推定した検索元言語の文字列と、検索元言語の外来の単
語の文字列との類似度を計算して類似度の高い他言語の
単語を検索結果とすることにより、他言語の単語から推
定した検索元言語の文字列が外来の単語に類似するとい
う特性を利用して精度の高い検索結果を得ることができ
る。
【0052】請求項12に記載の発明は、請求項9記載
のクロスリンガル情報検索プログラムにおいて、検索さ
れた文書中のキーワードの近辺から抽出した他言語の単
語の文字列と、検索元言語の外来の単語から推定した他
言語の文字列との類似度を計算して類似度の高い他言語
の単語を検索結果とすることにより、他言語の単語が外
来の単語から推定した他言語の文字列に類似するという
特性を利用して精度の高い検索結果を得ることができ
る。
【図面の簡単な説明】
【図1】本発明の情報検索システムの一実施例の構成図
である。
【図2】情報検索処理の一実施例のフローチャートであ
る。
【図3】情報検索処理の一実施例のフローチャートであ
る。
【符号の説明】
100 情報検索装置 110 処理部 120 表示部 130 抽出部 140 キーワード作成部 150 検索部 160 判別部 170 通信部 180 内部バス 200 サーバ装置 210 WWWページ 300 インターネット

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 検索元言語で書かれた文章中の外来の単
    語に対して、他言語の元の単語を他言語データベースか
    ら検索するクロスリンガル情報検索方法において、 検索対象の単語に関連する単語を前記文章中の周辺文脈
    から抽出し、 抽出された単語を他言語に翻訳して検索用のキーワード
    を作成し、 前記キーワードを用いて前記他言語データベース中の文
    書を検索することを特徴とするクロスリンガル情報検索
    方法。
  2. 【請求項2】 請求項1記載のクロスリンガル情報検索
    方法において、 検索された文書中の前記キーワードの近辺から抽出した
    他言語の単語と前記外来の単語との発音に基づく類似度
    を計算して類似度の高い他言語の単語を検索結果とする
    ことを特徴とするクロスリンガル情報検索方法。
  3. 【請求項3】 請求項1記載のクロスリンガル情報検索
    方法において、 検索された文書中の前記キーワードの近辺から抽出した
    他言語の単語から推定した検索元言語の文字列と、検索
    元言語の前記外来の単語の文字列との類似度を計算して
    類似度の高い他言語の単語を検索結果とすることを特徴
    とするクロスリンガル情報検索方法。
  4. 【請求項4】 請求項1記載のクロスリンガル情報検索
    方法において、 検索された文書中の前記キーワードの近辺から抽出した
    他言語の単語の文字列と、検索元言語の前記外来の単語
    から推定した他言語の文字列との類似度を計算して類似
    度の高い他言語の単語を検索結果とすることを特徴とす
    るクロスリンガル情報検索方法。
  5. 【請求項5】 検索元言語で書かれた文章中の外来の単
    語に対して、他言語の元の単語を他言語データベースか
    ら検索するクロスリンガル情報検索装置において、 検索対象の単語に関連する単語を前記文章中の周辺文脈
    から抽出する抽出手段と、 抽出された単語を他言語に翻訳して検索用のキーワード
    を作成するキーワード作成手段と、 前記キーワードを用いて前記他言語データベース中の文
    書を検索する検索手段とを有することを特徴とするクロ
    スリンガル情報検索装置。
  6. 【請求項6】 請求項5記載のクロスリンガル情報検索
    装置において、 前記検索手段で検索された文書中の前記キーワードの近
    辺から抽出した他言語の単語と前記外来の単語との発音
    に基づく類似度を計算して類似度の高い他言語の単語を
    検索結果とする判別手段を有することを特徴とするクロ
    スリンガル情報検索装置。
  7. 【請求項7】 請求項5記載のクロスリンガル情報検索
    装置において、 検索された文書中の前記キーワードの近辺から抽出した
    他言語の単語から推定した検索元言語の文字列と、検索
    元言語の前記外来の単語の文字列との類似度を計算して
    類似度の高い他言語の単語を検索結果とする判別手段を
    有することを特徴とするクロスリンガル情報検索装置。
  8. 【請求項8】 請求項5記載のクロスリンガル情報検索
    装置において、 検索された文書中の前記キーワードの近辺から抽出した
    他言語の単語の文字列と、検索元言語の前記外来の単語
    から推定した他言語の文字列との類似度を計算して類似
    度の高い他言語の単語を検索結果とする判別手段を有す
    ることを特徴とするクロスリンガル情報検索装置。
  9. 【請求項9】 コンピュータによって、検索元言語で書
    かれた文章中の外来の単語に対して、他言語の元の単語
    を他言語データベースから検索するためのクロスリンガ
    ル情報検索プログラムにおいて、 検索対象の単語に関連する単語を前記文章中の周辺文脈
    から抽出させ、 抽出された単語を他言語に翻訳して検索用のキーワード
    を作成させ、前記キーワードを用いて前記他言語データ
    ベース中の文書を検索させることを特徴とするクロスリ
    ンガル情報検索プログラム。
  10. 【請求項10】 請求項9記載のクロスリンガル情報検
    索プログラムにおいて、 検索された文書中の前記キーワードの近辺から抽出した
    他言語の単語と前記外来の単語との発音に基づく類似度
    を計算させ類似度の高い他言語の単語を検索結果とする
    ことを特徴とするクロスリンガル情報検索プログラム。
  11. 【請求項11】 請求項9記載のクロスリンガル情報検
    索プログラムにおいて、 検索された文書中の前記キーワードの近辺から抽出した
    他言語の単語から推定した検索元言語の文字列と、検索
    元言語の前記外来の単語の文字列との類似度を計算して
    類似度の高い他言語の単語を検索結果とすることを特徴
    とするクロスリンガル情報検索プログラム。
  12. 【請求項12】 請求項9記載のクロスリンガル情報検
    索プログラムにおいて、 検索された文書中の前記キーワードの近辺から抽出した
    他言語の単語の文字列と、検索元言語の前記外来の単語
    から推定した他言語の文字列との類似度を計算して類似
    度の高い他言語の単語を検索結果とすることを特徴とす
    るクロスリンガル情報検索プログラム。
JP2001059290A 2001-03-02 2001-03-02 クロスリンガル情報検索方法及び装置及びプログラム Pending JP2002259424A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001059290A JP2002259424A (ja) 2001-03-02 2001-03-02 クロスリンガル情報検索方法及び装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001059290A JP2002259424A (ja) 2001-03-02 2001-03-02 クロスリンガル情報検索方法及び装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2002259424A true JP2002259424A (ja) 2002-09-13

Family

ID=18918871

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001059290A Pending JP2002259424A (ja) 2001-03-02 2001-03-02 クロスリンガル情報検索方法及び装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2002259424A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010519655A (ja) * 2007-02-26 2010-06-03 ベイシス テクノロジー コーポレーション 名前照合システムの名前インデックス付け
WO2014100029A1 (en) * 2012-12-20 2014-06-26 Intel Corporation Method and apparatus for conducting context sensitive search with intelligent user interaction from within a media experience

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010519655A (ja) * 2007-02-26 2010-06-03 ベイシス テクノロジー コーポレーション 名前照合システムの名前インデックス付け
WO2014100029A1 (en) * 2012-12-20 2014-06-26 Intel Corporation Method and apparatus for conducting context sensitive search with intelligent user interaction from within a media experience
US9710545B2 (en) 2012-12-20 2017-07-18 Intel Corporation Method and apparatus for conducting context sensitive search with intelligent user interaction from within a media experience

Similar Documents

Publication Publication Date Title
JP3161942B2 (ja) 訳振り機械翻訳装置
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
US20070011132A1 (en) Named entity translation
JP2008276517A (ja) 訳文評価装置、訳文評価方法およびプログラム
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
TWI588668B (zh) Foreign language production support facilities and methods
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
Alex Automatic detection of English inclusions in mixed-lingual data with an application to parsing
US20080040352A1 (en) Method for creating a disambiguation database
Nghiem et al. Using MathML parallel markup corpora for semantic enrichment of mathematical expressions
Selab et al. Building TALAA, a Free General and Categorized Arabic Corpus.
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
JP2002259424A (ja) クロスリンガル情報検索方法及び装置及びプログラム
JP2519121B2 (ja) 情報検索装置
JP4007630B2 (ja) 対訳例文登録装置
JP2003330926A (ja) 翻訳方法、翻訳装置及び翻訳プログラム
Petrovčič et al. The New Chinese Corpus of Literary Texts Litchi
JP2621999B2 (ja) 文書処理装置
JP2018055620A (ja) 情報処理装置及びプログラム
JP5230664B2 (ja) 類似語検索サーバ及び方法
JP2008140074A (ja) 例文検索装置および例文検索処理プログラム
Raj et al. Transliteration based search engine for multilingual information access
Antony et al. Question Answering System for Tamil Using Deep Learning
JP2023163216A (ja) 検索システム及び検索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090120

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090526