JPH10228485A - 文書検索システムおよび同システムに適用される検索文書提示方法 - Google Patents

文書検索システムおよび同システムに適用される検索文書提示方法

Info

Publication number
JPH10228485A
JPH10228485A JP9033647A JP3364797A JPH10228485A JP H10228485 A JPH10228485 A JP H10228485A JP 9033647 A JP9033647 A JP 9033647A JP 3364797 A JP3364797 A JP 3364797A JP H10228485 A JPH10228485 A JP H10228485A
Authority
JP
Japan
Prior art keywords
document
search
language
presenting
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9033647A
Other languages
English (en)
Other versions
JP4010589B2 (ja
Inventor
Tetsuya Sakai
哲也 酒井
Kazuo Sumita
一男 住田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP03364797A priority Critical patent/JP4010589B2/ja
Publication of JPH10228485A publication Critical patent/JPH10228485A/ja
Application granted granted Critical
Publication of JP4010589B2 publication Critical patent/JP4010589B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】複数言語にわたる検索文書を動的に適切な言語
に統一して提示する文書検索システムを提供する。 【解決手段】提示言語決定部13は、検索部12によっ
て検索された文書それぞれの記述言語の種類をまず判定
する。そして、提示言語決定部13は、たとえば多数決
として最も数の多い記述言語を採用するなど、記述言語
の判定結果に応じて動的に検索文書を提示する際の提示
言語を決定し、その結果を翻訳部14に通知する。一
方、翻訳部14は、提示言語決定部13から通知された
提示言語以外の言語で記述された検索文書について、通
知された言語に翻訳してから検索結果出力部15に引き
渡す。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、複数の文書の中
から検索要求に合致した文書を検索して提示する文書検
索システムおよび検索文書提示方法に係り、特に複数言
語にわたる検索文書を動的に適切な言語に統一して提示
する文書検索システムおよび検索文書提示方法に関す
る。
【0002】
【従来の技術】近年、パソコン、インターネット、電子
図書館などの普及に伴ない、様々な言語で書かれた大量
の文書に個人がアクセスできるようになってきている。
このような状況により、膨大な情報の中から求める情報
のみを検索してユーザにわかりやすい形で提供する高度
な文書検索システムの需要が高まりつつある。
【0003】現在、異なる言語で書かれた文書を同時に
検索する検索システムが実用化されている。しかしなが
ら、このようなシステムの提示する検索結果には、当然
異なる言語で書かれた文書が混在しており、一般のユー
ザが情報を得るのは難しかった。
【0004】ユーザにとって理解の難しい言語で書かれ
た文書から情報を得るために、検索結果である個々の文
書を次々に機械翻訳システムにかけ、翻訳された文書を
読むという方法があるが、これは翻訳速度が十分でなけ
れば煩雑であり、また検索結果全体を同一言語で概観す
ることができないという問題があった。
【0005】また、複数の言語に堪能なユーザであって
も、検索結果によって異なる言語に統一して情報を得た
いと思う場合がある。たとえば、日本語が母国語のユー
ザであっても、検索結果の文書の大半が英語である場合
や、検索結果を利用して英語で論文などを書きたい場合
には、すべて英語で統一して情報集めを行なうかも知れ
ない。このようなときに、ユーザが予め言語を指定しな
くても、どの言語に統一して翻訳するかを検索結果に応
じて動的に決定するシステムは存在していなかった。
【0006】
【発明が解決しようとする課題】このように、今日では
世界中に点在する様々な言語で記述された文書を個人が
アクセスできるようになってきているが、従来の文書検
索システムでは、検索結果に互いに異なる言語で書かれ
た文書が混在したときに、これらの文書をそれらの言語
そのままに提示していたために、必ずしも使い勝手のが
よいとはいえなかいといった問題があった。
【0007】この発明はこのような実情に鑑みてなされ
たものであり、複数言語にわたる検索文書を動的に適切
な言語に統一して提示する文書検索システムおよび検索
文書提示方法を提供することを目的とする。
【0008】
【課題を解決するための手段】この発明の文書検索シス
テムは、複数の文書の中から検索要求に合致した文書を
検索して提示する文書検索システムにおいて、検索され
た文書それぞれの記述言語の種類を判定する記述言語判
定手段と、前記記述言語判定手段の判定結果から前記検
索された文書すべてをいずれの言語で提示すべきか決定
する提示言語決定手段と、前記提示言語判定手段により
決定された提示言語以外の言語で記述された検索文書を
前記提示言語に翻訳して提示する検索文書提示手段とを
具備してなることを特徴とする。
【0009】この発明の文書検索システムにおいては、
まず検索された文書すべての記述言語の種類を判定し、
この判定結果から検索文書の提示言語を決定する。この
決定方法としては、たとえば多数決として最も数の多い
記述言語を提示言語とするなどが考えられる。そして、
この決定された提示言語以外の言語で記述された検索文
書は、この提示言語に翻訳して提示する。すなわち、こ
の発明の文書検索システムによれば、それぞれの検索状
況に応じて適切な言語で統一されて検索結果が提示され
ることになる。
【0010】また、この発明の文書検索システムは、複
数の文書の中から検索要求に合致した文書を検索して提
示する文書検索システムにおいて、検索された文書の中
からいずれかの文書を選択させる選択手段と、前記選択
手段によって選択された文書の記述言語の種類を判定す
る記述言語判定手段と、前記記述言語判定手段の判定結
果と異なる言語で記述された検索文書を前記判定言語に
翻訳して提示する検索文書提示手段とを具備してなるこ
とを特徴とする。
【0011】この発明の文書検索システムにおいては、
たとえば検索結果一覧をリスト表示するなどしてユーザ
自身に読みたい文書を選択させ、この選択された文書の
記述言語を検索文書の提示言語として採用する。そし
て、この提示言語以外の言語で記述された検索文書は、
この提示言語に翻訳して提示する。すなわち、この発明
の文書検索システムによれば、ユーザが選択した文書を
記述した言語に統一されてすべての検索文書が提示され
ることになる。
【0012】また、この発明の文書検索システムは、複
数の文書の中から検索要求に合致した文書を検索して提
示する文書検索システムにおいて、検索された文書に対
する適合性評価を入力する適合性評価入力手段と、前記
適合性評価入力手段が入力した適合性評価に応じて前記
検索要求を修正する検索要求修正手段と、前記適合性評
価入力手段が入力した適合性評価により適合性が認めら
れた文書の記述言語の種類を判定する記述言語判定手段
と、前記検索要求修正手段により修正された検索要求に
合致した検索文書であって前記記述言語判定手段の判定
結果と異なる記述言語で記述された検索文書を前記判定
言語に翻訳して提示する検索文書提示手段とを具備して
なることを特徴とする。
【0013】この発明の文書検索システムでは、検索結
果の適合性評価を次回の検索に反映させるいわゆる適合
性フィードバックの適用を前提としており、この適合性
評価を援用して次回の検索結果の提示言語を決定するも
のである。すなわち、この発明の文書検索システムによ
れば、適合性評価によって適合性が認められた文書の記
述言語の種類を判定しておき、次回の検索時には、この
判定した言語以外の言語で記述された検索文書を判定し
た言語に翻訳して提示する。したがって、前述と同様に
すべての検索文書が同一言語で提示されることになる。
【0014】また、この発明の文書検索システムは、複
数の文書の中から検索要求に合致した文書を検索して提
示する文書検索システムにおいて、検索された文書ごと
に前記検索要求に適合した箇所を含む部分を抽出する抽
出手段と、予め指定された記述言語と異なる言語で記述
された前記抽出手段により抽出された抽出部分を前記指
定言語に翻訳して提示する検索文書提示手段とを具備し
てなることを特徴とする。
【0015】この発明の文書検索システムにおいては、
検索された文書ごとに前記検索要求に適合した箇所を含
む部分を抽出し、この抽出した部分が予め指定された記
述言語と異なる言語で記述されていた場合にのみ、指定
言語に翻訳して提示する。
【0016】すなわち、この発明によれば、検索文書中
の検索要求に適合した箇所を含む部分のみが同一の言語
に統一されて提示されることになり、ユーザ側では使い
勝手を向上させることが可能となり、一方で、システム
側では文書全体を翻訳するのではなく、検索要求に適合
した箇所を含む部分のみを翻訳対象とすることによっ
て、言語翻訳に費やす負荷を大幅に軽減することが可能
となる。
【0017】
【発明の実施の形態】以下、図面を参照してこの発明の
実施の形態を説明する。 (第1実施形態)まず、この発明の第1の実施形態につ
いて説明する。図1に、第1実施形態に係る文書検索シ
ステムの構成を示す。図1に示したように、この文書検
索システム100は、検索要求入力部11、検索部1
2、提示言語決定部13、翻訳部14および検索結果出
力部15からなる。ここで、検索要求入力部11は、キ
ーボード、文字認識装置、音声認識装置などの入力装置
に、検索結果出力部15は、ディスプレイ、プリンタな
どの出力装置にそれぞれ対応し、検索部12、提示言語
決定部13および翻訳部14は、CPUによって実行制
御されるプログラムに対応する。そして、この文書検索
システム100と従来の文書検索システムとの相違は、
提示言語決定部13と翻訳部14とを合わせもっている
点にある。
【0018】ここで、図1に沿って、この文書検索シス
テム100の全体的な流れを説明する。まず、ユーザが
検索要求入力部11に入力した検索要求は、検索部12
に渡される。検索部12は、検索対象となる文書の中か
ら検索要求に適合する文書を検索する。ここまでの処理
は従来の検索システムと同様であるが、この文書検索シ
ステム100では、検索された文書がまず提示言語決定
部13に渡され、この提示言語決定部13でどのような
言語に統一してユーザに検索結果を提示すべきかが決定
される。そして、検索結果は翻訳部14によって適宜翻
訳され、翻訳された検索結果が検索結果出力部15によ
ってユーザに提示される。なお、検索部12における文
書の検索手法は、複数言語の文書を検索できるものであ
ればどのようなものであってもよく、同様に翻訳部14
における文書の機械翻訳手法は複数言語の文書を翻訳で
きるものであればどのようなものであってもよい。
【0019】図2に、第1実施形態の特徴である提示言
語決定部13の処理の流れの一例を示す。提示言語決定
部13は、検索部12から検索結果を受取ると(ステッ
プA1)、検索結果の各文書についてそれがどのような
言語で書かれているかを判定する(ステップA3)。言
語の判定の方法としては、たとえば文字コードが2バイ
トコードであるか1バイトコードであるか、さらには特
定の語を含むか否かなどをテストすることが考えられ
る。たとえば、文書が1バイトコードのみを含んでお
り、さらに“the”や“is”などの語を含むなら
ば、その言語は英語であると判定することができる。こ
のようにして検索結果の各文書の言語判定を終えると、
この結果を集計して、ユーザにどの言語に検索結果の言
語を統一して提示するかを決定する(ステップA6)。
提示言語決定方法としては、多数決を採用することが考
えられる。たとえば、検索結果に含まれる文書数が10
件であって、このうちの8件が日本語、残りの2件が英
語で書かれている場合には、日本語を提示言語にする。
特に機械翻訳に時間がかかる場合、多数決を採用すると
翻訳する文書数が少なくなるので有効であると考えられ
る。また、多数決方式の変形例として、検索結果の記事
がランク付けされている場合に、上位の記事の言語判定
結果を重視して提示言語を決定することが考えられる。
たとえば、検索結果に含まれる文書数が10件であっ
て、このうち主として上位に日本語の文書が5件、主と
して下位に英語の文書が5件あった場合に、日本語を提
示言語にする。特に機械翻訳の品質が完璧ではない場
合、このような上位の文書を重視した提示言語の決定を
行なえば、上位に存在する、すなわちより重要であると
考えられる文書が原文のまま提示され、下位のあまり重
要でない文書は概要がつかめる程度に翻訳されて提示さ
れることになり有効であると考えられる。
【0020】図3に、第1実施形態における翻訳部14
の処理の流れの一例を示す。翻訳部14は、まず提示言
語決定部13から検索結果、検索結果の各文書の言語判
定結果およびどの言語に統一して提示するかという情報
を受取る(ステップB1)。次に、各文書についてその
言語判定結果が提示言語に等しいか否かを判定する(ス
テップB3)。等しい場合は(ステップB3のY)、翻
訳を行なわずに原文をそのまま検索結果出力部に渡す
(ステップB5)。一方、等しくない場合は(ステップ
B3のN)、その文書を提示言語に翻訳した後に(ステ
ップB4)、翻訳結果を検索結果出力部15に渡す(ス
テップB5)。以上の処理により、検索結果出力部15
には、提示言語に統一された検索結果が渡されることに
なる。
【0021】図4に、第1実施形態における検索結果の
例を示す。図4(a)は、検索部12が検索した検索結
果の一例である。図4(b)は、図4(a)に対して翻
訳が施されて最終的にユーザに提示される検索結果の一
例である。この例では、言語は英語に統一されており、
このために文書3および文書5が翻訳されている。な
お、実際に提示するのは全文であっても、見出しや一文
目など文書の一部のみであってもよい。(b)のように
言語を統一して提示を行なえば、ユーザは検索結果全体
を一つの言語で見渡せるようになり、たとえば検索結果
全体の内容をレポートにまとめたい場合などに、より的
確に情報収集を行なうことができると考えられる。
【0022】また、ここでは検索結果全体の言語を統一
する場合について説明したが、この変形例として、検索
結果の一部のみについて言語を統一して提示してもよ
い。たとえば、検索結果に含まれる文書が100件ある
場合に、実際にユーザが読むのは上位数10件程である
と考えられるので、上位数10件についてのみ必要に応
じて翻訳し、それ以降はすべて原文のまま提示する、あ
るいは全く提示しないようにしたほうが効率的である。
さらに、検索結果のどの部分についてのみ言語の統一を
行なうかをユーザに指定させてもよい。
【0023】(第2実施形態)次に、この発明の第2の
実施形態について説明する。図5に、第2実施形態に係
る文書検索システムの構成を示す。図5に示したよう
に、この文書検索システム100と前述した第1実施形
態の文書検索システム100との主な違いは、第2実施
形態の文書検索システム100が、文書選択情報入力部
18を有し、ユーザの選択した文書の言語に他の文書も
翻訳する点である。この文書検索システム100には、
2種類のデータの流れがあり、これは細い矢印と太い矢
印とで区別されている。
【0024】ここで、図5に沿って、この文書検索シス
テム100の全体的な流れを説明する。まず、細い矢印
は、従来の検索システムと同様に、検索要求に適合した
文書が翻訳部14を経由せずに直接ユーザに提示される
流れを示している。この文書検索システム100では、
このようにユーザに一旦検索結果が提示された後に太い
矢印のデータの流れが始まる。次に、太い矢印のデータ
の流れについて以下に説明する。
【0025】ユーザは、提示された検索結果の中から一
つ以上の文書を選択し、この選択情報を文書選択情報入
力部18に入力する。次に、提示言語決定部13は、選
択された文書の言語を判定し、翻訳部14は、現在選択
されていない文書を必要に応じてその言語に翻訳してお
く。これにより、ユーザが次に他の文書を選択した場
合、最初に選択した文書と同じ言語に翻訳された結果を
ただちに得ることができる。
【0026】図6に、第2実施形態における提示言語決
定部13の処理の流れの一例を示す。提示言語決定部1
3は、まず文書選択情報入力部18からユーザがどの文
書を選択したかという情報を受取る(ステップC1)。
次に、ユーザが選択した文書がどのような言語で書かれ
ているかを第1実施形態と同様に判定し(ステップC
2)、この判定結果を提示言語として翻訳部14に渡す
(ステップC3)。なお、ユーザが複数の文書を選択し
た場合には、多数決や検索結果のランクに応じた重みづ
けなどによって言語を一つに決定すればよい。
【0027】図7に、第2実施形態における翻訳部14
の処理の流れの一例を示す。翻訳部14は、まず提示言
語、すなわちユーザが選択した文書の言語を提示言語決
定部18から受取るとともに(ステップD1)、検索部
12から検索結果を受取る(ステップD2)。次に、ユ
ーザが選択した文書以外のすべての文書について第1実
施形態と同様に言語の判定を行なう(ステップD5)。
そして、このうち言語が提示言語とは異なるすべての文
書を提示言語に翻訳し(ステップD7)、結果を検索結
果出力部15に渡す(ステップD8)。このような翻訳
部14の処理をまとめると、ユーザがある言語Lにより
書かれたある文書Dを選択した場合に、検索結果の中の
文書D以外の文書を言語Lに自動的に翻訳しておくこと
になる。また、この場合、文書D以外のすべての文書を
翻訳する代わりに、検索結果の一部の文書のみを翻訳し
てもよい。
【0028】図8に、第2実施形態におけるユーザが選
択した文書とこのときに自動的に翻訳される文書との例
を示す。この図8を用いて、第2実施形態の利点を具体
的に説明する。この例では、検索結果として文書1〜文
書5の5つの文書が提示されており、このうち文書1、
文書3および文書4が英語、文書2および文書5が日本
語によるものである。文書2の左に○がついているの
は、ユーザが文書選択情報入力部18を通して文書2を
選択したことを示している。実際には、キーボードやマ
ウスなどの入力装置により特定の文書を選択させればよ
い。
【0029】図8では、ユーザが検索結果リストから文
書2を選択したことにより、文書2の本文が別のウィン
ドウ上に表示されている。文書2は日本語で書かれてお
り、ユーザがこの本文にアクセスしたことから、ユーザ
が日本語による提示を好むことが推定できる。そこで、
提示言語決定部13により、文書2の言語が日本語であ
ることを判定し、提示言語を日本語に決定する。そし
て、この時点で翻訳部14は、ユーザが次に読みたいで
あろうと推測される文書3や文書4を日本語に翻訳しは
じめる。以上のように、バックグラウンドで自動的に翻
訳処理を起動することにより、ユーザに翻訳にかかる時
間を意識させずに読みやすい言語に翻訳した結果を提示
することができる。この例では、ユーザが日本語で書か
れた文書2を読んでいる間に文書3および文書4の和訳
が進むので、ユーザが文書2を読み終わって次に文書3
あるいは文書4を選択すると、その和訳を迅速に提示す
ることが可能となる。
【0030】(第3実施形態)次に、この発明の第3の
実施形態について説明する。図9に、第3実施形態に係
る文書検索システムの構成を示す。図9に示したよう
に、この文書検索システム100と前述した第1実施形
態の文書検索システム100とのの主な違いは、第3実
施形態の文書検索システム100が、評価情報入力部1
9および検索条件修正部20を有し、再検索結果の文書
をユーザが検索結果の妥当性の評価を行なった文書の言
語に統一して提示する点である。第3実施形態の文書検
索システム100には、2種類のデータの流れがあり、
これは細い矢印と太い矢印とで区別されている。
【0031】ここで、図9に沿って、この文書検索シス
テム100の全体的な流れを説明する。まず、細い矢印
は、従来の検索システムと同様に、検索要求に適合した
文書が翻訳部14を経由せずに直接ユーザに提示される
流れを示している。この文書検索システム100では、
このようにユーザに一旦検索結果が提示された後に太い
矢印のデータの流れが始まる。次に、太い矢印のデータ
の流れについて以下に説明する。
【0032】太い矢印で示されるデータの流れは、さら
に2つの流れから構成される。第1の流れは、評価情報
入力部19から検索条件修正部20を経て検索部12に
至る流れであり、第2の流れは、評価情報入力部19か
ら提示言語決定部13を経て翻訳部14に至る流れであ
る。このうち、第1の流れは、適合性フィードバックと
呼ばれるたとえば文献(「情報検索論」、David
Ellis原著、細野公男監訳、丸善)に開示されてい
る技術などを表したものであり、この発明の主眼ではな
い。ユーザが検索された個々の文書を読み、「検索結果
として妥当である」、「妥当でない」などの評価を行な
い、これをもとに検索条件中の検索語の追加や削除、重
みの値の変更などを行なってから再検索を行なうもので
ある。適合性フィードバックを行なって再検索を行なう
と、検索結果がよりユーザの要求に合致したものになる
場合があるとされている。
【0033】一方、第2の流れがこの第3実施形態の特
徴を示しているものである。評価情報入力部19に入力
されたユーザによる適合性評価情報は、従来通り適合性
フィードバックに利用されると同時に、提示言語決定部
13に渡される。提示言語決定部13は、ユーザが適合
性評価を行なった文書の言語を判定し、次回の検索結果
がこの言語に翻訳されて提示されるように翻訳部14に
指示する。これにより、再検索結果はユーザが読んで評
価を行なった文書と同じ言語に統一して表示されること
になる。
【0034】図10に、第3実施形態における提示言語
決定部13の処理の流れの一例を示す。提示言語決定部
13は、まず評価情報入力部19から適合性評価情報を
受取り(ステップE1)、適合性評価を受けた各文書に
ついてそれがどのような言語で書かれているかを第1実
施形態と同様に判定する(ステップE3)。そして、第
1実施形態の提示言語決定部13と同様に、検索結果を
どの言語に統一して提示するかを決定し(ステップE
6)、これを翻訳部14に渡す(ステップE7)。そし
て、翻訳部14は、適合性フィードバックの後に再検索
された検索結果を第1実施形態の図3と同様に処理して
ユーザに提示する。
【0035】図11に、第3実施形態における初期検索
結果と再検索結果との例を示す。図11(a)は、初期
検索結果およびユーザによる適合性評価結果であり、図
11(b)は、この評価結果をもとに再検索を行なって
提示した検索結果である。図11(a)では、文書1、
文書3および文書5が英語、文書2および文書4が日本
語の文書であり、ユーザは日本語の文書2および文書4
のみを読んで適合性評価を行なっている。この例では、
適合性評価は「適合する」、「適合しない」の2値で与
えられており、図11では○×で示されている。この適
合性評価を行なうには、少なくともある程度の文書を読
むことが必要であるが、この例では日本語で書かれてい
る文書2および文書5のみに対して評価を行なっている
ので、このユーザにとっては日本語が読みやすい言語で
あると推定できる。そこで、提示言語は日本語に決定さ
れる。
【0036】次に、図11(a)の適合性評価情報をも
とに適合性フィードバックが行なわれ、再検索が行なわ
れると、再検索結果のうち、日本語でない文書は日本語
に翻訳されてから提示されるため、図11(b)のよう
に、ユーザから見た検索結果は日本語に統一される。こ
の例では、図11(a)で提示されていた英語の文書
1、文書3および文書5が和訳されて再提示されてい
る。また、図11(a)においてユーザーが「適合す
る」と評価した文書2は、適合性フィードバックにより
図11(b)では最上位にランクされている。さらに、
この例では、図11(a)では得られなかった文書6が
再検索により新たに見つかっている。以上のように、ユ
ーザによる適合性評価情報を適合性フィードバックと提
示言語の判定の両方に利用することにより、精度が高
く、かつ読みやすい再検索結果を得ることが可能とな
る。
【0037】(第4実施形態)次に、この発明の第4の
実施形態について説明する。図12に、第4実施形態に
係る文書検索システムの構成を示す。図12に示したよ
うに、この文書検索システム100は、検索要求入力部
11、検索部12、適合部分抽出部21、翻訳部14お
よび検索結果出力部15からなる。そして、この第4実
施形態の文書検索システム100と従来の文書検索シス
テムとの相違点は、適合部分抽出部21と翻訳部12と
を合わせもっている点である。また、第4実施形態の検
索部12および翻訳部14は、第1乃至第3実施形態と
は異なり、多言語に対して処理が可能である必要はな
い。ただし、検索部12は、各文書が検索要求に適合し
た/適合しないの情報に加えて、適合した文書について
は文書のどの箇所が検索要求に適合したのかを出力する
機能を有するものとする。これは、たとえば全文をスキ
ャンして検索語の有無を判定する検索の場合、検索語が
見つかった時点でその検索語の先頭からのバイト数を記
録しておくことなどにより、容易に実現可能である。
【0038】ここで、図12に沿って、この文書検索シ
ステム100の全体的な流れを説明する。検索部12が
検索結果を得るまでの流れは第1実施形態と同様であ
る。適合部分抽出部21は、検索結果および各文書中の
検索要求に適合した箇所の情報を検索部12から受取
り、この適合箇所を含む文書の特定部分を切り出して翻
訳部14に渡す。次に、翻訳部14は、上記部分を翻訳
して検索結果出力部15に渡す。これにより、ユーザに
は検索結果の文書中の検索要求に適合した部分の翻訳結
果のみが提示される。
【0039】図13に、第4実施形態の特徴である適合
部分抽出部21の処理の流れの一例を示す。適合部分抽
出部21は、まず検索部12から検索結果および検索結
果の各文章中ので検索要求に適合した箇所の情報を受取
る(ステップF1)。そして、上記各文章について以下
を行う。
【0040】まず、文章全体をセグメントに分割する
(ステップF3)。ここで、セグメントとは、文書のテ
キストの一部を意味し、節、文、段落、見出し、などの
文章の構成要素でもよいし、文書を数行ずつ、あるいは
数バイトずつ機械的に区切ったものなどでもよい。セグ
メント分割の手法としては、句点を手がかりに文単位に
分割したり、インデントを手掛かりに段落単位に分割し
たり、あるいは形態素解析を行なっていくつかの形態素
列をひとつのセグメントとみなすなど、既存の方法を用
いればよく、この点はこの第4実施形態の主眼ではな
い。そして、適合部分抽出部21は、セグメント分割を
行なった後、セグメントの中で検索要求に適合した箇所
を含むものを取り出し(ステップF4)、翻訳部14に
渡す(ステップF5)。このように、検索要求に適合し
た箇所を含むセグメントのみを翻訳の対象とするところ
がこの第4実施形態の特徴である。
【0041】図14に、第4実施形態におけるセグメン
ト分割された検索結果の文書と実際にユーザに提示され
るテキストの例を示す。図14(a)は、検索結果の中
の一つの文書の全体を表している。この例では、文書は
1〜6のセグメントに分割されており、一方、検索部1
2によりこの文章中の「適合箇所(A)」および「適合
箇所(B)」で示された2箇所が検索要求に適合したと
いう情報が与えられている。よって、ここでは「適合箇
所(A)」を含む第2セグメントおよび「適合箇所
(B)」を含む第5セグメントが切り出されて翻訳部に
渡されることになる。図14(b)は、実際にユーザに
提示されるテキストの例を示している。
【0042】英語で書かれている図14(a)の文書全
体のうち、第2セグメントおよび第5セグメントのみを
日本語に翻訳した結果が提示されている。特に、図14
(a)の「適合箇所(A)」および「適合箇所(B)」
が和訳された部分は、図14(b)の「適合箇所
(A′)」および「適合箇所B′」として、それぞれ示
されている。
【0043】以上の処理によれば、特に検索結果全体を
翻訳するには翻訳速度が十分でない場合に、迅速に有用
な情報を得ることができる。一般に、検索要求に適合し
た箇所を含むセグメントは文書中の重要部分であること
が多いと考えられるので、この部分のみの翻訳結果を抄
録として読むだけでも十分に役に立つ。
【0044】また、この第4実施形態と見かけ上類似し
ている技術として、検索の処理単位を文書ではなくはじ
めから文書を分割したものとする手法があるが、これは
検索対象数を膨大にし、検索の高速化のためのインデキ
シングもこの分割した単位毎に行なわねばならない。こ
れに対し、第4実施形態では、検索処理まではあくまで
も文書単位で行ない、提示の際に文書の特定部分を切り
出すものであるため、通常の文書検索技術がそのまま利
用可能であり、文書単位で結果が欲しい場合により適し
ていると考えられる。たとえば、図14において、はじ
めから文書を1〜6のセグメントに分割しておき、これ
ら各々を検索対象とした場合を考えてみると、たとえセ
グメント2とセグメント5とが共に検索結果として得ら
れたとしても、これらは検索結果の中でばらばらに表示
されることになり、図14(b)のように文書単位で関
連づけて表示することは難しい。
【0045】
【発明の効果】以上詳述したように、この発明によれ
ば、検索結果に互いに異なる言語で書かれた文書が混在
したときであっても、その検索状況に応じて適切な言語
で統一して検索結果を提示することが可能となる。ま
た、ユーザが選択した文書を記述した言語に統一してす
べての検索文書を提示することが可能となる。さらに、
適合性評価を援用することにより、次の検索結果を適切
な提示言語に統一して提示することが可能となる。
【0046】また、この発明によれば、検索要求に適合
した箇所を含む部分のみを翻訳対象とすることによっ
て、言語翻訳に費やす負荷を大幅に軽減しつつ、予め指
定された記述言語に統一して提示することが可能とな
る。
【図面の簡単な説明】
【図1】この発明の第1実施形態に係る文書検索システ
ムの構成を示す図。
【図2】同実施形態の特徴である提示言語決定部の処理
の流れの一例を示すフローチャート。
【図3】同実施形態における翻訳部14の処理の流れの
一例を示すフローチャート。
【図4】同実施形態における検索結果の例を示す図。
【図5】この発明の第2実施形態に係る文書検索システ
ムの構成を示す図。
【図6】同実施形態における提示言語決定部の処理の流
れの一例を示すフローチャート。
【図7】同実施形態における翻訳部の処理の流れの一例
を示すフローチャート。
【図8】同実施形態におけるユーザが選択した文書とこ
のときに自動的に翻訳される文書との例を示す図。
【図9】この発明の第3実施形態に係る文書検索システ
ムの構成を示す図。
【図10】同実施形態における提示言語決定部の処理の
流れの一例を示すフローチャート。
【図11】同実施形態における初期検索結果と再検索結
果との例を示す図。
【図12】この発明の第4実施形態に係る文書検索シス
テムの構成を示す図。
【図13】同実施形態における適合部分抽出部21の処
理の流れの一例を示すフローチャート。
【図14】同実施形態におけるセグメント分割された検
索結果の文書と実際にユーザに提示されるテキストの例
を示す図。
【符号の説明】
11…検索要求入力部、12…検索部、13…提示言語
決定部、14…翻訳部、15…検索結果出力部、16…
検索対象文書、17…翻訳用言語知識、18…文書選択
情報入力部、19…評価情報入力部、20…検索条件修
正部、21…適合部分抽出部。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G06F 15/401 340C

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書の中から検索要求に合致した
    文書を検索して提示する文書検索システムにおいて、 検索された文書それぞれの記述言語の種類を判定する記
    述言語判定手段と、 前記記述言語判定手段の判定結果から前記検索された文
    書すべてをいずれの記述言語で提示すべきか決定する提
    示言語決定手段と、 前記提示言語判定手段により決定された提示言語以外の
    言語で記述された検索文書を前記提示言語に翻訳して提
    示する検索文書提示手段とを具備してなることを特徴と
    する文書検索システム。
  2. 【請求項2】 複数の文書の中から検索要求に合致した
    文書を検索して提示する文書検索システムにおいて、 検索された文書の中からいずれかの文書を選択させる選
    択手段と、 前記選択手段によって選択された文書の記述言語の種類
    を判定する記述言語判定手段と、 前記記述言語判定手段の判定結果と異なる記述言語で記
    述された検索文書を前記判定言語に翻訳して提示する検
    索文書提示手段とを具備してなることを特徴とする文書
    検索システム。
  3. 【請求項3】 複数の文書の中から検索要求に合致した
    文書を検索して提示する文書検索システムにおいて、 検索された文書に対する適合性評価を入力する適合性評
    価入力手段と、 前記適合性評価入力手段が入力した適合性評価に応じて
    前記検索要求を修正する検索要求修正手段と、 前記適合性評価入力手段が入力した適合性評価により適
    合性が認められた文書の記述言語の種類を判定する記述
    言語判定手段と、 前記検索要求修正手段により修正された検索要求に合致
    した検索文書であって前記記述言語判定手段の判定結果
    と異なる記述言語で記述された検索文書を前記判定言語
    に翻訳して提示する検索文書提示手段とを具備してなる
    ことを特徴とする文書検索システム。
  4. 【請求項4】 複数の文書の中から検索要求に合致した
    文書を検索して提示する文書検索システムにおいて、 検索された文書ごとに前記検索要求に適合した箇所を含
    む部分を抽出する抽出手段と、 予め指定された記述言語と異なる記述言語で記述された
    前記抽出手段により抽出された抽出部分を前記指定言語
    に翻訳して提示する検索文書提示手段とを具備してなる
    ことを特徴とする文書検索システム。
  5. 【請求項5】 複数の文書の中から検索要求に合致した
    文書を検索して提示する文書検索システムの検索文書提
    示方法において、 検索された文書それぞれの記述言語の種類を判定し、 この判定結果から前記検索された文書すべてをいずれの
    記述言語で提示すべきか決定し、 この決定された提示言語以外の記述言語で記述された検
    索文書を前記提示言語に翻訳して提示することを特徴と
    する検索文書提示方法。
  6. 【請求項6】 複数の文書の中から検索要求に合致した
    文書を検索して提示する文書検索システムの検索文書提
    示方法において、 検索された文書の中からいずれかの文書を選択させ、 この選択された文書の記述言語の種類を判定し、 この判定結果と異なる記述言語で記述された検索文書を
    前記判定言語に翻訳して提示することを特徴とする検索
    文書提示方法。
  7. 【請求項7】 複数の文書の中から検索要求に合致した
    文書を検索して提示する文書検索システムの検索文書提
    示方法において、 検索された文書に対する適合性評価を入力し、 この入力した適合性評価に応じて前記検索要求を修正
    し、 前記入力した適合性評価により適合性が認められた文書
    の記述言語の種類を判定し、 前記修正された検索要求に合致した検索文書であって前
    記判定結果と異なる記述言語で記述された検索文書を前
    記判定言語に翻訳して提示することを特徴とする検索文
    書提示方法。
  8. 【請求項8】 複数の文書の中から検索要求に合致した
    文書を検索して提示する文書検索システムの検索文書提
    示方法において、 検索された文書ごとに前記検索要求に適合した箇所を含
    む部分を抽出し、 予め指定された記述言語と異なる記述言語で記述された
    前記抽出部分を前記指定言語に翻訳して提示することを
    特徴とする検索文書提示方法。
JP03364797A 1997-02-18 1997-02-18 文書検索システムおよび同システムに適用される検索文書提示方法 Expired - Fee Related JP4010589B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03364797A JP4010589B2 (ja) 1997-02-18 1997-02-18 文書検索システムおよび同システムに適用される検索文書提示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03364797A JP4010589B2 (ja) 1997-02-18 1997-02-18 文書検索システムおよび同システムに適用される検索文書提示方法

Publications (2)

Publication Number Publication Date
JPH10228485A true JPH10228485A (ja) 1998-08-25
JP4010589B2 JP4010589B2 (ja) 2007-11-21

Family

ID=12392251

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03364797A Expired - Fee Related JP4010589B2 (ja) 1997-02-18 1997-02-18 文書検索システムおよび同システムに適用される検索文書提示方法

Country Status (1)

Country Link
JP (1) JP4010589B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005216108A (ja) * 2004-01-30 2005-08-11 Casio Comput Co Ltd 辞書情報表示制御装置、および辞書情報表示制御プログラム、辞書情報表示制御方法
JP2010534378A (ja) * 2007-07-20 2010-11-04 グーグル・インコーポレーテッド 自動拡張言語サーチ
JP2013513895A (ja) * 2009-12-15 2013-04-22 マイクロン テクノロジー, インク. 適応型コンテンツ・インスペクション

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305728A (ja) * 1995-05-10 1996-11-22 Oki Electric Ind Co Ltd 多言語間検索システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305728A (ja) * 1995-05-10 1996-11-22 Oki Electric Ind Co Ltd 多言語間検索システム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005216108A (ja) * 2004-01-30 2005-08-11 Casio Comput Co Ltd 辞書情報表示制御装置、および辞書情報表示制御プログラム、辞書情報表示制御方法
JP2010534378A (ja) * 2007-07-20 2010-11-04 グーグル・インコーポレーテッド 自動拡張言語サーチ
US9164987B2 (en) 2007-07-20 2015-10-20 Google Inc. Translating a search query into multiple languages
JP2013513895A (ja) * 2009-12-15 2013-04-22 マイクロン テクノロジー, インク. 適応型コンテンツ・インスペクション
US9684867B2 (en) 2009-12-15 2017-06-20 Micron Technology, Inc. Adaptive content inspection
US10235627B2 (en) 2009-12-15 2019-03-19 Micron Technology, Inc. Adaptive content inspection

Also Published As

Publication number Publication date
JP4010589B2 (ja) 2007-11-21

Similar Documents

Publication Publication Date Title
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
JP2001195404A (ja) 句翻訳方法およびシステム
JPH04229364A (ja) 強調特性変更方法及びシステム
JPH08161339A (ja) 文字列変換装置
JPH09198395A (ja) 文書検索装置
US20050102280A1 (en) Search system, search program, and personal computer
JPH04152466A (ja) 機械翻訳方法
JP4010589B2 (ja) 文書検索システムおよび同システムに適用される検索文書提示方法
JP2005173999A (ja) 電子ファイル検索装置、電子ファイル検索システム、電子ファイル検索方法、プログラムおよび記録媒体
JPH08287088A (ja) 情報検索方法及びその装置
US20040054677A1 (en) Method for processing text in a computer and a computer
JP2004157965A (ja) 検索支援装置、検索支援方法、プログラムおよび記録媒体
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP4301879B2 (ja) 抄録作成支援システム及び特許文献検索システム
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP2838984B2 (ja) 汎用参照装置
JP3450598B2 (ja) 専門用語辞書選択装置
JP3714723B2 (ja) 文書表示システム
JPH07325826A (ja) 日本語処理システム
JPH11272671A (ja) 機械翻訳装置及び機械翻訳方法
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
JPH10340271A (ja) 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体
JP3666066B2 (ja) 多言語文書登録検索装置
JP3537260B2 (ja) リンク付文書検索表示システム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040109

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040226

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040312

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040430

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050415

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070904

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100914

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees