JP5257189B2 - 検索結果出力プログラム、検索結果出力装置、および検索結果出力方法 - Google Patents

検索結果出力プログラム、検索結果出力装置、および検索結果出力方法 Download PDF

Info

Publication number
JP5257189B2
JP5257189B2 JP2009074191A JP2009074191A JP5257189B2 JP 5257189 B2 JP5257189 B2 JP 5257189B2 JP 2009074191 A JP2009074191 A JP 2009074191A JP 2009074191 A JP2009074191 A JP 2009074191A JP 5257189 B2 JP5257189 B2 JP 5257189B2
Authority
JP
Japan
Prior art keywords
example sentence
search
evaluation
extracted
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009074191A
Other languages
English (en)
Other versions
JP2010225077A (ja
Inventor
友樹 長瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009074191A priority Critical patent/JP5257189B2/ja
Priority to US12/728,715 priority patent/US8566079B2/en
Publication of JP2010225077A publication Critical patent/JP2010225077A/ja
Application granted granted Critical
Publication of JP5257189B2 publication Critical patent/JP5257189B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、例文検索の結果を出力する検索結果出力プログラム、検索結果出力装置、および検索結果出力方法に関する。
産業翻訳の分野では、高い訳文品質を維持しながら効率よく翻訳作業をすることが要求される。そこで、過去に翻訳された翻訳文とその原文を対にしてデータベースに蓄積し、これを検索して再利用するような対訳例文検索システムが利用されている。
対訳例文検索システムでは、入力された文(入力文)に該当する例文がデータベースから検索される。そして、検出された例文に対応付けられた訳文が表示される。このような訳文を参照することで、一から翻訳作業をするよりも効率よく翻訳作業をすることができる。ただし、新規に作成された文章の翻訳をする場合には、入力された入力文と完全に一致する例文が検出される可能性は低い。そこで、入力文の部分列を作成し、部分列を用いて、入力文の一部に対応するフレーズ候補を検出する技術もある。
また、入力文および入力文の部分列を対象とした検索によって検出された対訳例文に上位または下位へのリンク情報を付与して、リンク情報に基づいて検出された対訳例文を含む例文への拡張表示や、検出された対訳例文の一部を用いた例文への縮退表示をする技術もある。
特開2006−134062号公報 特開2008−165563号公報
しかし、上記のような検索技術を用いて数多くの例文を検出した場合には、検索結果をユーザに提示する順序、すなわち検索結果を出力する候補のランク付けをいかにするかによって翻訳作業の効率化が大きく変動する。上記の対訳例文検索システムでは、データベースが多くの対訳例文を蓄積するほど、必要とする対訳例文の検出率が向上する。しかし、反面、大量に蓄積された対訳例文からは、同じような表現が大量に検出されることとなる。そのため、本当に参照したい対訳例文が下位候補となって、目的の対訳例文を表示するのに時間がかかったりする。たとえば、入力文中の一般に多用されるフレーズを含む多数の例文が上位を占め、入力文中のあまり慣用されないフレーズや、専門性のあるフレーズを含む例文は、下位候補となってしまう場合がある。あるいは、目的の対訳例文が最大候補数からあふれて必要とする情報が表示されないことがある。このため、大量の対訳例文の検出結果から目的とする対訳例文を探すための作業が非効率となっている。
本発明はこのような点に鑑みてなされたものであり、例文の検索結果を、入力文中の複数のフレーズそれぞれを含む複数の例文を上位候補として提示可能な検索結果出力プログラム、検索結果出力装置、および検索結果出力方法を提供することを目的とする。
上記課題を解決するために、コンピュータを、例文検索の結果を出力する検索結果出力装置として機能させる検索結果出力プログラムが提供される。
検索結果出力装置は、評価手段と、抽出手段と、再評価対象部分選択手段と、再評価手段と、再抽出手段と、出力手段とを備える。
評価手段は、検索条件となる入力例文と入力例文を検索キーとした検索結果としての検索例文との間で所定単位の文字または文字列の一致程度を評価する。抽出手段は、評価に基づいて検索例文から一の例文を抽出例文として抽出する。
再評価対象部分選択手段は、入力例文のうち抽出例文の評価に寄与した部分を除外した入力例文の一部を再評価対象部分として選択する。再評価手段は、検索例文と再評価対象部分との間で所定単位の文字または文字列の一致程度を再評価する。再抽出手段は、再評価に基づいて検索例文から一の例文を再抽出例文として再抽出する。出力手段は、抽出手段が抽出した例文および再抽出手段が再抽出した例文を出力する。
上記の検索結果出力プログラム、検索結果出力装置、および検索結果出力方法によれば、例文の検索結果を、入力文中の複数のフレーズそれぞれを含む複数の例文を上位候補として提示して、検索結果に基づく作業の効率化に寄与できる。
実施の形態の概要を示す図である。 実施の形態の検索結果出力装置のハードウェア構成例を示す図である。 実施の形態の例文検索装置の機能ブロック図である。 実施の形態の入力例文の具体例である。 実施の形態の検索例文の具体例である。 実施の形態のマッチングテーブルの具体例である。 実施の形態の出力済フラグ配列表の初期状態を表す図である。 実施の形態の出力済フラグ配列表の更新状態を表す図である。 実施の形態のマッチングテーブルの具体例である。 実施の形態の出力済フラグ配列表の更新状態を表す図である。 実施の形態のマッチングテーブルの具体例である。 実施の形態の例文出力の具体例である。 出力済フラグ配列表更新処理のフローチャートである。 実施の形態の選択画面の具体例である。 実施の形態の選択出力画面の具体例である。 文字列特定処理のフローチャートである。 第二の実施形態のマッチングテーブルの具体例である。 第二の実施形態の出力済フラグ配列表の更新状態を表す図である。 第二の実施形態のマッチングテーブルの具体例である。 第二の実施形態の出力済フラグ配列表の更新状態を表す図である。 第二の実施形態のマッチングテーブルの具体例である。 第二の実施形態の出力済フラグ配列表の更新状態を表す図である。 第二の実施形態のマッチングテーブルの具体例である。 第二の実施形態の出力済フラグ配列表の更新状態を表す図である。 第二の実施形態のマッチングテーブルの具体例である。 マッチングスコア計算処理のフローチャートである。 類似程度計算処理のフローチャートである。
以下、実施の形態を図面を参照して説明する。
図1は、実施の形態の概要を示す図である。実施の形態に係る検索結果出力装置100は、入力例文110aをキーとした例文検索の結果である検索例文110bを適切な順序で提示可能に出力する。
検索結果出力装置100は、評価手段100aと、抽出手段100bと、再評価対象部分選択手段100cと、再評価手段100dと、再抽出手段100eと、出力手段100fとを備える。
評価手段100aは、入力例文110aと検索例文110bとの間で所定単位の文字または文字列の一致程度を評価し、評価110cを得る。入力例文110aは、例文検索の検索キーである。検索例文110bは、データベースに蓄積された例文について入力例文110aを検索キーとした検索結果であり、複数の例文の集合である。入力例文110aは、後述のキーボード12やマウス13などの入力装置から受け付ける。たとえば、入力例文110aの受け付けは、キーボード12からの入力例文110aのキー入力や、マウス13による入力例文110aの選択操作などによる。あるいは、ネットワーク接続したコンピュータ(検索サーバ)から取得する。検索例文110bは、データベースに蓄積された例文についての入力例文110aの検索結果として取得する。データベースは、後述するハードディスクドライブ(HDD:Hard Disk Drive)103などの記憶装置上に複数の例文を記憶する。これら記憶装置は、内蔵または外部接続した記憶装置の他に、検索結果出力装置100の外部に設けられてネットワーク接続したコンピュータ(データサーバ)の記憶装置とすることもできる。評価110cは、たとえば、検索例文110bの各々についての評価を比較可能な評価値である。
なお、入力例文110aを検索キーとして、データベースに蓄積された例文に対する検索を行う検索手段は、検索結果出力装置100に備えてもよいし、検索結果出力装置100の外部に設けられてネットワーク接続したコンピュータ(検索サーバ)に備えてもよい。
抽出手段100bは、評価110cに基づいて検索例文110bから一の例文を抽出例文110dとして抽出する。たとえば、検索例文110bが複数の例文からなる場合、抽出手段100bは、各例文の評価110cを比較して最良の評価110cを得た例文を1つ抽出し、これを抽出例文110dとする。
再評価対象部分選択手段100cは、抽出例文110dの評価110cに寄与した部分を除外した入力例文110aの一部を再評価対象部分110eとして選択する。たとえば、入力例文110aを構成する文字、文字列(たとえば、単語、文節など)ごとに、抽出例文110dの評価110cに貢献した部分を特定し、抽出例文110dのその余の部分(非貢献部分)を再評価対象部分110eとして選択する。したがって、再評価対象部分110eは、入力例文110aの一部からなる。
再評価手段100dは、検索例文110bと再評価対象部分110eとの間で所定単位の文字または文字列の一致程度を再評価し、再評価110fを得る。再評価手段100dは、検索例文110bのうち、すでに抽出、または再抽出された例文を除いて再評価対象とする。再評価110fは、たとえば、検索例文110bの各々についての評価を比較可能な評価値である。
再抽出手段100eは、再評価110fに基づいて検索例文110bから一の例文を再抽出例文110gとして再抽出する。たとえば、検索例文110bが複数の例文からなる場合、再抽出手段100eは、各例文の再評価110fを比較して最良の再評価110fを得た例文を1つ抽出し、これを再抽出例文110gとする。
出力手段100fは、抽出手段100bが抽出した抽出例文110dおよび再抽出手段100eが再抽出した再抽出例文110gを検索結果として提示可能に出力する。出力は、たとえば、後述のモニタ11などの表示装置の他、音声出力装置、印字装置などのほか、データ出力などを含む。また、検索結果として提示可能とは、出力順序を整列して出力する他、出力順序を整列可能に出力順序情報などを付加することを含む。
なお、再評価対象部分選択手段100cは、さらに、再抽出例文110gに基づいて入力例文110aの一部を再評価対象部分110eとして選択することができる。検索結果出力装置100は、再抽出例文110gについて再評価対象部分選択、再評価、再抽出を繰り返すことで、再抽出例文110gを複数得ることができる。つまり、検索結果出力装置100は、検索例文110bを異なる評価基準で順に抽出することができる。
このように、検索結果出力装置100は、評価手段100aが入力例文110aを基準に検索例文110bを評価するのに対し、再評価手段100dは、再評価対象部分110eを基準に検索例文110bを評価(再評価)する。これにより、検索結果出力装置100は、評価110cの高評価と再評価110fの高評価とが必ずしも一致せず、同じ評価基準による同じような検索結果が連続することを好適に避けることができる。
なお、検索結果出力装置100は、検索手段を備えることで例文検索装置として機能する。また、例文検索装置は、さらに、出力手段が検出された原語による例文に予め対応付けられた訳語による訳文を対訳例文として出力することで対訳例文検索装置として機能する。
次に、本実施の形態の詳細を説明する。図2は、実施の形態の検索結果出力装置のハードウェア構成例を示す図である。検索結果出力装置100は、CPU(Central Processing Unit)101によって装置全体が制御されている。CPU101には、バス107を介してRAM(Random Access Memory)102、ハードディスクドライブ(HDD)103、グラフィック処理装置104、入力インタフェース105、および通信インタフェース106が接続されている。
RAM102には、CPU101に実行させるOS(Operating System)のプログラムやサーバを実行するためのアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。HDD103には、OSやアプリケーションプログラムが格納される。
グラフィック処理装置104には、モニタ11が接続されている。グラフィック処理装置104は、CPU101からの命令に従って、画像をモニタ11の画面に表示させる。
入力インタフェース105には、キーボード12とマウス13とが接続されている。入力インタフェース105は、キーボード12やマウス13から送られてくる信号を、バス107を介してCPU101に送信する。
通信インタフェース106は、ネットワーク10に接続されている。通信インタフェース106は、ネットワーク10を介して、他のコンピュータとの間でデータの送受信を行う。
以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。なお、ネットワーク10を介して接続する他のコンピュータ(たとえば、データサーバ、検索サーバなど)も同様のハードウェア構成で実現できる。
図3は、実施の形態の例文検索装置の機能ブロック図である。実施の形態に係る例文検索装置200は、入力例文110aをキーとした例文検索の結果を適切な順序で提示可能に出力する。
入力例文110aは、たとえば、ある原語(たとえば、日本語、英語、フランス語、ドイツ語など)による例文(文)である。検索対象の例文は、入力例文110aと同じ原語の例文であり、入力例文110aを翻訳する際に参考とするため、原語に対する訳語(たとえば、日本語(原語)に対する英語、英語(原語)に対する日本語など)と対にして記憶されている。
例文検索装置200は、入力例文受付部200aと、例文記憶部200bと、検索部200cと、評価部200dと、抽出部200eと、再評価対象部分選択部200fと、再評価部200gと、再抽出部200hと、出力部200iとを備える。
入力例文受付部200aは、キーボード12やマウス13などの入力装置から入力例文110aを受け付ける。たとえば、入力例文110aの受け付けは、キーボード12からの入力例文110aのキー入力や、マウス13による入力例文110aの選択操作などによる。あるいは、ネットワーク接続したコンピュータから取得する。
例文記憶部200bは、ハードディスクドライブ(HDD)103などの記憶装置上に複数の例文を記憶する。例文を蓄積するデータベースは、テキストレコードの集合である。例文(原文)が対にして記憶する訳文もテキストレコードの集合としてデータベースに蓄積してもよいし、XMLに代表されるタグ付きのデータ形式でデータベースに蓄積してもよい。これら記憶装置は、内蔵または外部接続した記憶装置の他に、例文検索装置200の外部に設けられてネットワーク接続したコンピュータ(データサーバ)の記憶装置とすることもできる。また、記憶装置は、1台に限らず複数台から構成することもできる。
検索部200cは、例文記憶部200bが記憶する例文について、入力例文110aを検索キーとした検索をして、複数の例文の集合である検索例文110bを検索結果として取得する。なお、検索手法は、様々な手法が知られており、たとえば、キーワードマッチング型の検索、曖昧検索、ベクトルスペースモデルなどに基づく検索などを適宜適用可能である。
評価部200dは、入力例文110aと検索例文110bとの間で所定単位の文字または文字列の一致程度を評価し、評価110cを得る。評価110cは、たとえば、検索例文110bの各々についての評価を比較可能な評価値である。
抽出部200eは、評価110cに基づいて検索例文110bから一の例文を抽出例文110dとして抽出する。たとえば、検索例文110bが複数の例文からなる場合、抽出部200eは、各例文の評価110cを比較して最良の評価110cを得た例文を1つ抽出し、これを抽出例文110dとする。
再評価対象部分選択部200fは、抽出例文110dに基づいて入力例文110aの一部を再評価対象部分110eとして選択する。たとえば、入力例文110aを構成する文字、文字列ごとに、抽出例文110dの評価110cに貢献した部分を特定し、抽出例文110dのその余の部分を再評価対象部分110eとして選択する。したがって、再評価対象部分110eは、入力例文110aの一部からなる。
再評価部200gは、検索例文110bと再評価対象部分110eとの間で所定単位の文字または文字列の一致程度を再評価し、再評価110fを得る。再評価手段100dは、検索例文110bのうち、すでに抽出、または再抽出された例文を除いて再評価対象とする。再評価110fは、たとえば、検索例文110bの各々についての評価を比較可能な評価値である。
再抽出部200hは、再評価110fに基づいて検索例文110bから一の例文を再抽出例文110gとして再抽出する。たとえば、検索例文110bが複数の例文からなる場合、再抽出部200hは、各例文の再評価110fを比較して最良の再評価110fを得た例文を1つ抽出し、これを再抽出例文110gとする。
出力部200iは、抽出部200eが抽出した抽出例文110dおよび再抽出部200hが再抽出した再抽出例文110gを検索結果として提示可能に出力する。出力は、たとえば、後述のモニタ11などの表示装置の他、音声出力装置、印字装置などのほか、データ出力などを含む。また、検索結果として提示可能とは、出力順序を整列して出力する他、出力順序を整列可能に出力順序情報などを付加することを含む。
なお、再評価対象部分選択部200fは、さらに、再抽出例文110gに基づいて入力例文110aの一部を再評価対象部分110eとして選択することができる。例文検索装置200は、再抽出例文110gについて再評価対象部分選択、再評価、再抽出を繰り返すことで、再抽出例文110gを複数得ることができる。つまり、例文検索装置200は、検索例文110bを異なる評価基準で順に抽出することができる。
このように、例文検索装置200は、評価部200dが入力例文110aを基準に検索例文110bを評価するのに対し、再評価部200gは、再評価対象部分110eを基準に検索例文110bを評価(再評価)する。これにより、例文検索装置200は、評価110cの高評価と再評価110fの高評価とが必ずしも一致せず、同じ評価基準による同じような検索結果が連続することを好適に避けることができる。
次に、実施の形態に係る例文検索装置200が入力例文をキーとした例文検索の結果を適切な順序で提示可能に出力する様子を、図4から図12を用いて説明する。
図4は、実施の形態の入力例文の具体例である。
例文検索装置200は、入力例文受付部200aから入力例文20を受け付ける。入力例文20は、「彼は、今日風邪気味だが、午後に大事な試験があるので、学校に行った。」という日本語を原語とした例文(一文)である。
図5は、実施の形態の検索例文の具体例である。
例文検索装置200は、例文記憶部200bが大量に記憶する例文のうちから、入力例文20を検索キーとした所定の検索アルゴリズムにより検索結果として検索例文30を取得する。検索例文30は、「彼は、大事な試験があるので、学校へ行った。」(検索例文30a)、「彼は、試験があるので、学校へ行く。」(検索例文30b)、「私は大事な試験があるにもかかわらず学校を休んだ。」(検索例文30c)、「私は今日風邪気味だ。」(検索例文30d)、「午後に大学へ行く。」(検索例文30e)、「彼は試験を受けに大学へ行った。」(検索例文30f)、「私は大学へ行ったが試験は受けなかった。」(検索例文30g)の7つからなる。それぞれの検索例文(30aから30g)は、日本語を原語とした例文であり、入力例文20の検索対象である。なお、図中の各文中の下線部は、入力例文20とのマッチング部分を表す。
次に、例文検索装置200による検索例文30の評価について説明する。図6は、実施の形態のマッチングテーブルの具体例である。
マッチングテーブル40は、検索例文(30aから30g)ごとに入力例文20の評価対象部分との対応関係(マッチング部分の対応関係)を記録したマトリックステーブルである。マッチングテーブル40は、入力例文配列20aと、検索例文配列41aから41gとからなる。入力例文配列20aは、入力例文20の各文字ごとの配列であり、各配列要素がマッチング評価の基準要素となる。検索例文配列41aは、検索例文30aの各文字ごとの配列である。検索例文配列41aの各配列要素は、入力例文20の各配列要素とのマッチング評価がされる。検索例文配列41aは、各配列要素のマッチング評価の結果でスコア評価(マッチングスコア42)がされる。したがって、検索例文配列41aの各配列要素は、マッチング評価の評価対象要素となる。同様にして、検索例文配列41bから41gは、検索例文30bから30gに対応する。マッチング評価は、検索例文配列41aの配列要素に対応する入力例文20の配列要素がある場合に、マッチングフラグとして「1」が設定される。
そして、各検索例文配列41aから41gごとに、スコア評価した結果がマッチングスコア42(42aから42g)である。マッチングスコア42aは、検索例文配列41aの各配列要素のマッチングフラグ「1」をカウントした値である。同様にして、マッチングスコア42bから42gは、各検索例文配列41bから41gの各配列要素のマッチングフラグ「1」をカウントした値に対応する。なお、検索例文配列41aの各配列要素のマッチングフラグは、初期化時点では「0」である。
これによれば、マッチングスコア42aから42gのうち、最大値は「21」であり、例文検索装置200は、「彼は、大事な試験があるので、学校へ行った。」(検索例文30a)を抽出例文として抽出する。
なお、マッチング評価およびスコア評価の方法は、上記の方法以外にも適宜選択可能である。
図7は、実施の形態の出力済フラグ配列表の初期状態を表す図である。
出力済フラグ配列表50は、入力例文配列20aと入力例文配列20aに対応した出力済フラグ配列50aとからなる表である。出力済フラグ配列50aの各配列要素は、対応する入力例文配列20aの配列要素がマッチング評価の基準要素として有効か否かを示す出力済フラグを格納する。初期化時点では、何ら出力(検索例文30から抽出した抽出例文)を得ていないので、出力済フラグ配列50aの各配列要素は、出力済フラグ「0」である。なお、入力例文配列20aの配列要素がマッチング評価の基準要素となり得る場合は、出力済フラグ「0」(たとえば、出力済フラグ51b)または「1」が格納されるが、マッチング評価の基準要素となり得ない場合は、出力済フラグ「−」(たとえば、出力済フラグ52b、53b)が格納される。入力例文配列20aの配列要素がマッチング評価の基準要素となり得る場合とは、入力例文配列20aの配列要素が所定の文字である場合(たとえば、入力文字51aの「彼」)である。入力例文配列20aの配列要素がマッチング評価の基準要素となり得ない場合とは、入力例文配列20aの配列要素が句読点(たとえば、入力文字52aの「、」、入力文字53aの「。」)等である場合である。
次に、例文検索装置200による検索例文30の再評価対象部分の選択について説明する。図8は、実施の形態の出力済フラグ配列表の更新状態を表す図である。
例文検索装置200は、検索例文30aを抽出例文として抽出したことで、出力済フラグ配列表50の出力済フラグ配列50bを更新する。例文検索装置200は、検索例文30aに対応する検索例文配列41aの各配列要素を参照する。そして、検索例文配列41aの各配列要素のマッチングフラグが「1」である場合に、出力済フラグ配列50bの対応する配列要素(マッチング部分55a、55b)に出力済フラグ「1」をセットする。出力済フラグ配列50bの配列要素の出力済フラグ「1」は、入力例文配列20aの対応する配列要素を反映した検索例文30からの抽出例文の抽出がされたことを示す。そして、出力済フラグ配列50bの配列要素の出力済フラグ「0」は、入力例文配列20aの対応する配列要素を反映した検索例文30からの抽出例文の抽出がされていないことを示す。したがって、出力済フラグ配列50bの配列要素の出力済フラグ「0」が、検索例文30(抽出済みの検索例文30aを除く)に対する再評価対象部分を選択していることになる。
次に、例文検索装置200による検索例文30の再評価について説明する。図9は、実施の形態のマッチングテーブルの具体例である。
マッチングテーブル40からは、抽出済みの検索例文30aに対応する検索例文配列41aの図示を省略している。検索例文配列41bから41gの出力済フラグ配列50bの出力済フラグ「1」に対応する配列要素は、再評価対象でないためマスクされる。
そして、各検索例文配列41bから41gごとに、スコア評価(再評価)した結果がマッチングスコア43(43bから43g)である。これによれば、マッチングスコア43bから43gのうち、最大値は「7」であり、例文検索装置200は、「私は今日風邪気味だ。」(検索例文30d)を再抽出例文として再抽出する。
次に、例文検索装置200による検索例文30の再評価対象部分の2回目の選択について説明する。図10は、実施の形態の出力済フラグ配列表の更新状態を表す図である。
例文検索装置200は、検索例文30dを再抽出例文として再抽出したことで、出力済フラグ配列表50の出力済フラグ配列50cを更新する。例文検索装置200は、検索例文30dに対応する検索例文配列41dの各配列要素を参照する。そして、検索例文配列41dの各配列要素のマッチングフラグが「1」である場合に、出力済フラグ配列50cの対応する配列要素(マッチング部分55c)に出力済フラグ「1」をセットする。出力済フラグ配列50cの配列要素の出力済フラグ「1」は、入力例文配列20aの対応する配列要素を反映した検索例文30からの抽出例文の抽出がされたことを示す。そして、出力済フラグ配列50cの配列要素の出力済フラグ「0」は、入力例文配列20aの対応する配列要素を反映した検索例文30からの抽出例文の抽出がされていないことを示す。したがって、出力済フラグ配列50cの配列要素の出力済フラグ「0」が、検索例文30(抽出済みの検索例文30a、再抽出済みの検索例文30dを除く)に対する2回目の再評価対象部分を選択していることになる。
次に、例文検索装置200による検索例文30の2回目の再評価について説明する。図11は、実施の形態のマッチングテーブルの具体例である。
マッチングテーブル40からは、抽出済みの検索例文30aに対応する検索例文配列41a、再抽出済みの検索例文30dに対応する検索例文配列41dの図示を省略している。検索例文配列41b、41c、41eから41gの出力済フラグ配列50cの出力済フラグ「1」に対応する配列要素は、再評価対象でないためマスクされる。
そして、各検索例文配列41b、41c、41eから41gごとに、スコア評価(2回目の再評価)した結果がマッチングスコア43(43b、43c、43eから43g)である。これによれば、マッチングスコア43b、43c、43eから43gのうち、最大値は「3」であり、例文検索装置200は、「午後に大学へ行く。」(検索例文30e)を2回目の再抽出例文として再抽出する。
なお、再抽出回数は、必要とする出力例文数に応じて適宜選択すればよい。また、出力済フラグ配列表50は、所定の例文を抽出するごとなど所定条件成立に基づいて初期化するようにしてもよい。そうすれば、所定条件成立ごとに好適な検索結果の提示ができる。
次に、例文検索装置200による検索例文30の出力について説明する。図12は、実施の形態の例文出力の具体例である。
例文検索装置200の出力部200iは、抽出部200eが抽出した検索例文30a、再抽出部200hが再抽出した検索例文30d、30e、30b、30cに対応する対訳例文(検索例文(原文)と訳文の対)を抽出順序で整列して出力したのが出力例文60である。出力例文60は、たとえば、モニタ11に表示出力される。
「彼は、大事な試験があるので、学校へ行った。」(出力例文60a)と「He went to school because he had an important test.」(出力対訳文61a)は、検索例文30aに対応する出力例文である。「私は今日風邪気味だ。」(出力例文60b)と「I have a slight cold today.」(出力対訳文61b)は、検索例文30dに対応する出力例文である。「午後に大学へ行く。」(出力例文60c)と「I will go to university in the afternoon.」(出力対訳文61c)は、検索例文30eに対応する出力例文である。「彼は、試験があるので、学校へ行く。」(出力例文60d)と「He will go to school because he has a test.」(出力対訳文61d)は、検索例文30bに対応する出力例文である。「私は大事な試験があるにもかかわらず学校を休んだ。」(出力例文60e)と「Despite having an important test, he did not go to school.」(出力対訳文61e)は、検索例文30cに対応する出力例文である。これによれば、出力例文60では、上位3候補で入力例文20のほぼすべての範囲をカバーしていることが分かる。一方、マッチングスコア42の順序で出力されたとすると、出力例文60b、60cは、下位にランクされ、表示領域によっては、ページ送りやスクロールが必要であったり、出力候補から外されてしまったりする場合がある。翻訳者が「風邪気味」や「午後」といったキーワードに注目していた場合、これらは残りの候補から対応する訳文を得られない。
このように、検索例文30が多数あった場合に、検索時のスコア順あるいは、評価部200dによる評価時のマッチングスコア42の順序で出力するよりも、出力される上位候補だけで検索キーの全体をバランスよくカバーする。このような出力例文60は、特に、対訳例文を検索結果として出力する場合に、翻訳効率の向上に大きく寄与する。
次に、出力済フラグ配列表の更新処理についてフローチャートを用いて詳細に説明する。図13は、出力済フラグ配列表更新処理のフローチャートである。出力済フラグ配列表更新処理は、例文検索装置200により実行される。
[ステップS11]例文検索装置200の検索部200cは、入力例文110aを検索キーとして例文記憶部200bが蓄積する例文の検索を実行する。
[ステップS12]例文検索装置200の検索部200cは、検索結果として得た検索例文110bから検索結果リストを作成する。検索結果リストとは、検索例文110bを構成する例文のリストである。
[ステップS13]例文検索装置200の評価部200dは、検索例文110bのマッチングスコアを計算して、入力例文110aと検索例文110bとの文字単位の一致程度を評価する。
なお、ここでは、文字単位の一致程度を評価したが、形態素解析により単語単位、文節単位で評価してもよい。また、原語により評価方法を異ならせてもよく、たとえば、英語を言語とした場合は、単語単位となる。
[ステップS14]例文検索装置200の抽出部200eは、検索例文110bのうちからマッチングスコアが最大となる例文を抽出例文110dとして抽出する。そして、例文検索装置200の抽出部200eは、検索結果リストから抽出例文110dに対応する例文を削除する。
[ステップS15]例文検索装置200の再評価対象部分選択部200fは、出力済フラグ配列表の出力済フラグを更新する。
[ステップS16]例文検索装置200の再評価対象部分選択部200fは、検索結果リストが空か否かをチェックして、空であれば出力済フラグ配列表更新処理を終了する。
例文検索装置200の再評価対象部分選択部200eは、検索結果リストが空か否かをチェックして、空でなければステップS13にすすむ。
なお、ステップS16を経て実行されるステップS13は、例文検索装置200の再評価部200gにより処理される。そして、ステップS16を経て実行されるステップS14は、例文検索装置200の再抽出部200hにより処理される。
次に、図12の出力例文60をさらに絞り込む場合について図14、図15を用いて説明する。図14は、実施の形態の選択画面の具体例である。図15は、実施の形態の選択出力画面の具体例である。
例文検索装置200の出力部200iは、出力例文60のうちモニタ11に選択画面70として表示出力する。一般に、一度に表示出力可能な例文数は、モニタ11の表示領域等の関係で制約を受ける。選択画面70は、一度に3組の対訳例文を表示可能であり、出力例文70a、70b、70c、出力対訳文71a、71b、71cが表示される。
これら出力例文70a、70b、70cにより入力例文20のキーワードの多くをカバーするが、特定のキーワードに絞って出力例文を取り出したい場合には不十分な場合がある。そこで、翻訳者がマウス13によりカーソルを操作し、キーワードとなる文字列を選択する。そして、「選択」をクリックすることで、反転図示した「大事な」をキーワードにして出力例文60または、検索例文30に対する絞り込みを行う。
例文検索装置200は、絞り込みの結果として選択出力画面80をモニタ11に表示する。選択出力画面80は、絞り込みの結果として出力例文80a、80b、出力対訳文81a、81bが表示される。「選択」した「大事な」に対応するキーワードに対して、原文、訳文ともに反転表示される。
これによれば、選択画面に表示されている出力例文70a、70b、70cにより入力例文20のキーワードの多くをカバーしていることから、キーワードの選択肢が翻訳者に対して十分に広く提示されていることになる。また、入力例文20に対する検索結果に対する絞り込みであるので、単に「大事な」をキーワードとした検索をした場合のように不要な検索結果を得ないので検索者にかかる負担が少ない。
たとえば、「彼は急にハンドルを切った」という入力例文に対して、「彼は急にハンドルを回した」、「太郎は急にハンドルを切って、木にぶつかった。」、「花子は携帯電話を持ちながらハンドルを切った」を検索例文として得た場合について説明する。ここで、「切」で絞り込みを行うと、「太郎は急にハンドルを切って、木にぶつかった。」、「花子は携帯電話を持ちながらハンドルを切った」の2件に絞り込める。
一方、単に再検索した場合は、「太郎はトランプを切った」や「彼女はたんかを切った」など、様々な表現がヒットしてしまい、所望の例文を探すのに面倒な結果となる。
次に、検索結果から検索キーと一致する文字列を特定する処理について説明する。図16は、文字列特定処理のフローチャートである。文字列特定処理は、例文検索装置200により実行される。たとえば、検索例文30を得た後に、図6の検索例文配列41aから41gの各配列要素にマッチングフラグ「1」をセットするか否かを判定するときに実行する処理である。
[ステップS21]例文検索装置200は、検索例文中の文字が入力例文中に含まれるか、検索例文中の文字ごとに判断をする。たとえば、判断対象とする検索例文配列41aの各要素と同じ文字が、入力例文配列20aの要素のいずれかと一致するかを判断して、検索例文配列41aと同じ大きさの文字列特定用配列の対応する要素に「1」をセットする。これにより、検索例文配列41aを構成する文字の入力例文配列20a中の有無が文字列特定用配列にセットされる。
[ステップS22]例文検索装置200は、検索例文中に含まれた入力例文中の文字が、評価対象となる文字列であるか否かを判定する。たとえば、例文検索装置200は、文字列特定用配列中の連続する「1」の並びにより文字列の大きさを判断する。文字列でないとした場合は、文字列特定用配列中の「1」を「0」に修正する。例文検索装置200は、このとき、対応する文字列が入力例文中の有無により評価対象とするか否かの判定をする。また、対応する文字列の入力例文中の有無の評価には、辞書を参酌するなどして判断してもよい。また、検索を行った検索部200cが検索に用いた情報(たとえば、マッチング部分をリスト化した情報の継承など)を判断材料としてもよい。
[ステップS23]例文検索装置200は、検索例文中に含まれた文字列が重複排除の是非を判定する。たとえば、同じ文字列が複数回登場する場合に、後のマッチングスコアの評価で過大な評価がなされるのを防ぐために、冗長と判断した場合は、文字列特定用配列中の「1」を「0」に修正する。
[ステップS24]例文検索装置200は、ステップS21からステップS23の判定に基づいた文字列特定用配列中の「1」を検索例文配列41aの各配列要素にマッチングフラグ「1」としてセットする。
[ステップS25]例文検索装置200は、すべての検索例文30について文字列を特定していなければ、ステップS21にすすみ、次の検索例文について同様の処理を反復する。例文検索装置200は、すべての検索例文30について文字列を特定していれば、文字列特定処理を終了する。
次に、第二の実施形態について説明する。第二の実施例では、例文検索装置200による検索例文30の再評価について出力済フラグ配列に加えて出力済頻度配列を用いる点で異なる。以下に、図17から図26を用いて説明する。図17は、第二の実施形態のマッチングテーブルの具体例である。
例文検索装置200による検索例文30の評価については、先に説明した実施形態と同様なので省略し、「彼は、大事な試験があるので、学校へ行った。」(検索例文30a)が抽出された後から説明する。マッチング頻度テーブル49からは、抽出済みの検索例文30aに対応する検索例文配列の図示を省略している。
マッチング頻度テーブル49は、入力例文配列20aと、検索例文配列44a(図示省略)、検索例文配列44bから44gとからなる。入力例文配列20aは、入力例文20の各文字ごとの配列であり、各配列要素がスコア(要素スコア)評価の基準要素となる。検索例文配列44bは、検索例文30bの各文字ごとの配列である。検索例文配列44bの各配列要素は、入力例文20の各配列要素とのスコア評価がされる。検索例文配列44bは、各配列要素のスコア評価の結果でスコア評価(マッチングスコア45)がされる。したがって、検索例文配列44bの各配列要素は、スコア評価の評価対象要素となる。同様にして、検索例文配列44bから44gは、検索例文30bから30gに対応する。マッチング評価は、後述のマッチングスコア計算処理により評価される。
そして、各検索例文配列44bから44gごとに、スコア評価した結果がマッチングスコア45(45bから45g)である。スコア評価は、後述のマッチングスコア計算処理野中で評価される。なお、検索例文配列41aの各配列要素のスコア評価は、初期化時点では「0」である。
出力済頻度配列90bは、検索例文30aを抽出例文として抽出したことで更新される。例文検索装置200は、出力済頻度配列90bの配列要素と出力済頻度配列90bの配列要素に対応する検索例文30aとを参照する。そして、出力済頻度配列90bの配列要素と出力済頻度配列90bの配列要素に対応する検索例文30aとがマッチングする場合に、出力済頻度配列90bの対応する配列要素に出力済頻度「1」を加算する。出力済頻度配列90bの配列要素の出力済頻度数の大きさは、入力例文配列20aの対応する配列要素を検索例文30からの抽出例文の抽出に反映した頻度を示す。したがって、出力済頻度配列90bの配列要素の出力済頻度数の大きさが、検索例文30(抽出済みの検索例文30aを除く)に対する再評価対象部分を重み付けして選択していることになる。
そして、各検索例文配列44bから44gごとに、スコア評価(再評価)した結果がマッチングスコア45(45bから45g)である。これによれば、マッチングスコア45bから45gのうち、最大値は「7」(45d)であり、例文検索装置200は、「私は今日風邪気味だ。」(検索例文30d)を再抽出例文として再抽出する。
ここで、マッチングスコア計算処理の詳細について図26を用いて説明する。図26は、マッチングスコア計算処理のフローチャートである。マッチングスコア計算処理は、例文検索装置200の再評価部200gにより実行される。
[ステップS31]例文検索装置200の再評価部200gは、出力済頻度配列中の最大値を取得する。たとえば、図17中の出力済頻度配列90bであれば、「1」が最大値であり、図21中の出力済頻度配列90dであれば、「2」が最大値であり、図25中の出力済頻度配列90eであれば、「4」が最大値である。
[ステップS32]例文検索装置200の再評価部200gは、検索例文配列の配列要素に対応する入力例文20の配列要素があるか否かを判定する。例文検索装置200の再評価部200gは、検索例文配列の配列要素に対応する入力例文20の配列要素がなければ、ステップS34にすすむ。例文検索装置200の再評価部200gは、検索例文配列の配列要素に対応する入力例文20の配列要素があれば、ステップS33にすすむ。
[ステップS33]例文検索装置200の再評価部200gは、各配列要素のスコア評価をする。スコア評価は、出力済頻度配列中の対応する配列要素の出力済頻度と最大値との差を要素スコアとして評価して、加算更新する。
[ステップS34]例文検索装置200の再評価部200gは、すべての配列要素のスコア評価を終えたら、ステップS35にすすむ。例文検索装置200の再評価部200gは、すべての配列要素のスコア評価を終えていなければ、ステップS32にすすむ。
[ステップS35]例文検索装置200の再評価部200gは、各配列要素のスコア評価の合計をマッチングスコアとする。
次に、例文検索装置200による出力済頻度配列表の更新について説明する。図18は、第二の実施形態の出力済フラグ配列表の更新状態を表す図である。
例文検索装置200は、検索例文30dを再抽出例文として再抽出したことで、出力済頻度配列表90の出力済頻度配列90cを更新する。例文検索装置200は、検索例文30dに対応する検索例文配列41d(図6参照)の各配列要素を参照する。そして、検索例文配列41dの各配列要素のマッチングフラグが「1」である場合に、出力済頻度配列90cの対応する配列要素(マッチング部分95c)に出力済頻度「1」を加算する。出力済頻度配列90cの配列要素の出力済頻度数は、入力例文配列20aの対応する配列要素を反映した検索例文30からの抽出例文の抽出頻度を示す。
次に、例文検索装置200による検索例文30の2回目の再評価について説明する。図19は、第二の実施形態のマッチングテーブルの具体例である。
マッチング頻度テーブル49からは、抽出済みの検索例文30aに対応する検索例文配列44a、再抽出済みの検索例文30dに対応する検索例文配列44dの図示を省略している。例文検索装置200の再評価部200gは、各検索例文配列44b、44c、44eから44gごとに、スコア評価(2回目の再評価)する。そして、各スコアを合計したのがマッチングスコア45(45b、45c、45eから45g)である。これによれば、マッチングスコア45b、45c、45eから45gのうち、最大値は「3」であり、例文検索装置200は、「午後に大学へ行く。」(検索例文30e)を2回目の再抽出例文として再抽出する。
次に、例文検索装置200による出力済頻度配列表の2回目の更新について説明する。図20は、第二の実施形態の出力済フラグ配列表の更新状態を表す図である。
例文検索装置200は、検索例文30eを再抽出例文として再抽出したことで、出力済頻度配列表90の出力済頻度配列90dを更新する。例文検索装置200は、検索例文30eに対応する検索例文配列41e(図6参照)の各配列要素を参照する。そして、検索例文配列41eの各配列要素のマッチングフラグが「1」である場合に、出力済頻度配列90dの対応する配列要素(マッチング部分95d、95e、95f)に出力済頻度「1」を加算する。
次に、例文検索装置200による検索例文30の3回目の再評価について説明する。図21は、第二の実施形態のマッチングテーブルの具体例である。
マッチング頻度テーブル49からは、抽出済みの検索例文30aに対応する検索例文配列44a、再抽出済みの検索例文30d、30eに対応する検索例文配列44d、44eの図示を省略している。例文検索装置200の再評価部200gは、各検索例文配列44b、44c、44f、44gごとに、スコア評価(3回目の再評価)する。そして、各スコアを合計したのがマッチングスコア45(45b、45c、45f、45g)である。これによれば、マッチングスコア45b、45c、45f、45gのうち、最大値は「11」であり、例文検索装置200は、「彼は、試験があるので、学校へ行く。」(検索例文30b)を3回目の再抽出例文として再抽出する。
次に、例文検索装置200による出力済頻度配列表の3回目の更新について説明する。図22は、第二の実施形態の出力済フラグ配列表の更新状態を表す図である。
例文検索装置200は、検索例文30bを再抽出例文として再抽出したことで、出力済頻度配列表90の出力済頻度配列90eを更新する。例文検索装置200は、検索例文30bに対応する検索例文配列41b(図6参照)の各配列要素を参照する。そして、検索例文配列41bの各配列要素のマッチングフラグが「1」である場合に、出力済頻度配列90eの対応する配列要素(マッチング部分95g、95h、95i)に出力済頻度「1」を加算する。
次に、例文検索装置200による検索例文30の4回目の再評価について説明する。図23は、第二の実施形態のマッチングテーブルの具体例である。
マッチング頻度テーブル49からは、抽出済みの検索例文30aに対応する検索例文配列44a、再抽出済みの検索例文30d、30e、30bに対応する検索例文配列44d、44e、44bの図示を省略している。例文検索装置200の再評価部200gは、各検索例文配列44c、44f、44gごとに、スコア評価(4回目の再評価)する。そして、各スコアを合計したのがマッチングスコア45(45c、45f、45g)である。これによれば、マッチングスコア45c、45f、45gのうち、最大値は「11」であり、例文検索装置200は、「私は大事な試験があるにもかかわらず学校を休んだ。」(検索例文30c)を4回目の再抽出例文として再抽出する。
次に、例文検索装置200による出力済頻度配列表の4回目の更新について説明する。図24は、第二の実施形態の出力済フラグ配列表の更新状態を表す図である。
例文検索装置200は、検索例文30cを再抽出例文として再抽出したことで、出力済頻度配列表90の出力済頻度配列90fを更新する。例文検索装置200は、検索例文30cに対応する検索例文配列41c(図6参照)の各配列要素を参照する。そして、検索例文配列41bの各配列要素のマッチングフラグが「1」である場合に、出力済頻度配列90fの対応する配列要素(マッチング部分95j、95k)に出力済頻度「1」を加算する。
次に、例文検索装置200による検索例文30の5回目の再評価について説明する。図25は、第二の実施形態のマッチングテーブルの具体例である。
マッチング頻度テーブル49からは、抽出済みの検索例文30aに対応する検索例文配列44a、再抽出済みの検索例文30d、30e、30b、30cに対応する検索例文配列44d、44e、44b、44cの図示を省略している。例文検索装置200の再評価部200gは、各検索例文配列44f、44gごとに、スコア評価(4回目の再評価)する。そして、各スコアを合計したのがマッチングスコア45(45f、45g)である。これによれば、マッチングスコア45f、45gのうち、最大値は「12」であり、例文検索装置200は、「彼は試験を受けに大学へ行った。」(検索例文30f)を5回目の再抽出例文として再抽出する。なお、残りの「彼は試験を受けに大学へ行った。」(検索例文30g)を最後の再抽出例文とする。
このように、マッチング頻度を評価に反映させることで、検索例文30の数が多くても、すべてについて好適に順位付けをすることができる。
なお、出力済頻度配列の更新は、「1」を加算することで行ったが、例文の抽出回数や出力済み頻度の大きさ、特定のキーワード(たとえば、選択されたキーワード)などに応じた重み付けをした値を加算するようにしてもよい。このような加算方法によれば、操作者の意図に沿った好適な順位付けをすることができる。
次に、第三の実施形態について説明する。図12の出力例文60の出力順序をさらに並べ替える場合について図27を用いて説明する。図27は、類似程度計算処理のフローチャートである。類似程度計算処理は、例文検索装置200により実行される。たとえば、出力例文60を得た後に実行する処理である。
[ステップS41]例文検索装置200は、出力例文60(抽出例文および再抽出例文)のうちから特定の例文(特定例文)の選択を受け付ける。
[ステップS42]例文検索装置200は、特定例文の検索例文配列41を取得する。
[ステップS43]例文検索装置200は、検索例文30の検索例文配列41を取得する。
[ステップS44]例文検索装置200は、特定例文の検索例文配列41と入力例文20とがマッチングし、かつ、検索例文30の検索例文配列41と入力例文20とがマッチングするか否かを判定する。例文検索装置200は、検索例文配列41の配列要素ごとに判定を行う。例文検索装置200は、マッチングすればステップS45にすすみ、しなければステップS46にすすむ。
[ステップS45]例文検索装置200は、類似度評価値に類似度評価として、たとえば、「1」を加算する。
[ステップS46]例文検索装置200は、特定例文の検索例文配列41の終端までマッチングの判定をするため、特定例文の検索例文配列41の終端か否かを判定する。例文検索装置200は、終端であればステップS47にすすみ、終端でなければステップS44にすすむ。
[ステップS47]例文検索装置200は、検索例文30のすべて(ただし、特定例文を除く)の例文を評価したか否かを判定する。例文検索装置200は、評価が終了していなければ、ステップS43にすすむ。例文検索装置200は、評価が終了していれば、類似程度計算処理を終了する。
このようにして、検索例文30について、特定例文との類似度を評価することができ、出力例文60を類似度評価に基づいて、並べ替えることで出力例文60について所望の出力順序を得ることができる。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、検索結果出力装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
プログラムを流通させる場合には、たとえば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、たとえば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムにしたがった処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムにしたがった処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムにしたがった処理を実行することもできる。
なお、上述の実施の形態は、実施の形態の要旨を逸脱しない範囲内において種々の変更を加えることができる。
さらに、上述の実施の形態は、多数の変形、変更が当業者にとって可能であり、説明した正確な構成および応用例に限定されるものではない。
以上説明した実施の形態の主な技術的特徴は、以下の付記の通りである。
(付記1) 例文検索の結果を出力する検索結果出力プログラムにおいて、
コンピュータを、
検索条件となる入力例文と前記入力例文を検索キーとした検索結果としての検索例文との間で所定単位の文字または文字列の一致程度を評価する評価手段、
前記評価に基づいて前記検索例文から一の例文を抽出例文として抽出する抽出手段、
前記入力例文のうち前記抽出例文の前記評価に寄与した部分を除外した前記入力例文の一部を再評価対象部分として選択する再評価対象部分選択手段、
前記検索例文と前記再評価対象部分との間で所定単位の文字または文字列の一致程度を再評価する再評価手段、
前記再評価に基づいて前記検索例文から一の例文を再抽出例文として再抽出する再抽出手段、
前記抽出手段が抽出した前記例文および前記再抽出手段が再抽出した前記例文を出力する出力手段、
として機能させることを特徴とする検索結果出力プログラム。
(付記2) 前記再評価対象部分選択手段は、前記抽出例文または前記再抽出例文の前記評価に寄与した部分を除外した前記入力例文の一部を前記再評価対象部分として選択することを特徴とする付記1記載の検索結果出力プログラム。
(付記3) 前記再評価対象部分選択手段は、前記入力例文の所定単位ごとに前記抽出例文の前記評価への寄与を抽出記録として記録し、前記抽出記録を参照して前記再評価対象部分を選択することを特徴とする付記1記載の検索結果出力プログラム。
(付記4) 前記再評価対象部分選択手段は、前記入力例文の所定単位ごとに前記抽出例文または前記再抽出例文の前記評価への寄与を抽出記録として記録し、前記抽出記録を参照して前記再評価対象部分を選択することを特徴とする付記2記載の検索結果出力プログラム。
(付記5) 前記コンピュータを、さらに、
前記入力例文のうち一部の文字または文字列の選択を受け付ける文字列選択受付手段、として機能させ、
前記出力手段は、前記抽出手段が抽出した前記例文および前記再抽出手段が再抽出した前記例文のうち、前記文字列選択受付手段が受け付けた文字または文字列を含む例文を出力することを特徴とする付記1記載の検索結果出力プログラム。
(付記6) 前記コンピュータを、さらに、
前記出力手段が出力した前記例文のうち、一の例文の選択を受け付ける例文選択受付手段、
前記出力手段が出力した前記例文と、前記一の例文との類似程度を評価する類似評価手段、
前記類似評価手段の前記評価に基づいて、前記出力手段が出力した前記例文を並べ替えて再出力する再出力手段、
として機能させることを特徴とする付記1記載の検索結果出力プログラム。
(付記7) 前記検索例文は、原語による複数の原文であって、
前記出力手段は、前記原文と訳語による訳文との組を対訳例文として出力することを特徴とする付記1記載の検索結果出力プログラム。
(付記8) 例文検索の結果を出力する検索結果出力装置において、
検索条件となる入力例文と前記入力例文を検索キーとした検索結果としての検索例文との間で所定単位の文字または文字列の一致程度を評価する評価手段、
前記評価に基づいて前記検索例文から一の例文を抽出例文として抽出する抽出手段と、
前記抽出例文に基づいて前記入力例文の一部を再評価対象部分として選択する再評価対象部分選択手段と、
前記検索例文と前記再評価対象部分との間で所定単位の文字または文字列の一致程度を再評価する再評価手段と、
前記再評価に基づいて前記検索例文から一の例文を再抽出例文として再抽出する再抽出手段と、
前記抽出手段が抽出した前記例文および前記再抽出手段が再抽出した前記例文を出力する出力手段と、
を備えることを特徴とする検索結果出力装置。
(付記9) 例文検索の結果を出力する検索結果出力装置の検索結果出力方法において、
前記検索結果出力装置が、
検索条件となる入力例文と前記入力例文を検索キーとした検索結果としての検索例文との間で所定単位の文字または文字列の一致程度を評価し、
前記評価に基づいて前記検索例文から一の例文を抽出例文として抽出し、
前記抽出例文に基づいて前記入力例文の一部を再評価対象部分として選択し、
前記検索例文と前記再評価対象部分との間で所定単位の文字または文字列の一致程度を再評価し、
前記再評価に基づいて前記検索例文から一の例文を再抽出例文として再抽出し、
前記抽出した前記例文および前記再抽出した前記例文を出力することを特徴とする検索結果出力方法。
(付記10) 例文を検索し、検出された例文を出力する例文検索プログラムにおいて、
コンピュータを、
複数の例文を記憶する例文記憶手段、
検索条件となる入力例文の入力を受け付ける入力例文受付手段、
前記入力例文を検索キーとして、前記例文記憶手段内の前記例文に対する検索を行い、該当する例文を検索例文として抽出する検索手段、
前記検索例文と前記入力例文との間で所定単位の文字または文字列の一致程度を評価する評価手段、
前記評価に基づいて前記検索例文から一の例文を抽出例文として抽出する抽出手段、
前記抽出例文に基づいて前記入力例文の一部を再評価対象部分として選択する再評価対象部分選択手段、
前記検索例文と前記再評価対象部分との間で所定単位の文字または文字列の一致程度を再評価する再評価手段、
前記再評価に基づいて前記検索例文から一の例文を再抽出例文として再抽出する再抽出手段、
前記抽出手段が抽出した前記例文および前記再抽出手段が再抽出した前記例文を出力する出力手段、
として機能させることを特徴とする例文検索プログラム。
(付記11) 前記例文記憶手段が記憶する例文は、原語による複数の原文であって、それぞれについて、前記原文と訳語による訳文との組を対訳例文として記憶し、
前記出力手段は、前記原文と訳語による訳文との組を対訳例文として出力することを特徴とする付記10記載の例文検索プログラム。
(付記12) 例文を検索し、検出された例文を出力する例文検索装置において、
複数の例文を記憶する例文記憶手段と、
検索条件となる入力例文の入力を受け付ける入力例文受付手段と、
前記入力例文を検索キーとして、前記例文記憶手段内の前記例文に対する検索を行い、該当する例文を検索例文として抽出する検索手段と、
前記検索例文と前記入力例文との間で所定単位の文字または文字列の一致程度を評価する評価手段と、
前記評価に基づいて前記検索例文から一の例文を抽出例文として抽出する抽出手段と、
前記抽出例文に基づいて前記入力例文の一部を再評価対象部分として選択する再評価対象部分選択手段と、
前記検索例文と前記再評価対象部分との間で所定単位の文字または文字列の一致程度を再評価する再評価手段と、
前記再評価に基づいて前記検索例文から一の例文を再抽出例文として再抽出する再抽出手段と、
前記抽出手段が抽出した前記例文および前記再抽出手段が再抽出した前記例文を出力する出力手段と、
を備えることを特徴とする例文検索装置。
(付記13) 例文を検索し、検出された例文を出力する例文検索装置の例文検索方法において、
前記検索結果出力装置が、
検索条件となる入力例文の入力を受け付け、
前記入力例文を検索キーとして、例文の検索を行い、該当する例文を検索例文として抽出し、
前記検索例文と前記入力例文との間で所定単位の文字または文字列の一致程度を評価し、
前記評価に基づいて前記検索例文から一の例文を抽出例文として抽出し、
前記抽出例文に基づいて前記入力例文の一部を再評価対象部分として選択し、
前記検索例文と前記再評価対象部分との間で所定単位の文字または文字列の一致程度を再評価し、
前記再評価に基づいて前記検索例文から一の例文を再抽出例文として再抽出し、
前記抽出した前記例文および前記再抽出した前記例文を出力することを特徴とする例文検索方法。
100 検索結果出力装置
100a 評価手段
100b 抽出手段
100c 再評価対象部分選択手段
100d 再評価手段
100e 再抽出手段
100f 出力手段
110a 入力例文
110b 検索例文
110c 評価
110d 抽出例文
110e 再評価対象部分
110f 再評価
110g 再抽出例文

Claims (7)

  1. 例文検索の結果を出力する検索結果出力プログラムにおいて、
    コンピュータを、
    検索条件となる入力例文と前記入力例文を検索キーとした検索結果としての検索例文との間で所定単位の文字または文字列の一致程度を評価する評価手段、
    前記評価に基づいて前記検索例文から一の例文を抽出例文として抽出する抽出手段、
    前記入力例文のうち前記抽出例文の前記評価に寄与した部分を除外した前記入力例文の一部を再評価対象部分として選択する再評価対象部分選択手段、
    前記検索例文と前記再評価対象部分との間で所定単位の文字または文字列の一致程度を再評価する再評価手段、
    前記再評価に基づいて前記検索例文から一の例文を再抽出例文として再抽出する再抽出手段、
    前記抽出手段が抽出した前記例文および前記再抽出手段が再抽出した前記例文を出力する出力手段、
    として機能させることを特徴とする検索結果出力プログラム。
  2. 前記再評価対象部分選択手段は、前記抽出例文または前記再抽出例文の前記評価に寄与した部分を除外した前記入力例文の一部を前記再評価対象部分として選択することを特徴とする請求項1記載の検索結果出力プログラム。
  3. 前記再評価対象部分選択手段は、前記入力例文の所定単位ごとに前記抽出例文の前記評価への寄与を抽出記録として記録し、前記抽出記録を参照して前記再評価対象部分を選択することを特徴とする請求項1記載の検索結果出力プログラム。
  4. 前記コンピュータを、さらに、
    前記入力例文のうち一部の文字または文字列の選択を受け付ける文字列選択受付手段、として機能させ、
    前記出力手段は、前記抽出手段が抽出した前記例文および前記再抽出手段が再抽出した前記例文のうち、前記文字列選択受付手段が受け付けた文字または文字列を含む例文を出力することを特徴とする請求項1記載の検索結果出力プログラム。
  5. 前記コンピュータを、さらに、
    前記出力手段が出力した前記例文のうち、一の例文の選択を受け付ける例文選択受付手段、
    前記出力手段が出力した前記例文と、前記一の例文との類似程度を評価する類似評価手段、
    前記類似評価手段の前記評価に基づいて、前記出力手段が出力した前記例文を並べ替えて再出力する再出力手段、
    として機能させることを特徴とする請求項1記載の検索結果出力プログラム。
  6. 例文検索の結果を出力する検索結果出力装置において、
    検索条件となる入力例文と前記入力例文を検索キーとした検索結果としての検索例文との間で所定単位の文字または文字列の一致程度を評価する評価手段、
    前記評価に基づいて前記検索例文から一の例文を抽出例文として抽出する抽出手段と、
    前記抽出例文に基づいて前記入力例文の一部を再評価対象部分として選択する再評価対象部分選択手段と、
    前記検索例文と前記再評価対象部分との間で所定単位の文字または文字列の一致程度を再評価する再評価手段と、
    前記再評価に基づいて前記検索例文から一の例文を再抽出例文として再抽出する再抽出手段と、
    前記抽出手段が抽出した前記例文および前記再抽出手段が再抽出した前記例文を出力する出力手段と、
    を備えることを特徴とする検索結果出力装置。
  7. 例文検索の結果を出力する検索結果出力装置の検索結果出力方法において、
    前記検索結果出力装置が、
    検索条件となる入力例文と前記入力例文を検索キーとした検索結果としての検索例文との間で所定単位の文字または文字列の一致程度を評価し、
    前記評価に基づいて前記検索例文から一の例文を抽出例文として抽出し、
    前記抽出例文に基づいて前記入力例文の一部を再評価対象部分として選択し、
    前記検索例文と前記再評価対象部分との間で所定単位の文字または文字列の一致程度を再評価し、
    前記再評価に基づいて前記検索例文から一の例文を再抽出例文として再抽出し、
    前記抽出した前記例文および前記再抽出した前記例文を出力することを特徴とする検索結果出力方法。
JP2009074191A 2009-03-25 2009-03-25 検索結果出力プログラム、検索結果出力装置、および検索結果出力方法 Active JP5257189B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009074191A JP5257189B2 (ja) 2009-03-25 2009-03-25 検索結果出力プログラム、検索結果出力装置、および検索結果出力方法
US12/728,715 US8566079B2 (en) 2009-03-25 2010-03-22 Retrieval result outputting apparatus and retrieval result outputting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009074191A JP5257189B2 (ja) 2009-03-25 2009-03-25 検索結果出力プログラム、検索結果出力装置、および検索結果出力方法

Publications (2)

Publication Number Publication Date
JP2010225077A JP2010225077A (ja) 2010-10-07
JP5257189B2 true JP5257189B2 (ja) 2013-08-07

Family

ID=42785336

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009074191A Active JP5257189B2 (ja) 2009-03-25 2009-03-25 検索結果出力プログラム、検索結果出力装置、および検索結果出力方法

Country Status (2)

Country Link
US (1) US8566079B2 (ja)
JP (1) JP5257189B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8670973B2 (en) * 2010-09-16 2014-03-11 International Business Machines Corporation Language translation reuse in different systems
JP6221339B2 (ja) * 2013-05-14 2017-11-01 富士通株式会社 翻訳装置及び翻訳方法
JP7188879B2 (ja) * 2017-11-24 2022-12-13 ヤフー株式会社 提供装置、提供方法及び提供プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08106474A (ja) * 1994-10-07 1996-04-23 Hitachi Ltd 類似例文検索結果表示方法及び装置
JP4574047B2 (ja) * 2001-03-30 2010-11-04 富士通株式会社 訳例辞書を用いて翻訳を行う機械翻訳装置およびプログラム
US7295962B2 (en) * 2001-05-11 2007-11-13 University Of Southern California Statistical memory-based translation system
KR100453227B1 (ko) * 2001-12-28 2004-10-15 한국전자통신연구원 번역 지원 시스템에서의 유사 문장 검색 방법
US7353165B2 (en) * 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system
JP3829802B2 (ja) * 2002-12-27 2006-10-04 カシオ計算機株式会社 情報表示制御装置及びプログラム
US7536293B2 (en) * 2003-02-24 2009-05-19 Microsoft Corporation Methods and systems for language translation
JP4502615B2 (ja) * 2003-09-26 2010-07-14 日本電気株式会社 類似文検索装置、類似文検索方法、およびプログラム
JP4076520B2 (ja) * 2004-05-26 2008-04-16 富士通株式会社 翻訳支援プログラムおよび単語対応付けプログラム
JP4588417B2 (ja) * 2004-11-05 2010-12-01 富士通株式会社 翻訳装置
JP4961755B2 (ja) * 2006-01-23 2012-06-27 富士ゼロックス株式会社 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
JP4997966B2 (ja) * 2006-12-28 2012-08-15 富士通株式会社 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法

Also Published As

Publication number Publication date
JP2010225077A (ja) 2010-10-07
US8566079B2 (en) 2013-10-22
US20100250232A1 (en) 2010-09-30

Similar Documents

Publication Publication Date Title
US7752032B2 (en) Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor
US8782049B2 (en) Keyword presenting device
KR20050005523A (ko) 단어 상관 방법 및 장치
JP4254763B2 (ja) 文書検索システム、文書検索方法及び文書検索プログラム
US8554539B2 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
JP5257189B2 (ja) 検索結果出力プログラム、検索結果出力装置、および検索結果出力方法
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
WO2012015021A1 (en) Stroke and structure input method and system
JP2002251412A (ja) 文書検索装置および方法ならびに記憶媒体
JP7443667B2 (ja) 検索装置、辞書検索プログラム、辞書検索方法
JP2022054015A (ja) 出力装置、出力プログラム及び出力方法
JP6816621B2 (ja) 判別方法、判別プログラム及び判別装置
JP4915499B2 (ja) 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム
JP2002251401A (ja) 文書検索装置および方法ならびに記憶媒体
CN109947779A (zh) 用户输入词汇的存储方法、装置及设备
JP5998779B2 (ja) 検索装置、検索方法、及びプログラム
JP4622272B2 (ja) 言語処理装置、言語処理方法およびプログラム
JP4574186B2 (ja) 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置
US20050136457A1 (en) Method for analyzing genome
JP2002259426A (ja) 類似文書検索装置、類似文書検索方法、類似文書検索プログラムを記録した記録媒体及び類似文書検索プログラム
JP2008203997A (ja) 文書検索装置及びプログラム
JP5412137B2 (ja) 機械学習装置及び方法
JP2005250682A (ja) 情報抽出システム
JP2010061532A (ja) 電子辞書、電子辞書の検索方法及び電子辞書の検索プログラム
JP2008293070A (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130321

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130408

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160502

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5257189

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150