JP4266222B2

JP4266222B2 - 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体

Info

Publication number: JP4266222B2
Application number: JP2005346898A
Authority: JP
Inventors: 克仁須藤; 秀樹磯崎; 元塚田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-11-30
Filing date: 2005-11-30
Publication date: 2009-05-20
Anticipated expiration: 2025-11-30
Also published as: JP2007156545A

Description

本発明は、例えば、情報検索システム、質問応答システム、機械翻訳システムに利用される単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体に関する。

従来、例えば、情報検索システム、質問応答システム、機械翻訳システムにおいて、言語横断的な変換、すなわち、原言語の単語あるいは複合語（以下、単に単語という）から対象言語の単語への変換（翻訳）が必要な場合がある。このように言語横断的な変換が必要な場合には、一般に、辞書のように単語の変換規則を記述したデータベースが利用される。

また、単語を構成する文字（記号）に着目して、単語の翻訳（記号列の変換）を、文字単位の変換として捉える「翻字」という技術が知られている（例えば、非特許文献１、非特許文献２）。この翻字によれば、例えば、変換すべき言語の種類が多い場合にも、それに対応した種々の辞書を必ずしも整備しておかなくてもよいことが期待される。

非特許文献１に開示された翻字技術では、単語の発音に対応する記号を利用して、翻字の確からしさ（単語の変換の確からしさ）を示す確率モデルを予め作成しておき、原言語の単語（文字）から、この確からしさが最も大きくなるような対象言語の単語（文字）を求める。具体的には、両言語の対応する単語組の複数のデータを含む学習データから確率モデルを作成する際に、原言語の文字が原言語の発音に変換される確率と、原言語の発音が対象言語の発音に変化する確率と、対象言語の発音が対象言語の文字に変換される確率と、を統計的に求めておき、確率の積によって翻字の確からしさを計算することとしている。

また、非特許文献２に開示された翻字技術は、カタカナ（日本語）で表記される単語から、アルファベット（英語）で表記される単語への翻字を実現するものである。具体的には、この翻字技術では、カタカナ表記をローマ字表記に置き換えた各文字から英単語の各文字への変換確率を示す確率モデルを予め作成しておき、この確率モデルを利用して翻字を行う。なお、この場合には、１文字単位の変換だけではなく、着目する文字の前後の文字（複数の文字）に関して、対応付け可能な複数文字間の変換確率も利用している。
K. Knight et al, "Machine Transliteration", Computational Linguistics, 1998,vol.24,No.4, p.599-612 E. Brill et al. "Automatically Harvesting Katakana-English Term Pairs from Search Engine Query Logs" in Proceedings of the 6th Natural Language Processing Pacific Rim Symposium, 2001, p.393-399

しかしながら、前記した翻字技術（記号変換技術）には、以下に示す問題がある。
すなわち、非特許文献１に開示された技術では、学習データ中の原言語の単語と対象言語の単語の両方とも単語の読みが既知でなければ、確率モデルを作成することができないという問題がある。また、発音体系の異なる言語対においては発音間の対応をとることが困難である。

一方、非特許文献２に開示された技術では、カタカナをローマ字表記にすることでアルファベットとの対応関係をとりやすくすることは可能であるが、日英翻訳以外の様々な言語に対応して翻字を実現するためには、発音情報と同等な効力のある別の情報がさらに必要となるという問題がある。

そこで、本発明では、以上のような問題点に鑑みてなされたものであり、所定の記号体系に属する記号列を、任意の記号体系に属する対応した記号列に変換することのできる技術を提供することを目的とする。

前記課題を解決するため、請求項１に記載の単語翻訳装置は、異なる言語体系にそれぞれ属する同じ意味の単語の組合わせである単語組における文字の同時生起頻度を利用した単語翻訳装置であって、第１の言語体系に属する第１の単語と、それに対応する第２の言語体系に属する第２の単語とに対して、文字同士を１対１に対応させ、かつ対応する文字間において前記第１の単語を構成する第１の文字に対する翻字候補として、前記第２の単語を構成する第２の文字が現れ易いことを指す尺度である統計的な関連度を計算すると共に、前記第１の文字と前記第２の文字とのうちのいずれかに対応する文字がない場合に仮想的な空文字を用いた仮想的な関連度を計算し、計算した関連度および仮想的な関連度をデータとする文字間関連度データベースを作成する文字間関連度データベース作成手段と、前記対応させた文字間の関連度の積あるいは和が最大となるように前記第１の単語あるいは前記第２の単語あるいは両単語のいずれかの文字位置に空文字を挿入した単語組みを探索し、この探索された単語組を単語組データベースに記憶する単語組データベース作成手段と、前記単語組データベースに記憶された単語組に対して、前記第１の単語を構成する第１の文字と前記第２の単語を構成する第２の文字との文字組の出現順序の頻度を計算し、前記同時生起頻度としての翻字確率モデルを作成する生起確率計算手段と、第１の言語体系に属するソース単語の入力を受け付ける入力手段と、前記翻字確率モデルに基づいて、前記ソース単語と、第２の言語体系に属するターゲット単語とを文字単位で対応付けた組から成る任意の単語組において、前記空文字を考慮して、前記出現順序の頻度をそれぞれ計算し、この計算の結果に基づいて、前記出現順序の頻度が最大となる単語組を探索し、この探索された単語組のうちのターゲット単語を、前記入力を受け付けたソース単語に対応するターゲット単語として推定する単語探索手段と、前記推定されたターゲット単語を出力する出力手段とを備えることを特徴とする。

かかる構成によれば、単語翻訳装置は、入力されたソース単語（第１の単語）を構成する文字の出現順序に対応した順序で出現することが尤もらしい文字から構成されたターゲット単語（第２の単語）を推定することができる。ここで、例えば、第１の単語をカタカナ表記、第２の単語をアルファベット表記とすることができる。この単語翻訳装置によれば、入力される第１の単語が、同時生起頻度を計算するために利用された学習データベースに予め登録されていない未学習（未知）の単語であっても第２の単語を出力することが可能となる。ここで、単語翻訳装置は、第１の単語と第２の単語とを文字単位で対応付けた組から成る単語組における出現順序の頻度のうち、その出現順序の頻度が最大となる対応付けがなされた文字組だけを考慮する近似を用いて単語を推定するので、探索の枝刈りなどによって解探索空間を削減することができる。

また、請求項２に記載の単語翻訳装置は、請求項１に記載の単語翻訳装置において、前記単語探索手段は、前記翻字確率モデルに基づいて、前記ソース単語と前記ターゲット単語とを文字単位で対応付けた組から成る任意の単語組において、前記空文字を考慮して、前記出現順序の頻度をそれぞれ計算し、この出現順序の頻度が最大となる単語組を考慮する近似を用いて求められた確率に対応する重みを示す状態遷移重みを、前記翻字確率モデルに格納された単語組の第１の文字および第２の文字と、遷移元状態および遷移先状態と共に文字の系列に対応して状態遷移のデータとして格納する状態遷移情報データベースを作成する状態遷移情報データベース作成手段を含み、前記状態遷移情報データベースから、前記入力を受け付けたソース単語を構成するソース文字ごとに、前記状態遷移重みが最小となるようなターゲット文字を探索することで、前記ターゲット単語を探索することを特徴とする。

かかる構成によれば、単語翻訳装置は、出現順序の頻度が最大となる対応付けがなされた文字組だけを考慮する近似を用いて探索した単語組に関する状態遷移重みを、翻字確率モデルに格納された単語組の第１の文字および第２の文字と、遷移元状態および遷移先状態と共に文字の系列に対応して状態遷移のデータとして格納する状態遷移情報データベースを作成し、作成した状態遷移情報データベースを参照してターゲット単語（第２の単語）を探索する。したがって、入力されるソース単語（第１の単語）が、同時生起頻度を計算するために利用された学習データベースに予め登録されている学習済み（既知）の単語の場合に、学習データベースに第１の単語とペアで登録されていた第２の単語を翻訳結果として出力することが可能となる。ここで、状態遷移重みは、出現順序の確率値の対数をとって符号を逆転させる等の処理を行って生成することもできる。

また、請求項３に記載の単語翻訳装置は、請求項２に記載の単語翻訳装置において、前記入力手段に入力される前記ソース単語に基づいて、通信ネットワークに接続された電子機器から文書データを取得する文書データ取得手段と、前記取得された文書データから、予め定められた個数の単語を、前記ソース単語に対応したターゲット単語の属する第２の言語体系で用いられている文字コードを用いた正規表現によるマッチングにより前記ソース単語の翻訳結果の変換候補として抽出する変換候補抽出手段と、前記抽出した変換候補を第３の単語として受け付け、当該第３の単語を構成する第３の文字の履歴を前記状態遷移情報データベース中の文字の系列に対応して合成し、合成された状態遷移重みを含む合成状態遷移情報データベースを作成する合成状態遷移情報データベース作成手段と、前記合成状態遷移情報データベースを参照して、前記ソース単語を構成するソース文字から前記第３の単語を構成する第３の文字への前記合成された状態遷移重みについて文字の系列に対応した合計値を前記第３の単語ごとに計算し、計算結果が最小となる第３の単語を選択する状態遷移重み計算手段と、前記状態遷移重み計算手段によって選択された第３の単語の前記合成された状態遷移重みを出力する第２の出力手段とをさらに備えることを特徴とする。

かかる構成によれば、単語翻訳装置は、通信ネットワークから取得した文書データから単語を、翻訳のために入力されるソース単語（第１の単語）からの変換候補として抽出する。そして、単語翻訳装置は、抽出した変換候補を第３の単語として受け付け、入力されたソース単語を構成するソース文字から、第３の単語を構成する第３の文字への合成された状態遷移重みを計算することで、複数の第３の単語の変換可能性をそれぞれ計算する。したがって、入力されるソース単語（第１の単語）が、同時生起頻度を計算するために利用された学習データベースに予め登録されていない未学習（未知）の単語であっても、通信ネットワークから抽出された現存する単語を、翻訳結果として採用して出力することが可能となる。そして、複数の出力結果のうち変換可能性の最も高い単語を、ソース単語に対する翻訳結果として最終的に取得することができる。

また、請求項４に記載の単語翻訳プログラムは、請求項１乃至請求項３のいずれか一項に記載の単語翻訳装置を構成する各手段としてコンピュータを機能させるためのプログラムである。このように構成されることにより、このプログラムをインストールされたコンピュータは、このプログラムに基づいた各機能を実現することができる。

また、請求項５に記載のコンピュータ読み取り可能な記録媒体は、請求項４に記載の単語翻訳プログラムが記録されたことを特徴とする。このように構成されることにより、この記録媒体を装着されたコンピュータは、この記録媒体に記録されたプログラムに基づいた各機能を実現することができる。

本発明によれば、所定の記号体系に属する記号列を、任意の記号体系に属する対応した記号列に変換することができる。特に、発音やローマ字化規則などの情報を利用することなく、既知の記号変換結果の出現順序を考慮して変換することが可能である。

以下、本発明の実施形態について、適宜図面を参照しながら説明する。
[単語翻訳システムの構成]
（第１の実施形態）
図１は、本発明の第１の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。単語翻訳システム（記号列変換システム）１は、変換元文字列である第１の単語（記号列）と、この第１の単語に対応した変換先文字列である第２の単語とをそれぞれ構成する文字の同時生起確率（同時生起頻度）をデータとして格納した翻字確率モデルを利用して、入力された第１の単語を第２の単語へ変換して出力するものである。ここで、第１の単語とは、第１の言語体系に属する複数の第１の文字から構成されている。同様に、第２の単語は、第２の言語体系に属する複数の第２の文字から構成されている。また、同時生起確率とは、第１の文字の出現と、該第１の文字の変換結果としての第２の文字の出現とが同時に生起する確率である。以下では、第１の単語をソース単語、第１の文字をソース文字、第２の単語をターゲット単語、第２の文字をターゲット文字と呼ぶ場合もある。

この単語翻訳システム１は、図１に示すように、記憶装置２と、記憶装置３と、翻字確率モデル作成装置（記号変換確率モデル作成装置）４と、単語翻訳装置（記号列変換装置）５とを備えている。
記憶装置２は、学習データベース６を記憶したものであって、一般的なハードディスク等の記憶手段である。
学習データベース６は、ソース単語とターゲット単語の組である。

記憶装置３は、翻字確率モデル（記号変換確率モデル）７を記憶したものであって、一般的なハードディスク等の記憶手段である。
翻字確率モデル７は、ソース文字からターゲット文字への翻字確率を、ソース文字とターゲット文字の同時生起確率をデータとして格納するものである。

翻字確率モデル作成装置（記号変換確率モデル作成装置）４と、単語翻訳装置（記号列変換装置）５は、一般的なコンピュータ（計算機）であり、例えば、ＣＰＵ（Central Processing Unit）と、ＲＡＭ（Random Access Memory）と、ＲＯＭ（Read Only Memory）と、ＨＤＤ（Hard Disk Drive）と、ＫＢ／ＣＲＴ（Key Board／Cathode Ray Tube）と、入力／出力インタフェースとを含んで構成されている。

翻字確率モデル作成装置（記号変換確率モデル作成装置）４は、学習データベース６に基づいて、ソース文字とターゲット文字との対応関係を求め、このソース文字とターゲット文字との間の翻字確率を、直前（Ｎ−１）個の翻字結果を考慮して決定するＮグラムモデルとしてモデル化して、翻字確率モデル７を作成するものである。
単語翻訳装置（記号列変換装置）５は、１つのソース単語を入力として、翻字確率モデル７を用いて、ソース単語に対応するターゲット単語を出力するものである。

[翻字確率モデル作成装置の構成]
図２は、図１に示した翻字確率モデル作成装置の構成例を示す機能ブロック図である。
翻字確率モデル作成装置４は、図２に示すように、入力手段１０と、記憶手段（ＲＡＭ等）１１と、文字間関連度データベース作成手段（記号間関連度データベース作成手段）１２と、単語組データベース作成手段（記号列組データベース作成手段）１３と、生起確率計算手段１４と、書込手段１５とを備えている。

入力手段１０は、入力インターフェースであり、学習データベース６から、ソース文字とターゲット文字とを入力し、文字間関連度データベース作成手段１２と、単語組データベース作成手段１３とに出力するものである。この入力手段１０は、入力装置Ｍからデータベース作成の指示等を入力する。入力装置Ｍは、例えば、マウスやキーボード等のポインティングデバイスである。
記憶手段１１は、ＲＡＭと、ＲＯＭと、ＨＤＤとを含んでおり、ＨＤＤに、文字間関連度データベース（記号間関連度データベース）１６と、単語組データベース（記号列組データベース）１７とを記憶するものである。

文字間関連度データベース１６は、ソース文字とターゲット文字との間の統計的な関連度をデータとして格納するものである。ここで、関連度Assoc(s,t)とは、ソース文字ｓに対する翻字候補としてターゲット文字ｔが現れ易いことを指す尺度である。例えば、ソース文字ｓを含むソース単語Ｓ₀に対応するターゲット単語Ｔ₀にターゲット文字tが多く含まれていたり、このソース単語Ｓ₀に対応しないターゲット単語Ｔ₁にターゲット文字ｔがあまり含まれていなかったりする場合には、関連度Assoc(s,t)は高くなる。この関連度は、具体的には、共起頻度や、統計量の検定に用いられるカイ二乗値、カイ二乗値を０〜１の範囲に正規化した値であるφ²などを用いることができる。
単語組データベース１７は、ソース単語とターゲット単語との間で対応付けられた文字間の関連度のそれぞれの積が最大となるように対応付けられた、２つの単語の組から成る単語組をデータとして格納するものである。

文字間関連度データベース作成手段１２は、学習データベース６に記憶されたデータに基づいて、ソース文字とターゲット文字との間の統計的な関連度を計算すると共に、ソース文字とターゲット文字とのうちのいずれかに対応する文字がない場合に仮想的な空文字φを用いた仮想的な関連度を計算し、計算した関連度および仮想的な関連度をデータとする文字間関連度データベース１６を作成するものである。本実施形態では、仮想的な関連度として、ソース文字ｓがターゲット文字ｔのどの文字とも対応しない場合の仮想的な関連度Assoc(s,φ_t)と、ターゲット文字ｔがソース文字ｓのどの文字とも対応しない場合の仮想的な関連度Assoc(φ_s,t)との２種類を用いる。

単語組データベース作成手段１３は、学習データベース６に記憶されたデータと、文字間関連度データベース１６に記憶されたデータと、に基づいて、ソース単語とターゲット単語との間で対応付けられた文字間の関連度および仮想的な関連度のそれぞれの積が最大となるように（最適となるように）対応付けられた、２つの単語の組から成る単語組を生成し、生成した単語組をデータとする単語組データベース１７を作成するものである。

ここで、単語組データベース１７が作成されるまでの具体例について図３を参照して説明する。図３は、図２に示した単語組データベースが作成されるまでの具体例を示す説明図である。ここでは、第１の言語体系が日本語（カタカナ）で第２の言語体系が英語（アルファベット）５としている。

図３の（ａ）に示すように、第１の単語（ソース単語）Ｓとして「アイスクリーム」、第２の単語（ターゲット単語）Ｔとして「ice cream」を想定する。ここで想定したように、単語は、単語数が１つに制限されるものではなく、複数個の単語から成る複合語（例えば、ice cream）であってもよい。

ここで、第１の単語Ｓは、ｍ個の第１の文字（ソース文字ｓ₁，ｓ₂，…，ｓ_m）で構成されるものとする。したがって、「アイスクリーム」の場合には、第１の単語Ｓは、図３の（ｂ）に示すように、ｍ＝７なので、７個の文字ＩＤ（ｓ₁〜ｓ₇）が付されることとなる。

同様に、第２の単語Ｔは、ｎ個の第２の文字（ターゲット文字ｔ₁，ｔ₂，…，ｔ_n）で構成されるものとする。したがって、「ice cream」の場合には、第２の単語Ｔは、図３の（ｃ）に示すように、ｎ＝８なので、８個の文字ＩＤ（ｔ₁〜ｔ₈）が付されることとなる。ここで、空白を無視して文字列を結合することとしたが、空白も文字として扱ってもよい。なお、空白に限らず、アンダーバー等の他の記号を同様に扱ってもよいことはもちろんである。

図３の（ｂ）と図３の（ｃ）とを比較すると、文字の個数が異なる（ｍ＜ｎ）。本実施形態では、文字間の対応関係は、第１の文字の１文字と第２の文字の１文字の１対１対応であり、それぞれ対応する文字がない場合には空文字を必要とする。すなわち、第１の単語Ｓと第２の単語Ｔとを文字単位で最適となるように対応付けると、第１の単語では、図３の（ｄ）に示すように、空文字φ（文字ＩＤ「φ_s」）が２つ挿入される。同様に、第２の単語では、図３の（ｅ）に示すように、空文字φ（文字ＩＤ「φ_t」）が１つ挿入される。このように対応付けが最適化されたときには、文字の個数は等しくなる。このときの個数をｌ個（エル個）とすると、一般に、ｌ≧ｍかつｌ≧ｎと表すことができる。なお、この場合には、ｌ＝９である。

図３の（ｄ）および図３の（ｅ）に示された空文字入りのそれぞれの単語から、図３の（ｆ）に示すように、単語組を生成する。そして、この単語組を構成する両言語の文字間の対応付けＡを、Ａ＝ａ₁，ａ₂，…，ａ_lとする。そして、対応付けＡの要素、すなわち、文字組ＩＤを、ａ_i＝（ｓ_j，ｔ_k）で示すこととする。ここで、ｓ_jはｓ₁，…，ｓ_mのいずれか、もしくはφ_sであり、ｔ_kはｔ₁，…，ｔ_nのいずれか、もしくはφ_tのことである。

また、本実施形態では、対応付けが最適化されたときには、空文字を入れる前のｓ₁，…，ｓ_m，ｔ₁，…，ｔ_nの各文字をその順序を変えることなく対応づけるものとする。言い換えると、Ｉ＞ｉなるａ_I＝（ｓ_J，ｔ_K）に対して、Ｊ＞ｊ、Ｋ＞ｋの関係がある。具体的には、図３の（ｆ）に示すように、文字組ＩＤ「ａ₂」、「ａ₃」において、文字組（イ，ｉ）、文字組（ス，ｃ）の各要素を比較すると、第１の単語側（ソース側）の「イ」と「ス」との順序は、元の「アイスクリーム」の順序と同じであり、また、第２の単語側（ターゲット側）の「ｉ」と「ｃ」との順序は、元の「ice cream」の順序と同じである。つまり、対応付けによっても順序は不変である。

一方、仮に、例えば、図３の（ｇ）に示すように、文字組ＩＤ「ａ₂」、「ａ₃」において、文字組（イ，ｅ）、文字組（ス，ｃ）の各要素を比較すると、第１の単語側（ソース側）の「イ」と「ス」との順序は、元の「アイスクリーム」の順序と同じであるが、第２の単語側（ターゲット側）の「ｅ」と「ｃ」との順序は、元の「ice cream」の順序と逆転している。つまり、対応付けによって順序が変化していることとなる。要するに、本実施形態では、最適な対応付けによって、図３の（ｇ）に示すような対応付けは排除され、図３の（ｆ）に示すように対応付けがなされる。

単語組データベース作成手段１３は、式（１）に基づいて、文字間の関連度および仮想的な関連度のそれぞれの積が最大となるような対応付け（最適な対応付け）Ａ＾（Ａハット）を求める。なお、式（１）において、Assoc(ａ_i)は、所定の対応付け「Ａ」がなされた文字組ａ_iのソース文字とターゲット文字との関連度であり、「argmax _A (y)、ただしｙ＝f(A)」は、ｙが最大となるときの「Ａ」を求めることを意味する。
また、単語組データベース作成手段１３は、式（２）に基づいて、最適な対応付けＡ＾を求めるようにしてもよい。この場合には、文字間の関連度および仮想的な関連度のそれぞれの和が最大となるような対応付けが求められることとなる。

図２に戻って、翻字確率モデル作成装置４の構成例の説明を続ける。
生起確率計算手段１４は、単語組データベース１７に記憶されたデータを参照して、同時生起確率を、単語組を構成するソース単語およびターゲット単語において、ソース文字とターゲット文字の文字組の出現順序の確率（出現順序の頻度）として計算し、翻字確率モデル７を作成するものである。ここで、出現順序の確率とは、着目するソース文字またはターゲット文字が出現するまでの各文字の状態遷移を示す履歴を条件とする条件付き確率である。つまり、生起確率計算手段１４は、あるソース文字の出現と、そのソース文字の翻字結果であるターゲット文字の出現とが同時に生起する確率として、あるソース文字の直前（Ｎ−１）個のソース文字の履歴と、当該ターゲット文字の直前（Ｎ−１）個のターゲット文字の履歴とを用いて翻字確率モデル７を作成する。例えば、図３を参照して説明したソース文字（文字ＩＤ「ｓ_j」）とターゲット文字（文字ＩＤ「ｔ_k」）を利用すると、対応付けられ単語組において、ソース文字とターゲット文字とで表現される文字組（文字組ＩＤ「ａ_i」）が現れる確率（同時生起確率）Ｐ（ａ_i）は、直前（Ｎ−１）個の文字組（ａ_i-1，…，ａ_i-N+1）の条件付き確率で表すことができる。なお、Ｎは、Ｎグラム言語モデルにおける「Ｎ」を示す数値である。また、以下、単に確率という場合には、同時生起確率を意味する。

そこで、生起確率計算手段１４は、単語組データベース１７を用いて、条件付き確率Ｐ（ａ_i｜ａ_i-1，…，ａ_i-N+1）を計算する。ここで、Ｎに大きな値を設定すると、大多数の条件付き確率が「０」となり、その結果、確率モデルとして汎用性が劣化してしまうことから、生起確率計算手段１４は、Ｎを比較的小さな値（例えば、１，２，３）としたときの確率値を用いて平滑化処理する。これにより、直前（Ｎ−１）文字の条件付き確率が「０」にならないため、任意の翻字結果に対して「０」ではない確率値を与えることができる。この平滑化処理としては、自然言語処理や音声認識に利用されるＮグラム言語モデルに適用される公知の平滑化技術を利用することができる（例えば、「確率的言語モデル」北研二、東京大学出版会、１９９９、第３章、言語と計算−４を参照）。

書込手段１５は、生起確率計算手段１４で計算された確率値を翻字確率モデル７として記憶装置３（図１参照）に書き込むものである。

なお、前記した文字間関連度データベース作成手段１２と、単語組データベース作成手段１３と、生起確率計算手段１４は、ＣＰＵが記憶手段１１のＲＯＭ等に格納された所定のプログラムをＲＡＭに展開して実行することにより実現されるものである。

[単語翻訳装置の構成]
図４は、図１に示した単語翻訳装置の構成例を示す機能ブロック図である。
単語翻訳装置５は、翻字確率モデル作成装置４で作成された翻字確率モデル７に基づいて、入力装置Ｍから入力されるソース単語を構成するソース文字をターゲット文字に翻字することによってターゲット単語への翻訳（変換）を実現し、翻訳したターゲット単語を出力装置Ｄへ出力するものである。

（翻訳原理）
ここで、単語翻訳装置５における翻訳（記号列変換）の原理を数式に基づいて説明する。なお、この翻訳原理の説明において「ターゲット単語Ｔ」という場合には、ソース単語Ｓと１対１に対応する正確に翻訳された該当する単語と、それに類似した単語とを含んでおり、いわば、ターゲット単語候補と呼べるものを意味している。

入力されたソース単語Ｓと、その正確な翻訳結果を含むターゲット単語Ｔとが、翻字確率モデル７において単語組として現れる同時生起確率は、入力されたソース単語Ｓのソース文字と、ターゲット単語Ｔのターゲット文字との文字間の対応付けＡによって、それぞれ異なったものとなっている。このとき、入力されたソース単語Ｓと、そのターゲット単語Ｔとの同時生起確率Ｐ（Ｓ，Ｔ，Ａ）は、式（３）に示すように、条件付き確率の積で表すことができる。

文字間の対応付けＡとしては、多数の可能性があるため、それらをすべて考慮してソース単語Ｓとターゲット単語Ｔとが翻字確率モデル７に基づいて翻字される単語の組として現れる最終的な確率Ｐ（Ｓ，Ｔ）は、式（４）で示されることとなる。

前記した式（４）によると、確率Ｐ（Ｓ，Ｔ）を正確に求めるには、各対応付けＡに対する確率値の総和を計算しなければならないことになる。しかしながら、すべての対応付けＡを考慮すると、計算が膨大になるため実用的ではない。そこで、計算量を削減するために、本実施形態では、以下の近似を導入することとする。すなわち、式（５）に示すように、対応付けＡに対する確率値を最大にするときの対応付けＡを、最適な対応付けＡ′として採用する。

そして、前記した式（５）で示される最適な対応付けＡ′のみを考慮する近似を行う。このような計算のためには、公知のＶｉｔｅｒｂｉアルゴリズムが利用可能である。この近似により、前記した式（４）で示した確率Ｐ（Ｓ，Ｔ）は、式（６）のように近似されることとなる。なお、式（６）の具体的な計算に際しては、前記した式（３）が利用されることとなる。

単語翻訳装置５は、ソース単語Ｓに対する最適なターゲット単語Ｔ′の探索として、任意のターゲット単語Ｔに対する任意の文字間の対応付けを考慮し、その上で前記した式（６）を満たすものを探索することになるため、探索の枝刈りなどによって解探索空間を削減することができる。

前記した式（６）の探索、すなわち、最適なターゲット単語Ｔ′を探索する方法として、本実施形態では、公知の重み付き有限状態トランスデューサ（ＷＦＳＴ：Weighted Finite State Transducer）と呼ばれる有限状態機械を用いて効率的な探索を行う（非特許文献１参照）。このＷＦＳＴでは、状態遷移に対する重みが予め定義されており、ソース文字の系列を入力とし、ターゲット文字の系列を出力することができる。

複数のＷＦＳＴの合成演算によって複数の有限状態機械の機能を統合することが可能である（非特許文献１参照）。つまり、ソース単語Ｓから、ソース単語Ｓの言語でもターゲット単語Ｔの言語でもない言語を示す中間言語の単語Ｉを翻訳生成する第１のＷＦＳＴと、この中間言語の単語Ｉから、ターゲット単語Ｔを翻訳生成する第２のＷＦＳＴと、を合成することにより、ソース単語Ｓからターゲット単語Ｔへの翻訳を実現するようにしてもよい。このように構成することで、例えば、ソース単語Ｓの言語とターゲット単語Ｔの言語との間の翻字を実現するための学習データベースが利用できなくとも、ソース単語Ｓの言語と中間言語との間の翻字を実現するための学習データベースと、中間言語とターゲット単語Ｔの言語との間の翻字を実現するための学習データベースと、をそれぞれ利用すれば、第１のＷＦＳＴと、第２のＷＦＳＴとを作成可能である。ここで、ソース単語Ｓからターゲット単語Ｔへの翻訳の際に変換に利用する中間言語の数は１つに限定されるものではなく、翻字を実現するための学習データベースが存在すれば複数種類の中間言語を介在させることも可能である。

具体的には、本実施形態では、単語翻訳装置５は、以下に示すように、１種類のＷＦＳＴを、１種類のＷＦＳＴデータベースおよびＷＦＳＴ探索プログラムの組で構成するが、中間言語を介して合成演算可能な複数種類のＷＦＳＴを利用するようにしてもよい。この場合には、複数種類の翻字確率モデル７を利用することとなる。

（構成の具体例）
単語翻訳装置５は、前記した翻訳（記号列変換）原理を実現するために、図４に示すように、入力手段（第１の入力手段）２１と、記憶手段２２と、状態遷移情報データベース作成手段（データベース作成手段）２３と、単語探索手段２４と、出力手段（第１の出力手段）２５と、状態遷移情報データベース２６とを備えている。

入力手段（第１の入力手段）２１は、入力インターフェースであり、入力装置Ｍから、ソース単語（第１の単語）を入力し、状態遷移情報データベース作成手段２３と単語探索手段２４とに出力するものである。また、入力手段２１は、翻字確率モデル７からソース文字列およびターゲット文字列を入力し、状態遷移情報データベース作成手段２３に出力する。
記憶手段２２は、ＲＡＭと、ＲＯＭと、ＨＤＤとを含んでおり、ＨＤＤに、状態遷移情報データベース２６を記憶するものである。

状態遷移情報データベース２６は、前記したＷＦＳＴデータベースに相当する。この状態遷移情報データベース２６は、ソース単語と、該ソース単語に文字間対応付けされたターゲット単語とを文字単位で対応付けた組から成る単語組の中の文字組の出現順序の確率に対応する重み（状態遷移重み）を、遷移元状態および遷移先状態と共に、データとして格納するものである。なお、重みの代わりに出現順序の確率そのものを格納するようにしても良い。
また、状態遷移情報データベース２６は、具体的には、翻字確率モデル７に格納された単語組のソース文字の系列を入力対応データとして有する。また、状態遷移情報データベース２６は、翻字確率モデル７に格納された単語組のターゲット文字の系列と、状態遷移重みとして前記した式（６）の確率値の重みとを、出力対応データとして有する。

状態遷移情報データベース作成手段（データベース作成手段）２３は、翻字確率モデル７に格納されたデータを参照して、状態遷移情報データベース２６を作成するものである。この状態遷移情報データベース作成手段２３は、ソース単語と、該ソース単語に文字間対応付けされたターゲット単語との組から成る単語組の中の文字組の出現順序の確率が最大となる単語組を考慮する近似（前記した式（６）に相当する）を用いて求められた確率に対応する重みを状態遷移重みとして計算する。なお、出現順序の確率を算出するための各確率値は予め求められている。

ここで、状態遷移情報データベース作成手段２３が計算する状態遷移重みについて説明する。前記した式（３）の条件付き確率Ｐ（ａ_i｜ａ_i-1，…，ａ_i-N+1）における条件ａ_i-1，…，ａ_i-N+1を履歴という。この履歴は、各文字組ａ_iに対応する状態遷移の系列である。具体的には、ｉ番目の文字組ａ_i（ｓ_j，ｔ_k）に着目する。この文字組ａ_i（ｓ_j，ｔ_k）は、ソース文字ｓ_jを入力として、ターゲット文字ｔ_kを出力するような状態遷移に対応している。この文字組ａ_i（ｓ_j，ｔ_k）が出現するまでには、直前の（Ｎ−１）個の文字組ａ_i-1，…，ａ_i-N+1の状態遷移の系列を経ている。そこで、文字組ａ_i（ｓ_j，ｔ_k）が対応している状態遷移に対して、条件付き確率Ｐ（ａ_i｜ａ_i-1，…，ａ_i-N+1）に対応する重みを状態遷移重みとして付与する。ここでは、この状態遷移重みを、条件付き確率の対数の符号を逆転させたもの、すなわち、−ｌｏｇＰ（ａ_i｜ａ_i-1，…，ａ_i-N+1）とする。ここで、対数の底は、例えば、２である。なお、ソース文字ｓ_jが空文字φ（文字ＩＤ「φ_s」）である場合には、入力されたソース文字と無関係に行われる状態遷移として実現される（これはε遷移と呼ばれる）。また、ターゲット文字ｔ_kが空文字φ（文字ＩＤ「φ_t」）である場合には、出力なしの状態遷移として実現される。

単語探索手段２４は、入力された第１の単語に対応する第２の単語を推定するものであり、前記したＷＦＳＴ探索プログラムに相当する。この単語探索手段２４は、状態遷移情報データベース２６に記憶されたデータを参照して、入力されたソース単語Ｓに対応して前記した式（６）を満たす最適なターゲット単語Ｔを探索（推定）し、出力手段２５に出力するものである。具体的には、単語探索手段２４は、入力されたソース単語Ｓを構成するソース文字ｓ₁，…，ｓ_mを順に状態遷移情報データベース２６の入力対応データとした場合に、ε遷移も考慮して、状態遷移情報データベース２６の出力対応データを探索し、探索した出力対応データに相当する文字系列（ターゲット文字列）の中で状態遷移重みが最小となるターゲット文字列を選択する。なお、本実施形態では、単語探索手段２４は、状態遷移重みが最小となるターゲット文字列を選択するが、これに限定されずに、複数個選択するようにしてもよい。この場合には、変換候補として上位数個のターゲット単語を出力することとなる。また、単語探索手段２４は、ターゲット単語（ターゲット文字列）と共に、その状態遷移重みの値を出力するようにしてもよい。この場合には、ターゲット単語と、入力されたソース単語との間で翻訳（記号列の変換）がどのくらい尤もらしいかを示す変換可能性として、この状態遷移重みの値を利用することができる。

なお、前記した状態遷移情報データベース作成手段２３と、単語探索手段２４とは、ＣＰＵが記憶手段２２のＲＯＭ等に格納された所定のプログラムをＲＡＭに展開して実行することにより実現されるものである。
出力手段（第１の出力手段）２５は、出力装置Ｄへの出力インターフェースであり、単語探索手段２４によって探索されたターゲット単語を出力装置Ｄに出力するものである。なお、出力装置Ｄは、例えば、液晶ディスプレイ等の表示装置である。

[翻字確率モデル作成装置の動作]
翻字確率モデル作成装置４の動作について図５を参照（適宜図２参照）して説明する。
図５は、図２に示した翻字確率モデル作成装置の動作を示すフローチャートである。
翻字確率モデル作成装置４は、文字間関連度データベース作成手段１２によって、学習データベース６に格納されたデータに基づいて、ソース文字とターゲット文字との文字（記号）間関連度を計算し、文字間関連度データベース１６を作成する（ステップＳ１）。
続いて、翻字確率モデル作成装置４は、単語組データベース作成手段１３によって、学習データベース６に格納されたデータと、文字間関連度データベース１６に格納されたデータとに基づいて、関連度の積が最大となる単語（記号列）組を生成し、単語組データベース１７を作成する（ステップＳ２）。
続いて、翻字確率モデル作成装置４は、生起確率計算手段１４によって、単語組データベース１７に格納されたデータに基づいて、単語組の各単語（ソース単語およびターゲット単語）において、文字の同時生起確率を、履歴を条件とする条件付き確率として計算し、翻字確率モデル（記号変換確率モデル）７を作成する（ステップＳ３）。

[単語翻訳装置の動作]
単語翻訳装置５の動作について図６を参照（適宜図４参照）して説明する。
図６は、図４に示した単語翻訳装置の動作を示すフローチャートである。
単語翻訳装置５は、状態遷移情報データベース作成手段２３によって、翻字確率モデル（記号変換確率モデル）７に基づき、単語組を構成するソース単語とターゲット単語をそれぞれ構成するソース文字およびターゲット文字に関して、文字（記号）の条件付き確率に対応する状態遷移重みを計算し、状態遷移情報データベース２６を予め作成する（ステップＳ１１）。
そして、単語翻訳装置５は、状態遷移情報データベース２６が予め作成された状態で、入力手段２１によって、入力装置Ｍから、翻訳対象である第１の単語（記号列）をソース単語として入力する（ステップＳ１２）。
続いて、単語翻訳装置５は、ステップＳ１１で予め作成された状態遷移情報データベース２６に基づいて、単語探索手段２４によって、第１の単語（ソース単語）に対応するターゲット単語として第２の単語（記号列）を探索する（ステップＳ１３）。
続いて、単語翻訳装置５は、探索された第２の単語（ターゲット単語）を翻訳結果として出力する（ステップＳ１４）。これにより、出力装置Ｄは、ターゲット単語を表示する。なお、単語翻訳装置５は、ターゲット単語と共に、その状態遷移重みの値を出力するようにしてもよい。

第１の実施形態によれば、所定の言語体系に属する単語（第１の単語）を、任意の言語体系に属する対応した単語（第２の単語）に変換することができる。また、単語翻訳システム１では、翻字確率モデル作成装置４が、発音やローマ字化規則などの情報を利用することなく、学習データベース６に登録された第１の単語および第２の単語の組の集合のみを利用して、翻字確率モデル７を作成する。そのため、翻字確率モデル７を利用する単語翻訳装置５は、発音が不明な単語の処理の問題や、発音間の対応付けの問題や、ローマ字化に代表される表記変換のための知識などを必要とすることなく、既知の記号変換結果の履歴を考慮した翻訳を可能とすることができる。その結果、例えば、日本語のカタカナ（表音文字）を用いた英語（アルファベット、表音文字）文書の検索システムや、同種の質問応答システム、機械翻訳システムにおける翻訳処理において、翻訳辞書でカバーできない単語を扱うことができるようになる。なお、単語翻訳装置５は、状態遷移情報データベース作成手段２３および状態遷移情報データベース２６とを備えるベストモードで説明したが、これらは必須の構成ではない。

（第２の実施形態）
図７は、本発明の第２の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。
単語翻訳システム（記号列変換システム）１Ａは、第１の単語（ソース単語）と、ソース単語の第２の単語（ターゲット単語）への変換候補の単語である１以上の第３の単語とを入力するものである。この単語翻訳システム１Ａは、単語翻訳装置（記号列変換装置）５Ａを備えている点を除いて、図１に示した単語翻訳システム１と同様なので、説明の便宜のために、同一の構成には、同一の符号を付し、説明および図面を適宜省略する。

単語翻訳装置（記号列変換装置）５Ａは、図７に示すように、単語出力部５と、変換可能性計算部３０とを備えている。
単語出力部５は、図４に示した単語翻訳装置５（第１の実施形態）を指しており、同一の符号を付してある。
変換可能性計算部３０は、単語翻訳装置５Ａの外部から入力された第３の単語と、入力されたソース単語との間で翻訳（記号列の変換）がどのくらい尤もらしいかを示す変換可能性を確率値として出力するものである。

変換可能性計算部３０は、ソース単語（第１の単語）Ｓと第３の単語の双方を入力とし、前記した式（６）で示される確率の積が最大となるような対応付けのときの重みを、それらに対する確率として計算して出力する機能を有する。つまり、変換可能性計算部３０は第３の単語のソース単語Ｓからの変換可能性（尤度）を翻字確率モデル７に基づいて計算する。その際には状態遷移情報データベース作成手段２３（図４参照）で作成した有限状態機械を利用する。

[変換可能性計算部の構成]
図８は、図７に示した変換可能性計算部の構成例を示す機能ブロック図である。
変換可能性計算部３０が最適な状態遷移系列を探索する方法として、本実施形態では、状態遷移情報データベース２６（ＷＦＳＴデータベース）と、ターゲット単語Ｔを構成するターゲット文字列とを受理する有限状態オートマトン（ＦＳＡ：Finite State Automaton）との合成によって得られる重み付き有限状態オートマトン（ＷＦＳＡ：Weighted Finite State Automaton）を用いる。本実施形態では、このＷＦＳＡは、具体的には、ＷＦＳＡデータベースと、ＷＦＳＡ探索プログラムとから構成される。

変換可能性計算部３０は、前記したＷＦＳＡを実現するために、図８に示すように、入力手段（第２の入力手段）３１と、記憶手段３２と、合成状態遷移情報データベース作成手段３３と、状態遷移重み計算手段３４と、出力手段（第２の出力手段）３５とを備えている。

入力手段（第２の入力手段）３１は、入力インターフェースであり、ソース単語（第１の単語）のターゲット単語（第２の単語）への変換候補の単語である１つ以上の第３の単語を入力装置Ｍから入力し、状態遷移重み計算手段３４に出力するものである。また、入力手段３１は、単語出力部５から状態遷移情報データベース２６を入力し、合成状態遷移情報データベース作成手段３３に出力する。

記憶手段３２は、ＲＡＭと、ＲＯＭと、ＨＤＤとを含んでおり、ＨＤＤに、合成状態遷移情報データベース３６を記憶するものである。
合成状態遷移情報データベース３６は、前記したＷＦＳＡデータベースに相当し、入力予定の第３の単語を構成する第３の文字に関する履歴と、状態遷移情報データベース２６に記憶されたデータとを合成した結果をデータとして格納するものである。図８では、合成状態遷移情報データベース３６を１つだけ示しているが、第２の実施形態では、入力予定の各第３の単語と、状態遷移情報データベース２６とをそれぞれ合成することにより、入力予定の第３の単語の個数だけ、合成状態遷移情報データベースを予め作成しておく。

合成状態遷移情報データベース作成手段３３は、入力予定の第３の単語を構成する第３の文字に関する履歴と、単語出力部５の状態遷移情報データベース２６に記憶されたデータとを合成し、合成した結果をデータとする合成状態遷移情報データベース３６を作成するものである。この合成状態遷移情報データベース作成手段３３は、入力手段３１から入力する第３の単語から、合成に必要なＦＳＡを作成する。なお、合成状態遷移情報データベース作成手段３３は、入力手段３１から予め作成されたＦＳＡを入力してデータベースの合成を行うようにしてもよい。

状態遷移重み計算手段３４は、前記したＷＦＳＡ探索プログラムに相当する。この状態遷移重み計算手段３４は、合成状態遷移情報データベース３６に記憶されたデータを参照して、入力手段２１に入力された第１の単語を構成するソース文字（第１の文字）と、入力手段３１に入力された第３の単語を構成する第３の文字と、から成る文字組の出現順序の確率として、前記した状態遷移重みを計算するものである。なお、状態遷移重みの代わりに条件付き確率そのものを計算するようにしても良い。
具体的には、状態遷移重み計算手段３４は、第３の単語を構成する第３の文字を順に、当該第３の単語を構成する第３の文字の履歴がＦＳＡとして合成された合成状態遷移情報データベース３６の入力対応データとした場合に、ε遷移も考慮して、ソース文字（第１の文字）から第３の文字への状態遷移重みの合計値を計算する。そして、この計算処理を、入力された第３の単語に対応する合成状態遷移情報データベース３６それぞれについて実行し、この合計値が、入力された複数の第３の単語の中で最小値となる第３の単語を探索し、そのときの最小値を変換可能性として出力手段３５に出力する。

なお、前記した合成状態遷移情報データベース作成手段３３と、状態遷移重み計算手段３４とは、ＣＰＵが記憶手段３２のＲＯＭ等に格納された所定のプログラムをＲＡＭに展開して実行することにより実現されるものである。

出力手段（第２の出力手段）３５は、出力装置Ｄへの出力インターフェースであり、状態遷移重み計算手段３４によって選択された第３の単語の状態遷移重み（または確率）を出力装置Ｄに出力するものである。なお、出力する状態遷移重みは、それぞれの値でも合計値でもよい。

[変換可能性計算部の動作]
変換可能性計算部３０の動作について図９を参照（適宜図８参照）して説明する。
図９は、図８に示した変換可能性計算部の動作を示すフローチャートである。
変換可能性計算部３０は、合成状態遷移情報データベース作成手段３３によって、既知の入力予定の１以上の第３の単語（記号列）を構成する第３の文字（記号）の履歴を、状態遷移情報データベース２６に合成し、合成状態遷移情報データベース３６を予め作成する（ステップＳ２１）。
そして、変換可能性計算部３０は、合成状態遷移情報データベース３６を予め作成した状態で、入力手段３１によって、入力装置Ｍから、ソース単語としての第１の単語（記号列）の変換候補である第３の単語（記号列）を入力する（ステップＳ２２）。
続いて、変換可能性計算部３０は、状態遷移重み計算手段３４によって、第１の単語を構成する第１の文字（記号）から、第３の単語を構成する第３の文字（記号）への状態遷移重みの合計値が、最小となる第３の単語を選択する（ステップＳ２３）。
続いて、変換可能性計算部３０は、状態遷移重み計算手段３４によって選択された第３の単語の状態遷移重みを出力手段３５によって出力する（ステップＳ２４）。これにより、出力装置Ｄは、状態遷移重みを変換可能性として表示する。

なお、以上の第２の実施形態の説明では、状態遷移重み計算手段３４は、状態遷移重みの合計値を計算し、この合計値が、入力された複数の第３の単語の中で最小値となる第３の単語を探索するものとして説明したが、単に合計値または状態遷移重みの各値のみを出力するようにしてもよい。この場合には、出力装置Ｄに表示された状態遷移重みをユーザが目視により確認して、そのときの最小値となる第３の単語を選択すればよい。

第２の実施形態によれば、ソース単語（第１の単語）の変換候補として、複数の単語（第３の単語）を入力としたときに、ソース単語（第１の単語）から第３の単語への変換の確からしさを求めることができ、翻訳の精度を向上させることができる。また、ソース単語（第１の単語）が、学習データベース６に予め登録されていない未学習（未知）の単語であっても、第３の単語を、ソース単語（第１の単語）からの翻訳結果（変換候補）として採用することも可能となる。この場合、変換可能性が予め定められた値よりも高い第３の単語を翻訳結果として出力（表示）するようにしてもよい。

（第３の実施形態）
図１０は、本発明の第３の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。
単語翻訳システム（記号列変換システム）１Ｂは、第１の単語（ソース単語）と共に単語翻訳装置５Ｂに入力される、ソース単語の第２の単語（ターゲット単語）への変換候補の単語である第３の単語を、単語翻訳装置５Ｂの外部から取得するものである。
この単語翻訳システム１Ｂは、単語翻訳装置（記号列変換装置）５Ｂを備えている点を除いて、図７に示した単語翻訳システム１Ａと同様なので、説明の便宜のために、同一の構成には、同一の符号を付し、説明および図面を適宜省略する。

単語翻訳装置（記号列変換装置）５Ｂは、図１０に示すように、単語出力部５と、変換可能性計算部３０と、変換候補検索部４０とを備えている。
変換候補検索部４０は、通信ネットワークＮＷに接続された電子機器５０から取得した文書データに基づいて抽出された単語群を第３の単語として変換可能性計算部３０に入力するものである。
通信ネットワークＮＷは、例えば、インターネット等から構成されている。
電子機器５０は、例えば、Ｗｅｂサーバ等のコンピュータ（情報処理装置）や、データベースを備えるハードディスク装置等の記憶装置である。

[変換候補検索部の構成]
図１１は、図１０に示した変換候補検索部の構成例を示す機能ブロック図である。
変換候補検索部４０は、図１１に示すように、入力手段４１と、記憶手段４２と、文書データ取得手段４３と、変換候補抽出手段４４と、出力手段４５とを備えている。

入力手段４１は、入力インターフェースであり、ソース単語（第１の単語）を入力装置Ｍから入力し、文書データ取得手段４３に出力するものである。また、入力手段４１は、通信ネットワークＮＷから文書データを入力し、文書データ取得手段４３に出力する。
記憶手段４２は、ＲＡＭと、ＲＯＭと、ＨＤＤとを含んでおり、入力手段４１から入力する文書データ等のデータや、各種動作プログラム等を記憶するものである。

文書データ取得手段４３は、入力手段４１に入力される第１の単語（ソース単語）に基づいて、通信ネットワークＮＷに接続された電子機器５０から文書データを取得するものである。この文書データ取得手段４３は、公知の技術であるインターネット上での文書検索方法、または、文書データベースに対する文書検索方法を利用して、入力されたソース単語を含む文書を検索する。なお、取得すべき文書数は、入力装置Ｍから指定してもよいし、予め指定された文書数を記憶手段４２に格納しておくようにしてもよい。

変換候補抽出手段４４は、文書データ取得手段４３によって取得された文書データから、予め定められた個数の第３の単語を抽出し、出力手段４５に出力するものである。変換候補抽出手段４４による抽出方法は、任意であり、例えば、ターゲット言語で用いられている文字コードを用いた正規表現によるマッチングなどを利用してもよい。なお、抽出すべき単語数は、入力装置Ｍから指定してもよいし、予め指定された単語数を記憶手段４２に格納しておくようにしてもよい。

なお、前記した文書データ取得手段４３と、変換候補抽出手段４４とは、ＣＰＵが記憶手段４２のＲＯＭ等に格納された所定のプログラムをＲＡＭに展開して実行することにより実現されるものである。
出力手段４５は、出力装置Ｄへの出力インターフェースであり、変換候補抽出手段４４によって抽出された第３の単語を出力装置Ｄに出力するものである。

[変換候補検索部の動作]
変換候補検索部４０の動作について図１２を参照（適宜図１１参照）して説明する。
図１２は、図１１に示した変換候補検索部の動作を示すフローチャートである。
変換候補検索部４０は、入力手段４１によって、入力装置Ｍから、翻訳対象である第１の単語（記号列）をソース単語として入力する（ステップＳ３１）。
続いて、変換候補検索部４０は、文書データ取得手段４３によって、入力された第１の単語（ソース単語）に基づいて、通信ネットワークＮＷから文書データを取得する（ステップＳ３２）。
続いて、変換候補検索部４０は、変換候補抽出手段４４によって、取得された文書データから、変換候補である第３の単語（記号列）を抽出する（ステップＳ３３）。
そして、変換候補検索部４０は、出力手段４５によって、抽出された第３の単語を変換可能性計算部３０に出力する（ステップＳ３４）。これにより、変換可能性計算部３０では、第３の単語は、入力手段３１（図８参照）によって、合成状態遷移情報データベース作成手段３３（図８参照）に入力されることとなる。

第３の実施形態によれば、通信ネットワークから取得した文書データから抽出された単語を、第３の単語として入力し、この第３の単語の変換可能性を計算することができる。したがって、第２の単語として適切なものが探索されない場合でも、通信ネットワークから取得した第３の単語の変換可能性が適切な結果である場合に、この第３の単語を変換候補として採用することが可能となる。

以上、本発明の各実施形態について説明したが、本発明はこれらに限定されるものではなく、その趣旨を変えない範囲で様々に実施することができる。例えば、各実施形態では、ある言語体系に属する文字で構成された単語を変換対象（翻訳対象）としたが、この場合の「言語」とは、自然言語に限定されるものではなく、所定の規則に基づく記号体系であってもよい。この場合には、この記号体系に属する記号で構成された記号列を変換対象とする記号列変換装置および記号列変換プログラムとして実現することができる。

また、第２の実施形態の単語翻訳装置５Ａや第３の実施形態の単語翻訳装置５Ｂでは、それぞれ、第１の実施形態の単語翻訳装置５で説明した入力手段２１、記憶手段２２、出力手段２５とは、別に入力手段、記憶手段、出力手段を設けたが、これらは共通の構成としてもよく、また、入力装置Ｍや出力装置Ｄを共用するようにしてもよい。

また、第３の実施形態の単語翻訳装置５Ｂでは、通信ネットワークＮＷから取得した単語の変換可能性を計算することを前提として説明したが、変換可能性計算部３０は必須の構成ではない。単語翻訳装置５Ｂが変換可能性計算部３０を備えない場合には、例えば、単語出力部５でソース単語（第１の単語）が未知の単語であると判別したときに、通信ネットワークＮＷから取得した１つ以上の単語を、ソース単語（第１の単語）からの変換候補としてそのまま採用し、出力装置Ｄに出力（表示）するようにしてもよい。

次に、本発明の効果を確認した複数の実施例について説明する。各実施例では、ソース言語が日本語（カタカナで表記）、ターゲット言語が英語（アルファベットで表記）の場合の単語の変換を行った。

［実施例１］
単語翻訳システム１（図１参照）において、翻字確率モデル作成装置４によって、翻字確率モデル７を予め作成し、第１の実施形態の単語翻訳装置５を用いて、ソース単語「ドナルド」からターゲット単語「ｄｏｎａｌｄ」を取得した。
この場合には、翻字確率モデル作成装置４は、以下に示すようにして、翻字確率モデル７を作成した。
まず、学習データベース６には、図１３（ａ）に例示するように、カタカナ表記１３０１の語と、アルファベット表記１３０２の語との組を格納した。

また、翻字確率モデル作成装置４の文字間関連度データベース作成手段１２（図２参照）は、関連度として、式（７）で示されるφ²（ｓ，ｔ）を用いた。このφ²（ｓ，ｔ）は、カイ二乗値を０〜１の範囲に正規化した値である（詳細はW. A. Gale and K. W. Church,”Identifying word correspondances in parallel texts Proceedings of the 4th DARPA workshop on Speech and Natural Language,1991を参照）。

ここで、ｆｒｅｑ（＊）は、学習データベース６中で記号＊が出現する単語組の数を示すものである。すなわち、ｆｒｅｑ（ｓ）はソース文字ｓが出現する単語組の数を示し、ｆｒｅｑ（ｔ）はターゲット文字ｔが出現する単語組の数を示し、ｆｒｅｑ（ｓ，ｔ）は両方とも出現する単語組の数を示す。また、Ｌは、学習データベース６中に格納されているすべての単語組の総数である。

この文字間関連度データベース作成手段１２は、英単語の区切りとして現れるターゲット文字側の空白を削除し、一続きの単語であるようにして扱った。
作成された文字間関連度データベース１６には、図１３（ｂ）に例示するように、学習データベース６内のターゲット文字１３１１ごとに、ソース文字との関連度１３１２が格納されている。例えば、ターゲット文字１３１１が「ａ」の場合には、ソース文字“ア”と「0.312370273233768」の関連度を有し、ソース文字“ラ”やソース文字“ナ”等とも所定の関連度を有している。同様に、ターゲット文字１３１１が「ｂ」の場合には、ソース文字“ブ”と「0.247172957562107」の関連度を有していることが示されている。

また、文字間関連度データベース作成手段１２は、ソース文字ｓとの空文字φ_tとの関連度Assoc（ｓ，φ_t）としては、ソース文字ｓと他のターゲット文字との関連度の相乗平均を用いるト共に、空文字φ_sとターゲット文字ｔとの関連度Assoc（φ_s，ｔ）としては、ターゲット文字ｔと他のソース文字との関連度の相乗平均を用いた。

次に、翻字確率モデル作成装置４の単語組データベース作成手段１３（図２参照）は、図１３の（ａ）に示すような学習データベース６と、図１３（ｂ）に示すような文字間関連度データベース１６とを用いて、学習データベース６の各単語組に対して、前記した式（１）を満たすような文字間の対応付けを求め、図１４に例示するような単語組データベース１７を作成する。

図１４に示すように、対応付け１４０１は、対応付けられたターゲット文字とソース文字とをコロンで結んで表記している。ここで、＜ｅｐｓ＞は、空文字φを表す記号であり、各行の左端の＜ｓ＞:＜ｓ＞は、語の開始点を示し、各行の右端＜／ｓ＞:＜／ｓ＞は、語の終了点を表す記号である。

次に、翻字確率モデル作成装置４の生起確率計算手段１４（図２参照）は、図１４に示す単語組データベース１７から、Ｎ＝３のトライグラムモデルを作成した。ここでは、生起確率計算手段１４は、実際には、Ｎ＝１のユニグラムモデルと、Ｎ＝２のバイグラムモデルと、Ｎ＝３のトライグラムモデルとをそれぞれ作成した。これにより、翻字確率モデル７には、図１５に示すように、３種類の形式で各文字組の同時生起確率が格納される。

ユニグラムモデル（Ｎ＝１）は、図１５の（ａ）に示すように、生起確率１５０１と、第１表記１５０２と、平滑化係数１５０３の各データを備えている。
生起確率１５０１は、直前の単語と無関係に翻字文字組が生起する確率を対数で示している。
第１表記１５０２は、文字組の表記である
平滑化係数１５０３は、平滑化のための係数で、Ｎ＞１のＮグラムの確率を堆定するために利用される。

バイグラムモデル（Ｎ＝２）は、図１５の（ｂ）に示すように、生起確率１５１１と、第２表記１５１２と、第３表記１５１３と、平滑化係数１５１４の各データを備えている。
生起確率１５１１は、直前の１単語に依存して翻字文字組が生起する確率を対数で示している。
第２表記１５１２は、直前の文字組の表記である。
第３表記１５１３は、生起確率１５１１を求めるために用いた文字組である。
平滑化係数１５１４は、平滑化のための係数で、Ｎ＞２のＮグラムの確率を推定するために利用される。

トライグラムモデル（Ｎ＝３）は、図１５の（ｃ）に示すように、生起確率１５２１と、第４表記１５２２と、第５表記１５２３と、第６表記１５２４の各データを備えている。
生起確率１５２１は、直前の２単語に依存して翻字文字組が生起する確率を対数で示している。
第４表記１５２２は、２つ前の文字組の表記である。
第５表記１５２３は、直前の文字組の表記である。
第６表記１５２４は、生起確率を求めるために用いた文字組である。

これらのモデルの作成にあたって、生起確率計算手段１４は、公知の言語モデル作成ツール「CMU-Cambridge SLM Toolkit」を利用した（P. Clarkson et a1, “Statistical language modeling using the CMU-Cambridge toolkit”, in Proceedings of EUROSPEECH97,1997,p.2707-2710）。なお、この際、図１４または図１５に示したコロンで結ばれた各文字組は一つの記号として扱われる。

また、これらのモデルの平滑化手法として、生起確率計算手段１４は、公知のWitten-Bellの平滑化手法を利用した（I. H. Witten and T. C. Bell, “The zero-frequency problem: Estimating the prob-abilities of novel events in adaptive text compression”, IEEE Transaction of Information Theory,1991 vol. 37, no.4, p. 1085-1094）。

次に、第１の実施形態の単語翻訳装置５は、状態遷移情報データベース作成手段２３（図４参照）によって、図１５に例示した翻字確率モデル７から、図１６に例示するような状態遷移情報データベース２６を作成する。なお、この際、図１５に示したコロンで結ばれた各文字組は分解され、ソース文字は、状態遷移情報データベース２６の入力対応データとして使用され、ターゲット文字は状態遷移情報データベース２６の出力対応データとして使用される。

状態遷移情報データベース２６は、図１６に示すように、状態識別１６０１と、第１状態番号１６０２と、第２状態番号１６０３と、ソース文字１６０４と、ターゲット文字１６０５と、状態遷移重み１６０６とを格納している。
状態識別１６０１は、初期状態「Ｉ」、遷移状態「Ｔ」、終了（受理）状態「Ｆ」をそれぞれ示すものである。
第１状態番号１６０２は、遷移元状態番号を示すものである。ただし、初期状態「Ｉ」や終了（受理）状態「Ｆ」においては、初期状態の状態番号や終了状態の状態番号を示す。第２状態番号１６０３は、遷移先状態番号を示すものである。
ソース文字１６０４は、入力記号に対応した入力対応データであり、図１５に示したコロンで結ばれた各文字組が分解されたソース文字によって生成される。
ターゲット文字１６０５は、出力記号に対応した出力対応データであり、図１５に示したコロンで結ばれた各文字組が分解されたターゲット文字によって生成される。
状態遷移重み１６０６は、遷移に与えられる重み（状態遷移重み）である。ただし、初期状態「Ｉ」や終了（受理）状態「Ｆ」においては、初期状態の重みや終了状態の重みを示す。なお、図１６では、初期状態の重みや終了状態の重みは実質的に「０」としている。

この状態遷移情報データベース２６は、翻字確率モデル７の文脈情報（条件付き確率）を反映したものとなっている。具体的には、図１５に例示した翻字確率モデル７では、翻字文字組の同時生起確率は直前の最大２個（図１５の（ｃ）の場合）の翻字文字組によって決定されている。このときの同時生起確率（文脈情報または条件付き確率）は、図１６においては、第１状態番号１６０２と、第２状態番号１６０３と（各状態）に保持されていることになる。

以上のように各データベースが整備された状態で、第１の実施形態の単語翻訳装置５に、一例として、図１７の（ａ）に示すように、入力単語１７０１として、ソース単語「ドナルド」を入力して翻訳した。すなわち、図１６に例示した状態遷移情報データベース２６をＷＦＳＴデータベースとし、かつ、単語探索手段２４（図４参照）をＷＦＳＴ探索プログラムとしたＷＦＳＴを用いて、ソース単語をターゲット単語に変換した。このときの単語探索手段２４の出力例を、図１７の（ｂ）に示す。

図１７の（ｂ）に示す出力例には、対応状態番号１７１１と、入力記号１７１２と、出力記号１７１３と、状態遷移重み１７１４とが格納されている。
対応状態番号１７１１は、ソース単語と対応するターゲット単語とから成る単語組を構成する文字組の状態を示す状態番号である。ここで、文字組の状態は、条件付き確率を反映している。
入力記号１７１２は、ソース単語に対して最適な対応付けを実行したときのソース文字の系列を示している。なお、ターゲット単語に対応する文字が無い場合には、空文字φの代わりに＜ｅｐｓ＞が記載されている。また、＜ｓ＞は語の開始点を示し、＜／ｓ＞は語の終了点を表す記号である。

出力記号１７１３は、ターゲット単語に関し、入力記号１７１２と同様なものである。この出力記号１７１３の系列を連結すると、図１７の（ｃ）に示すように、出力単語１７２１として「ｄｏｎａｌｄ」が生成される。そして、連結生成された「ｄｏｎａｌｄ」は出力装置Ｄ（図４参照）に表示されることとなる。
状態遷移重み１７１４は、条件付き確率の対数の符号を逆転させた値である。
なお、この例では、スペルどおり正しく変換されたが、たとえ変換結果のスペルが正しくなかったとしても、探索空間を大きくしてより多くの変換候補を得ることができれば、例えば、情報検索システムにおいて、クエリに含めて利用することが可能となる。

また、単語翻訳装置５は、ターゲット単語と共に、図１７の（ｂ）に示す状態遷移重み１７１４の値を出力するようにしてもよい。この場合には、ターゲット文字と、入力されたソース文字との間で翻訳（文字の変換）がどのくらい尤もらしいかを示す変換可能性として、この状態遷移重みの値を利用することができる。また、図１７の（ｂ）に示す状態遷移重み１７１４の合計値を出力するようにすれば、ターゲット単語と、入力されたソース単語との間で翻訳がどのくらい尤もらしいかを示すこともできる。

［実施例２］
実施例２は、実施例１に以下の内容を加えたものである。すなわち、単語翻訳システム１Ａ（図７参照）において、第２の実施形態の単語翻訳装置５Ａを用いて、第１の単語であるソース単語「レオパード」に対して、変換候補として、３つの第３の単語である「ｌｅｏｐａｒｄ」と、「ｌｉｏｎ」と、「ｌｅｏｐｏｎ」とを入力したときのそれぞれの単語への変換可能性を計算した。なお、アルファベットはすべて小文字に置き換えられている。

そこで、単語翻訳装置５Ａの変換可能性計算部３０（図８参照）では、合成状態遷移情報データベース作成手段３３は、入力手段３１を介して第３の単語、例えば「ｌｅｏｐａｒｄ」を取得し、図１８に示すように、この「ｌｅｏｐａｒｄ」に対応するデータベースであるＦＳＡ（有限状態オートマトン）を作成する。このＦＳＡは、遷移元状態番号１８０１と、遷移先状態番号１８０２と、入力文字の表記１８０３と、出力文字の表記１８０４と、状態遷移重み１８０５とを備えている。例えば、遷移元状態番号１８０１が「１（one）」の行は、現在状態が「１（one）」で入力文字の表記１８０３として記号「ｌ（エル）」を受け取った場合には、状態遷移重み１８０５を「０」として、出力文字の表記１８０４として記号「＜ｅｐｓ＞」を出力し（この場合には、何もしないことになる）、遷移先状態番号１８０２である「２」の状態に移行する。なお、表記の注釈は前記した通りである。

そして、合成状態遷移情報データベース作成手段３３（図８参照）は、図１８に例示したＦＳＡと、図１６に例示した状態遷移情報データベース２６とを合成する。これにより、「ｌｅｏｐａｒｄ」が合成された合成状態遷移情報データベース３６（ＷＦＳＡデータベース）が作成される。同様に、図示は省略するが、他の入力予定の第３の単語「ｌｉｏｎ」および「ｌｅｏｐｏｎ」についても、ＦＳＡを作成し、図１６に例示した状態遷移情報データベース２６と合成し、対応する合成状態遷移情報データベース３６をそれぞれ作成する。そして、単語翻訳装置５Ａは、例えば、「ｌｅｏｐａｒｄ」が入力されたときに、状態遷移重み計算手段３４（図８参照）によって、作成された合成状態遷移情報データベース３６を参照して、状態遷移重みを計算する。同様に、「ｌｉｏｎ」および「ｌｅｏｐｏｎ」についても、状態遷移重みをそれぞれ計算する。そのときの計算結果を図１９に示す。

変換可能性計算部３０は、図１９の（ａ）、（ｃ）、（ｅ）に示すように、変換候補として入力された各第３の単語に対応する出力単語１９０１と、累計重み１９０２とを出力する。ここで、累計重み１９０２は、ソース文字から第３の文字への状態遷移重みの合計値である。例えば、入力された「ｌｅｏｐａｒｄ」に関しては、図１９の（ａ）に示すように、出力単語１９０１として「ｌｅｏｐａｒｄ」を出力し、累計重み１９０２として「12.799」を出力する。同様に、「ｌｉｏｎ」に関しては、図１９の（ｃ）に示すように、累計重み１９０２として「23.4622」を出力し、さらに、「ｌｅｏｐｏｎ」に関しては、図１９の（ｅ）に示すように、累計重み１９０２として「17.98」を出力する。したがって、この例では、「レオパード」に対応して探索された「ｌｅｏｐａｒｄ」の累計重み１９０２が最小となっている。つまり、入力された３つの第３の単語のうち、「ｌｅｏｐａｒｄ」が最も変換可能性が高いことになる。

なお、変換可能性計算部３０は、図１９の（ｂ）、（ｄ）、（ｆ）に示すように、計算結果をデータベースであるＦＳＡ（有限状態オートマトン）の形式で出力するようにしてもよい。これらのＦＳＡは、対応状態番号１９１１と、入力文字の表記１９１２と、出力文字の表記１９１３と、状態遷移重み１９１４とを備えている。各項目は、図１８に示したＦＳＡと同様なものである。

また、本第３の実施例の代わりに、第３の単語「ｌｅｏｐａｒｄ」、「ｌｉｏｎ」および「ｌｅｏｐｏｎ」と、状態遷移情報データベース２６とを一度に合成することにより唯一の合成状態遷移情報データベース３６を作成するようにしてもよい。この場合には、入力されたそれぞれの第３の単語は、この唯一の合成状態遷移情報データベース３６に基づいて確率が計算され、変換可能性の最も高いもの（この場合には、「ｌｅｏｐａｒｄ」）が一位の候補として出力され、以下、変換可能性の高い順に出力されることになる。その結果、変換可能性を一度に比較することが可能となる。

［実施例３］
実施例３は、実施例２に以下の内容を加えたものである。すなわち、単語翻訳システム１Ｂ（図１０参照）において、第３の実施形態の単語翻訳装置５Ｂを用いて、第１の単語であるソース単語「スーパーカミオカンデ」に対して、変換候補である第３の単語をインターネットを利用して取得し、正解である「Ｓｕｐｅｒ−Ｋａｍｉｏｋａｎｄｅ」への変換可能性を計算した。

単語翻訳装置５Ｂの変換候補検索部４０は、文書データ取得手段４３（図１１参照）によって、ソース単語「スーパーカミオカンデ」が含まれる文書を検索し、データベースとして記憶手段４２に格納した。この記憶手段４２に格納されたデータベースの一例を図２０の（ａ）に示す。このデータベースは、図２０の（ａ）に示すように、文書のタイトル２００１と、文書の掲載されたホームページのアドレスを示すＵＲＬ２００２とを備え、１０個の文書データ（No,501〜510）を格納している。

変換候補検索部４０は、変換候補抽出手段４４（図１１参照）によって、各文書データ（No,501〜510）のＵＲＬ２００２にアクセスして、ソース単語「スーパーカミオカンデ」に対する変換候補としてふさわしい単語を、図２０の（ｂ）に示すように、抽出した。ここでは、変換候補抽出手段４４は、図２０の（ｂ）に示すように、抽出単語２０１１として、各文書データ（No,501〜510）から１つずつ抽出した合計１０個のアルファベット表記の語を、第３の単語として、変換可能性計算部３０に出力した。

これにより、変換可能性計算部３０は、変換候補検索部４０から入力した１０個の第３の単語に関して、前記した実施例２で説明した動作を実行し、変換可能性（重み）を計算し、出力する。その出力データの例を、図２０の（ｃ）に示す。出力データは、図２０の（ｃ）に示すように、項目として、抽出単語２０２１と、変換可能性（重み）２０２２とを有している。この出力データによれば、No.611の「Ｓｕｐｅｒ−Ｋａｍｉｏｋａｎｄｅ」は、変換可能性（重み）２０２２が「19.9722」であり、この重みは、１０個の抽出単語２０２１のうち最小の値となっている。つまり、No.611の「Ｓｕｐｅｒ−Ｋａｍｉｏｋａｎｄｅ」は、変換可能性が最大となっている。その結果、単語翻訳装置５Ｂは、ソース単語「スーパーカミオカンデ」に対して、インターネットを利用して変換候補となる単語を複数取得し、その中で、正解である「Ｓｕｐｅｒ−Ｋａｍｉｏｋａｎｄｅ」への変換可能性が最大であることを求めることができた。

この第３の実施例によれば、入力されたソース単語（同様にターゲット単語）が、単語翻訳装置５Ｂが利用する翻字確率モデル７を作成する際に学習データベース６に登録されていなかった場合でも、ソース単語に対して最尤のターゲット単語に変換することが可能となる。すなわち、第１段階で、インターネットで取得した第３の単語をＦＳＡとして状態遷移情報データベース２６に合成しておき、第２段階で、第１の単語と、取得した第３の単語とを入力として、予め作成された合成状態遷移情報データベース３６に基づいて、変換可能性を計算し、変換可能性が最も高い第３の単語を選択する。したがって、単語翻訳装置５Ｂは、固定された辞書に依存するのではなく、通信ネットワークＮＷを介して取得する実在の単語を変換候補とするので、実用性が高くなる。このため、人名や地名等の固有名詞の翻訳や、新語が次々に使用される記事やニュース等の翻訳に好適である。

本発明の第１の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。図１に示した翻字確率モデル作成装置の構成例を示す機能ブロック図である。図２に示した単語組データベースが作成されるまでの具体例を示す説明図である。図１に示した単語翻訳装置の構成例を示す機能ブロック図である。図２に示した翻字確率モデル作成装置の動作を示すフローチャートである。図４に示した単語翻訳装置の動作を示すフローチャートである。本発明の第２の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。図７に示した変換可能性計算部の構成例を示す機能ブロック図である。図８に示した変換可能性計算部の動作を示すフローチャートである。本発明の第３の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。図１０に示した変換候補検索部の構成例を示す機能ブロック図である。図１１に示した変換候補検索部の動作を示すフローチャートである。カタカナをアルファベットに変換する実施例の説明図であり、（ａ）は学習データベースの一例であり、（ｂ）は文字間関連度データベースの一例である。図１３の（ａ）に示した学習データベースから作成された文字間対応付き単語組データベースの一例を示す説明図である。図１に示した翻字確率モデルデータベースの一例を示す説明図であり、（ａ）はユニグラム、（ｂ）はバイグラム、（ｃ）はトライグラムのデータをそれぞれ示している。図４に示した状態遷移情報データベースの一例を示す説明図である。単語翻訳の一例を示す説明図であり、（ａ）は入力単語、（ｂ）は探索結果、（ｃ）は出力単語を示している。第３の単語に関するＦＳＡの一例を示す説明図である。第２の実施形態に係る単語翻訳装置に第３の単語を３個入力した場合の探索結果の一例を示す説明図である。第３の実施形態に係る単語翻訳装置の変換候補検索部による第３の単語の検索の一例を示す説明図であり、（ａ）は検索文書、（ｂ）は抽出単語、（ｃ）は出力結果を示している。

符号の説明

１（１Ａ，１Ｂ）単語翻訳システム（記号列変換システム）
２記憶装置
３記憶装置
４翻字確率モデル作成装置（記号変換確率モデル作成装置）
５単語翻訳装置（単語出力部）
５Ａ，５Ｂ単語翻訳装置（記号列変換装置）
６学習データベース
７翻字確率モデル（記号変換確率モデル）
１０入力手段
１１記憶手段
１２文字間関連度データベース作成手段（記号間関連度データベース作成手段）
１３単語組データベース作成手段（記号列組データベース作成手段）
１４生起確率計算手段
１５書込手段
１６文字間関連度データベース（記号間関連度データベース）
１７単語組データベース（記号列組データベース）
Ｍ入力装置
２１入力手段（第１の入力手段）
２２記憶手段
２３状態遷移情報データベース作成手段（データベース作成手段）
２４単語探索手段
２５出力手段（第１の出力手段）
２６状態遷移情報データベース
Ｄ出力装置
３０変換可能性計算部
３１入力手段（第２の入力手段）
３２記憶手段
３３合成状態遷移情報データベース作成手段
３４状態遷移重み計算手段
３５出力手段（第２の出力手段）
３６合成状態遷移情報データベース
４０変換候補検索部
５０電子機器
Ｎ通信ネットワーク
４１入力手段
４２記憶手段
４３文書データ取得手段
４４変換候補抽出手段
４５出力手段

Claims

異なる言語体系にそれぞれ属する同じ意味の単語の組合わせである単語組における文字の同時生起頻度を利用した単語翻訳装置であって、
第１の言語体系に属する第１の単語と、それに対応する第２の言語体系に属する第２の単語とに対して、文字同士を１対１に対応させ、かつ対応する文字間において前記第１の単語を構成する第１の文字に対する翻字候補として、前記第２の単語を構成する第２の文字が現れ易いことを指す尺度である統計的な関連度を計算すると共に、前記第１の文字と前記第２の文字とのうちのいずれかに対応する文字がない場合に仮想的な空文字を用いた仮想的な関連度を計算し、計算した関連度および仮想的な関連度をデータとする文字間関連度データベースを作成する文字間関連度データベース作成手段と、
前記対応させた文字間の関連度の積あるいは和が最大となるように前記第１の単語あるいは前記第２の単語あるいは両単語のいずれかの文字位置に空文字を挿入した単語組みを探索し、この探索された単語組を単語組データベースに記憶する単語組データベース作成手段と、
前記単語組データベースに記憶された単語組に対して、前記第１の単語を構成する第１の文字と前記第２の単語を構成する第２の文字との文字組の出現順序の頻度を計算し、前記同時生起頻度としての翻字確率モデルを作成する生起確率計算手段と、
第１の言語体系に属するソース単語の入力を受け付ける入力手段と、
前記翻字確率モデルに基づいて、前記ソース単語と、第２の言語体系に属するターゲット単語とを文字単位で対応付けた組から成る任意の単語組において、前記空文字を考慮して、前記出現順序の頻度をそれぞれ計算し、この計算の結果に基づいて、前記出現順序の頻度が最大となる単語組を探索し、この探索された単語組のうちのターゲット単語を、前記入力を受け付けたソース単語に対応するターゲット単語として推定する単語探索手段と、
前記推定されたターゲット単語を出力する出力手段と、
を備えることを特徴とする単語翻訳装置。
前記単語探索手段は、
前記翻字確率モデルに基づいて、前記ソース単語と前記ターゲット単語とを文字単位で対応付けた組から成る任意の単語組において、前記空文字を考慮して、前記出現順序の頻度をそれぞれ計算し、この出現順序の頻度が最大となる単語組を考慮する近似を用いて求められた確率に対応する重みを示す状態遷移重みを、前記翻字確率モデルに格納された単語組の第１の文字および第２の文字と、遷移元状態および遷移先状態と共に文字の系列に対応して状態遷移のデータとして格納する状態遷移情報データベースを作成する状態遷移情報データベース作成手段を含み、
前記状態遷移情報データベースから、前記入力を受け付けたソース単語を構成するソース文字ごとに、前記状態遷移重みが最小となるようなターゲット文字を探索することで、前記ターゲット単語を探索することを特徴とする請求項１に記載の単語翻訳装置。
前記入力手段に入力される前記ソース単語に基づいて、通信ネットワークに接続された電子機器から文書データを取得する文書データ取得手段と、
前記取得された文書データから、予め定められた個数の単語を、前記ソース単語に対応したターゲット単語の属する第２の言語体系で用いられている文字コードを用いた正規表現によるマッチングにより前記ソース単語の翻訳結果の変換候補として抽出する変換候補抽出手段と、
前記抽出した変換候補を第３の単語として受け付け、当該第３の単語を構成する第３の文字の履歴を前記状態遷移情報データベース中の文字の系列に対応して合成し、合成された状態遷移重みを含む合成状態遷移情報データベースを作成する合成状態遷移情報データベース作成手段と、
前記合成状態遷移情報データベースを参照して、前記ソース単語を構成するソース文字から前記第３の単語を構成する第３の文字への前記合成された状態遷移重みについて文字の系列に対応した合計値を前記第３の単語ごとに計算し、計算結果が最小となる第３の単語を選択する状態遷移重み計算手段と、
前記状態遷移重み計算手段によって選択された第３の単語の前記合成された状態遷移重みを出力する第２の出力手段と、
をさらに備えることを特徴とする請求項２に記載の単語翻訳装置。
請求項１乃至請求項３のいずれか一項に記載の単語翻訳装置を構成する各手段としてコンピュータを機能させるための単語翻訳プログラム。
請求項４に記載の単語翻訳プログラムが記録されたことを特徴とするコンピュータ読み取り可能な記録媒体。