JP2013073282A

JP2013073282A - 情報処理装置およびプログラム

Info

Publication number: JP2013073282A
Application number: JP2011209938A
Authority: JP
Inventors: Shaoming Liu; 紹明劉
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2011-09-26
Filing date: 2011-09-26
Publication date: 2013-04-22
Also published as: US20130080148A1; CN103020041A

Abstract

【課題】第１言語および第２言語で記述されたテキストと、フレーズが第１言語で記述された場合の語の位置と、第２言語で記述された場合の語の位置と、の対応関係を示す情報と、に基づいて、第１テキストの一部の翻訳テキストを決定する情報処理装置を提供する。
【解決手段】情報処理装置１００は、第１言語および第２言語のテキストを取得するテキストデータ取得部１２２と、フレーズが第１言語で記述された場合の語の位置と、フレーズが第２言語で記述された場合の語の位置と、の対応関係を示す情報を取得する文パターン候補検索部１２４と、テキストを複数のサブテキストに区切る形態素解析部１２３と、フレーズにおける語の配置と、テキストにおけるサブテキストの配置と、を比較する文パターンマッチング部１２５と、比較の結果と位置対応情報とに基づいて、翻訳テキストを決定する単語アライメント抽出部１２９と、を有する。
【選択図】図１

Description

本発明は、情報処理装置およびプログラムに関する。

特許文献１には、多言語コーパスにおける第１の言語と第２の言語との間の単語アライメントを、既に第１の言語および第２の言語との単語アライメントが規定される第３の言語を介して決定する発明が開示されている。特許文献２には、フレーズアライメントを、単語間翻訳確率等の統計的情報に基づいて決定する発明が開示されている。特許文献３には、第１言語と第２言語との間の対訳単語辞書における対応関係を、第３言語を介して決定する発明が開示されている。

特開２０１０−６１６４３号公報特開２００８−１０２７９４号公報特開２００７−２６２５６号公報

本発明の目的は、第１言語で記述された第１テキストと、第１テキストの内容が第２言語で記述された第２テキストと、複数の形式のフレーズのそれぞれについて、該フレーズが第１言語で記述された場合のある語の位置と、該フレーズが第２言語で記述された場合の前記ある語に対応する語の位置と、の対応関係を示す位置対応情報と、に基づいて、第１テキストの一部であるサブテキストの翻訳テキストを決定する情報処理装置を提供することにある。

上記目的を達成するために、請求項１に記載の発明は、第１言語で記述された第１テキストと、前記第１テキストの内容が第２言語で記述された第２テキストと、を取得するテキスト取得手段と、複数の形式のフレーズのそれぞれについて、該フレーズが前記第１言語で記述された場合のある語の位置と、該フレーズが前記第２言語で記述された場合の前記ある語に対応する語の位置と、の対応関係を示す位置対応情報を取得する位置対応情報取得手段と、前記第１テキストを複数の第１サブテキストに区切る第１サブテキスト生成手段と、前記第２テキストを複数の第２サブテキストに区切る第２サブテキスト生成手段と、前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第１言語で記述された場合の複数の語の配置と、前記第１テキストにおける前記複数の第１サブテキストの配置と、を比較する第１比較手段と、前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第２言語で記述された場合の複数の語の配置と、前記第２テキストにおける前記複数の第２サブテキストの配置と、を比較する第２比較手段と、前記第１比較手段による比較の結果と、前記第２比較手段による比較の結果と、前記位置対応情報と、に基づいて、前記複数の第１サブテキストの少なくとも１つについて、前記複数の第２サブテキストの１つを、該第１サブテキストの前記第２言語による翻訳テキストと決定する翻訳テキスト決定手段と、を有することを特徴とする情報処理装置である。

また、請求項２に記載の発明は、請求項１に記載の情報処理装置であって、前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第１言語で記述された場合の複数の語の配置を示す第１配置情報と、該フレーズが前記第２言語で記述された場合の複数の語の配置を示す第２配置情報と、を取得する配置情報取得手段をさらに有し、前記翻訳テキスト決定手段は、前記第１比較手段による比較の結果と、前記第２比較手段による比較の結果と、前記位置対応情報と、に基づいて、前記第１テキストに対応する第１配置情報と、前記第２テキストに対応する第２配置情報と、を決定する配置情報決定手段をさらに有し、前記配置情報決定手段により前記第１配置情報および前記第２配置情報が決定された後、前記第１サブテキスト生成手段は、前記第１サブテキストを第１テキストとして取得して該第１テキストをさらに区切り、前記第２サブテキスト生成手段は、前記第２サブテキストを第２テキストとして取得して該第２テキストをさらに区切ることを特徴とする情報処理装置である。

また、請求項３に記載の発明は、請求項１又は２に記載の情報処理装置であって、前記第１サブテキストと、前記翻訳テキスト決定手段により該第１サブテキストの翻訳テキストと決定された第２サブテキストと、を対応づけて辞書データベースに登録する登録手段をさらに有することを特徴とする情報処理装置である。

また、請求項４に記載の発明は、コンピュータを、第１言語で記述された第１テキストと、前記第１テキストの内容が第２言語で記述された第２テキストと、を取得するテキスト取得手段、複数の形式のフレーズのそれぞれについて、該フレーズが前記第１言語で記述された場合のある語の位置と、該フレーズが前記第２言語で記述された場合の前記ある語に対応する語の位置と、の対応関係を示す位置対応情報を取得する位置対応情報取得手段、前記第１テキストを複数の第１サブテキストに区切る第１サブテキスト生成手段、前記第２テキストを複数の第２サブテキストに区切る第２サブテキスト生成手段、前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第１言語で記述された場合の複数の語の配置と、前記第１テキストにおける前記複数の第１サブテキストの配置と、を比較する第１比較手段、前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第２言語で記述された場合の複数の語の配置と、前記第２テキストにおける前記複数の第２サブテキストの配置と、を比較する第２比較手段、および前記第１比較手段による比較の結果と、前記第２比較手段による比較の結果と、前記位置対応情報と、に基づいて、前記複数の第１サブテキストの少なくとも１つについて、前記複数の第２サブテキストの１つを、該第１サブテキストの前記第２言語による翻訳テキストと決定する翻訳テキスト決定手段、として機能させるためのプログラムである。

請求項１および４に記載の発明によれば、第１言語で記述された第１テキストと、第１テキストの内容が第２言語で記述された第２テキストと、複数の形式のフレーズのそれぞれについて、該フレーズが第１言語で記述された場合のある語の位置と、該フレーズが第２言語で記述された場合の前記ある語に対応する語の位置と、の対応関係を示す位置対応情報と、に基づいて、第１テキストの一部であるサブテキストの翻訳テキストが決定される。

請求項２に記載の発明によれば、第１サブテキストおよび第２サブテキストがさらに区切られて生成されるテキストについて、翻訳テキストが決定される。

請求項３に記載の発明によれば、第１サブテキストと、該第１サブテキストの翻訳テキストと決定された第２サブテキストと、が対応づけられて辞書データベースに登録される。

本発明の実施形態に係る情報処理装置の構成を示す図である。例文対訳辞書データベースに記憶されるデータの一例を示す図である。文パターン対訳辞書データベースに記憶されるデータの一例を示す図である。１つの文パターンのデータ構造を示す図である。対訳文パターンの一例を示す図である。フレーズ対訳辞書データベースに記憶されるデータの一例を示す図である。単語対訳辞書データベースに記憶されるデータの一例を示す図である。本実施形態に係る文パターンマッチング部の処理フローを示す図である。本実施形態に係る距離計算部の処理フローを示す図である。本実施形態に係る距離計算部の計算過程の例を示す図である。本実施形態に係る写像抽出部の処理フローを示す図である。本実施形態に係る写像抽出部の処理フローを示す図である。本実施形態に係る写像抽出部の処理フローを示す図である。本実施形態に係る情報処理装置の動作を示すフローチャートである。本実施形態に係る情報処理装置におけるテキスト処理を示すフローチャートである。本実施形態に係る情報処理装置におけるフレーズ処理を示すフローチャートである。本実施形態に係る情報処理装置における翻訳テキストの決定処理および登録処理を示すフローチャートである。本実施形態に係る情報処理装置において処理されるデータの例を示す図である。本実施形態に係る情報処理装置において処理されるデータの例を示す図である。本実施形態に係る情報処理装置において処理されるデータの例を示す図である。本実施形態に係る情報処理装置において処理されるデータの例を示す図である。

以下、本発明の実施形態について図面に基づき詳細に説明する。図１は、本発明の実施形態に係る情報処理装置１００の構成を示す図である。情報処理装置１００は、例文対訳辞書データベース２００、文パターン対訳辞書データベース３００、フレーズパターン対訳辞書データベース４００、フレーズ対訳辞書データベース５００、および単語対訳辞書データベース６００と接続されている。情報処理装置１００は、ＣＰＵ１２０、記憶部１４０、および外部Ｉ／Ｆ部１６０を含む。

情報処理装置１００のＣＰＵ１２０は、記憶部１４０に記憶されるプログラムにより動作する。ＣＰＵ１２０の詳細は後述する。

情報処理装置１００の記憶部１４０は、メモリー等の記憶素子からなり、ＣＰＵ１２０により読み出されるプログラム、および後述するＣＰＵ１２０の各部における処理によって生成される各種データを記憶する。記憶部１４０は、前述のプログラムを記憶するプログラム記憶部１４１（図示しない）、前述の各種データを記憶する文パターン候補記憶部１４２、フレーズパターン候補記憶部１４３、および対訳フレーズ記憶部１４４を含む。文パターン候補記憶部１４２、フレーズパターン候補記憶部１４３、および対訳フレーズ記憶部１４４については後述する。

情報処理装置１００の外部Ｉ／Ｆ部１６０は、情報処理装置１００と接続される例文対訳辞書データベース２００、文パターン対訳辞書データベース３００、フレーズパターン対訳辞書データベース４００、フレーズ対訳辞書データベース５００、および単語対訳辞書データベース６００（以下、総称して各データベースという）とＣＰＵ１２０との間のデータのやりとりを制御する。外部Ｉ／Ｆ部１６０は、ＣＰＵ１２０から入力されたデータを各データベースに出力する。また、外部Ｉ／Ｆ部１６０は、ＣＰＵ１２０から入力される制御信号に基づき各データベースからデータを取得し、ＣＰＵ１２０に出力する。

例文対訳辞書データベース２００は、情報処理装置１００において翻訳テキストの決定が行われる言語による例文対訳辞書データを記憶する。例えば日本語（第１言語）と中国語（第２言語）との間の翻訳テキストの決定を行う場合、日本語による例文（テキスト）と、中国語による例文（テキスト）と、を関連づけて記憶する。ここで記憶されるデータは、何らかのデータベースから取得されてもよいし、情報処理装置１００の使用者等により入力されて記憶されてもよい。図２は、例文対訳辞書データベース２００に記憶されるデータの一例を示す図である。

文パターン対訳辞書データベース３００は、情報処理装置１００において翻訳テキストの決定が行われる言語による文パターン対訳辞書データを記憶する。図３は、文パターン対訳辞書データベース３００に記憶されるデータの一例を示す図である。文パターン対訳辞書データは、複数の形式の要素（固定項目、或いは可変項目）のそれぞれについて、該要素が第１言語で記述された場合のある語／可変項目の位置と、該要素が第２言語で記述された場合の前述のある語／可変項目に対応する語／可変項目の位置と、の対応関係を示す位置対応情報である。例えばある形式のフレーズが第１言語である日本語で記述された場合の文パターンＴ１（第１配置情報）がａ１ａ２ａ３ａ４ａ５、第２言語である中国語で記述された場合の文パターンＴ２（第２配置情報）がｂ１ｂ２ｂ３ｂ４ｂ５ｂ６と表現され（ａｘ、ｂｘは文パターンの要素である固定項目、或いは可変項目）、ａ１とｂ１、ａ２とｂ３、ａ３とｂ４およびｂ５、ａ５とｂ６がそれぞれ対応する場合、対応関係情報Ｆ２（Ｔ１，Ｔ２）は、Ｆ２（Ｔ１，Ｔ２）＝｛（１：１），（２：３），（３：４，５），（５：６）｝と表現される。

図４は、１つの文パターンのデータ構造を示す図である。文パターンは、ある言語の文の構成を示す情報であり、また文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含んでいる。なお、上述の文字列は、複数の単語からなる句または１つの単語を表す。１つの文パターンは、１または複数の固定項目と、１または複数の可変項目とを含んでいる。そして、図４では固定項目や可変項目は、文の先頭に対応させるものから順に並んでいる。

可変項目は、位置情報と、タイプ情報と、変数情報と、語彙体系情報と、用例情報と、を含む。固定項目は、位置情報と、タイプ情報と、固定内容と、品詞情報と、サブ構造情報とを含む。位置情報は固定項目と可変項目との両方に含まれており、文の中で表れる順番を通番で示す。タイプ情報は可変項目か固定項目かを示す情報であり、固定項目であれば「ｆ」、可変項目であれば「ｖ」となる。変数情報は可変項目の品詞を示す情報であり、例えば、「ＮＰ」であれば名詞フレーズの変数であることを、「ＡＰ」であれば形容詞フレーズの変数であることを、「ＤＰ」であれば副詞フレーズの変数であることを示す。語彙体系情報は、可変項目に入る主単語（フレーズの意味を左右する単語）の語彙体系を示す情報である。用例情報は文パターンの可変項目に入る主単語の用例を示す情報である。固定内容は固定項目の文字列を示す情報であり、品詞情報は固定項目に設定される単語の品詞を示す情報である。例えば日本語単語の品詞情報が「６１」ならその固定項目が格助詞であることを示す。サブ構造情報は固定項目が複数の単語で構成される場合に、そのそれぞれの単語の情報を示す。

ここで、文パターンのなかで最も特徴的である情報である、可変項目の存在を示す情報と、固定項目の固定内容の情報とを言語構成情報と呼ぶ。具体的には可変項目の位置情報およびタイプ情報と、固定項目の位置情報、タイプ情報および固定内容とに対応する。以下では原言語文パターンに含まれる言語構成情報を原言語構成情報と、目的言語例文パターンに含まれる言語構成情報を目的言語構成情報と呼ぶ。

図５は、対訳文パターンの一例を示す図である。対訳文パターンは、原言語（第１言語）文パターンと、目的言語（第２言語）文パターンと、アライメント情報とを含む。図５に示す文パターンでは、固定項目および可変項目どうしの区切りをスペースで、固定項目および可変項目に含まれる情報間の区切りを「／」で示している。また、図５では位置情報は固定項目および可変項目の並び順により表し、個々の可変項目や固定項目の中には記していない。例えば、原言語文パターンの１番目の項目の「v/NP/人/」はその項目が可変項目であり、可変項目は名詞フレーズであり、語彙体系は「人」であり、用例は設定されていないことを示し、原言語文パターンの５番目の項目の「f/改選する/89/属性変化[改選/17/する/47/]」は、その項目が固定項目であり、文字列が「改選する」であり、それがサ変動詞(89)でありサブ構造として、「改選」と「する」からなり属性変化していることを示している。

アライメント情報は、原言語の可変項目と目的言語の可変項目との対応関係、および原言語の固定項目と目的言語の固定項目との対応関係を示す言語間対応情報である。図５では、「３：」は対応付けが３つあることを示し、「１−１；」は原言語文パターンの１番目の項目と目的言語文パターンの１番目の項目とが対応していることを示し、「５０１，５０２−２；」原言語文パターンの５番目の項目の１番目のサブ項目と２番目のサブ項目とは、目的言語文パターンの２番目の項目に対応することを示す。ここで「５０１」は原言語文パターンの５番目の項目の１番目のサブ項目を示している。

フレーズパターン対訳辞書データベース４００は、情報処理装置１００において翻訳テキストの決定が行われる言語によるフレーズパターン対訳辞書データを記憶する。フレーズパターン対訳辞書データベース４００には、図３と同様の形式のデータが記憶される。

フレーズ対訳辞書データベース５００は、情報処理装置１００において翻訳テキストが決定されたフレーズ対訳データを記憶する。図６は、フレーズ対訳辞書データベース５００に記憶されるデータの一例を示す図である。

単語対訳辞書データベース６００は、情報処理装置１００において翻訳テキストが決定された単語対訳データを記憶する。図７は、単語対訳辞書データベース６００に記憶されるデータの一例を示す図である。

情報処理装置１００のＣＰＵ１２０について、以下に詳細に説明する。ＣＰＵ１２０は、制御部１２１（図示しない）、テキストデータ取得部１２２、形態素解析部１２３、文パターン候補検索部１２４、文パターンマッチング部１２５、対訳フレーズ抽出部１２６、フレーズパターン候補検索部１２７、フレーズパターンマッチング部１２８、および単語アライメント抽出部１２９を含む。

ＣＰＵ１２０の各部の動作を、実際に処理されるデータの例を用いて説明する。以下、図２に示される、例文対訳辞書データベース２００に記憶されるテキストデータ７０１、７０２に対して処理を行う場合について説明する。

制御部１２１は、ＣＰＵ１２０全体の動作を制御する。テキストデータ取得部１２２は、第１言語で記述されたテキストデータ（第１テキスト）と、第１テキストの内容が第２言語で記述されたテキストデータ（第２テキスト）と、を取得するテキスト取得手段として動作する。テキストデータ取得部１２２は、例文対訳辞書データベース２００から第１言語で記述したテキストデータ７０１、および第２言語で記述したテキストデータ７０２を取得し、形態素解析部１２３に出力する。

形態素解析部１２３は、第１テキストを複数の第１サブテキスト（形態素または単語）に区切り、区切られた形態素または単語の品詞を付与する第１サブテキスト生成手段および前記第２テキストを複数の第２サブテキスト（形態素または単語）に区切り、区切られた形態素または単語の品詞を付与する第２サブテキスト生成手段として動作する。形態素解析部１２３は、テキストデータ取得部１２２から入力されたテキストデータ７０１、７０２の形態素解析を行う。具体的には、形態素解析部１２３は、テキストデータ取得部１２２から入力されたテキストデータ７０１、７０２について、形態素または単語（第１サブテキスト、第２サブテキスト）への分割処理および各形態素または単語への品詞付与処理である形態素解析を行う。形態素解析は、既に公知である形態素解析技術、例えば日本語の形態素解析技術Ｃｈａｓｅｎ、中国語の形態素解析技術による清華大学のＳｅｇ＆ＰＣツール、中国東北大学のＣｉＰｏｓＳＤＫツールにより行われる。

文パターン候補検索部１２４は、複数の形式のフレーズのそれぞれについて、該フレーズが第１言語で記述された場合のある語の位置と、該フレーズが第２言語で記述された場合の、前述のある語に対応する語の位置と、の対応関係を示す位置対応情報を取得する位置対応情報取得手段、および該フレーズが第１言語で記述された場合の複数の語の配置を示す第１配置情報と、該フレーズが第２言語で記述された場合の複数の語の配置を示す第２配置情報と、を取得する配置情報取得手段として動作する。文パターン候補検索部１２４は、文パターン対訳辞書データベース３００に記憶されている文パターン対訳辞書データから、第１テキストおよび第２テキストとマッチング可能な文パターン（第１文パターンと第２文パターンの組）を文パターン候補として取得する。文パターン候補の検索は、既知の検索方法、例えば特開２００９−１２９０３２号公報に記載の方法により行われる。検索の結果抽出された文パターン候補は、記憶部１４０の文パターン候補記憶部１４２に記憶される。

文パターンマッチング部１２５は、第１文パターンと第１テキストにおける前記複数の第１サブテキストの配置とをマッチングする第１マッチング手段（第１比較手段）、および第２文パターンと前記第２テキストにおける前記複数の第２サブテキストの配置とをマッチングする第２マッチング手段（第２比較手段）、および第１マッチング手段によるマッチングの結果と、第２マッチング手段によるマッチングの結果と、第１文パターンの各項目と第２文パターンの各項目間の対応情報と、に基づいて、第１テキストの各サブテキストにそれぞれ対応する第１文パターンの項目と、第２テキストの各サブテキストにそれぞれ対応する第２文パターンの項目と、を決定する配置情報決定手段として動作する。文パターンマッチング部１２５は、形態素解析が行われた第１テキストデータと第２テキストデータのそれぞれと、文パターン候補記憶部１４２に記憶される文パターン候補の第１文パターンと第２文パターンのそれぞれにマッチングし、該対訳テキストデータが該対訳文パターン候補にマッチング可能か否かを判定するパターンマッチング処理を行う。パターンマッチング処理は、後述する方法により行われ、第１テキスト（又は第２テキスト）を、第１文パターン（又は第２文パターン）に該当する形式に変更する際に必要な編集の分量を示す「拡張編集距離」を算出する。

パターンマッチング処理について、以下に説明する。図８は、本実施形態に係る文パターンマッチング部１２５の処理フローを示す図である。はじめに、文パターンマッチング部１２５に含まれる距離計算部１３０（図示しない）は、各候補となる第１文パターン（又は第２文パターン）と、第１テキスト（又は第２テキスト）との距離を求める（Ｓ８０１）。以下ではステップＳ８０１の処理について距離計算部１３０のフローを示しながら説明する。

図９は、本実施形態に係る距離計算部１３０の処理フローを示す図である。図９では、第１テキスト（又は第２テキスト）と、候補となる１つの第１文パターン（又は第２文パターン）との拡張編集距離を計算する処理フローのみを示す。実際にはこれらの処理は、候補となる第１文パターン（又は第２文パターン）の数だけ繰り返される。距離計算部１３０は、はじめに、形態素解析部１２３により分割された入力文の単語（その数をｍとする）を、順にデータ列ｓ１〜ｓｍに格納する（Ｓ９０１）。次に、候補となる１つの第１文パターンの可変項目および固定項目（それらをあわせた数をｎとする）のそれぞれについて、可変項目であるか否かの情報および固定項目の場合の固定内容の文字列の情報を位置情報の小さいものから順にデータ列ａ１〜ａｎに格納する（Ｓ９０２）。なお、以下ではｓ０およびａ０も登場するが、これらは第１テキストおよび第１文パターンの先頭であることを示し、これらは空文字列に相当する。

第１テキストと第１文パターンとの拡張編集距離は、第１テキストの各単語と第１文パターンの可変項目および固定項目との間の対応関係に依存するものとする。第１テキストと第１文パターンとの拡張距離は、その第１テキストと第１文パターンとの間で存在しうる複数の対応関係のそれぞれについて求められる変換重みのなかで最小なものを距離とする。ある対応関係における変換重みは、可変項目および固定項目とそれに対応する単語との重みや、単語と項目が対応しない場合の重みを積算したものである。より具体的には、例えば、ａｉ（ｉは１からｎ）がｓｊ（ｊは１からｍ）と対応するとした場合に、ａｉが可変項目のとき、ａｉが任意のサブテキストに対応可能であるから、編集重みが０である。ａｉが固定項目のとき、ａｉとｓｊとが同じ単語であれば編集が不要なので編集重みが０、ａｉとｓｊとが異なる単語であれば置換が必要なので編集重みがｐ、ａｉに対応するｓｊが無ければ入力文に単語の挿入が必要なので編集重みがｑ、反対にｓｊに対応するａｉが無ければ入力文から単語の削除が必要なので編集重みがｒであるとして求められる重みを積算する。ここで、ｐ、ｑ、ｒは正の定数である。また、対応関係については、第１文パターンも第１テキストの単語も並び順が破壊されないという条件と、可変項目は入力文の複数の単語に対応しうるという条件を満たすものとする。前者の条件の例は、例えばａｉとｓｊとが対応する場合、ａ（ｉ＋１）とｓ（ｊ−１）とは対応することはないといったことである。後者の条件は可変項目が複数の単語からなる句であってもよいことから生じる。前者の条件から、第１文パターンのうちａ１からａｉと入力文のうちｓ１からｓｊとの間での全ての対応関係における最小の距離ｄ（ｉ，ｊ）は、ｄ（ｉ−１，ｊ−１）、ｄ（ｉ−１，ｊ）、ｄ（ｉ，ｊ−１）の全てと、ａｉとｓｊとの関係がわかれば求められる。以下では上述の法則を利用した計算方法について説明する。

距離計算部１３０は、距離の値が格納され、（ｎ＋１）×（ｍ＋１）の２次元配列ｄと、ｄ（ｉ−１，ｊ−１）、ｄ（ｉ−１，ｊ）、ｄ（ｉ，ｊ−１）のうちどれを用いて計算するとｄ（ｉ，ｊ）が最小の距離となるかを示すｎ×ｍの配列ＰａｔｈＦｌａｇとを初期化する（Ｓ９０３）。配列ｄは、ｄ（０，０）からｄ（ｎ，ｍ）まであり、ｄ（ｉ，ｊ）は部分文字列ａ１ａ２…ａｉとｓ１ｓ２…ｓｊ間の距離を表す。ｄ（ｉ，０）にはｉ×ｑが、ｄ（０，ｊ）にはｊ×ｒが代入される。配列ＰａｔｈＦｌａｇはＰａｔｈＦｌａｇ（１，１）からＰａｔｈＦｌａｇ（ｎ，ｍ）まである。次に、変数ｉおよびｊに１を代入し（Ｓ９０４）、繰返し処理をはじめる。距離計算部１３０は、ａ１からａｉとｓ１からｓｊとの間での最小の距離ｄ（ｉ，ｊ）を求め、ｄ（ｉ−１，ｊ−１）、ｄ（ｉ−１，ｊ）、ｄ（ｉ，ｊ−１）のうちどれを用いて計算すると最小となるかをＰａｔｈＦｌａｇ（ｉ，ｊ）に格納する（Ｓ９０５）。ｄ（ｉ，ｊ）は以下の方法で計算される。

ａｉが可変項目の場合：
ｄ（ｉ，ｊ）＝ｍｉｎ｛ｄ（ｉ−１，ｊ−１）＋ｗ（ａｉ，ｓｊ），ｄ（ｉ−１，ｊ）＋ｑ，ｄ（ｉ，ｊ−１）｝

ａｉが固定項目の場合：
ｄ（ｉ，ｊ）＝ｍｉｎ｛ｄ（ｉ−１，ｊ−１）＋ｗ（ａｉ，ｓｊ），ｄ（ｉ−１，ｊ）＋ｑ，ｄ（ｉ，ｊ−１）＋ｒ｝

ここで、ｗ（ａｉ，ｓｊ）は、ａｉが可変項目の場合は、例えば０であり、ａｉが固定項目であれば例えばａｉとｓｊとが等しければ０、等しくなければｐである。また、ｄ（ｉ−１，ｊ−１）、ｄ（ｉ−１，ｊ）、ｄ（ｉ，ｊ−１）のうち距離が最小となるものが複数ある場合は、その全ての情報をＰａｔｈＦｌａｇ（ｉ，ｊ）に格納する。

次に距離計算部１３０はｊを１増やし（Ｓ９０６）、ｊとｍの比較を行う（Ｓ９０７）。Ｓ９０７の比較においてｊがｍ以下であれば、Ｓ９０５からの処理を繰り返す。ｊがｍ以下でなければｉを１増やし（Ｓ９０８）、ｉがｎ以下か判定する（Ｓ９０９）。ｉがｎ以下であれば、Ｓ９０５からの処理を繰り返す。ｉがｎ以下でなければ、距離としての変数ｄ（ｎ，ｍ）と配列ＰａｔｈＦｌａｇとを第１文パターンに関連づけて記憶し（Ｓ９１０）、処理を終了する。

図１０は、本実施形態に係る距離計算部１３０の計算過程の例を示す図である。図１０の表の各セルの値は配列ｄの各セルの値を表し、矢印は左上、左、上のうちどのセルから計算すると距離が最小となるかを表している。この例では、入力文が「私は富士ゼロックスの社員です」、原言語構成情報の候補が、「［ｖ］は［ｖ］です」である場合について最小の距離を計算した例を示している。ここで、この例ではｐ＝ｑ＝ｒ＝１としている。この表によれば、配列ＰａｔｈＦｌａｇが最小の距離を計算する場合の入力文の単語と、可変項目および固定項目との関係を示すことがわかる。

図８において、Ｓ８０１の処理により第１文パターン（又は第２文パターン）の各候補と第１テキスト（又は第２テキスト）との編集拡張距離が求められると、文パターンマッチング部１２５は第１文パターン（又は第２文パターン）の候補のうちから編集拡張距離が最小となる第１文パターン（又は第２文パターン）を選択する（Ｓ８０２）。ここで、選択される第１文パターン（又は第２文パターン）は、必ずしも１つとは限らない。仮に距離が最小となる第１文パターン（又は第２文パターン）の種類が１つであったとしても、例えば第１文パターン（又は第２文パターン）が同じである複数の対訳例文パターンが存在する場合には、その対訳例文パターンの数の第１文パターン（又は第２文パターン）が選択されてよい。

次に、文パターンマッチング部１２５は、選択された第１文パターン（又は第２文パターン）の固定項目および可変項目の各項目と第１テキスト（又は第２テキスト）の文字列との対応関係（以下最小写像と呼ぶ）を求める（Ｓ８０３）。Ｓ８０３の処理は、文パターンマッチング部１２５に含まれる写像抽出部１３１（図示しない）が行う。以下では写像抽出部１３１の処理フローとともにこの処理内容について説明する。

図１１から１３は、本実施形態に係る写像抽出部１３１の処理フローを示す図である。はじめに、写像抽出部１３１は、選択された第１文パターン（又は第２文パターン）に関連づけて記憶された配列ＰａｔｈＦｌａｇを取得し、さらにその第１文パターン（又は第２文パターン）に含まれる可変項目および固定項目の情報をそれぞれ位置情報の順に格納したデータ列ａ１〜ａｎを取得する（Ｓ１１０１）。この可変項目および固定項目の情報は具体的には、可変項目であるか否かの情報および固定項目の場合の固定内容の文字列の情報である。次に、選択された第１文パターン（又は第２文パターン）の各可変項目および固定項目に対応する１または複数の単語を記憶するｎ個のリストからなる配列Ｍａｔを初期化し、（ｎ，ｍ）と、０と、配列Ｍａｔをスタックにｐｕｓｈする（Ｓ１１０２）。

次に、写像抽出部１３１はスタックからｐｏｐし、値を変数組（ｉ，ｊ）と、変数ｕと、配列Ｍａｔとに格納する（Ｓ１１０３）。Ｓ１１０４において変数組（ｉ，ｊ）が（０，０）であれば、最小写像が求まっているので最小写像のリストＦｓｅｔに配列Ｍａｔを追加し（Ｓ１１０５）、Ｓ１１０６において残りのスタックがあれば再びＳ１１０３から繰り返す。Ｓ１１０６において残りのスタックが無ければ処理は終了する。Ｓ１１０４で変数組（ｉ，ｊ）が（０，０）でない場合は、変数ｉが０であるか判定する（Ｓ１１０７）。変数ｉが０であれば、入力文のｊ番目の単語は脱落しているのでＭａｔ（０）のリストにその単語を追加し（Ｓ１１０８）、変数組（ｉ，ｊ−１）と、０と、配列Ｍａｔをｐｕｓｈし（Ｓ１１０９）、Ｓ１１０３の処理から繰り返す。

Ｓ１１０７で変数ｉが０でなければ、ａｉが固定項目か判定する（Ｓ１２００）。ａｉが固定項目であれば、ＰａｔｈＦｌａｇ（ｉ，ｊ）について判定を行う（Ｓ１２０１）。Ｓ１２０１でＰａｔｈＦｌａｇ（ｉ，ｊ）が、ｄ（ｉ，ｊ）をｄ（ｉ−１，ｊ−１）から求めたことを示せば、Ｍａｔ（ｉ）のリストにｊ番目の単語を追加し（Ｓ１２０２）、変数組（ｉ−１，ｊ−１）と、０と、配列Ｍａｔをｐｕｓｈする（Ｓ１２０３）。以下ではＰａｔｈＦｌａｇ（ｉ，ｊ）が、ｄ（ｉ，ｊ）をｄ（ｉ−１，ｊ−１）から求めたことを示すことを「（ｉ−１，ｊ−１）経由」と記載する。またｄ（ｉ，ｊ−１）やｄ（ｉ−１，ｊ）の場合はそれぞれ「（ｉ，ｊ−１）経由」、「（ｉ−１，ｊ）経由」と記す。Ｓ１２０１で（ｉ−１，ｊ−１）経由でない場合およびＳ１２０３の処理後は、ＰａｔｈＦｌａｇ（ｉ，ｊ）が（ｉ，ｊ−１）経由か判定する（Ｓ１２０４）。（ｉ，ｊ−１）経由であれば、挿入であるのでＭａｔ（ｉ）のリストにｊ番目の単語を追加し（Ｓ１２０５）、変数組（ｉ，ｊ−１）と、０と、配列Ｍａｔをｐｕｓｈする（Ｓ１２０６）。（ｉ，ｊ−１）経由でない場合およびステップＳ１２０６の処理後は、Ｓ１３０１の処理に移る。次に、Ｓ１２００でａｉが可変項目であれば、ＰａｔｈＦｌａｇ（ｉ，ｊ）について（ｉ−１，ｊ−１）経由か判定する（Ｓ１２０７）。（ｉ−１，ｊ−１）経由であれば、Ｍａｔ（ｉ）のリストにｊ番目から（ｊ＋ｕ）番目の単語を追加し（Ｓ１２０８）、変数組（ｉ−１，ｊ−１）と、０と、配列Ｍａｔをｐｕｓｈする（Ｓ１２０９）。Ｓ１２０７で（ｉ−１，ｊ−１）経由でない場合およびＳ１２０９の処理後は、ＰａｔｈＦｌａｇ（ｉ，ｊ）が（ｉ，ｊ−１）経由か判定する（Ｓ１２１０）。（ｉ，ｊ−１）経由であれば、ｕを１増やし（Ｓ１２１１）、変数組（ｉ，ｊ−１）と、変数ｕと、配列Ｍａｔをｐｕｓｈする（Ｓ１２１２）。Ｓ１４０で（ｉ，ｊ−１）経由でない場合およびＳ１２１２の処理後は、Ｓ１３０１の処理に移る。

Ｓ１３０１ではＰａｔｈＦｌａｇ（ｉ，ｊ）が（ｉ−１，ｊ）経由か判定する。（ｉ−１，ｊ）経由であれば、脱落であるので、Ｍａｔ（ｉ）のリストを空にし（Ｓ１３０２）、変数組（ｉ−１，ｊ）と、０と、配列Ｍａｔをｐｕｓｈする（Ｓ１３０３）。Ｓ１３０１で（ｉ−１，ｊ）経由でない場合およびステップＳ１３０３の処理後は、Ｓ１１０３の処理から繰り返す。これらの処理により、写像のリストＦｓｅｔが取得される。なお、スタックを使うことにより、写像が複数ある場合でもそれらが求められる。

Ｓ８０３の処理で写像が求められた後では、文パターンマッチング部１２５は写像が複数あるか確認し、複数の写像がある場合には、それらの写像から１つの写像を選択する（Ｓ８０４）。Ｓ８０４の処理は、文パターンマッチング部１２５の最適写像選択部１３２（図示しない）が行う。最適写像選択部１３２は、写像が複数ある場合に、各写像について、可変項目の単語により構成される句を、いくつかの基準により評価し、それらの評価を総合的に判断して１つの写像を選択する。その評価の基準としては、例えば、その句が辞書に存在するか、その句に動詞、助詞、助動詞が含まれるか、などがある。

文パターンマッチング部１２５の目的言語構成情報選択部１３３（図示しない）は、選択された第１文パターンに対応する目的言語の文の構成を示す複数の第２文パターンであってそれぞれがその文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む第２文パターンのうちから１つの第２文パターンを、第１文パターンと第２文パターンとに関連づけられる評価情報に基づいて選択する。ここで、評価情報は、対訳例文パターンのうち第１文パターンの部分を除いた部分を示す。対訳例文パターンは第１文パターンと第２文パターンを含むので、それによって第１文パターンおよび第２文パターンと関連づけられている。また、第１文パターンにおける可変項目の変数情報（品詞情報）や語彙体系や用例情報、そして対訳例文パターンにおける言語間対応情報や対訳例文情報なども第１文パターンに関連づけられている。可変項目の変数情報（品詞情報）や語彙体系や用例情報は可変項目の属性を示す情報である。なお、第２文パターンを選択することは、実質的に目的言語例文パターンも選択することおよび対訳例文パターンも選択することと同じである。

文パターンマッチング部１２５は、第１テキストと第１文パターン間の拡張編集距離、および第２テキストと第２文パターン間の拡張編集距離が共に「０」である場合に、該パターン候補が入力された対訳テキスト文にマッチング可能と判定する。文パターンマッチング部１２５により求められた第１テキストと第１文パターン間のマッチング情報、および第２テキストと第２文パターン間のマッチング情報は、対訳フレーズ抽出部１２６に出力される。

対訳フレーズ抽出部１２６は、文パターンマッチング部１２５またはフレーズパターンマッチング部１２８により第１パターンおよび第２パターンが決定された後、第１サブテキストを第１テキストとして取得して該第１テキストをさらに区切り、第２サブテキストを第２テキストとして取得して該第２テキストをさらに区切る。すなわち対訳フレーズ抽出部１２６は、文パターンマッチング部１２５において文パターン候補記憶部１４２に記憶される文パターン候補に規定されるパターンであると判定されたテキストデータのフレーズのそれぞれに対して形態素解析を行ってこれらを区切り、区切られたデータは対訳フレーズ記憶部１４４に出力されて記憶される。

フレーズパターン候補検索部１２７は、対訳フレーズ抽出部１２６により形態素解析が行われて対訳フレーズ記憶部１４４に記憶されたフレーズについて、フレーズパターン対訳辞書データベース４００に記憶されているフレーズパターンのうち、マッチング可能なフレーズパターン（フレーズパターン候補）を検索する。フレーズパターン候補の検索は文パターン候補検索部１２４と同様に、既知の検索方法、例えばＮ−Ｇｒａｍ検索方法により行われる。検索の結果抽出されたフレーズパターン候補は、記憶部１４０のフレーズパターン候補記憶部１４３に記憶される。

フレーズパターンマッチング部１２８は、対訳フレーズ記憶部１４４に記憶されるフレーズと、フレーズパターン候補記憶部１４３に記憶されるフレーズパターン候補と、について、文パターンマッチング部１２５同様の方法で、該フレーズが該フレーズパターン候補に規定されるパターンであるか否かを判定するパターンマッチング処理を行う。パターン候補に規定されるパターンであると判定されたフレーズは対訳フレーズ記憶部１４４に記憶されて再度対訳フレーズ抽出部１２６に入力され、パターン候補に規定されるパターンであると判定されなかったテキストデータは単語アライメント抽出部１２９に出力されるとともに、それらは互いに関連づけられてフレーズ対訳辞書データベース５００に登録される。

単語アライメント抽出部１２９は、文パターンマッチング部１２５およびフレーズパターンマッチング部１２８等における比較の結果と、位置対応情報と、に基づいて、サブテキストの１つについて、サブテキストの１つを、該サブテキストの第２言語による翻訳テキストと決定する翻訳テキスト決定手段、および前記第１サブテキストと、翻訳テキスト決定手段により該第１サブテキストの翻訳テキストと決定された第２サブテキストと、を対応づけて辞書データベースに登録する登録手段として動作する。単語アライメント抽出部１２９は、対訳フレーズ抽出部１２６およびフレーズパターンマッチング部１２８から入力されるフレーズについて、それぞれが１つの単語からなる場合に、それぞれを互いに対応する翻訳単語と決定する単語アライメント処理を行う。単語アライメント処理は、既知の方法、例えば特開２０１０−０２７０２０号公報に記載の方法により実行される。抽出された翻訳単語は、互いに関連づけられて単語対訳辞書データベース６００に登録される。

次に、本実施形態に係る情報処理装置１００の動作を、フローチャートを用いて説明する。図１４は、本実施形態に係る情報処理装置１００の動作を示すフローチャートである。

まず、情報処理装置１００は、例文対訳辞書データベース２００に記憶されているテキストについて、パターンマッチング等のテキスト処理を行う（Ｓ１４０１）。

次に、情報処理装置１００は、Ｓ１４０１の処理においてテキストが分割されて生成されたフレーズについて、パターンマッチング等の処理により生成された第１テキストのフレーズと第２テキストのフレーズ間の対応関係の特定処理を行う（Ｓ１４０２）。

そして、情報処理装置１００は、Ｓ１４０２におけるフレーズ処理の結果に基づいて、翻訳テキストの決定処理および登録処理を行い（Ｓ１４０３）、処理は終了する。

次に図１４におけるＳ１４０１のテキスト処理を説明する。図１５は、本実施形態に係る情報処理装置１００におけるテキスト処理を示すフローチャートである。

まず、テキストデータ取得部１２２は、例文対訳辞書データベース２００からテキストデータ７０１，７０２を取得する（Ｓ１５０１）。形態素解析部１２３は、Ｓ１５０１でテキストデータ取得部１２２によって取得されたテキストデータ７０１、７０２の形態素解析を行う（Ｓ１５０２）。

次に、文パターン候補検索部１２４は、入力された第１テキストデータにマッチング可能な文パターン候補（対訳文パターン）を検索する（Ｓ１５０３）。Ｓ１５０３において文パターン候補が抽出されれば処理はＳ１５０５に進み、文パターン候補が抽出されなければ、処理はＳ１５１２に進む（Ｓ１５０４）。

Ｓ１５０４で、Ｓ１５０３において文パターン候補が抽出されたと判定された場合、文パターンマッチング部１２５は、Ｓ１５０２において形態素解析が行われた第１テキストデータと第２テキストデータと、Ｓ１５０３において抽出された文パターン候補の第１文パターンと第２文パターンと、について、第１テキストデータと第２テキストデータはそれぞれ第１文パターンおよび第２文パターンとマッチングできるか否かを判定するパターンマッチング処理を行う（Ｓ１５０５）。

そしてＳ１５０５の結果に対する判定が行われ（Ｓ１５０６）、第１テキストデータと第１文パターン間の拡張編集距離と第２テキストデータと第２文パターン間の拡張編集距離が共に０であれば、該対訳文パターンは該対訳テキストデータにマッチング可能と判定される（Ｓ１５０７）。そして対訳フレーズ抽出部１２６は、第１テキストデータおよび第２テキストデータについてさらに分割を行い（Ｓ１５０９）、得られるサブテキストは対訳フレーズ記憶部１４４に追加して保存され（重複データがなければ追加しない）（Ｓ１５１０）、処理はＳ１５１１に進む。一方拡張編集距離のいずれかが０でなければ、該対訳文パターンは該対訳テキストデータにマッチングできないと判定され（Ｓ１５０８）、処理はＳ１５１１に進む。Ｓ１５１１では、Ｓ１５０３で抽出された文パターン候補のうち、パターンマッチングが未実行のものがないか判定を行い、未実行のものがあればＳ１５０５に進んで未実行の文パターン候補に対してパターンマッチング処理を行い、未実行のものがなければ、処理はＳ１５１２に進む。Ｓ１５１２では、テキストデータ取得部１２２は、未処理のテキストデータの有無を確認する。未処理のテキストデータがあれば、処理はＳ１５０１に戻り、未処理のテキストデータがなければ、テキスト処理は終了する。

次に図１４におけるＳ１４０２のフレーズ間対応関係の特定処理を説明する。図１６は、本実施形態に係る情報処理装置１００におけるフレーズ処理を示すフローチャートである。

フレーズパターン候補検索部１２７は、対訳フレーズ記憶部１４４に記憶されているサブテキストを取得し（Ｓ１６０１）、フレーズパターン対訳辞書データベース４００に記憶されているフレーズパターンのうち、マッチング可能なフレーズパターン（フレーズパターン候補）を検索する（Ｓ１６０２）。Ｓ１６０２においてフレーズパターン候補が抽出されれば処理はＳ１６０４に進み、フレーズパターン候補が抽出されなければ処理はＳ１６１１に進む（Ｓ１６０３）。

Ｓ１６０３で、Ｓ１６０２においてフレーズパターン候補が抽出されたと判定された場合、フレーズパターンマッチング部１２８は、サブテキストと、Ｓ１６０２において抽出されたフレーズパターン候補の１つと、について、パターンマッチング処理を行う（Ｓ１６０４）。

そしてＳ１６０４の結果に対する判定が行われ（Ｓ１６０５）、２つの拡張編集距離が共に０であれば、該サブテキストが該フレーズパターン候補に規定されるパターンでマッチング可能と判定され（Ｓ１６０６）、対訳フレーズ抽出部１２６は、該サブテキスト（以下、親サブテキスト）の分割を行う（Ｓ１６０８）。Ｓ１６０８で親サブテキストが分割されて生成された子サブテキストは、対訳フレーズ記憶部１４４に追加して保存され（重複データがあれば追加しない）、代わって親サブテキストは対訳フレーズ記憶部１４４から消去され（Ｓ１６０９）、処理はＳ１６１０に進む。一方拡張編集距離のいずれかが０でなければ、該フレーズデータは該フレーズパターン候補に規定されるパターンではマッチング不可と判定され（Ｓ１６０７）、処理はＳ１６１０に進む。Ｓ１６１０では、Ｓ１６０２で抽出された文パターン候補のうち、パターンマッチングが未実行のものがないか判定を行い、未実行のものがあればＳ１６０４に進んでパターンマッチング未実行の文パターン候補に対してパターンマッチングを行い、未実行のものがなければ、処理はＳ１６１１に進む。Ｓ１６１１では、未処理のサブテキストの有無を確認し、未処理のサブテキストがあれば処理はＳ１６０１に進み、未処理のサブテキストがなければフレーズ処理は終了する。

次に、図１４におけるＳ１４０３の翻訳テキストの決定処理および登録処理を説明する。図１７は、本実施形態に係る情報処理装置１００における翻訳テキストの決定処理および登録処理を示すフローチャートである。

単語アライメント抽出部１２９は、対訳フレーズ記憶部１４４に記憶される対訳フレーズデータを取得する（Ｓ１７０１）。次に、単語アライメント抽出部１２９は、Ｓ１７０１で取得された対訳フレーズについて、該対訳フレーズが共に複数の単語からなるか判定を行う（Ｓ１７０２）。該対訳フレーズの少なくとも一方が１単語である場合、単語対訳辞書データベース６００に登録されて（Ｓ１７０３）、翻訳テキストの決定処理および登録処理は終了する。一方、対訳フレーズが共に複数の単語からなる場合は、単語アライメント抽出部１２９は、該フレーズをフレーズ対訳辞書データベース５００に登録（Ｓ１７０４）したうえで単語アライメント処理を実行し（Ｓ１７０５）、単語アライメント処理で得られた対訳単語を単語対訳辞書データベース６００に登録する（Ｓ１７０６）。以上で翻訳テキストの決定処理および登録処理は終了する。

次に、本実施形態に係る情報処理装置１００における処理を、具体的なデータの例を用いて説明する。図１８から図２１は、本実施形態に係る情報処理装置１００において処理されるデータの例を示す図である。まず、テキストデータ１８０１，１８０２が例文対訳辞書データベース２００に、パターン１８０３，１８０４および矢印で示される対応関係を示す情報が文パターン対訳辞書データベース３００に、それぞれ記憶されている。形態素解析部１２３によるテキストデータ１８０１，１８０２に対する形態素解析、文パターン候補検索部１２４による文パターン候補の検索、および文パターンマッチング部１２５によるパターンマッチングが行われた結果、図１９に示される対応関係１９０１および１９０２が得られる。ここで＜Ａ，Ｂ＞は、ＡがＢに対応していることを表す。すなわち、対応関係１９０１および１９０２の左辺の第１項がテキストデータ１８０１とパターン１８０３との関係、第２項がパターン１８０３とパターン１８０４との関係、第３項がパターン１８０４とテキストデータ１８０２との関係を示し、その結果、右辺に示すテキストデータ１８０１とテキストデータ１８０２との関係が得られることが示されている。

そして、ここで関係が得られたフレーズのそれぞれについて、パターンマッチングを行う。例えば図１９の対応関係１９０２で示される関係が得られたフレーズについてパターンマッチングを行った例を図２０に示す。すなわち、フレーズ２００１，２００２について、例えばパターン２００３，２００４とのパターンマッチングを行なわれ、対応関係２００５，２００６が得られる。

こうして対応関係が得られた「この資料」（およびその中国語表現）と「ＦＸの田中部長」（およびその中国語表現）については、マッチングするパターンが存在しない。そしてこれらのフレーズは複数の単語から構成されているため、単語アライメント抽出部１２９は単語アライメント処理を実行し（図１７のＳ１７０２、Ｓ１７０５参照）、単語のペアを抽出する。

その結果、図２１に示される対訳フレーズ２１０１，２１０２および対訳単語２１０３，２１０４，２１０５，２１０６，２１０７，２１０８が決定され、これらが対訳単語辞書データベースに登録される。

以上の構成により、第１言語で記述された第１テキストと、第１テキストの内容が第２言語で記述された第２テキストと、所定のフレーズを第１言語で記述した場合の語の配置を示す第１配置情報により示される、少なくとも１つの語の位置と、前記所定のフレーズを前記第２言語で記述した場合の語の配置を示す第２配置情報により示される前記語に対応する語の位置と、の対応関係を示す位置対応情報と、に基づいて、第１テキストの一部である第１サブテキストの翻訳テキストが決定される。

よって、例えば新しい分野に関する対訳単語辞書を作成する場合には、当該分野に関する例文対訳辞書データベース２００を用意すれば、対象とする言語の従来の文パターン対訳辞書データベース３００およびフレーズパターン対訳辞書データベース４００と組み合わせて処理を行うことで、当該分野の対訳単語辞書が自動的に作成される。

なお、本実施形態においては、入力されるデータとして、入手や生成が比較的容易なテキスト（文）を使用した情報処理装置１００の構成を示したが、最初からテキストの一部であるフレーズを使用する構成としてもよく、その場合テキストとフレーズのそれぞれについて設けられていた構成は１つにしてもよく、その場合、形態素解析部１２３および対訳フレーズ抽出部１２６は１つの形態素解析手段（第１サブテキスト生成手段、第２サブテキスト生成手段として動作する）、文パターン候補検索部１２４およびフレーズパターン候補検索部１２７は１つのフレーズパターン候補検索手段、文パターンマッチング部１２５およびフレーズパターンマッチング部１２８は、１つのフレーズパターンマッチング手段として設けられる。

なお、情報処理装置１００の上述の動作は、記憶部１４０のプログラム記憶部１４１に記憶されるプログラムを動作させることで実現される。このプログラムは、通信によって提供されてもよいし、コンピュータによる読み取りが可能な、ＣＤ−ＲＯＭ等の記憶媒体に格納されて提供されてもよい。

１００情報処理装置、１２０ＣＰＵ、１２１制御部、１２２テキストデータ取得部、１２３形態素解析部、１２４文パターン候補検索部、１２５文パターンマッチング部、１２６対訳フレーズ抽出部、１２７フレーズパターン候補検索部、１２８フレーズパターンマッチング部、１２９単語アライメント抽出部、１３０距離計算部、１３１写像抽出部、１３２最適写像選択部、１３３目的言語構成情報選択部、１４０記憶部、１４１プログラム記憶部、１４２文パターン候補記憶部、１４３フレーズパターン候補記憶部、１４４対訳フレーズ記憶部、１６０外部Ｉ／Ｆ部、２００例文対訳辞書データベース、３００文パターン対訳辞書データベース、４００フレーズパターン対訳辞書データベース、５００フレーズ対訳辞書データベース、６００単語対訳辞書データベース、７０１、７０２、１８０１、１８０２テキストデータ、１８０３、１８０４、２００３、２００４パターン、１９０１、１９０２、２００５、２００６対応関係、２００１、２００２フレーズ、２１０１、２１０２対訳フレーズ、２１０３、２１０４、２１０５、２１０６、２１０７、２１０８対訳単語。

Claims

第１言語で記述された第１テキストと、前記第１テキストの内容が第２言語で記述された第２テキストと、を取得するテキスト取得手段と、
複数の形式のフレーズのそれぞれについて、該フレーズが前記第１言語で記述された場合のある語の位置と、該フレーズが前記第２言語で記述された場合の前記ある語に対応する語の位置と、の対応関係を示す位置対応情報を取得する位置対応情報取得手段と、
前記第１テキストを複数の第１サブテキストに区切る第１サブテキスト生成手段と、
前記第２テキストを複数の第２サブテキストに区切る第２サブテキスト生成手段と、
前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第１言語で記述された場合の複数の語の配置と、前記第１テキストにおける前記複数の第１サブテキストの配置と、を比較する第１比較手段と、
前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第２言語で記述された場合の複数の語の配置と、前記第２テキストにおける前記複数の第２サブテキストの配置と、を比較する第２比較手段と、
前記第１比較手段による比較の結果と、前記第２比較手段による比較の結果と、前記位置対応情報と、に基づいて、前記複数の第１サブテキストの少なくとも１つについて、前記複数の第２サブテキストの１つを、該第１サブテキストの前記第２言語による翻訳テキストと決定する翻訳テキスト決定手段と、
を有することを特徴とする情報処理装置。
請求項１に記載の情報処理装置であって、
前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第１言語で記述された場合の複数の語の配置を示す第１配置情報と、該フレーズが前記第２言語で記述された場合の複数の語の配置を示す第２配置情報と、を取得する配置情報取得手段をさらに有し、
前記翻訳テキスト決定手段は、
前記第１比較手段による比較の結果と、前記第２比較手段による比較の結果と、前記位置対応情報と、に基づいて、前記第１テキストに対応する第１配置情報と、前記第２テキストに対応する第２配置情報と、を決定する配置情報決定手段をさらに有し、
前記配置情報決定手段により前記第１配置情報および前記第２配置情報が決定された後、
前記第１サブテキスト生成手段は、前記第１サブテキストを第１テキストとして取得して該第１テキストをさらに区切り、
前記第２サブテキスト生成手段は、前記第２サブテキストを第２テキストとして取得して該第２テキストをさらに区切ることを特徴とする情報処理装置。
請求項１又は２に記載の情報処理装置であって、
前記第１サブテキストと、前記翻訳テキスト決定手段により該第１サブテキストの翻訳テキストと決定された第２サブテキストと、を対応づけて辞書データベースに登録する登録手段をさらに有することを特徴とする情報処理装置。
コンピュータを、
第１言語で記述された第１テキストと、前記第１テキストの内容が第２言語で記述された第２テキストと、を取得するテキスト取得手段、
複数の形式のフレーズのそれぞれについて、該フレーズが前記第１言語で記述された場合のある語の位置と、該フレーズが前記第２言語で記述された場合の前記ある語に対応する語の位置と、の対応関係を示す位置対応情報を取得する位置対応情報取得手段、
前記第１テキストを複数の第１サブテキストに区切る第１サブテキスト生成手段、
前記第２テキストを複数の第２サブテキストに区切る第２サブテキスト生成手段、
前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第１言語で記述された場合の複数の語の配置と、前記第１テキストにおける前記複数の第１サブテキストの配置と、を比較する第１比較手段、
前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第２言語で記述された場合の複数の語の配置と、前記第２テキストにおける前記複数の第２サブテキストの配置と、を比較する第２比較手段、および
前記第１比較手段による比較の結果と、前記第２比較手段による比較の結果と、前記位置対応情報と、に基づいて、前記複数の第１サブテキストの少なくとも１つについて、前記複数の第２サブテキストの１つを、該第１サブテキストの前記第２言語による翻訳テキストと決定する翻訳テキスト決定手段、
として機能させるためのプログラム。