JP6554841B2

JP6554841B2 - 情報処理装置及び情報処理プログラム

Info

Publication number: JP6554841B2
Application number: JP2015051951A
Authority: JP
Inventors: 透大塚
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2015-03-16
Filing date: 2015-03-16
Publication date: 2019-08-07
Anticipated expiration: 2035-03-16
Also published as: JP2016173618A

Description

本発明は、情報処理装置及び情報処理プログラムに関する。

特許文献１には、無駄な作業を抑えながら、辞書に必要な情報を登録させることができるようにすることを課題とし、辞書作成支援システムは、辞書登録候補語の情報を辞書作成支援履歴と共に格納する履歴保存データベースを有し、また、テキストデータ列を取り込む入力手段と、入力されたテキストデータ列を解析して、所定の候補化条件を満たす辞書登録候補語を抽出し、履歴保存データベースにおける辞書登録候補語の情報を更新する候補語抽出・更新手段と、履歴保存データベースに記述されている辞書登録候補語のうち、辞書作成支援履歴についての条件も含め、所定の提示条件に合致したものを提示する候補語提示手段と、提示された辞書登録候補語に対する辞書登録の有無を取り込む登録指示取込手段と、候補語提示手段又は登録指示取込手段の処理に応じ、履歴保存データベースに記述されている辞書作成支援履歴を更新する履歴更新手段とを備えることが開示されている。

特許文献２には、日本語用語とその訳語の推定結果の対応の確からしさを示す対応確信度の精度を向上させ、未登録単語の自動登録を可能にすることを課題とし、訳語推定部は、抽出された日本語用語に対して１つ以上の訳語候補を推定し、追加訳語抽出部は、日本語用語とその訳語候補の組のうち日本語用語に含まれる単語で日英対訳辞書に登録されていない単語の数と、訳語候補に含まれる単語で日英対訳辞書に登録されていない単語の数とを調べ、日本語用語及び訳語候補に含まれる単語のうち日英対訳辞書の未登録単語の数がいずれも１である場合には、追加訳語抽出部は、これらの単語同士の対応関係が十分に確からしいものと判断してテーブルに記録して出現頻度を求め、出現頻度（対応確信度）が高い場合には、日英対訳辞書に登録すべき追加訳語として決定し、これにより、精度の高い対応確信度を得ることができ、対訳辞書の自動登録が可能となることが開示されている。

特開２００８−０８３９５２号公報特開２００２−３６６５４６号公報

先行技術においては、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、翻訳辞書に登録すべき語句を抽出するための技術として、指定された文書を語句に分割し、一般的な用語の辞書に載っていない語句を翻訳辞書に登録すべき語句の候補とするものがある。これにより、造語や固有名詞といった翻訳辞書に登録すべき語句を抽出することができる。
これらの技術では、翻訳辞書に登録すべき語句を抽出するだけにすぎず、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態では、ユーザー自身が抽出された語句に対応する原文又は対訳を入力しなければならなかった。
本発明は、文書に対する検索履歴又は利用者に関する属性情報を用いて、翻訳辞書に登録すべき原文と対訳の組み合わせの候補を抽出することを目的とした情報処理装置及び情報処理プログラムを提供することを目的としている。

かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項１の発明は、利用者に関する属性情報から、第１の言語によって表現されている語句と、該語句と対になる語句であって第２の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段を具備し、前記抽出手段は、前記利用者に関する属性情報から、該利用者の氏名における第１の言語の語句と第２の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、前記抽出手段は、前記利用者に関する属性情報としての氏名とメールアドレスから、該利用者の氏名における第１の言語の語句と第２の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、前記氏名と前記メールアドレスとは異なる言語であって、該メールアドレス内を予め定められたルールによって分割したものを姓と名に対応付ける、ことを特徴とする情報処理装置である。

請求項２の発明は、文書に対する検索履歴から、第１の言語によって表現されている語句と、該語句と対になる語句であって第２の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段を具備し、前記抽出手段は、前記検索履歴から、第１の検索指示を行った利用者の使用言語と第２の検索指示を行った利用者の使用言語が異なる場合であって、該第１の検索指示内の語句の表記と該第２の検索指示内の語句の表記が同じときは、該語句の２つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、対訳がない語句である場合は、ユーザーによって原文と対訳の組み合わせを完成させる、ことを特徴とする情報処理装置である。

請求項３の発明は、コンピュータを、利用者に関する属性情報から、第１の言語によって表現されている語句と、該語句と対になる語句であって第２の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段として機能させ、前記抽出手段は、前記利用者に関する属性情報から、該利用者の氏名における第１の言語の語句と第２の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、前記抽出手段は、前記利用者に関する属性情報としての氏名とメールアドレスから、該利用者の氏名における第１の言語の語句と第２の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、前記氏名と前記メールアドレスとは異なる言語であって、該メールアドレス内を予め定められたルールによって分割したものを姓と名に対応付ける、情報処理プログラムである。

請求項４の発明は、コンピュータを、文書に対する検索履歴から、第１の言語によって表現されている語句と、該語句と対になる語句であって第２の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段として機能させ、前記抽出手段は、前記検索履歴から、第１の検索指示を行った利用者の使用言語と第２の検索指示を行った利用者の使用言語が異なる場合であって、該第１の検索指示内の語句の表記と該第２の検索指示内の語句の表記が同じときは、該語句の２つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、対訳がない語句である場合は、ユーザーによって原文と対訳の組み合わせを完成させる、情報処理プログラムである。

請求項１の情報処理装置によれば、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、原文と対訳の組み合わせを含んでいる可能性がある利用者に関する属性情報を用いて、翻訳辞書に登録すべき原文と対訳の組み合わせの候補を抽出することができる。また、利用者の氏名における第１の言語の語句と第２の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出することができる。また、利用者の氏名とメールアドレスから、その利用者の氏名における第１の言語の語句と第２の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出することができる。

請求項２の情報処理装置によれば、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、原文と対訳の組み合わせを含んでいる可能性がある検索履歴を用いて、翻訳辞書に登録すべき原文と対訳の組み合わせの候補を抽出することができる。また、使用言語が異なる利用者による検索指示内の語句の表記が同じ場合は、その語句の２つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出することができる。

請求項３の情報処理プログラムによれば、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、原文と対訳の組み合わせを含んでいる可能性がある利用者に関する属性情報を用いて、翻訳辞書に登録すべき原文と対訳の組み合わせの候補を抽出することができる。また、利用者の氏名における第１の言語の語句と第２の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出することができる。また、利用者の氏名とメールアドレスから、その利用者の氏名における第１の言語の語句と第２の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出することができる。

請求項４の情報処理プログラムによれば、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、原文と対訳の組み合わせを含んでいる可能性がある検索履歴を用いて、翻訳辞書に登録すべき原文と対訳の組み合わせの候補を抽出することができる。また、使用言語が異なる利用者による検索指示内の語句の表記が同じ場合は、その語句の２つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出することができる。

第１の形態の構成例についての概念的なモジュール構成図である。本実施の形態を利用したシステム構成例を示す説明図である。第１の形態による処理例を示すフローチャートである。ｐｒｏｐｅｒｔｙＴａｂｌｅのデータ構造例を示す説明図である。ｐｈｒａｓｅＴａｂｌｅのデータ構造例を示す説明図である。ｄｏｃｕｍｅｎｔＴａｂｌｅのデータ構造例を示す説明図である。第１の形態による処理例を示す説明図である。検索履歴テーブルのデータ構造例を示す説明図である。第１の形態による処理例を示す説明図である。ｐｒｏｐｅｒｔｙＴａｂｌｅのデータ構造例を示す説明図である。ｐｈｒａｓｅＴａｂｌｅのデータ構造例を示す説明図である。ｐｈｒａｓｅＴａｂｌｅのデータ構造例を示す説明図である。ｐｈｒａｓｅＴａｂｌｅのデータ構造例を示す説明図である。ｄｏｃｕｍｅｎｔＴａｂｌｅのデータ構造例を示す説明図である。第１の形態による処理例を示す説明図である。第１の形態による処理例を示す説明図である。第１の形態による処理例を示す説明図である。ｐｈｒａｓｅＴａｂｌｅのデータ構造例を示す説明図である。ｐｈｒａｓｅＴａｂｌｅのデータ構造例を示す説明図である。ｐｈｒａｓｅＴａｂｌｅのデータ構造例を示す説明図である。ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅのデータ構造例を示す説明図である。ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅのデータ構造例を示す説明図である。ＦｏｌｄｅｒＴａｂｌｅのデータ構造例を示す説明図である。第１の形態による処理例を示す説明図である。第２の形態の構成例についての概念的なモジュール構成図である。第２の形態による処理例を示すフローチャートである。第２の形態による処理例を示す説明図である。第２の形態による処理例を示す説明図である。第２の形態による処理例を示す説明図である。第２の形態による処理例を示す説明図である。第２の形態による処理例を示す説明図である。第２の形態による処理例を示す説明図である。第２の形態による処理例を示す説明図である。本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。

まず、本実施の形態を説明する前に、その前提又は本実施の形態を利用する機械翻訳処理について説明する。なお、この説明は、本実施の形態の理解を容易にすることを目的とするものである。
機械翻訳処理では、「翻訳辞書」を利用することにより翻訳精度を向上させることが可能である。翻訳辞書の内容は、原語と対訳の対を１つのペアとする複数のペア情報である。例えば、英語から日本語への翻訳に用いる英日辞書において、原語：「ＷｏｒｋｉｎｇＦｏｌｄｅｒ」、対訳：「ＷｏｒｋｉｎｇＦｏｌｄｅｒ」とすることにより、固有名詞である「ＷｏｒｋｉｎｇＦｏｌｄｅｒ」を日本語に翻訳したときに「仕事フォルダー」などの正しくない日本語に翻訳することを防ぐことができる。さらに、一般的な意味のほかに、例えば、コンピュータ分野等のような特定の分野向けの意味も有する語句（以下、特徴語とする）を対象とした場合、一般的な意味で翻訳されてしまうため、翻訳辞書に予め特定の分野向けの意味を登録しておく必要もある。なお、一般的な意味とは広辞苑や大辞典等の国語辞書に記載されている、語句の意味をいい、特定分野向けの意味とは、コンピュータ分野等の専門性のある特定の分野のみで使われている、語句の意味をいう。
また、「スポーツ」や「特許」など、一般的に用いられる需要のある分野の辞書は、その分野固有の翻訳辞書が販売されている。しかし、製品や社内用語など狭い範囲の分野における翻訳辞書は販売されておらず、手動で翻訳辞書を作成するのが一般的である。しかしながら、手動による辞書作成は煩雑であるため、辞書作成支援装置が提案されている。

以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
＜＜第１の実施の形態＞＞
図１は、第１の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア（コンピュータ・プログラム）、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム（コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム）、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、１モジュールを１プログラムで構成してもよいし、複数モジュールを１プログラムで構成してもよく、逆に１モジュールを複数プログラムで構成してもよい。また、複数モジュールは１コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって１モジュールが複数コンピュータで実行されてもよい。なお、１つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続（データの授受、指示、データ間の参照関係等）の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、２以上の値（もちろんのことながら、すべての値も含む）が同じであってもよい。また、「Ａである場合、Ｂをする」という意味を有する記載は、「Ａであるか否かを判断し、Ａであると判断した場合はＢをする」の意味で用いる。ただし、Ａであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク（一対一対応の通信接続を含む）等の通信手段で接続されて構成されるほか、１つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」（社会システム）にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、外部記憶媒体、通信回線を介した記憶装置、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）内のレジスタ等を含んでいてもよい。

第１の形態である情報処理装置１００は、翻訳辞書の作成を支援するものであって、図１の例に示すように、特徴語リスト作成指示モジュール１０５、関連文書取得モジュール１１０、語句分割モジュール１１５、言語判定モジュール１２０、特徴語リスト抽出モジュール１２５を有している。
情報処理装置１００は、文書とその文書の属性に含まれる語句から翻訳辞書における原文又は対訳の候補のいずれか一方を抽出する。ただし、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で行う。以下、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方を特徴語ともいう。
特に、情報処理装置１００は、一般的な意味だけでなく、特定の分野向けの意味も有する語句（人名等を含む）について、特徴語として抽出するものである。
例えば、「アクセス権」は、一般的には「知る権利（ｒｉｇｈｔｏｆａｃｃｅｓｓ）」を意味するが、コンピュータを用いたドキュメント管理の分野では「オブジェクトにアクセスするための権利（ｐｅｒｍｉｓｓｉｏｎ）」を意味する。先行技術文献に開示されている技術では、ドキュメント管理に関する翻訳辞書に登録すべき候補として「アクセス権」を挙げることができない。他にもドキュメント管理の分野における「キャビネット」、「ドロワー」などで同様の状況となる。ここで、上記に挙げた一般的な意味の他に特定の分野向けの意味も有する語句を特徴語とする。

文書管理システム１５０は、コンテンツ・マネジメント・システム（ＣＭＳ）とも呼ばれており、文書を管理するものである。ここで文書とは、主にテキストデータ、場合によっては図形、画像、動画、音声等の電子データ（ファイルともいわれる）、又はこれらの組み合わせであり、記憶、編集及び検索等の対象となり、システム又は利用者間で個別の単位として交換できるものをいい、これらに類似するものを含む。具体的には、文書作成プログラムによって作成された文書、Ｗｅｂページ等を含む。
文書管理システム１５０によって管理されている文書、フォルダー（以下に例示するキャビネット、ドロワー等を含む）の属性として使用されている語句、検索クエリで使用される語句（例えば、検索に用いたキーワード等）は、特徴的な語句である場合が多い。情報処理装置１００は、これらの語句を特徴語として抽出する。また、情報処理装置１００は、文書管理システム１５０内の文書内の語句の出現頻度を用いて、特定の状況で多く出現する語句を特徴語として抽出する。

文書管理システム１５０は、文書データ管理モジュール１５５、検索履歴管理モジュール１６０を有している。文書管理システム１５０は、フォルダー（子オブジェクトを持つことができるオブジェクト）や文書を格納し、他の装置（情報処理装置１００等）からのアクセスに対応する。
文書データ管理モジュール１５５は、情報処理装置１００の関連文書取得モジュール１１０と接続されている。文書データ管理モジュール１５５は、文書管理システム１５０において、文書やフォルダーの情報（コンテンツや属性）を管理する。
検索履歴管理モジュール１６０は、情報処理装置１００の特徴語リスト抽出モジュール１２５と接続されている。検索履歴管理モジュール１６０は、ユーザーの文書検索履歴を管理する。具体例には、文書管理システム１５０において、どのユーザーがどの検索クエリを使用してどの文書が検索結果としてヒットし、その後どの文書を閲覧したかを記録する。

特徴語リスト作成指示モジュール１０５は、関連文書取得モジュール１１０と接続されている。特徴語リスト作成指示モジュール１０５は、翻訳辞書の特徴語リストの作成を指示する。例えば、マウス、キーボード、タッチパネル、音声、視線、ジェスチャ等を用いたユーザーの操作によって、指示を受け付けるようにしてもよい。
関連文書取得モジュール１１０は、特徴語リスト作成指示モジュール１０５、語句分割モジュール１１５、文書管理システム１５０の文書データ管理モジュール１５５と接続されている。関連文書取得モジュール１１０は、特徴語リスト作成指示モジュール１０５の指示により文書データ管理モジュール１５５で管理している文書の中から、特定のユーザーに関連する文書情報を取得し記録する。ここで「特定のユーザー」とは、特徴語リスト作成指示モジュール１０５によって指示されたユーザーであってもよいし、特徴語リスト作成指示モジュール１０５での操作を行ったユーザーであってもよい。
言語判定モジュール１２０は、語句分割モジュール１１５と接続されている。言語判定モジュール１２０は、語句分割モジュール１１５によって分割された語句の言語を判定する。

語句分割モジュール１１５は、関連文書取得モジュール１１０、言語判定モジュール１２０、特徴語リスト抽出モジュール１２５と接続されている。語句分割モジュール１１５は、文書とその文書の属性から語句を抽出する。具体例には、語句分割モジュール１１５は、関連文書取得モジュール１１０で取得した文書コンテンツ（文書の内容）を語句単位に分割し、文書毎に関連文書取得モジュール１１０で取得した文書の属性情報、語句の出現頻度、言語判定モジュール１２０で判定された言語情報を関連付けて記録する。
語句分割モジュール１１５は、さらに、検索に用いられた語句を抽出してもよい。ここで「検索に用いられた語句」の検索の指示を行った「ユーザー」は、特徴語リスト作成指示モジュール１０５における特定のユーザーである。例えば、特徴語リスト作成指示モジュール１０５で指示を行った者である。
語句分割モジュール１１５は、さらに、文書に関する人名又は地名に関する語句を抽出するようにしてもよい。例えば、藤太郎という人名では、名字である藤を、一般辞書を用いて英訳してしまうと「Ｗｉｓｔｅｒｉａ」となってしまうため、人名や地名も特徴語として抽出する必要がある。

特徴語リスト抽出モジュール１２５は、語句分割モジュール１１５、文書管理システム１５０の検索履歴管理モジュール１６０と接続されている。特徴語リスト抽出モジュール１２５は、文書に含まれている第１の語句とその文書の属性に含まれている第２の語句のうち、両方に含まれている語句を、特徴語として抽出する。
さらに、特徴語リスト抽出モジュール１２５は、語句分割モジュール１１５が抽出した検索に用いられた語句を用いて特徴語を抽出するようにしてもよい。「検索に用いられた語句」を第２の語句として特徴語の抽出処理を行う。つまり、文書に含まれている第１の語句と検索に用いられた第２の語句のうち、両方に含まれている語句を特徴語として抽出処理を行うようにしてもよい。
さらに、特徴語リスト抽出モジュール１２５は、語句分割モジュール１１５が抽出した人名又は地名に関する語句を用いて特徴語を抽出するにしてもよい。「人名又は地名に関する語句」を第２の語句として特徴語の抽出処理を行う。つまり、文書に含まれている第１の語句と人名又は地名に関する第２の語句のうち、両方に含まれている語句を特徴語として抽出処理を行うようにしてもよい。
また、特徴語リスト抽出モジュール１２５は、文書内の語句の出現率が予め定められた出現率より高い又は以上であり、かつ該語句が、文書のうち予め定められた文書割合未満又は以下の文書にだけ存在している場合は、その語句を特徴語として抽出するようにしてもよい。ここで、文書割合とは、対象とした全文書における該当文書（対象としている語句が含まれている文書）の割合であってもよいし、該当文書の数としてもよい。
具体例では、特徴語リスト抽出モジュール１２５は、語句分割モジュール１１５によって分割された語句のうち、特徴語リスト作成指示モジュール１０５で指定された言語と合致する言語の語句について、文書データ管理モジュール１５５で管理しているデータ又は検索履歴管理モジュール１６０で管理している検索履歴を利用して、特徴語リストを抽出する。

図２は、本実施の形態を利用したシステム構成例を示す説明図である。
情報処理装置１００、文書管理システム１５０、ユーザー端末２１０Ａ、ユーザー端末２１０Ｂは、通信回線２９０を介してそれぞれ接続されている。通信回線２９０は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。ユーザーが用いるユーザー端末２１０からの指示によって、文書管理システム１５０内に文書を格納、又は検索等が行われる。そして、ユーザー端末２１０からの指示によって、翻訳辞書における特徴語が抽出される。そして、ユーザー端末２１０でのユーザーの操作によって、その特徴語の対訳が記入され、翻訳辞書が完成する。また、情報処理装置１００、文書管理システム１５０による機能は、クラウドサービスとして実現してもよい。なお、第２の実施の形態では、情報処理装置１００を情報処理装置２５００、文書管理システム１５０を文書管理システム２５５０とすればよく、ユーザー端末２１０では、ユーザーによって情報処理装置２５００の処理結果の確認、修正等が行われる。

図３は、第１の形態による処理例を示すフローチャートである。
ステップＳ３０２では、特徴語リスト作成指示モジュール１０５は、ユーザーの操作に応じて、パラメータを入力する。特徴語リスト作成指示モジュール１０５は、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）、ＣＵＩ（ＣｈａｒａｃｔｅｒＵｓｅｒＩｎｔｅｒｆａｃｅ）等のユーザーインタフェース上でユーザーからのパラメータ入力を受け付ける。例えば、入力すべき項目として、出力すべき特徴語の言語（以下、ｌａｎｇｕａｇｅともいう）、文書管理システム１５０にアクセスするために必要な情報（例えば、ＵＲＬ、ユーザーＩＤ、パスワード等）、特徴語リストの出力パス等がある。また、ステップＳ３０２で、ステップＳ３０４で取得する文書コンテンツの格納パスを指定してもよい。さらに、ステップＳ３１４で使用するしきい値をここで指定してもよい。

ステップＳ３０４では、関連文書取得モジュール１１０は、関連文書を取得する。具体例には、関連文書取得モジュール１１０は、特徴語リスト生成指示モジュール１０５で入力された情報を基にして、文書管理システム１５０に接続し、ユーザーに関連する文書の情報を取得する。関連する文書の判断方法として、例えば、（１）そのユーザーが作成した文書、（２）そのユーザーが閲覧したことがある文書、（３）そのユーザーの検索結果に表れた文書、（４）そのユーザーがアクセス権を有する文書、（５）そのユーザーがバージョン追加した文書、（６）そのユーザーが文書公開した文書等を関連ありとする。また、予め定められた設定により、これらの中から複数の要素を選択して該当する文書を重み付けし、しきい値を超えた文書を関連ありとしてもよい。
文書コンテンツは、予め定められた格納パス、又はステップＳ３０２で指定されたパスに格納する。
文書の属性（例えば、文書ＩＤ、文書名、作成者名、更新者名、文書が所属するフォルダーＩＤ、文書が所属するフォルダー名等）も取得し、記録する（以下、ｐｒｏｐｅｒｔｙＴａｂｌｅ（プロパティテーブル）とする）。例えば、ｐｒｏｐｅｒｔｙＴａｂｌｅ４００として記録する。図４は、ｐｒｏｐｅｒｔｙＴａｂｌｅ４００のデータ構造例を示す説明図である。ｐｒｏｐｅｒｔｙＴａｂｌｅ４００は、文書ＩＤ欄４１０、文書名欄４２０、作成者名欄４３０、更新者名欄４４０、フォルダーＩＤ欄４５０、フォルダー名欄４６０、パス欄４７０を有している。
文書ＩＤ欄４１０は、第１の形態において、文書を一意に識別するための情報（文書ＩＤ：ＩＤｅｎｔｉｆｉｃａｔｉｏｎ）を記憶している。文書名欄４２０は、その文書の名称を記憶している。作成者名欄４３０は、その文書の作成者名を記憶している。更新者名欄４４０は、その文書の更新者名を記憶している。フォルダーＩＤ欄４５０は、その文書を含むフォルダーであって、第１の形態において、フォルダーを一意に識別するための情報（フォルダーＩＤ）を記憶している。フォルダー名欄４６０は、そのフォルダーの名称を記憶している。パス欄４７０は、その文書のパス（格納場所）を記憶している。
また、作成者名や更新者名については、姓と名に分けたもの、姓名を連結したもの、姓＋スペース＋名を連結したもの等を用意する（以下、ＮａｍｅＬｉｓｔとする）。ＮａｍｅＬｉｓｔは、文書管理システム１５０から全ユーザーの姓、名を取得できる場合は、これを取得してもよい。文書管理システム１５０が地名（ユーザーの居所等）の情報を保持する場合は、その地名をＮａｍｅＬｉｓｔに入れてもよい。

ステップＳ３０６では、語句分割モジュール１１５は、語句を分割する。語句分割モジュール１１５は、関連文書のコンテンツを語句単位で分割する。具体的には、文書から既存技術によりテキストを抽出し、形態素解析などの既存技術により語句を抽出する。接続詞などの不要データはこの時点で排除する。
語句毎に、出現率、文書ＩＤ、言語判定モジュール１２０により語句の言語を判定した結果を記録する（以下、ｐｈｒａｓｅＴａｂｌｅとする）。例えば、ｐｈｒａｓｅＴａｂｌｅ５００として記録する。図５は、ｐｈｒａｓｅＴａｂｌｅ５００のデータ構造例を示す説明図である。ｐｈｒａｓｅＴａｂｌｅ５００は、語句欄５１０、出現回数欄５２０、出現率欄５３０、文書ＩＤ欄５４０、言語欄５５０を有している。
語句欄５１０は、抽出した語句を記憶している。出現回数欄５２０は、対象としている文書（文書ＩＤ欄５４０）におけるその語句の出現回数を記憶している。出現率欄５３０は、対象としている文書（文書ＩＤ欄５４０）におけるその語句の出現率を記憶している。文書ＩＤ欄５４０は、対象としている文書ＩＤを記憶している。言語欄５５０は、その語句の言語を記憶している。言語判定モジュール１２０では、語句の文字コードなど既存技術を用いて、言語を判定する。その判定結果を言語欄５５０に記憶させる。
例えば、出現率欄５３０での出現率は、（語句の出現回数／文書全体の語句数）＊１００（％）とする。
また、文書内の語句数を文書ＩＤと紐付けて記録する（以下、ｄｏｃｕｍｅｎｔＴａｂｌｅとする）。例えば、ｄｏｃｕｍｅｎｔＴａｂｌｅ６００として記録する。図６は、ｄｏｃｕｍｅｎｔＴａｂｌｅ６００のデータ構造例を示す説明図である。ｄｏｃｕｍｅｎｔＴａｂｌｅ６００は、文書ＩＤ欄６１０、語句数欄６２０を有している。
文書ＩＤ欄６１０は、文書ＩＤを記憶している。語句数欄６２０は、その文書ＩＤの文書に含まれている語句数を記憶している。この語句数欄６２０の値が前述の出現率の式の「文書全体の語句数」に該当する。

ステップＳ３０８では、特徴語リスト抽出モジュール１２５は、検索クエリから特徴語を抽出する。特徴語リスト抽出モジュール１２５は、まず、ｐｈｒａｓｅＴａｂｌｅから言語がｌａｎｇｕａｇｅと同じである語句のリスト（以下、ｐｈｒａｓｅＬｉｓｔとする）を抽出する。以下、特徴語リストをｃａｎｄｉｄａｔｅＬｉｓｔとする。
次に、検索履歴管理モジュール１６０から、すべてのユーザーが検索したクエリ内の語句のリスト（以下、ｑｕｅｒｙＬｉｓｔとする）を抽出する。これにｐｒｏｐｅｒｔｙＴａｂｌｅ中の文書名、フォルダー名をマージする。なお、各要素を形態素解析した結果で分割してもよい。
ｐｈｒａｓｅＬｉｓｔに含まれ、かつ、ｑｕｅｒｙＬｉｓｔ中に含まれる語句はｃａｎｄｉｄａｔｅＬｉｓｔに追加し、追加した語句はｐｈｒａｓｅＬｉｓｔから削除する。ここで、検索クエリは特徴語リスト作成指示モジュール１０５で指定されたユーザーが検索に使用したクエリのみを対象としてもよいし、最近検索された（現在から予め定められた期間内にある）クエリだけを対象としてもよい。また、クエリの検索回数が予め定められたしきい値以上のものだけ対象にしてもよい。
予め、ｐｈｒａｓｅＬｉｓｔに含まれ、かつ、一般的な用語の辞書に含まれない語句を、ｃａｎｄｉｄａｔｅＬｉｓｔに追加し、該当語句をｐｈｒａｓｅＬｉｓｔから削除した上で上記の処理を始めてもよい。

ステップＳ３１０では、特徴語リスト抽出モジュール１２５は、ユーザー名から特徴語を抽出する。特徴語リスト抽出モジュール１２５は、ＮａｍｅＬｉｓｔ中に含まれ、かつｐｈｒａｓｅＬｉｓｔに含まれている語句をｃａｎｄｉｄａｔｅＬｉｓｔに追加し、追加した語句はｐｈｒａｓｅＬｉｓｔから削除する。

ステップＳ３１２では、特徴語リスト抽出モジュール１２５は、階層構造から特徴語を抽出する。特徴語リスト抽出モジュール１２５は、ｐｈｒａｓｅＬｉｓｔの中から、特定の文書にのみ出現率が高い語句を抽出する。
ｐｈｒａｓｅＬｉｓｔ中の語句の出現率が、予め特徴語リスト作成指示モジュール１０５などで設定しておいたしきい値（例えば、０．５％等）を超える語句が、予め特徴語リスト作成指示モジュール１０５などで設定しておいたしきい値以下（例えば、１個、全文書数の１％以下などの指定が可能）の文書割合しか存在しなかった場合は、その語句をｃａｎｄｉｄａｔｅＬｉｓｔに追加し、ｐｈｒａｓｅＬｉｓｔから削除する。
文書単位の出現率に代えて、又は追加して、階層構造を考慮し、フォルダー内での語句の出現率を使用してもよい。この場合には、ｄｏｃｕｍｅｎｔＴａｂｌｅの文書ＩＤとｐｒｏｐｅｒｔｙＴａｂｌｅ中の文書ＩＤを突き合わせ、文書が所属するフォルダーＩＤを取得する。これを基にｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅとＦｏｌｄｅｒＴａｂｌｅを作成し、同様の処理を行う。さらに、上の階層のフォルダー単位で同様の処理を行ってもよい。

ステップＳ３１４では、特徴語リスト抽出モジュール１２５は、特徴語リストを出力する。特徴語リスト抽出モジュール１２５は、特徴語リスト作成指示モジュール１０５で指定された特徴語リストの出力パスに特徴語リストを出力する。出力形式は一般的にはＣＳＶ形式があるが、これに限らない。
なお、ステップＳ３０８からステップＳ３１２の処理は、それぞれ予め定められた設定（これらのステップのいずれか１つの処理の選択、２つの組み合わせの選択、又は２つ以上の組み合わせを選択した場合は、処理の順番の設定）で選択的に実施してもよい。

図７は、第１の形態による処理例を示す説明図である。文書管理システム１５０内の文書データ管理モジュール１５５が管理している文書の階層構造、属性の例を示したものである。
キャビネット７１０は、フォルダーと同等の機能を有しており、下位にフォルダー７２０、フォルダー７３０を有している。キャビネット７１０の属性として、名前（フォルダー名）：「開発キャビネット」を有している。
フォルダー７２０は、下位に文書７２２、文書７２４を有している。フォルダー７２０の属性として、フォルダーＩＤ：「Ｆｏｌｄｅｒ−１」、名前（フォルダー名）：「ＷｏｒｋｉｎｇＦｏｌｄｅｒ」を有している。文書７２２の属性として、文書ＩＤ：「Ｄｏｃ−３」、名前（文書名）：「マニュアル．ｐｄｆ」、作成者：「藤太郎」（ユーザー７８２）、更新者：「藤太郎」を有している。文書７２４の属性として、文書ＩＤ：「Ｄｏｃ−１」、名前（文書名）：「アクセス権設計書．ｄｘｘｘ」、作成者：「藤太郎」、更新者：「藤太郎」を有している。なお、「藤」は、植物としての名称（ｗｉｓｔｅｒｉａ）と姓として用いられる場合がある。一般的な翻訳辞書では、「藤」と植物としての名称の対が登録されている。
フォルダー７３０は、下位にフォルダー７３２、文書７３４を有している。フォルダー７３０の属性として、フォルダーＩＤ：「Ｆｏｌｄｅｒ−２」、名前（フォルダー名）：「スキャン翻訳」を有している。フォルダー７３２の属性として、フォルダーＩＤ：「Ｆｏｌｄｅｒ−３」を有している。文書７３４の属性として、文書ＩＤ：「Ｄｏｃ−２」、名前（文書名）：「ジョブ管理の仕様．Ｄｘｘｘ」、作成者：「藤花子」（ユーザー７８４）、更新者：「藤花子」を有している。

図８は、検索履歴テーブル８００のデータ構造例を示す説明図である。文書管理システム１５０内の検索履歴管理モジュール１６０が管理している検索履歴の例を示したものである。
検索履歴テーブル８００は、検索日時欄８１０、検索者欄８２０、クエリ欄８３０、ヒット文書ＩＤ欄８４０、閲覧した文書欄８５０を有している。検索日時欄８１０は、検索が行われた日時（年、月、日、時、分、秒、秒以下、又はこれらの組み合わせであってもよい）を記憶している。検索者欄８２０は、その検索の指示を行った者の名称（ユーザーＩＤであってもよい）を記憶している。クエリ欄８３０は、検索に用いられたクエリ（キーワード）を記憶している。ヒット文書ＩＤ欄８４０は、その検索によってヒットした文書の文書ＩＤを記憶している。閲覧した文書欄８５０は、その検索の結果、閲覧まで行われた文書の文書ＩＤを記憶している。

図９は、第１の形態による処理例を示す説明図である。ステップＳ３０２（特徴語リスト作成指示モジュール１０５）での処理例を示したものである。
辞書作成支援ツール画面９００には、言語指定欄９１０、出力パス指定欄９２０、ＵＲＬ指定欄９３０、ユーザーＩＤ指定欄９４０、パスワード指定欄９５０、語句の出現率指定欄９６０、出現文書数指定欄９７０、閉じるボタン９９６、ＯＫボタン９９２、キャンセルボタン９９４を表示する。
言語指定欄９１０は、特徴語の言語を指定するためのものである。
出力パス指定欄９２０は、特徴語を出力するパス名（ファイル名）を指定するためのものである。
ＵＲＬ指定欄９３０は、対象としている文書が格納されているパス（フォルダーのパス）を指定するためのものである。
ユーザーＩＤ指定欄９４０は、文書管理システム１５０にアクセスするための操作者のユーザー名（又は対象とする文書に関連付けられているユーザー名）を指定するためのものである。
パスワード指定欄９５０は、文書管理システム１５０にアクセスするための操作者のパスワードを指定するためのものである。
語句の出現率指定欄９６０は、特徴語リスト抽出モジュール１２５がしきい値として用いるための語句の出現率を指定するためのものである。
出現文書数指定欄９７０は、特徴語リスト抽出モジュール１２５がしきい値として用いるための出現文書数を指定するためのものである。
ＯＫボタン９９２が選択されると、言語指定欄９１０等で指定された値で、情報処理装置１００による処理が開始される。キャンセルボタン９９４が選択されると、言語指定欄９１０等で指定された値をクリアして初期状態に戻る。閉じるボタン９９６が選択されると、辞書作成支援ツール画面９００そのものを消去する。

図１０は、ｐｒｏｐｅｒｔｙＴａｂｌｅ１０００のデータ構造例を示す説明図である。ステップＳ３０４（関連文書取得モジュール１１０）での処理例を示したものである。
ｐｒｏｐｅｒｔｙＴａｂｌｅ１０００は、関連文書取得モジュール１１０が、藤太郎が作成と閲覧した文書を関連文書とした場合の関連文書データを収集した結果を示している。
ｐｒｏｐｅｒｔｙＴａｂｌｅ１０００は、文書ＩＤ欄１０１０、文書名欄１０２０、作成者欄１０３０、更新者欄１０４０、フォルダーＩＤ欄１０５０、フォルダー名欄１０６０を有している。各欄は、それぞれ図４の例に示したｐｒｏｐｅｒｔｙＴａｂｌｅ４００の文書ＩＤ欄４１０、文書名欄４２０、作成者名欄４３０、更新者名欄４４０、フォルダーＩＤ欄４５０、フォルダー名欄４６０と同等のものである。ｐｒｏｐｅｒｔｙＴａｂｌｅ１０００の内容は、図７の例に示したものを示している。
また、ｐｒｏｐｅｒｔｙＴａｂｌｅ１０００から、ＮａｍｅＬｉｓｔとして次のものを生成する。
[藤,太郎,藤太郎,藤太郎,藤太郎,花子,藤花子,藤花子,藤花子]
これは、ｐｒｏｐｅｒｔｙＴａｂｌｅ１０００の作成者欄１０３０、更新者欄１０４０から抽出した姓：「藤」、名：「太郎」のユーザー７８２、姓：「藤」、名：「花子」のユーザー７８４から生成したものである。具体例には、姓と名に分けたもの、姓名を連結したもの、姓＋スペース（半角と全角の両方）＋名を連結したものである。

図１１、１２、１３、１４は、ｐｈｒａｓｅＴａｂｌｅ１１００、ｐｈｒａｓｅＴａｂｌｅ１２００、ｐｈｒａｓｅＴａｂｌｅ１３００、ｄｏｃｕｍｅｎｔＴａｂｌｅ１４００のデータ構造例を示す説明図である。ステップＳ３０６（語句分割モジュール１１５）での処理例を示したものである。ここでは名詞を選択しているが、動詞などの品詞を選択してもよい。
ｐｈｒａｓｅＴａｂｌｅ１１００は、文書ＩＤ：Ｄｏｃ−１に関するｐｈｒａｓｅＴａｂｌｅである。ｐｈｒａｓｅＴａｂｌｅ１１００は、語句欄１１１０、出現回数欄１１２０、出現率欄１１３０、文書ＩＤ欄１１４０、言語欄１１５０を有している。
ｐｈｒａｓｅＴａｂｌｅ１２００は、文書ＩＤ：Ｄｏｃ−２に関するｐｈｒａｓｅＴａｂｌｅである。ｐｈｒａｓｅＴａｂｌｅ１２００は、語句欄１２１０、出現回数欄１２２０、出現率欄１２３０、文書ＩＤ欄１２４０、言語欄１２５０を有している。
ｐｈｒａｓｅＴａｂｌｅ１３００は、文書ＩＤ：Ｄｏｃ−３に関するｐｈｒａｓｅＴａｂｌｅである。ｐｈｒａｓｅＴａｂｌｅ１３００は、語句欄１３１０、出現回数欄１３２０、出現率欄１３３０、文書ＩＤ欄１３４０、言語欄１３５０を有している。
各テーブルのデータ構造は、図５の例に示したｐｈｒａｓｅＴａｂｌｅ５００のデータ構造と同等である。
なお、ｐｈｒａｓｅＴａｂｌｅ１１００、ｐｈｒａｓｅＴａｂｌｅ１２００、ｐｈｒａｓｅＴａｂｌｅ１３００を組み合わせて１つのテーブルとしてもよい。
ｐｈｒａｓｅＴａｂｌｅ１１００の場合について説明する。語句分割モジュール１１５は、文書ＩＤ：「Ｄｏｃ−１」の文書から語句を抽出し、語句欄１１１０に格納し、その文書におけるその語句の出現回数を計数し、出現回数欄１１２０に格納し、出現回数欄１１２０とｄｏｃｕｍｅｎｔＴａｂｌｅ１４００の語句数欄１４２０を用いて出現率を算出し、出現率欄１１３０に格納し、対象とした文書の文書ＩＤを文書ＩＤ欄１１４０に格納し、対象としている語句の言語（その言語に対しての言語判定モジュール１２０による処理結果）を言語欄１１５０に格納する。ｐｈｒａｓｅＴａｂｌｅ１２００、ｐｈｒａｓｅＴａｂｌｅ１３００についても、それぞれ文書ＩＤ：「Ｄｏｃ−２」の文書、文書ＩＤ：「Ｄｏｃ−３」の文書を対象として、同様に生成される。

図１４は、ｄｏｃｕｍｅｎｔＴａｂｌｅ１４００のデータ構造例を示す説明図である。ステップＳ３０６（語句分割モジュール１１５）での処理例を示したものである。
ｄｏｃｕｍｅｎｔＴａｂｌｅ１４００は、文書ＩＤ欄１４１０、語句数欄１４２０を有している。データ構造は、図６の例に示したｄｏｃｕｍｅｎｔＴａｂｌｅ６００のデータ構造と同等である。
語句分割モジュール１１５は、対象としている文書の文書ＩＤを文書ＩＤ欄１４１０に格納し、その文書における語句数を計数し、語句数欄１４２０に格納する。なお、語句数は、文書内のすべての語句を対象としてもよいし、ｐｈｒａｓｅＴａｂｌｅ１１００等が対象としている品詞（ｐｈｒａｓｅＴａｂｌｅ１１００の場合は名詞）の語句数を計数してもよい。

図１５は、第１の形態による処理例を示す説明図である。ステップＳ３０８（特徴語リスト抽出モジュール１２５）での処理例を示したものである。
図１５（ａ）の例に示すように、ｑｕｅｒｙＬｉｓｔ（形態素解析済み）を、次のように生成する。
[アクセス権,スキャン,翻訳,スキャン翻訳,ジョブ,管理,ジョブ管理,設計書,マニュアル,仕様]
ｑｕｅｒｙＬｉｓｔ内の語句は、検索履歴テーブル８００とｐｒｏｐｅｒｔｙＴａｂｌｅ１０００から生成したものであり、検索履歴テーブル８００（クエリ欄８３０）とｐｒｏｐｅｒｔｙＴａｂｌｅ１０００（文書名欄１０２０、作成者欄１０３０）内の語句を抽出し、形態素解析を行った結果である。
図１５（ａ）の例に示すように、ｐｈｒａｓｅＬｉｓｔ（日本語指定）を、次のように生成する。
[藤,太郎,アクセス権,設計,ドロワー,単位,設定,花子,ジョブ,ジョブ数,変更,キャビネット,ログイン]
ｐｈｒａｓｅＬｉｓｔ内の語句は、ｐｈｒａｓｅＴａｂｌｅ１１００、ｐｈｒａｓｅＴａｂｌｅ１２００、ｐｈｒａｓｅＴａｂｌｅ１３００から生成したものであり、言語（言語欄１１５０、言語欄１２５０、言語欄１３５０）が日本語である語句（語句欄１１１０、語句欄１２１０、語句欄１３１０）を抽出したものである。
なお、ｃａｎｄｉｄａｔｅＬｉｓｔは、処理当初は、図１５（ａ）の例に示すように、空である。

そして、特徴語リスト抽出モジュール１２５の処理結果は、図１５（ｂ）の例に示すようなｃａｎｄｉｄａｔｅＬｉｓｔ、ｐｈｒａｓｅＬｉｓｔになる。
具体例には、ｑｕｅｒｙＬｉｓｔとｐｈｒａｓｅＬｉｓｔの両方に出現している語句である「アクセス権」、「ジョブ」（図１５（ａ）内では矩形で囲っている語句）をｃａｎｄｉｄａｔｅＬｉｓｔに入れる。つまり、ｃａｎｄｉｄａｔｅＬｉｓｔを次のように生成する。
[アクセス権,ジョブ]
また、ｐｈｒａｓｅＬｉｓｔは、図１５（ａ）の状態から、ｃａｎｄｉｄａｔｅＬｉｓｔに入れた語句ある「アクセス権」、「ジョブ」（図１５（ａ）内では矩形で囲っている語句）を消去する。つまり、ｐｈｒａｓｅＬｉｓｔを次のように生成する。
[藤,太郎,設計,ドロワー,単位,設定,花子,ジョブ数,変更,キャビネット,ログイン]

図１６は、第１の形態による処理例を示す説明図である。ステップＳ３１０（特徴語リスト抽出モジュール１２５）での処理例を示したものである。
この時点で、図１６（ａ）の例に示すように、ＮａｍｅＬｉｓｔは以下の通り（前述したものと同じ）である。
[藤,太郎,藤太郎,藤太郎,藤太郎,花子,藤花子,藤花子,藤花子]
ｃａｎｄｉｄａｔｅＬｉｓｔは以下の通り（図１５（ｂ）の例に示したものと同じ）である。
[アクセス権,ジョブ]
ｐｈｒａｓｅＬｉｓｔは以下の通り（図１５（ｂ）の例に示したものと同じ）である。
[藤,太郎,設計,ドロワー,単位,設定,花子,ジョブ数,変更,キャビネット,ログイン]

そして、特徴語リスト抽出モジュール１２５の処理結果は、図１６（ｂ）の例に示すようなｃａｎｄｉｄａｔｅＬｉｓｔ、ｐｈｒａｓｅＬｉｓｔになる。
具体例には、ＮａｍｅＬｉｓｔとｐｈｒａｓｅＬｉｓｔの両方に出現している語句である「藤」、「太郎」、「花子」（図１６（ａ）内では矩形で囲っている語句）をｃａｎｄｉｄａｔｅＬｉｓｔに入れる。つまり、ｃａｎｄｉｄａｔｅＬｉｓｔを次のように生成する。
[アクセス権,ジョブ,藤,太郎,花子]
また、ｐｈｒａｓｅＬｉｓｔは、図１６（ａ）の状態から、ｃａｎｄｉｄａｔｅＬｉｓｔに入れた語句ある「藤」、「太郎」、「花子」（図１６（ａ）内では矩形で囲っている語句）を消去する。つまり、ｐｈｒａｓｅＬｉｓｔを次のように生成する。
[設計,ドロワー,単位,設定,ジョブ数,変更,キャビネット,ログイン]

図１７は、第１の形態による処理例を示す説明図である。ステップＳ３１２（特徴語リスト抽出モジュール１２５）での処理例を示したものである。
この時点で、図１７（ａ）の例に示すように、ｐｈｒａｓｅＬｉｓｔは以下の通り（図１６（ｂ）の例に示したものと同じ）である。
[設計,ドロワー,単位,設定,ジョブ数, 変更,キャビネット,ログイン]
ｃａｎｄｉｄａｔｅＬｉｓｔは以下の通り（図１６（ｂ）の例に示したものと同じ）である。
[アクセス権,ジョブ,藤,太郎,花子]

そして、特徴語リスト抽出モジュール１２５の処理結果は、図１７（ｂ）の例に示すようなｃａｎｄｉｄａｔｅＬｉｓｔ、ｐｈｒａｓｅＬｉｓｔになる。
具体例には、図１８、１９、２０の例に示すｐｈｒａｓｅＴａｂｌｅ１８００、ｐｈｒａｓｅＴａｂｌｅ１９００、ｐｈｒａｓｅＴａｂｌｅ２０００を用いる。なお、それぞれ図１１、１２、１３の例に示したｐｈｒａｓｅＴａｂｌｅ１１００、ｐｈｒａｓｅＴａｂｌｅ１２００、ｐｈｒａｓｅＴａｂｌｅ１３００と同等のものである。
出現率０．５％以上で１つの文書だけ出現するものを特徴語とした場合（図９の例に示した辞書作成支援ツール画面９００内の語句の出現率指定欄９６０と出現文書数指定欄９７０で指定されたしきい値）、「ジョブ数」（図１９の例に示すｐｈｒａｓｅＴａｂｌｅ１９００内の条件合致行１９９０）と「キャビネット」（図２０の例に示すｐｈｒａｓｅＴａｂｌｅ２０００内の条件合致判断行２０９０）が特徴語と判断される。
そして、ｃａｎｄｉｄａｔｅＬｉｓｔに、語句「ジョブ数」、「キャビネット」（図１７（ｂ）内では矩形で囲っている語句）を付加して、次のように生成する。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット]
また、ｐｈｒａｓｅＬｉｓｔから語句「ジョブ数」、「キャビネット」（図１７（ｂ）内では矩形で囲っている語句）を消去して、次のように生成する。
[設計,ドロワー,単位,設定,変更,ログイン]

図２１は、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２１００のデータ構造例を示す説明図である。ステップＳ３１２（ステップ特徴語リスト抽出モジュール１２５（フォルダー考慮））での処理例を示したものである。
ここでの処理では、フォルダーの構成（文書が含まれているフォルダー）を用いている。
この時点で、ｃａｎｄｉｄａｔｅＬｉｓｔは以下の通り（図１７（ｂ）の例に示したものと同じ）である。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット]
ｐｈｒａｓｅＬｉｓｔは以下の通り（図１７（ｂ）の例に示したものと同じ）である。
[設計,ドロワー,単位,設定,変更,ログイン]

具体的な処理では、図２１、２２、２３の例に示すｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２１００、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２２００、ＦｏｌｄｅｒＴａｂｌｅ２３００を用いる。なお、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２１００、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２２００のデータ構造は、図５の例に示したｐｈｒａｓｅＴａｂｌｅ５００と同等のものである。ただし、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２１００、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２２００はフォルダー（そのフォルダーに含まれている文書群）を対象としているので、ｐｈｒａｓｅＴａｂｌｅ５００の文書ＩＤ欄５４０の代わりに、フォルダーＩＤ欄２１４０、フォルダーＩＤ欄２２４０は、対象としているフォルダーＩＤ（第１の形態において、フォルダーを一意に識別するための情報）を記憶している。なお、図７の例に示したように、Ｆｏｌｄｅｒ−１には、２つの文書が含まれているので、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２１００は、ｐｈｒａｓｅＴａｂｌｅ１１００とｐｈｒａｓｅＴａｂｌｅ１３００を合体させたものであり、Ｆｏｌｄｅｒ−２には、１つの文書だけが含まれているので、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２２００はｐｈｒａｓｅＴａｂｌｅ１２００と同等のもの（もちろんのことながら、文書ＩＤ欄１２４０とフォルダーＩＤ欄２２４０は異なる）である。もちろんのことながら、出現率欄（２１３０、２２３０）の出現率は、（語句の出現回数／フォルダー内の文書全体の語句数）＊１００（％）である。また、ＦｏｌｄｅｒＴａｂｌｅ２３００のデータ構造は、図６の例に示したｄｏｃｕｍｅｎｔＴａｂｌｅ６００と同等のものである。ただし、ＦｏｌｄｅｒＴａｂｌｅ２３００は、フォルダー（そのフォルダーに含まれている文書群）を対象としているので、ｄｏｃｕｍｅｎｔＴａｂｌｅ６００の文書ＩＤ欄６１０の代わりに、フォルダーＩＤ欄２３１０は対象としているフォルダーＩＤを記憶している。また、語句数欄２３２０は、そのフォルダー内の文書群における語句数を記憶している。具体的には、Ｆｏｌｄｅｒ−１には２つの文書（Ｄｏｃ−３とＤｏｃ−１）があり、図１４の例に示すように、各１０００語ずつであるので、合計２０００語となり、Ｆｏｌｄｅｒ−２には１つの文書（Ｄｏｃ−２）があり、図１４の例に示すように、１０００語であるので、Ｆｏｌｄｅｒ−２でも１０００語である。これらの値が出現率を求める式における分母（フォルダー内の文書全体の語句数）に該当する。
ここで、フォルダー内の文書における語句（具体例には、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２１００、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２２００）に対して、特定のフォルダーにのみ出現率が高い語句を抽出する。
具体例には、出現率０．５％以上で１つのフォルダーだけ出現するものを特徴語とした場合（図９の例に示した辞書作成支援ツール画面９００内の語句の出現率指定欄９６０と出現文書数指定欄９７０で指定されたしきい値。なお、出現文書数指定欄９７０で指定されたしきい値は、その語句が出現したフォルダー数を示している）、「ドロワー」（図２１の例に示すｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２１００内の条件合致行２１９０）が特徴語と判断される。
そして、ｃａｎｄｉｄａｔｅＬｉｓｔに、語句「ドロワー」を付加して、次のように生成する。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット,ドロワー]
また、ｐｈｒａｓｅＬｉｓｔから語句「ドロワー」を消去して、次のように生成する。
[設計,単位,設定,変更,ログイン]
なお、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２１００、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２２００、ＦｏｌｄｅｒＴａｂｌｅ２３００は、ｐｈｒａｓｅＴａｂｌｅ１１００を生成したステップＳ３０６で生成してもよい。

図２４は、第１の形態による処理例を示す説明図である。ステップＳ３１４（特徴語リスト抽出モジュール１２５）での処理例を示したものである。
前述の通り、ｃａｎｄｉｄａｔｅＬｉｓｔは、図２４（ａ）の例に示すように、次のようになっている。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット,ドロワー]
このｃａｎｄｉｄａｔｅＬｉｓｔを、ファイル（例えば、ＣＳＶファイル）として、図９の例に示した辞書作成支援ツール画面９００内の出力パス指定欄９２０で指定されたパスに出力する。そのファイルの内容例を、図２４（ｂ）に示す。Ａ欄（１〜８行目）にｃａｎｄｉｄａｔｅＬｉｓｔ内の各語句が格納されている。ユーザーの操作によって、対応するＢ欄（１〜８行目）に対訳（又は原文）が記載されることによって、特徴語の翻訳辞書が完成する。
この特徴語の翻訳辞書を、機械翻訳処理装置に渡し、その機械翻訳処理装置は、この特徴語の翻訳辞書を元の翻訳辞書に加えて翻訳処理を実行する。

＜＜第２の実施の形態＞＞
図２５は、第２の実施の形態の構成例についての概念的なモジュール構成図を示している。なお、第１の実施の形態と同種の部位には同一符号を付し重複した説明を省略する。
第２の実施の形態である情報処理装置２５００は、翻訳辞書の作成を支援するものであって、図２５の例に示すように、特徴語リスト作成指示モジュール１０５、関連文書取得モジュール１１０、語句分割モジュール１１５、言語判定モジュール１２０、特徴語リスト抽出モジュール１２５、訳語抽出モジュール２５３０を有している。第１の実施の形態の情報処理装置１００に訳語抽出モジュール２５３０を付加したものである。なお、文書管理システム２５５０は、文書データ管理モジュール１５５、検索履歴管理モジュール１６０、ユーザー情報管理モジュール２５６５を有している。文書管理システム１５０に、ユーザー情報管理モジュール２５６５を付加したものである。
第１の実施の形態では、特徴語を抽出したが、翻訳辞書では原文と対訳の組み合わせが必要であるので、その特徴語に対する対訳（又は原文）を記載する必要がある。第２の実施の形態の情報処理装置２５００は、その組み合わせの候補を生成するものである。また、第２の実施の形態においても、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、処理を行う。

情報処理装置２５００は、ある言語の検索クエリＡで検索又は閲覧された文書と別の言語の検索クエリＢで検索又は閲覧された文書が共通する場合、検索クエリＡと検索クエリＢ内の語句には対訳関係ありと判定するものである。
また、ユーザー情報から人名を判別して、対訳を抽出する。
また、検索クエリ、その検索クエリを指示したユーザーの使用言語から、言語によらず固定的にすべき語句を抽出する。
文書管理システム２５５０の文書データ管理モジュール１５５は、情報処理装置２５００の関連文書取得モジュール１１０と接続されている。
検索履歴管理モジュール１６０は、情報処理装置２５００の特徴語リスト抽出モジュール１２５、訳語抽出モジュール２５３０と接続されている。
ユーザー情報管理モジュール２５６５は、情報処理装置２５００の訳語抽出モジュール２５３０と接続されている。ユーザー情報管理モジュール２５６５は、ユーザーに関する情報を管理する。ユーザーに関する情報として、利用者の氏名又は地名における第１の言語の語句と第２の言語の語句の組み合わせを記憶している。例えば、利用者の氏名と住所又は居所が、第１の言語の表記データと第２の言語の表記データによって記載されているテーブルが該当する。また、利用者の氏名とその利用者のメールアドレスを対応させて記憶しているテーブルが該当する。なお、第２の言語とは、もちろんのことながら、第１の語句の言語とは異なる言語である。

情報処理装置２５００の特徴語リスト作成指示モジュール１０５は、関連文書取得モジュール１１０と接続されている。
関連文書取得モジュール１１０は、特徴語リスト作成指示モジュール１０５、語句分割モジュール１１５、文書管理システム２５５０の文書データ管理モジュール１５５と接続されている。
語句分割モジュール１１５は、関連文書取得モジュール１１０、言語判定モジュール１２０、特徴語リスト抽出モジュール１２５と接続されている。
言語判定モジュール１２０は、語句分割モジュール１１５と接続されている。
特徴語リスト抽出モジュール１２５は、語句分割モジュール１１５、訳語抽出モジュール２５３０、文書管理システム２５５０の検索履歴管理モジュール１６０と接続されている。

訳語抽出モジュール２５３０は、特徴語リスト抽出モジュール１２５、文書管理システム２５５０の検索履歴管理モジュール１６０、ユーザー情報管理モジュール２５６５と接続されている。訳語抽出モジュール２５３０は、特徴語リスト抽出モジュール１２５によって抽出された特徴語の対訳を抽出し、翻訳辞書における原文と訳文の組み合わせの候補を生成する。
訳語抽出モジュール２５３０は、文書に対する検索履歴又は利用者に関する属性情報から語句を抽出する。
そして、抽出した語句から、第１の言語によって表現されている語句と、その語句と対になる語句であって第２の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する。

また、訳語抽出モジュール２５３０は、検索履歴から、第１の検索指示と第２の検索指示によって共通する文書が検索された場合又はその文書内でその検索指示を行った複数の利用者によって共通する文書が閲覧された場合であって、その第１の検索に用いられた第１の言語の語句と、その第２の検索に用いられた第２の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出するようにしてもよい。
また、訳語抽出モジュール２５３０は、利用者に関する属性情報から、その利用者の氏名又は地名における第１の言語の語句と第２の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出するようにしてもよい。
また、訳語抽出モジュール２５３０は、利用者の氏名とメールアドレスから、その利用者の氏名における第１の言語の語句と第２の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出するようにしてもよい。
また、訳語抽出モジュール２５３０は、検索履歴から、第１の検索指示を行った利用者の使用言語と第２の検索指示を行った利用者の使用言語が異なる場合であって、その第１の検索指示内の語句の表記とその第２の検索指示内の語句の表記が同じときは、その語句の２つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出するようにしてもよい。ここで、「第１の検索指示内の語句の表記と第２の検索指示内の語句の表記が同じ」とは、語句の意味が同じだけでなく、その語句の言語も同じことをいう。例えば、アルファベットで表記されている固有名詞の語句が該当する。

図２６は、第２の形態による処理例を示すフローチャートである。
ステップＳ２６０２では、特徴語リスト作成指示モジュール１０５は、パラメータを入力する。
ステップＳ２６０４では、関連文書取得モジュール１１０は、関連文書を取得する。
ステップＳ２６０６では、語句分割モジュール１１５は、語句を分割する。
ステップＳ２６０８では、特徴語リスト抽出モジュール１２５は、検索クエリから特徴語を抽出する。
ステップＳ２６１０では、特徴語リスト抽出モジュール１２５は、ユーザー名から特徴語を抽出する。
ステップＳ２６１２では、特徴語リスト抽出モジュール１２５は、階層構造から特徴語を抽出する。
ステップＳ２６１４では、特徴語リスト抽出モジュール１２５は、特徴語リストを出力する。
ステップＳ２６０２〜ステップＳ２６１４の処理は、図３の例に示したフローチャート内のステップＳ３０２〜ステップＳ３１４の処理と同等である。

ステップＳ２６１６では、訳語抽出モジュール２５３０は、訳語を指定する。具体例には、訳語抽出モジュール２５３０は、ＧＵＩ、ＣＵＩ等のユーザーインタフェース上でユーザーからの訳語の言語（以下、ｔｒａｎｓｌａｔｉｏｎＬａｎｇｕａｇｅとする）の指定を受け付ける。なお、ｔｒａｎｓｌａｔｉｏｎＬａｎｇｕａｇｅは、特徴語リスト作成指示モジュール１０５で指定してもよい。
また、翻訳辞書データ用の変数（以下、ｄｉｃｔｉｏｎａｒｙとする）を定義する（初期化を含む）。ｄｉｃｔｉｏｎａｒｙは、文字列配列を第一要素、文字列配列を第二要素とするペアのリストである。例えば、プログラミングＣ♯での表記では、Ｌｉｓｔ＜Ｐａｉｒ＜ｓｔｒｉｎｇ［］，ｓｔｒｉｎｇ［］＞＞である。

ステップＳ２６１８では、訳語抽出モジュール２５３０は、検索クエリによる訳語の抽出を行う。具体例には、訳語抽出モジュール２５３０は、ｄｏｃｕｍｅｎｔＴａｂｌｅ中の全文書について以下の処理を行う。
検索履歴管理モジュール１６０内の情報、言語判定モジュール１２０を利用し、ｌａｎｇｕａｇｅを言語とする検索クエリ（Ａ）とｔｒａｎｓｌａｔｉｏｎＬａｎｇｕａｇｅを言語とする検索クエリ（Ｂ）の両方により、その文書が検索又は閲覧されていたか否かをチェックする。
同じ文書が検索又は閲覧されていた場合、検索クエリ（Ａ）の語句と検索クエリ（Ｂ）内の語句を対応付けて記録する（以下、ｑｕｅｒｙＰａｉｒＬｉｓｔとする）。ｑｕｅｒｙＰａｉｒＬｉｓｔの型はｄｉｃｔｉｏｎａｒｙと同じである。検索クエリ（Ａ）の語句と検索クエリ（Ｂ）内の語句は、それぞれが複数ある場合がある。例えば、「アクセス権」という語句の対訳として、「ｐｅｒｍｉｓｓｉｏｎ」、「ＡＣＬ」があり、これを示すのに［［アクセス権］：［ｐｅｒｍｉｓｓｉｏｎ，ＡＣＬ］］と表記する。

ステップＳ２６２０では、訳語抽出モジュール２５３０は、ユーザー情報を抽出する。具体例には、訳語抽出モジュール２５３０は、ユーザー情報管理モジュール２５６５がｌａｎｇｕａｇｅとｔｒａｎｓｌａｔｉｏｎＬａｎｇｕａｇｅの姓名の表示名を保持する場合は、その対応付けを姓／名単位で記録する（以下、ｕｓｅｒＭａｐｐｉｎｇｓという）。保持しない場合は、ｔｒａｎｓｌａｔｉｏｎＬａｕｎｇｕａｇｅが英語の場合は、ユーザー情報管理モジュール２５６５が保持するメールアドレスを、予め定められたルールによって分割したものを姓／名を対応付けて記録する。予め定められたルールについては後述する。

ステップＳ２６２２では、訳語抽出モジュール２５３０は、ユーザー情報による訳語抽出を行う。具体例には、訳語抽出モジュール２５３０は、ｃａｎｄｉｄａｔｅＬｉｓｔ中の全語句に対して、以下の処理を行う。
語句（ｐｈｒａｓｅ）がｕｓｅｒＭａｐｐｉｎｇｓのキーに含まれている場合は、ｕｓｅｒＭａｐｐｉｎｇｓの値を唯一の要素とする配列を訳語とする。
含まれていない場合は、ｑｕｅｒｙＰａｉｒＬｉｓｔ中の第一要素側にｐｈｒａｓｅが含まれていたら、第二要素の配列を訳語とする。
訳語を抽出した場合は、ｐｈｒａｓｅと訳語のペアをｄｉｃｔｉｏｎａｒｙに追加し、ｃａｎｄｉｄａｔｅＬｉｓｔからｐｈｒａｓｅを削除する。

ステップＳ２６２４では、訳語抽出モジュール２５３０は、言語によらない固有名詞抽出を行う。具体例には、訳語抽出モジュール２５３０は、検索履歴管理モジュール１６０、ユーザー情報管理モジュール２５６５を利用して、検索クエリ単位で、その検索クエリを使用したユーザーの言語を対応付ける（以下、ｎｏｔＮａｔｉｖｅＭａｐｐｉｎｇｓとする）。
例えば、日本語、英語、タイ語を使用言語とする３人のユーザーがそれぞれ「ＷｏｒｋｉｎｇＦｏｌｄｅｒ」で検索した場合、その語句「ＷｏｒｋｉｎｇＦｏｌｄｅｒ」と「日本語」、「英語」、「タイ語」を対応付ける。これを、［ＷｏｒｋｉｎｇＦｏｌｄｅｒ］：［日本語，英語，タイ語］と表記する。
検索クエリの言語（前述の「ＷｏｒｋｉｎｇＦｏｌｄｅｒ」では英語）を言語判定モジュール１２０で判断させ、検索クエリの言語以外の複数の言語のユーザーから検索されていた場合は、言語によらず翻訳すべきでない固有名詞とみなし、その検索クエリに用いられた語句を唯一の要素とする第一要素及び第二要素として、ｄｉｃｔｉｏｎａｒｙに追加する。つまり、「ＷｏｒｋｉｎｇＦｏｌｄｅｒ」という語句の２つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補とする。

ステップＳ２６２６では、訳語抽出モジュール２５３０は、訳語を出力する。具体例には、訳語抽出モジュール２５３０は、訳語が見つからなかったｃａｎｄｉｄａｔｅＬｉｓｔのすべての値をｄｉｃｔｉｏｎａｒｙの唯一の要素とする第一要素とし、第二要素を空として、ｄｉｃｔｉｏｎａｒｙに追加する。特徴語リスト作成指示モジュール１０５で指定された出力パスにｄｉｃｔｉｏｎａｒｙの中身を出力する。出力形式は一般的にはＣＳＶ形式があるが、これに限らない。
なお、ステップＳ２６１８からステップＳ２６２４の処理は、それぞれ予め定められた設定（これらのステップのいずれか１つの処理の選択、２つの組み合わせの選択、又は２つ以上の組み合わせを選択した場合は、処理の順番の設定）で選択的に実施してもよい。なお、ステップＳ２６２２の処理は、ステップＳ２６１８又はステップＳ２６２０の処理の後に行う。

図２７は、第２の形態による処理例を示す説明図である。ステップＳ２６１６（訳語抽出モジュール２５３０）での処理例を示したものである。なお、ステップＳ２６１６の代わりに、ステップＳ２６０２（特徴語リスト作成指示モジュール１０５）で処理を行ってもよい。
辞書作成支援ツール画面２７００には、言語指定欄９１０、訳語の言語指定欄２７１５、出力パス指定欄９２０、ＵＲＬ指定欄９３０、ユーザーＩＤ指定欄９４０、パスワード指定欄９５０、語句の出現率指定欄９６０、出現文書数指定欄９７０、ＯＫボタン９９２、キャンセルボタン９９４、閉じるボタン９９６を表示する。つまり、辞書作成支援ツール画面２７００は、図９の例に示した辞書作成支援ツール画面９００に訳語の言語指定欄２７１５を追加したものである。
訳語の言語指定欄２７１５は、言語指定欄９１０で指定された言語に対応する言語（ｔｒａｎｓｌａｔｉｏｎＬａｎｇｕａｇｅ）を指定するためのものである。つまり、翻訳辞書における原文と対訳の組み合わせにおける対訳（又は原文）の言語を示したものである。

図２８は、第２の形態による処理例を示す説明図である。ステップＳ２６１８（訳語抽出モジュール２５３０）での処理例を示したものである。
ｄｏｃｕｍｅｎｔＴａｂｌｅ２８００は、文書ＩＤ欄２８０５、語句数欄２８１５を有している。ｄｏｃｕｍｅｎｔＴａｂｌｅ２８００は、図６の例に示したｄｏｃｕｍｅｎｔＴａｂｌｅ６００と同等のデータ構造例を有している。
検索履歴テーブル２８５０は、検索日時欄２８５５、検索者欄２８６０、クエリ欄２８６５、ヒット文書ＩＤ欄２８７０、閲覧した文書欄２８７５を有している。検索履歴テーブル２８５０は、図８の例に示した検索履歴テーブル８００と同等のデータ構造例を有している。
図２８の例は、文書ＩＤ：Ｄｏｃ−１は、検索履歴テーブル２８５０の１行目と４行目の検索クエリによって検索され、閲覧されたことを示している。つまり、文書ＩＤ：Ｄｏｃ−１は、検索クエリ内の語句「アクセス権」と「Ｐｅｒｍｉｓｓｉｏｎ」で検索され（ヒットし）、閲覧されている。このように、複数の検索クエリで同じ文書が検索された場合は、次のように、ｑｕｅｒｙＰａｉｒＬｉｓｔを生成する。
[アクセス権]:[Permission]
なお、「アクセス権」と「Ｐｅｒｍｉｓｓｉｏｎ」と「ＡＣＬ」で検索され、閲覧された場合のｑｕｅｒｙＰａｉｒＬｉｓｔは以下のようになる。
[アクセス権]:[Permission、ACL]
「Ｐｅｒｍｉｓｓｉｏｎ」と「ＡＣＬ」が同じ言語（英語）と判断されたためである。
なお、ここで、複数の検索クエリは、同じ検索者による検索クエリとしてもよいし、異なる検索者による検索クエリであることを条件としてもよい。
また、同じ文書とは、ヒット文書ＩＤ欄２８７０内の文書が同じことだけで判断してもよい。なお、閲覧した文書欄２８７５内の文書が同じこととは、ヒット文書ＩＤ欄２８７０内の文書が同じことを前提としている。
また、前述した「Ｐｅｒｍｉｓｓｉｏｎ」と「ＡＣＬ」のように、対応する語句が複数ある場合は、検索回数によって優先順位を付けるようにしてもよい。例えば、「Ｐｅｒｍｉｓｓｉｏｎ」を用いた検索クエリが２回あり、「ＡＣＬ」を用いた検索クエリが１回の場合は、「Ｐｅｒｍｉｓｓｉｏｎ」の優先順位が上位となる。そして、ステップＳ２６２６で原文と対訳の組み合わせを表示する場合に、１つの原文に対して複数の訳文があることを表示し、優先順位の順番で、その組み合わせを表示するようにしてもよい。

図２９は、第２の形態による処理例を示す説明図である。ステップＳ２６２０（訳語抽出モジュール２５３０）での処理例を示したものである。これは、ユーザー情報管理モジュール２５６５が英語の表示名を日本語の表示名との対で保持している場合の例を示している。
図２９（ａ）の例に示すように、ユーザー情報管理モジュール２５６５から抽出したユーザー情報（日本語と英語の表示名）は以下の通りである。
[藤太郎:Fuji Taro,藤花子:Fuji Hanako]
そして、訳語抽出モジュール２５３０の処理結果は、図２９（ｂ）の例に示すようなｕｓｅｒＭａｐｐｉｎｇｓになる。
具体例には、ユーザー情報内の各語句を順に対応付ける。つまり、「藤太郎:Fuji Taro」から、「藤」と「Fuji」、「太郎」と「Taro」を対応付け、「藤花子:Fuji Hanako」から、「藤」と「Fuji」、「花子」と「Hanako」を対応付け、同じ組み合わせ（この場合は、「藤」と「Fuji」）が複数ある場合は、１つの組み合わせにする。つまり、ｕｓｅｒＭａｐｐｉｎｇｓを次のように生成する。
[藤:Fuji, 太郎:Taro, 花子:Hanako]

図３０は、第２の形態による処理例を示す説明図である。ステップＳ２６２０（訳語抽出モジュール２５３０）での処理例を示したものである。図２９に示した例とは異なり、ユーザー情報管理モジュール２５６５は、日本語の表示名と英語の表示名との対を保持していない場合の処理を示している。例えば、ユーザー情報管理モジュール２５６５は、ユーザーの属性として、その氏名（日本語の表示名）、メールアドレスを保持している。
図３０（ａ）の例に示すように、ユーザー情報管理モジュール２５６５から抽出したユーザー情報（日本語の表示名とメールアドレス）は以下の通りである。
[藤太郎:Taro.Fuji@example.com,藤花子:Hanako.Fuji@example.com]
メールアドレスか英語名の表示である氏名を抽出するルールは以下の通りである。
「メールアドレスの先頭から最初のドットまでが名前、それ以降@までが姓」
そして、特徴語リスト抽出モジュール１２５の処理結果は、図３０（ｂ）の例に示すようなｕｓｅｒＭａｐｐｉｎｇｓになる。
具体例には、前述のルールにしたがって、名前として「Taro」、「Hanako」を抽出し、姓として「Fuji」抽出する。つまり、ｕｓｅｒＭａｐｐｉｎｇｓを次のように生成する。
[藤:Fuji, 太郎:Taro, 花子: Hanako]

図３１は、第２の形態による処理例を示す説明図である。ステップＳ２６２２（訳語抽出モジュール２５３０）での処理例を示したものである。
この時点で、図３１（ａ）の例に示すように、ｃａｎｄｉｄａｔｅＬｉｓｔは以下の通りである。これは、図２４（ａ）に示す例と同じものである。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット, ドロワー]
ｕｓｅｒＭａｐｐｉｎｇｓは以下の通りである。
[藤:Fuji, 太郎:Taro, 花子:Hanako]
ｑｕｅｒｙＰａｉｒＬｉｓｔは以下の通りである。
[アクセス権]:[Permission]
ｄｉｃｔｉｏｎａｒｙは以下の通りである。処理当初であるので、空である。
[]

そして、特徴語リスト抽出モジュール１２５の処理結果は、図３１（ｂ）の例に示すようなｄｉｃｔｉｏｎａｒｙ、ｃａｎｄｉｄａｔｅＬｉｓｔになる。
具体例には、ｃａｎｄｉｄａｔｅＬｉｓｔ内の語句に対して、ｕｓｅｒＭａｐｐｉｎｇｓ内にあるものを翻訳辞書における対として抽出する。次に、同様に、ｑｕｅｒｙＰａｉｒＬｉｓｔ内にあるものを翻訳辞書における対として抽出する。つまり、ｄｉｃｔｉｏｎａｒｙを次のように生成する。
[[[藤],[Fuji]],[[太郎],[Taro]],[[花子],[Hanako]]、[[アクセス権],[Permission]]]
また、ｃａｎｄｉｄａｔｅＬｉｓｔは、図３１（ａ）の状態から、翻訳辞書における対として抽出した語句（図３１（ｂ）内では矩形で囲っている語句）を消去する。
つまり、ｃａｎｄｉｄａｔｅＬｉｓｔを次のように生成する。
[ジョブ,ジョブ数,キャビネット, ドロワー]

図３２は、第２の形態による処理例を示す説明図である。ステップＳ２６２４（訳語抽出モジュール２５３０）での処理例を示したものである。
検索履歴テーブル３２００は、検索日時欄３２０５、検索者欄３２１０、クエリ欄３２１５、ヒット文書ＩＤ欄３２２０、閲覧した文書欄３２２５を有している。検索履歴テーブル３２００は、図８の例に示した検索履歴テーブル８００と同等のデータ構造例を有している。これは検索クエリに「ＷｏｒｋｉｎｇＦｏｌｄｅｒ」を含んでいる検索履歴を収集したものである。
ユーザー３２３０は、氏名（藤太郎）３２３０Ａ、使用言語（日本語）３２３０Ｂであり、ユーザー３２３５は、氏名（藤花子）３２３５Ａ、使用言語（日本語）３２３５Ｂであり、ユーザー３２４０は、氏名（ＪｏｈｎＢｒｙａｎｔ）３２４０Ａ、使用言語（英語）３２４０Ｂであり、ユーザー３２４５は、氏名（ＬｅｅＣｈａｎｇ）３２４５Ａ、使用言語（繁体字中国語）３２４５Ｂである。これらの情報は、ユーザー情報管理モジュール２５６５が保持している。
訳語抽出モジュール２５３０は、検索履歴テーブル３２００の検索者欄３２１０から、検索クエリ内で同じ語句（この例では「ＷｏｒｋｉｎｇＦｏｌｄｅｒ」）を用いた検索者を抽出する。そして、検索履歴テーブル３２００の検索者欄３２１０の検索者について、検索者の使用言語の情報を抽出し、ｎｏｔＮａｔｉｖｅＭａｐｐｉｎｇｓを生成する。図３２（ａ）の例に示すように、ｎｏｔＮａｔｉｖｅＭａｐｐｉｎｇｓは以下の通りである。
[Working Folder:日本語,英語,繁体字中国語]

次に、言語判定モジュール１２０を用いて、「ＷｏｒｋｉｎｇＦｏｌｄｅｒ」は英語であることが判明する。そして、その「ＷｏｒｋｉｎｇＦｏｌｄｅｒ」の語句をそのままの表記で、検索クエリ内に使用している検索者の使用言語は、英語以外の言語（日本語と繁体字中国語）を含んでいるので、「ＷｏｒｋｉｎｇＦｏｌｄｅｒ」と「ＷｏｒｋｉｎｇＦｏｌｄｅｒ」の対（図３２（ｂ）内では矩形で囲っている語句の対）をｄｉｃｔｉｏｎａｒｙに追加する。
つまり、ｄｉｃｔｉｏｎａｒｙを次のように生成する。
[[[藤],[Fuji]],[[太郎],[Taro]],[[花子],[Hanako]]、[[アクセス権],[Permission]],[[Working Folder],[Working Folder]]]

図３３は、第２の形態による処理例を示す説明図である。ステップＳ２６２６（訳語抽出モジュール２５３０）での処理例を示したものである。
この時点で、図３３（ａ）の例に示すように、ｄｉｃｔｉｏｎａｒｙは以下の通りである。
[[[藤],[Fuji]],[[太郎],[Taro]],[[花子],[Hanako]]、[[アクセス権],[Permission]],[[Working Folder],[Working Folder]]]
そして、ｃａｎｄｉｄａｔｅＬｉｓｔ内に残っている語句（対訳を発見できなかった特徴語、具体例には、「ジョブ」、「ジョブ数」、「キャビネット」、「ドロワー」）を、ｄｉｃｔｉｏｎａｒｙ内に追加する。ただし、その際、対訳はないので、対訳データは空として、ｄｉｃｔｉｏｎａｒｙを生成する。
具体例には、次のようにｄｉｃｔｉｏｎａｒｙを生成する。
[[[藤],[Fuji]],[[太郎],[Taro]],[[花子],[Hanako]]、[[アクセス権],[Permission]],[[Working Folder],[Working Folder]],[[ジョブ],[]], [[ジョブ数],[]], [[キャビネット],[]] , [[ドロワー],[]]]
このｄｉｃｔｉｏｎａｒｙを、ファイル（例えば、ＣＳＶファイル）として、図２７の例に示した辞書作成支援ツール画面９００内の出力パス指定欄９２０で指定されたパスに出力する。そのファイルの内容例を、図３３（ｂ）に示す。Ａ欄にｄｉｃｔｉｏｎａｒｙ内の第１語句（原文、言語指定欄９１０で指定された言語の語句又は、ステップＳ２６２４で抽出された語句）が格納されており、Ｂ欄にｄｉｃｔｉｏｎａｒｙ内の第２語句（訳文、訳語の言語指定欄２７１５で指定された言語の語句又は、ステップＳ２６２４で抽出された語句）が格納されている。ユーザーは、この対を確認し、修正が必要な場合は修正を行う。また、Ｂ欄が空である対については、そのＢ欄に対訳（又は原文）を記載することによって、特徴語の翻訳辞書が完成する。
この特徴語の翻訳辞書を、機械翻訳処理装置に渡し、その機械翻訳処理装置は、この特徴語の翻訳辞書を元の翻訳辞書に加えて翻訳処理を実行する。

なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図３４に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部（演算部）としてＣＰＵ３４０１を用い、記憶装置としてＲＡＭ３４０２、ＲＯＭ３４０３、ＨＤ３４０４を用いている。ＨＤ３４０４として、例えばハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）を用いてもよい。特徴語リスト作成指示モジュール１０５、関連文書取得モジュール１１０、語句分割モジュール１１５、言語判定モジュール１２０、特徴語リスト抽出モジュール１２５、訳語抽出モジュール２５３０等のプログラムを実行するＣＰＵ３４０１と、そのプログラムやデータを記憶するＲＡＭ３４０２と、本コンピュータを起動するためのプログラム等が格納されているＲＯＭ３４０３と、文書データ管理モジュール１５５、検索履歴管理モジュール１６０、ユーザー情報管理モジュール２５６５等の機能を有する補助記憶装置（フラッシュメモリ等であってもよい）であるＨＤ３４０４と、キーボード、マウス、タッチパネル、マイク等に対する利用者の操作に基づいてデータを受け付ける受付装置３４０６と、ＣＲＴ、液晶ディスプレイ、スピーカー等の出力装置３４０５と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース３４０７、そして、それらをつないでデータのやりとりをするためのバス３４０８により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。

前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図３４に示すハードウェア構成は、１つの構成例を示すものであり、本実施の形態は、図３４に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア（例えば特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）等）で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図３４に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器（携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む）、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機（スキャナ、プリンタ、複写機、ファックス等のいずれか２つ以上の機能を有している画像処理装置）などに組み込まれていてもよい。

前述の実施の形態においては、言語判定モジュール１２０による判定結果（語句毎の言語）を用いるようにしているが、言語判定モジュール１２０による判定結果を用いないで、特徴語リストを作成するようにしてもよい。この場合、複数の言語による語句が特徴語として抽出され得ることとなる。
また、前述の実施の形態の説明において、予め定められた値等との比較において、「以上」、「以下」、「より大きい」、「より小さい（未満）」としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい（未満）」、「以上」、「以下」としてもよい。

前述の第１の実施の形態は以下のように把握してもよい。そして、これらと第２の実施の形態における構成を組み合わせてもよい。つまり、第２の実施の形態は、下記の抽出手段によって抽出した語句Ａを対象として、その語句Ａに対する語句Ｂ（対訳又は原文）を抽出し、語句Ａと語句Ｂの組み合わせを翻訳辞書の候補とする。
［Ａ］文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する抽出手段
を具備することを特徴とする情報処理装置。
［Ｂ］前記第一の意味は、一般的な意味であり、
前記第二の意味は、特定の分野向けの意味である
ことを特徴とする［Ａ］に記載の情報処理装置。
［Ｃ］前記抽出手段は、さらに、検索に用いられた語句を抽出し、
該検索に用いられた語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出する
ことを特徴とする［Ａ］又は［Ｂ］に記載の情報処理装置。
［Ｄ］前記抽出手段は、さらに、前記文書に関する人名又は地名に関する語句を抽出し、
該抽出した人名又は地名に関する語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出する
ことを特徴とする［Ａ］から［Ｃ］のいずれか一項に記載の情報処理装置。
［Ｅ］前記抽出手段は、前記文書内の語句の出現率が予め定められた出現率より高い又は以上であり、該語句が前記文書のうち予め定められた文書割合未満又は以下の文書にだけ存在している場合は、該語句を第一の意味及び第一の意味とは異なる第二の意味を有する語句として抽出する
ことを特徴とする［Ａ］から［Ｄ］のいずれか一項に記載の情報処理装置。
［Ｆ］コンピュータを、
文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する抽出手段
として機能させるための情報処理プログラム。

［Ａ］の情報処理装置によれば、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、翻訳辞書に登録すべき原文又は対訳の候補を抽出する場合にあって、文書の属性に含まれている語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出することができる。
［Ｂ］の情報処理装置によれば、一般的な意味と特定の分野向けの意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出することができる。
［Ｃ］の情報処理装置によれば、検索に用いられた語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出することができる。
［Ｄ］の情報処理装置によれば、文書に関する人名又は地名に関する語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出することができる。
［Ｅ］の情報処理装置によれば、文書内の語句のうち予め定められた出現率より高い又は以上の語句が、文書のうち予め定められた文書割合未満又は以下の文書にだけ存在している場合は、その語句を第一の意味及び第一の意味とは異なる第二の意味を有する語句として抽出することができる。
［Ｆ］の情報処理プログラムによれば、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、翻訳辞書に登録すべき原文又は対訳の候補を抽出する場合にあって、文書の属性に含まれている語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出することができる。

なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク（ＤＶＤ）であって、ＤＶＤフォーラムで策定された規格である「ＤＶＤ−Ｒ、ＤＶＤ−ＲＷ、ＤＶＤ−ＲＡＭ等」、ＤＶＤ＋ＲＷで策定された規格である「ＤＶＤ＋Ｒ、ＤＶＤ＋ＲＷ等」、コンパクトディスク（ＣＤ）であって、読出し専用メモリ（ＣＤ−ＲＯＭ）、ＣＤレコーダブル（ＣＤ−Ｒ）、ＣＤリライタブル（ＣＤ−ＲＷ）等、ブルーレイ・ディスク（Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃ）、光磁気ディスク（ＭＯ）、フレキシブルディスク（ＦＤ）、磁気テープ、ハードディスク、読出し専用メモリ（ＲＯＭ）、電気的消去及び書換可能な読出し専用メモリ（ＥＥＰＲＯＭ（登録商標））、フラッシュ・メモリ、ランダム・アクセス・メモリ（ＲＡＭ）、ＳＤ（ＳｅｃｕｒｅＤｉｇｉｔａｌ）メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。

１００…情報処理装置
１０５…特徴語リスト作成指示モジュール
１１０…関連文書取得モジュール
１１５…語句分割モジュール
１２０…言語判定モジュール
１２５…特徴語リスト抽出モジュール
１５０…文書管理システム
１５５…文書データ管理モジュール
１６０…検索履歴管理モジュール
２５００…情報処理装置
２５３０…訳語抽出モジュール
２５５０…文書管理システム
２５６５…ユーザー情報管理モジュール

Claims

利用者に関する属性情報から、第１の言語によって表現されている語句と、該語句と対になる語句であって第２の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段
を具備し、
前記抽出手段は、前記利用者に関する属性情報から、該利用者の氏名における第１の言語の語句と第２の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、
前記抽出手段は、前記利用者に関する属性情報としての氏名とメールアドレスから、該利用者の氏名における第１の言語の語句と第２の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、
前記氏名と前記メールアドレスとは異なる言語であって、該メールアドレス内を予め定められたルールによって分割したものを姓と名に対応付ける、
ことを特徴とする情報処理装置。
文書に対する検索履歴から、第１の言語によって表現されている語句と、該語句と対になる語句であって第２の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段
を具備し、
前記抽出手段は、前記検索履歴から、第１の検索指示を行った利用者の使用言語と第２の検索指示を行った利用者の使用言語が異なる場合であって、該第１の検索指示内の語句の表記と該第２の検索指示内の語句の表記が同じときは、該語句の２つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、
対訳がない語句である場合は、ユーザーによって原文と対訳の組み合わせを完成させる、
ことを特徴とする情報処理装置。
コンピュータを、
利用者に関する属性情報から、第１の言語によって表現されている語句と、該語句と対になる語句であって第２の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段
として機能させ、
前記抽出手段は、前記利用者に関する属性情報から、該利用者の氏名における第１の言語の語句と第２の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、
前記抽出手段は、前記利用者に関する属性情報としての氏名とメールアドレスから、該利用者の氏名における第１の言語の語句と第２の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、
前記氏名と前記メールアドレスとは異なる言語であって、該メールアドレス内を予め定められたルールによって分割したものを姓と名に対応付ける、
情報処理プログラム。
コンピュータを、
文書に対する検索履歴から、第１の言語によって表現されている語句と、該語句と対になる語句であって第２の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段
として機能させ、
前記抽出手段は、前記検索履歴から、第１の検索指示を行った利用者の使用言語と第２の検索指示を行った利用者の使用言語が異なる場合であって、該第１の検索指示内の語句の表記と該第２の検索指示内の語句の表記が同じときは、該語句の２つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、
対訳がない語句である場合は、ユーザーによって原文と対訳の組み合わせを完成させる、
情報処理プログラム。