JP2016173617A

JP2016173617A - 情報処理装置及び情報処理プログラム

Info

Publication number: JP2016173617A
Application number: JP2015051950A
Authority: JP
Inventors: 透大塚; Toru Otsuka
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2015-03-16
Filing date: 2015-03-16
Publication date: 2016-09-29

Abstract

【課題】文書と該文書の属性に含まれている語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出するようにした情報処理装置を提供する。【解決手段】情報処理装置の抽出手段は、文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する。【選択図】図１

Description

本発明は、情報処理装置及び情報処理プログラムに関する。

特許文献１には、無駄な作業を抑えながら、辞書に必要な情報を登録させることができるようにすることを課題とし、辞書作成支援システムは、辞書登録候補語の情報を辞書作成支援履歴と共に格納する履歴保存データベースを有し、また、テキストデータ列を取り込む入力手段と、入力されたテキストデータ列を解析して、所定の候補化条件を満たす辞書登録候補語を抽出し、履歴保存データベースにおける辞書登録候補語の情報を更新する候補語抽出・更新手段と、履歴保存データベースに記述されている辞書登録候補語のうち、辞書作成支援履歴についての条件も含め、所定の提示条件に合致したものを提示する候補語提示手段と、提示された辞書登録候補語に対する辞書登録の有無を取り込む登録指示取込手段と、候補語提示手段又は登録指示取込手段の処理に応じ、履歴保存データベースに記述されている辞書作成支援履歴を更新する履歴更新手段とを備えることが開示されている。

特許文献２には、日本語用語とその訳語の推定結果の対応の確からしさを示す対応確信度の精度を向上させ、未登録単語の自動登録を可能にすることを課題とし、訳語推定部は、抽出された日本語用語に対して１つ以上の訳語候補を推定し、追加訳語抽出部は、日本語用語とその訳語候補の組のうち日本語用語に含まれる単語で日英対訳辞書に登録されていない単語の数と、訳語候補に含まれる単語で日英対訳辞書に登録されていない単語の数とを調べ、日本語用語及び訳語候補に含まれる単語のうち日英対訳辞書の未登録単語の数がいずれも１である場合には、追加訳語抽出部は、これらの単語同士の対応関係が十分に確からしいものと判断してテーブルに記録して出現頻度を求め、出現頻度（対応確信度）が高い場合には、日英対訳辞書に登録すべき追加訳語として決定し、これにより、精度の高い対応確信度を得ることができ、対訳辞書の自動登録が可能となることが開示されている。

特開２００８−０８３９５２号公報特開２００２−３６６５４６号公報

先行技術においては、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、翻訳辞書に登録すべき語句を抽出するための技術として、指定された文書を語句に分割し、一般的な用語の辞書に載っていない語句を翻訳辞書に登録すべき語句の候補とするものがある。これにより、造語や固有名詞といった翻訳辞書に登録すべき語句を抽出することができる。
しかし、これらの技術では、一般的な意味のほかに、例えば、コンピュータ分野等のような特定の分野向けの意味も有する多義語である語句（以下、特徴語とする）を対象とした場合、翻訳辞書に登録すべき語句としては抽出されずに一般的な意味で翻訳辞書に登録されてしまう。そして、該語句の特定の分野向けの意味が、翻訳辞書に登録されない場合がある。一方、文書の属性に含まれている語句は、一般的に多義語である可能性が高い。なお、一般的な意味とは広辞苑や大辞典等の国語辞書に記載されている、語句の意味をいい、特定分野向けの意味とは、コンピュータ分野等の専門性のある特定の分野のみで使われている、語句の意味をいう。
本発明は、文書と該文書の属性に含まれている語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出することを目的としている。

かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項１の発明は、文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する抽出手段を具備することを特徴とする情報処理装置である。

請求項２の発明は、前記第一の意味は、一般的な意味であり、前記第二の意味は、特定の分野向けの意味であることを特徴とする請求項１に記載の情報処理装置である。

請求項３の発明は、前記抽出手段は、さらに、検索に用いられた語句を抽出し、該検索に用いられた語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出することを特徴とする請求項１又は２に記載の情報処理装置である。

請求項４の発明は、前記抽出手段は、さらに、前記文書に関する人名又は地名に関する語句を抽出し、該抽出した人名又は地名に関する語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出することを特徴とする請求項１から３のいずれか一項に記載の情報処理装置である。

請求項５の発明は、前記抽出手段は、前記文書内の語句の出現率が予め定められた出現率より高い又は以上であり、該語句が前記文書のうち予め定められた文書割合未満又は以下の文書にだけ存在している場合は、該語句を第一の意味及び第一の意味とは異なる第二の意味を有する語句として抽出することを特徴とする請求項１から４のいずれか一項に記載の情報処理装置である。

請求項６の発明は、コンピュータを、文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する抽出手段として機能させるための情報処理プログラムである。

請求項１の情報処理装置によれば、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、翻訳辞書に登録すべき原文又は対訳の候補を抽出する場合にあって、文書の属性に含まれている語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出することができる。

請求項２の情報処理装置によれば、一般的な意味と特定の分野向けの意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出することができる。

請求項３の情報処理装置によれば、検索に用いられた語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出することができる。

請求項４の情報処理装置によれば、文書に関する人名又は地名に関する語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出することができる。

請求項５の情報処理装置によれば、文書内の語句のうち予め定められた出現率より高い又は以上の語句が、文書のうち予め定められた文書割合未満又は以下の文書にだけ存在している場合は、その語句を第一の意味及び第一の意味とは異なる第二の意味を有する語句として抽出することができる。

請求項６の情報処理プログラムによれば、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、翻訳辞書に登録すべき原文又は対訳の候補を抽出する場合にあって、文書の属性に含まれている語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出することができる。

本実施の形態の構成例についての概念的なモジュール構成図である。本実施の形態を利用したシステム構成例を示す説明図である。本実施の形態による処理例を示すフローチャートである。ｐｒｏｐｅｒｔｙＴａｂｌｅのデータ構造例を示す説明図である。ｐｈｒａｓｅＴａｂｌｅのデータ構造例を示す説明図である。ｄｏｃｕｍｅｎｔＴａｂｌｅのデータ構造例を示す説明図である。本実施の形態による処理例を示す説明図である。検索履歴テーブルのデータ構造例を示す説明図である。本実施の形態による処理例を示す説明図である。ｐｒｏｐｅｒｔｙＴａｂｌｅのデータ構造例を示す説明図である。ｐｈｒａｓｅＴａｂｌｅのデータ構造例を示す説明図である。ｐｈｒａｓｅＴａｂｌｅのデータ構造例を示す説明図である。ｐｈｒａｓｅＴａｂｌｅのデータ構造例を示す説明図である。ｄｏｃｕｍｅｎｔＴａｂｌｅのデータ構造例を示す説明図である。本実施の形態による処理例を示す説明図である。本実施の形態による処理例を示す説明図である。本実施の形態による処理例を示す説明図である。ｐｈｒａｓｅＴａｂｌｅのデータ構造例を示す説明図である。ｐｈｒａｓｅＴａｂｌｅのデータ構造例を示す説明図である。ｐｈｒａｓｅＴａｂｌｅのデータ構造例を示す説明図である。ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅのデータ構造例を示す説明図である。ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅのデータ構造例を示す説明図である。ＦｏｌｄｅｒＴａｂｌｅのデータ構造例を示す説明図である。本実施の形態による処理例を示す説明図である。本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。

まず、本実施の形態を説明する前に、その前提又は本実施の形態を利用する機械翻訳処理について説明する。なお、この説明は、本実施の形態の理解を容易にすることを目的とするものである。
機械翻訳処理では、「翻訳辞書」を利用することにより翻訳精度を向上させることが可能である。翻訳辞書の内容は、原語と対訳の対を１つのペアとする複数のペア情報である。例えば、英語から日本語への翻訳に用いる英日辞書において、原語：「ＷｏｒｋｉｎｇＦｏｌｄｅｒ」、対訳：「ＷｏｒｋｉｎｇＦｏｌｄｅｒ」とすることにより、固有名詞である「ＷｏｒｋｉｎｇＦｏｌｄｅｒ」を日本語に翻訳したときに「仕事フォルダー」などの正しくない日本語に翻訳することを防ぐことができる。
また、「スポーツ」や「特許」など、一般的に用いられる需要のある分野の辞書は、その分野固有の翻訳辞書が販売されている。しかし、製品や社内用語など狭い範囲の分野における翻訳辞書は販売されておらず、手動で翻訳辞書を作成するのが一般的である。しかしながら、手動による辞書作成は煩雑であるため、辞書作成支援装置が提案されている。

以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図１は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア（コンピュータ・プログラム）、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム（コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム）、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、１モジュールを１プログラムで構成してもよいし、複数モジュールを１プログラムで構成してもよく、逆に１モジュールを複数プログラムで構成してもよい。また、複数モジュールは１コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって１モジュールが複数コンピュータで実行されてもよい。なお、１つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続（データの授受、指示、データ間の参照関係等）の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、２以上の値（もちろんのことながら、すべての値も含む）が同じであってもよい。また、「Ａである場合、Ｂをする」という意味を有する記載は、「Ａであるか否かを判断し、Ａであると判断した場合はＢをする」の意味で用いる。ただし、Ａであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク（一対一対応の通信接続を含む）等の通信手段で接続されて構成されるほか、１つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」（社会システム）にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、外部記憶媒体、通信回線を介した記憶装置、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）内のレジスタ等を含んでいてもよい。

本実施の形態である情報処理装置１００は、翻訳辞書の作成を支援するものであって、図１の例に示すように、特徴語リスト作成指示モジュール１０５、関連文書取得モジュール１１０、語句分割モジュール１１５、言語判定モジュール１２０、特徴語リスト抽出モジュール１２５を有している。
情報処理装置１００は、文書とその文書の属性に含まれる語句から翻訳辞書における原文又は対訳の候補のいずれか一方を抽出する。ただし、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で行う。以下、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方を特徴語ともいう。
特に、情報処理装置１００は、一般的な意味だけでなく、特定の分野向けの意味も有する語句（人名等を含む）について、特徴語として抽出するものである。
例えば、「アクセス権」は、一般的には「知る権利（ｒｉｇｈｔｏｆａｃｃｅｓｓ）」を意味するが、コンピュータを用いたドキュメント管理の分野では「オブジェクトにアクセスするための権利（ｐｅｒｍｉｓｓｉｏｎ）」を意味する。先行技術文献に開示されている技術では、ドキュメント管理に関する翻訳辞書に登録すべき候補として「アクセス権」を挙げることができない。他にもドキュメント管理の分野における「キャビネット」、「ドロワー」などで同様の状況となる。

文書管理システム１５０は、コンテンツ・マネジメント・システム（ＣＭＳ）とも呼ばれており、文書を管理するものである。ここで文書とは、主にテキストデータ、場合によっては図形、画像、動画、音声等の電子データ（ファイルともいわれる）、又はこれらの組み合わせであり、記憶、編集及び検索等の対象となり、システム又は利用者間で個別の単位として交換できるものをいい、これらに類似するものを含む。具体的には、文書作成プログラムによって作成された文書、Ｗｅｂページ等を含む。
文書管理システム１５０によって管理されている文書、フォルダー（以下に例示するキャビネット、ドロワー等を含む）の属性として使用されている語句、検索クエリで使用される語句（例えば、検索に用いたキーワード等）は、特徴的な語句である場合が多い。情報処理装置１００は、これらの語句を特徴語として抽出する。また、情報処理装置１００は、文書管理システム１５０内の文書内の語句の出現頻度を用いて、特定の状況で多く出現する語句を特徴語として抽出する。

文書管理システム１５０は、文書データ管理モジュール１５５、検索履歴管理モジュール１６０を有している。文書管理システム１５０は、フォルダー（子オブジェクトを持つことができるオブジェクト）や文書を格納し、他の装置（情報処理装置１００等）からのアクセスに対応する。
文書データ管理モジュール１５５は、情報処理装置１００の関連文書取得モジュール１１０と接続されている。文書データ管理モジュール１５５は、文書管理システム１５０において、文書やフォルダーの情報（コンテンツや属性）を管理する。
検索履歴管理モジュール１６０は、情報処理装置１００の特徴語リスト抽出モジュール１２５と接続されている。検索履歴管理モジュール１６０は、ユーザーの文書検索履歴を管理する。具体例には、文書管理システム１５０において、どのユーザーがどの検索クエリを使用してどの文書が検索結果としてヒットし、その後どの文書を閲覧したかを記録する。

特徴語リスト作成指示モジュール１０５は、関連文書取得モジュール１１０と接続されている。特徴語リスト作成指示モジュール１０５は、翻訳辞書の特徴語リストの作成を指示する。例えば、マウス、キーボード、タッチパネル、音声、視線、ジェスチャ等を用いたユーザーの操作によって、指示を受け付けるようにしてもよい。
関連文書取得モジュール１１０は、特徴語リスト作成指示モジュール１０５、語句分割モジュール１１５、文書管理システム１５０の文書データ管理モジュール１５５と接続されている。関連文書取得モジュール１１０は、特徴語リスト作成指示モジュール１０５の指示により文書データ管理モジュール１５５で管理している文書の中から、特定のユーザーに関連する文書情報を取得し記録する。ここで「特定のユーザー」とは、特徴語リスト作成指示モジュール１０５によって指示されたユーザーであってもよいし、特徴語リスト作成指示モジュール１０５での操作を行ったユーザーであってもよい。
言語判定モジュール１２０は、語句分割モジュール１１５と接続されている。言語判定モジュール１２０は、語句分割モジュール１１５によって分割された語句の言語を判定する。

語句分割モジュール１１５は、関連文書取得モジュール１１０、言語判定モジュール１２０、特徴語リスト抽出モジュール１２５と接続されている。語句分割モジュール１１５は、文書とその文書の属性から語句を抽出する。具体例には、語句分割モジュール１１５は、関連文書取得モジュール１１０で取得した文書コンテンツ（文書の内容）を語句単位に分割し、文書毎に関連文書取得モジュール１１０で取得した文書の属性情報、語句の出現頻度、言語判定モジュール１２０で判定された言語情報を関連付けて記録する。
語句分割モジュール１１５は、さらに、検索に用いられた語句を抽出してもよい。ここで「検索に用いられた語句」の検索の指示を行った「ユーザー」は、特徴語リスト作成指示モジュール１０５における特定のユーザーである。例えば、特徴語リスト作成指示モジュール１０５で指示を行った者である。
語句分割モジュール１１５は、さらに、文書に関する人名又は地名に関する語句を抽出するようにしてもよい。
例えば、藤太郎という人名では、名字である藤を、一般辞書を用いて英訳してしまうと「Ｗｉｓｔｅｒｉａ」となってしまうため、人名や地名も特徴語として抽出する必要がある。

特徴語リスト抽出モジュール１２５は、語句分割モジュール１１５、文書管理システム１５０の検索履歴管理モジュール１６０と接続されている。特徴語リスト抽出モジュール１２５は、文書に含まれている第１の語句とその文書の属性に含まれている第２の語句のうち、両方に含まれている語句を、特徴語として抽出する。
さらに、特徴語リスト抽出モジュール１２５は、語句分割モジュール１１５が抽出した検索に用いられた語句を用いて特徴語を抽出するようにしてもよい。「検索に用いられた語句」を第２の語句として特徴語の抽出処理を行う。つまり、文書に含まれている第１の語句と検索に用いられた第２の語句のうち、両方に含まれている語句を特徴語として抽出してもよい。
さらに、特徴語リスト抽出モジュール１２５は、語句分割モジュール１１５が抽出した人名又は地名に関する語句を用いて特徴語を抽出するにしてもよい。「人名又は地名に関する語句」を第２の語句として特徴語の抽出処理を行う。つまり、文書に含まれている第１の語句と人名又は地名に関する第２の語句のうち、両方に含まれている語句を特徴語として抽出してもよい。
また、特徴語リスト抽出モジュール１２５は、文書内の語句の出現率が予め定められた出現率より高い又は以上であり、かつ該当語句が、予め定められた文書割合未満又は以下の文書にだけ存在している場合は、その語句を特徴語として抽出するようにしてもよい。ここで、文書割合とは、対象とした全文書における該当文書（対象としている語句が含まれている文書）の割合であってもよいし、該当文書の数としてもよい。
具体例では、特徴語リスト抽出モジュール１２５は、語句分割モジュール１１５によって分割された語句のうち、特徴語リスト作成指示モジュール１０５で指定された言語と合致する言語の語句について、文書データ管理モジュール１５５で管理しているデータ又は検索履歴管理モジュール１６０で管理している検索履歴を利用して、特徴語リストを抽出する。

図２は、本実施の形態を利用したシステム構成例を示す説明図である。
情報処理装置１００、文書管理システム１５０、ユーザー端末２１０Ａ、ユーザー端末２１０Ｂは、通信回線２９０を介してそれぞれ接続されている。通信回線２９０は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。ユーザーが用いるユーザー端末２１０からの指示によって、文書管理システム１５０内に文書を格納、又は検索等が行われる。そして、ユーザー端末２１０からの指示によって、翻訳辞書における特徴語が抽出される。そして、ユーザー端末２１０でのユーザーの操作によって、その特徴語の対訳が記入され、翻訳辞書が完成する。また、情報処理装置１００、文書管理システム１５０による機能は、クラウドサービスとして実現してもよい。

図３は、本実施の形態による処理例を示すフローチャートである。
ステップＳ３０２では、特徴語リスト作成指示モジュール１０５は、ユーザーの操作に応じて、パラメータを入力する。特徴語リスト作成指示モジュール１０５は、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）、ＣＵＩ（ＣｈａｒａｃｔｅｒＵｓｅｒＩｎｔｅｒｆａｃｅ）等のユーザーインタフェース上でユーザーからのパラメータ入力を受け付ける。例えば、入力すべき項目として、出力すべき特徴語の言語（以下、ｌａｎｇｕａｇｅともいう）、文書管理システム１５０にアクセスするために必要な情報（例えば、ＵＲＬ、ユーザーＩＤ、パスワード等）、特徴語リストの出力パス等がある。また、ステップＳ３０２で、ステップＳ３０４で取得する文書コンテンツの格納パスを指定してもよい。さらに、ステップＳ３１４で使用するしきい値をここで指定してもよい。

ステップＳ３０４では、関連文書取得モジュール１１０は、関連文書を取得する。具体例には、関連文書取得モジュール１１０は、特徴語リスト生成指示モジュール１０５で入力された情報を基にして、文書管理システム１５０に接続し、ユーザーに関連する文書の情報を取得する。関連する文書の判断方法として、例えば、（１）そのユーザーが作成した文書、（２）そのユーザーが閲覧したことがある文書、（３）そのユーザーの検索結果に表れた文書、（４）そのユーザーがアクセス権を有する文書、（５）そのユーザーがバージョン追加した文書、（６）そのユーザーが文書公開した文書等を関連ありとする。また、予め定められた設定により、これらの中から複数の要素を選択して該当する文書を重み付けし、しきい値を超えた文書を関連ありとしてもよい。
文書コンテンツは、予め定められた格納パス、又はステップＳ３０２で指定されたパスに格納する。
文書の属性（例えば、文書ＩＤ、文書名、作成者名、更新者名、文書が所属するフォルダーＩＤ、文書が所属するフォルダー名等）も取得し、記録する（以下、ｐｒｏｐｅｒｔｙＴａｂｌｅ（プロパティテーブル）とする）。例えば、ｐｒｏｐｅｒｔｙＴａｂｌｅ４００として記録する。図４は、ｐｒｏｐｅｒｔｙＴａｂｌｅ４００のデータ構造例を示す説明図である。ｐｒｏｐｅｒｔｙＴａｂｌｅ４００は、文書ＩＤ欄４１０、文書名欄４２０、作成者名欄４３０、更新者名欄４４０、フォルダーＩＤ欄４５０、フォルダー名欄４６０、パス欄４７０を有している。
文書ＩＤ欄４１０は、本実施の形態において、文書を一意に識別するための情報（文書ＩＤ：ＩＤｅｎｔｉｆｉｃａｔｉｏｎ）を記憶している。文書名欄４２０は、その文書の名称を記憶している。作成者名欄４３０は、その文書の作成者名を記憶している。更新者名欄４４０は、その文書の更新者名を記憶している。フォルダーＩＤ欄４５０は、その文書を含むフォルダーであって、本実施の形態において、フォルダーを一意に識別するための情報（フォルダーＩＤ）を記憶している。フォルダー名欄４６０は、そのフォルダーの名称を記憶している。パス欄４７０は、その文書のパス（格納場所）を記憶している。
また、作成者名や更新者名については、姓と名に分けたもの、姓名を連結したもの、姓＋スペース＋名を連結したもの等を用意する（以下、ＮａｍｅＬｉｓｔとする）。ＮａｍｅＬｉｓｔは、文書管理システム１５０から全ユーザーの姓、名を取得できる場合は、これを取得してもよい。文書管理システム１５０が地名（ユーザーの居所等）の情報を保持する場合は、その地名をＮａｍｅＬｉｓｔに入れてもよい。

ステップＳ３０６では、語句分割モジュール１１５は、語句を分割する。語句分割モジュール１１５は、関連文書のコンテンツを語句単位で分割する。具体的には、文書から既存技術によりテキストを抽出し、形態素解析などの既存技術により語句を抽出する。接続詞などの不要データはこの時点で排除する。
語句毎に、出現率、文書ＩＤ、言語判定モジュール１２０により語句の言語を判定した結果を記録する（以下、ｐｈｒａｓｅＴａｂｌｅとする）。例えば、ｐｈｒａｓｅＴａｂｌｅ５００として記録する。図５は、ｐｈｒａｓｅＴａｂｌｅ５００のデータ構造例を示す説明図である。ｐｈｒａｓｅＴａｂｌｅ５００は、語句欄５１０、出現回数欄５２０、出現率欄５３０、文書ＩＤ欄５４０、言語欄５５０を有している。
語句欄５１０は、抽出した語句を記憶している。出現回数欄５２０は、対象としている文書（文書ＩＤ欄５４０）におけるその語句の出現回数を記憶している。出現率欄５３０は、対象としている文書（文書ＩＤ欄５４０）におけるその語句の出現率を記憶している。文書ＩＤ欄５４０は、対象としている文書ＩＤを記憶している。言語欄５５０は、その語句の言語を記憶している。言語判定モジュール１２０では、語句の文字コードなど既存技術を用いて、言語を判定する。その判定結果を言語欄５５０に記憶させる。
例えば、出現率欄５３０での出現率は、（語句の出現回数／文書全体の語句数）＊１００（％）とする。
また、文書内の語句数を文書ＩＤと紐づけて記録する（以下、ｄｏｃｕｍｅｎｔＴａｂｌｅとする）。例えば、ｄｏｃｕｍｅｎｔＴａｂｌｅ６００として記録する。図６は、ｄｏｃｕｍｅｎｔＴａｂｌｅ６００のデータ構造例を示す説明図である。ｄｏｃｕｍｅｎｔＴａｂｌｅ６００は、文書ＩＤ欄６１０、語句数欄６２０を有している。
文書ＩＤ欄６１０は、文書ＩＤを記憶している。語句数欄６２０は、その文書ＩＤの文書に含まれている語句数を記憶している。この語句数欄６２０の値が前述の出現率の式の「文書全体の語句数」に該当する。

ステップＳ３０８では、特徴語リスト抽出モジュール１２５は、検索クエリから特徴語を抽出する。特徴語リスト抽出モジュール１２５は、まず、ｐｈｒａｓｅＴａｂｌｅから言語がｌａｎｇｕａｇｅと同じである語句のリスト（以下、ｐｈｒａｓｅＬｉｓｔとする）を抽出する。以下、特徴語リストをｃａｎｄｉｄａｔｅＬｉｓｔとする。
次に、検索履歴管理モジュール１６０から、すべてのユーザーが検索したクエリ内の語句のリスト（以下、ｑｕｅｒｙＬｉｓｔとする）を抽出する。これにｐｒｏｐｅｒｔｙＴａｂｌｅ中の文書名、フォルダー名をマージする。なお、各要素を形態素解析した結果で分割してもよい。
ｐｈｒａｓｅＬｉｓｔに含まれ、かつ、ｑｕｅｒｙＬｉｓｔ中に含まれる語句はｃａｎｄｉｄａｔｅＬｉｓｔに追加し、追加した語句はｐｈｒａｓｅＬｉｓｔから削除する。ここで、検索クエリは特徴語リスト作成指示モジュール１０５で指定されたユーザーが検索に使用したクエリのみを対象としてもよいし、最近検索された（現在から予め定められた期間内にある）クエリだけを対象としてもよい。また、クエリの検索回数が予め定められたしきい値以上のものだけ対象にしてもよい。
予め、ｐｈｒａｓｅＬｉｓｔに含まれ、かつ、一般的な用語の辞書に含まれない語句を、ｃａｎｄｉｄａｔｅＬｉｓｔに追加し、該当語句をｐｈｒａｓｅＬｉｓｔから削除した上で上記の処理を始めてもよい。

ステップＳ３１０では、特徴語リスト抽出モジュール１２５は、ユーザー名から特徴語を抽出する。特徴語リスト抽出モジュール１２５は、ＮａｍｅＬｉｓｔ中に含まれ、かつｐｈｒａｓｅＬｉｓｔに含まれている語句をｃａｎｄｉｄａｔｅＬｉｓｔに追加し、追加した語句はｐｈｒａｓｅＬｉｓｔから削除する。

ステップＳ３１２では、特徴語リスト抽出モジュール１２５は、階層構造から特徴語を抽出する。特徴語リスト抽出モジュール１２５は、ｐｈｒａｓｅＬｉｓｔの中から、特定の文書にのみ出現率が高い語句を抽出する。
ｐｈｒａｓｅＬｉｓｔ中の語句の出現率が、予め特徴語リスト作成指示モジュール１０５などで設定しておいたしきい値（例えば、０．５％等）を超える語句が、予め特徴語リスト作成指示モジュール１０５などで設定しておいたしきい値以下（例えば、１個、全文書数の１％以下などの指定が可能）の文書割合しか存在しなかった場合は、その語句をｃａｎｄｉｄａｔｅＬｉｓｔに追加し、ｐｈｒａｓｅＬｉｓｔから削除する。
文書単位の出現率に代えて、又は追加して、階層構造を考慮し、フォルダー内での語句の出現率を使用してもよい。この場合には、ｄｏｃｕｍｅｎｔＴａｂｌｅの文書ＩＤとｐｒｏｐｅｒｔｙＴａｂｌｅ中の文書ＩＤを突き合わせ、文書が所属するフォルダーＩＤを取得する。これを基にｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅとＦｏｌｄｅｒＴａｂｌｅを作成し、同様の処理を行う。さらに、上の階層のフォルダー単位で同様の処理を行ってもよい。

ステップＳ３１４では、特徴語リスト抽出モジュール１２５は、特徴語リストを出力する。特徴語リスト抽出モジュール１２５は、特徴語リスト作成指示モジュール１０５で指定された特徴語リストの出力パスに特徴語リストを出力する。出力形式は一般的にはＣＳＶ形式があるが、これに限らない。
なお、ステップＳ３０８からステップＳ３１２の処理は、それぞれ予め定められた設定（これらのステップのいずれか１つの処理の選択、２つの組み合わせの選択、又は２つ以上の組み合わせを選択した場合は、処理の順番の設定）で選択的に実施してもよい。

図７は、本実施の形態による処理例を示す説明図である。文書管理システム１５０内の文書データ管理モジュール１５５が管理している文書の階層構造、属性の例を示したものである。
キャビネット７１０は、フォルダーと同等の機能を有しており、下位にフォルダー７２０、フォルダー７３０を有している。キャビネット７１０の属性として、名前（フォルダー名）：「開発キャビネット」を有している。
フォルダー７２０は、下位に文書７２２、文書７２４を有している。フォルダー７２０の属性として、フォルダーＩＤ：「Ｆｏｌｄｅｒ−１」、名前（フォルダー名）：「ＷｏｒｋｉｎｇＦｏｌｄｅｒ」を有している。文書７２２の属性として、文書ＩＤ：「Ｄｏｃ−３」、名前（文書名）：「マニュアル．ｐｄｆ」、作成者：「藤太郎」（ユーザー７８２）、更新者：「藤太郎」を有している。文書７２４の属性として、文書ＩＤ：「Ｄｏｃ−１」、名前（文書名）：「アクセス権設計書．ｄｘｘｘ」、作成者：「藤太郎」、更新者：「藤太郎」を有している。なお、「藤」は、植物としての名称（ｗｉｓｔｅｒｉａ）と姓として用いられる場合がある。一般的な翻訳辞書では、「藤」と植物としての名称の対が登録されている。
フォルダー７３０は、下位にフォルダー７３２、文書７３４を有している。フォルダー７３０の属性として、フォルダーＩＤ：「Ｆｏｌｄｅｒ−２」、名前（フォルダー名）：「スキャン翻訳」を有している。フォルダー７３２の属性として、フォルダーＩＤ：「Ｆｏｌｄｅｒ−３」を有している。文書７３４の属性として、文書ＩＤ：「Ｄｏｃ−２」、名前（文書名）：「ジョブ管理の仕様．Ｄｘｘｘ」、作成者：「藤花子」（ユーザー７８４）、更新者：「藤花子」を有している。

図８は、検索履歴テーブル８００のデータ構造例を示す説明図である。文書管理システム１５０内の検索履歴管理モジュール１６０が管理している検索履歴の例を示したものである。
検索履歴テーブル８００は、検索日時欄８１０、検索者欄８２０、クエリ欄８３０、ヒット文書ＩＤ欄８４０、閲覧した文書欄８５０を有している。検索日時欄８１０は、検索が行われた日時（年、月、日、時、分、秒、秒以下、又はこれらの組み合わせであってもよい）を記憶している。検索者欄８２０は、その検索の指示を行った者の名称（ユーザーＩＤであってもよい）を記憶している。クエリ欄８３０は、検索に用いられたクエリ（キーワード）を記憶している。ヒット文書ＩＤ欄８４０は、その検索によってヒットした文書の文書ＩＤを記憶している。閲覧した文書欄８５０は、その検索の結果、閲覧まで行われた文書の文書ＩＤを記憶している。

図９は、本実施の形態による処理例を示す説明図である。ステップＳ３０２（特徴語リスト作成指示モジュール１０５）での処理例を示したものである。
辞書作成支援ツール画面９００には、言語指定欄９１０、出力パス指定欄９２０、ＵＲＬ指定欄９３０、ユーザーＩＤ指定欄９４０、パスワード指定欄９５０、語句の出現率指定欄９６０、出現文書数指定欄９７０、閉じるボタン９９６、ＯＫボタン９９２、キャンセルボタン９９４を表示する。
言語指定欄９１０は、特徴語の言語を指定するためのものである。
出力パス指定欄９２０は、特徴語を出力するパス名（ファイル名）を指定するためのものである。
ＵＲＬ指定欄９３０は、対象としている文書が格納されているパス（フォルダーのパス）を指定するためのものである。
ユーザーＩＤ指定欄９４０は、文書管理システム１５０にアクセスするための操作者のユーザー名（又は対象とする文書に関連付けられているユーザー名）を指定するためのものである。
パスワード指定欄９５０は、文書管理システム１５０にアクセスするための操作者のパスワードを指定するためのものである。
語句の出現率指定欄９６０は、特徴語リスト抽出モジュール１２５がしきい値として用いるための語句の出現率を指定するためのものである。
出現文書数指定欄９７０は、特徴語リスト抽出モジュール１２５がしきい値として用いるための出現文書数を指定するためのものである。
ＯＫボタン９９２が選択されると、言語指定欄９１０等で指定された値で、情報処理装置１００による処理が開始される。キャンセルボタン９９４が選択されると、言語指定欄９１０等で指定された値をクリアして初期状態に戻る。閉じるボタン９９６が選択されると、辞書作成支援ツール画面９００そのものを消去する。

図１０は、ｐｒｏｐｅｒｔｙＴａｂｌｅ１０００のデータ構造例を示す説明図である。ステップＳ３０４（関連文書取得モジュール１１０）での処理例を示したものである。
ｐｒｏｐｅｒｔｙＴａｂｌｅ１０００は、関連文書取得モジュール１１０が、藤太郎が作成と閲覧した文書を関連文書とした場合の関連文書データを収集した結果を示している。
ｐｒｏｐｅｒｔｙＴａｂｌｅ１０００は、文書ＩＤ欄１０１０、文書名欄１０２０、作成者欄１０３０、更新者欄１０４０、フォルダーＩＤ欄１０５０、フォルダー名欄１０６０を有している。各欄は、それぞれ図４の例に示したｐｒｏｐｅｒｔｙＴａｂｌｅ４００の文書ＩＤ欄４１０、文書名欄４２０、作成者名欄４３０、更新者名欄４４０、フォルダーＩＤ欄４５０、フォルダー名欄４６０と同等のものである。ｐｒｏｐｅｒｔｙＴａｂｌｅ１０００の内容は、図７の例に示したものを示している。
また、ｐｒｏｐｅｒｔｙＴａｂｌｅ１０００から、ＮａｍｅＬｉｓｔとして次のものを生成する。
[藤,太郎,藤太郎,藤太郎,藤太郎,花子,藤花子,藤花子,藤花子]
これは、ｐｒｏｐｅｒｔｙＴａｂｌｅ１０００の作成者欄１０３０、更新者欄１０４０から抽出した姓：「藤」、名：「太郎」のユーザー７８２、姓：「藤」、名：「花子」のユーザー７８４から生成したものである。具体例には、姓と名に分けたもの、姓名を連結したもの、姓＋スペース（半角と全角の両方）＋名を連結したものである。

図１１、１２、１３、１４は、ｐｈｒａｓｅＴａｂｌｅ１１００、ｐｈｒａｓｅＴａｂｌｅ１２００、ｐｈｒａｓｅＴａｂｌｅ１３００、ｄｏｃｕｍｅｎｔＴａｂｌｅ１４００のデータ構造例を示す説明図である。ステップＳ３０６（語句分割モジュール１１５）での処理例を示したものである。ここでは名詞を選択しているが、動詞などの品詞を選択してもよい。
ｐｈｒａｓｅＴａｂｌｅ１１００は、文書ＩＤ：Ｄｏｃ−１に関するｐｈｒａｓｅＴａｂｌｅである。ｐｈｒａｓｅＴａｂｌｅ１１００は、語句欄１１１０、出現回数欄１１２０、出現率欄１１３０、文書ＩＤ欄１１４０、言語欄１１５０を有している。
ｐｈｒａｓｅＴａｂｌｅ１２００は、文書ＩＤ：Ｄｏｃ−２に関するｐｈｒａｓｅＴａｂｌｅである。ｐｈｒａｓｅＴａｂｌｅ１２００は、語句欄１２１０、出現回数欄１２２０、出現率欄１２３０、文書ＩＤ欄１２４０、言語欄１２５０を有している。
ｐｈｒａｓｅＴａｂｌｅ１３００は、文書ＩＤ：Ｄｏｃ−３に関するｐｈｒａｓｅＴａｂｌｅである。ｐｈｒａｓｅＴａｂｌｅ１３００は、語句欄１３１０、出現回数欄１３２０、出現率欄１３３０、文書ＩＤ欄１３４０、言語欄１３５０を有している。
各テーブルのデータ構造は、図５の例に示したｐｈｒａｓｅＴａｂｌｅ５００のデータ構造と同等である。
なお、ｐｈｒａｓｅＴａｂｌｅ１１００、ｐｈｒａｓｅＴａｂｌｅ１２００、ｐｈｒａｓｅＴａｂｌｅ１３００を組み合わせて１つのテーブルとしてもよい。
ｐｈｒａｓｅＴａｂｌｅ１１００の場合について説明する。語句分割モジュール１１５は、文書ＩＤ：「Ｄｏｃ−１」の文書から語句を抽出し、語句欄１１１０に格納し、その文書におけるその語句の出現回数を計数し、出現回数欄１１２０に格納し、出現回数欄１１２０とｄｏｃｕｍｅｎｔＴａｂｌｅ１４００の語句数欄１４２０を用いて出現率を算出し、出現率欄１１３０に格納し、対象とした文書の文書ＩＤを文書ＩＤ欄１１４０に格納し、対象としている語句の言語（その言語に対しての言語判定モジュール１２０による処理結果）を言語欄１１５０に格納する。ｐｈｒａｓｅＴａｂｌｅ１２００、ｐｈｒａｓｅＴａｂｌｅ１３００についても、それぞれ文書ＩＤ：「Ｄｏｃ−２」の文書、文書ＩＤ：「Ｄｏｃ−３」の文書を対象として、同様に生成される。

図１４は、ｄｏｃｕｍｅｎｔＴａｂｌｅ１４００のデータ構造例を示す説明図である。ステップＳ３０６（語句分割モジュール１１５）での処理例を示したものである。
ｄｏｃｕｍｅｎｔＴａｂｌｅ１４００は、文書ＩＤ欄１４１０、語句数欄１４２０を有している。データ構造は、図６の例に示したｄｏｃｕｍｅｎｔＴａｂｌｅ６００のデータ構造と同等である。
語句分割モジュール１１５は、対象としている文書の文書ＩＤを文書ＩＤ欄１４１０に格納し、その文書における語句数を計数し、語句数欄１４２０に格納する。なお、語句数は、文書内のすべての語句を対象としてもよいし、ｐｈｒａｓｅＴａｂｌｅ１１００等が対象としている品詞（ｐｈｒａｓｅＴａｂｌｅ１１００の場合は名詞）の語句数を計数してもよい。

図１５は、本実施の形態による処理例を示す説明図である。ステップＳ３０８（特徴語リスト抽出モジュール１２５）での処理例を示したものである。
図１５（ａ）の例に示すように、ｑｕｅｒｙＬｉｓｔ（形態素解析済み）を、次のように生成する。
[アクセス権,スキャン,翻訳,スキャン翻訳,ジョブ,管理,ジョブ管理,設計書,マニュアル,仕様]
ｑｕｅｒｙＬｉｓｔ内の語句は、検索履歴テーブル８００とｐｒｏｐｅｒｔｙＴａｂｌｅ１０００から生成したものであり、検索履歴テーブル８００（クエリ欄８３０）とｐｒｏｐｅｒｔｙＴａｂｌｅ１０００（文書名欄１０２０、作成者欄１０３０）内の語句を抽出し、形態素解析を行った結果である。
図１５（ａ）の例に示すように、ｐｈｒａｓｅＬｉｓｔ（日本語指定）を、次のように生成する。
[藤,太郎,アクセス権,設計,ドロワー,単位,設定,花子,ジョブ,ジョブ数,変更,キャビネット,ログイン]
ｐｈｒａｓｅＬｉｓｔ内の語句は、ｐｈｒａｓｅＴａｂｌｅ１１００、ｐｈｒａｓｅＴａｂｌｅ１２００、ｐｈｒａｓｅＴａｂｌｅ１３００から生成したものであり、言語（言語欄１１５０、言語欄１２５０、言語欄１３５０）が日本語である語句（語句欄１１１０、語句欄１２１０、語句欄１３１０）を抽出したものである。
なお、ｃａｎｄｉｄａｔｅＬｉｓｔは、処理当初は、図１５（ａ）の例に示すように、空である。

そして、特徴語リスト抽出モジュール１２５の処理結果は、図１５（ｂ）の例に示すようなｃａｎｄｉｄａｔｅＬｉｓｔ、ｐｈｒａｓｅＬｉｓｔになる。
具体例には、ｑｕｅｒｙＬｉｓｔとｐｈｒａｓｅＬｉｓｔの両方に出現している語句である「アクセス権」、「ジョブ」（図１５（ａ）内では矩形で囲っている語句）をｃａｎｄｉｄａｔｅＬｉｓｔに入れる。つまり、ｃａｎｄｉｄａｔｅＬｉｓｔを次のように生成する。
[アクセス権,ジョブ]
また、ｐｈｒａｓｅＬｉｓｔは、図１５（ａ）の状態から、ｃａｎｄｉｄａｔｅＬｉｓｔに入れた語句ある「アクセス権」、「ジョブ」（図１５（ａ）内では矩形で囲っている語句）を消去する。つまり、ｐｈｒａｓｅＬｉｓｔを次のように生成する。
[藤,太郎,設計,ドロワー,単位,設定,花子,ジョブ数,変更,キャビネット,ログイン]

図１６は、本実施の形態による処理例を示す説明図である。ステップＳ３１０（特徴語リスト抽出モジュール１２５）での処理例を示したものである。
この時点で、図１６（ａ）の例に示すように、ＮａｍｅＬｉｓｔは以下の通り（前述したものと同じ）である。
[藤,太郎,藤太郎,藤太郎,藤太郎,花子,藤花子,藤花子,藤花子]
ｃａｎｄｉｄａｔｅＬｉｓｔは以下の通り（図１５（ｂ）の例に示したものと同じ）である。
[アクセス権,ジョブ]
ｐｈｒａｓｅＬｉｓｔは以下の通り（図１５（ｂ）の例に示したものと同じ）である。
[藤,太郎,設計,ドロワー,単位,設定,花子,ジョブ数,変更,キャビネット,ログイン]

そして、特徴語リスト抽出モジュール１２５の処理結果は、図１６（ｂ）の例に示すようなｃａｎｄｉｄａｔｅＬｉｓｔ、ｐｈｒａｓｅＬｉｓｔになる。
具体例には、ＮａｍｅＬｉｓｔとｐｈｒａｓｅＬｉｓｔの両方に出現している語句である「藤」、「太郎」、「花子」（図１６（ａ）内では矩形で囲っている語句）をｃａｎｄｉｄａｔｅＬｉｓｔに入れる。つまり、ｃａｎｄｉｄａｔｅＬｉｓｔを次のように生成する。
[アクセス権,ジョブ,藤,太郎,花子]
また、ｐｈｒａｓｅＬｉｓｔは、図１６（ａ）の状態から、ｃａｎｄｉｄａｔｅＬｉｓｔに入れた語句ある「藤」、「太郎」、「花子」（図１６（ａ）内では矩形で囲っている語句）を消去する。つまり、ｐｈｒａｓｅＬｉｓｔを次のように生成する。
[設計,ドロワー,単位,設定,ジョブ数,変更,キャビネット,ログイン]

図１７は、本実施の形態による処理例を示す説明図である。ステップＳ３１２（特徴語リスト抽出モジュール１２５）での処理例を示したものである。
この時点で、図１７（ａ）の例に示すように、ｐｈｒａｓｅＬｉｓｔは以下の通り（図１６（ｂ）の例に示したものと同じ）である。
[設計,ドロワー,単位,設定,ジョブ数, 変更,キャビネット,ログイン]
ｃａｎｄｉｄａｔｅＬｉｓｔは以下の通り（図１６（ｂ）の例に示したものと同じ）である。
[アクセス権,ジョブ,藤,太郎,花子]

そして、特徴語リスト抽出モジュール１２５の処理結果は、図１７（ｂ）の例に示すようなｃａｎｄｉｄａｔｅＬｉｓｔ、ｐｈｒａｓｅＬｉｓｔになる。
具体例には、図１８、１９、２０の例に示すｐｈｒａｓｅＴａｂｌｅ１８００、ｐｈｒａｓｅＴａｂｌｅ１９００、ｐｈｒａｓｅＴａｂｌｅ２０００を用いる。なお、それぞれ図１１、１２、１３の例に示したｐｈｒａｓｅＴａｂｌｅ１１００、ｐｈｒａｓｅＴａｂｌｅ１２００、ｐｈｒａｓｅＴａｂｌｅ１３００と同等のものである。
出現率０．５％以上で１つの文書だけ出現するものを特徴語とした場合（図９の例に示した辞書作成支援ツール画面９００内の語句の出現率指定欄９６０と出現文書数指定欄９７０で指定されたしきい値）、「ジョブ数」（図１９の例に示すｐｈｒａｓｅＴａｂｌｅ１９００内の条件合致行１９９０）と「キャビネット」（図２０の例に示すｐｈｒａｓｅＴａｂｌｅ２０００内の条件合致判断行２０９０）が特徴語と判断される。
そして、ｃａｎｄｉｄａｔｅＬｉｓｔに、語句「ジョブ数」、「キャビネット」（図１７（ｂ）内では矩形で囲っている語句）を付加して、次のように生成する。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット]
また、ｐｈｒａｓｅＬｉｓｔから語句「ジョブ数」、「キャビネット」（図１７（ｂ）内では矩形で囲っている語句）を消去して、次のように生成する。
[設計,ドロワー,単位,設定,変更,ログイン]

図２１は、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２１００のデータ構造例を示す説明図である。ステップＳ３１２（ステップ特徴語リスト抽出モジュール１２５（フォルダー考慮））での処理例を示したものである。
ここでの処理では、フォルダーの構成（文書が含まれているフォルダー）を用いている。
この時点で、ｃａｎｄｉｄａｔｅＬｉｓｔは以下の通り（図１７（ｂ）の例に示したものと同じ）である。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット]
ｐｈｒａｓｅＬｉｓｔは以下の通り（図１７（ｂ）の例に示したものと同じ）である。
[設計,ドロワー,単位,設定,変更,ログイン]

具体的な処理では、図２１、２２、２３の例に示すｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２１００、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２２００、ＦｏｌｄｅｒＴａｂｌｅ２３００を用いる。なお、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２１００、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２２００のデータ構造は、図５の例に示したｐｈｒａｓｅＴａｂｌｅ５００と同等のものである。ただし、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２１００、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２２００はフォルダー（そのフォルダーに含まれている文書群）を対象としているので、ｐｈｒａｓｅＴａｂｌｅ５００の文書ＩＤ欄５４０の代わりに、フォルダーＩＤ欄２１４０、フォルダーＩＤ欄２２４０は、対象としているフォルダーＩＤ（本実施の形態において、フォルダーを一意に識別するための情報）を記憶している。なお、図７の例に示したように、Ｆｏｌｄｅｒ−１には、２つの文書が含まれているので、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２１００は、ｐｈｒａｓｅＴａｂｌｅ１１００とｐｈｒａｓｅＴａｂｌｅ１３００を合体させたものであり、Ｆｏｌｄｅｒ−２には、１つの文書だけが含まれているので、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２２００はｐｈｒａｓｅＴａｂｌｅ１２００と同等のもの（もちろんのことながら、文書ＩＤ欄１２４０とフォルダーＩＤ欄２２４０は異なる）である。もちろんのことながら、出現率欄（２１３０、２２３０）の出現率は、（語句の出現回数／フォルダー内の文書全体の語句数）＊１００（％）である。また、ＦｏｌｄｅｒＴａｂｌｅ２３００のデータ構造は、図６の例に示したｄｏｃｕｍｅｎｔＴａｂｌｅ６００と同等のものである。ただし、ＦｏｌｄｅｒＴａｂｌｅ２３００は、フォルダー（そのフォルダーに含まれている文書群）を対象としているので、ｄｏｃｕｍｅｎｔＴａｂｌｅ６００の文書ＩＤ欄６１０の代わりに、フォルダーＩＤ欄２３１０は対象としているフォルダーＩＤを記憶している。また、語句数欄２３２０は、そのフォルダー内の文書群における語句数を記憶している。具体的には、Ｆｏｌｄｅｒ−１には２つの文書（Ｄｏｃ−３とＤｏｃ−１）があり、図１４の例に示すように、各１０００語ずつであるので、合計２０００語となり、Ｆｏｌｄｅｒ−２には１つの文書（Ｄｏｃ−２）があり、図１４の例に示すように、１０００語であるので、Ｆｏｌｄｅｒ−２でも１０００語である。これらの値が出現率を求める式における分母（フォルダー内の文書全体の語句数）に該当する。
ここで、フォルダー内の文書における語句（具体例には、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２１００、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２２００）に対して、特定のフォルダーにのみ出現率が高い語句を抽出する。
具体例には、出現率０．５％以上で１つのフォルダーだけ出現するものを特徴語とした場合（図９の例に示した辞書作成支援ツール画面９００内の語句の出現率指定欄９６０と出現文書数指定欄９７０で指定されたしきい値。なお、出現文書数指定欄９７０で指定されたしきい値は、その語句が出現したフォルダー数を示している）、「ドロワー」（図２１の例に示すｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２１００内の条件合致行２１９０）が特徴語と判断される。
そして、ｃａｎｄｉｄａｔｅＬｉｓｔに、語句「ドロワー」を付加して、次のように生成する。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット,ドロワー]
また、ｐｈｒａｓｅＬｉｓｔから語句「ドロワー」を消去して、次のように生成する。
[設計,単位,設定,変更,ログイン]
なお、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２１００、ｐｈｒａｓｅＦｏｌｄｅｒＴａｂｌｅ２２００、ＦｏｌｄｅｒＴａｂｌｅ２３００は、ｐｈｒａｓｅＴａｂｌｅ１１００を生成したステップＳ３０６で生成してもよい。

図２４は、本実施の形態による処理例を示す説明図である。ステップＳ３１４（特徴語リスト抽出モジュール１２５）での処理例を示したものである。
前述の通り、ｃａｎｄｉｄａｔｅＬｉｓｔは、図２４（ａ）の例に示すように、次のようになっている。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット,ドロワー]
このｃａｎｄｉｄａｔｅＬｉｓｔを、ファイル（例えば、ＣＳＶファイル）として、図９の例に示した辞書作成支援ツール画面９００内の出力パス指定欄９２０で指定されたパスに出力する。そのファイルの内容例を、図２４（ｂ）に示す。Ａ欄（１〜８行目）にｃａｎｄｉｄａｔｅＬｉｓｔ内の各語句が格納されている。ユーザーの操作によって、対応するＢ欄（１〜８行目）に対訳（又は原文）が記載されることによって、特徴語の翻訳辞書が完成する。
この特徴語の翻訳辞書を、機械翻訳処理装置に渡し、その機械翻訳処理装置は、この特徴語の翻訳辞書を元の翻訳辞書に加えて翻訳処理を実行する。

なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図２５に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部（演算部）としてＣＰＵ２５０１を用い、記憶装置としてＲＡＭ２５０２、ＲＯＭ２５０３、ＨＤ２５０４を用いている。ＨＤ２５０４として、例えばハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）を用いてもよい。特徴語リスト作成指示モジュール１０５、関連文書取得モジュール１１０、語句分割モジュール１１５、言語判定モジュール１２０、特徴語リスト抽出モジュール１２５等のプログラムを実行するＣＰＵ２５０１と、そのプログラムやデータを記憶するＲＡＭ２５０２と、本コンピュータを起動するためのプログラム等が格納されているＲＯＭ２５０３と、文書データ管理モジュール１５５、検索履歴管理モジュール１６０等の機能を有する補助記憶装置（フラッシュメモリ等であってもよい）であるＨＤ２５０４と、キーボード、マウス、タッチパネル、マイク等に対する利用者の操作に基づいてデータを受け付ける受付装置２５０６と、ＣＲＴ、液晶ディスプレイ、スピーカー等の出力装置２５０５と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース２５０７、そして、それらをつないでデータのやりとりをするためのバス２５０８により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。

前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図２５に示すハードウェア構成は、１つの構成例を示すものであり、本実施の形態は、図２５に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア（例えば特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）等）で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図２５に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器（携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む）、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機（スキャナ、プリンタ、複写機、ファックス等のいずれか２つ以上の機能を有している画像処理装置）などに組み込まれていてもよい。

前述の実施の形態においては、言語判定モジュール１２０による判定結果（語句毎の言語）を用いるようにしているが、言語判定モジュール１２０による判定結果を用いないで、特徴語リストを作成するようにしてもよい。この場合、複数の言語による語句が特徴語として抽出され得ることとなる。
また、前述の実施の形態の説明において、予め定められた値等との比較において、「以上」、「以下」、「より大きい」、「より小さい（未満）」としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい（未満）」、「以上」、「以下」としてもよい。

なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク（ＤＶＤ）であって、ＤＶＤフォーラムで策定された規格である「ＤＶＤ−Ｒ、ＤＶＤ−ＲＷ、ＤＶＤ−ＲＡＭ等」、ＤＶＤ＋ＲＷで策定された規格である「ＤＶＤ＋Ｒ、ＤＶＤ＋ＲＷ等」、コンパクトディスク（ＣＤ）であって、読出し専用メモリ（ＣＤ−ＲＯＭ）、ＣＤレコーダブル（ＣＤ−Ｒ）、ＣＤリライタブル（ＣＤ−ＲＷ）等、ブルーレイ・ディスク（Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃ）、光磁気ディスク（ＭＯ）、フレキシブルディスク（ＦＤ）、磁気テープ、ハードディスク、読出し専用メモリ（ＲＯＭ）、電気的消去及び書換可能な読出し専用メモリ（ＥＥＰＲＯＭ（登録商標））、フラッシュ・メモリ、ランダム・アクセス・メモリ（ＲＡＭ）、ＳＤ（ＳｅｃｕｒｅＤｉｇｉｔａｌ）メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。

１００…情報処理装置
１０５…特徴語リスト作成指示モジュール
１１０…関連文書取得モジュール
１１５…語句分割モジュール
１２０…言語判定モジュール
１２５…特徴語リスト抽出モジュール
１５０…文書管理システム
１５５…文書データ管理モジュール
１６０…検索履歴管理モジュール
２１０…ユーザー端末
２９０…通信回線

Claims

文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する抽出手段
を具備することを特徴とする情報処理装置。
前記第一の意味は、一般的な意味であり、
前記第二の意味は、特定の分野向けの意味である
ことを特徴とする請求項１に記載の情報処理装置。
前記抽出手段は、さらに、検索に用いられた語句を抽出し、
該検索に用いられた語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出する
ことを特徴とする請求項１又は２に記載の情報処理装置。
前記抽出手段は、さらに、前記文書に関する人名又は地名に関する語句を抽出し、
該抽出した人名又は地名に関する語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出する
ことを特徴とする請求項１から３のいずれか一項に記載の情報処理装置。
前記抽出手段は、前記文書内の語句の出現率が予め定められた出現率より高い又は以上であり、該語句が前記文書のうち予め定められた文書割合未満又は以下の文書にだけ存在している場合は、該語句を第一の意味及び第一の意味とは異なる第二の意味を有する語句として抽出する
ことを特徴とする請求項１から４のいずれか一項に記載の情報処理装置。
コンピュータを、
文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する抽出手段
として機能させるための情報処理プログラム。