JP6554841B2 - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP6554841B2
JP6554841B2 JP2015051951A JP2015051951A JP6554841B2 JP 6554841 B2 JP6554841 B2 JP 6554841B2 JP 2015051951 A JP2015051951 A JP 2015051951A JP 2015051951 A JP2015051951 A JP 2015051951A JP 6554841 B2 JP6554841 B2 JP 6554841B2
Authority
JP
Japan
Prior art keywords
phrase
document
translation
language
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015051951A
Other languages
English (en)
Other versions
JP2016173618A (ja
Inventor
透 大塚
透 大塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2015051951A priority Critical patent/JP6554841B2/ja
Publication of JP2016173618A publication Critical patent/JP2016173618A/ja
Application granted granted Critical
Publication of JP6554841B2 publication Critical patent/JP6554841B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、無駄な作業を抑えながら、辞書に必要な情報を登録させることができるようにすることを課題とし、辞書作成支援システムは、辞書登録候補語の情報を辞書作成支援履歴と共に格納する履歴保存データベースを有し、また、テキストデータ列を取り込む入力手段と、入力されたテキストデータ列を解析して、所定の候補化条件を満たす辞書登録候補語を抽出し、履歴保存データベースにおける辞書登録候補語の情報を更新する候補語抽出・更新手段と、履歴保存データベースに記述されている辞書登録候補語のうち、辞書作成支援履歴についての条件も含め、所定の提示条件に合致したものを提示する候補語提示手段と、提示された辞書登録候補語に対する辞書登録の有無を取り込む登録指示取込手段と、候補語提示手段又は登録指示取込手段の処理に応じ、履歴保存データベースに記述されている辞書作成支援履歴を更新する履歴更新手段とを備えることが開示されている。
特許文献2には、日本語用語とその訳語の推定結果の対応の確からしさを示す対応確信度の精度を向上させ、未登録単語の自動登録を可能にすることを課題とし、訳語推定部は、抽出された日本語用語に対して1つ以上の訳語候補を推定し、追加訳語抽出部は、日本語用語とその訳語候補の組のうち日本語用語に含まれる単語で日英対訳辞書に登録されていない単語の数と、訳語候補に含まれる単語で日英対訳辞書に登録されていない単語の数とを調べ、日本語用語及び訳語候補に含まれる単語のうち日英対訳辞書の未登録単語の数がいずれも1である場合には、追加訳語抽出部は、これらの単語同士の対応関係が十分に確からしいものと判断してテーブルに記録して出現頻度を求め、出現頻度(対応確信度)が高い場合には、日英対訳辞書に登録すべき追加訳語として決定し、これにより、精度の高い対応確信度を得ることができ、対訳辞書の自動登録が可能となることが開示されている。
特開2008−083952号公報 特開2002−366546号公報
先行技術においては、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、翻訳辞書に登録すべき語句を抽出するための技術として、指定された文書を語句に分割し、一般的な用語の辞書に載っていない語句を翻訳辞書に登録すべき語句の候補とするものがある。これにより、造語や固有名詞といった翻訳辞書に登録すべき語句を抽出することができる。
これらの技術では、翻訳辞書に登録すべき語句を抽出するだけにすぎず、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態では、ユーザー自身が抽出された語句に対応する原文又は対訳を入力しなければならなかった。
本発明は、文書に対する検索履歴又は利用者に関する属性情報を用いて、翻訳辞書に登録すべき原文と対訳の組み合わせの候補を抽出することを目的とした情報処理装置及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、利用者に関する属性情報から、第1の言語によって表現されている語句と、該語句と対になる語句であって第2の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段を具備し、前記抽出手段は、前記利用者に関する属性情報から、該利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、前記抽出手段は、前記利用者に関する属性情報としての氏名とメールアドレスから、該利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、前記氏名と前記メールアドレスとは異なる言語であって、該メールアドレス内を予め定められたルールによって分割したものを姓と名に対応付ける、ことを特徴とする情報処理装置である。
請求項2の発明は、文書に対する検索履歴から、第1の言語によって表現されている語句と、該語句と対になる語句であって第2の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段を具備し、前記抽出手段は、前記検索履歴から、第1の検索指示を行った利用者の使用言語と第2の検索指示を行った利用者の使用言語が異なる場合であって、該第1の検索指示内の語句の表記と該第2の検索指示内の語句の表記が同じときは、該語句の2つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、対訳がない語句である場合は、ユーザーによって原文と対訳の組み合わせを完成させる、ことを特徴とする情報処理装置である。
請求項3の発明は、コンピュータを、利用者に関する属性情報から、第1の言語によって表現されている語句と、該語句と対になる語句であって第2の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段として機能させ、前記抽出手段は、前記利用者に関する属性情報から、該利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、前記抽出手段は、前記利用者に関する属性情報としての氏名とメールアドレスから、該利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、前記氏名と前記メールアドレスとは異なる言語であって、該メールアドレス内を予め定められたルールによって分割したものを姓と名に対応付ける、情報処理プログラムである。
請求項4の発明は、コンピュータを、文書に対する検索履歴から、第1の言語によって表現されている語句と、該語句と対になる語句であって第2の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段として機能させ、前記抽出手段は、前記検索履歴から、第1の検索指示を行った利用者の使用言語と第2の検索指示を行った利用者の使用言語が異なる場合であって、該第1の検索指示内の語句の表記と該第2の検索指示内の語句の表記が同じときは、該語句の2つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、対訳がない語句である場合は、ユーザーによって原文と対訳の組み合わせを完成させる、情報処理プログラムである。
請求項1の情報処理装置によれば、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、原文と対訳の組み合わせを含んでいる可能性がある利用者に関する属性情報を用いて、翻訳辞書に登録すべき原文と対訳の組み合わせの候補を抽出することができる。また、利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出することができる。また、利用者の氏名とメールアドレスから、その利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出することができる。
請求項2の情報処理装置によれば、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、原文と対訳の組み合わせを含んでいる可能性がある検索履歴を用いて、翻訳辞書に登録すべき原文と対訳の組み合わせの候補を抽出することができる。また、使用言語が異なる利用者による検索指示内の語句の表記が同じ場合は、その語句の2つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出することができる。
請求項3の情報処理プログラムによれば、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、原文と対訳の組み合わせを含んでいる可能性がある利用者に関する属性情報を用いて、翻訳辞書に登録すべき原文と対訳の組み合わせの候補を抽出することができる。また、利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出することができる。また、利用者の氏名とメールアドレスから、その利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出することができる。
請求項4の情報処理プログラムによれば、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、原文と対訳の組み合わせを含んでいる可能性がある検索履歴を用いて、翻訳辞書に登録すべき原文と対訳の組み合わせの候補を抽出することができる。また、使用言語が異なる利用者による検索指示内の語句の表記が同じ場合は、その語句の2つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出することができる。
第1の形態の構成例についての概念的なモジュール構成図である。 本実施の形態を利用したシステム構成例を示す説明図である。 第1の形態による処理例を示すフローチャートである。 propertyTableのデータ構造例を示す説明図である。 phraseTableのデータ構造例を示す説明図である。 documentTableのデータ構造例を示す説明図である。 第1の形態による処理例を示す説明図である。 検索履歴テーブルのデータ構造例を示す説明図である。 第1の形態による処理例を示す説明図である。 propertyTableのデータ構造例を示す説明図である。 phraseTableのデータ構造例を示す説明図である。 phraseTableのデータ構造例を示す説明図である。 phraseTableのデータ構造例を示す説明図である。 documentTableのデータ構造例を示す説明図である。 第1の形態による処理例を示す説明図である。 第1の形態による処理例を示す説明図である。 第1の形態による処理例を示す説明図である。 phraseTableのデータ構造例を示す説明図である。 phraseTableのデータ構造例を示す説明図である。 phraseTableのデータ構造例を示す説明図である。 phraseFolderTableのデータ構造例を示す説明図である。 phraseFolderTableのデータ構造例を示す説明図である。 FolderTableのデータ構造例を示す説明図である。 第1の形態による処理例を示す説明図である。 第2の形態の構成例についての概念的なモジュール構成図である。 第2の形態による処理例を示すフローチャートである。 第2の形態による処理例を示す説明図である。 第2の形態による処理例を示す説明図である。 第2の形態による処理例を示す説明図である。 第2の形態による処理例を示す説明図である。 第2の形態による処理例を示す説明図である。 第2の形態による処理例を示す説明図である。 第2の形態による処理例を示す説明図である。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
まず、本実施の形態を説明する前に、その前提又は本実施の形態を利用する機械翻訳処理について説明する。なお、この説明は、本実施の形態の理解を容易にすることを目的とするものである。
機械翻訳処理では、「翻訳辞書」を利用することにより翻訳精度を向上させることが可能である。翻訳辞書の内容は、原語と対訳の対を1つのペアとする複数のペア情報である。例えば、英語から日本語への翻訳に用いる英日辞書において、原語:「Working Folder」、対訳:「Working Folder」とすることにより、固有名詞である「Working Folder」を日本語に翻訳したときに「仕事フォルダー」などの正しくない日本語に翻訳することを防ぐことができる。さらに、一般的な意味のほかに、例えば、コンピュータ分野等のような特定の分野向けの意味も有する語句(以下、特徴語とする)を対象とした場合、一般的な意味で翻訳されてしまうため、翻訳辞書に予め特定の分野向けの意味を登録しておく必要もある。なお、一般的な意味とは広辞苑や大辞典等の国語辞書に記載されている、語句の意味をいい、特定分野向けの意味とは、コンピュータ分野等の専門性のある特定の分野のみで使われている、語句の意味をいう。
また、「スポーツ」や「特許」など、一般的に用いられる需要のある分野の辞書は、その分野固有の翻訳辞書が販売されている。しかし、製品や社内用語など狭い範囲の分野における翻訳辞書は販売されておらず、手動で翻訳辞書を作成するのが一般的である。しかしながら、手動による辞書作成は煩雑であるため、辞書作成支援装置が提案されている。
以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
<<第1の実施の形態>>
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、すべての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
第1の形態である情報処理装置100は、翻訳辞書の作成を支援するものであって、図1の例に示すように、特徴語リスト作成指示モジュール105、関連文書取得モジュール110、語句分割モジュール115、言語判定モジュール120、特徴語リスト抽出モジュール125を有している。
情報処理装置100は、文書とその文書の属性に含まれる語句から翻訳辞書における原文又は対訳の候補のいずれか一方を抽出する。ただし、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で行う。以下、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方を特徴語ともいう。
特に、情報処理装置100は、一般的な意味だけでなく、特定の分野向けの意味も有する語句(人名等を含む)について、特徴語として抽出するものである。
例えば、「アクセス権」は、一般的には「知る権利(right of access)」を意味するが、コンピュータを用いたドキュメント管理の分野では「オブジェクトにアクセスするための権利(permission)」を意味する。先行技術文献に開示されている技術では、ドキュメント管理に関する翻訳辞書に登録すべき候補として「アクセス権」を挙げることができない。他にもドキュメント管理の分野における「キャビネット」、「ドロワー」などで同様の状況となる。ここで、上記に挙げた一般的な意味の他に特定の分野向けの意味も有する語句を特徴語とする。
文書管理システム150は、コンテンツ・マネジメント・システム(CMS)とも呼ばれており、文書を管理するものである。ここで文書とは、主にテキストデータ、場合によっては図形、画像、動画、音声等の電子データ(ファイルともいわれる)、又はこれらの組み合わせであり、記憶、編集及び検索等の対象となり、システム又は利用者間で個別の単位として交換できるものをいい、これらに類似するものを含む。具体的には、文書作成プログラムによって作成された文書、Webページ等を含む。
文書管理システム150によって管理されている文書、フォルダー(以下に例示するキャビネット、ドロワー等を含む)の属性として使用されている語句、検索クエリで使用される語句(例えば、検索に用いたキーワード等)は、特徴的な語句である場合が多い。情報処理装置100は、これらの語句を特徴語として抽出する。また、情報処理装置100は、文書管理システム150内の文書内の語句の出現頻度を用いて、特定の状況で多く出現する語句を特徴語として抽出する。
文書管理システム150は、文書データ管理モジュール155、検索履歴管理モジュール160を有している。文書管理システム150は、フォルダー(子オブジェクトを持つことができるオブジェクト)や文書を格納し、他の装置(情報処理装置100等)からのアクセスに対応する。
文書データ管理モジュール155は、情報処理装置100の関連文書取得モジュール110と接続されている。文書データ管理モジュール155は、文書管理システム150において、文書やフォルダーの情報(コンテンツや属性)を管理する。
検索履歴管理モジュール160は、情報処理装置100の特徴語リスト抽出モジュール125と接続されている。検索履歴管理モジュール160は、ユーザーの文書検索履歴を管理する。具体例には、文書管理システム150において、どのユーザーがどの検索クエリを使用してどの文書が検索結果としてヒットし、その後どの文書を閲覧したかを記録する。
特徴語リスト作成指示モジュール105は、関連文書取得モジュール110と接続されている。特徴語リスト作成指示モジュール105は、翻訳辞書の特徴語リストの作成を指示する。例えば、マウス、キーボード、タッチパネル、音声、視線、ジェスチャ等を用いたユーザーの操作によって、指示を受け付けるようにしてもよい。
関連文書取得モジュール110は、特徴語リスト作成指示モジュール105、語句分割モジュール115、文書管理システム150の文書データ管理モジュール155と接続されている。関連文書取得モジュール110は、特徴語リスト作成指示モジュール105の指示により文書データ管理モジュール155で管理している文書の中から、特定のユーザーに関連する文書情報を取得し記録する。ここで「特定のユーザー」とは、特徴語リスト作成指示モジュール105によって指示されたユーザーであってもよいし、特徴語リスト作成指示モジュール105での操作を行ったユーザーであってもよい。
言語判定モジュール120は、語句分割モジュール115と接続されている。言語判定モジュール120は、語句分割モジュール115によって分割された語句の言語を判定する。
語句分割モジュール115は、関連文書取得モジュール110、言語判定モジュール120、特徴語リスト抽出モジュール125と接続されている。語句分割モジュール115は、文書とその文書の属性から語句を抽出する。具体例には、語句分割モジュール115は、関連文書取得モジュール110で取得した文書コンテンツ(文書の内容)を語句単位に分割し、文書毎に関連文書取得モジュール110で取得した文書の属性情報、語句の出現頻度、言語判定モジュール120で判定された言語情報を関連付けて記録する。
語句分割モジュール115は、さらに、検索に用いられた語句を抽出してもよい。ここで「検索に用いられた語句」の検索の指示を行った「ユーザー」は、特徴語リスト作成指示モジュール105における特定のユーザーである。例えば、特徴語リスト作成指示モジュール105で指示を行った者である。
語句分割モジュール115は、さらに、文書に関する人名又は地名に関する語句を抽出するようにしてもよい。例えば、藤太郎という人名では、名字である藤を、一般辞書を用いて英訳してしまうと「Wisteria」となってしまうため、人名や地名も特徴語として抽出する必要がある。
特徴語リスト抽出モジュール125は、語句分割モジュール115、文書管理システム150の検索履歴管理モジュール160と接続されている。特徴語リスト抽出モジュール125は、文書に含まれている第1の語句とその文書の属性に含まれている第2の語句のうち、両方に含まれている語句を、特徴語として抽出する。
さらに、特徴語リスト抽出モジュール125は、語句分割モジュール115が抽出した検索に用いられた語句を用いて特徴語を抽出するようにしてもよい。「検索に用いられた語句」を第2の語句として特徴語の抽出処理を行う。つまり、文書に含まれている第1の語句と検索に用いられた第2の語句のうち、両方に含まれている語句を特徴語として抽出処理を行うようにしてもよい。
さらに、特徴語リスト抽出モジュール125は、語句分割モジュール115が抽出した人名又は地名に関する語句を用いて特徴語を抽出するにしてもよい。「人名又は地名に関する語句」を第2の語句として特徴語の抽出処理を行う。つまり、文書に含まれている第1の語句と人名又は地名に関する第2の語句のうち、両方に含まれている語句を特徴語として抽出処理を行うようにしてもよい。
また、特徴語リスト抽出モジュール125は、文書内の語句の出現率が予め定められた出現率より高い又は以上であり、かつ該語句が、文書のうち予め定められた文書割合未満又は以下の文書にだけ存在している場合は、その語句を特徴語として抽出するようにしてもよい。ここで、文書割合とは、対象とした全文書における該当文書(対象としている語句が含まれている文書)の割合であってもよいし、該当文書の数としてもよい。
具体例では、特徴語リスト抽出モジュール125は、語句分割モジュール115によって分割された語句のうち、特徴語リスト作成指示モジュール105で指定された言語と合致する言語の語句について、文書データ管理モジュール155で管理しているデータ又は検索履歴管理モジュール160で管理している検索履歴を利用して、特徴語リストを抽出する。
図2は、本実施の形態を利用したシステム構成例を示す説明図である。
情報処理装置100、文書管理システム150、ユーザー端末210A、ユーザー端末210Bは、通信回線290を介してそれぞれ接続されている。通信回線290は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。ユーザーが用いるユーザー端末210からの指示によって、文書管理システム150内に文書を格納、又は検索等が行われる。そして、ユーザー端末210からの指示によって、翻訳辞書における特徴語が抽出される。そして、ユーザー端末210でのユーザーの操作によって、その特徴語の対訳が記入され、翻訳辞書が完成する。また、情報処理装置100、文書管理システム150による機能は、クラウドサービスとして実現してもよい。なお、第2の実施の形態では、情報処理装置100を情報処理装置2500、文書管理システム150を文書管理システム2550とすればよく、ユーザー端末210では、ユーザーによって情報処理装置2500の処理結果の確認、修正等が行われる。
図3は、第1の形態による処理例を示すフローチャートである。
ステップS302では、特徴語リスト作成指示モジュール105は、ユーザーの操作に応じて、パラメータを入力する。特徴語リスト作成指示モジュール105は、GUI(Graphical User Interface)、CUI(Character User Interface)等のユーザーインタフェース上でユーザーからのパラメータ入力を受け付ける。例えば、入力すべき項目として、出力すべき特徴語の言語(以下、languageともいう)、文書管理システム150にアクセスするために必要な情報(例えば、URL、ユーザーID、パスワード等)、特徴語リストの出力パス等がある。また、ステップS302で、ステップS304で取得する文書コンテンツの格納パスを指定してもよい。さらに、ステップS314で使用するしきい値をここで指定してもよい。
ステップS304では、関連文書取得モジュール110は、関連文書を取得する。具体例には、関連文書取得モジュール110は、特徴語リスト生成指示モジュール105で入力された情報を基にして、文書管理システム150に接続し、ユーザーに関連する文書の情報を取得する。関連する文書の判断方法として、例えば、(1)そのユーザーが作成した文書、(2)そのユーザーが閲覧したことがある文書、(3)そのユーザーの検索結果に表れた文書、(4)そのユーザーがアクセス権を有する文書、(5)そのユーザーがバージョン追加した文書、(6)そのユーザーが文書公開した文書等を関連ありとする。また、予め定められた設定により、これらの中から複数の要素を選択して該当する文書を重み付けし、しきい値を超えた文書を関連ありとしてもよい。
文書コンテンツは、予め定められた格納パス、又はステップS302で指定されたパスに格納する。
文書の属性(例えば、文書ID、文書名、作成者名、更新者名、文書が所属するフォルダーID、文書が所属するフォルダー名等)も取得し、記録する(以下、propertyTable(プロパティテーブル)とする)。例えば、propertyTable400として記録する。図4は、propertyTable400のデータ構造例を示す説明図である。propertyTable400は、文書ID欄410、文書名欄420、作成者名欄430、更新者名欄440、フォルダーID欄450、フォルダー名欄460、パス欄470を有している。
文書ID欄410は、第1の形態において、文書を一意に識別するための情報(文書ID:IDentification)を記憶している。文書名欄420は、その文書の名称を記憶している。作成者名欄430は、その文書の作成者名を記憶している。更新者名欄440は、その文書の更新者名を記憶している。フォルダーID欄450は、その文書を含むフォルダーであって、第1の形態において、フォルダーを一意に識別するための情報(フォルダーID)を記憶している。フォルダー名欄460は、そのフォルダーの名称を記憶している。パス欄470は、その文書のパス(格納場所)を記憶している。
また、作成者名や更新者名については、姓と名に分けたもの、姓名を連結したもの、姓+スペース+名を連結したもの等を用意する(以下、NameListとする)。NameListは、文書管理システム150から全ユーザーの姓、名を取得できる場合は、これを取得してもよい。文書管理システム150が地名(ユーザーの居所等)の情報を保持する場合は、その地名をNameListに入れてもよい。
ステップS306では、語句分割モジュール115は、語句を分割する。語句分割モジュール115は、関連文書のコンテンツを語句単位で分割する。具体的には、文書から既存技術によりテキストを抽出し、形態素解析などの既存技術により語句を抽出する。接続詞などの不要データはこの時点で排除する。
語句毎に、出現率、文書ID、言語判定モジュール120により語句の言語を判定した結果を記録する(以下、phraseTableとする)。例えば、phraseTable500として記録する。図5は、phraseTable500のデータ構造例を示す説明図である。phraseTable500は、語句欄510、出現回数欄520、出現率欄530、文書ID欄540、言語欄550を有している。
語句欄510は、抽出した語句を記憶している。出現回数欄520は、対象としている文書(文書ID欄540)におけるその語句の出現回数を記憶している。出現率欄530は、対象としている文書(文書ID欄540)におけるその語句の出現率を記憶している。文書ID欄540は、対象としている文書IDを記憶している。言語欄550は、その語句の言語を記憶している。言語判定モジュール120では、語句の文字コードなど既存技術を用いて、言語を判定する。その判定結果を言語欄550に記憶させる。
例えば、出現率欄530での出現率は、(語句の出現回数/文書全体の語句数)*100(%)とする。
また、文書内の語句数を文書IDと紐付けて記録する(以下、documentTableとする)。例えば、documentTable600として記録する。図6は、documentTable600のデータ構造例を示す説明図である。documentTable600は、文書ID欄610、語句数欄620を有している。
文書ID欄610は、文書IDを記憶している。語句数欄620は、その文書IDの文書に含まれている語句数を記憶している。この語句数欄620の値が前述の出現率の式の「文書全体の語句数」に該当する。
ステップS308では、特徴語リスト抽出モジュール125は、検索クエリから特徴語を抽出する。特徴語リスト抽出モジュール125は、まず、phraseTableから言語がlanguageと同じである語句のリスト(以下、phraseListとする)を抽出する。以下、特徴語リストをcandidateListとする。
次に、検索履歴管理モジュール160から、すべてのユーザーが検索したクエリ内の語句のリスト(以下、queryListとする)を抽出する。これにpropertyTable中の文書名、フォルダー名をマージする。なお、各要素を形態素解析した結果で分割してもよい。
phraseListに含まれ、かつ、queryList中に含まれる語句はcandidateListに追加し、追加した語句はphraseListから削除する。ここで、検索クエリは特徴語リスト作成指示モジュール105で指定されたユーザーが検索に使用したクエリのみを対象としてもよいし、最近検索された(現在から予め定められた期間内にある)クエリだけを対象としてもよい。また、クエリの検索回数が予め定められたしきい値以上のものだけ対象にしてもよい。
予め、phraseListに含まれ、かつ、一般的な用語の辞書に含まれない語句を、candidateListに追加し、該当語句をphraseListから削除した上で上記の処理を始めてもよい。
ステップS310では、特徴語リスト抽出モジュール125は、ユーザー名から特徴語を抽出する。特徴語リスト抽出モジュール125は、NameList中に含まれ、かつphraseListに含まれている語句をcandidateListに追加し、追加した語句はphraseListから削除する。
ステップS312では、特徴語リスト抽出モジュール125は、階層構造から特徴語を抽出する。特徴語リスト抽出モジュール125は、phraseListの中から、特定の文書にのみ出現率が高い語句を抽出する。
phraseList中の語句の出現率が、予め特徴語リスト作成指示モジュール105などで設定しておいたしきい値(例えば、0.5%等)を超える語句が、予め特徴語リスト作成指示モジュール105などで設定しておいたしきい値以下(例えば、1個、全文書数の1%以下などの指定が可能)の文書割合しか存在しなかった場合は、その語句をcandidateListに追加し、phraseListから削除する。
文書単位の出現率に代えて、又は追加して、階層構造を考慮し、フォルダー内での語句の出現率を使用してもよい。この場合には、documentTableの文書IDとpropertyTable中の文書IDを突き合わせ、文書が所属するフォルダーIDを取得する。これを基にphraseFolderTableとFolderTableを作成し、同様の処理を行う。さらに、上の階層のフォルダー単位で同様の処理を行ってもよい。
ステップS314では、特徴語リスト抽出モジュール125は、特徴語リストを出力する。特徴語リスト抽出モジュール125は、特徴語リスト作成指示モジュール105で指定された特徴語リストの出力パスに特徴語リストを出力する。出力形式は一般的にはCSV形式があるが、これに限らない。
なお、ステップS308からステップS312の処理は、それぞれ予め定められた設定(これらのステップのいずれか1つの処理の選択、2つの組み合わせの選択、又は2つ以上の組み合わせを選択した場合は、処理の順番の設定)で選択的に実施してもよい。
図7は、第1の形態による処理例を示す説明図である。文書管理システム150内の文書データ管理モジュール155が管理している文書の階層構造、属性の例を示したものである。
キャビネット710は、フォルダーと同等の機能を有しており、下位にフォルダー720、フォルダー730を有している。キャビネット710の属性として、名前(フォルダー名):「開発キャビネット」を有している。
フォルダー720は、下位に文書722、文書724を有している。フォルダー720の属性として、フォルダーID:「Folder−1」、名前(フォルダー名):「WorkingFolder」を有している。文書722の属性として、文書ID:「Doc−3」、名前(文書名):「マニュアル.pdf」、作成者:「藤 太郎」(ユーザー782)、更新者:「藤 太郎」を有している。文書724の属性として、文書ID:「Doc−1」、名前(文書名):「アクセス権設計書.dxxx」、作成者:「藤 太郎」、更新者:「藤 太郎」を有している。なお、「藤」は、植物としての名称(wisteria)と姓として用いられる場合がある。一般的な翻訳辞書では、「藤」と植物としての名称の対が登録されている。
フォルダー730は、下位にフォルダー732、文書734を有している。フォルダー730の属性として、フォルダーID:「Folder−2」、名前(フォルダー名):「スキャン翻訳」を有している。フォルダー732の属性として、フォルダーID:「Folder−3」を有している。文書734の属性として、文書ID:「Doc−2」、名前(文書名):「ジョブ管理の仕様.Dxxx」、作成者:「藤 花子」(ユーザー784)、更新者:「藤 花子」を有している。
図8は、検索履歴テーブル800のデータ構造例を示す説明図である。文書管理システム150内の検索履歴管理モジュール160が管理している検索履歴の例を示したものである。
検索履歴テーブル800は、検索日時欄810、検索者欄820、クエリ欄830、ヒット文書ID欄840、閲覧した文書欄850を有している。検索日時欄810は、検索が行われた日時(年、月、日、時、分、秒、秒以下、又はこれらの組み合わせであってもよい)を記憶している。検索者欄820は、その検索の指示を行った者の名称(ユーザーIDであってもよい)を記憶している。クエリ欄830は、検索に用いられたクエリ(キーワード)を記憶している。ヒット文書ID欄840は、その検索によってヒットした文書の文書IDを記憶している。閲覧した文書欄850は、その検索の結果、閲覧まで行われた文書の文書IDを記憶している。
図9は、第1の形態による処理例を示す説明図である。ステップS302(特徴語リスト作成指示モジュール105)での処理例を示したものである。
辞書作成支援ツール画面900には、言語指定欄910、出力パス指定欄920、URL指定欄930、ユーザーID指定欄940、パスワード指定欄950、語句の出現率指定欄960、出現文書数指定欄970、閉じるボタン996、OKボタン992、キャンセルボタン994を表示する。
言語指定欄910は、特徴語の言語を指定するためのものである。
出力パス指定欄920は、特徴語を出力するパス名(ファイル名)を指定するためのものである。
URL指定欄930は、対象としている文書が格納されているパス(フォルダーのパス)を指定するためのものである。
ユーザーID指定欄940は、文書管理システム150にアクセスするための操作者のユーザー名(又は対象とする文書に関連付けられているユーザー名)を指定するためのものである。
パスワード指定欄950は、文書管理システム150にアクセスするための操作者のパスワードを指定するためのものである。
語句の出現率指定欄960は、特徴語リスト抽出モジュール125がしきい値として用いるための語句の出現率を指定するためのものである。
出現文書数指定欄970は、特徴語リスト抽出モジュール125がしきい値として用いるための出現文書数を指定するためのものである。
OKボタン992が選択されると、言語指定欄910等で指定された値で、情報処理装置100による処理が開始される。キャンセルボタン994が選択されると、言語指定欄910等で指定された値をクリアして初期状態に戻る。閉じるボタン996が選択されると、辞書作成支援ツール画面900そのものを消去する。
図10は、propertyTable1000のデータ構造例を示す説明図である。ステップS304(関連文書取得モジュール110)での処理例を示したものである。
propertyTable1000は、関連文書取得モジュール110が、藤太郎が作成と閲覧した文書を関連文書とした場合の関連文書データを収集した結果を示している。
propertyTable1000は、文書ID欄1010、文書名欄1020、作成者欄1030、更新者欄1040、フォルダーID欄1050、フォルダー名欄1060を有している。各欄は、それぞれ図4の例に示したpropertyTable400の文書ID欄410、文書名欄420、作成者名欄430、更新者名欄440、フォルダーID欄450、フォルダー名欄460と同等のものである。propertyTable1000の内容は、図7の例に示したものを示している。
また、propertyTable1000から、NameListとして次のものを生成する。
[藤,太郎,藤太郎,藤 太郎,藤 太郎,花子,藤花子,藤 花子,藤 花子]
これは、propertyTable1000の作成者欄1030、更新者欄1040から抽出した姓:「藤」、名:「太郎」のユーザー782、姓:「藤」、名:「花子」のユーザー784から生成したものである。具体例には、姓と名に分けたもの、姓名を連結したもの、姓+スペース(半角と全角の両方)+名を連結したものである。
図11、12、13、14は、phraseTable1100、phraseTable1200、phraseTable1300、documentTable1400のデータ構造例を示す説明図である。ステップS306(語句分割モジュール115)での処理例を示したものである。ここでは名詞を選択しているが、動詞などの品詞を選択してもよい。
phraseTable1100は、文書ID:Doc−1に関するphraseTableである。phraseTable1100は、語句欄1110、出現回数欄1120、出現率欄1130、文書ID欄1140、言語欄1150を有している。
phraseTable1200は、文書ID:Doc−2に関するphraseTableである。phraseTable1200は、語句欄1210、出現回数欄1220、出現率欄1230、文書ID欄1240、言語欄1250を有している。
phraseTable1300は、文書ID:Doc−3に関するphraseTableである。phraseTable1300は、語句欄1310、出現回数欄1320、出現率欄1330、文書ID欄1340、言語欄1350を有している。
各テーブルのデータ構造は、図5の例に示したphraseTable500のデータ構造と同等である。
なお、phraseTable1100、phraseTable1200、phraseTable1300を組み合わせて1つのテーブルとしてもよい。
phraseTable1100の場合について説明する。語句分割モジュール115は、文書ID:「Doc−1」の文書から語句を抽出し、語句欄1110に格納し、その文書におけるその語句の出現回数を計数し、出現回数欄1120に格納し、出現回数欄1120とdocumentTable1400の語句数欄1420を用いて出現率を算出し、出現率欄1130に格納し、対象とした文書の文書IDを文書ID欄1140に格納し、対象としている語句の言語(その言語に対しての言語判定モジュール120による処理結果)を言語欄1150に格納する。phraseTable1200、phraseTable1300についても、それぞれ文書ID:「Doc−2」の文書、文書ID:「Doc−3」の文書を対象として、同様に生成される。
図14は、documentTable1400のデータ構造例を示す説明図である。ステップS306(語句分割モジュール115)での処理例を示したものである。
documentTable1400は、文書ID欄1410、語句数欄1420を有している。データ構造は、図6の例に示したdocumentTable600のデータ構造と同等である。
語句分割モジュール115は、対象としている文書の文書IDを文書ID欄1410に格納し、その文書における語句数を計数し、語句数欄1420に格納する。なお、語句数は、文書内のすべての語句を対象としてもよいし、phraseTable1100等が対象としている品詞(phraseTable1100の場合は名詞)の語句数を計数してもよい。
図15は、第1の形態による処理例を示す説明図である。ステップS308(特徴語リスト抽出モジュール125)での処理例を示したものである。
図15(a)の例に示すように、queryList(形態素解析済み)を、次のように生成する。
[アクセス権,スキャン,翻訳,スキャン翻訳,ジョブ,管理,ジョブ管理,設計書,マニュアル,仕様]
queryList内の語句は、検索履歴テーブル800とpropertyTable1000から生成したものであり、検索履歴テーブル800(クエリ欄830)とpropertyTable1000(文書名欄1020、作成者欄1030)内の語句を抽出し、形態素解析を行った結果である。
図15(a)の例に示すように、phraseList(日本語指定)を、次のように生成する。
[藤,太郎,アクセス権,設計,ドロワー,単位,設定,花子,ジョブ,ジョブ数,変更,キャビネット,ログイン]
phraseList内の語句は、phraseTable1100、phraseTable1200、phraseTable1300から生成したものであり、言語(言語欄1150、言語欄1250、言語欄1350)が日本語である語句(語句欄1110、語句欄1210、語句欄1310)を抽出したものである。
なお、candidateListは、処理当初は、図15(a)の例に示すように、空である。
そして、特徴語リスト抽出モジュール125の処理結果は、図15(b)の例に示すようなcandidateList、phraseListになる。
具体例には、queryListとphraseListの両方に出現している語句である「アクセス権」、「ジョブ」(図15(a)内では矩形で囲っている語句)をcandidateListに入れる。つまり、candidateListを次のように生成する。
[アクセス権,ジョブ]
また、phraseListは、図15(a)の状態から、candidateListに入れた語句ある「アクセス権」、「ジョブ」(図15(a)内では矩形で囲っている語句)を消去する。つまり、phraseListを次のように生成する。
[藤,太郎,設計,ドロワー,単位,設定,花子,ジョブ数,変更,キャビネット,ログイン]
図16は、第1の形態による処理例を示す説明図である。ステップS310(特徴語リスト抽出モジュール125)での処理例を示したものである。
この時点で、図16(a)の例に示すように、NameListは以下の通り(前述したものと同じ)である。
[藤,太郎,藤太郎,藤 太郎,藤 太郎,花子,藤花子,藤 花子,藤 花子]
candidateListは以下の通り(図15(b)の例に示したものと同じ)である。
[アクセス権,ジョブ]
phraseListは以下の通り(図15(b)の例に示したものと同じ)である。
[藤,太郎,設計,ドロワー,単位,設定,花子,ジョブ数,変更,キャビネット,ログイン]
そして、特徴語リスト抽出モジュール125の処理結果は、図16(b)の例に示すようなcandidateList、phraseListになる。
具体例には、NameListとphraseListの両方に出現している語句である「藤」、「太郎」、「花子」(図16(a)内では矩形で囲っている語句)をcandidateListに入れる。つまり、candidateListを次のように生成する。
[アクセス権,ジョブ,藤,太郎,花子]
また、phraseListは、図16(a)の状態から、candidateListに入れた語句ある「藤」、「太郎」、「花子」(図16(a)内では矩形で囲っている語句)を消去する。つまり、phraseListを次のように生成する。
[設計,ドロワー,単位,設定,ジョブ数,変更,キャビネット,ログイン]
図17は、第1の形態による処理例を示す説明図である。ステップS312(特徴語リスト抽出モジュール125)での処理例を示したものである。
この時点で、図17(a)の例に示すように、phraseListは以下の通り(図16(b)の例に示したものと同じ)である。
[設計,ドロワー,単位,設定,ジョブ数, 変更,キャビネット,ログイン]
candidateListは以下の通り(図16(b)の例に示したものと同じ)である。
[アクセス権,ジョブ,藤,太郎,花子]
そして、特徴語リスト抽出モジュール125の処理結果は、図17(b)の例に示すようなcandidateList、phraseListになる。
具体例には、図18、19、20の例に示すphraseTable1800、phraseTable1900、phraseTable2000を用いる。なお、それぞれ図11、12、13の例に示したphraseTable1100、phraseTable1200、phraseTable1300と同等のものである。
出現率0.5%以上で1つの文書だけ出現するものを特徴語とした場合(図9の例に示した辞書作成支援ツール画面900内の語句の出現率指定欄960と出現文書数指定欄970で指定されたしきい値)、「ジョブ数」(図19の例に示すphraseTable1900内の条件合致行1990)と「キャビネット」(図20の例に示すphraseTable2000内の条件合致判断行2090)が特徴語と判断される。
そして、candidateListに、語句「ジョブ数」、「キャビネット」(図17(b)内では矩形で囲っている語句)を付加して、次のように生成する。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット]
また、phraseListから語句「ジョブ数」、「キャビネット」(図17(b)内では矩形で囲っている語句)を消去して、次のように生成する。
[設計,ドロワー,単位,設定,変更,ログイン]
図21は、phraseFolderTable2100のデータ構造例を示す説明図である。ステップS312(ステップ特徴語リスト抽出モジュール125(フォルダー考慮))での処理例を示したものである。
ここでの処理では、フォルダーの構成(文書が含まれているフォルダー)を用いている。
この時点で、candidateListは以下の通り(図17(b)の例に示したものと同じ)である。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット]
phraseListは以下の通り(図17(b)の例に示したものと同じ)である。
[設計,ドロワー,単位,設定,変更,ログイン]
具体的な処理では、図21、22、23の例に示すphraseFolderTable2100、phraseFolderTable2200、FolderTable2300を用いる。なお、phraseFolderTable2100、phraseFolderTable2200のデータ構造は、図5の例に示したphraseTable500と同等のものである。ただし、phraseFolderTable2100、phraseFolderTable2200はフォルダー(そのフォルダーに含まれている文書群)を対象としているので、phraseTable500の文書ID欄540の代わりに、フォルダーID欄2140、フォルダーID欄2240は、対象としているフォルダーID(第1の形態において、フォルダーを一意に識別するための情報)を記憶している。なお、図7の例に示したように、Folder−1には、2つの文書が含まれているので、phraseFolderTable2100は、phraseTable1100とphraseTable1300を合体させたものであり、Folder−2には、1つの文書だけが含まれているので、phraseFolderTable2200はphraseTable1200と同等のもの(もちろんのことながら、文書ID欄1240とフォルダーID欄2240は異なる)である。もちろんのことながら、出現率欄(2130、2230)の出現率は、(語句の出現回数/フォルダー内の文書全体の語句数)*100(%)である。また、FolderTable2300のデータ構造は、図6の例に示したdocumentTable600と同等のものである。ただし、FolderTable2300は、フォルダー(そのフォルダーに含まれている文書群)を対象としているので、documentTable600の文書ID欄610の代わりに、フォルダーID欄2310は対象としているフォルダーIDを記憶している。また、語句数欄2320は、そのフォルダー内の文書群における語句数を記憶している。具体的には、Folder−1には2つの文書(Doc−3とDoc−1)があり、図14の例に示すように、各1000語ずつであるので、合計2000語となり、Folder−2には1つの文書(Doc−2)があり、図14の例に示すように、1000語であるので、Folder−2でも1000語である。これらの値が出現率を求める式における分母(フォルダー内の文書全体の語句数)に該当する。
ここで、フォルダー内の文書における語句(具体例には、phraseFolderTable2100、phraseFolderTable2200)に対して、特定のフォルダーにのみ出現率が高い語句を抽出する。
具体例には、出現率0.5%以上で1つのフォルダーだけ出現するものを特徴語とした場合(図9の例に示した辞書作成支援ツール画面900内の語句の出現率指定欄960と出現文書数指定欄970で指定されたしきい値。なお、出現文書数指定欄970で指定されたしきい値は、その語句が出現したフォルダー数を示している)、「ドロワー」(図21の例に示すphraseFolderTable2100内の条件合致行2190)が特徴語と判断される。
そして、candidateListに、語句「ドロワー」を付加して、次のように生成する。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット,ドロワー]
また、phraseListから語句「ドロワー」を消去して、次のように生成する。
[設計,単位,設定,変更,ログイン]
なお、phraseFolderTable2100、phraseFolderTable2200、FolderTable2300は、phraseTable1100を生成したステップS306で生成してもよい。
図24は、第1の形態による処理例を示す説明図である。ステップS314(特徴語リスト抽出モジュール125)での処理例を示したものである。
前述の通り、candidateListは、図24(a)の例に示すように、次のようになっている。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット,ドロワー]
このcandidateListを、ファイル(例えば、CSVファイル)として、図9の例に示した辞書作成支援ツール画面900内の出力パス指定欄920で指定されたパスに出力する。そのファイルの内容例を、図24(b)に示す。A欄(1〜8行目)にcandidateList内の各語句が格納されている。ユーザーの操作によって、対応するB欄(1〜8行目)に対訳(又は原文)が記載されることによって、特徴語の翻訳辞書が完成する。
この特徴語の翻訳辞書を、機械翻訳処理装置に渡し、その機械翻訳処理装置は、この特徴語の翻訳辞書を元の翻訳辞書に加えて翻訳処理を実行する。
<<第2の実施の形態>>
図25は、第2の実施の形態の構成例についての概念的なモジュール構成図を示している。なお、第1の実施の形態と同種の部位には同一符号を付し重複した説明を省略する。
第2の実施の形態である情報処理装置2500は、翻訳辞書の作成を支援するものであって、図25の例に示すように、特徴語リスト作成指示モジュール105、関連文書取得モジュール110、語句分割モジュール115、言語判定モジュール120、特徴語リスト抽出モジュール125、訳語抽出モジュール2530を有している。第1の実施の形態の情報処理装置100に訳語抽出モジュール2530を付加したものである。なお、文書管理システム2550は、文書データ管理モジュール155、検索履歴管理モジュール160、ユーザー情報管理モジュール2565を有している。文書管理システム150に、ユーザー情報管理モジュール2565を付加したものである。
第1の実施の形態では、特徴語を抽出したが、翻訳辞書では原文と対訳の組み合わせが必要であるので、その特徴語に対する対訳(又は原文)を記載する必要がある。第2の実施の形態の情報処理装置2500は、その組み合わせの候補を生成するものである。また、第2の実施の形態においても、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、処理を行う。
情報処理装置2500は、ある言語の検索クエリAで検索又は閲覧された文書と別の言語の検索クエリBで検索又は閲覧された文書が共通する場合、検索クエリAと検索クエリB内の語句には対訳関係ありと判定するものである。
また、ユーザー情報から人名を判別して、対訳を抽出する。
また、検索クエリ、その検索クエリを指示したユーザーの使用言語から、言語によらず固定的にすべき語句を抽出する。
文書管理システム2550の文書データ管理モジュール155は、情報処理装置2500の関連文書取得モジュール110と接続されている。
検索履歴管理モジュール160は、情報処理装置2500の特徴語リスト抽出モジュール125、訳語抽出モジュール2530と接続されている。
ユーザー情報管理モジュール2565は、情報処理装置2500の訳語抽出モジュール2530と接続されている。ユーザー情報管理モジュール2565は、ユーザーに関する情報を管理する。ユーザーに関する情報として、利用者の氏名又は地名における第1の言語の語句と第2の言語の語句の組み合わせを記憶している。例えば、利用者の氏名と住所又は居所が、第1の言語の表記データと第2の言語の表記データによって記載されているテーブルが該当する。また、利用者の氏名とその利用者のメールアドレスを対応させて記憶しているテーブルが該当する。なお、第2の言語とは、もちろんのことながら、第1の語句の言語とは異なる言語である。
情報処理装置2500の特徴語リスト作成指示モジュール105は、関連文書取得モジュール110と接続されている。
関連文書取得モジュール110は、特徴語リスト作成指示モジュール105、語句分割モジュール115、文書管理システム2550の文書データ管理モジュール155と接続されている。
語句分割モジュール115は、関連文書取得モジュール110、言語判定モジュール120、特徴語リスト抽出モジュール125と接続されている。
言語判定モジュール120は、語句分割モジュール115と接続されている。
特徴語リスト抽出モジュール125は、語句分割モジュール115、訳語抽出モジュール2530、文書管理システム2550の検索履歴管理モジュール160と接続されている。
訳語抽出モジュール2530は、特徴語リスト抽出モジュール125、文書管理システム2550の検索履歴管理モジュール160、ユーザー情報管理モジュール2565と接続されている。訳語抽出モジュール2530は、特徴語リスト抽出モジュール125によって抽出された特徴語の対訳を抽出し、翻訳辞書における原文と訳文の組み合わせの候補を生成する。
訳語抽出モジュール2530は、文書に対する検索履歴又は利用者に関する属性情報から語句を抽出する。
そして、抽出した語句から、第1の言語によって表現されている語句と、その語句と対になる語句であって第2の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する。
また、訳語抽出モジュール2530は、検索履歴から、第1の検索指示と第2の検索指示によって共通する文書が検索された場合又はその文書内でその検索指示を行った複数の利用者によって共通する文書が閲覧された場合であって、その第1の検索に用いられた第1の言語の語句と、その第2の検索に用いられた第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出するようにしてもよい。
また、訳語抽出モジュール2530は、利用者に関する属性情報から、その利用者の氏名又は地名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出するようにしてもよい。
また、訳語抽出モジュール2530は、利用者の氏名とメールアドレスから、その利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出するようにしてもよい。
また、訳語抽出モジュール2530は、検索履歴から、第1の検索指示を行った利用者の使用言語と第2の検索指示を行った利用者の使用言語が異なる場合であって、その第1の検索指示内の語句の表記とその第2の検索指示内の語句の表記が同じときは、その語句の2つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出するようにしてもよい。ここで、「第1の検索指示内の語句の表記と第2の検索指示内の語句の表記が同じ」とは、語句の意味が同じだけでなく、その語句の言語も同じことをいう。例えば、アルファベットで表記されている固有名詞の語句が該当する。
図26は、第2の形態による処理例を示すフローチャートである。
ステップS2602では、特徴語リスト作成指示モジュール105は、パラメータを入力する。
ステップS2604では、関連文書取得モジュール110は、関連文書を取得する。
ステップS2606では、語句分割モジュール115は、語句を分割する。
ステップS2608では、特徴語リスト抽出モジュール125は、検索クエリから特徴語を抽出する。
ステップS2610では、特徴語リスト抽出モジュール125は、ユーザー名から特徴語を抽出する。
ステップS2612では、特徴語リスト抽出モジュール125は、階層構造から特徴語を抽出する。
ステップS2614では、特徴語リスト抽出モジュール125は、特徴語リストを出力する。
ステップS2602〜ステップS2614の処理は、図3の例に示したフローチャート内のステップS302〜ステップS314の処理と同等である。
ステップS2616では、訳語抽出モジュール2530は、訳語を指定する。具体例には、訳語抽出モジュール2530は、GUI、CUI等のユーザーインタフェース上でユーザーからの訳語の言語(以下、translationLanguageとする)の指定を受け付ける。なお、translationLanguageは、特徴語リスト作成指示モジュール105で指定してもよい。
また、翻訳辞書データ用の変数(以下、dictionaryとする)を定義する(初期化を含む)。dictionaryは、文字列配列を第一要素、文字列配列を第二要素とするペアのリストである。例えば、プログラミングC♯での表記では、List<Pair<string[], string[]>>である。
ステップS2618では、訳語抽出モジュール2530は、検索クエリによる訳語の抽出を行う。具体例には、訳語抽出モジュール2530は、documentTable中の全文書について以下の処理を行う。
検索履歴管理モジュール160内の情報、言語判定モジュール120を利用し、languageを言語とする検索クエリ(A)とtranslationLanguageを言語とする検索クエリ(B)の両方により、その文書が検索又は閲覧されていたか否かをチェックする。
同じ文書が検索又は閲覧されていた場合、検索クエリ(A)の語句と検索クエリ(B)内の語句を対応付けて記録する(以下、queryPairListとする)。queryPairListの型はdictionaryと同じである。検索クエリ(A)の語句と検索クエリ(B)内の語句は、それぞれが複数ある場合がある。例えば、「アクセス権」という語句の対訳として、「permission」、「ACL」があり、これを示すのに[[アクセス権]:[permission, ACL]]と表記する。
ステップS2620では、訳語抽出モジュール2530は、ユーザー情報を抽出する。具体例には、訳語抽出モジュール2530は、ユーザー情報管理モジュール2565がlanguageとtranslationLanguageの姓名の表示名を保持する場合は、その対応付けを姓/名単位で記録する(以下、userMappingsという)。保持しない場合は、translationLaunguageが英語の場合は、ユーザー情報管理モジュール2565が保持するメールアドレスを、予め定められたルールによって分割したものを姓/名を対応付けて記録する。予め定められたルールについては後述する。
ステップS2622では、訳語抽出モジュール2530は、ユーザー情報による訳語抽出を行う。具体例には、訳語抽出モジュール2530は、candidateList中の全語句に対して、以下の処理を行う。
語句(phrase)がuserMappingsのキーに含まれている場合は、userMappingsの値を唯一の要素とする配列を訳語とする。
含まれていない場合は、queryPairList中の第一要素側にphraseが含まれていたら、第二要素の配列を訳語とする。
訳語を抽出した場合は、phraseと訳語のペアをdictionaryに追加し、candidateListからphraseを削除する。
ステップS2624では、訳語抽出モジュール2530は、言語によらない固有名詞抽出を行う。具体例には、訳語抽出モジュール2530は、検索履歴管理モジュール160、ユーザー情報管理モジュール2565を利用して、検索クエリ単位で、その検索クエリを使用したユーザーの言語を対応付ける(以下、notNativeMappingsとする)。
例えば、日本語、英語、タイ語を使用言語とする3人のユーザーがそれぞれ「Working Folder」で検索した場合、その語句「Working Folder」と「日本語」、「英語」、「タイ語」を対応付ける。これを、[Working Folder]:[日本語,英語,タイ語]と表記する。
検索クエリの言語(前述の「Working Folder」では英語)を言語判定モジュール120で判断させ、検索クエリの言語以外の複数の言語のユーザーから検索されていた場合は、言語によらず翻訳すべきでない固有名詞とみなし、その検索クエリに用いられた語句を唯一の要素とする第一要素及び第二要素として、dictionaryに追加する。つまり、「Working Folder」という語句の2つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補とする。
ステップS2626では、訳語抽出モジュール2530は、訳語を出力する。具体例には、訳語抽出モジュール2530は、訳語が見つからなかったcandidateListのすべての値をdictionaryの唯一の要素とする第一要素とし、第二要素を空として、dictionaryに追加する。特徴語リスト作成指示モジュール105で指定された出力パスにdictionaryの中身を出力する。出力形式は一般的にはCSV形式があるが、これに限らない。
なお、ステップS2618からステップS2624の処理は、それぞれ予め定められた設定(これらのステップのいずれか1つの処理の選択、2つの組み合わせの選択、又は2つ以上の組み合わせを選択した場合は、処理の順番の設定)で選択的に実施してもよい。なお、ステップS2622の処理は、ステップS2618又はステップS2620の処理の後に行う。
図27は、第2の形態による処理例を示す説明図である。ステップS2616(訳語抽出モジュール2530)での処理例を示したものである。なお、ステップS2616の代わりに、ステップS2602(特徴語リスト作成指示モジュール105)で処理を行ってもよい。
辞書作成支援ツール画面2700には、言語指定欄910、訳語の言語指定欄2715、出力パス指定欄920、URL指定欄930、ユーザーID指定欄940、パスワード指定欄950、語句の出現率指定欄960、出現文書数指定欄970、OKボタン992、キャンセルボタン994、閉じるボタン996を表示する。つまり、辞書作成支援ツール画面2700は、図9の例に示した辞書作成支援ツール画面900に訳語の言語指定欄2715を追加したものである。
訳語の言語指定欄2715は、言語指定欄910で指定された言語に対応する言語(translationLanguage)を指定するためのものである。つまり、翻訳辞書における原文と対訳の組み合わせにおける対訳(又は原文)の言語を示したものである。
図28は、第2の形態による処理例を示す説明図である。ステップS2618(訳語抽出モジュール2530)での処理例を示したものである。
documentTable2800は、文書ID欄2805、語句数欄2815を有している。documentTable2800は、図6の例に示したdocumentTable600と同等のデータ構造例を有している。
検索履歴テーブル2850は、検索日時欄2855、検索者欄2860、クエリ欄2865、ヒット文書ID欄2870、閲覧した文書欄2875を有している。検索履歴テーブル2850は、図8の例に示した検索履歴テーブル800と同等のデータ構造例を有している。
図28の例は、文書ID:Doc−1は、検索履歴テーブル2850の1行目と4行目の検索クエリによって検索され、閲覧されたことを示している。つまり、文書ID:Doc−1は、検索クエリ内の語句「アクセス権」と「Permission」で検索され(ヒットし)、閲覧されている。このように、複数の検索クエリで同じ文書が検索された場合は、次のように、queryPairListを生成する。
[アクセス権]:[Permission]
なお、「アクセス権」と「Permission」と「ACL」で検索され、閲覧された場合のqueryPairListは以下のようになる。
[アクセス権]:[Permission、ACL]
「Permission」と「ACL」が同じ言語(英語)と判断されたためである。
なお、ここで、複数の検索クエリは、同じ検索者による検索クエリとしてもよいし、異なる検索者による検索クエリであることを条件としてもよい。
また、同じ文書とは、ヒット文書ID欄2870内の文書が同じことだけで判断してもよい。なお、閲覧した文書欄2875内の文書が同じこととは、ヒット文書ID欄2870内の文書が同じことを前提としている。
また、前述した「Permission」と「ACL」のように、対応する語句が複数ある場合は、検索回数によって優先順位を付けるようにしてもよい。例えば、「Permission」を用いた検索クエリが2回あり、「ACL」を用いた検索クエリが1回の場合は、「Permission」の優先順位が上位となる。そして、ステップS2626で原文と対訳の組み合わせを表示する場合に、1つの原文に対して複数の訳文があることを表示し、優先順位の順番で、その組み合わせを表示するようにしてもよい。
図29は、第2の形態による処理例を示す説明図である。ステップS2620(訳語抽出モジュール2530)での処理例を示したものである。これは、ユーザー情報管理モジュール2565が英語の表示名を日本語の表示名との対で保持している場合の例を示している。
図29(a)の例に示すように、ユーザー情報管理モジュール2565から抽出したユーザー情報(日本語と英語の表示名)は以下の通りである。
[藤 太郎:Fuji Taro,藤 花子:Fuji Hanako]
そして、訳語抽出モジュール2530の処理結果は、図29(b)の例に示すようなuserMappingsになる。
具体例には、ユーザー情報内の各語句を順に対応付ける。つまり、「藤 太郎:Fuji Taro」から、「藤」と「Fuji」、「太郎」と「Taro」を対応付け、「藤 花子:Fuji Hanako」から、「藤」と「Fuji」、「花子」と「Hanako」を対応付け、同じ組み合わせ(この場合は、「藤」と「Fuji」)が複数ある場合は、1つの組み合わせにする。つまり、userMappingsを次のように生成する。
[藤:Fuji, 太郎:Taro, 花子:Hanako]
図30は、第2の形態による処理例を示す説明図である。ステップS2620(訳語抽出モジュール2530)での処理例を示したものである。図29に示した例とは異なり、ユーザー情報管理モジュール2565は、日本語の表示名と英語の表示名との対を保持していない場合の処理を示している。例えば、ユーザー情報管理モジュール2565は、ユーザーの属性として、その氏名(日本語の表示名)、メールアドレスを保持している。
図30(a)の例に示すように、ユーザー情報管理モジュール2565から抽出したユーザー情報(日本語の表示名とメールアドレス)は以下の通りである。
[藤 太郎:Taro.Fuji@example.com,藤 花子:Hanako.Fuji@example.com]
メールアドレスか英語名の表示である氏名を抽出するルールは以下の通りである。
「メールアドレスの先頭から最初のドットまでが名前、それ以降@までが姓」
そして、特徴語リスト抽出モジュール125の処理結果は、図30(b)の例に示すようなuserMappingsになる。
具体例には、前述のルールにしたがって、名前として「Taro」、「Hanako」を抽出し、姓として「Fuji」抽出する。つまり、userMappingsを次のように生成する。
[藤:Fuji, 太郎:Taro, 花子: Hanako]
図31は、第2の形態による処理例を示す説明図である。ステップS2622(訳語抽出モジュール2530)での処理例を示したものである。
この時点で、図31(a)の例に示すように、candidateListは以下の通りである。これは、図24(a)に示す例と同じものである。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット, ドロワー]
userMappingsは以下の通りである。
[藤:Fuji, 太郎:Taro, 花子:Hanako]
queryPairListは以下の通りである。
[アクセス権]:[Permission]
dictionaryは以下の通りである。処理当初であるので、空である。
[]
そして、特徴語リスト抽出モジュール125の処理結果は、図31(b)の例に示すようなdictionary、candidateListになる。
具体例には、candidateList内の語句に対して、userMappings内にあるものを翻訳辞書における対として抽出する。次に、同様に、queryPairList内にあるものを翻訳辞書における対として抽出する。つまり、dictionaryを次のように生成する。
[[[藤],[Fuji]],[[太郎],[Taro]],[[花子],[Hanako]]、[[アクセス権],[Permission]]]
また、candidateListは、図31(a)の状態から、翻訳辞書における対として抽出した語句(図31(b)内では矩形で囲っている語句)を消去する。
つまり、candidateListを次のように生成する。
[ジョブ,ジョブ数,キャビネット, ドロワー]
図32は、第2の形態による処理例を示す説明図である。ステップS2624(訳語抽出モジュール2530)での処理例を示したものである。
検索履歴テーブル3200は、検索日時欄3205、検索者欄3210、クエリ欄3215、ヒット文書ID欄3220、閲覧した文書欄3225を有している。検索履歴テーブル3200は、図8の例に示した検索履歴テーブル800と同等のデータ構造例を有している。これは検索クエリに「Working Folder」を含んでいる検索履歴を収集したものである。
ユーザー3230は、氏名(藤 太郎)3230A、使用言語(日本語)3230Bであり、ユーザー3235は、氏名(藤 花子)3235A、使用言語(日本語)3235Bであり、ユーザー3240は、氏名(John Bryant)3240A、使用言語(英語)3240Bであり、ユーザー3245は、氏名(Lee Chang)3245A、使用言語(繁体字中国語)3245Bである。これらの情報は、ユーザー情報管理モジュール2565が保持している。
訳語抽出モジュール2530は、検索履歴テーブル3200の検索者欄3210から、検索クエリ内で同じ語句(この例では「Working Folder」)を用いた検索者を抽出する。そして、検索履歴テーブル3200の検索者欄3210の検索者について、検索者の使用言語の情報を抽出し、notNativeMappingsを生成する。図32(a)の例に示すように、notNativeMappingsは以下の通りである。
[Working Folder:日本語,英語,繁体字中国語]
次に、言語判定モジュール120を用いて、「Working Folder」は英語であることが判明する。そして、その「Working Folder」の語句をそのままの表記で、検索クエリ内に使用している検索者の使用言語は、英語以外の言語(日本語と繁体字中国語)を含んでいるので、「Working Folder」と「Working Folder」の対(図32(b)内では矩形で囲っている語句の対)をdictionaryに追加する。
つまり、dictionaryを次のように生成する。
[[[藤],[Fuji]],[[太郎],[Taro]],[[花子],[Hanako]]、[[アクセス権],[Permission]],[[Working Folder],[Working Folder]]]
図33は、第2の形態による処理例を示す説明図である。ステップS2626(訳語抽出モジュール2530)での処理例を示したものである。
この時点で、図33(a)の例に示すように、dictionaryは以下の通りである。
[[[藤],[Fuji]],[[太郎],[Taro]],[[花子],[Hanako]]、[[アクセス権],[Permission]],[[Working Folder],[Working Folder]]]
そして、candidateList内に残っている語句(対訳を発見できなかった特徴語、具体例には、「ジョブ」、「ジョブ数」、「キャビネット」、「ドロワー」)を、dictionary内に追加する。ただし、その際、対訳はないので、対訳データは空として、dictionaryを生成する。
具体例には、次のようにdictionaryを生成する。
[[[藤],[Fuji]],[[太郎],[Taro]],[[花子],[Hanako]]、[[アクセス権],[Permission]],[[Working Folder],[Working Folder]],[[ジョブ],[]], [[ジョブ数],[]], [[キャビネット],[]] , [[ドロワー],[]]]
このdictionaryを、ファイル(例えば、CSVファイル)として、図27の例に示した辞書作成支援ツール画面900内の出力パス指定欄920で指定されたパスに出力する。そのファイルの内容例を、図33(b)に示す。A欄にdictionary内の第1語句(原文、言語指定欄910で指定された言語の語句又は、ステップS2624で抽出された語句)が格納されており、B欄にdictionary内の第2語句(訳文、訳語の言語指定欄2715で指定された言語の語句又は、ステップS2624で抽出された語句)が格納されている。ユーザーは、この対を確認し、修正が必要な場合は修正を行う。また、B欄が空である対については、そのB欄に対訳(又は原文)を記載することによって、特徴語の翻訳辞書が完成する。
この特徴語の翻訳辞書を、機械翻訳処理装置に渡し、その機械翻訳処理装置は、この特徴語の翻訳辞書を元の翻訳辞書に加えて翻訳処理を実行する。
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図34に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU3401を用い、記憶装置としてRAM3402、ROM3403、HD3404を用いている。HD3404として、例えばハードディスク、SSD(Solid State Drive)を用いてもよい。特徴語リスト作成指示モジュール105、関連文書取得モジュール110、語句分割モジュール115、言語判定モジュール120、特徴語リスト抽出モジュール125、訳語抽出モジュール2530等のプログラムを実行するCPU3401と、そのプログラムやデータを記憶するRAM3402と、本コンピュータを起動するためのプログラム等が格納されているROM3403と、文書データ管理モジュール155、検索履歴管理モジュール160、ユーザー情報管理モジュール2565等の機能を有する補助記憶装置(フラッシュメモリ等であってもよい)であるHD3404と、キーボード、マウス、タッチパネル、マイク等に対する利用者の操作に基づいてデータを受け付ける受付装置3406と、CRT、液晶ディスプレイ、スピーカー等の出力装置3405と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース3407、そして、それらをつないでデータのやりとりをするためのバス3408により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図34に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図34に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図34に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
前述の実施の形態においては、言語判定モジュール120による判定結果(語句毎の言語)を用いるようにしているが、言語判定モジュール120による判定結果を用いないで、特徴語リストを作成するようにしてもよい。この場合、複数の言語による語句が特徴語として抽出され得ることとなる。
また、前述の実施の形態の説明において、予め定められた値等との比較において、「以上」、「以下」、「より大きい」、「より小さい(未満)」としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい(未満)」、「以上」、「以下」としてもよい。
前述の第1の実施の形態は以下のように把握してもよい。そして、これらと第2の実施の形態における構成を組み合わせてもよい。つまり、第2の実施の形態は、下記の抽出手段によって抽出した語句Aを対象として、その語句Aに対する語句B(対訳又は原文)を抽出し、語句Aと語句Bの組み合わせを翻訳辞書の候補とする。
[A] 文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する抽出手段
を具備することを特徴とする情報処理装置。
[B] 前記第一の意味は、一般的な意味であり、
前記第二の意味は、特定の分野向けの意味である
ことを特徴とする[A]に記載の情報処理装置。
[C] 前記抽出手段は、さらに、検索に用いられた語句を抽出し、
該検索に用いられた語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出する
ことを特徴とする[A]又は[B]に記載の情報処理装置。
[D] 前記抽出手段は、さらに、前記文書に関する人名又は地名に関する語句を抽出し、
該抽出した人名又は地名に関する語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出する
ことを特徴とする[A]から[C]のいずれか一項に記載の情報処理装置。
[E] 前記抽出手段は、前記文書内の語句の出現率が予め定められた出現率より高い又は以上であり、該語句が前記文書のうち予め定められた文書割合未満又は以下の文書にだけ存在している場合は、該語句を第一の意味及び第一の意味とは異なる第二の意味を有する語句として抽出する
ことを特徴とする[A]から[D]のいずれか一項に記載の情報処理装置。
[F] コンピュータを、
文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する抽出手段
として機能させるための情報処理プログラム。
[A]の情報処理装置によれば、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、翻訳辞書に登録すべき原文又は対訳の候補を抽出する場合にあって、文書の属性に含まれている語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出することができる。
[B]の情報処理装置によれば、一般的な意味と特定の分野向けの意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出することができる。
[C]の情報処理装置によれば、検索に用いられた語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出することができる。
[D]の情報処理装置によれば、文書に関する人名又は地名に関する語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出することができる。
[E]の情報処理装置によれば、文書内の語句のうち予め定められた出現率より高い又は以上の語句が、文書のうち予め定められた文書割合未満又は以下の文書にだけ存在している場合は、その語句を第一の意味及び第一の意味とは異なる第二の意味を有する語句として抽出することができる。
[F]の情報処理プログラムによれば、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、翻訳辞書に登録すべき原文又は対訳の候補を抽出する場合にあって、文書の属性に含まれている語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出することができる。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
100…情報処理装置
105…特徴語リスト作成指示モジュール
110…関連文書取得モジュール
115…語句分割モジュール
120…言語判定モジュール
125…特徴語リスト抽出モジュール
150…文書管理システム
155…文書データ管理モジュール
160…検索履歴管理モジュール
2500…情報処理装置
2530…訳語抽出モジュール
2550…文書管理システム
2565…ユーザー情報管理モジュール

Claims (4)

  1. 利用者に関する属性情報から、第1の言語によって表現されている語句と、該語句と対になる語句であって第2の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段
    を具備し、
    前記抽出手段は、前記利用者に関する属性情報から、該利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、
    前記抽出手段は、前記利用者に関する属性情報としての氏名とメールアドレスから、該利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、
    前記氏名と前記メールアドレスとは異なる言語であって、該メールアドレス内を予め定められたルールによって分割したものを姓と名に対応付ける、
    ことを特徴とする情報処理装置。
  2. 文書に対する検索履歴から、第1の言語によって表現されている語句と、該語句と対になる語句であって第2の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段
    を具備し、
    前記抽出手段は、前記検索履歴から、第1の検索指示を行った利用者の使用言語と第2の検索指示を行った利用者の使用言語が異なる場合であって、該第1の検索指示内の語句の表記と該第2の検索指示内の語句の表記が同じときは、該語句の2つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、
    対訳がない語句である場合は、ユーザーによって原文と対訳の組み合わせを完成させる、
    ことを特徴とする情報処理装置。
  3. コンピュータを、
    利用者に関する属性情報から、第1の言語によって表現されている語句と、該語句と対になる語句であって第2の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段
    として機能させ
    前記抽出手段は、前記利用者に関する属性情報から、該利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、
    前記抽出手段は、前記利用者に関する属性情報としての氏名とメールアドレスから、該利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、
    前記氏名と前記メールアドレスとは異なる言語であって、該メールアドレス内を予め定められたルールによって分割したものを姓と名に対応付ける、
    情報処理プログラム。
  4. コンピュータを、
    文書に対する検索履歴から、第1の言語によって表現されている語句と、該語句と対になる語句であって第2の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段
    として機能させ
    前記抽出手段は、前記検索履歴から、第1の検索指示を行った利用者の使用言語と第2の検索指示を行った利用者の使用言語が異なる場合であって、該第1の検索指示内の語句の表記と該第2の検索指示内の語句の表記が同じときは、該語句の2つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、
    対訳がない語句である場合は、ユーザーによって原文と対訳の組み合わせを完成させる、
    情報処理プログラム。
JP2015051951A 2015-03-16 2015-03-16 情報処理装置及び情報処理プログラム Active JP6554841B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015051951A JP6554841B2 (ja) 2015-03-16 2015-03-16 情報処理装置及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015051951A JP6554841B2 (ja) 2015-03-16 2015-03-16 情報処理装置及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2016173618A JP2016173618A (ja) 2016-09-29
JP6554841B2 true JP6554841B2 (ja) 2019-08-07

Family

ID=57009640

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015051951A Active JP6554841B2 (ja) 2015-03-16 2015-03-16 情報処理装置及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP6554841B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6789755B2 (ja) * 2016-10-20 2020-11-25 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4017329B2 (ja) * 2000-09-14 2007-12-05 沖電気工業株式会社 機械翻訳システム
JP4355138B2 (ja) * 2002-12-13 2009-10-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 翻訳サーバ、コラボレーションサーバ及びプログラム
US20090182547A1 (en) * 2008-01-16 2009-07-16 Microsoft Corporation Adaptive Web Mining of Bilingual Lexicon for Query Translation
US8306806B2 (en) * 2008-12-02 2012-11-06 Microsoft Corporation Adaptive web mining of bilingual lexicon
JP5153839B2 (ja) * 2010-08-20 2013-02-27 ヤフー株式会社 対訳辞書生成装置、方法及びプログラム
JP2013069126A (ja) * 2011-09-22 2013-04-18 Nec Corp 機械翻訳辞書作成装置、機械翻訳辞書作成方法、およびプログラム
JP5787934B2 (ja) * 2013-06-19 2015-09-30 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Also Published As

Publication number Publication date
JP2016173618A (ja) 2016-09-29

Similar Documents

Publication Publication Date Title
US10552467B2 (en) System and method for language sensitive contextual searching
US9262104B2 (en) Information processing apparatus, image processing apparatus, and information processing system
JP6390139B2 (ja) 文書検索装置、文書検索方法、プログラム、及び、文書検索システム
WO2011040025A1 (en) Method for setting metadata, system for setting metadata, and program
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
JP6705352B2 (ja) 言語処理装置、言語処理方法、及び言語処理プログラム
JP6554841B2 (ja) 情報処理装置及び情報処理プログラム
JP2011133928A (ja) 記憶装置に記憶してある文書ファイルを検索する検索装置、検索システム、検索方法及びコンピュータプログラム
JP2021144565A (ja) 情報処理装置及び情報処理プログラム
JP5900419B2 (ja) 関心事判別装置、関心事判別方法、およびコンピュータプログラム
JP6056489B2 (ja) 翻訳支援プログラム、方法、および装置
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP2012043258A (ja) 検索システム、検索装置、検索プログラム、記録媒体及び検索方法
Batjargal et al. Providing universal access to Japanese humanities digital libraries: an approach to federated searching system using automatic metadata mapping
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP2016173617A (ja) 情報処理装置及び情報処理プログラム
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体
US20230409620A1 (en) Non-transitory computer-readable recording medium storing information processing program, information processing method, information processing device, and information processing system
US9990420B2 (en) Method of searching and generating a relevant search string
JP2010097296A (ja) 電子文書ファイル検索装置、電子文書ファイル検索方法及びコンピュータプログラム
JP2023003467A (ja) 支援装置、支援システム、支援方法及びプログラム
JP2017117109A (ja) 情報処理装置、情報処理システム、情報検索方法、及びプログラム
JP2006338114A (ja) データ管理装置およびデータ管理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181211

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190624

R150 Certificate of patent or registration of utility model

Ref document number: 6554841

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350