JP2016173617A - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP2016173617A
JP2016173617A JP2015051950A JP2015051950A JP2016173617A JP 2016173617 A JP2016173617 A JP 2016173617A JP 2015051950 A JP2015051950 A JP 2015051950A JP 2015051950 A JP2015051950 A JP 2015051950A JP 2016173617 A JP2016173617 A JP 2016173617A
Authority
JP
Japan
Prior art keywords
document
phrase
meaning
column
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015051950A
Other languages
English (en)
Inventor
透 大塚
Toru Otsuka
透 大塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2015051950A priority Critical patent/JP2016173617A/ja
Publication of JP2016173617A publication Critical patent/JP2016173617A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】文書と該文書の属性に含まれている語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出するようにした情報処理装置を提供する。【解決手段】情報処理装置の抽出手段は、文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する。【選択図】図1

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、無駄な作業を抑えながら、辞書に必要な情報を登録させることができるようにすることを課題とし、辞書作成支援システムは、辞書登録候補語の情報を辞書作成支援履歴と共に格納する履歴保存データベースを有し、また、テキストデータ列を取り込む入力手段と、入力されたテキストデータ列を解析して、所定の候補化条件を満たす辞書登録候補語を抽出し、履歴保存データベースにおける辞書登録候補語の情報を更新する候補語抽出・更新手段と、履歴保存データベースに記述されている辞書登録候補語のうち、辞書作成支援履歴についての条件も含め、所定の提示条件に合致したものを提示する候補語提示手段と、提示された辞書登録候補語に対する辞書登録の有無を取り込む登録指示取込手段と、候補語提示手段又は登録指示取込手段の処理に応じ、履歴保存データベースに記述されている辞書作成支援履歴を更新する履歴更新手段とを備えることが開示されている。
特許文献2には、日本語用語とその訳語の推定結果の対応の確からしさを示す対応確信度の精度を向上させ、未登録単語の自動登録を可能にすることを課題とし、訳語推定部は、抽出された日本語用語に対して1つ以上の訳語候補を推定し、追加訳語抽出部は、日本語用語とその訳語候補の組のうち日本語用語に含まれる単語で日英対訳辞書に登録されていない単語の数と、訳語候補に含まれる単語で日英対訳辞書に登録されていない単語の数とを調べ、日本語用語及び訳語候補に含まれる単語のうち日英対訳辞書の未登録単語の数がいずれも1である場合には、追加訳語抽出部は、これらの単語同士の対応関係が十分に確からしいものと判断してテーブルに記録して出現頻度を求め、出現頻度(対応確信度)が高い場合には、日英対訳辞書に登録すべき追加訳語として決定し、これにより、精度の高い対応確信度を得ることができ、対訳辞書の自動登録が可能となることが開示されている。
特開2008−083952号公報 特開2002−366546号公報
先行技術においては、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、翻訳辞書に登録すべき語句を抽出するための技術として、指定された文書を語句に分割し、一般的な用語の辞書に載っていない語句を翻訳辞書に登録すべき語句の候補とするものがある。これにより、造語や固有名詞といった翻訳辞書に登録すべき語句を抽出することができる。
しかし、これらの技術では、一般的な意味のほかに、例えば、コンピュータ分野等のような特定の分野向けの意味も有する多義語である語句(以下、特徴語とする)を対象とした場合、翻訳辞書に登録すべき語句としては抽出されずに一般的な意味で翻訳辞書に登録されてしまう。そして、該語句の特定の分野向けの意味が、翻訳辞書に登録されない場合がある。一方、文書の属性に含まれている語句は、一般的に多義語である可能性が高い。なお、一般的な意味とは広辞苑や大辞典等の国語辞書に記載されている、語句の意味をいい、特定分野向けの意味とは、コンピュータ分野等の専門性のある特定の分野のみで使われている、語句の意味をいう。
本発明は、文書と該文書の属性に含まれている語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する抽出手段を具備することを特徴とする情報処理装置である。
請求項2の発明は、前記第一の意味は、一般的な意味であり、前記第二の意味は、特定の分野向けの意味であることを特徴とする請求項1に記載の情報処理装置である。
請求項3の発明は、前記抽出手段は、さらに、検索に用いられた語句を抽出し、該検索に用いられた語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出することを特徴とする請求項1又は2に記載の情報処理装置である。
請求項4の発明は、前記抽出手段は、さらに、前記文書に関する人名又は地名に関する語句を抽出し、該抽出した人名又は地名に関する語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出することを特徴とする請求項1から3のいずれか一項に記載の情報処理装置である。
請求項5の発明は、前記抽出手段は、前記文書内の語句の出現率が予め定められた出現率より高い又は以上であり、該語句が前記文書のうち予め定められた文書割合未満又は以下の文書にだけ存在している場合は、該語句を第一の意味及び第一の意味とは異なる第二の意味を有する語句として抽出することを特徴とする請求項1から4のいずれか一項に記載の情報処理装置である。
請求項6の発明は、コンピュータを、文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する抽出手段として機能させるための情報処理プログラムである。
請求項1の情報処理装置によれば、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、翻訳辞書に登録すべき原文又は対訳の候補を抽出する場合にあって、文書の属性に含まれている語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出することができる。
請求項2の情報処理装置によれば、一般的な意味と特定の分野向けの意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出することができる。
請求項3の情報処理装置によれば、検索に用いられた語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出することができる。
請求項4の情報処理装置によれば、文書に関する人名又は地名に関する語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出することができる。
請求項5の情報処理装置によれば、文書内の語句のうち予め定められた出現率より高い又は以上の語句が、文書のうち予め定められた文書割合未満又は以下の文書にだけ存在している場合は、その語句を第一の意味及び第一の意味とは異なる第二の意味を有する語句として抽出することができる。
請求項6の情報処理プログラムによれば、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、翻訳辞書に登録すべき原文又は対訳の候補を抽出する場合にあって、文書の属性に含まれている語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出することができる。
本実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態を利用したシステム構成例を示す説明図である。 本実施の形態による処理例を示すフローチャートである。 propertyTableのデータ構造例を示す説明図である。 phraseTableのデータ構造例を示す説明図である。 documentTableのデータ構造例を示す説明図である。 本実施の形態による処理例を示す説明図である。 検索履歴テーブルのデータ構造例を示す説明図である。 本実施の形態による処理例を示す説明図である。 propertyTableのデータ構造例を示す説明図である。 phraseTableのデータ構造例を示す説明図である。 phraseTableのデータ構造例を示す説明図である。 phraseTableのデータ構造例を示す説明図である。 documentTableのデータ構造例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 phraseTableのデータ構造例を示す説明図である。 phraseTableのデータ構造例を示す説明図である。 phraseTableのデータ構造例を示す説明図である。 phraseFolderTableのデータ構造例を示す説明図である。 phraseFolderTableのデータ構造例を示す説明図である。 FolderTableのデータ構造例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
まず、本実施の形態を説明する前に、その前提又は本実施の形態を利用する機械翻訳処理について説明する。なお、この説明は、本実施の形態の理解を容易にすることを目的とするものである。
機械翻訳処理では、「翻訳辞書」を利用することにより翻訳精度を向上させることが可能である。翻訳辞書の内容は、原語と対訳の対を1つのペアとする複数のペア情報である。例えば、英語から日本語への翻訳に用いる英日辞書において、原語:「Working Folder」、対訳:「Working Folder」とすることにより、固有名詞である「Working Folder」を日本語に翻訳したときに「仕事フォルダー」などの正しくない日本語に翻訳することを防ぐことができる。
また、「スポーツ」や「特許」など、一般的に用いられる需要のある分野の辞書は、その分野固有の翻訳辞書が販売されている。しかし、製品や社内用語など狭い範囲の分野における翻訳辞書は販売されておらず、手動で翻訳辞書を作成するのが一般的である。しかしながら、手動による辞書作成は煩雑であるため、辞書作成支援装置が提案されている。
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、すべての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
本実施の形態である情報処理装置100は、翻訳辞書の作成を支援するものであって、図1の例に示すように、特徴語リスト作成指示モジュール105、関連文書取得モジュール110、語句分割モジュール115、言語判定モジュール120、特徴語リスト抽出モジュール125を有している。
情報処理装置100は、文書とその文書の属性に含まれる語句から翻訳辞書における原文又は対訳の候補のいずれか一方を抽出する。ただし、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で行う。以下、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方を特徴語ともいう。
特に、情報処理装置100は、一般的な意味だけでなく、特定の分野向けの意味も有する語句(人名等を含む)について、特徴語として抽出するものである。
例えば、「アクセス権」は、一般的には「知る権利(right of access)」を意味するが、コンピュータを用いたドキュメント管理の分野では「オブジェクトにアクセスするための権利(permission)」を意味する。先行技術文献に開示されている技術では、ドキュメント管理に関する翻訳辞書に登録すべき候補として「アクセス権」を挙げることができない。他にもドキュメント管理の分野における「キャビネット」、「ドロワー」などで同様の状況となる。
文書管理システム150は、コンテンツ・マネジメント・システム(CMS)とも呼ばれており、文書を管理するものである。ここで文書とは、主にテキストデータ、場合によっては図形、画像、動画、音声等の電子データ(ファイルともいわれる)、又はこれらの組み合わせであり、記憶、編集及び検索等の対象となり、システム又は利用者間で個別の単位として交換できるものをいい、これらに類似するものを含む。具体的には、文書作成プログラムによって作成された文書、Webページ等を含む。
文書管理システム150によって管理されている文書、フォルダー(以下に例示するキャビネット、ドロワー等を含む)の属性として使用されている語句、検索クエリで使用される語句(例えば、検索に用いたキーワード等)は、特徴的な語句である場合が多い。情報処理装置100は、これらの語句を特徴語として抽出する。また、情報処理装置100は、文書管理システム150内の文書内の語句の出現頻度を用いて、特定の状況で多く出現する語句を特徴語として抽出する。
文書管理システム150は、文書データ管理モジュール155、検索履歴管理モジュール160を有している。文書管理システム150は、フォルダー(子オブジェクトを持つことができるオブジェクト)や文書を格納し、他の装置(情報処理装置100等)からのアクセスに対応する。
文書データ管理モジュール155は、情報処理装置100の関連文書取得モジュール110と接続されている。文書データ管理モジュール155は、文書管理システム150において、文書やフォルダーの情報(コンテンツや属性)を管理する。
検索履歴管理モジュール160は、情報処理装置100の特徴語リスト抽出モジュール125と接続されている。検索履歴管理モジュール160は、ユーザーの文書検索履歴を管理する。具体例には、文書管理システム150において、どのユーザーがどの検索クエリを使用してどの文書が検索結果としてヒットし、その後どの文書を閲覧したかを記録する。
特徴語リスト作成指示モジュール105は、関連文書取得モジュール110と接続されている。特徴語リスト作成指示モジュール105は、翻訳辞書の特徴語リストの作成を指示する。例えば、マウス、キーボード、タッチパネル、音声、視線、ジェスチャ等を用いたユーザーの操作によって、指示を受け付けるようにしてもよい。
関連文書取得モジュール110は、特徴語リスト作成指示モジュール105、語句分割モジュール115、文書管理システム150の文書データ管理モジュール155と接続されている。関連文書取得モジュール110は、特徴語リスト作成指示モジュール105の指示により文書データ管理モジュール155で管理している文書の中から、特定のユーザーに関連する文書情報を取得し記録する。ここで「特定のユーザー」とは、特徴語リスト作成指示モジュール105によって指示されたユーザーであってもよいし、特徴語リスト作成指示モジュール105での操作を行ったユーザーであってもよい。
言語判定モジュール120は、語句分割モジュール115と接続されている。言語判定モジュール120は、語句分割モジュール115によって分割された語句の言語を判定する。
語句分割モジュール115は、関連文書取得モジュール110、言語判定モジュール120、特徴語リスト抽出モジュール125と接続されている。語句分割モジュール115は、文書とその文書の属性から語句を抽出する。具体例には、語句分割モジュール115は、関連文書取得モジュール110で取得した文書コンテンツ(文書の内容)を語句単位に分割し、文書毎に関連文書取得モジュール110で取得した文書の属性情報、語句の出現頻度、言語判定モジュール120で判定された言語情報を関連付けて記録する。
語句分割モジュール115は、さらに、検索に用いられた語句を抽出してもよい。ここで「検索に用いられた語句」の検索の指示を行った「ユーザー」は、特徴語リスト作成指示モジュール105における特定のユーザーである。例えば、特徴語リスト作成指示モジュール105で指示を行った者である。
語句分割モジュール115は、さらに、文書に関する人名又は地名に関する語句を抽出するようにしてもよい。
例えば、藤太郎という人名では、名字である藤を、一般辞書を用いて英訳してしまうと「Wisteria」となってしまうため、人名や地名も特徴語として抽出する必要がある。
特徴語リスト抽出モジュール125は、語句分割モジュール115、文書管理システム150の検索履歴管理モジュール160と接続されている。特徴語リスト抽出モジュール125は、文書に含まれている第1の語句とその文書の属性に含まれている第2の語句のうち、両方に含まれている語句を、特徴語として抽出する。
さらに、特徴語リスト抽出モジュール125は、語句分割モジュール115が抽出した検索に用いられた語句を用いて特徴語を抽出するようにしてもよい。「検索に用いられた語句」を第2の語句として特徴語の抽出処理を行う。つまり、文書に含まれている第1の語句と検索に用いられた第2の語句のうち、両方に含まれている語句を特徴語として抽出してもよい。
さらに、特徴語リスト抽出モジュール125は、語句分割モジュール115が抽出した人名又は地名に関する語句を用いて特徴語を抽出するにしてもよい。「人名又は地名に関する語句」を第2の語句として特徴語の抽出処理を行う。つまり、文書に含まれている第1の語句と人名又は地名に関する第2の語句のうち、両方に含まれている語句を特徴語として抽出してもよい。
また、特徴語リスト抽出モジュール125は、文書内の語句の出現率が予め定められた出現率より高い又は以上であり、かつ該当語句が、予め定められた文書割合未満又は以下の文書にだけ存在している場合は、その語句を特徴語として抽出するようにしてもよい。ここで、文書割合とは、対象とした全文書における該当文書(対象としている語句が含まれている文書)の割合であってもよいし、該当文書の数としてもよい。
具体例では、特徴語リスト抽出モジュール125は、語句分割モジュール115によって分割された語句のうち、特徴語リスト作成指示モジュール105で指定された言語と合致する言語の語句について、文書データ管理モジュール155で管理しているデータ又は検索履歴管理モジュール160で管理している検索履歴を利用して、特徴語リストを抽出する。
図2は、本実施の形態を利用したシステム構成例を示す説明図である。
情報処理装置100、文書管理システム150、ユーザー端末210A、ユーザー端末210Bは、通信回線290を介してそれぞれ接続されている。通信回線290は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。ユーザーが用いるユーザー端末210からの指示によって、文書管理システム150内に文書を格納、又は検索等が行われる。そして、ユーザー端末210からの指示によって、翻訳辞書における特徴語が抽出される。そして、ユーザー端末210でのユーザーの操作によって、その特徴語の対訳が記入され、翻訳辞書が完成する。また、情報処理装置100、文書管理システム150による機能は、クラウドサービスとして実現してもよい。
図3は、本実施の形態による処理例を示すフローチャートである。
ステップS302では、特徴語リスト作成指示モジュール105は、ユーザーの操作に応じて、パラメータを入力する。特徴語リスト作成指示モジュール105は、GUI(Graphical User Interface)、CUI(Character User Interface)等のユーザーインタフェース上でユーザーからのパラメータ入力を受け付ける。例えば、入力すべき項目として、出力すべき特徴語の言語(以下、languageともいう)、文書管理システム150にアクセスするために必要な情報(例えば、URL、ユーザーID、パスワード等)、特徴語リストの出力パス等がある。また、ステップS302で、ステップS304で取得する文書コンテンツの格納パスを指定してもよい。さらに、ステップS314で使用するしきい値をここで指定してもよい。
ステップS304では、関連文書取得モジュール110は、関連文書を取得する。具体例には、関連文書取得モジュール110は、特徴語リスト生成指示モジュール105で入力された情報を基にして、文書管理システム150に接続し、ユーザーに関連する文書の情報を取得する。関連する文書の判断方法として、例えば、(1)そのユーザーが作成した文書、(2)そのユーザーが閲覧したことがある文書、(3)そのユーザーの検索結果に表れた文書、(4)そのユーザーがアクセス権を有する文書、(5)そのユーザーがバージョン追加した文書、(6)そのユーザーが文書公開した文書等を関連ありとする。また、予め定められた設定により、これらの中から複数の要素を選択して該当する文書を重み付けし、しきい値を超えた文書を関連ありとしてもよい。
文書コンテンツは、予め定められた格納パス、又はステップS302で指定されたパスに格納する。
文書の属性(例えば、文書ID、文書名、作成者名、更新者名、文書が所属するフォルダーID、文書が所属するフォルダー名等)も取得し、記録する(以下、propertyTable(プロパティテーブル)とする)。例えば、propertyTable400として記録する。図4は、propertyTable400のデータ構造例を示す説明図である。propertyTable400は、文書ID欄410、文書名欄420、作成者名欄430、更新者名欄440、フォルダーID欄450、フォルダー名欄460、パス欄470を有している。
文書ID欄410は、本実施の形態において、文書を一意に識別するための情報(文書ID:IDentification)を記憶している。文書名欄420は、その文書の名称を記憶している。作成者名欄430は、その文書の作成者名を記憶している。更新者名欄440は、その文書の更新者名を記憶している。フォルダーID欄450は、その文書を含むフォルダーであって、本実施の形態において、フォルダーを一意に識別するための情報(フォルダーID)を記憶している。フォルダー名欄460は、そのフォルダーの名称を記憶している。パス欄470は、その文書のパス(格納場所)を記憶している。
また、作成者名や更新者名については、姓と名に分けたもの、姓名を連結したもの、姓+スペース+名を連結したもの等を用意する(以下、NameListとする)。NameListは、文書管理システム150から全ユーザーの姓、名を取得できる場合は、これを取得してもよい。文書管理システム150が地名(ユーザーの居所等)の情報を保持する場合は、その地名をNameListに入れてもよい。
ステップS306では、語句分割モジュール115は、語句を分割する。語句分割モジュール115は、関連文書のコンテンツを語句単位で分割する。具体的には、文書から既存技術によりテキストを抽出し、形態素解析などの既存技術により語句を抽出する。接続詞などの不要データはこの時点で排除する。
語句毎に、出現率、文書ID、言語判定モジュール120により語句の言語を判定した結果を記録する(以下、phraseTableとする)。例えば、phraseTable500として記録する。図5は、phraseTable500のデータ構造例を示す説明図である。phraseTable500は、語句欄510、出現回数欄520、出現率欄530、文書ID欄540、言語欄550を有している。
語句欄510は、抽出した語句を記憶している。出現回数欄520は、対象としている文書(文書ID欄540)におけるその語句の出現回数を記憶している。出現率欄530は、対象としている文書(文書ID欄540)におけるその語句の出現率を記憶している。文書ID欄540は、対象としている文書IDを記憶している。言語欄550は、その語句の言語を記憶している。言語判定モジュール120では、語句の文字コードなど既存技術を用いて、言語を判定する。その判定結果を言語欄550に記憶させる。
例えば、出現率欄530での出現率は、(語句の出現回数/文書全体の語句数)*100(%)とする。
また、文書内の語句数を文書IDと紐づけて記録する(以下、documentTableとする)。例えば、documentTable600として記録する。図6は、documentTable600のデータ構造例を示す説明図である。documentTable600は、文書ID欄610、語句数欄620を有している。
文書ID欄610は、文書IDを記憶している。語句数欄620は、その文書IDの文書に含まれている語句数を記憶している。この語句数欄620の値が前述の出現率の式の「文書全体の語句数」に該当する。
ステップS308では、特徴語リスト抽出モジュール125は、検索クエリから特徴語を抽出する。特徴語リスト抽出モジュール125は、まず、phraseTableから言語がlanguageと同じである語句のリスト(以下、phraseListとする)を抽出する。以下、特徴語リストをcandidateListとする。
次に、検索履歴管理モジュール160から、すべてのユーザーが検索したクエリ内の語句のリスト(以下、queryListとする)を抽出する。これにpropertyTable中の文書名、フォルダー名をマージする。なお、各要素を形態素解析した結果で分割してもよい。
phraseListに含まれ、かつ、queryList中に含まれる語句はcandidateListに追加し、追加した語句はphraseListから削除する。ここで、検索クエリは特徴語リスト作成指示モジュール105で指定されたユーザーが検索に使用したクエリのみを対象としてもよいし、最近検索された(現在から予め定められた期間内にある)クエリだけを対象としてもよい。また、クエリの検索回数が予め定められたしきい値以上のものだけ対象にしてもよい。
予め、phraseListに含まれ、かつ、一般的な用語の辞書に含まれない語句を、candidateListに追加し、該当語句をphraseListから削除した上で上記の処理を始めてもよい。
ステップS310では、特徴語リスト抽出モジュール125は、ユーザー名から特徴語を抽出する。特徴語リスト抽出モジュール125は、NameList中に含まれ、かつphraseListに含まれている語句をcandidateListに追加し、追加した語句はphraseListから削除する。
ステップS312では、特徴語リスト抽出モジュール125は、階層構造から特徴語を抽出する。特徴語リスト抽出モジュール125は、phraseListの中から、特定の文書にのみ出現率が高い語句を抽出する。
phraseList中の語句の出現率が、予め特徴語リスト作成指示モジュール105などで設定しておいたしきい値(例えば、0.5%等)を超える語句が、予め特徴語リスト作成指示モジュール105などで設定しておいたしきい値以下(例えば、1個、全文書数の1%以下などの指定が可能)の文書割合しか存在しなかった場合は、その語句をcandidateListに追加し、phraseListから削除する。
文書単位の出現率に代えて、又は追加して、階層構造を考慮し、フォルダー内での語句の出現率を使用してもよい。この場合には、documentTableの文書IDとpropertyTable中の文書IDを突き合わせ、文書が所属するフォルダーIDを取得する。これを基にphraseFolderTableとFolderTableを作成し、同様の処理を行う。さらに、上の階層のフォルダー単位で同様の処理を行ってもよい。
ステップS314では、特徴語リスト抽出モジュール125は、特徴語リストを出力する。特徴語リスト抽出モジュール125は、特徴語リスト作成指示モジュール105で指定された特徴語リストの出力パスに特徴語リストを出力する。出力形式は一般的にはCSV形式があるが、これに限らない。
なお、ステップS308からステップS312の処理は、それぞれ予め定められた設定(これらのステップのいずれか1つの処理の選択、2つの組み合わせの選択、又は2つ以上の組み合わせを選択した場合は、処理の順番の設定)で選択的に実施してもよい。
図7は、本実施の形態による処理例を示す説明図である。文書管理システム150内の文書データ管理モジュール155が管理している文書の階層構造、属性の例を示したものである。
キャビネット710は、フォルダーと同等の機能を有しており、下位にフォルダー720、フォルダー730を有している。キャビネット710の属性として、名前(フォルダー名):「開発キャビネット」を有している。
フォルダー720は、下位に文書722、文書724を有している。フォルダー720の属性として、フォルダーID:「Folder−1」、名前(フォルダー名):「WorkingFolder」を有している。文書722の属性として、文書ID:「Doc−3」、名前(文書名):「マニュアル.pdf」、作成者:「藤 太郎」(ユーザー782)、更新者:「藤 太郎」を有している。文書724の属性として、文書ID:「Doc−1」、名前(文書名):「アクセス権設計書.dxxx」、作成者:「藤 太郎」、更新者:「藤 太郎」を有している。なお、「藤」は、植物としての名称(wisteria)と姓として用いられる場合がある。一般的な翻訳辞書では、「藤」と植物としての名称の対が登録されている。
フォルダー730は、下位にフォルダー732、文書734を有している。フォルダー730の属性として、フォルダーID:「Folder−2」、名前(フォルダー名):「スキャン翻訳」を有している。フォルダー732の属性として、フォルダーID:「Folder−3」を有している。文書734の属性として、文書ID:「Doc−2」、名前(文書名):「ジョブ管理の仕様.Dxxx」、作成者:「藤 花子」(ユーザー784)、更新者:「藤 花子」を有している。
図8は、検索履歴テーブル800のデータ構造例を示す説明図である。文書管理システム150内の検索履歴管理モジュール160が管理している検索履歴の例を示したものである。
検索履歴テーブル800は、検索日時欄810、検索者欄820、クエリ欄830、ヒット文書ID欄840、閲覧した文書欄850を有している。検索日時欄810は、検索が行われた日時(年、月、日、時、分、秒、秒以下、又はこれらの組み合わせであってもよい)を記憶している。検索者欄820は、その検索の指示を行った者の名称(ユーザーIDであってもよい)を記憶している。クエリ欄830は、検索に用いられたクエリ(キーワード)を記憶している。ヒット文書ID欄840は、その検索によってヒットした文書の文書IDを記憶している。閲覧した文書欄850は、その検索の結果、閲覧まで行われた文書の文書IDを記憶している。
図9は、本実施の形態による処理例を示す説明図である。ステップS302(特徴語リスト作成指示モジュール105)での処理例を示したものである。
辞書作成支援ツール画面900には、言語指定欄910、出力パス指定欄920、URL指定欄930、ユーザーID指定欄940、パスワード指定欄950、語句の出現率指定欄960、出現文書数指定欄970、閉じるボタン996、OKボタン992、キャンセルボタン994を表示する。
言語指定欄910は、特徴語の言語を指定するためのものである。
出力パス指定欄920は、特徴語を出力するパス名(ファイル名)を指定するためのものである。
URL指定欄930は、対象としている文書が格納されているパス(フォルダーのパス)を指定するためのものである。
ユーザーID指定欄940は、文書管理システム150にアクセスするための操作者のユーザー名(又は対象とする文書に関連付けられているユーザー名)を指定するためのものである。
パスワード指定欄950は、文書管理システム150にアクセスするための操作者のパスワードを指定するためのものである。
語句の出現率指定欄960は、特徴語リスト抽出モジュール125がしきい値として用いるための語句の出現率を指定するためのものである。
出現文書数指定欄970は、特徴語リスト抽出モジュール125がしきい値として用いるための出現文書数を指定するためのものである。
OKボタン992が選択されると、言語指定欄910等で指定された値で、情報処理装置100による処理が開始される。キャンセルボタン994が選択されると、言語指定欄910等で指定された値をクリアして初期状態に戻る。閉じるボタン996が選択されると、辞書作成支援ツール画面900そのものを消去する。
図10は、propertyTable1000のデータ構造例を示す説明図である。ステップS304(関連文書取得モジュール110)での処理例を示したものである。
propertyTable1000は、関連文書取得モジュール110が、藤太郎が作成と閲覧した文書を関連文書とした場合の関連文書データを収集した結果を示している。
propertyTable1000は、文書ID欄1010、文書名欄1020、作成者欄1030、更新者欄1040、フォルダーID欄1050、フォルダー名欄1060を有している。各欄は、それぞれ図4の例に示したpropertyTable400の文書ID欄410、文書名欄420、作成者名欄430、更新者名欄440、フォルダーID欄450、フォルダー名欄460と同等のものである。propertyTable1000の内容は、図7の例に示したものを示している。
また、propertyTable1000から、NameListとして次のものを生成する。
[藤,太郎,藤太郎,藤 太郎,藤 太郎,花子,藤花子,藤 花子,藤 花子]
これは、propertyTable1000の作成者欄1030、更新者欄1040から抽出した姓:「藤」、名:「太郎」のユーザー782、姓:「藤」、名:「花子」のユーザー784から生成したものである。具体例には、姓と名に分けたもの、姓名を連結したもの、姓+スペース(半角と全角の両方)+名を連結したものである。
図11、12、13、14は、phraseTable1100、phraseTable1200、phraseTable1300、documentTable1400のデータ構造例を示す説明図である。ステップS306(語句分割モジュール115)での処理例を示したものである。ここでは名詞を選択しているが、動詞などの品詞を選択してもよい。
phraseTable1100は、文書ID:Doc−1に関するphraseTableである。phraseTable1100は、語句欄1110、出現回数欄1120、出現率欄1130、文書ID欄1140、言語欄1150を有している。
phraseTable1200は、文書ID:Doc−2に関するphraseTableである。phraseTable1200は、語句欄1210、出現回数欄1220、出現率欄1230、文書ID欄1240、言語欄1250を有している。
phraseTable1300は、文書ID:Doc−3に関するphraseTableである。phraseTable1300は、語句欄1310、出現回数欄1320、出現率欄1330、文書ID欄1340、言語欄1350を有している。
各テーブルのデータ構造は、図5の例に示したphraseTable500のデータ構造と同等である。
なお、phraseTable1100、phraseTable1200、phraseTable1300を組み合わせて1つのテーブルとしてもよい。
phraseTable1100の場合について説明する。語句分割モジュール115は、文書ID:「Doc−1」の文書から語句を抽出し、語句欄1110に格納し、その文書におけるその語句の出現回数を計数し、出現回数欄1120に格納し、出現回数欄1120とdocumentTable1400の語句数欄1420を用いて出現率を算出し、出現率欄1130に格納し、対象とした文書の文書IDを文書ID欄1140に格納し、対象としている語句の言語(その言語に対しての言語判定モジュール120による処理結果)を言語欄1150に格納する。phraseTable1200、phraseTable1300についても、それぞれ文書ID:「Doc−2」の文書、文書ID:「Doc−3」の文書を対象として、同様に生成される。
図14は、documentTable1400のデータ構造例を示す説明図である。ステップS306(語句分割モジュール115)での処理例を示したものである。
documentTable1400は、文書ID欄1410、語句数欄1420を有している。データ構造は、図6の例に示したdocumentTable600のデータ構造と同等である。
語句分割モジュール115は、対象としている文書の文書IDを文書ID欄1410に格納し、その文書における語句数を計数し、語句数欄1420に格納する。なお、語句数は、文書内のすべての語句を対象としてもよいし、phraseTable1100等が対象としている品詞(phraseTable1100の場合は名詞)の語句数を計数してもよい。
図15は、本実施の形態による処理例を示す説明図である。ステップS308(特徴語リスト抽出モジュール125)での処理例を示したものである。
図15(a)の例に示すように、queryList(形態素解析済み)を、次のように生成する。
[アクセス権,スキャン,翻訳,スキャン翻訳,ジョブ,管理,ジョブ管理,設計書,マニュアル,仕様]
queryList内の語句は、検索履歴テーブル800とpropertyTable1000から生成したものであり、検索履歴テーブル800(クエリ欄830)とpropertyTable1000(文書名欄1020、作成者欄1030)内の語句を抽出し、形態素解析を行った結果である。
図15(a)の例に示すように、phraseList(日本語指定)を、次のように生成する。
[藤,太郎,アクセス権,設計,ドロワー,単位,設定,花子,ジョブ,ジョブ数,変更,キャビネット,ログイン]
phraseList内の語句は、phraseTable1100、phraseTable1200、phraseTable1300から生成したものであり、言語(言語欄1150、言語欄1250、言語欄1350)が日本語である語句(語句欄1110、語句欄1210、語句欄1310)を抽出したものである。
なお、candidateListは、処理当初は、図15(a)の例に示すように、空である。
そして、特徴語リスト抽出モジュール125の処理結果は、図15(b)の例に示すようなcandidateList、phraseListになる。
具体例には、queryListとphraseListの両方に出現している語句である「アクセス権」、「ジョブ」(図15(a)内では矩形で囲っている語句)をcandidateListに入れる。つまり、candidateListを次のように生成する。
[アクセス権,ジョブ]
また、phraseListは、図15(a)の状態から、candidateListに入れた語句ある「アクセス権」、「ジョブ」(図15(a)内では矩形で囲っている語句)を消去する。つまり、phraseListを次のように生成する。
[藤,太郎,設計,ドロワー,単位,設定,花子,ジョブ数,変更,キャビネット,ログイン]
図16は、本実施の形態による処理例を示す説明図である。ステップS310(特徴語リスト抽出モジュール125)での処理例を示したものである。
この時点で、図16(a)の例に示すように、NameListは以下の通り(前述したものと同じ)である。
[藤,太郎,藤太郎,藤 太郎,藤 太郎,花子,藤花子,藤 花子,藤 花子]
candidateListは以下の通り(図15(b)の例に示したものと同じ)である。
[アクセス権,ジョブ]
phraseListは以下の通り(図15(b)の例に示したものと同じ)である。
[藤,太郎,設計,ドロワー,単位,設定,花子,ジョブ数,変更,キャビネット,ログイン]
そして、特徴語リスト抽出モジュール125の処理結果は、図16(b)の例に示すようなcandidateList、phraseListになる。
具体例には、NameListとphraseListの両方に出現している語句である「藤」、「太郎」、「花子」(図16(a)内では矩形で囲っている語句)をcandidateListに入れる。つまり、candidateListを次のように生成する。
[アクセス権,ジョブ,藤,太郎,花子]
また、phraseListは、図16(a)の状態から、candidateListに入れた語句ある「藤」、「太郎」、「花子」(図16(a)内では矩形で囲っている語句)を消去する。つまり、phraseListを次のように生成する。
[設計,ドロワー,単位,設定,ジョブ数,変更,キャビネット,ログイン]
図17は、本実施の形態による処理例を示す説明図である。ステップS312(特徴語リスト抽出モジュール125)での処理例を示したものである。
この時点で、図17(a)の例に示すように、phraseListは以下の通り(図16(b)の例に示したものと同じ)である。
[設計,ドロワー,単位,設定,ジョブ数, 変更,キャビネット,ログイン]
candidateListは以下の通り(図16(b)の例に示したものと同じ)である。
[アクセス権,ジョブ,藤,太郎,花子]
そして、特徴語リスト抽出モジュール125の処理結果は、図17(b)の例に示すようなcandidateList、phraseListになる。
具体例には、図18、19、20の例に示すphraseTable1800、phraseTable1900、phraseTable2000を用いる。なお、それぞれ図11、12、13の例に示したphraseTable1100、phraseTable1200、phraseTable1300と同等のものである。
出現率0.5%以上で1つの文書だけ出現するものを特徴語とした場合(図9の例に示した辞書作成支援ツール画面900内の語句の出現率指定欄960と出現文書数指定欄970で指定されたしきい値)、「ジョブ数」(図19の例に示すphraseTable1900内の条件合致行1990)と「キャビネット」(図20の例に示すphraseTable2000内の条件合致判断行2090)が特徴語と判断される。
そして、candidateListに、語句「ジョブ数」、「キャビネット」(図17(b)内では矩形で囲っている語句)を付加して、次のように生成する。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット]
また、phraseListから語句「ジョブ数」、「キャビネット」(図17(b)内では矩形で囲っている語句)を消去して、次のように生成する。
[設計,ドロワー,単位,設定,変更,ログイン]
図21は、phraseFolderTable2100のデータ構造例を示す説明図である。ステップS312(ステップ特徴語リスト抽出モジュール125(フォルダー考慮))での処理例を示したものである。
ここでの処理では、フォルダーの構成(文書が含まれているフォルダー)を用いている。
この時点で、candidateListは以下の通り(図17(b)の例に示したものと同じ)である。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット]
phraseListは以下の通り(図17(b)の例に示したものと同じ)である。
[設計,ドロワー,単位,設定,変更,ログイン]
具体的な処理では、図21、22、23の例に示すphraseFolderTable2100、phraseFolderTable2200、FolderTable2300を用いる。なお、phraseFolderTable2100、phraseFolderTable2200のデータ構造は、図5の例に示したphraseTable500と同等のものである。ただし、phraseFolderTable2100、phraseFolderTable2200はフォルダー(そのフォルダーに含まれている文書群)を対象としているので、phraseTable500の文書ID欄540の代わりに、フォルダーID欄2140、フォルダーID欄2240は、対象としているフォルダーID(本実施の形態において、フォルダーを一意に識別するための情報)を記憶している。なお、図7の例に示したように、Folder−1には、2つの文書が含まれているので、phraseFolderTable2100は、phraseTable1100とphraseTable1300を合体させたものであり、Folder−2には、1つの文書だけが含まれているので、phraseFolderTable2200はphraseTable1200と同等のもの(もちろんのことながら、文書ID欄1240とフォルダーID欄2240は異なる)である。もちろんのことながら、出現率欄(2130、2230)の出現率は、(語句の出現回数/フォルダー内の文書全体の語句数)*100(%)である。また、FolderTable2300のデータ構造は、図6の例に示したdocumentTable600と同等のものである。ただし、FolderTable2300は、フォルダー(そのフォルダーに含まれている文書群)を対象としているので、documentTable600の文書ID欄610の代わりに、フォルダーID欄2310は対象としているフォルダーIDを記憶している。また、語句数欄2320は、そのフォルダー内の文書群における語句数を記憶している。具体的には、Folder−1には2つの文書(Doc−3とDoc−1)があり、図14の例に示すように、各1000語ずつであるので、合計2000語となり、Folder−2には1つの文書(Doc−2)があり、図14の例に示すように、1000語であるので、Folder−2でも1000語である。これらの値が出現率を求める式における分母(フォルダー内の文書全体の語句数)に該当する。
ここで、フォルダー内の文書における語句(具体例には、phraseFolderTable2100、phraseFolderTable2200)に対して、特定のフォルダーにのみ出現率が高い語句を抽出する。
具体例には、出現率0.5%以上で1つのフォルダーだけ出現するものを特徴語とした場合(図9の例に示した辞書作成支援ツール画面900内の語句の出現率指定欄960と出現文書数指定欄970で指定されたしきい値。なお、出現文書数指定欄970で指定されたしきい値は、その語句が出現したフォルダー数を示している)、「ドロワー」(図21の例に示すphraseFolderTable2100内の条件合致行2190)が特徴語と判断される。
そして、candidateListに、語句「ドロワー」を付加して、次のように生成する。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット,ドロワー]
また、phraseListから語句「ドロワー」を消去して、次のように生成する。
[設計,単位,設定,変更,ログイン]
なお、phraseFolderTable2100、phraseFolderTable2200、FolderTable2300は、phraseTable1100を生成したステップS306で生成してもよい。
図24は、本実施の形態による処理例を示す説明図である。ステップS314(特徴語リスト抽出モジュール125)での処理例を示したものである。
前述の通り、candidateListは、図24(a)の例に示すように、次のようになっている。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット,ドロワー]
このcandidateListを、ファイル(例えば、CSVファイル)として、図9の例に示した辞書作成支援ツール画面900内の出力パス指定欄920で指定されたパスに出力する。そのファイルの内容例を、図24(b)に示す。A欄(1〜8行目)にcandidateList内の各語句が格納されている。ユーザーの操作によって、対応するB欄(1〜8行目)に対訳(又は原文)が記載されることによって、特徴語の翻訳辞書が完成する。
この特徴語の翻訳辞書を、機械翻訳処理装置に渡し、その機械翻訳処理装置は、この特徴語の翻訳辞書を元の翻訳辞書に加えて翻訳処理を実行する。
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図25に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU2501を用い、記憶装置としてRAM2502、ROM2503、HD2504を用いている。HD2504として、例えばハードディスク、SSD(Solid State Drive)を用いてもよい。特徴語リスト作成指示モジュール105、関連文書取得モジュール110、語句分割モジュール115、言語判定モジュール120、特徴語リスト抽出モジュール125等のプログラムを実行するCPU2501と、そのプログラムやデータを記憶するRAM2502と、本コンピュータを起動するためのプログラム等が格納されているROM2503と、文書データ管理モジュール155、検索履歴管理モジュール160等の機能を有する補助記憶装置(フラッシュメモリ等であってもよい)であるHD2504と、キーボード、マウス、タッチパネル、マイク等に対する利用者の操作に基づいてデータを受け付ける受付装置2506と、CRT、液晶ディスプレイ、スピーカー等の出力装置2505と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース2507、そして、それらをつないでデータのやりとりをするためのバス2508により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図25に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図25に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図25に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
前述の実施の形態においては、言語判定モジュール120による判定結果(語句毎の言語)を用いるようにしているが、言語判定モジュール120による判定結果を用いないで、特徴語リストを作成するようにしてもよい。この場合、複数の言語による語句が特徴語として抽出され得ることとなる。
また、前述の実施の形態の説明において、予め定められた値等との比較において、「以上」、「以下」、「より大きい」、「より小さい(未満)」としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい(未満)」、「以上」、「以下」としてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
100…情報処理装置
105…特徴語リスト作成指示モジュール
110…関連文書取得モジュール
115…語句分割モジュール
120…言語判定モジュール
125…特徴語リスト抽出モジュール
150…文書管理システム
155…文書データ管理モジュール
160…検索履歴管理モジュール
210…ユーザー端末
290…通信回線

Claims (6)

  1. 文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する抽出手段
    を具備することを特徴とする情報処理装置。
  2. 前記第一の意味は、一般的な意味であり、
    前記第二の意味は、特定の分野向けの意味である
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記抽出手段は、さらに、検索に用いられた語句を抽出し、
    該検索に用いられた語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出する
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記抽出手段は、さらに、前記文書に関する人名又は地名に関する語句を抽出し、
    該抽出した人名又は地名に関する語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出する
    ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。
  5. 前記抽出手段は、前記文書内の語句の出現率が予め定められた出現率より高い又は以上であり、該語句が前記文書のうち予め定められた文書割合未満又は以下の文書にだけ存在している場合は、該語句を第一の意味及び第一の意味とは異なる第二の意味を有する語句として抽出する
    ことを特徴とする請求項1から4のいずれか一項に記載の情報処理装置。
  6. コンピュータを、
    文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する抽出手段
    として機能させるための情報処理プログラム。
JP2015051950A 2015-03-16 2015-03-16 情報処理装置及び情報処理プログラム Pending JP2016173617A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015051950A JP2016173617A (ja) 2015-03-16 2015-03-16 情報処理装置及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015051950A JP2016173617A (ja) 2015-03-16 2015-03-16 情報処理装置及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2016173617A true JP2016173617A (ja) 2016-09-29

Family

ID=57009091

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015051950A Pending JP2016173617A (ja) 2015-03-16 2015-03-16 情報処理装置及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP2016173617A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000163441A (ja) * 1998-11-30 2000-06-16 Nippon Telegr & Teleph Corp <Ntt> 辞書作成方法及び装置及び辞書作成プログラムを格納した記憶媒体及び検索要求作成方法及び装置及び検索要求作成プログラムを格納した記憶媒体及び多言語対応情報検索システム
JP2004192565A (ja) * 2002-12-13 2004-07-08 Internatl Business Mach Corp <Ibm> 翻訳サーバ、コラボレーションサーバ、情報処理装置及びその機械翻訳方法並びにプログラム
JP2005216127A (ja) * 2004-01-30 2005-08-11 National Institute Of Information & Communication Technology 機械翻訳方法及び機械翻訳装置
JP2008276418A (ja) * 2007-04-26 2008-11-13 Just Syst Corp 日本語固有表現抽出装置、日本語固有表現抽出方法、およびその方法をコンピュータに実行させるプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000163441A (ja) * 1998-11-30 2000-06-16 Nippon Telegr & Teleph Corp <Ntt> 辞書作成方法及び装置及び辞書作成プログラムを格納した記憶媒体及び検索要求作成方法及び装置及び検索要求作成プログラムを格納した記憶媒体及び多言語対応情報検索システム
JP2004192565A (ja) * 2002-12-13 2004-07-08 Internatl Business Mach Corp <Ibm> 翻訳サーバ、コラボレーションサーバ、情報処理装置及びその機械翻訳方法並びにプログラム
JP2005216127A (ja) * 2004-01-30 2005-08-11 National Institute Of Information & Communication Technology 機械翻訳方法及び機械翻訳装置
JP2008276418A (ja) * 2007-04-26 2008-11-13 Just Syst Corp 日本語固有表現抽出装置、日本語固有表現抽出方法、およびその方法をコンピュータに実行させるプログラム

Similar Documents

Publication Publication Date Title
US11250020B2 (en) Syncronizing content blocks between multiple electronic documents
JP5241828B2 (ja) 辞書の単語及び熟語の判定
US20090112845A1 (en) System and method for language sensitive contextual searching
JPWO2011148571A1 (ja) 情報抽出システム、方法及びプログラム
WO2011040025A1 (en) Method for setting metadata, system for setting metadata, and program
CN111666383A (zh) 信息处理方法、装置、电子设备及计算机可读存储介质
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
US20060248037A1 (en) Annotation of inverted list text indexes using search queries
JP2010211688A (ja) 文書編集装置、データ処理方法及びプログラム
JP6705352B2 (ja) 言語処理装置、言語処理方法、及び言語処理プログラム
JP2011133928A (ja) 記憶装置に記憶してある文書ファイルを検索する検索装置、検索システム、検索方法及びコンピュータプログラム
JP2021144565A (ja) 情報処理装置及び情報処理プログラム
JP6554841B2 (ja) 情報処理装置及び情報処理プログラム
JP6056489B2 (ja) 翻訳支援プログラム、方法、および装置
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
JP6973468B2 (ja) 情報処理装置及び情報処理プログラム
JP2014240999A (ja) 関心事判別装置、関心事判別方法、およびコンピュータプログラム
JP2016173617A (ja) 情報処理装置及び情報処理プログラム
JP2011086156A (ja) 漏洩情報追跡システムおよび漏洩情報追跡プログラム
JP2012043258A (ja) 検索システム、検索装置、検索プログラム、記録媒体及び検索方法
JP5733285B2 (ja) 検索装置、検索方法及びプログラム
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190723

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190910

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200212