JP6554841B2 - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP6554841B2 JP6554841B2 JP2015051951A JP2015051951A JP6554841B2 JP 6554841 B2 JP6554841 B2 JP 6554841B2 JP 2015051951 A JP2015051951 A JP 2015051951A JP 2015051951 A JP2015051951 A JP 2015051951A JP 6554841 B2 JP6554841 B2 JP 6554841B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- document
- translation
- language
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
これらの技術では、翻訳辞書に登録すべき語句を抽出するだけにすぎず、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態では、ユーザー自身が抽出された語句に対応する原文又は対訳を入力しなければならなかった。
本発明は、文書に対する検索履歴又は利用者に関する属性情報を用いて、翻訳辞書に登録すべき原文と対訳の組み合わせの候補を抽出することを目的とした情報処理装置及び情報処理プログラムを提供することを目的としている。
請求項1の発明は、利用者に関する属性情報から、第1の言語によって表現されている語句と、該語句と対になる語句であって第2の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段を具備し、前記抽出手段は、前記利用者に関する属性情報から、該利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、前記抽出手段は、前記利用者に関する属性情報としての氏名とメールアドレスから、該利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、前記氏名と前記メールアドレスとは異なる言語であって、該メールアドレス内を予め定められたルールによって分割したものを姓と名に対応付ける、ことを特徴とする情報処理装置である。
機械翻訳処理では、「翻訳辞書」を利用することにより翻訳精度を向上させることが可能である。翻訳辞書の内容は、原語と対訳の対を1つのペアとする複数のペア情報である。例えば、英語から日本語への翻訳に用いる英日辞書において、原語:「Working Folder」、対訳:「Working Folder」とすることにより、固有名詞である「Working Folder」を日本語に翻訳したときに「仕事フォルダー」などの正しくない日本語に翻訳することを防ぐことができる。さらに、一般的な意味のほかに、例えば、コンピュータ分野等のような特定の分野向けの意味も有する語句(以下、特徴語とする)を対象とした場合、一般的な意味で翻訳されてしまうため、翻訳辞書に予め特定の分野向けの意味を登録しておく必要もある。なお、一般的な意味とは広辞苑や大辞典等の国語辞書に記載されている、語句の意味をいい、特定分野向けの意味とは、コンピュータ分野等の専門性のある特定の分野のみで使われている、語句の意味をいう。
また、「スポーツ」や「特許」など、一般的に用いられる需要のある分野の辞書は、その分野固有の翻訳辞書が販売されている。しかし、製品や社内用語など狭い範囲の分野における翻訳辞書は販売されておらず、手動で翻訳辞書を作成するのが一般的である。しかしながら、手動による辞書作成は煩雑であるため、辞書作成支援装置が提案されている。
<<第1の実施の形態>>
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、すべての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
情報処理装置100は、文書とその文書の属性に含まれる語句から翻訳辞書における原文又は対訳の候補のいずれか一方を抽出する。ただし、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で行う。以下、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方を特徴語ともいう。
特に、情報処理装置100は、一般的な意味だけでなく、特定の分野向けの意味も有する語句(人名等を含む)について、特徴語として抽出するものである。
例えば、「アクセス権」は、一般的には「知る権利(right of access)」を意味するが、コンピュータを用いたドキュメント管理の分野では「オブジェクトにアクセスするための権利(permission)」を意味する。先行技術文献に開示されている技術では、ドキュメント管理に関する翻訳辞書に登録すべき候補として「アクセス権」を挙げることができない。他にもドキュメント管理の分野における「キャビネット」、「ドロワー」などで同様の状況となる。ここで、上記に挙げた一般的な意味の他に特定の分野向けの意味も有する語句を特徴語とする。
文書管理システム150によって管理されている文書、フォルダー(以下に例示するキャビネット、ドロワー等を含む)の属性として使用されている語句、検索クエリで使用される語句(例えば、検索に用いたキーワード等)は、特徴的な語句である場合が多い。情報処理装置100は、これらの語句を特徴語として抽出する。また、情報処理装置100は、文書管理システム150内の文書内の語句の出現頻度を用いて、特定の状況で多く出現する語句を特徴語として抽出する。
文書データ管理モジュール155は、情報処理装置100の関連文書取得モジュール110と接続されている。文書データ管理モジュール155は、文書管理システム150において、文書やフォルダーの情報(コンテンツや属性)を管理する。
検索履歴管理モジュール160は、情報処理装置100の特徴語リスト抽出モジュール125と接続されている。検索履歴管理モジュール160は、ユーザーの文書検索履歴を管理する。具体例には、文書管理システム150において、どのユーザーがどの検索クエリを使用してどの文書が検索結果としてヒットし、その後どの文書を閲覧したかを記録する。
関連文書取得モジュール110は、特徴語リスト作成指示モジュール105、語句分割モジュール115、文書管理システム150の文書データ管理モジュール155と接続されている。関連文書取得モジュール110は、特徴語リスト作成指示モジュール105の指示により文書データ管理モジュール155で管理している文書の中から、特定のユーザーに関連する文書情報を取得し記録する。ここで「特定のユーザー」とは、特徴語リスト作成指示モジュール105によって指示されたユーザーであってもよいし、特徴語リスト作成指示モジュール105での操作を行ったユーザーであってもよい。
言語判定モジュール120は、語句分割モジュール115と接続されている。言語判定モジュール120は、語句分割モジュール115によって分割された語句の言語を判定する。
語句分割モジュール115は、さらに、検索に用いられた語句を抽出してもよい。ここで「検索に用いられた語句」の検索の指示を行った「ユーザー」は、特徴語リスト作成指示モジュール105における特定のユーザーである。例えば、特徴語リスト作成指示モジュール105で指示を行った者である。
語句分割モジュール115は、さらに、文書に関する人名又は地名に関する語句を抽出するようにしてもよい。例えば、藤太郎という人名では、名字である藤を、一般辞書を用いて英訳してしまうと「Wisteria」となってしまうため、人名や地名も特徴語として抽出する必要がある。
さらに、特徴語リスト抽出モジュール125は、語句分割モジュール115が抽出した検索に用いられた語句を用いて特徴語を抽出するようにしてもよい。「検索に用いられた語句」を第2の語句として特徴語の抽出処理を行う。つまり、文書に含まれている第1の語句と検索に用いられた第2の語句のうち、両方に含まれている語句を特徴語として抽出処理を行うようにしてもよい。
さらに、特徴語リスト抽出モジュール125は、語句分割モジュール115が抽出した人名又は地名に関する語句を用いて特徴語を抽出するにしてもよい。「人名又は地名に関する語句」を第2の語句として特徴語の抽出処理を行う。つまり、文書に含まれている第1の語句と人名又は地名に関する第2の語句のうち、両方に含まれている語句を特徴語として抽出処理を行うようにしてもよい。
また、特徴語リスト抽出モジュール125は、文書内の語句の出現率が予め定められた出現率より高い又は以上であり、かつ該語句が、文書のうち予め定められた文書割合未満又は以下の文書にだけ存在している場合は、その語句を特徴語として抽出するようにしてもよい。ここで、文書割合とは、対象とした全文書における該当文書(対象としている語句が含まれている文書)の割合であってもよいし、該当文書の数としてもよい。
具体例では、特徴語リスト抽出モジュール125は、語句分割モジュール115によって分割された語句のうち、特徴語リスト作成指示モジュール105で指定された言語と合致する言語の語句について、文書データ管理モジュール155で管理しているデータ又は検索履歴管理モジュール160で管理している検索履歴を利用して、特徴語リストを抽出する。
情報処理装置100、文書管理システム150、ユーザー端末210A、ユーザー端末210Bは、通信回線290を介してそれぞれ接続されている。通信回線290は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。ユーザーが用いるユーザー端末210からの指示によって、文書管理システム150内に文書を格納、又は検索等が行われる。そして、ユーザー端末210からの指示によって、翻訳辞書における特徴語が抽出される。そして、ユーザー端末210でのユーザーの操作によって、その特徴語の対訳が記入され、翻訳辞書が完成する。また、情報処理装置100、文書管理システム150による機能は、クラウドサービスとして実現してもよい。なお、第2の実施の形態では、情報処理装置100を情報処理装置2500、文書管理システム150を文書管理システム2550とすればよく、ユーザー端末210では、ユーザーによって情報処理装置2500の処理結果の確認、修正等が行われる。
ステップS302では、特徴語リスト作成指示モジュール105は、ユーザーの操作に応じて、パラメータを入力する。特徴語リスト作成指示モジュール105は、GUI(Graphical User Interface)、CUI(Character User Interface)等のユーザーインタフェース上でユーザーからのパラメータ入力を受け付ける。例えば、入力すべき項目として、出力すべき特徴語の言語(以下、languageともいう)、文書管理システム150にアクセスするために必要な情報(例えば、URL、ユーザーID、パスワード等)、特徴語リストの出力パス等がある。また、ステップS302で、ステップS304で取得する文書コンテンツの格納パスを指定してもよい。さらに、ステップS314で使用するしきい値をここで指定してもよい。
文書コンテンツは、予め定められた格納パス、又はステップS302で指定されたパスに格納する。
文書の属性(例えば、文書ID、文書名、作成者名、更新者名、文書が所属するフォルダーID、文書が所属するフォルダー名等)も取得し、記録する(以下、propertyTable(プロパティテーブル)とする)。例えば、propertyTable400として記録する。図4は、propertyTable400のデータ構造例を示す説明図である。propertyTable400は、文書ID欄410、文書名欄420、作成者名欄430、更新者名欄440、フォルダーID欄450、フォルダー名欄460、パス欄470を有している。
文書ID欄410は、第1の形態において、文書を一意に識別するための情報(文書ID:IDentification)を記憶している。文書名欄420は、その文書の名称を記憶している。作成者名欄430は、その文書の作成者名を記憶している。更新者名欄440は、その文書の更新者名を記憶している。フォルダーID欄450は、その文書を含むフォルダーであって、第1の形態において、フォルダーを一意に識別するための情報(フォルダーID)を記憶している。フォルダー名欄460は、そのフォルダーの名称を記憶している。パス欄470は、その文書のパス(格納場所)を記憶している。
また、作成者名や更新者名については、姓と名に分けたもの、姓名を連結したもの、姓+スペース+名を連結したもの等を用意する(以下、NameListとする)。NameListは、文書管理システム150から全ユーザーの姓、名を取得できる場合は、これを取得してもよい。文書管理システム150が地名(ユーザーの居所等)の情報を保持する場合は、その地名をNameListに入れてもよい。
語句毎に、出現率、文書ID、言語判定モジュール120により語句の言語を判定した結果を記録する(以下、phraseTableとする)。例えば、phraseTable500として記録する。図5は、phraseTable500のデータ構造例を示す説明図である。phraseTable500は、語句欄510、出現回数欄520、出現率欄530、文書ID欄540、言語欄550を有している。
語句欄510は、抽出した語句を記憶している。出現回数欄520は、対象としている文書(文書ID欄540)におけるその語句の出現回数を記憶している。出現率欄530は、対象としている文書(文書ID欄540)におけるその語句の出現率を記憶している。文書ID欄540は、対象としている文書IDを記憶している。言語欄550は、その語句の言語を記憶している。言語判定モジュール120では、語句の文字コードなど既存技術を用いて、言語を判定する。その判定結果を言語欄550に記憶させる。
例えば、出現率欄530での出現率は、(語句の出現回数/文書全体の語句数)*100(%)とする。
また、文書内の語句数を文書IDと紐付けて記録する(以下、documentTableとする)。例えば、documentTable600として記録する。図6は、documentTable600のデータ構造例を示す説明図である。documentTable600は、文書ID欄610、語句数欄620を有している。
文書ID欄610は、文書IDを記憶している。語句数欄620は、その文書IDの文書に含まれている語句数を記憶している。この語句数欄620の値が前述の出現率の式の「文書全体の語句数」に該当する。
次に、検索履歴管理モジュール160から、すべてのユーザーが検索したクエリ内の語句のリスト(以下、queryListとする)を抽出する。これにpropertyTable中の文書名、フォルダー名をマージする。なお、各要素を形態素解析した結果で分割してもよい。
phraseListに含まれ、かつ、queryList中に含まれる語句はcandidateListに追加し、追加した語句はphraseListから削除する。ここで、検索クエリは特徴語リスト作成指示モジュール105で指定されたユーザーが検索に使用したクエリのみを対象としてもよいし、最近検索された(現在から予め定められた期間内にある)クエリだけを対象としてもよい。また、クエリの検索回数が予め定められたしきい値以上のものだけ対象にしてもよい。
予め、phraseListに含まれ、かつ、一般的な用語の辞書に含まれない語句を、candidateListに追加し、該当語句をphraseListから削除した上で上記の処理を始めてもよい。
phraseList中の語句の出現率が、予め特徴語リスト作成指示モジュール105などで設定しておいたしきい値(例えば、0.5%等)を超える語句が、予め特徴語リスト作成指示モジュール105などで設定しておいたしきい値以下(例えば、1個、全文書数の1%以下などの指定が可能)の文書割合しか存在しなかった場合は、その語句をcandidateListに追加し、phraseListから削除する。
文書単位の出現率に代えて、又は追加して、階層構造を考慮し、フォルダー内での語句の出現率を使用してもよい。この場合には、documentTableの文書IDとpropertyTable中の文書IDを突き合わせ、文書が所属するフォルダーIDを取得する。これを基にphraseFolderTableとFolderTableを作成し、同様の処理を行う。さらに、上の階層のフォルダー単位で同様の処理を行ってもよい。
なお、ステップS308からステップS312の処理は、それぞれ予め定められた設定(これらのステップのいずれか1つの処理の選択、2つの組み合わせの選択、又は2つ以上の組み合わせを選択した場合は、処理の順番の設定)で選択的に実施してもよい。
キャビネット710は、フォルダーと同等の機能を有しており、下位にフォルダー720、フォルダー730を有している。キャビネット710の属性として、名前(フォルダー名):「開発キャビネット」を有している。
フォルダー720は、下位に文書722、文書724を有している。フォルダー720の属性として、フォルダーID:「Folder−1」、名前(フォルダー名):「WorkingFolder」を有している。文書722の属性として、文書ID:「Doc−3」、名前(文書名):「マニュアル.pdf」、作成者:「藤 太郎」(ユーザー782)、更新者:「藤 太郎」を有している。文書724の属性として、文書ID:「Doc−1」、名前(文書名):「アクセス権設計書.dxxx」、作成者:「藤 太郎」、更新者:「藤 太郎」を有している。なお、「藤」は、植物としての名称(wisteria)と姓として用いられる場合がある。一般的な翻訳辞書では、「藤」と植物としての名称の対が登録されている。
フォルダー730は、下位にフォルダー732、文書734を有している。フォルダー730の属性として、フォルダーID:「Folder−2」、名前(フォルダー名):「スキャン翻訳」を有している。フォルダー732の属性として、フォルダーID:「Folder−3」を有している。文書734の属性として、文書ID:「Doc−2」、名前(文書名):「ジョブ管理の仕様.Dxxx」、作成者:「藤 花子」(ユーザー784)、更新者:「藤 花子」を有している。
検索履歴テーブル800は、検索日時欄810、検索者欄820、クエリ欄830、ヒット文書ID欄840、閲覧した文書欄850を有している。検索日時欄810は、検索が行われた日時(年、月、日、時、分、秒、秒以下、又はこれらの組み合わせであってもよい)を記憶している。検索者欄820は、その検索の指示を行った者の名称(ユーザーIDであってもよい)を記憶している。クエリ欄830は、検索に用いられたクエリ(キーワード)を記憶している。ヒット文書ID欄840は、その検索によってヒットした文書の文書IDを記憶している。閲覧した文書欄850は、その検索の結果、閲覧まで行われた文書の文書IDを記憶している。
辞書作成支援ツール画面900には、言語指定欄910、出力パス指定欄920、URL指定欄930、ユーザーID指定欄940、パスワード指定欄950、語句の出現率指定欄960、出現文書数指定欄970、閉じるボタン996、OKボタン992、キャンセルボタン994を表示する。
言語指定欄910は、特徴語の言語を指定するためのものである。
出力パス指定欄920は、特徴語を出力するパス名(ファイル名)を指定するためのものである。
URL指定欄930は、対象としている文書が格納されているパス(フォルダーのパス)を指定するためのものである。
ユーザーID指定欄940は、文書管理システム150にアクセスするための操作者のユーザー名(又は対象とする文書に関連付けられているユーザー名)を指定するためのものである。
パスワード指定欄950は、文書管理システム150にアクセスするための操作者のパスワードを指定するためのものである。
語句の出現率指定欄960は、特徴語リスト抽出モジュール125がしきい値として用いるための語句の出現率を指定するためのものである。
出現文書数指定欄970は、特徴語リスト抽出モジュール125がしきい値として用いるための出現文書数を指定するためのものである。
OKボタン992が選択されると、言語指定欄910等で指定された値で、情報処理装置100による処理が開始される。キャンセルボタン994が選択されると、言語指定欄910等で指定された値をクリアして初期状態に戻る。閉じるボタン996が選択されると、辞書作成支援ツール画面900そのものを消去する。
propertyTable1000は、関連文書取得モジュール110が、藤太郎が作成と閲覧した文書を関連文書とした場合の関連文書データを収集した結果を示している。
propertyTable1000は、文書ID欄1010、文書名欄1020、作成者欄1030、更新者欄1040、フォルダーID欄1050、フォルダー名欄1060を有している。各欄は、それぞれ図4の例に示したpropertyTable400の文書ID欄410、文書名欄420、作成者名欄430、更新者名欄440、フォルダーID欄450、フォルダー名欄460と同等のものである。propertyTable1000の内容は、図7の例に示したものを示している。
また、propertyTable1000から、NameListとして次のものを生成する。
[藤,太郎,藤太郎,藤 太郎,藤 太郎,花子,藤花子,藤 花子,藤 花子]
これは、propertyTable1000の作成者欄1030、更新者欄1040から抽出した姓:「藤」、名:「太郎」のユーザー782、姓:「藤」、名:「花子」のユーザー784から生成したものである。具体例には、姓と名に分けたもの、姓名を連結したもの、姓+スペース(半角と全角の両方)+名を連結したものである。
phraseTable1100は、文書ID:Doc−1に関するphraseTableである。phraseTable1100は、語句欄1110、出現回数欄1120、出現率欄1130、文書ID欄1140、言語欄1150を有している。
phraseTable1200は、文書ID:Doc−2に関するphraseTableである。phraseTable1200は、語句欄1210、出現回数欄1220、出現率欄1230、文書ID欄1240、言語欄1250を有している。
phraseTable1300は、文書ID:Doc−3に関するphraseTableである。phraseTable1300は、語句欄1310、出現回数欄1320、出現率欄1330、文書ID欄1340、言語欄1350を有している。
各テーブルのデータ構造は、図5の例に示したphraseTable500のデータ構造と同等である。
なお、phraseTable1100、phraseTable1200、phraseTable1300を組み合わせて1つのテーブルとしてもよい。
phraseTable1100の場合について説明する。語句分割モジュール115は、文書ID:「Doc−1」の文書から語句を抽出し、語句欄1110に格納し、その文書におけるその語句の出現回数を計数し、出現回数欄1120に格納し、出現回数欄1120とdocumentTable1400の語句数欄1420を用いて出現率を算出し、出現率欄1130に格納し、対象とした文書の文書IDを文書ID欄1140に格納し、対象としている語句の言語(その言語に対しての言語判定モジュール120による処理結果)を言語欄1150に格納する。phraseTable1200、phraseTable1300についても、それぞれ文書ID:「Doc−2」の文書、文書ID:「Doc−3」の文書を対象として、同様に生成される。
documentTable1400は、文書ID欄1410、語句数欄1420を有している。データ構造は、図6の例に示したdocumentTable600のデータ構造と同等である。
語句分割モジュール115は、対象としている文書の文書IDを文書ID欄1410に格納し、その文書における語句数を計数し、語句数欄1420に格納する。なお、語句数は、文書内のすべての語句を対象としてもよいし、phraseTable1100等が対象としている品詞(phraseTable1100の場合は名詞)の語句数を計数してもよい。
図15(a)の例に示すように、queryList(形態素解析済み)を、次のように生成する。
[アクセス権,スキャン,翻訳,スキャン翻訳,ジョブ,管理,ジョブ管理,設計書,マニュアル,仕様]
queryList内の語句は、検索履歴テーブル800とpropertyTable1000から生成したものであり、検索履歴テーブル800(クエリ欄830)とpropertyTable1000(文書名欄1020、作成者欄1030)内の語句を抽出し、形態素解析を行った結果である。
図15(a)の例に示すように、phraseList(日本語指定)を、次のように生成する。
[藤,太郎,アクセス権,設計,ドロワー,単位,設定,花子,ジョブ,ジョブ数,変更,キャビネット,ログイン]
phraseList内の語句は、phraseTable1100、phraseTable1200、phraseTable1300から生成したものであり、言語(言語欄1150、言語欄1250、言語欄1350)が日本語である語句(語句欄1110、語句欄1210、語句欄1310)を抽出したものである。
なお、candidateListは、処理当初は、図15(a)の例に示すように、空である。
具体例には、queryListとphraseListの両方に出現している語句である「アクセス権」、「ジョブ」(図15(a)内では矩形で囲っている語句)をcandidateListに入れる。つまり、candidateListを次のように生成する。
[アクセス権,ジョブ]
また、phraseListは、図15(a)の状態から、candidateListに入れた語句ある「アクセス権」、「ジョブ」(図15(a)内では矩形で囲っている語句)を消去する。つまり、phraseListを次のように生成する。
[藤,太郎,設計,ドロワー,単位,設定,花子,ジョブ数,変更,キャビネット,ログイン]
この時点で、図16(a)の例に示すように、NameListは以下の通り(前述したものと同じ)である。
[藤,太郎,藤太郎,藤 太郎,藤 太郎,花子,藤花子,藤 花子,藤 花子]
candidateListは以下の通り(図15(b)の例に示したものと同じ)である。
[アクセス権,ジョブ]
phraseListは以下の通り(図15(b)の例に示したものと同じ)である。
[藤,太郎,設計,ドロワー,単位,設定,花子,ジョブ数,変更,キャビネット,ログイン]
具体例には、NameListとphraseListの両方に出現している語句である「藤」、「太郎」、「花子」(図16(a)内では矩形で囲っている語句)をcandidateListに入れる。つまり、candidateListを次のように生成する。
[アクセス権,ジョブ,藤,太郎,花子]
また、phraseListは、図16(a)の状態から、candidateListに入れた語句ある「藤」、「太郎」、「花子」(図16(a)内では矩形で囲っている語句)を消去する。つまり、phraseListを次のように生成する。
[設計,ドロワー,単位,設定,ジョブ数,変更,キャビネット,ログイン]
この時点で、図17(a)の例に示すように、phraseListは以下の通り(図16(b)の例に示したものと同じ)である。
[設計,ドロワー,単位,設定,ジョブ数, 変更,キャビネット,ログイン]
candidateListは以下の通り(図16(b)の例に示したものと同じ)である。
[アクセス権,ジョブ,藤,太郎,花子]
具体例には、図18、19、20の例に示すphraseTable1800、phraseTable1900、phraseTable2000を用いる。なお、それぞれ図11、12、13の例に示したphraseTable1100、phraseTable1200、phraseTable1300と同等のものである。
出現率0.5%以上で1つの文書だけ出現するものを特徴語とした場合(図9の例に示した辞書作成支援ツール画面900内の語句の出現率指定欄960と出現文書数指定欄970で指定されたしきい値)、「ジョブ数」(図19の例に示すphraseTable1900内の条件合致行1990)と「キャビネット」(図20の例に示すphraseTable2000内の条件合致判断行2090)が特徴語と判断される。
そして、candidateListに、語句「ジョブ数」、「キャビネット」(図17(b)内では矩形で囲っている語句)を付加して、次のように生成する。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット]
また、phraseListから語句「ジョブ数」、「キャビネット」(図17(b)内では矩形で囲っている語句)を消去して、次のように生成する。
[設計,ドロワー,単位,設定,変更,ログイン]
ここでの処理では、フォルダーの構成(文書が含まれているフォルダー)を用いている。
この時点で、candidateListは以下の通り(図17(b)の例に示したものと同じ)である。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット]
phraseListは以下の通り(図17(b)の例に示したものと同じ)である。
[設計,ドロワー,単位,設定,変更,ログイン]
ここで、フォルダー内の文書における語句(具体例には、phraseFolderTable2100、phraseFolderTable2200)に対して、特定のフォルダーにのみ出現率が高い語句を抽出する。
具体例には、出現率0.5%以上で1つのフォルダーだけ出現するものを特徴語とした場合(図9の例に示した辞書作成支援ツール画面900内の語句の出現率指定欄960と出現文書数指定欄970で指定されたしきい値。なお、出現文書数指定欄970で指定されたしきい値は、その語句が出現したフォルダー数を示している)、「ドロワー」(図21の例に示すphraseFolderTable2100内の条件合致行2190)が特徴語と判断される。
そして、candidateListに、語句「ドロワー」を付加して、次のように生成する。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット,ドロワー]
また、phraseListから語句「ドロワー」を消去して、次のように生成する。
[設計,単位,設定,変更,ログイン]
なお、phraseFolderTable2100、phraseFolderTable2200、FolderTable2300は、phraseTable1100を生成したステップS306で生成してもよい。
前述の通り、candidateListは、図24(a)の例に示すように、次のようになっている。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット,ドロワー]
このcandidateListを、ファイル(例えば、CSVファイル)として、図9の例に示した辞書作成支援ツール画面900内の出力パス指定欄920で指定されたパスに出力する。そのファイルの内容例を、図24(b)に示す。A欄(1〜8行目)にcandidateList内の各語句が格納されている。ユーザーの操作によって、対応するB欄(1〜8行目)に対訳(又は原文)が記載されることによって、特徴語の翻訳辞書が完成する。
この特徴語の翻訳辞書を、機械翻訳処理装置に渡し、その機械翻訳処理装置は、この特徴語の翻訳辞書を元の翻訳辞書に加えて翻訳処理を実行する。
図25は、第2の実施の形態の構成例についての概念的なモジュール構成図を示している。なお、第1の実施の形態と同種の部位には同一符号を付し重複した説明を省略する。
第2の実施の形態である情報処理装置2500は、翻訳辞書の作成を支援するものであって、図25の例に示すように、特徴語リスト作成指示モジュール105、関連文書取得モジュール110、語句分割モジュール115、言語判定モジュール120、特徴語リスト抽出モジュール125、訳語抽出モジュール2530を有している。第1の実施の形態の情報処理装置100に訳語抽出モジュール2530を付加したものである。なお、文書管理システム2550は、文書データ管理モジュール155、検索履歴管理モジュール160、ユーザー情報管理モジュール2565を有している。文書管理システム150に、ユーザー情報管理モジュール2565を付加したものである。
第1の実施の形態では、特徴語を抽出したが、翻訳辞書では原文と対訳の組み合わせが必要であるので、その特徴語に対する対訳(又は原文)を記載する必要がある。第2の実施の形態の情報処理装置2500は、その組み合わせの候補を生成するものである。また、第2の実施の形態においても、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、処理を行う。
また、ユーザー情報から人名を判別して、対訳を抽出する。
また、検索クエリ、その検索クエリを指示したユーザーの使用言語から、言語によらず固定的にすべき語句を抽出する。
文書管理システム2550の文書データ管理モジュール155は、情報処理装置2500の関連文書取得モジュール110と接続されている。
検索履歴管理モジュール160は、情報処理装置2500の特徴語リスト抽出モジュール125、訳語抽出モジュール2530と接続されている。
ユーザー情報管理モジュール2565は、情報処理装置2500の訳語抽出モジュール2530と接続されている。ユーザー情報管理モジュール2565は、ユーザーに関する情報を管理する。ユーザーに関する情報として、利用者の氏名又は地名における第1の言語の語句と第2の言語の語句の組み合わせを記憶している。例えば、利用者の氏名と住所又は居所が、第1の言語の表記データと第2の言語の表記データによって記載されているテーブルが該当する。また、利用者の氏名とその利用者のメールアドレスを対応させて記憶しているテーブルが該当する。なお、第2の言語とは、もちろんのことながら、第1の語句の言語とは異なる言語である。
関連文書取得モジュール110は、特徴語リスト作成指示モジュール105、語句分割モジュール115、文書管理システム2550の文書データ管理モジュール155と接続されている。
語句分割モジュール115は、関連文書取得モジュール110、言語判定モジュール120、特徴語リスト抽出モジュール125と接続されている。
言語判定モジュール120は、語句分割モジュール115と接続されている。
特徴語リスト抽出モジュール125は、語句分割モジュール115、訳語抽出モジュール2530、文書管理システム2550の検索履歴管理モジュール160と接続されている。
訳語抽出モジュール2530は、文書に対する検索履歴又は利用者に関する属性情報から語句を抽出する。
そして、抽出した語句から、第1の言語によって表現されている語句と、その語句と対になる語句であって第2の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する。
また、訳語抽出モジュール2530は、利用者に関する属性情報から、その利用者の氏名又は地名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出するようにしてもよい。
また、訳語抽出モジュール2530は、利用者の氏名とメールアドレスから、その利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出するようにしてもよい。
また、訳語抽出モジュール2530は、検索履歴から、第1の検索指示を行った利用者の使用言語と第2の検索指示を行った利用者の使用言語が異なる場合であって、その第1の検索指示内の語句の表記とその第2の検索指示内の語句の表記が同じときは、その語句の2つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出するようにしてもよい。ここで、「第1の検索指示内の語句の表記と第2の検索指示内の語句の表記が同じ」とは、語句の意味が同じだけでなく、その語句の言語も同じことをいう。例えば、アルファベットで表記されている固有名詞の語句が該当する。
ステップS2602では、特徴語リスト作成指示モジュール105は、パラメータを入力する。
ステップS2604では、関連文書取得モジュール110は、関連文書を取得する。
ステップS2606では、語句分割モジュール115は、語句を分割する。
ステップS2608では、特徴語リスト抽出モジュール125は、検索クエリから特徴語を抽出する。
ステップS2610では、特徴語リスト抽出モジュール125は、ユーザー名から特徴語を抽出する。
ステップS2612では、特徴語リスト抽出モジュール125は、階層構造から特徴語を抽出する。
ステップS2614では、特徴語リスト抽出モジュール125は、特徴語リストを出力する。
ステップS2602〜ステップS2614の処理は、図3の例に示したフローチャート内のステップS302〜ステップS314の処理と同等である。
また、翻訳辞書データ用の変数(以下、dictionaryとする)を定義する(初期化を含む)。dictionaryは、文字列配列を第一要素、文字列配列を第二要素とするペアのリストである。例えば、プログラミングC♯での表記では、List<Pair<string[], string[]>>である。
検索履歴管理モジュール160内の情報、言語判定モジュール120を利用し、languageを言語とする検索クエリ(A)とtranslationLanguageを言語とする検索クエリ(B)の両方により、その文書が検索又は閲覧されていたか否かをチェックする。
同じ文書が検索又は閲覧されていた場合、検索クエリ(A)の語句と検索クエリ(B)内の語句を対応付けて記録する(以下、queryPairListとする)。queryPairListの型はdictionaryと同じである。検索クエリ(A)の語句と検索クエリ(B)内の語句は、それぞれが複数ある場合がある。例えば、「アクセス権」という語句の対訳として、「permission」、「ACL」があり、これを示すのに[[アクセス権]:[permission, ACL]]と表記する。
語句(phrase)がuserMappingsのキーに含まれている場合は、userMappingsの値を唯一の要素とする配列を訳語とする。
含まれていない場合は、queryPairList中の第一要素側にphraseが含まれていたら、第二要素の配列を訳語とする。
訳語を抽出した場合は、phraseと訳語のペアをdictionaryに追加し、candidateListからphraseを削除する。
例えば、日本語、英語、タイ語を使用言語とする3人のユーザーがそれぞれ「Working Folder」で検索した場合、その語句「Working Folder」と「日本語」、「英語」、「タイ語」を対応付ける。これを、[Working Folder]:[日本語,英語,タイ語]と表記する。
検索クエリの言語(前述の「Working Folder」では英語)を言語判定モジュール120で判断させ、検索クエリの言語以外の複数の言語のユーザーから検索されていた場合は、言語によらず翻訳すべきでない固有名詞とみなし、その検索クエリに用いられた語句を唯一の要素とする第一要素及び第二要素として、dictionaryに追加する。つまり、「Working Folder」という語句の2つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補とする。
なお、ステップS2618からステップS2624の処理は、それぞれ予め定められた設定(これらのステップのいずれか1つの処理の選択、2つの組み合わせの選択、又は2つ以上の組み合わせを選択した場合は、処理の順番の設定)で選択的に実施してもよい。なお、ステップS2622の処理は、ステップS2618又はステップS2620の処理の後に行う。
辞書作成支援ツール画面2700には、言語指定欄910、訳語の言語指定欄2715、出力パス指定欄920、URL指定欄930、ユーザーID指定欄940、パスワード指定欄950、語句の出現率指定欄960、出現文書数指定欄970、OKボタン992、キャンセルボタン994、閉じるボタン996を表示する。つまり、辞書作成支援ツール画面2700は、図9の例に示した辞書作成支援ツール画面900に訳語の言語指定欄2715を追加したものである。
訳語の言語指定欄2715は、言語指定欄910で指定された言語に対応する言語(translationLanguage)を指定するためのものである。つまり、翻訳辞書における原文と対訳の組み合わせにおける対訳(又は原文)の言語を示したものである。
documentTable2800は、文書ID欄2805、語句数欄2815を有している。documentTable2800は、図6の例に示したdocumentTable600と同等のデータ構造例を有している。
検索履歴テーブル2850は、検索日時欄2855、検索者欄2860、クエリ欄2865、ヒット文書ID欄2870、閲覧した文書欄2875を有している。検索履歴テーブル2850は、図8の例に示した検索履歴テーブル800と同等のデータ構造例を有している。
図28の例は、文書ID:Doc−1は、検索履歴テーブル2850の1行目と4行目の検索クエリによって検索され、閲覧されたことを示している。つまり、文書ID:Doc−1は、検索クエリ内の語句「アクセス権」と「Permission」で検索され(ヒットし)、閲覧されている。このように、複数の検索クエリで同じ文書が検索された場合は、次のように、queryPairListを生成する。
[アクセス権]:[Permission]
なお、「アクセス権」と「Permission」と「ACL」で検索され、閲覧された場合のqueryPairListは以下のようになる。
[アクセス権]:[Permission、ACL]
「Permission」と「ACL」が同じ言語(英語)と判断されたためである。
なお、ここで、複数の検索クエリは、同じ検索者による検索クエリとしてもよいし、異なる検索者による検索クエリであることを条件としてもよい。
また、同じ文書とは、ヒット文書ID欄2870内の文書が同じことだけで判断してもよい。なお、閲覧した文書欄2875内の文書が同じこととは、ヒット文書ID欄2870内の文書が同じことを前提としている。
また、前述した「Permission」と「ACL」のように、対応する語句が複数ある場合は、検索回数によって優先順位を付けるようにしてもよい。例えば、「Permission」を用いた検索クエリが2回あり、「ACL」を用いた検索クエリが1回の場合は、「Permission」の優先順位が上位となる。そして、ステップS2626で原文と対訳の組み合わせを表示する場合に、1つの原文に対して複数の訳文があることを表示し、優先順位の順番で、その組み合わせを表示するようにしてもよい。
図29(a)の例に示すように、ユーザー情報管理モジュール2565から抽出したユーザー情報(日本語と英語の表示名)は以下の通りである。
[藤 太郎:Fuji Taro,藤 花子:Fuji Hanako]
そして、訳語抽出モジュール2530の処理結果は、図29(b)の例に示すようなuserMappingsになる。
具体例には、ユーザー情報内の各語句を順に対応付ける。つまり、「藤 太郎:Fuji Taro」から、「藤」と「Fuji」、「太郎」と「Taro」を対応付け、「藤 花子:Fuji Hanako」から、「藤」と「Fuji」、「花子」と「Hanako」を対応付け、同じ組み合わせ(この場合は、「藤」と「Fuji」)が複数ある場合は、1つの組み合わせにする。つまり、userMappingsを次のように生成する。
[藤:Fuji, 太郎:Taro, 花子:Hanako]
図30(a)の例に示すように、ユーザー情報管理モジュール2565から抽出したユーザー情報(日本語の表示名とメールアドレス)は以下の通りである。
[藤 太郎:Taro.Fuji@example.com,藤 花子:Hanako.Fuji@example.com]
メールアドレスか英語名の表示である氏名を抽出するルールは以下の通りである。
「メールアドレスの先頭から最初のドットまでが名前、それ以降@までが姓」
そして、特徴語リスト抽出モジュール125の処理結果は、図30(b)の例に示すようなuserMappingsになる。
具体例には、前述のルールにしたがって、名前として「Taro」、「Hanako」を抽出し、姓として「Fuji」抽出する。つまり、userMappingsを次のように生成する。
[藤:Fuji, 太郎:Taro, 花子: Hanako]
この時点で、図31(a)の例に示すように、candidateListは以下の通りである。これは、図24(a)に示す例と同じものである。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット, ドロワー]
userMappingsは以下の通りである。
[藤:Fuji, 太郎:Taro, 花子:Hanako]
queryPairListは以下の通りである。
[アクセス権]:[Permission]
dictionaryは以下の通りである。処理当初であるので、空である。
[]
具体例には、candidateList内の語句に対して、userMappings内にあるものを翻訳辞書における対として抽出する。次に、同様に、queryPairList内にあるものを翻訳辞書における対として抽出する。つまり、dictionaryを次のように生成する。
[[[藤],[Fuji]],[[太郎],[Taro]],[[花子],[Hanako]]、[[アクセス権],[Permission]]]
また、candidateListは、図31(a)の状態から、翻訳辞書における対として抽出した語句(図31(b)内では矩形で囲っている語句)を消去する。
つまり、candidateListを次のように生成する。
[ジョブ,ジョブ数,キャビネット, ドロワー]
検索履歴テーブル3200は、検索日時欄3205、検索者欄3210、クエリ欄3215、ヒット文書ID欄3220、閲覧した文書欄3225を有している。検索履歴テーブル3200は、図8の例に示した検索履歴テーブル800と同等のデータ構造例を有している。これは検索クエリに「Working Folder」を含んでいる検索履歴を収集したものである。
ユーザー3230は、氏名(藤 太郎)3230A、使用言語(日本語)3230Bであり、ユーザー3235は、氏名(藤 花子)3235A、使用言語(日本語)3235Bであり、ユーザー3240は、氏名(John Bryant)3240A、使用言語(英語)3240Bであり、ユーザー3245は、氏名(Lee Chang)3245A、使用言語(繁体字中国語)3245Bである。これらの情報は、ユーザー情報管理モジュール2565が保持している。
訳語抽出モジュール2530は、検索履歴テーブル3200の検索者欄3210から、検索クエリ内で同じ語句(この例では「Working Folder」)を用いた検索者を抽出する。そして、検索履歴テーブル3200の検索者欄3210の検索者について、検索者の使用言語の情報を抽出し、notNativeMappingsを生成する。図32(a)の例に示すように、notNativeMappingsは以下の通りである。
[Working Folder:日本語,英語,繁体字中国語]
つまり、dictionaryを次のように生成する。
[[[藤],[Fuji]],[[太郎],[Taro]],[[花子],[Hanako]]、[[アクセス権],[Permission]],[[Working Folder],[Working Folder]]]
この時点で、図33(a)の例に示すように、dictionaryは以下の通りである。
[[[藤],[Fuji]],[[太郎],[Taro]],[[花子],[Hanako]]、[[アクセス権],[Permission]],[[Working Folder],[Working Folder]]]
そして、candidateList内に残っている語句(対訳を発見できなかった特徴語、具体例には、「ジョブ」、「ジョブ数」、「キャビネット」、「ドロワー」)を、dictionary内に追加する。ただし、その際、対訳はないので、対訳データは空として、dictionaryを生成する。
具体例には、次のようにdictionaryを生成する。
[[[藤],[Fuji]],[[太郎],[Taro]],[[花子],[Hanako]]、[[アクセス権],[Permission]],[[Working Folder],[Working Folder]],[[ジョブ],[]], [[ジョブ数],[]], [[キャビネット],[]] , [[ドロワー],[]]]
このdictionaryを、ファイル(例えば、CSVファイル)として、図27の例に示した辞書作成支援ツール画面900内の出力パス指定欄920で指定されたパスに出力する。そのファイルの内容例を、図33(b)に示す。A欄にdictionary内の第1語句(原文、言語指定欄910で指定された言語の語句又は、ステップS2624で抽出された語句)が格納されており、B欄にdictionary内の第2語句(訳文、訳語の言語指定欄2715で指定された言語の語句又は、ステップS2624で抽出された語句)が格納されている。ユーザーは、この対を確認し、修正が必要な場合は修正を行う。また、B欄が空である対については、そのB欄に対訳(又は原文)を記載することによって、特徴語の翻訳辞書が完成する。
この特徴語の翻訳辞書を、機械翻訳処理装置に渡し、その機械翻訳処理装置は、この特徴語の翻訳辞書を元の翻訳辞書に加えて翻訳処理を実行する。
なお、図34に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図34に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図34に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
また、前述の実施の形態の説明において、予め定められた値等との比較において、「以上」、「以下」、「より大きい」、「より小さい(未満)」としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい(未満)」、「以上」、「以下」としてもよい。
[A] 文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する抽出手段
を具備することを特徴とする情報処理装置。
[B] 前記第一の意味は、一般的な意味であり、
前記第二の意味は、特定の分野向けの意味である
ことを特徴とする[A]に記載の情報処理装置。
[C] 前記抽出手段は、さらに、検索に用いられた語句を抽出し、
該検索に用いられた語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出する
ことを特徴とする[A]又は[B]に記載の情報処理装置。
[D] 前記抽出手段は、さらに、前記文書に関する人名又は地名に関する語句を抽出し、
該抽出した人名又は地名に関する語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出する
ことを特徴とする[A]から[C]のいずれか一項に記載の情報処理装置。
[E] 前記抽出手段は、前記文書内の語句の出現率が予め定められた出現率より高い又は以上であり、該語句が前記文書のうち予め定められた文書割合未満又は以下の文書にだけ存在している場合は、該語句を第一の意味及び第一の意味とは異なる第二の意味を有する語句として抽出する
ことを特徴とする[A]から[D]のいずれか一項に記載の情報処理装置。
[F] コンピュータを、
文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する抽出手段
として機能させるための情報処理プログラム。
[B]の情報処理装置によれば、一般的な意味と特定の分野向けの意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出することができる。
[C]の情報処理装置によれば、検索に用いられた語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出することができる。
[D]の情報処理装置によれば、文書に関する人名又は地名に関する語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出することができる。
[E]の情報処理装置によれば、文書内の語句のうち予め定められた出現率より高い又は以上の語句が、文書のうち予め定められた文書割合未満又は以下の文書にだけ存在している場合は、その語句を第一の意味及び第一の意味とは異なる第二の意味を有する語句として抽出することができる。
[F]の情報処理プログラムによれば、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で、翻訳辞書に登録すべき原文又は対訳の候補を抽出する場合にあって、文書の属性に含まれている語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出することができる。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
105…特徴語リスト作成指示モジュール
110…関連文書取得モジュール
115…語句分割モジュール
120…言語判定モジュール
125…特徴語リスト抽出モジュール
150…文書管理システム
155…文書データ管理モジュール
160…検索履歴管理モジュール
2500…情報処理装置
2530…訳語抽出モジュール
2550…文書管理システム
2565…ユーザー情報管理モジュール
Claims (4)
- 利用者に関する属性情報から、第1の言語によって表現されている語句と、該語句と対になる語句であって第2の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段
を具備し、
前記抽出手段は、前記利用者に関する属性情報から、該利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、
前記抽出手段は、前記利用者に関する属性情報としての氏名とメールアドレスから、該利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、
前記氏名と前記メールアドレスとは異なる言語であって、該メールアドレス内を予め定められたルールによって分割したものを姓と名に対応付ける、
ことを特徴とする情報処理装置。 - 文書に対する検索履歴から、第1の言語によって表現されている語句と、該語句と対になる語句であって第2の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段
を具備し、
前記抽出手段は、前記検索履歴から、第1の検索指示を行った利用者の使用言語と第2の検索指示を行った利用者の使用言語が異なる場合であって、該第1の検索指示内の語句の表記と該第2の検索指示内の語句の表記が同じときは、該語句の2つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、
対訳がない語句である場合は、ユーザーによって原文と対訳の組み合わせを完成させる、
ことを特徴とする情報処理装置。 - コンピュータを、
利用者に関する属性情報から、第1の言語によって表現されている語句と、該語句と対になる語句であって第2の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段
として機能させ、
前記抽出手段は、前記利用者に関する属性情報から、該利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、
前記抽出手段は、前記利用者に関する属性情報としての氏名とメールアドレスから、該利用者の氏名における第1の言語の語句と第2の言語の語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、
前記氏名と前記メールアドレスとは異なる言語であって、該メールアドレス内を予め定められたルールによって分割したものを姓と名に対応付ける、
情報処理プログラム。 - コンピュータを、
文書に対する検索履歴から、第1の言語によって表現されている語句と、該語句と対になる語句であって第2の言語によって表現されている語句の組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出する抽出手段
として機能させ、
前記抽出手段は、前記検索履歴から、第1の検索指示を行った利用者の使用言語と第2の検索指示を行った利用者の使用言語が異なる場合であって、該第1の検索指示内の語句の表記と該第2の検索指示内の語句の表記が同じときは、該語句の2つの組み合わせを、翻訳辞書における原文と対訳の組み合わせの候補として抽出し、
対訳がない語句である場合は、ユーザーによって原文と対訳の組み合わせを完成させる、
情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015051951A JP6554841B2 (ja) | 2015-03-16 | 2015-03-16 | 情報処理装置及び情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015051951A JP6554841B2 (ja) | 2015-03-16 | 2015-03-16 | 情報処理装置及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016173618A JP2016173618A (ja) | 2016-09-29 |
JP6554841B2 true JP6554841B2 (ja) | 2019-08-07 |
Family
ID=57009640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015051951A Active JP6554841B2 (ja) | 2015-03-16 | 2015-03-16 | 情報処理装置及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6554841B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6789755B2 (ja) * | 2016-10-20 | 2020-11-25 | ヤフー株式会社 | 抽出装置、抽出方法および抽出プログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4017329B2 (ja) * | 2000-09-14 | 2007-12-05 | 沖電気工業株式会社 | 機械翻訳システム |
JP4355138B2 (ja) * | 2002-12-13 | 2009-10-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 翻訳サーバ、コラボレーションサーバ及びプログラム |
US20090182547A1 (en) * | 2008-01-16 | 2009-07-16 | Microsoft Corporation | Adaptive Web Mining of Bilingual Lexicon for Query Translation |
US8306806B2 (en) * | 2008-12-02 | 2012-11-06 | Microsoft Corporation | Adaptive web mining of bilingual lexicon |
JP5153839B2 (ja) * | 2010-08-20 | 2013-02-27 | ヤフー株式会社 | 対訳辞書生成装置、方法及びプログラム |
JP2013069126A (ja) * | 2011-09-22 | 2013-04-18 | Nec Corp | 機械翻訳辞書作成装置、機械翻訳辞書作成方法、およびプログラム |
JP5787934B2 (ja) * | 2013-06-19 | 2015-09-30 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
-
2015
- 2015-03-16 JP JP2015051951A patent/JP6554841B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016173618A (ja) | 2016-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10552467B2 (en) | System and method for language sensitive contextual searching | |
US9262104B2 (en) | Information processing apparatus, image processing apparatus, and information processing system | |
JP6390139B2 (ja) | 文書検索装置、文書検索方法、プログラム、及び、文書検索システム | |
WO2011040025A1 (en) | Method for setting metadata, system for setting metadata, and program | |
JP5687312B2 (ja) | デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム | |
US20210295033A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP6705352B2 (ja) | 言語処理装置、言語処理方法、及び言語処理プログラム | |
JP6554841B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2011133928A (ja) | 記憶装置に記憶してある文書ファイルを検索する検索装置、検索システム、検索方法及びコンピュータプログラム | |
JP2021144565A (ja) | 情報処理装置及び情報処理プログラム | |
JP5900419B2 (ja) | 関心事判別装置、関心事判別方法、およびコンピュータプログラム | |
JP6056489B2 (ja) | 翻訳支援プログラム、方法、および装置 | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
JP5285491B2 (ja) | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 | |
JP2012043258A (ja) | 検索システム、検索装置、検索プログラム、記録媒体及び検索方法 | |
Batjargal et al. | Providing universal access to Japanese humanities digital libraries: an approach to federated searching system using automatic metadata mapping | |
JP4426893B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
JP2016173617A (ja) | 情報処理装置及び情報処理プログラム | |
JP2007018158A (ja) | 文字処理装置、文字処理方法及び記録媒体 | |
US20230409620A1 (en) | Non-transitory computer-readable recording medium storing information processing program, information processing method, information processing device, and information processing system | |
US9990420B2 (en) | Method of searching and generating a relevant search string | |
JP2010097296A (ja) | 電子文書ファイル検索装置、電子文書ファイル検索方法及びコンピュータプログラム | |
JP2023003467A (ja) | 支援装置、支援システム、支援方法及びプログラム | |
JP2017117109A (ja) | 情報処理装置、情報処理システム、情報検索方法、及びプログラム | |
JP2006338114A (ja) | データ管理装置およびデータ管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181211 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190624 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6554841 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |