JP2016173617A - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP2016173617A JP2016173617A JP2015051950A JP2015051950A JP2016173617A JP 2016173617 A JP2016173617 A JP 2016173617A JP 2015051950 A JP2015051950 A JP 2015051950A JP 2015051950 A JP2015051950 A JP 2015051950A JP 2016173617 A JP2016173617 A JP 2016173617A
- Authority
- JP
- Japan
- Prior art keywords
- document
- phrase
- meaning
- column
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
しかし、これらの技術では、一般的な意味のほかに、例えば、コンピュータ分野等のような特定の分野向けの意味も有する多義語である語句(以下、特徴語とする)を対象とした場合、翻訳辞書に登録すべき語句としては抽出されずに一般的な意味で翻訳辞書に登録されてしまう。そして、該語句の特定の分野向けの意味が、翻訳辞書に登録されない場合がある。一方、文書の属性に含まれている語句は、一般的に多義語である可能性が高い。なお、一般的な意味とは広辞苑や大辞典等の国語辞書に記載されている、語句の意味をいい、特定分野向けの意味とは、コンピュータ分野等の専門性のある特定の分野のみで使われている、語句の意味をいう。
本発明は、文書と該文書の属性に含まれている語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を翻訳辞書に登録すべき原文又は対訳の候補として抽出することを目的としている。
請求項1の発明は、文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する抽出手段を具備することを特徴とする情報処理装置である。
機械翻訳処理では、「翻訳辞書」を利用することにより翻訳精度を向上させることが可能である。翻訳辞書の内容は、原語と対訳の対を1つのペアとする複数のペア情報である。例えば、英語から日本語への翻訳に用いる英日辞書において、原語:「Working Folder」、対訳:「Working Folder」とすることにより、固有名詞である「Working Folder」を日本語に翻訳したときに「仕事フォルダー」などの正しくない日本語に翻訳することを防ぐことができる。
また、「スポーツ」や「特許」など、一般的に用いられる需要のある分野の辞書は、その分野固有の翻訳辞書が販売されている。しかし、製品や社内用語など狭い範囲の分野における翻訳辞書は販売されておらず、手動で翻訳辞書を作成するのが一般的である。しかしながら、手動による辞書作成は煩雑であるため、辞書作成支援装置が提案されている。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、すべての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
情報処理装置100は、文書とその文書の属性に含まれる語句から翻訳辞書における原文又は対訳の候補のいずれか一方を抽出する。ただし、相互に対訳関係を有する原文と対訳の文書の組み合わせが存在しない状態で行う。以下、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方を特徴語ともいう。
特に、情報処理装置100は、一般的な意味だけでなく、特定の分野向けの意味も有する語句(人名等を含む)について、特徴語として抽出するものである。
例えば、「アクセス権」は、一般的には「知る権利(right of access)」を意味するが、コンピュータを用いたドキュメント管理の分野では「オブジェクトにアクセスするための権利(permission)」を意味する。先行技術文献に開示されている技術では、ドキュメント管理に関する翻訳辞書に登録すべき候補として「アクセス権」を挙げることができない。他にもドキュメント管理の分野における「キャビネット」、「ドロワー」などで同様の状況となる。
文書管理システム150によって管理されている文書、フォルダー(以下に例示するキャビネット、ドロワー等を含む)の属性として使用されている語句、検索クエリで使用される語句(例えば、検索に用いたキーワード等)は、特徴的な語句である場合が多い。情報処理装置100は、これらの語句を特徴語として抽出する。また、情報処理装置100は、文書管理システム150内の文書内の語句の出現頻度を用いて、特定の状況で多く出現する語句を特徴語として抽出する。
文書データ管理モジュール155は、情報処理装置100の関連文書取得モジュール110と接続されている。文書データ管理モジュール155は、文書管理システム150において、文書やフォルダーの情報(コンテンツや属性)を管理する。
検索履歴管理モジュール160は、情報処理装置100の特徴語リスト抽出モジュール125と接続されている。検索履歴管理モジュール160は、ユーザーの文書検索履歴を管理する。具体例には、文書管理システム150において、どのユーザーがどの検索クエリを使用してどの文書が検索結果としてヒットし、その後どの文書を閲覧したかを記録する。
関連文書取得モジュール110は、特徴語リスト作成指示モジュール105、語句分割モジュール115、文書管理システム150の文書データ管理モジュール155と接続されている。関連文書取得モジュール110は、特徴語リスト作成指示モジュール105の指示により文書データ管理モジュール155で管理している文書の中から、特定のユーザーに関連する文書情報を取得し記録する。ここで「特定のユーザー」とは、特徴語リスト作成指示モジュール105によって指示されたユーザーであってもよいし、特徴語リスト作成指示モジュール105での操作を行ったユーザーであってもよい。
言語判定モジュール120は、語句分割モジュール115と接続されている。言語判定モジュール120は、語句分割モジュール115によって分割された語句の言語を判定する。
語句分割モジュール115は、さらに、検索に用いられた語句を抽出してもよい。ここで「検索に用いられた語句」の検索の指示を行った「ユーザー」は、特徴語リスト作成指示モジュール105における特定のユーザーである。例えば、特徴語リスト作成指示モジュール105で指示を行った者である。
語句分割モジュール115は、さらに、文書に関する人名又は地名に関する語句を抽出するようにしてもよい。
例えば、藤太郎という人名では、名字である藤を、一般辞書を用いて英訳してしまうと「Wisteria」となってしまうため、人名や地名も特徴語として抽出する必要がある。
さらに、特徴語リスト抽出モジュール125は、語句分割モジュール115が抽出した検索に用いられた語句を用いて特徴語を抽出するようにしてもよい。「検索に用いられた語句」を第2の語句として特徴語の抽出処理を行う。つまり、文書に含まれている第1の語句と検索に用いられた第2の語句のうち、両方に含まれている語句を特徴語として抽出してもよい。
さらに、特徴語リスト抽出モジュール125は、語句分割モジュール115が抽出した人名又は地名に関する語句を用いて特徴語を抽出するにしてもよい。「人名又は地名に関する語句」を第2の語句として特徴語の抽出処理を行う。つまり、文書に含まれている第1の語句と人名又は地名に関する第2の語句のうち、両方に含まれている語句を特徴語として抽出してもよい。
また、特徴語リスト抽出モジュール125は、文書内の語句の出現率が予め定められた出現率より高い又は以上であり、かつ該当語句が、予め定められた文書割合未満又は以下の文書にだけ存在している場合は、その語句を特徴語として抽出するようにしてもよい。ここで、文書割合とは、対象とした全文書における該当文書(対象としている語句が含まれている文書)の割合であってもよいし、該当文書の数としてもよい。
具体例では、特徴語リスト抽出モジュール125は、語句分割モジュール115によって分割された語句のうち、特徴語リスト作成指示モジュール105で指定された言語と合致する言語の語句について、文書データ管理モジュール155で管理しているデータ又は検索履歴管理モジュール160で管理している検索履歴を利用して、特徴語リストを抽出する。
情報処理装置100、文書管理システム150、ユーザー端末210A、ユーザー端末210Bは、通信回線290を介してそれぞれ接続されている。通信回線290は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。ユーザーが用いるユーザー端末210からの指示によって、文書管理システム150内に文書を格納、又は検索等が行われる。そして、ユーザー端末210からの指示によって、翻訳辞書における特徴語が抽出される。そして、ユーザー端末210でのユーザーの操作によって、その特徴語の対訳が記入され、翻訳辞書が完成する。また、情報処理装置100、文書管理システム150による機能は、クラウドサービスとして実現してもよい。
ステップS302では、特徴語リスト作成指示モジュール105は、ユーザーの操作に応じて、パラメータを入力する。特徴語リスト作成指示モジュール105は、GUI(Graphical User Interface)、CUI(Character User Interface)等のユーザーインタフェース上でユーザーからのパラメータ入力を受け付ける。例えば、入力すべき項目として、出力すべき特徴語の言語(以下、languageともいう)、文書管理システム150にアクセスするために必要な情報(例えば、URL、ユーザーID、パスワード等)、特徴語リストの出力パス等がある。また、ステップS302で、ステップS304で取得する文書コンテンツの格納パスを指定してもよい。さらに、ステップS314で使用するしきい値をここで指定してもよい。
文書コンテンツは、予め定められた格納パス、又はステップS302で指定されたパスに格納する。
文書の属性(例えば、文書ID、文書名、作成者名、更新者名、文書が所属するフォルダーID、文書が所属するフォルダー名等)も取得し、記録する(以下、propertyTable(プロパティテーブル)とする)。例えば、propertyTable400として記録する。図4は、propertyTable400のデータ構造例を示す説明図である。propertyTable400は、文書ID欄410、文書名欄420、作成者名欄430、更新者名欄440、フォルダーID欄450、フォルダー名欄460、パス欄470を有している。
文書ID欄410は、本実施の形態において、文書を一意に識別するための情報(文書ID:IDentification)を記憶している。文書名欄420は、その文書の名称を記憶している。作成者名欄430は、その文書の作成者名を記憶している。更新者名欄440は、その文書の更新者名を記憶している。フォルダーID欄450は、その文書を含むフォルダーであって、本実施の形態において、フォルダーを一意に識別するための情報(フォルダーID)を記憶している。フォルダー名欄460は、そのフォルダーの名称を記憶している。パス欄470は、その文書のパス(格納場所)を記憶している。
また、作成者名や更新者名については、姓と名に分けたもの、姓名を連結したもの、姓+スペース+名を連結したもの等を用意する(以下、NameListとする)。NameListは、文書管理システム150から全ユーザーの姓、名を取得できる場合は、これを取得してもよい。文書管理システム150が地名(ユーザーの居所等)の情報を保持する場合は、その地名をNameListに入れてもよい。
語句毎に、出現率、文書ID、言語判定モジュール120により語句の言語を判定した結果を記録する(以下、phraseTableとする)。例えば、phraseTable500として記録する。図5は、phraseTable500のデータ構造例を示す説明図である。phraseTable500は、語句欄510、出現回数欄520、出現率欄530、文書ID欄540、言語欄550を有している。
語句欄510は、抽出した語句を記憶している。出現回数欄520は、対象としている文書(文書ID欄540)におけるその語句の出現回数を記憶している。出現率欄530は、対象としている文書(文書ID欄540)におけるその語句の出現率を記憶している。文書ID欄540は、対象としている文書IDを記憶している。言語欄550は、その語句の言語を記憶している。言語判定モジュール120では、語句の文字コードなど既存技術を用いて、言語を判定する。その判定結果を言語欄550に記憶させる。
例えば、出現率欄530での出現率は、(語句の出現回数/文書全体の語句数)*100(%)とする。
また、文書内の語句数を文書IDと紐づけて記録する(以下、documentTableとする)。例えば、documentTable600として記録する。図6は、documentTable600のデータ構造例を示す説明図である。documentTable600は、文書ID欄610、語句数欄620を有している。
文書ID欄610は、文書IDを記憶している。語句数欄620は、その文書IDの文書に含まれている語句数を記憶している。この語句数欄620の値が前述の出現率の式の「文書全体の語句数」に該当する。
次に、検索履歴管理モジュール160から、すべてのユーザーが検索したクエリ内の語句のリスト(以下、queryListとする)を抽出する。これにpropertyTable中の文書名、フォルダー名をマージする。なお、各要素を形態素解析した結果で分割してもよい。
phraseListに含まれ、かつ、queryList中に含まれる語句はcandidateListに追加し、追加した語句はphraseListから削除する。ここで、検索クエリは特徴語リスト作成指示モジュール105で指定されたユーザーが検索に使用したクエリのみを対象としてもよいし、最近検索された(現在から予め定められた期間内にある)クエリだけを対象としてもよい。また、クエリの検索回数が予め定められたしきい値以上のものだけ対象にしてもよい。
予め、phraseListに含まれ、かつ、一般的な用語の辞書に含まれない語句を、candidateListに追加し、該当語句をphraseListから削除した上で上記の処理を始めてもよい。
phraseList中の語句の出現率が、予め特徴語リスト作成指示モジュール105などで設定しておいたしきい値(例えば、0.5%等)を超える語句が、予め特徴語リスト作成指示モジュール105などで設定しておいたしきい値以下(例えば、1個、全文書数の1%以下などの指定が可能)の文書割合しか存在しなかった場合は、その語句をcandidateListに追加し、phraseListから削除する。
文書単位の出現率に代えて、又は追加して、階層構造を考慮し、フォルダー内での語句の出現率を使用してもよい。この場合には、documentTableの文書IDとpropertyTable中の文書IDを突き合わせ、文書が所属するフォルダーIDを取得する。これを基にphraseFolderTableとFolderTableを作成し、同様の処理を行う。さらに、上の階層のフォルダー単位で同様の処理を行ってもよい。
なお、ステップS308からステップS312の処理は、それぞれ予め定められた設定(これらのステップのいずれか1つの処理の選択、2つの組み合わせの選択、又は2つ以上の組み合わせを選択した場合は、処理の順番の設定)で選択的に実施してもよい。
キャビネット710は、フォルダーと同等の機能を有しており、下位にフォルダー720、フォルダー730を有している。キャビネット710の属性として、名前(フォルダー名):「開発キャビネット」を有している。
フォルダー720は、下位に文書722、文書724を有している。フォルダー720の属性として、フォルダーID:「Folder−1」、名前(フォルダー名):「WorkingFolder」を有している。文書722の属性として、文書ID:「Doc−3」、名前(文書名):「マニュアル.pdf」、作成者:「藤 太郎」(ユーザー782)、更新者:「藤 太郎」を有している。文書724の属性として、文書ID:「Doc−1」、名前(文書名):「アクセス権設計書.dxxx」、作成者:「藤 太郎」、更新者:「藤 太郎」を有している。なお、「藤」は、植物としての名称(wisteria)と姓として用いられる場合がある。一般的な翻訳辞書では、「藤」と植物としての名称の対が登録されている。
フォルダー730は、下位にフォルダー732、文書734を有している。フォルダー730の属性として、フォルダーID:「Folder−2」、名前(フォルダー名):「スキャン翻訳」を有している。フォルダー732の属性として、フォルダーID:「Folder−3」を有している。文書734の属性として、文書ID:「Doc−2」、名前(文書名):「ジョブ管理の仕様.Dxxx」、作成者:「藤 花子」(ユーザー784)、更新者:「藤 花子」を有している。
検索履歴テーブル800は、検索日時欄810、検索者欄820、クエリ欄830、ヒット文書ID欄840、閲覧した文書欄850を有している。検索日時欄810は、検索が行われた日時(年、月、日、時、分、秒、秒以下、又はこれらの組み合わせであってもよい)を記憶している。検索者欄820は、その検索の指示を行った者の名称(ユーザーIDであってもよい)を記憶している。クエリ欄830は、検索に用いられたクエリ(キーワード)を記憶している。ヒット文書ID欄840は、その検索によってヒットした文書の文書IDを記憶している。閲覧した文書欄850は、その検索の結果、閲覧まで行われた文書の文書IDを記憶している。
辞書作成支援ツール画面900には、言語指定欄910、出力パス指定欄920、URL指定欄930、ユーザーID指定欄940、パスワード指定欄950、語句の出現率指定欄960、出現文書数指定欄970、閉じるボタン996、OKボタン992、キャンセルボタン994を表示する。
言語指定欄910は、特徴語の言語を指定するためのものである。
出力パス指定欄920は、特徴語を出力するパス名(ファイル名)を指定するためのものである。
URL指定欄930は、対象としている文書が格納されているパス(フォルダーのパス)を指定するためのものである。
ユーザーID指定欄940は、文書管理システム150にアクセスするための操作者のユーザー名(又は対象とする文書に関連付けられているユーザー名)を指定するためのものである。
パスワード指定欄950は、文書管理システム150にアクセスするための操作者のパスワードを指定するためのものである。
語句の出現率指定欄960は、特徴語リスト抽出モジュール125がしきい値として用いるための語句の出現率を指定するためのものである。
出現文書数指定欄970は、特徴語リスト抽出モジュール125がしきい値として用いるための出現文書数を指定するためのものである。
OKボタン992が選択されると、言語指定欄910等で指定された値で、情報処理装置100による処理が開始される。キャンセルボタン994が選択されると、言語指定欄910等で指定された値をクリアして初期状態に戻る。閉じるボタン996が選択されると、辞書作成支援ツール画面900そのものを消去する。
propertyTable1000は、関連文書取得モジュール110が、藤太郎が作成と閲覧した文書を関連文書とした場合の関連文書データを収集した結果を示している。
propertyTable1000は、文書ID欄1010、文書名欄1020、作成者欄1030、更新者欄1040、フォルダーID欄1050、フォルダー名欄1060を有している。各欄は、それぞれ図4の例に示したpropertyTable400の文書ID欄410、文書名欄420、作成者名欄430、更新者名欄440、フォルダーID欄450、フォルダー名欄460と同等のものである。propertyTable1000の内容は、図7の例に示したものを示している。
また、propertyTable1000から、NameListとして次のものを生成する。
[藤,太郎,藤太郎,藤 太郎,藤 太郎,花子,藤花子,藤 花子,藤 花子]
これは、propertyTable1000の作成者欄1030、更新者欄1040から抽出した姓:「藤」、名:「太郎」のユーザー782、姓:「藤」、名:「花子」のユーザー784から生成したものである。具体例には、姓と名に分けたもの、姓名を連結したもの、姓+スペース(半角と全角の両方)+名を連結したものである。
phraseTable1100は、文書ID:Doc−1に関するphraseTableである。phraseTable1100は、語句欄1110、出現回数欄1120、出現率欄1130、文書ID欄1140、言語欄1150を有している。
phraseTable1200は、文書ID:Doc−2に関するphraseTableである。phraseTable1200は、語句欄1210、出現回数欄1220、出現率欄1230、文書ID欄1240、言語欄1250を有している。
phraseTable1300は、文書ID:Doc−3に関するphraseTableである。phraseTable1300は、語句欄1310、出現回数欄1320、出現率欄1330、文書ID欄1340、言語欄1350を有している。
各テーブルのデータ構造は、図5の例に示したphraseTable500のデータ構造と同等である。
なお、phraseTable1100、phraseTable1200、phraseTable1300を組み合わせて1つのテーブルとしてもよい。
phraseTable1100の場合について説明する。語句分割モジュール115は、文書ID:「Doc−1」の文書から語句を抽出し、語句欄1110に格納し、その文書におけるその語句の出現回数を計数し、出現回数欄1120に格納し、出現回数欄1120とdocumentTable1400の語句数欄1420を用いて出現率を算出し、出現率欄1130に格納し、対象とした文書の文書IDを文書ID欄1140に格納し、対象としている語句の言語(その言語に対しての言語判定モジュール120による処理結果)を言語欄1150に格納する。phraseTable1200、phraseTable1300についても、それぞれ文書ID:「Doc−2」の文書、文書ID:「Doc−3」の文書を対象として、同様に生成される。
documentTable1400は、文書ID欄1410、語句数欄1420を有している。データ構造は、図6の例に示したdocumentTable600のデータ構造と同等である。
語句分割モジュール115は、対象としている文書の文書IDを文書ID欄1410に格納し、その文書における語句数を計数し、語句数欄1420に格納する。なお、語句数は、文書内のすべての語句を対象としてもよいし、phraseTable1100等が対象としている品詞(phraseTable1100の場合は名詞)の語句数を計数してもよい。
図15(a)の例に示すように、queryList(形態素解析済み)を、次のように生成する。
[アクセス権,スキャン,翻訳,スキャン翻訳,ジョブ,管理,ジョブ管理,設計書,マニュアル,仕様]
queryList内の語句は、検索履歴テーブル800とpropertyTable1000から生成したものであり、検索履歴テーブル800(クエリ欄830)とpropertyTable1000(文書名欄1020、作成者欄1030)内の語句を抽出し、形態素解析を行った結果である。
図15(a)の例に示すように、phraseList(日本語指定)を、次のように生成する。
[藤,太郎,アクセス権,設計,ドロワー,単位,設定,花子,ジョブ,ジョブ数,変更,キャビネット,ログイン]
phraseList内の語句は、phraseTable1100、phraseTable1200、phraseTable1300から生成したものであり、言語(言語欄1150、言語欄1250、言語欄1350)が日本語である語句(語句欄1110、語句欄1210、語句欄1310)を抽出したものである。
なお、candidateListは、処理当初は、図15(a)の例に示すように、空である。
具体例には、queryListとphraseListの両方に出現している語句である「アクセス権」、「ジョブ」(図15(a)内では矩形で囲っている語句)をcandidateListに入れる。つまり、candidateListを次のように生成する。
[アクセス権,ジョブ]
また、phraseListは、図15(a)の状態から、candidateListに入れた語句ある「アクセス権」、「ジョブ」(図15(a)内では矩形で囲っている語句)を消去する。つまり、phraseListを次のように生成する。
[藤,太郎,設計,ドロワー,単位,設定,花子,ジョブ数,変更,キャビネット,ログイン]
この時点で、図16(a)の例に示すように、NameListは以下の通り(前述したものと同じ)である。
[藤,太郎,藤太郎,藤 太郎,藤 太郎,花子,藤花子,藤 花子,藤 花子]
candidateListは以下の通り(図15(b)の例に示したものと同じ)である。
[アクセス権,ジョブ]
phraseListは以下の通り(図15(b)の例に示したものと同じ)である。
[藤,太郎,設計,ドロワー,単位,設定,花子,ジョブ数,変更,キャビネット,ログイン]
具体例には、NameListとphraseListの両方に出現している語句である「藤」、「太郎」、「花子」(図16(a)内では矩形で囲っている語句)をcandidateListに入れる。つまり、candidateListを次のように生成する。
[アクセス権,ジョブ,藤,太郎,花子]
また、phraseListは、図16(a)の状態から、candidateListに入れた語句ある「藤」、「太郎」、「花子」(図16(a)内では矩形で囲っている語句)を消去する。つまり、phraseListを次のように生成する。
[設計,ドロワー,単位,設定,ジョブ数,変更,キャビネット,ログイン]
この時点で、図17(a)の例に示すように、phraseListは以下の通り(図16(b)の例に示したものと同じ)である。
[設計,ドロワー,単位,設定,ジョブ数, 変更,キャビネット,ログイン]
candidateListは以下の通り(図16(b)の例に示したものと同じ)である。
[アクセス権,ジョブ,藤,太郎,花子]
具体例には、図18、19、20の例に示すphraseTable1800、phraseTable1900、phraseTable2000を用いる。なお、それぞれ図11、12、13の例に示したphraseTable1100、phraseTable1200、phraseTable1300と同等のものである。
出現率0.5%以上で1つの文書だけ出現するものを特徴語とした場合(図9の例に示した辞書作成支援ツール画面900内の語句の出現率指定欄960と出現文書数指定欄970で指定されたしきい値)、「ジョブ数」(図19の例に示すphraseTable1900内の条件合致行1990)と「キャビネット」(図20の例に示すphraseTable2000内の条件合致判断行2090)が特徴語と判断される。
そして、candidateListに、語句「ジョブ数」、「キャビネット」(図17(b)内では矩形で囲っている語句)を付加して、次のように生成する。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット]
また、phraseListから語句「ジョブ数」、「キャビネット」(図17(b)内では矩形で囲っている語句)を消去して、次のように生成する。
[設計,ドロワー,単位,設定,変更,ログイン]
ここでの処理では、フォルダーの構成(文書が含まれているフォルダー)を用いている。
この時点で、candidateListは以下の通り(図17(b)の例に示したものと同じ)である。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット]
phraseListは以下の通り(図17(b)の例に示したものと同じ)である。
[設計,ドロワー,単位,設定,変更,ログイン]
ここで、フォルダー内の文書における語句(具体例には、phraseFolderTable2100、phraseFolderTable2200)に対して、特定のフォルダーにのみ出現率が高い語句を抽出する。
具体例には、出現率0.5%以上で1つのフォルダーだけ出現するものを特徴語とした場合(図9の例に示した辞書作成支援ツール画面900内の語句の出現率指定欄960と出現文書数指定欄970で指定されたしきい値。なお、出現文書数指定欄970で指定されたしきい値は、その語句が出現したフォルダー数を示している)、「ドロワー」(図21の例に示すphraseFolderTable2100内の条件合致行2190)が特徴語と判断される。
そして、candidateListに、語句「ドロワー」を付加して、次のように生成する。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット,ドロワー]
また、phraseListから語句「ドロワー」を消去して、次のように生成する。
[設計,単位,設定,変更,ログイン]
なお、phraseFolderTable2100、phraseFolderTable2200、FolderTable2300は、phraseTable1100を生成したステップS306で生成してもよい。
前述の通り、candidateListは、図24(a)の例に示すように、次のようになっている。
[アクセス権,ジョブ,藤,太郎,花子,ジョブ数,キャビネット,ドロワー]
このcandidateListを、ファイル(例えば、CSVファイル)として、図9の例に示した辞書作成支援ツール画面900内の出力パス指定欄920で指定されたパスに出力する。そのファイルの内容例を、図24(b)に示す。A欄(1〜8行目)にcandidateList内の各語句が格納されている。ユーザーの操作によって、対応するB欄(1〜8行目)に対訳(又は原文)が記載されることによって、特徴語の翻訳辞書が完成する。
この特徴語の翻訳辞書を、機械翻訳処理装置に渡し、その機械翻訳処理装置は、この特徴語の翻訳辞書を元の翻訳辞書に加えて翻訳処理を実行する。
なお、図25に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図25に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図25に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
また、前述の実施の形態の説明において、予め定められた値等との比較において、「以上」、「以下」、「より大きい」、「より小さい(未満)」としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい(未満)」、「以上」、「以下」としてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
105…特徴語リスト作成指示モジュール
110…関連文書取得モジュール
115…語句分割モジュール
120…言語判定モジュール
125…特徴語リスト抽出モジュール
150…文書管理システム
155…文書データ管理モジュール
160…検索履歴管理モジュール
210…ユーザー端末
290…通信回線
Claims (6)
- 文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する抽出手段
を具備することを特徴とする情報処理装置。 - 前記第一の意味は、一般的な意味であり、
前記第二の意味は、特定の分野向けの意味である
ことを特徴とする請求項1に記載の情報処理装置。 - 前記抽出手段は、さらに、検索に用いられた語句を抽出し、
該検索に用いられた語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出する
ことを特徴とする請求項1又は2に記載の情報処理装置。 - 前記抽出手段は、さらに、前記文書に関する人名又は地名に関する語句を抽出し、
該抽出した人名又は地名に関する語句を用いて第一の意味及び第一の意味とは異なる第二の意味を有する語句を抽出する
ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。 - 前記抽出手段は、前記文書内の語句の出現率が予め定められた出現率より高い又は以上であり、該語句が前記文書のうち予め定められた文書割合未満又は以下の文書にだけ存在している場合は、該語句を第一の意味及び第一の意味とは異なる第二の意味を有する語句として抽出する
ことを特徴とする請求項1から4のいずれか一項に記載の情報処理装置。 - コンピュータを、
文書と該文書の属性に含まれる語句から、第一の意味及び第一の意味とは異なる第二の意味を有する語句を、翻訳辞書に登録すべき原文又は対訳の候補のいずれか一方として抽出する抽出手段
として機能させるための情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015051950A JP2016173617A (ja) | 2015-03-16 | 2015-03-16 | 情報処理装置及び情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015051950A JP2016173617A (ja) | 2015-03-16 | 2015-03-16 | 情報処理装置及び情報処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016173617A true JP2016173617A (ja) | 2016-09-29 |
Family
ID=57009091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015051950A Pending JP2016173617A (ja) | 2015-03-16 | 2015-03-16 | 情報処理装置及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016173617A (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000163441A (ja) * | 1998-11-30 | 2000-06-16 | Nippon Telegr & Teleph Corp <Ntt> | 辞書作成方法及び装置及び辞書作成プログラムを格納した記憶媒体及び検索要求作成方法及び装置及び検索要求作成プログラムを格納した記憶媒体及び多言語対応情報検索システム |
JP2004192565A (ja) * | 2002-12-13 | 2004-07-08 | Internatl Business Mach Corp <Ibm> | 翻訳サーバ、コラボレーションサーバ、情報処理装置及びその機械翻訳方法並びにプログラム |
JP2005216127A (ja) * | 2004-01-30 | 2005-08-11 | National Institute Of Information & Communication Technology | 機械翻訳方法及び機械翻訳装置 |
JP2008276418A (ja) * | 2007-04-26 | 2008-11-13 | Just Syst Corp | 日本語固有表現抽出装置、日本語固有表現抽出方法、およびその方法をコンピュータに実行させるプログラム |
-
2015
- 2015-03-16 JP JP2015051950A patent/JP2016173617A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000163441A (ja) * | 1998-11-30 | 2000-06-16 | Nippon Telegr & Teleph Corp <Ntt> | 辞書作成方法及び装置及び辞書作成プログラムを格納した記憶媒体及び検索要求作成方法及び装置及び検索要求作成プログラムを格納した記憶媒体及び多言語対応情報検索システム |
JP2004192565A (ja) * | 2002-12-13 | 2004-07-08 | Internatl Business Mach Corp <Ibm> | 翻訳サーバ、コラボレーションサーバ、情報処理装置及びその機械翻訳方法並びにプログラム |
JP2005216127A (ja) * | 2004-01-30 | 2005-08-11 | National Institute Of Information & Communication Technology | 機械翻訳方法及び機械翻訳装置 |
JP2008276418A (ja) * | 2007-04-26 | 2008-11-13 | Just Syst Corp | 日本語固有表現抽出装置、日本語固有表現抽出方法、およびその方法をコンピュータに実行させるプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11250020B2 (en) | Syncronizing content blocks between multiple electronic documents | |
JP5241828B2 (ja) | 辞書の単語及び熟語の判定 | |
US20090112845A1 (en) | System and method for language sensitive contextual searching | |
JPWO2011148571A1 (ja) | 情報抽出システム、方法及びプログラム | |
WO2011040025A1 (en) | Method for setting metadata, system for setting metadata, and program | |
CN111666383A (zh) | 信息处理方法、装置、电子设备及计算机可读存储介质 | |
JP5687312B2 (ja) | デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム | |
CN114297143A (zh) | 一种搜索文件的方法、显示文件的方法、装置及移动终端 | |
US20210295033A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
US20060248037A1 (en) | Annotation of inverted list text indexes using search queries | |
JP2010211688A (ja) | 文書編集装置、データ処理方法及びプログラム | |
JP6705352B2 (ja) | 言語処理装置、言語処理方法、及び言語処理プログラム | |
JP2011133928A (ja) | 記憶装置に記憶してある文書ファイルを検索する検索装置、検索システム、検索方法及びコンピュータプログラム | |
JP2021144565A (ja) | 情報処理装置及び情報処理プログラム | |
JP6554841B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6056489B2 (ja) | 翻訳支援プログラム、方法、および装置 | |
KR101835994B1 (ko) | 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치 | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
JP6973468B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2014240999A (ja) | 関心事判別装置、関心事判別方法、およびコンピュータプログラム | |
JP2016173617A (ja) | 情報処理装置及び情報処理プログラム | |
JP2011086156A (ja) | 漏洩情報追跡システムおよび漏洩情報追跡プログラム | |
JP2012043258A (ja) | 検索システム、検索装置、検索プログラム、記録媒体及び検索方法 | |
JP5733285B2 (ja) | 検索装置、検索方法及びプログラム | |
JP2007018158A (ja) | 文字処理装置、文字処理方法及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190723 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190910 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200212 |