JP2015038702A - 情報処理装置、システム及びプログラム - Google Patents

情報処理装置、システム及びプログラム Download PDF

Info

Publication number
JP2015038702A
JP2015038702A JP2013169814A JP2013169814A JP2015038702A JP 2015038702 A JP2015038702 A JP 2015038702A JP 2013169814 A JP2013169814 A JP 2013169814A JP 2013169814 A JP2013169814 A JP 2013169814A JP 2015038702 A JP2015038702 A JP 2015038702A
Authority
JP
Japan
Prior art keywords
information
analysis
correspondence
target
print data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013169814A
Other languages
English (en)
Inventor
矢部 大輔
Daisuke Yabe
大輔 矢部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2013169814A priority Critical patent/JP2015038702A/ja
Publication of JP2015038702A publication Critical patent/JP2015038702A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書に機密情報等が含まれているか否かを判断する基準となる制限情報の抽出の精度を向上する。
【解決手段】印刷制限をかけたい機密情報等を含む文章やグラフや表を候補情報として入力する。候補情報から形態素解析及び構文解析により単語同士に関連性が存在する二個の単語(解析対象)、キーワードペアを取り出す。取り出した複数のキーワードペアのうちいくつかは、単語同士の関連度に応じて関連性がないと判断する。残ったキーワードペア及び関連性を有向グラフ化して制限情報として記憶しておく。
【選択図】図3

Description

本発明は、情報処理装置、システム及びプログラムに関し、特に、機密情報等の利用の制限に関する。
特許文献1には、文書をフィルタリングすることが目的で、文書を形態素解析してキーワード集合を抽出し、抽出した情報がフィルタで制限する情報と類似しているかを判断して、文書をフィルタリングする方法が開示されている。電子メールのフィルタリングを主眼においているが、印刷の防止にも応用できる可能性はある。しかしながら、電子メールに含まれるキーワードの集合単位で類別するため、キーワードに機密情報が含まれていても集合全体として機密情報でないと判断される可能性がある。
機密情報や、機密でもないが印刷したくないような情報などを、以下、「機密情報等」と呼ぶ。入力文書に機密情報等が含まれるか否かを判断する基準として、キーワードを用いて判別することが従来知られている。所定のキーワードが含まれている場合に入力文書に機密情報等が含まれていると判断するものである。しかしながら、精度が悪い。また、特許文献1のような、キーワードの集合を基準とする方法が従来知られている。しかしながら、上述のような問題がある。
そこで、自然文には「係り受け」というキーワード同士の関連があることに着目して、入力文書に機密情報等が含まれるか否かを判断する基準(以下、このような基準を「制限情報」と呼ぶ)として、キーワードだけでなくキーワード及びキーワード同士の関連を用いると有効であると考えられる。「係り受け」は、一文内で発生する。したがって、一文ごとに形態素解析や構文解析を行う。解析結果から「係り受け」を利用してキーワード同士の関連を抽出する。さらに、このような抽出の操作を複数の文に対して行って、「制限情報」を豊富化する。
しかしながら、キーワード同士の関連の抽出という操作を、複数の文に対して一文ごとに行っただけでは、キーワードを文章全体の文脈の中で捉えるということを行っておらず、文章全体の関連性を考慮できていないという問題点があった。そこで、一文ごとに係り受けを抽出して関連付けを行った後、他の複数の文に対しても関連付けを行う。
ところがその場合、あまり関係のないキーワード同士の「関連」が誤抽出されてしまうことがあり、精度が悪いという問題がある。例えば、文Aで単語1と単語2が関連づけられ、文Bで単語2と単語3が関連づけられたとき、文章全体では単語1と単語3も関連があると関連付けを行う処理を行う。これを繰り返した場合、関連のないキーワード同士も「関連がある」とされてしまうことがある。
本発明は、上記実情に鑑みてなされたものであって、文書に機密情報等が含まれているか否かを判断する基準となる制限情報の抽出の精度を向上することを目的とする。
上記目的を達成するために本発明の一態様は、画像処理装置に送信する印刷データを受け付ける印刷データ受付手段と、前記印刷データ受付手段によって受け付けられる印刷データの送信制御を判断するための制限情報の候補となる候補情報を受け付ける候補情報受付手段と、前記候補情報受付手段によって受け付けられた候補情報に含まれる複数の解析対象を解析する第1の解析手段と、前記第1の解析手段による解析に基づいて、前記複数の解析対象における対応関係を示す対応関係情報を作成する対応関係情報作成手段と、前記対応関係情報作成手段によって作成された対応関係情報と、前記対応関係情報に示された前記複数の解析対象における関連度とに基づいて、前記制限情報を作成する制限情報作成手段と、前記印刷データ受付手段によって受け付けられた印刷データに含まれる複数の印刷対象情報を解析する第2の解析手段と、前記第2の解析手段による解析に基づいて、前記制限情報作成手段によって作成された制限情報との比較を行うための比較対象情報を作成する比較対象情報作成手段と、前記比較対象情報作成手段によって作成された比較対象情報と前記制限情報との比較に基づいて、前記印刷データを前記画像処理装置に送信するか否かを判定する判定手段と、前記判定手段による判定に基づいて、前記印刷データの送信制御を行う送信制御手段と、を有することを特徴とする。
本発明によれば、文書に機密情報等が含まれているか否かを判断する基準となる制限情報の抽出の精度を向上することが可能となる。
本発明による実施形態の概略構成を示す機能ブロック図である。 上記実施形態のネットワーク構成例とハードウェア構成例を示す図である。 上記実施形態の詳細構成を示す図である。 上記実施形態の制限情報作成処理と印刷制限判断処理の流れを示す図である。 候補情報として扱えるデータの例を示す図である。 単語間の関連性の例を示す図である。 候補情報の解析において、候補情報が文章の場合の関連性の取得の例を示す図である。 候補情報の解析において、候補情報が文章ではない文字列の場合の関連性の取得の例を示す図である。 候補情報の解析において、候補情報がグラフの場合の関連性の取得の例を示す図である。 候補情報の解析において、候補情報が表の場合の関連性の取得の例を示す図である。 候補情報の解析において、抽出した単語に類義語を追加する例を示す図である。 キーワードペアから有向グラフを作成する例を示す図である。 作成した有向グラフを簡素化する例を示す図である。 複数の文から有向グラフを作成した例を示す図である。 有向グラフを作成した結果、関連がないにもかかわらず間接的なつながりができてしまう場合があることを説明するための図である。 有向グラフを分割した例を示す図である。 有向グラフの分割の処理の流れを示す図である。 グラフ分割にNormalizedCutを用いた場合の有向グラフの分割の処理の流れを示す図である。 グラフ分割にNormalizedCutの最適解を用いた例を示す図である。 グラフ分割にNormalizedCutの最適解を用いなかった例を示す図である。 保持されている有向グラフのデータ構造の例を示す図である。 キーワード間の関連の比較例を示す図である。
図1に、実施形態の概略構成を示す。本実施形態に係る情報処理システム1は、データ入力手段2、制限情報作成手段3、印刷指示手段4、印刷制限判断手段5を備える。データ入力手段2は、印刷制限の判断の基準を生成する元となるデータを入力する機能を備える。このようなデータを以下、「候補情報」と呼ぶ。候補情報としては、複数の文章、文章とは言えないような文字列、グラフ、表などが扱える。
制限情報作成手段3は、所定の処理を行って候補情報から制限情報を作成する。本実施形態において、制限情報は、候補情報に含まれるキーワードをノード、キーワードとキーワードの係り受けをエッジとした有向グラフとして作成される。制限情報は、印刷制限判断手段5が記憶しておく。
印刷指示手段4は、印刷制限の判断の対象となる文書データを印刷制限判断手段5に印刷指示と共に入力する。印刷制限判断手段5は、制限情報作に基づいて入力された文書データに対して印刷制限をするか否かを判断する。
理念的には図1のように捉えられる本実施形態に係る情報処理システム1であるが、実装例としては種々の形態が考えられる。一例として、図2(a)のネットワーク構成例を挙げる。汎用のコンピュータなどで構成される管理者端末6、ユーザ端末7、入出力端末8と、他用途複合機であるMFP9とがネットワークでつながっている。
データ入力手段2の機能を管理者端末6が担い、印刷指示手段4の機能をユーザ端末7が担い、制限情報作成手段3及び印刷制限判断手段5の機能を入出力端末8のプリンタドライバが担う構成とすることができる。プリンタドライバは、言うまでもなくMFP9のプリンタドライバである。
しかしながら、制限情報作成手段3及び印刷制限判断手段5の一部の機能がプリンタドライバとは異なるアプリケーションプログラムに含まれ、プリンタドライバと当該アプリケーションプログラムとが連携する形態が考えられる。他には、管理者端末6が、データ入力手段2及び制限情報作成手段3の機能を担い、作成した制限情報が入出力端末8へ送信されて記憶されているという形態も考えられる。入出力端末8を持たずに、MFP9が印刷制限判断手段5の機能を担う形態も考えられる。いずれの形態も本発明の実施形態である。
管理者端末6、ユーザ端末7、入出力端末8に用いることができる汎用のコンピュータのハードウェア構成としては、図2(b)に示すような構成である。本実施形態に係るPC(パーソナルコンピュータ)は、一般的な情報処理端末と同様の構成を有する。即ち、本実施形態に係るPCは、CPU(Central Processing Unit)21、RAM(Random Access Memory)、ROM(Read Only Memory)22、HDD(Hard Disk Drive)24及びI/F25がバスを介して接続されている。また、I/F25にはLCD(Liquid Crystal Display)26及び操作部27が接続されている。
CPU21は演算手段であり、PC全体の動作を制御する。RAM22は、情報の高速な読み書きが可能な揮発性の記憶媒体であり、CPU21が情報を処理する際の作業領域として用いられる。ROM23は、読み出し専用の不揮発性記憶媒体であり、ファームウェア等のプログラムが格納されている。HDD24は、情報の読み書きが可能な不揮発性の記憶媒体であり、OS(Operating System)や各種の制御プログラム、アプリケーションプログラム等が格納されている。I/F25は、バスと各種のハードウェアやネットワーク等を接続し制御する。LCD26は、ユーザがPCの状態を確認するための視覚的ユーザインタフェースである。操作部27は、キーボードやマウス等、ユーザがPC1に情報を入力するためのユーザインタフェースである。
図2(b)に例示するようなハードウェア資源を利用したソフトウェアプログラムによる情報処理によって、図3に示すような機能ブロックが構成される。
以下、制限情報作成処理と、印刷制限判断処理について述べる。
まず、図3に本実施形態の詳細構成を示す。また、図4に制限情報作成処理と印刷制限判断処理の流れを示す。図3に示したものは、図2に示した構成例において、入出力端末8に制限情報作成手段3と印刷制限判断手段5の機能を担わせた場合の詳細構成例である。入出力端末8が、形態素解析部11、構文解析部12、キーワードペア作成部13、有向グラフ作成部14、有向グラフ分割部15、有向グラフ保持部16、比較判断部17を有する。
<制限情報作成処理>
図4(a)に示されるように、制限情報作成処理においては、管理者により候補情報が入力されると、候補情報から文が抽出される(S101)。候補情報としては、文章、文章ではない文字列、グラフ、表などのデータが扱える(図5参照)。管理者は印刷を禁止ないし制限する内容を文章、文章ではない文字列、グラフ、表のいずれかの形式にして登録を行う。抽出された文には、単語の羅列(表の一行など)も含む。候補情報に含まれる単語が、「解析対象」である。
次に、形態素解析部11と構文解析部12が、抽出した文を解析する(S102)。形態素解析部11が図示しない言語データベースなどを利用して入力された文等を形態素に分割し、各々の形態素の文法上の役割を解析する。この解析によって「解析対象(単語と呼ぶ場合もある)」が抽出される。次に、構文解析部12が形態素の自然文中における役割や形態素間の関連などを解析する。
例えば、形態素解析部11によって文法上の役割が、日本語や英語でいうところの「名詞」であるような形態素を「解析対象」とするとよい。構文解析部12は、すべての形態素間の関連を解析する必要はなく、ある「解析対象」を含むまとまりと、別の「解析対象」を含むまとまりとの構文上の関係の有無を、言語データベースなどに基づいて判定するという程度の解析で足りる。この解析によって、ある「解析対象」と別の「解析対象」との関連の有無が判定できる。
例えば、「A社の売り上げ」という「候補情報」から、形態素解析部11は、「A社」「の」「売り上げ」という形態素を抽出し、「A社」と「売り上げ」を「解析対象」とする。次に、構文解析部12は、「A社の」という形態素のまとまりと「売り上げ」という形態素のまとまりを構文分析し、解析対象「A社」と解析対象「売り上げ」に関連があるか否かを判断する。この例では、形態素「の」に所有関係や密接な関係があることを示すという文法的な役割があることが言語データベースから分かっているので、これら二つの「解析対象」に関連がある、つまり「係り受け」があると判断できる。
以上に述べたS102の処理は、候補情報が文章の場合に好適である。しかしながら、上記は一例であり、図7ないし図10を参照して後述するように、候補情報の種類によっては別の解析方法を用いてもよい。
S102における解析の目的は、文に含まれる単語(解析対象)間の関連性を得ることにある。関連性が得られた単語を「キーワード」と呼ぶ。単語間の関連性とは、登録内容に含まれる全ての単語同士に関連があるかどうかを表すものである。この関連の有無は、印刷制限情報が含まれているかどうかを判断する基準(制限情報)の作成に利用する。図6に、単語間の関連性の例を示す。
解析方法は候補情報により異なる。候補情報が文章の場合、文章ではない文字列の場合、グラフの場合、表の場合に場合分けして解析を行う。図7ないし図11を参照して説明をする。
図7に、候補情報が文章の場合の関連性の取得の例を示す。図示のように、文章に対して係り受け解析を行い、係り受けを単語間の関連とする。係り受けには向きがあるので、単語間の単方向のみに関連があるものとする。
図8に、文章ではない文字列の場合の関連性の取得の例を示す。候補情報が文章となっておらず、記号などで区切られていたときの処理は、まず、一行ごとに文字列を取得して単語を抽出する。一行ごとに抽出した全ての単語間に双方向の関連があるとする。
図9に、候補情報がグラフの場合の関連性の取得の例を示す。この場合、グラフごとに縦軸と横軸、タイトルや系列名などから単語を取得する。候補情報が単語の連続の場合と同様に、抽出した全ての単語間に双方向の関連があるとする。
図10に、候補情報が表の場合の関連性の取得の例を示す。この場合、表ごとに項目やタイトル、項目の値などから単語を取得する。解析対象が単語の連続の場合と同様に、抽出した全ての単語間に双方向の関連があるとする。
単語の抽出及び関連性の取得の処理においては、抽出した単語に類義語を追加して印刷制限の精度を向上させることが好ましい。図11に例を示す。図示のように、単語に類義語を追加して、単語間の関連の範囲を増やすことにより、印刷制限の精度を向上させることが可能である。単語自体の検索範囲が広がるため、より柔軟な単語間の関連の比較が可能になる。類義語の追加は、類義語辞書を利用することで可能となる。
以上のように処理を行った結果を利用して、キーワードペア作成部13が、何らかの関連性を持つ二つの単語を「キーワードペア」とし、一時的に記憶する(S103)。なお、何らかの関連性とは、図7ないし図11で例示したように、一方向、双方向などの関係があることを言う。
次に、有向グラフ作成部14は、キーワードペアから有向グラフを作成する(S104)。S104の段階で作成される有向グラフが、「対応関係情報」の一例である。図12に示すように、有向グラフを作成することにより、単語間の関連情報をまとめることが可能となる。複数の文章の情報から作成した単語間の関連をまとめることにより、文章間の関連性を考慮することが可能になる。すなわち、単語間の関連のうち、同じ単語を一つにまとめる。この結果、単語をノードとしてとらえると、複数の有向グラフが作成される。図12の例では、4つの単語のペアから2つの有向グラフが作成されている。
さらに、S104においては、有向グラフ作成部14が作成した有向グラフを簡素化する処理を行う。図13に、簡素化の一例として、各ノードのキーワードの名詞以外の文字を削除する例を示す。名詞以外の文字を削除することにより、名詞のみの一致で検索できるようになるメリットがある。
図14に、複数の文から有向グラフを作成した例を示す。この例では「A社のプリンタとプロジェクタを購入した。Wordの文書をプリンタで印刷する。プレゼン資料や映画をプロジェクタで投影する。また、TVを投影するかもしれない。」という3つの文から有向グラフを作成した。図示のように、解析対象を有向グラフのノード、対応関係(関連)をエッジとして有向グラフを作成する。なお、図14中の「Word」は、米国マイクロソフト(登録商標)社のワープロソフト名であり、ワープロソフトによって作成された文書ファイルの一例である。
しかしながら、有向グラフを作成した結果、関連がないにもかかわらず間接的なつながりができてしまう場合がある。図15を参照しながら、この問題点について説明する。図15では有向グラフの繋がりの向きは、ノード間の意味的な関連があることを表す。Word→文書→印刷という繋がりがあるが、この繋がりの文書を削除してWord→印刷としても関連があると判断できる(Wordと印刷の関連は一般的にWordのファイルを印刷することだと想像できるため)。このように間接的な繋がりでもノード間に関連がある。
しかし、間接的な繋がりで、関連がないと判断できるものもある。A社→プロジェクタ→投影という関連を、A社→投影とすると関連がないと判断できる(A社という社名と投影という動作を表す言葉は一般的に関連がないと考えられるため)。この関連のないノード同士が間接的に繋がってしまうのを避けるために、グラフを分割する。
次に、有向グラフ分割部15が関連性のないノード間の繋がりを削除することを目的として有向グラフを分割する(S105)。クラスタ間で関連が疎な部分こそが、対応関係情報を作成するプロセスにおいて偽の対応関係が誤検出されたエッジであると考えられる。有向グラフの分割(S105)は、このエッジを削除する処理である。
図16は有向グラフを適切に分割した例である。「A社」と「プロジェクタ」の繋がりをカットして、グラフの分割を行っている。この分割により、図15で存在した「間接的な繋がりで関連がない」という場合が存在しなくなる。グラフの分割に関連が疎な部分をカットする手法を用いるとこのような効果が発生する。関連が疎な部分は関連性が低くなっているため、疎な部分をカットすると関連のない間接的な繋がりをなくすことができる。
図17に、有向グラフを分割するフローチャートを示す。すなわち、グラフ分割の評価関数を用意し(S301)、評価関数の値が最もよくなるグラフの分割をすべてのグラフ分割パターンの中から探索し(S302)、そのような分割を実行する(S303)。評価関数は採用する有向グラフの分割手法に合わせて用意する。
評価関数の値とは、言い換えれば、複数の解析対象を有するクラスタと、別のクラスタとの「関連度」である。エッジの削除に最も好都合な評価関数の値は、関連度が最も低いと考えられる最小値である。
有向グラフの分割については、一般的に複数の手法が知られている。例としてクラスタリングやサポートベクタマシンなどがあげられる。クラスタリングにはK-means法やNormalizedCutなどの複数の手法があるが、どれの手法を使うかは文章の性質に合わせるとよい。文の量が多くある場合はK-means法、文の量が少ない場合はNormalizedCutを利用するといった具合である。
本実施形態におけるグラフ分割手法は、ノードの多寡など有向グラフの状態や規模に応じて最適なものを選択するものである。図14から図16で示してきた例では文の量が少ないのでNormalizedCutを用いることが好ましく、以下ではNormalizedCutを利用した有向グラフの分割処理について説明する。NormalizedCutとは、クラスタごとにカットしたときの重みを決めて、すべてのクラスタの重みを合計した値が最も少ないクラスタの組み合わせを解とする、グラフ分割方法である。
図18に、NormalizedCutを採用した場合のフローチャートの実行例を示す。NormalizedCutでは評価関数は決まっているものを使う(S301)。
評価関数は、図示のように、
Ncut(X,Y)
=cut(X,Y)/assoc(X,V)+cut(X,Y)/assoc(Y,V)
である。ただし、cut(X,Y)はカットしたエッジ数、assoc(X,V),assoc(Y,V)はクラスタX,Yそれぞれの中のエッジ数である。
図19と図20を参照して、有向グラフ分割にNormalizedCutを適用したときのプロセス(S302,S303)について説明する。図14から図16で示してきた例では、エッジを1箇所だけ切断するグラフ分割パターンだけで、全部で9パターンある。図19と図20は、そのうちの2パターンを示すものである。図19は、有向グラフをクラスタAとクラスタBに分けた場合のグラフ分割である。図20は、有向グラフをクラスタCとクラスタDに分けた場合のグラフ分割である。
図19でカットされたエッジは図19のクラスタAとBの間のエッジに相当する。クラスタAとBそれぞれの重みを計算する。クラスタの重みは、分母にクラスタ内のエッジ数、分子にクラスタ内のノードに接続されているエッジのうちカットされた数として計算される。クラスタAの重みは1/4、クラスタBの重みは1/4となる。すべてのクラスタの重みの合計した値は1/2となる。
式で記載すると以下のようになる。
Ncut(A,B)
=cut(A,B)/assoc(A,V)+cut(A,B)/assoc(B,V)
=カットしたエッジ数/Aのエッジ数+カットしたエッジ数/Bのエッジ数
=1/4+1/4
=1/2
一方で、図20のグラフ分割パターンは、カットされたエッジの数(cut(C,D))が1となり、クラスタC内のエッジ数が7、クラスタD内のエッジ数が1であるから、クラスタC,Dの重みは、それぞれ、1/7,1/1となる。したがって、すべてのクラスタの重みの合計値は、8/7となる。
式で記載すると以下のようになる。
Ncut(C,D)
=cut(C,D)/assoc(C,V)+cut(C,D)/assoc(D,V)
=カットしたエッジ数/Cのエッジ数+カットしたエッジ数/Dのエッジ数
=1/7+1/1
=8/7
図20の評価関数の値8/7は、図19のグラフ分割パターンの合計値1/2より大きい。図20のグラフの分割パターンが不適であることが分かる。
このようなグラフの分割パターンの探索を行い、分割後のクラスタの重みの合計値が最小になる分割パターンの探索を行い(S302)、そのような分割パターンを実行する(S303)。本例では図19のグラフ分割をしたときが、最も重みが小さくなるときなので解となる。以上に述べたように、グラフ分割パターンの評価関数を用意し、評価関数の値が最もよくなるグラフ分割パターンを探索し、そのようなパターンのグラフ分割を実行することで、自動的に適切でないエッジが切断される。その結果、適切な制限情報が作成できる。
次に、有向グラフ保持部16が以上の処理で得られた有向グラフを保持する(S106)。有向グラフの保存形式は、行列で行う。この行列は、縦に関連元のノード、横に関連先のノードをとり、関連がある箇所に1、関連がない箇所には0を記入した表で表現できる。一例として、図16の保存データを図21に示す。この有向グラフが、印刷制限を行う基準となる制限情報である。
<印刷制限判断処理>
図4(b)に示されるように、印刷制限判断処理においては、ユーザにより文書データが入力されると、形態素解析部11と構文解析部12が文の抽出、解析を行う(S201,S202)。次に、キーワードペア作成部13がキーワードペアの作成を行う(S203)。ここまでの処理は、図4(a)と同様である。
なお、文書データの入力は、印刷を意図した文書データの入力や、検閲などを意図して印刷までは行わないような文書データの入力などを含む概念である。印刷を意図した文書データを、特に「印刷データ」と呼ぶ。また、そのような印刷データから抽出された文に含まれる単語を「印刷対象情報」と呼ぶ。構文解析により関連が発見された二つの単語であるキーワードペアのことを、この印刷制限判断処理においては、「比較対象情報」と呼ぶ。
次に、比較判断部17が文書データに印刷を制限された内容が含まれているか判断する。具体的には、作成したキーワードペアが制限情報に含まれているか、検索を行う(S204)。候補情報の解析結果から作成した制限情報(有向グラフ)と、印刷指示された文書データの解析結果(キーワードペア)を比較する。一致するキーワード間の関連があれば、印刷指示された文書データに印刷を制限された内容が含まれていると判断する。図22に、キーワード間の関連の比較例を示す。
管理者の登録した候補情報の解析結果(有向グラフ)と、印刷文書の解析結果(キーワードペア)の比較について説明する。キーワードペアを、有向グラフの中から探す。まず、キーワードペアのうち矢印を出している方のキーワードを、有向グラフのノードの中から探す。次に、探し出したノードと直接的または間接的に繋がっているノードの中から、キーワードペアのうち矢印を受けている方のキーワードを探し、見つかれば機密情報等が文書データに含まれていると判断する。見つからなければ機密情報等が文書データに含まれていないと判断する。
管理者の登録した制限情報(候補情報)のみを有向グラフ化し、文書データは有向グラフ化しない理由は、グラフとグラフを比較することが技術的に難しいためである。グラフとグラフを比較した場合、完全一致、部分一致、完全不一致のいずれかの結果になる。完全一致と完全不一致の場合の判断は簡単であるが、部分一致の場合に類似しているかを判断できないという問題がある。しかも、グラフとグラフを比較した場合、部分一致になる可能性は完全一致と完全不一致に比べて高い。部分一致の場合に一致している又は一致していないかと判断することができ、かつ根拠のある基準を決めることが難しい。このため、文書データを有向グラフ化せずにキーワードペアが一致するかどうかで判断している。
次に、比較判断部17が、S204の検索の結果、印刷データ解析の結果得られたキーワードペアが、保持されている有向グラフに含まれていると判断した場合(S205/Yes)、入出力端末8又はMFP9は、印刷制限を行う(S206)。含まれていない場合は印刷制限を行わず、通常の印刷処理を行う。
「印刷制限」は、印刷を禁止する、すかしを入れる、警告を発する、管理者に通報する、黒塗りにして印刷する、といった印刷を制限する諸々の処理の上位概念である。具体的態様については当業者に知られるあらゆる方法が適用できる。
以上に述べた実施形態によると、フィルタをかける文書データに機密情報等が含まれているか否かを調べる基準となる制限情報を作成する際に、類義語をキーワードに追加する(図11)、同じキーワードを一つにまとめる(図12)、キーワードを簡素化する(図13)といった工夫をすることにより、検索漏れがおきにくくなる。すなわち、網羅性が高まる。同じキーワードを一つにまとめることにより効率性も高まる。
また、制限情報を有向グラフとすることで、間接的なつながりのある関連を簡単にフィルタに加えることができ、検索漏れがおきにくくなる(図15)。その一方で、関連のない可能性が高いつながりについては、有向グラフ分割部15がつながりを切断することによって、フィルタに含めないようにすることができる(図16、図17)。その結果、印刷制限判断処理を実行する際に用いる制限情報の精度が向上する。
1 情報処理システム
2 データ入力手段
3 制限情報作成手段
4 印刷指示手段
5 印刷制限判断手段
6 管理者端末
7 ユーザ端末
8 入出力端末
9 MFP
11 形態素解析部
12 構文解析部
13 キーワードペア作成部
14 有向グラフ作成部
15 有向グラフ分割部
16 有向グラフ保持部
17 比較判断部
特開2004−348523号公報

Claims (15)

  1. 画像処理装置に送信する印刷データを受け付ける印刷データ受付手段と、
    前記印刷データ受付手段によって受け付けられる印刷データの送信制御を判断するための制限情報の候補となる候補情報を受け付ける候補情報受付手段と、
    前記候補情報受付手段によって受け付けられた候補情報に含まれる複数の解析対象を解析する第1の解析手段と、
    前記第1の解析手段による解析に基づいて、前記複数の解析対象における対応関係を示す対応関係情報を作成する対応関係情報作成手段と、
    前記対応関係情報作成手段によって作成された対応関係情報と、前記対応関係情報に示された前記複数の解析対象における関連度とに基づいて、前記制限情報を作成する制限情報作成手段と、
    前記印刷データ受付手段によって受け付けられた印刷データに含まれる複数の印刷対象情報を解析する第2の解析手段と、
    前記第2の解析手段による解析に基づいて、前記制限情報作成手段によって作成された制限情報との比較を行うための比較対象情報を作成する比較対象情報作成手段と、
    前記比較対象情報作成手段によって作成された比較対象情報と前記制限情報との比較に基づいて、前記印刷データを前記画像処理装置に送信するか否かを判定する判定手段と、
    前記判定手段による判定に基づいて、前記印刷データの送信制御を行う送信制御手段と、
    を有することを特徴とする情報処理装置。
  2. 前記解析対象は、候補情報に含まれる少なくとも1つの単語であり、
    前記印刷対象情報は、印刷データに含まれる少なくとも1つの単語であり、
    前記第1の解析手段は、前記解析対象それぞれの係り受けの関係を解析し、
    前記第2の解析手段は、前記印刷対象情報それぞれの係り受けの関係を解析することを特徴とする請求項1に記載の情報処理装置。
  3. 前記対応関係情報作成手段によって作成される前記対応関係情報に示される前記対応関係は、前記解析対象同士の係り受けの関係で係り受けの関係であることを特徴とする請求項2に記載の情報処理装置。
  4. 前記対応関係情報作成手段は、第1の解析対象と対応関係にある第2の解析対象が、前記第1の解析対象と異なる第3の解析対象と対応関係にある場合、前記第1の解析対象と前記第3の解析対象は対応関係であることを特徴とする請求項3に記載の情報処理装置。
  5. 前記比較対象情報作成手段は、前記印刷対象情報それぞれと前記第2の解析手段で判定された前記係り受けの関係にある印刷対象情報を対応関係とすることで比較対象情報を作成することを特徴とする請求項2に記載の情報処理装置。
  6. 前記制限情報作成手段は、前記対応関係情報に基づいて算出された関連度に基づいて前記対応関係情報の少なくとも1つの対応関係の削除に応じて再作成した対応関係情報を制限情報とすることを特徴とする請求項4に記載の情報処理装置。
  7. 前記判定手段は、前記比較対象情報と前記制限情報とを比較し、いずれかの印刷対象情報がいずれかの前記解析対象と一致し、かつ一致した前記印刷対象情報と対応関係にある印刷対象情報が、一致した前記解析対象と対応関係にある解析対象のいずれかに一致する場合に前記印刷データを前記画像処理装置に送信しないと判定することを特徴とする請求項5に記載の情報処理装置。
  8. コンピュータを、
    画像処理装置に送信する印刷データを受け付ける印刷データ受付手段と、
    前記印刷データ受付手段によって受け付けられる印刷データの送信制御を判断するための制限情報の候補となる候補情報を受け付ける候補情報受付手段と、
    前記候補情報受付手段によって受け付けられた候補情報に含まれる複数の解析対象を解析する第1の解析手段と、
    前記第1の解析手段による解析に基づいて、前記複数の解析対象における対応関係を示す対応関係情報を作成する対応関係情報作成手段と、
    前記対応関係情報作成手段によって作成された対応関係情報と、前記対応関係情報に示された前記複数の解析対象における関連度とに基づいて、前記制限情報を作成する制限情報作成手段と、
    前記印刷データ受付手段によって受け付けられた印刷データに含まれる複数の印刷対象情報を解析する第2の解析手段と、
    前記第2の解析手段による解析に基づいて、前記制限情報作成手段によって作成された制限情報との比較を行うための比較対象情報を作成する比較対象情報作成手段と、
    前記比較対象情報作成手段によって作成された比較対象情報と前記制限情報との比較に基づいて、前記印刷データを前記画像処理装置に送信するか否かを判定する判定手段と、
    前記判定手段による判定に基づいて、前記印刷データの送信制御を行う送信制御手段として機能させるためのプログラム。
  9. 前記解析対象は、候補情報に含まれる少なくとも1つの単語であり、
    前記印刷対象情報は、印刷データに含まれる少なくとも1つの単語であり、
    前記第1の解析手段は、前記解析対象それぞれの係り受けの関係を解析し、
    前記第2の解析手段は、前記印刷対象情報それぞれの係り受けの関係を解析することを特徴とするように、前記コンピュータを機能させるための請求項8に記載のプログラム。
  10. 前記対応関係情報作成手段によって作成される前記対応関係情報に示される前記対応関係は、前記解析対象同士の係り受けの関係で係り受けの関係であることを特徴とするように、前記コンピュータを機能させるための請求項9に記載のプログラム。
  11. 前記対応関係情報作成手段は、第1の解析対象と対応関係にある第2の解析対象が、前記第1の解析対象と異なる第3の解析対象と対応関係にある場合、前記第1の解析対象と前記第3の解析対象は対応関係であることを特徴とするように、前記コンピュータを機能させるための請求項10に記載のプログラム。
  12. 前記比較対象情報作成手段は、前記印刷対象情報それぞれと前記第2の解析手段で判定された前記係り受けの関係にある印刷対象情報を対応関係とすることで比較対象情報を作成することを特徴とするように、前記コンピュータを機能させるための請求項9に記載のプログラム。
  13. 前記制限情報作成手段は、前記対応関係情報に基づいて算出された関連度に基づいて前記対応関係情報の少なくとも1つの対応関係の削除に応じて再作成した対応関係情報を制限情報とすることを特徴とするように、前記コンピュータを機能させるための請求項11に記載のプログラム。
  14. 前記判定手段は、前記比較対象情報と前記制限情報とを比較し、いずれかの印刷対象情報がいずれかの前記解析対象と一致し、かつ一致した前記印刷対象情報と対応関係にある印刷対象情報が、一致した前記解析対象と対応関係にある解析対象のいずれかに一致する場合に前記印刷データを前記画像処理装置に送信しないと判定することを特徴とするように、前記コンピュータを機能させるための請求項12に記載のプログラム。
  15. コンピュータを、
    画像処理装置に送信する印刷データを受け付ける印刷データ受付手段と、
    前記印刷データ受付手段によって受け付けられる印刷データの送信制御を判断するための制限情報の候補となる候補情報を受け付ける候補情報受付手段と、
    前記候補情報受付手段によって受け付けられた候補情報に含まれる複数の解析対象を解析する第1の解析手段と、
    前記第1の解析手段による解析に基づいて、前記複数の解析対象における対応関係を示す対応関係情報を作成する対応関係情報作成手段と、
    前記対応関係情報作成手段によって作成された対応関係情報と、前記対応関係情報に示された前記複数の解析対象における関連度とに基づいて、前記制限情報を作成する制限情報作成手段と、
    前記印刷データ受付手段によって受け付けられた印刷データに含まれる複数の印刷対象情報を解析する第2の解析手段と、
    前記第2の解析手段による解析に基づいて、前記制限情報作成手段によって作成された制限情報との比較を行うための比較対象情報を作成する比較対象情報作成手段と、
    前記比較対象情報作成手段によって作成された比較対象情報と前記制限情報との比較に基づいて、前記印刷データを前記画像処理装置に送信するか否かを判定する判定手段と、
    前記判定手段による判定に基づいて、前記印刷データの送信制御を行う送信制御手段と、
    として機能させるためのプログラムと、
    前記プログラムの送信制御手段より受信した前記印刷データに基づいて処理を行う画像処理装置と、
    を有することを特徴とする情報処理システム。
JP2013169814A 2013-08-19 2013-08-19 情報処理装置、システム及びプログラム Pending JP2015038702A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013169814A JP2015038702A (ja) 2013-08-19 2013-08-19 情報処理装置、システム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013169814A JP2015038702A (ja) 2013-08-19 2013-08-19 情報処理装置、システム及びプログラム

Publications (1)

Publication Number Publication Date
JP2015038702A true JP2015038702A (ja) 2015-02-26

Family

ID=52631737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013169814A Pending JP2015038702A (ja) 2013-08-19 2013-08-19 情報処理装置、システム及びプログラム

Country Status (1)

Country Link
JP (1) JP2015038702A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123041A (ja) * 1998-10-19 2000-04-28 Nippon Telegr & Teleph Corp <Ntt> 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
JP2007034618A (ja) * 2005-07-26 2007-02-08 Ricoh Co Ltd セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123041A (ja) * 1998-10-19 2000-04-28 Nippon Telegr & Teleph Corp <Ntt> 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
JP2007034618A (ja) * 2005-07-26 2007-02-08 Ricoh Co Ltd セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体

Similar Documents

Publication Publication Date Title
US10185712B2 (en) Standard exact clause detection
KR101715432B1 (ko) 단어쌍취득장치, 단어쌍취득방법 및 기록 매체
US8200642B2 (en) System and method for managing electronic documents in a litigation context
US9852122B2 (en) Method of automated analysis of text documents
US7937338B2 (en) System and method for identifying document structure and associated metainformation
US9251248B2 (en) Using context to extract entities from a document collection
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
US9268768B2 (en) Non-standard and standard clause detection
US10936806B2 (en) Document processing apparatus, method, and program
JP2005251206A (ja) 単語分割で使用される新単語収集方法およびシステム
JP5314195B2 (ja) 自然言語処理装置、方法、及びプログラム
Chawla et al. Automatic bug labeling using semantic information from LSI
Ghosh et al. Improving information retrieval performance on OCRed text in the absence of clean text ground truth
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP5838871B2 (ja) データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム
JP2010250439A (ja) 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体
JP2008117066A (ja) ソフトウェア開発支援方法、ソフトウェア開発支援装置、ソフトウェア開発支援プログラム、及び計算機システム
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP6194180B2 (ja) 文章マスク装置及び文章マスクプログラム
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning
US20210073258A1 (en) Information processing apparatus and non-transitory computer readable medium
JP2015038702A (ja) 情報処理装置、システム及びプログラム
Sworna et al. IRP2API: Automated Mapping of Cyber Security Incident Response Plan to Security Tools’ APIs
JPWO2020157887A1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160809

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20161216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170926

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180417