JP7096222B2 - Risk assessment device, risk assessment method and risk assessment program - Google Patents
Risk assessment device, risk assessment method and risk assessment program Download PDFInfo
- Publication number
- JP7096222B2 JP7096222B2 JP2019178329A JP2019178329A JP7096222B2 JP 7096222 B2 JP7096222 B2 JP 7096222B2 JP 2019178329 A JP2019178329 A JP 2019178329A JP 2019178329 A JP2019178329 A JP 2019178329A JP 7096222 B2 JP7096222 B2 JP 7096222B2
- Authority
- JP
- Japan
- Prior art keywords
- risk
- search
- risk assessment
- document data
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、文書データを公開する際のリスクを評価する方法に関する。 The present invention relates to a method for assessing the risk of publishing document data.
従来、データセットの匿名化技術として、k-匿名化等の様々な手法が提案されている。ところが、これらの手法は、一般の文書データを対象とするものではなかった。文書データの匿名化に関しては、非特許文献1及び2のように、文書中の単語の出現回数等から情報量を算出することで、リスクを評価する手法が提案されている。
Conventionally, various methods such as k-anonymization have been proposed as data set anonymization techniques. However, these methods did not target general document data. Regarding the anonymization of document data, as in
従来の手法では、文書データに含まれる個人の病名、又は政治・宗教に関する思想等、センシティブな情報が秘匿されているかという観点でリスク評価が実施されている。
しかしながら、例えば学校の事故レポートのように、文書データ自体に個人と紐づけられたセンシティブな情報が含まれていない場合であっても、この文書データに関連する個人情報及び追加情報が入手され紐付けされる可能性があった。したがって、文書データのみから十分にリスクを評価することは難しかった。
In the conventional method, a risk assessment is carried out from the viewpoint of whether sensitive information such as an individual's disease name contained in document data or an idea about politics / religion is concealed.
However, even if the document data itself does not contain sensitive information associated with the individual, such as a school accident report, personal information and additional information related to this document data will be obtained and linked. Could be attached. Therefore, it was difficult to sufficiently evaluate the risk from only the document data.
本発明は、文書データを公開する際のリスクを適切に評価できるリスク評価装置、リスク評価方法及びリスク評価プログラムを提供することを目的とする。 An object of the present invention is to provide a risk assessment device, a risk assessment method, and a risk assessment program that can appropriately evaluate the risk when publishing document data.
本発明に係るリスク評価装置は、文書データに含まれる単語それぞれの情報量を算出する情報量算出部と、前記情報量の高い所定数の単語のうち、所定数の単語の組み合わせによりWeb検索を行い、検索結果の上位から所定数を取得する検索部と、前記検索部により取得された検索結果に対して、前記所定数の単語に含まれ、かつ、前記組み合わせに含まれない単語群との一致度合いに基づいて、前記文書データとの紐づけによる文書リスクを評価する評価部と、を備える。 The risk evaluation device according to the present invention performs a Web search by a combination of an information amount calculation unit that calculates the amount of information of each word included in document data and a predetermined number of words among a predetermined number of words having a high amount of information. A search unit that performs and acquires a predetermined number from the top of the search results, and a group of words that are included in the predetermined number of words and are not included in the combination with respect to the search results acquired by the search unit. It is provided with an evaluation unit that evaluates the document risk by associating with the document data based on the degree of matching.
前記検索部は、指定された最大数までの単語の組み合わせによりWeb検索を行ってもよい。 The search unit may perform a Web search by combining up to a specified maximum number of words.
前記検索部は、前記組み合わせのパターンを変えて、指定された回数のWeb検索を行い、それぞれの検索結果の上位を取得してもよい。 The search unit may change the pattern of the combination, perform a Web search a specified number of times, and acquire the higher rank of each search result.
前記評価部は、前記検索部により取得された検索結果のうち、前記一致度合いが閾値を超える割合に基づいて評価してもよい。 The evaluation unit may evaluate based on the ratio of the search results acquired by the search unit in which the degree of matching exceeds the threshold value.
前記リスク評価装置は、前記検索部により取得された検索結果から、所定の条件を満たす固有名詞を抽出する抽出部を備え、前記評価部は、前記固有名詞が抽出された場合に、前記文書リスクを高く調整してもよい。 The risk assessment device includes an extraction unit that extracts a proper noun satisfying a predetermined condition from the search results acquired by the search unit, and the evaluation unit extracts the document risk when the proper noun is extracted. May be adjusted high.
前記リスク評価装置は、前記文書データの話題性を示す指標を取得する指標取得部を備え、前記評価部は、前記指標に応じて、前記文書リスクの評価を調整してもよい。 The risk assessment device includes an index acquisition unit that acquires an index indicating the topicality of the document data, and the evaluation unit may adjust the evaluation of the document risk according to the index.
前記指標取得部は、前記文書データの内容を、機械学習により所定の区分のいずれかに分類し、当該区分に対応付けられた指標を取得してもよい。 The index acquisition unit may classify the content of the document data into any of a predetermined category by machine learning and acquire an index associated with the category.
前記情報量算出部は、前記一致度合いが閾値を超えた検索結果の文書データに含まれる単語それぞれの情報量を算出し、前記検索部は、前記検索結果の文書データに所定以上の情報量の単語が含まれる場合、当該単語を含む組み合わせにより再度Web検索を行ってもよい。 The information amount calculation unit calculates the amount of information of each word included in the document data of the search result in which the degree of matching exceeds the threshold, and the search unit calculates the amount of information in the document data of the search result to be more than a predetermined amount. If a word is included, the Web search may be performed again by the combination including the word.
前記評価部は、さらに、前記組み合わせ毎に前記文書リスクを評価し、当該文書リスクを統合することにより、単語毎の個別リスクを評価してもよい。 The evaluation unit may further evaluate the document risk for each combination and evaluate the individual risk for each word by integrating the document risk.
前記評価部は、前記個別リスクが所定以上の単語を所定のルールに従って汎化した場合の文書データに対して前記文書リスクを再評価し、汎化による当該文書リスクの変化量を提示してもよい。 Even if the evaluation unit re-evaluates the document risk for the document data when the individual risk is generalized according to a predetermined rule and presents the amount of change in the document risk due to the generalization. good.
本発明に係るリスク評価方法は、文書データに含まれる単語それぞれの情報量を算出する情報量算出ステップと、前記情報量の高い所定数の単語のうち、所定数の単語の組み合わせによりWeb検索を行い、検索結果の上位から所定数を取得する検索ステップと、前記検索ステップにおいて取得された検索結果に対して、前記所定数の単語に含まれ、かつ、前記組み合わせに含まれない単語群との一致度合いに基づいて、前記文書データとの紐づけによる文書リスクを評価する評価ステップと、をコンピュータが実行する。 The risk evaluation method according to the present invention performs a Web search by combining a predetermined number of words among a predetermined number of words having a high amount of information and an information amount calculation step for calculating the amount of information of each word included in the document data. A search step for acquiring a predetermined number from the top of the search results, and a group of words included in the predetermined number of words and not included in the combination with respect to the search results acquired in the search step. Based on the degree of matching, the computer executes an evaluation step of evaluating the document risk by associating with the document data.
本発明に係るリスク評価プログラムは、前記リスク評価装置としてコンピュータを機能させるためのものである。 The risk assessment program according to the present invention is for operating a computer as the risk assessment device.
本発明によれば、文書データを公開する際のリスクを適切に評価できる。 According to the present invention, the risk of publishing document data can be appropriately evaluated.
以下、本発明の実施形態の一例について説明する。
本実施形態におけるリスク評価方法では、攻撃者が一般的な検索能力を保有することを想定し、Web検索による攻撃に対する文書データのリスクが評価される。
Hereinafter, an example of the embodiment of the present invention will be described.
In the risk assessment method in the present embodiment, it is assumed that the attacker possesses general search ability, and the risk of document data against an attack by Web search is evaluated.
図1は、本実施形態において想定される攻撃を例示する図である。
攻撃者は、文書データからキーワードを抽出し、これらのキーワードを用いてWeb検索を行う。その後、攻撃者は、検索結果から文書データに関する情報、特に個人を特定し、特定した情報(例えば、「△△君」)と文書データに含まれるセンシティブな情報(例えば、「給付金1500万円」)との紐付けを試みる。
FIG. 1 is a diagram illustrating an attack assumed in the present embodiment.
The attacker extracts keywords from the document data and performs a Web search using these keywords. After that, the attacker identifies the information about the document data from the search results, especially the individual, and the identified information (for example, "△△ -kun") and the sensitive information contained in the document data (for example, "benefit 15 million yen"). ”) And try to link it.
本実施形態のリスク評価方法を実施する装置(コンピュータ)は、このようなWeb検索をシミュレーションすることで、文書データに関連する情報が攻撃者に発見されるリスクを定量的に評価する。 The device (computer) that implements the risk assessment method of the present embodiment quantitatively evaluates the risk that information related to document data will be discovered by an attacker by simulating such a Web search.
図2は、本実施形態におけるリスク評価装置1の機能構成を示す図である。
リスク評価装置1は、サーバ又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
FIG. 2 is a diagram showing a functional configuration of the
The
制御部10は、リスク評価装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
The
記憶部20は、ハードウェア群をリスク評価装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスク(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるためのプログラム(リスク評価プログラム)、パラメータ、及びこのプログラムが処理対象とする文書データを含む文書データセット等を記憶する。
The
制御部10は、形態素解析部11と、情報量算出部12と、検索部13と、抽出部14と、指標取得部15と、評価部16とを備える。
制御部10は、これらの機能部により、文書データから関連情報を検索されるリスクを評価することで、文書データの匿名化を促す。
The
The
形態素解析部11は、対象の文書データに対して形態素解析を行い、単語に分割する。さらに、形態素解析部11は、得られた単語のうち、リスクとなりうる特定の品詞(例えば、名詞、動詞等)のものを抽出する。
The
情報量算出部12は、形態素解析部11により抽出された単語それぞれの情報量を算出する。
単語xの情報量I(x)は、例えば、I(x)=-logP(x)で表現できる。なお、P(x)は、単語xの出現確率を表し、xの出現回数を全単語数で割ることで求められる。あるいは、情報量I(x)は、文書データセットDを用いて、TF-IDF等の指標により算出されてもよい。
The information
The information amount I (x) of the word x can be expressed by, for example, I (x) = −logP (x). Note that P (x) represents the probability of appearance of the word x, and is obtained by dividing the number of appearances of x by the total number of words. Alternatively, the information amount I (x) may be calculated by an index such as TF-IDF using the document data set D.
検索部13は、算出された情報量の高い所定数(n個)の単語のうち、指定された最大数(m個)までの単語の組み合わせによりWeb検索を行い、検索結果の上位から所定数を取得する。
なお、組み合わせの数は、Σm(nCm)通りとなり、n及びmの指定によっては全通りの検索の回数が膨大となる。このため、検索の回数に上限を設ける、あるいは、一度の検索に用いる単語(キーワード)の数を最大数mまで変動させるのではなく所定数に固定させてもよい。
検索部13は、単語の組み合わせのパターンを変えて、例えば指定された回数のWeb検索を行い、それぞれの検索結果の上位(例えば10件ずつ)を取得する。
The
The number of combinations is Σ m ( n C m ), and depending on the designation of n and m, the number of searches for all the combinations becomes enormous. Therefore, an upper limit may be set for the number of searches, or the number of words (keywords) used for one search may be fixed to a predetermined number instead of being varied up to a maximum of several meters.
The
抽出部14は、検索部13により取得された検索結果から、所定の条件を満たす固有名詞を抽出する。
例えば、文書データが事故レポート等の場合、固有名詞は、被害者の名前が相当し、攻撃者により文書データと紐づけられることで個人に関するセンシティブな情報が知られることとなる。
The
For example, when the document data is an accident report or the like, the proper noun corresponds to the name of the victim, and the attacker associates the document data with the document data so that sensitive information about the individual is known.
指標取得部15は、文書データの話題性を示す指標を取得し、評価部16へ提供する。
話題性は、例えば、事故による怪我の程度等であり、関連情報の多さ、すなわち検索されやすさを示す。この指標は、文書データに予め手動で付与されていてもよいし、既存の言語処理の手法を用いて文書データの内容に応じて付与されてもよい。
例えば、指標取得部15は、文書データの内容を、機械学習により所定の区分(例えば、重症又は軽傷、あるいは、死亡事故又は非死亡事故)のいずれかに分類し、この区分に対応付けられた指標を取得する。
The
The topicality is, for example, the degree of injury due to an accident, and indicates the amount of related information, that is, the ease of searching. This index may be manually given to the document data in advance, or may be given according to the content of the document data by using an existing language processing method.
For example, the
評価部16は、検索部13により取得された検索結果の全体に対して、文書データから抽出された所定数(n個)の単語に含まれ、かつ、検索に用いた組み合わせに含まれない単語群との一致度合いに基づいて、文書データとの紐づけによるリスクを評価する。
具体的には、例えば、評価部16は、検索部13により取得された検索結果のうち、一致度合いが閾値を超える、すなわち検索キーワードに用いなかった単語と同一又は類似の単語が所定以上含まれる検索結果(記事)の割合に基づいて評価してよい。
The
Specifically, for example, the
また、評価部16は、指標取得部15から得られた指標に応じて、リスクの評価を調整する。すなわち、文書データの話題性が高い場合、関連情報が検索される可能性も高いため、リスクが高く評価される。
さらに、評価部16は、抽出部14により被害者の個人名等の固有名詞が抽出された場合に、リスクを高く調整する。
Further, the
Further, the
評価部16は、さらに、Web検索を行った単語の組み合わせ毎にリスクを評価し、これらのリスクを統合することにより、単語毎の個別リスクを評価してもよい。例えば、単語の一致度合いが閾値を超える検索結果が所定以上得られた際の検索キーワードに含まれる単語は、記載されることにリスクがあると判断される。さらに、異なる組み合わせでも同様にリスクが高いと判断される単語については、より高いリスクがあると評価される。
得られた単語毎の評価は、ユーザに提示されて個別リスクの高い単語の匿名化が促される。あるいは、所定以上の個別リスクのある単語が自動で汎化されることで匿名化されてもよいし、汎化候補が提示されてもよい。
The
The obtained word-by-word evaluation is presented to the user to promote anonymization of words with high individual risk. Alternatively, words with a predetermined or higher individual risk may be anonymized by being automatically generalized, or generalization candidates may be presented.
さらに、評価部16は、個別リスクの高い単語を汎化した場合の文書データのリスクを再評価し、汎化による文書データのリスクの変化量(低下量)をユーザに提示してもよい。
なお、汎化の対象は、個別リスクが所定以上の単語全てであってもよいが、評価部16は、個別リスクが上位の単語を優先して、順に文書データのリスクの変化量と共にユーザに提示してもよい。
Further, the
The target of generalization may be all words whose individual risk is equal to or higher than a predetermined value, but the
図3は、本実施形態におけるリスク評価方法を示すフローチャートである。
ここでは、文書データから抽出する検索キーワードの候補となる単語の数n、検索キーワードとして用いる単語数m、Web検索の実行回数i、検索結果の取得数j、及び文書データの話題性(センシティビティ)を示す指標εがパラメータとして入力されているものとする。なお、指標εは、前述のように文書データの意味解析により算出されてもよい。
FIG. 3 is a flowchart showing a risk assessment method in the present embodiment.
Here, the number of words that can be candidates for search keywords extracted from the document data n, the number of words used as search keywords m, the number of times web search is executed i, the number of search result acquisitions j, and the topicality (sensitivity) of the document data. ) Is input as a parameter. The index ε may be calculated by semantic analysis of document data as described above.
ステップS1において、形態素解析部11は、対象の文書データに対して形態素解析を行い、名詞及び動詞等の特定の品詞の単語を、攻撃者により検索キーワードとされる可能性が高い単語として抽出する。
In step S1, the
ステップS2において、情報量算出部12は、ステップS1で抽出された単語それぞれの情報量を、出現頻度に基づく指標により算出する。
In step S2, the information
ステップS3において、検索部13は、ステップS2で算出された情報量が高いn個の単語を抽出し、この中からm個の単語をランダムに選択してWeb検索をk回実行する。そして、検索部13は、Web検索の度に上位からj個の検索結果を、全部でi×j個の検索結果を得る。
In step S3, the
ステップS4において、評価部16は、ステップS3で得られたi×j個の検索結果から、検索キーワードに使われなかったn-m個の単語と同一の又は類似した単語が含まれる割合が所定以上の関連文書を選別する。そして、評価部16は、検索結果全体に対して選別された関連文書の割合に応じたリスクの評価値を算出する。
In step S4, the
ステップS5において、抽出部14は、ステップS4で選別された関連文書の中に、被害者の名前等、特定の条件を満たす固有名詞が存在するか否かを判定する。この判定がYESの場合、処理はステップS6に移り、判定がNOの場合、処理はステップS7に移る。
In step S5, the
ステップS6において、評価部16は、ステップS4で算出された評価値を調整し、リスクを高く評価する。なお、評価部16は、ステップS5において該当の固有名詞が存在する関連文書の割合に応じて評価値の上げ幅又は上げ率を調整してもよい。
In step S6, the
ステップS7において、評価部16は、文書データの話題性を示す指標εに基づいて、評価値を調整し、話題性の高い文書データほど、リスクを高く評価する。
In step S7, the
本実施形態によれば、リスク評価装置1は、文書データに含まれる情報量の高い所定数の単語のうち、指定された所定数の単語の組み合わせを検索キーワードとしてWeb検索を行い、検索結果の上位から所定数を取得する。リスク評価装置1は、検索結果に対して、所定数の単語に含まれ、かつ、検索キーワードに含まれない単語群との一致度合いに基づいて、文書データとの紐づけによるリスクを評価する。
これにより、リスク評価装置1は、文書データを公開する際に、実際の攻撃をシミュレーションすることで、文書データに関連する個人及び追加情報等が攻撃者に入手されるリスクを定量的に適切に評価することができる。
According to the present embodiment, the
As a result, when the document data is released, the
リスク評価装置1は、指定された最大数までの単語の組み合わせによりWeb検索を行うことにより、攻撃者による検索キーワードの選択数を複数シミュレーションでき、文書データのリスクを適切に評価できる。
The
リスク評価装置1は、検索キーワードの組み合わせのパターンを変えて、指定された回数のWeb検索を行い、それぞれの検索結果の上位を取得する。
これにより、リスク評価装置1は、複数の検索パターンをシミュレーションすることで、様々な観点の検索結果を取得でき、関連情報が入手されるリスクを、より適切に評価できる。
The
As a result, the
リスク評価装置1は、検索結果のうち、検索キーワード以外の単語の一致度合いが閾値を超える割合に基づいてリスクを評価する。
これにより、リスク評価装置1は、文書データと紐付けられる関連情報を効率的に判別し、リスクを適切に評価できる。
The
As a result, the
リスク評価装置1は、検索結果から、所定の条件を満たす固有名詞が抽出された場合に、リスクを高く調整する。
これにより、リスク評価装置1は、攻撃者により文書データと個人名又は学校名等の固有名詞とが紐付けられる可能性を判定し、適切にリスクを評価できる。
The
As a result, the
リスクを評価装置1は、文書データの話題性を示す指標に応じて、リスクの評価を調整する。
例えば文書データが事故レポートの場合、事故の程度によって記事の数が異なるため、重大事故で話題性が高い場合には、低い情報量の単語からでも容易に当該事故の記事が検索されることから、リスクを評価装置1は、関連情報の紐付けのリスクを現実に則して適切に評価できる。
The
For example, if the document data is an accident report, the number of articles varies depending on the degree of the accident, so if the topic is high in a serious accident, the article of the accident can be easily searched even from a word with a low amount of information. , The
また、リスクを評価装置1は、文書データの内容を、機械学習により所定の区分のいずれかに分類し、これらの区分に対応付けられた指標を取得することで、事前に判別されない指標を適切に付与してリスクを適切に評価できる。
Further, the
リスク評価装置1は、単語の組み合わせ毎にリスクを評価し、評価結果を統合することにより、単語毎の個別リスクを評価する。
これにより、リスク評価装置1は、文書データに含まれる個別リスクの高い単語を提示して公開前に匿名化を促す、又は自動的に汎化することで、文書データのリスクを低減させることができる。
The
As a result, the
さらに、リスク評価装置1は、個別リスクが所定以上の単語を汎化した場合の文書データのリスクを再評価し、汎化による文書データのリスクの変化量を提示する。
これにより、リスク評価装置1は、どのような汎化で文書データのリスクがどれだけ低下するかを示し、ユーザに文書データの匿名化を適切なレベルで実施させることができる。
Further, the
Thereby, the
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。 Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments. Moreover, the effects described in the above-described embodiments are merely a list of the most suitable effects resulting from the present invention, and the effects according to the present invention are not limited to those described in the embodiments.
前述の実施形態では、評価対象の文書データに含まれる単語によりWeb検索を行ったが、実際には、検索結果に含まれる単語による再検索が行われることも考えられる。
したがって、リスク評価装置1は、リスク評価のために検索された関連文書からも同様に単語の情報量を算出し、所定以上の情報量の単語が含まれる場合、これらの単語を含む検索キーワードにより再度Web検索を行ってもよい。
これにより、攻撃者の検索行動をより忠実にシミュレーションできるため、リスクのより適切な評価が期待できる。
In the above-described embodiment, the Web search is performed by the word included in the document data to be evaluated, but in reality, it is conceivable that the search is performed again by the word included in the search result.
Therefore, the
As a result, the search behavior of the attacker can be simulated more faithfully, and a more appropriate evaluation of the risk can be expected.
リスク評価装置1によるリスク評価方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
The risk assessment method by the
1 リスク評価装置
10 制御部
11 形態素解析部
12 情報量算出部
13 検索部
14 抽出部
15 指標取得部
16 評価部
20 記憶部
1
Claims (12)
前記情報量の上位から所定数の単語のうち、複数の単語の組み合わせによりWeb検索を行い、検索結果の上位から所定数を取得する検索部と、
前記検索部により取得された検索結果に対して、前記所定数の単語に含まれ、かつ、前記組み合わせに含まれない単語群との一致度合いに基づいて、前記文書データとの紐づけによる文書リスクを評価する評価部と、を備えるリスク評価装置。 An information amount calculation unit that calculates the amount of information for each word contained in the document data,
A search unit that performs a Web search by combining a plurality of words from a predetermined number of words from the top of the amount of information and acquires a predetermined number from the top of the search results.
Document risk due to association with the document data based on the degree of matching with the word group included in the predetermined number of words and not included in the combination with respect to the search result acquired by the search unit. A risk assessment device equipped with an evaluation unit that evaluates.
前記評価部は、前記固有名詞が抽出された場合に、前記文書リスクを高く調整する請求項1から請求項4のいずれかに記載のリスク評価装置。 It is provided with an extraction unit that extracts a proper noun satisfying a predetermined condition from the search results acquired by the search unit.
The risk assessment device according to any one of claims 1 to 4, wherein the evaluation unit adjusts the document risk to a high level when the proper noun is extracted.
前記評価部は、前記指標に応じて、前記文書リスクの評価を調整する請求項1から請求項5のいずれかに記載のリスク評価装置。 It is equipped with an index acquisition unit that acquires an index indicating the topicality of the document data.
The risk assessment device according to any one of claims 1 to 5, wherein the evaluation unit adjusts the assessment of the document risk according to the index.
前記検索部は、前記検索結果の文書データに所定以上の情報量の単語が含まれる場合、当該単語を含む組み合わせにより再度Web検索を行う請求項1から請求項7のいずれかに記載のリスク評価装置。 The information amount calculation unit calculates the amount of information of each word included in the document data of the search result in which the degree of matching exceeds the threshold value.
The risk assessment according to any one of claims 1 to 7, wherein when the document data of the search result contains a word having a predetermined amount of information or more, the search unit performs a Web search again by a combination including the word. Device.
前記情報量の上位から所定数の単語のうち、複数の単語の組み合わせによりWeb検索を行い、検索結果の上位から所定数を取得する検索ステップと、
前記検索ステップにおいて取得された検索結果に対して、前記所定数の単語に含まれ、かつ、前記組み合わせに含まれない単語群との一致度合いに基づいて、前記文書データとの紐づけによる文書リスクを評価する評価ステップと、をコンピュータが実行するリスク評価方法。 An information amount calculation step that calculates the amount of information for each word contained in the document data,
A search step of performing a Web search by combining a plurality of words from a predetermined number of words from the top of the amount of information and acquiring a predetermined number from the top of the search results.
Document risk due to association with the document data based on the degree of matching with the word group included in the predetermined number of words and not included in the combination with respect to the search result acquired in the search step. The evaluation steps to evaluate and the risk assessment method performed by the computer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019178329A JP7096222B2 (en) | 2019-09-30 | 2019-09-30 | Risk assessment device, risk assessment method and risk assessment program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019178329A JP7096222B2 (en) | 2019-09-30 | 2019-09-30 | Risk assessment device, risk assessment method and risk assessment program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021056698A JP2021056698A (en) | 2021-04-08 |
JP7096222B2 true JP7096222B2 (en) | 2022-07-05 |
Family
ID=75270775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019178329A Active JP7096222B2 (en) | 2019-09-30 | 2019-09-30 | Risk assessment device, risk assessment method and risk assessment program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7096222B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008243205A (en) | 2007-03-28 | 2008-10-09 | Palo Alto Research Center Inc | Method and system for detecting undesired inference from document |
JP2011095905A (en) | 2009-10-28 | 2011-05-12 | Sony Corp | Information processing apparatus and method, and program |
-
2019
- 2019-09-30 JP JP2019178329A patent/JP7096222B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008243205A (en) | 2007-03-28 | 2008-10-09 | Palo Alto Research Center Inc | Method and system for detecting undesired inference from document |
JP2011095905A (en) | 2009-10-28 | 2011-05-12 | Sony Corp | Information processing apparatus and method, and program |
Non-Patent Citations (1)
Title |
---|
三本 知明,ドキュメントにおけるプライバシとリスク評価ツールの試作,電子情報通信学会技術研究報告 Vol.119 No.144,日本,2019年07月16日,113~118 |
Also Published As
Publication number | Publication date |
---|---|
JP2021056698A (en) | 2021-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10592837B2 (en) | Identifying security risks via analysis of multi-level analytical records | |
JP5904559B2 (en) | Scenario generation device and computer program therefor | |
EP2866421B1 (en) | Method and apparatus for identifying a same user in multiple social networks | |
JP6403382B2 (en) | Phrase pair collection device and computer program therefor | |
CN104199833B (en) | The clustering method and clustering apparatus of a kind of network search words | |
US10860565B2 (en) | Database update and analytics system | |
US8700592B2 (en) | Shopping search engines | |
JP5907393B2 (en) | Complex predicate template collection device and computer program therefor | |
CN103617213B (en) | Method and system for identifying newspage attributive characters | |
CN113574522A (en) | Selective presentation of rich experiences in a search | |
CN110019642A (en) | A kind of Similar Text detection method and device | |
Miyanishi et al. | TREC 2011 Microblog Track Experiments at Kobe University. | |
JP7198408B2 (en) | Trademark information processing device and method, and program | |
Campos et al. | Gte: A distributional second-order co-occurrence approach to improve the identification of top relevant dates in web snippets | |
KR20180086084A (en) | Device and Method on Making Highly Related Patent Set from Input Patent Set Based on Machine Learning Methodology Using Artificial Intelligence Technology | |
CN115662627A (en) | Early warning method for building early warning model of psychological health risks of students and application of early warning method | |
JP7096222B2 (en) | Risk assessment device, risk assessment method and risk assessment program | |
JP2016218512A (en) | Information processing device and information processing program | |
JP5933863B1 (en) | Data analysis system, control method, control program, and recording medium | |
WO2019019711A1 (en) | Method and apparatus for publishing behaviour pattern data, terminal device and medium | |
Amalia et al. | The identification of negative content in websites by using machine learning approaches | |
CN110619212B (en) | Character string-based malicious software identification method, system and related device | |
Lai et al. | An unsupervised approach to discover media frames | |
KR101614551B1 (en) | System and method for extracting keyword using category matching | |
JP2012104051A (en) | Document index creating device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210720 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220531 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220614 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220623 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7096222 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |