JP2005215717A - Document processor with security function - Google Patents
Document processor with security function Download PDFInfo
- Publication number
- JP2005215717A JP2005215717A JP2004017780A JP2004017780A JP2005215717A JP 2005215717 A JP2005215717 A JP 2005215717A JP 2004017780 A JP2004017780 A JP 2004017780A JP 2004017780 A JP2004017780 A JP 2004017780A JP 2005215717 A JP2005215717 A JP 2005215717A
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- character string
- public
- masking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、公開する文書や単語情報(文書から抽出した単語の情報など)に含まれる公開を制限する単語のマスキング(指定した単語を他の文字列に置換する)方法および装置に関する。 The present invention relates to a method and an apparatus for masking a word (replace a designated word with another character string) for restricting disclosure contained in a document to be disclosed and word information (such as word information extracted from the document).
企業には、顧客からの問合せ履歴や社内文書など多くの文書データが蓄積されており、これらの文書データを有効に活用したいというニーズが高まっている。文書検索システムやテキストマイニングシステムなどの文書処理装置は、これらの文書データを有効に活用するための装置として挙げられる。しかし、固有名詞として挙げられる個人名や企業名といった、一部のユーザには公開を制限したい単語(以下、公開制限単語と呼ぶ)が文書データに含まれているため、文書データや、文書データから抽出した単語情報にアクセス可能なユーザは、管理者などの一部のユーザに限られていた。 Companies are accumulating a lot of document data such as inquiry histories from customers and in-house documents, and there is an increasing need to make effective use of these document data. Document processing apparatuses such as a document search system and a text mining system are examples of apparatuses for effectively utilizing these document data. However, document data and document data, such as personal names and company names that are listed as proper nouns, are included in the document data because some users want to restrict their disclosure (hereinafter referred to as “public restriction words”). Users who can access the word information extracted from are limited to some users such as administrators.
しかし、問題がない範囲で文書データを公開することは、文書データを有効に活用する上で非常に重要なことであり、セキュアーに文書データを閲覧できる仕組みが望まれていた。そこで、文書公開方法として、公開制限単語を他の文字列などに置換して公開する技術が登場した。例えば、特開平11−143871号公報(特許文献1)では、ユーザのプロファイルに応じて公開を制限する部分を特定し、その部分を黒塗りにして公開するという方法を用いている。また、特開2002−312362号公報(特許文献2)では、固有名詞をイニシャル文字列などに置換して公開するという方法を用いている。 However, it is very important to make document data available to the extent that there is no problem, and it is very important to effectively use the document data, and a mechanism that can securely browse the document data has been desired. Therefore, as a document publishing method, a technique for publishing by replacing the restricted word with another character string has appeared. For example, Japanese Patent Application Laid-Open No. 11-143871 (Patent Document 1) uses a method of specifying a part whose publication is restricted according to a user profile and painting the part black. Japanese Laid-Open Patent Publication No. 2002-312362 (Patent Document 2) uses a method in which proper nouns are replaced with initial character strings and published.
上記従来の技術は、公開制限単語を黒塗りでマスキング(指定部分を黒く塗りつぶす)した場合にはマスキング部分の単語の種別が分からず内容を把握しにくいという問題があった。例えば、「パソコンが故障したので斉藤さんをお願いしたい」という文に含まれる“斉藤さん”をマスキングすると、「パソコンが故障したので■をお願いしたい」となり、 “■”に相当する部分が、企業名、個人名、製品名、あるいは他の種別の単語なのか区別できず、内容把握が困難である。また、種別が分かる文字列やイニシャル文字列を用いたマスキングでは、マスキング文字列が示す部分の種別が確認できるため内容の把握が容易であるが、その反面、一部の文書でマスキング文字列が示す単語が特定されてしまうと他の文書に含まれる同じマスキング文字列が示す単語も特定されてしまうために問題がある。例えば、「佐藤さんが入院した」「佐藤さんが不親切だ」という文があった場合に、「[社員S]が入院した」「[社員S]が不親切だ」とマスキングすると、佐藤さんが入院していることを知っている人が文書を見ると“社員S”が“佐藤さん”であることが分かり、「[社員S]が不親切だ」の“社員S”は“佐藤さん”を示すと特定されてしまう。単に“[社員]”とマスキングすることも考えられるが、同じ文書に同じ種別のマスキング対象が複数ある場合には、各々のマスキング単語が同じ人を示しているのか異なる人を示しているのかが分からず内容を把握しにくいという問題がある。 The above conventional technique has a problem that when the restricted word is masked with black (the designated portion is blacked out), the type of the word in the masking portion is not known and the content is difficult to grasp. For example, if you mask “Mr. Saito” in the sentence “I want to ask Mr. Saito because my computer has broken down,” “I want to ask you ■ because my computer has failed.” The part corresponding to “■” Names, personal names, product names, or other types of words cannot be distinguished, making it difficult to grasp the contents. In addition, in masking using a character string or initial character string whose type is known, it is easy to grasp the content because the type of the part indicated by the masking character string can be confirmed, but on the other hand, the masking character string in some documents If the indicated word is specified, there is a problem because the word indicated by the same masking character string included in another document is also specified. For example, if there are sentences such as “Mr. Sato was admitted” or “Mr. Sato was unkind”, masking that “[Employee S] was admitted” or “[Employee S] was unkind” A person who knows that he is hospitalized sees “Employee S” as “Mr. Sato” when viewing the document, and “Employee S” of “[Employee S] is unkind” is “Mr. Sato” "" Is specified. It may be possible to simply mask “[employee]”, but if there are multiple masking targets of the same type in the same document, whether each masking word indicates the same person or a different person There is a problem that it is difficult to grasp the contents without understanding.
本発明の目的は、種別が分かるマスキング文字列を提供し、かつ一部の文書でマスキング文字列が示す単語が特定されても他の文書のマスキング文字列が示す単語は特定されず、かつ同じ文書に含まれる異なる単語は区別可能なマスキングをすることである。
本発明の他の目的は、文書から抽出した文書情報をセキュアーに公開することであり、公開制限単語を含む文書情報から文書を検索する仕組みを提供することである。
An object of the present invention is to provide a masking character string whose type is known, and even if a word indicated by the masking character string is specified in some documents, the word indicated by the masking character string of another document is not specified and is the same Different words contained in a document are masked so that they can be distinguished.
Another object of the present invention is to securely disclose document information extracted from a document, and to provide a mechanism for retrieving a document from document information including a disclosure restriction word.
上記目的を達成するための、本願で開示する発明の概要は以下の通りである。
本発明のセキュリティ機能付き文書処理装置は、文書および文書から抽出した単語情報(例えば、係り受けの関係にある単語ペアなど)に含まれる公開制限単語を特定し、その単語を種別と付加文字列から成るマスキング文字列に置換して公開する。ここで付加文字列はランダムに生成、あるいは決められた規則に基づいて生成する。文書の情報性を保つために、同じ文書内の異なる単語に対するマスキング文字列は互いに異なるという特徴および、同じ文書内の同じ単語に対するマスキング文字列は同じであるという特徴を設ける。また、情報のセキュリティのために、同じ単語のマスキング文字列は、すべての文書で共通であってはならないという特徴を設ける。また、単語情報指定の文書検索では、検索条件である単語情報に公開制限単語が含まれている場合は、公開制限単語以外の単語情報を構成する単語で検索、あるいは同じ種別の単語に拡張して検索するかどうかの画面を表示し、検索実行の要否を指定できる仕組みを提供する。
In order to achieve the above object, an outline of the invention disclosed in the present application is as follows.
The document processing apparatus with a security function according to the present invention specifies a public restriction word included in a document and word information extracted from the document (for example, a word pair having a dependency relationship), and identifies the word as a type and an additional character string. Replace with a masking string consisting of and publish. Here, the additional character string is generated randomly or based on a predetermined rule. In order to maintain the information property of documents, there are provided a feature that masking character strings for different words in the same document are different from each other and a masking character string for the same words in the same document are the same. For information security, a masking character string of the same word must be common to all documents. In addition, in a document search with word information specification, if the word information that is a search condition includes an open restriction word, the word information constituting the word information other than the open restriction word is searched or expanded to the same type of word. A screen that displays whether or not to search, and provides a mechanism that allows you to specify whether or not to perform the search.
本発明の文書処理装置は、同じ公開制限単語であっても異なる文書であれば異なる文字列でマスキングするため、一部の文書でマスキング文字列が示す単語が特定されても、他の文書のマスキング文字列が示す単語が特定されないという効果がある。また、同じ文書に含まれる異なる単語のマスキング文字列は異なるため、文書の情報性を損なうことがなく、内容を誤って把握することを防止できるという効果がある。
その他の効果として、単語情報に含まれる公開制限単語をマスキングしても、セキュアーかつ容易に、単語情報指定の文書検索が実現できる。
Since the document processing apparatus of the present invention masks a different character string if it is a different document even if it is the same open restriction word, even if the word indicated by the masking character string is specified in some documents, There is an effect that the word indicated by the masking character string is not specified. Further, since the masking character strings of different words included in the same document are different, there is an effect that it is possible to prevent the contents from being misunderstood without impairing the information property of the document.
As another effect, even if the restricted word contained in the word information is masked, a document search with word information designation can be realized securely and easily.
情報損失を最小限に抑え、かつ公開制限単語を含む文書をセキュアーに公開するという目的を、マスキング文字列の生成方法の改良により実現した。 The purpose of minimizing information loss and securely publishing documents containing restricted words is realized by improving the masking string generation method.
以下、本発明の第1の実施例を、図を用いて説明する。
図1は、本実施例の文書公開装置の構成図である。本装置は、中央処理装置CPU101と、主メモリ102と、表示装置103と、入力装置104と、記憶装置110と、で構成される。記憶装置110には、OS(オペレーティングシステム)111と、文書データ112と、公開制限単語データ113と、ユーザ情報データ114と、ユーザ認証プログラム115と、文書検索プログラム116と、公開文書生成プログラム117と、文書表示プログラム118と、が格納されている。
A first embodiment of the present invention will be described below with reference to the drawings.
FIG. 1 is a configuration diagram of a document disclosure apparatus according to the present embodiment. This apparatus includes a central
公開制限単語データ113には、公開制限を行う単語が登録される。公開制限単語のほか、各単語に対応して、公開制限を行うユーザのアクセスレベル、単語の種別などが併せて登録される。ユーザ情報データ114には、ユーザごとの認証情報やアクセスレベルが登録される。ユーザ認証プログラム115は、入力装置104からユーザIDおよびパスワードの入力を受け、該入力情報とユーザ情報データ114との照合によってユーザを特定し、ユーザのアクセスレベルを取得する。また、文書検索プログラム116は、入力装置104から単語の入力を受け、該単語が含まれる文書を、文書データ112から抽出する。また、公開文書生成プログラム117は、ユーザのアクセスレベルと公開制限単語データ113を用いて、公開する文書(以下、公開文書と呼ぶ)に含まれる公開制限単語を特定し、該公開制限単語をマスキングする文字列を生成し、該公開制限単語を該生成した文字列に置換した公開文書を生成する。また、文書表示プログラム118は、公開文書を表示装置103に表示させる。尚、上記プログラムは、主メモリ102に読み込まれ、CPU101が制御することにより実行される。
In the public
次に、本実施例の処理の流れを、図2のフローチャートを用いて説明する。まず、ユーザ認証プログラム115で、ユーザIDとパスワード、ICカード、生体認証などのユーザ認証手段を用いて、文書を閲覧しようとするユーザを特定し(S201)、ユーザのアクセスレベルを取得する。例えば、図3に示すテーブル(ユーザ情報データ114)でユーザ情報を管理するとすれば、ユーザID“1002”とパスワード“gfddf”が入力された場合には、ユーザID“1002”のユーザであると特定され、アクセスレベル2が取得される。尚、ユーザのアクセスレベルを取得できれば、これ以外の方式を用いても構わない。
Next, the processing flow of the present embodiment will be described with reference to the flowchart of FIG. First, the user authentication program 115 uses a user authentication means such as a user ID and a password, an IC card, and biometric authentication to identify a user who wants to view a document (S201), and obtains the access level of the user. For example, if user information is managed using the table (user information data 114) shown in FIG. 3, when the user ID “1002” and the password “gfddf” are input, the user is the user ID “1002”. The
次に、文書検索プログラム116において、文書に含まれる単語などの検索条件を指定し、検索条件に一致する文書を抽出し、公開文書を特定する(S202)。例えば、図4に示すテーブル(公開制限単語データ113)で文書を管理し、“ハードディスク”を検索条件とすると、“ハードディスク”が含まれる文書ID“10002”の文書が公開文書となる。尚、公開文書の特定方法は、文書IDの指定、文書データに付随する登録日時やカテゴリの指定、全文を指定など、公開文書が特定できるものであれば方式を問わない。また、公開文書は複数あっても構わない。次に、メモリやハードディスクなどの記憶装置から公開文書を読み出し(S203)、該公開文書に含まれる単語と、公開制限単語データを照合し、公開文書に含まれる公開制限単語を特定する(S205)。ここで、ユーザのアクセスレベル値が、公開制限単語に設定されているアクセスレベル値より小さい場合は公開制限単語とはしない。例えば、図5に示すテーブルで公開制限単語を管理し、公開文書を「山田さんが不親切だった」とすると、アクセスレベル2のユーザであった場合には、公開制限単語データに含まれる“山田さん”が、公開制限単語として特定される。同じ公開文書を、アクセスレベル1のユーザのために表示させる場合には、公開制限単語データに含まれる“山田さん”は、公開制限単語として特定されず、マスキングされずにそのまま表示される。尚、公開制限単語は同じ文中に複数あっても構わない。公開制限単語が同じ文中に複数ある場合は、それぞれにたいして公開制限を行う。
Next, the
次に、公開文書作成プログラム117で、公開文書に含まれる公開制限単語の種別を、図5に示すテーブルから取得し、該種別と、付加文字列で構成されるマスキング文字列を生成する(S206)。付加文字列は、ランダムに生成し、同じ公開制限単語であっても文書が異なる場合には異なる付加文字列となるように生成する。したがって、同じ公開制限単語であっても、文書が異なる場合には異なる付加文字列が生成される。例えば、 “山田さん”という公開制限単語の種別が“社員”であり、小数値を持つ乱数R(0≦R<1)を用いて生成した文字列が、
int(R×26)+1 = 2 … B (1はA、2はB、3はC…、26はZを示す)
である場合、種別“社員”と付加文字列“B”を組み合わせた“社員B”が、生成されるマスキング文字列となる。但し、生成したマスキング文字列が、すでに同じ文書に含まれる別の公開制限単語のマスキング文字列と同一の場合は、再度マスキング文字列を生成し、同じ文書内の異なる公開制限単語は、異なるマスキング文字列を生成する。したがって、マスキング文字列に置換しても、同じ文書内で異なる公開制限単語のマスキング文字列は区別できるという特徴がある。また、文書ごとにマスキング文字列を別途作成するようにすれば、複数の文書で同じマスキングが行われた箇所を比較すればマスキング前の単語が判明してしまうということを防ぐことができ、文書情報のセキュリティを向上させることができる。
Next, the public
int (R × 26) + 1 = 2 B (1 is A, 2 is B, 3 is C, and 26 is Z)
In this case, “Employee B”, which is a combination of the type “Employee” and the additional character string “B”, is the masking character string to be generated. However, if the generated masking character string is the same as the masking character string of another public restriction word already included in the same document, a masking character string is generated again, and different public restriction words in the same document are differently masked. Generate a string. Therefore, even if the masking character string is replaced, the masking character string of different open restriction words in the same document can be distinguished. In addition, if a masking character string is created separately for each document, it is possible to prevent the word before masking from being identified if the same masked part is compared in multiple documents. Information security can be improved.
また、付加文字列は、“001”、“AB”、“○”というように、文字列が区別できるものであれば、どのような文字列を用いても構わない。また、“山田さん”を文字の色が赤の“社員”、“佐藤さん”を文字の色が青の“社員”というように表示されるというように、文字列の代わりに色情報を用いても構わない。また、付加文字列は、ランダムに生成しなくとも、AからZまでのアルファベットを順に用いるなど、事前に決められた文字列集合から決められた順に文字列を抽出して利用する方法を用いても構わない。また、同じ文書内に同じ種別の公開制限単語を複数有する場合のみ種別を示す文字列と付加文字列をマスキング文字列とし、それ以外の場合には種別のみをマスキング文字列としても構わない。 As the additional character string, any character string may be used as long as the character string can be distinguished, such as “001”, “AB”, and “◯”. In addition, color information is used instead of character strings, such as “Yamada-san” is displayed as “employee” with red text color, “Sato-san” is displayed as “employee” with blue text color. It doesn't matter. In addition, the additional character string is not generated randomly, but the alphabet from A to Z is used in order, for example, by using a method of extracting and using character strings in a predetermined order from a predetermined character string set. It doesn't matter. In addition, the character string indicating the type and the additional character string may be used as a masking character string only when the same document has a plurality of open restriction words of the same type, and only the type may be used as the masking character string in other cases.
次に、文書表示プログラム118で、公開文書に含まれる公開制限単語を、生成したマスキング文字列に置換して公開文書を生成し(S207)、パソコンのディスプレイなどの表示装置に該公開文書を表示する(S208)。表示の際に、マスキング文字列の表示色を反転させる、四角で囲むなどの強調表示をし、これらの箇所がマスキング処理が行われた箇所であることを視認できるようにすれば、利便性が向上する。尚、すべての単語の閲覧権限を持つユーザは、上記S205〜S207のステップをスキップして文書を公開することが可能である(S204)。また、指定された文書を公開した後に、他の文書の公開要求を受けた場合は、S202〜S208のステップを実行する(S209)。
Next, the
上記実施例によれば、同じ公開制限単語であっても、異なる文書であれば異なるマスキング文字列が用いられるため、一部の文書でマスキング文字列が示す公開制限単語が特定されても、他の文書の閲覧には影響せず、文書のセキュリティを確保できるという効果がある。また、同じ文書に含まれる公開制限単語は、各々の公開制限単語が区別できるように異なるマスキング文字列を用いるため、文書の内容把握を誤ることを防止するという効果がある。 According to the above embodiment, different masking character strings are used for different documents even if they are the same open restriction word. This has the effect of ensuring document security without affecting the viewing of other documents. In addition, since the different restriction character strings included in the same document use different masking character strings so that each restriction word can be distinguished, there is an effect of preventing misunderstanding of the contents of the document.
本発明の第2の実施形態は、実施例1に記載の文書公開装置に加えて、複数の文書から抽出した単語情報などの文書情報を安全に公開できる文書処理装置を提供するものである。ここで単語情報とは、係り受けの関係にある単語ペアなど、少なくとも1つ以上の単語からなる単語の組とするが、文書データから単語の組が抽出できれば、方式は問わない。尚、単語情報は、文書データの内容の傾向を把握するために用いられ、例えば、“パソコン−故障する”という単語ペアの個数が多い場合には、文書データに、パソコンが故障したという内容が多いということが分かる。 The second embodiment of the present invention provides a document processing apparatus capable of safely publishing document information such as word information extracted from a plurality of documents in addition to the document publishing apparatus described in the first embodiment. Here, the word information is a set of words composed of at least one word such as a word pair having a dependency relationship, but any method may be used as long as the word set can be extracted from the document data. Note that the word information is used for grasping the tendency of the contents of the document data. For example, when the number of word pairs “PC-failure” is large, the document data indicates that the PC has failed. You can see that there are many.
図6は本実施例の文書処理装置の構成図である。本実施例は、本装置は、中央処理装置CPU601と、主メモリ602と、表示装置603と、入力装置604と、記憶装置610と、で構成される。記憶装置610には、OS(オペレーティングシステム)611と、文書データ612と、公開制限単語データ613と、ユーザ情報データ614と、ユーザ認証プログラム615と、文書検索プログラム616と、公開文書生成プログラム617と、文書表示プログラム618と、単語情報データ619と、単語情報データ生成プログラム620と、単語情報データ表示プログラム621と、が格納されている。尚、実施例1と異なる構成は、単語情報データ619と、単語情報データ生成プログラム620と、単語情報データ表示プログラム621を、本実施例に加えた点である。
FIG. 6 is a block diagram of the document processing apparatus of this embodiment. In the present embodiment, this apparatus includes a central processing unit CPU 601, a
単語情報データ619は、文書データから抽出した単語の組が格納され、該単語情報データ619は、単語情報データ生成プログラム620によって生成される。また、単語情報データ表示プログラム621は、単語情報データ619を表示装置603に表示し、表示された単語の組で検索要求を受けた場合は、文書検索プログラム616にて検索条件に一致する文書を特定し、文書を表示装置603に表示する。
The
次に、本実施例の処理の流れを図7のフローチャートを用いて説明する。まず、ハードディスクやメモリなどの記憶装置に記憶されている文書データを読み出し(S702)、形態素解析を用いて文書データを単語に分割し、単語と品詞情報を取得する(S703)。次に、単語と品詞情報を用いて、係り受けの関係にある単語のペアを取得し、その単語ペアの計数によって、単語情報を生成する(S704)。例えば、“パソコンが故障したので修理したい”という文書からは、“パソコン(名詞)、が(助詞)、故障(名詞)、し(動詞)、た(助動詞)、ので(助詞)、修理(名詞)、し(動詞)、たい(助動詞)”という単語が得られ、単語の品詞情報を用いて、“パソコン−故障”、“修理−する”という単語ペアが抽出され、単語ペアの計数によって図8に示すような単語情報データが得られる。尚、ここでは係り受けの関係にある単語ペアを用いたが、単語ペアでなくても指定した品詞の単語、ある条件で抽出された複数の単語の組など、文書の特徴を把握できるものであれば方式を問わない。尚、事前に単語情報が事前に生成されている場合は、上記S702〜S704のステップは不要である。 Next, the processing flow of the present embodiment will be described with reference to the flowchart of FIG. First, document data stored in a storage device such as a hard disk or a memory is read (S702), the document data is divided into words using morphological analysis, and word and part-of-speech information is acquired (S703). Next, using the word and part-of-speech information, a pair of words having a dependency relationship is acquired, and word information is generated by counting the number of word pairs (S704). For example, from the document “I want to repair my computer because it broke down”, “Computer (noun), ga (particle), breakdown (noun), shi (verb), ta (auxiliary verb), so (particle), repair (noun) ), Shi (verb), tai (auxiliary verb) "are obtained, and using the part of speech information of the word, word pairs" computer-failure "," repair-do "are extracted, and the number of word pairs is counted. Word information data as shown in FIG. Note that word pairs that have a dependency relationship are used here. However, even if they are not word pairs, it is possible to grasp the characteristics of a document such as a specified part-of-speech word or a set of words extracted under certain conditions. Any method is acceptable. Note that if the word information is generated in advance, the steps S702 to S704 are not necessary.
次に、ユーザ認証手段によってユーザのアクセスレベルを特定し(S705)、単語情報に含まれる公開制限単語を特定し、異なる単語ペアに含まれる同じ単語が同じマスキング文字列とならないように、種別とランダムに生成した付加文字列の組から成る該公開制限単語のマスキング文字列を生成し、公開する単語情報を該マスキング文字列でマスキングして公開する(S706)。尚、ユーザ認証と公開制限単語の特定方法は実施例1に記載の通りである。また、マスキング文字列は実施例1に記載のように、種別が分かれば文字列の代わりに色情報などを用いても構わない。また、付加文字列は、ランダムに生成しなくとも、AからZまでのアルファベットを順に用いるなど、事前に決められた文字列集合から決められた順に文字列を抽出して利用する方法を用いても構わない。 Next, the access level of the user is specified by the user authentication means (S705), the open restriction word included in the word information is specified, and the type and the masking character string are set so that the same word included in different word pairs does not become the same masking character string. A masking character string of the disclosure restricted word composed of a set of randomly generated additional character strings is generated, and the word information to be disclosed is masked and disclosed by the masking character string (S706). In addition, the user authentication and the method for specifying the public restriction word are as described in the first embodiment. In addition, as described in the first embodiment, the masking character string may use color information or the like instead of the character string if the type is known. In addition, the additional character string is not generated randomly, but the alphabet from A to Z is used in order, for example, by using a method of extracting and using character strings in a predetermined order from a predetermined character string set. It doesn't matter.
次に、頻度上位N位の単語ペアといった指定された条件に基づき表示する単語情報を絞り込み、図9の例のようにディスプレイなどの表示装置に該単語情報を表示する(S707)。
次に、ユーザから単語ペアで文書検索の要求を受け、該単語ペアが含まれる文書を文書データから抽出し、表示装置に該文書を表示する(S709)。ここで、公開制限単語を含む単語ペアが指定された場合には、図10に示す画面を表示装置に表示し、公開制限単語が含まれているため検索できない旨を表示し、単語ペアに含まれる公開制限単語以外の単語で検索するかどうかの確認画面を表示し、ユーザに検索実行の有無を確認させる。例えば、“[社員A]−不親切”という単語ペアがあり、この単語ペアで検索要求を受けた場合には、“[社員A]”が公開制限単語であるため“不親切”という単語で検索するかどうかの確認画面を表示し、“はい”が選択された場合は“不親切”という単語が含まれている文書を検索し、“いいえ”が選択された場合は検索を実行しない。したがって、公開制限単語を含む単語ペアであっても、簡単な操作で問題ない単語を検索条件として検索できる。また、文書の検索要求がない場合は、ステップS709をスキップする。
Next, the word information to be displayed is narrowed down based on designated conditions such as the word pair with the highest frequency N rank, and the word information is displayed on a display device such as a display as in the example of FIG. 9 (S707).
Next, a document search request is received from the user with a word pair, a document including the word pair is extracted from the document data, and the document is displayed on the display device (S709). Here, when a word pair including a public restriction word is specified, the screen shown in FIG. 10 is displayed on the display device, indicating that the search cannot be performed because the public restriction word is included, and is included in the word pair. A confirmation screen asking whether or not to search with a word other than the restricted word to be displayed is displayed to allow the user to confirm whether or not the search is executed. For example, if there is a word pair “[Employee A] -Unfriendly” and a search request is received with this word pair, the word “[Employee A]” is a public restriction word, so the word “Unfriendly” A confirmation screen for whether to search is displayed. When “Yes” is selected, a document including the word “unfriendly” is searched, and when “No” is selected, the search is not executed. Therefore, even for a word pair including a public restriction word, it is possible to search for a word having no problem with a simple operation as a search condition. If there is no document search request, step S709 is skipped.
上記実施例によれば、単語ペアなどの単語情報に含まれるマスキング文字列が示す単語が特定されても、他の単語ペアに含まれる同じ公開制限単語は異なるマスキング文字列が使われているため、他の単語ペアには影響しないという効果がある。また、公開制限単語を含む単語ペアでの検索を制限することによって、本文閲覧によるマスキング文字列でマスキングされた公開制限単語の特定を防止できるという効果がある。その他、マスキング文字列を含む単語ペアの検索を容易にするという効果がある。 According to the above embodiment, even if a word indicated by a masking character string included in word information such as a word pair is specified, a different masking character string is used for the same public restriction word included in another word pair. This has the effect of not affecting other word pairs. In addition, by restricting the search with word pairs including the restriction word, it is possible to prevent the restriction of the restriction word masked with the masking character string by browsing the text. In addition, there is an effect of facilitating the search for word pairs including masking character strings.
次に、本発明の第3の実施例を、図を用いて説明する。
本実施例は、実施例2に記載の文書処理装置において、公開制限単語を含む単語ペアは、アクセス権に応じて公開制限単語を種別が共通の単語に展開して本文を検索できる文書処理装置を提供するものであって、公開制限単語テーブルを、公開制限単語と、公開制限単語のアクセスレベルと、公開制限単語の種別と、上位概念と、上位概念のアクセスレベルから成る、図11に示すテーブルのように拡張する。図11の例では、各々の公開制限単語に1つの上位概念を設定しているが、アクセスレベルに応じて上位概念を複数用意したい場合は、テーブルを更に拡張し、1つの公開制限単語に対して複数の上位概念を設定しても構わない。
Next, a third embodiment of the present invention will be described with reference to the drawings.
The present embodiment is a document processing apparatus according to the second embodiment, in which a word pair including a public restriction word can be searched for a text by expanding the public restriction word into a common word according to the access right. FIG. 11 shows a public restriction word table including a public restriction word, a public restriction word access level, a public restriction word type, a superordinate concept, and a superordinate concept access level. Extend like a table. In the example of FIG. 11, one superordinate concept is set for each public restriction word. However, when a plurality of superordinate concepts are prepared according to the access level, the table is further expanded to correspond to one public restriction word. A plurality of superordinate concepts may be set.
次に、本実施例の処理の流れを説明する。本実施例は、実施例2に記載の単語情報表示画面にて、単語ペアで検索要求を受け、該単語ペアに公開制限単語が含まれている場合は、公開制限単語データベースを参照し、上位概念のアクセスレベルを参照し、上位概念での検索可否を決定する。検索が可能な場合には、上位概念であれば検索できる旨を図12に示す画面で表示し、検索するかどうかの確認を求めて、公開制限単語データベースから、同じ上位概念を持つ公開制限単語を抽出し、その単語すべてと、文書情報に含まれる公開制限単語以外の単語で文書を検索する。 Next, the process flow of the present embodiment will be described. In the present embodiment, in the word information display screen described in the second embodiment, when a search request is received by a word pair and the word pair includes a public restriction word, the public restriction word database is referred to Referencing the concept access level, and determining whether or not the search is possible in the superordinate concept. If a search is possible, the fact that a high-level concept can be searched is displayed on the screen shown in FIG. 12, and a confirmation as to whether or not to search is requested. And the document is searched with all of the words and words other than the open restriction word included in the document information.
例えば、「山田さん−不親切」という単語ペアが「[社員A]−不親切」とマスキングされていて、アクセス権限2を持つユーザが、この単語ペアで検索要求を出した場合には、上位概念は“部署A社員”でアクセス権限2のユーザが閲覧可能であるため、公開制限単語データベースから、同じ上位概念“部署A社員”を持つ“佐藤さん”を抽出し、“(山田さん or 佐藤さん) and 不親切”を検索キーとして文書を検索する。検索された文書に含まれる、これらの公開制限単語は、実施例1に記載の文書公開装置のように、同じ単語であっても文書が異なる場合には異なるマスキング文字列が用いられているため、検索された文書各々のマスキング文字列が示す単語が特定されることはない。
For example, if the word pair “Yamada-san-unkind” is masked as “[Employee A] -unkind” and a user with
本実施例によれば、公開制限単語が含まれる単語ペアであっても、アクセス権限に応じて上位概念に属する単語に展開して検索することができるので、公開制限単語を含む単語ペアを用いた検索をセキュアーに、かつ公開制限単語を用いた場合と近い検索結果を得ることができるという効果がある。 According to the present embodiment, even a word pair including a public restriction word can be expanded and searched for a word belonging to a higher concept according to the access authority. Therefore, the word pair including the public restriction word is used. It is possible to obtain a search result that is close to the case where the search that was made is secure and the public restriction word is used.
同じ単語を異なる文字列でマスキングし、一部の情報からマスキング文字列が示す単語が特定されても影響が少ない本方式は、一部の単語を伏せて情報を公開するという文書処理装置全般に適用できる。 This method masks the same word with different character strings and has little effect even if the word indicated by the masking character string is specified from some information. Applicable.
101:CPU、102:主メモリ、103:表示装置、104:入力装置、110:記憶装置、111:OS、112:文書データ、113:公開制限単語データ、114:ユーザ情報データ、115:ユーザ認証プログラム、116:文書検索プログラム、117:公開文書生成プログラム、118:文書表示プログラム。 101: CPU, 102: main memory, 103: display device, 104: input device, 110: storage device, 111: OS, 112: document data, 113: disclosure restricted word data, 114: user information data, 115: user authentication Program: 116: Document search program, 117: Public document generation program, 118: Document display program.
Claims (9)
公開文書に含まれる公開制限単語を該アクセス権限に基づき特定するステップと、
該公開制限単語の種別を示す文字列と、ランダムあるいは決められた順に生成される文字列の組から成るマスキング文字列を生成するステップと、
該公開文書に含まれる該公開制限単語を、該マスキング文字列に置き換えて表示するステップと、を有することを特徴とする文書公開方法。 Obtaining user access rights;
Identifying a restriction word for public disclosure included in the public document based on the access authority;
Generating a masking character string composed of a character string indicating the type of the restricted word and a character string generated randomly or in a predetermined order;
A document publishing method comprising the step of displaying the restricted word contained in the published document by replacing it with the masking character string.
上記演算部は、上記公開制限単語データを用いて上記記憶装置に格納された公開文書に含まれる公開制限単語を特定し、該公開制限単語の種別を示す文字列と該種別内の単語を区別するための文字列とを組み合わせたマスキング文字列を生成し、上記公開文書に含まれる上記公開制限単語を上記マスキング文字列に置き換える置き換え処理を行い、
上記表示装置は、該置き換え処理を行った公開文書を表示することを特徴とする文書公開装置。 A document publishing device having a storage device for storing a public document and publishing restricted word data, a calculation unit, and a display device,
The calculation unit specifies a public restriction word included in a public document stored in the storage device using the public restriction word data, and distinguishes a character string indicating the type of the public restriction word from a word in the type. Generating a masking character string that is combined with the character string to be used, and performing a replacement process of replacing the public restriction word included in the public document with the masking character string,
The display device displays a public document subjected to the replacement processing.
上記記憶装置から上記公開文書を読み出すステップと、
上記公開制限単語データを用いて上記読み出した公開文書に含まれる公開制限単語を特定するステップと、
該公開制限単語の種別を示す文字列と該種別内の単語を区別するための文字列とを組み合わせたマスキング文字列を生成するステップと、
上記公開文書に含まれる上記公開制限単語を上記マスキング文字列に置き換えるステップとを実行させ、
上記表示装置に上記置き換えを行った公開文書を表示させることを特徴とする文書公開プログラム。 In a computing unit of a document publishing apparatus having a storage device for storing a public document and publication restricted word data, a computing unit, and a display device,
Reading the published document from the storage device;
Identifying a public restriction word included in the read public document using the public restriction word data;
Generating a masking character string that combines a character string indicating the type of the restricted word and a character string for distinguishing words in the type;
Performing the step of substituting the masking character string with the public restriction word included in the public document,
A document publishing program that causes the display device to display the replaced public document.
該分割された単語から、1つ以上の単語の組を抽出し、該抽出した単語の組を計数し、単語情報を生成するステップと、
該単語の組を構成する単語に含まれる公開制限単語を特定するステップと、
該公開制限単語の種別を示す文字列と、ランダムあるいは決められた順に生成される文字列の組から成るマスキング文字列を生成するステップと、
該単語情報に含まれる該公開制限単語を該マスキング文字列に置き換えて表示するステップと、を有することを特徴とする文書処理方法。 Dividing document data into morphemes and dividing them into words;
Extracting one or more word sets from the divided words, counting the extracted word sets, and generating word information;
Identifying a public restriction word included in the words constituting the word set;
Generating a masking character string composed of a character string indicating the type of the restricted word and a character string generated randomly or in a predetermined order;
And a step of displaying the restricted word contained in the word information by replacing it with the masking character string.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004017780A JP4281561B2 (en) | 2004-01-27 | 2004-01-27 | Document publication method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004017780A JP4281561B2 (en) | 2004-01-27 | 2004-01-27 | Document publication method |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005215717A true JP2005215717A (en) | 2005-08-11 |
JP2005215717A5 JP2005215717A5 (en) | 2006-10-12 |
JP4281561B2 JP4281561B2 (en) | 2009-06-17 |
Family
ID=34902469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004017780A Expired - Fee Related JP4281561B2 (en) | 2004-01-27 | 2004-01-27 | Document publication method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4281561B2 (en) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007065778A (en) * | 2005-08-29 | 2007-03-15 | Hitachi Software Eng Co Ltd | Document management system |
JP2008217652A (en) * | 2007-03-07 | 2008-09-18 | Toshiba Corp | Data management system, data management server, and data management program |
JP2009020646A (en) * | 2007-07-11 | 2009-01-29 | Hitachi Ltd | Character string anonymity setting device, character string anonymity setting method and character string anonymity setting program |
WO2009041366A1 (en) * | 2007-09-28 | 2009-04-02 | Dai Nippon Printing Co., Ltd. | Search mediation system |
JP2009093325A (en) * | 2007-10-05 | 2009-04-30 | Fuji Xerox Co Ltd | Information editing device and program |
JP2009116555A (en) * | 2007-11-06 | 2009-05-28 | Hitachi Systems & Services Ltd | Document management method, document management device, program, and recording medium |
KR100925985B1 (en) | 2007-11-30 | 2009-11-10 | 주식회사 케이티 | User interface security apparatus and method |
JP2011008394A (en) * | 2009-06-24 | 2011-01-13 | Fuji Xerox Co Ltd | Document information generation apparatus, document registration system and program |
JP2013097479A (en) * | 2011-10-31 | 2013-05-20 | Mitsubishi Space Software Kk | Document concealment system, document concealment device, document concealment program and document concealment method |
JP2019120780A (en) * | 2018-01-04 | 2019-07-22 | 富士通株式会社 | File generation program, file generation method, and file generation device |
JP2020021505A (en) * | 2019-10-09 | 2020-02-06 | 株式会社ニコン | Information processing device |
JP7388997B2 (en) | 2020-09-07 | 2023-11-29 | 株式会社日立製作所 | Audio information processing system and audio information processing method |
-
2004
- 2004-01-27 JP JP2004017780A patent/JP4281561B2/en not_active Expired - Fee Related
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4647438B2 (en) * | 2005-08-29 | 2011-03-09 | 株式会社日立ソリューションズ | Document management system |
JP2007065778A (en) * | 2005-08-29 | 2007-03-15 | Hitachi Software Eng Co Ltd | Document management system |
JP2008217652A (en) * | 2007-03-07 | 2008-09-18 | Toshiba Corp | Data management system, data management server, and data management program |
JP2009020646A (en) * | 2007-07-11 | 2009-01-29 | Hitachi Ltd | Character string anonymity setting device, character string anonymity setting method and character string anonymity setting program |
WO2009041366A1 (en) * | 2007-09-28 | 2009-04-02 | Dai Nippon Printing Co., Ltd. | Search mediation system |
JP2009093325A (en) * | 2007-10-05 | 2009-04-30 | Fuji Xerox Co Ltd | Information editing device and program |
JP2009116555A (en) * | 2007-11-06 | 2009-05-28 | Hitachi Systems & Services Ltd | Document management method, document management device, program, and recording medium |
KR100925985B1 (en) | 2007-11-30 | 2009-11-10 | 주식회사 케이티 | User interface security apparatus and method |
JP2011008394A (en) * | 2009-06-24 | 2011-01-13 | Fuji Xerox Co Ltd | Document information generation apparatus, document registration system and program |
JP2013097479A (en) * | 2011-10-31 | 2013-05-20 | Mitsubishi Space Software Kk | Document concealment system, document concealment device, document concealment program and document concealment method |
JP2019120780A (en) * | 2018-01-04 | 2019-07-22 | 富士通株式会社 | File generation program, file generation method, and file generation device |
JP2020021505A (en) * | 2019-10-09 | 2020-02-06 | 株式会社ニコン | Information processing device |
JP7388997B2 (en) | 2020-09-07 | 2023-11-29 | 株式会社日立製作所 | Audio information processing system and audio information processing method |
Also Published As
Publication number | Publication date |
---|---|
JP4281561B2 (en) | 2009-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9904798B2 (en) | Focused personal identifying information redaction | |
EP1314089B1 (en) | Method for searching a digital rights management package | |
JP4625334B2 (en) | Information processing apparatus, information processing method, information processing program, recording medium, and resource management apparatus | |
US8649552B2 (en) | Data obfuscation of text data using entity detection and replacement | |
US9262104B2 (en) | Information processing apparatus, image processing apparatus, and information processing system | |
JP2005259015A (en) | Document disclosure device and system, program, and storage medium | |
US11281737B2 (en) | Unbiasing search results | |
JP4281561B2 (en) | Document publication method | |
JP2009271573A (en) | Information processing system, information processor, information processing method, and program | |
JP7009802B2 (en) | Document management equipment, document management systems and programs | |
JP2014013474A (en) | Log audit system | |
JP6781373B2 (en) | Search program, search method, and search device | |
JP2006293671A (en) | Information processor, file management system and file management program | |
JP2011081642A (en) | Retrieval server, information retrieval method, program and storage medium | |
JP6583899B1 (en) | Computer, data element presentation method, and program. | |
JP6926749B2 (en) | Document management equipment, document management system and programs | |
US20180300473A1 (en) | Making Unique Passwords from the Same String of Characters, Including Any String of Characters in a Web Address | |
JP2007128387A (en) | Electronic circulation system | |
JP2012043258A (en) | Retrieval system, retrieval device, retrieval program, recording medium and retrieval method | |
JP2007299093A (en) | Document management system | |
JP7265199B2 (en) | Support device, support method, program, and support system | |
US20230053670A1 (en) | Information processing device, information processing method, and non-transitory computer readable medium | |
JP3823168B1 (en) | Management server and management program | |
JP2007257596A (en) | Sentence converter | |
JP5194928B2 (en) | Storage device and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060424 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060830 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080219 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080708 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081125 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090224 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090309 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120327 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120327 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130327 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130327 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |