JP7301938B2 - Document creation system, document creation method and document creation program - Google Patents
Document creation system, document creation method and document creation program Download PDFInfo
- Publication number
- JP7301938B2 JP7301938B2 JP2021197574A JP2021197574A JP7301938B2 JP 7301938 B2 JP7301938 B2 JP 7301938B2 JP 2021197574 A JP2021197574 A JP 2021197574A JP 2021197574 A JP2021197574 A JP 2021197574A JP 7301938 B2 JP7301938 B2 JP 7301938B2
- Authority
- JP
- Japan
- Prior art keywords
- noun
- whitelist
- control unit
- speech
- document creation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 50
- 230000000873 masking effect Effects 0.000 claims description 39
- 239000000470 constituent Substances 0.000 claims description 22
- 230000000877 morphologic effect Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 70
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000007717 exclusion Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本開示は、所定語をマスキングした文書を作成する文書作成システム、文書作成方法及び文書作成プログラムに関する。 The present disclosure relates to a document creation system, a document creation method, and a document creation program for creating a document in which predetermined words are masked.
個人情報の保護等のため、文書に含まれる単語のマスキングを行なう場合がある。そこで、文書中から検出した固有名詞部分の確認と修正とを行なうための技術が検討されている(例えば、特許文献1を参照。)。この特許文献に記載された文書処理方法では、マスキングすべき文字列またはその一部を記憶する単語辞書を基に、入力した文書からマスキング対象箇所を検出し、この検出されたマスキング対象箇所をマスキング結果リストに記憶する。表示されたマスキング対象箇所のいずれかがユーザにより修正されると、マスキング結果リストに記憶されたマスキング対象箇所を、ユーザにより修正されたマスキング対象箇所に書き換える。 In order to protect personal information, etc., words contained in documents may be masked. Therefore, techniques for confirming and correcting proper noun parts detected from a document have been studied (see, for example, Japanese Patent Application Laid-Open No. 2002-200013). In the document processing method described in this patent document, a portion to be masked is detected from an input document based on a word dictionary that stores a character string or part thereof to be masked, and the detected masking target portion is masked. Store in result list. When any of the displayed masking target portions is corrected by the user, the masking target portions stored in the masking result list are rewritten with the masking target portions corrected by the user.
また、プライバシ情報を保護するための技術が検討されている(例えば、特許文献2を参照。)。この特許文献に記載された技術では、提示情報は、クライアントから取得したコンテンツに対して、プライバシ情報に該当しうる候補単語等を、ユーザにより予め設定された、秘匿する単語、または単語の組合せと、公開する単語、または単語の組合せから決定する。 Also, techniques for protecting privacy information are being studied (see, for example, Patent Document 2). In the technique described in this patent document, the presentation information consists of candidate words or the like that may correspond to privacy information for content acquired from a client, as confidential words or combinations of words set in advance by the user. , the word to publish, or a combination of words.
しかしながら、単に、マスク対象単語を予めリストアップしたリストを用いてマスキングを行なっていたのでは、個人情報や特定情報の漏えい等を的確に抑制することができない。例えば、同じ単語であっても、普通名詞として使用される場合や固有名詞として使用される場合がある。この場合、単語だけでは個人情報か否かの区別が難しい。また、問題がない単語を予めリストアップしたリストを用いてマスキングを行なった場合、リストアップ数によっては、表示可能な単語が少なくなる可能性がある。 However, simply performing masking using a list of words to be masked in advance cannot accurately prevent leakage of personal information or specific information. For example, the same word may be used as a common noun or as a proper noun. In this case, it is difficult to distinguish whether the information is personal information or not based only on words. In addition, when masking is performed using a list in which no problem words are listed in advance, the number of words that can be displayed may decrease depending on the number of listed words.
上記課題を解決する文書作成システムは、ユーザ端末に接続された制御部を備える。そして、前記制御部が、前記ユーザ端末から取得した文章の形態素分析を行なって、構成単語を特定し、前記構成単語が第1種類の品詞の場合には、第1方法で作成した第1ホワイトリストと突合し、前記構成単語が第2種類の品詞の場合には、第2方法で作成した第2ホワイトリストと突合し、前記第1ホワイトリスト及び前記第2ホワイトリストに含まれない前記構成単語をマスキングして、前記ユーザ端末に出力する。 A document creation system that solves the above problems includes a control unit connected to a user terminal. Then, the control unit performs a morphological analysis of the sentence acquired from the user terminal to identify constituent words, and if the constituent words are a first type of part of speech, a first white sentence created by a first method is selected. If the component word is a second type of part of speech, it is matched with a second whitelist created by a second method, and the component words not included in the first whitelist and the second whitelist are matched. After masking, output to the user terminal.
本開示によれば、所定語をマスキングした的確な文書を作成することができる。 According to the present disclosure, it is possible to create an accurate document in which predetermined words are masked.
図1~図6に従って、文書作成システム、文書作成方法及び文書作成プログラムを具体化した一実施形態を説明する。本実施形態では、文章に含まれる所定の単語(所定語)のマスキングを行なう場合を想定する。
図1に示すように、本実施形態の文書作成システムは、ネットワークを介して、相互に接続されたユーザ端末10、支援サーバ20、辞書サーバ30を用いる。
An embodiment of a document creation system, a document creation method, and a document creation program will be described with reference to FIGS. 1 to 6. FIG. In this embodiment, it is assumed that a predetermined word (predetermined word) included in a sentence is masked.
As shown in FIG. 1, the document creation system of this embodiment uses a
(ハードウェア構成例)
図2は、ユーザ端末10、支援サーバ20、辞書サーバ30等として機能する情報処理装置H10のハードウェア構成例である。
(Hardware configuration example)
FIG. 2 is a hardware configuration example of the information processing device H10 that functions as the
情報処理装置H10は、通信装置H11、入力装置H12、表示装置H13、記憶装置H14、プロセッサH15を有する。なお、このハードウェア構成は一例であり、他のハードウェアを有していてもよい。 The information processing device H10 has a communication device H11, an input device H12, a display device H13, a storage device H14, and a processor H15. Note that this hardware configuration is an example, and other hardware may be included.
通信装置H11は、他の装置との間で通信経路を確立して、データの送受信を実行するインタフェースであり、例えばネットワークインタフェースや無線インタフェース等である。 The communication device H11 is an interface that establishes a communication path with another device and executes data transmission/reception, such as a network interface or a wireless interface.
入力装置H12は、利用者等からの入力を受け付ける装置であり、例えばマウスやキーボード等である。表示装置H13は、各種情報を表示するディスプレイやタッチパネル等である。 The input device H12 is a device that receives input from a user or the like, such as a mouse or a keyboard. The display device H13 is a display, a touch panel, or the like that displays various information.
記憶装置H14は、ユーザ端末10、支援サーバ20、辞書サーバ30の各種機能を実行するためのデータや各種プログラムを格納する記憶装置である。記憶装置H14の一例としては、ROM、RAM、ハードディスク等がある。
The storage device H14 is a storage device that stores data and various programs for executing various functions of the
プロセッサH15は、記憶装置H14に記憶されるプログラムやデータを用いて、ユーザ端末10、支援サーバ20における各処理(例えば、後述する制御部21における処理)を制御する。プロセッサH15の一例としては、例えばCPUやMPU等がある。このプロセッサH15は、ROM等に記憶されるプログラムをRAMに展開して、各種処理に対応する各種プロセスを実行する。例えば、プロセッサH15は、ユーザ端末10、支援サーバ20のアプリケーションプログラムが起動された場合、後述する各処理を実行するプロセスを動作させる。
The processor H15 uses programs and data stored in the storage device H14 to control each process in the
プロセッサH15は、自身が実行するすべての処理についてソフトウェア処理を行なうものに限られない。例えば、プロセッサH15は、自身が実行する処理の少なくとも一部についてハードウェア処理を行なう専用のハードウェア回路(例えば、特定用途向け集積回路:ASIC)を備えてもよい。すなわち、プロセッサH15は、以下で構成し得る。 Processor H15 is not limited to performing software processing for all the processing that it itself executes. For example, the processor H15 may include a dedicated hardware circuit (for example, an application specific integrated circuit: ASIC) that performs hardware processing for at least part of the processing performed by the processor H15. That is, the processor H15 can be configured as follows.
(1)コンピュータプログラム(ソフトウェア)に従って動作する1つ以上のプロセッサ
(2)各種処理のうち少なくとも一部の処理を実行する1つ以上の専用のハードウェア回路、或いは
(3)それらの組み合わせ、を含む回路(circuitry)
プロセッサは、CPU並びに、RAM及びROM等のメモリを含み、メモリは、処理をCPUに実行させるように構成されたプログラムコード又は指令を格納している。メモリすなわちコンピュータ可読媒体は、汎用又は専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。
(1) one or more processors that operate according to a computer program (software); (2) one or more dedicated hardware circuits that perform at least some of the various types of processing; or (3) a combination thereof. circuit containing
A processor includes a CPU and memory, such as RAM and ROM, which stores program code or instructions configured to cause the CPU to perform processes. Memory or computer-readable media includes any available media that can be accessed by a general purpose or special purpose computer.
(ユーザ端末10、支援サーバ20及び辞書サーバ30の機能)
図1を用いて、ユーザ端末10、支援サーバ20、辞書サーバ30の機能を説明する。
ユーザ端末10は、本システムを利用するユーザが用いるコンピュータ端末である。
(Functions of
Functions of the
A
支援サーバ20は、文章のマスキングを行なうコンピュータシステムである。この支援サーバ20は、制御部21、教師情報記憶部22、辞書記憶部23を備えている。
制御部21は、後述する処理(取得段階、リスト作成段階、マスク処理段階等を含む処理)を行なう。このための文書作成プログラムを実行することにより、制御部21は、取得部210、リスト作成部211、マスク処理部212等として機能する。
The
The
取得部210は、ユーザ端末10から教師情報や、マスキングを行なう公開候補文を取得する処理を実行する。
リスト作成部211は、マスキングの要否を判定するための名詞のホワイトリスト(第1ホワイトリスト)を生成する処理を実行する。このリスト作成部211は、表現率について、第1ホワイトリストに含める名詞を判定するための基準値に関するデータを保持する。ここで、表現率とは、文を構成する全文字数に対して、マスキングされていない文字数の割合である。
マスク処理部212は、公開対象の候補文において、必要に応じてマスキングを行なった公開文を作成する処理を実行する。
The
The
The
教師情報記憶部22には、名詞辞書作成処理に用いる教師情報が記録される。教師情報には、公開対象候補となる公開候補文に関するデータが記録される。この公開候補文では、単語のマスキングは行なわれていない。
In the teacher
辞書記憶部23には、公開文において利用可能な単語をリストアップした第1ホワイトリストが記録される。第1ホワイトリストは、第1種類の品詞である名詞について、第1方法である名詞辞書作成処理の実行時に記録される。
The
辞書サーバ30は、単語に関して品詞に関する辞書を保持するコンピュータシステムである。辞書サーバ30としては、例えば、国立国語研究所が提供するUniDic辞書を用いることができる。この辞書サーバ30のUniDic辞書は、単語の短単位で辞書を行なう。ここで、短単位は、言語の形態論的側面に着目し、最小単位を基に斉一性を重視して規定された言語単位(単位語)である。この辞書サーバ30は、第2種類の品詞である「名詞以外の品詞」の単語について、第2方法である一般辞書を用いて個人情報や特定情報に関わらない単語についての第2ホワイトリストを保持する。本実施形態では、第2種類の品詞は、少なくとも、助詞、動詞、助動詞、副詞、形容詞の何れか一つを含む。
The
(名詞辞書作成処理)
次に、図3を用いて、名詞辞書作成処理を説明する。
ここでは、支援サーバ20の制御部21は、教師情報の取得処理を実行する(ステップS11)。具体的には、制御部21の取得部210は、ユーザ端末10から、教師文を取得して、教師情報記憶部22に記録する。次に、取得部210は、教師文を形態素分析により、品詞に分けて、教師文に含まれるすべての名詞群(品詞群)を抽出する。更に、取得部210は、教師文に含まれる全文字数を算出する。
(Noun dictionary creation processing)
Next, the noun dictionary creation process will be described with reference to FIG.
Here, the
次に、支援サーバ20の制御部21は、名詞の出現個数の算出処理を実行する(ステップS12)。具体的には、制御部21のリスト作成部211は、教師文から抽出したすべての名詞の名詞総数を算出する。次に、リスト作成部211は、教師文から抽出した名詞毎に、同じ名詞の出現個数を算出する。
Next, the
次に、支援サーバ20の制御部21は、固有名詞の除外処理を実行する(ステップS13)。具体的には、制御部21のリスト作成部211は、教師文から抽出した各名詞について、辞書サーバ30から名詞種類(普通名詞、固有名詞、数詞、形式名詞、代名詞)を取得する。そして、リスト作成部211は、教師文から抽出した名詞群から、固有名詞を除外して、使用可能な単語候補(名詞候補)を特定する。
Next, the
次に、支援サーバ20の制御部21は、出現個数が多い順番に名詞の特定処理を実行する(ステップS14)。具体的には、制御部21のリスト作成部211は、固有名詞を除外した名詞群において、出現個数が多く、出現頻度が高い名詞を特定する。
Next, the
次に、支援サーバ20の制御部21は、名詞辞書への登録処理を実行する(ステップS15)。具体的には、制御部21のリスト作成部211は、特定した名詞を、辞書記憶部23の第1ホワイトリストに登録する。
Next, the
次に、支援サーバ20の制御部21は、表現率の算出処理を実行する(ステップS16)。具体的には、制御部21のリスト作成部211は、この時点で第1ホワイトリストに登録されている各名詞の文字数に出現個数を乗算することにより、出現文字数を算出する。また、リスト作成部211は、出現文字数の総和を全文字数で除算することにより、表現率を算出する。
Next, the
ここで、図4に示すように、第1ホワイトリストに登録された名詞が多くなる場合、マスキングされる単語が少なくなる。その結果、表現率が高くなる。ただし、第1ホワイトリストに登録された名詞が多くなると、表現率の増加割合は小さくなる。 Here, as shown in FIG. 4, when the number of nouns registered in the first whitelist increases, the number of words to be masked decreases. As a result, the expressiveness increases. However, as the number of nouns registered in the first white list increases, the rate of increase in the expression rate decreases.
次に、支援サーバ20の制御部21は、表現率が基準値より高いかどうかについての判定処理を実行する(ステップS17)。具体的には、制御部21のリスト作成部211は、算出した表現率と基準値とを比較する。表現率の増加割合が小さくなる領域に、基準値を設定することにより、第1ホワイトリストに登録された名詞数の増加を抑制できる。これにより、第1ホワイトリストに登録された名詞のメンテナンスを容易にしている。
Next, the
表現率が基準値以下と判定した場合(ステップS17において「NO」の場合)、支援サーバ20の制御部21は、出現個数が多い順に名詞の特定処理(ステップS14)以降の処理を繰り返す。
一方、表現率が基準値よりも高いと判定した場合(ステップS17において「YES」の場合)、支援サーバ20の制御部21は、名詞辞書作成処理を終了する。
If it is determined that the expression rate is equal to or less than the reference value ("NO" in step S17), the
On the other hand, when determining that the expression rate is higher than the reference value ("YES" in step S17), the
(マスキング処理)
次に、図5及び図6を用いて、マスキング処理を説明する。この処理は、ユーザ端末10から、新たに公開候補文を取得した場合に実行される。
(masking process)
Next, masking processing will be described with reference to FIGS. 5 and 6. FIG. This process is executed when a new disclosure candidate sentence is acquired from the
まず、図5に示すように、支援サーバ20の制御部21は、単語の分割処理を実行する(ステップS21)。具体的には、制御部21の取得部210は、公開候補文の形態素分析により、文の構成単語(短単位)に分割する。
First, as shown in FIG. 5, the
次に、支援サーバ20の制御部21は、文を構成する各単語を、順次、処理対象単語として特定し、以下の処理を繰り返す。
まず、支援サーバ20の制御部21は、名詞かどうかについての判定処理を実行する(ステップS22)。具体的には、制御部21のマスク処理部212は、辞書サーバ30から、各単語の品詞を取得する。そして、マスク処理部212は、処理対象単語の品詞が名詞かどうかを判定する。
Next, the
First, the
処理対象単語が名詞と判定した場合(ステップS22において「YES」の場合)、支援サーバ20の制御部21は、マスキング処理を実行する(ステップS23)。具体的には、制御部21のマスク処理部212は、公開候補文中の処理対象単語のマスキングを行なう。
If the processing target word is determined to be a noun ("YES" in step S22), the
処理対象単語が助詞、動詞、助動詞、副詞、形容詞等であり、名詞でないと判定した場合(ステップS22において「NO」の場合)、支援サーバ20の制御部21は、一般辞書で作成されたホワイトリスト突合処理を実行する(ステップS24)。具体的には、制御部21のマスク処理部212は、処理対象単語と、辞書サーバ30に記録された第2ホワイトリストとを突合する。
If it is determined that the processing target word is a particle, verb, auxiliary verb, adverb, adjective, etc. and is not a noun ("NO" in step S22), the
次に、支援サーバ20の制御部21は、マスキング対象かについての判定処理を実行する(ステップS25)。具体的には、制御部21のマスク処理部212は、処理対象単語が第2ホワイトリストに含まれない場合、マスキング対象と判定する。
Next, the
マスキング対象と判定した場合(ステップS25において「YES」の場合)、支援サーバ20の制御部21は、マスキング処理を実行する(ステップS23)。
なお、マスキング対象でないと判定した場合(ステップS25において「NO」の場合)、支援サーバ20の制御部21は、この処理対象単語についての処理を終了する。
If determined to be masked ("YES" in step S25), the
If it is determined that the word is not to be masked ("NO" in step S25), the
次に、支援サーバ20の制御部21は、名詞辞書で作成されたホワイトリスト突合処理を実行する(ステップS26)。具体的には、制御部21のマスク処理部212は、処理対象単語と、辞書記憶部23に記録された第1ホワイトリストとを突合する。
Next, the
次に、支援サーバ20の制御部21は、マスキング解除対象かどうかについての判定処理を実行する(ステップS27)。具体的には、制御部21のマスク処理部212は、処理対象単語が第1ホワイトリストに含まれる場合、マスキング解除対象と判定する。
Next, the
マスキング解除対象と判定した場合(ステップS27において「YES」の場合)、支援サーバ20の制御部21は、マスク解除処理を実行する(ステップS28)。具体的には、制御部21のマスク処理部212は、ホワイトリスト単語として、公開候補文中の処理対象単語に付されたマスクを除去する。
If it is determined that the masking is to be removed ("YES" in step S27), the
一方、マスキング解除対象でないと判定した場合(ステップS27において「NO」の場合)、支援サーバ20の制御部21は、マスク解除処理(ステップS28)をスキップする。この場合、処理対象単語のマスクを維持する。
以上の処理を、文を構成するすべての単語について繰り返す。
On the other hand, when it is determined that the masking is not to be canceled ("NO" in step S27), the
The above processing is repeated for all the words forming the sentence.
次に、図6に示すように、支援サーバ20の制御部21は、単語の再構成処理を実行する(ステップS31)。具体的には、制御部21のマスク処理部212は、短単位の単語を順次、ずらして構成した結合単語(再構成単語)を生成する。
Next, as shown in FIG. 6, the
次に、支援サーバ20の制御部21は、品詞の特定処理を実行する(ステップS32)。具体的には、制御部21のマスク処理部212は、結合単語について、辞書サーバ30から品詞を取得する。
Next, the
次に、支援サーバ20の制御部21は、ブラックリスト対象かどうかについての判定処理を実行する(ステップS33)。具体的には、制御部21のマスク処理部212は、結合単語について、辞書サーバ30から取得した品詞が固有名詞である場合には、マスキング対象であるブラックリストに含まれると判定する。
Next, the
マスキング対象と判定した場合(ステップS33において「YES」の場合)、支援サーバ20の制御部21は、ステップS23と同様に、マスキング処理を実行する(ステップS34)。
If determined to be masked ("YES" in step S33), the
一方、マスキング対象でないと判定した場合(ステップS33において「NO」の場合)、支援サーバ20の制御部21は、マスキング処理(ステップS34)をスキップする。
On the other hand, if it is determined not to be masked ("NO" in step S33), the
次に、支援サーバ20の制御部21は、終了かどうかについての判定処理を実行する(ステップS35)。具体的には、制御部21のマスク処理部212は、公開候補文において、連続するすべてのホワイトリスト単語について終了したかどうかを判定する。
Next, the
終了でないと判定した場合(ステップS35において「NO」の場合)、支援サーバ20の制御部21は、単語の再構成処理(ステップS31)以降の処理を繰り返す。
一方、終了と判定した場合(ステップS35において「YES」の場合)、支援サーバ20の制御部21は、公開文の出力処理を実行する(ステップS36)。具体的には、制御部21のマスク処理部212は、公開候補文について、マスキング処理を行なった公開文を、ユーザ端末10に出力する。
If it is determined not to end ("NO" in step S35), the
On the other hand, if it is determined to end ("YES" in step S35), the
本実施形態によれば、以下のような効果を得ることができる。
(1)本実施形態においては、支援サーバ20の制御部21は、教師情報の取得処理(ステップS11)、固有名詞の除外処理(ステップS13)を実行する。これにより、固有名詞以外の名詞を抽出することができる。
According to this embodiment, the following effects can be obtained.
(1) In the present embodiment, the
(2)本実施形態においては、支援サーバ20の制御部21は、出現個数が多い順番に名詞の特定処理(ステップS14)、名詞辞書への登録処理(ステップS15)、表現率の算出処理(ステップS16)を実行する。これにより、所定の表現率を確保したホワイトリストを作成することができる。
(2) In the present embodiment, the
(3)本実施形態においては、名詞と判定した場合(ステップS22において「YES」の場合)、支援サーバ20の制御部21は、マスキング処理を実行する(ステップS23)。これにより、すべてをマスキングした文を初期値として用いることができる。
(3) In the present embodiment, if it is determined to be a noun ("YES" in step S22), the
(4)本実施形態においては、名詞でないと判定した場合(ステップS22において「NO」の場合)、支援サーバ20の制御部21は、一般辞書で作成された第2ホワイトリスト突合処理を実行する(ステップS24)。マスキング対象と判定した場合(ステップS25において「YES」の場合)、支援サーバ20の制御部21は、マスキング処理を実行する(ステップS23)。これにより、名詞以外の単語についても、固有情報を排除することができる。
(4) In the present embodiment, if it is determined that it is not a noun ("NO" in step S22), the
(5)本実施形態においては、支援サーバ20の制御部21は、名詞辞書で作成されたホワイトリスト突合処理を実行する(ステップS26)。マスキング解除対象と判定した場合(ステップS27において「YES」の場合)、支援サーバ20の制御部21は、マスク解除処理を実行する(ステップS28)。これにより、マスキングした単語について、ホワイトリストを用いて、再構成することができる。更に、マスキング対象と判定した場合(ステップS25において「YES」の場合)にも、支援サーバ20の制御部21は、名詞辞書で作成されたホワイトリスト突合処理を実行する(ステップS26)。これにより、辞書サーバ30から取得した品詞が的確でない場合にも、二つのホワイトリストを用いて是正することができる。
(5) In this embodiment, the
(6)本実施形態においては、支援サーバ20の制御部21は、単語の再構成処理(ステップS31)、品詞の特定処理(ステップS32)を実行する。マスキング対象と判定した場合(ステップS33において「YES」の場合)、支援サーバ20の制御部21は、マスキング処理を実行する(ステップS34)。これにより、連続する普通名詞により固有名詞が生成される場合にも、公開文から排除することができる。
(6) In the present embodiment, the
本実施形態は、以下のように変更して実施することができる。本実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
・上記実施形態では、ユーザ端末10、支援サーバ20、辞書サーバ30を用いるが、ハードウェア構成はこれに限定されるものではない。例えば、UniDic辞書を支援サーバ20内に保持するようにしてもよい。
This embodiment can be implemented with the following modifications. This embodiment and the following modified examples can be implemented in combination with each other within a technically consistent range.
- In the above embodiment, the
・上記実施形態では、表現率として、文を構成する全文字数に対して、マスキングされていない文字数の割合を用いた。ホワイトリスト単語により、文を表現できる割合であれば、文字数に限定されるものではない。例えば、文を構成する全単語数に対して、ホワイトリスト単語数の割合を用いてもよい。 - In the above-described embodiment, the ratio of the number of unmasked characters to the total number of characters constituting a sentence is used as the expression ratio. The number of characters is not limited as long as the whitelist words can express a sentence. For example, the ratio of the number of whitelisted words to the total number of words forming a sentence may be used.
・上記実施形態では、辞書サーバ30としては、例えば、国立国語研究所が提供するUniDic辞書を用いたが、品詞を特定できれば、これに限定されるものではない。
・上記実施形態では、マスキング対象と判定した場合(ステップS25において「YES」の場合)にも、支援サーバ20の制御部21は、マスキング処理(ステップS23)、名詞辞書で作成されたホワイトリスト突合処理(ステップS26)を実行する。ここで、マスキング対象と判定した場合(ステップS25において「YES」の場合)、名詞辞書で作成されたホワイトリスト突合を行なうことなく、マスキング処理(ステップS23)のみを行なうようにしてもよい。
- In the above-described embodiment, for example, the UniDic dictionary provided by the National Institute for Japanese Language and Linguistics is used as the
In the above embodiment, even when it is determined to be a masking target ("YES" in step S25), the
10…ユーザ端末、20…支援サーバ、30…辞書サーバ、21…制御部、210…取得部、211…リスト作成部、212…マスク処理部、22…教師情報記憶部、23…辞書記憶部。
10
Claims (5)
前記制御部が、
前記ユーザ端末から取得した文章の形態素分析を行なって、構成単語を特定し、
前記構成単語が第1種類の品詞の場合には、第1方法で作成した第1ホワイトリストと突合し、
前記構成単語が第2種類の品詞の場合には、第2方法で作成した第2ホワイトリストと突合し、
前記第1ホワイトリスト及び前記第2ホワイトリストに含まれない前記構成単語をマスキングして、前記ユーザ端末に出力し、
前記第1種類の品詞は名詞であり、
前記第1方法において、
教師文のすべての構成単語を抽出し、
前記抽出した構成単語において、使用可能な名詞候補を特定し、
前記名詞候補のそれぞれの出現頻度を算出し、
前記出現頻度が高い順番に前記名詞候補を順次、特定し、前記教師文において、前記特定したすべての前記名詞候補の割合により表現率を算出し、
前記表現率が基準値以上となった場合の前記名詞候補を含めて前記第1ホワイトリストを作成することを特徴とする文書作成システム。 A document creation system comprising a control unit connected to a user terminal,
The control unit
Performing morphological analysis of sentences obtained from the user terminal to identify constituent words,
If the constituent word is the first type of part of speech, matching with the first whitelist created by the first method,
If the constituent word is the second type of part of speech, matching with the second whitelist created by the second method,
masking the constituent words that are not included in the first whitelist and the second whitelist and outputting them to the user terminal;
The first type of part of speech is a noun,
In the first method,
extract all constituent words of the teacher sentence,
Identifying usable noun candidates in the extracted constituent words,
calculating the frequency of appearance of each of the noun candidates;
sequentially identifying the noun candidates in order of appearance frequency, and calculating an expression rate based on a ratio of all the identified noun candidates in the teacher sentence;
A document creation system , wherein the first white list is created including the noun candidates when the expression rate is equal to or higher than a reference value.
前記第2ホワイトリストは、前記品詞群を用いて作成されていることを特徴とする請求項1に記載の文書作成システム。 The second type of part of speech is a part of speech group including any part of speech other than a noun,
2. The document creation system according to claim 1 , wherein said second whitelist is created using said part of speech group.
連続する前記構成単語を結合して再構成単語を生成し、
前記再構成単語がブラックリストに含まれる場合には、前記マスキングを行なうことを特徴とする請求項1又は2に記載の文書作成システム。 The control unit
combining the consecutive constituent words to generate a reconstructed word;
3. The document creation system according to claim 1 , wherein the masking is performed when the reconstructed word is included in a blacklist.
前記制御部が、
前記ユーザ端末から取得した文章の形態素分析を行なって、構成単語を特定し、
前記構成単語が第1種類の品詞の場合には、第1方法で作成した第1ホワイトリストと突合し、
前記構成単語が第2種類の品詞の場合には、第2方法で作成した第2ホワイトリストと突合し、
前記第1ホワイトリスト及び前記第2ホワイトリストに含まれない前記構成単語をマスキングして、前記ユーザ端末に出力し、
前記第1種類の品詞は名詞であり、
前記第1方法において、
教師文のすべての構成単語を抽出し、
前記抽出した構成単語において、使用可能な名詞候補を特定し、
前記名詞候補のそれぞれの出現頻度を算出し、
前記出現頻度が高い順番に前記名詞候補を順次、特定し、前記教師文において、前記特定したすべての前記名詞候補の割合により表現率を算出し、
前記表現率が基準値以上となった場合の前記名詞候補を含めて前記第1ホワイトリストを作成することを特徴とする文書作成方法。 A method for creating masked text using a document creation system having a control unit connected to a user terminal, comprising:
The control unit
Performing morphological analysis of sentences obtained from the user terminal to identify constituent words,
If the constituent word is the first type of part of speech, matching with the first whitelist created by the first method,
If the constituent word is the second type of part of speech, matching with the second whitelist created by the second method,
masking the constituent words that are not included in the first whitelist and the second whitelist and outputting them to the user terminal;
The first type of part of speech is a noun,
In the first method,
extract all constituent words of the teacher sentence,
Identifying usable noun candidates in the extracted constituent words,
calculating the frequency of appearance of each of the noun candidates;
sequentially identifying the noun candidates in order of appearance frequency, and calculating an expression rate based on a ratio of all the identified noun candidates in the teacher sentence;
A document creation method , wherein the first white list is created including the noun candidates for which the expression rate is equal to or higher than a reference value.
前記制御部を、
前記ユーザ端末から取得した文章の形態素分析を行なって、構成単語を特定し、
前記構成単語が第1種類の品詞の場合には、第1方法で作成した第1ホワイトリストと突合し、
前記構成単語が第2種類の品詞の場合には、第2方法で作成した第2ホワイトリストと突合し、
前記第1ホワイトリスト及び前記第2ホワイトリストに含まれない前記構成単語をマスキングして、前記ユーザ端末に出力し、
前記第1種類の品詞は名詞であり、
前記第1方法において、
教師文のすべての構成単語を抽出し、
前記抽出した構成単語において、使用可能な名詞候補を特定し、
前記名詞候補のそれぞれの出現頻度を算出し、
前記出現頻度が高い順番に前記名詞候補を順次、特定し、前記教師文において、前記特定したすべての前記名詞候補の割合により表現率を算出し、
前記表現率が基準値以上となった場合の前記名詞候補を含めて前記第1ホワイトリストを作成する手段として機能させるための文書作成プログラム。 A program for creating masked text using a document creation system having a control unit connected to a user terminal,
the control unit,
Performing morphological analysis of sentences obtained from the user terminal to identify constituent words,
If the constituent word is the first type of part of speech, matching with the first whitelist created by the first method,
If the constituent word is the second type of part of speech, matching with the second whitelist created by the second method,
masking the constituent words that are not included in the first whitelist and the second whitelist and outputting them to the user terminal;
The first type of part of speech is a noun,
In the first method,
extract all constituent words of the teacher sentence,
Identifying usable noun candidates in the extracted constituent words,
calculating the frequency of appearance of each of the noun candidates;
sequentially identifying the noun candidates in order of appearance frequency, and calculating an expression rate based on a ratio of all the identified noun candidates in the teacher sentence;
A document creation program for functioning as means for creating the first white list including the noun candidates when the expression rate is equal to or higher than a reference value.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021197574A JP7301938B2 (en) | 2021-12-06 | 2021-12-06 | Document creation system, document creation method and document creation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021197574A JP7301938B2 (en) | 2021-12-06 | 2021-12-06 | Document creation system, document creation method and document creation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023083722A JP2023083722A (en) | 2023-06-16 |
JP7301938B2 true JP7301938B2 (en) | 2023-07-03 |
Family
ID=86731759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021197574A Active JP7301938B2 (en) | 2021-12-06 | 2021-12-06 | Document creation system, document creation method and document creation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7301938B2 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007172404A (en) | 2005-12-22 | 2007-07-05 | Internatl Business Mach Corp <Ibm> | Character string processing method and device, and program |
JP2011158988A (en) | 2010-01-29 | 2011-08-18 | Internatl Business Mach Corp <Ibm> | Device, method and program for supporting processing of character string in document |
JP2013097479A (en) | 2011-10-31 | 2013-05-20 | Mitsubishi Space Software Kk | Document concealment system, document concealment device, document concealment program and document concealment method |
JP2016012271A (en) | 2014-06-30 | 2016-01-21 | 株式会社エクサ | Confidential information concealment system |
CN111666575A (en) | 2020-04-15 | 2020-09-15 | 中国人民解放军战略支援部队信息工程大学 | Text carrier-free information hiding method based on word element coding |
-
2021
- 2021-12-06 JP JP2021197574A patent/JP7301938B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007172404A (en) | 2005-12-22 | 2007-07-05 | Internatl Business Mach Corp <Ibm> | Character string processing method and device, and program |
JP2011158988A (en) | 2010-01-29 | 2011-08-18 | Internatl Business Mach Corp <Ibm> | Device, method and program for supporting processing of character string in document |
JP2013097479A (en) | 2011-10-31 | 2013-05-20 | Mitsubishi Space Software Kk | Document concealment system, document concealment device, document concealment program and document concealment method |
JP2016012271A (en) | 2014-06-30 | 2016-01-21 | 株式会社エクサ | Confidential information concealment system |
CN111666575A (en) | 2020-04-15 | 2020-09-15 | 中国人民解放军战略支援部队信息工程大学 | Text carrier-free information hiding method based on word element coding |
Non-Patent Citations (1)
Title |
---|
伊川 洋平、宅間 大介、金山 博,安全語のアンマスキングによる機密情報マスキングシステム,情報処理学会研究報告 IPSJ SIG Technical Reports,日本,社団法人情報処理学会 Information Processing Society of Japan,2006年07月14日,Vol.2006 No.78,pp. 421~428 |
Also Published As
Publication number | Publication date |
---|---|
JP2023083722A (en) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107247707B (en) | Enterprise association relation information extraction method and device based on completion strategy | |
US7478092B2 (en) | Key term extraction | |
Samih et al. | Detecting code-switching in moroccan Arabic social media | |
Kuznetsov et al. | A matter of framing: The impact of linguistic formalism on probing results | |
US9262402B2 (en) | Device, method and program for assessing synonymous expressions | |
CN110678868A (en) | Translation support system and the like | |
Glass et al. | A naive salience-based method for speaker identification in fiction books | |
Li et al. | Generating adversarial examples in chinese texts using sentence-pieces | |
JP7301938B2 (en) | Document creation system, document creation method and document creation program | |
US12093298B2 (en) | Apparatus and method for training model for document summarization | |
Wang et al. | Language model pre-training with linguistically motivated curriculum learning | |
Do et al. | Improving translation of emphasis with pause prediction in speech-to-speech translation systems. | |
JP4034797B2 (en) | Sentence analysis apparatus, sentence analysis method, sentence analysis program, and recording medium | |
JP2003108571A (en) | Document summary device, control method of document summary device, control program of document summary device and recording medium | |
JP2018077604A (en) | Artificial intelligence device automatically identifying violation candidate of achieving means or method from function description | |
KR102338587B1 (en) | Method and apparatus for analyzing a state of a user based on words | |
JP2007026347A (en) | Text mining device, text mining method and text mining program | |
Deshpande et al. | A hybrid part-of-speech tagger for Marathi sentences | |
JP2019087058A (en) | Artificial intelligence apparatus for specifying omission in sentence | |
JP7293322B1 (en) | Document creation system, document creation method and document creation program | |
KR20190064910A (en) | Method for restoring Korean omitted components based on language model | |
Rahman et al. | An implementation of Apertium based Assamese morphological analyzer | |
JP7243818B2 (en) | Reading disambiguation device, reading disambiguation method, and reading disambiguation program | |
JP2010117832A (en) | Related information extraction device, related information extraction method, program, and recording medium | |
Eger | Designing and comparing G2P-type lemmatizers for a morphology-rich language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230523 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230621 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7301938 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |