JP2013114287A - 文字列変換装置、文字列変換方法及び文字列変換プログラム - Google Patents
文字列変換装置、文字列変換方法及び文字列変換プログラム Download PDFInfo
- Publication number
- JP2013114287A JP2013114287A JP2011257043A JP2011257043A JP2013114287A JP 2013114287 A JP2013114287 A JP 2013114287A JP 2011257043 A JP2011257043 A JP 2011257043A JP 2011257043 A JP2011257043 A JP 2011257043A JP 2013114287 A JP2013114287 A JP 2013114287A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- personal information
- string conversion
- candidate
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
【解決手段】文字列変換装置1は入力データ10から個人情報辞書30に含まれる個人情報の文字列を文字列変換の候補文字列として検出する。この検出された候補文字列が前記電子文書のタグ要素の内容に含まれない場合に、当該候補文字列の組合せの集合から所定の基準で抽出した文字列の組合せを文字列変換の対象として判定する。一方、前記検出された候補文字列が入力データ10のタグ要素の内容に含まれている場合、個人情報辞書30に含まれる個人情報と一致した候補文字列の組合せを文字列変換の対象として判定する。以上の文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える。
【選択図】図1
Description
(概要)
図1に示された発明の実施形態1に係る文字列変換装置1はマスク処理対象の電子文書の構造化言語の構造を考慮してマスキングすべき箇所を選別することにより、一律にマスキングする方式に比べて、情報漏洩のリスクを低減させる。具体的にはマスク処理対象の電子文書から個人情報辞書30に含まれる個人情報の文字列を文字列変換の候補文字列として検出する。この検出した候補文字列が前記電子文書のタグ要素の内容に含まれない場合、当該候補文字列の組合せの集合から所定の基準で抽出した文字列の組合せを文字列変換の対象として判定する。一方、前記検出した候補文字列が前記電子文書のタグ要素の内容に含まれている場合、個人情報辞書30に含まれる個人情報と一致した候補文字列の組合せを文字列変換の対象であると判定する。以上のように文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える。
文字列変換装置1は図1に示されたように少なくとも入力データ読込部20、個人情報辞書30、個人情報検出部40、マスク対象判定部50、マスク置換部60、マスク文字列格納部80を備える。文字列変換装置1の各機能部20〜80はサーバ(コンピュータ)のハードウェアリソースによって実現される。すなわち、文字列変換装置1は少なくとも演算装置(CPU)、記憶装置(メモリ、ハードディスク装置等)、通信インタフェース等のコンピュータに係るハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース(OS、アプリケーション等)と協働することにより各機能部20〜80が実装される。
図2を参照しながら文字列変換装置1によって実行される文字列変換処理の手順S1〜S4について説明する。
したがって、文字列変換装置1によれば不必要なマスク処理を行うことなく電子情報に含まれる個人情報を洩れなくマスク処理できる。
個人情報の種類によっては、個人情報を構成する項目文字列の間に記号が介在する場合がある。例えば、個人情報が電話番号、クレジットカード、郵便番号の場合、「‐」(ハイフン)のような記号が介在することが多い。個人情報が郵便番号の場合、先頭の項目文字列の前に「〒」の記号が表記されることが多い一方で項目文字列間に「〒」の記号が介在する可能性は低い。また、メールアドレスの場合、これを構成する項目文字列の間に「@」が含まれる可能性が高いが、電子文書のタグ要素の内容(例えばHTML文書やXML文書の開始タグと終了タグで囲まれた範囲の内容)に含まれていない他の文字列が当該項目文字列の間に介在する可能性は低い。
図7に示された実施形態3に係るネットワークシステムはシステム内に存在する全てのクライアント端末2において文字列変換装置1を実装させている。個々のクライアント端末2はそのハードウェアリソースがソフトウェアリソースと協働することにより図1に示された文字列変換装置1の機能部20〜60,80を実装している。個人情報表記パターン辞書90は個人情報表記パターン辞書サーバ3に保存されている。
本発明は文字列変換装置1を構成する上記の機能部20〜60,80,90の一部若しくは全てとしてコンピュータを機能させるプログラムで構成しこれを当該コンピュータに実行させることで実現できる。または、文字列変換装置1が実行する上記の手順S1〜S4の一部若しくは全てをコンピュータに実行させるプログラムで構成しこれを当該コンピュータに実行させることで実現できる。そして、前記プログラムをそのコンピュータが読み取り可能な記録媒体、例えば、FD(Floppy(登録商標) Disk)や、MO(Magneto‐Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)‐ROM、DVD(Digital Versatile Disk)‐ROM、CD‐R、CD‐RW、HDD、SSD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。さらに、上記のプログラムをインターネットや電子メールなど、ネットワークを介して提供することも可能である。
30…個人情報辞書
40…個人情報検出部
50…マスク対象判定部
60…マスク置換部
Claims (4)
- 保護対象の個人情報文字列データを個人情報の項目毎に格納した個人情報辞書を備えた文字列変換装置が電子文書に含まれる個人情報を他の文字列に変換する文字列変換方法であって、
電子文書から前記個人情報辞書に含まれる個人情報の文字列を文字列変換の候補文字列として検出する手順と、
前記検出された候補文字列が前記電子文書のタグ要素の内容に含まれない場合に当該候補文字列の組合せの集合から候補文字列間の文字数が最小数である文字列の組合せを文字列変換の対象として判定する手順と、
前記文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える手順と
を有すること
を特徴とする文字列変換方法。 - 保護対象の個人情報文字列データを個人情報の項目毎に格納した個人情報辞書を備えた文字列変換装置が電子文書に含まれる個人情報を他の文字列に変換する文字列変換方法であって、
電子文書から前記個人情報辞書に含まれる個人情報の文字列を文字列変換の候補文字列として検出する手順と、
前記検出された候補文字列が前記電子文書のタグ要素の内容に含まれない場合に当該候補文字列の組合せの集合から平均文字列長より短い文字列の組合せを選択しこの選択した組合せを文字列変換の対象として判定する手順と、
前記文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える手順と
を有すること
を特徴とする文字列変換方法。 - 保護対象の個人情報文字列データを個人情報の項目毎に格納した個人情報辞書を備えた文字列変換装置が電子文書に含まれる個人情報を他の文字列に変換する文字列変換方法であって、
電子文書から前記個人情報辞書に含まれる個人情報の文字列を文字列変換の候補文字列として検出する手順と、
前記検出された候補文字列が前記電子文書のタグ要素の内容に含まれない場合に当該候補文字列の組合せの集合から統計的指標に基づき選択された文字列の組合せを文字列変換の対象として判定する手順と、
前記文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える手順と
を有すること
を特徴とする文字列変換方法。 - コンピュータに請求項1から3のいずれか1項に記載の文字列変換方法の各手順を実行させるための文字列変換プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011257043A JP5731361B2 (ja) | 2011-11-25 | 2011-11-25 | 文字列変換方法及び文字列変換プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011257043A JP5731361B2 (ja) | 2011-11-25 | 2011-11-25 | 文字列変換方法及び文字列変換プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013114287A true JP2013114287A (ja) | 2013-06-10 |
JP5731361B2 JP5731361B2 (ja) | 2015-06-10 |
Family
ID=48709818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011257043A Active JP5731361B2 (ja) | 2011-11-25 | 2011-11-25 | 文字列変換方法及び文字列変換プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5731361B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013242782A (ja) * | 2012-05-22 | 2013-12-05 | Nippon Telegr & Teleph Corp <Ntt> | 文字列変換方法及びプログラム |
JP2014186425A (ja) * | 2013-03-22 | 2014-10-02 | Mitsubishi Denki Information Technology Corp | 文章マスク装置及び文章マスクプログラム |
JP2015041319A (ja) * | 2013-08-23 | 2015-03-02 | 株式会社リコー | データ管理装置、データ管理方法、及びプログラム |
JP2015115023A (ja) * | 2013-12-16 | 2015-06-22 | 株式会社島津製作所 | 分析装置システム用ログデータ処理システム及び該システム用プログラム |
US10044907B2 (en) | 2015-06-03 | 2018-08-07 | Ricoh Company, Ltd. | Information processing apparatus and method for the replacement of personal information in print documents |
JP2020170969A (ja) * | 2019-04-04 | 2020-10-15 | 富士通株式会社 | 文書出力プログラム、文書出力方法及び文書出力システム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002149638A (ja) * | 2000-11-07 | 2002-05-24 | Oki Electric Ind Co Ltd | 電子文書編集装置及び電子メール装置 |
JP2004094542A (ja) * | 2002-08-30 | 2004-03-25 | Hitachi Software Eng Co Ltd | 文書管理システム |
-
2011
- 2011-11-25 JP JP2011257043A patent/JP5731361B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002149638A (ja) * | 2000-11-07 | 2002-05-24 | Oki Electric Ind Co Ltd | 電子文書編集装置及び電子メール装置 |
JP2004094542A (ja) * | 2002-08-30 | 2004-03-25 | Hitachi Software Eng Co Ltd | 文書管理システム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013242782A (ja) * | 2012-05-22 | 2013-12-05 | Nippon Telegr & Teleph Corp <Ntt> | 文字列変換方法及びプログラム |
JP2014186425A (ja) * | 2013-03-22 | 2014-10-02 | Mitsubishi Denki Information Technology Corp | 文章マスク装置及び文章マスクプログラム |
JP2015041319A (ja) * | 2013-08-23 | 2015-03-02 | 株式会社リコー | データ管理装置、データ管理方法、及びプログラム |
JP2015115023A (ja) * | 2013-12-16 | 2015-06-22 | 株式会社島津製作所 | 分析装置システム用ログデータ処理システム及び該システム用プログラム |
US10044907B2 (en) | 2015-06-03 | 2018-08-07 | Ricoh Company, Ltd. | Information processing apparatus and method for the replacement of personal information in print documents |
JP2020170969A (ja) * | 2019-04-04 | 2020-10-15 | 富士通株式会社 | 文書出力プログラム、文書出力方法及び文書出力システム |
JP7183923B2 (ja) | 2019-04-04 | 2022-12-06 | 富士通株式会社 | 文書出力プログラム、文書出力方法及び文書出力システム |
Also Published As
Publication number | Publication date |
---|---|
JP5731361B2 (ja) | 2015-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11973799B2 (en) | Domain name processing systems and methods | |
JP5358549B2 (ja) | 保護対象情報マスキング装置、保護対象情報マスキング方法および保護対象情報マスキングプログラム | |
JP5731361B2 (ja) | 文字列変換方法及び文字列変換プログラム | |
US7895515B1 (en) | Detecting indicators of misleading content in markup language coded documents using the formatting of the document | |
WO2007139039A1 (ja) | 情報分類装置、情報分類方法、及び情報分類プログラム | |
CN113688240B (zh) | 威胁要素提取方法、装置、设备及存储介质 | |
CN110738049B (zh) | 相似文本的处理方法、装置及计算机可读存储介质 | |
CN111931935A (zh) | 基于One-shot学习的网络安全知识抽取方法和装置 | |
CN112463533A (zh) | 日志数据解析方法、装置、电子装置和存储介质 | |
JP5676522B2 (ja) | 文字列変換方法及びプログラム | |
Benavides-Astudillo et al. | Comparative study of deep learning algorithms in the detection of phishing attacks based on HTML and text obtained from web pages | |
CN111355709A (zh) | 数据验证方法、装置、电子设备及计算机可读存储介质 | |
JP6194180B2 (ja) | 文章マスク装置及び文章マスクプログラム | |
CN113420127B (zh) | 威胁情报处理方法、装置、计算设备及存储介质 | |
CN108664792A (zh) | 一种Android恶意软件的溯源方法 | |
CN114157734A (zh) | 数据解析方法、装置、电子设备及存储介质 | |
CN113674083A (zh) | 互联网金融平台信用风险监测方法、装置及计算机系统 | |
JP5824429B2 (ja) | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム | |
JP2011209944A (ja) | テスト用マスキングデータ生成装置及びプログラム | |
JP5184987B2 (ja) | 索引情報作成装置、索引情報作成方法及びプログラム | |
CN111984970A (zh) | 一种sql注入检测方法、系统及电子设备和存储介质 | |
US9959304B2 (en) | Automatic NER dictionary generation from structured business data | |
JP5643177B2 (ja) | 文字列変換装置、文字列変換方法及び文字列変換プログラム | |
CN114004604B (zh) | 一种邮件中url数据的检测方法、装置、电子设备 | |
CN115048543B (zh) | 图像相似判断方法、图像搜索方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140307 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141008 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141014 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150407 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150409 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5731361 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |