JP2007172404A - 文字列処理方法、装置、およびプログラム - Google Patents

文字列処理方法、装置、およびプログラム Download PDF

Info

Publication number
JP2007172404A
JP2007172404A JP2005370970A JP2005370970A JP2007172404A JP 2007172404 A JP2007172404 A JP 2007172404A JP 2005370970 A JP2005370970 A JP 2005370970A JP 2005370970 A JP2005370970 A JP 2005370970A JP 2007172404 A JP2007172404 A JP 2007172404A
Authority
JP
Japan
Prior art keywords
character string
partial character
partial
document
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005370970A
Other languages
English (en)
Other versions
JP4181577B2 (ja
Inventor
Yohei Ikawa
洋平 伊川
Hiroshi Kaneyama
博 金山
Daisuke Takuma
大介 宅間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2005370970A priority Critical patent/JP4181577B2/ja
Priority to CNA2006101484021A priority patent/CN1987848A/zh
Priority to US11/608,602 priority patent/US20070157123A1/en
Publication of JP2007172404A publication Critical patent/JP2007172404A/ja
Application granted granted Critical
Publication of JP4181577B2 publication Critical patent/JP4181577B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

【課題】効率のよい文書マスキングの方法を提供することである。
【解決手段】上記課題を解決するために第1の態様として、文書中の文字列を部分文字列に分解する段階と、 前記部分文字列ごとに出現頻度を含むスコアを算出する段階と、前記部分文字列と前記スコアをユーザに提示する段階と、どの部分文字列がユーザにより選択されたかを判断する段階と、選択された前記部分文字列を安全文字列リストとして記憶する段階と、前記文書中の部分文字列を、前記安全文字列リストに存在する部分文字列を除き、所定の置換文字列で置き換える段階と有する方法を提供する。
【選択図】図1

Description

本発明は、文書中の秘匿すべき情報を別の情報に置き換える方法、装置、プログラムに関する。
近年、個人情報の保護の観点から文書中の文字列をマスク(置換)する技術の強化が望まれている。これに対してマスキングすべき文字列を記憶した辞書を用いて該当する単語を伏字にする技術が知られている。例えば特許文献1では単語辞書を基に入力した文書からマスキング対象箇所を検出し、これをマスキング結果リストとしてユーザに提示して修正させ最終的なマスキング対象箇所とするマスキング手法を採っている。
このような方法では、提示される単語が辞書またはルールベースで検出された文字列に限られるため、検出できないマスキング候補が存在する可能性がある。逆に言えば辞書やルールによる検出誤りをユーザで修正することにより最終的なマスキング候補とする技術である。また大量の文書に対して漏れのないマスキングを行おうとすれば辞書も比例して大きくなりユーザの修正もまた膨大となり作業効率が悪くなる。つまり従来の方法ではマスキングを行う文書が大量に存在する場合に短時間に効率よくかつ漏れのない文書マスキング技術について考慮されていなかった。
特開2004−227141号公報
従来技術においては、辞書にない文字列はマスキング候補として現れないという問題点があった。またマスキングを効率よく行うための仕組みが考慮されていなかった。
本発明は、以上のような技術的課題を解決するためになされたものであって、その目的は、漏れのない文書マスキング方法、装置およびプログラムを提供することである。
また、本発明の他の目的は、マスキングを効率よく行う仕組みを提供することである。
また、本発明の他の目的は、大量の文書を短時間にマスキングする方法および装置を提供することである。
また、本発明の他の目的は、マスキング対象の選択と置き換えを容易にする方法および装置を提供することである。
また、本発明の他の目的は、マスキングを希望するユーザにマスキングのサービスを提供することである。
かかる目的のもと、本発明は、文書中の文字列を処理する方法であって、文書中の文字列を部分文字列に分解する段階と、前記部分文字列ごとに出現頻度を含むスコアを算出する段階と、前記部分文字列と前記スコアをユーザに提示する段階と、どの部分文字列がユーザにより選択されたかを判断する段階と、選択された前記部分文字列を安全文字列リストとして記憶する段階と、前記文書中の部分文字列を、前記安全文字列リストに存在する部分文字列を除き、所定の置換文字列で置き換える段階とを有する。
ここで、前記部分文字列が形態素であってもよい。また前記提示する段階が、前記スコアの高い順に前記部分文字列と前記スコアをユーザに提示する段階であってもよい。また前記スコアを算出する段階が、前記部分文字列ごとに出現頻度と前記部分文字列の文字列長を含めて算出する段階であってもよい。さらに前記スコアを算出する段階が、前記部分文字列ごとに出現頻度、前記部分文字列の文字列長、部分文字列の品詞名を数値化した値、または部分文字列の属する集合であるカテゴリ名を数値化した値を含めて算出する段階であってもい。本発明に方法にさらに、さらに前記部分文字列ごとに危険文字列となるリスクを算出する段階を含ませ、前記ユーザに提示する段階が、前記部分文字列と前記スコアと前記リスクをユーザに提示する段階であってもよい。ここで前記リスクを、危険な部分文字列を予め記憶した危険文字列リストに含まれる部分文字列について高く計算してもよい。また前記ユーザに提示する段階が、リスクが所定の値より低い部分文字列については選択が既にされているものとして提示する段階を含むようにしてもよい。さらに前記ユーザに提示する段階が、部分文字列ごとに置換文字列を提示する段階を含むようにしてもよい。そして前記ユーザに提示する段階が、部分文字列の上位概念を記憶したカテゴリ辞書を用いて前記部分文字列の上位概念を置換文字列として提示する段階を含むようにしてもよい。最後に前記選択されたかを判断する段階が、さらに前記置換文字列の編集を受け付ける段階を含むようにしてもよい。
一方、本発明は、コンピュータに所定の機能を実現させるプログラムとして捉えることもできる。その場合、本発明のプログラムは、文書中の文字列を部分文字列に分解する機能と、前記部分文字列ごとに出現頻度を含むスコアを算出する機能と、前記部分文字列と前記スコアをユーザに提示する機能と、どの部分文字列がユーザにより選択されたかを判断する機能と、選択された前記部分文字列を安全文字列リストとして記憶する機能と、前記文書中の部分文字列を、前記安全文字列リストに存在する部分文字列を除き、所定の置換文字列で置き換える機能とをコンピュータに実現させる。
本発明により文書マスキングを効率よく行うことが可能となり、大量の文書を短時間にマスキングすることができる。またマスキング対象の部分文字列の選択と置換文字列の編集が容易に行える。
以下、添付図面を参照して、本発明を実施するための最良の形態(以下、「実施の形態」という)について詳細に説明する。以下、実施の形態において部分文字列は形態素、単語、節、文、または文字種であっても本発明の本質に変わりなく実施可能である。
図1は本実施の形態におけるシステムの構成を示した図である。文書110は主にテキストから構成された文書である。テキストには秘匿すべき文字列が存在し、本発明により最終的にその文字列がマスクされる。部分文字列分解部120は読み込んだテキストを部分文字列に分解する。分解の方法として形態素、単語、節、文、文字種での分解がよく知れらている。好適にはテキストを形態素に分解することが望ましい。なお形態素解析の手法は広く公知であるので詳細は省く。分解後の部分文字列は部分文字列リスト125に記憶される。なお本発明は従来技術と異なり全ての文字列がマスク対象の状態からスタートし、安全と見なされた部分文字列はマスクが外され、危険な文字列であれば所定の置換文字列に置き換えられる。スコア算出部130は部分文字列のスコアとリスクを算出する。スコアはその部分文字列がどの程度重要な情報であるかを数値化したものである。スコアは主に部分文字列の出現頻度、文字列長から計算されるが、品詞名またはカテゴリ名(詳細は後述する)、後述のリスクに基づき数値化した値も含めて算出するようにしてもよい。リスクとはその部分文字列のマスクを解除することで機密情報が漏洩する危険性を数値化したものである。危険文字列リスト132に記憶された部分文字列の部分文字列になっていれば1、そうでなければ0というように2値の値として定義する。別の態様としては危険文字列である確信度を付与してもよい。なお危険文字列リストは既存の人名、地名、企業名などを利用して作成する。部分文字列のスコアとリスクはスコア付部分文字列リスト136として記憶される。部分文字列提示部140はスコア算出部130で算出されたスコアとリスクをユーザに提示してどの部分文字列のマスクを解除するかを選択させる。また部分文字列提示部140では部分文字列をどのような置換文字列として置き換えるかの決定も行うことができる。予め置換文字列としてデフォルトのものが用意されるが部分文字列の上位概念を記憶したカテゴリ辞書142を参照して上位の概念が存在する部分文字列についてはこれを置換文字列として選定できる。またユーザの指示により置換文字列の編集も可能である。この部分文字列提示部140の選択/編集結果は安全文字列リスト145として記憶される。安全文字列リストには予め安全と決められた部分文字列、例えば特定の製品名などを記憶しておく。このようにしておくことでユーザのチェック数を抑えることができる。マスク解除部150は安全文字列リストに基づき文書中のマスクされた部分文字列のマスクを解除する。すなわちマスク解除部150では前記安全文字列リスト145に存在する部分文字列を除き前記文書中の全部分文字列を所定の置換文字列で置き換える。処理された文書は表示装置275でマスク解除率とともに即座に表示される。ユーザは所望のマスク解除がなされているか確認したのち不十分であればさらに選択/編集という操作を繰り返すことが容易にできる。従ってユーザは非常にスムーズに所望の置換結果を得ることができる。
図2は本実施の形態として用いるのに好適なコンピュータのハードウェア構成の例を模式的に示した図である。コンピュータ1000は、ホストコントローラ210により相互に接続されるCPU200、RAM240、ROM230及びI/Oコントローラ220を有するCPU周辺部と、I/Oコントローラ220により接続される通信インターフェイス250、ハードディスクドライブ280、及びCD/DVD等の円盤型メディア295を読み書きできるマルチコンボドライブ290、フレキシブルディスク285を読み書きできるFDドライブ245、サウンド入出力装置265を駆動するサウンドコントローラ260、表示装置275を駆動するグラフィックコントローラ270を備える。
CPU200は、ROM230、BIOS及びRAM240に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ270は、CPU200等がRAM240内に設けたフレームバッファ上に生成する画像データを取得し、表示装置275上に表示させる。もしくはグラフィックコントローラ270がCPU200等が生成する画像データを格納するフレームバッファをその内部に含んでもよい。好適には表示装置275上にマスク解除対象となる部分文字列を表示させユーザの選択を促す。
通信インターフェイス250は、ネットワークを介して外部の通信機器と通信する。好適にはマスキングを希望するユーザから通信インターフェイス250を通して文書を受信し本発明の文字列置換装置により所望の置換を行いその結果をユーザに送信するようにする。なおネットワークは有線、無線、赤外線、BLUETOOTH等の近距離無線で接続しても本願の構成を何ら変更することなく利用可能である。ハードディスクドライブ280は、コンピュータ1000が使用する本発明のプログラム、アプリケーション、OS等のコード及びデータを格納する。マルチコンボドライブドライブ290は、CD/DVD等のメディア295からプログラム又はデータを読み取り、これら記憶装置から読み取られたプログラム、データはRAM240にロードされCPU200により利用される。本発明のプログラム記録した媒体はこれらの外部記憶メディアから供給されてもよいし、内部のハードディスクドライブ280やネットワークを通じてダウンロードして供給されてもよい。好ましくはハードディスクドライブ280に部分文字列リスト125、危険文字列リスト132、スコア付部分文字列リスト136、安全文字列リスト145が記憶される。
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク285、CD−ROMの他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを取り込んでもよい。上記の構成の一例から理解されるように、本発明に必要なハードウェアは通常のコンピュータ機能を有するものは如何なるものでも利用可能である。例えばモバイル端末、携帯端末、家電機器でも何らの支障なく利用可能である。
尚、図2は本実施の形態を実現するコンピュータのハードウェア構成を例示するに過ぎず、本実施の形態を適用可能であれば、他の種々の構成を取ることができる。
図3はスコア計算部130のより詳細な構成を表す図である。部分文字列集計部310は部分文字列分解部120により生成された部分文字列リスト125に基づき各部分文字列の出現頻度などの基本的なデータを集計する。
次に、リスク算出部330は部分文字列のリスクを算出する。リスク(R)とはその部分文字列のマスクを解除することで機密情報が漏洩する危険性を数値化したものである。予め危険な部分文字列を記憶した危険文字列リスト132の部分文字列の部分文字列になっていれば1、そうでなければ0と定義する。または特定の指標を用いて危険文字列である確信度を付与してもよい。なお危険文字列リストは既存の人名、地名、企業名辞書などを利用して作成する。リスク算出部330の出力は部分文字列ごとにスコア付部分文字列リスト136に記憶される
スコア算出部340は部分文字列のスコアを算出する。スコアとはその部分文字列が文書中においてどのくらい重要な情報かを数値化したものである。部分文字列の出現頻度(A)、部分文字列長(B)、品詞名(C)、またはカテゴリ名(D)、前述のリスク(R)を基にその部分文字列のスコアを計算する。下記にスコア(S)の算出式を示す。なお計算式は例示であり文書の種類、検査環境などに応じて種々変更可能である。スコア算出部340の出力はスコア付部分文字列リスト136に記憶される。
(数1)
S=A×B×(C+D)+R
図4は部分文字列提示部140のより詳細な構成を表す図である。部分文字列表示部410はスコア付部分文字列リスト136を読み込み部分文字列とそのスコア、品詞、カテゴリ、頻度、リスク、置換文字列を表示装置275に表示する。置換文字列は予め所定のものがデフォルトとして用意されるが部分文字列の上位概念を記憶したカテゴリ辞書142を参照して上位概念を置換文字列として選定できる。部分文字列選択/置換部420はユーザから所望の部分文字列のマスク解除の選択および置換文字列の修正を受け付ける。部分文字列提示部140および部分文字列選択/置換部420のユーザインターフェースは後ほど詳細に説明する。次に安全文字列リスト作成部430は部分文字列選択/置換部420の結果を受けて最終的な安全文字列リストを作成する。結果は安全文字列リスト145に記憶される。
図5は安全文字列リスト作成部430の処理をフローチャートとして表した図である。まず作成される安全文字列リスト145の内部フォーマットについて説明する。安全文字列リスト145は、置換処理を行わなくてもよい安全な文字列のリストである。また、「常に安全文字列ではないが、ある文字列と並んで出現する場合は安全文字列である」というように、条件付きで安全な文字列を指定することもできる。下記に安全文字列リスト145のエントリ名とその意味について例示する。
エントリ名 エントリの意味
インターネット 「インターネット」はいつでも安全文字列
インターネット[接続(名詞)] 「インターネット」の後に名詞「接続」が来たときは安全文字列
[を(助詞)]インターネット 「インターネット」の前に助詞「を」が来たときは安全文字列
[助詞]インターネット[助詞] 「インターネット」の前後に助詞が来たときは安全文字列
ステップ510は未チェックの部分文字列からスコア最高の部分文字列Wiを検索する。次にユーザによりステップ520で部分文字列Wiの品詞やリスクなどの情報からWiがどの文脈中でも安全かの判断を促す。安全であれば処理はステップ530に移り部分文字列Wiを安全文字列リスト145に登録する。安全でない場合にはユーザに詳細情報画面615を表示し部分文字列の周辺情報を加味して、安全なパターンのマスクを解除するよう確認を促す。ユーザが部分文字列の周辺情報などを参照して安全文字列と確認すると条件付で部分文字列Wiを安全文字列リスト145に記憶する。その後処理はステップ540に移る。もしユーザが安全文字列と判断しなければ部分文字列Wiはマスク解除の対象から除かれる。ステップ540で終了条件が満たされているか判断される。処理の終了はチェックする部分文字列数、マスク解除率に基づき判断される。
図6、図7は部分文字列提示部140のユーザインターフェースを示す表示画面例である。ユーザに提示する表示画面は大きく分けて2つあり、1つは図6に示す部分文字列チェックメイン画面605でもう1つは図7に示す詳細情報表示画面615である。部分文字列チェックメイン画面605はさらに部分文字列情報表示部610とフィルタ条件部620とフィルタ実行部の3つの領域からなる。部分文字列情報表示部610ではマスク解除の選択/非選択、部分文字列名、置換文字列、品詞、カテゴリ、スコア、頻度、リスク、そして詳細情報ボタンを有し、ユーザは全部分文字列についてマスク解除の選択/非選択が行える。また置換文字列はデフォルトの文字(図6では黒い四角)が用意されている。ただしカテゴリ辞書142を用いることにより部分文字列の上位概念が存在する場合にはそれを置換文字列として提示できる。なお置換文字列はユーザ所望の部分文字列に編集可能である。部分文字列はスコアが高いものから順に提示される。好ましくはリスクが所定の値より小さい部分文字列は安全と見なしてマスク解除の選択が既にされているものとして提示するようにする。ユーザは詳細情報ボタン615を選択して部分文字列のより詳細な情報を知ることができる。ユーザはフィルタ条件部620に検索キーワードを入力することにより部分文字列名を絞り込むことができる。またフィルタ実行部においてサンプル表示650を表示させることができる。フィルタ実行部630におけるマスク解除率は文書中の何パーセントの文字がマスク(置換)されていないかを表している。
ユーザが詳細情報ボタン615を選択すると部分文字列のより詳細な情報が図7のように表示される。図6では「インターネット」という部分文字列についてマスク解除の選択と部分文字列の周辺情報が表示される。さらに原文表示ボタン715を選択することで原文ウィンドウ740に原文が表示される。このように本発明では同じ「インターネット」という部分文字列であっても周辺の情報(文脈)を見ることにより個別にマスクの解除が設定できる。表示設定条件部720でキーワードを入力することで詳細情報表示部710の内容を絞ることが可能である。また集計の方法として部分文字列、品詞、カテゴリのどれかを選択することで表示順位を変更できる。ここでカテゴリとは部分文字列を要素とする集合で内容に相当するカテゴリ名を持つ。カテゴリ名とそれに含まれる要素(部分文字列)の例を以下に示す。
カテゴリ名 要素
ノート型コンピュータ Bシリーズ01、Bシリーズ02
またカテゴリをノードとして木構造を作成し管理することも可能である。この場合親ノードのカテゴリが子ノードのカテゴリの要素を含むように作成する。下記にカテゴリの木構造の例を示す。
・デスクトップコンピュータ = {Aシリーズ01,Aシリーズ02}
・ノート型コンピュータ = {Bシリーズ01,Bシリーズ02}
・周辺機器 = {プリンタ,スキャナ}
・コンピュータ = {Aシリーズ01,Aシリーズ02,Bシリーズ01,Bシリーズ02}
・製品 = {Aシリーズ01,Aシリーズ02,Bシリーズ01,Bシリーズ02,プリンタ,スキャナ}
本発明で用いるカテゴリ辞書142は上記のように木構造として管理されたカテゴリが記憶されており、概念辞書のように意味的に上位のカテゴリが置換文字列として提示される。そのまま置換文字列として受け入れても良いがもちろんユーザの指示で適宜変更可能である。詳細情報表示部710または表示設定条件部の選択が終了した後、処理実行部730で保存をすることにより設定が保存され表示は部分文字列チェックメイン画面605に戻る。
本発明の文書マスキング手法は、文書に現れる順番に部分文字列をチェックせず予め集計された部分文字列をチェックすることになるので大幅に人的コストを軽減することができる。
実例としてコールセンターのログについて本発明を適用した。その結果文書全体の文字数約300万から約180万の部分文字列が抽出された。重複しない部分文字列数約3万についてスコアの高い順にチェックを行った場合、上位1400(4.7%)をチェックすれば文書全体の率80%をチェックしたことになり、上位3800(12.7%)をチェックすれば文書全体の90%をチェックしたことになる。次に文書中にマスキングするべき部分文字列はないものとして、どれくらいマスクが解除されれば使える情報が浮かび上がってくるかを調査した。その結果、マスクを解除した割合が増えるにつれて徐々に理解できる情報となり、大体80〜90%のマスクが解除されれば、十分使える情報が浮かび上がってくることが確認できた。実際には危険文字列の部分文字列となりうる部分文字列に注意してマスクを解除する必要があるが、180万の部分文字列を順番にチェックするのと、4,000程度の部分文字列をチェックするのとでは明らかに後者、すなわち本発明の方法が人的コストを低く抑えることができる。本発明の適用例を下記に示す。
お客様サポートセンターなどのコールログを営業戦略の立案などに役立てるために、短時間で安全に機密情報のマスキングを行い利用可能な状態にする。このような状況において、本発明を利用することが可能である。はじめに、本発明を用いてコールログのマスクを行う前に、製品名辞書を利用して、危険文字列ではないことが分かっている部分文字列を安全文字列リスト145に記憶しておく。
あるコミュニティで共有している文書や、メーリングリストに流れたメールを、より多くの人が閲覧できるようにするために、本発明を利用してマスキングを行うことが可能である。この場合は、特に人名や企業名の部分文字列となる部分文字列を危険文字列リスト132に予め記憶しておく。例えば情報公開制度により、機密文書を安全にマスキングしてから開示する際にも、本発明を利用することが考えられる。
医療現場において、患者のカルテなどの情報を集めて、どのような治療をすればよいかを決定するための意思決定システムの研究に本発明を適用できる。カルテは機密度の高い個人情報を扱っているため、確実に個人を特定しうる文字列をマスキングして、病名や検査項目とその結果、投与している薬、治療の結果などの情報を取り出す必要がある。この場合、病名や薬の名前が載っている専門用語辞書を用いて安全文字列リスト145を作成しておく。また人名や組織名の部分文字列となるような部分文字列を危険文字列リスト132に記憶して、本発明の方法で文書のマスクを行う。
本実施の形態におけるシステムの構成を示した図である。 本実施の形態を実現するコンピュータのハードウェア構成を例示した図である。 スコア計算部130のより詳細な構成を表す図である。 部分文字列提示部140のより詳細な構成を表す図である。 安全文字列リスト作成部のフローチャートである。 部分文字列チェックメイン画面のユーザインターフェースを示す図である。 詳細情報表示画面のユーザインターフェースを示す図である。
符号の説明
120 部分文字列分解部
125 部分文字列リスト
130 スコア計算部
132 危険文字列リスト
136 スコア付部分文字列リスト
140 部分文字列提示部
142 カテゴリ辞書
145 安全文字列リスト
200 CPU
210 ホストコントローラ
220 コントローラ
230 ROM
240 RAM
245 FDドライブ
250 通信インターフェイス
260 サウンドコントローラ
265 サウンド入出力装置
270 グラフィックコントローラ
275 表示装置
280 ハードディスクドライブ
285 フレキシブルディスク
290 マルチコンボドライブ
295 円盤型メディア
290 マルチコンボドライブドライブ
295 メディア
310 部分文字列集計部
330 リスク算出部
340 スコア算出部
410 部分文字列表示部
420 部分文字列選択/置換部
430 安全文字列リスト作成部
605 部分文字列チェックメイン画面
610 部分文字列情報表示部
615 詳細情報表示画面
620 フィルタ条件部
630 フィルタ実行部
650 サンプル表示
710 詳細情報表示部
715 原文表示ボタン
720 表示設定条件部
730 処理実行部
740 原文ウィンドウ
1000 コンピュータ

Claims (14)

  1. 文書中の文字列を処理する方法であって、
    文書中の文字列を部分文字列に分解する段階と、
    前記部分文字列ごとに出現頻度を含むスコアを算出する段階と、
    前記部分文字列と前記スコアをユーザに提示する段階と、
    どの部分文字列がユーザにより選択されたかを判断する段階と、
    選択された前記部分文字列を安全文字列リストとして記憶する段階と、
    前記文書中の部分文字列を、前記安全文字列リストに存在する部分文字列を除き、所定の置換文字列で置き換える段階と
    を有する方法。
  2. 前記部分文字列が形態素である、請求項1記載の方法。
  3. 前記提示する段階が、前記スコアの高い順に前記部分文字列と前記スコアをユーザに提示する段階である、請求項1記載の方法。
  4. 前記スコアを算出する段階が、前記部分文字列ごとに出現頻度と前記部分文字列の文字列長を含めて算出する段階である、請求項1記載の方法。
  5. 前記スコアを算出する段階が、前記部分文字列ごとに出現頻度、前記部分文字列の文字列長、部分文字列の品詞名を数値化した値、または部分文字列の属する集合であるカテゴリ名を数値化した値を含めて算出する段階である、請求項1記載の方法。
  6. 前記方法が、さらに前記部分文字列ごとに危険文字列となるリスクを算出する段階を含み、
    前記ユーザに提示する段階が、前記部分文字列と前記スコアと前記リスクをユーザに提示する段階である、請求項1記載の方法。
  7. 前記リスクを、危険な部分文字列を予め記憶した危険文字列リストに含まれる部分文字列について高く計算する、請求項6の方法。
  8. 前記ユーザに提示する段階が、リスクが所定の値より低い部分文字列については選択が既にされているものとして提示する段階を含む、請求項6の方法。
  9. 前記ユーザに提示する段階が、部分文字列ごとに置換文字列を提示する段階を含む、請求項1記載の方法。
  10. 前記ユーザに提示する段階が、部分文字列の上位概念を記憶したカテゴリ辞書を用いて前記部分文字列の上位概念を置換文字列として提示する段階を含む、請求項9記載の方法。
  11. 前記選択されたかを判断する段階が、さらに前記置換文字列の編集を受け付ける段階を含む、請求項10記載の方法。
  12. 記憶装置、表示装置を備えた文字列処理装置であって、
    文書中の文字列を部分文字列に分解する手段と、
    前記部分文字列ごとに出現頻度を含むスコアを算出する手段と、
    前記部分文字列と前記スコアを前記表示装置に表示する手段と、
    どの部分文字列がユーザにより選択されたかを判断する手段と、
    選択された前記部分文字列を安全文字列リストとして前記記憶装置に記憶する手段と、
    前記文書中の部分文字列を、前記安全文字列リストに存在する部分文字列を除き、所定の置換文字列で置き換える手段と
    を備える文字列処理装置。
  13. 文書中の文字列を処理するプログラムであって、該プログラムが、
    文書中の文字列を部分文字列に分解する機能と、
    前記部分文字列ごとに出現頻度を含むスコアを算出する機能と、
    前記部分文字列と前記スコアをユーザに提示する機能と、
    どの部分文字列がユーザにより選択されたかを判断する機能と、
    選択された前記部分文字列を安全文字列リストとして記憶する機能と、
    前記文書中の部分文字列を、前記安全文字列リストに存在する部分文字列を除き、所定の置換文字列で置き換える機能と
    をコンピュータに実現させるプログラム。
  14. 文書中の文字列を処理するサービスであって、
    文書を受信する段階と、
    文書中の文字列を部分文字列に分解する段階と、
    前記部分文字列ごとに出現頻度を含むスコアを算出する段階と、
    前記部分文字列と前記スコアをユーザに提示する段階と、
    どの部分文字列がユーザにより選択されたかを判断する段階と、
    選択された前記部分文字列を安全文字列リストとして記憶する段階と、
    前記文書中の部分文字列を、前記安全文字列リストに存在する部分文字列を除き、所定の置換文字列で置き換える段階と
    置換文字列で置換した文書を送信する段階と
    を有するサービス。
JP2005370970A 2005-12-22 2005-12-22 文字列処理方法、装置、およびプログラム Expired - Fee Related JP4181577B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005370970A JP4181577B2 (ja) 2005-12-22 2005-12-22 文字列処理方法、装置、およびプログラム
CNA2006101484021A CN1987848A (zh) 2005-12-22 2006-11-14 字符串处理方法以及设备
US11/608,602 US20070157123A1 (en) 2005-12-22 2006-12-08 Character string processing method, apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005370970A JP4181577B2 (ja) 2005-12-22 2005-12-22 文字列処理方法、装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2007172404A true JP2007172404A (ja) 2007-07-05
JP4181577B2 JP4181577B2 (ja) 2008-11-19

Family

ID=38184647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005370970A Expired - Fee Related JP4181577B2 (ja) 2005-12-22 2005-12-22 文字列処理方法、装置、およびプログラム

Country Status (3)

Country Link
US (1) US20070157123A1 (ja)
JP (1) JP4181577B2 (ja)
CN (1) CN1987848A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020646A (ja) * 2007-07-11 2009-01-29 Hitachi Ltd 文字列匿名化装置、文字列匿名化方法及び文字列匿名化プログラム
JP2011158988A (ja) * 2010-01-29 2011-08-18 Internatl Business Mach Corp <Ibm> 文書中の文字列の処理を支援するための装置、方法及びプログラム
WO2011145401A1 (ja) * 2010-05-19 2011-11-24 株式会社日立製作所 個人情報匿名化装置
JP2012103593A (ja) * 2010-11-12 2012-05-31 Internatl Business Mach Corp <Ibm> 電子文書中の部分テキストデータをマスクする方法、装置、サーバ及びコンピュータプログラム
JP2013232090A (ja) * 2012-04-27 2013-11-14 Sony Corp 情報処理装置、情報処理方法、並びにプログラム
JP2016158175A (ja) * 2015-02-25 2016-09-01 京セラドキュメントソリューションズ株式会社 画像形成装置
JP2019175334A (ja) * 2018-03-29 2019-10-10 日本電気株式会社 情報処理装置、制御方法、及びプログラム
JP2020129339A (ja) * 2019-02-12 2020-08-27 Kddi株式会社 リスク判定装置、リスク判定方法及びリスク判定プログラム
WO2020213530A1 (ja) * 2019-04-16 2020-10-22 日本電信電話株式会社 発話文拡張装置、発話文生成装置、発話文拡張方法、およびプログラム
JP2023083722A (ja) * 2021-12-06 2023-06-16 みずほリサーチ&テクノロジーズ株式会社 文書作成システム、文書作成方法及び文書作成プログラム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7821524B2 (en) * 2007-06-26 2010-10-26 Microsoft Corporation Adaptive contextual filtering
CN101452408B (zh) * 2007-11-28 2013-07-17 国际商业机器公司 在软件应用程序中进行错误报告的系统和方法
US9201870B2 (en) * 2008-01-25 2015-12-01 First Data Corporation Method and system for providing translated dynamic web page content
US8443352B2 (en) * 2008-03-31 2013-05-14 International Business Machines Corporation Processing strings based on whether the strings are short strings or long strings
US8321204B2 (en) * 2008-08-26 2012-11-27 Saraansh Software Solutions Pvt. Ltd. Automatic lexicon generation system for detection of suspicious e-mails from a mail archive
JP5684128B2 (ja) * 2009-08-19 2015-03-11 レノボ・イノベーションズ・リミテッド(香港) 情報処理装置
WO2013011730A1 (ja) * 2011-07-21 2013-01-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書を処理する装置及び方法
CN102495881B (zh) * 2011-12-06 2014-06-25 方正国际软件有限公司 基于基因字的文档处理方法及装置
CN103365581B (zh) * 2012-03-31 2019-01-25 百度在线网络技术(北京)有限公司 一种基于解锁密码对用户设备进行触摸解锁的方法和设备
US11275897B2 (en) * 2016-07-20 2022-03-15 Sony Corporation Information processing apparatus, information processing method, and program for modifying a cluster segment relating to a character string group
CN109697983B (zh) * 2017-10-24 2024-06-11 上海赛趣网络科技有限公司 汽车钢印号快速获取方法、移动终端及存储介质
CN111950237B (zh) * 2019-04-29 2023-06-09 深圳市优必选科技有限公司 一种句子改写方法、句子改写装置及电子设备
KR102472200B1 (ko) * 2019-10-02 2022-11-29 (주)디앤아이파비스 단어의 출현 비율을 이용한 중요도 스코어 산출 방법
CN111309851B (zh) * 2020-02-13 2023-09-19 北京金山安全软件有限公司 一种实体词存储方法、装置及电子设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761683A (en) * 1996-02-13 1998-06-02 Microtouch Systems, Inc. Techniques for changing the behavior of a link in a hypertext document
US5960080A (en) * 1997-11-07 1999-09-28 Justsystem Pittsburgh Research Center Method for transforming message containing sensitive information
US7546334B2 (en) * 2000-11-13 2009-06-09 Digital Doors, Inc. Data security system and method with adaptive filter
US20020143827A1 (en) * 2001-03-30 2002-10-03 Crandall John Christopher Document intelligence censor
US6983280B2 (en) * 2002-09-13 2006-01-03 Overture Services Inc. Automated processing of appropriateness determination of content for search listings in wide area network searches
US7016844B2 (en) * 2002-09-26 2006-03-21 Core Mobility, Inc. System and method for online transcription services
US7047235B2 (en) * 2002-11-29 2006-05-16 Agency For Science, Technology And Research Method and apparatus for creating medical teaching files from image archives
US7200812B2 (en) * 2003-07-14 2007-04-03 Intel Corporation Method, apparatus and system for enabling users to selectively greek documents
JP4419871B2 (ja) * 2005-03-02 2010-02-24 富士ゼロックス株式会社 翻訳依頼装置およびプログラム

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020646A (ja) * 2007-07-11 2009-01-29 Hitachi Ltd 文字列匿名化装置、文字列匿名化方法及び文字列匿名化プログラム
JP2011158988A (ja) * 2010-01-29 2011-08-18 Internatl Business Mach Corp <Ibm> 文書中の文字列の処理を支援するための装置、方法及びプログラム
US8924852B2 (en) 2010-01-29 2014-12-30 International Business Machines Corporation Apparatus, method, and program for supporting processing of character string in document
WO2011145401A1 (ja) * 2010-05-19 2011-11-24 株式会社日立製作所 個人情報匿名化装置
JP5492296B2 (ja) * 2010-05-19 2014-05-14 株式会社日立製作所 個人情報匿名化装置
JP2012103593A (ja) * 2010-11-12 2012-05-31 Internatl Business Mach Corp <Ibm> 電子文書中の部分テキストデータをマスクする方法、装置、サーバ及びコンピュータプログラム
US9378649B2 (en) 2010-11-12 2016-06-28 International Business Machines Corporation Masking partial text data in digital document
JP2013232090A (ja) * 2012-04-27 2013-11-14 Sony Corp 情報処理装置、情報処理方法、並びにプログラム
JP2016158175A (ja) * 2015-02-25 2016-09-01 京セラドキュメントソリューションズ株式会社 画像形成装置
JP2019175334A (ja) * 2018-03-29 2019-10-10 日本電気株式会社 情報処理装置、制御方法、及びプログラム
JP7031438B2 (ja) 2018-03-29 2022-03-08 日本電気株式会社 情報処理装置、制御方法、及びプログラム
JP2020129339A (ja) * 2019-02-12 2020-08-27 Kddi株式会社 リスク判定装置、リスク判定方法及びリスク判定プログラム
JP7017531B2 (ja) 2019-02-12 2022-02-08 Kddi株式会社 リスク判定装置、リスク判定方法及びリスク判定プログラム
WO2020213530A1 (ja) * 2019-04-16 2020-10-22 日本電信電話株式会社 発話文拡張装置、発話文生成装置、発話文拡張方法、およびプログラム
JP2020177365A (ja) * 2019-04-16 2020-10-29 日本電信電話株式会社 発話文拡張装置、発話文生成装置、発話文拡張方法、およびプログラム
JP7215309B2 (ja) 2019-04-16 2023-01-31 日本電信電話株式会社 発話文拡張装置、発話文生成装置、発話文拡張方法、およびプログラム
JP2023083722A (ja) * 2021-12-06 2023-06-16 みずほリサーチ&テクノロジーズ株式会社 文書作成システム、文書作成方法及び文書作成プログラム
JP7301938B2 (ja) 2021-12-06 2023-07-03 みずほリサーチ&テクノロジーズ株式会社 文書作成システム、文書作成方法及び文書作成プログラム

Also Published As

Publication number Publication date
US20070157123A1 (en) 2007-07-05
CN1987848A (zh) 2007-06-27
JP4181577B2 (ja) 2008-11-19

Similar Documents

Publication Publication Date Title
JP4181577B2 (ja) 文字列処理方法、装置、およびプログラム
US9754076B2 (en) Identifying errors in medical data
US6068485A (en) System for synthesizing spoken messages
WO2010038540A1 (ja) テキストセグメントを有する文書から用語を抽出するためのシステム
JP2009134344A (ja) 電子メッセージの読解を支援する装置及び方法
JP2000003126A (ja) 音声部を使用するテキスト要約方法
JP2005128873A (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
WO2016147276A1 (ja) データ分析システム及びデータ分析方法並びにデータ分析プログラム
Gadde et al. From screen reading to aural glancing: towards instant access to key page sections
Hare et al. The wind chilled the spectators, but the wine just chilled: Sense, structure, and sentence comprehension
US7487081B2 (en) Sentence creation apparatus and creation method
JP2007048273A (ja) 出願文書情報作成装置、説明情報抽出装置、出願文書情報作成方法、説明情報抽出方法
Qu et al. The role of orthography in second-language spoken word production: Evidence from Tibetan Chinese bilinguals
JP2015018301A (ja) 販売支援端末、プログラム、及び情報処理方法
JP4602388B2 (ja) 類似文検索システム及びプログラム
CN109960805A (zh) 一种基于语义领域划分的智能语义匹配方法
JP2006260241A (ja) 個人情報保護対応入力指示作成システム
CA2432366C (fr) Procede et dispositif pour elaborer une forme abregee d&#39;un terme quelconque qui est utilise dans un message d&#39;alarme destine a etre affiche sur un ecran du poste de pilotage d&#39;un aeronef
JP2008176630A (ja) 文書データ処理装置
JP5382965B2 (ja) 出願文書情報作成装置、出願文書情報作成方法、及びプログラム
Legendre et al. A competition-based analysis of French anticausatives
JP5640856B2 (ja) プログラムおよび情報処理装置
JP4019662B2 (ja) 文書編集装置、文書速読支援装置、文書編集方法、文書速読支援方法、文書編集プログラム、文書速読支援プログラムおよび記録媒体
JP2010117832A (ja) 関係情報抽出装置、その方法、プログラム及び記録媒体
JP2008033972A (ja) 出願文書情報作成装置、説明情報抽出装置、出願文書情報作成方法、説明情報抽出方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080121

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20080125

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20080220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080422

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080826

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080829

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110905

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees