JP2024521833A

JP2024521833A - オフセットマッピングを用いた単語分割アルゴリズム

Info

Publication number: JP2024521833A
Application number: JP2023573274A
Authority: JP
Inventors: グプタ，マノージュ; モトラーニ，カビン
Original assignee: マイクロソフトテクノロジーライセンシング，エルエルシー
Priority date: 2021-05-28
Filing date: 2022-05-05
Publication date: 2024-06-04
Also published as: EP4348490A1; KR20240011718A; WO2022248933A1

Abstract

命令を格納する大容量記憶デバイスに結合されたプロセッサを含むコンピュータシステムが提供され、命令は、プロセッサによって実行されると、プロセッサに、複数の文字で構成された元の文字列を格納することと、元の文字列に対して単語分割アルゴリズムを実行することと、元の文字列をトークン化して、スペースによって区切られた複数の単語トークンを含む処理後文字列を生成することとをさせる。プロセッサは、処理後文字列における単語トークン内の位置と、元の文字列における対応する位置との間のオフセットマップを生成することと、処理後文字列の一部を、対象として分類することとをするようにさらに構成される。プロセッサは、対象に対応する元の文字列における対象文字を、オフセットマップを使用して特定することと、元の文字列における対象文字に対して所定のアクションを実行することとをするようにさらに構成される。

Description

単語分割アルゴリズムは、コンピューティングの様々なコンテキストで使用される。単語分割アルゴリズムが適用される１つの具体的なアプリケーションは、データ損失防止（ＤＬＰ）である。ＤＬＰシステムは、コンピュータやコンピュータネットワークなど、機密データを格納または送信する場合に、盗難や偶発的な開示などのデータ損失の脅威から保護するように設計されている。たとえば、そのようなＤＬＰシステムによって単語分類プログラムを使用すると、電子メールやメッセージングなどの電気通信に含まれる機密情報を監視および検出し、機密情報が企業ネットワークの外に送信されることを防ぐことができる。ＤＬＰ技術は、中国語、韓国語、日本語などの言語に含まれるマルチバイト文字をサポートする。これらのマルチバイト文字の文字列の場合、単語分割アルゴリズムを使用して、元の文字の文字列を、通常はスペースによって区切られる個別の単語に分割し、トークン化された単語を含む、処理後文字列を生成することができる。

しかしながら、これらのマルチバイト言語の場合、多くの状況で単語分割アルゴリズムによって生成される処理後文字列は、元の文字列とは異なる長さを有する可能性があり、また、元の文字列に存在するカンマや句読点などの一部の文字が失われる場合もあり、また、スペース、タブ、および元の文字列とは異なる他のスペース文字が含まれる場合もある。このように、元の文字列と、処理後文字列との間に不一致がある場合、ＤＬＰシステムにおける単語分類プログラムは、元の文字列における機密情報を正しく特定できない可能性があり、重要な機密情報の盗難や、偶発的な暴露につながる可能性がある。

本開示の１つの態様によれば、命令を格納する大容量記憶デバイスに結合されたプロセッサを含むコンピュータシステムが提供される。プロセッサによって実行されると、この命令は、プロセッサに、複数の文字で構成された元の文字列を格納することと、元の文字列に対して単語分割アルゴリズムを実行することと、元の文字列をトークン化して、スペースによって区切られた複数の単語トークンを含む処理後文字列を生成することとをさせる。プロセッサは、処理後文字列における単語トークン内の位置と、元の文字列における対応する位置との間のオフセットマップを生成することと、処理後文字列の一部を、対象として分類することと、対象に対応する元の文字列における対象文字を、オフセットマップを使用して特定することと、元の文字列における対象文字に対して所定のアクションを実行することとをするようにさらに構成され得る。

この構成の１つの潜在的な利点は、元の文字列と、処理後文字列との間に不一致がある場合でも、単語分割アルゴリズムが、処理後文字列に基づいて、マルチバイト言語文字で形成された元の文字列における対象文字を正確に特定できることである。その結果、そのようなアルゴリズムを適用した単語分類プログラムは、機密情報を正確に特定し、情報の盗難や偶発的な開示を防止することができる。

本概要は、以下の詳細説明でさらに説明される概念の選択を、簡略化した形式で紹介するために提供される。本概要は、特許請求された主題の主要な特徴または本質的な特徴を特定するように意図されておらず、また、特許請求された主題の範囲を限定するために使用されることも意図されていない。さらに、特許請求された主題は、本開示のどの部分に記載された欠点の一部またはすべてを解決する実施例にも限定されない。

単語分割アルゴリズムを実行して、検索プログラムによって検索可能な処理後文字列を生成し、検索プログラムによって一致が発見された場合に、オフセットマップを利用して、処理後文字列における一致した対象に対応する元の文字列における対象文字を特定するように構成された、コンピューティングデバイスを含むコンピューティングシステムの概略図である。ポリシーおよび機密データ定義を設定するコンプライアンスおよびセキュリティプログラムで構成された第１のコンピューティングデバイスと、各々が、第１のコンピューティングデバイスによって設定された定義およびポリシーにしたがって検索プログラムを実行する、第２のコンピューティングデバイスおよび第３のコンピューティングデバイスとを含むサーバシステムを含む、図１のコンピュータシステムの別の構成の概略図である。オフセットマッピングを用いて単語分割アルゴリズムを実行する場合、図１のコンピューティングシステムによって操作される複数のデータ構造の概略図である。図２のコンプライアンスおよびセキュリティプログラムポリシーを設定する際に利用される例示的なＧＵＩの概略図である。図５Ａは、元の文字列における対象文字に対して所定のアクションを実行する際に利用される４つの異なるＧＵＩの例を示す図である。図５Ｂは、元の文字列における対象文字に対して所定のアクションを実行する際に利用される４つの異なるＧＵＩの例を示す図である。図５Ｃは、元の文字列における対象文字に対して所定のアクションを実行する際に利用される４つの異なるＧＵＩの例を示す図である。図５Ｄは、元の文字列における対象文字に対して所定のアクションを実行する際に利用される４つの異なるＧＵＩの例を示す図である。元の文字列の異なる例に対してオフセットマッピングを用いて単語分割アルゴリズムを実行する場合、図１のコンピューティングシステムによって操作される複数のデータ構造の概略図である。本開示の１つの例示的な実施例にしたがう方法のフローチャートである。図１の方法が実施され得る例示的なコンピューティング環境の概略図である。

上記で論じたように、単語分割アルゴリズムは、上記で論じたように、様々な言語の機密情報を監視および検出するために使用されるＤＬＰシステムを含む、様々なソフトウェアアプリケーションに役立つ。単語分割アルゴリズムは、最新のパーソナルコンピュータおよびサーバ上で実行される検索エンジンやインデクス作成プログラムなどの検索プログラムでも使用される。これらの検索プログラムでは、単語分割アルゴリズムは、文字列のデータセットを、トークン化された単語を含む処理後文字列のデータセットへ処理するために使用される。検索プログラムによって一致が発見されると、データセットにおける一致が、たとえば、ユーザに見える形態で強調表示されたり、データセットから抽出されたり、難読化されることがある。そのようなアクションを実行するために、単語分割アルゴリズムは、単語トークンが文字の元の文字列とはわずかに異なるために、トークン化された処理後文字列における単語トークンを検索プログラムが特定した場所を特定し、一致する単語トークンが、元の文字列における文字に対応する場所を特定することが認識されるだろう。これは、以下に論じられるように、困難な作業になる可能性がある。

英語、フランス語、スペイン語などの言語では、単語境界として、単語間にスペースが存在する。これらの言語では、単語分類プログラムによって出力される処理後文字列の単語境界は、元の文字列の単語境界と一致する。したがって、単語を区切るスペースを含む文字列のデータセットに対して検索を実行する検索プログラムは、元の文字列における対応する単語の位置を特定することが比較的簡単である。

しかしながら、中国語、韓国語、日本語など、マルチバイトで符号化される言語には、スペース単位の単語境界がない。従来の単語分割アルゴリズムを、これらのようなマルチバイトで符号化された言語の元の文字列に適用すると、単語境界を有する処理後文字列が生成される。しかしながら、多くの状況では、単語分割アルゴリズムによって生成される処理後文字列は、単語トークンを区切るためにスペースが追加されるため、元の文字列とは異なる長さを有する可能性がある。処理後文字列は、カンマや句読点など、元の文字列に存在する一部の文字が失われる場合もあり、スペース、タブ、および元の文字列とは異なる他のスペース文字を有する場合もある。元の文字列と、これらのような処理後文字列との間に不一致がある場合、検索プログラムは、処理後文字列において一致した単語トークンに正確に対応する元の文字列における文字を特定できない場合がある。

これらの問題に対処するために、コンピュータシステムおよびそれとともに使用するためのコンピュータ化された方法が、本明細書に開示される。図１は、本開示の１つの態様にしたがって、単語分割アルゴリズムプログラム４２を実行して、検索プログラム５４によって検索可能な処理後文字列３６を生成し、検索プログラム５４によって一致が発見された場合に、オフセットマップ４８を利用して、処理後文字列３６における一致した対象に対応する、元の文字列３４における対象文字７４を特定するように構成された、コンピューティングデバイス１２を含むコンピューティングシステム１０を示す。

図示される構成では、コンピューティングデバイス１２は、プロセッサ１４、メモリ１６、および大容量記憶デバイス１８を含むことができ、これらは通信バスによって互いに動作可能に結合され得る。プロセッサ１４、メモリ１６、および大容量記憶１８は各々、１つまたは複数のプロセッサコアおよび／または１つまたは複数の物理メモリモジュールなどの１つまたは複数の物理コンポーネントとして構成され得る。大容量記憶デバイス１８は、プロセッサ１４によって実行される本明細書で説明される様々なソフトウェアコンポーネントのための命令を格納し、また、それらのソフトウェアコンポーネントによって使用されるデータセット３０も格納する。コンピューティングデバイス１２は、キーボード、マウス、タッチスクリーン、トラックパッド、加速度計、マイクロフォン、または何らかの他の適切なタイプの入力デバイスであり得る入力デバイス２６をさらに含み得る。それに加えて、コンピューティングデバイス１２は、ディスプレイ、スピーカ、または何らかの他の適切なタイプの出力デバイスであり得る出力デバイス２２をさらに含み得る。

コンピューティングデバイス１２は、ラップトップ、デスクトップ、またはサーバなどの様々なタイプのコンピューティングデバイスのいずれのタイプであり得る。コンピューティングデバイス１２は、ハンドヘルドタブレットまたはスマートフォンデバイスなどのモバイルコンピューティングデバイスであり得る。

プロセッサ１４によって実行されると、大容量記憶デバイス１８に格納された命令は、プロセッサ１４に、複数の文字で構成された元の文字列３４を格納させる。これは、たとえば、インデクス作成プログラムが、ユーザのハードドライブ上のファイルにインデクスを作成するとき、サーバがウェブをクロールして、ウェブから収集したインデクス付きファイルの収集を格納するとき、ソフトウェアプログラムが、レコードをデータベースに格納するとき、または、ソフトウェアプログラムが、電子メールまたはチャットメッセージなどの通信の、または文書の作業データを格納するときのような場合に起こり得る。以下の例示的な例では、図２に図示されるように、ユーザは、ビジネス出張のために、ユーザのパスポート番号について旅行代理店と通信しており、その通信は、ユーザの組織によって設定されたセキュリティポリシーによってフラグが立てられる。元の文字列３４は、用途に応じて、大容量記憶デバイス１８に格納された数十、数百、数千、さらには数百万の元の文字列のうちの１つであり得ることが認識されるであろう。図１に図示される構成では、格納された元の文字列３４は、「これは私のパスポートです．．．番号ＡＡ１ＸＸＸＸＸＸ７」と翻訳される日本語の文字で構成されている。日本語では単語の指定にスペースを使用しないため、日本語で記述された元の文字列３４には、単語の間にスペースがない。元の文字列３４は、例示される例では、ユーザが旅行代理店に送信する電子メールまたはワードプロセッサ文書などの電子文書または電子メッセージから抽出され得るか、またはその中に含められ得る。大容量記憶デバイス１８はさらに、機密データ３８を、元の文字列３４の一部として格納し得る。機密データ３８の定義および機密データ３８を取り扱うためのポリシーは、図２を参照して以下に説明されるように、ユーザまたは管理者によって定義され得る。図１に図示される例では、機密データ３８は、日本語の「パスポート番号」を含む。元の文字列３４は、中国語、韓国語、およびタイ語などの他のマルチバイト符号化言語で構成され得ることが認識されるであろう。

元の文字列３４の格納後、一般に、図１に例示されるように、（１）から（９）までの処理フローに続く。（１）および（２）において、システム１０の単語分割アルゴリズムプログラム４２は、格納された元の文字列３４を入力として受け取り、処理後文字列３６を出力する。プロセッサ１４は、単語分割アルゴリズムプログラム４２を介して単語分割アルゴリズムを実行するように構成される。単語分割アルゴリズムプログラム４２は、元の文字列３４に対して単語分割アルゴリズムを実行し、元の文字列３４をトークン化して、スペースによって区切られた複数の単語トークンを含む処理後文字列３６を生成する、ように構成されたトークン化モジュール４４を有する処理後文字列生成器４０を含み得る。トークン化モジュール４４を介した元の文字列３４のトークン化が、その出力として処理後文字列３６を生成することが認識されるであろう。したがって、処理後文字列の生成は、トークン化によって引き起こる。元の文字列３４と、処理後文字列３６との相違が、以下に詳細に説明される。この例では、元の文字列３４は日本語で記述されており、元の文字列の英訳は、「Ｔｈｉｓｉｓｍｙｐａｓｓｐｏｒｔ．．ｎｕｍｂｅｒＡＡ１ＸＸＸＸＸＸ７」である。日本語では、この元の文字列３４は、２４文字である。図示される例では、単語分割アルゴリズムプログラム４２の処理後文字列生成器４０によって生成された処理後文字列３６は、７つのスペースによって区切られた単語トークンを含み、元の文字列３４における１０番目および１１番目の位置にある２つのドットが消去されており、したがって、単語分割アルゴリズムの実行後、処理後文字列３６では２つのドットが省略される。

その結果、図１に図示されるように、処理後文字列３６は、スペースを含めて２９文字となる。

上記で論じたように、処理後文字列３６は、検索プログラム５４と互換性のある形態であるので、検索は効率的である。たとえば、処理後文字列３６は、上記等で説明されたデータセット３０のソースのうちの１つから作成された検索可能なインデクスにおけるインデクス付きデータであり得る。したがって、処理後文字列３６は、検索が容易であるが、ユーザが利用するのに適した自然な形態ではない。このため、元の文字列３４の一部を使用して、処理後文字列３６において発見された対象５６をユーザに表示するために、オフセットマップ４８が生成される。

具体的には、（３）および（４）に図示されるように、処理後文字列３６における単語トークン内の位置と、元の文字列３４における対応する位置との間のオフセットマップ４８は、オフセットマップ生成器４６を介して生成され得る。オフセットマップ４８は、元の文字列３４および処理後文字列３６に基づいて作成される第１のデータ構造５０および第２のデータ構造５２を含み得る。

第１のデータ構造５０は、単語分割アルゴリズム中に、元の文字列３４において検出された各トークン単語の、元の文字列３４における開始文字オフセットインデクス値および文字長さを含み、第２のデータ構造５２は、処理後文字列３６における各トークンの終了文字オフセットインデクス値を含み、第１および第２のデータ構造の各々は、同じ数の要素を有し、すなわち、各々は、各々に対する対応するデータ（開始文字オフセットインデクス値および文字長さ、または終了文字オフセットインデクス値）を備えているにも関わらず、同じ数のトークンインデクス値５７を格納する。以下で図３においてさらに説明されるように、オフセットマップ生成器４６は、元の文字列３４から、［０］（０，２），［１］（２，１），［２］（３，１）．．．［６］（１４，２）および［７］（１６，９）からなる第１のデータ構造５０を取得し、処理後文字列３６から、［０］（３），［１］（５），［２］（７）．．．［６］（２１）および［７］（３１）からなる第２のデータ構造５２を取得する。

（５）および（６）において、プロセッサ１４は、検索プログラム５４を介して、処理後文字列３６の一部を、対象５６として、検出および分類するようにさらに構成され得る。対象５６は、以下で図２において説明されるように、ユーザまたは管理者によって定義された所定の機密情報データタイプの機密情報である。検索プログラム５４は、処理後文字列３６から機密データ３８を検索し、たとえば、機密データ３８に含まれる文字に対応し、したがって、管理者またはユーザによって設定された機密データ定義９４（図２を参照）と一致する対象５６を発見する。図示される例では、日本語の「パスポート番号」が、機密データ３８に含まれており、処理後文字列３６における日本語の対象５６「パスポート番号」が、検索プログラム５４を介して発見される。検索プログラム５４は、対象５６の対象単語トークン５８、および／または、関連する開始文字オフセットインデクス値５６Ａおよび終了文字オフセットインデクス値５６Ｂを取得し、元の文字列対象ロケータ６０に送信する。

図示される例では、対象単語トークン５８（「パスポート番号」）、処理後文字列３６の「パスポート番号」の開始文字オフセットインデクス値５６Ａ（図１の「９」）および終了文字オフセットインデクス値５６Ｂ（図１の「１６」）は、元の文字列対象ロケータ６０に送信される。

（７）および（８）において、プロセッサはさらに、オフセットマップ４８と対象単語トークン５８、および／または、検索プログラム５４によって提供される関連する開始文字オフセットインデクス値５６Ａおよび終了文字オフセットインデクス値５６Ｂを使用して、対象５６に対応する元の文字列３４における対象文字７４を特定するように構成され得る。元の文字列３４における対象文字７４は、対象文字７４の開始文字オフセットインデクス値６４Ａおよび文字長さを特定することによって、および／または、対象文字７４の開始文字オフセットインデクス値６４Ａおよび終了文字オフセットインデクス値６４Ｂを特定することによって発見され得る。以下で図３においてさらに説明されるように、単語分割アルゴリズムプログラム４２の元の文字列対象ロケータ６０のオフセット変換モジュール６２は、オフセットマップ４８の第１のデータ構造５０および第２のデータ構造５２を使用して、対象単語トークン５８と、関連する開始文字オフセットインデクス値５６Ａおよび終了文字オフセットインデクス値５６Ｂ（図１における「９」および「１６」）を、元の文字列３４の対象文字７４の開始文字オフセットインデクス値６４Ａおよび終了文字オフセットインデクス値６４Ｂに変換する。

次に、元の文字列対象ロケータ６０は、元の文字列３４における対象文字７４の開始文字オフセットインデクス値６４Ａおよび終了文字オフセットインデクス値６４Ｂを、単語分割アルゴリズムプログラム４２のアクションモジュール６６に送信する。図示される例では、元の文字列対象ロケータ６０は、オフセットマップ４８を使用して、対象単語トークンの開始文字オフセットインデクス値５６Ａ（「９」）および終了文字オフセットインデクス値５６Ｂ（「１６」）を、元の文字列３４の開始文字オフセットインデクス値６４Ａおよび終了文字オフセットインデクス値６４Ｂとして（５，１３）に変換し、アクションモジュール６６は、元の文字列３４における対象文字７４「ｐａｓｓｐｏｒｔ．．．ｎｕｍｂｅｒ」（日本語の対象文字の英訳）を特定することができる。

（９）において、プロセッサ１４は、単語分割アルゴリズムプログラム４２のアクションモジュール６６を介して、元の文字列３４における対象文字７４に対して、所定のアクションを実行するようにさらに構成され得る。アクションモジュール６６は、対象文字７４の開始文字オフセットインデクス値６４Ａおよび終了文字オフセットインデクス値６４Ｂに基づいて、元の文字列３４の対象文字７４を特定し、対象文字７４に対して所定のアクション６８を実行する。この例では、アクションモジュール６６は、対象文字７４「パスポート．．．番号」を、ＧＵＩ７０上で強調表示して特定する。図５Ａ、図５Ｂ、図５Ｃ、および図５Ｄに移って簡潔に説明すると、異なるアクションが、ユーザまたは管理者によってプログラムされ、対象文字７４に対して実行され得る。図５Ａに図示される第１の構成では、対象文字７４は、たとえば、強調表示、下線、太字、斜体、色変更、フォントサイズの拡大または縮小等により強調表示され得る。図５Ｂに図示される第２の構成では、対象文字７４は、難読化または削除され得る。図５Ｃに図示される第３の構成では、対象文字７４に関する警告メッセージが表示され得る。図５Ｄに図示される第４の構成では、対象文字７４が抽出され得る。単語分割アルゴリズムプログラム４２のアクションモジュール５６によって実行されるこれらのアクションのために、例示的な例では、ユーザは、ユーザの機密データ３８を共有することを阻止され得る。

図２は、図１のコンピューティングシステム１０の別の構成の概略図を示し、このシステムは、サーバシステム１１と、複数のコンピューティングデバイス１２Ａ～１２Ｃとを含む。コンピューティングデバイス１２Ａ～１２Ｃは、以下の異なる説明を除いて、上記で説明されたコンピューティングデバイス１２と同様に構成される。コンピューティングデバイス１２Ｂ，１２Ａは、同じサーバシステム１１内、たとえば同じデータセンタ内にあるように図示されており、したがって、高速通信のためにローカルエリアネットワークによって接続されている一方、コンピューティングデバイス１２Ｃは、インターネットなどのＷＡＮ９８を介してサーバシステム１１と通信することが認識されるであろう。このようにして、管理ユーザは、データセンタ内とインターネット上との両方のコンピュータのセキュリティポリシーを制御し得る。

サーバシステム１１は、機密データ定義９４およびポリシー９６を設定するコンプライアンスおよびセキュリティプログラムで構成される管理サーバの役割を果たす第１のコンピューティングデバイス１２Ａと、各々が、第１のコンピューティングデバイス１２Ａによって設定された定義９４およびポリシー９６にしたがって、検索プログラム５４を実行する、第２のコンピューティングデバイス１２Ｂおよび第３のコンピューティングデバイス１２Ｃを含む。サーバシステム１１のコンピューティングデバイス１２Ｂ，１２Ｃは各々、検索プログラム５４のそれぞれのインスタンスを実行するように構成され、各インスタンスは、入力として機密データ定義９４および１つまたは複数のポリシー９６を、管理サーバの役割を果たすコンピューティングデバイス１２Ａから受け取り、各それぞれのコンピューティングデバイス１２Ｂ，１２Ｃに格納された機密データ定義にしたがって、機密データの複数の元の文字列を含むデータセットを検索するように構成されている。さらに、図示されていないが、コンピューティングデバイス１２Ａは、コンピューティングデバイス１２Ａがアクセスを有するデータセットに対して検索プログラムも実施し得ることが認識されるであろう。

これを達成するために、コンプライアンスおよびセキュリティプログラム９２は、コンピューティングデバイス１２Ａでユーザまたは管理者によって実行され、組織内で機密データを取り扱うための機密データ９４およびポリシー９６の定義を設定し得る。図４に移って簡潔に説明すると、ユーザまたは管理者は、コンプライアンスおよびセキュリティプログラム９２のコンプライアンスおよびセキュリティプログラムＧＵＩ９６において、機密データ定義９４およびポリシー９６を作成および編集し得る。図示される例では、ユーザまたは管理者は、パスポート番号、社会保険番号、およびクレジットカード番号などの機密データタイプを、機密データ定義９４に、さらに、ポリシー９６にしたがって適用されているアクティブな機密データ定義９４に追加し得る。ポリシー９６の下で、ユーザまたは管理者は、メールサーバ、クラウドストレージ、およびファイルサーバを含む、検索プログラム５４によって検索される場所を設定し得、各リソースのデータパスを示し得る。ユーザまたは管理者はさらに、図５Ａ～図５Ｄにおいて上記で説明したように、元の文字列３４の対象文字７４に対して所定のアクションを設定し得る。

図３は、オフセットマッピングを用いて単語分割アルゴリズムを実行する場合に、図１のコンピューティングシステムによって操作される複数のデータ構造の概略図を示す。図示された例では、上記において図１において説明されたように、オフセットマップ生成器４６は、元の文字列３４から、［０］（０，２），［１］（２，１），［２］（３，１）．．．［６］（１４，２）および［７］（１６，９）からなる第１のデータ構造５０を取得し、処理後文字列３６から、［０］（３），［１］（５），［２］（７）．．．［６］（２１）および［７］（３１）からなる第２のデータ構造５２を取得し、オフセットマップ４８を生成する。第１のデータ構造５０は、単語分割アルゴリズム中に、元の文字列３４において検出される各トークン単語の、元の文字列３４における開始文字オフセットインデクス値および文字長さを格納する。この例では、最初の単語は「０」で始まり、２文字であるので、最初のトークン［０］の開始文字オフセットインデクス値および文字長さは（０，２）である。次の単語は「２」で始まり、１文字であるので、２番目のトークン［１］の開始文字オフセットインデクス値および文字長さは（２，１）である。最後のトークン［７］の開始文字オフセットインデクス値および文字長さは（１６，９）である。残りのトークン単語の開始文字オフセットインデクス値および文字長さも、同様に取得される。

一方、第２のデータ構造５２は、処理後文字列３６における各トークンの終了文字オフセットインデクス値を格納し、これは図３の第１の式８３を使用して取得され得る。前の終了文字オフセットインデクス値が「０」であり、元の文字列の最初のトークン単語の長さは、上記で計算されたように「２」であり、追加されたスペースの長さは１であるので、最初のトークン［０］の終了文字オフセットインデクス値は、第１の式８３（「０＋２＋１＝３」）にしたがって「（３）」である。次に、前の終了文字オフセットインデクス値が「３」であり、元の文字列の２番目のトークン単語の長さは「１」であり、追加されたスペースの長さは１であるので、２番目のトークン［１］の終了文字オフセットインデクス値は、第１の式８３（「３＋１＋１＝５」）にしたがって「（５）」である。前の終了文字オフセットインデクス値が「２１」であり、元の文字列の２番目のトークン単語の長さは「９」であり、追加されたスペースの長さは１であるので、最後のトークン［７］の終了文字オフセットインデクス値は、第１の式８３（「２１＋９＋１＝３１」）にしたがって「（３１）」である。処理後文字列３６の残りのトークン単語の終了文字オフセットインデクス値も同様に取得される。ここで、第１のデータ構造５０および第２のデータ構造５２の各々は、同じ数の要素を有しており、すなわち、各々は、各々に対する対応するデータ（開始文字オフセットインデクス値および文字長さ、または終了文字オフセットインデクス値）を備えているにも関わらず、同じ数のトークンインデクス値５７を格納する。

図１の検索プログラム５４は、処理後文字列３６における対象５６を特定し、対象単語トークン５８が決定される。対象単語トークン５８は各々、括弧内に示された関連するトークンインデクス値５７を有する。対象単語トークン５８はまた、処理後文字列３６において、関連する開始文字オフセットインデクス値５６Ａおよび終了文字オフセットインデクス値５６Ｂ（「９」および「１６」）を有する。対象単語トークン５８、および／または、関連する開始文字オフセットインデクス値５６Ａおよび終了文字オフセットインデクス値５６Ｂは、図１の元の文字列対象ロケータ６０に送信される。

あるいは、開始文字オフセットインデクス値５６Ａおよび終了文字オフセットインデクス値５６Ｂの決定のために、トークン５９Ａ，５９Ｂ自体が、元の文字列対象ロケータ６０へ送信され得る。

単語分割アルゴリズムプログラム４２の元の文字列対象ロケータ６０のオフセット変換モジュール６２は、オフセットマップ４８の第１のデータ構造５０および第２のデータ構造５２を使用して、対象単語トークン５８（「９」および「１６」）を、元の文字列３４の対象文字７４（図１における「５」および「１３」）の開始文字オフセットインデクス値６４Ａおよび終了文字オフセットインデクス値６４Ｂに変換する。第２の式８４および第３の式８６を使用する２つの異なるステップがこの変換のために適用され、対象文字７４（図１における「５」および「１３」）の開始文字オフセットインデクス値６４Ａおよび終了文字オフセットインデクス値６４Ｂを特定し得る。

まず、第２の式８４を利用して、処理後文字列３６（図１における「９」および「１６」）における対象の開始トークン５９Ａの開始文字オフセットインデクス値５６Ａと、終了トークン５９Ｂの終了文字オフセットインデクス値５６Ｂとの各々に対するトークンインデクス値５７を決定する。図示される例では、開始文字オフセットインデクス値５６Ａ（「９」）は、処理後文字列３６の４番目のトークン［３］の終了文字オフセットインデクス値「（９）」以上であり、処理後文字列の５番目のトークン［４］の終了文字オフセットインデクス値「（１５）」未満であるので、開始文字オフセットインデクス値５６Ａ（「９」）のトークンインデクス値５７は、第２の式８４を使用して「４」と決定される。終了文字オフセットインデクス値５６Ｂ（「１６」）のトークンインデクス値５７は、処理後文字列３６の６番目のトークンインデクス［５］の終了文字オフセットインデクス値「１８」以下であり、５番目のトークン［４］の終了文字オフセットインデクス値「１５」より大きいので、終了文字オフセットインデクス値５６Ｂ（「１６」）のトークンインデクス値５７は、第２の式８４を使用して「５」と決定される。したがって、処理後文字列３６における対象５６の開始文字オフセットインデクス値５６Ａおよび終了文字オフセットインデクス値５６Ｂの各々のトークンインデクス値５７はそれぞれ、「４」および「５」である。

最後に、上記のインデクス値（「４」および「５」）を、第３の式８６に組み込むことによって、オフセットマップ４８の第１のデータ構造に格納された開始文字オフセットインデクス値を使用して、元の文字列３４における開始トークン５９Ａ’の開始文字オフセットインデクス値６４Ａ、および、オフセットマップ４８の第２のデータ構造に格納された終了文字オフセットインデクス値を使用して、終了トークン５９Ｂ’の終了文字オフセットインデクス値６４Ｂ。図示される例では、５番目のトークン［４］の開始文字オフセットインデクス値は、元の文字列３４における［４］（５，５）の「５」であるので、元の文字列３４における開始トークンの開始文字オフセットインデクス値は「５」である。一方、図３において説明されたように、６番目のトークン［５］の開始文字オフセットインデクス値は「１２」であり、その長さは、元の文字列３４において「２」であり、「１２」＋「２」－「１」＝「１３」であるので、終了トークンの終了文字オフセットインデクス値は「１３」である。その結果、対象文字７４の開始文字オフセットインデクス値６４Ａおよび終了文字オフセットインデクス値６４Ｂは（５，１３）として特定され、元の文字列３４における対応する対象文字「ｐａｓｓｐｏｒｔ．．ｎｕｍｂｅｒ」（英訳）が特定される。

図６は、元の文字列３４の別の例に対してオフセットマッピングを用いて単語分割アルゴリズムを実行する場合に、図１のコンピューティングシステムによって操作される複数のデータ構造の概略図を示す。この例では、元の文字列３４は、日本語で記述されており、元の文字列の英訳は、「ａｐｕｒｃｈａｓｅｈｉｓｔｏｒｙｗｉｌｌｓｏｏｎｂｅａｖａｉｌａｂｌｅｏｎｌｙｗｈｅｎｙｏｕｌｏｇｉｎａｎｄｗｉｌｌｂｅｃｅｎｔｒａｌｌｙｍａｎａｇｅｄｗｉｔｈｉｎｍｙｎｕｍｂｅｒｃａｒｄ．」である。上記で図３において説明されたものと同じ手順にしたがって、元の文字列３４の対象文字「ｎｕｍｂｅｒｃａｒｄ」（日本語対象文字の英訳）が、図１のオフセットマップ４８を使用して特定される。この例では、用語「ナンバーカード」が管理者によって機密データ定義に入力されており、処理後文字列３６における対象５６の対応する単語トークンが検索プログラム５４によって特定されている。

図示される例では、図６において説明されるように、図１のオフセットマップ生成器４６は、元の文字列３４から、［０］（０，２），［１］（２，２），［２］（４，１）．．．［２０］（４２，１），［２１］（４３，２）からなる第１のデータ構造５０を取得し、第１の式８３を使用して、処理後文字列３６から［０］（３），［１］（６），［２］（８）．．．［２０］（６３）および［２１］（６６）からなる第２のデータ構造５２を取得して、オフセットマップ４８を生成する。次に、図１の検索プログラム５４は、処理後文字列３６における対象５６を特定し、対象単語トークン５８が決定される。対象単語トークン５８はまた、処理後文字列３６において、関連する開始文字オフセットインデクス値５６Ａおよび終了文字オフセットインデクス値５６Ｂ（「４２」および「５２」）を有する。次に、処理後文字列３６における対象５６の開始トークン５９Ａの開始文字オフセットインデクス値５６Ａと、終了トークン５９Ｂの終了文字オフセットインデクス値５６Ｂとの各々に対するトークンインデクス値５７（「１４」と「１６」）が、第２の式８４を使用して、対象単語トークン５８から取得される。最後に、上記のインデクス値（「１４」および「１６」）を第３の式８６に組み込むことにより、元の文字列３４における開始トークン「２８」の開始文字オフセットインデクス値と、終了トークン「３６」の終了文字オフセットインデクス値とが取得される。その結果、（２８，３６）の開始文字オフセットインデクス値５６Ａおよび終了文字オフセットインデクス値５６Ｂと、元の文字列３４における対応する対象文字「ｗｉｔｈｉｎｎｕｍｂｅｒｃａｒｄ」（英訳）とが特定される。

図７は、本開示の１つの例示的な実施にしたがってコンピュータ化された方法３００のフローチャートを示す。ステップ３０２において、コンピュータ化された方法３００は、複数の文字で構成された元の文字列を格納することを含み得る。ステップ３０４において、この方法は、元の文字列に対して単語分割アルゴリズムを実行することをさらに含み得る。ステップ３０６において、方法３００は、元の文字列をトークン化して、スペースによって区切られた複数の単語トークンを含む処理後文字列を生成することをさらに含み得る。ステップ３０６から、この方法は、２つの並列ワークフローに分岐する。

並列ワークフローの第１の分岐後、ステップ３０８において、方法３００は、処理後文字列における単語トークン内の位置と、元の文字列における対応する位置との間のオフセットマップ４８を生成することをさらに含み得る。３１０において、方法は、元の文字列および処理後文字列からの単語分割アルゴリズムメタデータを、データ構造に格納することを含み得る。メタデータは、元の文字列および処理後文字列における対象の位置および長さを示し得る。たとえば、３１２において示されるように、オフセットマップは、第１のデータ構造を含み得、この方法は、単語分割アルゴリズム中に、元の文字列において検出される各トークン単語の、第１のデータ構造における元の文字列における開始文字オフセットインデクス値および文字長さを格納することを含み得る。それに加えて、またはその代わりに、３１４において示されるように、オフセットマップは、第２のデータ構造を含み得、この方法は、処理後文字列における各トークンの終了文字オフセットインデクス値を格納することを含み得る。並列ワークフローの第２の分岐に戻って示すように、ステップ３４０において、この方法は、検索プログラムを介して、処理後文字列の一部を、対象として分類することをさらに含み得る。ステップ３４２において、方法３００は、対象単語トークンと、関連する開始文字オフセットインデクス値および終了文字オフセットインデクス値とを特定することをさらに含み得る。

ステップ３１８において、方法３００は、オフセットマップ、対象単語トークン、および関連する開始文字オフセットインデクス値および終了文字オフセットインデクス値を使用して、対象に対応する元の文字列における対象文字を特定することをさらに含み得る。対象文字を特定するために、３２０において、この方法は、処理後文字列における対象の開始文字オフセットインデクス値および終了文字オフセットインデクス値の各々に対して、トークンインデクス値を決定することを含み得る。３２２において、この方法は、オフセットマップの第１のデータ構造に格納された開始文字オフセットインデクス値を使用して、元の文字列における開始トークンの開始文字オフセットインデクス値を決定することをさらに含み得る。３２４において、この方法は、オフセットマップの第２のデータ構造に格納された終了文字オフセットインデクス値を使用して、終了トークンの終了文字オフセットインデクス値を決定することを含み得る。対象文字が特定されると、ステップ３２６において、方法３００は、元の文字列における対象文字に対して、対象単語を強調表示すること、対象単語を難読化すること、および／または、対象単語を抽出することを含む、所定のアクション３２８を実行することをさらに含み得る。

上記で説明されたシステムおよび方法は、最適化された検索のためにトークン化された処理後文字列における機密データ定義に一致する対象文字を検索するために、そして、処理後文字列が生成された元の文字列における対応する文字を特定するために、マルチバイト符号化言語における文字列を含むデータセットとともに使用され得ることが認識されるであろう。このように、対応する文字が特定されると、元の文字列における対応する文字に対して、適切なアクションが実行され得る。

いくつかの実施形態では、本明細書で説明される方法および処理は、１つまたは複数のコンピューティングデバイスのコンピューティングシステムに結び付けられ得る。特に、そのような方法および処理は、コンピュータアプリケーションプログラムまたはサービス、アプリケーションプログラミングインターフェース（ＡＰＩ）、ライブラリ、および／または、他のコンピュータプログラム製品として実施され得る。

図８は、上記で説明された方法および処理のうちの１つまたは複数を実行できる、コンピューティングシステム４００の非限定的な実施形態を概略的に図示する。コンピューティングシステム４００は、簡略化された形態で図示されている。コンピューティングシステム４００は、上記で説明され、図１に例示されたコンピュータデバイス１２と、図２に例示された様々なコンピューティングデバイスとを具現化し得る。コンピューティングシステム４００は、１つまたは複数のパーソナルコンピュータ、サーバコンピュータ、タブレットコンピュータ、ホームエンターテインメントコンピュータ、ネットワークコンピューティングデバイス、ゲームデバイス、モバイルコンピューティングデバイス、モバイル通信デバイス（たとえば、スマートフォン）、および／または、他のコンピューティングデバイス、ならびに、スマート腕時計やヘッドマウント拡張現実デバイスなどのウェアラブルコンピューティングデバイスの形態をとり得る。

コンピューティングシステム４００は、論理プロセッサ４０２、揮発性メモリ４０４、および不揮発性記憶デバイス４０６を含む。コンピューティングシステム４００は、ディスプレイサブシステム４０８、入力サブシステム４１０、通信サブシステム４１２、および／または、図８に図示されていない他のコンポーネントを任意選択的に含み得る。

論理プロセッサ４０２は、命令を実行するように構成された１つまたは複数の物理デバイスを含む。たとえば、論理プロセッサは、１つまたは複数のアプリケーション、プログラム、ルーチン、ライブラリ、オブジェクト、コンポーネント、データ構造、または他の論理構造の一部である命令を実行するように構成され得る。そのような命令は、タスクの実行、データタイプの実施、１つまたは複数のコンポーネントの状態の変換、技術的効果の達成、または他の方法で、所望の結果に到達するために実施され得る。

論理プロセッサは、ソフトウェア命令を実行するように構成された１つまたは複数の物理プロセッサ（ハードウェア）を含み得る。それに加えて、またはその代わりに、論理プロセッサは、ハードウェア実施ロジックまたはファームウェア命令を実行するように構成された１つまたは複数のハードウェア論理回路またはファームウェアデバイスを含み得る。論理プロセッサ４０２のプロセッサは、シングルコアまたはマルチコアであり得、そこで実行される命令は、シーケンシャル、並列、および／または、分散処理用に構成され得る。論理プロセッサの個々のコンポーネントは、任意選択的に、遠隔に配置された、および／または、調整された処理のために構成された、２つ以上の別個のデバイスに分散され得る。論理プロセッサの態様は、クラウドコンピューティング構成で構成された、リモートアクセス可能なネットワーク化されたコンピューティングデバイスによって、仮想化および実行され得る。そのような場合、これらの仮想化された態様は、様々な異なるマシンの異なる物理的な論理プロセッサにおいて実行されることが理解されるであろう。

不揮発性記憶デバイス４０６は、本明細書で説明された方法および処理を実施するために論理プロセッサによって実行可能な命令を保持するように構成された１つまたは複数の物理デバイスを含む。そのような方法および処理が実施されると、不揮発性記憶デバイス４０６の状態は、たとえば、異なるデータを保持するために、変換され得る。

不揮発性記憶デバイス４０６は、取外し可能および／または内蔵された物理デバイスを含み得る。不揮発性記憶デバイス４０６は、光学メモリ（たとえば、ＣＤ、ＤＶＤ、ＨＤ－ＤＶＤ、ブルーレイディスクなど）、半導体メモリ（たとえば、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリなど）、および／または、磁気メモリ（たとえば、ハードディスクドライブ、フロッピーディスクドライブ、テープドライブ、ＭＲＡＭなど）、または他の大容量記憶デバイス技術を含み得る。不揮発性記憶デバイス４０６は、不揮発性、動的、静的、読取／書込、読取専用、シーケンシャルアクセス、位置アドレス指定可能、ファイルアドレス指定可能、および／または、コンテンツアドレス指定可能なデバイスを含み得る。不揮発性記憶デバイス４０６への電力が遮断された場合でも、不揮発性記憶デバイス４０６は、命令を保持するように構成されていることが認識されるであろう。

揮発性メモリ４０４は、ランダムアクセスメモリを含む物理デバイスを含み得る。揮発性メモリ４０４は、通常、ソフトウェア命令の処理中に情報を一時的に格納するために論理プロセッサ４０２によって利用される。揮発性メモリ４０４への電力が遮断されると、揮発性メモリ４０４は通常、命令を格納し続けないことが認識されるであろう。

論理プロセッサ４０２、揮発性メモリ４０４、および不揮発性記憶デバイス４０６の態様は、１つまたは複数のハードウェア論理コンポーネントに統合され得る。そのようなハードウェア論理コンポーネントは、たとえば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラムおよび特定用途向け集積回路（ＰＡＳＩＣ／ＡＳＩＣ）、プログラムおよび特定用途向け標準製品（ＰＳＳＰ／ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、およびコンプレックスプログラマブル論理デバイス（ＣＰＬＤ）を含み得る。

「モジュール」、「プログラム」、および「エンジン」という用語は、揮発性メモリの一部を使用して、特定の機能を実行するために、プロセッサによって、通常、ソフトウェアにおいて実施されるコンピューティングシステム４００の態様を説明するために使用され得、この機能は、機能を実行するようにプロセッサを具体的に構成する変換処理を含む。したがって、モジュール、プログラム、またはエンジンは、揮発性メモリ４０４の一部を使用して、不揮発性記憶デバイス４０６によって保持される命令を実行する論理プロセッサ４０２を介してインスタンス化され得る。異なるモジュール、プログラム、および／または、エンジンが、同じアプリケーション、サービス、コードブロック、オブジェクト、ライブラリ、ルーチン、ＡＰＩ、関数などからインスタンス化され得ることが理解されるであろう。同様に、同じモジュール、プログラム、および／または、エンジンが、異なるアプリケーション、サービス、コードブロック、オブジェクト、ルーチン、ＡＰＩ、関数などによってインスタンス化され得る。「モジュール」、「プログラム」、および「エンジン」という用語は、個別またはグループの、実行可能ファイル、データファイル、ライブラリ、ドライバ、スクリプト、データベースレコードなどを含み得る。

ディスプレイサブシステム４０８が含まれる場合、ディスプレイサブシステム４０８は、不揮発性記憶デバイス４０６によって保持されるデータの視覚的表現を提示するために使用され得る。視覚的表現は、グラフィカルユーザインターフェース（ＧＵＩ）の形態をとり得る。本明細書で説明された方法および処理が、不揮発性記憶デバイスによって保持されるデータを変更し、それによって、不揮発性記憶デバイスの状態を変換するとき、ディスプレイサブシステム４０８の状態も同様に変換され、基礎となるデータの変化を視覚的に表すことができる。ディスプレイサブシステム４０８は、事実上あらゆるタイプの技術を利用する１つまたは複数のディスプレイデバイスを含み得る。そのようなディスプレイデバイスは、共有の筐体において、論理プロセッサ４０２、揮発性メモリ４０４、および／または、不揮発性記憶デバイス４０６と組み合わされ得るか、または、そのようなディスプレイデバイスは、周辺ディスプレイデバイスであり得る。

入力サブシステム４１０が含まれる場合、入力サブシステム４１０は、キーボード、マウス、タッチスクリーン、またはゲームコントローラなどの１つまたは複数のユーザ入力デバイスを備え得るか、またはそれらとインターフェースし得る。いくつかの実施形態では、入力サブシステムは、選択された自然ユーザ入力（ＮＵＩ）コンポーネントを備え得るか、またはそれとインターフェースし得る。そのようなコンポーネントは、統合または周辺化され得、入力アクションの変換および／または処理は、オンボードまたはオフボードで取り扱われ得る。例示的なＮＵＩコンポーネント類は、スピーチおよび／または音声認識用のマイクロフォンと、マシンビジョンおよび／またはジェスチャ認識用の赤外線カメラ、カラーカメラ、立体カメラ、および／または、深度カメラと、動き検出および／または意図認識のためのヘッドトラッカ、アイトラッカ、加速度計、および／または、ジャイロスコープのみならず、脳の活動を評価するための電界感知コンポーネントと、および／または、任意の他の適切なセンサとを含み得る。

通信サブシステム４１２が含まれる場合、通信サブシステム４１２は、本明細書で説明される様々なコンピューティングデバイスを相互に、および他のデバイスと通信可能に結合するように構成され得る。通信サブシステム４１２は、１つまたは複数の異なる通信プロトコルと互換性のある有線および／またはワイヤレスの通信デバイスを含み得る。非限定的な例として、通信サブシステムは、ワイヤレス電話ネットワーク、またはＨＤＭＩ（登録商標）ｏｖｅｒＷｉ－Ｆｉ接続などの有線またはワイヤレスの、ローカルエリアネットワークまたはワイドエリアネットワークを介した通信のために構成され得る。いくつかの実施形態では、通信サブシステムは、コンピューティングシステム４００が、インターネットなどのネットワークを介して他のデバイスとの間でメッセージを送信および／または受信できるようにし得る。

以下の段落は、本開示のいくつかの態様を論じている。本開示の１つの態様によれば、コンピュータシステムが提供される。コンピュータシステムは、命令を記憶する大容量記憶デバイスに結合されたプロセッサを含み得、命令は、プロセッサによる実行時に、プロセッサに対して、複数の文字で構成された元の文字列を記憶させる。

プロセッサはさらに、元の文字列に対して単語分割アルゴリズムを実行するように構成され得る。プロセッサは、元の文字列をトークン化して、スペースによって区切られた複数の単語トークンを含む処理後文字列を生成するようにさらに構成され得る。プロセッサは、処理後文字列における単語トークン内の位置と、元の文字列における対応する位置との間のオフセットマップを生成するようにさらに構成され得る。プロセッサは、処理後文字列の一部を、対象として分類するようにさらに構成され得る。プロセッサは、オフセットマップを使用して、対象に対応する元の文字列における対象文字を特定するようにさらに構成され得る。

プロセッサは、元の文字列における対象文字に対して、所定のアクションを実行するようにさらに構成され得る。

この態様によれば、所定のアクションを実行するために、プロセッサは、対象文字を強調表示すること、対象文字を難読化すること、および／または、対象文字を抽出することをするようにさらに構成され得る。

この態様によれば、元の文字列における対象文字を特定するために、プロセッサは、対象文字の開始文字オフセットインデクス値および文字長さを特定し、および／または、対象文字の開始文字オフセットインデクス値および終了文字オフセットインデクス値を特定するようにさらに構成され得る。

この態様によれば、元の文字列における対象文字を特定するために、プロセッサは、処理後文字列における対象の開始文字オフセットインデクス値および終了文字オフセットインデクス値を決定することと、処理後文字列における対象の開始文字オフセットインデクス値および終了文字オフセットインデクス値の各々のトークンインデクス値を決定することと、オフセットマップの第１のデータ構造に格納された開始文字オフセットインデクス値を使用して、元の文字列における開始トークンの開始文字オフセットインデクス値を決定することと、オフセットマップの第２のデータ構造に格納された終了文字オフセットインデクス値を使用して、終了トークンの終了文字オフセットインデクス値を決定することとをするようにさらに構成され得る。

この態様によれば、対象は、所定の機密情報データタイプの機密情報であり得る。

この態様によれば、元の文字列は、日本語、中国語、韓国語、またはタイ語の文字を含み得る。

この態様によれば、元の文字列は、電子文書または電子メッセージから抽出され得る。

この態様によれば、元の文字列は、単語分割アルゴリズムの実行後、処理後文字列に、省略された文字を含み得る。

この態様によれば、オフセットマップは、単語分割アルゴリズム中に、元の文字列において検出された各トークン単語の、元の文字列における開始文字オフセットインデクス値および文字長さを格納する第１のデータ構造と、処理後文字列における各トークンの終了文字オフセットインデクス値を格納する第２のデータ構造とを含み得、第１および第２のデータ構造の各々は、同じ数の要素を有する。

本開示の別の態様によれば、コンピュータ化された方法が提供される。コンピュータ化された方法は、複数の文字で構成された元の文字列を格納することを含み得る。コンピュータ化された方法は、元の文字列に対して単語分割アルゴリズムを実行することと、元の文字列をトークン化して、スペースによって区切られた複数の単語トークンを含む処理後文字列を生成することとをさらに含み得る。コンピュータ化された方法は、処理後文字列における単語トークン内の位置と、元の文字列における対応する位置との間のオフセットマップを生成することをさらに含み得る。コンピュータ化された方法は、処理後文字列の一部を、対象として分類することをさらに含み得る。コンピュータ化された方法は、オフセットマップを使用して、対象に対応する元の文字列における対象文字を特定することをさらに含み得る。コンピュータ化された方法は、元の文字列における対象文字に対して所定のアクションを実行することをさらに含み得る。

この態様によれば、所定のアクションを実行することは、対象文字を強調表示すること、対象文字を難読化すること、および／または、対象文字を抽出することとのうちの１つまたは複数を含み得る。

この態様によれば、元の文字列における対象文字を特定することは、対象文字の開始文字オフセットインデクス値および文字長さを特定すること、および／または、対象文字の開始文字オフセットインデクス値および終了文字オフセットインデクス値を特定することのうちの１つまたは複数を含み得る。

この態様によれば、元の文字列における対象文字を特定することは、処理後文字列における対象の開始文字オフセットインデクス値および終了文字オフセットインデクス値を決定し、処理後文字列における対象の開始文字オフセットインデクス値および終了文字オフセットインデクス値の各々のトークンインデクス値を決定し、オフセットマップの第１のデータ構造に格納された開始文字オフセットインデクス値を使用して、元の文字列における開始トークンの開始文字オフセットインデクス値を決定し、オフセットマップの第２のデータ構造に格納された終了文字オフセットインデクス値を使用して、終了トークンの終了文字オフセットインデクス値を決定することによって、少なくとも部分的に達成され得る。

この態様によれば、元の文字列は、単語分割アルゴリズムの実行後に、処理後文字列に、省略された文字を含み得る。

この態様によれば、処理後文字列における各トークンの終了文字オフセットインデクス値は、処理後文字列における各トークンの前の終了文字オフセットインデクス値と、元の文字列におけるそれぞれのトークンの長さとを使用して計算され得る。

本開示の別の態様によれば、単語を分類するように構成されたコンピュータシステムが提供される。コンピュータシステムは、検索プログラムを実行するように構成されたサーバコンピューティングデバイスを含み得、検索プログラムは、入力として機密データ定義および１つまたは複数のポリシーを受け取り、機密データ定義にしたがって、機密データの複数の元の文字列を含むデータセットを検索するように構成される。サーバコンピューティングデバイスは、複数の元の文字列から選択された元の文字列に対して、単語分割アルゴリズムを実行するようにさらに構成され得る。サーバコンピューティングデバイスは、選択された元の文字列をトークン化して、スペースによって区切られた複数の単語トークンを含む処理後文字列を生成するようにさらに構成され得る。サーバコンピューティングデバイスは、処理後文字列における単語トークン内の位置と、元の文字列における対応する位置との間のオフセットマップを生成するようにさらに構成され得る。サーバコンピューティングデバイスは、処理後文字列の一部を、対象として分類するようにさらに構成され得る。サーバコンピューティングデバイスは、オフセットマップを使用して、対象に対応する元の文字列における対象文字を特定するようにさらに構成され得る。サーバコンピューティングデバイスは、元の文字列における対象文字に対して、所定のアクションを実行するようにさらに構成され得る。

本明細書で説明された構成および／またはアプローチは、本質的に例示的なものであり、多くの変形が可能であるので、これらの特定の実施形態または例は、限定的な意味で考慮されるべきではないことが理解されるであろう。本明細書で説明された特定のルーチンまたは方法は、任意の数の処理戦略のうちの１つまたは複数を表し得る。したがって、例示および／または説明された様々な動作は、例示および／または説明された順序で、他の順序で、並行して、または省略されて実行され得る。同様に、上記で説明された処理の順序も変更され得る。

本開示の主題は、本明細書に開示される様々な処理、システム、および構成、および他の特徴、機能、動作、および／または特性の、すべての新規かつ非自明な組合せ、および部分的組合せ、ならびにそのあらゆる均等物を含む。

Claims

命令を格納する大容量記憶デバイスに結合されたプロセッサを備えたコンピュータシステムであって、前記命令は、前記プロセッサによって実行されるとき、前記プロセッサに、
複数の文字で構成された元の文字列を格納することと、
前記元の文字列に対して単語分割アルゴリズムを実行することと、
前記元の文字列をトークン化して、スペースによって区切られた複数の単語トークンを含む処理後文字列を生成することと、
前記処理後文字列における前記単語トークン内の位置と、前記元の文字列における対応する位置との間のオフセットマップを生成することと、
前記処理後文字列の一部を、対象として分類することと、
前記対象に対応する前記元の文字列における対象文字を、前記オフセットマップを使用して特定することと、
前記元の文字列における前記対象文字に対して所定のアクションを実行することと
をさせる、コンピュータシステム。
請求項１に記載のコンピュータシステムであって、前記所定のアクションを実行するために、前記プロセッサは、
前記対象文字を強調表示することと、
前記対象文字を難読化することと、
前記対象文字を抽出することと
のうちの１以上をするように構成される、コンピュータシステム。
請求項１に記載のコンピュータシステムであって、前記元の文字列における前記対象文字を特定するために、前記プロセッサは、
前記対象文字の開始文字オフセットインデクス値および文字長さを特定することと、
前記対象文字の開始文字オフセットインデクス値および終了文字オフセットインデクス値を特定することと
のうちの一方または双方をするように構成される、コンピュータシステム。
請求項１に記載のコンピュータシステムであって、前記元の文字列における対象文字を特定するために、前記プロセッサは、
前記処理後文字列における前記対象の開始文字オフセットインデクス値および終了文字オフセットインデクス値を決定することと、
前記処理後文字列における前記対象の前記開始文字オフセットインデクス値および終了文字オフセットインデクス値の各々のトークンインデクス値を決定することと、
前記オフセットマップの前記第１のデータ構造に格納された前記開始文字オフセットインデクス値を使用して、前記元の文字列における前記開始トークンの開始文字オフセットインデクス値を決定することと、
前記オフセットマップの前記第２のデータ構造に格納された前記終了文字オフセットインデクス値を使用して、終了トークンの終了文字オフセットインデクス値を決定することと
をするように構成される、コンピュータシステム。
請求項１に記載のコンピュータシステムであって、前記対象は、所定の機密情報データタイプの機密情報である、コンピュータシステム。
請求項１に記載のコンピュータシステムであって、前記元の文字列は、日本語、中国語、韓国語、またはタイ語の文字を含む、コンピュータシステム。
請求項１に記載のコンピュータシステムであって、前記元の文字列は、電子文書または電子メッセージから抽出される、コンピュータシステム。
請求項１に記載のコンピュータシステムであって、前記元の文字列は、前記単語分割アルゴリズムの実行後前記処理後文字列において省略される文字を含む、コンピュータシステム。
請求項１に記載のコンピュータシステムであって、前記オフセットマップは、
前記単語分割アルゴリズム中に、前記元の文字列において検出された各トークン単語の、前記元の文字列における開始文字オフセットインデクス値および文字長さを格納する第１のデータ構造と、
前記処理後文字列における各トークンの終了文字オフセットインデクス値を格納する第２のデータ構造と
を含み、
前記第１および第２のデータ構造の各々は、同じ数の要素を有する、
コンピュータシステム。
コンピュータ化された方法であって、
複数の文字で構成された元の文字列を格納するステップと、
前記元の文字列に対して単語分割アルゴリズムを実行するステップと、
前記元の文字列をトークン化して、スペースによって区切られた複数の単語トークンを含む処理後文字列を生成するステップと、
前記処理後文字列における前記単語トークン内の位置と、前記元の文字列における対応する位置との間のオフセットマップを生成するステップと、
前記処理後文字列の一部を、対象として分類するステップと、
前記オフセットマップを使用して、前記対象に対応する前記元の文字列における対象文字を特定するステップと、
前記元の文字列における前記対象文字に対して所定のアクションを実行するステップと
を含むコンピュータ化された方法。
請求項１０に記載のコンピュータ化された方法であって、所定のアクションを実行するステップは、
前記対象文字を強調表示するステップと、
前記対象文字を難読化するステップと、
前記対象文字を抽出するステップと
のうちの１以上のうちの１つまたは複数を含む、コンピュータ化された方法。
請求項１０に記載のコンピュータ化された方法であって、前記元の文字列における対象文字を特定するステップは、
前記対象文字の開始文字オフセットインデクス値および文字長さを特定するステップと、
前記対象文字の開始文字オフセットインデクス値および終了文字オフセットインデクス値を特定するステップと
のうちの一方または双方のうちの１つまたは複数を含む、コンピュータ化された方法。
請求項１０に記載のコンピュータ化された方法であって、前記元の文字列における対象文字を特定するステップは、
前記処理後文字列における前記対象の開始文字オフセットインデクス値および終了文字オフセットインデクス値を決定するステップと、
前記処理後文字列における前記対象の前記開始文字オフセットインデクス値および終了文字オフセットインデクス値の各々のトークンインデクス値を決定するステップと、
前記オフセットマップの前記第１のデータ構造に格納された前記開始文字オフセットインデクス値を使用して、前記元の文字列における前記開始トークンの開始文字オフセットインデクス値を決定するステップと、
前記オフセットマップの前記第２のデータ構造に格納された前記終了文字オフセットインデクス値を使用して、終了トークンの終了文字オフセットインデクス値を決定するステップと
によって少なくとも部分的に達成される、コンピュータ化された方法。
請求項１０に記載のコンピュータ化された方法であって、前記元の文字列は、電子文書または電子メッセージから抽出される、コンピュータ化された方法。
請求項１０に記載のコンピュータ化された方法であって、前記オフセットマップは、
前記単語分割アルゴリズム中に、前記元の文字列において検出された各トークン単語の、前記元の文字列における開始文字オフセットインデクス値および文字長さを格納する第１のデータ構造と、
前記処理後文字列における各トークンの終了文字オフセットインデクス値を格納する第２のデータ構造と
を含み、
前記第１および第２のデータ構造の各々は、同じ数の要素を有する、
コンピュータ化された方法。