JP2019220144A

JP2019220144A - 詐欺検出を改善するためのデータ拡張の方法、デバイス、およびシステム

Info

Publication number: JP2019220144A
Application number: JP2019039399A
Authority: JP
Inventors: セバスチャングタール; Goutal Sebastien; マキシムマークマイヤー; Marc Meyer Maxime
Original assignee: Vade Secure Inc
Current assignee: Vade USA Inc
Priority date: 2018-06-20
Filing date: 2019-03-05
Publication date: 2019-12-26
Anticipated expiration: 2039-03-05
Also published as: CA3022443C; US10997366B2; US10664656B2; US20200110806A1; US20190392038A1; JP7302987B2; CA3122744A1; US10846474B2; CA3022443A1; CA3122638C; US20200159993A1; CA3122744C; WO2019246294A1; CA3122638A1

Abstract

【課題】詐欺検出の改善における有用性を見出す拡張された電子テキスト文書を生成するためのテキスト拡張技法を提供する。【解決手段】拡張された電子テキスト文書を生成するためのテキスト拡張技法は、元のテキストを機械翻訳の複数のステップで変換し、同義語の置き換えによって変換し、ミススペルの置き換えによって変換し、元のテキストと拡張されたテキストとの間の類似測度を計算し、類似測度が閾値以上のものを拡張されたテキストとして採用する。【選択図】図２

Description

開示された実施形態の分野は、詐欺検出の改善における有用性を見出すテキスト拡張技法を包含する。本明細書では、単語「詐欺」は、電子メール、テキストメッセージ、インスタントメッセージ、または通話によって行われる場合がある任意の詐欺計画を含み、この詐欺計画の中核は、被害者に、電信送金、または機密情報の開示といった、犯罪者が望む行為を行わせるように仕向けるテキストまたは他の電子メッセージである。このような詐欺計画は、ソーシャルエンジニアリングを頼りにすることが多い。詐欺の通話はロボコールによって行うことができるため、通話は本明細書に含まれる。これらのロボコールは、録音されたボイスメッセージが音声合成器による電子テキスト文書の処理によって生成される場合があるため、本開示の範囲に含まれる。

１つの実施形態による、詐欺検出を改善するためのデータ拡張のコンピュータ実施方法のブロック図である。

１つの実施形態による、例示の有向マルチグラフの例を示す図である。

１つの実施形態による、例示の有向マルチグラフの１つの特定の実装形態を示す図である。

１つの実施形態による、電子テキスト文書のコーパスのテキスト文書内のエレメントを選択しかつ置き換えるためのコンピュータ実施方法のブロック図である。

１つの実施形態による、電子テキスト文書のコーパスのテキスト文書内の置き換えエレメントを生成しかつ選択するためのコンピュータ実施方法のブロック図である。

１つの実施形態による、元のコーパスおよび拡張コーパスを含むマージされたコーパスに基づいて詐欺検出モデルを構築するためのコンピュータシステムのブロック図である。

１つの実施形態による、詐欺検出モデルを検査するために拡張コーパスを使用するためのコンピュータシステムのブロック図である。

ある組織内で「危険な状態にある」とみなされるユーザをトレーニングするおよび／または検査するために拡張データを使用するためのコンピュータシステムのブロック図である。

実施形態が実践可能であるコンピューティングデバイスのブロック図であり、また、コンピューティングデバイスによって実行される時、本明細書に説明されかつ示される、コンピュータ実施方法および機能性を実行するように再構成されているコンピューティングデバイスとして汎用コンピュータを構成するコンピュータ可読命令を記憶するように構成される有形のコンピュータ可読媒体の例を示す図である。

詐欺の大部分は電子メールによって広がっている。例えば、前金詐欺は、少なくとも１０年前から報告されている。前金詐欺は、詐欺師が多額を得るために必要とするように、少額の前金支払額の見返りとしてかなりの大金の分け前を約束することによって受取人から詐取しようとするものである。被害者が料金を支払う場合、詐欺師は、被害者に対して一連のさらなる料金をでっちあげるか単に姿を消すかのどちらかである。このような電子テキストベース詐欺の別の例はＣＥＯ詐欺である。ＣＥＯ詐欺では、詐欺師は企業の電子メールアカウントを偽装し、かつＣＥＯ、または別の上級管理者をかたって、経理または人事の従業員をだまして、電信送金を実行させる、または源泉徴収票（Ｗ−２）の税金情報といった機密情報を送らせる。

ここにＣＥＯ詐欺の例がある。
件名：同日支払
Ｈａｒｒｙ様、
お元気ですか。あなたには、同日中に英国の私宛に支払いを行ってもらう必要があります。送金に必要となる、必須の詳細をメールで送付頂けますようお願い致します。
メールにて早急に御返答頂けると幸いです。
宜しくお願い致します。
Ｊａｃｋ

上記のように、詐欺計画の中核はテキストであり、これはひいては、このような詐欺を検出するために教師付き分類と関連付けられた自然言語処理技法に修正可能である。悪意のあるリンクおよび／または悪意のある添付ファイルが電子通信のテキストに含まれていないため、これらの詐欺は、既存の悪意のあるリンク技術および／または悪意のある添付ファイル関連技術で検出できない。自然言語処理および／または教師付き分類に基づく技術の性能は、ラベル付きデータの量および質に大きく頼っている。しかしながら、高性能の詐欺検出モデルを構築するために十分なデータを収集することは、非常に難題であり得、不可能である時もあり得る。

例えば、ＣＥＯ詐欺のケースを考慮する。ＣＥＯ詐欺は典型的には、小規模および中規模事業の人事または経理部を対象とし、この犯罪には、企業の組織および経営を徹底的に研究して現実的な詐欺の文脈を作り上げる必要があり、対象とする被害者との通話を行うような、詐欺師による追加の行為を必要とする場合がある。ＣＥＯ詐欺は、フィッシングまたはマルウェアのような脅威をより広範に普及させる可能性があるため、自動化およびスケーリングが不可能である。また、この犯罪は、実際には、スケーリングする必要はないが、これは、１回のうまく考えられた詐欺がかなりの金銭上の利益をもたらす可能性があるため、量よりも質が重要であるからである。それ故に、このような詐欺の代表例を収集することはかなり困難である。実際には、本明細書の時点で、本発明者は、３ダースのＣＥＯ詐欺の例しか収集できていない。このため、必要とされることは、ひいては、このような詐欺の実際の代表例がとてもまれな時でも、ラベル付きデータの量を拡張することで、高性能の詐欺検出モデルが構成可能となるような方法である。

多くのデータ拡張技法は、画像および発話認識におけるモデルの一般化を改善するためにある。近年、データ拡張技法は、畳み込みニューラルネットワークを頼りにする深層学習モデルの品質を向上させるために使用されている。例えば、画像認識分野において、良好なモデルは、視点、照明の変化に向けた不変性を呈示するものであり、かつ雑音に耐性を持つものである。画像認識における深層学習モデルを改善するために、データは典型的には、幾何学変換（翻訳、スケーリング、回転、フリッピング、クロッピング、弾性変形）、照明の変化、または雑音付加によって拡張される。例えば、画像に対するいくつかのデータ拡張方法は、オクルージョンおよびインペインティングに基づく。

同様に、音声認識分野では、データは、人工雑音バックグラウンドを追加すること、音声信号のトーンまたは速度を変更することによって拡張されてよい、または確率論的特徴マッピングに基づいてよい。

テキストに関して、画像および音声認識分野において行われるように信号変換を使用してデータを拡張することは、これらの変換が元のテキストの構文および意味を改変する可能性が高いため、妥当ではない。１つの提案されるアプローチは、シソーラスを使用して単語をその同義語に置き換えることである。１つのこのようなアプローチは、データセットを、元のデータセットのそれぞれの記録のメンバーシップの程度を帰属させた後の分類法として表すことによって拡張することを含む。

テキスト拡張機能
１つの実施形態は、テキストデータ拡張機能を含む。本開示における実用的な目的で、このような機能は、ＴｅｘｔＤａｔａＡｕｇｍｅｎｔａｔｉｏｎＦｕｎｃｔｉｏｎと呼ばれる。この機能は、テキスト文書ＯｒｉｇｉｎａｌＴｅｘｔを入力と取り、テキスト文書ＡｕｇｕｍｅｎｔｅｄＴｅｘｔを出力する。図１に示されるように、１つの実施形態によると、この機能は、ＯｒｉｇｉｎａｌＴｅｘｔに１…ｎの連続的変換を適用して、Ｂ１０２、Ｂ１０４に示されるように、ＡｕｇｍｅｎｔｅｄＴｅｘｔを生じさせる。行われるそれぞれの変換は、ある特定の量のランダム性を含んでよい。連続的変換後、ＯｒｉｇｉｎａｌＴｅｘｔおよびＡｕｇｍｅｎｔｅｄＴｅｘｔは比較されて、ＡｕｇｕｍｅｎｔｅｄＴｅｘｔが依然関連的であるように徹底する。使用可能である１つの計量は、ＯｒｉｇｉｎａｌＴｅｘｔとＡｕｇｕｍｅｎｔｅｄＴｅｘｔとの間の意味的類似測度である。Ｂ１０６に示されるように、類似測度は、ＯｒｉｇｉｎａｌＴｅｘｔに基づいて結果として生じるＡｕｇｕｍｅｎｔｅｄＴｅｘｔについて計算される。Ｂ１０８に示されるように、類似測度ＳｉｍＭｅａｓｕｒｅが類似測度閾値ＳｉｍＭｅａｓｕｒｅＴｈｒｅｓｈｏｌｄ以上である場合（Ｂ１０８のはいのブランチ）、拡張されたテキストはＢ１１０に示されるように維持される。他方で、ＳｉｍＭｅａｓｕｒｅが類似測度閾値ＳｉｍＭｅａｓｕｒｅＴｈｒｅｓｈｏｌｄ未満である場合（Ｂ１０８のいいえのブランチ）、連続的に変換されたＡｕｇｍｅｎｔｅｄＴｅｘｔは、Ｂ１１２に示されるように廃棄され、さらなるトーニングに使用されず、廃棄されてよい。

１つの実施形態において、行われる１…ｎの連続的変換に存在する場合があるランダム性により、機能ＴｅｘｔＤａｔａＡｕｇｍｅｎｔａｔｉｏｎＦｕｎｃｔｉｏｎは非決定論的である場合がある。例えば、以下を考慮されたい。
ＡｕｇｍｅｎｔｅｄＴｅｘｔ_０＝ＴｅｘｔＤａｔａＡｕｇｍｅｎｔａｔｉｏｎＦｕｎｃｉｔｏｎ（ＯｒｉｇｉｎａｌＴｅｘｔ）
ＡｕｇｍｅｎｔｅｄＴｅｘｔ_１＝ＴｅｘｔＤａｔａＡｕｇｍｅｎｔａｔｉｏｎＦｕｎｃｉｔｏｎ（ＯｒｉｇｉｎａｌＴｅｘｔ）

さらにまた、ＴｅｘｔＤａｔａＡｕｇｍｅｎｔａｔｉｏｎＦｕｎｃｔｉｏｎが非決定論的である場合があるため、ＡｕｇｍｅｎｔｅｄＴｅｘｔ_０≠ＡｕｇｕｍｅｎｔｅｄＴｅｘｔである可能性が非常に高い。

以下のデータを考慮されたい。

ＡｕｇｕｍｅｎｔｅｄＣｏｒｐｕｓのそれぞれの拡張テキスト文書を生じさせるために、ＴｅｘｔＤａｔａＡｕｇｍｅｎｔａｔｉｏｎＦｕｎｃｔｉｏｎの機能は、ＯｒｉｇｉｎａｌＣｏｒｐｕｓのそれぞれの元のテキスト文書に対してＡｕｇｍｅｎｔａｔｉｏｎＦａｃｔｏｒ回適用される。

変換
実施形態によると、いくつかのタイプの変換は、ＴｅｘｔＤａｔａＡｕｇｍｅｎｔａｔｉｏｎＦｕｎｃｔｉｏｎにおいて使用されてよい。これらは、例えば、
−テキストに適用される機械翻訳の複数のステップを頼りにする変換、
−例えば、
・単語または単語のグループの同義語との置き換え、
・単語または単語のグループの略語との置き換え（同様に、略語は単語または単語のグループと置き換えられる場合がある）、および／または
・単語のミススペルとの置き換えといった、テキストにおける単語または単語のグループの置き換えを頼りにする複数の変換を含む。

実施形態によると、ある特定のタイプの変換が所定の数（すなわち、０…ｎ）の回数で適用可能であることは留意されたい。変換が適用される順序は重大である場合がある。実際には、単語のミススペルとの置き換えは、テキストを正しく処理するための、その他の変換の能力に影響する場合がある。例えば、正しく綴られた単語を、ミススペルを含有する単語と置き換える変換は、ミススペルを含有する単語に対して同義語を見つけるための、後に適用される変換の能力に影響する場合がある。いくつかの変換は、ある特定の使用ケースにおいて適用されない場合がある。例えば、略語およびミススペルは、一部の略語およびミススペルがいくつかの事例では意味をなさない場合があるため、音声合成器によって生じた拡張テキスト文書の文脈において使用されないものとする。

それ故に、ＴｅｘｔＤａｔａＡｕｇｍｅｎｔａｔｉｏｎＦｕｎｃｔｉｏｎの他の実施形態は、本開示との関連において使用されてよい。図２は、１つの実施形態によるコンピュータ実施方法のフローチャートである。図２は、特に、変換Ｂ１０２…Ｂ１０４が、３つの連続した変換、すなわち、機械翻訳の複数のステップによる変換、同義語の置き換えによる変換、およびミススペルの置き換えによる変換として実装される、請求項１のコンピュータ実施方法の１つの実装形態である。従って、１つの実施形態は、テキストデータ拡張機能を含む。本開示における実用的な目的で、このような機能はＴｅｘｔＤａｔａＡｕｇｍｅｎｔａｔｉｏｎＦｕｎｃｔｉｏｎと呼ばれる。この機能は、テキスト文書ＯｒｉｇｉｎａＴｅｘｔを入力と取り、テキスト文書ＡｕｇｕｍｅｎｔｅｄＴｅｘｔを出力する。図１に示されるように、１つの実施形態によると、この機能は、ＯｒｉｇｉｎａｌＴｅｘｔに１…ｎの連続的変換を適用して、Ｂ１０２、Ｂ１０４に示されるように、ＡｕｇｍｅｎｔｅｄＴｅｘｔを生じさせる。その後、Ｂ１０６に示されるように、ＯｒｉｇｉｎａｌＴｅｘｔに基づく類似測度は、結果として生じる、連続的に変換されたＡｕｇｕｍｅｎｔｅｄＴｅｘｔについて計算されてよい。Ｂ１０８に示されるように、類似測度ＳｉｍＭｅａｓｕｒｅが類似測度閾値ＳｉｍＭｅａｓｕｒｅＴｈｒｅｓｈｏｌｄ以上である場合（Ｂ１０８のはいのブランチ）、拡張された電子テキスト文書はＢ１１０に示されるように維持される。他方で、ＳｉｍＭｅａｓｕｒｅが類似測度閾値ＳｉｍＭｅａｓｕｒｅＴｈｒｅｓｈｏｌｄ未満である場合（Ｂ１０８のいいえのブランチ）、連続的に変換されたＡｕｇｍｅｎｔｅｄＴｅｘｔは、Ｂ１１２に示されるように廃棄され、さらなるトーニングに使用されない場合がある。

ここで図２に移ると、ブロックＢ２０２は、ＯｒｉｇｉｎａＴｅｘｔに適用される複数のステップの機械翻訳を求める。結果として生じる、変換されたＯｒｉｇｉｎａＴｅｘｔは、さらにまた、Ｂ２０４に示されるように、別の変換に入力されるが、この変換では、その入力において提示される電子テキスト文書の単語の少なくともいくつかを同義語と置き換える。Ｂ２０４の変換された出力は、次いで、Ｂ２０６に示されるようにさらに別の変換に入力されてよく、それによって例えば、この入力における単語のいくつかがミススペルを含有する単語で変換される。より少ないまたはより多い数の変換が使用可能であり、他の変換が、図２に示される変換機能に加えてまたはこれの代わりに使用可能であることは、留意されたい。その後、Ｂ２０８に示されるように、ＯｒｉｇｉｎａＴｅｘｔに基づく類似測度は、結果として生じる連続的に変換されるＡｕｇｍｅｎｔｅｄＴｅｘｔに対して計算されてよい。Ｂ２１０に示されるように、類似測度ＳｉｍＭｅａｓｕｒｅが類似測度閾値ＳｉｍＭｅａｓｕｒｅＴｈｒｅｓｈｏｌｄ以上である場合（Ｂ２１０のはいのブランチ）、拡張された電子テキスト文書はＢ２１２に示されるように維持される。他方で、ＳｉｍＭｅａｓｕｒｅが類似測度閾値ＳｉｍＭｅａｓｕｒｅＴｈｒｅｓｈｏｌｄ未満である場合（Ｂ２１０のいいえのブランチ）、連続的に変換されたＡｕｇｍｅｎｔｅｄＴｅｘｔは、Ｂ２１４に示されるように廃棄される場合があり、さらなるトーニングに使用されない場合がある。

機械翻訳は、ここ数年で大幅に改善されている。この改善はニューラル機械翻訳の使用の増加によるものである。ニューラル機械翻訳は、典型的には、深層ニューラルネットワークを使用し、観察される性能は、近年に開発された深層ニューラルネットワーク関連技術の目覚ましい進歩の直接的な結果である。

機械翻訳の複数のステップによる変換
１つの実施形態は、機械翻訳の複数のステップを利用する場合があるテキスト拡張方法を含む。下記が定義される。

従って、このような複数のステップは、元のテキストを、この元の言語から別の言語に、および、その言語からさらに別の言語（単数または複数）に変換し、その後（最終的に）元の電子テキスト文書の元の言語に戻るように変換してよい。より多くのまたはより少ない数の中間のステップは行われてよい。

図３は、１つの実施形態による有向マルチグラフの例を示す。以下の制約が守れられる場合がある。
−それぞれの頂点はＬ＝（Ｌ_０、Ｌ_１、…、Ｌ_ｍ）のエレメントである。
−所与のＭＴ_ｋに対するＬ_ｉとＬ_ｊとの間のそれぞれの指向エッジは、言語Ｌ_ｉから言語Ｌ_ｊに翻訳するために所与のＭＴ_ｋ機械翻訳エンジンの容量によって定義される。この容量はまた、言語Ｌ_ｉから言語Ｌ_ｊへの翻訳が、その翻訳が十分な品質を有するものであると保証しないと機械翻訳エンジンが提言するという事実があるため、翻訳性能閾値

によって調整可能である。
−グラフは強連結されており、グラフにおける２つの別個の頂点Ｌ_ｉおよびＬ_ｊの全ての対について、Ｌ_ｉとＬ_ｊとの間に少なくとも１つの有向路がある。頂点Ｌ_ｉとＬ_ｊとの間の経路は有向路である必要はなく、ある中間の頂点またはいくつかの中間の頂点を含んでよい。

例えば、図３に示されるように、Ｌ_０からＬ_２までのＭＴ_０指向エッジは、機械翻訳エンジンＭＴ_０がＬ_０からＬ_２に翻訳可能であることを指示する。同様に、Ｌ_２からＬ_０までのＭＴ_０指向エッジは、機械翻訳エンジンＭＴ_０がＬ_２からＬ_０まで翻訳可能であることを指示する。Ｌ_３からＬ_０までのＭＴ_３指向エッジは、機械翻訳エンジンＭＴ_３がＬ_３からＬ_０まで翻訳可能であることを指示する。Ｌ_０からＬ_３までの指向エッジが存在しないため、直接Ｌ_０からＬ_３まで翻訳するのに利用可能な機械翻訳エンジンはない。Ｌ_３とＬ_１との間の有向マルチグラフにエッジが存在しないため、直接、Ｌ_３からＬ_１まで、およびＬ_１からＬ_３まで翻訳するのに利用可能な機械翻訳エンジンはない。図３の有向マルチグラフにおけるＬ_３からＬ_１まで翻訳するために、Ｌ_２を、場合によってはＬ_０を通過する経路が取られるべきである。これは、翻訳性能閾値

が所定の閾値を下回る場合があり、このことが言語Ｌ_３とＬ_１との間の利用可能な機械翻訳エンジンの性能が劣っていることを指示できることに起因する場合がある。すなわち、Ｌ_３からＬ_１まで指向エッジがないことで、低い翻訳品質指示と関連付けられる場合がある。他の関係は、このマルチグラフを検討することによって明らかにすることができる。同様に、図２の例示の有向マルチグラフは、Ｌ_０からＬ_３までの直接的な横断を認めない。頂点Ｌ_１および／またはＬ_２の中間段階などを通るその他の経路は、所与のテキスト文書を、頂点Ｌ_０と関連付けられた言語から頂点Ｌ_３と関連付けられた言語に翻訳するために取られるものとするべきである。

所与の入力された電子テキスト文書ｔは、１つの実施形態によると、頂点Ｌ_０で開始し頂点Ｌ_０で終了する有向マルチグラフを横断することによって拡張可能であり、拡張された電子テキスト文書ｖはグラフを横断する間に行われるｔの連続的な翻訳の結果である。

そのようなものの例を以下に詳述する。
−開始ノードはＬ_０であり、これは、元の電子テキストの元の言語と呼ばれてよい。Ｌ_０に隣接する頂点は、Ｌ_２などランダムに選択される。Ｌ_０からＬ_２までのエッジはさらにまた、ＭＴ_１などランダムに選択される。選択された頂点およびエッジによる翻訳を行う：

−現在のノードはここではＬ_２である。Ｌ_２に隣接する頂点は、Ｌ_３などランダムに選択される。Ｌ_２からＬ_３までのエッジは、ＭＴ_２などランダムに選択される。機械翻訳エンジンＭＴ_２を使用するＬ_２からＬ_３までの翻訳はさらにまた行われる：

−ここで、現在のノードはＬ_３である。Ｌ_３に隣接する頂点はＬ_０などランダムに選択される。Ｌ_３からＬ_０までのエッジはさらにまた、ＭＴ_３などランダムに選択される。次いで、この翻訳が行われる。すなわち、

−現在のノードは再びＬ_０であり、最後の変換ｕの出力はここで、拡張された電子テキスト文書ｖとして使用されてよい：ｖ＜ｕ

このように、元の電子テキスト文書は、少なくとも１つの機械翻訳エンジンを使用して繰り返し翻訳されてよく、それによって、それぞれの翻訳されたテキスト文書は、元の電子テキスト文書の元の言語に戻すように最後に翻訳された電子テキスト文書を再翻訳する前に許可されるように有向マルチグラフを横断することによって、別の言語への後続の翻訳の基礎として使用されるようにする。

さらなる実施形態によると、例えば、以下のような方策が適用されてよい。
−頂点（Ｌ_１、…、Ｌ_ｍ）は探索されているとしてマーキングされてよく、同じ頂点を２回（または別の所定の回数）探索することを回避するための制約が課せられる。
−

を、Ｌ_ｉからＬ_ｊまでのエッジの選定時の基準またはその他の翻訳品質指示として使用する。
−確率分布Ｐを利用して次の頂点を選定する。例えば、｛Ｌ_ｉ０、…、Ｌ_ｉｑ｝と記される、Ｌ_ｉに隣接する頂点にわたる均一の分布は、Ｐ〜Ｕｎｉｆ｛０、ｑ｝となるように使用されてよい。または、

が頂点の重みとみなされる場合、頂点に隣接するそれらｑ＋１は、重みを減少させることによってリストにおいて順序付けられてよく、パラメータｐの幾何（または、均一、ガウス、ポアッソン、もしくはその他の）分布が使用されてよく：Ｐ〜Ｇｅｏｍ（ｐ）、これは、相対的に、他の隣接する頂点に対して低いＴｒａｎｓｌａｔｅＰｅｒｆ性能を有する頂点を選定する確率が、順序付けられたリストにおけるその位置を低下させるように徹底して、より良く機能する翻訳エンジンが、比較的機能が劣る翻訳エンジンに対して好ましくは選定されるように徹底する。
他の方策は案出されかつ選択的に適用されてよい。

図４は、Ｌ_０は英語であり、Ｌ_２はフランス語であり、Ｌ_３はスペイン語である、図３の有向マルチグラフに対してパターン化された有向マルチグラフである。この例では横断しない頂点Ｌ_１は、例えばドイツ語といったその他の言語と関連付けられてよい。電子テキスト文書ｔを考慮されたい。
＄４５，０００の電信送金による支払を至急処理して頂けますようお願い致します。
これは商法弁護士からの緊急の請求書です。
銀行決済指示書を添付致します。
宜しくお願い致します。
Ｗｉｌｌｉａｍ

電子テキスト文書ｔ、［００３３］に説明されるグラフ横断経路、および図４の有向マルチグラフを参照して、以下の連続的変換が行われる。

後述されるように、言語変換以外の変換を含む他の連続的変換は行われてよい。

置き換えでテキストを拡張することによる変換
１つの実施形態によると、テキストは、テキストのエレメントを他のエレメントに置き換えることによって拡張されてよい。以下の変換が定義可能である。
−ＳｙｎｏｎｙｍＲｅｐｌａｃｅｍｅｎｔ：単語または単語のグループは同義語と置き換え可能である。
−ＡｂｂｒｅｖｉａｔｉｏｎＲｅｐｌａｃｅｍｅｎｔ：単語または単語のグループは略語と置き換え可能である（同様に、略語を単語または単語のグループと置き換えできる）。
−ＥｎｔｉｔｙＲｅｐｌａｃｅｍｅｎｔ：名前または金銭額などのエンティティは、別の同様のエンティティと置き換え可能である。
−ＭｉｓｓｐｅｌｌｉｎｇＲｅｐｌａｃｅｍｅｎｔ：単語はミススペルと置き換え可能である。

ＳｙｎｏｎｙｍＲｅｐｌａｃｅｍｅｎｔ変換
同義語は、同じ言語における別の単語または単語のグループと全くまたはほぼ同じ意味を持つ単語または単語のグループである。この変換は恐らく、利用可能なデータ拡張技法に関して最も直観的なものである。以下の表には同義語のいくつかの例が列挙されている。

ＡｂｂｒｅｖｉａｔｉｏｎＲｅｐｌａｃｅｍｅｎｔ変換
略語は、単語または単語のグループの短い形態である。略語が頭字語を含むことに留意されたい。頭字語は、単語のグループのそれぞれの単語の最初の文字から形成される単語である。以下の表には略語のいくつかの例が列挙されている。

ＥｎｔｉｔｙＲｅｐｌａｃｅｍｅｎｔ変換
エンティティは、電子テキスト文書に存在し、かつ置き換えがテキストの意味に影響しないエレメントである。エンティティの例には以下が挙げられる（がこれらに限定されない）。
−個人の名前、
−個人の苗字、
−金銭額、
−日付、および
−電話番号

名前エンティティおよび金銭額エンティティそれぞれに対する変換は、ＦｉｒｓｔＮａｍｅＥｎｔｉｔｙＲｅｐｌａｃｅｍｅｎｔおよびＦｉｎａｎｃｉａｌＡｍｏｕｎｔＥｎｔｉｔｙＲｅｐｌａｃｅｍｅｎｔという名称であってよい。名前エンティティは以下の表などに示されるように、同性の別の名前と置き換えられる場合がある。

金銭額エンティティは、値が同様である別の金銭額と置き換えられる場合があり、以下の表に示されるように、丸められるおよび／または別の通貨に変換される場合がある。

ＭｉｓｓｐｅｌｌｉｎｇＲｅｐｌａｃｅｍｅｎｔ変換
ミススペルは電子テキスト文書ではかなり一般的である。
−ミススペルは偶発的なものが多い。
−ミススペルは、書き手によって書き込まれた言語における知識不足から生じる可能性がある。
−ミススペルは、テキストをタイプするために使用されるデバイスから生じる可能性がある。例えば、《ａｂｄ》はＡｚｅｒｔｙおよびＱｗｅｒｔｙキーボード上の《ａｎｄ》の一般的なミススペルであるが、これは《Ｂ》が《Ｎ》のキーに近いからである。
さらに、ミススペルは詐欺との関連においてかなり一般的であるが、これは、ａ）それらが緊急という意味を伝え、かつｂ）これらが従来、テキスト分析に基づくセキュリティ技術を逃れるために従来使用されるからである。
以下の表はミススペルの数個の例を示す。

例えば、次の電子テキスト文書を考慮されたい。
至急（ｉｍｍｅｄｉａｔｅｌｙ）、＄４５，０００の銀行送金を進めて頂けますようお願い致します。
これは商法弁護士からの緊急の請求書です。
銀行決済指示書を添付致します。
宜しくお願い致します。
Ｗｉｌｌｉａｍ

複数の置き換えを適用することによって、以下の拡張された電子テキスト文書が生じる。
至急（ｉｍｍｅｄｉａｔｌｙ）、＄４７，２００の銀行送金を進めて頂けますようお願い致します。
これは商法弁護士からの緊急の請求書です。
銀行決済指示書を添付致します。
宜しくお願い致します。
Ｊｏｈｎ

真上の拡張された電子テキスト文書を生成するために、以下の置き換えが行われた。

このような拡張された電子テキスト文書は、元の電子テキスト文書の一般的な意味、特色、および構文を保持するが、例えば、ＣＥＯ詐欺を検出可能である教師付き学習モデルのトレーニングのための既存の詐欺のラベル付きのデータコーパスに良好な候補が追加される。

置き換え変換
１つの実施形態によると、要素のタイプによって、ある種の置き換え変換が行われ得る。

１つの実施形態による置き換え変換は、ソースσを含むことができ、このソースは、エレメントｅを仮定すると、潜在的な置き換えｒ_ｅのリスト、および関連計量μを提供する。１つの実施形態によると、計量μはｅのｒ_ｅとの置き換えをスコア付けする。
−スコアは［０、１］間隔の連続値である。
−スコアが高いほど、置き換えｒ_ｅはｅに近くなる。

１つの実施形態では、最小・最大正規化といった正規化機能を使用して、計量がスコアに前述の性質を与えるように徹底することができる。

以下は、それぞれの変換についてのソースおよび計量の例である。ソースが計量を提供しない場合、計量は定義ごとに０に戻ることに留意されたい。

以下のデータが定義される。

図５および図６は、１つの実施形態による、データ拡張に対してエレメントを選択しかつ置き換えるためコンピュータ実施方法のフローチャートである。ここに示されるように、ブロックＢ５０２は置き換えられる電子テキスト文書からエレメント｛ｅ_ｉ、…、ｅ_ｊ｝を選択することを求める。上記の表に示されるように、１つの実施形態は、確率分布Ｐを仮定して、変換可能である電子テキスト文書ｔから同じタイプＴのエレメント｛ｅ_０、…、ｅ_ｋ｝のリストを特定し、かつ変換されるそれらのｌをランダムに選択することを求める。例えば、ｋ＋１にわたる均一の分布は、この目的：Ｐ〜Ｕｎｉｆ｛０、ｋ｝に使用可能である。形式上、これは、図５におけるブロックＢ５０２に示されるように、｛ｅ_ｉ、…、ｅ_ｊ｝←サイズｌのｓｅｌｅｃｔＥｌｅｍｅｎｔｓ（ｔ、Ｐ）として表されてよい。その後、ブロックＢ５０４〜Ｂ５０６（選択されたエレメント｛ｅ_ｉ、…、ｅ_ｊ｝の数に応じた、機能ブロックの変数）の置き換えは、機能ｓｅｌｅｃｔＲｅｐｌａｃｅｍｅｎｔを評価することによってエレメントｅ_ｉ〜ｅ_ｊに対して選択される。１つの実施形態によると、上記の表に詳述されるｓｅｌｅｃｔＲｅｐｌａｃｅｍｅｎｔ機能は、選択されたエレメントに対する置き換えを連続的に選択するために使用されてよい。ｓｅｌｅｃｔＲｅｐｌａｃｅｍｅｎｔ機能の１つの実施形態は、図６に示され、かつエレメントｅを仮定して、潜在的な置き換え｛ｒ_ｅ、０、…、ｒ_ｅ、ｎ｝のリストは、Ｂ６０２に示されるように、ｅに対するｇｅｎｅｒａｔｅＲｅｐｌａｃｅｍｅｎｔｓアルゴリズムを使用して、ソースσから生成されるように構成可能である。

Ｂ６０４に示されるように、ｅのそれぞれの置き換えｒ_ｅ、ｉの値はさらにまた、計算可能である。１つの実施形態によると、ｅのそれぞれの置き換えｒ_ｅ、ｉの値は、距離関数μおよびｅｖａｌｕａｔｅＲｅｐｌａｃｅｍｅｎｔ機能を使用して計算されてよい。このようなｅｖａｌｕａｔｅＲｅｐｌａｃｅｍｅｎｔ機能は、上記の表に示されるように、形式上、

と表される距離関数μによって与えられるエレメントｅの置き換えｒ_ｅと関連付けられた値

を返すように構成可能である。１つの実施形態では、潜在的な置き換え｛ｒ_ｅ、０、…、ｒ_ｅ、ｎ｝のリストは、さらにまた、例えば、Ｂ６０６に示されるように、それらのそれぞれの

の値を減少させることによってソート可能である。その後、潜在的な置き換え｛ｒ_ｅ、０、…、ｒ_ｅ、ｎ｝のリストへの指数ｋ∈｛０、ｎ｝は、ブロックＢ６０８によって求められるように、確率分布Ｐ_１を仮定してランダムに選択されてよい。例えば、パラメータｐの幾何（または、均一、ガウス、ポアッソン、またはその他の）分布：Ｐ_１〜Ｇｅｏｍ（ｐ）が使用されてよく、これによって、ソートされたリストにおける価値が高い潜在的な置き換えが、比較的価値がより低い潜在的な置き換えより選択される可能性が高くなるように徹底する。さらにまた、リストの指数ｋにおける選定されたエレメント

は、Ｂ６１０において示されるように、選択された置き換えとして返されてよい。上記の表に示されるように、そのようなものは形式上、

と表される場合がある。ここで図５に戻ると、選択されたエレメントはさらにまた、ブロック５０８によって求められるように、選択された置き換えと置き換えられてよい。１つの実施形態によると、ｒｅｐｌａｃｅＥｌｅｍｅｎｔｓ機能は、元の電子テキスト文書ｔ、置き換えられるエレメント｛ｅ_ｉ、…、ｅ_ｊ｝のリスト、およびそれらの置き換え

を取るように定義されてよく、形式上、

と表される、拡張された電子テキスト文書ｖを返し、長さ１＋１のＬ←ｓｅｌｅｃｔＲｅｐｌａｃｅｍｅｎｔ（ｔ、Ｐ）および

である。

拡張された電子テキスト文書の検証
１つの実施形態では、モデルの一般化を改善することを徹底するためにもたらされる、それぞれの生成された拡張された電子テキスト文書ＡｕｇｕｍｅｎｔｅｄＣｏｒｐｕｓを検証する。例えば、拡張された電子テキスト文書が雑音が大きすぎると判断される場合、拡張されたデータがもたらされるモデルの一般化を改善する可能性が低いため、廃棄される。機械学習の場合、検証では、拡張された電子テキスト文書のラベルが元の電子テキスト文書のラベルを保存することが徹底される。この目的のために、検証モジュールは、元のテキスト文書を仮定して拡張された電子テキスト文書の検証を分析することができるものとする。このような検証方法は、比較計量を出力するように構成される任意の計量および方法を包含することができる。以下の表に記載されるＣｏｍｐａｒｅ（比較）機能を考慮されたい。

拡張された電子テキスト文書は、Ｓ≧Ｔである時かつその時に限り維持されることになり、Ｓ＝Ｃｏｍｐａｒｅ（ｔ、ｖ）である。すなわち、１つの実施形態によると、拡張されたテキストは、（０が完全に異なる電子テキスト文書を指示し、１が電子テキスト文書の完全な類似を指示する、０と１との間の）類似測度Ｓの値が、選定されたＣｏｍｐａｒｅ方法と関連付けられた類似閾値以上である時かつその時に限り維持されることになり、類似測度は選択されたＣｏｍｐａｒｅ方法を、元の電子テキスト文書ｔおよび拡張された電子テキスト文書ｖに適用した結果である。

Ｃｏｍｐａｒｅアルゴリズムは、１つまたは複数の類似アルゴリズムＡによって与えられた１つまたは複数の類似測度Ｓ_Ａの計算を活用する。このような類似アルゴリズムの２つの実施形態は、２つのテキストの類似を比較する多くのやり方が存在し、かつ全てが本開示に包含されるため、本実施形態がそれらの２つのアルゴリズム系に限定されないことを理解した上で、ここに提示される。

意味的類似
意味的類似は、２つの文章の間の意味の近さの観念を捉え、これは、思い浮かぶ類似の第１の着想であることが多く、そのように、構文的類似より好ましいことが多い。しかしながら、この意味的観念を捉えることはより困難であるため、意味的類似によって与えられる結果は、構文的類似によって与えられる結果より正確でない場合がある。

実施形態は意味的類似を判断するいずれの１つの方法にも限定されない。このような方法は、知識源である存在論の観念、すなわち、互いに連結される一組の概念を頼りにする場合がある。たいていの場合、存在論は、分類法を形成するために階層的に順序付けられることになる。この存在論を仮定して、類似の計量は、例えば、比較される２つの概念の間の経路長を考慮することによって、抽出される場合がある。１つの実施形態は、意味的類似測度を、単独で、または構文的類似測度と共に使用する。
構文的類似
１つの実施形態は、構文的類似測度を、単独で、または意味的類似測度と共に使用する。構文的類似計量は、２つの電子テキスト文書の間の構文的類似を測定する。例えば、２つの文章におけるそれぞれの単語の品詞タグを仮定して、それらの２つの文章のコサイン類似度を算出することが可能である。この結果は、文章の意味論上の意味と無関係であるが、これらの文章がどのように構成されているかに密接に関連している。

実施形態の使用ケース
詐欺検出との関連において、データ拡張実施形態は、詐欺ラベル付きデータコーパスのサイズを増大させるために適用されてよい。本明細書に提示されるデータ拡張実施形態はラベル保存変換である。また相互に、これらの実施形態は、非詐欺ラベル付きデータコーパスのサイズを拡張するために適用されてよい。このようなデータ拡張技法のいくつかの使用ケースは本明細書に提示される。本明細書において、用語「コーパス」が詐欺ラベル付きデータコーパス、非詐欺ラベル付きデータコーパス、またはこの両方共に言及する場合があることは留意されたい。

元のコーパスと拡張コーパスとをマージして詐欺検出モデルを構築する
この例示の実施形態では、元のコーパスおよび拡張コーパスは共にマージされて、詐欺検出モデルを構築する。図７を参照すると、これを行うために、本明細書に説明されかつ示されるように、元のコーパス７０２は７０３で拡張されて、拡張コーパス７０４をもたらす。元のコーパス７０２および拡張コーパス７０４はさらにまた、７０６でマージされて、マージされたコーパス７０８をもたらし、このコーパスは７１０でモデル７１２を生成するために使用される。

詐欺検出モデルの検査
図８のブロック図に示されるように、元のコーパス８０２を８０６で使用して、モデル８１０を構築することができる。元のコーパスはこの場合、検証目的のために、拡張コーパスに頼らずモデル８１０を構築するために使用される。元のコーパス８０２は、８０４で拡張されて拡張コーパス８０８を生成することができ、これはまた、８１２においてモデル８１０を検査するために使用される。これは８１４において検査結果をもたらす。

拡張データを使用して、組織内で危険な状態にあるユーザをトレーニングおよび／または検査する
この使用ケースでは、拡張されたデータセットを使用して組織内で危険な状態にあるユーザをトレーニングおよび／または検査することができる。認識を高めるためのシミュレーションの攻撃によって従業員をトレーニングすることは、特に、フィッシング攻撃との関連において、ますます実用的になっている。組織内のユーザは、以下の基準の１つまたは複数を満たす場合、ＣＥＯ詐欺などの高度な詐欺に対して危険な状態にあるとみなされる場合がある。
−ユーザは機密情報に直接または間接的にアクセスしている。
−ユーザは組織の銀行口座に直接または間接的にアクセスしている。
−ユーザの職業上の詳細（組織内の地位、電子メールアドレス、電話番号、インスタントメッセージ識別子…）はインターネット上で公開されている。

危険な状態にあるとみなされるユーザのトレーニングおよび／または検査は、電子メールによってだけでなく、インスタントメッセージ、テキストメッセージ、またはさらにはボイスメッセージなどの他の電子通信手段によっても行われてよい。図９に示されるように、組織内の危険な状態にあるユーザをトレーニングするために、１つの実施形態によると、元のコーパス９０２は９０４で拡張されて拡張コーパス９０６をもたらす。図９に示されるように、元のコーパス９０２および拡張コーパス９０６は９０８でマージされて、マージされたコーパス９１０をもたらす。組織内のユーザ９１２は評価され、かつ該ユーザから、例えば、上で列挙した基準を使用して、危険な状態にあるユーザ９１６が９１４で選択される。マージされたコーパス９１０をさらにまた使用して、９１８に示されるように、１つまたはいくつかの電子通信モダリティを使用して、危険な状態にあるユーザ９１６をトレーニングおよび／または検査することができる。９１８におけるこのトレーニングおよび／または検査は、結果９２０を生成し、これらは収集される。さらにまた、結果９２０に応じてこれらの危険な状態にあるユーザの認識を改善するためのさらなる措置が講じられてよい。

従って、１つの実施形態では、テキスト文書のコーパスの元の電子テキスト文書を拡張するためのコンピュータ実施方法は、メモリを有するコンピュータにおいて元の電子テキスト文書を受信することと、少なくとも１つの機械翻訳エンジンを使用して、受信された元の電子テキスト文書を繰り返し翻訳することで、それぞれの翻訳された電子テキスト文書が、元の電子テキスト文書の元の言語に戻すように最後に翻訳された電子テキスト文書を再翻訳する前に別の言語への後続の翻訳の基礎として使用されるようにすることと、再翻訳された電子テキスト文書を、これにおける少なくとも１つの単語を選択しかつ対応する同義語をそれぞれの選択された単語の代用にして、同義語に置き換えられた電子テキスト文書を生成することによって変換することと、同義語に置き換えられた電子テキスト文書を、これにおける少なくとも１つの単語を選択しかつ対応するミススペルの単語をそれぞれの選択された単語の代用にして、拡張された電子テキスト文書を生成することによって変換することと、元の電子テキスト文書と拡張された電子テキスト文書との間の類似測度を計算することと、計算された類似測度が少なくとも所定の類似閾値程度であるかどうかを判断することと、計算された類似測度が少なくとも所定の類似閾値程度である場合、拡張された電子テキスト文書をメモリに維持しかつ記憶し、計算された類似測度が所定の類似閾値未満であると判断される場合、拡張された電子テキスト文書をメモリに記憶しないことと、を含むことができる。

さらなる実施形態によると、繰り返し翻訳すること、再翻訳された電子テキスト文書を変換すること、および同義語に置き換えられた電子テキスト文書を変換することは、順番に逐次的に行われてよい。翻訳するステップおよび変換するステップのそれぞれは、所定の回数逐次的に行われるように構成されてよい。コンピュータ実施方法は、再翻訳されたまたは同義語に置き換えられた電子テキスト文書において１つまたは複数の単語を選択し、かつ選択された単語（複数可）のそれぞれを対応する略語と置き換えることをさらに含んでよい。繰り返し翻訳すること、再翻訳された電子テキスト文書を変換すること、および／または同義語に置き換えられた電子テキスト文書を変換することは、本質的に非決定論的であってよい。類似測度を計算することは、元の電子テキスト文書と拡張された電子テキスト文書との間の少なくとも意味的および／または構文的類似測度を計算することを含むことができる。方法は、再翻訳されたまたは同義語に置き換えられた電子テキスト文書において１つまたは複数のエンティティを選択し、かつ選択されたエンティティ（複数可）を置き換えエンティティ（単数または複数）と置き換えることをさらに含んでよい。選択されたエンティティ（複数可）は、個人の名前、個人の苗字、金銭額、日付、および／または電話番号を含んでよい。他のエンティティは、電子テキスト文書の特質、主題、産業などに従って、選択されかつ置き換えられてよい。

別の実施形態はまた、複数の頂点のそれぞれの頂点が別々の言語と関連付けられる有向マルチグラフを確立することであって、それぞれの頂点は、許容可能な性能を有する指向エッジによって連結される頂点と関連付けられた言語間を翻訳するための、機械翻訳エンジンの能力を指示する指向エッジによって複数の頂点の少なくとも１つの他のものに連結される、確立することと、確立された有向マルチグラフをコンピュータのメモリに記憶することと、所定の元の頂点に連結される指向エッジによって指し示される複数の頂点の中間の頂点をランダムに選択し、かつ機械翻訳エンジンに、元の電子テキスト文書を元の言語から選択された頂点と関連付けられた言語に翻訳させることによって、元の電子テキスト文書の元の言語と関連付けられた所定の元の頂点で開始して記憶された有向マルチグラフを横断することと、所定の元の頂点が選択され、かつ先に翻訳された電子テキスト文書が元の言語に再翻訳されるまで、機械が先に翻訳された電子テキスト文書を複数の頂点のランダムに選択された隣り合う頂点と関連付けられた言語に翻訳する度に、複数の頂点の、中間の頂点から連続的な他の隣り合って連結される頂点まで指向エッジによって許可されるように（すなわち、矢印の方向に）、コンピュータのメモリに記憶された有向マルチグラフを横断し続けることと、拡張された電子テキスト文書としてコンピュータのメモリに再翻訳された電子テキスト文書を記憶することと、を含むことができるコンピュータ実施方法である。

本発明のコンピュータ実施方法はまた、横断した頂点をマーキングすることと、マーキングした頂点を所定の回数より多く横断しないようにすることとをさらに含んでよい。方法は、隣接する頂点の間のそれぞれの有向エッジを品質指示と関連付けることをさらに含むことができ、少なくとも２つの隣接する頂点が横断に利用可能である時に横断させる隣り合う頂点の選択は、少なくとも部分的に品質指示に依存する場合がある。隣り合う頂点のランダムな選択は、より低い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率が、比較的より高い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率より低くなるように行われてよい。方法は、１つの実施形態によると、関連付けられた品質指示の所定の分布において隣り合う頂点の有向エッジのそれぞれを適合させることをさらに含むことができる。隣り合う頂点をランダムに選択することは、所定の分布において、より低い品質指示ではなくより高い品質指示と関連付けられた有向エッジによって、連結される隣り合う頂点を優先的に選択することをさらに含んでよい。

さらに別の実施形態によると、コンピュータ実施方法は、コンピュータのメモリにおいて電子テキスト文書を提供しかつ記憶し、提供された電子文書から拡張された電子文書を、
提供された電子テキスト文書においてエレメントを選択すること、
選択されたエレメントのタイプの潜在的な置き換えエレメントのソースから潜在的な置き換えエレメントのリストを生成すること、
所定の計量を使用して潜在的な置き換えエレメントのリストにおけるそれぞれの潜在的な置き換えエレメントの値を算出すること、
算出された値の高いものから順に潜在的な置き換えエレメントのリストにおける潜在的な置き換えエレメントの値をランク付けすること、
確率分布を仮定して潜在的な置き換えエレメントのランク付けリストへの指数をランダムに選択することで、より高くランク付けされた潜在的な置き換えエレメントと関連付けられた指数が、選定された確率分布に応じて、比較的より低くランク付けされた潜在的な置き換えエレメントと関連付けられた指数より選択される可能性がより高くなり得る、ランダムに選択すること、および
提供された電子テキスト文書における選択されたエレメントをランダムに選択された指数における潜在的な置き換えエレメントと置き換えることを反復的に行うことによって、生成することを含んでよい。

確率分布は、例えば、幾何、ガウス、ポアッソン、またはその他の確率分布であってよい。

別の実施形態は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに結合される少なくとも１つのデータ記憶デバイスと、少なくとも１つのプロセッサおよびコンピュータネットワークに結合されるネットワークインターフェースと、電子テキスト文書のコーパスの元の電子テキスト文書を拡張するために少なくとも１つのプロセッサによってスポーンされる複数のプロセスとを含むコンピューティングデバイスである。プロセスは、少なくとも１つの機械翻訳エンジンを使用して元の電子テキスト文書を繰り返し翻訳することで、それぞれの翻訳されたテキスト文書は、最後に翻訳された電子テキスト文書を元の電子テキスト文書の元の言語に戻すように再翻訳する前に別の言語への後続の翻訳のための基礎として使用されるようにすること、再翻訳された電子テキスト文書を、これにおける少なくとも１つの単語を選択し、かつ対応する同義語をそれぞれの選択された単語の代用にして、同義語に置き換えられた電子テキスト文書を生成することによって変換すること、同義語に置き換えられた電子テキスト文書を、これにおける少なくとも１つの単語を選択し、かつ対応するミススペルの単語をそれぞれの選択された単語の代用にして、拡張された電子テキスト文書を生成することによって変換すること、元の電子テキスト文書と拡張された電子テキスト文書との間の類似測度を計算すること、計算された類似測度が少なくとも所定の類似閾値程度であるかどうかを判断すること、計算された類似測度が少なくとも所定の類似閾値程度である場合、拡張されたテキストをデータ記憶デバイスに維持しかつ記憶し、計算された類似測度が所定の類似閾値未満である場合、拡張された電子テキスト文書を廃棄し、データ記憶デバイスに記憶しないことを行うための処理論理回路を含むことができる。

１つの実施形態によると、繰り返し翻訳する、再翻訳されたテキストを変換する、および同義語に置き換えられた電子テキスト文書を変換するための処理論理回路は、順番に逐次的に行われてよい。翻訳するステップおよび変換するステップのそれぞれに対する処理論理回路は、所定の回数逐次的に実行されるように構成されてよい。処理論理回路は、再翻訳されたまたは同義語に置き換えられた電子テキスト文書において１つまたは複数の単語を選択し、かつ選択された単語（複数可）を対応する略語（単数または複数）と置き換えるために提供可能である。少なくとも繰り返し翻訳する、再翻訳されたテキストを変換する、および同義語に置き換えられた電子テキスト文書を変換するための処理論理回路は、非決定論的であってよい、すなわち、同じ入力が供給されるにもかかわらず同じ出力がもたらされない場合がある。類似測度を計算するための処理論理回路は、元の電子テキスト文書と拡張された電子テキスト文書との間の意味的および／または構文的（および／またはその他の）類似測度を計算するための処理論理回路を含むことができる。処理論理回路は、再翻訳されたまたは同義語に置き換えられた電子テキスト文書において１つまたは複数のエンティティを選択し、かつ選択されたエンティティ（複数可）を置き換えエンティティ（単数または複数）と置き換えるためにさらに提供されてよい。選択されたエンティティ（複数可）は、無数の可能性のうちのほんのいくつかを特定するために、個人の名前、個人の苗字、金銭額、日付、および／または電話番号を含んでよい。

別の実施形態は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに結合される少なくとも１つのデータ記憶デバイスと、少なくとも１つのプロセッサおよびコンピュータネットワークに結合されるネットワークインターフェースと、電子テキスト文書のコーパスの元の電子テキスト文書を拡張するために少なくとも１つのプロセッサによってスポーンされる複数のプロセスとを含むコンピューティングデバイスである。プロセスは、複数の頂点のそれぞれの頂点が別々の言語と関連付けられてよい有向マルチグラフをデータ記憶デバイスに確立しかつ記憶することであって、それぞれの頂点は、許容可能な性能を有する指向エッジによって連結される頂点と関連付けられた言語間を翻訳するための、機械翻訳エンジンの能力を指示する指向エッジによって複数の頂点の少なくとも１つの他のものに連結される、確立しかつ記憶することと、所定の元の頂点に連結される指向エッジによって指し示される複数の頂点の中間の頂点をランダムに選択し、かつ機械翻訳エンジンに、元の電子テキスト文書を元の言語から選択された頂点と関連付けられた言語に翻訳させることによって、元の電子テキスト文書の元の言語と関連付けられた所定の元の頂点で開始して有向マルチグラフを横断することと、所定の元の頂点が選択され、かつ先に翻訳された電子テキスト文書が元の言語の再翻訳されるまで、先に翻訳された電子テキスト文書を複数の頂点のランダムに選択された隣り合う頂点と関連付けられた言語に翻訳する度に、複数の頂点の、中間の頂点から連続的な他の隣り合って連結される頂点まで指向エッジによって許可されるように、有向マルチグラフを横断し続けることであって、再翻訳された電子テキスト文書は拡張された電子テキスト文書として指定される、横断し続けることと、拡張された電子文書をデータ記憶デバイスに記憶することとを行うための処理論理回路を含むことができる。

処理論理回路は、拡張された電子テキスト文書を使用して詐欺行為の通信を検出するためのモデルをトレーニングおよび／または検査するために提供可能である。処理論理回路は、横断した頂点をマーキングすることと、マーキングした頂点を所定の回数より多く横断しないようにすることとを行うようにさらに構成されてよい。処理論理回路は、隣接する頂点の間のそれぞれの有向エッジを品質指示と関連付けるために提供可能であり、少なくとも２つの隣接する頂点が横断に利用可能である時に横断させる隣り合う頂点の選択は、少なくとも部分的に品質指示に依存する。隣り合う頂点のランダムな選択は、より低い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率が、比較的より高い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率より低くなるように行われてよい。１つの実施形態は、関連付けられた品質指示の所定の分布において隣り合う頂点の有向エッジのそれぞれを適合させるための処理論理回路をさらに含むことができ、隣り合う頂点をランダムに選択することは、所定の分布において、より低い品質指示ではなくより高い品質指示と関連付けられた有向エッジによって、連結される隣り合う頂点を優先的に選択することをさらに含んでよい。

図１０は、実施形態が実施可能である、クライアントコンピューティングデバイス、電子メール（電子メッセージ）サーバなどのコンピューティングデバイスのブロック図を示す。図１０のコンピューティングデバイスは、情報を通信するためのバス１００１または他の通信機構、および情報を処理するためにバス１００１と結合される１つまたは複数のプロセッサ１００２を含んでよい。コンピューティングデバイスは、プロセッサ（複数可）１００２によって実行される情報および命令を記憶するためにバス１００１に結合される（メインメモリと称される）ランダムアクセスメモリ（ＲＡＭ）または他の動的記憶デバイス１００４をさらに含むことができる。（本明細書では、信号それ自体および波形を除外する用語として、有形のおよび非一時的な）メインメモリ１００４はまた、プロセッサ１００２によって命令の実行中に一時的な変数または他の中間情報を記憶するために使用されてよい。図１０のコンピューティングデバイスは、プロセッサ（複数可）１００２に対する静的情報および命令を記憶するためにバス１００１に結合される、読み出し専用メモリ（ＲＯＭ）および／または他の静的記憶デバイス１００６を含むこともできる。磁気ディスクおよび／またはソリッドステートデータ記憶デバイスなどのデータ記憶デバイス１００７は、図１〜図９に関連して示されかつ開示される機能性を実行するために必要とされることなどが考えられる情報および命令を記憶するためにバス１００１に結合されてよい。コンピューティングデバイスは、コンピュータユーザに情報を表示するためのディスプレイデバイス１０２１にバス１００１介して結合されてもよい。英数字および他のキーを含む英数字入力デバイス１０２２は、情報およびコマンド選択をプロセッサ（複数可）１００２に通信するためにバス１００１に結合されてよい。別のタイプのユーザ入力デバイスは、方向情報およびコマンド選択をプロセッサ（複数可）１００２に通信するための、およびディスプレイ１０２１上のカーソル移動を制御するための、マウス、トラックボール、またはカーソル方向キーといったカーソル制御１０２３である。図１０のコンピューティングデバイスは、通信インターフェース（例えば、モデム、ネットワークインターフェースカード、またはＮＩＣ）１００８を介してネットワーク１０２６に結合されてよい。

示されるように、記憶デバイス１００７は、１０３１で示唆されるように、磁気ディスク１０３０、不揮発性半導体メモリ（ＥＥＰＲＯＭ、フラッシュなど）１０３２、磁気ディスクおよび不揮発性半導体メモリ両方を含むハイブリッドデータ記憶デバイスといった、直接アクセスデータ記憶デバイスを含むことができる。参照番号１００４、１００６、および１００７は、１つまたは複数のコンピューティングデバイスによって実行される時、本明細書に説明されかつ示されるデータ拡張方法を実施する命令のシーケンスを表すデータが記憶されている有形の非一時的なコンピュータ可読媒体の例である。これらの命令のいくつかは、クライアントコンピューティングデバイスにローカルに記憶されてよいが、これらの命令のその他はリモートに記憶され（および／または実行され）、かつネットワーク１０２６上でクライアントコンピューティングに通信されてよい。他の実施形態では、これらの命令の全ては、クライアントまたは他のスタンドアローンコンピューティングデバイスにローカルに記憶可能であるが、さらに他の実施形態では、これらの命令の全ては（例えば、１つまたは複数のリモートサーバにおいて）リモートに記憶されかつ実行され、この結果はクライアントコンピューティングデバイスに通信される。さらに別の実施形態では、命令（処理論理回路）は、１０２８などに示されるように、有形の非一時的なコンピュータ可読媒体の別の形態上に記憶可能である。例えば、参照番号１０２８は、適したデータキャリアを、ここに記憶される命令を１つまたは複数のコンピューティングデバイス上にロードするように構成することによって、コンピューティングデバイス（複数可）を、本明細書に説明されかつ示される実施形態の１つまたは複数に対して再構成することができる、光（またはその他の記憶技術）ディスクとして実装されてよい。他の実装形態では、参照番号１０２８は、暗号化ソリッドステートドライブとして具現化可能である。他の実装形態が可能である。

本発明の実施形態は、例えば、悪意を持って行う通信における詐欺検出を改善するためにテキスト文書のコーパスを充実させるために新規のデータ拡張技法を実装するためのコンピューティングデバイスに使用に関連している。１つの実施形態によると、本明細書に説明される方法、デバイス、およびシステムは、プロセッサ（複数可）１００２が、メモリ１００４に含有される、本明細書に示されかつ説明されるコンピュータ実施方法の態様を具現化する、命令のシーケンスを実行することに応答して、１つまたは複数のコンピューティングデバイスによって提供可能である。このような命令は、１０２８などに示される、データ記憶デバイス１００７または別の（光、磁気など）データキャリアといった、別のコンピュータ可読媒体からメモリ１００４に読み込み可能である。メモリ１００４に含有される命令のシーケンスの実行によって、プロセッサ（複数可）１００２は、本明細書に説明されるステップを行いかつ機能性を有する。代替的な実施形態では、ハードワイヤード回路構成は、説明される実施形態を実施するためにソフトウェア命令の代わりにまたはこれと組み合わせて使用されてよい。よって、実施形態は、ハードウェア回路構成およびソフトウェアの任意の具体的な組み合わせに限定されない。実際には、任意の適したコンピュータシステムが本明細書に説明される機能性を実装できることは、当業者には理解されるべきである。コンピューティングデバイスは、所望の機能を行うように作動する１つまたは複数のマイクロプロセッサを含むことができる。１つの実施形態では、マイクロプロセッサ（単数または複数）によって実行される命令は、マイクロプロセッサ（複数可）に本明細書に説明されるステップを行わせるように動作可能である。命令は任意のコンピュータ可読媒体に記憶されてよい。１つの実施形態では、これらの命令は、マイクロプロセッサの外部の、またはマイクロプロセッサと一体化した不揮発性半導体メモリ上に記憶可能である。別の実施形態では、命令は、ディスク上に記憶され、かつ、マイクロプロセッサによる実行の前に揮発性半導体メモリに読み込まれてよい。

上記の詳細な説明の一部分では、ローカル処理ユニット、ローカル処理ユニットのためのメモリ記憶デバイス、ディスプレイデバイス、および入力デバイスを含むコンピュータ構成要素を含むことができるコンピューティングデバイスによる動作のプロセスおよび象徴的表象を説明している。さらに、このようなプロセスおよび動作は、例えば、リモートファイルサーバ、コンピュータサーバ、およびメモリ記憶デバイスを含む、不均一に分布したコンピューティング環境におけるコンピュータ構成要素を利用することができる。これらの分布したコンピューティング構成要素は、通信ネットワークによってローカル処理ユニットにアクセス可能としてよい。

コンピュータによって行われるプロセスおよび動作は、ローカル処理ユニットおよび／またはリモートサーバによるデータビットの操作、およびローカルまたはリモートメモリ記憶デバイスの１つまたは複数に常駐しているデータ構造内のこれらのビットのメンテナンスを含む。これらのデータ構造は、物理編成をメモリ記憶デバイス内に記憶されたデータビット群に与え、かつ電磁スペクトル素子を表す。

本明細書に説明されかつ示されるコンピュータ実施データ拡張方法といったプロセスは、一般に、所望の結果をもたらすコンピュータ実行ステップのシーケンスであると定義されてよい。これらのステップは、一般に、物理量の物理操作を必要とする。通常、必然ではないが、これらの量は、記憶、転送、組み合わせ、比較、あるいは操作が可能である電気、磁気、または光信号の形態を取ることができる。当業者が、これらの信号を、ビットもしくはバイト（これらが二値論理レベルを有する時）、画素値、仕事、値、エレメント、記号、文字、項、数、点、記録、オブジェクト、画像、ファイル、ディレクトリ、またはサブディレクトリなどと称することは、従来的である。しかしながら、これらのおよび同様の用語がコンピュータ動作に適切な物理量と関連付けられるものとし、これらの用語が単に、コンピュータの動作の範囲内かつ間に存在する物理量に適用される従来のラベルであることは留意されるべきである。

コンピュータ内の操作が、追加する、比較する、移動する、位置付ける、配置する、照明する、除去する、および改変するなどの用語で称されることが多いことも理解されるべきである。本明細書に説明される動作は、コンピュータと対話する人間のもしくは人工知能エージェントのオペレータまたはユーザによって提供されるさまざまな入力と併せて行われる機械動作である。本明細書に説明される動作を行うために使用される機械は、ローカルもしくはリモートの汎用デジタルコンピュータまたは他の同様のコンピューティングデバイスを含む。

さらに、本明細書に説明されるプログラム、プロセス、方法などが、いかなる特定のコンピュータまたは装置にも関連しておらずまたは限定されるものではなく、いかなる特定の通信ネットワークアーキテクチャにも関連しておらずまたは限定されるものではないことは理解されるべきである。もっと正確に言えば、本明細書に説明される教示に従って構成されるプログラムモジュールと共に、さまざまなタイプの汎用ハードウェア機が使用可能である。同様に、読み出し専用メモリなどの不揮発性メモリ内に記憶されたハードワイヤード論理またはプログラムを有する固有のネットワークアーキテクチャにおける専用のコンピュータシステムによって本明細書に説明される方法ステップを行うための特殊装置を構成することが有利であることが証明され得る。

ある特定の例示の実施形態が説明されているが、これらの実施形態は例としてのみ提示されており、本明細書に開示される実施形態の範囲を限定することは意図されていない。よって、前述の説明において、任意の特定の特徴、特性、ステップ、モジュール、またはブロックが必要であるまたは不可欠であると含意することはどこにも意図されていない。実際には、本明細書に説明される新規の方法およびシステムは、さまざまな他の形態で具現化されてよく、さらに、本明細書に説明される方法およびシステムの形態におけるさまざまな省略、代用、および変更は、本明細書に開示される実施形態の趣旨から逸脱することなくなされてよい。

Claims

電子テキスト文書のコーパスの元の電子テキスト文書を拡張するためのコンピュータ実施方法であって、
メモリを有するコンピュータにおいて前記元の電子テキスト文書を受信することと、
少なくとも１つの機械翻訳エンジンを使用して、受信された前記元の電子テキスト文書を繰り返し翻訳することで、それぞれの翻訳された電子テキスト文書が、前記元の電子テキスト文書の元の言語に戻すように最後に翻訳された電子テキスト文書を再翻訳する前に別の言語への後続の翻訳の基礎として使用されるようにすることと、
再翻訳された前記電子テキスト文書を、これにおける少なくとも１つの単語を選択し、かつ対応する同義語をそれぞれの選択された単語の代用にして、同義語に置き換えられた電子テキスト文書を生成することによって変換することと、
前記同義語に置き換えられた電子テキスト文書を、これにおける少なくとも１つの単語を選択し、かつ対応するミススペルの単語をそれぞれの選択された単語の代用にして、拡張された電子テキスト文書を生成することによって変換することと、
前記元の電子テキスト文書と前記拡張された電子テキスト文書との間の類似測度を計算することと、
計算された前記類似測度が少なくとも所定の類似閾値程度であるかどうかを判断することと、
前記計算された類似閾値が少なくとも前記所定の類似閾値程度である場合、前記拡張された電子テキスト文書を前記メモリに維持しかつ記憶し、前記計算された類似閾値が前記所定の類似閾値未満である場合、前記拡張された電子テキスト文書を前記メモリに記憶しないことと、を含む、コンピュータ実施方法。
繰り返し翻訳すること、前記再翻訳された電子テキスト文書を変換すること、および前記同義語に置き換えられた電子テキスト文書を変換することは、順番に逐次的に行われる、請求項１に記載のコンピュータ実施方法。
前記翻訳するステップおよび変換するステップのそれぞれは、所定の回数逐次的に行われるように構成される、請求項１に記載のコンピュータ実施方法。
前記再翻訳されたまたは同義語に置き換えられた電子テキスト文書において少なくとも１つの単語を選択し、かつ選択された前記少なくとも１つの単語を対応する略語と置き換えることをさらに含む、請求項１に記載のコンピュータ実施方法。
前記再翻訳されたまたは同義語に置き換えられた電子テキスト文書において少なくとも１つのエンティティを選択し、かつ選択された前記少なくとも１つのエンティティを置き換えエンティティと置き換えることをさらに含む、請求項１に記載のコンピュータ実施方法。
前記選択された少なくとも１つのエンティティは、個人の名前、個人の苗字、金銭額、日付、および電話番号のうちの少なくとも１つを含む、請求項５に記載のコンピュータ実施方法。
前記類似測度を計算することは、前記元の電子テキスト文書と前記拡張された電子テキスト文書との間の少なくとも意味的類似測度を計算することを含む、請求項１に記載のコンピュータ実施方法。
前記類似測度を計算することは、前記元の電子テキスト文書と前記拡張された電子テキスト文書との間の少なくとも構文的類似測度を計算することを含む、請求項１に記載のコンピュータ実施方法。
複数の頂点のそれぞれの頂点が別々の言語と関連付けられる有向マルチグラフを確立することであって、それぞれの頂点は、許容可能な性能を有する指向エッジによって連結される前記頂点と関連付けられた言語間を翻訳するための、機械翻訳エンジンの能力を指示する前記指向エッジによって前記複数の頂点の少なくとも１つの他のものに連結される、確立することと、
確立された前記有向マルチグラフをコンピュータのメモリに記憶することと、
所定の元の頂点に連結される指向エッジによって指し示される前記複数の頂点の中間の頂点をランダムに選択し、かつ機械翻訳エンジンに、前記元の電子テキスト文書を前記元の言語から選択された前記頂点と関連付けられた言語に翻訳させることによって、前記元の電子テキスト文書の前記元の言語と関連付けられた前記所定の元の頂点で開始して記憶された前記有向マルチグラフを横断することと、
前記所定の元の頂点が選択され、かつ先に翻訳された前記電子テキスト文書が前記元の言語に再翻訳されるまで、機械が前記先に翻訳された電子テキスト文書を前記複数の頂点のランダムに選択された隣り合う頂点と関連付けられた言語に翻訳する度に、前記複数の頂点の、前記中間の頂点から連続的な他の隣り合って連結される頂点まで前記指向エッジによって許可されるように、前記コンピュータの前記メモリに記憶された前記有向マルチグラフを横断し続けることと、
拡張された電子テキスト文書として前記コンピュータの前記メモリに再翻訳された前記電子テキスト文書を記憶することと、を含む、コンピュータ実施方法。
前記拡張された電子テキスト文書を電子テキスト文書の既存のコーパスに追加して詐欺行為の通信を検出するための電子モデルをトレーニングおよび／または検査することをさらに含む、請求項９に記載のコンピュータ実施方法。
横断した頂点をマーキングすることと、マーキングした前記頂点を所定の回数より多く横断しないようにすることと、をさらに含む、請求項９に記載のコンピュータ実施方法。
隣接する頂点の間のそれぞれの有向エッジを品質指示と関連付けることをさらに含み、少なくとも２つの隣接する頂点が横断に利用可能である時に横断させる隣り合う頂点の選択は、少なくとも部分的に前記品質指示に依存する、請求項９に記載のコンピュータ実施方法。
隣り合う頂点をランダムに選択することは、より低い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率が、比較的より高い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率より低くなるように行われる、請求項１２に記載のコンピュータ実施方法。
関連付けられた前記品質指示の所定の分布において隣り合う頂点の前記有向エッジのそれぞれを適合させることをさらに含み、前記隣り合う頂点をランダムに選択することは、前記所定の分布において、より低い品質指示ではなくより高い品質指示と関連付けられた有向エッジによって、連結される隣り合う頂点を優先的に選択することをさらに含む、請求項１２に記載のコンピュータ実施方法。
コンピュータのメモリにおいて電子テキスト文書を提供しかつ記憶し、提供された前記電子テキスト文書から拡張された電子テキスト文書を、
前記提供された電子テキスト文書においてエレメントを選択すること、
選択された前記エレメントのタイプの潜在的な置き換えエレメントのソースから潜在的な置き換えエレメントのリストを生成すること、
所定の計量を使用して前記潜在的な置き換えエレメントのリストにおけるそれぞれの潜在的な置き換えエレメントの値を算出すること、
算出された前記値の高いものから順に前記潜在的な置き換えエレメントのリストにおける前記潜在的な置き換えエレメントの前記値をランク付けすること、
確率分布を仮定して前記潜在的な置き換えエレメントのランク付けリストへの指数をランダムに選択することで、より高くランク付けされた潜在的な置き換えエレメントと関連付けられた指数が、比較的より低くランク付けされた潜在的な置き換えエレメントと関連付けられた指数より選択される可能性がより高くなるようにすること、および
前記提供された電子テキスト文書における選択された前記エレメントをランダムに選択された前記指数における前記潜在的な置き換えエレメントと置き換えることを反復的に行うことによって生成することを含む、コンピュータ実施方法。
前記確率分布は、幾何、均一、ガウス、およびポアッソン確率分布のうちの１つである、請求項１５に記載のコンピュータ実施方法。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに結合される少なくとも１つのデータ記憶デバイスと、
前記少なくとも１つのプロセッサおよびコンピュータネットワークに結合されるネットワークインターフェースと、
電子テキスト文書のコーパスの元の電子テキスト文書を拡張するために前記少なくとも１つのプロセッサによってスポーンされる複数のプロセスであって、
少なくとも１つの機械翻訳エンジンを使用して前記元の電子テキスト文書を繰り返し翻訳することで、それぞれの翻訳されたテキスト文書は、最後に翻訳された電子テキスト文書を前記元の電子テキスト文書の元の言語に戻すように再翻訳する前に別の言語への後続の翻訳のための基礎として使用されるようにすること、
再翻訳された前記電子テキスト文書を、これにおける少なくとも１つの単語を選択し、かつ対応する同義語をそれぞれの選択された単語の代用にして、同義語に置き換えられた電子テキスト文書を生成することによって変換すること、
前記同義語に置き換えられた電子テキスト文書を、これにおける少なくとも１つの単語を選択し、かつ対応するミススペルの単語をそれぞれの選択された単語の代用にして、拡張された電子テキスト文書を生成することによって変換すること、
前記元の電子テキスト文書と前記拡張された電子テキスト文書との間の類似測度を計算すること、
計算された前記類似測度が少なくとも所定の類似閾値程度であるかどうかを判断すること、
前記計算された類似測度が少なくとも前記所定の類似閾値程度である場合、前記拡張されたテキストを前記データ記憶デバイスに維持しかつ記憶し、前記計算された類似測度が前記所定の類似閾値未満である場合、前記拡張された電子テキスト文書を廃棄し、前記データ記憶デバイスに記憶しないことを行うための処理論理回路を含む、複数のプロセスと、を含む、コンピューティングデバイス。
繰り返し翻訳する、再翻訳された前記テキストを変換する、および前記同義語に置き換えられた電子テキスト文書を変換するための前記処理論理回路は、順番に逐次的に行われる、請求項１７に記載のコンピューティングデバイス。
前記翻訳するステップおよび前記変換するステップのそれぞれに対する前記処理論理回路は、所定の回数逐次的に実行されるように構成される、請求項１７に記載のコンピューティングデバイス。
前記再翻訳されたまたは同義語に置き換えられた電子テキスト文書において少なくとも１つの単語を選択し、かつ選択された前記少なくとも１つの単語を対応する略語と置き換えるための処理論理回路をさらに含む、請求項１７に記載のコンピューティングデバイス。
前記再翻訳されたまたは同義語に置き換えられた電子テキスト文書において少なくとも１つのエンティティを選択し、かつ選択された前記少なくとも１つのエンティティを置き換えエンティティと置き換えるための処理論理回路をさらに含む、請求項１７に記載のコンピューティングデバイス。
前記選択された少なくとも１つのエンティティは、個人の名前、個人の苗字、金銭額、日付、および電話番号のうちの少なくとも１つを含む、請求項２１に記載のコンピューティングデバイス。
前記類似測度を計算するための前記処理論理回路は、前記元の電子テキスト文書と前記拡張された電子テキスト文書との間の少なくとも意味的類似測度を計算するための処理論理回路を含む、請求項１７に記載のコンピューティングデバイス。
前記類似測度を計算するための前記処理論理回路は、前記元の電子テキスト文書と前記拡張された電子テキスト文書との間の少なくとも構文的類似測度を計算するための処理論理回路を含む、請求項１７に記載のコンピューティングデバイス。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに結合される少なくとも１つのデータ記憶デバイスと、
前記少なくとも１つのプロセッサおよびコンピュータネットワークに結合されるネットワークインターフェースと、
電子テキスト文書のコーパスの元の電子テキスト文書を拡張するために前記少なくとも１つのプロセッサによってスポーンされる複数のプロセスであって、
複数の頂点のそれぞれの頂点が別々の言語と関連付けられる有向マルチグラフを前記データ記憶デバイスに確立しかつ記憶することであって、それぞれの頂点は、許容可能な性能を有する指向エッジによって連結される前記頂点と関連付けられた言語間を翻訳するための、機械翻訳エンジンの能力を指示する前記指向エッジによって前記複数の頂点の少なくとも１つの他のものに連結される、確立しかつ記憶すること、
所定の元の頂点に連結される指向エッジによって指し示される前記複数の頂点の中間の頂点をランダムに選択し、かつ機械翻訳エンジンに、前記元の電子テキスト文書を元の言語から選択された前記頂点と関連付けられた言語に翻訳させることによって、前記元の電子テキスト文書の前記元の言語と関連付けられた前記所定の元の頂点で開始して前記有向マルチグラフを横断すること、
前記所定の元の頂点が選択され、かつ先に翻訳された前記電子テキスト文書が前記元の言語に再翻訳されるまで、前記先に翻訳された電子テキスト文書を前記複数の頂点のランダムに選択された隣り合う頂点と関連付けられた言語に翻訳する度に、前記複数の頂点の、前記中間の頂点から連続的な他の隣り合って連結される頂点まで前記指向エッジによって許可されるように前記有向マルチグラフを横断し続けることであって、再翻訳された前記電子テキスト文書は拡張された電子テキスト文書として指定される、横断し続けること、および
前記拡張された電子文書を前記データ記憶デバイスに記憶することを行うための処理論理回路を含む、複数のプロセスと、を含む、コンピューティングデバイス。
前記拡張された電子テキスト文書を詐欺行為の通信を検出するためのモデルに適用するための処理論理回路をさらに含む、請求項２５に記載のコンピューティングデバイス。
横断した頂点をマーキングし、かつマーキングした頂点を所定の回数より多く横断しないようにするための処理論理回路をさらに含む、請求項２５に記載のコンピューティングデバイス。
隣接する頂点の間のそれぞれの有向エッジを品質指示と関連付けるための処理論理回路をさらに含み、少なくとも２つの隣接する頂点が横断に利用可能である時に横断させる隣り合う頂点の選択は、少なくとも部分的に前記品質指示に依存する、請求項２５に記載のコンピューティングデバイス。
隣り合う頂点をランダムに選択することは、より低い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率が、比較的より高い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率より低くなるように行われる、請求項２８に記載のコンピュータ実施方法。
関連付けられた前記品質指示の所定の分布において隣り合う頂点の前記有向エッジのそれぞれを適合させるための処理論理回路をさらに含み、前記隣り合う頂点をランダムに選択することは、前記所定の分布において、より低い品質指示ではなくより高い品質指示と関連付けられた有向エッジによって、連結される隣り合う頂点を優先的に選択することをさらに含む、請求項２８に記載のコンピューティングデバイス。