JP2019220144A - 詐欺検出を改善するためのデータ拡張の方法、デバイス、およびシステム - Google Patents

詐欺検出を改善するためのデータ拡張の方法、デバイス、およびシステム Download PDF

Info

Publication number
JP2019220144A
JP2019220144A JP2019039399A JP2019039399A JP2019220144A JP 2019220144 A JP2019220144 A JP 2019220144A JP 2019039399 A JP2019039399 A JP 2019039399A JP 2019039399 A JP2019039399 A JP 2019039399A JP 2019220144 A JP2019220144 A JP 2019220144A
Authority
JP
Japan
Prior art keywords
text document
electronic text
original
vertices
vertex
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019039399A
Other languages
English (en)
Other versions
JP7302987B2 (ja
Inventor
セバスチャン グタール
Goutal Sebastien
セバスチャン グタール
マキシム マーク マイヤー
Marc Meyer Maxime
マキシム マーク マイヤー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vade USA Inc
Original Assignee
Vade Secure Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vade Secure Inc filed Critical Vade Secure Inc
Publication of JP2019220144A publication Critical patent/JP2019220144A/ja
Application granted granted Critical
Publication of JP7302987B2 publication Critical patent/JP7302987B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/157Transformation using dictionaries or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】詐欺検出の改善における有用性を見出す拡張された電子テキスト文書を生成するためのテキスト拡張技法を提供する。【解決手段】拡張された電子テキスト文書を生成するためのテキスト拡張技法は、元のテキストを機械翻訳の複数のステップで変換し、同義語の置き換えによって変換し、ミススペルの置き換えによって変換し、元のテキストと拡張されたテキストとの間の類似測度を計算し、類似測度が閾値以上のものを拡張されたテキストとして採用する。【選択図】図2

Description

開示された実施形態の分野は、詐欺検出の改善における有用性を見出すテキスト拡張技法を包含する。本明細書では、単語「詐欺」は、電子メール、テキストメッセージ、インスタントメッセージ、または通話によって行われる場合がある任意の詐欺計画を含み、この詐欺計画の中核は、被害者に、電信送金、または機密情報の開示といった、犯罪者が望む行為を行わせるように仕向けるテキストまたは他の電子メッセージである。このような詐欺計画は、ソーシャルエンジニアリングを頼りにすることが多い。詐欺の通話はロボコールによって行うことができるため、通話は本明細書に含まれる。これらのロボコールは、録音されたボイスメッセージが音声合成器による電子テキスト文書の処理によって生成される場合があるため、本開示の範囲に含まれる。
1つの実施形態による、詐欺検出を改善するためのデータ拡張のコンピュータ実施方法のブロック図である。
1つの実施形態による、詐欺検出を改善するためのデータ拡張のコンピュータ実施方法のブロック図である。
1つの実施形態による、例示の有向マルチグラフの例を示す図である。
1つの実施形態による、例示の有向マルチグラフの1つの特定の実装形態を示す図である。
1つの実施形態による、電子テキスト文書のコーパスのテキスト文書内のエレメントを選択しかつ置き換えるためのコンピュータ実施方法のブロック図である。
1つの実施形態による、電子テキスト文書のコーパスのテキスト文書内の置き換えエレメントを生成しかつ選択するためのコンピュータ実施方法のブロック図である。
1つの実施形態による、元のコーパスおよび拡張コーパスを含むマージされたコーパスに基づいて詐欺検出モデルを構築するためのコンピュータシステムのブロック図である。
1つの実施形態による、詐欺検出モデルを検査するために拡張コーパスを使用するためのコンピュータシステムのブロック図である。
ある組織内で「危険な状態にある」とみなされるユーザをトレーニングするおよび/または検査するために拡張データを使用するためのコンピュータシステムのブロック図である。
実施形態が実践可能であるコンピューティングデバイスのブロック図であり、また、コンピューティングデバイスによって実行される時、本明細書に説明されかつ示される、コンピュータ実施方法および機能性を実行するように再構成されているコンピューティングデバイスとして汎用コンピュータを構成するコンピュータ可読命令を記憶するように構成される有形のコンピュータ可読媒体の例を示す図である。
詐欺の大部分は電子メールによって広がっている。例えば、前金詐欺は、少なくとも10年前から報告されている。前金詐欺は、詐欺師が多額を得るために必要とするように、少額の前金支払額の見返りとしてかなりの大金の分け前を約束することによって受取人から詐取しようとするものである。被害者が料金を支払う場合、詐欺師は、被害者に対して一連のさらなる料金をでっちあげるか単に姿を消すかのどちらかである。このような電子テキストベース詐欺の別の例はCEO詐欺である。CEO詐欺では、詐欺師は企業の電子メールアカウントを偽装し、かつCEO、または別の上級管理者をかたって、経理または人事の従業員をだまして、電信送金を実行させる、または源泉徴収票(W−2)の税金情報といった機密情報を送らせる。
ここにCEO詐欺の例がある。
件名:同日支払
Harry様、
お元気ですか。あなたには、同日中に英国の私宛に支払いを行ってもらう必要があります。送金に必要となる、必須の詳細をメールで送付頂けますようお願い致します。
メールにて早急に御返答頂けると幸いです。
宜しくお願い致します。
Jack
上記のように、詐欺計画の中核はテキストであり、これはひいては、このような詐欺を検出するために教師付き分類と関連付けられた自然言語処理技法に修正可能である。悪意のあるリンクおよび/または悪意のある添付ファイルが電子通信のテキストに含まれていないため、これらの詐欺は、既存の悪意のあるリンク技術および/または悪意のある添付ファイル関連技術で検出できない。自然言語処理および/または教師付き分類に基づく技術の性能は、ラベル付きデータの量および質に大きく頼っている。しかしながら、高性能の詐欺検出モデルを構築するために十分なデータを収集することは、非常に難題であり得、不可能である時もあり得る。
例えば、CEO詐欺のケースを考慮する。CEO詐欺は典型的には、小規模および中規模事業の人事または経理部を対象とし、この犯罪には、企業の組織および経営を徹底的に研究して現実的な詐欺の文脈を作り上げる必要があり、対象とする被害者との通話を行うような、詐欺師による追加の行為を必要とする場合がある。CEO詐欺は、フィッシングまたはマルウェアのような脅威をより広範に普及させる可能性があるため、自動化およびスケーリングが不可能である。また、この犯罪は、実際には、スケーリングする必要はないが、これは、1回のうまく考えられた詐欺がかなりの金銭上の利益をもたらす可能性があるため、量よりも質が重要であるからである。それ故に、このような詐欺の代表例を収集することはかなり困難である。実際には、本明細書の時点で、本発明者は、3ダースのCEO詐欺の例しか収集できていない。このため、必要とされることは、ひいては、このような詐欺の実際の代表例がとてもまれな時でも、ラベル付きデータの量を拡張することで、高性能の詐欺検出モデルが構成可能となるような方法である。
多くのデータ拡張技法は、画像および発話認識におけるモデルの一般化を改善するためにある。近年、データ拡張技法は、畳み込みニューラルネットワークを頼りにする深層学習モデルの品質を向上させるために使用されている。例えば、画像認識分野において、良好なモデルは、視点、照明の変化に向けた不変性を呈示するものであり、かつ雑音に耐性を持つものである。画像認識における深層学習モデルを改善するために、データは典型的には、幾何学変換(翻訳、スケーリング、回転、フリッピング、クロッピング、弾性変形)、照明の変化、または雑音付加によって拡張される。例えば、画像に対するいくつかのデータ拡張方法は、オクルージョンおよびインペインティングに基づく。
同様に、音声認識分野では、データは、人工雑音バックグラウンドを追加すること、音声信号のトーンまたは速度を変更することによって拡張されてよい、または確率論的特徴マッピングに基づいてよい。
テキストに関して、画像および音声認識分野において行われるように信号変換を使用してデータを拡張することは、これらの変換が元のテキストの構文および意味を改変する可能性が高いため、妥当ではない。1つの提案されるアプローチは、シソーラスを使用して単語をその同義語に置き換えることである。1つのこのようなアプローチは、データセットを、元のデータセットのそれぞれの記録のメンバーシップの程度を帰属させた後の分類法として表すことによって拡張することを含む。
テキスト拡張機能
1つの実施形態は、テキストデータ拡張機能を含む。本開示における実用的な目的で、このような機能は、TextDataAugmentationFunctionと呼ばれる。この機能は、テキスト文書OriginalTextを入力と取り、テキスト文書AugumentedTextを出力する。図1に示されるように、1つの実施形態によると、この機能は、OriginalTextに1…nの連続的変換を適用して、B102、B104に示されるように、AugmentedTextを生じさせる。行われるそれぞれの変換は、ある特定の量のランダム性を含んでよい。連続的変換後、OriginalTextおよびAugmentedTextは比較されて、AugumentedTextが依然関連的であるように徹底する。使用可能である1つの計量は、OriginalTextとAugumentedTextとの間の意味的類似測度である。B106に示されるように、類似測度は、OriginalTextに基づいて結果として生じるAugumentedTextについて計算される。B108に示されるように、類似測度SimMeasureが類似測度閾値SimMeasureThreshold以上である場合(B108のはいのブランチ)、拡張されたテキストはB110に示されるように維持される。他方で、SimMeasureが類似測度閾値SimMeasureThreshold未満である場合(B108のいいえのブランチ)、連続的に変換されたAugmentedTextは、B112に示されるように廃棄され、さらなるトーニングに使用されず、廃棄されてよい。
1つの実施形態において、行われる1…nの連続的変換に存在する場合があるランダム性により、機能TextDataAugmentationFunctionは非決定論的である場合がある。例えば、以下を考慮されたい。
AugmentedText=TextDataAugmentationFunciton(OriginalText)
AugmentedText=TextDataAugmentationFunciton(OriginalText)
さらにまた、TextDataAugmentationFunctionが非決定論的である場合があるため、AugmentedText≠AugumentedTextである可能性が非常に高い。
以下のデータを考慮されたい。
Figure 2019220144
AugumentedCorpusのそれぞれの拡張テキスト文書を生じさせるために、TextDataAugmentationFunctionの機能は、OriginalCorpusのそれぞれの元のテキスト文書に対してAugmentationFactor回適用される。
変換
実施形態によると、いくつかのタイプの変換は、TextDataAugmentationFunctionにおいて使用されてよい。これらは、例えば、
−テキストに適用される機械翻訳の複数のステップを頼りにする変換、
−例えば、
・単語または単語のグループの同義語との置き換え、
・単語または単語のグループの略語との置き換え(同様に、略語は単語または単語のグループと置き換えられる場合がある)、および/または
・単語のミススペルとの置き換えといった、テキストにおける単語または単語のグループの置き換えを頼りにする複数の変換を含む。
実施形態によると、ある特定のタイプの変換が所定の数(すなわち、0…n)の回数で適用可能であることは留意されたい。変換が適用される順序は重大である場合がある。実際には、単語のミススペルとの置き換えは、テキストを正しく処理するための、その他の変換の能力に影響する場合がある。例えば、正しく綴られた単語を、ミススペルを含有する単語と置き換える変換は、ミススペルを含有する単語に対して同義語を見つけるための、後に適用される変換の能力に影響する場合がある。いくつかの変換は、ある特定の使用ケースにおいて適用されない場合がある。例えば、略語およびミススペルは、一部の略語およびミススペルがいくつかの事例では意味をなさない場合があるため、音声合成器によって生じた拡張テキスト文書の文脈において使用されないものとする。
それ故に、TextDataAugmentationFunctionの他の実施形態は、本開示との関連において使用されてよい。図2は、1つの実施形態によるコンピュータ実施方法のフローチャートである。図2は、特に、変換B102…B104が、3つの連続した変換、すなわち、機械翻訳の複数のステップによる変換、同義語の置き換えによる変換、およびミススペルの置き換えによる変換として実装される、請求項1のコンピュータ実施方法の1つの実装形態である。従って、1つの実施形態は、テキストデータ拡張機能を含む。本開示における実用的な目的で、このような機能はTextDataAugmentationFunctionと呼ばれる。この機能は、テキスト文書OriginaTextを入力と取り、テキスト文書AugumentedTextを出力する。図1に示されるように、1つの実施形態によると、この機能は、OriginalTextに1…nの連続的変換を適用して、B102、B104に示されるように、AugmentedTextを生じさせる。その後、B106に示されるように、OriginalTextに基づく類似測度は、結果として生じる、連続的に変換されたAugumentedTextについて計算されてよい。B108に示されるように、類似測度SimMeasureが類似測度閾値SimMeasureThreshold以上である場合(B108のはいのブランチ)、拡張された電子テキスト文書はB110に示されるように維持される。他方で、SimMeasureが類似測度閾値SimMeasureThreshold未満である場合(B108のいいえのブランチ)、連続的に変換されたAugmentedTextは、B112に示されるように廃棄され、さらなるトーニングに使用されない場合がある。
ここで図2に移ると、ブロックB202は、OriginaTextに適用される複数のステップの機械翻訳を求める。結果として生じる、変換されたOriginaTextは、さらにまた、B204に示されるように、別の変換に入力されるが、この変換では、その入力において提示される電子テキスト文書の単語の少なくともいくつかを同義語と置き換える。B204の変換された出力は、次いで、B206に示されるようにさらに別の変換に入力されてよく、それによって例えば、この入力における単語のいくつかがミススペルを含有する単語で変換される。より少ないまたはより多い数の変換が使用可能であり、他の変換が、図2に示される変換機能に加えてまたはこれの代わりに使用可能であることは、留意されたい。その後、B208に示されるように、OriginaTextに基づく類似測度は、結果として生じる連続的に変換されるAugmentedTextに対して計算されてよい。B210に示されるように、類似測度SimMeasureが類似測度閾値SimMeasureThreshold以上である場合(B210のはいのブランチ)、拡張された電子テキスト文書はB212に示されるように維持される。他方で、SimMeasureが類似測度閾値SimMeasureThreshold未満である場合(B210のいいえのブランチ)、連続的に変換されたAugmentedTextは、B214に示されるように廃棄される場合があり、さらなるトーニングに使用されない場合がある。
機械翻訳は、ここ数年で大幅に改善されている。この改善はニューラル機械翻訳の使用の増加によるものである。ニューラル機械翻訳は、典型的には、深層ニューラルネットワークを使用し、観察される性能は、近年に開発された深層ニューラルネットワーク関連技術の目覚ましい進歩の直接的な結果である。
機械翻訳の複数のステップによる変換
1つの実施形態は、機械翻訳の複数のステップを利用する場合があるテキスト拡張方法を含む。下記が定義される。
Figure 2019220144
従って、このような複数のステップは、元のテキストを、この元の言語から別の言語に、および、その言語からさらに別の言語(単数または複数)に変換し、その後(最終的に)元の電子テキスト文書の元の言語に戻るように変換してよい。より多くのまたはより少ない数の中間のステップは行われてよい。
図3は、1つの実施形態による有向マルチグラフの例を示す。以下の制約が守れられる場合がある。
−それぞれの頂点はL=(L、L、…、L)のエレメントである。
−所与のMTに対するLとLとの間のそれぞれの指向エッジは、言語Lから言語Lに翻訳するために所与のMT機械翻訳エンジンの容量によって定義される。この容量はまた、言語Lから言語Lへの翻訳が、その翻訳が十分な品質を有するものであると保証しないと機械翻訳エンジンが提言するという事実があるため、翻訳性能閾値
Figure 2019220144
によって調整可能である。
−グラフは強連結されており、グラフにおける2つの別個の頂点LおよびLの全ての対について、LとLとの間に少なくとも1つの有向路がある。頂点LとLとの間の経路は有向路である必要はなく、ある中間の頂点またはいくつかの中間の頂点を含んでよい。
例えば、図3に示されるように、LからLまでのMT指向エッジは、機械翻訳エンジンMTがLからLに翻訳可能であることを指示する。同様に、LからLまでのMT指向エッジは、機械翻訳エンジンMTがLからLまで翻訳可能であることを指示する。LからLまでのMT指向エッジは、機械翻訳エンジンMTがLからLまで翻訳可能であることを指示する。LからLまでの指向エッジが存在しないため、直接LからLまで翻訳するのに利用可能な機械翻訳エンジンはない。LとLとの間の有向マルチグラフにエッジが存在しないため、直接、LからLまで、およびLからLまで翻訳するのに利用可能な機械翻訳エンジンはない。図3の有向マルチグラフにおけるLからLまで翻訳するために、Lを、場合によってはLを通過する経路が取られるべきである。これは、翻訳性能閾値
Figure 2019220144
が所定の閾値を下回る場合があり、このことが言語LとLとの間の利用可能な機械翻訳エンジンの性能が劣っていることを指示できることに起因する場合がある。すなわち、LからLまで指向エッジがないことで、低い翻訳品質指示と関連付けられる場合がある。他の関係は、このマルチグラフを検討することによって明らかにすることができる。同様に、図2の例示の有向マルチグラフは、LからLまでの直接的な横断を認めない。頂点Lおよび/またはLの中間段階などを通るその他の経路は、所与のテキスト文書を、頂点Lと関連付けられた言語から頂点Lと関連付けられた言語に翻訳するために取られるものとするべきである。
所与の入力された電子テキスト文書tは、1つの実施形態によると、頂点Lで開始し頂点Lで終了する有向マルチグラフを横断することによって拡張可能であり、拡張された電子テキスト文書vはグラフを横断する間に行われるtの連続的な翻訳の結果である。
そのようなものの例を以下に詳述する。
−開始ノードはLであり、これは、元の電子テキストの元の言語と呼ばれてよい。Lに隣接する頂点は、Lなどランダムに選択される。LからLまでのエッジはさらにまた、MTなどランダムに選択される。選択された頂点およびエッジによる翻訳を行う:
Figure 2019220144
−現在のノードはここではLである。Lに隣接する頂点は、Lなどランダムに選択される。LからLまでのエッジは、MTなどランダムに選択される。機械翻訳エンジンMTを使用するLからLまでの翻訳はさらにまた行われる:
Figure 2019220144
−ここで、現在のノードはLである。Lに隣接する頂点はLなどランダムに選択される。LからLまでのエッジはさらにまた、MTなどランダムに選択される。次いで、この翻訳が行われる。すなわち、
Figure 2019220144
−現在のノードは再びLであり、最後の変換uの出力はここで、拡張された電子テキスト文書vとして使用されてよい:v<u
このように、元の電子テキスト文書は、少なくとも1つの機械翻訳エンジンを使用して繰り返し翻訳されてよく、それによって、それぞれの翻訳されたテキスト文書は、元の電子テキスト文書の元の言語に戻すように最後に翻訳された電子テキスト文書を再翻訳する前に許可されるように有向マルチグラフを横断することによって、別の言語への後続の翻訳の基礎として使用されるようにする。
さらなる実施形態によると、例えば、以下のような方策が適用されてよい。
−頂点(L、…、L)は探索されているとしてマーキングされてよく、同じ頂点を2回(または別の所定の回数)探索することを回避するための制約が課せられる。

Figure 2019220144
を、LからLまでのエッジの選定時の基準またはその他の翻訳品質指示として使用する。
−確率分布Pを利用して次の頂点を選定する。例えば、{Li0、…、Liq}と記される、Lに隣接する頂点にわたる均一の分布は、P〜Unif{0、q}となるように使用されてよい。または、
Figure 2019220144
が頂点の重みとみなされる場合、頂点に隣接するそれらq+1は、重みを減少させることによってリストにおいて順序付けられてよく、パラメータpの幾何(または、均一、ガウス、ポアッソン、もしくはその他の)分布が使用されてよく:P〜Geom(p)、これは、相対的に、他の隣接する頂点に対して低いTranslatePerf性能を有する頂点を選定する確率が、順序付けられたリストにおけるその位置を低下させるように徹底して、より良く機能する翻訳エンジンが、比較的機能が劣る翻訳エンジンに対して好ましくは選定されるように徹底する。
他の方策は案出されかつ選択的に適用されてよい。
図4は、Lは英語であり、Lはフランス語であり、Lはスペイン語である、図3の有向マルチグラフに対してパターン化された有向マルチグラフである。この例では横断しない頂点Lは、例えばドイツ語といったその他の言語と関連付けられてよい。電子テキスト文書tを考慮されたい。
$45,000の電信送金による支払を至急処理して頂けますようお願い致します。
これは商法弁護士からの緊急の請求書です。
銀行決済指示書を添付致します。
宜しくお願い致します。
William
電子テキスト文書t、[0033]に説明されるグラフ横断経路、および図4の有向マルチグラフを参照して、以下の連続的変換が行われる。
Figure 2019220144
後述されるように、言語変換以外の変換を含む他の連続的変換は行われてよい。
置き換えでテキストを拡張することによる変換
1つの実施形態によると、テキストは、テキストのエレメントを他のエレメントに置き換えることによって拡張されてよい。以下の変換が定義可能である。
−SynonymReplacement:単語または単語のグループは同義語と置き換え可能である。
−AbbreviationReplacement:単語または単語のグループは略語と置き換え可能である(同様に、略語を単語または単語のグループと置き換えできる)。
−EntityReplacement:名前または金銭額などのエンティティは、別の同様のエンティティと置き換え可能である。
−MisspellingReplacement:単語はミススペルと置き換え可能である。
SynonymReplacement変換
同義語は、同じ言語における別の単語または単語のグループと全くまたはほぼ同じ意味を持つ単語または単語のグループである。この変換は恐らく、利用可能なデータ拡張技法に関して最も直観的なものである。以下の表には同義語のいくつかの例が列挙されている。
Figure 2019220144
AbbreviationReplacement変換
略語は、単語または単語のグループの短い形態である。略語が頭字語を含むことに留意されたい。頭字語は、単語のグループのそれぞれの単語の最初の文字から形成される単語である。以下の表には略語のいくつかの例が列挙されている。
Figure 2019220144
EntityReplacement変換
エンティティは、電子テキスト文書に存在し、かつ置き換えがテキストの意味に影響しないエレメントである。エンティティの例には以下が挙げられる(がこれらに限定されない)。
−個人の名前、
−個人の苗字、
−金銭額、
−日付、および
−電話番号
名前エンティティおよび金銭額エンティティそれぞれに対する変換は、FirstNameEntityReplacementおよびFinancialAmountEntityReplacementという名称であってよい。名前エンティティは以下の表などに示されるように、同性の別の名前と置き換えられる場合がある。
Figure 2019220144
金銭額エンティティは、値が同様である別の金銭額と置き換えられる場合があり、以下の表に示されるように、丸められるおよび/または別の通貨に変換される場合がある。
Figure 2019220144
MisspellingReplacement変換
ミススペルは電子テキスト文書ではかなり一般的である。
−ミススペルは偶発的なものが多い。
−ミススペルは、書き手によって書き込まれた言語における知識不足から生じる可能性がある。
−ミススペルは、テキストをタイプするために使用されるデバイスから生じる可能性がある。例えば、《abd》はAzertyおよびQwertyキーボード上の《and》の一般的なミススペルであるが、これは《B》が《N》のキーに近いからである。
さらに、ミススペルは詐欺との関連においてかなり一般的であるが、これは、a)それらが緊急という意味を伝え、かつb)これらが従来、テキスト分析に基づくセキュリティ技術を逃れるために従来使用されるからである。
以下の表はミススペルの数個の例を示す。
Figure 2019220144
例えば、次の電子テキスト文書を考慮されたい。
至急(immediately)、$45,000の銀行送金を進めて頂けますようお願い致します。
これは商法弁護士からの緊急の請求書です。
銀行決済指示書を添付致します。
宜しくお願い致します。
William
複数の置き換えを適用することによって、以下の拡張された電子テキスト文書が生じる。
至急(immediatly)、$47,200の銀行送金を進めて頂けますようお願い致します。
これは商法弁護士からの緊急の請求書です。
銀行決済指示書を添付致します。
宜しくお願い致します。
John
真上の拡張された電子テキスト文書を生成するために、以下の置き換えが行われた。
Figure 2019220144
このような拡張された電子テキスト文書は、元の電子テキスト文書の一般的な意味、特色、および構文を保持するが、例えば、CEO詐欺を検出可能である教師付き学習モデルのトレーニングのための既存の詐欺のラベル付きのデータコーパスに良好な候補が追加される。
置き換え変換
1つの実施形態によると、要素のタイプによって、ある種の置き換え変換が行われ得る。
Figure 2019220144
1つの実施形態による置き換え変換は、ソースσを含むことができ、このソースは、エレメントeを仮定すると、潜在的な置き換えrのリスト、および関連計量μを提供する。1つの実施形態によると、計量μはeのrとの置き換えをスコア付けする。
−スコアは[0、1]間隔の連続値である。
−スコアが高いほど、置き換えrはeに近くなる。
1つの実施形態では、最小・最大正規化といった正規化機能を使用して、計量がスコアに前述の性質を与えるように徹底することができる。
以下は、それぞれの変換についてのソースおよび計量の例である。ソースが計量を提供しない場合、計量は定義ごとに0に戻ることに留意されたい。
Figure 2019220144
以下のデータが定義される。
Figure 2019220144
図5および図6は、1つの実施形態による、データ拡張に対してエレメントを選択しかつ置き換えるためコンピュータ実施方法のフローチャートである。ここに示されるように、ブロックB502は置き換えられる電子テキスト文書からエレメント{e、…、e}を選択することを求める。上記の表に示されるように、1つの実施形態は、確率分布Pを仮定して、変換可能である電子テキスト文書tから同じタイプTのエレメント{e、…、e}のリストを特定し、かつ変換されるそれらのlをランダムに選択することを求める。例えば、k+1にわたる均一の分布は、この目的:P〜Unif{0、k}に使用可能である。形式上、これは、図5におけるブロックB502に示されるように、{e、…、e}←サイズlのselectElements(t、P)として表されてよい。その後、ブロックB504〜B506(選択されたエレメント{e、…、e}の数に応じた、機能ブロックの変数)の置き換えは、機能selectReplacementを評価することによってエレメントe〜eに対して選択される。1つの実施形態によると、上記の表に詳述されるselectReplacement機能は、選択されたエレメントに対する置き換えを連続的に選択するために使用されてよい。selectReplacement機能の1つの実施形態は、図6に示され、かつエレメントeを仮定して、潜在的な置き換え{re、0、…、re、n}のリストは、B602に示されるように、eに対するgenerateReplacementsアルゴリズムを使用して、ソースσから生成されるように構成可能である。
B604に示されるように、eのそれぞれの置き換えre、iの値はさらにまた、計算可能である。1つの実施形態によると、eのそれぞれの置き換えre、iの値は、距離関数μおよびevaluateReplacement機能を使用して計算されてよい。このようなevaluateReplacement機能は、上記の表に示されるように、形式上、
Figure 2019220144
と表される距離関数μによって与えられるエレメントeの置き換えrと関連付けられた値
Figure 2019220144
を返すように構成可能である。1つの実施形態では、潜在的な置き換え{re、0、…、re、n}のリストは、さらにまた、例えば、B606に示されるように、それらのそれぞれの
Figure 2019220144
の値を減少させることによってソート可能である。その後、潜在的な置き換え{re、0、…、re、n}のリストへの指数k∈{0、n}は、ブロックB608によって求められるように、確率分布Pを仮定してランダムに選択されてよい。例えば、パラメータpの幾何(または、均一、ガウス、ポアッソン、またはその他の)分布:P〜Geom(p)が使用されてよく、これによって、ソートされたリストにおける価値が高い潜在的な置き換えが、比較的価値がより低い潜在的な置き換えより選択される可能性が高くなるように徹底する。さらにまた、リストの指数kにおける選定されたエレメント
Figure 2019220144
は、B610において示されるように、選択された置き換えとして返されてよい。上記の表に示されるように、そのようなものは形式上、
Figure 2019220144
と表される場合がある。ここで図5に戻ると、選択されたエレメントはさらにまた、ブロック508によって求められるように、選択された置き換えと置き換えられてよい。1つの実施形態によると、replaceElements機能は、元の電子テキスト文書t、置き換えられるエレメント{e、…、e}のリスト、およびそれらの置き換え
Figure 2019220144
を取るように定義されてよく、形式上、
Figure 2019220144
と表される、拡張された電子テキスト文書vを返し、長さ1+1のL←selectReplacement(t、P)および
Figure 2019220144
である。
拡張された電子テキスト文書の検証
1つの実施形態では、モデルの一般化を改善することを徹底するためにもたらされる、それぞれの生成された拡張された電子テキスト文書AugumentedCorpusを検証する。例えば、拡張された電子テキスト文書が雑音が大きすぎると判断される場合、拡張されたデータがもたらされるモデルの一般化を改善する可能性が低いため、廃棄される。機械学習の場合、検証では、拡張された電子テキスト文書のラベルが元の電子テキスト文書のラベルを保存することが徹底される。この目的のために、検証モジュールは、元のテキスト文書を仮定して拡張された電子テキスト文書の検証を分析することができるものとする。このような検証方法は、比較計量を出力するように構成される任意の計量および方法を包含することができる。以下の表に記載されるCompare(比較)機能を考慮されたい。
Figure 2019220144
拡張された電子テキスト文書は、S≧Tである時かつその時に限り維持されることになり、S=Compare(t、v)である。すなわち、1つの実施形態によると、拡張されたテキストは、(0が完全に異なる電子テキスト文書を指示し、1が電子テキスト文書の完全な類似を指示する、0と1との間の)類似測度Sの値が、選定されたCompare方法と関連付けられた類似閾値以上である時かつその時に限り維持されることになり、類似測度は選択されたCompare方法を、元の電子テキスト文書tおよび拡張された電子テキスト文書vに適用した結果である。
Compareアルゴリズムは、1つまたは複数の類似アルゴリズムAによって与えられた1つまたは複数の類似測度Sの計算を活用する。このような類似アルゴリズムの2つの実施形態は、2つのテキストの類似を比較する多くのやり方が存在し、かつ全てが本開示に包含されるため、本実施形態がそれらの2つのアルゴリズム系に限定されないことを理解した上で、ここに提示される。
意味的類似
意味的類似は、2つの文章の間の意味の近さの観念を捉え、これは、思い浮かぶ類似の第1の着想であることが多く、そのように、構文的類似より好ましいことが多い。しかしながら、この意味的観念を捉えることはより困難であるため、意味的類似によって与えられる結果は、構文的類似によって与えられる結果より正確でない場合がある。
実施形態は意味的類似を判断するいずれの1つの方法にも限定されない。このような方法は、知識源である存在論の観念、すなわち、互いに連結される一組の概念を頼りにする場合がある。たいていの場合、存在論は、分類法を形成するために階層的に順序付けられることになる。この存在論を仮定して、類似の計量は、例えば、比較される2つの概念の間の経路長を考慮することによって、抽出される場合がある。1つの実施形態は、意味的類似測度を、単独で、または構文的類似測度と共に使用する。
構文的類似
1つの実施形態は、構文的類似測度を、単独で、または意味的類似測度と共に使用する。構文的類似計量は、2つの電子テキスト文書の間の構文的類似を測定する。例えば、2つの文章におけるそれぞれの単語の品詞タグを仮定して、それらの2つの文章のコサイン類似度を算出することが可能である。この結果は、文章の意味論上の意味と無関係であるが、これらの文章がどのように構成されているかに密接に関連している。
実施形態の使用ケース
詐欺検出との関連において、データ拡張実施形態は、詐欺ラベル付きデータコーパスのサイズを増大させるために適用されてよい。本明細書に提示されるデータ拡張実施形態はラベル保存変換である。また相互に、これらの実施形態は、非詐欺ラベル付きデータコーパスのサイズを拡張するために適用されてよい。このようなデータ拡張技法のいくつかの使用ケースは本明細書に提示される。本明細書において、用語「コーパス」が詐欺ラベル付きデータコーパス、非詐欺ラベル付きデータコーパス、またはこの両方共に言及する場合があることは留意されたい。
元のコーパスと拡張コーパスとをマージして詐欺検出モデルを構築する
この例示の実施形態では、元のコーパスおよび拡張コーパスは共にマージされて、詐欺検出モデルを構築する。図7を参照すると、これを行うために、本明細書に説明されかつ示されるように、元のコーパス702は703で拡張されて、拡張コーパス704をもたらす。元のコーパス702および拡張コーパス704はさらにまた、706でマージされて、マージされたコーパス708をもたらし、このコーパスは710でモデル712を生成するために使用される。
詐欺検出モデルの検査
図8のブロック図に示されるように、元のコーパス802を806で使用して、モデル810を構築することができる。元のコーパスはこの場合、検証目的のために、拡張コーパスに頼らずモデル810を構築するために使用される。元のコーパス802は、804で拡張されて拡張コーパス808を生成することができ、これはまた、812においてモデル810を検査するために使用される。これは814において検査結果をもたらす。
拡張データを使用して、組織内で危険な状態にあるユーザをトレーニングおよび/または検査する
この使用ケースでは、拡張されたデータセットを使用して組織内で危険な状態にあるユーザをトレーニングおよび/または検査することができる。認識を高めるためのシミュレーションの攻撃によって従業員をトレーニングすることは、特に、フィッシング攻撃との関連において、ますます実用的になっている。組織内のユーザは、以下の基準の1つまたは複数を満たす場合、CEO詐欺などの高度な詐欺に対して危険な状態にあるとみなされる場合がある。
−ユーザは機密情報に直接または間接的にアクセスしている。
−ユーザは組織の銀行口座に直接または間接的にアクセスしている。
−ユーザの職業上の詳細(組織内の地位、電子メールアドレス、電話番号、インスタントメッセージ識別子…)はインターネット上で公開されている。
危険な状態にあるとみなされるユーザのトレーニングおよび/または検査は、電子メールによってだけでなく、インスタントメッセージ、テキストメッセージ、またはさらにはボイスメッセージなどの他の電子通信手段によっても行われてよい。図9に示されるように、組織内の危険な状態にあるユーザをトレーニングするために、1つの実施形態によると、元のコーパス902は904で拡張されて拡張コーパス906をもたらす。図9に示されるように、元のコーパス902および拡張コーパス906は908でマージされて、マージされたコーパス910をもたらす。組織内のユーザ912は評価され、かつ該ユーザから、例えば、上で列挙した基準を使用して、危険な状態にあるユーザ916が914で選択される。マージされたコーパス910をさらにまた使用して、918に示されるように、1つまたはいくつかの電子通信モダリティを使用して、危険な状態にあるユーザ916をトレーニングおよび/または検査することができる。918におけるこのトレーニングおよび/または検査は、結果920を生成し、これらは収集される。さらにまた、結果920に応じてこれらの危険な状態にあるユーザの認識を改善するためのさらなる措置が講じられてよい。
従って、1つの実施形態では、テキスト文書のコーパスの元の電子テキスト文書を拡張するためのコンピュータ実施方法は、メモリを有するコンピュータにおいて元の電子テキスト文書を受信することと、少なくとも1つの機械翻訳エンジンを使用して、受信された元の電子テキスト文書を繰り返し翻訳することで、それぞれの翻訳された電子テキスト文書が、元の電子テキスト文書の元の言語に戻すように最後に翻訳された電子テキスト文書を再翻訳する前に別の言語への後続の翻訳の基礎として使用されるようにすることと、再翻訳された電子テキスト文書を、これにおける少なくとも1つの単語を選択しかつ対応する同義語をそれぞれの選択された単語の代用にして、同義語に置き換えられた電子テキスト文書を生成することによって変換することと、同義語に置き換えられた電子テキスト文書を、これにおける少なくとも1つの単語を選択しかつ対応するミススペルの単語をそれぞれの選択された単語の代用にして、拡張された電子テキスト文書を生成することによって変換することと、元の電子テキスト文書と拡張された電子テキスト文書との間の類似測度を計算することと、計算された類似測度が少なくとも所定の類似閾値程度であるかどうかを判断することと、計算された類似測度が少なくとも所定の類似閾値程度である場合、拡張された電子テキスト文書をメモリに維持しかつ記憶し、計算された類似測度が所定の類似閾値未満であると判断される場合、拡張された電子テキスト文書をメモリに記憶しないことと、を含むことができる。
さらなる実施形態によると、繰り返し翻訳すること、再翻訳された電子テキスト文書を変換すること、および同義語に置き換えられた電子テキスト文書を変換することは、順番に逐次的に行われてよい。翻訳するステップおよび変換するステップのそれぞれは、所定の回数逐次的に行われるように構成されてよい。コンピュータ実施方法は、再翻訳されたまたは同義語に置き換えられた電子テキスト文書において1つまたは複数の単語を選択し、かつ選択された単語(複数可)のそれぞれを対応する略語と置き換えることをさらに含んでよい。繰り返し翻訳すること、再翻訳された電子テキスト文書を変換すること、および/または同義語に置き換えられた電子テキスト文書を変換することは、本質的に非決定論的であってよい。類似測度を計算することは、元の電子テキスト文書と拡張された電子テキスト文書との間の少なくとも意味的および/または構文的類似測度を計算することを含むことができる。方法は、再翻訳されたまたは同義語に置き換えられた電子テキスト文書において1つまたは複数のエンティティを選択し、かつ選択されたエンティティ(複数可)を置き換えエンティティ(単数または複数)と置き換えることをさらに含んでよい。選択されたエンティティ(複数可)は、個人の名前、個人の苗字、金銭額、日付、および/または電話番号を含んでよい。他のエンティティは、電子テキスト文書の特質、主題、産業などに従って、選択されかつ置き換えられてよい。
別の実施形態はまた、複数の頂点のそれぞれの頂点が別々の言語と関連付けられる有向マルチグラフを確立することであって、それぞれの頂点は、許容可能な性能を有する指向エッジによって連結される頂点と関連付けられた言語間を翻訳するための、機械翻訳エンジンの能力を指示する指向エッジによって複数の頂点の少なくとも1つの他のものに連結される、確立することと、確立された有向マルチグラフをコンピュータのメモリに記憶することと、所定の元の頂点に連結される指向エッジによって指し示される複数の頂点の中間の頂点をランダムに選択し、かつ機械翻訳エンジンに、元の電子テキスト文書を元の言語から選択された頂点と関連付けられた言語に翻訳させることによって、元の電子テキスト文書の元の言語と関連付けられた所定の元の頂点で開始して記憶された有向マルチグラフを横断することと、所定の元の頂点が選択され、かつ先に翻訳された電子テキスト文書が元の言語に再翻訳されるまで、機械が先に翻訳された電子テキスト文書を複数の頂点のランダムに選択された隣り合う頂点と関連付けられた言語に翻訳する度に、複数の頂点の、中間の頂点から連続的な他の隣り合って連結される頂点まで指向エッジによって許可されるように(すなわち、矢印の方向に)、コンピュータのメモリに記憶された有向マルチグラフを横断し続けることと、拡張された電子テキスト文書としてコンピュータのメモリに再翻訳された電子テキスト文書を記憶することと、を含むことができるコンピュータ実施方法である。
本発明のコンピュータ実施方法はまた、横断した頂点をマーキングすることと、マーキングした頂点を所定の回数より多く横断しないようにすることとをさらに含んでよい。方法は、隣接する頂点の間のそれぞれの有向エッジを品質指示と関連付けることをさらに含むことができ、少なくとも2つの隣接する頂点が横断に利用可能である時に横断させる隣り合う頂点の選択は、少なくとも部分的に品質指示に依存する場合がある。隣り合う頂点のランダムな選択は、より低い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率が、比較的より高い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率より低くなるように行われてよい。方法は、1つの実施形態によると、関連付けられた品質指示の所定の分布において隣り合う頂点の有向エッジのそれぞれを適合させることをさらに含むことができる。隣り合う頂点をランダムに選択することは、所定の分布において、より低い品質指示ではなくより高い品質指示と関連付けられた有向エッジによって、連結される隣り合う頂点を優先的に選択することをさらに含んでよい。
さらに別の実施形態によると、コンピュータ実施方法は、コンピュータのメモリにおいて電子テキスト文書を提供しかつ記憶し、提供された電子文書から拡張された電子文書を、
提供された電子テキスト文書においてエレメントを選択すること、
選択されたエレメントのタイプの潜在的な置き換えエレメントのソースから潜在的な置き換えエレメントのリストを生成すること、
所定の計量を使用して潜在的な置き換えエレメントのリストにおけるそれぞれの潜在的な置き換えエレメントの値を算出すること、
算出された値の高いものから順に潜在的な置き換えエレメントのリストにおける潜在的な置き換えエレメントの値をランク付けすること、
確率分布を仮定して潜在的な置き換えエレメントのランク付けリストへの指数をランダムに選択することで、より高くランク付けされた潜在的な置き換えエレメントと関連付けられた指数が、選定された確率分布に応じて、比較的より低くランク付けされた潜在的な置き換えエレメントと関連付けられた指数より選択される可能性がより高くなり得る、ランダムに選択すること、および
提供された電子テキスト文書における選択されたエレメントをランダムに選択された指数における潜在的な置き換えエレメントと置き換えることを反復的に行うことによって、生成することを含んでよい。
確率分布は、例えば、幾何、ガウス、ポアッソン、またはその他の確率分布であってよい。
別の実施形態は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに結合される少なくとも1つのデータ記憶デバイスと、少なくとも1つのプロセッサおよびコンピュータネットワークに結合されるネットワークインターフェースと、電子テキスト文書のコーパスの元の電子テキスト文書を拡張するために少なくとも1つのプロセッサによってスポーンされる複数のプロセスとを含むコンピューティングデバイスである。プロセスは、少なくとも1つの機械翻訳エンジンを使用して元の電子テキスト文書を繰り返し翻訳することで、それぞれの翻訳されたテキスト文書は、最後に翻訳された電子テキスト文書を元の電子テキスト文書の元の言語に戻すように再翻訳する前に別の言語への後続の翻訳のための基礎として使用されるようにすること、再翻訳された電子テキスト文書を、これにおける少なくとも1つの単語を選択し、かつ対応する同義語をそれぞれの選択された単語の代用にして、同義語に置き換えられた電子テキスト文書を生成することによって変換すること、同義語に置き換えられた電子テキスト文書を、これにおける少なくとも1つの単語を選択し、かつ対応するミススペルの単語をそれぞれの選択された単語の代用にして、拡張された電子テキスト文書を生成することによって変換すること、元の電子テキスト文書と拡張された電子テキスト文書との間の類似測度を計算すること、計算された類似測度が少なくとも所定の類似閾値程度であるかどうかを判断すること、計算された類似測度が少なくとも所定の類似閾値程度である場合、拡張されたテキストをデータ記憶デバイスに維持しかつ記憶し、計算された類似測度が所定の類似閾値未満である場合、拡張された電子テキスト文書を廃棄し、データ記憶デバイスに記憶しないことを行うための処理論理回路を含むことができる。
1つの実施形態によると、繰り返し翻訳する、再翻訳されたテキストを変換する、および同義語に置き換えられた電子テキスト文書を変換するための処理論理回路は、順番に逐次的に行われてよい。翻訳するステップおよび変換するステップのそれぞれに対する処理論理回路は、所定の回数逐次的に実行されるように構成されてよい。処理論理回路は、再翻訳されたまたは同義語に置き換えられた電子テキスト文書において1つまたは複数の単語を選択し、かつ選択された単語(複数可)を対応する略語(単数または複数)と置き換えるために提供可能である。少なくとも繰り返し翻訳する、再翻訳されたテキストを変換する、および同義語に置き換えられた電子テキスト文書を変換するための処理論理回路は、非決定論的であってよい、すなわち、同じ入力が供給されるにもかかわらず同じ出力がもたらされない場合がある。類似測度を計算するための処理論理回路は、元の電子テキスト文書と拡張された電子テキスト文書との間の意味的および/または構文的(および/またはその他の)類似測度を計算するための処理論理回路を含むことができる。処理論理回路は、再翻訳されたまたは同義語に置き換えられた電子テキスト文書において1つまたは複数のエンティティを選択し、かつ選択されたエンティティ(複数可)を置き換えエンティティ(単数または複数)と置き換えるためにさらに提供されてよい。選択されたエンティティ(複数可)は、無数の可能性のうちのほんのいくつかを特定するために、個人の名前、個人の苗字、金銭額、日付、および/または電話番号を含んでよい。
別の実施形態は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに結合される少なくとも1つのデータ記憶デバイスと、少なくとも1つのプロセッサおよびコンピュータネットワークに結合されるネットワークインターフェースと、電子テキスト文書のコーパスの元の電子テキスト文書を拡張するために少なくとも1つのプロセッサによってスポーンされる複数のプロセスとを含むコンピューティングデバイスである。プロセスは、複数の頂点のそれぞれの頂点が別々の言語と関連付けられてよい有向マルチグラフをデータ記憶デバイスに確立しかつ記憶することであって、それぞれの頂点は、許容可能な性能を有する指向エッジによって連結される頂点と関連付けられた言語間を翻訳するための、機械翻訳エンジンの能力を指示する指向エッジによって複数の頂点の少なくとも1つの他のものに連結される、確立しかつ記憶することと、所定の元の頂点に連結される指向エッジによって指し示される複数の頂点の中間の頂点をランダムに選択し、かつ機械翻訳エンジンに、元の電子テキスト文書を元の言語から選択された頂点と関連付けられた言語に翻訳させることによって、元の電子テキスト文書の元の言語と関連付けられた所定の元の頂点で開始して有向マルチグラフを横断することと、所定の元の頂点が選択され、かつ先に翻訳された電子テキスト文書が元の言語の再翻訳されるまで、先に翻訳された電子テキスト文書を複数の頂点のランダムに選択された隣り合う頂点と関連付けられた言語に翻訳する度に、複数の頂点の、中間の頂点から連続的な他の隣り合って連結される頂点まで指向エッジによって許可されるように、有向マルチグラフを横断し続けることであって、再翻訳された電子テキスト文書は拡張された電子テキスト文書として指定される、横断し続けることと、拡張された電子文書をデータ記憶デバイスに記憶することとを行うための処理論理回路を含むことができる。
処理論理回路は、拡張された電子テキスト文書を使用して詐欺行為の通信を検出するためのモデルをトレーニングおよび/または検査するために提供可能である。処理論理回路は、横断した頂点をマーキングすることと、マーキングした頂点を所定の回数より多く横断しないようにすることとを行うようにさらに構成されてよい。処理論理回路は、隣接する頂点の間のそれぞれの有向エッジを品質指示と関連付けるために提供可能であり、少なくとも2つの隣接する頂点が横断に利用可能である時に横断させる隣り合う頂点の選択は、少なくとも部分的に品質指示に依存する。隣り合う頂点のランダムな選択は、より低い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率が、比較的より高い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率より低くなるように行われてよい。1つの実施形態は、関連付けられた品質指示の所定の分布において隣り合う頂点の有向エッジのそれぞれを適合させるための処理論理回路をさらに含むことができ、隣り合う頂点をランダムに選択することは、所定の分布において、より低い品質指示ではなくより高い品質指示と関連付けられた有向エッジによって、連結される隣り合う頂点を優先的に選択することをさらに含んでよい。
図10は、実施形態が実施可能である、クライアントコンピューティングデバイス、電子メール(電子メッセージ)サーバなどのコンピューティングデバイスのブロック図を示す。図10のコンピューティングデバイスは、情報を通信するためのバス1001または他の通信機構、および情報を処理するためにバス1001と結合される1つまたは複数のプロセッサ1002を含んでよい。コンピューティングデバイスは、プロセッサ(複数可)1002によって実行される情報および命令を記憶するためにバス1001に結合される(メインメモリと称される)ランダムアクセスメモリ(RAM)または他の動的記憶デバイス1004をさらに含むことができる。(本明細書では、信号それ自体および波形を除外する用語として、有形のおよび非一時的な)メインメモリ1004はまた、プロセッサ1002によって命令の実行中に一時的な変数または他の中間情報を記憶するために使用されてよい。図10のコンピューティングデバイスは、プロセッサ(複数可)1002に対する静的情報および命令を記憶するためにバス1001に結合される、読み出し専用メモリ(ROM)および/または他の静的記憶デバイス1006を含むこともできる。磁気ディスクおよび/またはソリッドステートデータ記憶デバイスなどのデータ記憶デバイス1007は、図1〜図9に関連して示されかつ開示される機能性を実行するために必要とされることなどが考えられる情報および命令を記憶するためにバス1001に結合されてよい。コンピューティングデバイスは、コンピュータユーザに情報を表示するためのディスプレイデバイス1021にバス1001介して結合されてもよい。英数字および他のキーを含む英数字入力デバイス1022は、情報およびコマンド選択をプロセッサ(複数可)1002に通信するためにバス1001に結合されてよい。別のタイプのユーザ入力デバイスは、方向情報およびコマンド選択をプロセッサ(複数可)1002に通信するための、およびディスプレイ1021上のカーソル移動を制御するための、マウス、トラックボール、またはカーソル方向キーといったカーソル制御1023である。図10のコンピューティングデバイスは、通信インターフェース(例えば、モデム、ネットワークインターフェースカード、またはNIC)1008を介してネットワーク1026に結合されてよい。
示されるように、記憶デバイス1007は、1031で示唆されるように、磁気ディスク1030、不揮発性半導体メモリ(EEPROM、フラッシュなど)1032、磁気ディスクおよび不揮発性半導体メモリ両方を含むハイブリッドデータ記憶デバイスといった、直接アクセスデータ記憶デバイスを含むことができる。参照番号1004、1006、および1007は、1つまたは複数のコンピューティングデバイスによって実行される時、本明細書に説明されかつ示されるデータ拡張方法を実施する命令のシーケンスを表すデータが記憶されている有形の非一時的なコンピュータ可読媒体の例である。これらの命令のいくつかは、クライアントコンピューティングデバイスにローカルに記憶されてよいが、これらの命令のその他はリモートに記憶され(および/または実行され)、かつネットワーク1026上でクライアントコンピューティングに通信されてよい。他の実施形態では、これらの命令の全ては、クライアントまたは他のスタンドアローンコンピューティングデバイスにローカルに記憶可能であるが、さらに他の実施形態では、これらの命令の全ては(例えば、1つまたは複数のリモートサーバにおいて)リモートに記憶されかつ実行され、この結果はクライアントコンピューティングデバイスに通信される。さらに別の実施形態では、命令(処理論理回路)は、1028などに示されるように、有形の非一時的なコンピュータ可読媒体の別の形態上に記憶可能である。例えば、参照番号1028は、適したデータキャリアを、ここに記憶される命令を1つまたは複数のコンピューティングデバイス上にロードするように構成することによって、コンピューティングデバイス(複数可)を、本明細書に説明されかつ示される実施形態の1つまたは複数に対して再構成することができる、光(またはその他の記憶技術)ディスクとして実装されてよい。他の実装形態では、参照番号1028は、暗号化ソリッドステートドライブとして具現化可能である。他の実装形態が可能である。
本発明の実施形態は、例えば、悪意を持って行う通信における詐欺検出を改善するためにテキスト文書のコーパスを充実させるために新規のデータ拡張技法を実装するためのコンピューティングデバイスに使用に関連している。1つの実施形態によると、本明細書に説明される方法、デバイス、およびシステムは、プロセッサ(複数可)1002が、メモリ1004に含有される、本明細書に示されかつ説明されるコンピュータ実施方法の態様を具現化する、命令のシーケンスを実行することに応答して、1つまたは複数のコンピューティングデバイスによって提供可能である。このような命令は、1028などに示される、データ記憶デバイス1007または別の(光、磁気など)データキャリアといった、別のコンピュータ可読媒体からメモリ1004に読み込み可能である。メモリ1004に含有される命令のシーケンスの実行によって、プロセッサ(複数可)1002は、本明細書に説明されるステップを行いかつ機能性を有する。代替的な実施形態では、ハードワイヤード回路構成は、説明される実施形態を実施するためにソフトウェア命令の代わりにまたはこれと組み合わせて使用されてよい。よって、実施形態は、ハードウェア回路構成およびソフトウェアの任意の具体的な組み合わせに限定されない。実際には、任意の適したコンピュータシステムが本明細書に説明される機能性を実装できることは、当業者には理解されるべきである。コンピューティングデバイスは、所望の機能を行うように作動する1つまたは複数のマイクロプロセッサを含むことができる。1つの実施形態では、マイクロプロセッサ(単数または複数)によって実行される命令は、マイクロプロセッサ(複数可)に本明細書に説明されるステップを行わせるように動作可能である。命令は任意のコンピュータ可読媒体に記憶されてよい。1つの実施形態では、これらの命令は、マイクロプロセッサの外部の、またはマイクロプロセッサと一体化した不揮発性半導体メモリ上に記憶可能である。別の実施形態では、命令は、ディスク上に記憶され、かつ、マイクロプロセッサによる実行の前に揮発性半導体メモリに読み込まれてよい。
上記の詳細な説明の一部分では、ローカル処理ユニット、ローカル処理ユニットのためのメモリ記憶デバイス、ディスプレイデバイス、および入力デバイスを含むコンピュータ構成要素を含むことができるコンピューティングデバイスによる動作のプロセスおよび象徴的表象を説明している。さらに、このようなプロセスおよび動作は、例えば、リモートファイルサーバ、コンピュータサーバ、およびメモリ記憶デバイスを含む、不均一に分布したコンピューティング環境におけるコンピュータ構成要素を利用することができる。これらの分布したコンピューティング構成要素は、通信ネットワークによってローカル処理ユニットにアクセス可能としてよい。
コンピュータによって行われるプロセスおよび動作は、ローカル処理ユニットおよび/またはリモートサーバによるデータビットの操作、およびローカルまたはリモートメモリ記憶デバイスの1つまたは複数に常駐しているデータ構造内のこれらのビットのメンテナンスを含む。これらのデータ構造は、物理編成をメモリ記憶デバイス内に記憶されたデータビット群に与え、かつ電磁スペクトル素子を表す。
本明細書に説明されかつ示されるコンピュータ実施データ拡張方法といったプロセスは、一般に、所望の結果をもたらすコンピュータ実行ステップのシーケンスであると定義されてよい。これらのステップは、一般に、物理量の物理操作を必要とする。通常、必然ではないが、これらの量は、記憶、転送、組み合わせ、比較、あるいは操作が可能である電気、磁気、または光信号の形態を取ることができる。当業者が、これらの信号を、ビットもしくはバイト(これらが二値論理レベルを有する時)、画素値、仕事、値、エレメント、記号、文字、項、数、点、記録、オブジェクト、画像、ファイル、ディレクトリ、またはサブディレクトリなどと称することは、従来的である。しかしながら、これらのおよび同様の用語がコンピュータ動作に適切な物理量と関連付けられるものとし、これらの用語が単に、コンピュータの動作の範囲内かつ間に存在する物理量に適用される従来のラベルであることは留意されるべきである。
コンピュータ内の操作が、追加する、比較する、移動する、位置付ける、配置する、照明する、除去する、および改変するなどの用語で称されることが多いことも理解されるべきである。本明細書に説明される動作は、コンピュータと対話する人間のもしくは人工知能エージェントのオペレータまたはユーザによって提供されるさまざまな入力と併せて行われる機械動作である。本明細書に説明される動作を行うために使用される機械は、ローカルもしくはリモートの汎用デジタルコンピュータまたは他の同様のコンピューティングデバイスを含む。
さらに、本明細書に説明されるプログラム、プロセス、方法などが、いかなる特定のコンピュータまたは装置にも関連しておらずまたは限定されるものではなく、いかなる特定の通信ネットワークアーキテクチャにも関連しておらずまたは限定されるものではないことは理解されるべきである。もっと正確に言えば、本明細書に説明される教示に従って構成されるプログラムモジュールと共に、さまざまなタイプの汎用ハードウェア機が使用可能である。同様に、読み出し専用メモリなどの不揮発性メモリ内に記憶されたハードワイヤード論理またはプログラムを有する固有のネットワークアーキテクチャにおける専用のコンピュータシステムによって本明細書に説明される方法ステップを行うための特殊装置を構成することが有利であることが証明され得る。
ある特定の例示の実施形態が説明されているが、これらの実施形態は例としてのみ提示されており、本明細書に開示される実施形態の範囲を限定することは意図されていない。よって、前述の説明において、任意の特定の特徴、特性、ステップ、モジュール、またはブロックが必要であるまたは不可欠であると含意することはどこにも意図されていない。実際には、本明細書に説明される新規の方法およびシステムは、さまざまな他の形態で具現化されてよく、さらに、本明細書に説明される方法およびシステムの形態におけるさまざまな省略、代用、および変更は、本明細書に開示される実施形態の趣旨から逸脱することなくなされてよい。

Claims (30)

  1. 電子テキスト文書のコーパスの元の電子テキスト文書を拡張するためのコンピュータ実施方法であって、
    メモリを有するコンピュータにおいて前記元の電子テキスト文書を受信することと、
    少なくとも1つの機械翻訳エンジンを使用して、受信された前記元の電子テキスト文書を繰り返し翻訳することで、それぞれの翻訳された電子テキスト文書が、前記元の電子テキスト文書の元の言語に戻すように最後に翻訳された電子テキスト文書を再翻訳する前に別の言語への後続の翻訳の基礎として使用されるようにすることと、
    再翻訳された前記電子テキスト文書を、これにおける少なくとも1つの単語を選択し、かつ対応する同義語をそれぞれの選択された単語の代用にして、同義語に置き換えられた電子テキスト文書を生成することによって変換することと、
    前記同義語に置き換えられた電子テキスト文書を、これにおける少なくとも1つの単語を選択し、かつ対応するミススペルの単語をそれぞれの選択された単語の代用にして、拡張された電子テキスト文書を生成することによって変換することと、
    前記元の電子テキスト文書と前記拡張された電子テキスト文書との間の類似測度を計算することと、
    計算された前記類似測度が少なくとも所定の類似閾値程度であるかどうかを判断することと、
    前記計算された類似閾値が少なくとも前記所定の類似閾値程度である場合、前記拡張された電子テキスト文書を前記メモリに維持しかつ記憶し、前記計算された類似閾値が前記所定の類似閾値未満である場合、前記拡張された電子テキスト文書を前記メモリに記憶しないことと、を含む、コンピュータ実施方法。
  2. 繰り返し翻訳すること、前記再翻訳された電子テキスト文書を変換すること、および前記同義語に置き換えられた電子テキスト文書を変換することは、順番に逐次的に行われる、請求項1に記載のコンピュータ実施方法。
  3. 前記翻訳するステップおよび変換するステップのそれぞれは、所定の回数逐次的に行われるように構成される、請求項1に記載のコンピュータ実施方法。
  4. 前記再翻訳されたまたは同義語に置き換えられた電子テキスト文書において少なくとも1つの単語を選択し、かつ選択された前記少なくとも1つの単語を対応する略語と置き換えることをさらに含む、請求項1に記載のコンピュータ実施方法。
  5. 前記再翻訳されたまたは同義語に置き換えられた電子テキスト文書において少なくとも1つのエンティティを選択し、かつ選択された前記少なくとも1つのエンティティを置き換えエンティティと置き換えることをさらに含む、請求項1に記載のコンピュータ実施方法。
  6. 前記選択された少なくとも1つのエンティティは、個人の名前、個人の苗字、金銭額、日付、および電話番号のうちの少なくとも1つを含む、請求項5に記載のコンピュータ実施方法。
  7. 前記類似測度を計算することは、前記元の電子テキスト文書と前記拡張された電子テキスト文書との間の少なくとも意味的類似測度を計算することを含む、請求項1に記載のコンピュータ実施方法。
  8. 前記類似測度を計算することは、前記元の電子テキスト文書と前記拡張された電子テキスト文書との間の少なくとも構文的類似測度を計算することを含む、請求項1に記載のコンピュータ実施方法。
  9. 複数の頂点のそれぞれの頂点が別々の言語と関連付けられる有向マルチグラフを確立することであって、それぞれの頂点は、許容可能な性能を有する指向エッジによって連結される前記頂点と関連付けられた言語間を翻訳するための、機械翻訳エンジンの能力を指示する前記指向エッジによって前記複数の頂点の少なくとも1つの他のものに連結される、確立することと、
    確立された前記有向マルチグラフをコンピュータのメモリに記憶することと、
    所定の元の頂点に連結される指向エッジによって指し示される前記複数の頂点の中間の頂点をランダムに選択し、かつ機械翻訳エンジンに、前記元の電子テキスト文書を前記元の言語から選択された前記頂点と関連付けられた言語に翻訳させることによって、前記元の電子テキスト文書の前記元の言語と関連付けられた前記所定の元の頂点で開始して記憶された前記有向マルチグラフを横断することと、
    前記所定の元の頂点が選択され、かつ先に翻訳された前記電子テキスト文書が前記元の言語に再翻訳されるまで、機械が前記先に翻訳された電子テキスト文書を前記複数の頂点のランダムに選択された隣り合う頂点と関連付けられた言語に翻訳する度に、前記複数の頂点の、前記中間の頂点から連続的な他の隣り合って連結される頂点まで前記指向エッジによって許可されるように、前記コンピュータの前記メモリに記憶された前記有向マルチグラフを横断し続けることと、
    拡張された電子テキスト文書として前記コンピュータの前記メモリに再翻訳された前記電子テキスト文書を記憶することと、を含む、コンピュータ実施方法。
  10. 前記拡張された電子テキスト文書を電子テキスト文書の既存のコーパスに追加して詐欺行為の通信を検出するための電子モデルをトレーニングおよび/または検査することをさらに含む、請求項9に記載のコンピュータ実施方法。
  11. 横断した頂点をマーキングすることと、マーキングした前記頂点を所定の回数より多く横断しないようにすることと、をさらに含む、請求項9に記載のコンピュータ実施方法。
  12. 隣接する頂点の間のそれぞれの有向エッジを品質指示と関連付けることをさらに含み、少なくとも2つの隣接する頂点が横断に利用可能である時に横断させる隣り合う頂点の選択は、少なくとも部分的に前記品質指示に依存する、請求項9に記載のコンピュータ実施方法。
  13. 隣り合う頂点をランダムに選択することは、より低い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率が、比較的より高い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率より低くなるように行われる、請求項12に記載のコンピュータ実施方法。
  14. 関連付けられた前記品質指示の所定の分布において隣り合う頂点の前記有向エッジのそれぞれを適合させることをさらに含み、前記隣り合う頂点をランダムに選択することは、前記所定の分布において、より低い品質指示ではなくより高い品質指示と関連付けられた有向エッジによって、連結される隣り合う頂点を優先的に選択することをさらに含む、請求項12に記載のコンピュータ実施方法。
  15. コンピュータのメモリにおいて電子テキスト文書を提供しかつ記憶し、提供された前記電子テキスト文書から拡張された電子テキスト文書を、
    前記提供された電子テキスト文書においてエレメントを選択すること、
    選択された前記エレメントのタイプの潜在的な置き換えエレメントのソースから潜在的な置き換えエレメントのリストを生成すること、
    所定の計量を使用して前記潜在的な置き換えエレメントのリストにおけるそれぞれの潜在的な置き換えエレメントの値を算出すること、
    算出された前記値の高いものから順に前記潜在的な置き換えエレメントのリストにおける前記潜在的な置き換えエレメントの前記値をランク付けすること、
    確率分布を仮定して前記潜在的な置き換えエレメントのランク付けリストへの指数をランダムに選択することで、より高くランク付けされた潜在的な置き換えエレメントと関連付けられた指数が、比較的より低くランク付けされた潜在的な置き換えエレメントと関連付けられた指数より選択される可能性がより高くなるようにすること、および
    前記提供された電子テキスト文書における選択された前記エレメントをランダムに選択された前記指数における前記潜在的な置き換えエレメントと置き換えることを反復的に行うことによって生成することを含む、コンピュータ実施方法。
  16. 前記確率分布は、幾何、均一、ガウス、およびポアッソン確率分布のうちの1つである、請求項15に記載のコンピュータ実施方法。
  17. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに結合される少なくとも1つのデータ記憶デバイスと、
    前記少なくとも1つのプロセッサおよびコンピュータネットワークに結合されるネットワークインターフェースと、
    電子テキスト文書のコーパスの元の電子テキスト文書を拡張するために前記少なくとも1つのプロセッサによってスポーンされる複数のプロセスであって、
    少なくとも1つの機械翻訳エンジンを使用して前記元の電子テキスト文書を繰り返し翻訳することで、それぞれの翻訳されたテキスト文書は、最後に翻訳された電子テキスト文書を前記元の電子テキスト文書の元の言語に戻すように再翻訳する前に別の言語への後続の翻訳のための基礎として使用されるようにすること、
    再翻訳された前記電子テキスト文書を、これにおける少なくとも1つの単語を選択し、かつ対応する同義語をそれぞれの選択された単語の代用にして、同義語に置き換えられた電子テキスト文書を生成することによって変換すること、
    前記同義語に置き換えられた電子テキスト文書を、これにおける少なくとも1つの単語を選択し、かつ対応するミススペルの単語をそれぞれの選択された単語の代用にして、拡張された電子テキスト文書を生成することによって変換すること、
    前記元の電子テキスト文書と前記拡張された電子テキスト文書との間の類似測度を計算すること、
    計算された前記類似測度が少なくとも所定の類似閾値程度であるかどうかを判断すること、
    前記計算された類似測度が少なくとも前記所定の類似閾値程度である場合、前記拡張されたテキストを前記データ記憶デバイスに維持しかつ記憶し、前記計算された類似測度が前記所定の類似閾値未満である場合、前記拡張された電子テキスト文書を廃棄し、前記データ記憶デバイスに記憶しないことを行うための処理論理回路を含む、複数のプロセスと、を含む、コンピューティングデバイス。
  18. 繰り返し翻訳する、再翻訳された前記テキストを変換する、および前記同義語に置き換えられた電子テキスト文書を変換するための前記処理論理回路は、順番に逐次的に行われる、請求項17に記載のコンピューティングデバイス。
  19. 前記翻訳するステップおよび前記変換するステップのそれぞれに対する前記処理論理回路は、所定の回数逐次的に実行されるように構成される、請求項17に記載のコンピューティングデバイス。
  20. 前記再翻訳されたまたは同義語に置き換えられた電子テキスト文書において少なくとも1つの単語を選択し、かつ選択された前記少なくとも1つの単語を対応する略語と置き換えるための処理論理回路をさらに含む、請求項17に記載のコンピューティングデバイス。
  21. 前記再翻訳されたまたは同義語に置き換えられた電子テキスト文書において少なくとも1つのエンティティを選択し、かつ選択された前記少なくとも1つのエンティティを置き換えエンティティと置き換えるための処理論理回路をさらに含む、請求項17に記載のコンピューティングデバイス。
  22. 前記選択された少なくとも1つのエンティティは、個人の名前、個人の苗字、金銭額、日付、および電話番号のうちの少なくとも1つを含む、請求項21に記載のコンピューティングデバイス。
  23. 前記類似測度を計算するための前記処理論理回路は、前記元の電子テキスト文書と前記拡張された電子テキスト文書との間の少なくとも意味的類似測度を計算するための処理論理回路を含む、請求項17に記載のコンピューティングデバイス。
  24. 前記類似測度を計算するための前記処理論理回路は、前記元の電子テキスト文書と前記拡張された電子テキスト文書との間の少なくとも構文的類似測度を計算するための処理論理回路を含む、請求項17に記載のコンピューティングデバイス。
  25. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに結合される少なくとも1つのデータ記憶デバイスと、
    前記少なくとも1つのプロセッサおよびコンピュータネットワークに結合されるネットワークインターフェースと、
    電子テキスト文書のコーパスの元の電子テキスト文書を拡張するために前記少なくとも1つのプロセッサによってスポーンされる複数のプロセスであって、
    複数の頂点のそれぞれの頂点が別々の言語と関連付けられる有向マルチグラフを前記データ記憶デバイスに確立しかつ記憶することであって、それぞれの頂点は、許容可能な性能を有する指向エッジによって連結される前記頂点と関連付けられた言語間を翻訳するための、機械翻訳エンジンの能力を指示する前記指向エッジによって前記複数の頂点の少なくとも1つの他のものに連結される、確立しかつ記憶すること、
    所定の元の頂点に連結される指向エッジによって指し示される前記複数の頂点の中間の頂点をランダムに選択し、かつ機械翻訳エンジンに、前記元の電子テキスト文書を元の言語から選択された前記頂点と関連付けられた言語に翻訳させることによって、前記元の電子テキスト文書の前記元の言語と関連付けられた前記所定の元の頂点で開始して前記有向マルチグラフを横断すること、
    前記所定の元の頂点が選択され、かつ先に翻訳された前記電子テキスト文書が前記元の言語に再翻訳されるまで、前記先に翻訳された電子テキスト文書を前記複数の頂点のランダムに選択された隣り合う頂点と関連付けられた言語に翻訳する度に、前記複数の頂点の、前記中間の頂点から連続的な他の隣り合って連結される頂点まで前記指向エッジによって許可されるように前記有向マルチグラフを横断し続けることであって、再翻訳された前記電子テキスト文書は拡張された電子テキスト文書として指定される、横断し続けること、および
    前記拡張された電子文書を前記データ記憶デバイスに記憶することを行うための処理論理回路を含む、複数のプロセスと、を含む、コンピューティングデバイス。
  26. 前記拡張された電子テキスト文書を詐欺行為の通信を検出するためのモデルに適用するための処理論理回路をさらに含む、請求項25に記載のコンピューティングデバイス。
  27. 横断した頂点をマーキングし、かつマーキングした頂点を所定の回数より多く横断しないようにするための処理論理回路をさらに含む、請求項25に記載のコンピューティングデバイス。
  28. 隣接する頂点の間のそれぞれの有向エッジを品質指示と関連付けるための処理論理回路をさらに含み、少なくとも2つの隣接する頂点が横断に利用可能である時に横断させる隣り合う頂点の選択は、少なくとも部分的に前記品質指示に依存する、請求項25に記載のコンピューティングデバイス。
  29. 隣り合う頂点をランダムに選択することは、より低い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率が、比較的より高い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率より低くなるように行われる、請求項28に記載のコンピュータ実施方法。
  30. 関連付けられた前記品質指示の所定の分布において隣り合う頂点の前記有向エッジのそれぞれを適合させるための処理論理回路をさらに含み、前記隣り合う頂点をランダムに選択することは、前記所定の分布において、より低い品質指示ではなくより高い品質指示と関連付けられた有向エッジによって、連結される隣り合う頂点を優先的に選択することをさらに含む、請求項28に記載のコンピューティングデバイス。
JP2019039399A 2018-06-20 2019-03-05 詐欺検出を改善するためのデータ拡張の方法、デバイス、およびシステム Active JP7302987B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/013,581 US10664656B2 (en) 2018-06-20 2018-06-20 Methods, devices and systems for data augmentation to improve fraud detection
US16/013,581 2018-06-20

Publications (2)

Publication Number Publication Date
JP2019220144A true JP2019220144A (ja) 2019-12-26
JP7302987B2 JP7302987B2 (ja) 2023-07-04

Family

ID=68981807

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019039399A Active JP7302987B2 (ja) 2018-06-20 2019-03-05 詐欺検出を改善するためのデータ拡張の方法、デバイス、およびシステム

Country Status (4)

Country Link
US (3) US10664656B2 (ja)
JP (1) JP7302987B2 (ja)
CA (3) CA3122638C (ja)
WO (1) WO2019246294A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3588329A1 (en) * 2018-06-27 2020-01-01 Unify Patente GmbH & Co. KG Computer-implemented method and system for providing a review process of a document
US11669712B2 (en) * 2019-05-21 2023-06-06 Salesforce.Com, Inc. Robustness evaluation via natural typos
CN111199531B (zh) * 2019-12-27 2023-05-12 中国民航大学 基于泊松图像融合及图像风格化的交互式数据扩展方法
CN111291560B (zh) * 2020-03-06 2023-05-23 深圳前海微众银行股份有限公司 样本扩充方法、终端、装置及可读存储介质
CN111695356A (zh) * 2020-05-28 2020-09-22 平安科技(深圳)有限公司 同义语料生成方法、装置、计算机系统及可读存储介质
CN111694826B (zh) * 2020-05-29 2024-03-19 平安科技(深圳)有限公司 基于人工智能的数据增强方法、装置、电子设备及介质
CN111859987B (zh) * 2020-07-28 2024-05-17 网易(杭州)网络有限公司 文本处理方法、目标任务模型的训练方法和装置
KR102620871B1 (ko) * 2020-12-10 2024-01-04 인하대학교 산학협력단 번역 기반 문장 데이터 변형과 딥러닝 보정을 이용한 문장 분류 데이터 증강 방법 및 장치
CN113378513B (zh) * 2021-06-11 2022-12-23 电子科技大学 一种面向领域关系抽取的标注语料生成方法
CN115277123B (zh) * 2022-07-12 2024-01-19 上海交通大学 车用can总线注入攻击异常检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007398A (ja) * 2000-06-23 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> 翻訳制御方法及び装置及び翻訳制御プログラムを格納した記憶媒体
US20130138428A1 (en) * 2010-01-07 2013-05-30 The Trustees Of The Stevens Institute Of Technology Systems and methods for automatically detecting deception in human communications expressed in digital form
JP2016509312A (ja) * 2013-02-08 2016-03-24 マシーン・ゾーン・インコーポレイテッドMachine Zone, Inc. マルチユーザ多言語通信のためのシステムおよび方法
US20190042663A1 (en) * 2017-08-02 2019-02-07 Yahoo Holdings, Inc. Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation

Family Cites Families (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3176059B2 (ja) * 1990-11-15 2001-06-11 キヤノン株式会社 翻訳装置
US6278967B1 (en) * 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
US6460036B1 (en) * 1994-11-29 2002-10-01 Pinpoint Incorporated System and method for providing customized electronic newspapers and target advertisements
ITUD980032A1 (it) * 1998-03-03 1998-06-03 Agostini Organizzazione Srl D Sistema di traduzione a macchina e rispettivo tradsistema di traduzione a macchina e rispettivo traduttore che comprende tale sistema uttore che comprende tale sistema
US8812300B2 (en) * 1998-03-25 2014-08-19 International Business Machines Corporation Identifying related names
US6275789B1 (en) * 1998-12-18 2001-08-14 Leo Moser Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language
US7925610B2 (en) * 1999-09-22 2011-04-12 Google Inc. Determining a meaning of a knowledge item using document-based information
US7225199B1 (en) * 2000-06-26 2007-05-29 Silver Creek Systems, Inc. Normalizing and classifying locale-specific information
US7865358B2 (en) * 2000-06-26 2011-01-04 Oracle International Corporation Multi-user functionality for converting data from a first form to a second form
US6810376B1 (en) 2000-07-11 2004-10-26 Nusuara Technologies Sdn Bhd System and methods for determining semantic similarity of sentences
IT1315160B1 (it) * 2000-12-28 2003-02-03 Agostini Organizzazione Srl D Sistema e metodo di traduzione automatica o semiautomatica conposteditazione per la correzione degli errori.
US6996518B2 (en) * 2001-01-03 2006-02-07 International Business Machines Corporation Method and apparatus for automated measurement of quality for machine translation
US7346491B2 (en) 2001-01-04 2008-03-18 Agency For Science, Technology And Research Method of text similarity measurement
JP2002215621A (ja) * 2001-01-19 2002-08-02 Nec Corp 翻訳サーバ及び翻訳方法並びにプログラム
US6934683B2 (en) * 2001-01-31 2005-08-23 Microsoft Corporation Disambiguation language model
AU2002254564A1 (en) * 2001-04-10 2002-10-28 Latanya Sweeney Systems and methods for deidentifying entries in a data source
DE10126835B4 (de) * 2001-06-01 2004-04-29 Siemens Dematic Ag Verfahren und Vorrichtung zum automatischen Lesen von Adressen in mehr als einer Sprache
US7249117B2 (en) * 2002-05-22 2007-07-24 Estes Timothy W Knowledge discovery agent system and method
US20040229199A1 (en) * 2003-04-16 2004-11-18 Measured Progress, Inc. Computer-based standardized test administration, scoring and analysis system
US7451487B2 (en) 2003-09-08 2008-11-11 Sonicwall, Inc. Fraudulent message detection
US8543378B1 (en) * 2003-11-05 2013-09-24 W.W. Grainger, Inc. System and method for discerning a term for an entry having a spelling error
US9106694B2 (en) 2004-04-01 2015-08-11 Fireeye, Inc. Electronic message analysis for malware detection
US7299181B2 (en) * 2004-06-30 2007-11-20 Microsoft Corporation Homonym processing in the context of voice-activated command systems
US9330175B2 (en) * 2004-11-12 2016-05-03 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US7529765B2 (en) * 2004-11-23 2009-05-05 Palo Alto Research Center Incorporated Methods, apparatus, and program products for performing incremental probabilistic latent semantic analysis
US7849090B2 (en) * 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
US9104779B2 (en) * 2005-03-30 2015-08-11 Primal Fusion Inc. Systems and methods for analyzing and synthesizing complex knowledge representations
US8849860B2 (en) * 2005-03-30 2014-09-30 Primal Fusion Inc. Systems and methods for applying statistical inference techniques to knowledge representations
US8898134B2 (en) * 2005-06-27 2014-11-25 Make Sence, Inc. Method for ranking resources using node pool
US7321892B2 (en) * 2005-08-11 2008-01-22 Amazon Technologies, Inc. Identifying alternative spellings of search strings by analyzing self-corrective searching behaviors of users
US8010343B2 (en) * 2005-12-15 2011-08-30 Nuance Communications, Inc. Disambiguation systems and methods for use in generating grammars
US7761394B2 (en) 2006-05-16 2010-07-20 Sony Corporation Augmented dataset representation using a taxonomy which accounts for similarity and dissimilarity between each record in the dataset and a user's similarity-biased intuition
US20080221864A1 (en) * 2007-03-08 2008-09-11 Daniel Blumenthal Process for procedural generation of translations and synonyms from core dictionaries
US8447285B1 (en) 2007-03-26 2013-05-21 Callwave Communications, Llc Methods and systems for managing telecommunications and for translating voice messages to text messages
US20080240425A1 (en) * 2007-03-26 2008-10-02 Siemens Medical Solutions Usa, Inc. Data De-Identification By Obfuscation
EP2158540A4 (en) * 2007-06-18 2010-10-20 Geographic Services Inc NAME SYSTEM FOR SELECTING GEOGRAPHICAL CHARACTERISTICS
US8302197B2 (en) * 2007-06-28 2012-10-30 Microsoft Corporation Identifying data associated with security issue attributes
US8131742B2 (en) * 2007-12-14 2012-03-06 Bank Of America Corporation Method and system for processing fraud notifications
US8676732B2 (en) * 2008-05-01 2014-03-18 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
US20090300012A1 (en) 2008-05-28 2009-12-03 Barracuda Inc. Multilevel intent analysis method for email filtration
US20090313005A1 (en) * 2008-06-11 2009-12-17 International Business Machines Corporation Method for assured lingual translation of outgoing electronic communication
CA3068661C (en) * 2008-08-29 2022-02-22 Primal Fusion Inc. Systems and methods for semantic concept definition and semantic concept relationship synthesis utilizing existing domain definitions
US8775154B2 (en) * 2008-09-18 2014-07-08 Xerox Corporation Query translation through dictionary adaptation
US20100094673A1 (en) * 2008-10-14 2010-04-15 Ebay Inc. Computer-implemented method and system for keyword bidding
US8209342B2 (en) * 2008-10-31 2012-06-26 At&T Intellectual Property I, Lp Systems and associated computer program products that disguise partitioned data structures using transformations having targeted distributions
US20100262836A1 (en) * 2009-04-13 2010-10-14 Eric Peukert Privacy and confidentiality preserving mapping repository for mapping reuse
US8159373B2 (en) 2009-07-28 2012-04-17 Ecole Polytechnique Federale De Lausanne (Epfl) Encoding and decoding information
US8306807B2 (en) * 2009-08-17 2012-11-06 N T repid Corporation Structured data translation apparatus, system and method
US9277021B2 (en) * 2009-08-21 2016-03-01 Avaya Inc. Sending a user associated telecommunication address
US20110126122A1 (en) * 2009-11-20 2011-05-26 George Forman Systems and methods for generating profiles for use in customizing a website
US20110178943A1 (en) * 2009-12-17 2011-07-21 New Jersey Institute Of Technology Systems and Methods For Anonymity Protection
US8332395B2 (en) * 2010-02-25 2012-12-11 International Business Machines Corporation Graphically searching and displaying data
US8863279B2 (en) 2010-03-08 2014-10-14 Raytheon Company System and method for malware detection
US8265923B2 (en) 2010-05-11 2012-09-11 Xerox Corporation Statistical machine translation employing efficient parameter training
US9235806B2 (en) * 2010-06-22 2016-01-12 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems
US10628553B1 (en) * 2010-12-30 2020-04-21 Cerner Innovation, Inc. Health information transformation system
US9405787B2 (en) * 2011-06-02 2016-08-02 Nec Corporation Distributed anonymization system, distributed anonymization device, and distributed anonymization method
JPWO2012176923A1 (ja) * 2011-06-20 2015-02-23 日本電気株式会社 匿名化指標決定装置及び方法、並びに匿名化処理実行システム及び方法
US9715547B2 (en) * 2011-07-15 2017-07-25 Commonsku Inc. Method and system for providing newsfeed updates
US20140358516A1 (en) * 2011-09-29 2014-12-04 Google Inc. Real-time, bi-directional translation
US9129591B2 (en) * 2012-03-08 2015-09-08 Google Inc. Recognizing speech in multiple languages
US9201561B2 (en) * 2012-05-12 2015-12-01 Roland Wescott Montague Rotatable object system for visual communication and analysis
US8543563B1 (en) 2012-05-24 2013-09-24 Xerox Corporation Domain adaptation for query translation
US9246933B1 (en) 2012-07-25 2016-01-26 Symantec Corporation Systems and methods for detecting malicious email attachments
TWI465950B (zh) * 2012-08-21 2014-12-21 Ind Tech Res Inst 發掘可疑帳號之分身群組的方法與系統
US9648087B2 (en) * 2012-10-08 2017-05-09 International Business Machines Corporation Allocating distributed storage and task execution resources
US8996492B2 (en) 2012-12-13 2015-03-31 Sap Se Graph traversal operator inside a column store
US20140201043A1 (en) * 2013-01-11 2014-07-17 International Business Machines Corporation Entity resolution without using personally identifiable information
US9264387B2 (en) * 2013-02-06 2016-02-16 Msc Intellectual Properties B.V. System and method for authorship disambiguation and alias resolution in electronic data
US10769241B1 (en) * 2013-02-07 2020-09-08 Cerner Innovation, Inc. Discovering context-specific complexity and utilization sequences
US9053326B2 (en) 2013-02-08 2015-06-09 PhishMe, Inc. Simulated phishing attack with sequential messages
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9569425B2 (en) * 2013-03-01 2017-02-14 The Software Shop, Inc. Systems and methods for improving the efficiency of syntactic and semantic analysis in automated processes for natural language understanding using traveling features
US20140277921A1 (en) * 2013-03-14 2014-09-18 General Electric Company System and method for data entity identification and analysis of maintenance data
US9342499B2 (en) 2013-03-19 2016-05-17 Educational Testing Service Round-trip translation for automated grammatical error correction
US9348815B1 (en) * 2013-06-28 2016-05-24 Digital Reasoning Systems, Inc. Systems and methods for construction, maintenance, and improvement of knowledge representations
US9230132B2 (en) * 2013-12-18 2016-01-05 International Business Machines Corporation Anonymization for data having a relational part and sequential part
US9881006B2 (en) * 2014-02-28 2018-01-30 Paypal, Inc. Methods for automatic generation of parallel corpora
US11017311B2 (en) 2014-06-30 2021-05-25 Hewlett Packard Enterprise Development Lp Dataset augmentation based on occlusion and inpainting
US9571510B1 (en) * 2014-10-21 2017-02-14 Symantec Corporation Systems and methods for identifying security threat sources responsible for security events
US9398047B2 (en) 2014-11-17 2016-07-19 Vade Retro Technology, Inc. Methods and systems for phishing detection
US9898773B2 (en) * 2014-11-18 2018-02-20 Microsoft Technology Licensing, Llc Multilingual content based recommendation system
EP3227820A1 (en) * 2014-12-05 2017-10-11 Permissionbit Methods and systems for encoding computer processes for malware deteection
US10453058B2 (en) * 2014-12-17 2019-10-22 Heartland Payment Systems, Inc. E-signature
US9721559B2 (en) 2015-04-17 2017-08-01 International Business Machines Corporation Data augmentation method based on stochastic feature mapping for automatic speech recognition
US9635052B2 (en) 2015-05-05 2017-04-25 Christopher J. HADNAGY Phishing as-a-service (PHaas) used to increase corporate security awareness
US10395059B2 (en) * 2015-07-15 2019-08-27 Privacy Analytics Inc. System and method to reduce a risk of re-identification of text de-identification tools
US9942249B2 (en) 2015-07-22 2018-04-10 Bank Of America Corporation Phishing training tool
US20170032484A1 (en) * 2015-07-31 2017-02-02 Wal-Mart Stores, Inc. Systems, devices, and methods for detecting firearm straw purchases
US9654492B2 (en) 2015-09-15 2017-05-16 Mimecast North America, Inc. Malware detection system based on stored data
US10366053B1 (en) * 2015-11-24 2019-07-30 Amazon Technologies, Inc. Consistent randomized record-level splitting of machine learning data
US10679015B1 (en) * 2015-12-28 2020-06-09 Amazon Technologies, Inc. Utilizing artificial intelligence-based machine translation to augment document summarization
US10255277B2 (en) * 2016-06-24 2019-04-09 Facebook, Inc. Crowd matching translators
US10453117B1 (en) * 2016-06-29 2019-10-22 Amazon Technologies, Inc. Determining domains for natural language understanding
US10121467B1 (en) * 2016-06-30 2018-11-06 Amazon Technologies, Inc. Automatic speech recognition incorporating word usage information
US10679014B2 (en) * 2017-06-08 2020-06-09 Panasonic Intellectual Property Management Co., Ltd. Method for providing translation information, non-transitory computer-readable recording medium, and translation information providing apparatus
US20190080116A1 (en) * 2017-09-13 2019-03-14 Microsoft Technology Licensing, Llc Random noise based privacy mechanism
US10938817B2 (en) * 2018-04-05 2021-03-02 Accenture Global Solutions Limited Data security and protection system using distributed ledgers to store validated data in a knowledge graph

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007398A (ja) * 2000-06-23 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> 翻訳制御方法及び装置及び翻訳制御プログラムを格納した記憶媒体
US20130138428A1 (en) * 2010-01-07 2013-05-30 The Trustees Of The Stevens Institute Of Technology Systems and methods for automatically detecting deception in human communications expressed in digital form
JP2016509312A (ja) * 2013-02-08 2016-03-24 マシーン・ゾーン・インコーポレイテッドMachine Zone, Inc. マルチユーザ多言語通信のためのシステムおよび方法
US20190042663A1 (en) * 2017-08-02 2019-02-07 Yahoo Holdings, Inc. Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
澤井 裕一郎 外2名: "文法誤り訂正のための疑似誤り生成によるラベルなしコーパスの利用", 言語処理学会第23回年次大会 発表論文集 [ONLINE], JPN6023007606, 6 March 2017 (2017-03-06), JP, pages 714 - 717, ISSN: 0004999959 *

Also Published As

Publication number Publication date
CA3022443C (en) 2023-10-17
US10997366B2 (en) 2021-05-04
US10664656B2 (en) 2020-05-26
US20200110806A1 (en) 2020-04-09
US20190392038A1 (en) 2019-12-26
JP7302987B2 (ja) 2023-07-04
CA3122744A1 (en) 2019-12-20
US10846474B2 (en) 2020-11-24
CA3022443A1 (en) 2019-12-20
CA3122638C (en) 2023-06-27
US20200159993A1 (en) 2020-05-21
CA3122744C (en) 2023-06-13
WO2019246294A1 (en) 2019-12-26
CA3122638A1 (en) 2019-12-20

Similar Documents

Publication Publication Date Title
JP7302987B2 (ja) 詐欺検出を改善するためのデータ拡張の方法、デバイス、およびシステム
CN111506714B (zh) 基于知识图嵌入的问题回答
Li et al. Mining evidences for named entity disambiguation
US9189746B2 (en) Machine-learning based classification of user accounts based on email addresses and other account information
US20210295114A1 (en) Method and apparatus for extracting structured data from image, and device
WO2020005731A1 (en) Text entity detection and recognition from images
US20170083785A1 (en) Method and system for improved optical character recognition
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN111886596A (zh) 使用基于序列的锁定/解锁分类进行机器翻译锁定
CN111931488A (zh) 用于验证判断结果准确性的方法、装置、电子设备及介质
Yang et al. Semantic-preserving adversarial text attacks
Alves et al. Leveraging BERT's Power to Classify TTP from Unstructured Text
CN116992052B (zh) 用于威胁情报领域的长文本摘要方法、装置和电子设备
US20230342822A1 (en) Method and system of sentiment-based tokenization and secure deployment thereof
US11188746B1 (en) Systems and methods for deep learning based approach for content extraction
US20230289735A1 (en) Apparatus and methods for screening users
US20200099718A1 (en) Fuzzy inclusion based impersonation detection
Shehu et al. Enhancements to language modeling techniques for adaptable log message classification
Banerjee et al. Quote examiner: verifying quoted images using web-based text similarity
Nasrin et al. How many users are enough? Exploring semi-supervision and stylometric features to uncover a russian troll farm
Su et al. Adversarial Sample Generation Method for Spam SMS Classification
EP4369246A1 (en) Translation review suitability assessment
JP2023155158A (ja) スマート翻訳システム
Muralitharan et al. Privacy BERT-LSTM: a novel NLP algorithm for sensitive information detection in textual documents
Cai et al. A novel code generator for graphical user interfaces

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230622

R150 Certificate of patent or registration of utility model

Ref document number: 7302987

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150