JP7302987B2 - 詐欺検出を改善するためのデータ拡張の方法、デバイス、およびシステム - Google Patents
詐欺検出を改善するためのデータ拡張の方法、デバイス、およびシステム Download PDFInfo
- Publication number
- JP7302987B2 JP7302987B2 JP2019039399A JP2019039399A JP7302987B2 JP 7302987 B2 JP7302987 B2 JP 7302987B2 JP 2019039399 A JP2019039399 A JP 2019039399A JP 2019039399 A JP2019039399 A JP 2019039399A JP 7302987 B2 JP7302987 B2 JP 7302987B2
- Authority
- JP
- Japan
- Prior art keywords
- electronic text
- text document
- vertices
- original
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 75
- 238000013434 data augmentation Methods 0.000 title description 14
- 238000001514 detection method Methods 0.000 title description 13
- 238000011524 similarity measure Methods 0.000 claims description 44
- 238000013519 translation Methods 0.000 claims description 44
- 230000014616 translation Effects 0.000 claims description 44
- 238000012545 processing Methods 0.000 claims description 35
- 230000003190 augmentative effect Effects 0.000 claims description 31
- 238000013500 data storage Methods 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 9
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 description 31
- 230000006870 function Effects 0.000 description 20
- 238000000844 transformation Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 230000008520 organization Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000005055 memory storage Effects 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000005489 elastic deformation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Document Processing Apparatus (AREA)
Description
件名:同日支払
Harry様、
お元気ですか。あなたには、同日中に英国の私宛に支払いを行ってもらう必要があります。送金に必要となる、必須の詳細をメールで送付頂けますようお願い致します。
メールにて早急に御返答頂けると幸いです。
宜しくお願い致します。
Jack
1つの実施形態は、テキストデータ拡張機能を含む。本開示における実用的な目的で、このような機能は、TextDataAugmentationFunctionと呼ばれる。この機能は、テキスト文書OriginalTextを入力と取り、テキスト文書AugumentedTextを出力する。図1に示されるように、1つの実施形態によると、この機能は、OriginalTextに1…nの連続的変換を適用して、B102、B104に示されるように、AugmentedTextを生じさせる。行われるそれぞれの変換は、ある特定の量のランダム性を含んでよい。連続的変換後、OriginalTextおよびAugmentedTextは比較されて、AugumentedTextが依然関連的であるように徹底する。使用可能である1つの計量は、OriginalTextとAugumentedTextとの間の意味的類似測度である。B106に示されるように、類似測度は、OriginalTextに基づいて結果として生じるAugumentedTextについて計算される。B108に示されるように、類似測度SimMeasureが類似測度閾値SimMeasureThreshold以上である場合(B108のはいのブランチ)、拡張されたテキストはB110に示されるように維持される。他方で、SimMeasureが類似測度閾値SimMeasureThreshold未満である場合(B108のいいえのブランチ)、連続的に変換されたAugmentedTextは、B112に示されるように廃棄され、さらなるトーニングに使用されず、廃棄されてよい。
AugmentedText0=TextDataAugmentationFunciton(OriginalText)
AugmentedText1=TextDataAugmentationFunciton(OriginalText)
実施形態によると、いくつかのタイプの変換は、TextDataAugmentationFunctionにおいて使用されてよい。これらは、例えば、
-テキストに適用される機械翻訳の複数のステップを頼りにする変換、
-例えば、
・単語または単語のグループの同義語との置き換え、
・単語または単語のグループの略語との置き換え(同様に、略語は単語または単語のグループと置き換えられる場合がある)、および/または
・単語のミススペルとの置き換えといった、テキストにおける単語または単語のグループの置き換えを頼りにする複数の変換を含む。
-それぞれの頂点はL=(L0、L1、…、Lm)のエレメントである。
-所与のMTkに対するLiとLjとの間のそれぞれの指向エッジは、言語Liから言語Ljに翻訳するために所与のMTk機械翻訳エンジンの容量によって定義される。この容量はまた、言語Liから言語Ljへの翻訳が、その翻訳が十分な品質を有するものであると保証しないと機械翻訳エンジンが提言するという事実があるため、翻訳性能閾値
によって調整可能である。
-グラフは強連結されており、グラフにおける2つの別個の頂点LiおよびLjの全ての対について、LiとLjとの間に少なくとも1つの有向路がある。頂点LiとLjとの間の経路は有向路である必要はなく、ある中間の頂点またはいくつかの中間の頂点を含んでよい。
が所定の閾値を下回る場合があり、このことが言語L3とL1との間の利用可能な機械翻訳エンジンの性能が劣っていることを指示できることに起因する場合がある。すなわち、L3からL1まで指向エッジがないことで、低い翻訳品質指示と関連付けられる場合がある。他の関係は、このマルチグラフを検討することによって明らかにすることができる。同様に、図2の例示の有向マルチグラフは、L0からL3までの直接的な横断を認めない。頂点L1および/またはL2の中間段階などを通るその他の経路は、所与のテキスト文書を、頂点L0と関連付けられた言語から頂点L3と関連付けられた言語に翻訳するために取られるものとするべきである。
-開始ノードはL0であり、これは、元の電子テキストの元の言語と呼ばれてよい。L0に隣接する頂点は、L2などランダムに選択される。L0からL2までのエッジはさらにまた、MT1などランダムに選択される。選択された頂点およびエッジによる翻訳を行う:
-現在のノードはここではL2である。L2に隣接する頂点は、L3などランダムに選択される。L2からL3までのエッジは、MT2などランダムに選択される。機械翻訳エンジンMT2を使用するL2からL3までの翻訳はさらにまた行われる:
-ここで、現在のノードはL3である。L3に隣接する頂点はL0などランダムに選択される。L3からL0までのエッジはさらにまた、MT3などランダムに選択される。次いで、この翻訳が行われる。すなわち、
-現在のノードは再びL0であり、最後の変換uの出力はここで、拡張された電子テキスト文書vとして使用されてよい:v<u
-頂点(L1、…、Lm)は探索されているとしてマーキングされてよく、同じ頂点を2回(または別の所定の回数)探索することを回避するための制約が課せられる。
-
を、LiからLjまでのエッジの選定時の基準またはその他の翻訳品質指示として使用する。
-確率分布Pを利用して次の頂点を選定する。例えば、{Li0、…、Liq}と記される、Liに隣接する頂点にわたる均一の分布は、P~Unif{0、q}となるように使用されてよい。または、
が頂点の重みとみなされる場合、頂点に隣接するそれらq+1は、重みを減少させることによってリストにおいて順序付けられてよく、パラメータpの幾何(または、均一、ガウス、ポアッソン、もしくはその他の)分布が使用されてよく:P~Geom(p)、これは、相対的に、他の隣接する頂点に対して低いTranslatePerf性能を有する頂点を選定する確率が、順序付けられたリストにおけるその位置を低下させるように徹底して、より良く機能する翻訳エンジンが、比較的機能が劣る翻訳エンジンに対して好ましくは選定されるように徹底する。
他の方策は案出されかつ選択的に適用されてよい。
$45,000の電信送金による支払を至急処理して頂けますようお願い致します。
これは商法弁護士からの緊急の請求書です。
銀行決済指示書を添付致します。
宜しくお願い致します。
William
1つの実施形態によると、テキストは、テキストのエレメントを他のエレメントに置き換えることによって拡張されてよい。以下の変換が定義可能である。
-SynonymReplacement:単語または単語のグループは同義語と置き換え可能である。
-AbbreviationReplacement:単語または単語のグループは略語と置き換え可能である(同様に、略語を単語または単語のグループと置き換えできる)。
-EntityReplacement:名前または金銭額などのエンティティは、別の同様のエンティティと置き換え可能である。
-MisspellingReplacement:単語はミススペルと置き換え可能である。
同義語は、同じ言語における別の単語または単語のグループと全くまたはほぼ同じ意味を持つ単語または単語のグループである。この変換は恐らく、利用可能なデータ拡張技法に関して最も直観的なものである。以下の表には同義語のいくつかの例が列挙されている。
略語は、単語または単語のグループの短い形態である。略語が頭字語を含むことに留意されたい。頭字語は、単語のグループのそれぞれの単語の最初の文字から形成される単語である。以下の表には略語のいくつかの例が列挙されている。
エンティティは、電子テキスト文書に存在し、かつ置き換えがテキストの意味に影響しないエレメントである。エンティティの例には以下が挙げられる(がこれらに限定されない)。
-個人の名前、
-個人の苗字、
-金銭額、
-日付、および
-電話番号
ミススペルは電子テキスト文書ではかなり一般的である。
-ミススペルは偶発的なものが多い。
-ミススペルは、書き手によって書き込まれた言語における知識不足から生じる可能性がある。
-ミススペルは、テキストをタイプするために使用されるデバイスから生じる可能性がある。例えば、《abd》はAzertyおよびQwertyキーボード上の《and》の一般的なミススペルであるが、これは《B》が《N》のキーに近いからである。
さらに、ミススペルは詐欺との関連においてかなり一般的であるが、これは、a)それらが緊急という意味を伝え、かつb)これらが従来、テキスト分析に基づくセキュリティ技術を逃れるために従来使用されるからである。
以下の表はミススペルの数個の例を示す。
至急(immediately)、$45,000の銀行送金を進めて頂けますようお願い致します。
これは商法弁護士からの緊急の請求書です。
銀行決済指示書を添付致します。
宜しくお願い致します。
William
至急(immediatly)、$47,200の銀行送金を進めて頂けますようお願い致します。
これは商法弁護士からの緊急の請求書です。
銀行決済指示書を添付致します。
宜しくお願い致します。
John
-スコアは[0、1]間隔の連続値である。
-スコアが高いほど、置き換えreはeに近くなる。
と表される距離関数μによって与えられるエレメントeの置き換えreと関連付けられた値
を返すように構成可能である。1つの実施形態では、潜在的な置き換え{re、0、…、re、n}のリストは、さらにまた、例えば、B606に示されるように、それらのそれぞれの
の値を減少させることによってソート可能である。その後、潜在的な置き換え{re、0、…、re、n}のリストへの指数k∈{0、n}は、ブロックB608によって求められるように、確率分布P1を仮定してランダムに選択されてよい。例えば、パラメータpの幾何(または、均一、ガウス、ポアッソン、またはその他の)分布:P1~Geom(p)が使用されてよく、これによって、ソートされたリストにおける価値が高い潜在的な置き換えが、比較的価値がより低い潜在的な置き換えより選択される可能性が高くなるように徹底する。さらにまた、リストの指数kにおける選定されたエレメント
は、B610において示されるように、選択された置き換えとして返されてよい。上記の表に示されるように、そのようなものは形式上、
と表される場合がある。ここで図5に戻ると、選択されたエレメントはさらにまた、ブロック508によって求められるように、選択された置き換えと置き換えられてよい。1つの実施形態によると、replaceElements機能は、元の電子テキスト文書t、置き換えられるエレメント{ei、…、ej}のリスト、およびそれらの置き換え
を取るように定義されてよく、形式上、
と表される、拡張された電子テキスト文書vを返し、長さ1+1のL←selectReplacement(t、P)および
である。
1つの実施形態では、モデルの一般化を改善することを徹底するためにもたらされる、それぞれの生成された拡張された電子テキスト文書AugumentedCorpusを検証する。例えば、拡張された電子テキスト文書が雑音が大きすぎると判断される場合、拡張されたデータがもたらされるモデルの一般化を改善する可能性が低いため、廃棄される。機械学習の場合、検証では、拡張された電子テキスト文書のラベルが元の電子テキスト文書のラベルを保存することが徹底される。この目的のために、検証モジュールは、元のテキスト文書を仮定して拡張された電子テキスト文書の検証を分析することができるものとする。このような検証方法は、比較計量を出力するように構成される任意の計量および方法を包含することができる。以下の表に記載されるCompare(比較)機能を考慮されたい。
意味的類似は、2つの文章の間の意味の近さの観念を捉え、これは、思い浮かぶ類似の第1の着想であることが多く、そのように、構文的類似より好ましいことが多い。しかしながら、この意味的観念を捉えることはより困難であるため、意味的類似によって与えられる結果は、構文的類似によって与えられる結果より正確でない場合がある。
構文的類似
1つの実施形態は、構文的類似測度を、単独で、または意味的類似測度と共に使用する。構文的類似計量は、2つの電子テキスト文書の間の構文的類似を測定する。例えば、2つの文章におけるそれぞれの単語の品詞タグを仮定して、それらの2つの文章のコサイン類似度を算出することが可能である。この結果は、文章の意味論上の意味と無関係であるが、これらの文章がどのように構成されているかに密接に関連している。
詐欺検出との関連において、データ拡張実施形態は、詐欺ラベル付きデータコーパスのサイズを増大させるために適用されてよい。本明細書に提示されるデータ拡張実施形態はラベル保存変換である。また相互に、これらの実施形態は、非詐欺ラベル付きデータコーパスのサイズを拡張するために適用されてよい。このようなデータ拡張技法のいくつかの使用ケースは本明細書に提示される。本明細書において、用語「コーパス」が詐欺ラベル付きデータコーパス、非詐欺ラベル付きデータコーパス、またはこの両方共に言及する場合があることは留意されたい。
この例示の実施形態では、元のコーパスおよび拡張コーパスは共にマージされて、詐欺検出モデルを構築する。図7を参照すると、これを行うために、本明細書に説明されかつ示されるように、元のコーパス702は703で拡張されて、拡張コーパス704をもたらす。元のコーパス702および拡張コーパス704はさらにまた、706でマージされて、マージされたコーパス708をもたらし、このコーパスは710でモデル712を生成するために使用される。
図8のブロック図に示されるように、元のコーパス802を806で使用して、モデル810を構築することができる。元のコーパスはこの場合、検証目的のために、拡張コーパスに頼らずモデル810を構築するために使用される。元のコーパス802は、804で拡張されて拡張コーパス808を生成することができ、これはまた、812においてモデル810を検査するために使用される。これは814において検査結果をもたらす。
この使用ケースでは、拡張されたデータセットを使用して組織内で危険な状態にあるユーザをトレーニングおよび/または検査することができる。認識を高めるためのシミュレーションの攻撃によって従業員をトレーニングすることは、特に、フィッシング攻撃との関連において、ますます実用的になっている。組織内のユーザは、以下の基準の1つまたは複数を満たす場合、CEO詐欺などの高度な詐欺に対して危険な状態にあるとみなされる場合がある。
-ユーザは機密情報に直接または間接的にアクセスしている。
-ユーザは組織の銀行口座に直接または間接的にアクセスしている。
-ユーザの職業上の詳細(組織内の地位、電子メールアドレス、電話番号、インスタントメッセージ識別子…)はインターネット上で公開されている。
提供された電子テキスト文書においてエレメントを選択すること、
選択されたエレメントのタイプの潜在的な置き換えエレメントのソースから潜在的な置き換えエレメントのリストを生成すること、
所定の計量を使用して潜在的な置き換えエレメントのリストにおけるそれぞれの潜在的な置き換えエレメントの値を算出すること、
算出された値の高いものから順に潜在的な置き換えエレメントのリストにおける潜在的な置き換えエレメントの値をランク付けすること、
確率分布を仮定して潜在的な置き換えエレメントのランク付けリストへの指数をランダムに選択することで、より高くランク付けされた潜在的な置き換えエレメントと関連付けられた指数が、選定された確率分布に応じて、比較的より低くランク付けされた潜在的な置き換えエレメントと関連付けられた指数より選択される可能性がより高くなり得る、ランダムに選択すること、および
提供された電子テキスト文書における選択されたエレメントをランダムに選択された指数における潜在的な置き換えエレメントと置き換えることを反復的に行うことによって、生成することを含んでよい。
Claims (30)
- 電子テキスト文書のコーパスの元の電子テキスト文書を拡張するためのコンピュータ実施方法であって、
メモリを有するコンピュータにおいて前記元の電子テキスト文書を受信することと、
少なくとも1つの機械翻訳エンジンを使用して、受信された前記元の電子テキスト文書を繰り返し翻訳することで、それぞれの翻訳された電子テキスト文書が、前記元の電子テキスト文書の元の言語に戻すように最後に翻訳された電子テキスト文書を再翻訳する前に別の言語への後続の翻訳の基礎として使用されるようにすることと、
再翻訳された前記電子テキスト文書を、これにおける少なくとも1つの単語を選択し、かつ対応する同義語をそれぞれの選択された単語の代用にして、同義語に置き換えられた電子テキスト文書を生成することによって変換することと、
前記同義語に置き換えられた電子テキスト文書を、これにおける少なくとも1つの単語を選択し、かつ対応するミススペルの単語をそれぞれの選択された単語の代用にして、拡張された電子テキスト文書を生成することによって変換することと、
前記元の電子テキスト文書と前記拡張された電子テキスト文書との間の類似測度を計算することと、
計算された前記類似測度が少なくとも所定の類似閾値程度であるかどうかを判断することと、
前記計算された類似閾値が少なくとも前記所定の類似閾値程度である場合、前記拡張された電子テキスト文書を前記メモリに維持しかつ記憶し、前記計算された類似閾値が前記所定の類似閾値未満である場合、前記拡張された電子テキスト文書を前記メモリに記憶しないことと、を含む、コンピュータ実施方法。 - 繰り返し翻訳すること、前記再翻訳された電子テキスト文書を変換すること、および前記同義語に置き換えられた電子テキスト文書を変換することは、順番に逐次的に行われる、請求項1に記載のコンピュータ実施方法。
- 前記翻訳するステップおよび変換するステップのそれぞれは、所定の回数逐次的に行われるように構成される、請求項1に記載のコンピュータ実施方法。
- 前記再翻訳されたまたは同義語に置き換えられた電子テキスト文書において少なくとも1つの単語を選択し、かつ選択された前記少なくとも1つの単語を対応する略語と置き換えることをさらに含む、請求項1に記載のコンピュータ実施方法。
- 前記再翻訳されたまたは同義語に置き換えられた電子テキスト文書において少なくとも1つのエンティティを選択し、かつ選択された前記少なくとも1つのエンティティを置き換えエンティティと置き換えることをさらに含む、請求項1に記載のコンピュータ実施方法。
- 前記選択された少なくとも1つのエンティティは、個人の名前、個人の苗字、金銭額、日付、および電話番号のうちの少なくとも1つを含む、請求項5に記載のコンピュータ実施方法。
- 前記類似測度を計算することは、前記元の電子テキスト文書と前記拡張された電子テキスト文書との間の少なくとも意味的類似測度を計算することを含む、請求項1に記載のコンピュータ実施方法。
- 前記類似測度を計算することは、前記元の電子テキスト文書と前記拡張された電子テキスト文書との間の少なくとも構文的類似測度を計算することを含む、請求項1に記載のコンピュータ実施方法。
- 複数の頂点のそれぞれの頂点が別々の言語と関連付けられる有向マルチグラフを確立することであって、それぞれの頂点は、許容可能な性能を有する指向エッジによって連結される前記頂点と関連付けられた言語間を翻訳するための、機械翻訳エンジンの能力を指示する前記指向エッジによって前記複数の頂点の少なくとも1つの他のものに連結される、確立することと、
確立された前記有向マルチグラフをコンピュータのメモリに記憶することと、
所定の元の頂点に連結される指向エッジによって指し示される前記複数の頂点の中間の頂点をランダムに選択し、かつ機械翻訳エンジンに、元の電子テキスト文書を前記元の言語から選択された前記頂点と関連付けられた言語に翻訳させることによって、前記元の電子テキスト文書の前記元の言語と関連付けられた前記所定の元の頂点で開始して記憶された前記有向マルチグラフを横断することと、
前記所定の元の頂点が選択され、かつ先に翻訳された前記電子テキスト文書が前記元の言語に再翻訳されるまで、機械が前記先に翻訳された電子テキスト文書を前記複数の頂点のランダムに選択された隣り合う頂点と関連付けられた言語に翻訳する度に、前記複数の頂点の、前記中間の頂点から連続的な他の隣り合って連結される頂点まで前記指向エッジによって許可されるように、前記コンピュータの前記メモリに記憶された前記有向マルチグラフを横断し続けることと、
拡張された電子テキスト文書として前記コンピュータの前記メモリに再翻訳された前記電子テキスト文書を記憶することと、を含む、コンピュータ実施方法。 - 前記拡張された電子テキスト文書を電子テキスト文書の既存のコーパスに追加して詐欺行為の通信を検出するための電子モデルをトレーニングおよび/または検査することをさらに含む、請求項9に記載のコンピュータ実施方法。
- 横断した頂点をマーキングすることと、マーキングした前記頂点を所定の回数より多く横断しないようにすることと、をさらに含む、請求項9に記載のコンピュータ実施方法。
- 隣接する頂点の間のそれぞれの有向エッジを品質指示と関連付けることをさらに含み、少なくとも2つの隣接する頂点が横断に利用可能である時に横断させる隣り合う頂点の選択は、少なくとも部分的に前記品質指示に依存する、請求項9に記載のコンピュータ実施方法。
- 隣り合う頂点をランダムに選択することは、より低い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率が、比較的より高い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率より低くなるように行われる、請求項12に記載のコンピュータ実施方法。
- 関連付けられた前記品質指示の所定の分布において隣り合う頂点の前記有向エッジのそれぞれを適合させることをさらに含み、前記隣り合う頂点をランダムに選択することは、前記所定の分布において、より低い品質指示ではなくより高い品質指示と関連付けられた有向エッジによって、連結される隣り合う頂点を優先的に選択することをさらに含む、請求項12に記載のコンピュータ実施方法。
- コンピュータのメモリにおいて電子テキスト文書を提供しかつ記憶し、提供された前記電子テキスト文書から拡張された電子テキスト文書を、
前記提供された電子テキスト文書においてエレメントを選択すること、
選択された前記エレメントのタイプの潜在的な置き換えエレメントのソースから潜在的な置き換えエレメントのリストを生成すること、
所定の計量を使用して前記潜在的な置き換えエレメントのリストにおけるそれぞれの潜在的な置き換えエレメントの値を算出すること、
算出された前記値の高いものから順に前記潜在的な置き換えエレメントのリストにおける前記潜在的な置き換えエレメントの前記値をランク付けすること、
確率分布を仮定して前記潜在的な置き換えエレメントのランク付けリストへの指数をランダムに選択することで、より高くランク付けされた潜在的な置き換えエレメントと関連付けられた指数が、比較的より低くランク付けされた潜在的な置き換えエレメントと関連付けられた指数より選択される可能性がより高くなるようにすること、および
前記提供された電子テキスト文書における選択された前記エレメントをランダムに選択された前記指数における前記潜在的な置き換えエレメントと置き換えることを反復的に行うことによって生成することを含む、コンピュータ実施方法。 - 前記確率分布は、幾何、均一、ガウス、およびポアッソン確率分布のうちの1つである、請求項15に記載のコンピュータ実施方法。
- 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに結合される少なくとも1つのデータ記憶デバイスと、
前記少なくとも1つのプロセッサおよびコンピュータネットワークに結合されるネットワークインターフェースと、
電子テキスト文書のコーパスの元の電子テキスト文書を拡張するために前記少なくとも1つのプロセッサによってスポーンされる複数のプロセスであって、
少なくとも1つの機械翻訳エンジンを使用して前記元の電子テキスト文書を繰り返し翻訳することで、それぞれの翻訳されたテキスト文書は、最後に翻訳された電子テキスト文書を前記元の電子テキスト文書の元の言語に戻すように再翻訳する前に別の言語への後続の翻訳のための基礎として使用されるようにすること、
再翻訳された前記電子テキスト文書を、これにおける少なくとも1つの単語を選択し、かつ対応する同義語をそれぞれの選択された単語の代用にして、同義語に置き換えられた電子テキスト文書を生成することによって変換すること、
前記同義語に置き換えられた電子テキスト文書を、これにおける少なくとも1つの単語を選択し、かつ対応するミススペルの単語をそれぞれの選択された単語の代用にして、拡張された電子テキスト文書を生成することによって変換すること、
前記元の電子テキスト文書と前記拡張された電子テキスト文書との間の類似測度を計算すること、
計算された前記類似測度が少なくとも所定の類似閾値程度であるかどうかを判断すること、
前記計算された類似測度が少なくとも前記所定の類似閾値程度である場合、前記拡張されたテキストを前記データ記憶デバイスに維持しかつ記憶し、前記計算された類似測度が前記所定の類似閾値未満である場合、前記拡張された電子テキスト文書を廃棄し、前記データ記憶デバイスに記憶しないことを行うための処理論理回路を含む、複数のプロセスと、を含む、コンピューティングデバイス。 - 繰り返し翻訳する、再翻訳された前記テキストを変換する、および前記同義語に置き換えられた電子テキスト文書を変換するための前記処理論理回路は、順番に逐次的に行われる、請求項17に記載のコンピューティングデバイス。
- 前記翻訳するステップおよび前記変換するステップのそれぞれに対する前記処理論理回路は、所定の回数逐次的に実行されるように構成される、請求項17に記載のコンピューティングデバイス。
- 前記再翻訳されたまたは同義語に置き換えられた電子テキスト文書において少なくとも1つの単語を選択し、かつ選択された前記少なくとも1つの単語を対応する略語と置き換えるための処理論理回路をさらに含む、請求項17に記載のコンピューティングデバイス。
- 前記再翻訳されたまたは同義語に置き換えられた電子テキスト文書において少なくとも1つのエンティティを選択し、かつ選択された前記少なくとも1つのエンティティを置き換えエンティティと置き換えるための処理論理回路をさらに含む、請求項17に記載のコンピューティングデバイス。
- 前記選択された少なくとも1つのエンティティは、個人の名前、個人の苗字、金銭額、日付、および電話番号のうちの少なくとも1つを含む、請求項21に記載のコンピューティングデバイス。
- 前記類似測度を計算するための前記処理論理回路は、前記元の電子テキスト文書と前記拡張された電子テキスト文書との間の少なくとも意味的類似測度を計算するための処理論理回路を含む、請求項17に記載のコンピューティングデバイス。
- 前記類似測度を計算するための前記処理論理回路は、前記元の電子テキスト文書と前記拡張された電子テキスト文書との間の少なくとも構文的類似測度を計算するための処理論理回路を含む、請求項17に記載のコンピューティングデバイス。
- 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに結合される少なくとも1つのデータ記憶デバイスと、
前記少なくとも1つのプロセッサおよびコンピュータネットワークに結合されるネットワークインターフェースと、
電子テキスト文書のコーパスの元の電子テキスト文書を拡張するために前記少なくとも1つのプロセッサによってスポーンされる複数のプロセスであって、
複数の頂点のそれぞれの頂点が別々の言語と関連付けられる有向マルチグラフを前記データ記憶デバイスに確立しかつ記憶することであって、それぞれの頂点は、許容可能な性能を有する指向エッジによって連結される前記頂点と関連付けられた言語間を翻訳するための、機械翻訳エンジンの能力を指示する前記指向エッジによって前記複数の頂点の少なくとも1つの他のものに連結される、確立しかつ記憶すること、
所定の元の頂点に連結される指向エッジによって指し示される前記複数の頂点の中間の頂点をランダムに選択し、かつ機械翻訳エンジンに、前記元の電子テキスト文書を元の言語から選択された前記頂点と関連付けられた言語に翻訳させることによって、前記元の電子テキスト文書の前記元の言語と関連付けられた前記所定の元の頂点で開始して前記有向マルチグラフを横断すること、
前記所定の元の頂点が選択され、かつ先に翻訳された前記電子テキスト文書が前記元の言語に再翻訳されるまで、前記先に翻訳された電子テキスト文書を前記複数の頂点のランダムに選択された隣り合う頂点と関連付けられた言語に翻訳する度に、前記複数の頂点の、前記中間の頂点から連続的な他の隣り合って連結される頂点まで前記指向エッジによって許可されるように前記有向マルチグラフを横断し続けることであって、再翻訳された前記電子テキスト文書は拡張された電子テキスト文書として指定される、横断し続けること、および
前記拡張された電子文書を前記データ記憶デバイスに記憶することを行うための処理論理回路を含む、複数のプロセスと、を含む、コンピューティングデバイス。 - 前記拡張された電子テキスト文書を詐欺行為の通信を検出するためのモデルに適用するための処理論理回路をさらに含む、請求項25に記載のコンピューティングデバイス。
- 横断した頂点をマーキングし、かつマーキングした頂点を所定の回数より多く横断しないようにするための処理論理回路をさらに含む、請求項25に記載のコンピューティングデバイス。
- 隣接する頂点の間のそれぞれの有向エッジを品質指示と関連付けるための処理論理回路をさらに含み、少なくとも2つの隣接する頂点が横断に利用可能である時に横断させる隣り合う頂点の選択は、少なくとも部分的に前記品質指示に依存する、請求項25に記載のコンピューティングデバイス。
- 隣り合う頂点をランダムに選択することは、より低い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率が、比較的より高い品質指示と関連付けられた有向エッジを介して連結される隣り合う頂点を選択する確率より低くなるように行われる、請求項28に記載のコンピューティングデバイス。
- 関連付けられた前記品質指示の所定の分布において隣り合う頂点の前記有向エッジのそれぞれを適合させるための処理論理回路をさらに含み、前記隣り合う頂点をランダムに選択することは、前記所定の分布において、より低い品質指示ではなくより高い品質指示と関連付けられた有向エッジによって、連結される隣り合う頂点を優先的に選択することをさらに含む、請求項28に記載のコンピューティングデバイス。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/013,581 US10664656B2 (en) | 2018-06-20 | 2018-06-20 | Methods, devices and systems for data augmentation to improve fraud detection |
US16/013,581 | 2018-06-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019220144A JP2019220144A (ja) | 2019-12-26 |
JP7302987B2 true JP7302987B2 (ja) | 2023-07-04 |
Family
ID=68981807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019039399A Active JP7302987B2 (ja) | 2018-06-20 | 2019-03-05 | 詐欺検出を改善するためのデータ拡張の方法、デバイス、およびシステム |
Country Status (4)
Country | Link |
---|---|
US (3) | US10664656B2 (ja) |
JP (1) | JP7302987B2 (ja) |
CA (3) | CA3022443C (ja) |
WO (1) | WO2019246294A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3588329A1 (en) * | 2018-06-27 | 2020-01-01 | Unify Patente GmbH & Co. KG | Computer-implemented method and system for providing a review process of a document |
US11669712B2 (en) * | 2019-05-21 | 2023-06-06 | Salesforce.Com, Inc. | Robustness evaluation via natural typos |
CN111199531B (zh) * | 2019-12-27 | 2023-05-12 | 中国民航大学 | 基于泊松图像融合及图像风格化的交互式数据扩展方法 |
CN111291560B (zh) * | 2020-03-06 | 2023-05-23 | 深圳前海微众银行股份有限公司 | 样本扩充方法、终端、装置及可读存储介质 |
CN111695356A (zh) * | 2020-05-28 | 2020-09-22 | 平安科技(深圳)有限公司 | 同义语料生成方法、装置、计算机系统及可读存储介质 |
CN111694826B (zh) * | 2020-05-29 | 2024-03-19 | 平安科技(深圳)有限公司 | 基于人工智能的数据增强方法、装置、电子设备及介质 |
CN111859987B (zh) * | 2020-07-28 | 2024-05-17 | 网易(杭州)网络有限公司 | 文本处理方法、目标任务模型的训练方法和装置 |
KR102620871B1 (ko) * | 2020-12-10 | 2024-01-04 | 인하대학교 산학협력단 | 번역 기반 문장 데이터 변형과 딥러닝 보정을 이용한 문장 분류 데이터 증강 방법 및 장치 |
CN113378513B (zh) * | 2021-06-11 | 2022-12-23 | 电子科技大学 | 一种面向领域关系抽取的标注语料生成方法 |
CN115277123B (zh) * | 2022-07-12 | 2024-01-19 | 上海交通大学 | 车用can总线注入攻击异常检测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002007398A (ja) | 2000-06-23 | 2002-01-11 | Nippon Telegr & Teleph Corp <Ntt> | 翻訳制御方法及び装置及び翻訳制御プログラムを格納した記憶媒体 |
US20130138428A1 (en) | 2010-01-07 | 2013-05-30 | The Trustees Of The Stevens Institute Of Technology | Systems and methods for automatically detecting deception in human communications expressed in digital form |
JP2016509312A (ja) | 2013-02-08 | 2016-03-24 | マシーン・ゾーン・インコーポレイテッドMachine Zone, Inc. | マルチユーザ多言語通信のためのシステムおよび方法 |
US20190042663A1 (en) | 2017-08-02 | 2019-02-07 | Yahoo Holdings, Inc. | Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation |
Family Cites Families (98)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3176059B2 (ja) * | 1990-11-15 | 2001-06-11 | キヤノン株式会社 | 翻訳装置 |
US6278967B1 (en) * | 1992-08-31 | 2001-08-21 | Logovista Corporation | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis |
US6460036B1 (en) * | 1994-11-29 | 2002-10-01 | Pinpoint Incorporated | System and method for providing customized electronic newspapers and target advertisements |
ITUD980032A1 (it) * | 1998-03-03 | 1998-06-03 | Agostini Organizzazione Srl D | Sistema di traduzione a macchina e rispettivo tradsistema di traduzione a macchina e rispettivo traduttore che comprende tale sistema uttore che comprende tale sistema |
US8812300B2 (en) * | 1998-03-25 | 2014-08-19 | International Business Machines Corporation | Identifying related names |
US6275789B1 (en) * | 1998-12-18 | 2001-08-14 | Leo Moser | Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language |
US7925610B2 (en) * | 1999-09-22 | 2011-04-12 | Google Inc. | Determining a meaning of a knowledge item using document-based information |
US7225199B1 (en) * | 2000-06-26 | 2007-05-29 | Silver Creek Systems, Inc. | Normalizing and classifying locale-specific information |
US7865358B2 (en) * | 2000-06-26 | 2011-01-04 | Oracle International Corporation | Multi-user functionality for converting data from a first form to a second form |
US6810376B1 (en) | 2000-07-11 | 2004-10-26 | Nusuara Technologies Sdn Bhd | System and methods for determining semantic similarity of sentences |
IT1315160B1 (it) * | 2000-12-28 | 2003-02-03 | Agostini Organizzazione Srl D | Sistema e metodo di traduzione automatica o semiautomatica conposteditazione per la correzione degli errori. |
US6996518B2 (en) * | 2001-01-03 | 2006-02-07 | International Business Machines Corporation | Method and apparatus for automated measurement of quality for machine translation |
WO2002054279A1 (en) | 2001-01-04 | 2002-07-11 | Agency For Science, Technology And Research | Improved method of text similarity measurement |
JP2002215621A (ja) * | 2001-01-19 | 2002-08-02 | Nec Corp | 翻訳サーバ及び翻訳方法並びにプログラム |
US6934683B2 (en) * | 2001-01-31 | 2005-08-23 | Microsoft Corporation | Disambiguation language model |
AU2002254564A1 (en) * | 2001-04-10 | 2002-10-28 | Latanya Sweeney | Systems and methods for deidentifying entries in a data source |
DE10126835B4 (de) * | 2001-06-01 | 2004-04-29 | Siemens Dematic Ag | Verfahren und Vorrichtung zum automatischen Lesen von Adressen in mehr als einer Sprache |
US7249117B2 (en) * | 2002-05-22 | 2007-07-24 | Estes Timothy W | Knowledge discovery agent system and method |
US20040229199A1 (en) * | 2003-04-16 | 2004-11-18 | Measured Progress, Inc. | Computer-based standardized test administration, scoring and analysis system |
US7451487B2 (en) | 2003-09-08 | 2008-11-11 | Sonicwall, Inc. | Fraudulent message detection |
US8543378B1 (en) * | 2003-11-05 | 2013-09-24 | W.W. Grainger, Inc. | System and method for discerning a term for an entry having a spelling error |
US9106694B2 (en) | 2004-04-01 | 2015-08-11 | Fireeye, Inc. | Electronic message analysis for malware detection |
US7299181B2 (en) * | 2004-06-30 | 2007-11-20 | Microsoft Corporation | Homonym processing in the context of voice-activated command systems |
US9330175B2 (en) * | 2004-11-12 | 2016-05-03 | Make Sence, Inc. | Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms |
US7529765B2 (en) * | 2004-11-23 | 2009-05-05 | Palo Alto Research Center Incorporated | Methods, apparatus, and program products for performing incremental probabilistic latent semantic analysis |
US8849860B2 (en) * | 2005-03-30 | 2014-09-30 | Primal Fusion Inc. | Systems and methods for applying statistical inference techniques to knowledge representations |
US9104779B2 (en) * | 2005-03-30 | 2015-08-11 | Primal Fusion Inc. | Systems and methods for analyzing and synthesizing complex knowledge representations |
US7849090B2 (en) * | 2005-03-30 | 2010-12-07 | Primal Fusion Inc. | System, method and computer program for faceted classification synthesis |
US8898134B2 (en) * | 2005-06-27 | 2014-11-25 | Make Sence, Inc. | Method for ranking resources using node pool |
US7321892B2 (en) * | 2005-08-11 | 2008-01-22 | Amazon Technologies, Inc. | Identifying alternative spellings of search strings by analyzing self-corrective searching behaviors of users |
US8010343B2 (en) * | 2005-12-15 | 2011-08-30 | Nuance Communications, Inc. | Disambiguation systems and methods for use in generating grammars |
US7761394B2 (en) | 2006-05-16 | 2010-07-20 | Sony Corporation | Augmented dataset representation using a taxonomy which accounts for similarity and dissimilarity between each record in the dataset and a user's similarity-biased intuition |
US20080221864A1 (en) * | 2007-03-08 | 2008-09-11 | Daniel Blumenthal | Process for procedural generation of translations and synonyms from core dictionaries |
US8447285B1 (en) | 2007-03-26 | 2013-05-21 | Callwave Communications, Llc | Methods and systems for managing telecommunications and for translating voice messages to text messages |
US20080240425A1 (en) * | 2007-03-26 | 2008-10-02 | Siemens Medical Solutions Usa, Inc. | Data De-Identification By Obfuscation |
EP2158540A4 (en) * | 2007-06-18 | 2010-10-20 | Geographic Services Inc | NAME SYSTEM FOR SELECTING GEOGRAPHICAL CHARACTERISTICS |
US8302197B2 (en) * | 2007-06-28 | 2012-10-30 | Microsoft Corporation | Identifying data associated with security issue attributes |
US8131742B2 (en) * | 2007-12-14 | 2012-03-06 | Bank Of America Corporation | Method and system for processing fraud notifications |
US8676732B2 (en) * | 2008-05-01 | 2014-03-18 | Primal Fusion Inc. | Methods and apparatus for providing information of interest to one or more users |
US20090300012A1 (en) | 2008-05-28 | 2009-12-03 | Barracuda Inc. | Multilevel intent analysis method for email filtration |
US20090313005A1 (en) * | 2008-06-11 | 2009-12-17 | International Business Machines Corporation | Method for assured lingual translation of outgoing electronic communication |
JP5538393B2 (ja) * | 2008-08-29 | 2014-07-02 | プライマル フュージョン インコーポレイテッド | 既存の領域定義を活用した意味概念定義および意味概念関係の統合のためのシステムおよび方法。 |
US8775154B2 (en) * | 2008-09-18 | 2014-07-08 | Xerox Corporation | Query translation through dictionary adaptation |
US20100094673A1 (en) * | 2008-10-14 | 2010-04-15 | Ebay Inc. | Computer-implemented method and system for keyword bidding |
US8209342B2 (en) * | 2008-10-31 | 2012-06-26 | At&T Intellectual Property I, Lp | Systems and associated computer program products that disguise partitioned data structures using transformations having targeted distributions |
US20100262836A1 (en) * | 2009-04-13 | 2010-10-14 | Eric Peukert | Privacy and confidentiality preserving mapping repository for mapping reuse |
US8159373B2 (en) | 2009-07-28 | 2012-04-17 | Ecole Polytechnique Federale De Lausanne (Epfl) | Encoding and decoding information |
US8306807B2 (en) * | 2009-08-17 | 2012-11-06 | N T repid Corporation | Structured data translation apparatus, system and method |
US9277021B2 (en) * | 2009-08-21 | 2016-03-01 | Avaya Inc. | Sending a user associated telecommunication address |
US20110126122A1 (en) * | 2009-11-20 | 2011-05-26 | George Forman | Systems and methods for generating profiles for use in customizing a website |
US20110178943A1 (en) * | 2009-12-17 | 2011-07-21 | New Jersey Institute Of Technology | Systems and Methods For Anonymity Protection |
US8332395B2 (en) * | 2010-02-25 | 2012-12-11 | International Business Machines Corporation | Graphically searching and displaying data |
US8863279B2 (en) | 2010-03-08 | 2014-10-14 | Raytheon Company | System and method for malware detection |
US8265923B2 (en) | 2010-05-11 | 2012-09-11 | Xerox Corporation | Statistical machine translation employing efficient parameter training |
US9235806B2 (en) * | 2010-06-22 | 2016-01-12 | Primal Fusion Inc. | Methods and devices for customizing knowledge representation systems |
US10628553B1 (en) * | 2010-12-30 | 2020-04-21 | Cerner Innovation, Inc. | Health information transformation system |
JP6065833B2 (ja) * | 2011-06-02 | 2017-01-25 | 日本電気株式会社 | 分散匿名化システム、分散匿名化装置及び分散匿名化方法 |
WO2012176923A1 (ja) * | 2011-06-20 | 2012-12-27 | 日本電気株式会社 | 匿名化指標決定装置及び方法、並びに匿名化処理実行システム及び方法 |
US9715547B2 (en) * | 2011-07-15 | 2017-07-25 | Commonsku Inc. | Method and system for providing newsfeed updates |
US20140358516A1 (en) * | 2011-09-29 | 2014-12-04 | Google Inc. | Real-time, bi-directional translation |
US9129591B2 (en) * | 2012-03-08 | 2015-09-08 | Google Inc. | Recognizing speech in multiple languages |
US9201561B2 (en) * | 2012-05-12 | 2015-12-01 | Roland Wescott Montague | Rotatable object system for visual communication and analysis |
US8543563B1 (en) | 2012-05-24 | 2013-09-24 | Xerox Corporation | Domain adaptation for query translation |
US9246933B1 (en) | 2012-07-25 | 2016-01-26 | Symantec Corporation | Systems and methods for detecting malicious email attachments |
TWI465950B (zh) * | 2012-08-21 | 2014-12-21 | Ind Tech Res Inst | 發掘可疑帳號之分身群組的方法與系統 |
US9503513B2 (en) * | 2012-10-08 | 2016-11-22 | International Business Machines Corporation | Robust transmission of data utilizing encoded data slices |
US8996492B2 (en) | 2012-12-13 | 2015-03-31 | Sap Se | Graph traversal operator inside a column store |
US20140201043A1 (en) * | 2013-01-11 | 2014-07-17 | International Business Machines Corporation | Entity resolution without using personally identifiable information |
US9264387B2 (en) * | 2013-02-06 | 2016-02-16 | Msc Intellectual Properties B.V. | System and method for authorship disambiguation and alias resolution in electronic data |
US10769241B1 (en) * | 2013-02-07 | 2020-09-08 | Cerner Innovation, Inc. | Discovering context-specific complexity and utilization sequences |
US8996352B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US9053326B2 (en) | 2013-02-08 | 2015-06-09 | PhishMe, Inc. | Simulated phishing attack with sequential messages |
US9965461B2 (en) * | 2013-03-01 | 2018-05-08 | The Software Shop, Inc. | Systems and methods for improving the efficiency of syntactic and semantic analysis in automated processes for natural language understanding using argument ordering |
US20140277921A1 (en) * | 2013-03-14 | 2014-09-18 | General Electric Company | System and method for data entity identification and analysis of maintenance data |
US9342499B2 (en) | 2013-03-19 | 2016-05-17 | Educational Testing Service | Round-trip translation for automated grammatical error correction |
US9348815B1 (en) * | 2013-06-28 | 2016-05-24 | Digital Reasoning Systems, Inc. | Systems and methods for construction, maintenance, and improvement of knowledge representations |
US9230132B2 (en) * | 2013-12-18 | 2016-01-05 | International Business Machines Corporation | Anonymization for data having a relational part and sequential part |
US9881006B2 (en) * | 2014-02-28 | 2018-01-30 | Paypal, Inc. | Methods for automatic generation of parallel corpora |
US11017311B2 (en) | 2014-06-30 | 2021-05-25 | Hewlett Packard Enterprise Development Lp | Dataset augmentation based on occlusion and inpainting |
US9571510B1 (en) * | 2014-10-21 | 2017-02-14 | Symantec Corporation | Systems and methods for identifying security threat sources responsible for security events |
US9398047B2 (en) | 2014-11-17 | 2016-07-19 | Vade Retro Technology, Inc. | Methods and systems for phishing detection |
US9898773B2 (en) * | 2014-11-18 | 2018-02-20 | Microsoft Technology Licensing, Llc | Multilingual content based recommendation system |
US9860262B2 (en) * | 2014-12-05 | 2018-01-02 | Permissionbit | Methods and systems for encoding computer processes for malware detection |
US10453058B2 (en) * | 2014-12-17 | 2019-10-22 | Heartland Payment Systems, Inc. | E-signature |
US9721559B2 (en) | 2015-04-17 | 2017-08-01 | International Business Machines Corporation | Data augmentation method based on stochastic feature mapping for automatic speech recognition |
US9635052B2 (en) | 2015-05-05 | 2017-04-25 | Christopher J. HADNAGY | Phishing as-a-service (PHaas) used to increase corporate security awareness |
US10395059B2 (en) * | 2015-07-15 | 2019-08-27 | Privacy Analytics Inc. | System and method to reduce a risk of re-identification of text de-identification tools |
US9942249B2 (en) | 2015-07-22 | 2018-04-10 | Bank Of America Corporation | Phishing training tool |
US20170032484A1 (en) * | 2015-07-31 | 2017-02-02 | Wal-Mart Stores, Inc. | Systems, devices, and methods for detecting firearm straw purchases |
US9654492B2 (en) | 2015-09-15 | 2017-05-16 | Mimecast North America, Inc. | Malware detection system based on stored data |
US10366053B1 (en) * | 2015-11-24 | 2019-07-30 | Amazon Technologies, Inc. | Consistent randomized record-level splitting of machine learning data |
US10679015B1 (en) * | 2015-12-28 | 2020-06-09 | Amazon Technologies, Inc. | Utilizing artificial intelligence-based machine translation to augment document summarization |
US10255277B2 (en) * | 2016-06-24 | 2019-04-09 | Facebook, Inc. | Crowd matching translators |
US10453117B1 (en) * | 2016-06-29 | 2019-10-22 | Amazon Technologies, Inc. | Determining domains for natural language understanding |
US10121467B1 (en) * | 2016-06-30 | 2018-11-06 | Amazon Technologies, Inc. | Automatic speech recognition incorporating word usage information |
US10679014B2 (en) * | 2017-06-08 | 2020-06-09 | Panasonic Intellectual Property Management Co., Ltd. | Method for providing translation information, non-transitory computer-readable recording medium, and translation information providing apparatus |
US20190080116A1 (en) * | 2017-09-13 | 2019-03-14 | Microsoft Technology Licensing, Llc | Random noise based privacy mechanism |
US10938817B2 (en) * | 2018-04-05 | 2021-03-02 | Accenture Global Solutions Limited | Data security and protection system using distributed ledgers to store validated data in a knowledge graph |
-
2018
- 2018-06-20 US US16/013,581 patent/US10664656B2/en active Active
- 2018-10-29 CA CA3022443A patent/CA3022443C/en active Active
- 2018-10-29 CA CA3122638A patent/CA3122638C/en active Active
- 2018-10-29 CA CA3122744A patent/CA3122744C/en active Active
-
2019
- 2019-03-05 JP JP2019039399A patent/JP7302987B2/ja active Active
- 2019-06-19 WO PCT/US2019/038031 patent/WO2019246294A1/en active Application Filing
- 2019-10-08 US US16/595,890 patent/US10846474B2/en active Active
- 2019-10-08 US US16/595,941 patent/US10997366B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002007398A (ja) | 2000-06-23 | 2002-01-11 | Nippon Telegr & Teleph Corp <Ntt> | 翻訳制御方法及び装置及び翻訳制御プログラムを格納した記憶媒体 |
US20130138428A1 (en) | 2010-01-07 | 2013-05-30 | The Trustees Of The Stevens Institute Of Technology | Systems and methods for automatically detecting deception in human communications expressed in digital form |
JP2016509312A (ja) | 2013-02-08 | 2016-03-24 | マシーン・ゾーン・インコーポレイテッドMachine Zone, Inc. | マルチユーザ多言語通信のためのシステムおよび方法 |
US20190042663A1 (en) | 2017-08-02 | 2019-02-07 | Yahoo Holdings, Inc. | Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation |
Non-Patent Citations (1)
Title |
---|
澤井 裕一郎 外2名,文法誤り訂正のための疑似誤り生成によるラベルなしコーパスの利用,言語処理学会第23回年次大会 発表論文集 [online],日本,言語処理学会,2017年03月06日,pp.714-717 |
Also Published As
Publication number | Publication date |
---|---|
US10997366B2 (en) | 2021-05-04 |
JP2019220144A (ja) | 2019-12-26 |
US20190392038A1 (en) | 2019-12-26 |
CA3122744C (en) | 2023-06-13 |
CA3122744A1 (en) | 2019-12-20 |
US10664656B2 (en) | 2020-05-26 |
WO2019246294A1 (en) | 2019-12-26 |
US20200159993A1 (en) | 2020-05-21 |
CA3022443C (en) | 2023-10-17 |
CA3122638C (en) | 2023-06-27 |
CA3022443A1 (en) | 2019-12-20 |
US20200110806A1 (en) | 2020-04-09 |
US10846474B2 (en) | 2020-11-24 |
CA3122638A1 (en) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7302987B2 (ja) | 詐欺検出を改善するためのデータ拡張の方法、デバイス、およびシステム | |
CN111026319B (zh) | 一种智能文本处理方法、装置、电子设备及存储介质 | |
WO2020159572A1 (en) | System and method for information extraction with character level features | |
EP2803031A1 (en) | Machine-learning based classification of user accounts based on email addresses and other account information | |
CN111552797B (zh) | 名称预测模型的训练方法、装置、电子设备及存储介质 | |
CN111026320B (zh) | 多模态智能文本处理方法、装置、电子设备及存储介质 | |
CN111488732B (zh) | 一种变形关键词检测方法、系统及相关设备 | |
US11887059B2 (en) | Apparatus and methods for creating a video record | |
US20230289735A1 (en) | Apparatus and methods for screening users | |
Dong et al. | Adversarial attack and defense on natural language processing in deep learning: A survey and perspective | |
Alves et al. | Leveraging BERT's Power to Classify TTP from Unstructured Text | |
US11347928B2 (en) | Detecting and processing sections spanning processed document partitions | |
US11455812B2 (en) | Extracting non-textual data from documents via machine learning | |
CN111552890B (zh) | 基于名称预测模型的名称信息处理方法、装置、电子设备 | |
Cai et al. | A novel code generator for graphical user interfaces | |
Su et al. | Adversarial Sample Generation Method for Spam SMS Classification | |
US11842314B1 (en) | Apparatus for a smart activity assignment for a user and a creator and method of use | |
CN118094639B (zh) | 基于人工智能的企业大数据挖掘方法及系统 | |
EP4369246A1 (en) | Translation review suitability assessment | |
Wong et al. | Text classification with heterogeneous data using multiple self-training classifiers | |
Pandey et al. | SToRM: Smart ticket resolution steps recommendation in facilities management | |
Jiang | Sentiment Analysis for Troll Activity Detection on Sina Weibo |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230303 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230620 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230622 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7302987 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |