CN113661486A - 用于生成增强型n元模型的系统、方法和计算机程序产品 - Google Patents

用于生成增强型n元模型的系统、方法和计算机程序产品 Download PDF

Info

Publication number
CN113661486A
CN113661486A CN202080016597.2A CN202080016597A CN113661486A CN 113661486 A CN113661486 A CN 113661486A CN 202080016597 A CN202080016597 A CN 202080016597A CN 113661486 A CN113661486 A CN 113661486A
Authority
CN
China
Prior art keywords
character
data string
length
transaction request
transaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080016597.2A
Other languages
English (en)
Inventor
托尼·托马斯·科兰帕兰比尔
穆罕默德·努赛尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Visa International Service Association
Original Assignee
Visa International Service Association
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Visa International Service Association filed Critical Visa International Service Association
Publication of CN113661486A publication Critical patent/CN113661486A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Security & Cryptography (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供一种用于生成与监测系统一起使用的增强型n元模型的方法、系统和计算机程序产品。所述方法包括确定第一数据字符串的前导字符对与第二数据字符串的前导字符对不匹配,并且在每个数据字符串中的第一索引位置处插入占位符字符。所述方法还包括在所述第一数据字符串的每个字符对之间插入占位符字符,其中第一字符与所述第二数据字符串中在相同索引位置的字符匹配,并且其中第二字符与所述第二数据字符串中在紧跟相同索引位置之后的索引位置的字符匹配,以及基于所述数据字符串的长度生成相似性得分,以及响应于所述相似性得分超过预定阈值而触发补救过程。

Description

用于生成增强型N元模型的系统、方法和计算机程序产品
相关申请交叉引用
本申请涉及2019年5月3日提交的第62/842,569号美国临时专利申请,所述美国临时专利申请的公开内容以全文引用的方式并入本文中。
技术领域
本公开大体上涉及数据比较建模,并且在非限制性实施例中,涉及用于生成由监测系统评估和触发补救过程的增强型n元模型的系统、方法和计算机程序产品。
背景技术
计算机化字符串比较是各种数据处理系统的核心功能,例如合规和欺诈检测系统之类的监测系统。然而,标识两个匹配或相关的字符串比逐位等价更复杂。可以表示相同对象或实体的两个字符串在数据字符串序列或排列上可能存在细微差异,使得严格的等效比较将因不匹配而拒绝字符串。例如,名称为“Sara Lynn Smith”的字符串可能与名称为“Sarah Lynn Smith”的字符串指代相同的实体,但严格的等效比较将指示字符串不匹配。漏报(false negatives)会给数据处理系统带来技术复杂性,例如分析被拒绝匹配的计算时间增加、人工审查、由于检测到的匹配的延迟而引起的通信效率损失等。
此外,虽然已经开发了模糊匹配技术来关联非等效字符串,但优化相关数据字符串的标识至关重要。误报(false positives)类似地会给数据处理系统带来技术复杂性,例如作用于不恰当匹配的字符串时的计算时间增加、错误传送的消息、错误的欺诈检测以及计算机关机等。此外,以前的方法可能无法恰当地对比较两组字符串做出解释。例如,一组字符串可以包括名字和姓氏,而第二组字符串可以包括名字、中间名和姓氏。仅将字符串附加到每组中并且直接比较字符串将引起人为的低相似性得分。
本领域需要改进的系统和方法来测量两个字符串的相似性,以便由监测系统基于检测到的匹配字符串触发动作。此外,本领域需要改进的系统和方法来评估包含字符序列或多组字符串的两个字符串是相关的概率。
发明内容
根据非限制性实施例或方面,提供一种计算机实施的方法。所述方法包括使用至少一个处理器接收由交易处理服务器处理的第一交易请求中的第一数据字符串和第二交易请求中的第二数据字符串。所述方法还包括使用至少一个处理器确定所述第一数据字符串的前导字符对与所述第二数据字符串的前导字符对不匹配。所述方法还包括响应于确定所述第一数据字符串的所述前导字符对与所述第二数据字符串的所述前导字符对不匹配,使用至少一个处理器在所述第一数据字符串中的第一索引位置处和所述第二数据字符串中的第一索引位置处插入占位符字符;在所述第一数据字符串或所述第二数据字符串中的其它位置不存在占位符字符。所述方法还包括使用至少一个处理器确定所述第一数据字符串的至少一个字符对,其中所述至少一个字符对的第一字符与所述第二数据字符串中在与所述第一字符相同的索引位置的字符匹配,并且其中所述至少一个字符对的第二字符与所述第二数据字符串中在紧跟所述第二字符的相同索引位置之后的索引位置的字符匹配。所述方法还包括使用至少一个处理器在所述至少一个字符对中的每个字符对之间插入占位符字符。所述方法还包括使用至少一个处理器确定所述第一数据字符串的长度或所述第二数据字符串的长度是否小于预定n元长度,以及(i)响应于确定所述第一数据字符串的所述长度或所述第二数据字符串的所述长度小于所述预定n元长度,使用至少一个处理器基于所述第一数据字符串和所述第二数据字符串中相同索引处的匹配字符对的数目相对于字符对的总数目生成相似性得分,或者(ii)响应于确定所述第一数据字符串的所述长度和所述第二数据字符串的所述长度大于或等于所述预定n元长度,使用至少一个处理器基于n元距离评分模型生成所述相似性得分以将所述第一数据字符串与所述第二数据字符串进行比较。所述方法包括响应于所述相似性得分超过预定阈值,由与所述交易处理服务器通信的监测系统触发所述第一交易请求和/或所述第二交易请求的补救过程。
在另外的非限制性实施例或方面中,所述监测系统可以是合规系统。由所述合规系统执行的所述补救过程可以包括使用合规系统服务器修改所述第一交易请求和/或所述第二交易请求,使得所述第一数据字符串和所述第二数据字符串是相同的数据字符串。所述方法可以包括由所述合规系统在执行所述补救过程之后更新用户的白名单。所述交易处理服务器可以被配置成授权所述白名单上的用户的未来交易请求。
在另外的非限制性实施例或方面中,所述监测系统可以是欺诈系统。由所述欺诈系统执行的所述补救过程可以包括将所述第一交易请求和/或所述第二交易请求标识为欺诈性的并且阻止对所述第一交易请求和/或所述第二交易请求的授权。所述方法可以包括由所述欺诈系统在执行所述补救过程之后更新用户的黑名单。所述交易处理服务器可以被配置成拒绝对所述黑名单上的用户的未来交易请求的授权。
在另外的非限制性实施例或方面中,所述第一数据字符串可以包括第一组字符序列并且所述第二数据字符串可以包括第二组字符序列。所述方法还可以包括使用至少一个处理器生成所述第一组字符序列与所述第二组字符序列进行比较的组合相似性得分。所述组合相似性得分可以基于加权概率得分,所述加权概率得分包括多个概率得分的总和除以所述第一组字符序列中的字符序列的数目。所述多个概率得分中的每一个可以表示所述第一组字符序列中的字符序列存在于所述第二组字符序列中的概率。所述组合相似性得分还可以基于惩罚值,所述惩罚值是针对所述第一组字符序列中不存在的所述第二组字符序列中的每个字符序列而评估的。所述多个概率得分中的每个概率得分可以基于n元距离模型。所述方法可以包括响应于所述组合相似性得分超过预定阈值,由所述监测系统触发所述第一交易请求和/或所述第二交易请求的所述补救过程。
根据非限制性实施例或方面,提供了一种系统,所述系统包括:包括至少一个处理器的交易处理服务器和与所述交易处理服务器通信的监测系统。所述交易处理服务器被编程和/或配置成接收由交易处理服务器处理的第一交易请求中的第一数据字符串和第二交易请求中的第二数据字符串。所述交易处理服务器被编程和/或配置成确定所述第一数据字符串的前导字符对与所述第二数据字符串的前导字符对不匹配。所述交易处理服务器被编程和/或配置成响应于确定所述第一数据字符串的所述前导字符对与所述第二数据字符串的所述前导字符对不匹配,在所述第一数据字符串中的第一索引位置处和所述第二数据字符串中的第一索引位置处插入占位符字符。在所述第一数据字符串或所述第二数据字符串中的其它位置不存在占位符字符。所述交易处理服务器被编程和/或配置成确定所述第一数据字符串的至少一个字符对,其中所述至少一个字符对的第一字符与所述第二数据字符串中在与所述第一字符相同的索引位置的字符匹配,并且其中所述至少一个字符对的第二字符与所述第二数据字符串中在紧跟所述第二字符的相同索引位置之后的索引位置的字符匹配。所述交易处理服务器被编程和/或配置成在所述至少一个字符对中的每个字符对之间插入占位符字符。所述交易处理服务器被编程和/或配置成确定所述第一数据字符串的长度或所述第二数据字符串的长度是否小于预定n元长度,以及(i)响应于确定所述第一数据字符串的所述长度或所述第二数据字符串的所述长度小于所述预定n元长度,基于所述第一数据字符串和所述第二数据字符串中相同索引处的匹配字符对的数目相对于字符对的总数目生成相似性得分,或者(ii)响应于确定所述第一数据字符串的所述长度和所述第二数据字符串的所述长度大于或等于所述预定n元长度,基于n元距离评分模型生成所述相似性得分以将所述第一数据字符串与所述第二数据字符串进行比较。所述监测系统被编程和/或配置成响应于所述相似性得分超过预定阈值而触发所述第一交易请求和/或所述第二交易请求的补救过程。
在另外的非限制性实施例或方面中,所述监测系统可以是合规系统。由所述合规系统执行的所述补救过程可以包括使用合规系统服务器修改所述第一交易请求和/或所述第二交易请求,使得所述第一数据字符串和所述第二数据字符串是相同的数据字符串。所述合规系统可以被编程和/或配置成在执行所述补救过程之后更新用户的白名单。所述交易处理服务器还可以被编程和/或配置成授权所述白名单上的用户的未来交易请求。
在另外的非限制性实施例或方面中,所述监测系统可以是欺诈系统。由所述欺诈系统执行的所述补救过程可以包括将所述第一交易请求和/或所述第二交易请求标识为欺诈性的并且阻止对所述第一交易请求和/或所述第二交易请求的授权。所述欺诈系统可以被编程和/或配置成在执行所述补救过程之后更新用户的黑名单。所述交易处理服务器还可以被编程和/或配置成拒绝对所述黑名单上的用户的未来交易请求的授权。
在另外的非限制性实施例或方面中,所述第一数据字符串可以包括第一组字符序列并且所述第二数据字符串可以包括第二组字符序列。所述交易处理服务器可以被编程和/或配置成生成所述第一组字符序列与所述第二组字符序列进行比较的组合相似性得分。所述组合相似性得分可以基于加权概率得分,所述加权概率得分包括多个概率得分的总和除以所述第一组字符序列中的字符序列的数目。所述多个概率得分中的每一个可以表示所述第一组字符序列中的字符序列存在于所述第二组字符序列中的概率。所述组合相似性得分还可以基于惩罚值,所述惩罚值是针对所述第一组字符序列中不存在的所述第二组字符序列中的每个字符序列而评估的。所述多个概率得分中的每个概率得分可以基于n元距离模型。所述监测系统还可以被编程和/或配置成响应于所述组合相似性得分超过预定阈值而触发所述第一交易请求和/或所述第二交易请求的所述补救过程。
根据非限制性实施例或方面,提供一种计算机程序产品,所述计算机程序产品包括包括程序指令的至少一个非瞬态计算机可读介质。所述程序指令在由至少一个处理器执行时使所述至少一个处理器接收由交易处理服务器处理的第一交易请求中的第一数据字符串和第二交易请求中的第二数据字符串。所述程序指令使所述至少一个处理器确定所述第一数据字符串的前导字符对与所述第二数据字符串的前导字符对不匹配。所述程序指令使所述至少一个处理器响应于确定所述第一数据字符串的所述前导字符对与所述第二数据字符串的所述前导字符对不匹配,在所述第一数据字符串中的第一索引位置处和所述第二数据字符串中的第一索引位置处插入占位符字符。在所述第一数据字符串或所述第二数据字符串中的其它位置不存在占位符字符。所述程序指令使所述至少一个处理器确定所述第一数据字符串的至少一个字符对,其中所述至少一个字符对的第一字符与所述第二数据字符串中在与所述第一字符相同的索引位置的字符匹配,并且其中所述至少一个字符对的第二字符与所述第二数据字符串中在紧跟所述第二字符的相同索引位置之后的索引位置的字符匹配。所述程序指令使所述至少一个处理器在所述至少一个字符对中的每个字符对之间插入占位符字符。所述程序指令使所述至少一个处理器确定所述第一数据字符串的长度或所述第二数据字符串的长度是否小于预定n元长度,以及(i)响应于确定所述第一数据字符串的所述长度或所述第二数据字符串的所述长度小于所述预定n元长度,基于所述第一数据字符串和所述第二数据字符串中相同索引处的匹配字符对的数目相对于字符对的总数目生成相似性得分,或者(ii)响应于确定所述第一数据字符串的所述长度和所述第二数据字符串的所述长度大于或等于所述预定n元长度,基于n元距离评分模型生成所述相似性得分以将所述第一数据字符串与所述第二数据字符串进行比较。所述程序指令使所述至少一个处理器响应于所述相似性得分超过预定阈值而针对所述第一交易请求和/或所述第二交易请求触发与所述交易处理服务器通信的监测系统的补救过程。
在另外的非限制性实施例或方面中,所述监测系统可以是合规系统。由所述合规系统执行的所述补救过程可以包括使用合规系统服务器修改所述第一交易请求和/或所述第二交易请求,使得所述第一数据字符串和所述第二数据字符串是相同的数据字符串。所述程序指令还可以使所述至少一个处理器触发所述合规系统在执行所述补救过程之后更新用户的白名单。所述交易处理服务器可以被配置成授权所述白名单上的用户的未来交易请求。
在另外的非限制性实施例或方面中,所述监测系统可以是欺诈系统。由所述欺诈系统执行的所述补救过程可以包括将所述第一交易请求和/或所述第二交易请求标识为欺诈性的并且阻止对所述第一交易请求和/或所述第二交易请求的授权。所述程序指令还可以使所述至少一个处理器触发所述欺诈系统在执行所述补救过程之后更新用户的黑名单。所述交易处理服务器可以被配置成拒绝对所述黑名单上的用户的未来交易请求的授权。
在另外的非限制性实施例或方面中,所述第一数据字符串可以包括第一组字符序列并且所述第二数据字符串可以包括第二组字符序列。所述程序指令还可以使所述至少一个处理器生成所述第一组字符序列与所述第二组字符序列进行比较的组合相似性得分。所述组合相似性得分可以基于加权概率得分,其包括多个概率得分的总和除以所述第一组字符序列中的字符序列的数目,其中所述多个概率得分中的每一个表示所述第一组字符序列中的字符序列存在于所述第二组字符序列中的概率。所述组合相似性得分还可以基于惩罚值,所述惩罚值是针对所述第一组字符序列中不存在的所述第二组字符序列中的每个字符序列而评估的。所述程序指令还可以使所述至少一个处理器响应于所述组合相似性得分超过预定阈值而针对所述第一交易请求和/或所述第二交易请求触发与所述监测系统以执行所述补救过程。所述多个概率得分中的每个概率得分可以基于n元距离模型。
根据非限制性实施例或方面,提供一种计算机实施的方法。所述方法包括使用至少一个处理器接收第一组字符串和第二组字符串。所述方法还包括使用至少一个处理器生成所述第一组字符串与所述第二组字符串进行比较的相似性得分。所述相似性得分基于加权概率得分,所述加权概率得分包括多个概率得分的总和除以第一组字符串中的多个字符串,其中所述多个概率得分中的每一个表示所述第一组字符串中的字符串存在于所述第二组字符串中的概率。所述相似性得分还基于惩罚值,所述惩罚值是针对所述第一组字符串中不存在的所述第二组字符串中的每个字符串而评估的。所述多个概率得分中的每个概率得分基于n元距离模型。
将在以下编号条款中阐述其它非限制性实施例或方面:
条款1:一种计算机实施的方法,包括:使用至少一个处理器接收由交易处理服务器处理的第一交易请求中的第一数据字符串和第二交易请求中的第二数据字符串;使用至少一个处理器确定所述第一数据字符串的前导字符对与所述第二数据字符串的前导字符对不匹配;响应于确定所述第一数据字符串的所述前导字符对与所述第二数据字符串的所述前导字符对不匹配,使用至少一个处理器在所述第一数据字符串中的第一索引位置处和所述第二数据字符串中的第一索引位置处插入占位符字符,其中在所述第一数据字符串或所述第二数据字符串中的其它位置不存在占位符字符;使用至少一个处理器确定所述第一数据字符串的至少一个字符对,其中所述至少一个字符对的第一字符与所述第二数据字符串中在与所述第一字符相同的索引位置的字符匹配,并且其中所述至少一个字符对的第二字符与所述第二数据字符串中在紧跟所述第二字符的相同索引位置之后的索引位置的字符匹配;使用至少一个处理器在所述至少一个字符对中的每个字符对之间插入占位符字符;使用至少一个处理器确定所述第一数据字符串的长度或所述第二数据字符串的长度是否小于预定n元长度,以及(i)响应于确定所述第一数据字符串的所述长度或所述第二数据字符串的所述长度小于所述预定n元长度,使用至少一个处理器基于所述第一数据字符串和所述第二数据字符串中相同索引处的匹配字符对的数目相对于字符对的总数目生成相似性得分,或者(ii)响应于确定所述第一数据字符串的所述长度和所述第二数据字符串的所述长度大于或等于所述预定n元长度,使用至少一个处理器基于n元距离评分模型生成所述相似性得分以将所述第一数据字符串与所述第二数据字符串进行比较;以及响应于所述相似性得分超过预定阈值,由与所述交易处理服务器通信的监测系统触发所述第一交易请求和/或所述第二交易请求的补救过程。
条款2:根据条款1所述的计算机实施的方法,其中所述监测系统是合规系统,并且其中由所述合规系统执行的所述补救过程包括使用合规系统服务器修改所述第一交易请求和/或所述第二交易请求,使得所述第一数据字符串和所述第二数据字符串是相同的数据字符串。
条款3:根据条款1或2所述的计算机实施的方法,还包括由所述合规系统在执行所述补救过程之后更新用户的白名单,其中所述交易处理服务器被配置成授权所述白名单上的用户的未来交易请求。
条款4:根据条款1至3中任一项所述的计算机实施的方法,其中所述监测系统是欺诈系统,并且其中由所述欺诈系统执行的所述补救过程包括将所述第一交易请求和/或所述第二交易请求标识为欺诈性的并且阻止对所述第一交易请求和/或所述第二交易请求的授权。
条款5:根据条款1至4中任一项所述的计算机实施的方法,还包括由所述欺诈系统在执行所述补救过程之后更新用户的黑名单,其中所述交易处理服务器被配置成拒绝对所述黑名单上的用户的未来交易请求的授权。
条款6:根据条款1至5中任一项所述的计算机实施的方法,其中所述第一数据字符串包括第一组字符序列并且所述第二数据字符串包括第二组字符序列,所述方法还包括:使用至少一个处理器生成所述第一组字符序列与所述第二组字符序列进行比较的组合相似性得分,所述组合相似性得分基于:加权概率得分,其包括多个概率得分的总和除以所述第一组字符序列中的字符序列的数目,其中所述多个概率得分中的每一个表示所述第一组字符序列中的字符序列存在于所述第二组字符序列中的概率;以及惩罚值,其是针对所述第一组字符序列中不存在的所述第二组字符序列中的每个字符序列而评估的;其中所述多个概率得分中的每个概率得分基于n元距离模型。
条款7:根据条款1至6中任一项所述的计算机实施的方法,还包括响应于所述组合相似性得分超过预定阈值,由所述监测系统触发所述第一交易请求和/或所述第二交易请求的所述补救过程。
条款8:一种系统,包括:包括至少一个处理器的交易处理服务器和与所述交易处理服务器通信的监测系统,其中所述交易处理服务器被编程和/或配置成:接收由交易处理服务器处理的第一交易请求中的第一数据字符串和第二交易请求中的第二数据字符串;确定所述第一数据字符串的前导字符对与所述第二数据字符串的前导字符对不匹配;响应于确定所述第一数据字符串的所述前导字符对与所述第二数据字符串的所述前导字符对不匹配,在所述第一数据字符串中的第一索引位置处和所述第二数据字符串中的第一索引位置处插入占位符字符,其中在所述第一数据字符串或所述第二数据字符串中的其它位置不存在占位符字符;确定所述第一数据字符串的至少一个字符对,其中所述至少一个字符对的第一字符与所述第二数据字符串中在与所述第一字符相同的索引位置的字符匹配,并且其中所述至少一个字符对的第二字符与所述第二数据字符串中在紧跟所述第二字符的相同索引位置之后的索引位置的字符匹配;在所述至少一个字符对中的每个字符对之间插入占位符字符;确定所述第一数据字符串的长度或所述第二数据字符串的长度是否小于预定n元长度,以及(i)响应于确定所述第一数据字符串的所述长度或所述第二数据字符串的所述长度小于所述预定n元长度,基于所述第一数据字符串和所述第二数据字符串中相同索引处的匹配字符对的数目相对于字符对的总数目生成相似性得分,或者(ii)响应于确定所述第一数据字符串的所述长度和所述第二数据字符串的所述长度大于或等于所述预定n元长度,基于n元距离评分模型生成所述相似性得分以将所述第一数据字符串与所述第二数据字符串进行比较;以及其中所述监测系统被编程和/或配置成响应于所述相似性得分超过预定阈值而触发所述第一交易请求和/或所述第二交易请求的补救过程。
条款9:根据条款8所述的系统,其中所述监测系统是合规系统,并且其中由所述合规系统执行的所述补救过程包括使用合规系统服务器修改所述第一交易请求和/或所述第二交易请求,使得所述第一数据字符串和所述第二数据字符串是相同的数据字符串。
条款10:根据条款8或9所述的系统,其中所述合规系统被编程和/或配置成在执行所述补救过程之后更新用户的白名单,并且其中所述交易处理服务器还被编程和/或配置成授权所述白名单上的用户的未来交易请求。
条款11:根据条款8至10中任一项所述系统,其中所述监测系统是欺诈系统,并且其中由所述欺诈系统执行的所述补救过程包括将所述第一交易请求和/或所述第二交易请求标识为欺诈性的并且阻止对所述第一交易请求和/或所述第二交易请求的授权。
条款12:根据条款8至11中任一项所述的系统,其中所述欺诈系统被编程和/或配置成在执行所述补救过程之后更新用户的黑名单,并且其中所述交易处理服务器还被编程和/或配置成拒绝对所述黑名单上的用户的未来交易请求的授权。
条款13:根据条款8至12中任一项所述的计算机实施的方法,其中所述第一数据字符串包括第一组字符序列并且所述第二数据字符串包括第二组字符序列,并且其中所述交易处理服务器还被编程和/或配置成:生成所述第一组字符序列与所述第二组字符序列进行比较的组合相似性得分,所述组合相似性得分基于:加权概率得分,其包括多个概率得分的总和除以所述第一组字符序列中的字符序列的数目,其中所述多个概率得分中的每一个表示所述第一组字符序列中的字符序列存在于所述第二组字符序列中的概率;以及惩罚值,其是针对所述第一组字符序列中不存在的所述第二组字符序列中的每个字符序列而评估的;其中所述多个概率得分中的每个概率得分基于n元距离模型。
条款14:根据条款8至13中任一项所述的系统,其中所述监测系统还被编程和/或配置成响应于所述组合相似性得分超过预定阈值而触发所述第一交易请求和/或所述第二交易请求的所述补救过程。
条款15:一种计算机程序产品,其包括包括程序指令的至少一个非瞬态计算机可读介质,所述程序指令在由至少一个处理器执行时使所述至少一个处理器:接收由交易处理服务器处理的第一交易请求中的第一数据字符串和第二交易请求中的第二数据字符串;确定所述第一数据字符串的前导字符对与所述第二数据字符串的前导字符对不匹配;响应于确定所述第一数据字符串的所述前导字符对与所述第二数据字符串的所述前导字符对不匹配,在所述第一数据字符串中的第一索引位置处和所述第二数据字符串中的第一索引位置处插入占位符字符,其中在所述第一数据字符串或所述第二数据字符串中的其它位置不存在占位符字符;确定所述第一数据字符串的至少一个字符对,其中所述至少一个字符对的第一字符与所述第二数据字符串中在与所述第一字符相同的索引位置的字符匹配,并且其中所述至少一个字符对的第二字符与所述第二数据字符串中在紧跟所述第二字符的相同索引位置之后的索引位置的字符匹配;在所述至少一个字符对中的每个字符对之间插入占位符字符;确定所述第一数据字符串的长度或所述第二数据字符串的长度是否小于预定n元长度,以及(i)响应于确定所述第一数据字符串的所述长度或所述第二数据字符串的所述长度小于所述预定n元长度,基于所述第一数据字符串和所述第二数据字符串中相同索引处的匹配字符对的数目相对于字符对的总数目生成相似性得分,或者(ii)响应于确定所述第一数据字符串的所述长度和所述第二数据字符串的所述长度大于或等于所述预定n元长度,基于n元距离评分模型生成所述相似性得分以将所述第一数据字符串与所述第二数据字符串进行比较;以及响应于所述相似性得分超过预定阈值而针对所述第一交易请求和/或所述第二交易请求触发与所述交易处理服务器通信的监测系统的补救过程。
条款16:根据条款15所述的计算机程序产品,其中所述监测系统是合规系统,并且其中由所述合规系统执行的所述补救过程包括使用合规系统服务器修改所述第一交易请求和/或所述第二交易请求,使得所述第一数据字符串和所述第二数据字符串是相同的数据字符串。
条款17:根据条款15或16所述的计算机程序产品,其中所述程序指令还使得所述至少一个处理器触发所述合规系统在执行所述补救过程之后更新用户的白名单,其中所述交易处理服务器被配置成授权所述白名单上的用户的未来交易请求。
条款18:根据条款15至17中任一项所述计算机程序产品,其中所述监测系统是欺诈系统,并且其中由所述欺诈系统执行的所述补救过程包括将所述第一交易请求和/或所述第二交易请求标识为欺诈性的并且阻止对所述第一交易请求和/或所述第二交易请求的授权。
条款19:根据条款15至18中任一项所述的计算机程序产品,其中所述程序指令还使得所述至少一个处理器触发所述欺诈系统在执行所述补救过程之后更新用户的黑名单,其中所述交易处理服务器被配置成拒绝对所述黑名单上的用户的未来交易请求的授权。
条款20:根据条款15至19中任一项所述的计算机程序产品,其中所述第一数据字符串包括第一组字符序列并且所述第二数据字符串包括第二组字符序列,并且其中所述程序指令还使得所述至少一个处理器:生成所述第一组字符序列与所述第二组字符序列进行比较的组合相似性得分,所述组合相似性得分基于:加权概率得分,其包括多个概率得分的总和除以所述第一组字符序列中的字符序列的数目,其中所述多个概率得分中的每一个表示所述第一组字符序列中的字符序列存在于所述第二组字符序列中的概率;以及惩罚值,其是针对所述第一组字符序列中不存在的所述第二组字符序列中的每个字符序列而评估的;以及响应于所述组合相似性得分超过预定阈值而触发所述监测系统以执行所述第一交易请求和/或所述第二交易请求的所述补救过程,其中所述多个概率得分中的每个概率得分基于n元距离模型。
条款21:一种计算机实施的方法,包括:使用至少一个处理器接收第一组字符串和第二组字符串;使用至少一个处理器生成所述第一组字符串与所述第二组字符串进行比较的相似性得分;其中所述相似性得分基于加权概率得分,所述加权概率得分包括多个概率得分的总和除以第一组字符串中的多个字符串,其中所述多个概率得分中的每一个表示所述第一组字符串中的字符串存在于所述第二组字符串中的概率,其中所述相似性得分基于惩罚值,所述惩罚值是针对所述第一组字符串中不存在的所述第二组字符串中的每个字符串而评估的;并且其中所述多个概率得分中的每个概率得分基于n元距离模型。
在参考附图考虑以下描述和所附权利要求书时,本公开的这些和其它特征和特性以及相关结构元件和各部分的组合的操作方法和功能以及制造经济性将变得更加显而易见,所有附图形成本说明书的部分,其中相似附图标号在各图中标示对应部分。然而,应明确地理解,图式仅出于说明和描述的目的,并非旨在作为本发明的限制的定义。
附图说明
下文参考示意性附图中示出的非限制性示例性实施例更详细地解释额外优势和细节,附图中:
图1是根据非限制性实施例的用于生成和使用增强型n元模型的系统的示意图;
图2是根据非限制性实施例的用于生成和使用增强型n元模型的系统的示意图;
图3是根据非限制性实施例的用于生成和使用增强型n元模型的方法的流程图;
图4是根据非限制性实施例的用于生成和使用增强型n元模型的方法的流程图;
图5是根据非限制性实施例的用于生成和使用增强型n元模型的方法的流程图;以及
图6示出了结合非限制性实施例使用的装置的示例组件。
具体实施方式
为了进行以下描述,术语“端”、“上”、“下”、“右”、“左”、“竖直”、“水平”、“顶部”、“底部”、“橫向”、“纵向”和其派生词应与实施例在附图中的定向相关。然而,应理解,实施例可采用各种替代变化和步骤顺序,除了明确指定为相反的情况之外。还应理解,附图中所示的以及在以下说明书中描述的特定装置和过程仅仅是本发明的示例性实施例或方面。因此,与本文公开的实施例或方面有关的特定尺寸和其它物理特性不应被视为限制。
本文所使用的方面、组件、元件、结构、动作、步骤、功能、指令等都不应当被理解为关键的或必要的,除非明确地如此描述。并且,如本文所使用,冠词“一”希望包括一个或多个项目,且可与“一个或多个”和“至少一个”互换使用。此外,如本文中所使用,术语“集合”希望包括一个或多个项目(例如,相关项目、不相关项目、相关项目与不相关项目的组合等),并且可与“一个或多个”或“至少一个”互换使用。在希望仅有一个项目的情况下,使用术语“一个”或类似语言。并且,如本文中所使用,术语“具有”等希望是开放式术语。另外,除非另外明确陈述,否则短语“基于”希望意味着“至少部分地基于”。
如本文所使用,术语“通信”可以指数据(例如,信息、信号、消息、指令、命令等)的接收、接纳、传输、传送、提供等。一个单元(例如,装置、系统、装置或系统的组件、其组合等)与另一单元通信意味着所述一个单元能够直接或间接地从所述另一单元接收信息和/或向所述另一单元发送信息。这可指在本质上有线和/或无线的直接或间接连接(例如,直接通信连接、间接通信连接等)。另外,尽管所发送的信息可以在第一单元与第二单元之间被修改、处理、中继和/或路由,但这两个单元也可以彼此通信。例如,即使第一单元被动地接收信息且不会主动地将信息发送到第二单元,第一单元也可以与第二单元通信。作为另一示例,如果至少一个中间单元处理从第一单元接收的信息且将处理后的信息传送到第二单元,那么第一单元可以与第二单元通信。
如本文所使用,术语“计算装置”可以指被配置成处理数据的一个或多个电子装置。在一些示例中,计算装置可以包括接收、处理和输出数据的必要组件,例如处理器、显示器、存储器、输入装置、网络接口等。计算装置可以是移动装置。作为示例,移动装置可以包括蜂窝电话(例如,智能电话或标准蜂窝电话)、便携式计算机、可穿戴装置(例如,手表、眼镜、镜片、衣物等)、个人数字助理(PDA)和/或其它类似装置。计算装置还可以是台式计算机或其它形式的非移动计算机。
如本文所使用,术语“服务器”可以指或包括由互联网等网络环境中的多方操作或促进所述多方的通信和处理的一个或多个计算装置,但应了解,可通过一个或多个公共或专用网络环境促进通信,并且可能有各种其它布置。此外,在网络环境中直接或间接通信的多个计算装置(例如服务器、销售点(POS)装置、移动装置等可构成“系统”。如本文所使用,对“服务器”或“处理器”的提及可以指陈述为执行先前步骤或功能的先前所述服务器和/或处理器、不同的服务器和/或处理器,和/或服务器和/或处理器的组合。举例来说,如在说明书和权利要求书中所使用,陈述为实施第一步骤或功能的第一服务器和/或第一处理器可指代陈述为实施第二步骤或功能的相同或不同服务器和/或处理器。
如本文所使用,术语“交易服务提供商”可指从商家或其它实体接收交易授权请求且在一些情况下通过交易服务提供商与发行方机构之间的协议来提供支付保证的实体。例如,交易服务提供商可包括例如
Figure BDA0003228722050000141
之类的支付网络,或处理交易的任何其它实体。术语“交易处理系统”可以指由交易服务提供商或代表交易服务提供商操作的一个或多个计算装置,例如执行一个或多个软件应用程序的交易处理服务器。交易处理系统可包括一个或多个处理器,并且在一些非限制性实施例中可由交易服务提供商或代表交易服务提供商操作。
如本文所使用,术语“字符串”可以指可以包括一组字符、数字、空格、零值等的任何序列或数据集。字符串可以是空的,并且字符串内的集合的项可以由索引位置引用(例如,其中“0”或“1”表示集合中的第一项,并且后续项可计数地更高)。
实施例的基础
一元模型和编辑距离缺乏上下文敏感性,并且性能基于算法的变化而变化。n元相似性和距离的概念概括了标准的一元字符串相似性和距离。所描述的系统和方法提供了n元相似性和距离的变化,这表明编辑距离最长公共子序列(“LCS”)的长度分别是n元距离和相似性的特例。描述了n元相似性和距离的正式定义,以及在上下文敏感数据集中计算它们的有效算法。所描述的系统和方法基于优于其一元等效物和纯n元等效物的n元制定了一系列单词相似性量度。描述了用于计算两个上下文敏感的字符串的距离的n元量度的新的增强版本,包括用于计算短语、句子、名称等的最终距离得分的公式,其中短语、句子和名称由一个或多个字符串构成。描述的最终得分体现(capture)了较短完整短语、句子、名称等中的每个字符串存在于较长短语、句子、名称等中的概率。
一元相似性
一元相似性描述了LCS的长度,并且可以用作字符串相似性的量度。LCS问题的标准公式如下。给定序列X=x1…xk,另一序列Z=z1…zm是X的子序列,如果存在索引X的严格递增序列i1,…,im,则对于所有j=1,…,m,存在等效性
Figure BDA0003228722050000151
例如,“table”是“patentable”的子序列。给定两个序列X和Y,如果Z作为X和Y的子序列存在,则可能存在公共子序列Z。在LCS问题中,两个序列可以充当从其标识最大长度的公共子序列的输入。例如,“content”和“patentable”的LCS是“tent.”。LCS问题可以使用动态编程有效地解决。出于以下描述的目的,重点是LCS的长度,而不是LCS本身的数据。LCS的长度可以描述为两个字符串的函数。
考虑下列函数s(X,Y)的正式递归定义,其表示给定输入序列X和Y的LCS的长度。设X=x1…xk和Y=y1…yl分别是长度为k和l的字符串。出于以下描述的目的,考虑x和y由有限字母表的符号构成。以下符号简写可用于表示一对X和Y的前缀:
公式1:
Γi,j=(x1…xi,y1…yj)
以下符号简写可用于表示一对X和Y的后缀:
公式2:
Γ*=(xi+1…xk,yj+1…yl)
对于长度为一或更小的字符串,可以使用以下直接定义:
公式3:
s(x,∈)=O,s(∈,y)=O,
Figure BDA0003228722050000152
其中ε表示空字符串,x和y表示单个符号。
对于更长的字符串,s可以递归地定义为:
公式4:
Figure BDA0003228722050000153
以上公式中的I和j的值受限于Γi、j和Γ*都是非空的要求。具体地说,i和j的容许值可以由以下对的集合表示:
公式5:
D(k,l)={0,…,k}×{0,…,l}-{(0,0),(k,l)}
举例来说,D(2,1)={(0,1),(1,0),(1,1),(2,0)}。因此,可以归纳地表明s(X,Y)始终等于字符串X和Y的LCS的长度。
递归定义利用了LCS的半组合性。应该认识到,连接字符串的LCS不一定等于相应LCS的总和。例如,||LCS(ab,a)||=1并且||LCS(c,bc)||=1,但是||LCS(abc,abc)||=3。但是,连接字符串的LCS始终至少与其相应LCS的连接长度一样长:
公式6:
s(X1,Y1)+s(X2,Y2)≤s(X1+X2,Y1+Y1+Y2)
鉴于前述内容,s(X,Y)可被视为超加性的,而非组成的。两个字符串的LCS可以通过连接其子字符串的LCS构成,前提是将字符串分解为子字符串保留原始LCS中的所有标识匹配。
N元相似性
n元相似性的目的是将最长公共子序列的概念概括为涵盖n元,而不仅仅是一元。N元相似性可以表示为函数Sn,其中n是固定参数。S1可以被视为等效于一元相似性函数。
为了提供n元相似性的简明递归定义,可以修改关于Γ的约定。在评估n>1时的n元时,可能要求Γi,j以及Γ*i,j包含至少一个完整的n元,这与n=1的先前约定一致。如果两个字符串都短于n,则不定义sn
在最简单的情况下,当任一字符串中只有一个完整的n元时,n元相似性定义为零:
公式7:
sn(Γk,l)=0if(k=n∧l<n)∨(k<n∧l=n)
设Γn=(xi+1…xi+n,yj+1…yj+n)是x和y中的一对n元。如果两个字符串正好包含一个n元,则初始定义是严格的二进制:如果n元相同,则值为1,并且其它情况则为0。对于更长的字符串,n元相似性可以递归地定义为:
公式8:
Figure BDA0003228722050000161
前述公式中的i和j的值受以下要求限制:Γi、j以及Γ*包含至少一个n元。具体地说,i和j的容许值可以由表达式D(k-n+1,l-n+1)给出,其中D是上文定义的对的集合。
与s的情况一样,一组三个分解足以计算sn
公式9:
Figure BDA0003228722050000171
可以对上述二进制n元相似性公式进行细化,以分别产生综合n元相似性公式(用于计算n元之间的标准一元相似性)和位置n元相似性公式(用于计算n元内对应位置的相同一元),如下所示:
公式10:
Figure BDA0003228722050000172
公式11:
Figure BDA0003228722050000173
位置n元相似性的优点是其可以比综合n元相似性计算得更快。
N元距离
由于标准编辑距离几乎是LCS长度的双重概念,n元距离的定义与n元相似性的定义仅略有不同。编辑距离的递归定义如下:
公式12:
d(x,∈)=O,d(∈,y)=O,
Figure BDA0003228722050000174
公式13:
Figure BDA0003228722050000175
具有简化分解集合的编辑距离的替代公式如下:
公式14:
d(X,Y)=d(Γk,l)
=min(d(Γk-1,l)+1,d(Γk,l-1)+1,d(Γk-1,l-1)+d(xk,yl))
n元编辑距离的定义如下:
公式15:
dnk,l)=1 if(k=n∧l<n)∨(k<n∧l=n)
公式16:
Figure BDA0003228722050000181
公式17:
Figure BDA0003228722050000182
n元距离的替代公式如下:
公式18:
Figure BDA0003228722050000183
评估和测试的算法的变体包括:
i. Jaro--Winkler以及Jaro和Winkler算法的变体ii. Levenshtein距离和Damerau--Levenshtein距离算法iii. NYSISIS
iv. Soundex和精制Soundex
v. N元
vi. 最长公共子序列
vii. 汉明距离
提供用于计算字符串X和Y的n元距离的n元距离算法:
N元距离(X,Y)//输入字符串是X和Y。并且N是元/子字符串的大小
K←长度(X)//K是输入#1X的长度
L←长度(Y)//L是输入#2Y的长度
对于u←1至N-1执行
X←x′1+X//用前缀x′扩充X
Y←y′1+Y//用前缀y′扩充X
对于i←0至K执行//K是输入#1X的长度
D[i,0]←i//使用位置值初始化二维双数组[K,L]
/*示例:
[0.0 0.0 0.0 0.0]
[1.0 0.0 0.0 0.0]
[2.0 0.0 0.0 0.0]
*/
对于j←1至L执行//L是输入#2Y的长度
D[0,j]←j//设置双值[0.0,1.0,2.0等]
/*示例:
[0.0 1.0 2.0 3.0]
[1.0 0.0 0.0 0.0]
[2.0 0.0 0.0 0.0]
*/
对于i←1至K执行//K是输入#1X的长度
对于j←1至L执行//L是输入#2Y的长度
D[i,j]←min(D[i-1,j]+1,D[i,j-1]+1,D[i-1,j-1]+dN(ΓN i-1,j-1))
//D[1,1]=min(2.0,2.0,0+距离
返回D[K,L]/max(K,L)
增强型N元距离
n元量度在不同的单词比较任务中进行评估,其中值为n=2和n=3,这提供了相对的计算速度和较高的总体精确度。我们分析了超过75k个单词的n元距离、来自各种在线词典的字符串的结果,标识了模式,并且增强了算法直到达到足够的精确度为止。在此过程中,标识了n元的关键缺点。根据非限制性实施例,通过基于位置的优化和长度归一化来增强n元算法,以减少缺点的影响,从而提高总体精确度。
在非限制性实施例中,具有基于位置的优化和长度归一化的增强型N元距离算法如下:
增强型N元距离(X,Y)//输入字符串是X和Y。并且N是元/子字符串的
大小
K←长度(X)//K是输入#1X的长度
L←长度(Y)//L是输入#2Y的长度
如果K=0并且L=0,则
返回1//当两个字符串为空时返回1/匹配
如果K=0或L=0,则
返回0//当一方为空时返回0/不匹配
LD=ABS(K--L)//LD是长度X与Y之间的长度差的绝对值
J=0
编辑=0
前缀=‘*’//其可以是不存在于X或Y中的任何字符
如果K!=L并且LD<N//当长度(X)-长度(Y)<N时,对输入进行归一化
如果K>L//当长度(X)大于长度(Y)时交换输入交换(X,Y)
对于I←0至K执行
如果I=0并且X[I]!=Y[J]并且X[I+1]!=Y[J+1]
//当仅输入的第一字符彼此不同时添加前缀
X=前缀+X
Y=前缀+Y
编辑++
J++;
否则,如果I>0并且X[I]!=Y[J]并且X[I-1]==Y[J-1]并且X[I]==Y[J+1]//当一方在匹配的子字符串之间缺少字母时替换/添加前缀
X=X[0-(J+编辑-1)]+前缀+X[I+编辑,K+编辑]
J=J+2
否则
J++
K←长度(_X)
L←长度(_Y)
如果K<N或L<N//当任一输入的一个长度为<N时,不用N元计算得分
成本=0
对于I←0至MIN(K,L)执行
如果X[I]=Y[I]
成本++
返回成本/MAX((X,Y)//计算距离
否则
返回N元距离(X,Y);//参考N元距离算法
输入X和Y经过各种其它归一化。例如,输入可以通过语音、性别、接近度等进行归一化。
上述增强型n元算法在软件应用中进行测试,所述软件应用将人类和业务合作伙伴的名称与广泛认可的公共数据集进行比较。针对4百万个公开可用的数据集,对包含2个或更多个的子名称(例如,名字、中间名和姓氏)的大约8百万个模糊的人名进行了评估。与未修改的n元距离算法进行比较,得分和结果更准确。提供了新的度量/模型,用于计算包含一个或多个子名称的两个全名的距离得分。
用于计算一个或多个单词/子名称构成的句子或名称的最终距离得分的增强型N 元距离评分模型
当匹配两个全名时会出现问题:Na,其由n个子名称构成并且名称Nb,其由m个子名称构成。假设n<=m。
考虑到假设n<=m,问题是产生测量Na和Nb是相同的概率的得分S。换句话说,S指示Na中的所有子名称都存在于Nb中的概率。这转化为:
公式19:
Figure BDA0003228722050000211
在以上公式中,无论顺序如何,S(i)是Na中的第i子名称存在于Nb中的概率得分。S(i)必须高于要包括的接受阈值T。如果子名称i的S(i)小于阈值T,则S(i)设置为0。K是常数,其表示针对存在于Nb中但不存在于Na中的每个名称评估的得分惩罚。最终得分体现了较短全名中的每个子名称存在于较长全名中的概率。
其它描述
本公开的非限制性实施例通过提高基于字符串的比较的效率来改进现有技术系统。减少了漏报,从而减少了最初纠正不匹配的数据字符串所需的后续处理时间和存储器。还减少了误报,从而减少了由于从属数据处理服务器中的错误标识匹配而被阻止或取消的处理活动。本公开还通过提高初始比较精确度来减少运行多个文本比较模型的要求,这减少了对系统的总体计算机处理需求。
参考图1,提供了根据非限制性实施例或方面的系统100。系统100可以包括需要比较两个或更多个数据字符串的从属服务器102,例如交易处理服务器或监测系统的服务器。从属服务器102可以是合规系统服务器、欺诈检测服务器、交易处理服务器等,其被配置成将输入字符串(例如,名称)的列表与字符串(例如,名称)的参考列表进行比较,以便确定可以构成用户、交易、服务器活动等的白名单或黑名单的匹配。系统100可以包括多于一个从属服务器102。从属服务器102(例如,交易处理服务器)可以经由通信接口104(例如,应用程序编程接口、消息代理等)将字符串对103或多组字符串105传送到评分服务器106,以比较字符串对103或多组字符串105。通信接口104可以与从属服务器102和/或评分服务器106成一体式。从属服务器102也可以是与评分服务器106相同的服务器(例如,交易处理服务器)。评分服务器106可以包括评分引擎108,所述评分引擎被编程和/或配置成将两个或更多个字符串或两组或多组字符串进行比较并且生成相似性得分。相似性得分可以是数字的、分类的、顺序的等。由评分服务器106接收的用于比较的字符串可以存储在与评分服务器106通信的数据库110中。应了解,从属服务器102可以将任意两个或更多个字符串传送到评分服务器106,以便在其任何比较组合中进行比较,其中每个基本比较构成字符串对103的比较。评分服务器106可以执行上述增强型n元模型比较中的一个或多个,以生成字符串对103或多组字符串105的相似性得分。
参考图2,提供了根据非限制性实施例的系统200。系统200可以包括需要比较两个或更多个数据字符串的交易处理服务器202。交易处理服务器202可以在一个或多个交易请求中接收一个或多个数据字符串以进行比较,例如在处理所述交易请求期间。系统200还包括监测系统204(例如,合规系统、欺诈系统等),其可以与交易处理服务器202成一体式。监测系统204可以包括一个或多个服务器,所述一个或多个服务器被编程和/或配置成执行补救过程,例如对交易请求进行的合规或欺诈过程。系统200可以包括评分服务器106,所述评分服务器包括评分引擎108,所述评分引擎被编程和/或配置成例如根据前述增强型的n元模型生成两个或更多个字符串的相似性得分。评分服务器106可以与交易处理服务器202成一体式。交易处理服务器202、监测系统204和评分服务器106可以经由例如应用程序编程接口、消息代理等通信接口104通信。例如评分服务器106之类的一个或多个服务器可以与数据库110通信,以用于存储比较的字符串、相似性得分等。
现在参考图3,示出了根据非限制性实施例的生成和使用增强型n元模型的方法。所述方法的一个或多个步骤可以由例如交易处理服务器202和/或监测系统服务器204之类的评分服务器106或从属服务器102执行。由一个服务器执行的步骤可以由与另一所描绘步骤相同的或不同的服务器执行。可以在前述内容中组合一个或多个服务器。此外,可以重复所述步骤以进行额外字符串比较。在步骤302中,交易处理服务器可以接收第一交易请求中的第一数据字符串和第二交易请求中的第二数据字符串,例如在处理所述交易请求期间。在步骤304中,交易处理服务器或评分服务器可以确定第一数据字符串的前导字符对与第二数据字符串的前导字符对不匹配。响应于确定第一数据字符串的前导字符对与第二数据字符串的前导字符对不匹配,在步骤306中,交易处理服务器或评分服务器可以在第一数据字符串中的第一索引位置(例如,字符串的前面)处和第二数据字符串中的第一索引位置处插入占位符字符。如本文所提及的,占位符字符可以描述不存在于第一数据字符串或第二数据字符串中的其它地方的字符。
在步骤308中,交易处理服务器或评分服务器可以确定第一数据字符串的至少一个字符对,其中所述至少一个字符对的第一字符与第二数据字符串中在与第一字符相同的索引位置的字符匹配(例如,Xn=Yn),并且其中所述至少一个字符对的第二字符与第二数据字符串中在紧跟第二字符的相同索引位置之后的索引位置的字符匹配(例如,Xn+1=Yn+2)(例如,将“kmoq”与“lmno”进行比较时的字符对“mo”)。可以确定第一数据字符串中的一个或多个此类字符对。在步骤310中,交易处理服务器或评分服务器可以在如此确定的每个字符对之间插入占位符字符(例如,“kmoq”中的“mo”可以变成“km~oq”)。
在步骤312中,交易处理服务器或评分服务器可以确定第一数据字符串的长度或第二数据字符串的长度是否小于预定n元长度(例如,n元长度为3)。预定n元长度可以是根据上述方法进行比较的任何可行的长度。响应于确定第一数据字符串的长度或第二数据字符串的长度小于预定n元长度,在步骤314中,交易处理服务器或评分服务器可以基于第一数据字符串和第二数据字符串中相同索引处的匹配字符对的数目相对于字符对的总数目产生相似性得分。响应于确定第一数据字符串的长度和第二数据字符串的长度大于或等于预定n元长度,在步骤316中,交易处理服务器或评分服务器可以基于n元距离评分模型生成相似性得分以将第一数据字符串与第二数据字符串进行比较。在步骤318中,交易处理服务器或监测系统可以响应于相似性得分超过预定阈值(例如,对于从0至1的归一化得分,阈值可以设置为0.5或更高)而触发针对第一交易请求和/或第二交易请求的补救过程。可以在确定为有效地平衡误报与漏报的任何可行水平上设置预定阈值。
现在参考图4,示出了根据非限制性实施例的生成和使用增强型n元模型的方法。所述方法的一个或多个步骤可以由例如交易处理服务器202和/或监测系统服务器204之类的评分服务器106或从属服务器102执行。由一个服务器执行的步骤可以由与另一所描绘步骤相同的或不同的服务器执行。可以在前述内容中组合一个或多个服务器。此外,可以重复所述步骤以进行额外字符串比较。在步骤318中,监测系统可以响应于相似性得分超过预定阈值而触发第一交易请求和/或第二交易请求的补救过程。监测系统可以是合规系统,并且在步骤404中,补救过程可以包括修改第一交易请求和/或第二交易请求的数据,使得第一数据字符串和第二数据字符串是相同数据字符串(例如,相同名称、相同标识符、相同数据字段等)。然后,在步骤408中,合规系统可以更新用户的白名单。
监测系统也可以是欺诈系统,并且在步骤406中,补救过程可以包括将第一交易请求和/或第二交易请求标识为欺诈性的并且阻止对第一交易请求和/或第二交易请求的授权。例如,运行依赖于来自相同用户的精确数据集的欺诈检测模型的欺诈系统可以依赖于来自相同用户的交易的精确匹配。然后,在步骤410中,欺诈系统可以更新用户的黑名单。在步骤412中,交易处理系统或监测系统可以授权白名单上的用户的未来交易请求和/或拒绝对黑名单上的用户的未来交易请求的授权。
现在参考图5,提供了根据非限制性实施例的生成和使用增强型n元模型的方法。所述方法的一个或多个步骤可以由例如交易处理服务器202和/或监测系统服务器204之类的评分服务器106或从属服务器102执行。由一个服务器执行的步骤可以由与另一所描绘步骤相同的或不同的服务器执行。可以在前述内容中组合一个或多个服务器。此外,可以重复所述步骤以进行额外字符串比较。对于所描绘的方法,第一数据字符串和第二数据字符串可以分别包括字符序列的集合(例如,个人的姓名被分成名字序列、中间名序列和/或姓氏序列)。在步骤502中,交易处理服务器或评分服务器可以生成第一组字符序列与第二组字符序列进行比较的组合相似性得分。在步骤504中,组合相似性得分可以基于加权概率得分,所述加权概率得分包括多个概率得分的总和除以第一组字符序列中的字符序列的数目。所述多个概率得分中的每一个可以表示所述第一组字符序列中的字符序列存在于所述第二组字符序列中的概率。所述多个概率得分中的每个概率得分可以基于n元距离模型,例如上文所述的增强型n元模型。在步骤506中,组合相似性得分还可以基于惩罚值,所述惩罚值是针对所述第一组字符序列中不存在的所述第二组字符序列中的每个字符序列而评估的。
在步骤508中,交易处理服务器或监测系统可以响应于组合相似性得分超过预定阈值(例如,对于从0至1的归一化得分,阈值可以设置为0.75或更高)而触发针对第一交易请求和/或第二交易请求的补救过程。可以在确定为有效地平衡误报与漏报的任何可行水平上设置预定阈值。
现在参考图6,示出了根据非限制性实施例或方面的装置900的示例组件的图式。作为示例,装置900可以对应于从属服务器102,例如图1和2中的交易处理服务器202或监测系统204服务器(例如,合规系统服务器、欺诈系统服务器等)、通信接口104和/或评分服务器106。在一些非限制性实施例或方面中,此类系统或装置可以包括至少一个装置900和/或装置900的至少一个组件。作为示例,提供了所示组件的数目和布置。在一些非限制性实施例或方面中,与图1中所示的那些相比,装置900可以包括额外组件、更少组件、不同组件或以不同方式布置的组件。另外或替代地,装置900的一组组件(例如一个或多个组件)可执行被描述为由装置900的另一组组件执行的一个或多个功能。
如图6所示,装置900可以包括总线902、处理器904、存储器906、存储组件908、输入组件910、输出组件912以及通信接口914。总线902可包括准许装置900的组件之间的通信的组件。在一些非限制性实施例或方面中,处理器904可以在硬件、固件或硬件和软件的组合中实施。例如,处理器904可包括处理器(例如中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)等)、微处理器、数字信号处理器(DSP)和/或可被编程以执行功能的任何处理组件(例如现场可编程门阵列(FPGA)、专用集成电路(ASIC)等)。存储器906可包括随机存取存储器(RAM)、只读存储器(ROM),和/或存储供处理器904使用的信息和/或指令的另一类型的动态或静态存储装置(例如,闪存存储器、磁存储器、光学存储器等)。
继续参考图6,存储组件908可以存储与装置900的操作和使用相关的信息和/或软件。例如,存储组件908可包括硬盘(例如磁盘、光盘、磁光盘、固态磁盘等)和/或另一类型的计算机可读介质。输入组件910可包括准许装置900例如通过用户输入(例如触摸屏显示器、键盘、小键盘、鼠标、按钮、开关、麦克风等)接收信息的组件。另外或替代地,输入组件910可包括用于感测信息的传感器(例如全球定位系统(GPS)组件、加速度计、陀螺仪、致动器等)。输出组件912可包括从装置900提供输出信息的组件(例如显示器、扬声器、一个或多个发光二极管(LED)等)。通信接口914可包括使装置900能够例如通过有线连接、无线连接或有线和无线连接的组合与其它装置通信的收发器类组件(例如收发器、单独的接收器和传送器等)。通信接口914可准许装置900从另一装置接收信息和/或提供信息给另一装置。例如,通信接口914可包括以太网接口、光接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、
Figure BDA0003228722050000261
接口、蜂窝网络接口等。
装置900可执行本文中所描述的一个或多个过程。装置900可基于处理器904执行由存储器906和/或存储组件908等计算机可读介质存储的软件指令来执行这些过程。计算机可读介质可包括任何非瞬态存储器装置。存储器装置包括位于单个物理存储装置内部的存储器空间或散布于多个物理存储装置上的存储器空间。软件指令可通过通信接口914从另一计算机可读介质或从另一装置读取到存储器906和/或存储组件908中。在被执行时,存储在存储器906和/或存储组件908中的软件指令可使处理器904执行本文中所描述的一个或多个过程。另外或替代地,硬接线电路系统可替代软件指令或与软件指令结合使用以执行本文中所描述的一个或多个过程。因此,本文所描述的实施例不限于硬件电路系统和软件的任何特定组合。本文所使用的术语“被编程或配置”是指一个或多个装置上的软件、硬件电路系统或其任何组合的布置。
尽管已出于说明的目的详细地描述了实施例,但应理解,此类细节仅用于所述目的,而本公开不限于所公开的实施例,相反,旨在涵盖处于所附权利要求书的精神和范围内的修改和等同布置。例如,应理解,本公开预期,尽可能地,任何实施例的一个或多个特征可以与任何其它实施例的一个或多个特征组合。

Claims (20)

1.一种计算机实施的方法,包括:
使用至少一个处理器接收由交易处理服务器处理的第一交易请求中的第一数据字符串和第二交易请求中的第二数据字符串;
使用至少一个处理器确定所述第一数据字符串的前导字符对与所述第二数据字符串的前导字符对不匹配;
响应于确定所述第一数据字符串的所述前导字符对与所述第二数据字符串的所述前导字符对不匹配,使用至少一个处理器在所述第一数据字符串中的第一索引位置处和所述第二数据字符串中的第一索引位置处插入占位符字符,其中在所述第一数据字符串或所述第二数据字符串中的其它位置不存在占位符字符;
使用至少一个处理器确定所述第一数据字符串的至少一个字符对,其中所述至少一个字符对的第一字符与所述第二数据字符串中在与所述第一字符相同的索引位置的字符匹配,并且其中所述至少一个字符对的第二字符与所述第二数据字符串中在紧跟所述第二字符的相同索引位置之后的索引位置的字符匹配;
使用至少一个处理器在所述至少一个字符对中的每个字符对之间插入占位符字符;
使用至少一个处理器确定所述第一数据字符串的长度或所述第二数据字符串的长度是否小于预定n元长度,以及
(i)响应于确定所述第一数据字符串的所述长度或所述第二数据字符串的所述长度小于所述预定n元长度,使用至少一个处理器基于所述第一数据字符串和所述第二数据字符串中相同索引处的匹配字符对的数目相对于字符对的总数目生成相似性得分,或者
(ii)响应于确定所述第一数据字符串的所述长度和所述第二数据字符串的所述长度大于或等于所述预定n元长度,使用至少一个处理器基于n元距离评分模型生成所述相似性得分以将所述第一数据字符串与所述第二数据字符串进行比较;以及
响应于所述相似性得分超过预定阈值,由与所述交易处理服务器通信的监测系统触发所述第一交易请求和/或所述第二交易请求的补救过程。
2.根据权利要求1所述的计算机实施的方法,其中所述监测系统是合规系统,并且其中由所述合规系统执行的所述补救过程包括使用合规系统服务器修改所述第一交易请求和/或所述第二交易请求,使得所述第一数据字符串和所述第二数据字符串是相同的数据字符串。
3.根据权利要求2所述的计算机实施的方法,还包括由所述合规系统在执行所述补救过程之后更新用户的白名单,其中所述交易处理服务器被配置成授权所述白名单上的用户的未来交易请求。
4.根据权利要求1所述的计算机实施的方法,其中所述监测系统是欺诈系统,并且其中由所述欺诈系统执行的所述补救过程包括将所述第一交易请求和/或所述第二交易请求标识为欺诈性的并且阻止对所述第一交易请求和/或所述第二交易请求的授权。
5.根据权利要求4所述的计算机实施的方法,还包括由所述欺诈系统在执行所述补救过程之后更新用户的黑名单,其中所述交易处理服务器被配置成拒绝对所述黑名单上的用户的未来交易请求的授权。
6.根据权利要求1所述的计算机实施的方法,其中所述第一数据字符串包括第一组字符序列并且所述第二数据字符串包括第二组字符序列,所述方法还包括:
使用至少一个处理器生成所述第一组字符序列与所述第二组字符序列进行比较的组合相似性得分,所述组合相似性得分基于:
加权概率得分,其包括多个概率得分的总和除以所述第一组字符序列中的字符序列的数目,其中所述多个概率得分中的每一个表示所述第一组字符序列中的字符序列存在于所述第二组字符序列中的概率;以及
惩罚值,其是针对所述第一组字符序列中不存在的所述第二组字符序列中的每个字符序列而评估的;
其中所述多个概率得分中的每个概率得分基于n元距离模型。
7.根据权利要求6所述的计算机实施的方法,还包括响应于所述组合相似性得分超过预定阈值,由所述监测系统触发所述第一交易请求和/或所述第二交易请求的所述补救过程。
8.一种系统,包括:包括至少一个处理器的交易处理服务器和与所述交易处理服务器通信的监测系统,其中所述交易处理服务器被编程和/或配置成:
接收由交易处理服务器处理的第一交易请求中的第一数据字符串和第二交易请求中的第二数据字符串;
确定所述第一数据字符串的前导字符对与所述第二数据字符串的前导字符对不匹配;
响应于确定所述第一数据字符串的所述前导字符对与所述第二数据字符串的所述前导字符对不匹配,在所述第一数据字符串中的第一索引位置处和所述第二数据字符串中的第一索引位置处插入占位符字符,其中在所述第一数据字符串或所述第二数据字符串中的其它位置不存在占位符字符;
确定所述第一数据字符串的至少一个字符对,其中所述至少一个字符对的第一字符与所述第二数据字符串中在与所述第一字符相同的索引位置的字符匹配,并且其中所述至少一个字符对的第二字符与所述第二数据字符串中在紧跟所述第二字符的相同索引位置之后的索引位置的字符匹配;
在所述至少一个字符对中的每个字符对之间插入占位符字符;
确定所述第一数据字符串的长度或所述第二数据字符串的长度是否小于预定n元长度,以及
(i)响应于确定所述第一数据字符串的所述长度或所述第二数据字符串的所述长度小于所述预定n元长度,基于所述第一数据字符串和所述第二数据字符串中相同索引处的匹配字符对的数目相对于字符对的总数目生成相似性得分,或者
(ii)响应于确定所述第一数据字符串的所述长度和所述第二数据字符串的所述长度大于或等于所述预定n元长度,基于n元距离评分模型生成所述相似性得分以将所述第一数据字符串与所述第二数据字符串进行比较;以及
其中所述监测系统被编程和/或配置成响应于所述相似性得分超过预定阈值而触发所述第一交易请求和/或所述第二交易请求的补救过程。
9.根据权利要求8所述的系统,其中所述监测系统是合规系统,并且其中由所述合规系统执行的所述补救过程包括使用合规系统服务器修改所述第一交易请求和/或所述第二交易请求,使得所述第一数据字符串和所述第二数据字符串是相同的数据字符串。
10.根据权利要求9所述的系统,其中所述合规系统被编程和/或配置成在执行所述补救过程之后更新用户的白名单,并且其中所述交易处理服务器还被编程和/或配置成授权所述白名单上的用户的未来交易请求。
11.根据权利要求8所述的系统,其中所述监测系统是欺诈系统,并且其中由所述欺诈系统执行的所述补救过程包括将所述第一交易请求和/或所述第二交易请求标识为欺诈性的并且阻止对所述第一交易请求和/或所述第二交易请求的授权。
12.根据权利要求11所述的系统,其中所述欺诈系统被编程和/或配置成在执行所述补救过程之后更新用户的黑名单,并且其中所述交易处理服务器还被编程和/或配置成拒绝对所述黑名单上的用户的未来交易请求的授权。
13.根据权利要求8所述的系统,其中所述第一数据字符串包括第一组字符序列并且所述第二数据字符串包括第二组字符序列,并且其中所述交易处理服务器还被编程和/或配置成:
生成所述第一组字符序列与所述第二组字符序列进行比较的组合相似性得分,所述组合相似性得分基于:
加权概率得分,其包括多个概率得分的总和除以所述第一组字符序列中的字符序列的数目,其中所述多个概率得分中的每一个表示所述第一组字符序列中的字符序列存在于所述第二组字符序列中的概率;以及
惩罚值,其是针对所述第一组字符序列中不存在的所述第二组字符序列中的每个字符序列而评估的;
其中所述多个概率得分中的每个概率得分基于n元距离模型。
14.根据权利要求13所述的系统,其中所述监测系统还被编程和/或配置成响应于所述组合相似性得分超过预定阈值而触发所述第一交易请求和/或所述第二交易请求的所述补救过程。
15.一种计算机程序产品,其包括包括程序指令的至少一个非瞬态计算机可读介质,所述程序指令在由至少一个处理器执行时使所述至少一个处理器:
接收由交易处理服务器处理的第一交易请求中的第一数据字符串和第二交易请求中的第二数据字符串;
确定所述第一数据字符串的前导字符对与所述第二数据字符串的前导字符对不匹配;
响应于确定所述第一数据字符串的所述前导字符对与所述第二数据字符串的所述前导字符对不匹配,在所述第一数据字符串中的第一索引位置处和所述第二数据字符串中的第一索引位置处插入占位符字符,其中在所述第一数据字符串或所述第二数据字符串中的其它位置不存在占位符字符;
确定所述第一数据字符串的至少一个字符对,其中所述至少一个字符对的第一字符与所述第二数据字符串中在与所述第一字符相同的索引位置的字符匹配,并且其中所述至少一个字符对的第二字符与所述第二数据字符串中在紧跟所述第二字符的相同索引位置之后的索引位置的字符匹配;
在所述至少一个字符对中的每个字符对之间插入占位符字符;
确定所述第一数据字符串的长度或所述第二数据字符串的长度是否小于预定n元长度,以及
(i)响应于确定所述第一数据字符串的所述长度或所述第二数据字符串的所述长度小于所述预定n元长度,基于所述第一数据字符串和所述第二数据字符串中相同索引处的匹配字符对的数目相对于字符对的总数目生成相似性得分,或者
(ii)响应于确定所述第一数据字符串的所述长度和所述第二数据字符串的所述长度大于或等于所述预定n元长度,基于n元距离评分模型生成所述相似性得分以将所述第一数据字符串与所述第二数据字符串进行比较;以及
响应于所述相似性得分超过预定阈值而针对所述第一交易请求和/或所述第二交易请求触发与所述交易处理服务器通信的监测系统的补救过程。
16.根据权利要求15所述的计算机程序产品,其中所述监测系统是合规系统,并且其中由所述合规系统执行的所述补救过程包括使用合规系统服务器修改所述第一交易请求和/或所述第二交易请求,使得所述第一数据字符串和所述第二数据字符串是相同的数据字符串。
17.根据权利要求16所述的计算机程序产品,其中所述程序指令还使得所述至少一个处理器触发所述合规系统在执行所述补救过程之后更新用户的白名单,其中所述交易处理服务器被配置成授权所述白名单上的用户的未来交易请求。
18.根据权利要求15所述的计算机程序产品,其中所述监测系统是欺诈系统,并且其中由所述欺诈系统执行的所述补救过程包括将所述第一交易请求和/或所述第二交易请求标识为欺诈性的并且阻止对所述第一交易请求和/或所述第二交易请求的授权。
19.根据权利要求18所述的计算机程序产品,其中所述程序指令还使得所述至少一个处理器触发所述欺诈系统在执行所述补救过程之后更新用户的黑名单,其中所述交易处理服务器被配置成拒绝对所述黑名单上的用户的未来交易请求的授权。
20.根据权利要求15所述的计算机程序产品,其中所述第一数据字符串包括第一组字符序列并且所述第二数据字符串包括第二组字符序列,并且其中所述程序指令还使得所述至少一个处理器:
生成所述第一组字符序列与所述第二组字符序列进行比较的组合相似性得分,所述组合相似性得分基于:
加权概率得分,其包括多个概率得分的总和除以所述第一组字符序列中的字符序列的数目,其中所述多个概率得分中的每一个表示所述第一组字符序列中的字符序列存在于所述第二组字符序列中的概率;以及
惩罚值,其是针对所述第一组字符序列中不存在的所述第二组字符序列中的每个字符序列而评估的;以及
响应于所述组合相似性得分超过预定阈值而触发所述监测系统以执行所述第一交易请求和/或所述第二交易请求的所述补救过程,
其中所述多个概率得分中的每个概率得分基于n元距离模型。
CN202080016597.2A 2019-05-03 2020-05-04 用于生成增强型n元模型的系统、方法和计算机程序产品 Pending CN113661486A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962842569P 2019-05-03 2019-05-03
US62/842,569 2019-05-03
PCT/US2020/031319 WO2020227211A1 (en) 2019-05-03 2020-05-04 System, method, and computer program product for generating enhanced n-gram models

Publications (1)

Publication Number Publication Date
CN113661486A true CN113661486A (zh) 2021-11-16

Family

ID=73051163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080016597.2A Pending CN113661486A (zh) 2019-05-03 2020-05-04 用于生成增强型n元模型的系统、方法和计算机程序产品

Country Status (4)

Country Link
US (1) US20220164796A1 (zh)
CN (1) CN113661486A (zh)
SG (1) SG11202109100TA (zh)
WO (1) WO2020227211A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230214822A1 (en) * 2022-01-05 2023-07-06 Mastercard International Incorporated Computer-implemented methods and systems for authentic user-merchant association and services
WO2024091234A1 (en) * 2022-10-26 2024-05-02 Visa International Service Association System and method for performing a fast limited character search

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2618538B1 (en) * 2003-11-12 2018-09-05 The Trustees Of Columbia University In The City Of New York Apparatus, Method and Medium for Detecting Payload Anomaly using N-Gram Distribution of Normal Data
US7996369B2 (en) * 2008-11-14 2011-08-09 The Regents Of The University Of California Method and apparatus for improving performance of approximate string queries using variable length high-quality grams
US8674856B2 (en) * 2012-08-16 2014-03-18 International Business Machines Corporation Data compression utilizing longest common subsequence template
US11194865B2 (en) * 2017-04-21 2021-12-07 Visa International Service Association Hybrid approach to approximate string matching using machine learning

Also Published As

Publication number Publication date
US20220164796A1 (en) 2022-05-26
WO2020227211A1 (en) 2020-11-12
SG11202109100TA (en) 2021-09-29

Similar Documents

Publication Publication Date Title
US10200397B2 (en) Robust matching for identity screening
US10817966B2 (en) Expanded data processing for entity matching
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
WO2019153605A1 (zh) 文本中敏感信息的鉴定方法、电子装置及可读存储介质
US8321393B2 (en) Parsing information in data records and in different languages
JP5744228B2 (ja) インターネットにおける有害情報の遮断方法と装置
US8401314B2 (en) Systems and methods for character correction in communication devices
KR101627592B1 (ko) 비밀 정보의 검출
US8176419B2 (en) Self learning contextual spell corrector
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
US20140052688A1 (en) System and Method for Matching Data Using Probabilistic Modeling Techniques
CN111626048A (zh) 文本纠错方法、装置、设备及存储介质
EP3972192B1 (en) Method and system for layered detection of phishing websites
US11914626B2 (en) Machine learning approach to cross-language translation and search
CN113661486A (zh) 用于生成增强型n元模型的系统、方法和计算机程序产品
CN116415564B (zh) 基于知识图谱的功能点扩增方法和系统
CN105243053B (zh) 提取文档关键句的方法及装置
CN111325033A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN114580402A (zh) 一种面向企业的产品信息获取方法、装置、服务器和存储介质
CN116383412B (zh) 基于知识图谱的功能点扩增方法和系统
Kaili et al. A simple but effective classification model for grammatical error correction
JP2023507881A (ja) ドメインベースのテキスト抽出方法およびシステム
US20220122708A1 (en) Identification assistance system, identification assistance client, identification assistance server, and identification assistance method
US20240126924A1 (en) Entity focused natural language generation
CN103793378B (zh) 一种翻译方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination