CN107526967A - 一种风险地址识别方法、装置以及电子设备 - Google Patents

一种风险地址识别方法、装置以及电子设备 Download PDF

Info

Publication number
CN107526967A
CN107526967A CN201710543805.4A CN201710543805A CN107526967A CN 107526967 A CN107526967 A CN 107526967A CN 201710543805 A CN201710543805 A CN 201710543805A CN 107526967 A CN107526967 A CN 107526967A
Authority
CN
China
Prior art keywords
address
word
risk
sequence
address word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710543805.4A
Other languages
English (en)
Other versions
CN107526967B (zh
Inventor
孙清清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710543805.4A priority Critical patent/CN107526967B/zh
Publication of CN107526967A publication Critical patent/CN107526967A/zh
Priority to TW107116561A priority patent/TWI682302B/zh
Priority to PCT/CN2018/093791 priority patent/WO2019007288A1/zh
Priority to JP2019542684A priority patent/JP6894058B2/ja
Priority to SG11201907079QA priority patent/SG11201907079QA/en
Priority to KR1020197023966A priority patent/KR102244417B1/ko
Priority to EP18827964.0A priority patent/EP3637295B1/en
Priority to PH12019501823A priority patent/PH12019501823A1/en
Priority to US16/592,895 priority patent/US10762296B2/en
Priority to US16/775,913 priority patent/US10699076B2/en
Application granted granted Critical
Publication of CN107526967B publication Critical patent/CN107526967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Abstract

本说明书实施例公开了一种风险地址识别方法、装置以及电子设备。风险地址识别方法包括:根据输入地址获得对应的地址词序列后,根据地址词序列中命中地址词及其前后语义,利用隐马尔科夫模型和支持向量机模型对该输入地址进行风险识别。

Description

一种风险地址识别方法、装置以及电子设备
技术领域
本说明书涉及计算机技术领域,尤其涉及一种风险地址识别方法、装置以及电子设备。
背景技术
网络金融交易越来越发达,有一些不法人员利用网络金融进行金钱的非法操作,比如,洗钱等交易。为了防止网络金融非法交易的发生,目前已经有一些进行风险地址识别的方案,一般是针对比较规则的风险地址识别的方案。
例如,可以采用分词算法对输入地址进行分词并标注,最后根据不同地址词的标注信息逐一进行地址词匹配,通过匹配结果识别该输入地址是否为风险地址。
基于现有技术,需要更准确的风险地址识别方案。
发明内容
本说明书实施例提供一种风险地址识别方法、装置以及电子设备,用以解决如下技术问题:需要更准确的风险地址识别方案。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种风险地址识别方法,所述的方法包括:
获取输入地址对应的地址词序列;
在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词;
根据所述确定的地址词,生成所述地址词序列对应的观察序列;
利用基于地址词前后语义学习得到的隐马尔科夫模型,对所述观察序列进行处理,得到决策向量,所述决策向量表示所述地址词序列包含的各地址词命中所述风险地址的概率;
通过对所述决策向量进行分类判决,识别所述输入地址是否为风险地址。
本说明书实施例提供的一种风险地址识别装置,所述的装置包括:
接收模块,获取输入地址对应的地址词序列;
匹配模块,在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词;
生成模块,根据所述确定的地址词,生成所述地址词序列对应的观察序列;
标注模块,利用基于地址词前后语义学习得到的隐马尔科夫模型,对所述观察序列进行处理,得到决策向量,所述决策向量表示所述地址词序列包含的各地址词命中所述风险地址的概率;
识别模块,通过对所述决策向量进行分类判决,识别所述输入地址是否为风险地址。
本说明书实施例提供的一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
为获取输入地址对应的地址词序列;
在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词;
根据所述确定的地址词,生成所述地址词序列对应的观察序列;
利用基于地址词前后语义学习得到的隐马尔科夫模型,对所述观察序列进行处理,得到决策向量,所述决策向量表示所述地址词序列包含的各地址词命中所述风险地址的概率;
通过对所述决策向量进行分类判决,识别所述输入地址是否为风险地址。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:通过利用基于地址词前后语义学习得到的隐马尔科夫模型和支持向量机模型,根据对输入地址处理后得到的地址词及其前后语义,获得输入地址的分类判定结果,能够更准确地识别风险地址。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意图;
图2为本说明书实施例提供的一种风险地址识别方法的流程示意图;
图3为本说明书实施例提供的一种隐马尔科夫模型建模方法的流程示意图;
图4为本说明书实施例提供的一种支持向量机模型建模方法的流程示意图;
图5为本说明书实施例提供的一种风险地址识别装置的结构示意图;
图6为本说明书实施例提供的一种风险地址识别为地址无风险的流程示意图;
图7为本说明书实施例提供的一种风险地址识别为地址有风险的流程示意图;
图8为本说明书实施例提供的风险地址识别的建模和识别的流程示意图。
具体实施方式
本说明书实施例提供一种风险地址识别方法、装置以及电子设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意图。该整体架构中,首先输入地址,通过包含有隐马尔科夫模型(Hidden Markov Model,HMM)的设备进行处理得到该输入地址对应的决策向量,然后,通过包含有支持向量机(Support VectorMachine,SVM)的设备对该决策向量进一步处理,最后,确定该输入地址是否为风险地址。
基于上述整体架构,下面对本说明书的方案进行详细说明。
本说明书实施例提供了一种风险地址识别方法,图2为该风险地址识别方法的流程示意图,图2中的流程可以包括以下步骤:
S102:获取输入地址对应的地址词序列。
所述地址词序列可以是通过对输入地址进行处理后得到的。
例如,若输入地址中包含的干扰字符比较多,可以先对输入地址进行干扰字符的去除操作,再进一步地得到地址词序列。若在输入地址自带例如空格等词分隔符的情况下,或者后续步骤中风险地址识别对干扰字符排除的处理能力比较好的情况下,地址词序列也可以是输入地址本身。
S104:在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词。
所述各风险地址可以理解为由多个风险地址构成的风险地址库。
风险词可以理解为风险地址中包括的存在风险的地址词。风险地址中可以包含一个或者多个风险词,这些风险词可能按照一定规则顺序组成,也可能相对独立。
确定命中的方式比如可以包括:根据地址词序列中各地址词,分别与风险地址中各地址词进行扫描并匹配,确定命中的地址词(为了便于描述,以下可以将这种地址词称为:命中地址词)。
例如,如果某个地址词序列包含多个地址词,其中,该地址序列中的地址词A与风险地址中包含的风险词a匹配命中。可以将该地址词序列表示为1个多维向量,向量每一维分别对应该地址词序列中的一个地址词;进而,可以通过扫描的方式,确定该地址词A在该向量中对应的维,并将该维用1进行标注,以确定该地址词A命中;对于没有命中其他地址词,则用0对对应的维进行标注。
S106:根据所述确定的地址词,生成所述地址词序列对应的观察序列。
生成所述地址词序列对应的观察序列的包括多种方式:可以根据所述确定的地址词及其前后语义,从地址词序列中获得所需的各地址词,根据确定的地址词与获得的地址词生成观察序列,其中,提取的地址词可以是连续的地址词,也可以是符合某种规则的不连续地址词;
生成地址词序列对应的观察序列的方式,也可以首先对地址词序列进行拆分,得到多个地址词子序列,然后,再根据所需的地址词子序列生成观察序列。
S108:利用基于地址词前后语义学习得到的隐马尔科夫模型,对所述观察序列进行处理,得到决策向量,所述决策向量表示所述地址词序列包含的各地址词命中所述风险地址的概率。
前后语义可以是:与当前地址词前后关联的地址词与该当前地址词的关联语义,关联的地址词的数量可以是两个或三个;其中,关联的地址词可以是该当前地址词相邻的地址词,也可以是与该当前地址词之间存在间隔词的地址词。
具体地,上述当前地址词可以是步骤S106中所述确定的地址词。所述地址词前后语义可以是:所述确定的地址词的前后相邻的地址词作为前后语义,例如,中国北京市朝阳区,其中,北京市的前后语义包含中国和朝阳区;也可以是将地址词序列中不相邻的地址词作为所述确定的地址词的前后语义。
进一步地,为了简化处理步骤,观察序列也可以是地址词序列或输入地址本身,在这种情况下,可以直接根据地址词序列或输入地址中命中地址词的标注结果,基于命中地址词及其前后语义标注命中风险地址的概率。
S110:通过对所述决策向量进行分类判决,识别所述输入地址是否为风险地址。
所述分类判决可以是对决策向量进行二分类判决,比如,可以一类是对应于风险地址的决策向量、另一类是对应于非风险地址的决策向量,进一步地,可以确定该决策向量对应的输入地址是否为风险地址。
在本说明书实施例中,对于步骤S102,所述获取输入地址对应的地址词序列,具体可以包括:
接收输入地址;通过对所述输入地址进行数据清洗处理和分词处理,得到所述输入地址对应的地址词序列。
所述数据清洗处理方式可以包括:去除所述输入地址中的干扰字符,得到标准化地址字符串;或者对输入地址中各地址词的排列顺序进行调整。
所述分词处理方式可以包括:利用空格或分号等特定字符切分所述标准化地址字符串,得到所述输入地址对应的地址词序列。
前面已经提到,若输入地址中包含的干扰字符比较多,可以先对输入地址进行干扰字符的去除操作,再进一步地得到地址词序列。
例如,首先,对输入地址中存在一些干扰字符进行数据清洗,去除干扰字符,所述干扰字符比如可以包括以下至少一个:多余的空格、半角字符、“|”、“:”、“~”等字符,经过清洗后的输入地址比如可以是以空格进行分隔的标准化地址字符串;然后,分词标注:对清洗后地址字符串以空格进行切分,采用基于词典方式标注地址字符串中出现的辅助词,如:of,the等,这些辅助词往往可以不应用于后续地址匹配识别中;最后,经过分词标注后得到由地址词构成的地址词序列。通过对输入地址进行清洗和分词处理后,得到地址词序列,以便于后续对该地址词序列进行快速、高效、准确的风险地址词的识别等操作。
前面已经提到,若输入地址自带例如空格等词分隔符的情况下,或者后续步骤中风险地址识别对干扰字符排除的处理能力比较好的情况下,地址词序列也可以是输入地址本身,如此可以节省对输入地址的处理步骤。
在本说明书实施例中,对于步骤S104,所述在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词,具体可以包括:
利用各风险地址对应的风险词,对所述地址词序列中的各地址词分别进行匹配;
若存在匹配成功的地址词,对其进行标注,并确定为命中各风险地址对应的风险词的地址词。
所述标注可以是:通过数字或字符对地址词序列中各地址词的匹配结果分别对应标注,包括该地址词序列中匹配后表示命中结果的标注和表示未命中结果的标注,由这些表示标注结果的数字或字符共同组成标注向量。
例如,对地址词序列或该地址词序列对应的观察序列中的各地址词进行全局扫描、匹配和标注,如果某一个地址词序列中的第二个地址词A与风险地址对应的地址词集合中的地址词a匹配,则标记该地址词A为1,否则标记该地址词A为0,进一步地,得到标注向量,也可以称为初始标注向量,比如,[0,0,1,0,0,0]。
对地址词序列中的各地址词分别进行匹配,具体匹配方式可以包括:对地址词序列进行风险地址(风险地址信息包括国家、地区,以及主要的城市)进行全局的扫描和匹配;其中,采用的匹配算法比如可以包括:字符串相似度匹配算法、发音相似匹配算法和编辑距离匹配算法等。
进一步地,所述在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词,还包括:
若不存在匹配成功的地址词,确定所述输入地址不为风险地址。
如果在某个地址词序列中各地址词与风险地址中的风险词不匹配,那么,可以认为该地址词序列不包含风险词,对应的所述输入地址不是风险地址的概率较大,则可以结束对该输入地址的进一步的操作。
在本说明书实施例中,对于步骤S106,所述根据所述确定的地址词,生成所述地址词序列对应的观察序列,具体可以包括:
分别针对所述确定的地址词,执行:根据该地址词以及该地址词在所述地址词序列中的关联词,生成所述地址词序列对应的观察序列,其中,所述关联词反映该地址词在所述地址词序列中的前后语义。
如果地址词序列中包含多个所述确定的地址词,可以生成对应的多个观察序列,也可以通过选择生成其中一个所述确定的地址词对应的观察序列。关联词可以理解为前后词语之间存在某种的逻辑关系或特定的关联关系的词语,也可以是人为定义使前后词语产生关联关系的词语。一般地,关联词是相邻的,比如可以是与当前词相邻的前两个以及后两个词。
在本说明书实施例中,可以预先利用基于地址词前后语义学习得到隐马尔科夫模型。
本说明书实施例提供了一种隐马尔科夫模型建模方法,图3为该建模方法的流程示意图,图3中的流程可以包括以下步骤:
S202:根据预定义的训练样本,提取初始参数,并根据所述初始参数建立包含隐马尔科夫模型参数的初始模型,其中,所述训练样本为风险地址或者非风险地址;
S204:根据所述训练样本中包含的地址词以及所述地址词的前后语义,生成所述训练样本对应的观察序列;
S206:根据所述初始模型,以及所述训练样本对应的观察序列,对所述隐马尔科夫模型参数进行训练,得到隐马尔科夫模型。
训练样本包括正样本和负样本,风险地址可以属于正样本,非风险地址可以属于负样本,通过利用正负样本对隐马尔科夫模型进行训练,可以获得更好的训练效果。
例如,在一种实施方式下,负样本可以是以全球非制裁国家或地区的235个国家的地址,正样本可以是以所有制裁国家以及地区的地址数据。需要说明的是,一般地,风险地址中包含有风险词,当然,非风险地址中也可能包含风险词。
步骤S204中的地址词可以理解为是训练样本中的与风险地址对应的风险词匹配的地址词。在预定义的样本地址中,已经预先标注了该样本地址是否包含风险词,以及哪个地址词是风险词,这里所述样本地址是训练样本中包含的训练样本地址。
进一步地,根据样本地址中已经标注的地址词及其前后语义,提取所需的观察序列,一般地,选取该标注的地址词的前后关联的2个或3个词作为该地址词的前后语义,共同组成观察序列。
进一步地,根据获得的初始标注模型和观察序列,对隐马尔科夫模型参数进行训练,直到得到合适的隐马尔科夫模型参数,再根据训练得到的隐马尔科夫模型参数,确定所需的隐马尔科夫模型。
在图3的隐马尔科夫模型建模方法中,训练样本地址的数量规模将直接影响训练结果的好坏。当训练样本地址所用的地址库更全面、覆盖面更广泛时,有利于使该模型时的识别的准确率提高,因此,在拥有足够多的训练样本地址的情况下,该方法可以取得很好的建模效果。
其中,所述初始参数包括:初始概率向量πt、状态转移矩阵aij等;
所述根据预定义的训练样本,提取初始参数,具体可以包括:
基于所述训练样本,通过对所述训练样本包含的地址词分别进行概率标注,得到初始概率向量;根据所述训练样本包含的所述地址词在风险词与非风险词之间状态转移概率,获得所述样本地址的状态转移矩阵。其中,风险词是风险地址中包含的地址词,非风险词是非风险地址中包含的地址词,有一些地址词既可以是风险词,也可以是非风险词。
所述训练样本可以有多个,一般地,每个训练样本可以是一个样本地址,进行概率标注时,从该集合当中选取一个样本地址作为训练样本;例如,对某个样本地址中的地址词进行概率标注后,该样本地址中的第二个地址词为命中地址词,得到初始概率向量πt=[0,1,0,0,0,0],其中,1代表命中的地址词,0代表没有命中的地址词。
进一步地,根据所述训练样本包含的所述地址词在风险词与非风险词之间状态转移概率,获得所述样本地址的状态转移矩阵。在本说明书一个或多个实施例中,状态转移概率是指地址词由风险地址与非风险地址的两个隐状态之间可能发生状态转移的概率。
在本说明书实施例中,所述根据所述初始模型,以及所述训练样本对应的观察序列,对所述隐马尔科夫模型参数进行训练,得到隐马尔科夫模型,具体可以包括:
根据所述初始模型,以及所述训练样本对应的观察序列,利用Baum-Welch算法对所述隐马尔科夫模型参数进行训练,得到隐马尔科夫模型。
此外,还可以获取其他用于训练隐马尔科夫模型参数的其他数据,例如,O=o1o2…oh…on-1on,序列O是包含命中风险国家/地区词的地址词序列,oh是待标注地址词。一般地,可以取n=10;根据待标注oh的前后3个词的上下文得到观察序列;S=s1s2…sh…sn-1sn地址词序列O对应的标记向量,即表示地址词序列中各地址词命中风险地址的概率,再由各地址词命中概率组成该标记向量,该标记向量可以理解为所述初始标注向量;
P(oh,sh|λ)表示地址词序列oh和其命中标记sh正确的概率,用于选取所需的隐马尔科夫模型参数λ;
然后,根据上述参数训练所述隐马尔科夫模型参数λ,获得隐马尔科夫模型。
进一步地,定义模型目标函数为:argmaxP(oh,sh|λ),以便于获取所需的决策向量;
在本说明书实施例中,对于步骤S108,所述利用基于地址词前后语义学习得到的隐马尔科夫模型,对所述观察序列进行处理,得到决策向量,具体可以包括:
利用基于地址词前后语义学习得到的隐马尔科夫模型和Viterbi算法,对所述观察序列进行处理,得到决策向量;
所述决策向量表示所述地址词序列包含的各地址词命中所述风险地址的概率。此外,决策向量还可以表示所述地址词序列对应的观察序列中包含的各地址词命中所述风险地址的概率,对于观察序列中未包含的地址词,可以直接标注为0。
例如,一个地址词序列[A,B,C,D,E,F],其对应的观察序列[B,C,D],则得到的决策向量可能表示为[0,0.5,1,0.3,0,0]。
在本说明书实施例中,对于步骤S110,所述对所述决策向量进行分类判决,具体可以包括:
利用训练得到的SVM模型,对所述决策向量进行分类判决。
一般地,通过隐马尔科夫模型计算得到的决策向量,然后对该决策向量进行二分类判决或更多分类的判决;以下主要以采用二分类判决为例进行说明。
在本说明书实施例中,提供一种支持向量机模型建模方法,图4为该支持向量机模型建模的方法的流程示意图,图4中的流程可以包括以下步骤:
S302:获取支持向量机的训练样本。
S304:将所述支持向量机的训练样本映射到高维特征空间,得到所述支持向量机的训练样本对应的样本特征空间。
S306:从所述样本特征空间中获取代表所述样本特征的参数,根据所述样本特征的参数建立用于判断所述样本特征的类别的判别函数。
S308:基于所述支持向量机的训练样本训练判别函数中对应的SVM模型参数,得到SVM模型。
该支持向量机的训练样本可以是通过上述隐马尔科夫模型对样本地址进行训练得到该训练样本对应的决策向量,也可以是其他表征输入地址特征的待判别的数据。
具体地,SVM可以通过选择多次方的多项式核函数,将决策向量地址映射到高维特征空间,表达式如下:
κ(x,xi)=((x·xi)+1)d
利用SVM在样本地址的高维特征空间中找出各类别样本特征与其他特征的最优分类超平面,得到代表各样本特征的支持向量集及其相应的VC可信度,形成判断各特征类别的判别函数:
基于大量地址数据,比如全球地址库数据训练得到SVM模型参数αi,实现对支持向量机模型的进一步的优化。
通过基于语义识别的地址匹配的学习,根据各地址词及其前后语义的匹配结果,获得风险地址的分类判定结果,可以有效的识别风险地址或伪造的风险地址,可以避免错误的判定无风险的地址。
基于同样的思路,本说明书实施例还提供了一种风险地址识别装置,图5为本说明书实施例提供的对应于图2的一种风险地址识别装置的结构示意图,如图5所示结构,具体可以包括:
接收模块101,获取输入地址对应的地址词序列;
匹配模块102,在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词;
生成模块103,根据所述确定的地址词,生成所述地址词序列对应的观察序列;
标注模块104,利用基于地址词前后语义学习得到的隐马尔科夫模型,对所述观察序列进行处理,得到决策向量,所述决策向量表示所述地址词序列包含的各地址词命中所述风险地址的概率;
识别模块105,通过对所述决策向量进行分类判决,识别所述输入地址是否为风险地址。
通过利用基于地址词前后语义学习得到的隐马尔科夫模型和支持向量机模型,根据对输入地址处理后得到的地址词及其前后语义,获得输入地址的分类判定结果,可以有效的识别风险地址或伪造的风险地址,可以避免错误的判定无风险的地址,因此,可以部分或全部地解决现有技术中的问题。
进一步地,所述接收模块101,获取输入地址对应的地址词序列,具体可以包括:
所述接收模块101,接收输入地址;以及,通过对所述输入地址进行数据清洗处理和分词处理,得到所述输入地址对应的地址词序列。通过对输入地址的进一步清洗处理和分词处理,得到标准化的地址词序列,以便于后续步骤中对地址词序列的标注操作,可以提升对地址词序列中确定的地址词进行概率标注的工作效率。
进一步地,所述匹配模块102,所在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词,具体可以包括:
匹配模块120利用各风险地址对应的风险词,对所述地址词序列中的各地址词分别进行匹配;
若存在匹配成功的所述地址词,对其进行标注,并确定为命中各风险地址对应的风险词的地址词。
进一步地,所述匹配模块102,在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词,还包括:
若不存在匹配成功的地址词,确定所述输入地址不为风险地址。
通过该匹配模块102对地址词进行标注,可以对风险的输入地址和无风险的输入地址进行快速前置过滤,可以提升风险地址识别的工作效率。
进一步地,所述生成模块103,根据所述确定的地址词,生成所述地址词序列对应的观察序列,具体可以包括:
分别针对所述确定的地址词,执行:根据该地址词以及该地址词在所述地址词序列中的关联词,生成所述地址词序列对应的观察序列,其中,所述关联词反映该地址词在所述地址词序列中的前后语义。其中,前后语义是指与命中地址词前后关联的多个地址词,关联的地址词的数量可以是两个或三个;其中,关联的地址词可以是连续关联的地址词,也可以是间隔关联的地址词。
进一步地,基于地址词前后语义学习得到的隐马尔科夫模型包括:
根据预定义的训练样本,提取初始参数,并根据所述初始参数建立包含隐马尔科夫模型参数的初始模型,其中,所述训练样本为风险地址或者非风险地址;
根据所述训练样本中包含的地址词以及所述地址词的前后语义,生成所述训练样本对应的观察序列;
根据所述初始模型,以及所述训练样本对应的观察序列,对所述隐马尔科夫模型参数进行训练,得到隐马尔科夫模型。
该隐马尔科夫模型,采用由命中的风险词和该风险词的前后语义组成的观察序列对隐马尔科夫模型参数进行训练,得到所需的隐马尔科夫模型(HMM),可以提升隐马尔科夫模型对输入地址风险识别的准确效果。
进一步地,所述初始参数包括:初始概率向量、状态转移矩阵;
所述根据预定义的训练样本,提取初始参数,具体可以包括:
基于多个所述训练样本,通过分别对所述训练样本包含的地址词进行概率标注,得到初始概率向量;根据所述训练样本包含的所述地址词在风险词与非风险词之间状态转移概率,获得所述样本地址的状态转移矩阵。其中,风险词是风险地址中包含的地址词,非风险词是非风险地址中包含的地址词,有一些地址词既可以是风险词,也可以是非风险词。
进一步地,所述根据所述初始模型,以及所述训练样本对应的观察序列,对所述隐马尔科夫模型参数进行训练,得到隐马尔科夫模型,具体可以包括:
根据所述初始模型,以及所述训练样本对应的观察序列,利用Baum-Welch算法对所述隐马尔科夫模型参数进行训练,得到隐马尔科夫模型。
需要说明的是,在本隐马尔科夫模型建模时,训练样本地址的数量规模将直接影响训练结果的好坏。当训练样本地址所用的全球地址库更全面、覆盖面更广泛时,使用该模型时的识别率将大大的提高,因此在拥有足够多的训练样本地址的情况下,可以取得很好的建模效果
进一步地,所述标注模块104,利用基于地址词前后语义学习得到的隐马尔科夫模型,对所述观察序列进行处理,得到决策向量,具体可以包括:
利用基于地址词前后语义学习得到的隐马尔科夫模型和Viterbi算法,对所述观察序列进行处理,得到决策向量。所述决策向量表示所述地址词序列包含的各地址词命中所述风险地址的概率。
进一步地,所述识别模块105,对所述决策向量进行分类判决,具体可以包括:
利用训练得到的支持向量机(SVM)模型,对所述决策向量进行分类判决。
进一步地,训练得到的支持向量机模型包括:
获取支持向量机的训练样本;
将所述支持向量机的训练样本映射到高维特征空间,得到所述支持向量机的训练样本对应的样本特征空间;
从所述样本特征空间中获取代表所述样本特征的参数,根据所述样本特征的参数建立用于判断所述样本特征的类别的判别函数;
基于所述SVM的训练样本训练判别函数中对应的SVM模型参数,得到SVM模型。
该训练样本可以理解为上述实施例中的所述决策向量,也可以是其他表征输入地址特征的待判别的数据。
一般地,通过隐马尔科夫模型计算得到的决策向量,需要利用SVM将决策向量映射到高维特征空间后进行二分类判决。当然,如果一些易处理的决策向量,可以不映射到高维特征空间就能进行分类判决,例如,可以采用线性分类判决,可以降低计算难度,提升处理速度。
基于同样的思路,本说明书实施例还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
为获取输入地址对应的地址词序列;
在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词;
根据所述确定的地址词,生成所述地址词序列对应的观察序列;
利用基于地址词前后语义学习得到的隐马尔科夫模型,对所述观察序列进行处理,得到决策向量,所述决策向量表示所述地址词序列包含的各地址词命中所述风险地址的概率;
通过对所述决策向量进行分类判决,识别所述输入地址是否为风险地址。
为了更好的说明本说明书一个或多个实施例的发明构思,下面具体列举两个实施例:
图6为本说明书实施例提供的一种风险地址识别为无风险地址的流程示意图,具体可以包括:
首先,输入地址为文本为:REPUBLICA DE SIRIA 7495 SANTA FE Santa Fe AR;
然后,全局扫描标注输入地址命中制裁地址(国家或城市)词:SIRIA,并得到输入地址的初始标注向量[0,0,1,0,0,0,0,0,0];这里所述初始标注向量可以理解为所述初始概率向量;
进一步地,经过隐马尔科夫标注模型得到决策向量为[0.01,0.02,0.02,0.02,0.01,0,0,0,0];
最后由SVM分类模型判决为:输入地址未命中制裁地址;这里所述制裁地址可以理解为所述风险地址。
图7为本说明书实施例提供的一种风险地址识别为风险地址的流程示意图,具体可以包括:
首先,输入地址为文本为:Rostovskaya,31a,Simferopol 5Other RU;
然后,全局扫描标注输入地址命中制裁地址(国家或城市)词:Simferopol,并得到输入地址的初始标注向量[0,0,1,0,0,0];
进一步地,经过隐马尔科夫标注模型得到决策向量为[0.9,0.9,0.9,0.9,0.5,0.1];
最后,由SVM分类模型判决为:输入地址命中制裁地址;
这里所述制裁地址可以理解为上述的风险地址。
图8为本说明书实施例提供的风险地址识别的建模和识别的流程示意图,具体可以包括:
在进行风险地址识别模型的建模时,进行参数训练,首先,获取训练地址语料,可以理解为所述样本地址;
然后,对训练地址语料进行清洗和分隔为标准化的地址字符串,可以理解为所述地址词序列;
再对输入的训练地址语料进行全局是扫描、匹配、标注,初始标注模型和初始参数。
进一步地,根据初始标注模型,对隐马尔科夫模型参数进行训练,得到所需的隐马尔科夫模型。更进一步地,根据通过隐马尔科夫模型输出的决策向量,对SVM的参数进行训练,最终得到所需的SVM模型。
在进行风险地址扫描识别时,首先,由用户输入地址;然后,对输入地址进行标准化处理和全局的风险地址扫描、标注,得到标注后的地址词序列,进一步地,基于风险词及其前后语义得到观察序列。
再进一步地,通过隐马尔科夫模型对所述地址词序列(观察序列)进行风险概率计算和标注,生成决策向量。
最后,SVM根据决策向量进行二分类判决,确定该输入地址是否为风险地址。
通过基于风险地址词及其前后语义,对该输入地址利用隐马尔科夫模型和支持向量机进行判断和识别,可以有效的提高识别的准确效果。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书实施例提供的装置、电子设备、非易失性计算机存储介质与方法是对应的,因此,装置、电子设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置、电子设备、非易失性计算机存储介质的有益技术效果。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书实施例可提供为方法、系统、或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (23)

1.一种风险地址识别方法,所述的方法包括:
获取输入地址对应的地址词序列;
在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词;
根据所述确定的地址词,生成所述地址词序列对应的观察序列;
利用基于地址词前后语义学习得到的隐马尔科夫模型,对所述观察序列进行处理,得到决策向量,所述决策向量表示所述地址词序列包含的各地址词命中所述风险地址的概率;
通过对所述决策向量进行分类判决,识别所述输入地址是否为风险地址。
2.如权利要求1所述的方法,所述获取输入地址对应的地址词序列,具体包括:
接收输入地址;
通过对所述输入地址进行数据清洗处理和分词处理,得到所述输入地址对应的地址词序列。
3.如权利要求1所述的方法,所述在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词,具体包括:
利用各风险地址对应的风险词,对所述地址词序列中的各地址词分别进行匹配;
若存在匹配成功的所述地址词,对其进行标注,并确定为命中各风险地址对应的风险词的地址词。
4.如权利要求3所述的方法,所述在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词,还包括:
若不存在匹配成功的地址词,确定所述输入地址不为风险地址。
5.如权利要求3所述的方法,所述根据所述确定的地址词,生成所述地址词序列对应的观察序列,具体包括:
分别针对所述确定的地址词,执行:根据该地址词以及该地址词在所述地址词序列中的关联词,生成所述地址词序列对应的观察序列,其中,所述关联词反映该地址词在所述地址词序列中的前后语义。
6.如权利要求1所述的方法,基于地址词前后语义学习得到隐马尔科夫模型包括:
根据预定义的训练样本,提取初始参数,并根据所述初始参数建立包含隐马尔科夫模型参数的初始模型,其中,所述训练样本为风险地址或者非风险地址;
根据所述训练样本中包含的地址词以及所述地址词的前后语义,生成所述训练样本对应的观察序列;
根据所述初始模型,以及所述训练样本对应的观察序列,对所述隐马尔科夫模型参数进行训练,得到隐马尔科夫模型。
7.如权利要求6所述的方法,所述初始参数包括:初始概率向量、状态转移矩阵;
所述根据预定义的训练样本,提取初始参数,具体包括:
基于预定义的多个训练样本,通过对所述训练样本包含的地址词分别进行概率标注,得到初始概率向量;
根据所述训练样本包含的所述地址词在风险词与非风险词之间状态转移概率,获得所述样本地址的状态转移矩阵。
8.如权利要求6所述的方法,所述根据所述初始模型,以及所述训练样本对应的观察序列,对所述隐马尔科夫模型参数进行训练,得到隐马尔科夫模型,具体包括:
根据所述初始模型,以及所述训练样本对应的观察序列,利用Baum-Welch算法对所述隐马尔科夫模型参数进行训练,得到隐马尔科夫模型。
9.如权利要求1所述的方法,所述利用基于地址词前后语义学习得到的隐马尔科夫模型,对所述观察序列进行处理,得到决策向量,具体包括:
利用基于地址词前后语义学习得到的隐马尔科夫模型和Viterbi算法,对所述观察序列进行处理,得到决策向量。
10.如权利要求1所述的方法,所述对所述决策向量进行分类判决,具体包括:
利用训练得到的支持向量机SVM模型,对所述决策向量进行分类判决。
11.如权利要求10所述的方法,训练得到支持向量机模型包括:
获取支持向量机的训练样本;
将所述支持向量机的训练样本映射到高维特征空间,得到所述支持向量机的训练样本对应的样本特征空间;
从所述样本特征空间中获取代表所述样本特征的参数,根据所述样本特征的参数建立用于判断所述样本特征的类别的判别函数;
基于所述支持向量机的训练样本训练所述判别函数中对应的SVM模型参数,得到SVM模型。
12.一种风险地址识别装置,所述的装置包括:
接收模块,获取输入地址对应的地址词序列;
匹配模块,在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词;
生成模块,根据所述确定的地址词,生成所述地址词序列对应的观察序列;
标注模块,利用基于地址词前后语义学习得到的隐马尔科夫模型,对所述观察序列进行处理,得到决策向量,所述决策向量表示所述地址词序列包含的各地址词命中所述风险地址的概率;
识别模块,通过对所述决策向量进行分类判决,识别所述输入地址是否为风险地址。
13.如权利要求12所述的装置,所述接收模块,获取输入地址对应的地址词序列,具体包括:
所述接收模块,接收输入地址;以及,
通过对所述输入地址进行数据清洗处理和分词处理,得到所述输入地址对应的地址词序列。
14.如权利要求12所述的装置,所述匹配模块,在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词,具体包括:
利用各风险地址对应的风险词,对所述地址词序列中的各地址词分别进行匹配;
若存在匹配成功的所述地址词,对其进行标注,并确定为命中各风险地址对应的风险词的地址词。
15.如权利要求14所述的装置,所述匹配模块,在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词,还包括:
若不存在匹配成功的地址词,确定所述输入地址不为风险地址。
16.如权利要求14所述的装置,所述生成模块,根据所述确定的地址词,生成所述地址词序列对应的观察序列,具体包括:
分别针对所述确定的地址词,执行:根据该地址词以及该地址词在所述地址词序列中的关联词,生成所述地址词序列对应的观察序列,其中,所述关联词反映该地址词在所述地址词序列中的前后语义。
17.如权利要求12所述的装置,基于地址词前后语义学习得到的隐马尔科夫模型包括:
根据预定义的训练样本,提取初始参数,并根据所述初始参数建立包含隐马尔科夫模型参数的初始模型,其中,所述训练样本为风险地址或者非风险地址;
根据所述训练样本中包含的地址词以及所述地址词的前后语义,生成所述训练样本对应的观察序列;
根据所述初始模型,以及所述训练样本对应的观察序列,对所述隐马尔科夫模型参数进行训练,得到隐马尔科夫模型。
18.如权利要求17所述的装置,所述初始参数包括:初始概率向量、状态转移矩阵;
所述根据预定义的训练样本,提取初始参数,具体包括:
基于预定义的多个所述训练样本,通过分别对所述训练样本包含的地址词进行概率标注,得到初始概率向量;
根据所述训练样本包含的所述地址词在风险词与非风险词之间状态转移概率,获得所述样本地址的状态转移矩阵。
19.如权利要求17所述的装置,所述根据所述初始模型,以及所述训练样本对应的观察序列,对所述隐马尔科夫模型参数进行训练,得到隐马尔科夫模型,具体包括:
根据所述初始模型,以及所述训练样本对应的观察序列,利用Baum-Welch算法对所述隐马尔科夫模型参数进行训练,得到隐马尔科夫模型。
20.如权利要求12所述的装置,所述标注模块,利用基于地址词前后语义学习得到的隐马尔科夫模型,对所述观察序列进行处理,得到决策向量,具体包括:
利用基于地址词前后语义学习得到的隐马尔科夫模型和Viterbi算法,对所述观察序列进行处理,得到决策向量。
21.如权利要求12所述的装置,所述识别模块,对所述决策向量进行分类判决,具体包括:
利用训练得到的支持向量机SVM模型,对所述决策向量进行分类判决。
22.如权利要求21所述的装置,训练得到支持向量机模型包括:
获取支持向量机的训练样本;
将所述支持向量机的训练样本映射到高维特征空间,得到所述支持向量机的训练样本对应的样本特征空间;
从所述样本特征空间中获取代表所述样本特征的参数,根据所述样本特征的参数建立用于判断所述样本特征的类别的判别函数;
基于所述支持向量机的训练样本训练判别函数中对应的SVM模型参数,得到SVM模型。
23.一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
为获取输入地址对应的地址词序列;
在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词;
根据所述确定的地址词,生成所述地址词序列对应的观察序列;
利用基于地址词前后语义学习得到的隐马尔科夫模型,对所述观察序列进行处理,得到决策向量,所述决策向量表示所述地址词序列包含的各地址词命中所述风险地址的概率;
通过对所述决策向量进行分类判决,识别所述输入地址是否为风险地址。
CN201710543805.4A 2017-07-05 2017-07-05 一种风险地址识别方法、装置以及电子设备 Active CN107526967B (zh)

Priority Applications (10)

Application Number Priority Date Filing Date Title
CN201710543805.4A CN107526967B (zh) 2017-07-05 2017-07-05 一种风险地址识别方法、装置以及电子设备
TW107116561A TWI682302B (zh) 2017-07-05 2018-05-16 風險地址識別方法、裝置以及電子設備
PCT/CN2018/093791 WO2019007288A1 (zh) 2017-07-05 2018-06-29 一种风险地址识别方法、装置以及电子设备
JP2019542684A JP6894058B2 (ja) 2017-07-05 2018-06-29 危険アドレス識別方法及びコンピュータ可読記憶媒体、並びに電子装置
SG11201907079QA SG11201907079QA (en) 2017-07-05 2018-06-29 Risk address identification method and apparatus, and electronic device
KR1020197023966A KR102244417B1 (ko) 2017-07-05 2018-06-29 위험 주소 식별 방법, 장치 및 전자 디바이스
EP18827964.0A EP3637295B1 (en) 2017-07-05 2018-06-29 Risky address identification method and apparatus, and electronic device
PH12019501823A PH12019501823A1 (en) 2017-07-05 2019-08-06 Risk address identification method snd apparatus, and electronic device
US16/592,895 US10762296B2 (en) 2017-07-05 2019-10-04 Risk address identification method and apparatus, and electronic device
US16/775,913 US10699076B2 (en) 2017-07-05 2020-01-29 Risk address identification method and apparatus, and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710543805.4A CN107526967B (zh) 2017-07-05 2017-07-05 一种风险地址识别方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
CN107526967A true CN107526967A (zh) 2017-12-29
CN107526967B CN107526967B (zh) 2020-06-02

Family

ID=60748842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710543805.4A Active CN107526967B (zh) 2017-07-05 2017-07-05 一种风险地址识别方法、装置以及电子设备

Country Status (9)

Country Link
US (2) US10762296B2 (zh)
EP (1) EP3637295B1 (zh)
JP (1) JP6894058B2 (zh)
KR (1) KR102244417B1 (zh)
CN (1) CN107526967B (zh)
PH (1) PH12019501823A1 (zh)
SG (1) SG11201907079QA (zh)
TW (1) TWI682302B (zh)
WO (1) WO2019007288A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108876545A (zh) * 2018-06-22 2018-11-23 北京小米移动软件有限公司 订单识别方法、装置和可读存储介质
CN108920457A (zh) * 2018-06-15 2018-11-30 腾讯大地通途(北京)科技有限公司 地址识别方法和装置及存储介质
CN109102303A (zh) * 2018-06-28 2018-12-28 招联消费金融有限公司 风险检测方法和相关装置
WO2019007288A1 (zh) * 2017-07-05 2019-01-10 阿里巴巴集团控股有限公司 一种风险地址识别方法、装置以及电子设备
CN109598000A (zh) * 2018-12-28 2019-04-09 百度在线网络技术(北京)有限公司 语义关系识别方法、装置、计算机设备和存储介质
CN110322252A (zh) * 2019-05-30 2019-10-11 阿里巴巴集团控股有限公司 风险主体识别方法以及装置
CN110335115A (zh) * 2019-07-01 2019-10-15 阿里巴巴集团控股有限公司 一种业务订单处理方法及装置
CN110348730A (zh) * 2019-07-04 2019-10-18 创新奇智(南京)科技有限公司 风险用户判断方法及其系统、电子设备
CN111488334A (zh) * 2019-01-29 2020-08-04 阿里巴巴集团控股有限公司 数据处理方法及电子设备
CN111738358A (zh) * 2020-07-24 2020-10-02 支付宝(杭州)信息技术有限公司 一种数据识别方法、装置、设备和可读介质
CN112579713A (zh) * 2019-09-29 2021-03-30 中国移动通信集团辽宁有限公司 地址识别方法、装置、计算设备及计算机存储介质
CN112598321A (zh) * 2018-07-10 2021-04-02 创新先进技术有限公司 一种风险防控方法、系统及终端设备
CN112818667A (zh) * 2021-01-29 2021-05-18 上海寻梦信息技术有限公司 地址纠正方法、系统、设备及存储介质
CN113111232A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于正则表达式的接处警文本地址提取方法和装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423883B (zh) * 2017-06-15 2020-04-07 创新先进技术有限公司 待处理业务的风险识别方法及装置、电子设备
US11132512B2 (en) * 2019-11-08 2021-09-28 International Business Machines Corporation Multi-perspective, multi-task neural network model for matching text to program code
CN112988989B (zh) * 2019-12-18 2022-08-12 中国移动通信集团四川有限公司 一种地名地址匹配方法及服务器
CN113343670B (zh) * 2021-05-26 2023-07-28 武汉大学 基于隐马尔可夫与分类算法耦合的地址文本要素提取方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100145902A1 (en) * 2008-12-09 2010-06-10 Ita Software, Inc. Methods and systems to train models to extract and integrate information from data sources
CN101923618A (zh) * 2010-08-19 2010-12-22 中国航天科技集团公司第七一○研究所 一种基于隐马尔可夫模型的汇编指令级漏洞检测方法
CN103810425A (zh) * 2012-11-13 2014-05-21 腾讯科技(深圳)有限公司 恶意网址的检测方法及装置
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及系统
CN104504940A (zh) * 2015-01-07 2015-04-08 江苏理工学院 一种空中交通管制系统的管制方法
CN104766014A (zh) * 2015-04-30 2015-07-08 安一恒通(北京)科技有限公司 用于检测恶意网址的方法和系统
CN105447204A (zh) * 2016-01-04 2016-03-30 北京百度网讯科技有限公司 网址识别方法和装置
CN106682502A (zh) * 2016-12-13 2017-05-17 重庆邮电大学 基于隐马尔可夫和概率推断的入侵意图识别系统及方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812300B2 (en) * 1998-03-25 2014-08-19 International Business Machines Corporation Identifying related names
JP4497834B2 (ja) * 2003-04-28 2010-07-07 パイオニア株式会社 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体
JP4545540B2 (ja) * 2004-10-01 2010-09-15 三菱電機株式会社 アクセス防止装置
JP4639784B2 (ja) * 2004-12-06 2011-02-23 ソニー株式会社 学習装置および学習方法、並びにプログラム
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
SG174027A1 (en) * 2006-05-04 2011-09-29 Jpmorgan Chase Bank Na System and method for restricted party screening and resolution services
US7668921B2 (en) * 2006-05-30 2010-02-23 Xerox Corporation Method and system for phishing detection
WO2008004663A1 (fr) * 2006-07-07 2008-01-10 Nec Corporation Dispositif de mise à jour de modèle de langage, procédé de mise à jour de modèle de langage, et programme de mise à jour de modèle de langage
US7590707B2 (en) * 2006-08-07 2009-09-15 Webroot Software, Inc. Method and system for identifying network addresses associated with suspect network destinations
US7984500B1 (en) * 2006-10-05 2011-07-19 Amazon Technologies, Inc. Detecting fraudulent activity by analysis of information requests
KR100897553B1 (ko) * 2007-01-04 2009-05-15 삼성전자주식회사 사용자의 기기 사용 패턴을 이용한 음성 인식 방법 및 장치
US8468167B2 (en) * 2010-10-25 2013-06-18 Corelogic, Inc. Automatic data validation and correction
CN102339320B (zh) * 2011-11-04 2013-08-28 华为数字技术(成都)有限公司 恶意网页的识别方法以及识别装置
US9275339B2 (en) * 2012-04-24 2016-03-01 Raytheon Company System and method for probabilistic name matching
TWI461952B (zh) * 2012-12-26 2014-11-21 Univ Nat Taiwan Science Tech 惡意程式偵測方法與系統
US9178901B2 (en) * 2013-03-26 2015-11-03 Microsoft Technology Licensing, Llc Malicious uniform resource locator detection
CN103220302A (zh) * 2013-05-07 2013-07-24 腾讯科技(深圳)有限公司 恶意网址的访问防御方法和相关装置
CN103530562A (zh) * 2013-10-23 2014-01-22 腾讯科技(深圳)有限公司 一种恶意网站的识别方法和装置
US10049099B2 (en) * 2015-04-10 2018-08-14 Facebook, Inc. Spell correction with hidden markov models on online social networks
CN106296195A (zh) * 2015-05-29 2017-01-04 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN104933443A (zh) * 2015-06-26 2015-09-23 北京途美科技有限公司 一种敏感数据自动识别与分类的方法
CN105574146A (zh) * 2015-12-15 2016-05-11 北京奇虎科技有限公司 网址拦截方法及装置
CN107526967B (zh) * 2017-07-05 2020-06-02 阿里巴巴集团控股有限公司 一种风险地址识别方法、装置以及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100145902A1 (en) * 2008-12-09 2010-06-10 Ita Software, Inc. Methods and systems to train models to extract and integrate information from data sources
CN101923618A (zh) * 2010-08-19 2010-12-22 中国航天科技集团公司第七一○研究所 一种基于隐马尔可夫模型的汇编指令级漏洞检测方法
CN103810425A (zh) * 2012-11-13 2014-05-21 腾讯科技(深圳)有限公司 恶意网址的检测方法及装置
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及系统
CN104504940A (zh) * 2015-01-07 2015-04-08 江苏理工学院 一种空中交通管制系统的管制方法
CN104766014A (zh) * 2015-04-30 2015-07-08 安一恒通(北京)科技有限公司 用于检测恶意网址的方法和系统
CN105447204A (zh) * 2016-01-04 2016-03-30 北京百度网讯科技有限公司 网址识别方法和装置
CN106682502A (zh) * 2016-12-13 2017-05-17 重庆邮电大学 基于隐马尔可夫和概率推断的入侵意图识别系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PRATIKSHYA MISHRA: "Comparing Authentic and Cryptic 5" Splice Sites Using Hidden Mrkov Models and Decision Trees", 《HTTP://SCHOLARWORKS.SJSU.EDU/CGI/VIEWCONTENT.CGI?ARTICLE=1522&CONTEXT=ETD_PROJECTS》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019007288A1 (zh) * 2017-07-05 2019-01-10 阿里巴巴集团控股有限公司 一种风险地址识别方法、装置以及电子设备
CN108920457A (zh) * 2018-06-15 2018-11-30 腾讯大地通途(北京)科技有限公司 地址识别方法和装置及存储介质
CN108920457B (zh) * 2018-06-15 2022-01-04 腾讯大地通途(北京)科技有限公司 地址识别方法和装置及存储介质
CN108876545A (zh) * 2018-06-22 2018-11-23 北京小米移动软件有限公司 订单识别方法、装置和可读存储介质
CN109102303A (zh) * 2018-06-28 2018-12-28 招联消费金融有限公司 风险检测方法和相关装置
CN109102303B (zh) * 2018-06-28 2021-06-08 招联消费金融有限公司 风险检测方法和相关装置
CN112598321A (zh) * 2018-07-10 2021-04-02 创新先进技术有限公司 一种风险防控方法、系统及终端设备
CN109598000A (zh) * 2018-12-28 2019-04-09 百度在线网络技术(北京)有限公司 语义关系识别方法、装置、计算机设备和存储介质
CN109598000B (zh) * 2018-12-28 2023-06-16 百度在线网络技术(北京)有限公司 语义关系识别方法、装置、计算机设备和存储介质
CN111488334A (zh) * 2019-01-29 2020-08-04 阿里巴巴集团控股有限公司 数据处理方法及电子设备
CN111488334B (zh) * 2019-01-29 2023-04-14 阿里巴巴集团控股有限公司 数据处理方法及电子设备
CN110322252B (zh) * 2019-05-30 2023-07-04 创新先进技术有限公司 风险主体识别方法以及装置
CN110322252A (zh) * 2019-05-30 2019-10-11 阿里巴巴集团控股有限公司 风险主体识别方法以及装置
CN110335115A (zh) * 2019-07-01 2019-10-15 阿里巴巴集团控股有限公司 一种业务订单处理方法及装置
CN110348730A (zh) * 2019-07-04 2019-10-18 创新奇智(南京)科技有限公司 风险用户判断方法及其系统、电子设备
CN112579713B (zh) * 2019-09-29 2023-11-21 中国移动通信集团辽宁有限公司 地址识别方法、装置、计算设备及计算机存储介质
CN112579713A (zh) * 2019-09-29 2021-03-30 中国移动通信集团辽宁有限公司 地址识别方法、装置、计算设备及计算机存储介质
CN113111232A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于正则表达式的接处警文本地址提取方法和装置
US11314897B2 (en) 2020-07-24 2022-04-26 Alipay (Hangzhou) Information Technology Co., Ltd. Data identification method, apparatus, device, and readable medium
CN111738358B (zh) * 2020-07-24 2020-12-08 支付宝(杭州)信息技术有限公司 一种数据识别方法、装置、设备和可读介质
CN111738358A (zh) * 2020-07-24 2020-10-02 支付宝(杭州)信息技术有限公司 一种数据识别方法、装置、设备和可读介质
CN112818667A (zh) * 2021-01-29 2021-05-18 上海寻梦信息技术有限公司 地址纠正方法、系统、设备及存储介质

Also Published As

Publication number Publication date
KR102244417B1 (ko) 2021-04-28
JP6894058B2 (ja) 2021-06-23
US10699076B2 (en) 2020-06-30
EP3637295B1 (en) 2021-08-04
CN107526967B (zh) 2020-06-02
EP3637295A1 (en) 2020-04-15
US10762296B2 (en) 2020-09-01
SG11201907079QA (en) 2019-08-27
EP3637295A4 (en) 2020-04-29
US20200167526A1 (en) 2020-05-28
JP2020524314A (ja) 2020-08-13
PH12019501823A1 (en) 2019-10-07
WO2019007288A1 (zh) 2019-01-10
US20200034426A1 (en) 2020-01-30
TWI682302B (zh) 2020-01-11
TW201907325A (zh) 2019-02-16
KR20200015444A (ko) 2020-02-12

Similar Documents

Publication Publication Date Title
CN107526967A (zh) 一种风险地址识别方法、装置以及电子设备
Liao et al. Textboxes++: A single-shot oriented scene text detector
CN109117777A (zh) 生成信息的方法和装置
CN107016387A (zh) 一种识别标签的方法及装置
CN110334357A (zh) 一种命名实体识别的方法、装置、存储介质及电子设备
CN110069626A (zh) 一种目标地址的识别方法、分类模型的训练方法以及设备
CN110287311B (zh) 文本分类方法及装置、存储介质、计算机设备
CN113762309B (zh) 对象匹配方法、装置及设备
CN112100384B (zh) 一种数据观点抽取方法、装置、设备及存储介质
CN109344346A (zh) 网页信息提取方法和装置
Zhong et al. Improved localization accuracy by locnet for faster r-cnn based text detection
Zhang et al. Vehicle license plate detection and recognition using deep neural networks and generative adversarial networks
CN111814481B (zh) 购物意图识别方法、装置、终端设备及存储介质
WO2023246921A1 (zh) 目标属性识别方法、模型训练方法和装置
Bai et al. Integrating scene text and visual appearance for fine-grained image classification with convolutional neural networks
Shaharabany et al. Similarity maps for self-training weakly-supervised phrase grounding
Arroyo et al. Multi-label classification of promotions in digital leaflets using textual and visual information
CN113688233A (zh) 一种用于知识图谱语义搜索的文本理解的方法
CN111476028A (zh) 一种汉语短语识别方法、系统、存储介质及电子设备
Yu et al. Research on Text Recognition of Natural Scenes for Complex Situations
Zhang et al. Semantics reused context feature pyramid network for object detection in remote sensing images
Chen et al. Robust Uyghur text localization in complex background images
CN108427672A (zh) 文字翻译的方法及终端设备
CN117422796B (zh) 文字标志生成方法、装置、电子设备及存储介质
Corral Paramo A drug identification model developed using instance segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200917

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200917

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.