CN113449523B - 异常地址文本的确定方法、装置、电子设备和存储介质 - Google Patents
异常地址文本的确定方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113449523B CN113449523B CN202110729529.7A CN202110729529A CN113449523B CN 113449523 B CN113449523 B CN 113449523B CN 202110729529 A CN202110729529 A CN 202110729529A CN 113449523 B CN113449523 B CN 113449523B
- Authority
- CN
- China
- Prior art keywords
- character
- characters
- layer
- address text
- lstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013145 classification model Methods 0.000 claims abstract description 42
- 239000013598 vector Substances 0.000 claims description 183
- 230000015654 memory Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005201 scrubbing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种异常地址文本的确定方法、装置、电子设备和存储介质,其中,该方法:获取地址文本的字符序列,根据地址分类模型和字符序列中多个字符,确定地址文本作为异常地址文本的概率值是大于预设阈值,并在确定该概率值大于预设阈值的情况下,确定地址文本为异常地址文本,由此,基于地址分类模型以及地址文本中的各个字符,准确确定出异常地址,实现了异常地址的准确识别。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种异常地址文本的确定方法、装置、电子设备和存储介质。
背景技术
地址在互联网场景是一种常见的信息形式,比如电商交易场景的收货地址,互联网信贷申请场景的联系地址等,欺诈用户为了刻意隐瞒自己的真实信息,以免自己被通过地址信息找到,往往不填写规范的真实地址信息。相关技术中,一般通过地址模板匹配的方式进行欺诈地址识别,然而,上述方式在用户地址模式变化频繁或有多种写法时,则无法准确的识别出欺诈地址,故准确的识别出欺诈地址是亟需解决的问题。
发明内容
本申请一方面实施例提出了一种异常地址文本的确定方法,所述方法包括:获取地址文本的字符序列,所述字符序列包括多个字符;根据地址分类模型和所述多个字符,确定所述地址文本作为异常地址文本的概率值大于预设阈值的情况下,确定所述地址文本为异常地址文本。
本申请的一个实施例中,所述地址分类模型包括嵌入层、长短时记忆LSTM层、注意力层和输出层,所述根据地址分类模型和所述多个字符,确定所述地址文本作为异常地址文本的概率值大于预设阈值的情况下,确定所述地址文本为异常地址文本,包括:将所述多个字符输入到所述嵌入层,通过所述嵌入层得到所述多个字符各自对应的字符向量;将所述多个字符各自对应的字符向量输入到所述LSTM层,以通过所述LSTM层得到所述多个字符各自对应的隐向量;将所述多个字符各自对应的隐向量输入到注意力层中,以通过所述注意力层得到各个字符的隐向量的注意力权重;将所述各个字符的隐向量以及对应的注意力权重输入到所述输出层,以确定所述地址文本作为异常地址文本的概率值,并在概率值大于预设阈值的情况下,输出所述地址文本为异常地址文本。
本申请的一个实施例中,所述LSTM层包括正向LSTM层和反向LSTM层,所述注意力层包括N个注意力单元,N为所述地址文本中的字符总数,所述将所述多个字符各自对应的字符向量输入到长短时记忆LSTM层,以通过所述LSTM层得到所述多个字符各自对应的隐向量,包括:将所述多个字符各自对应的字符向量分别输入到所述正向LSTM层和所述反向LSTM层中,以通过所述正向LSTM层得到所述多个字符各自对应的第一隐向量和所述反向LSTM层得到所述多个字符各自对应的第二隐向量;所述将所述多个字符各自对应的隐向量输入到注意力层中,以通过所述注意力层得到各个字符的隐向量的注意力权重,包括:针对第i个字符,将所述第i个字符对应的第一隐向量和第二隐向量进行拼接以得到所述第i个字符的第三隐向量,并将所述第三隐向量输入到第i个注意力单元,以得到所述第三隐向量的注意力权重,所述i为大于或者等于1,且小于或者等于N的正整数。
本申请的一个实施例中,所述正向LSTM层和反向LSTM层均包括N个LSTM单元,所述将所述多个字符各自对应的字符向量分别输入到所述正向LSTM层和所述反向LSTM层中,以通过所述正向LSTM层得到所述所述多个字符各自对应的第一隐向量和所述反向LSTM层得到所述多个字符各自对应的第二隐向量,包括:针对第1个字符,将所述第一个字符的字符向量输入到所述正向LSTM层中的第一个LSTM单元,以得到所述第一个字符的第一隐向量;针对第i个字符,将所述第i个字符对应的字符向量以及将所述正向LSTM层中的第i-1个LSTM单元输出的隐向量输入到所述正向LSTM层中的第i个LSTM单元,以得到所述第i个字符的第一隐向量,其中,所述i为大于或者等于2,且小于或者等于N的正整数,其中,N为所述地址文本中的字符总数;针对第j个字符,将所述第j个字符对应的字符向量以及将所述反向LSTM层中的第j+1个LSTM单元输出的隐向量输入到所述反向LSTM层中的第j个LSTM单元,以得到所述第j个字符的第二隐向量,其中,所述j为大于或者等于1,且小于N的正整数;针对第N个字符,将所述第N个字符向量输入到所述反向LSTM层中的第N个LSTM单元,以得到所述第N个字符的第二隐向量。
本申请的一个实施例中,在所述获取地址文本的字符序列之前,还包括:删除所述地址文本中的预设特殊符号。
本申请提出一种异常地址文本的确定方法,获取地址文本的字符序列,根据地址分类模型和字符序列中多个字符,确定所述地址文本作为异常地址文本的概率值是大于预设阈值,并在确定该概率值大于预设阈值的情况下,确定所述地址文本为异常地址文本,由此,基于地址分类模型以及地址文本中的各个字符,准确确定出异常地址,实现了异常地址的准确识别。
本申请另一方面实施例提出了一种异常地址文本的确定装置,获取模块,用于获取地址文本的字符序列,所述字符序列包括多个字符;确定模块,用于根据地址分类模型和所述多个字符,确定所述地址文本作为异常地址文本的概率值大于预设阈值的情况下,确定所述地址文本为异常地址文本。
本申请的一个实施例中,所述第一确定模块,包括:第一生成单元,用于将所述多个字符输入到所述嵌入层,通过所述嵌入层得到所述多个字符各自对应的字符向量;第二生成单元,用于将所述多个字符各自对应的字符向量输入到所述LSTM层,以通过所述LSTM层得到所述多个字符各自对应的隐向量;第三生成单元,用于将所述多个字符各自对应的隐向量输入到注意力层中,以通过所述注意力层得到各个字符的隐向量的注意力权重;输出单元,用于将所述各个字符的隐向量以及对应的注意力权重输入到所述输出层,以确定所述地址文本作为异常地址文本的概率值,并在概率值大于预设阈值的情况下,输出所述地址文本为异常地址文本。
本申请的一个实施例中,所述LSTM层包括正向LSTM层和反向LSTM层,所述注意力层包括N个注意力单元,N为所述地址文本中的字符总数,所述第一生成单元,包括:第一生成子单元,用于将所述多个字符各自对应的字符向量分别输入到所述正向LSTM层和所述反向LSTM层中,以通过所述正向LSTM层得到所述多个字符各自对应的第一隐向量和所述反向LSTM层得到所述多个字符各自对应的第二隐向量;所述第三生成单元,包括:第二生成子单元,用于针对第i个字符,将所述第i个字符对应的第一隐向量和第二隐向量进行拼接以得到所述第i个字符的第三隐向量,并将所述第三隐向量输入到第i个注意力单元,以得到所述第三隐向量的注意力权重,所述i为大于或者等于1,且小于或者等于N的正整数。
本申请的一个实施例中,所述正向LSTM层和反向LSTM层均包括N个LSTM单元,所述第一生成子单元,具体用于:针对第1个字符,将所述第一个字符的字符向量输入到所述正向LSTM层中的第一个LSTM单元,以得到所述第一个字符的第一隐向量;针对第i个字符,将所述第i个字符对应的字符向量以及将所述正向LSTM层中的第i-1个LSTM单元输出的隐向量输入到所述正向LSTM层中的第i个LSTM单元,以得到所述第i个字符的第一隐向量,其中,所述i为大于或者等于2,且小于或者等于N的正整数,其中,N为所述地址文本中的字符总数;针对第j个字符,将所述第j个字符对应的字符向量以及将所述反向LSTM层中的第j+1个LSTM单元输出的隐向量输入到所述反向LSTM层中的第j个LSTM单元,以得到所述第j个字符的第二隐向量,其中,所述j为大于或者等于1,且小于N的正整数;针对第N个字符,将所述第N个字符向量输入到所述反向LSTM层中的第N个LSTM单元,以得到所述第N个字符的第二隐向量。
本申请的一个实施例中,所述装置还包括:删除模块,用于删除所述地址文本中的预设特殊符号。
本申请提出一种异常地址文本的确定装置,获取地址文本的字符序列,根据地址分类模型和字符序列中多个字符,确定所述地址文本作为异常地址文本的概率值是大于预设阈值,并在确定该概率值大于预设阈值的情况下,确定所述地址文本为异常地址文本,由此,基于地址分类模型以及地址文本中的各个字符,准确确定出异常地址,实现了异常地址的准确识别。
本申请另一方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现异常地址文本的确定方法。
本申请另一方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现异常地址文本的确定方法。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
图1是本申请实施例所提供的一种异常地址文本的确定方法的流程示意图。
图2是本申请实施例所提供的另一种异常地址文本的确定方法的流程示意图。
图3是本申请实施例所提供的另一种异常地址文本的确定方法的流程示意图。
图4是本申请实施例所提供的一个地址分类模型的网络结构图。
图5是本申请实施例所提供的一个模型在实际业务数据上测试的ROC曲线图。
图6是本申请实施例的一个异常地址文本的确定装置的结构示意图。
图7是本申请实施例的另一个异常地址文本的确定装置的结构示意图。
图8是根据本申请一个实施例的电子设备的框图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的异常地址文本的确定方法、装置和电子设备。
图1是本申请实施例所提供的一种异常地址文本的确定方法的流程示意图。其中,需要说明的是,本实施例提供的异常地址文本的确定方法的执行主体为异常地址文本的确定装置,该异常地址文本的确定装置可以由软件和/或硬件的方式实现,该实施例中的异常地址文本的确定装置可以配置电子设备中,本实施例中的电子设备可以包括服务器等,该实施例对电子设备不作具体限定。
如图1所示,该异常地址文本的确定方法可以包括:
步骤101,获取地址文本的字符序列,字符序列包括多个字符。
在一些实施例中,该地址文本可以是电商交易场景的收货地址,也可以是互联网交易场景的联系地址等,该实施例对此不做具体限定。
在一些实施例中,获取地址文本的字符序列,字符序列包括多个字符。
在一些实施例中,可对地址文本以一个字符为单位进行分割,以得到该地址文本的字符序列。
步骤102,根据地址分类模型和多个字符,确定地址文本作为异常地址文本的概率值大于预设阈值的情况下,确定地址文本为异常地址文本。
在本申请的一些实施例中,可将地址文本所对应的多个字符输入到地址分类模型中,以通过地址分类模型得到地址文本作为异常地址文本的概率值,并在概率值大于预设阈值的情况下,地址分类模型输出地址文本的类别为异常地址文本。
其中,需要说明的是,在地址文本的概率值小于或者等于预设阈值的情况下,地址分类模型输出地址文本的类别为正常地址文本。
其中,预设阈值是地址分类模型用于区分正常地址文本和异常地址文本的概率临界值。
可以理解的是,上述地址分类模型中的概率临界值是基于训练数据对初始的地址分类模型进行训练而得出。
在一些实施例中,为了使得地址分类模型可以实现准确分类,可根据训练数据对初始的地址分类模型进行训练,其中,训练地址分类模型的示例性实施方式为:获取训练数据,其中,训练数据包括样本地址文本以及对应的类型标签,可将样本地址文本输入到初始的地址分类模型中,以得到初始的地址分类模型,确定该样本地址文本作为异常地址文本的概率值,并根据概率值和类型标签,确定地址分类模型的交叉熵损失函数的取值,并根据交叉熵损失函数的取值,对地址分类模型进行训练,直至交叉熵损失函数的取值满足训练结束条件。其中,训练后的地址分类模型可准确输出对应地址文本的类型是正常地址文本还是异常地址文本。
本申请提出一种异常地址文本的确定方法,获取地址文本的字符序列,根据地址分类模型和字符序列中多个字符,确定地址文本作为异常地址文本的概率值是大于预设阈值,并在确定该概率值大于预设阈值的情况下,确定地址文本为异常地址文本,由此,基于地址分类模型以及地址文本中的各个字符,准确确定出异常地址,实现了异常地址的准确识别。
可以理解的是,在一些场景中,地址文本可能存在一些与确定地址文本是否为异常地址文本无关的特殊字符(例如空格等),为了减少上述特殊字符,对地址文本的识别效率的影响,在获取地址文本的字符序列之前,可删除地址文本中的预设特殊符号。
其中,上述预设特殊符号是一些与地址文本进行异常识别没有关系的特殊符号,例如,上述预设特殊符号可以为空格、分号、顿号等特殊符号,该实施例对预设特殊符号不作具体限定。
作为一种示例性的实施方式,在获取待处理的地址文本后,可删除地址文本中的预设特殊符号,并对处理后的地址文本按照单个字符的方式进行分割,以得到处理后的地址文本的字符序列。
图2是本申请实施例所提供的另一种异常地址文本的确定方法的流程示意图。其中,需要说明的是,本实施例中以上述地址分类模型可以包括嵌入层、长短时记忆LSTM层、注意力层和输出层为例进行描述,下面结合图2对实施例的方法进行进一步描述。
如图2所示,该方法可以包括:
步骤201,获取地址文本的字符序列,字符序列包括多个字符。
其中,需要说明的是,关于步骤201的具体实现方式,可参见上述实施例中的相关描述。
步骤202,将多个字符输入到嵌入层,通过嵌入层得到多个字符各自对应的字符向量。
在得到地址文本的字符序列后,为每个字符分配一个唯一的数字编码,将该地址中每个字符替换成相应的编码,得到该地址转换成的一个数字序列,再通过嵌入层(embedding)转换成向量,以获取各个字符对应的字符向量,各个向量组成一个多维序列。
步骤203,将多个字符各自对应的字符向量输入到LSTM层,以通过LSTM层得到多个字符各自对应的隐向量。
其中,LSTM(Long Short-Term Memory,LSTM)是一种时间循环神经网络,可学习不同时期的依赖关系,常用于时间序列预测,也可用于文本序列预测。
在一些实施例中,上述LSTM层可以包括正向LSTM层。在另一些实施例中,上述LSTM层可以包括反向LSTM层。在另一些实施例中,为了充分考虑地址文本中每个字符出现的先后顺序,准确确定出地址文本是否为异常地址,上述LSTM层可以包括正向LSTM层和反向LSTM层。
作为一种示例性的实施方式,在上述LSTM层可以包括正向LSTM层和反向LSTM层的情况下,上述将各个多个字符对应各自对应的字符向量输入到长短时记忆LSTM层,以通过LSTM层得到各个字符对应的多个字符各自对应的隐向量的可能实现方式为:将多个字符各自对应的字符向量分别输入到正向LSTM层和反向LSTM层中,以通过正向LSTM层得到多个字符各自对应的第一隐向量和反向LSTM层得到多个字符各自对应的第二隐向量。
在另一些实施例中,为了进一步准确确定出多个字符各自对应的隐向量,上述正向LSTM层和反向LSTM层均包括N个LSTM单元,将多个字符各自对应的字符向量分别输入到正向LSTM层和反向LSTM层中,以通过正向LSTM层得到多个字符各自对应的第一隐向量和反向LSTM层得到多个字符各自对应的第二隐向量,作为一种示例性的实施方式为:针对第1个字符,将第一个字符的字符向量输入到正向LSTM层中的第一个LSTM单元,以得到第一个字符的第一隐向量;针对第i个字符,将第i个字符对应的字符向量以及将正向LSTM层中的第i-1个LSTM单元输出的隐向量输入到正向LSTM层中的第i个LSTM单元,以得到第i个字符的第一隐向量,其中,i为大于或者等于2,且小于或者等于N的正整数,其中,N为地址文本中的字符总数;针对第j个字符,将第j个字符对应的字符向量以及将反向LSTM层中的第j+1个LSTM单元输出的隐向量输入到反向LSTM层中的第j个LSTM单元,以得到第j个字符的第二隐向量,其中,j为大于或者等于1,且小于N的正整数;针对第N个字符,将第N个字符向量输入到反向LSTM层中的第N个LSTM单元,以得到第N个字符的第二隐向量。
步骤204,将多个字符各自对应的隐向量输入到注意力层中,以通过注意力层得到各个字符的隐向量的注意力权重。
在一些实施例中,注意力层包括N个注意力单元,N为地址文本中的字符总数,在通过上述LSTM层得到各个字符的第一隐向量和第二隐向量后,针对第i个字符,将第i个字符对应的第一隐向量和第二隐向量进行拼接以得到第i个字符的第三隐向量,并将第三隐向量输入到第i个注意力单元,以得到第三隐向量的注意力权重,i为大于或者等于1,且小于或者等于N的正整数。
步骤205,将各个字符的隐向量以及对应的注意力权重输入到输出层,以确定地址文本作为异常地址文本的概率值,并在概率值大于预设阈值的情况下,输出地址文本为异常地址文本。
在一些实施例中,在上述LSTM层包括正向LSTM层和反向LSTM层的情况下,上述将各个字符的隐向量以及对应的注意力权重输入到输出层,以确定地址文本作为异常地址文本的概率值,并在概率值大于预设阈值的情况下,输出地址文本为异常地址文本的一种可能实现方式为:将各个字符的第三隐向量以及对应的注意力权重输入到输出层,输出层确定出该地址文本作为异常地址文本的概率值,并判断概率值是否大于预设阈值,如果超过预设阈值,则输出层地址文本为异常地址文本。
本申请提出一种异常地址文本的确定方法,获取地址文本的字符序列,将字符序列中多个字符输入到嵌入层,以得到多个字符各自对应的字符向量,再把多个字符各自对应的字符向量输入到LSTM层,以得到多个字符各自对应的隐向量,再把多个字符各自对应的隐向量输入到注意力层,以得到各个字符的隐向量的注意力权重,并结合各个字符的隐向量,确定出地址文本作为异常地址文本的概率值是大于预设阈值,并在确定该概率值大于预设阈值的情况下,确定地址文本为异常地址文本,由此,基于地址分类模型以及地址文本中的各个字符,准确确定出异常地址,实现了异常地址的准确识别。
为了使得本领域技术人员可以清楚了解本申请,下结合图3对该实施例的异常地址文本的确定方法进行描述。
图3是本申请实施例所提供的另一种异常地址文本的确定方法的流程示意图。
如图3所示,该方法可以包括:
步骤301,地址清洗。
在一些实施例中,获取的地址文本中,会存在空格、顿号等特殊符号,故需要进行地址清洗,把地址文本中的特殊符号进行剔除。
步骤302,地址编码。
在一些实施例中,在进行地址清洗后,将清洗后的地址中出现的字符构建字典,并为每个字符分配一个唯一的数字编码,将该地址中每个字符替换成相应的编码,这样该地址就转换成了一个数字序列。
步骤303,嵌入表示。
在一些实施例中,将上述数字序列中的每个数字都通过嵌入层转换成一个向量,把所有的向量进行规划,以得到一个多维序列。
其中,嵌入表示指获取一个对象(如单词、项、用户等)并创建到度量空间的映射。
步骤304,序列学习。
在一些实施例中,本申请采用双向的LSTM层,即上述LSTM层包括正向LSTM层和反向LSTM层,以充分考虑地址文本中每个字符出现先后顺序对预测结果的影响,此外本申请还引入了注意力机制,以让模型能在一些关键字符上有所侧重,如图4所示,图4为地址分类模型的网络结构的示例图,如图4所示。
其中,序列学习也可以可被其他序列算法替代,该实施例对此不做具体限定。
步骤305,多层感知器分类,以得到地址文本的概率值。
在一些实施例中,在获取地址文本的两个隐向量后,针对每个字符,可将该字符的两个隐向量进行拼接,以得到拼接后的隐向量,把该拼接后的隐向量输入到注意力层,再通过多层感知器(Multilayer Perceptron,MLP)和逻辑回归(softmax)得到二分类的概率值。
步骤306,在概率值大于预设阈值的情况下,确定该地址文本为异常地址文本。
本申请提出一种异常地址文本的确定方法,在对异常地址文本的确定过程中,先对获取的地址文本进行地址清洗,并进行地址编码,以进行嵌入表示,再通过序列学习,并进行多层感知器分类,以得到地址文本的概率值,在概率值大于预设阈值的情况下,确定该地址文本为异常地址文本,由此,实现了异常地址的准确识别。。
可以理解的是,通过上述方法得到的模型,应用于真实业务中,作为一种示例性的数据结果为:数据测试的ROC曲线下方的面积(Area Under Curve,AUC)为0.979,如图5所示,图5为模型在实际业务数据上测试的ROC曲线图。
其中,ROC为接受者操作特性曲线(receiver operating characteristic curve,ROC)。
图6是本申请实施例的一个异常地址文本的确定装置的结构示意图。
如图6所示,该异常地址文本的确定装置600包括:
获取模块601,用于获取地址文本的字符序列,字符序列包括多个字符;
确定模块602,用于根据地址分类模型和多个字符,确定地址文本作为异常地址文本的概率值大于预设阈值的情况下,确定地址文本为异常地址文本。
本申请提出一种异常地址文本的确定装置,获取地址文本的字符序列,根据地址分类模型和字符序列中多个字符,确定地址文本作为异常地址文本的概率值是大于预设阈值,并在确定该概率值大于预设阈值的情况下,确定地址文本为异常地址文本,由此,基于地址分类模型以及地址文本中的各个字符,准确确定出异常地址,实现了异常地址的准确识别。
在本申请的一个实施例中,如图7所示,确定模块602,包括:
第一生成单元6021,用于将多个字符输入到嵌入层,通过嵌入层得到多个字符各自对应的字符向量;
第二生成单元6022,用于将多个字符各自对应的字符向量输入到LSTM层,以通过LSTM层得到多个字符各自对应的隐向量;
第三生成单元6023,用于将多个字符各自对应的隐向量输入到注意力层中,以通过注意力层得到各个字符的隐向量的注意力权重;
输出单元6024,用于将各个字符的隐向量以及对应的注意力权重输入到输出层,以确定地址文本作为异常地址文本的概率值,并在概率值大于预设阈值的情况下,输出地址文本为异常地址文本。
在本申请的一个实施例中,如图7所示,LSTM层包括正向LSTM层和反向LSTM层,注意力层包括N个注意力单元,N为地址文本中的字符总数,第一生成单元6021,包括:
第一生成子单元60211,用于将多个字符各自对应的字符向量分别输入到正向LSTM层和反向LSTM层中,以通过正向LSTM层得到多个字符各自对应的第一隐向量和反向LSTM层得到多个字符各自对应的第二隐向量;
第三生成单元6023,包括:
第二生成子单元60231,用于针对第i个字符,将第i个字符对应的第一隐向量和第二隐向量进行拼接以得到第i个字符的第三隐向量,并将第三隐向量输入到第i个注意力单元,以得到第三隐向量的注意力权重,i为大于或者等于1,且小于或者等于N的正整数。
在本申请的一个实施例中,如图7所示,正向LSTM层和反向LSTM层均包括N个LSTM单元,第一生成子单元60211,具体用于:
针对第1个字符,将第一个字符的字符向量输入到正向LSTM层中的第一个LSTM单元,以得到第一个字符的第一隐向量;
针对第i个字符,将第i个字符对应的字符向量以及将正向LSTM层中的第i-1个LSTM单元输出的隐向量输入到正向LSTM层中的第i个LSTM单元,以得到第i个字符的第一隐向量,其中,i为大于或者等于2,且小于或者等于N的正整数,其中,N为地址文本中的字符总数;
针对第j个字符,将第j个字符对应的字符向量以及将反向LSTM层中的第j+1个LSTM单元输出的隐向量输入到反向LSTM层中的第j个LSTM单元,以得到第j个字符的第二隐向量,其中,j为大于或者等于1,且小于N的正整数。
针对第N个字符,将第N个字符向量输入到反向LSTM层中的第N个LSTM单元,以得到第N个字符的第二隐向量。
在本申请的一个实施例中,如图7所示,装置还包括:
删除模块603,用于删除地址文本中的预设特殊符号。
本申请提出一种异常地址文本的确定装置,获取地址文本的字符序列,根据地址分类模型和字符序列中多个字符,确定地址文本作为异常地址文本的概率值是大于预设阈值,并在确定该概率值大于预设阈值的情况下,确定地址文本为异常地址文本,由此,基于地址分类模型以及地址文本中的各个字符,准确确定出异常地址,实现了异常地址的准确识别。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图8所示,是根据本申请一个实施例的电子设备的框图。
如图8所示,该电子设备包括:
存储器801、处理器802及存储在存储器801上并可在处理器802上运行的计算机指令。
处理器802执行指令时实现上述实施例中提供的异常地址文本的确定方法。
进一步地,电子设备还包括:
通信接口803,用于存储器801和处理器802之间的通信。
存储器801,用于存放可在处理器802上运行的计算机指令。
存储器801可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器802,用于执行程序时实现上述实施例的异常地址文本的确定方法。
如果存储器801、处理器802和通信接口803独立实现,则通信接口803、存储器801和处理器802可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器801、处理器802及通信接口803,集成在一块芯片上实现,则存储器801、处理器802及通信接口803可以通过内部接口完成相互间的通信。
处理器802可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种异常地址文本的确定方法,其特征在于,所述方法包括:
获取地址文本的字符序列,所述字符序列包括多个字符;
根据地址分类模型和所述多个字符,确定所述地址文本作为异常地址文本的概率值大于预设阈值的情况下,确定所述地址文本为异常地址文本;
其中,所述地址分类模型包括嵌入层、长短时记忆LSTM层、注意力层和输出层,所述根据地址分类模型和所述多个字符,确定所述地址文本作为异常地址文本的概率值大于预设阈值的情况下,确定所述地址文本为异常地址文本,包括:
将所述多个字符输入到所述嵌入层,通过所述嵌入层得到所述多个字符各自对应的字符向量;
将所述多个字符各自对应的字符向量输入到所述LSTM层,以通过所述LSTM层得到所述多个字符各自对应的隐向量;
将所述多个字符各自对应的隐向量输入到注意力层中,以通过所述注意力层得到各个字符的隐向量的注意力权重;
将所述各个字符的隐向量以及对应的注意力权重输入到所述输出层,以确定所述地址文本作为异常地址文本的概率值,并在概率值大于预设阈值的情况下,输出所述地址文本为异常地址文本。
2.如权利要求1所述的方法,其特征在于,所述LSTM层包括正向LSTM层和反向LSTM层,所述注意力层包括N个注意力单元,N为所述地址文本中的字符总数,所述将所述多个字符各自对应的字符向量输入到长短时记忆LSTM层,以通过所述LSTM层得到所述多个字符各自对应的隐向量,包括:
将所述多个字符各自对应的字符向量分别输入到所述正向LSTM层和所述反向LSTM层中,以通过所述正向LSTM层得到所述多个字符各自对应的第一隐向量和所述反向LSTM层得到所述多个字符各自对应的第二隐向量;
所述将所述多个字符各自对应的隐向量输入到注意力层中,以通过所述注意力层得到各个字符的隐向量的注意力权重,包括:
针对第i个字符,将所述第i个字符对应的第一隐向量和第二隐向量进行拼接以得到所述第i个字符的第三隐向量,并将所述第三隐向量输入到第i个注意力单元,以得到所述第三隐向量的注意力权重,所述i为大于或者等于1,且小于或者等于N的正整数。
3.如权利要求2所述的方法,其特征在于,所述正向LSTM层和反向LSTM层均包括N个LSTM单元,所述将所述多个字符各自对应的字符向量分别输入到所述正向LSTM层和所述反向LSTM层中,以通过所述正向LSTM层得到所述所述多个字符各自对应的第一隐向量和所述反向LSTM层得到所述多个字符各自对应的第二隐向量,包括:
针对第1个字符,将所述第1个字符的字符向量输入到所述正向LSTM层中的第一个LSTM单元,以得到所述第一个字符的第一隐向量;
针对第i个字符,将所述第i个字符对应的字符向量以及将所述正向LSTM层中的第i-1个LSTM单元输出的隐向量输入到所述正向LSTM层中的第i个LSTM单元,以得到所述第i个字符的第一隐向量,其中,所述i为大于或者等于2,且小于或者等于N的正整数,其中,N为所述地址文本中的字符总数;
针对第j个字符,将所述第j个字符对应的字符向量以及将所述反向LSTM层中的第j+1个LSTM单元输出的隐向量输入到所述反向LSTM层中的第j个LSTM单元,以得到所述第j个字符的第二隐向量,其中,所述j为大于或者等于1,且小于N的正整数;
针对第N个字符,将所述第N个字符向量输入到所述反向LSTM层中的第N个LSTM单元,以得到所述第N个字符的第二隐向量。
4.如权利要求1-3任一项所述的方法,其特征在于,在所述获取地址文本的字符序列之前,还包括:
删除所述地址文本中的预设特殊符号。
5.一种异常地址文本的确定装置,其特征在于,所述装置包括:
获取模块,用于获取地址文本的字符序列,所述字符序列包括多个字符;
确定模块,用于根据地址分类模型和所述多个字符,确定所述地址文本作为异常地址文本的概率值大于预设阈值的情况下,确定所述地址文本为异常地址文本,所述地址分类模型包括嵌入层、长短时记忆LSTM层、注意力层和输出层;
所述确定模块,包括:
第一生成单元,用于将所述多个字符输入到所述嵌入层,通过所述嵌入层得到所述多个字符各自对应的字符向量;
第二生成单元,用于将所述多个字符各自对应的字符向量输入到所述长短时记忆LSTM层,以通过所述长短时记忆LSTM层得到所述多个字符各自对应的隐向量;
第三生成单元,用于将所述多个字符各自对应的隐向量输入到注意力层中,以通过所述注意力层得到各个字符的隐向量的注意力权重;
输出单元,用于将所述各个字符的隐向量以及对应的注意力权重输入到所述输出层,以确定所述地址文本作为异常地址文本的概率值,并在概率值大于预设阈值的情况下,输出所述地址文本为异常地址文本。
6.如权利要求5所述的装置,其特征在于,所述LSTM层包括正向LSTM层和反向LSTM层,所述注意力层包括N个注意力单元,N为所述地址文本中的字符总数,所述第一生成单元,包括:
第一生成子单元,用于将所述多个字符各自对应的字符向量分别输入到所述正向LSTM层和所述反向LSTM层中,以通过所述正向LSTM层得到所述多个字符各自对应的第一隐向量和所述反向LSTM层得到所述多个字符各自对应的第二隐向量;
所述第三生成单元,包括:
第二生成子单元,用于针对第i个字符,将所述第i个字符对应的第一隐向量和第二隐向量进行拼接以得到所述第i个字符的第三隐向量,并将所述第三隐向量输入到第i个注意力单元,以得到所述第三隐向量的注意力权重,所述i为大于或者等于1,且小于或者等于N的正整数。
7.如权利要求6所述的装置,其特征在于,所述正向LSTM层和反向LSTM层均包括N个LSTM单元,所述第一生成子单元,具体用于:
针对第1个字符,将所述第1个字符的字符向量输入到所述正向LSTM层中的第一个LSTM单元,以得到所述第一个字符的第一隐向量;
针对第i个字符,将所述第i个字符对应的字符向量以及将所述正向LSTM层中的第i-1个LSTM单元输出的隐向量输入到所述正向LSTM层中的第i个LSTM单元,以得到所述第i个字符的第一隐向量,其中,所述i为大于或者等于2,且小于或者等于N的正整数,其中,N为所述地址文本中的字符总数;
针对第j个字符,将所述第j个字符对应的字符向量以及将所述反向LSTM层中的第j+1个LSTM单元输出的隐向量输入到所述反向LSTM层中的第j个LSTM单元,以得到所述第j个字符的第二隐向量,其中,所述j为大于或者等于1,且小于N的正整数;
针对第N个字符,将所述第N个字符向量输入到所述反向LSTM层中的第N个LSTM单元,以得到所述第N个字符的第二隐向量。
8.如权利要求5-7任一项所述的装置,其特征在于,所述装置还包括:
删除模块,用于删除所述地址文本中的预设特殊符号。
9.一种电子设备,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一所述的异常地址文本的确定方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的异常地址文本的确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110729529.7A CN113449523B (zh) | 2021-06-29 | 2021-06-29 | 异常地址文本的确定方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110729529.7A CN113449523B (zh) | 2021-06-29 | 2021-06-29 | 异常地址文本的确定方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113449523A CN113449523A (zh) | 2021-09-28 |
CN113449523B true CN113449523B (zh) | 2024-05-24 |
Family
ID=77814085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110729529.7A Active CN113449523B (zh) | 2021-06-29 | 2021-06-29 | 异常地址文本的确定方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449523B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018040944A1 (zh) * | 2016-08-31 | 2018-03-08 | 阿里巴巴集团控股有限公司 | 恶意地址/恶意订单的识别系统、方法及装置 |
WO2019060327A1 (en) * | 2017-09-20 | 2019-03-28 | University Of Utah Research Foundation | ONLINE DETECTION OF ANOMALIES IN A NEWSPAPER USING AUTOMATIC APPRENTICESHIP |
CN109660676A (zh) * | 2018-10-11 | 2019-04-19 | 阿里巴巴集团控股有限公司 | 异常对象的识别方法、装置及设备 |
CN112069309A (zh) * | 2020-09-14 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 信息获取方法、装置、计算机设备及存储介质 |
CN112231431A (zh) * | 2020-12-11 | 2021-01-15 | 江苏苏宁银行股份有限公司 | 一种异常地址识别方法、设备和计算机可读存储介质 |
CN112711950A (zh) * | 2020-12-23 | 2021-04-27 | 深圳壹账通智能科技有限公司 | 地址信息抽取方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11824870B2 (en) * | 2018-12-19 | 2023-11-21 | Abnormal Security Corporation | Threat detection platforms for detecting, characterizing, and remediating email-based threats in real time |
CN110728526B (zh) * | 2019-08-19 | 2024-04-02 | 创新先进技术有限公司 | 地址识别方法、设备以及计算机可读介质 |
-
2021
- 2021-06-29 CN CN202110729529.7A patent/CN113449523B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018040944A1 (zh) * | 2016-08-31 | 2018-03-08 | 阿里巴巴集团控股有限公司 | 恶意地址/恶意订单的识别系统、方法及装置 |
WO2019060327A1 (en) * | 2017-09-20 | 2019-03-28 | University Of Utah Research Foundation | ONLINE DETECTION OF ANOMALIES IN A NEWSPAPER USING AUTOMATIC APPRENTICESHIP |
CN109660676A (zh) * | 2018-10-11 | 2019-04-19 | 阿里巴巴集团控股有限公司 | 异常对象的识别方法、装置及设备 |
CN112069309A (zh) * | 2020-09-14 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 信息获取方法、装置、计算机设备及存储介质 |
CN112231431A (zh) * | 2020-12-11 | 2021-01-15 | 江苏苏宁银行股份有限公司 | 一种异常地址识别方法、设备和计算机可读存储介质 |
CN112711950A (zh) * | 2020-12-23 | 2021-04-27 | 深圳壹账通智能科技有限公司 | 地址信息抽取方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
基于DNS日志数据的异常域名检测研究;朱迦南;中国优秀硕士学位论文全文数据库 信息科技辑(第09期);全文 * |
日志异常检测技术研究;杨瑞朋;屈丹;朱少卫;黄浩;;信息工程大学学报(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113449523A (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
WO2022088672A1 (zh) | 基于bert的机器阅读理解方法、装置、设备及存储介质 | |
CN110196982B (zh) | 上下位关系抽取方法、装置及计算机设备 | |
CN110580335A (zh) | 用户意图的确定方法及装置 | |
WO2021208727A1 (zh) | 基于人工智能的文本错误检测方法、装置、计算机设备 | |
CN110310114B (zh) | 对象分类方法、装置、服务器及存储介质 | |
CN111915437A (zh) | 基于rnn的反洗钱模型的训练方法、装置、设备及介质 | |
CN113657425A (zh) | 基于多尺度与跨模态注意力机制的多标签图像分类方法 | |
CN115269304A (zh) | 日志异常检测模型训练方法、装置及设备 | |
CN111382248A (zh) | 一种问题回复方法、装置、存储介质及终端设备 | |
CN112149754B (zh) | 一种信息的分类方法、装置、设备及存储介质 | |
CN115935344A (zh) | 一种异常设备的识别方法、装置及电子设备 | |
CN113486178A (zh) | 文本识别模型训练方法、文本识别方法、装置以及介质 | |
CN116663568A (zh) | 基于优先级的关键任务识别系统及其方法 | |
CN115392357A (zh) | 分类模型训练、标注数据样本抽检方法、介质及电子设备 | |
CN113806646A (zh) | 序列标注系统及序列标注模型的训练系统 | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN113449523B (zh) | 异常地址文本的确定方法、装置、电子设备和存储介质 | |
CN112668341A (zh) | 文本正则化方法、装置、设备和可读存储介质 | |
CN111738290A (zh) | 图像检测方法、模型构建和训练方法、装置、设备和介质 | |
CN116401522A (zh) | 一种金融服务动态化推荐方法和装置 | |
CN116245630A (zh) | 一种反欺诈检测方法、装置、电子设备及介质 | |
CN116089605A (zh) | 基于迁移学习和改进词袋模型的文本情感分析方法 | |
CN115238645A (zh) | 资产数据识别方法、装置、电子设备和计算机存储介质 | |
CN114117037A (zh) | 意图识别方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |