CN113076752A - 识别地址的方法和装置 - Google Patents

识别地址的方法和装置 Download PDF

Info

Publication number
CN113076752A
CN113076752A CN202110325543.0A CN202110325543A CN113076752A CN 113076752 A CN113076752 A CN 113076752A CN 202110325543 A CN202110325543 A CN 202110325543A CN 113076752 A CN113076752 A CN 113076752A
Authority
CN
China
Prior art keywords
address information
address
recognized
identified
numerical value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110325543.0A
Other languages
English (en)
Inventor
周雪
张少华
李娜
赵锡成
孟琳琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202110325543.0A priority Critical patent/CN113076752A/zh
Publication of CN113076752A publication Critical patent/CN113076752A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种识别地址的方法和装置,可以通过基于分类模型和分词模型的置信阈值标注体系对恶意地址进行识别,有利于提高恶意地址识别的准确率。该方法包括:将待识别地址信息输入至分类模型,获取第一数值,该第一数值用于表示该待识别地址信息为恶意地址的概率;若该第一数值小于或等于第一置信阈值,且该第一数值大于或等于第二置信阈值,将该待识别地址信息输入至分词模型,得到结构化地址信息,该分词模型用于将该待识别地址信息进行结构化划分,并对划分后的该待识别地址信息进行标注;基于该结构化地址信息,对该待识别地址信息进行识别。

Description

识别地址的方法和装置
技术领域
本申请涉及人工智能领域,更具体地,涉及一种识别地址的方法和装置。
背景技术
恶意地址源于黑色产业链冒充正常客户对运营商产品进行恶意订购的行为。恶意地址可以为不存在的虚假地址、行政区划分错乱的干扰地址以及无地址意义的垃圾地址等。恶意地址占用终端用户的网络资源,扰乱正常的信息技术(internet technology,IT)流程,使得IT系统的功能产生错误和偏差,无法对恶意地址进行解析和分词处理,因此需要在恶意地址进入正常IT流程之前将其识别并进行屏蔽。
目前,可以采用模板匹配的方法对恶意地址进行识别,该方法可以基于待识别地址信生成目标地址,并判断至少一个恶意地址模板中是否存在与该目标地址对应的恶意地址模板。
然而,由于恶意地址的随意性较强,采用上述方法进行恶意地址识别的准确率不高。
发明内容
本申请提供一种识别地址的方法和装置,可以通过基于分类模型和分词模型的置信阈值标注体系对恶意地址进行识别,有利于提高恶意地址识别的准确率。
第一方面,提供了一种识别地址的方法,包括:将待识别地址信息输入至分类模型,获取第一数值,该第一数值用于表示该待识别地址信息为恶意地址的概率,该分类模型包括位置嵌入层、分段嵌入层和词嵌入层,该位置嵌入层用于表示该待识别地址信息中词语的位置关系,该分段嵌入层用于区分该待识别地址信息中不同的语句,该词嵌入层用于将该待识别地址信息向量化;若该第一数值小于或等于第一置信阈值,且该第一数值大于或等于第二置信阈值,将该待识别地址信息输入至分词模型,得到结构化地址信息,该分词模型用于将该待识别地址信息进行结构化划分,并对划分后的该待识别地址信息进行标注;基于该结构化地址信息,对该待识别地址信息进行识别。
应理解,上述第一置信阈值大于或等于第二置信阈值。
本申请实施例采用分类模型结合第一置信阈值和第二置信阈值对待识别地址信息进行初步分类,并基于模型得分,即第一数值进一步采用分词模型对该待识别地址信息进行识别。由于分类模型可以保留相对完整意义上的待识别地址的语义信息,且分词模型可以完整实现对待识别地址信息的划分和标注,最大限度地保留了地理位置相关的完整实体信息,因此,有利于提高识别地址的准确率。
结合第一方面,在第一方面的某些实现方式中,基于该结构化地址信息,对该待识别地址信息进行识别,包括:基于该结构化地址信息,确定第一地址信息;将该第一地址信息与地址库中的地址信息进行匹配,以对该待识别地址信息进行识别。
结合第一方面,在第一方面的某些实现方式中,该地址库包括第一地址库,将该第一地址信息与地址库中的地址信息进行匹配,以对该待识别地址信息进行识别,包括:若该第一地址信息与该第一地址库中的地址信息匹配成功,确定该待识别地址信息为正常地址。
结合第一方面,在第一方面的某些实现方式中,该地址库还包括第二地址库,将该第一地址信息与地址库中的地址信息进行匹配,以对该待识别地址信息进行识别,包括:若该第一地址信息与该第一地址库中的地址信息匹配失败,获取该第一地址信息中的多个关键词;将该多个关键词与该第二地址库中的地址信息进行匹配,得到第二数值;基于该第二数值,对该待识别地址信息进行识别。
结合第一方面,在第一方面的某些实现方式中,基于上述第二数值,对该待识别地址信息进行识别,包括:若该第二数值大于或等于第三置信阈值,确定该待识别地址信息为正常地址;或者,若该第二数值小于或等于第三置信阈值,确定该待识别地址信息为恶意地址。
结合第一方面,在第一方面的某些实现方式中,在将待识别地址信息输入至分类模型,获取第一数值之后,若该第一数值大于或等于该第一置信阈值,确定该待识别地址信息为恶意地址;或者,若该第一数值小于或等于所述第二置信阈值,确定该待识别地址信息为正常地址。
第二方面,提供了一种识别地址的装置,用于执行上述第一方面中任一种可能的实现方式中的方法。具体地,该装置包括用于执行上述第一方面中任一种可能的实现方式中的方法的模块。
第三方面,提供了一种提供了另一种识别地址的装置,包括处理器,该处理器与存储器耦合,可用于执行存储器中的指令,以实现上述第一方面中任一种可能实现方式中的方法。可选地,该装置还包括存储器。可选地,该装置还包括通信接口,处理器与通信接口耦合。
在一种实现方式中,该识别地址的装置为地址识别设备。当该识别地址的装置为地址识别设备时,通信接口可以是收发器,或,输入/输出接口。
在另一种实现方式中,该基站开站装置为配置于地址识别设备中的芯片。当该识别地址的装置为配置于地址识别设备中的芯片时,通信接口可以是输入/输出接口。
第四方面,提供了一种处理器,包括:输入电路、输出电路和处理电路。处理电路用于通过输入电路接收信号,并通过输出电路发射信号,使得处理器执行上述第一方面中任一种可能实现方式中的方法。
在具体实现过程中,上述处理器可以为芯片,输入电路可以为输入管脚,输出电路可以为输出管脚,处理电路可以为晶体管、门电路、触发器和各种逻辑电路等。输入电路所接收的输入的信号可以是由例如但不限于接收器接收并输入的,输出电路所输出的信号可以是例如但不限于输出给发射器并由发射器发射的,且输入电路和输出电路可以是同一电路,该电路在不同的时刻分别用作输入电路和输出电路。本申请实施例对处理器及各种电路的具体实现方式不做限定。
第五方面,提供了一种处理装置,包括处理器和存储器。该处理器用于读取存储器中存储的指令,并可通过接收器接收信号,通过发射器发射信号,以执行上述第一方面中任一种可能实现方式中的方法。
可选地,处理器为一个或多个,存储器为一个或多个。
可选地,存储器可以与处理器集成在一起,或者存储器与处理器分离设置。
在具体实现过程中,存储器可以为非瞬时性(non-transitory)存储器,例如只读存储器(read only memory,ROM),其可以与处理器集成在同一块芯片上,也可以分别设置在不同的芯片上,本申请实施例对存储器的类型以及存储器与处理器的设置方式不做限定。
应理解,相关的数据交互过程例如发送指示信息可以为从处理器输出指示信息的过程,接收能力信息可以为处理器接收输入能力信息的过程。具体地,处理输出的数据可以输出给发射器,处理器接收的输入数据可以来自接收器。其中,发射器和接收器可以统称为收发器。
上述第五方面中的处理装置可以是一个芯片,该处理器可以通过硬件来实现也可以通过软件来实现,当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于该处理器之外,独立存在。
第六方面,提供了一种计算机程序产品,计算机程序产品包括:计算机程序(也可以称为代码,或指令),当计算机程序被运行时,使得计算机执行上述第一方面中任一种可能实现方式中的方法。
第七方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序(也可以称为代码,或指令)当其在计算机上运行时,使得计算机执行上述第一方面中任一种可能实现方式中的方法。
附图说明
图1是本申请实施例提供的一种置信阈值标注体系的示意图;
图2是本申请实施例提供的一种分类模型的结构示意图;
图3是本申请实施例提供的一种识别地址的方法的示意性流程图;
图4是本申请实施例提供的另一种识别地址的方法的示意性流程图;
图5是本申请实施例提供的一种识别地址的装置的示意性框图;
图6是本申请实施例提供的另一种识别地址的装置的示意性框图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
常见的恶意地址表现为不存在的虚假地址、行政区划分错乱的干扰地址以及无地址意义的垃圾地址等。恶意地址会对正常的IT系统产生干扰,无法对恶意地址进行正常的解析和分词处理。因此需要在恶意地址进入正常的IT流程之前将其识别出来并进行屏蔽。
当前,进行恶意地址识别的难点主要在于:
1、恶意地址的随意性较强。恶意地址经常包括非规范行政区划分信息、不存在的地址信息或无意义的文本描述信息,并且表述混乱模糊,这导致行政区划分层级错误,普通的地址识别算法无法识别并正确解析这类地址问题。
2、恶意地址内容缺少逻辑性。恶意地址内容之间是缺失逻辑性的,这同样可能导致普通的地址识别算法无法对恶意地址的内容进行解析。
在一种可能的实现方式中,可以利用存储的至少一个恶意地址模板与待识别地址信息进行匹配,判断至少一个恶意地址模板中是否存在与该待识别地址信息对应的恶意地址模板,若存在,则确定该待识别地址信息为恶意地址,否则,则确定该待识别地址为正常地址。
然而,由于恶意地址的随意性较强,该方法需要数量巨大的恶意地址模板,且难以准确的匹配,识别的准确率不高。
在另一种可能的实现方式中,可以将待识别地址信息进行层级化处理,利用层级之间的关系建立正则表达式匹配规则,并根据该正则表达式匹配规则对该待识别地址信息进行识别。
然而,该方法存在地址碎片化问题,无法准确定位完整的地理实体信息,同时正则表达式匹配规则异常复杂,维护工作量巨大。
鉴于对恶意地址识别的准确率不高的问题,本申请实施例了提供一种识别地址的方法和装置,可以通过基于分类模型和分词模型的置信阈值标注体系对恶意地址进行识别,有利于提高恶意地址识别的准确性。
在介绍本申请实施例提供的识别地址的方法和装置之前,先做出以下几点说明。
第一,在下文示出的实施例中,各术语及英文缩略语,如待识别地址信息、分类模型、分词模型、置信阈值等,均为方便描述而给出的示例性举例,不应对本申请构成任何限定。本申请并不排除在已有或未来的协议中定义其它能够实现相同或相似功能的术语的可能。
第二,在下文示出的实施例中第一、第二以及各种数字编号仅为描述方便进行的区分,并不用来限制本申请实施例的范围。例如,区分不同的置信阈值等。
第三,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a、b和c中的至少一项(个),可以表示:a,或b,或c,或a和b,或a和c,或b和c,或a、b和c,其中a,b,c可以是单个,也可以是多个。
图1是本申请实施例提供的一种置信阈值标注体系100的示意图。如图1所示,置信阈值标注体系100包括分类模型110、分词模型120和阈值评价单元130。
在一种可能的实现方式中,可以基于分类模型110对待识别地址信息进行初步分类,得到分类得分,并基于阈值评价单元130对该分类得分进行判断,得到该待识别地址信息的识别结果。
示例性地,阈值评价单元130可基于第一置信阈值和第二置信阈值对分类模型110的分类得分进行判断,得到该待识别地址信息的识别结果。
在另一种可能的实现方式中,还可以基于分类模型110的分类得分,进一步采用分词模型120对该待识别地址信息进行分词,得到分词结果,并基于阈值评价单元130对该分词结果进行判断,得到该待识别地址信息的识别结果。
示例性地,阈值评价单元130还可以基于第三置信阈值对分词模型120的分词结果进行判断,得到该待识别地址信息的识别结果。
上述识别结果可以为正常地址,也可以为恶意地址。
在本申请实施例中,上述分类模型110是以中文预训练模型为基础进行训练得到的。中文预训练模型是以transformer为核心的多层双向编码器,例如,双向transformer的编码器(bidirectional encoder representation from transformers,BERT)模型。分词模型120可以为双向长短期记忆(long-short term memory,LSTM)深度神经网络模型。
下面将结合图2对分类模型110的结构进行详细介绍。如图2所示,该模型的结构包括:输入层、嵌入(embedding)层、编码(encoder)层、意图识别和槽位填充层。
1、输入层:用于输入一个文本,在进入嵌入层前,需要在句子开头插入[CLS]标记,用作整个句子的整合特征,用于句子分类任务。此外,还需要在每个句子的末尾插入[SEP]标记,用于分隔每个句子。
2、嵌入层:用于输出与上述输入层的文本一一对应的词嵌入向量信息。该层的输入是上述输入层的输入文本的每个字对应的字向量、文本向量和位置向量,该层的输出是字向量、文本向量和位置向量求和得到的输入文本每个字对应的词向量信息,例如,图2中的e1~e5。
3、编码层:内部架构是多层双向transformer结构,例如,可以是12层,也可以是8层,本申请对transformer编码器的层数不做限定。transformer编码器的关键部分是多头自注意力(multi-head self-attention)机制。
编码层的输入和输出在形式上完全相同,输入是文本中各个字的原始词向量信息,输出是各个字融合了全文语义信息后的增强向量信息。
4、意图识别和槽位填充层:用于将句子分类的[CLS]信息对应的编码向量(例如,图2中的h1,h1是h2~h5求加权平均的结果)输入至一个全连接(fully connected,FC)层,预测出输入文本的意图,将剩余文本对应的编码向量(例如,图2中的h2~h5)输入至另一个FC层,预测出输入文本的槽位信息。
在本申请实施例中,分类模型的训练旨在让机器对恶意地址进行识别,通常可以采用BERT模型结合文本分类技术进行微调的方式训练分类模型,具体的训练过程如下:
首先,获取大量的带有标注的地址信息;将该带有标注的地址信息输入至BERT模型以对该BERT模型进行训练,此过程用于调整BERT模型的权重参数,也可以称为微调(fine-tuning),这样即可得到训练好的分类模型。
在使用该训练好的分类模型时,可以将未标注的待识别地址信息作为输入文本输入至该训练好的分类模型中,这样即可获得该待识别地址信息对应的意图信息和槽位信息。
下面将结合图3对本申请实施例提供的识别地址的方法进行详细描述。
本申请实施例提供的识别地址的方法的步骤和/或流程可以由地址识别设备来执行,示例性地,该地址识别设备可以是具有执行识别地址的方法的步骤和/或流程的功能的服务器,还可以是其他具有执行该识别地址的方法的功能的设备,本申请实施例在此不作限制。
图3是本申请实施例提供的一种识别地址的方法300的示意性流程图,方法300包括以下步骤:
S301,将待识别地址信息输入至分类模型,获取第一数值。
上述第一数值用于表示该待识别地址信息为恶意地址的概率,该分类模型包括位置嵌入层、分段嵌入层和词嵌入层,该位置嵌入层用于表示该待识别地址信息中词语的位置关系,该分段嵌入层用于区分该待识别地址信息中不同的语句,该词嵌入层用于将该待识别地址信息向量化。
S302,若该第一数值小于或等于第一置信阈值,且该第一数值大于或等于第二置信阈值,将该待识别地址信息输入至分词模型,得到结构化地址信息,该分词模型用于将该待识别地址信息进行结构化划分,并对划分后的该待识别地址信息进行标注。
S303,基于该结构化地址信息,对该待识别地址信息进行识别。
应理解,第一置信阈值大于或等于第二置信阈值,且该第一置信阈值和该第二置信阈值可基于运营商对大量地址信息的统计分析得到。
本申请实施例采用分类模型结合第一置信阈值和第二置信阈值对待识别地址信息进行初步分类,并基于模型得分,即第一数值进一步采用分词模型对该待识别地址信息进行识别。由于分类模型可以保留相对完整意义上的待识别地址的语义信息,且分词模型可以完整实现对待识别地址信息的划分和标注,最大限度地保留了地理位置相关的完整实体信息,因此有利于提高识别地址的准确率。
上述分词模型可以实现地址解析,将非结构化的待识别地址信息转换成结构化表示形式,从完整待识别地址信息识别出地址要素并进行划分并进行标注,从而得到结构化地址。
示例性的,分词模型可以将输入的待识别地址信息按照七级地址规范进行划分,划分为第一级:省,第二级:市,第三级:地市/区/县,第四级:镇/乡/街道,第五级:路/村/开发区,第六级:住宅/单位名称/商业名称/站点/路口/地标/组/屯/委/队/房/亩/庄/寨/井,第七级:门牌号。经过这样的划分和标注,可以最大限度地保留地理位置相关的完整实体信息。
示例性地,第六级中的住宅可以包括下列地址要素中的一种或多种:小区、里、公寓、院、社区、委员会、巷、区、社、域、弄、湾、府、苑、庭或支弄。
示例性地,第六级中的单位名称可以包括下列地址要素中的一种或多种:大厦、大楼、集团、写字楼、公司、工厂、学校、场、医院或宿舍。
示例性地,第六级中的商业名称可以包括下列地址要素中的一种或多种:中心、商场、商圈、餐厅、局、厅、房、工地、科技园、商贸城、酒店、超市、馆、铺、公寓、市场、饭店或花园。
示例性地,第六级中的站点可以包括下列地址要素中的一种或多种:火车、汽车、机场、公交车、地铁、站、坟或堡。
示例性地,第六级中的路口可以包括下列地址要素中的一种或多种:交叉口、路口、段、路、道、条、东、南、西或北。
示例性地,第六级中的地标可以包括下列地址要素中的一种或多种:河、桥、湖、江或寺。
示例性地,第七级中的门牌号可以包括下列地址要素中的一种或多种:号、单元、期、户、胡同、室、楼、门、栋、幢、层或房。
除了上述的七级地址规范之外,还可以设置0级来标识无用的或冗余的信息,这可以为后续的过滤和识别提供便利。例如电联、右拐、100米或方位词等。
以地址文本信息“湖北武汉市东西湖区xx建筑工地”为例,经过分词模型的划分,该地址文本信息对应的结构化地址信息可以表示为:湖北[1.省]武汉市[2.市]东西湖区[3.区]xx建筑工地[6.工地]。
作为一个可选的实施例,S303包括:基于该结构化地址信息,确定第一地址信息;将该第一地址信息与地址库中的地址信息进行匹配,以对该待识别地址信息进行识别。
在本申请实施例中,可以从分词模型输出的结构化地址信息中单独提取前三级省市区地址信息,并剔除0级(干扰项),保留第一地址信息,该第一地址信息即为将第四级至第七级合并后对应的详细地址信息。在相同的前三级省市区地址信息下,将该详细地址信息与地址库中的存储的详细地址信息进行匹配,以此实现对该待识别地址信息的识别。
应理解,该地址库中存储的地址信息为正常地址信息。
作为一个可选的实施例,该地址库包括第一地址库,将该第一地址信息与地址库中的地址信息进行匹配,以对该待识别地址信息进行识别,包括:若该第一地址信息与该第一地址库中的地址信息匹配成功,确定该待识别地址信息为正常地址。
在本申请实施例中,可以将上述结构化地址信息中的详细地址信息与第一地址库中的详细地址信息进行精确匹配,若精确匹配成功,则可以确定该待识别地址信息为正常地址。这样,有助于提高地址识别的准确率。
作为一个可选的实施例,该地址库还包括第二地址库,将该第一地址信息与地址库中的地址信息进行匹配,以对该待识别地址信息进行识别,包括:若该第一地址信息与该第一地址库中的地址信息匹配失败,获取该第一地址信息中的多个关键词;将该多个关键词与该第二地址库中的地址信息进行匹配,得到第二数值;基于该第二数值,对该待识别地址信息进行识别。
在本申请实施例中,若采用上述的精确匹配失败,则可以进一步采用模糊匹配的方式对该待识别地址信息进行识别。将在进行模糊匹配时,可以提取该详细地址信息中的多个关键词,基于该多个关键词与第二地址库中的地址信息进行模糊匹配,这样对待识别地址信息的进一步识别有助于提高地址识别的准确率。
示例性地,可以基于ElasticSearch软件从第二地址库中查询地址信息以对该结构化地址信息中的详细地址信息进行模糊匹配,并返回模糊匹配相似度,即该第二数值。
应理解,上述第一地址库和第二地址库可以为同一个地址库,也可以为不同的地址库,此处不做限制。
作为一个可选的实施例,基于上述第二数值,对该待识别地址信息进行识别,包括:若该第二数值大于或等于第三置信阈值,确定该待识别地址信息为正常地址;或者,若该第二数值小于或等于第三置信阈值,确定该待识别地址信息为恶意地址。
在本申请实施例中,该第三置信阈值表示模糊匹配的相似度阈值,由于该第二地址库中的地址信息为正常地址信息,因此当该第二数值大于或等于第三置信阈值时,可以确定该待识别地址信息为正常地址,当该第二数值小于或等于第三置信阈值时,可以确定该待识别地址信息为恶意地址。
应理解,该第三置信阈值可基于运营商对大量地址信息的统计分析得到。
作为一个可选的实施例,在S301之后,方法300还包括:若该第一数值大于或等于该第一置信阈值,确定该待识别地址信息为恶意地址;或者,若该第一数值小于或等于所述第二置信阈值,确定该待识别地址信息为正常地址。
本申请实施例可以采用分类模型对待识别地址信息进行识别,由于在使用该分类模型之前已采用大量带有标注的地址信息对其进行训练和优化,并且分类模型可以保留相对完整意义上的文本语义信息,因此有助于提高地址识别的准确性。
上文中描述了基于第一置信阈值、第二置信阈值以及第三置信阈值对分类模型和分词模型的输出结果进行判断的过程,可以将其称为置信阈值标注体系,该置信阈值标注体系可以有效结合模型输出结果和地址库中的地址信息,使得整个识别过程更加具有鲁棒性,识别结果更加准确。
图4是本申请实施例提供的另一种识别地址的方法400的示意性流程图。在方法400中,上述分类模型为BERT分类模型,上述分词模型为LSTM分词模型,方法400包括以下步骤:
S401,将待识别地址信息输入至BERT分类模型,得到模型得分。
应理解,该模型得分即为上文中描述的第一数值,用于表示该待识别地址信息为恶意地址信息的概率。
S402,判断该模型得分是否大于或等于a。
若模型得分大于或等于a,则说明该待识别地址信息极为可疑,可以将其标注为恶意地址;若模型得分小于a,则执行S403。应理解,a即为上文中描述的第一置信阈值。
S403,判断该模型得分是否大于或等于b。
若该模型得分大于或等于b,则执行S404;若模型得分小于b,则说明该待识别地址信息正常,可以将其标注为正常地址。应理解,b即为上文中描述的第二置信阈值。
S404,将待识别地址信息输入至LSTM分词模型,得到结构化地址信息。
S405,将该结构化地址信息中第四级至第七级的地址信息进行合并,得到详细地址信息。
S406,将该详细地址信息与历史地址库中的地址信息进行精确匹配。
S407,判断该精确匹配成功。
若精确匹配成功,则说明历史地址库存储的正常地址信息中存在该详细地址信息,可以将待识别地址信息标注为正常地址;若精确匹配失败,则执行S408。
S408,将详细地址信息与历史地址库中的地址信息进行模糊匹配,得到模糊匹配相似度。
S409,判断模糊匹配相似度是否大于或等于c。
若模糊匹配相似度大于或等于c,则说明在历史地址库中存在与待识别地址信息相似度较高的地址信息,可以将该待识别地址信息标注为正常地址;若模糊匹配相似度小于c,可以将其标注为恶意地址。
下面将结合表一至表五,以一个小数据量的待识别地址信息场景为例,对本申请提供的识别地址的方法进行示例说明。
如表一所示,其中表一包括10条待识别地址信息。表二是经过BERT分类模型的恶意地址识别结果,最后一列的模型得分是BERT分类模型输出的结果,得到的是0~1之间的一个概率值,该概率值越大,越接近1,则说明该概率值对应的待识别地址信息为恶意地址的可能性越大。
表一
Figure BDA0002994512800000121
表二
Figure BDA0002994512800000122
Figure BDA0002994512800000131
在通过BERT分类模型进行恶意地址识别的过程中,示例性地,可以将第一置信阈值a设定为0.99,大于或等于0.99的待识别地址信息的恶意程度较大,可以将其标注为恶意地址。由表二可知,地址1的模型得分为0.991863,地址3的模型得分为0.998579,地址4的模型得分为0.992001,均大于0.99,因此可以将地址1、地址3和地址4标注为恶意地址。
示例性地,可以将第一置信阈值b设定为0.7,小于0.7的待识别地址信息的恶意程度较小,可以将其标注为正常地址。由表二可知,地址2的模型得分为0.011814,地址6的模型得分为0.012857,地址7的模型得分为0.008508,地址9的模型得分为0.506378,均小于0.7,因此可以将地址2、地址6、地址7和地址9标注为正常地址。
对于剩余的地址5、地址8和地址10,可以通过LSTM分词模型对地址信息进行解析,将非结构化的地址文本信息转换为结构化表示形式,从整体待识别地址信息中识别出地址要素并进行划分,尽可能地保留地理位置相关的完整实体信息。采用LSTM分词模型对地址信息进行解析的结果见表三。
表三
Figure BDA0002994512800000132
Figure BDA0002994512800000141
在通过LSTM分词模型对地址信息进行解析,得到结构化地址信息之后,首先将待识将第四级至第七级地址信息进行合并,得到详细地址信息,并将该详细地址信息与历史地址库中的地址信息进行精确匹配,精确匹配失败后再进行模糊匹配,匹配结果见表四。
表四
Figure BDA0002994512800000142
由表四可知,地址8与历史地址库中的地址信息可以精确匹配成功,因此可以将其标注为正常地址。而地址5和地址8精确匹配失败,因此需要进一步通过模糊匹配来识别。
示例性的,可以将第三置信阈值c设定为35,由表四可知,地址5的模糊匹配相似度为26.53927<35,因此可以将地址5标注为恶意地址。地址10的模糊匹配相似度为36.6112>35,因此可以将地址10标注为正常地址。
所有待识别地址信息的识别结果见表五。
表五
Figure BDA0002994512800000143
Figure BDA0002994512800000151
应理解,上述第一置信阈值、第二置信阈值和第三置信阈值的取值是基于经验而得,本申请实施例中的取值仅为示例性的,还可以有其他不同的取值,本申请实施例对此不做限制。
应理解,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
上文中结合图1至图4,详细描述了根据本申请实施例的识别地址的方法,下面将结合图5和图6详细描述根据本申请实施例的识别地址的装置。
图5示出了本申请实施例提供的一种识别地址的装置500的示意性框图,该装置500包括:获取模块510和处理模块520。
其中,获取模块510用于:将待识别地址信息输入至分类模型,获取第一数值,该第一数值用于表示该待识别地址信息为恶意地址的概率,该分类模型包括位置嵌入层、分段嵌入层和词嵌入层,该位置嵌入层用于表示该待识别地址信息中词语的位置关系,该分段嵌入层用于区分该待识别地址信息中不同的语句,该词嵌入层用于将该待识别地址信息向量化;获取模块510还用于:若该第一数值小于或等于第一置信阈值,且该第一数值大于或等于第二置信阈值,将该待识别地址信息输入至分词模型,得到结构化地址信息,该分词模型用于将该待识别地址信息进行结构化划分,并对划分后的该待识别地址信息进行标注;处理模块520用于:基于该结构化地址信息,对该待识别地址信息进行识别。
可选地,处理模块520用于:基于该结构化地址信息,确定第一地址信息;以及,将该第一地址信息与地址库中的地址信息进行匹配,以对该待识别地址信息进行识别。
可选地,该地址库包括第一地址库,处理模块520用于:若该第一地址信息与该第一地址库中的地址信息匹配成功,确定该待识别地址信息为正常地址。
可选地,该地址库还包括第二地址库,处理模块520用于:若该第一地址信息与该第一地址库中的地址信息匹配失败,获取该第一地址信息中的多个关键词;将该多个关键词与该第二地址库中的地址信息进行匹配,得到第二数值;以及,基于该第二数值,对该待识别地址信息进行识别。
可选地,处理模块520用于:若该第二数值大于或等于第三置信阈值,确定该待识别地址信息为正常地址;或者,若该第二数值小于或等于该第三置信阈值,确定该待识别地址信息为恶意地址。
可选地,处理模块520用于:若该第一数值大于或等于该第一置信阈值,确定该待识别地址信息为恶意地址;或者,若该第一数值小于或等于该第二置信阈值,确定该待识别地址信息为正常地址。
应理解,这里的装置500以功能模块的形式体现。这里的术语“模块”可以指应用特有集成电路(application specific integrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。在一个可选例子中,本领域技术人员可以理解,装置500可以具体为上述实施例中的地址识别设备,或者,上述实施例中地址识别设备的功能可以集成在装置500中,装置500可以用于执行上述方法实施例中与地址识别设备对应的各个流程和/或步骤,为避免重复,在此不再赘述。
上述装置500具有实现上述方法中地址识别设备执行的相应步骤的功能;上述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。例如,上述获取模块510可以为通信接口,例如收发接口。
在本申请的实施例,图5中的装置500也可以是芯片或者芯片系统,例如:片上系统(system on chip,SoC)。对应的,获取模块510可以是该芯片的收发电路,在此不做限定。
图6示出了本申请实施例提供的另一种识别地址的装置600的示意性框图。该装置600包括处理器610、收发器620和存储器630。其中,处理器610、收发器620和存储器630通过内部连接通路互相通信,该存储器630用于存储指令,该处理器610用于执行该存储器630存储的指令,以控制该收发器620发送信号和/或接收信号。
应理解,装置600可以具体为上述实施例中的地址识别设备,或者,上述实施例中地址识别设备的功能可以集成在装置600中,装置600可以用于执行上述方法实施例中与地址识别设备对应的各个步骤和/或流程。可选地,该存储器630可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。该处理器610可以用于执行存储器中存储的指令,并且该处理器执行该指令时,该处理器可以执行上述方法实施例中与地址识别设备对应的各个步骤和/或流程。
应理解,在本申请实施例中,该处理器610可以是中央处理单元(centralprocessing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器执行存储器中的指令,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种识别地址的方法,其特征在于,包括:
将待识别地址信息输入至分类模型,获取第一数值,所述第一数值用于表示所述待识别地址信息为恶意地址的概率,所述分类模型包括位置嵌入层、分段嵌入层和词嵌入层,所述位置嵌入层用于表示所述待识别地址信息中词语的位置关系,所述分段嵌入层用于区分所述待识别地址信息中不同的语句,所述词嵌入层用于将所述待识别地址信息向量化;
若所述第一数值小于或等于第一置信阈值,且所述第一数值大于或等于第二置信阈值,将所述待识别地址信息输入至分词模型,得到结构化地址信息,所述分词模型用于将所述待识别地址信息进行结构化划分,并对划分后的所述待识别地址信息进行标注;
基于所述结构化地址信息,对所述待识别地址信息进行识别。
2.根据权利要求1所述的方法,其特征在于,所述基于所述结构化地址信息,对所述待识别地址信息进行识别,包括:
基于所述结构化地址信息,确定第一地址信息;
将所述第一地址信息与地址库中的地址信息进行匹配,以对所述待识别地址信息进行识别。
3.根据权利要求2所述的方法,其特征在于,所述地址库包括第一地址库,所述将所述第一地址信息与地址库中的地址信息进行匹配,以对所述待识别地址信息进行识别,包括:
若所述第一地址信息与所述第一地址库中的地址信息匹配成功,确定所述待识别地址信息为正常地址。
4.根据权利要求3所述的方法,其特征在于,所述地址库还包括第二地址库,所述将所述第一地址信息与地址库中的地址信息进行匹配,以对所述待识别地址信息进行识别,包括:
若所述第一地址信息与所述第一地址库中的地址信息匹配失败,获取所述第一地址信息中的多个关键词;
将所述多个关键词与所述第二地址库中的地址信息进行匹配,得到第二数值;
基于所述第二数值,对所述待识别地址信息进行识别。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第二数值,对所述待识别地址信息进行识别,包括:
若所述第二数值大于或等于第三置信阈值,确定所述待识别地址信息为正常地址;或者,
若所述第二数值小于或等于所述第三置信阈值,确定所述待识别地址信息为恶意地址。
6.根据权利要求1-5中任一项所述的方法,其特征在于,在将待识别地址信息输入至分类模型,获取第一数值之后,所述方法还包括:
若所述第一数值大于或等于所述第一置信阈值,确定所述待识别地址信息为恶意地址;或者,
若所述第一数值小于或等于所述第二置信阈值,确定所述待识别地址信息为正常地址。
7.一种识别地址的装置,其特征在于,包括:
获取模块:用于将待识别地址信息输入至分类模型,获取第一数值,所述第一数值用于表示所述待识别地址信息为恶意地址的概率,所述分类模型包括位置嵌入层、分段嵌入层和词嵌入层,所述位置嵌入层用于表示所述待识别地址信息中词语的位置关系,所述分段嵌入层用于区分所述待识别地址信息中不同的语句,所述词嵌入层用于将所述待识别地址信息向量化;
所述获取模块还用于:若所述第一数值小于或等于第一置信阈值,且所述第一数值大于或等于第二置信阈值,将所述待识别地址信息输入至分词模型,得到结构化地址信息,所述分词模型用于将所述待识别地址信息进行结构化划分,并对划分后的所述待识别地址信息进行标注;
处理模块:用于基于所述结构化地址信息,对所述待识别地址信息进行识别。
8.根据权利要求7所述的装置,其特征在于,所述处理模块具体用于:
基于所述结构化地址信息,确定第一地址信息;
将所述第一地址信息与地址库中的地址信息进行匹配,以对所述待识别地址信息进行识别。
9.一种识别地址的装置,其特征在于,包括:处理器,所述处理器与存储器耦合,所述存储器用于存储计算机程序,当所述处理器调用所述计算机程序时,使得所述装置执行如权利要求1-6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序包括用于实现如权利要求1-6中任一项所述的方法的指令。
CN202110325543.0A 2021-03-26 2021-03-26 识别地址的方法和装置 Pending CN113076752A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110325543.0A CN113076752A (zh) 2021-03-26 2021-03-26 识别地址的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110325543.0A CN113076752A (zh) 2021-03-26 2021-03-26 识别地址的方法和装置

Publications (1)

Publication Number Publication Date
CN113076752A true CN113076752A (zh) 2021-07-06

Family

ID=76610479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110325543.0A Pending CN113076752A (zh) 2021-03-26 2021-03-26 识别地址的方法和装置

Country Status (1)

Country Link
CN (1) CN113076752A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707513A (zh) * 2022-03-22 2022-07-05 腾讯科技(深圳)有限公司 一种文本语义识别方法、装置、电子设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066478A (zh) * 2016-12-14 2017-08-18 阿里巴巴集团控股有限公司 一种虚假地址信息识别的方法及装置
CN107798571A (zh) * 2016-08-31 2018-03-13 阿里巴巴集团控股有限公司 恶意地址/恶意订单的识别系统、方法及装置
CN110069626A (zh) * 2017-11-09 2019-07-30 菜鸟智能物流控股有限公司 一种目标地址的识别方法、分类模型的训练方法以及设备
CN110928971A (zh) * 2019-11-21 2020-03-27 深圳无域科技技术有限公司 一种提高地址识别精确度的方法及装置
CN111414357A (zh) * 2019-01-07 2020-07-14 阿里巴巴集团控股有限公司 地址数据处理方法、装置、系统和存储介质
CN111783419A (zh) * 2020-06-12 2020-10-16 上海东普信息科技有限公司 地址相似度计算方法、装置、设备和存储介质
CN112231431A (zh) * 2020-12-11 2021-01-15 江苏苏宁银行股份有限公司 一种异常地址识别方法、设备和计算机可读存储介质
CN112417881A (zh) * 2020-12-17 2021-02-26 江苏满运物流信息有限公司 物流信息识别方法、装置、电子设备、存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798571A (zh) * 2016-08-31 2018-03-13 阿里巴巴集团控股有限公司 恶意地址/恶意订单的识别系统、方法及装置
CN107066478A (zh) * 2016-12-14 2017-08-18 阿里巴巴集团控股有限公司 一种虚假地址信息识别的方法及装置
CN110069626A (zh) * 2017-11-09 2019-07-30 菜鸟智能物流控股有限公司 一种目标地址的识别方法、分类模型的训练方法以及设备
CN111414357A (zh) * 2019-01-07 2020-07-14 阿里巴巴集团控股有限公司 地址数据处理方法、装置、系统和存储介质
CN110928971A (zh) * 2019-11-21 2020-03-27 深圳无域科技技术有限公司 一种提高地址识别精确度的方法及装置
CN111783419A (zh) * 2020-06-12 2020-10-16 上海东普信息科技有限公司 地址相似度计算方法、装置、设备和存储介质
CN112231431A (zh) * 2020-12-11 2021-01-15 江苏苏宁银行股份有限公司 一种异常地址识别方法、设备和计算机可读存储介质
CN112417881A (zh) * 2020-12-17 2021-02-26 江苏满运物流信息有限公司 物流信息识别方法、装置、电子设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何小波 等: "规则匹配和深度学习结合的文本空间信息识别及定位" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707513A (zh) * 2022-03-22 2022-07-05 腾讯科技(深圳)有限公司 一种文本语义识别方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
Liu et al. Classifying urban land use by integrating remote sensing and social media data
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN110363049B (zh) 图形元素检测识别和类别确定的方法及装置
CN107203526B (zh) 一种查询串语义需求分析方法及装置
CN114139533B (zh) 一种面向中文小说领域的文本内容审核方法
KR20230005408A (ko) 멀티 모달 poi 특징의 추출 방법 및 장치
US20220301334A1 (en) Table generating method and apparatus, electronic device, storage medium and product
CN110866402A (zh) 一种命名实体识别的方法、装置、存储介质及电子设备
CN110851546A (zh) 一种验证、模型的训练、模型的共享方法、系统及介质
CN115017425B (zh) 地点检索方法、装置、电子设备以及存储介质
AU2021203227A1 (en) Querying semantic data from unstructured documents
CN112836057B (zh) 知识图谱的生成方法、装置、终端以及存储介质
CN115470307A (zh) 一种地址匹配方法及装置
Ardanuy et al. A deep learning approach to geographical candidate selection through toponym matching
CN113076752A (zh) 识别地址的方法和装置
CN113642313A (zh) 地址文本的处理方法、装置、设备、存储介质及程序产品
CN114240568A (zh) 关联产品的推荐方法和推荐装置
Lin et al. An unsupervised transformer-based multivariate alteration detection approach for change detection in VHR remote sensing images
CN111460044A (zh) 地理位置数据处理方法及装置
CN111738290B (zh) 图像检测方法、模型构建和训练方法、装置、设备和介质
Praptono et al. An automatic detection method for high density slums based on regularity pattern of housing using Gabor filter and GINI index
CN113468881B (zh) 一种地址标准化方法及装置
CN115185986A (zh) 省市区地址信息匹配方法、装置、计算机设备及存储介质
CN115129885A (zh) 实体链指方法、装置、设备及存储介质
CN112668590A (zh) 基于图像特征空间和空域空间的视觉词组构建方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination