CN113887229A - 地址信息的识别方法、装置、计算机设备及存储介质 - Google Patents

地址信息的识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113887229A
CN113887229A CN202111151621.6A CN202111151621A CN113887229A CN 113887229 A CN113887229 A CN 113887229A CN 202111151621 A CN202111151621 A CN 202111151621A CN 113887229 A CN113887229 A CN 113887229A
Authority
CN
China
Prior art keywords
address
information
preset
labeling
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111151621.6A
Other languages
English (en)
Inventor
魏万顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202111151621.6A priority Critical patent/CN113887229A/zh
Publication of CN113887229A publication Critical patent/CN113887229A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机技术领域,公开了一种地址信息识别方法、装置、计算机设备及存储介质,用于提高识别地址信息的准确度。本发明提供的方法包括:获取用户端输入的待识别地址文本,通过关键词提取的方式,提取所述待识别文本中的地址信息,作为目标地址;根据序列标注方法,对所述目标地址进行标注,得到地址标注序列;将所述地址标注序列输入到预设的地址特征提取模型中提取特征编码,得到地址编码向量;将所述地址编码向量输入到预设的验证模型,通过所述预设的验证模型输出地址识别信息。

Description

地址信息的识别方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种地址信息的识别方法、装置、计算机设备及存储介质。
背景技术
在外卖、快递、地图等与地址相关的应用场景中,通常涉及到对地址信息的处理,以达到基于地址匹配进行位置服务的需求。用户在使用这些位置服务时输入的地址信息一般以文本形式存在,文本形式的地址信息无法对其进行查询和归类,需要对地址信息进行结构化解析,将文本形式的地址识别形成结构化存储的形式。
现有技术中,一般采用命名实体识别的方式对地址文本进行识别。其中,通常采用BiLSTM(Bi-directionalLongShort-TermMemory,双向长短词记忆网络)和CRF(Conditional Random Fields,条件随机场)的方式识别地址信息,但是BiLSTM的编码能力不能有效抽取输入序列的特征,并且CRF对地址实体的识别效果收敛不大,导致对地址信息的识别效果不佳。
发明内容
本发明提供一种地址的信息识别方法、装置、计算机设备及存储介质,以提高对地址信息进行识别的准确度。
一种地址信息的识别方法,包括:
获取用户端输入的待识别地址文本,通过关键词提取的方式,提取所述待识别文本中的地址信息,作为目标地址;
根据序列标注方法,对所述目标地址进行词性标注,得到地址标注序列;
将所述地址标注序列输入到预设的地址特征提取模型中提取特征编码,得到地址编码向量,其中,所述预设的地址特征提取模型基于注意力机制层和全连接层构建;
将所述地址编码向量输入到预设的验证模型,通过所述预设的验证模型对所述地址编码向量进行验证识别,并输出地址识别信息。
一种地址信息的识别装置,包括:
目标地址提取模块,用于获取用户端输入的待识别地址文本,通过关键词提取的方式,提取所述待识别文本中的地址信息,作为目标地址;
地址标注模块,用于根据序列标注方法,对所述目标地址进行词性标注,得到地址标注序列;
编码向量模块,用于将所述地址标注序列输入到预设的地址特征提取模型中提取特征编码,得到地址编码向量,其中,所述预设的地址特征提取模型基于注意力机制层和全连接层构建;
地址识别模块,用于将所述地址编码向量输入到预设的验证模型,通过所述预设的验证模型对所述地址编码向量进行验证识别,并输出地址识别信息。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述地址信息的识别方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述地址信息的识别方法的步骤。
本发明提供的地址信息的识别方法、装置、计算机设备及存储介质,通过关键词提取的方式,提取出用户输入的待识别文本中的地址信息,作为目标地址;再根据序列标注方法,对所述目标地址进行标注,得到地址标注序列,将地址标注序列输入到预设的地址特征提取模型中提取特征编码,得到目标地址的地址编码向量,将地址编码向量输入到预设的验证模型中,得到地址识别信息,其中,预设的地址特征提取模型基于注意力机制层和全连接层构建,注意力机制层能够针对性地提取地址信息中的地址特征,得到更能反映地址信息的地址编码向量,使得预设的地址特征提取模型能够更好地提取出地址信息中的地址特征,在此基础上,通过预设的验证模型对地址编码向量进行验证识别,得到与待识别文本中的地址信息对应的地址识别信息,提高了对地址信息进行识别的识别精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中地址信息的识别方法的一应用环境示意图;
图2是本发明一实施例中地址信息的识别方法的一流程图;
图3是本发明一实施例中地址信息的识别装置的结构示意图;
图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的地址信息的识别方法,可应用在如图1的应用环境中,其中,终端设备通过网络与服务器进行通信。其中,终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理,其中,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础记述一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人为基数、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
系统框架100可以包括终端设备、网络和服务器。网络用以在终端设备和服务器之间提供通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备通过网络与服务器交互,以接收或者发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture EpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureEperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
其中,服务器可以是独立的服务器,也可以是提供运费如无、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发服务(ContentDeliveryNetwork,CDN)以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,本发明实施例所提供的地址信息的识别方法由服务器执行,相应地,地址信息的识别装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,根据实现需要,可以具有任意数目的终端设备、网络和服务器,本发明实施例中的终端设备具体可以对应的是实际生产中的应用系统。
在一实施例中,如图2所示,提供一种地址信息的识别方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤S201至S204:
S201,获取用户端输入的待识别地址文本,通过关键词提取的方式,提取待识别文本中的地址信息,作为目标地址。
具体的,用户端是指需要涉及到地址信息识别的终端设备或者应用,其中,该应用涉及货运平台、物流平台或者购物网站等需要对地址信息进行识别的应用场景。
待识别地址文本具体是指包括待识别地址信息的文本信息,待识别文本可以是用户在用户端上复制的文本段、用户在用户端上直接输入的文本等。
待识别地址文本中包括将要进行识别的地址信息,通过关键词提取的方式,将地址信息提取出来,提取出来的地址信息作为目标地址。例如,待识别地址文本为“我家住在xx市xx区xx街道01号”,提取出来的地址信息则是“xx市xx区xx街道01号”。
S202,根据序列标注方法,对目标地址进行词性标注,得到地址标注序列。
具体的,序列标注方法是自然语言处理(NatureLanguageProcessing,NLP)中的一项基础任务,应用十分广泛。
进行序列标注的方法包括但不限于基于统计机器学习的命名实体识别或者基于规则的方法等。
其中,基于统计机器学习的命名提识别是基于字粒度的序列标注,在标注的结果上创建字合并为词的规则,依据规则将字合并为命名体;基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词、中心词等方法,以模式和字符串相匹配为主要手段。
作为一种可选方式,序列标注方法包括BIO、BIOSE、IBO等。
在本实施例中,采用BIOSE标注方法,对目标地址进行标注,得到地址标注系列。
其中,在BIOSE标注方法中,B代表实体的开始词,I代表实体的内部词,O代表非实体,E代表实体的结束词,S代表本身为单实体。
例如,如采用BIOSE标注方法,各个实体可以采用不同的标记,例如广东省深圳市福田区红荔路的地址标注信息可以表示为:
深圳市福田区红荔路
B-C E-C S B-D E-D S B-S E-S S
其中,C代表市级单位,D代表区级,S代表街道,P代表省级,N代表街道号。{深圳市福田区红荔路}是目标地址,{B-C,E-C,S,B-D,E-D,S,B-S,E-S,S}是地址标注序列。在对目标地址信息进行序列标注后,得到地址标注序列后,可以根据相应的编码方式对地址标注序列进行编码,得到该目标地址对应的编码信息。
S203,将地址标注序列输入到预设的地址特征提取模型中提取特征编码,得到地址编码向量,其中,预设的地址特征提取模型基于注意力机制层和全连接层构建。
具体的,地址特征提取模型是一种命名实体识别模型。命名实体识别(NamedEnitityRecognition,NER)是指识别中文文本中实体的边界和类被,NER是文本处理中基础记述,广泛应用在自然语言处理、推荐系统、知识图谱等领域。
命名实体识别的方法包括但不限于基于规则的方法、基于机器学习的方法、基于深度学习的方法以及基于Attention的方法。基于机器学习的方法有HMM(HiddenMarkovModel,隐马尔可夫模型)、CRF(ConditionalRandomFileds,条件随机场)等;基于深度学习的方法有BiLSTM-CRF(Bi-directional LongShort-Term Memory-CRF,双向长短时记忆模型-条件随机场模型)、BiLSTM-CNN-CRF等。基于Attention的方法包括Transformer-CRF等。
在本实施例中,预设的地址特征提取模型基于注意力机制层和全连接层构建。
在本实施例中,通过Multihead-self-attention(多头注意力机制)方式构建地址特征提取模型,其中,Multihead-self-attention是Transformer中的注意力机制架构。Transformer是一个完全依靠自注意力来计算其输入和输出表示,而不是使用序列对齐的循环神经网络或卷积的转换模型。
具体的,多头注意力机制可以通过如下公式表示:
Figure BDA0003287363910000071
其中,Z是归一化因子,qt是查询,K是key。在注意力机制中,将Source(源)中的构成元素想象成是由一系列的<Key,Value>数据对构成,此时给定Target(目标)中的某个元素Query(查询),通过计算Query和各个Key的相似性或者相关性,得到每个Key对应的Value的权重系数,通过softmax诡异化之后,对权重和相应Value进行加权求和,得到最终的Attention数值。
通过多头注意力机制对目标地址的地址标注序列进行特征编码,再将编码后的结果通过全连接层输出,得到地址编码向量。
S204,将地址编码向量输入到预设的验证模型,通过预设的验证模型对地址编码向量进行验证识别,并输出地址识别信息。
具体的,预设的验证模型是基于交叉验证的原理构建,通过交叉验证的方式构建验证模型,获取训练数据对验证模型进行训练,得到预设的验证模型。
交叉验证(CrossValidation)在统计学上是将数据样本切割成较小子集的方法,原理是将原始数据进行分组,一部分作为训练集,另一部分作为验证集,首先用训练集对分类器模型进行训练,再利用验证集来测试训练得到的分类器模型,以此作为评价分类器的性能指标。
交叉验证常用的技术方法有Holdout验证、K-foldcross-validation(K折交叉验证)。
K折交叉验证是将原始数据分割成K个子样本,将一个部分的子样本作为验证集,其余部分的子样本作为训练集,采用训练集训练模型,并通过验证集计算模型的准确率,循环迭代训练多次,将平均准确率作为最终的模型准确率,用以输出更为准确的结果。
在本实施例中,作为一种优选方式,采用K折交叉验证方法构建验证模型,以提高输出地址识别信息。
在本实施例中,通过关键词提取的方式,提取出用户输入的待识别文本中的地址信息,作为目标地址;再根据序列标注方法,对所述目标地址进行标注,得到地址标注序列,将地址标注序列输入到预设的地址特征提取模型中提取特征编码,得到目标地址的地址编码向量,将地址编码向量输入到预设的验证模型中,得到地址识别信息,其中,预设的地址特征提取模型能够更好地提取地址信息中的地址特征,得到更能反映地址信息的地址编码向量,在此基础上,通过K折交叉验证方法构建模型,得到预设的验证模型,通过预设的验证模型对地址编码向量进行验证,输出更准确的地址识别信息,提高了对地址信息进行识别的识别精度。
在本实施例中,作为一种可选的实现方式,步骤S201中,获取用户端输入的待识别地址文本,通过关键词提取的方式,提取待识别文本中的地址信息,作为目标地址的步骤包括:
S2011,基于预设的实体标注规则,对待识别文本进行实体标注,得到实体标注信息,实体标注信息中包括实体类型信息和实体顺序信息。
具体的,实体标注规则是指按照实体的属性对每一个实体进行标注,已针对相同的实体进行分类的规则。
进一步,根据预设的实体标注规则对待识别文本进行标注,得到实体标注信息,实体标准信息包括实体类型信息和实体顺序信息。实体类型信息是指每一个实体词对应的属性信息,例如人名、地址等;实体顺序信息是指组成实体词的每一个字符在实体词中的位置,例如地址中的开始位置、结束位置等。
例如,某一段待识别文本是“我要去莲花山。”,其对应的实体标注信息是{我-Per,要-O,去-O,莲-B-D,花-I-D,山-E-D}。其中,Per、D代表实体类型信息,Per指的是人物实体,D指的是地址实体;B-D、I-D和E-D中的B、I、E代表实体顺序信息,B指开始位置、I指中间位置、E指结束位置。上述表示方法作为本实施例的追加说明,并不是作为本实施例的限定方案,具体标注方法以及实例以具体应用场景为准。
S2012,提取出实体类型信息为地址类型的待识别文本,并根据实体顺序信息对提取出的待识别文本进行组合,得到目标地址。
具体的,根据实体标注信息,将其中实体类型信息为地址信息的待识别文本提取出来,提取出来的待识别文本按照实体顺序信息进行排序,得到目标地址。
在本实施例,基于实际的应用场景,设置实体标注规则,通过实体标注规则对待识别文本进行实体标注,得到对应的实体标注信息,通过提取目标实体的实体标注信息,得到目标地址,加快对待识别文本进行处理得到目标地址的效率,另外,在提取目标地址阶段,通过实体标注的方式生成目标地址的实体标注信息,有利于加快后续在对目标地址进行特征提取的进程。
在本实施例中,作为一种可选的实现方式,步骤S202中,根据序列标注方法,对目标地址进行标注,得到地址标注序列的步骤包括:
S2022,基于预设的行政区划标注规则,对目标地址进行词性标注,得到地址标注序列,其中,地址标注序列包括行政区划标注信息。
其中,预设的行政区划标注规则是指按照行政区划的区分方式对目标地址进行词性标注。行政区划标注信息是指根据行政区划的方式设置实体标注规则,例如按照省、市、区对目标地址进行区分,基于行政区划规则作为目标地址的词性区分,例如,xx省作为一种词性,xx市作为一种词性,以达到对目标地址进行词性标注的目的。
作为一种优选方式,对省级、市级、区级等设置唯一的实体标签。例如{(wordpro,Pro),(worddist,dist),(wordstre,stre)},其中wordpro是指待识别文本中表示省级区域的词,例如浙江省;worddist是指待识别文本中表示区级区域的词,例如朝阳区;wordstre是指待识别文本中表示街道区域的词,例如红荔路。
根据行政区划标注规则对目标地址进行标注,得到地址标注序列。地址标注序列的定义方式为:address={[word1-1,word1-2],[tag1-1,tag1-2]},其中,word1-1、word1-2是指目标地址中第一个实体标注词和第二个实体标注词,tag1-1、tag1-2是指每个实体标注词对应的标注信息。
在本实施例,通过设置对应的行政区划规则,对目标地址进行标注,可以保留目标地址中的行政区划特征,在根据目标地址进行地址特征提取时,能够提取出反映目标地址的特征。
在本实施例中,作为一种可选的实现方式,步骤S203中,将地址标注序列输入到预设的地址特征提取模型中提取特征编码,得到地址编码向量的步骤包括:
S2031,通过向量转换方式,对地址标注序列进行向量转换,得到编码向量信息。
具体的,向量转换方式是根据对应的向量映射关系,将地址标注信息转化成地址向量信息的方式。
将地址标注信息中字符以及字符对应的标注信息转换成one-hot(独热编码)向量。独热编码又称一位有效编码,主要采用N位状态寄存器来对N个状态进行编码,每个状态都有独立的寄存器位。
S2032,将地址向量信息输入到预设的地址特征提取模型,得到地址编码向量。
具体的,通过基于注意力机制构建地址提取模型的编码层,通过编码层提取地址特征进行特征编码,将特征编码通过一层全连接层输出,得到地址编码向量。
在本实施例中,采用多头注意力机制构建编码层,可根据如下公式表示:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
其中,
Figure BDA0003287363910000101
在多头注意力机制中,Q(Query)、K(Key)、V(Value)首先进行线性变换,然后输入到放缩点积得到注意力权中,进行h次,每一次作为一个头,头之间的参数不共享,每次Q、K、V进行线性变换的参数W是不一样,将h次的放缩点积结果进行凭借,再进行一次线性变换得到的值作为多头注意力的结果,作为地址编码向量。
在本实施例中,对地址标注序列进行向量转换,得到编码向量信息,通过多头注意力机制和全连接层构建地址信息语义特征提取,得到预设的地址特征提取模型,多头注意力机制能够更好地提取地址信息的语义特征,提高识别到地址信息的效果,采用全连接层作为预设的地址特征提取模型的输出层,有利于提高输出地址编码向量的性能,加快对地址信息进行处理的效率。
在本实施例中,作为一种可选的实现方式,步骤S204中,将地址编码向量输入到预设的验证模型,通过预设的验证模型对地址编码向量进行验证识别,并输出地址识别信息的步骤包括:
S2041,将地址编码向量输入到预设的验证模型,得到至少一个地址识别向量。
具体的,在本实施例中,采用5折交叉验证的方式对地址编码向量进行结果预测,构成预设的验证模型。预设的验证模型中包括5个模型,每个模型接收输入的地址编码向量,分别对其进行处理,分别输出一个地址识别向量,共有5个地址识别向量。
S2042,计算地址识别向量的平均向量,得到地址预测向量。
S2043,对地址预测向量进行解码,得到地址识别信息。
在本实施例中,计算5个地址识别向量的平均向量,将平均后的向量作为地址预测向量,对地址预测向量进行解码,得到地址识别信息。
在本实施例中,通过5折交叉验证方式构建预设的验证模型,通过5个验证模型对输入的地址编码向量进行优化,使得最后输出的地址识别信息的准确度,提高对地址信息进行识别的精度,有利于保障后续进行结构化操作中的可靠性。
在本实施例中,作为一种可选的实现方式,在步骤S204之前,还包括:
S1,从预设的行政区划数据库中获取地址文本信息,作为训练数据,将训练数据切分成至少一个数据子集。
S2,采用交叉验证的方式,通过数据子集训练验证模型,得到预设的验证模型。
在本实施例中,预设的行政区划数据库通过获取行政区划数据库中的地址数据构建而成,从预设的行政区划数据库中获取多条地址文本信息,作为训练数据,进而基于预设的数据分割条件,将训练数据切分为多个数据子集,其中,预设的数据分割条件可根据实际需求进行设定,例如,根据训练数据的获取时间进行分割、根据训练数据的类型进行分割等,此处不进行具体限定。
优选的,在本实施例中,将训练数据按照数据量等量切分成多个数据子集。
作为一种实现方式,将训练数据分成5个数据子集,每个数据子集分别作为验证集,其他数据子集作为训练集,共同训练一个模型,将训练后的5个模型作为验证模型。例如,训练数据定义为A={a1,a2,a3,a4,a5},第一个模型里,a1作为验证集,a1到a4作为训练集,用于训练第一个模型。a2作为验证集,a1、a3、a4、a5作为训练集,用于训练第二个模型。
在本实施例中,通过5折交叉验证方式得到预设的验证模型,通过验证模型对地址编码向量进行预测结果,输出地址识别向量,计算地址识别向量的平均向量作为最后输出的地址识别信息,提高对地址信息进行识别的精度和地址识别信息的效果。
在本实施例中,作为一种可选的实现方式,在步骤S204之后,还包括:
S3,基于预设的地址规范模板,验证地址识别信息的规范程度,并按照预设的评分机制,基于规范程度得到规范分值。
具体的,地址规范模板设置每一条地址信息的规范程度,在一条地址信息中应该包括省级、市级、区级以及街道以及详细地址。以体现一个地址的行政区划信息。例如:深圳市福田区红荔路6030号莲花山公园。
根据评分规则判断地址识别信息是否完整,得到地址识别信息的规范程度以及对应的规范分值。
其中,评分规则是指在地址结构信息中包含相应的内容得到对应的分值,如下所示:
省:3分,市:2分,区:1分,街道以及街道号:1分。
例如,地址识别信息是深圳市红荔路6030号莲花山公园,对应的规范分值是2+1=3。
由此可知,上述地址认为是不完整的,将该地址不完整的结果作为规范结果。
S4,基于规范分值,为地址识别信息进行地址补全,得到规范地址信息。
具体的,根据规范分值对地址识别信息进行地址补全,得到规范地址信息。
可以根据查询行政数据库中的地址信息匹配到该地址识别信息的完整地址形式,得到规范地址信息。
其中,规范地址信息反映了某一地点具体的行政规划信息,在实际应用场景中,规范地址信息有利于准确识别出该地点的正确位置,使用者可以获得更加准确的位置信息,提高使用者的使用体验。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种地址信息的识别装置,该地址信息的识别装置与上述实施例中地址信息的识别方法一一对应。如图3所示,该地址信息的识别装置包括目标地址提取模块31、地址标注模块32、编码向量模块33和地址识别模块34。各功能模块详细说明如下:
目标地址提取模块31,用于获取用户端输入的待识别地址文本,通过关键词提取的方式,提取待识别文本中的地址信息,作为目标地址。
地址标注模块32,用于根据序列标注方法,对目标地址进行词性标注,得到地址标注序列。
编码向量模块33,用于将地址标注序列输入到预设的地址特征提取模型中提取特征编码,得到地址编码向量,其中,地址特征提取模型基于注意力机制层和全连接层构建。
地址识别模块34,用于将地址编码向量输入到预设的验证模型,通过预设的验证模型对地址编码向量进行验证识别,并输出地址识别信息。
在本实施例中,目标地址提取模块31包括如下单元:
实体标注单元,用于基于预设的实体标注规则,对待识别文本进行实体标注,得到实体标注信息,实体标注信息中包括实体类型信息和实体顺序信息。
目标地址单元,用于提取出实体类型信息为地址类型的待识别文本,并根据实体顺序信息对提取出的待识别文本进行组合,得到目标地址。
在本实施例中,地址标注模块32包括如下单元:
地址标注单元,用于基于预设的行政区划标注规则,对目标地址进行标注,得到地址标注序列。
在本实施例中,编码向量模块33包括如下单元:
编码向量单元,用于通过向量转换方式,对地址标注序列进行向量转换,得到编码向量信息。
地址编码单元,用于将地址向量信息输入到预设的地址特征提取模型,得到地址编码向量。
在本实施例中,地址识别模块34包括如下单元:
地址识别单元,用于将地址编码向量输入到预设的验证模型,得到至少一个地址识别向量。
地址预测向量单元,用于计算地址识别向量的平均向量,得到地址预测向量。
地址识别信息单元,用于对地址预测向量进行解码,得到地址识别信息。
在本实施例中,地址信息的识别装置还包括如下模块:
训练数据获取模块,用于从预设的行政区划数据库中获取地址文本信息,作为训练数据,将训练数据切分成至少一个数据子集。
验证模型训练模块,用于采用交叉验证的方式,通过数据子集训练验证模型,得到预设的验证模型。
规范验证模块,用于基于预设的地址规范模板,验证地址识别信息的规范程度,并按照预设的评分机制,基于规范程度得到规范分值。
规范地址信息生成模块,用于基于规范分值,为地址识别信息进行地址补全,得到规范地址信息。
其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
关于地址信息的识别装置的具体限定可以参见上文中对于地址信息的识别方法的限定,在此不再赘述。上述地址信息的识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储地址信息的识别方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种地址信息的识别方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中地址信息的识别方法的步骤,例如图2所示的步骤S201至步骤S204及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机程序时实现上述实施例中地址信息的识别装置的各模块/单元的功能,例如图3所示模块31至模块34的功能。为避免重复,这里不再赘述。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中地址信息的识别方法的步骤,例如图2所示的步骤S201至步骤S204及该方法的其它扩展和相关步骤的延伸。或者,计算机程序被处理器执行时实现上述实施例中地址信息的识别装置的各模块/单元的功能,例如图3所示模块31至模块34的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种地址信息的识别方法,其特征在于,包括:
获取用户端输入的待识别地址文本,通过关键词提取的方式,提取所述待识别文本中的地址信息,作为目标地址;
根据序列标注方法,对所述目标地址进行词性标注,得到地址标注序列;
将所述地址标注序列输入到预设的地址特征提取模型中提取特征编码,得到地址编码向量,其中,所述预设的地址特征提取模型基于注意力机制层和全连接层构建;
将所述地址编码向量输入到预设的验证模型,通过所述预设的验证模型对所述地址编码向量进行验证识别,并输出地址识别信息。
2.根据权利要求1所述的地址信息的识别方法,其特征在于,所述获取用户端输入的待识别文本,通过关键词提取的方式,提取所述待识别文本中的地址信息,作为目标地址的步骤包括:
基于预设的实体标注规则,对所述待识别文本进行实体标注,得到实体标注信息,所述实体标注信息中包括实体类型信息和实体顺序信息;
提取出实体类型信息为地址类型的所述待识别文本,并根据所述实体顺序信息对提取出的待识别文本进行组合,得到所述目标地址。
3.根据权利要求1所述的地址信息的识别方法,其特征在于,所述根据序列标注方法,对所述目标地址进行词性标注,得到地址标注序列的步骤包括:
基于预设的行政区划标注规则,对所述目标地址进行词性标注,得到地址标注序列,其中,所述地址标注序列包括行政区划标注信息。
4.根据权利要求1所述的地址信息的识别方法,其特征在于,所述将所述地址标注序列输入到预设的地址特征提取模型中提取特征编码,得到地址编码向量的步骤包括:
通过向量转换方式,对所述地址标注序列进行向量转换,得到编码向量信息;
将所述地址向量信息输入到所述预设的地址特征提取模型,得到地址编码向量。
5.根据权利要求1所述的地址信息的识别方法,其特征在于,所述将所述地址编码向量输入到预设的验证模型,通过所述预设的验证模型对所述地址编码向量进行验证识别,并输出地址识别信息的步骤包括:
将所述地址编码向量输入到预设的验证模型,得到至少一个地址识别向量;
计算所述地址识别向量的平均向量,得到地址预测向量;
对所述地址预测向量进行解码,得到地址识别信息。
6.根据权利要求1所述的地址信息的识别方法,其特征在于,在将所述地址编码向量输入到预设的验证模型,通过所述预设的验证模型输出地址识别信息的步骤之前,所述方法还包括:
从预设的行政区划数据库中获取地址文本信息,作为训练数据,将所述训练数据切分成至少一个数据子集;
采用交叉验证的方式,通过所述数据子集训练验证模型,得到预设的验证模型。
7.根据权利要求1所述的地址信息的识别方法,其特征在于,在将所述地址编码向量输入到预设的验证模型,通过所述预设的验证模型输出地址识别信息的步骤之后,所述方法还包括:
基于预设的地址规范模板,验证所述地址识别信息的规范程度,并按照预设的评分机制,基于所述规范程度得到规范分值;
基于所述规范分值,为所述地址识别信息进行地址补全,得到规范地址信息。
8.一种地址信息的识别装置,其特征在于,所述装置包括:
目标地址提取模块,用于获取用户端输入的待识别地址文本,通过关键词提取的方式,提取所述待识别文本中的地址信息,作为目标地址;
地址标注模块,用于根据序列标注方法,对所述目标地址进行词性标注,得到地址标注序列;
编码向量模块,用于将所述地址标注序列输入到预设的地址特征提取模型中提取特征编码,得到地址编码向量,其中,所述预设的地址特征提取模型基于注意力机制层和全连接层构建;
地址识别模块,用于将所述地址编码向量输入到预设的验证模型,通过所述预设的验证模型对所述地址编码向量进行验证识别,并输出地址识别信息。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述地址信息的识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述地址信息的识别方法的步骤。
CN202111151621.6A 2021-09-29 2021-09-29 地址信息的识别方法、装置、计算机设备及存储介质 Pending CN113887229A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111151621.6A CN113887229A (zh) 2021-09-29 2021-09-29 地址信息的识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111151621.6A CN113887229A (zh) 2021-09-29 2021-09-29 地址信息的识别方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113887229A true CN113887229A (zh) 2022-01-04

Family

ID=79007963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111151621.6A Pending CN113887229A (zh) 2021-09-29 2021-09-29 地址信息的识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113887229A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114861658A (zh) * 2022-05-24 2022-08-05 北京百度网讯科技有限公司 地址信息解析方法及装置、设备和介质
CN115082919A (zh) * 2022-07-22 2022-09-20 平安银行股份有限公司 一种地址识别方法、电子设备及存储介质
CN115099359A (zh) * 2022-07-12 2022-09-23 平安科技(深圳)有限公司 基于人工智能的地址识别方法、装置、设备及存储介质
CN115242437A (zh) * 2022-06-15 2022-10-25 国科华盾(北京)科技有限公司 一种通过云数据分析达到有效管理的网络安全系统
CN116050402A (zh) * 2022-05-23 2023-05-02 荣耀终端有限公司 文本地址识别方法、电子设备及存储介质
WO2023169080A1 (zh) * 2022-03-08 2023-09-14 支付宝(杭州)信息技术有限公司 数据处理

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023169080A1 (zh) * 2022-03-08 2023-09-14 支付宝(杭州)信息技术有限公司 数据处理
CN116050402A (zh) * 2022-05-23 2023-05-02 荣耀终端有限公司 文本地址识别方法、电子设备及存储介质
CN116050402B (zh) * 2022-05-23 2023-10-20 荣耀终端有限公司 文本地址识别方法、电子设备及存储介质
CN114861658A (zh) * 2022-05-24 2022-08-05 北京百度网讯科技有限公司 地址信息解析方法及装置、设备和介质
CN115242437A (zh) * 2022-06-15 2022-10-25 国科华盾(北京)科技有限公司 一种通过云数据分析达到有效管理的网络安全系统
CN115099359A (zh) * 2022-07-12 2022-09-23 平安科技(深圳)有限公司 基于人工智能的地址识别方法、装置、设备及存储介质
CN115082919A (zh) * 2022-07-22 2022-09-20 平安银行股份有限公司 一种地址识别方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111581229B (zh) Sql语句的生成方法、装置、计算机设备及存储介质
CN113887229A (zh) 地址信息的识别方法、装置、计算机设备及存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN111027327A (zh) 机器阅读理解方法、设备、存储介质及装置
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN110866098B (zh) 基于transformer和lstm的机器阅读方法、装置及可读存储介质
CN112328761B (zh) 一种意图标签设置方法、装置、计算机设备及存储介质
WO2021218028A1 (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
CN110457585B (zh) 负面文本的推送方法、装置、系统及计算机设备
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN114021582B (zh) 结合语音信息的口语理解方法、装置、设备及存储介质
CN112085091B (zh) 基于人工智能的短文本匹配方法、装置、设备及存储介质
CN114139551A (zh) 意图识别模型的训练方法及装置、意图识别的方法及装置
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114445832A (zh) 基于全局语义的文字图像识别方法、装置及计算机设备
CN117558270B (zh) 语音识别方法、装置、关键词检测模型的训练方法和装置
CN113673225A (zh) 中文句子相似性判别方法、装置、计算机设备和存储介质
CN113761188A (zh) 文本标签确定方法、装置、计算机设备和存储介质
CN113449081A (zh) 文本特征的提取方法、装置、计算机设备及存储介质
CN115033683B (zh) 摘要生成方法、装置、设备及存储介质
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN113807512B (zh) 机器阅读理解模型的训练方法、装置及可读存储介质
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination