CN110442856B - 一种地址信息标准化方法、装置、计算机设备及存储介质 - Google Patents
一种地址信息标准化方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110442856B CN110442856B CN201910513548.9A CN201910513548A CN110442856B CN 110442856 B CN110442856 B CN 110442856B CN 201910513548 A CN201910513548 A CN 201910513548A CN 110442856 B CN110442856 B CN 110442856B
- Authority
- CN
- China
- Prior art keywords
- word segmentation
- address information
- standardized
- attention mechanism
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本申请实施例属于人工智能技术领域,涉及一种基于注意力机制模型的地址信息标准化方法、装置、计算机设备及存储介质。该方法包括获取待标准化的地址信息;通过第一注意力机制的LSTM神经网络模型对地址信息进行分词,获取地址信息的分词位置以及根据分词位置分词获得的分词;基于根据分词位置获得的分词进行场景识别,获得该场景所对应的标准化地址生成方式;将分词和标准化地址生成方式输入到第二注意力机制的LSTM神经网络模型中,生成标准化的地址信息并输出。本申请实施例通过第一注意力机制的LSTM神经网络模型对地址信息进行分词,再通过第二注意力机制的LSTM神经网络模型将所述分词组合生成标准化的地址信息,输出详细地址,提高地址识别效率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种地址信息标准化方法、装置、计算机设备及存储介质。
背景技术
随着电子商务、电子导航、定位等技术的发展,在很多场合很多应用程序涉及到地址信息的获取、识别、处理和应用。例如现在的快递物流行业、银行业、电子导航等等都需要机器智能读取标准化的地址,否则会造成地址信息不明确。但是人们对地址的表达通常是多样的,并且由于地址信息来源过广,表达与呈现方式各异,又缺少规范等弊端,使得一切基于地址信息方面的业务操作都存在地址识别效率低的障碍。
发明内容
本申请实施例的目的在于提出一种基于注意力机制模型的地址信息标准化方法、装置、计算机设备及存储介质,通过带有注意力机制的神经网络模型对地址信息进行预处理并生成标准化的地址,以提高地址识别效率。
为了解决上述技术问题,本申请实施例提供一种基于注意力机制模型的地址信息标准化方法,采用了如下所述的技术方案:
一种基于注意力机制模型的地址信息标准化方法,包括下述步骤:
获取待标准化的地址信息;
通过第一注意力机制的LSTM神经网络模型对所述待标准化的地址信息进行分词,获取所述待标准化的地址信息的分词位置以及根据分词位置获得的分词;
基于所述根据分词位置获得的分词进行场景识别,获得该场景所对应的标准化地址生成方式;
将所述分词和所述标准化地址生成方式输入到第二注意力机制的LSTM神经网络模型中,生成标准化的地址信息并输出。
进一步地,所述通过第一注意力机制的LSTM神经网络模型对所述待标准化的地址信息进行分词,获取所述待标准化的地址信息的分词位置以及根据分词位置获得的分词的步骤具体包括:
对所述待标准化的地址信息进行编码,得到所述待标准化的地址信息中每个字符的综合向量;
将所述综合向量输入到所述第一注意力机制的LSTM神经网络模型中,进行加权变换分析,计算每个字符为分词位置的概率;
根据所计算的概率,分析所述字符是否为分词位置,并根据分析结果输出所述待标准化的地址信息的分词位置以及根据分词位置得到的分词。
进一步地,所述对所述待标准化的地址信息进行编码,得到所述待标准化的地址信息中每个字符的综合向量具体包括以下步骤:
对所述待标准化的地址信息中的字符进行Embedding编码,生成字符向量;
通过one-hot编码对所述字符进行位置编码,生成位置向量;
将所述字符向量和位置向量组成综合向量。
进一步地,所述进行加权变换分析,计算每个字符为分词位置的概率的步骤包括:
通过以下公式计算所述字符的注意力权重:,
其中ct为所述字符的注意力权重,M为所述待标准化的地址信息中的字符数量,ai为注意力权重系数,ci为所述字符的注意力分配概率;
基于所述注意力权重,计算每个字符为分词位置的概率。
进一步地,所述基于所述分词进行场景识别,获得该场景所对应的标准化地址生成方式的步骤包括:
将经过所述第一注意力机制的LSTM神经网络模型进行分词得到的分词输入到预设的场景识别模型中;
在所述场景识别模型中对所述分词与所述场景识别模型中预设的场景类型进行正则匹配,获取匹配度最高的场景类型;
根据所获取的场景类型选择所对应的标准化地址生成方式。
进一步地,所述将所述分词和所述标准化地址生成方式输入到第二注意力机制的LSTM神经网络模型中,生成标准化的地址信息并输出的步骤包括:
将所述分词及根据所述分词所获得的标准化地址生成方式作为特征并转化成组合向量;
将所述组合向量输入到所述第二注意力机制的LSTM神经网络模型中,生成多个标准格式的候选地址;
计算每个候选地址的概率,取概率最高的所述候选地址作为最终的标准化地址。
进一步地,所述第二注意力机制的LSTM神经网络模型通过下述步骤进行训练:
获取训练样本,所述训练样本包含原始语料和各原始语料预期的标准语料;
对所述原始语料进行分词和场景识别,获取标准化地址生成方式;
将所述原始语料的分词和标准化地址生成方式向量化;
将所述原始语料的向量输入到第二注意力机制的LSTM神经网络模型中,调整第二注意力机制的LSTM神经网络模型的参数,使第二注意力机制的LSTM神经网络模型响应所述原始语料输出所述输出标准语料与预期的标准语料一致。
为了解决上述技术问题,本申请实施例提供一种基于注意力机制模型的地址信息标准化装置,采用了如下所述的技术方案:
地址信息获取模块,用于获取待标准化的地址信息;
分词模块,用于通过第一注意力机制的LSTM神经网络模型对所述待标准化的地址信息进行分词,获取所述待标准化的地址信息的分词位置以及根据分词位置获得的分词;
场景识别模块,用于基于所述根据分词位置获得的分词进行场景识别,获得该场景所对应的标准化地址生成方式;
生成模块,用于将所述分词和所述标准化地址生成方式输入到第二注意力机制的LSTM神经网络模型中,生成标准化的地址信息并输出。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述所述的基于注意力机制模型的地址信息标准化方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的基于注意力机制模型的地址信息标准化方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例提供一种基于注意力机制模型的地址信息标准化方法、装置、计算机设备及存储介质,包括下述步骤:获取待标准化的地址信息,并将其输入到第一注意力机制的LSTM神经网络模型对所述待标准化的地址信息进行分词,获取所述待标准化的地址信息的分词位置以及根据分词位置分词获得的分词。基于所述根据分词位置获得的分词进行场景识别,获得该场景所对应的标准化地址生成方式;将所述分词和所述标准化地址生成方式输入到第二注意力机制的LSTM神经网络模型中,生成标准化的地址信息并输出。本申请实施例通过第一注意力机制的LSTM神经网络模型对原始地址信息进行预处理,计算分析所述地址信息的分词位置以及根据分词位置进行分词获得分词。再根据分词识别获取所对应的标准化地址生成方式,再所述分词和所述标准化地址生成方式输入到第二注意力机制的LSTM神经网络模型中生成标准化的地址信息,输出详细地址,提高地址识别效率。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2 根据本申请的基于注意力机制模型的地址信息标准化方法的一个实施例的流程图;
图3是图2中步骤202的一种具体实施方式的流程图;
图4是本申请实施例所述第一注意力机制的LSTM神经网络模型的一种具体实施方式的流程图;
图5是图2中步骤203的一种具体实施方式的流程图;
图6是图2中步骤204的一种具体实施方式的流程图;
图7是根据本申请的基于注意力机制模型的地址信息标准化装置的一个实施例的结构示意图;
图8是根据本申请的计算机设备的一个实施例的结构示意图。
实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等,操作基于注意力机制模型的地址信息标准化中的业务及应用。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于用户设备、网络设备或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备其包括但不限于任何一种可与用户通过触摸板进行人机交互的移动电子产品,例如智能手机、平板电脑等,所述移动电子产品可以采用任意操作系统,如android操作系统、iOS操作系统等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络 (Ad Hoc网络)等。当然,本领域技术人员应能理解上述终端设备仅为举例,其他现有的或今后可能出现的终端设备如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
服务器105可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。其也可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于注意力机制模型的地址信息标准化方法一般由终端设备执行,相应地,基于注意力机制模型的地址信息标准化装置一般设置于终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的一种基于注意力机制模型的地址信息标准化方法的一个实施例的流程图。所述的基于注意力机制模型的地址信息标准化方法,包括以下步骤:
步骤201,获取待标准化的地址信息。
在本实施例中,基于注意力机制模型的地址信息标准化方法运行于其上的电子设备(例如图1所示的终端设备)可以通过有线连接方式或者无线连接方式获取待标准化的地址信息,并对所述地址信息进行预处理等操作。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB( ultra wideband )连接、以及其他现在已知或将来开发的无线连接方式。
进一步地,本实施例可通过可交互的界面获取用户输入的地址信息。或者在有些应用中,也可以通过语音识别装置,识别用户的语音,将语音转化为文字信息。
步骤202,通过第一注意力机制的LSTM神经网络模型对待标准化的地址信息进行分词,获取待标准化的地址信息的分词位置以及根据分词位置分词获得的分词。
在本申请实施例中,通过所述第一注意力机制的LSTM神经网络模型对所述待标准化的地址信息进行预处理,对所述待标准化的地址信息中的字符进行分析,获取所述地址信息的分词位置以及根据分词位置获得的分词。
需要说明的是,所述第一注意力机制的LSTM神经网络模型具备分词功能,并且其分词功能必须经过训练,其中所训练的训练样本采用标注了分词位置的地址信息文本,然后将训练样本经过编码、向量化等处理后后输入到所述第一注意力机制的LSTM神经网络模型中以输出分词的词汇和分词的位置,经过调整神经网络各节点的权重,使第一注意力机制的LSTM神经网络模型的损失函数收敛,将输出分词的位置与标注的分词位置一致。例如,如果输入为“深圳北大医院”,输出为“深圳/北大医院”。
步骤203,基于根据分词位置获得的分词进行场景识别,获得该场景所对应的标准化地址生成方式。
在本申请实施例预设了多种场景,如学校、学院、医院、广场、大厦、风景区等类型地址,其中每种场景对应一个标准化地址生成方式。
具体的,本实施例基于步骤202获取的分词进行识别。更具体的,将步骤202获取的分词跟预设的学校、学员、医院、广场、大厦等地址类型进行正则匹配,获取匹配度最高的场景所对应的标准化地址生成方式。
步骤204,将分词和标准化地址生成方式输入到第二注意力机制的LSTM神经网络模型中,生成标准化的地址信息并输出。
在本申请实施例中,基于步骤202获取的分词及其位置和步骤203获取的标准化地址生成方式,所述第二注意力机制的LSTM神经网络模型将所述分词与标准化地址生成方式结合,将所述分词生成标准化的地址信息并输出。例如,深圳北大医院,经过分词为深圳/北大医院,经过标准化后,标准地址为深圳市+北京大学附属医院。
需要说明的是,所述第二注意力机制的LSTM神经网络模型基于Seq2Seq模型的,具有LSTM神经网络学习的功能,其通过对样本进行学习,将包含地址信息的分词重新生成标准地址。如果用户预期发生改变,可以改变训练样本,使输出的标准地址更接近预期的结果,具有灵活性。
本申请实施例通过第一注意力机制的LSTM神经网络模型对原始地址信息进行预处理,计算分析所述地址信息的分词位置以及根据分词位置进行分词获得分词。再根据分词识别获取所对应的标准化地址生成方式,再所述分词和所述标准化地址生成方式输入到第二注意力机制的LSTM神经网络模型中生成标准化的地址信息,输出详细地址,提高地址识别效率。
请参阅图3,图中示出步骤202的一个实施方式的流程图。步骤202通过第一注意力机制的LSTM神经网络模型对待标准化的地址信息进行分词,获取待标准化的地址信息的分词位置以及根据分词位置分词获得的分词,具体包括以下步骤:
步骤2021:对待标准化的地址信息进行编码,得到待标准化的地址信息中每个字符的综合向量。
在本申请实施例中,所述第一注意力机制的LSTM神经网络模型首先对所述地址信息中的字符进行编码,将所述地址信息进行向量化,生成地址信息中每个字符的综合向量。
需要说明的是,所述综合向量为所述字符的字符向量和位置向量组合的向量。其中,本实施例通过映射到字典的方式对字符进行编码。在所述字典中,每个字符对应一个编码。具体的,本实施例对所述地址信息中的字符进行Embedding编码,获取字符在字典中映射的编码,并采用基于gensim包的word2vec工具,将所述字符的编码生成1*256维度的字符向量。
进一步地,本实施例对所述字符的位置进行one-hot编码,生成1*100维度的位置向量,其中第100个维度定义为位置处于第100个以及之后的字符的位置向量。
步骤2022:将综合向量输入到第一注意力机制的LSTM神经网络模型中,进行加权变换分析,计算每个字符为分词位置的概率。
在本申请实施例中,通过所述第一注意力机制的LSTM神经网络模型中的注意力机制进行加权变换,从所述待标准化的地址信息众多字符中选择出对当前分词任务更关键的字符以投入更多注意力资源,从而获取包含更为准确地址信息的分词。
进一步地,如图4所示,所述第一注意力机制的LSTM神经网络模型包括注意力机制,对所述地址信息中的每个字符给予一个注意力attention概率分布,对字符数据进行加权变换。具体的,所述第一注意力机制的LSTM神经网络模型为encoder-decoder结构,包括三层,其中第一层为Encoder层的LSTM编码层,用于对所述地址信息进行编码。第二层为LSTM的全局信息层,用于对所述字符进行加权变换,计算所述每个字符为分词位置的概率。第三层为Decoder层的LSTM解码层,用于输出所述地址信息的分词位置以及根据分词位置得到的分词。
具体的,所述第一注意力机制的LSTM神经网络模型的全局信息层中引入注意力机制,用于计算所述待标准化的地址信息中每个字符的注意力权重。更具体的,所述在第一注意力机制的LSTM神经网络模型对所述待标准化的地址信息进行加权变换分析时,通过以下公式计算所述字符的注意力权重:,
其中ct为所述字符的注意力权重,M为所述地址信息中的字符数量,ai为注意力权重系数,ci为所述字符的注意力分配概率。
进一步地,经过加权变换后,基于所述注意力权重,通过所述全局信息层计算所述字符为分词位置的概率。
请再参阅图4,图中X1、X2…Xn为输入的所述待标准化的地址信息的字符,将其输入到所述LSTM编码层,对所述待标准化的地址信息进行编码,然后经过注意力机制进行加权变换,将其权值输入到所述全局信息层计算所述字符为分词位置的概率Y1、Y2…Yn,其中:
;
;
…
。
步骤2023:根据所计算的概率,分析字符是否为分词位置,并根据分析结果输出待标准化的地址信息的分词位置以及根据分词位置得到的分词。
在本申请实施例中,根据步骤2022计算的所述字符的概率,判断分词位置,对待标准化的地址信息进行分词。具体的,本实施例预设有阈值,当所述字符的概率超过所述阈值时,将所述字符作为分词位置,分割所述地址信息。
在本实施例中,所述第一注意力机制的LSTM神经网络模型输入为不同字符所对应的综合向量,输出为分词的位置以及根据分词位置获得的分词,比如可以得到输出如下结果:
位置1:词汇1;位置2:词汇2等等。
需要说明的是,所述注意力机制是可以设置在所述第一注意力机制的LSTM神经网络模型中的LSTM编码层框架内,通过在编码段加入Attention模型,对地址信息的源数据序列进行数据加权变换。或者在LSTM解码层引入Attention模型,对经过向量化的地址信息数据进行加权变化,以提高序列对序列的自然方式下的系统表现。本实施例通过在LSTM解码层加入attention模型,对输入到LSTM解码层的地址信息字符序列进行分布注意力,确定地址信息中重要的字符。
请参阅图5,图中示出步骤203的一个实施方式的流程图。步骤203基于分词进行场景识别,获得该场景所对应的标准化地址生成方式,具体包括以下步骤:
步骤2031:将经过第一注意力机制的LSTM神经网络模型进行分词得到的分词输入到预设的场景识别模型中。
步骤2032:在场景识别模型中对分词与场景识别模型中预设的场景类型进行正则匹配,获取匹配度最高的场景类型。
步骤2033:根据所获取的场景类型选择所对应的标准化地址生成方式。
在本申请实施例中,所述场景识别模型中预设了多种场景,如学校、学院、医院、广场、大厦、风景区等类型地址,其中每种场景对应一个标准化地址生成方式。
具体的,所述场景识别模型可设置在所述第一注意力机制的LSTM神经网络模型中,也可设置在所述第二注意力机制的LSTM神经网络模型中,用于将地址信息划分的分词跟预设的学校、学员、医院、广场、大厦等地质类型进行正则匹配,获取匹配度最高的场景所对应的标准化地址生成方式。
请参阅图6,图中示出步骤204的一个实施方式的流程图。步骤204将分词和标准化地址生成方式输入到第二注意力机制的LSTM神经网络模型中,生成标准化的地址信息并输出,包括以下步骤:
步骤2041:将分词及根据分词所获得的标准化地址生成方式作为特征并转化成组合向量。
在本申请实施例中,所述组合向量为所述分词的词向量、位置向量以及所述标准化地址模型的特征向量综合的组合向量,其中所述分词的词向量是所述分词通过gensim库的word2vec词向量模型,经过Embedding过程转化得到的1*256维度的词向量。所述位置向量为所述分词的位置特征经过one-hot编码转化的1*10维度的位置向量。
步骤2042:将组合向量输入到第二注意力机制的LSTM神经网络模型中,生成多个标准格式的候选地址。
在本申请实施例中,基于所述分词的组合向量,所述第二注意力机制的LSTM神经网络模型可获取所述分词的相似词,并将所述分词及相似词按照所述位置向量以及标准生成模型中的多种地址形式组合成多个标准形式的地址,并作为候选地址输出。例如,可将所述分词按照“位置1的词汇+市+位置2的词汇+区”的地址形式进行组合。
步骤2043:计算每个候选地址的概率,取概率最高的候选地址作为最终的标准化地址。
在本申请实施例中,所述第二注意力机制的LSTM神经网络模型进一步对步骤2042获取的候选地址计算概率,取概率最高的候选地址作为最终的标准化地址。例如,深圳北大医院,经过分词为深圳/北大/医院,经过标准化后,可生成“深圳市北京大学附属医院”、“深圳市北大人民医院”等等候选地址,经过计算,将“深圳市北京大学附属医院”作为其标准地址并输出。
需要说明的是,所述第二注意力机制的LSTM神经网络模型基于Seq2Seq模型的,所述基于Seq2Seq模型的第二注意力机制的LSTM神经网络模型包括Encoder层、全局信息层、Decoder层和Softmax层,其中Encoder层是以双向LSTM层作为基本的神经元单位的多层神经元层,用于输入所述组合向量并生成final_state状态向量和final_output状态向量。所述全局信息层是基于注意力机制模型的,用于输入所述Encoder层输出的final output状态向量并生成全局状态context向量。所述Decoder层也是以双向LSTM层作为基本的神经元单位的多层神经元层,用于输入所述final_state状态向量、final_output状态向量和context向量,生成并输出decoder层的final_state向量和output向量。将所述decoder层的输出结果输入到所述Softmax层中,计算出每个候选地址的概率,将概率最高的候选地址作为最终生成的地址。
在本申请实施例中,所述第一注意力机制的LSTM神经网络模型和所述第二注意力机制的LSTM神经网络模型都是经过学习训练的,其中第二注意力机制的LSTM神经网络模型基于Seq2Seq模型的。
进一步地,所述第一注意力机制的LSTM神经网络模型经过以下训练过程实现对所述地址信息的自动化分词:
训练样本采用标注了分词位置的地址信息文本,将训练样本经过编码、向量化后输入到第一注意力机制的LSTM神经网络模型中,第一注意力机制的LSTM神经网络模型对训练样本进行划分,获取划分的词汇和分词位置,调整神经网络各节点的权重,使第一注意力机制的LSTM神经网络模型中的损失函数收敛,从而使得第一注意力机制的LSTM神经网络模型输出分词的位置与标注的分词位置一致。
进一步地,所述第二注意力机制的LSTM神经网络模型通过下述步骤进行训练:
获取训练样本,训练样本包含原始语料和各原始语料预期的标准语料;对原始语料进行分词和场景识别,获取标准化地址生成方式;将原始语料的分词和标准化地址生成方式向量化;将原始语料的向量输入到第二注意力机制的LSTM神经网络模型中,调整第二注意力机制的LSTM神经网络模型的参数,使第二注意力机制的LSTM神经网络模型响应原始语料输出输出标准语料与预期的标准语料一致。
进一步参考图7,作为对上述图2所示方法的实现,本申请提供了一种基于神经网络的分词和词类标注装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例所述的基于神经网络的分词和词类标注装置700包括:地址信息获取模块701、分词模块702、场景识别模块703和生成模块704。其中:
地址信息获取模块701,用于获取待标准化的地址信息。
分词模块702,用于通过第一注意力机制的LSTM神经网络模型对所述待标准化的地址信息进行分词,获取所述待标准化的地址信息的分词位置以及根据分词位置获得的分词。
场景识别模块703,用于基于所述根据分词位置获得的分词进行场景识别,获得该场景所对应的标准化地址生成方式。
生成模块704,用于将所述分词和所述标准化地址生成方式输入到第二注意力机制的LSTM神经网络模型中,生成标准化的地址信息并输出。
本申请实施例通过地址信息获取模块701获取待标准化的地址信息,分词模块702中通过第一注意力机制的LSTM神经网络模型对原始地址信息进行预处理,计算分析所述待标准化的地址信息的分词位置以及根据分词位置进行分词获得分词。场景识别模块703根据分词识别获取所对应的标准化地址生成方式,生成模块704将所述分词和所述标准化地址生成方式输入到第二注意力机制的LSTM神经网络模型中生成标准化的地址信息,输出详细地址,提高地址识别效率。
进一步地,所述分词模块702进一步包括编码模块、分析模块和输出模块,其中:
编码模块,用于对所述待标准化的地址信息进行编码,得到所述待标准化的地址信息中每个字符的综合向量。
分析模块,用于将所述综合向量输入到所述第一注意力机制的LSTM神经网络模型中,进行加权变换分析,计算每个字符为分词位置的概率;
输出模块,用于根据所计算的概率,分析所述字符是否为分词位置,并根据分析结果输出所述待标准化的地址信息的分词位置以及根据分词位置得到的分词。
更进一步地,所述编码模块具体用于对所述待标准化的地址信息中的字符进行编码,生成综合向量。所述组合向量为所述分词的词向量、位置向量以及所述标准化地址模型的特征向量综合的组合向量,其中所述分词的词向量是所述分词通过gensim库的word2vec词向量模型,经过Embedding过程转化得到的1*256维度的词向量。所述位置向量为所述分词的位置特征经过one-hot编码转化的1*10维度的位置向量。
进一步地,所述分词模块通过以下公式计算所述字符的注意力权重:
,
其中ct为所述字符的注意力权重,M为所述地址信息中的字符数量,ai为注意力权重系数,ci为所述字符的注意力分配概率。然后基于所述注意力权重,通过所述全局信息层计算所述字符为分词位置的概率。如图4,图中X1、X2…Xn为输入的所述地址信息的字符,将其输入到所述LSTM编码层,对所述地址信息进行编码,然后经过注意力机制进行加权变换,将其权值输入到所述全局信息层计算所述字符为分词位置的概率Y1、Y2…Yn,其中:
;
;
…
。
进一步地,所述场景识别模块703具体用于将经过所述第一注意力机制的LSTM神经网络模型进行分词得到的分词输入到预设的场景识别模型中;在所述场景识别模型中对所述分词与所述场景识别模型中预设的场景类型进行正则匹配,获取匹配度最高的场景类型;根据所获取的场景类型选择所对应的标准化地址生成方式。
进一步地,所述生成模块704具体用于将所述分词及根据所述分词所获得的标准化地址生成方式作为特征并转化成组合向量;将所述组合向量输入到所述第二注意力机制的LSTM神经网络模型中,生成多个标准格式的候选地址;计算每个候选地址的概率,取概率最高的所述候选地址作为最终的标准化地址。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图8,图8为本实施例计算机设备基本结构框图。
所述计算机设备8包括通过系统总线相互通信连接存储器81、处理器82、网络接口83。需要指出的是,图中仅示出了具有组件81-83的计算机设备8,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器81至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器81可以是所述计算机设备8的内部存储单元,例如该计算机设备8的硬盘或内存。在另一些实施例中,所述存储器81也可以是所述计算机设备8的外部存储设备,例如该计算机设备8上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(FlashCard)等。当然,所述存储器81还可以既包括所述计算机设备8的内部存储单元也包括其外部存储设备。本实施例中,所述存储器81通常用于存储安装于所述计算机设备8的操作系统和各类应用软件,例如基于注意力机制模型的地址信息标准化方法的程序代码等。此外,所述存储器81还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器82在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器82通常用于控制所述计算机设备8的总体操作。本实施例中,所述处理器82用于运行所述存储器81中存储的程序代码或者处理数据,例如运行所述基于注意力机制模型的地址信息标准化方法的程序代码。
所述网络接口83可包括无线网络接口或有线网络接口,该网络接口83通常用于在所述计算机设备8与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有基于注意力机制模型的地址信息标准化程序,所述基于注意力机制模型的地址信息标准化程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于注意力机制模型的地址信息标准化方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (7)
1.一种基于注意力机制模型的地址信息标准化方法,其特征在于,包括下述步骤:
获取待标准化的地址信息;
通过第一注意力机制的LSTM神经网络模型对所述待标准化的地址信息进行分词,获取所述待标准化的地址信息的分词位置以及根据分词位置获得的分词;
基于所述根据分词位置获得的分词进行场景识别,获得该场景所对应的标准化地址生成方式;
将所述分词和所述标准化地址生成方式输入到第二注意力机制的LSTM神经网络模型中,生成标准化的地址信息并输出;
其中,所述通过第一注意力机制的LSTM神经网络模型对所述待标准化的地址信息进行分词,获取所述待标准化的地址信息的分词位置以及根据分词位置获得的分词的步骤具体包括:
对所述待标准化的地址信息进行编码,得到所述待标准化的地址信息中每个字符的综合向量;
将所述综合向量输入到所述第一注意力机制的LSTM神经网络模型中,进行加权变换分析,计算每个字符为分词位置的概率;
根据所计算的概率,分析所述字符是否为分词位置,并根据分析结果输出所述待标准化的地址信息的分词位置以及根据分词位置得到的分词;
其中,所述基于所述分词进行场景识别,获得该场景所对应的标准化地址生成方式的步骤包括:
将经过所述第一注意力机制的LSTM神经网络模型进行分词得到的分词输入到预设的场景识别模型中;
在所述场景识别模型中对所述分词与所述场景识别模型中预设的场景类型进行正则匹配,获取匹配度最高的场景类型;
根据所获取的场景类型选择所对应的标准化地址生成方式;
其中,所述将所述分词和所述标准化地址生成方式输入到第二注意力机制的LSTM神经网络模型中,生成标准化的地址信息并输出的步骤包括:
将所述分词及根据所述分词所获得的标准化地址生成方式作为特征并转化成组合向量;
将所述组合向量输入到所述第二注意力机制的LSTM神经网络模型中,生成多个标准格式的候选地址;
计算每个候选地址的概率,取概率最高的所述候选地址作为最终的标准化地址。
2.根据权利要求1所述的基于注意力机制模型的地址信息标准化方法,其特征在于,所述对所述待标准化的地址信息进行编码,得到所述待标准化的地址信息中每个字符的综合向量具体包括以下步骤:
对所述待标准化的地址信息中的字符进行Embedding编码,生成字符向量;
通过one-hot编码对所述字符进行位置编码,生成位置向量;
将所述字符向量和位置向量组成综合向量。
3.根据权利要求1所述的基于注意力机制模型的地址信息标准化方法,其特征在于,所述进行加权变换分析,计算每个字符为分词位置的概率的步骤包括:
通过以下公式计算所述字符的注意力权重:,
其中ct为所述字符的注意力权重,M为所述待标准化的地址信息中的字符数量,ai为注意力权重系数,ci为所述字符的注意力分配概率;
基于所述注意力权重,计算每个字符为分词位置的概率。
4.根据权利要求1所述的基于注意力机制模型的地址信息标准化方法,其特征在于,所述第二注意力机制的LSTM神经网络模型通过下述步骤进行训练:
获取训练样本,所述训练样本包含原始语料和各原始语料预期的标准语料;
对所述原始语料进行分词和场景识别,获取标准化地址生成方式;
将所述原始语料的分词和标准化地址生成方式向量化;
将所述原始语料的向量输入到第二注意力机制的LSTM神经网络模型中,调整第二注意力机制的LSTM神经网络模型的参数,使第二注意力机制的LSTM神经网络模型响应所述原始语料输出所述输出标准语料与预期的标准语料一致。
5.一种基于注意力机制模型的地址信息标准化装置,其特征在于,包括:
地址信息获取模块,用于获取待标准化的地址信息;
分词模块,用于通过第一注意力机制的LSTM神经网络模型对所述待标准化的地址信息进行分词,获取所述待标准化的地址信息的分词位置以及根据分词位置获得的分词;
场景识别模块,用于基于所述根据分词位置获得的分词进行场景识别,获得该场景所对应的标准化地址生成方式;
生成模块,用于将所述分词和所述标准化地址生成方式输入到第二注意力机制的LSTM神经网络模型中,生成标准化的地址信息并输出;
所述分词模块包括编码模块、分析模块和输出模块,其中:
编码模块,用于对所述待标准化的地址信息进行编码,得到所述待标准化的地址信息中每个字符的综合向量;
分析模块,用于将所述综合向量输入到所述第一注意力机制的LSTM神经网络模型中,进行加权变换分析,计算每个字符为分词位置的概率;
输出模块,用于根据所计算的概率,分析所述字符是否为分词位置,并根据分析结果输出所述待标准化的地址信息的分词位置以及根据分词位置得到的分词;
所述场景识别模块具体用于将经过所述第一注意力机制的LSTM神经网络模型进行分词得到的分词输入到预设的场景识别模型中;在所述场景识别模型中对所述分词与所述场景识别模型中预设的场景类型进行正则匹配,获取匹配度最高的场景类型;根据所获取的场景类型选择所对应的标准化地址生成方式;
所述生成模块具体用于将所述分词及根据所述分词所获得的标准化地址生成方式作为特征并转化成组合向量;将所述组合向量输入到所述第二注意力机制的LSTM神经网络模型中,生成多个标准格式的候选地址;计算每个候选地址的概率,取概率最高的所述候选地址作为最终的标准化地址。
6.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的基于注意力机制模型的地址信息标准化方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的基于注意力机制模型的地址信息标准化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910513548.9A CN110442856B (zh) | 2019-06-14 | 2019-06-14 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910513548.9A CN110442856B (zh) | 2019-06-14 | 2019-06-14 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110442856A CN110442856A (zh) | 2019-11-12 |
CN110442856B true CN110442856B (zh) | 2023-09-26 |
Family
ID=68429181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910513548.9A Active CN110442856B (zh) | 2019-06-14 | 2019-06-14 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110442856B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639493A (zh) * | 2020-05-22 | 2020-09-08 | 上海微盟企业发展有限公司 | 一种地址信息标准化方法、装置、设备及可读存储介质 |
CN112633003B (zh) * | 2020-12-30 | 2024-05-31 | 平安科技(深圳)有限公司 | 一种地址识别方法、装置、计算机设备及存储介质 |
CN112818665A (zh) * | 2021-01-29 | 2021-05-18 | 上海寻梦信息技术有限公司 | 结构化地址信息的方法、装置、电子设备及存储介质 |
CN113065354B (zh) * | 2021-03-19 | 2024-01-09 | 平安普惠企业管理有限公司 | 语料中地理位置的识别方法及其相关设备 |
CN113609290A (zh) * | 2021-07-28 | 2021-11-05 | 北京沃东天骏信息技术有限公司 | 一种地址识别方法及装置、存储介质 |
CN113901161A (zh) * | 2021-10-13 | 2022-01-07 | 广州风雷益信息技术有限公司 | 一种开店自动寻址方法、系统、设备及可读存储介质 |
CN114911909B (zh) * | 2022-06-08 | 2023-01-10 | 北京青萌数海科技有限公司 | 结合深度卷积网络和注意力机制的地址匹配方法以及装置 |
CN117252539A (zh) * | 2023-09-20 | 2023-12-19 | 广东筑小宝人工智能科技有限公司 | 基于神经网络的工程标准规范获取方法及系统 |
CN117196240A (zh) * | 2023-09-21 | 2023-12-08 | 广东省核工业地质局测绘院 | 一种基于房地一体项目户籍信息采集方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388634A (zh) * | 2018-09-18 | 2019-02-26 | 平安科技(深圳)有限公司 | 地址信息的处理方法、终端设备及计算机可读存储介质 |
CN109815498A (zh) * | 2019-01-25 | 2019-05-28 | 深圳市小赢信息技术有限责任公司 | 一种中文地址标准化方法、装置及电子设备 |
CN109858025A (zh) * | 2019-01-07 | 2019-06-07 | 中科鼎富(北京)科技发展有限公司 | 一种地址标准化语料的分词方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10936862B2 (en) * | 2016-11-14 | 2021-03-02 | Kodak Alaris Inc. | System and method of character recognition using fully convolutional neural networks |
US10846523B2 (en) * | 2016-11-14 | 2020-11-24 | Kodak Alaris Inc. | System and method of character recognition using fully convolutional neural networks with attention |
US10803581B2 (en) * | 2017-11-06 | 2020-10-13 | Beijing Keya Medical Technology Co., Ltd. | System and method for generating and editing diagnosis reports based on medical images |
-
2019
- 2019-06-14 CN CN201910513548.9A patent/CN110442856B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388634A (zh) * | 2018-09-18 | 2019-02-26 | 平安科技(深圳)有限公司 | 地址信息的处理方法、终端设备及计算机可读存储介质 |
CN109858025A (zh) * | 2019-01-07 | 2019-06-07 | 中科鼎富(北京)科技发展有限公司 | 一种地址标准化语料的分词方法及系统 |
CN109815498A (zh) * | 2019-01-25 | 2019-05-28 | 深圳市小赢信息技术有限责任公司 | 一种中文地址标准化方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110442856A (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442856B (zh) | 一种地址信息标准化方法、装置、计算机设备及存储介质 | |
CN112685565B (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
WO2021082953A1 (zh) | 机器阅读理解方法、设备、存储介质及装置 | |
WO2020232861A1 (zh) | 命名实体识别方法、电子装置及存储介质 | |
CN107180628A (zh) | 建立声学特征提取模型的方法、提取声学特征的方法、装置 | |
CN111709240A (zh) | 实体关系抽取方法、装置、设备及其存储介质 | |
CN112069302A (zh) | 会话意图识别模型的训练方法、会话意图识别方法及装置 | |
CN112860919B (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN112949320B (zh) | 基于条件随机场的序列标注方法、装置、设备及介质 | |
CN113947095B (zh) | 多语种文本翻译方法、装置、计算机设备及存储介质 | |
CN112528029A (zh) | 文本分类模型处理方法、装置、计算机设备及存储介质 | |
CN113505601A (zh) | 一种正负样本对构造方法、装置、计算机设备及存储介质 | |
CN113946681A (zh) | 文本数据的事件抽取方法、装置、电子设备及可读介质 | |
CN112836521A (zh) | 问答匹配方法、装置、计算机设备及存储介质 | |
CN114445832A (zh) | 基于全局语义的文字图像识别方法、装置及计算机设备 | |
CN114091452A (zh) | 一种基于适配器的迁移学习方法、装置、设备及存储介质 | |
CN114492661B (zh) | 文本数据分类方法和装置、计算机设备、存储介质 | |
CN113723077B (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN111475635A (zh) | 语义补全方法、装置和电子设备 | |
CN112417886B (zh) | 意图实体信息抽取方法、装置、计算机设备及存储介质 | |
CN116774973A (zh) | 数据渲染方法、装置、计算机设备及存储介质 | |
CN116595023A (zh) | 地址信息的更新方法和装置、电子设备及存储介质 | |
CN113420869B (zh) | 基于全方向注意力的翻译方法及其相关设备 | |
CN112732896B (zh) | 目标信息显示方法、装置、电子设备和介质 | |
CN114781359A (zh) | 文本纠错方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |