CN111581311A - 一种数据处理的方法、装置、可读存储介质和电子设备 - Google Patents

一种数据处理的方法、装置、可读存储介质和电子设备 Download PDF

Info

Publication number
CN111581311A
CN111581311A CN202010318396.XA CN202010318396A CN111581311A CN 111581311 A CN111581311 A CN 111581311A CN 202010318396 A CN202010318396 A CN 202010318396A CN 111581311 A CN111581311 A CN 111581311A
Authority
CN
China
Prior art keywords
processor
label
address
labels
address information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010318396.XA
Other languages
English (en)
Inventor
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lazas Network Technology Shanghai Co Ltd
Original Assignee
Lazas Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lazas Network Technology Shanghai Co Ltd filed Critical Lazas Network Technology Shanghai Co Ltd
Priority to CN202010318396.XA priority Critical patent/CN111581311A/zh
Publication of CN111581311A publication Critical patent/CN111581311A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Remote Sensing (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据处理的方法、装置、可读存储介质和电子设备。本发明实施例通过至少一个处理器生成标签组合,其中,所述标签组合包括多个标签,所述标签用于标识地址关键词类型;所述至少一个处理器获取多个所述地址关键词;所述至少一个处理器根据所述标签组合以及多个所述地址关键词,按照所述标签组合生成携带标签标注的多个地址信息;所述至少一个处理器将所述携带标签标注的多个地址信息保存至数据库;所述至少一个处理器根据所述数据库训练条件随机域模型。通过上述方法,可以准确的确定出数据库中包括的多个地址信息所携带标签,进而提高训练出的条件随机域模型的准确性。

Description

一种数据处理的方法、装置、可读存储介质和电子设备
技术领域
本发明涉及数据处理领域,具体涉及一种数据处理的方法、装置、可读存储介质和电子设备。
背景技术
随着互联网技术的发展,智能终端的不断普及,在很多应用中,对智能终端的定位的准确性的要求越来越高,例如,在一些应用中,需要准确的获取用户的定位,在获取用户的定位过程中,需要对用户输入的中文地址进行标注,以便后续处理。
在现有技术中,通过条件随机场算法(conditional random field algorithm,CRF)模型对用户输入的中文地址进行标注,具体的,通过CRF模型为所述中文地址打标签,首先需要对CRF模型进行训练,在训练CRF模型时所使用的数据库中包括多个标注后的中文地址,上述标注后的中文地址通过人工进行打标签,数据库中标注后的中文地址数量很大,即人工进行打标签时工作量大,但由于人工进行打标签出错率较高,因此通过该数据库训练出的CRF模型准确性较低。
发明内容
有鉴于此,本发明实施例提供了一种数据处理的方法、装置、可读存储介质和电子设备,能够提高训练出的条件随机域模型的准确性。
第一方面,本发明实施例提供了一种数据处理的方法,该方法包括:接收来自于程序调用接口的信息处理请求;通过至少一个处理器生成标签组合,其中,所述标签组合包括多个标签,所述标签用于标识地址关键词类型;所述至少一个处理器获取多个所述地址关键词;所述至少一个处理器根据所述标签组合以及多个所述地址关键词,按照所述标签组合生成携带标签标注的多个地址信息;所述至少一个处理器将所述携带标签标注的多个地址信息保存至数据库;所述至少一个处理器根据所述数据库训练条件随机域模型。
优选的,该方法还包括:接收到新的地址信息;通过所述随机域模型为所述新的地址信息标注标签。
优选地,所述通过至少一个处理器生成标签组合,具体包括:通过至少一个处理器生成标签组合,其中,所述标签组合中包括的多个标签为至少设定数量,且所述设定数量的所述多个标签的顺序符合地域层级的递进关系排序。
优选地,所述至少一个处理器获取多个所述地址关键词,具体包括:所述至少一个处理器通过历史数据获取多个所述地址关键词,其中,所述历史数据包括行政区域划分数据、行业数据以及随机生成数据。
优选地,所述按照所述标签组合生成携带标签标注的多个地址信息,具体包括:按照所述标签组合中每个标签对应的地址关键词类型所对应的所述地址关键词,生成携带标签标注的多个地址信息。
第二方面,本发明实施例提供了一种数据处理的装置,该装置包括:接收单元,用于接收来自于程序调用接口的信息处理请求;生成单元,用于通过至少一个处理器生成标签组合,其中,所述标签组合包括多个标签,所述标签用于标识地址关键词类型;获取单元,用于所述至少一个处理器获取多个所述地址关键词;所述生成单元还用于,所述至少一个处理器根据所述标签组合以及多个所述地址关键词,按照所述标签组合生成携带标签标注的多个地址信息;保存单元,用于所述至少一个处理器将所述携带标签标注的多个地址信息保存至数据库;训练单元,用于所述至少一个处理器根据所述数据库训练条件随机域模型。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能中任一项所述的方法。
第四方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如下步骤:接收来自于程序调用接口的信息处理请求;通过至少一个处理器生成标签组合,其中,所述标签组合包括多个标签,所述标签用于标识地址关键词类型;所述至少一个处理器获取多个所述地址关键词;所述至少一个处理器根据所述标签组合以及多个所述地址关键词,按照所述标签组合生成携带标签标注的多个地址信息;所述至少一个处理器将所述携带标签标注的多个地址信息保存至数据库;所述至少一个处理器根据所述数据库训练条件随机域CRF模型。
优选地,所述处理器还执行如下步骤:接收到新的地址信息;通过所述随机域模型为所述新的地址信息标注标签。
优选地,所述处理器具体执行如下步骤:通过至少一个处理器生成标签组合,其中,所述标签组合中包括的多个标签为至少设定数量,且所述设定数量的所述多个标签的顺序符合地域层级的递进关系排序。
优选地,所述处理器具体执行如下步骤:所述至少一个处理器通过历史数据获取多个所述地址关键词,其中,所述历史数据包括行政区域划分数据、行业数据以及随机生成数据。
优选地,所述处理器具体执行如下步骤:按照所述标签组合中每个标签对应的地址关键词类型所对应的所述地址关键词,生成携带标签标注的多个地址信息。
本发明实施例通过至少一个处理器生成标签组合,其中,所述标签组合包括多个标签,所述标签用于标识地址关键词类型,所述至少一个处理器获取多个所述地址关键词,所述至少一个处理器根据所述标签组合以及所述多个所述地址关键词,按照所述标签组合生成携带标签标注的多个地址信息;所述至少一个处理器将所述携带标签标注的多个地址信息保存至数据库;所述至少一个处理器根据所述数据库训练条件随机域模型。通过上述方法,可以准确的确定出数据库中包括的多个地址信息所携带标签,进而提高训练出的条件随机域模型的准确性。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明第一实施例的数据处理的方法流程图;
图2是本发明第二实施例的数据处理的方法流程图;
图3是本发明第三实施例的应用场景图;
图4是本发明第四实施例的数据处理的装置示意图;
图5是本发明第五实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明公开进行描述,但是本发明公开并不仅仅限于这些实施例。在下文对本发明公开的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明公开。为了避免混淆本发明公开的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明公开的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在现有技术中,通过条件随机场算法(conditional random field algorithm,CRF)模型对用户输入的中文地址进行标注,具体的,通过CRF模型为所述中文地址打标签,首先需要对CRF模型进行训练,在训练CRF模型时所使用的数据库中包括多个标注后的中文地址,上述标注后的中文地址通过人工进行打标签,例如,假设中文地址为:“浙江省金华市城北路205号”,人工打标签时,需要查询预先设置的地址关键词与标签对照表,如表1所示:
表1
Figure BDA0002460365300000041
Figure BDA0002460365300000051
现有技术中,人工为中文地址“浙江省金华市城北路205号”进行打标签,标签为“PCRN”,但是由于人工打标签时可能会出现错误,例如将上述中文地址的标签标注为“PCRF”,将标注错误的中文地址存入到数据库中训练CRF模型,会降低CRF模型的准确性,并且所有的中文地址都通过人工打标签,工作量巨大,消耗大量的人力资源,而且由于人工打标签的中文地址的数量是有限的,会导致数据库中的数据不够全面,也会影响CRF模型的可识别标签的类别,进一步的影响CRF模型的准确性。因此,如何提高训练出的CRF模型的准确性,是目前需要解决的问题。
图1是本发明第一实施例的数据处理的方法流程图。如图1所示,具体包括如下步骤:
步骤S100、接收来自于程序调用接口的信息处理请求。
步骤S101、通过至少一个处理器生成标签组合,其中,所述标签组合包括多个标签,所述标签用于标识地址关键词类型。
具体的,通过至少一个处理器生成标签组合,其中,所述标签组合中包括的多个标签为至少设定数量,且所述设定数量的所述多个标签的顺序符合地域层级的递进关系排序。
例如,生成的标签组合为PCDSV、PCDS、PCDSN、CDSVR等,在实际应用中的组合可以有多个,本发明实施例中不一一赘述,生成的标签组合只要符合“PCDSVRNIABFJMLXZW”的地域层级的递进关系排序即可,即在设定顺序中选择至少一个标签生成标签组合,在实际应用中,所述设定顺序可以根据实际情况调整,其中,“P”表示“省”、“C”表示“市”、“D”表示“区”、“S”表示“街道”、“V”表示“乡镇”、“R”表示“路、街”、“N”表示“道路门牌号”、“I”表示“兴趣点(Point of Interest,POI)(学校、商场、小区、医院等)”、“A”表示“建筑片区”、“B”表示“楼宇”、“F”表示“楼层、房间、铺位”、“J”表示“路、街交叉口”、“M”表示“商户,特指楼宇内商户”、“L”表示“方位词”、“X”表示“其他信息,特指()内信息”、“Z”表示“特指工业厂区、开发区、保税区等大范围区域”、以及“W”表示“空白”。
本发明实施例中,在地理信息系统中,一个兴趣点POI还可以是一栋房子、一个商铺、一个邮筒、一个公交站等,本发明实施例对其不做限定。
步骤S102、所述至少一个处理器获取多个所述地址关键词。
具体的,所述至少一个处理器通过历史数据获取多个所述地址关键词,其中,所述历史数据包括行政区域划分数据、行业数据以及随机生成数据。
举例说明,根据历史数据,可以获取多个“省”的地址关键词,例如,“山西省”、“山东省”、“辽宁省”等,还可以获取多个“市”的地址关键词,例如,“忻州市”、“济南市”、“沈阳市”等,本发明实施例不再一一赘述。
步骤S103、所述至少一个处理器根据所述标签组合以及所述多个所述地址关键词,按照所述标签组合生成携带标签标注的多个地址信息。
具体的,按照所述标签组合中每个标签对应的地址关键词类型所对应的所述地址关键词,生成携带标签标注的多个地址信息。
举例说明,预先获取历史数据中每个地址关键词对应的标签,如表2所示:
表2
Figure BDA0002460365300000061
Figure BDA0002460365300000071
例如,“山西省”对应的标签为“P”、“忻州市”对应的标签为“C”、“忻府区”对应的标签为“D”、“长征路街道”对应的标签为“S”、“坦洲镇”对应的标签为“V”、“和平路、长安街、金沙江路与真北路交叉口”对应的标签为“R”、“15号、20弄、十一巷”对应的标签为“N”、“王府井百货”对应的标签为“I”、“东区、1期”对应的标签为“A”、“1栋、2座、D座、C1栋”对应的标签为“B”、“4楼、403、4楼B103”对应的标签为“F”、“李贤路与旌旗街交叉口”对应的标签为“J”、“快活谷网吧,目前使用I代替”对应的标签为“M”、“附近、对面、向南200米、往北走两步”对应的标签为“L”、“(中山校区)、(光谷广场前行100米)”对应的标签为“X”、以及“苏州工业园区直属镇”对应的标签为“Z”。
举例说明,假设标签组合为“PCDSV”时,根据表2确定标签组合中每个标签对应的地址关键词,并根据标签组合的顺序生成携带标签标注的地址信息,可以表示为“山西省P忻州市C忻府区D长征路街道S坦洲镇V”,还可以表示为“山西省忻州市忻府区长征路街道坦洲镇PCDSV”,也可以表示为其他形式,本发明对其不做限定。由于省、市、区等的数量巨大,根据标签模板生成的地址信息的数量也是巨大的,并且生成的中文地址都携带准确的标签。
本发明实施例中,假设标签组合为“PCDSN”时“山西省P忻州市C忻府区D长征路街道S15号N”。
步骤S104、所述至少一个处理器将所述携带标签标注的多个地址信息保存至数据库。
具体的,将“山西省P忻州市C忻府区D长征路街道S坦洲镇V”、“山西省P忻州市C忻府区D长征路街道S15号N”等携带标签标注的多个地址信息保存至数据库。
步骤S105、所述至少一个处理器根据所述数据库训练条件随机域模型。
具体的,通过CRF++工具训练所述CRF模型。
本发明实施例中,在步骤S105之后,该方法还包括:
当用户输入新的中文地址时,通过训练好的CRF模型对新的中文地址进行打标签。
本发明实施例中,由于所述地址信息是根据标签组合生产的,因此所述地址信息所携带的标签都是准确的,可以大量生产携带标签的历史信息,既节约了人力资源,又提高了训练出的CRF模型的准确性。
图2是本发明第二实施例的数据处理的方法流程图。如图2所示,在步骤S105之后包括如下步骤:
步骤S106、接收到新的地址信息。
具体的,接收到用户输入的新的地址信息,其中,所述新的地址信息为标注标签。
步骤S107、通过所述随机域模型为所述新的地址信息标注标签。
图3是本发明第三实施例的应用场景图,包括用户终端和服务器,其中,所述用户终端和服务器可以为多个,所述服务器还可以称为业务系统、外卖系统、或者外卖平台等,所述用户终端可以为手机、平板电脑等可以进行定位的移动设备,服务器接收用户终端发送的中文地址,通过训练好的条件随机域模型对中文地址进行标注,训练条件随机域模型的过程如下,具体的,通过至少一个处理器生成标签组合,其中,所述标签组合包括多个标签,所述标签用于标识地址关键词类型,所述至少一个处理器获取多个所述地址关键词,所述至少一个处理器根据所述标签组合以及所述多个所述地址关键词,按照所述标签组合生成携带标签标注的多个地址信息;所述至少一个处理器将所述携带标签标注的多个地址信息保存至数据库;所述至少一个处理器根据所述数据库训练条件随机域模型。通过上述方法,可以准确的确定出数据库中包括的多个地址信息所携带标签,进而提高训练出的条件随机域模型的准确性。
图4是本发明第四实施例的数据处理的装置示意图。如图4所示,本实施例的装置包括接收单元41、生成单元42、获取单元43、保存单元44和训练单元45。
其中,接收单元41,用于接收来自于程序调用接口的信息处理请求;生成单元42,用于通过至少一个处理器生成标签组合,其中,所述标签组合包括多个标签,所述标签用于标识地址关键词类型;获取单元43,用于所述至少一个处理器获取多个所述地址关键词;所述生成单元42还用于,所述至少一个处理器根据所述标签组合以及所述多个所述地址关键词,按照所述标签组合生成携带标签标注的多个地址信息;保存单元44,用于所述至少一个处理器将所述携带标签标注的多个地址信息保存至数据库;训练单元45,用于所述至少一个处理器根据所述数据库训练条件随机域模型。
进一步地,所述接收单元还用于:接收到新的地址信息;该装置还包括:标注单元,用于通过所述随机域模型为所述新的地址信息标注标签。
进一步地,所述生成单元具体用于:通过至少一个处理器生成标签组合,其中,所述标签组合中包括的多个标签为至少设定数量,且所述设定数量的所述多个标签的顺序符合地域层级的递进关系排序。
进一步地,所述获取单元具体用于:所述至少一个处理器通过历史数据获取多个所述地址关键词,其中,所述历史数据包括行政区域划分数据、行业数据以及随机生成数据。
进一步地,所述获取单元具体还用于:按照所述标签组合中每个标签对应的地址关键词类型所对应的所述地址关键词,生成携带标签标注的多个地址信息。
图5是本发明第五实施例的电子设备的示意图。在本实施例中,电子设备为服务器。应理解,还可以为其他电子设备,如树莓派。如图5所示,该电子设备:至少包括一个处理器501;以及,与至少一个处理器501通信连接的存储器502;以及,与扫描装置通信连接的通信组件503,通信组件503在处理器501的控制下接收和发送数据;其中,存储器502存储有可被至少一个处理器501执行的指令,指令被至少一个处理器501执行以实现:接收来自于程序调用接口的信息处理请求;通过至少一个处理器生成标签组合,其中,所述标签组合包括多个标签,所述标签用于标识地址关键词类型;所述至少一个处理器获取多个所述地址关键词;所述至少一个处理器根据所述标签组合以及所述多个所述地址关键词,按照所述标签组合生成携带标签标注的多个地址信息;所述至少一个处理器将所述携带标签标注的多个地址信息保存至数据库;所述至少一个处理器根据所述数据库训练条件随机域模型。
进一步地,所述处理器还执行如下步骤:接收到新的地址信息;通过所述随机域模型为所述新的地址信息标注标签。
进一步地,所述处理器具体执行如下步骤:通过至少一个处理器生成标签组合,其中,所述标签组合中包括的多个标签为至少设定数量,且所述设定数量的所述多个标签的顺序符合地域层级的递进关系排序。
进一步地,所述处理器具体执行如下步骤:所述至少一个处理器通过历史数据获取多个所述地址关键词,其中,所述历史数据包括行政区域划分数据、行业数据以及随机生成数据。
进一步地,所述处理器具体执行如下步骤:按照所述标签组合中每个标签对应的地址关键词类型所对应的所述地址关键词,生成携带标签标注的多个地址信息。
具体地,该电子设备包括:一个或多个处理器501以及存储器502,图5中以一个处理器501为例。处理器501、存储器502可以通过总线或者其他方式连接,图5中以通过总线连接为例。存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器501通过运行存储在存储器502中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述数据处理的方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器502中,当被一个或者多个处理器501执行时,执行上述任意方法实施例中的数据处理的方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本发明的第六实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施例是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
本申请实施例公开了A1、一种数据处理的方法,该方法包括:
接收来自于程序调用接口的信息处理请求;
通过至少一个处理器生成标签组合,其中,所述标签组合包括多个标签,所述标签用于标识地址关键词类型;
所述至少一个处理器获取多个所述地址关键词;
所述至少一个处理器根据所述标签组合以及多个所述地址关键词,按照所述标签组合生成携带标签标注的多个地址信息;
所述至少一个处理器将所述携带标签标注的多个地址信息保存至数据库;
所述至少一个处理器根据所述数据库训练条件随机域模型。
A2、如A1所述的方法,该方法还包括:
接收到新的地址信息;
通过所述随机域模型为所述新的地址信息标注标签。
A3、如A1所述的方法,所述通过至少一个处理器生成标签组合,具体包括:
通过至少一个处理器生成标签组合,其中,所述标签组合中包括的多个标签为至少设定数量,且所述设定数量的所述多个标签的顺序符合地域层级的递进关系排序。
A4、如A1所述的方法,所述至少一个处理器获取多个所述地址关键词,具体包括:
所述至少一个处理器通过历史数据获取多个所述地址关键词,其中,所述历史数据包括行政区域划分数据、行业数据以及随机生成数据。
A5、如A1所述的方法,所述按照所述标签组合生成携带标签标注的多个地址信息,具体包括:
按照所述标签组合中每个标签对应的地址关键词类型所对应的所述地址关键词,生成携带标签标注的多个地址信息。
本申请实施例公开了B1、一种数据处理的装置,该装置包括:
接收单元,用于接收来自于程序调用接口的信息处理请求;
生成单元,用于通过至少一个处理器生成标签组合,其中,所述标签组合包括多个标签,所述标签用于标识地址关键词类型;
获取单元,用于所述至少一个处理器获取多个所述地址关键词;
所述生成单元还用于,所述至少一个处理器根据所述标签组合以及多个所述地址关键词,按照所述标签组合生成携带标签标注的多个地址信息;
保存单元,用于所述至少一个处理器将所述携带标签标注的多个地址信息保存至数据库;
训练单元,用于所述至少一个处理器根据所述数据库训练条件随机域模型。
本申请实施例公开了C1、一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如A1-A5中任一项所述的方法。
本申请实施例公开了D1、一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如下步骤:
接收来自于程序调用接口的信息处理请求;
通过至少一个处理器生成标签组合,其中,所述标签组合包括多个标签,所述标签用于标识地址关键词类型;
所述至少一个处理器获取多个所述地址关键词;
所述至少一个处理器根据所述标签组合以及多个所述地址关键词,按照所述标签组合生成携带标签标注的多个地址信息;
所述至少一个处理器将所述携带标签标注的多个地址信息保存至数据库;
所述至少一个处理器根据所述数据库训练条件随机域模型。
D2、如D1所述的电子设备,所述处理器还执行如下步骤:
接收到新的地址信息;
通过所述随机域模型为所述新的地址信息标注标签。
D3、如D1述的电子设备,所述处理器具体执行如下步骤:
通过至少一个处理器生成标签组合,其中,所述标签组合中包括的多个标签为至少设定数量,且所述设定数量的所述多个标签的顺序符合地域层级的递进关系排序。
D4、如D1所述的电子设备,所述处理器具体执行如下步骤:
所述至少一个处理器通过历史数据获取多个所述地址关键词,其中,所述历史数据包括行政区域划分数据、行业数据以及随机生成数据。
D5、如D1所述的电子设备,所述处理器具体执行如下步骤:
按照所述标签组合中每个标签对应的地址关键词类型所对应的所述地址关键词,生成携带标签标注的多个地址信息。

Claims (10)

1.一种数据处理的方法,其特征在于,该方法包括:
接收来自于程序调用接口的信息处理请求;
通过至少一个处理器生成标签组合,其中,所述标签组合包括多个标签,所述标签用于标识地址关键词类型;
所述至少一个处理器获取多个所述地址关键词;
所述至少一个处理器根据所述标签组合以及多个所述地址关键词,按照所述标签组合生成携带标签标注的多个地址信息;
所述至少一个处理器将所述携带标签标注的多个地址信息保存至数据库;
所述至少一个处理器根据所述数据库训练条件随机域模型。
2.如权利要求1所述的方法,其特征在于,该方法还包括:
接收到新的地址信息;
通过所述随机域模型为所述新的地址信息标注标签。
3.如权利要求1所述的方法,其特征在于,所述通过至少一个处理器生成标签组合,具体包括:
通过至少一个处理器生成标签组合,其中,所述标签组合中包括的多个标签为至少设定数量,且所述设定数量的所述多个标签的顺序符合地域层级的递进关系排序。
4.如权利要求1所述的方法,其特征在于,所述至少一个处理器获取多个所述地址关键词,具体包括:
所述至少一个处理器通过历史数据获取多个所述地址关键词,其中,所述历史数据包括行政区域划分数据、行业数据以及随机生成数据。
5.如权利要求1所述的方法,其特征在于,所述按照所述标签组合生成携带标签标注的多个地址信息,具体包括:
按照所述标签组合中每个标签对应的地址关键词类型所对应的所述地址关键词,生成携带标签标注的多个地址信息。
6.一种数据处理的装置,其特征在于,该装置包括:
接收单元,用于接收来自于程序调用接口的信息处理请求;
生成单元,用于通过至少一个处理器生成标签组合,其中,所述标签组合包括多个标签,所述标签用于标识地址关键词类型;
获取单元,用于所述至少一个处理器获取多个所述地址关键词;
所述生成单元还用于,所述至少一个处理器根据所述标签组合以及多个所述地址关键词,按照所述标签组合生成携带标签标注的多个地址信息;
保存单元,用于所述至少一个处理器将所述携带标签标注的多个地址信息保存至数据库;
训练单元,用于所述至少一个处理器根据所述数据库训练条件随机域模型。
7.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-5中任一项所述的方法。
8.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如下步骤:
接收来自于程序调用接口的信息处理请求;
通过至少一个处理器生成标签组合,其中,所述标签组合包括多个标签,所述标签用于标识地址关键词类型;
所述至少一个处理器获取多个所述地址关键词;
所述至少一个处理器根据所述标签组合以及多个所述地址关键词,按照所述标签组合生成携带标签标注的多个地址信息;
所述至少一个处理器将所述携带标签标注的多个地址信息保存至数据库;
所述至少一个处理器根据所述数据库训练条件随机域模型。
9.如权利要求8所述的电子设备,其特征在于,所述处理器还执行如下步骤:
接收到新的地址信息;
通过所述随机域模型为所述新的地址信息标注标签。
10.如权利要求8所述的电子设备,其特征在于,所述处理器具体执行如下步骤:
通过至少一个处理器生成标签组合,其中,所述标签组合中包括的多个标签为至少设定数量,且所述设定数量的所述多个标签的顺序符合地域层级的递进关系排序。
CN202010318396.XA 2020-04-21 2020-04-21 一种数据处理的方法、装置、可读存储介质和电子设备 Pending CN111581311A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010318396.XA CN111581311A (zh) 2020-04-21 2020-04-21 一种数据处理的方法、装置、可读存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010318396.XA CN111581311A (zh) 2020-04-21 2020-04-21 一种数据处理的方法、装置、可读存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN111581311A true CN111581311A (zh) 2020-08-25

Family

ID=72111612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010318396.XA Pending CN111581311A (zh) 2020-04-21 2020-04-21 一种数据处理的方法、装置、可读存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN111581311A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182048A (zh) * 2020-09-11 2021-01-05 南方科技大学 数据标注方法、网络设备、终端、系统及存储介质
CN113157610A (zh) * 2021-05-20 2021-07-23 浙江大华技术股份有限公司 数据保存方法及装置、存储介质、电子装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977395A (zh) * 2019-02-14 2019-07-05 北京三快在线科技有限公司 处理地址文本的方法、装置、电子设备及可读存储介质
CN110427542A (zh) * 2018-04-26 2019-11-08 北京市商汤科技开发有限公司 分类网络训练及数据标注方法和装置、设备、介质
CN110674423A (zh) * 2019-09-23 2020-01-10 拉扎斯网络科技(上海)有限公司 一种地址定位的方法、装置、可读存储介质和电子设备
CN110688449A (zh) * 2019-09-20 2020-01-14 京东数字科技控股有限公司 基于深度学习的地址文本处理方法、装置、设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427542A (zh) * 2018-04-26 2019-11-08 北京市商汤科技开发有限公司 分类网络训练及数据标注方法和装置、设备、介质
CN109977395A (zh) * 2019-02-14 2019-07-05 北京三快在线科技有限公司 处理地址文本的方法、装置、电子设备及可读存储介质
CN110688449A (zh) * 2019-09-20 2020-01-14 京东数字科技控股有限公司 基于深度学习的地址文本处理方法、装置、设备及介质
CN110674423A (zh) * 2019-09-23 2020-01-10 拉扎斯网络科技(上海)有限公司 一种地址定位的方法、装置、可读存储介质和电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182048A (zh) * 2020-09-11 2021-01-05 南方科技大学 数据标注方法、网络设备、终端、系统及存储介质
CN113157610A (zh) * 2021-05-20 2021-07-23 浙江大华技术股份有限公司 数据保存方法及装置、存储介质、电子装置
CN113157610B (zh) * 2021-05-20 2023-03-14 浙江大华技术股份有限公司 数据保存方法及装置、存储介质、电子装置

Similar Documents

Publication Publication Date Title
CN102104635B (zh) 一种更新互联网协议ip地址库的方法和装置
CN109376761B (zh) 一种地址标识及其经纬度的挖掘方法及装置
CN110334162B (zh) 地址识别方法及装置
CN110674423A (zh) 一种地址定位的方法、装置、可读存储介质和电子设备
CN104850641A (zh) 一种推荐信息的方法及装置
CN110019617B (zh) 地址标识的确定方法和装置、存储介质、电子装置
CN111581311A (zh) 一种数据处理的方法、装置、可读存储介质和电子设备
CN101996248B (zh) 地址查询方法及装置
CN111132027B (zh) 一种场景识别网络图的绘制方法、场景识别方法及装置
CN106772685A (zh) 基于Web‑GIS的相似台风匹配算法及软件支持系统
CN112214561B (zh) 地图数据处理方法、装置、计算机设备及存储介质
US20200019934A1 (en) Method and device for determining mail path information
CN110807547A (zh) 家庭人口结构的预测方法及系统
CN105592120A (zh) 提供地理位置信息的方法及装置
CN111038906A (zh) 一种订单分拣方法和装置
CN104867402A (zh) 一种离线的逆地理编码的方法及其装置和终端设备
CN107832386A (zh) 一种电子地图的误差纠正方法和装置
CN105069694A (zh) 一种地下管线数据同步方法及装置
CN101742638A (zh) 提供位置信息的方法、客户端和服务器
US20130159207A1 (en) Identifying location in package and mail delivery systems
CN105338065A (zh) 终端设备位置信息的保护方法及装置
CN110309244B (zh) 一种目标点定位的方法和装置
US20210311971A1 (en) Geocoding methods and systems of correcting latitude and longitude of a point of interest
CN103325277B (zh) 一种引导停车系统及工作流程
CN110598131A (zh) 确定用户常驻区域的方法、装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200825

RJ01 Rejection of invention patent application after publication