CN114218957A - 行政区划变迁信息的确定方法、装置、设备及存储介质 - Google Patents

行政区划变迁信息的确定方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114218957A
CN114218957A CN202210163008.4A CN202210163008A CN114218957A CN 114218957 A CN114218957 A CN 114218957A CN 202210163008 A CN202210163008 A CN 202210163008A CN 114218957 A CN114218957 A CN 114218957A
Authority
CN
China
Prior art keywords
administrative division
text
texts
administrative
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210163008.4A
Other languages
English (en)
Other versions
CN114218957B (zh
Inventor
黄申
谢朋峻
刘楚
丁瑞雪
王潇斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210163008.4A priority Critical patent/CN114218957B/zh
Publication of CN114218957A publication Critical patent/CN114218957A/zh
Application granted granted Critical
Publication of CN114218957B publication Critical patent/CN114218957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Remote Sensing (AREA)
  • Development Economics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种行政区划变迁信息的确定方法、装置、设备及存储介质。本公开通过识别无标注语料中的至少两个行政区划文本、以及每个行政区划文本在所述无标注语料中的位置信息,并根据所述每个行政区划文本在所述无标注语料中的位置信息,计算所述每个行政区划文本分别对应的表示向量。进一步,根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系,所述任意两个行政区划文本和所述变迁关系可以构成结构化的行政区划变迁信息。从而当不同无标注语料的行文风格多样时,也可以准确的从不同无标注语料中确定出结构化的行政区划变迁信息。

Description

行政区划变迁信息的确定方法、装置、设备及存储介质
技术领域
本公开涉及信息技术领域,尤其涉及一种行政区划变迁信息的确定方法、装置、设备及存储介质。
背景技术
当前行政区划经常发生调整和变更,并且行政区划的变迁信息是地址解析、地址归一所需的重要信息。
但是,本申请的发明人发现,目前包含有行政区划变迁信息的各种无标注语料的行文风格多样,从而难以形成结构化的行政区划变迁信息。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种行政区划变迁信息的确定方法、装置、设备及存储介质,当不同无标注语料的行文风格多样时,也可以准确的从不同无标注语料中确定出结构化的行政区划变迁信息。
第一方面,本公开实施例提供一种行政区划变迁信息的确定方法,包括:
获取无标注语料;
识别所述无标注语料中的至少两个行政区划文本、以及每个行政区划文本在所述无标注语料中的位置信息;
根据所述每个行政区划文本在所述无标注语料中的位置信息,计算所述每个行政区划文本分别对应的表示向量;
根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系,结构化的行政区划变迁信息包括所述任意两个行政区划文本和所述变迁关系。
第二方面,本公开实施例提供一种预设模型训练方法,其中,所述预设模型用于确定任意两个行政区划文本之间的变迁关系,所述预设模型通过如下方法进行训练:
获取已标注的行政区划对;
根据所述已标注的行政区划对,从多个无标注语料中确定第一样本文本,所述第一样本文本包括所述已标注的行政区划对中的两个行政区划文本,所述已标注的行政区划对和所述第一样本文本构成第一样本数据;
从多个无标注语料中确定第二样本文本,所述第二样本文本中包括的任意两个行政区划文本不在所述已标注的行政区划对中,所述第二样本文本、所述第二样本文本中包括的任意两个行政区划文本、以及所述任意两个行政区划文本之间的无变迁关系构成第二样本数据;
采用第一预设数量的第一样本数据和第二预设数量的第二样本数据,对所述预设模型进行训练,所述第一预设数量和所述第二预设数量之间的比例为预设比例。
第三方面,本公开实施例提供一种行政区划变迁信息的确定装置,包括:
获取模块,用于获取无标注语料;
识别模块,用于识别所述无标注语料中的至少两个行政区划文本、以及每个行政区划文本在所述无标注语料中的位置信息;
计算模块,用于根据所述每个行政区划文本在所述无标注语料中的位置信息,计算所述每个行政区划文本分别对应的表示向量;
确定模块,用于根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系,结构化的行政区划变迁信息包括所述任意两个行政区划文本和所述变迁关系。
第四方面,本公开实施例提供一种预设模型训练装置,所述预设模型用于确定任意两个行政区划文本之间的变迁关系,所述预设模型训练装置包括:
获取模块,用于获取已标注的行政区划对;
第一确定模块,用于根据所述已标注的行政区划对,从多个无标注语料中确定第一样本文本,所述第一样本文本包括所述已标注的行政区划对中的两个行政区划文本,所述已标注的行政区划对和所述第一样本文本构成第一样本数据;
第二确定模块,用于从多个无标注语料中确定第二样本文本,所述第二样本文本中包括的任意两个行政区划文本不在所述已标注的行政区划对中,所述第二样本文本、所述第二样本文本中包括的任意两个行政区划文本、以及所述任意两个行政区划文本之间的无变迁关系构成第二样本数据;
训练模块,用于采用第一预设数量的第一样本数据和第二预设数量的第二样本数据,对所述预设模型进行训练,所述第一预设数量和所述第二预设数量之间的比例为预设比例。
第五方面,本公开实施例提供一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面或第二方面所述的方法。
第六方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面或第二方面所述的方法。
本公开实施例提供的行政区划变迁信息的确定方法、装置、设备及存储介质,通过识别无标注语料中的至少两个行政区划文本、以及每个行政区划文本在所述无标注语料中的位置信息,并根据所述每个行政区划文本在所述无标注语料中的位置信息,计算所述每个行政区划文本分别对应的表示向量。进一步,根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系,所述任意两个行政区划文本和所述变迁关系可以构成结构化的行政区划变迁信息。从而当不同无标注语料的行文风格多样时,也可以准确的从不同无标注语料中确定出结构化的行政区划变迁信息。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的行政区划变迁信息的确定方法流程图;
图2为本公开另一实施例提供的行政区划变迁信息的确定方法流程图;
图3为本公开另一实施例提供的行政区划变迁信息的确定方法流程图;
图4为本公开实施例提供的预设模型的结构示意图;
图5为本公开另一实施例提供的预设模型训练方法流程图;
图6为本公开实施例提供的行政区划变迁信息的确定装置的结构示意图;
图7为本公开实施例提供的预设模型训练装置的结构示意图;
图8为本公开实施例提供的电子设备实施例的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
当前行政区划经常发生调整和变更,并且行政区划的变迁信息是地址解析、地址归一所需的重要信息。其中,地址解析是指给定一段地址文本描述(例如收货地址、物流地址、对话中提到的地址信息等),解析出地址的具体含义,从而得到该地址的所属区划、道路、楼栋、兴趣点(Point of Interest,POI)、户室、和经纬度等信息。地址归一是指给定多个地址文本描述,将其中指代相同地址的文本进行聚合和归一。行政区划变迁是指对行政区划的名称、建制、隶属关系、区域界线等进行调整。目前包含有行政区划变迁信息的各种无标注语料的行文风格多样,从而难以形成结构化的行政区划变迁信息。针对该问题,本公开实施例提供了一种行政区划变迁信息的确定方法,该方法主要的任务是实现实体关系抽取,其中,实体关系抽取是指给定一段文本及该文本中的两个实体,确定出这两个实体间存在的关系。其中,每个实体可以是一个行政区划文本,例如,行政区划名称。下面结合具体的实施例对该方法进行介绍。
图1为本公开实施例提供的行政区划变迁信息的确定方法流程图。该方法可以由行政区划变迁信息的确定装置执行,该装置可以采用软件和/或硬件的方式实现,该装置可配置于电子设备中,例如服务器或终端,其中,终端具体包括手机、电脑或平板电脑等。下面以服务器为例进行示意性说明。如图1所示,该方法具体步骤如下:
S101、获取无标注语料。
例如,服务器获取的无标注语料可以是互联网中公开的文件或其他用户创作的内容。该无标注语料中包括行政区划的变迁信息,例如,行政区划的变迁信息是“2019年10月,A乡,划归B镇管辖。”
S102、识别所述无标注语料中的至少两个行政区划文本、以及每个行政区划文本在所述无标注语料中的位置信息。
例如,服务器可以采用命名实体识别和词典匹配方法,识别出该无标注语料中的至少两个行政区划文本、以及每个行政区划文本在该无标注语料中的位置信息。其中,行政区划文本可以是行政区划的名称,例如,“A乡”和“B镇”。另外,每一个行政区划文本还可以记为一个实体,若两个实体之间具有变迁关系,则这两个实体可以记为实体对。其中,变迁关系包括:更名、建制变更、并入、拆分、归属变更等。例如,“A乡”和“B镇”之间的变迁关系是并入,则“A乡”和“B镇”可以记为实体对<A乡,B镇>。其中,“A乡”在该无标注语料中的位置信息包括“A乡”的第一个字符“A”和“A乡”的最后一个字符“乡”分别在该无标注语料中的位置信息。同理,“B镇” 在该无标注语料中的位置信息包括“B镇”的第一个字符“B”和“B镇”的最后一个字符“镇”分别在该无标注语料中的位置信息。
S103、根据所述每个行政区划文本在所述无标注语料中的位置信息,计算所述每个行政区划文本分别对应的表示向量。
例如,服务器可以根据“A乡”和“B镇”分别在该无标注语料中的位置信息,计算出“A乡”和“B镇” 分别对应的表示向量。
S104、根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系,结构化的行政区划变迁信息包括所述任意两个行政区划文本和所述变迁关系。例如,本实施例可以将结构化的行政区划变迁信息定义为四元组:<年月,旧区划,新区划,变迁关系>。服务器可以根据“A乡”和“B镇” 分别对应的表示向量,确定“A乡”和“B镇”之间的变迁关系,例如该变迁关系是并入。进一步,将该无标注语料中的时间信息、“A乡”、“B镇”、以及“A乡”和“B镇”之间的变迁关系构成结构化的行政区划变迁信息,例如四元组:<2019年10月,A乡,B镇,并入>。
可以理解的是,无标注语料中包括的行政区划文本可能不限于两个,例如,该无标注语料是“2019年10月,C市的A乡划归C市的B镇管辖。”该无标注语料中包括的行政区划文本有3个,分别是“C市” 、“A乡”和“B镇”。具体的,在S102中可以识别该无标注语料中的3个行政区划文本、以及每个行政区划文本在所述无标注语料中的位置信息。在S103中可以计算每个行政区划文本分别对应的表示向量。在S104中可以根据每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系,其中,“C市”和“A乡”之间没有变迁关系,“C市”和“B镇”之间也没有变迁关系,“A乡”和“B镇”之间的变迁关系是并入。
本公开实施例通过识别无标注语料中的至少两个行政区划文本、以及每个行政区划文本在所述无标注语料中的位置信息,并根据所述每个行政区划文本在所述无标注语料中的位置信息,计算所述每个行政区划文本分别对应的表示向量。进一步,根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系,所述任意两个行政区划文本和所述变迁关系可以构成结构化的行政区划变迁信息。从而当不同无标注语料的行文风格多样时,也可以准确的从不同无标注语料中确定出结构化的行政区划变迁信息。
图2为本公开实施例提供的行政区划变迁信息的确定方法流程图,如图2所示,该方法包括如下几个步骤:
S201、获取无标注语料。
具体的,S201和S101的实现方式和具体原理一致,此处不再赘述。
S202、识别所述无标注语料中的至少两个行政区划文本、以及每个行政区划文本在所述无标注语料中的位置信息。
具体的,S202和S102的实现方式和具体原理一致,此处不再赘述。
S203、根据所述每个行政区划文本在所述无标注语料中的位置信息,在所述无标注语料中添加标记字符,得到添加有标记字符的无标注语料。
例如,无标注语料是“2019年10月,A乡,划归B镇管辖。”,根据“A乡”和“B镇”分别在该无标注语料中的位置信息,可以在“A乡”的前后分别添加标记字符,以及在“B镇”的前后分别添加标记字符。例如,在“A乡”的前面添加“E1”,在“A乡”的后面添加“/E1”,在“B镇”的前面添加“E2”,在“B镇”的后面添加“/E2”。其中,“E1”、 “/E1”、 “E2”、 “/E2”分别是在该无标注语料中添加的标记字符,该标记字符也可称为特殊标记符。从而得到添加有标记字符的无标注语料,即“2019年10月,E1 A乡 /E1,划归E2 B镇 /E2管辖。”
可选的,根据所述每个行政区划文本在所述无标注语料中的位置信息,在所述无标注语料中添加标记字符,包括:根据所述行政区划文本的第一个字符和最后一个字符分别在所述无标注语料中的位置信息,在所述第一个字符之前和所述最后一个字符之后分别添加标记字符。
例如,“A乡”的第一个字符是“A”,在“A” 之前添加“E1”。 “A乡”的最后一个字符是“乡”,在“乡”之后添加“/E1”。同理,“B镇” 的第一个字符是“B”, 在“B” 之前添加“E2”。 “B镇” 的最后一个字符是“镇”, 在“镇”之后添加“/E2”。
S204、根据所述添加有标记字符的无标注语料中每个字符的表示向量,计算所述每个行政区划文本分别对应的表示向量。
例如,根据添加有标记字符的无标注语料,即“2019年10月,E1 A乡 /E1,划归E2 B镇 /E2管辖。”,可以得到该添加有标记字符的无标注语料中每个字符的表示向量,该字符可以是无标注语料中原有的字符,也可以是如上所述的特殊标记符。此处的一个字符可以是一个汉字、一个特殊标记符、或一个字母。进一步,根据该添加有标记字符的无标注语料中每个字符的表示向量,计算每个行政区划文本分别对应的表示向量。
可选的,根据所述添加有标记字符的无标注语料中每个字符的表示向量,计算所述每个行政区划文本分别对应的表示向量,包括:根据所述添加有标记字符的无标注语料中所述行政区划文本对应的标记字符的表示向量,计算所述行政区划文本对应的表示向量。
例如,在一种可能的情况中,“A乡”对应的标记字符包括“E1”和“/E1”,因此,根据“E1”和“/E1”分别对应的表示向量,可以计算出“A乡”对应的表示向量。同理,可以计算出“B镇”对应的表示向量。
在另一种可能的情况中,可以根据“A”和“乡”分别对应的表示向量,计算出“A乡”对应的表示向量。同理,可以计算出“B镇”对应的表示向量。
在又一种可能的情况中,可以根据“E1”、 “A”、 “乡”和“/E1” 分别对应的表示向量,计算出“A乡”对应的表示向量。同理,可以计算出“B镇”对应的表示向量。
S205、根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系,结构化的行政区划变迁信息包括所述任意两个行政区划文本和所述变迁关系。例如,根据“A乡”对应的表示向量和“B镇”对应的表示向量,可以确定出“A乡”和“B镇”之间的变迁关系。
可选的,根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系,包括:根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间变迁关系的表示向量;根据所述变迁关系的表示向量,预测所述变迁关系分别是多种预设关系中每种预设关系的概率值;将最大概率值所对应的预设关系确定为所述任意两个行政区划文本之间的变迁关系。
例如,根据“A乡”对应的表示向量和“B镇”对应的表示向量,可以先确定出“A乡”和“B镇”之间变迁关系的表示向量。另外,本实施例还可以设置有多种预设关系,该多种预设关系例如为更名、建制变更、并入、拆分、归属变更等。进一步,根据“A乡”和“B镇”之间变迁关系的表示向量,预测该变迁关系分别是多种预设关系中每种预设关系的概率值,从而将最大概率值所对应的预设关系确定为“A乡”和“B镇”之间变迁关系。
本实施例通过识别所述无标注语料中的至少两个行政区划文本、以及每个行政区划文本在所述无标注语料中的位置信息,根据所述每个行政区划文本在所述无标注语料中的位置信息,在所述无标注语料中添加标记字符,得到添加有标记字符的无标注语料。根据所述添加有标记字符的无标注语料中每个字符的表示向量,计算所述每个行政区划文本分别对应的表示向量,并根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系,从而实现了对非结构化文本中的行政区划变迁信息的自动解析。
图3为本公开另一实施例提供的行政区划变迁信息的确定方法流程图。该方法包括如下几个步骤:
S301、获取无标注语料。
具体的,S301和S101的实现方式和具体原理一致,此处不再赘述。
S302、识别所述无标注语料中的至少两个行政区划文本、以及每个行政区划文本在所述无标注语料中的位置信息。
具体的,S302和S102的实现方式和具体原理一致,此处不再赘述。
S303、根据所述每个行政区划文本在所述无标注语料中的位置信息,在所述无标注语料中添加标记字符,得到添加有标记字符的无标注语料。
具体的,S303和S203的实现方式和具体原理一致,此处不再赘述。
S304、将所述添加有标记字符的无标注语料输入预设模型,所述预设模型包括编码层、交互层和解码层。
例如,无标注语料是“撤销A县,设立B区”, 添加有标记字符的无标注语料是“撤销E1 A县 /E1,设立E2 B区 /E2”,进一步,将该添加有标记字符的无标注语料输入预设模型,该预设模型的结构如图4所示,例如,该预设模型包括四个部分,分别是输入层、编码层、交互层和解码层。其中,输入层包含添加有标记字符的无标注语料。
具体的,所述编码层用于计算所述添加有标记字符的无标注语料中每个字符的表示向量。
例如,编码层采用Transformer网络结构多层叠加,计算添加有标记字符的无标注语料中每个字符的表示向量。其中,每个字符的表示向量可以是融合有该字符上下文的表示向量。Transformer网络结构的参数可以继承自超大规模预训练语言模型。
S305、根据所述添加有标记字符的无标注语料中每个字符的表示向量,计算所述每个行政区划文本分别对应的表示向量。
所述交互层用于根据所述添加有标记字符的无标注语料中每个字符的表示向量,计算所述每个行政区划文本分别对应的表示向量。
例如,交互层可以单独提取“E1”的表示向量和 “/E1”的表示向量,并将“E1”的表示向量和 “/E1”的表示向量进行拼接,从而得到“A县”的表示向量。同理,交互层可以单独提取“E2”的表示向量和 “/E2”的表示向量,并将“E2”的表示向量和 “/E2”的表示向量进行拼接,从而得到“B区”的表示向量。
S306、根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系,结构化的行政区划变迁信息包括所述任意两个行政区划文本和所述变迁关系。例如,交互层可以将“A县”的表示向量和“B区”的表示向量输入到BiaffineAttention结构, Biaffine Attention结构可以根据“A县”的表示向量和“B区”的表示向量,计算“A县”和“B区”之间的变迁关系的表示向量。
所述解码层用于根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系。
如图4所示,Biaffine Attention结构可以将“A县”和“B区”之间的变迁关系的表示向量提供给解码层中的前馈神经网络(Feed Forward Neural Networks,FFNN),FFNN是一层全连接网络,FFNN可以根据“A县”和“B区”之间的变迁关系的表示向量,计算“A县”和“B区”之间的变迁关系的概率分布,该概率分布包括“A县”和“B区”之间的变迁关系是多种预设关系中每种预设关系的概率值。
例如,“A县”和“B区”之间的变迁关系的表示向量为<0.123, 0.12, -1.2, 0.3,0.01>,假设此处选取4种预设关系,该4种预设关系依次为更名、并入、建制变更、拆分。其中,不同预设关系所对应的参数a、b、c、d、e均不同,因此,根据0.123a + 0.12b + -1.2c +0.3d + 0.01e,可以计算出4个不同的数值,例如,<192, 1123, 0.123, -999>。进一步,对<192, 1123, 0.123, -999>进行归一化处理,得到<0.2, 0.5, 0.3, 0>。<0.2, 0.5, 0.3,0>是“A县”和“B区”之间的变迁关系的概率分布,根据<0.2, 0.5, 0.3, 0>可知,“A县”和“B区”之间的变迁关系是并入的概率值最大,因此,“A县”和“B区”之间的变迁关系是并入。
此外,在一些实施例中,该概率分布还可以包括“A县”和“B区”之间没有变迁关系的概率值,此时,可以用标签NULL来表示“A县”和“B区”之间没有变迁关系。进一步,可以将该概率分布中最大概率值对应的预设关系作为“A县”和“B区”之间的变迁关系。如果该概率分布中最大概率值是“A县”和“B区”之间没有变迁关系的概率值,则确定“A县”和“B区”之间没有变迁关系。在其他一些实施例中,该变迁关系还可以称为实体关系。
本实施例通过一种基于远程监督的实体关系抽取模型的学习方法,实现了对非结构化文本中的行政区划变迁信息的自动解析,从而得到结构化的行政区划变迁信息,其中,结构化的行政区划变迁信息是如上所述的四元组。由于行政区划变迁迭代频繁,且非结构化文本没有统一的高质量数据来源,因此,需要对互联网中公开的文件或其他用户创作的内容中的行政区划变迁信息进行解析。但是,互联网中公开的文件或其他用户创作的内容的数据量巨大,且互联网中公开的文件或其他用户创作的内容的行文风格多样,而手工整理导致效率较低、传统的挖掘方法又导致无法准确的对行政区划变迁信息进行解析,因此,通过本公开实施例提供的方法,不仅可以提高解析效率,还可以提高解析的准确度。
可以理解的是,上述实施例可以是预设模型的使用阶段或推理阶段,在使用阶段或推理阶段中,针对某个无标注语料,可以采用命名实体识别和词典匹配方法,识别出该无标注语料中的至少两个行政区划文本、以及每个行政区划文本在该无标注语料中的位置信息。进一步,根据每个行政区划文本在该无标注语料中的位置信息,得到该预设模型的输入,例如图4所示的输入层中的输入信息。此时,根据该无标注语料和行政区划文本可以得到三元组<text,e1,e2>,其中,text表示该无标注语料,e1、e2分别表示行政区划文本。进一步,使用该预设模型可以预测出e1和e2之间的变迁关系r。另外,使用正则表达式可以从该无标注语料中抽取出年月信息,最终形成标准的结构化的行政区划变迁信息即四元组<年月,旧区划,新区划,变迁关系>。下面结合一个实施例来介绍该预设模型的训练阶段。可以理解的是,如上所述的行政区划变迁信息的确定方法、以及下面介绍的预设模型训练方法可以由同一个电子设备来执行,也可以分别由不同的电子设备来执行。
图5为本公开另一实施例提供的预设模型训练方法流程图。所述预设模型用于确定任意两个行政区划文本之间的变迁关系。在本实施例中,所述预设模型通过如下方法进行训练:
S501、获取已标注的行政区划对。
例如,对预设模型进行训练的前提是要有一定数量的已标注的行政区划对、以及大量的无标注语料,该无标注语料可以是互联网中公开的文件或其他用户创作的内容。可以理解的是,如果一个实体对满足某个给定关系,那么同时包含该实体对的所有句子都可能是在阐述该关系。
S502、根据所述已标注的行政区划对,从多个无标注语料中确定第一样本文本,所述第一样本文本包括所述已标注的行政区划对中的两个行政区划文本,所述已标注的行政区划对和所述第一样本文本构成第一样本数据。
例如,已标注的行政区划对是<e1,e2,r>,可以理解的是,已标注的行政区划对不限于这一个,可以有多个。其中,r表示区划e1和区划e2之间的变迁关系。进一步,在大量的无标注语料中寻找包含实体对<e1,e2>的第一样本文本,该第一样本文本记为text。进一步,将已标注的行政区划对<e1,e2,r>和第一样本文本text构成第一样本数据,该第一样本数据可以是四元组<text,e1,e2,r>,该第一样本数据可以记为正例。
S503、从多个无标注语料中确定第二样本文本,所述第二样本文本中包括的任意两个行政区划文本不在所述已标注的行政区划对中,所述第二样本文本、所述第二样本文本中包括的任意两个行政区划文本、以及所述任意两个行政区划文本之间的无变迁关系构成第二样本数据。
例如,在无标注语料中任选一个句子text,并从该句子中任意选取两个行政区划文本<e1,e2>。进一步,判断<e1,e2>是否属于已标注的行政区划对。如果<e1,e2>不属于已标注的行政区划对,则将该句子记为第二样本文本。进一步,将该第二样本文本text、第二样本文本中包括的任意两个行政区划文本<e1,e2>、以及<e1,e2>之间的无变迁关系构成第二样本数据,第二样本数据记为四元组<text,e1,e2,NULL>,另外,该第二样本数据还可以记为负例。
S504、采用第一预设数量的第一样本数据和第二预设数量的第二样本数据,对所述预设模型进行训练,所述第一预设数量和所述第二预设数量之间的比例为预设比例。
例如,采用第一预设数量的第一样本数据和第二预设数量的第二样本数据,对所述预设模型进行训练,其中,所述第一预设数量和所述第二预设数量之间的比例为预设比例。也就是说,选取适当比例的正例和负例对预设模型进行训练。模型训练采用反向传播算法,以交叉熵作为损失函数。例如,以一个正例为例,根据<text,e1,e2,r>中的前三个元素,可以得到如图4所示的输入层的输入信息。进一步,该预设模型对该输入信息进行一系列的处理,该处理过程参照上述实施例所述的过程,此处不再赘述,例如,FFNN输出一个概率分布。进一步,根据<text,e1,e2,r >中的第四个元素,可以扩展出一个概率分布,在该概率分布中,r对应的概率值为100%,其他概率值分别为0。另外,FFNN输出的概率分布的维度和根据r扩展出的概率分布的维度相同,进一步,根据这两个维度相同的概率分布计算出损失函数,从而可以对该预设模型进行一次迭代训练。同理,以一个负例为例,也可以计算出损失函数,从而对该预设模型进行又一次迭代训练。在不断的迭代过程中,可使得该预设模型的参数不断的趋于稳定。
另外,在图4所示的结构中,编码层或交互层也可替换为其他网络结构,如长短期记忆(Long Short-Term Memory, 简称 LSTM)、门控循环单元 (Gate Recurrent Unit,GRU)、循环神经网络(Recurrent Neural Network, RNN)、卷积神经网络(ConvolutionalNeural Networks, CNN)、 FFNN等。本实施例采用远程监督的方式,可以从大规模无标注语料中基于少量具有某种关系的实体对生成训练伪语料,有效节约了数据标注成本。在预训练语言模型的加持下,本实施例可以基于少量训练伪语料,学习实体关系范式,并具有很强的泛化能力和鲁棒性,可用于挖掘各种行文风格文本中的区划变迁信息。
图6为本公开实施例提供的行政区划变迁信息的确定装置的结构示意图。本公开实施例提供的行政区划变迁信息的确定装置可以执行行政区划变迁知识的确定方法实施例提供的处理流程,如图6所示,行政区划变迁信息的确定装置60包括:
获取模块61,用于获取无标注语料;
识别模块62,用于识别所述无标注语料中的至少两个行政区划文本、以及每个行政区划文本在所述无标注语料中的位置信息;
计算模块63,用于根据所述每个行政区划文本在所述无标注语料中的位置信息,计算所述每个行政区划文本分别对应的表示向量;
确定模块64,用于根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系,结构化的行政区划变迁信息包括所述任意两个行政区划文本和所述变迁关系。
可选的,计算模块63包括添加单元631和计算单元632;
其中,添加单元631用于根据所述每个行政区划文本在所述无标注语料中的位置信息,在所述无标注语料中添加标记字符,得到添加有标记字符的无标注语料;计算单元632用于根据所述添加有标记字符的无标注语料中每个字符的表示向量,计算所述每个行政区划文本分别对应的表示向量。
可选的,添加单元631根据所述每个行政区划文本在所述无标注语料中的位置信息,在所述无标注语料中添加标记字符时,具体用于:
根据所述行政区划文本的第一个字符和最后一个字符分别在所述无标注语料中的位置信息,在所述第一个字符之前和所述最后一个字符之后分别添加标记字符。
可选的,计算单元632根据所述添加有标记字符的无标注语料中每个字符的表示向量,计算所述每个行政区划文本分别对应的表示向量时,具体用于:
根据所述添加有标记字符的无标注语料中所述行政区划文本对应的标记字符的表示向量,计算所述行政区划文本对应的表示向量。
可选的,确定模块64根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系时,具体用于:
根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间变迁关系的表示向量;
根据所述变迁关系的表示向量,预测所述变迁关系分别是多种预设关系中每种预设关系的概率值;
将最大概率值所对应的预设关系确定为所述任意两个行政区划文本之间的变迁关系。
可选的,计算模块63还包括:输入模块633,用于在计算单元632根据所述添加有标记字符的无标注语料中每个字符的表示向量,计算所述每个行政区划文本分别对应的表示向量之前,将所述添加有标记字符的无标注语料输入预设模型,所述预设模型包括编码层、交互层和解码层。所述编码层用于计算所述添加有标记字符的无标注语料中每个字符的表示向量;所述交互层用于根据所述添加有标记字符的无标注语料中每个字符的表示向量,计算所述每个行政区划文本分别对应的表示向量;所述解码层用于根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系。
图6所示实施例的行政区划变迁信息的确定装置可用于执行上述行政区划变迁信息的确定方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图7为本公开实施例提供的预设模型训练装置的结构示意图。本公开实施例提供的预设模型训练装置可以执行预设模型训练方法实施例提供的处理流程,如图7所示,预设模型训练装置70包括:
获取模块71,用于获取已标注的行政区划对;
第一确定模块72,用于根据所述已标注的行政区划对,从多个无标注语料中确定第一样本文本,所述第一样本文本包括所述已标注的行政区划对中的两个行政区划文本,所述已标注的行政区划对和所述第一样本文本构成第一样本数据;
第二确定模块73,用于从多个无标注语料中确定第二样本文本,所述第二样本文本中包括的任意两个行政区划文本不在所述已标注的行政区划对中,所述第二样本文本、所述第二样本文本中包括的任意两个行政区划文本、以及所述任意两个行政区划文本之间的无变迁关系构成第二样本数据;
训练模块74,用于采用第一预设数量的第一样本数据和第二预设数量的第二样本数据,对所述预设模型进行训练,所述第一预设数量和所述第二预设数量之间的比例为预设比例。
图7所示实施例的预设模型训练装置可用于执行上述预设模型训练方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
以上描述了行政区划变迁信息的确定装置或预设模型训练装置的内部功能和结构,该装置可实现为一种电子设备。图8为本公开实施例提供的电子设备实施例的结构示意图。如图8所示,该电子设备包括存储器81和处理器82。
存储器81用于存储程序。除上述程序之外,存储器81还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器81可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器82与存储器81耦合,执行存储器81所存储的程序,以用于:
获取无标注语料;
识别所述无标注语料中的至少两个行政区划文本、以及每个行政区划文本在所述无标注语料中的位置信息;
根据所述每个行政区划文本在所述无标注语料中的位置信息,计算所述每个行政区划文本分别对应的表示向量;
根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系,结构化的行政区划变迁信息包括所述任意两个行政区划文本和所述变迁关系。
进一步,如图8所示,电子设备还可以包括:通信组件83、电源组件84、音频组件85、显示器86等其它组件。图8中仅示意性给出部分组件,并不意味着电子设备只包括图8所示组件。
通信组件83被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件83经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件83还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件84,为电子设备的各种组件提供电力。电源组件84可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件85被配置为输出和/或输入音频信号。例如,音频组件85包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器81或经由通信组件83发送。在一些实施例中,音频组件85还包括一个扬声器,用于输出音频信号。
显示器86包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
另外,本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的行政区划变迁信息的确定方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种预设模型训练方法,其中,所述预设模型用于确定任意两个行政区划文本之间的变迁关系,所述预设模型通过如下方法进行训练:
获取已标注的行政区划对;
根据所述已标注的行政区划对,从多个无标注语料中确定第一样本文本,所述第一样本文本包括所述已标注的行政区划对中的两个行政区划文本,所述已标注的行政区划对和所述第一样本文本构成第一样本数据;
从多个无标注语料中确定第二样本文本,所述第二样本文本中包括的任意两个行政区划文本不在所述已标注的行政区划对中,所述第二样本文本、所述第二样本文本中包括的任意两个行政区划文本、以及所述任意两个行政区划文本之间的无变迁关系构成第二样本数据;
采用第一预设数量的第一样本数据和第二预设数量的第二样本数据,对所述预设模型进行训练,所述第一预设数量和所述第二预设数量之间的比例为预设比例。
2.一种行政区划变迁信息的确定方法,其中,所述方法包括:
获取无标注语料;
识别所述无标注语料中的至少两个行政区划文本、以及每个行政区划文本在所述无标注语料中的位置信息;
根据所述每个行政区划文本在所述无标注语料中的位置信息,计算所述每个行政区划文本分别对应的表示向量;
根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系,结构化的行政区划变迁信息包括所述任意两个行政区划文本和所述变迁关系。
3.根据权利要求2所述的方法,其中,根据所述每个行政区划文本在所述无标注语料中的位置信息,计算所述每个行政区划文本分别对应的表示向量,包括:
根据所述每个行政区划文本在所述无标注语料中的位置信息,在所述无标注语料中添加标记字符,得到添加有标记字符的无标注语料;
根据所述添加有标记字符的无标注语料中每个字符的表示向量,计算所述每个行政区划文本分别对应的表示向量。
4.根据权利要求3所述的方法,其中,根据所述每个行政区划文本在所述无标注语料中的位置信息,在所述无标注语料中添加标记字符,包括:
根据所述行政区划文本的第一个字符和最后一个字符分别在所述无标注语料中的位置信息,在所述第一个字符之前和所述最后一个字符之后分别添加标记字符。
5.根据权利要求3所述的方法,其中,根据所述添加有标记字符的无标注语料中每个字符的表示向量,计算所述每个行政区划文本分别对应的表示向量,包括:
根据所述添加有标记字符的无标注语料中所述行政区划文本对应的标记字符的表示向量,计算所述行政区划文本对应的表示向量。
6.根据权利要求2所述的方法,其中,根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系,包括:
根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间变迁关系的表示向量;
根据所述变迁关系的表示向量,预测所述变迁关系分别是多种预设关系中每种预设关系的概率值;
将最大概率值所对应的预设关系确定为所述任意两个行政区划文本之间的变迁关系。
7.根据权利要求3所述的方法,其中,根据所述添加有标记字符的无标注语料中每个字符的表示向量,计算所述每个行政区划文本分别对应的表示向量之前,所述方法还包括:
将所述添加有标记字符的无标注语料输入预设模型,所述预设模型包括编码层、交互层和解码层;
所述编码层用于计算所述添加有标记字符的无标注语料中每个字符的表示向量;
所述交互层用于根据所述添加有标记字符的无标注语料中每个字符的表示向量,计算所述每个行政区划文本分别对应的表示向量;
所述解码层用于根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系。
8.一种行政区划变迁信息的确定装置,其中,包括:
获取模块,用于获取无标注语料;
识别模块,用于识别所述无标注语料中的至少两个行政区划文本、以及每个行政区划文本在所述无标注语料中的位置信息;
计算模块,用于根据所述每个行政区划文本在所述无标注语料中的位置信息,计算所述每个行政区划文本分别对应的表示向量;
确定模块,用于根据所述每个行政区划文本分别对应的表示向量,确定任意两个行政区划文本之间的变迁关系,结构化的行政区划变迁信息包括所述任意两个行政区划文本和所述变迁关系。
9.一种预设模型训练装置,其中,所述预设模型用于确定任意两个行政区划文本之间的变迁关系,所述预设模型训练装置包括:
获取模块,用于获取已标注的行政区划对;
第一确定模块,用于根据所述已标注的行政区划对,从多个无标注语料中确定第一样本文本,所述第一样本文本包括所述已标注的行政区划对中的两个行政区划文本,所述已标注的行政区划对和所述第一样本文本构成第一样本数据;
第二确定模块,用于从多个无标注语料中确定第二样本文本,所述第二样本文本中包括的任意两个行政区划文本不在所述已标注的行政区划对中,所述第二样本文本、所述第二样本文本中包括的任意两个行政区划文本、以及所述任意两个行政区划文本之间的无变迁关系构成第二样本数据;
训练模块,用于采用第一预设数量的第一样本数据和第二预设数量的第二样本数据,对所述预设模型进行训练,所述第一预设数量和所述第二预设数量之间的比例为预设比例。
10.一种电子设备,其中,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-7中任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN202210163008.4A 2022-02-22 2022-02-22 行政区划变迁信息的确定方法、装置、设备及存储介质 Active CN114218957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210163008.4A CN114218957B (zh) 2022-02-22 2022-02-22 行政区划变迁信息的确定方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210163008.4A CN114218957B (zh) 2022-02-22 2022-02-22 行政区划变迁信息的确定方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114218957A true CN114218957A (zh) 2022-03-22
CN114218957B CN114218957B (zh) 2022-11-18

Family

ID=80709305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210163008.4A Active CN114218957B (zh) 2022-02-22 2022-02-22 行政区划变迁信息的确定方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114218957B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417022A (zh) * 2022-03-30 2022-04-29 阿里巴巴(中国)有限公司 模型训练方法、数据处理方法及其装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092855A (zh) * 2011-10-31 2013-05-08 国际商业机器公司 探测地址更新的方法及装置
US20160004705A1 (en) * 2010-08-20 2016-01-07 Bitvore Corporation Bulletin Board Data Mapping and Presentation
CN108038090A (zh) * 2017-12-26 2018-05-15 北京明朝万达科技股份有限公司 一种文本地址的处理方法和装置
CN109446207A (zh) * 2018-08-28 2019-03-08 广州城市信息研究所有限公司 一种标准地址数据库更新方法和地址匹配方法
CN110276023A (zh) * 2019-06-20 2019-09-24 北京百度网讯科技有限公司 Poi变迁事件发现方法、装置、计算设备和介质
CN110688449A (zh) * 2019-09-20 2020-01-14 京东数字科技控股有限公司 基于深度学习的地址文本处理方法、装置、设备及介质
US10839156B1 (en) * 2019-01-03 2020-11-17 Amazon Technologies, Inc. Address normalization using deep learning and address feature vectors
CN112612940A (zh) * 2020-12-23 2021-04-06 深圳壹账通智能科技有限公司 地址信息解析方法、装置、设备及存储介质
CN113536070A (zh) * 2021-08-11 2021-10-22 汉唐信通(北京)咨询股份有限公司 一种地址解析方法、系统、计算机设备和存储介质
CN113837634A (zh) * 2021-09-29 2021-12-24 深圳云路信息科技有限责任公司 一种基于相似度的行政区划匹配方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160004705A1 (en) * 2010-08-20 2016-01-07 Bitvore Corporation Bulletin Board Data Mapping and Presentation
CN103092855A (zh) * 2011-10-31 2013-05-08 国际商业机器公司 探测地址更新的方法及装置
CN108038090A (zh) * 2017-12-26 2018-05-15 北京明朝万达科技股份有限公司 一种文本地址的处理方法和装置
CN109446207A (zh) * 2018-08-28 2019-03-08 广州城市信息研究所有限公司 一种标准地址数据库更新方法和地址匹配方法
US10839156B1 (en) * 2019-01-03 2020-11-17 Amazon Technologies, Inc. Address normalization using deep learning and address feature vectors
CN110276023A (zh) * 2019-06-20 2019-09-24 北京百度网讯科技有限公司 Poi变迁事件发现方法、装置、计算设备和介质
CN110688449A (zh) * 2019-09-20 2020-01-14 京东数字科技控股有限公司 基于深度学习的地址文本处理方法、装置、设备及介质
CN112612940A (zh) * 2020-12-23 2021-04-06 深圳壹账通智能科技有限公司 地址信息解析方法、装置、设备及存储介质
CN113536070A (zh) * 2021-08-11 2021-10-22 汉唐信通(北京)咨询股份有限公司 一种地址解析方法、系统、计算机设备和存储介质
CN113837634A (zh) * 2021-09-29 2021-12-24 深圳云路信息科技有限责任公司 一种基于相似度的行政区划匹配方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417022A (zh) * 2022-03-30 2022-04-29 阿里巴巴(中国)有限公司 模型训练方法、数据处理方法及其装置
CN114417022B (zh) * 2022-03-30 2022-06-28 阿里巴巴(中国)有限公司 模型训练方法、数据处理方法及其装置

Also Published As

Publication number Publication date
CN114218957B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
US20170154104A1 (en) Real-time recommendation of reference documents
US20150006148A1 (en) Automatically Creating Training Data For Language Identifiers
CN110688449A (zh) 基于深度学习的地址文本处理方法、装置、设备及介质
CN111177393A (zh) 一种知识图谱的构建方法、装置、电子设备及存储介质
CN110969012A (zh) 文本纠错方法、装置、存储介质及电子设备
CN103995870A (zh) 交互式搜索方法和装置
US20200327168A1 (en) Segmented sentence recognition method and device for human-machine intelligent question-answer system
CN111666766B (zh) 数据处理方法、装置和设备
CN111563390B (zh) 文本生成方法、装置和电子设备
KR101985900B1 (ko) 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법 및 컴퓨터 프로그램
CN116702723A (zh) 一种合同段落标注模型的训练方法、装置及设备
CN114218957B (zh) 行政区划变迁信息的确定方法、装置、设备及存储介质
CN111538830A (zh) 法条检索方法、装置、计算机设备及存储介质
CN116662583B (zh) 一种文本生成方法、地点检索方法及相关装置
CN111555960A (zh) 信息生成的方法
CN115905612A (zh) 音频的作品信息抽取方法、装置、电子设备及存储介质
CN117371448A (zh) 实体识别及其模型训练方法、装置、电子设备与存储介质
CN110609880A (zh) 一种信息查询方法、装置及电子设备
KR102327790B1 (ko) 정보 처리 방법, 장치 및 저장 매체
CN112528674B (zh) 文本处理方法、模型的训练方法、装置、设备及存储介质
CN111914535B (zh) 一种单词识别方法、装置、计算机设备和存储介质
CN111723164A (zh) 地址信息的处理方法和装置
CN105224522A (zh) 地理位置信息识别方法及装置
CN111414766A (zh) 一种翻译方法及装置
CN113806562B (zh) 模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 554, 5 / F, building 3, 969 Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 310052 room 508, 5th floor, building 4, No. 699 Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant before: Alibaba (China) Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant