CN112052670A - 地址文本分词方法、装置、计算机设备和存储介质 - Google Patents
地址文本分词方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112052670A CN112052670A CN202010888618.1A CN202010888618A CN112052670A CN 112052670 A CN112052670 A CN 112052670A CN 202010888618 A CN202010888618 A CN 202010888618A CN 112052670 A CN112052670 A CN 112052670A
- Authority
- CN
- China
- Prior art keywords
- sample
- address text
- sequence
- word
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 229
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000013598 vector Substances 0.000 claims abstract description 173
- 238000012549 training Methods 0.000 claims abstract description 152
- 238000002372 labelling Methods 0.000 claims abstract description 57
- 238000011156 evaluation Methods 0.000 claims description 17
- 238000013210 evaluation model Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 4
- 241000221079 Euphorbia <genus> Species 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000132092 Aster Species 0.000 description 1
- 241000490229 Eucephalus Species 0.000 description 1
- 241001539473 Euphoria Species 0.000 description 1
- 206010015535 Euphoric mood Diseases 0.000 description 1
- 241000234435 Lilium Species 0.000 description 1
- 241000679550 Symphyotrichum spathulatum Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种地址文本分词方法、装置、计算机设备和存储介质。所述方法包括:获取目标地址文本;对所述目标地址文本逐字生成每个字对应的目标字向量;根据所述目标字向量得到所述目标地址文本对应的目标字向量序列;将所述目标字向量序列输入已训练好的地址文本分词模型,得到相应的目标标签序列,并根据所述目标标签序列得到所述目标地址文本对应的分词结果;所述地址文本分词模型,是基于预先获取的第一样本地址文本对应的第一样本字向量序列与第一样本标签序列训练得到的;所述第一样本标签序列是由已训练好的序列标注模型,根据所述第一样本字向量序列得到的。采用本方法能够提高地址文本分词准确性。
Description
技术领域
本申请涉及地理信息技术领域,特别是涉及一种地址文本分词方法、装置、计算机设备和存储介质。
背景技术
在地理信息系统中,实际应用中的定位方式是通过地址文本来表达目标位置,例如“武汉九峰街九峰欣里社西苑”,为了使得计算机基于地址文本能够确定目标位置,需要建立非空间信息与空间信息之间的关联。地理编码是建立非空间信息与空间信息之间的关联的关键手段,而地址文本匹配是地理编码的重要组成部分,地址文本匹配所涉及的地址文本分词技术直接决定了地理编码的准确度。由此,如何对地址文本进行准确分词是值得关注的问题。
目前,通常是采用基于词典的规则匹配方式来进行地址文本分词。但是该种地址文本分词方式,操作复杂度高,且需要不断的更新与维护词典及规则,若词典与规则更新或维护不及时,则会降低地址文本分词的准确性,也即存在分词准确性低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高地址文本分词准确性的地址文本分词方法、装置、计算机设备和存储介质。
一种地址文本分词方法,所述方法包括:
获取目标地址文本;
对所述目标地址文本逐字生成每个字对应的目标字向量;
根据所述目标字向量得到所述目标地址文本对应的目标字向量序列;
将所述目标字向量序列输入已训练好的地址文本分词模型,得到相应的目标标签序列,并根据所述目标标签序列得到所述目标地址文本对应的分词结果;所述地址文本分词模型,是基于预先获取的第一样本地址文本对应的第一样本字向量序列与第一样本标签序列训练得到的;所述第一样本标签序列是由已训练好的序列标注模型,根据所述第一样本字向量序列得到的。
在其中一个实施例中,所述地址文本分词模型的训练步骤,包括:
获取第一样本地址文本;
对每个第一样本地址文本生成相应的第一样本字向量序列;
对所述每个第一样本地址文本进行序列标注得到相应第一样本标签序列;
根据所述第一样本字向量序列与所述第一样本标签序列得到第一训练样本集;
根据所述第一训练样本集进行模型训练得到已训练好的地址文本分词模型。
在其中一个实施例中,所述根据所述第一训练样本集进行模型训练得到已训练好的地址文本分词模型,包括:
通过待训练的地址文本分词模型,根据所述第一样本字向量序列与相应第一样本标签序列,生成所述第一样本字向量序列对应的新的第一样本标签序列;
通过预配置的评估单元,对所述新的第一样本标签序列进行评分得到相应的标签序列评分;
通过待训练的评判模型,根据所述标签序列评分动态调整所述待训练的地址文本分词模型与所述评判模型各自的模型参数;
返回至所述通过待训练的地址文本分词模型,根据所述第一样本字向量序列与相应第一样本标签序列,生成所述第一样本字向量序列对应的新的第一样本标签序列的步骤继续执行,直至满足迭代停止条件,停止迭代,得到已训练好的地址文本分词模型。
在其中一个实施例中,所述对所述新的第一样本标签序列进行评分得到相应的标签序列评分,包括:
根据所述新的第一样本标签序列得到分词后的第一样本地址文本;
根据所述分词后的第一样本地址文本中的分级词与词级,对所述新的第一样本标签序列进行评分得到第一评分;
确定所述分词后的第一样本地址文本中的主体词,根据所述主体词对所述新的第一样本标签序列进行评分得到第二评分;
根据所述分词后的第一样本地址文本与预配置的分词检查项,对所述新的第一样本标签序列进行评分得到第三评分;
对所述第一评分、所述第二评分与所述第三评分进行求和,得到相应的标签序列评分。
在其中一个实施例中,所述对所述每个第一样本地址文本进行序列标注得到相应的第一样本标签序列,包括:
将所述每个第一样本地址文本对应的第一样本字向量序列输入已训练好的序列标注模型,得到相应的第一样本标签序列;所述序列标注模型,是基于预先获取的第二训练样本集进行模型训练得到的;所述第二训练样本集包括第二样本地址文本对应的第二样本字向量序列与第二样本标签序列。
在其中一个实施例中,所述方法还包括:
当满足模型更新条件时,获取第三训练样本集;所述第三训练样本集包括第三样本地址文本对应的第三样本字向量序列与第三样本标签序列;
根据所述第三训练样本集对所述地址文本分词模型进行迭代更新,得到更新后的地址文本分词模型,并将所述更新后的地址文本分词模型作为已训练好的地址文本分词模型。
在其中一个实施例中,所述获取目标地址文本,包括:
获取待分词的初始地址文本;
对所述初始地址文本进行规范化处理得到相应的目标地址文本。
一种地址文本分词装置,所述装置包括:
获取模块,用于获取目标地址文本;
向量生成模块,用于对所述目标地址文本逐字生成每个字对应的目标字向量;
序列生成模块,用于根据所述目标字向量得到所述目标地址文本对应的目标字向量序列;
分词模块,用于将所述目标字向量序列输入已训练好的地址文本分词模型,得到相应的目标标签序列,并根据所述目标标签序列得到所述目标地址文本对应的分词结果;所述地址文本分词模型,是基于预先获取的第一样本地址文本对应的第一样本字向量序列与第一样本标签序列训练得到的;所述第一样本标签序列是由已训练好的序列标注模型,根据所述第一样本字向量序列得到的。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述各方法实施例中的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各方法实施例中的步骤。
上述地址文本分词方法、装置、计算机设备和存储介质,在获取到待分词的目标地址文本后,对该目标地址文本逐字生成每个字对应的目标字向量,根据目标地址文本中各字对应的目标字向量,得到该目标地址文本对应的目标字向量序列,并通过已训练好的地址文本分词模型根据该目标字向量序列,预测得到相应的目标标签序列,进而根据目标标签序列得到目标地址文本对应的分词结果,其中,地址文本分词模型是基于预先获取的第一样本字向量序列与相应第一样本标签序列训练得到的,且该第一样本标签序列是通过已训练好的序列标注模型,根据相应第一样本字向量序列预测得到的。这样,基于已训练好的序列标注模型预测得到第一样本字向量序列对应的第一样本标签序列,以便于基于该第一样本字向量序列与第一样本标签序列,训练地址文本分词模型时能够提高模型的训练效率与准确性,也即能够训练得到准确性较高的地址文本分词模型,而通过准确性较高的的地址文本分词模型,对该目标字向量序列进行预测,能够快速而准确地得到相应的目标标签序列,由此,基于该目标标签序列进一步得到目标地址文本对应的分词结果时,能够提高分词结果的准确性,也即能够提高地址文本的分词准确性。
附图说明
图1为一个实施例中地址文本分词方法的应用环境图;
图2为一个实施例中地址文本分词方法的流程示意图;
图3为一个实施例中地址文本分词模型的训练原理示意图;
图4为一个实施例中地址文本分词模型的训练流程示意图;
图5为一个实施例中基于序列标注模型训练地址文本分词模型的原理示意图;
图6为一个实施例中地址文本分词装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的地址文本分词方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104获取目标地址文本,对该目标地址文本逐字生成每个字对应的目标字向量,根据目标地址文本中各字对应的目标字向量,得到该目标地址文本对应的目标字向量序列,并通过已训练好的地址文本分词模型,根据该目标字向量序列得到相应的目标标签序列,进而根据目标标签序列得到目标地址文本对应的分词结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种地址文本分词方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取目标地址文本。
其中,目标地址文本是指待分词的地址文本。目标地址文本也可理解为目标地址数据。举例说明,目标地址文本为:武汉九峰街九峰欣里社西苑。
在一个实施例中,服务器接收终端发送的地址文本分词请求,并解析该地址文本分词请求得到相应的目标地址文本。
在一个实施例中,当满足地址文本分词条件时,服务器从预配置的收派件运单地址库中获取待分词的目标地址文本。地址文本分词条件是用于触发地址文本分词操作的条件或依据,具体可以是接收到终端发送的地址文本分词指令,或者,自前一次触发地址文本分词操作起达到预设时长,或者,检测到收派件运单地址库中新增待分词的地址文本,在此不作具体具体限定。终端根据用户的地址文本分词触发操作生成地址文本分词指令,并将该地址文本分词指令发送至服务器。预设时长可自定义,比如1小时。
在一个实施例中,步骤202,包括:获取待分词的初始地址文本;对初始地址文本进行规范化处理得到相应的目标地址文本。
其中,规范化处理包括但不限于是清洗无效非法字符、数字英文标准化、地址任命标准化、繁转简、去重补全、括号内容处理与后缀处理等。具体地,服务器按照上述方式获取待分词的初始地址文本,并对该初始地址文本进行规范化处理得到相应的目标地址文本。举例说明,初始地址文本为:武汉九峰街九峰欣里社西苑,对该初始地址文本进行规范化处理得到的目标地址文本为:武汉省九峰街九峰欣里社西苑。
在一个实施例中,服务器调用预配置的地址规范化系统对初始地址文本进行规范化处理,得到相应的目标地址文本。
步骤204,对目标地址文本逐字生成每个字对应的目标字向量。
其中,字向量是指单个字对应的向量,比如“武”对应的字向量。具体地,服务器遍历目标地址文本中的每个字,并生成遍历的每个字对应的目标字向量。
在一个实施例中,服务器通过已训练好的字向量模型逐字生成目标地址文本中每个字对应的目标字向量。服务器将目标地址文本输入已训练好的字向量模型,得到该目标地址文本中每个字对应的目标字向量。字向量模型的训练步骤包括:获取多个样本地址文本,根据该多个样本地址文本得到地址文本语料库,通过初始化的字向量模型对地址文本语料库中的每个字进行训练,当地址文本语料库中的每个字均训练完毕时,得到已训练好的字向量模型。其中,字向量模型的训练过程所涉及的机器学习算法为Word2Vec。
举例说明,目标地址文本为:武汉九峰街九峰欣里社西苑,对该目标地址文本中的每个字逐字生成的目标字向量依次为:V(武),V(汉),V(九),V(峰),V(街),V(九),V(峰),V(欣),V(里),V(社),V(西),V(苑),以“武”为例,“V(武)”表征汉字“武”对应的目标字向量。
步骤206,根据目标字向量得到目标地址文本对应的目标字向量序列。
其中,目标字向量序列是由多个目标字向量组成的向量序列,具体可以是由多个字各自对应的目标字向量,按照该多个字在目标地址文本中的排序组成的向量序列。目标字向量序列包括多个目标字向量,每个目标字向量对应目标地址文本中的一个字。
具体地,服务器在针对目标地址文本逐字生成每个字对应的目标字向量后,将各目标字向量按照相应字在目标地址文本中的排序进行排序组合,得到目标地址文本对应的目标字向量序列。
举例说明,目标地址文本为:武汉九峰街九峰欣里社西苑,该目标地址文本对应的目标字向量序列为:{V(武),V(汉),V(九),V(峰),V(街),V(九),V(峰),V(欣),V(里),V(社),V(西),V(苑)}。
步骤208,将目标字向量序列输入已训练好的地址文本分词模型,得到相应的目标标签序列,并根据目标标签序列得到目标地址文本对应的分词结果;地址文本分词模型,是基于预先获取的第一样本地址文本对应的第一样本字向量序列与第一样本标签序列训练得到的;第一样本标签序列是由已训练好的序列标注模型,根据第一样本字向量序列得到的。
其中,地址文本分词模型是基于预先获取的第一训练样本集训练得到的、能够用于根据目标字向量序列预测得到相应目标标签序列的模型。第一训练样本集包括第一样本地址文本对应的第一样本字向量序列与第一样本标签序列。第一样本字向量序列是由第一样本地址文本中的各个字对应的样本字向量组成的向量序列。第一样本标签序列是对第一样本地址文本进行序列标注得到的标签序列,具体可以是由已训练好的序列标注模型,对第一样本地址文本进行序列标注得到的标签序列。已训练好的序列标注模型是基于预先获取的第二训练样本集训练得到的、能够用于对第一样本地址文本进行序列标注得到相应第一样本标签序列的模型。第二训练样本集包括第二样本地址文本对应的第二样本字向量序列与第二样本标签序列。
标签序列包括多个字与每个字对应的标签。以目标标签序列为例,目标标签序列是由目标地址文本中的各个字与每个字对应的标签组成的序列。分词结果是指对目标地址文本进行地址分词所得到的结果,分词结果中包括从目标地址文本中所分词出来的各个分级词或词条,每个分级词或词条中的各个字属于相同的词级,每个词级对应一个地址层级,由此,每个分级词或词条中的各个字属于相同的地址层级。比如,分级词“武汉”中的汉字“武”与“汉”均属于词级“2”,也即该两个字均属于词级“2”对应的地址层级“市”。
举例说明,目标地址文本为:武汉九峰街九峰欣里社西苑,该目标地址文本对应的目标标签序列为:{武/B2汉/E2九/B5峰/M5街/E5九/B13峰/M13欣/M13里/M13社/E13西/B136苑/E136},其中,“武/B2”是由汉字“武”与相应的标签组成的组合,表明汉字“武”对应的标签为“B2”,标签“B2”中的“B”表示汉字“武”为词的开始字,标签“B2”中的“2”表示汉字“武”对应的词级为“2级”,标签中的“M”表示相应汉字为词的中间字,标签中的“E”表示相应汉字为词的结束字。根据目标标签序列得到的分词结果为:武汉^2|九峰街^5|九峰欣里社^13|西苑^136。
可以理解,序列标注是指针对地址文本中的每个字赋予一个标注。所采用的序列标注方式是BMEO,B为词的开始字,M为词的中间字,E为词的结束字,O为不需要识别的字。所采用的地址分词方式为18级分词,18级分词是指针对地址文本预配置有省、市、区、街道、道路、道路编号、园区、楼栋、单元、房号等18个地址层级,每个地址层级对应一个词级,也即针对地址文本预配置有1至18共18个词级,由此,基于该预配置的地址层级,能够实现对目标地址文本的18级分词,得到目标地址文本中每个字所属的词级,并按照标签将属于相同词级的字合并得到相应的分级词或词条,从而实现目标地址文本的分词。其中,上述例子中的13与136均对应“13”这一词级,136属于13级的一个特殊分词。
具体地,在模型训练阶段,服务器预先获取第一样本地址文本,对每个第一样本地址文本进行向量化处理得到相应的第一样本字向量序列,通过已训练好的序列标注模型,根据每个第一样本地址文本对应的第一样本字向量序列预测得到相应的第一样本标签序列,并根据各第一样本地址文本对应的第一样本字向量序列与第一样本标签序列得到第一训练样本集,进而根据该第一训练样本集进行模型训练,得到已训练好的地址文本分词模型。在模型应用阶段,服务器针对待分词的目标地址文本获取到相应目标字向量序列后,将该目标字向量序列输入已训练好的地址文本分词模型,通过该地址文本分词模型根据该目标字向量序列对目标地址文本进行序列标注,得到相应的目标标签序列。服务器根据目标标签序列中各个字对应的标签,将该目标标签序列中的字合并成相应的分级词或词条,并根据字的标签确定相应分级词或词条对应的词级,并根据合并得到的各分级词与每个分级词对应的词级,得到目标地址文本对应的分词结果。
上述地址文本分词方法,在获取到待分词的目标地址文本后,对该目标地址文本逐字生成每个字对应的目标字向量,根据目标地址文本中各字对应的目标字向量,得到该目标地址文本对应的目标字向量序列,并通过已训练好的地址文本分词模型根据该目标字向量序列,预测得到相应的目标标签序列,进而根据目标标签序列得到目标地址文本对应的分词结果,其中,地址文本分词模型是基于预先获取的第一样本字向量序列与相应第一样本标签序列训练得到的,且该第一样本标签序列是通过已训练好的序列标注模型,根据相应第一样本字向量序列预测得到的。这样,基于已训练好的序列标注模型预测得到第一样本字向量序列对应的第一样本标签序列,以便于基于该第一样本字向量序列与第一样本标签序列,训练地址文本分词模型时能够提高模型的训练效率与准确性,也即能够训练得到准确性较高的地址文本分词模型,而通过准确性较高的的地址文本分词模型,根据该目标字向量序列预测,能够快速而准确地得到相应的目标标签序列,由此,基于该目标标签序列进一步得到目标地址文本对应的分词结果时,能够提高分词结果的准确性,也即能够提高地址文本的分词准确性。
在一个实施例中,地址文本分词模型的训练步骤,包括:获取第一样本地址文本;对每个第一样本地址文本生成相应的第一样本字向量序列;对每个第一样本地址文本进行序列标注得到相应第一样本标签序列;根据第一样本字向量序列与第一样本标签序列得到第一训练样本集;根据第一训练样本集进行模型训练得到已训练好的地址文本分词模型。
具体地,服务器获取多个第一样本地址文本,对每个第一样本地址文本逐字生成每个字对应的样本字向量,并根据每个第一样本地址文本中各字对应的样本字向量,得到该第一样本地址文本对应的第一样本字向量序列。服务器通过已训练好的序列标注模型,根据每个第一样本地址文本对应的第一样本字向量序列,对该第一样本地址文本进行序列标注得到相应的第一样本标签序列。服务器根据各第一样本地址文本对应的第一样本字向量序列与第一样本标签序列,得到第一训练样本集,并根据该第一训练样本集进行模型训练得到已训练好的地址文本分词模型。
在一个实施例中,服务器从收派件运单地址库中获取至少半年的全量地址数据,以及从全国地址标准库中获取全量地址数据,根据所获取到的全量地址数据得到多个第一样本地址文本。其中,全量地址数据是指满足获取要求的所有地址数据。
可以理解,已训练好的地址文本分词模型与序列标注模型,均能够用于根据第一样本地址文本对应的第一样本字向量序列,预测得到该第一样本地址文本对应的第一样本标签序列。但是,由于序列标注模型的预测准确性相对较低,由此,并没有将该已训练好的序列标注模型直接用于预测目标地址文本对应的目标标签序列,而是在模型训练阶段,用于根据第一样本字向量序列预测得到相应的第一样本标签序列,也即是用于对第一训练样本集中的训练样本数据进行序列标注,得到相应的第一样本标签序列,这样,能够提高第一样本标签序列的准确性与获取效率,从而能够提高地址文本分词模型的训练效率,以及能够提高所训练得到的地址文本分词模型的准确性。
上述实施例中,基于第一训练样本集预先训练得到已训练好的地址文本分词模型,以便于在地址文本分词过程中,通过该已训练好的地址文本分词模型,能够快速而准确地实现目标地址文本的分词,从而能够提高分词效率与准确性。
在一个实施例中,根据第一训练样本集进行模型训练得到已训练好的地址文本分词模型,包括:通过待训练的地址文本分词模型,根据第一样本字向量序列与相应第一样本标签序列,生成第一样本字向量序列对应的新的第一样本标签序列;通过预配置的评估单元,对新的第一样本标签序列进行评分得到相应的标签序列评分;通过待训练的评判模型,根据标签序列评分动态调整待训练的地址文本分词模型与评判模型各自的模型参数;返回至通过待训练的地址文本分词模型,根据第一样本字向量序列与相应第一样本标签序列,生成第一样本字向量序列对应的新的第一样本标签序列的步骤继续执行,直至满足迭代停止条件,停止迭代,得到已训练好的地址文本分词模型。
其中,评估单元是预先配置的、且在模型训练阶段用于根据第一样本标签序列,对该第一样本标签序列进行评分的单元或模块。在模型训练过程中,对迭代生成的第一样本标签序列进行动态评分,也即是动态评估该第一样本标签序列的准确性,由此,通过对第一样本标签序列进行动态评分,能够动态评估当前训练得到的地址文本分词模型的准确性。评判模型是与地址文本分词模型进行联合训练得到的、且在模型训练过程中基于第一样本标签序列对应的标签序列评分,动态调整地址文本分词模型的模型参数,以及该评判模型自身的模型参数的模型。迭代停止条件,比如各个第一样本地址文本对应的新的第一样本标签序列所对应的标签序列评分,均达到最大全局最优,还比如迭代次数大于或等于迭代次数阈值,还比如第一训练样本集中的训练样本数据均用于模型训练,在此不作具体限定。
具体地,服务器将第一样本地址文本对应的第一样本字向量序列与第一样本标签序列,输入待训练的地址文本分词模型,通过该地址文本分词模型根据该第一样本字向量序列与相应第一样本标签序列,动态生成该第一样本字向量序列对应的新的第一样本标签序列,并将该第一样本字向量序列与新的第一样本标签序列,发送至预配置的评估单元。服务器通过该评估单元,根据第一样本地址文本对应的新的第一样本标签序列,得到分词后的第一样本地址文本,根据该分词后的第一样本地址文本对该新的第一样本标签序列进行评分,得到相应的标签序列评分,并将该标签序列评分发送至待训练的评判模型。服务器通过该评判模型,根据所接收到的标签序列评分动态调整该评判模型自身的模型参数,以及动态确定待训练的地址文本分词模型的模型参数,并根据所确定的模型参数动态调整待训练的地址文本模型的模型参数,以完成模型训练的单次迭代。
进一步地,服务器将前一次迭代过程中针对第一样本地址文本动态生成的新的第一样本标签序列,作为该第一样本地址文本当前对应的第一样本标签序列,并通过调整模型参数后的地址文本分词模型,根据第一样本地址文本对应的第一样本字向量序列与第一样本标签序列,动态生成该第一样本字向量序列对应的新的第一样本标签序列,并通过评估单元按照上述方式对该新的第一样本标签序列进行评分,得到相应的标签序列评分,进而通过调整模型参数后的评判模型,根据当前接收到的标签序列评分,动态调整待训练的地址文本分词模型的模型参数,以及该评判模型自身的模型参数,以完成模型训练的单次迭代,依此类推,按照上述方式迭代的进行模型训练,直至满足迭代停止条件时,停止迭代,得到已训练好的地址文本分词模型与评判模型,并将该已训练好的地址文本分词模型用于预测目标地址文本对应的目标标签序列。
图3为一个实施例中地址文本分词模型的训练原理示意图。如图3所示,整个模型训练架构中包括预配置的评估单元、待训练的地址文本分词模型与评判模型。其中,在整个模型训练过程中,地址文本分词模型与评判模型是需要不断迭代训练的模型,也即是需要不断调整模型参数的模型,若将地址文本分词模型与评判模型作为一个整体的目标模型来考虑,则该目标模型用于根据第一样本字向量序列与相应第一样本标签序列,动态生成新的第一样本标签序列,将该新的第一样本标签序列发送至评估单元。评估单元用于根据新的第一样本标签序列得到分词后的第一样本地址文本,根据分词后的第一样本地址文本对新的第一样本标签序列进行评分,并将所得到的标签序列评分反馈至目标模型。目标模型基于标签序列评分动态调整模型参数,以完整目标模型的单次迭代训练。
在一个实施例中,服务器基于DDPG(深度强化学习)算法的基本思想来迭代训练目标模型,具体可以是基于AC算法的基本思想来迭代训练目标模型,AC算法是一种常用的强化学习算法。目标模型是基于AC网络训练得到的,AC网络在训练时需要迭代两个网络,一个是Actor网络,一个是Critic网络,Actor网络用于训练得到地址文本分词模型,Critic网络用于训练得到评判模型。在模型的迭代训练过程中,由于评估函数粒度比较大且比较离散,由此采用AC网络能够降低计算时的方差。
在一个实施例中,在按照本申请一个或多个实施例中提供的模型训练方式训练地址文本分词模型时,会适应性调整模型的训练参数,比如Actor网络的学习率、Critic网络的学习率、目标模型更新率、经验缓存大小、动作选择系数、系数衰退率等,在此不作具体限定。
上述实施例中,借助于预配置的评估单元与待训练的评判模型来迭代训练地址文本分词模型,能够提高已训练好的地址文本分词模型的准确性。
在一个实施例中,对新的第一样本标签序列进行评分得到相应的标签序列评分,包括:根据新的第一样本标签序列得到分词后的第一样本地址文本;根据分词后的第一样本地址文本中的分级词与词级,对新的第一样本标签序列进行评分得到第一评分;确定分词后的第一样本地址文本中的主体词,根据主体词对新的第一样本标签序列进行评分得到第二评分;根据分词后的第一样本地址文本与预配置的分词检查项,对新的第一样本标签序列进行评分得到第三评分;对第一评分、第二评分与第三评分进行求和,得到相应的标签序列评分。
其中,主体词也可理解为关键词,是指地址文本中相对比较重要的词。主体词具体可基于词级来确定,比如,将地址文本中属于4级、6级、9+11级或13级等词级的分级词,确定为该地址文本中的主体词。分词检查项是用于检查分词后的地址文本是否存在错分的分词的判断依据,具体可以是由运营人员通过分析已有的“分词错分”情况提炼得到的规则项。
具体地,服务器按照新的第一样本标签序列中的各个字与每个字对应的标签,对该新的第一样本标签序列中的各个字进行合并得到相应的分级词,以及每个分级词对应的词级,并基于各个分级词与相应词级得到分词后的第一样本地址文本。服务器将分词后的第一样本地址文本中的每个分级词与相应词级,分别与预配置的词典进行匹配,以判断第一样本地址文本中的各个分级词是否存在于词典中,以及每个分级词对应的词级是否正确,并根据匹配结果确定该新的第一样本标签序列对应的第一评分。服务器根据分词后的第一样本地址文本中的各个分级词与相应词级,确定该分词后的第一样本地址文本中的主体词,将每个主体词与预配置的地理编码中的参考主体词进行匹配,以判断该主体词是否存在于地理编码中,并根据匹配结果确定该新的第一样本标签序列对应的第二评分。
服务器将分词后的第一样本地址文本分别与预配置的每个分词检查项进行匹配,以判断该分词后的第一样本地址文本是否命中分词检查项,并根据匹配结果确定该新的第一样本标签序列对应的第三评分。服务器对该新的第一样本标签序列对应的第一评分、第二评分与第三评分进行求和,得到相应的标签序列评分。可以理解,词典是基于历史的地址分词结果构建的词典数据。地理编码是将地址解析为地理坐标的一个平台,可存储有多个参考主体词。
在一个实施例中,针对分词后的第一样本地址文本中的每个分级词,若该分级词存在于词典中、且该分级词的词级正确,则将该分级词对应的分数记为1,否则,将该分级词对应的分数记为0,对各分级词对应的分数求和得到总分数,并根据总分数与第一样本地址文本中的分级词数量,计算得到相应新的第一样本标签序列的第一评分。比如,分词后的第一样本地址文本中的分级词数量为3,计算得到的总分数为2,则第一评分为2/3。
在一个实施例中,按照上述类似的方式,当主体词存在于地理编码中时,则将该主体词对应的分数记为1,否则记为0,对各个主体词的分数求和得到总分数,将总分数除以第一样本地址文本中的分级词数量得到相应第二评分。
在一个实施例中,对第一评分、第二评分与第三评分进行求和,可以是算术求和,也可以是加权求和,且各个评分的权重可自定义,比如均为1/3。
上述实施例中,评估单元采用三种评估方式来对新的第一样本标签序列进行评分,并综合三种评估方式下的评分得到最终的标签序列评分,能够提高评分的准确性。
在一个实施例中,对每个第一样本地址文本进行序列标注得到相应的第一样本标签序列,包括:将每个第一样本地址文本对应的第一样本字向量序列输入已训练好的序列标注模型,得到相应的第一样本标签序列;序列标注模型,是基于预先获取的第二训练样本集进行模型训练得到的;第二训练样本集包括第二样本地址文本对应的第二样本字向量序列与第二样本标签序列。
具体地,在模型训练阶段,服务器获取多个第二样本地址文本,对每个第二样本地址文本逐字生成每个字对应的样本字向量,根据每个第二样本地址文本中各个字的样本字向量得到相应的第二样本字向量序列,服务器通过已有的序列标注方式对每个第二样本地址文本进行序列标注,得到相应的第二样本标签序列。服务器根据各第二样本地址文本对应的第二样本字向量序列与第二样本标签序列,得到第二训练样本集,并根据该第二训练样本集进行模型训练得到已训练好的序列标注模型。进一步地,服务器在得到第一训练样本集中每个第一样本地址文本对应的第一样本字向量序列后,将每个第一样本字向量序列输入已训练好的序列标注模型,得到相应第一样本地址文本所对应的第一样本标签序列。
可以理解,由于是采用已有的序列标注方式对第二样本地址文本进行序列标注,以便于得到用于训练序列标注模型的第二训练样本集,由此,对已有的序列标注方式的序列标注准确性没有很高的要求,即便是第二训练样本集中的部分第二样本标签序列不完全准确,但是通过迭代训练仍然能够训练得到准确性相对较高的序列标注模型,这样,采用已训练好的序列标注模型对第一样本地址文本进行序列标注时,能够得到相对准确的第一样本标签序列,由此,基于包括该第一样本序列标签的第一训练样本集,能够训练得到准确性更高的地址文本分词模型,且能够提高地址文本分词模型的训练速度,并缩短该地址文本模型的预测时间。已有的序列标注方式比如基于词典的规则匹配方式,还比如基于CRF++的分词方式,在此不作具体限定。
在一个实施例中,服务器根据第二训练样本集,基于IDCNN+CRF网络进行模型的迭代训练得到已训练好的序列标注模型。IDCNN+CRF是深度学习领域中效果比较好的主体识别/序列标注网络。IDCNN是扩张卷积神经网络,在模型训练时卷积点彼此之间距离扩大,在池化时就能有更大视野。由于地址文本中每个字的标签彼此之间都是有关系的,IDCNN更能够计算到全局关联信息。这样,基于该种方式训练得到的序列标注模型,具有较强的泛化能力,模型的训练过程简单,模型的训练与预测速度较快,且无需耗费后续的人工运维成本。
在一个实施例中,第二训练样本集中第二样本地址文本与第一训练样本集中的第一样本地址文本一致。
在一个实施例中,在按照本申请一个或多个实施例中提供的模型训练方式训练序列标注模型时,会适应性调整模型的训练参数,比如学习率、卷积层数、卷积核大小、激活函数与丢弃率等,在此不作具体限定。
上述实施例中,借助于已训练好的序列标注模型对第一样本地址文本进行序列标注,在无需人工参与的情况下,得到准确性较高的第一样本标签序列,以便于基于该准确性较高的第一样本标签序列与相应第一样本字向量序列,能够快速的训练得到准确性较高的地址文本分词模型。
在一个实施例中,上述地址文本分词方法还包括:当满足模型更新条件时,获取第三训练样本集;第三训练样本集包括第三样本地址文本对应的第三样本字向量序列与第三样本标签序列;根据第三训练样本集对地址文本分词模型进行迭代更新,得到更新后的地址文本分词模型,并将更新后的地址文本分词模型作为已训练好的地址文本分词模型。
其中,模型更新条件是触发模型更新操作的条件或依据,具体可以是接收到终端发送的模型更新指令,或者,自前一次触发模型更新操作起达到指定时长。指定时长比如6个月,由于新地址会不断出现,由此需要按照预设周期定期更新已训练好的地址文本分词模型。
具体地,服务器将新增的地址文本作为第三样本地址文本,对每个第三样本地址文本逐字生成每个字对应的样本字向量,根据该第三样本地址文本中各个字对应的样本字向量,得到相应的第三样本字向量序列,并通过已训练好的序列标注模型根据第三样本字向量序列,对第三样本地址文本进行序列标注得到相应的第三样本标签序列。服务器根据各个第三样本地址文本对应的第三样本字向量序列与第三样本标签序列,得到第三训练样本集,并根据第三训练样本集,按照模型训练的类似流程对已训练得到的地址文本分词模型进行迭代更新,得到更新后的地址文本分词模型,并在后续的地址文本分词应用中,将该更新后的地址文本分词模型作为已训练好的地址文本分词模型。
上述实施例中,按照模型更新条件对已训练得到的地址文本分词模型进行迭代更新训练,以进一步提高地址文本分词模型的准确性。
在一个实施例中,服务器将tensorflow平台作为模型训练的主框架,也即是基于tensorflow平台来训练地址文本分词模型与序列标注模型,并将已训练好的地址文本分词模型与序列标注模型保存为tensorflow平台savedmodel模型。在将已训练好的地址文本分词模型进行线上部署以提供web服务时,使用Golang语言的labstack/echo框架来部署tensorflow平台的savedmodel模型。其中,选择Golang的原因是Golang有专门调用tensorflow平台的API,使用方便,labstack/echo框架对高并发多线程优化很好,能最大化实现模型部署后的web服务性能。
在一个实施例中,按照本申请一个或多个实施例中提供的地址文本分词模型的训练方式,针对全国300多个城市分别训练得到相应的地址文本分词模型,并将针对各城市分别训练得到的地址文本分词模型部署至同一服务器,该服务器基于所部署的各地址文本分词模型,能够覆盖所有城市中各地址对应的地址文本的分词,也即是能够提供任意城市的地址对应的地址文本分词功能。该同一的服务器可以是单台服务器,比如单台256G内存的服务器,还可以是由多台服务器组成的服务器集群。
图4为一个实施例中地址文本分词模型的训练流程示意图。如图4所示,地址文本分词模型的训练步骤具体包括以下步骤:
步骤402,获取第一样本地址文本。
步骤404,对每个第一样本地址文本生成相应的第一样本字向量序列。
步骤406,将每个第一样本地址文本对应的第一样本字向量序列输入已训练好的序列标注模型,得到相应的第一样本标签序列;序列标注模型,是基于预先获取的第二训练样本集进行模型训练得到的;第二训练样本集包括第二样本地址文本对应的第二样本字向量序列与第二样本标签序列。
步骤408,根据第一样本字向量序列与第一样本标签序列得到第一训练样本集。
步骤410,通过待训练的地址文本分词模型,根据第一训练样本集中的第一样本字向量序列与相应第一样本标签序列,生成第一样本字向量序列对应的新的第一样本标签序列。
步骤412,通过预配置的评估单元,根据新的第一样本标签序列得到分词后的第一样本地址文本;根据分词后的第一样本地址文本中的分级词与词级,对新的第一样本标签序列进行评分得到第一评分;确定分词后的第一样本地址文本中的主体词,根据主体词对新的第一样本标签序列进行评分得到第二评分;根据分词后的第一样本地址文本与预配置的分词检查项,对新的第一样本标签序列进行评分得到第三评分;对第一评分、第二评分与第三评分进行求和,得到相应的标签序列评分。
步骤414,通过待训练的评判模型,根据标签序列评分动态调整待训练的地址文本分词模型与评判模型各自的模型参数。
步骤416,判断是否满足迭代停止条件,当判定不满足迭代停止条件时,返回至步骤410继续执行,当判定满足迭代停止条件时,执行步骤418。
步骤418,停止迭代,得到已训练好的地址文本分词模型。
上述实施例中,基于已训练好的序列标注模型进一步训练地址文本分词模型,能够提高地址文本分词模型的准确性与泛化能力,且在训练地址文本分词模型时,无需通过人工标注第一样本地址文本,能够提高训练速度,节约训练成本。
图5为一个实施例中基于序列标注模型训练地址文本分词模型的原理示意图。如图5所示,假设第一样本地址文本为“武汉九峰街九峰欣里社西苑”,将第一样本地址文本输入已训练好的序列标注模型,得到相应的第一样本标签序列,第一样本标签序列比如为“武汉^2|九峰街九峰欣里社西苑^13”,将该第一样本标签序列作为第一样本地址文本对应的初始状态序列,并基于该初始状态序列对待训练的地址文本分词模型进行训练,得到已训练好的地址文本分词模型,在得到已训练好的地址文本分词模型时,该地址文本分词模型最终输出的第一样本标签序列为“武汉^2|九峰街^5|九峰欣里社^13|西苑^136”,该最终输出的第一样本标签序列,即为通过已训练好的地址文本分词模型对第一样本地址文本进行序列标注得到的最终状态序列。
应该理解的是,虽然图2与图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2与图4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种地址文本分词装置600,包括:获取模块601、向量生成模块602、序列生成模块603和分词模块604,其中:
获取模块601,用于获取目标地址文本;
向量生成模块602,用于对目标地址文本逐字生成每个字对应的目标字向量;
序列生成模块603,用于根据目标字向量得到目标地址文本对应的目标字向量序列;
分词模块604,用于将目标字向量序列输入已训练好的地址文本分词模型,得到相应的目标标签序列,并根据目标标签序列得到目标地址文本对应的分词结果;地址文本分词模型,是基于预先获取的第一样本地址文本对应的第一样本字向量序列与第一样本标签序列训练得到的;第一样本标签序列是由已训练好的序列标注模型,根据第一样本字向量序列得到的。
在一个实施例中,上述地址文本分词装置600,还包括:模型训练模块;
模型训练模块,用于获取第一样本地址文本;对每个第一样本地址文本生成相应的第一样本字向量序列;对每个第一样本地址文本进行序列标注得到相应第一样本标签序列;根据第一样本字向量序列与第一样本标签序列得到第一训练样本集;根据第一训练样本集进行模型训练得到已训练好的地址文本分词模型。
在一个实施例中,模型训练模块,还用于通过待训练的地址文本分词模型,根据第一样本字向量序列与相应第一样本标签序列,生成第一样本字向量序列对应的新的第一样本标签序列;通过预配置的评估单元,对新的第一样本标签序列进行评分得到相应的标签序列评分;通过待训练的评判模型,根据标签序列评分动态调整待训练的地址文本分词模型与评判模型各自的模型参数;并执行通过待训练的地址文本分词模型,根据第一样本字向量序列与相应第一样本标签序列,生成第一样本字向量序列对应的新的第一样本标签序列,直至满足迭代停止条件,停止迭代,得到已训练好的地址文本分词模型。
在一个实施例中,模型训练模块,还用于根据新的第一样本标签序列得到分词后的第一样本地址文本;根据分词后的第一样本地址文本中的分级词与词级,对新的第一样本标签序列进行评分得到第一评分;确定分词后的第一样本地址文本中的主体词,根据主体词对新的第一样本标签序列进行评分得到第二评分;根据分词后的第一样本地址文本与预配置的分词检查项,对新的第一样本标签序列进行评分得到第三评分;对第一评分、第二评分与第三评分进行求和,得到相应的标签序列评分。
在一个实施例中,模型训练模块,还用于将每个第一样本地址文本对应的第一样本字向量序列输入已训练好的序列标注模型,得到相应的第一样本标签序列;序列标注模型,是基于预先获取的第二训练样本集进行模型训练得到的;第二训练样本集包括第二样本地址文本对应的第二样本字向量序列与第二样本标签序列。
在一个实施例中,模型训练模块,还用于当满足模型更新条件时,获取第三训练样本集;第三训练样本集包括第三样本地址文本对应的第三样本字向量序列与第三样本标签序列;根据第三训练样本集对地址文本分词模型进行迭代更新,得到更新后的地址文本分词模型,并将更新后的地址文本分词模型作为已训练好的地址文本分词模型。
在一个实施例中,获取模块601,还用于获取待分词的初始地址文本;对初始地址文本进行规范化处理得到相应的目标地址文本。
关于地址文本分词装置的具体限定可以参见上文中对于地址文本分词方法的限定,在此不再赘述。上述地址文本分词装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储已训练好的地址文本分词模型与序列标注模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种地址文本分词方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种地址文本分词方法,其特征在于,所述方法包括:
获取目标地址文本;
对所述目标地址文本逐字生成每个字对应的目标字向量;
根据所述目标字向量得到所述目标地址文本对应的目标字向量序列;
将所述目标字向量序列输入已训练好的地址文本分词模型,得到相应的目标标签序列,并根据所述目标标签序列得到所述目标地址文本对应的分词结果;所述地址文本分词模型,是基于预先获取的第一样本地址文本对应的第一样本字向量序列与第一样本标签序列训练得到的;所述第一样本标签序列是由已训练好的序列标注模型,根据所述第一样本字向量序列得到的。
2.根据权利要求1所述的方法,其特征在于,所述地址文本分词模型的训练步骤,包括:
获取第一样本地址文本;
对每个第一样本地址文本生成相应的第一样本字向量序列;
对所述每个第一样本地址文本进行序列标注得到相应第一样本标签序列;
根据所述第一样本字向量序列与所述第一样本标签序列得到第一训练样本集;
根据所述第一训练样本集进行模型训练得到已训练好的地址文本分词模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一训练样本集进行模型训练得到已训练好的地址文本分词模型,包括:
通过待训练的地址文本分词模型,根据所述第一样本字向量序列与相应第一样本标签序列,生成所述第一样本字向量序列对应的新的第一样本标签序列;
通过预配置的评估单元,对所述新的第一样本标签序列进行评分得到相应的标签序列评分;
通过待训练的评判模型,根据所述标签序列评分动态调整所述待训练的地址文本分词模型与所述评判模型各自的模型参数;
返回至所述通过待训练的地址文本分词模型,根据所述第一样本字向量序列与相应第一样本标签序列,生成所述第一样本字向量序列对应的新的第一样本标签序列的步骤继续执行,直至满足迭代停止条件,停止迭代,得到已训练好的地址文本分词模型。
4.根据权利要求3所述的方法,其特征在于,所述对所述新的第一样本标签序列进行评分得到相应的标签序列评分,包括:
根据所述新的第一样本标签序列得到分词后的第一样本地址文本;
根据所述分词后的第一样本地址文本中的分级词与词级,对所述新的第一样本标签序列进行评分得到第一评分;
确定所述分词后的第一样本地址文本中的主体词,根据所述主体词对所述新的第一样本标签序列进行评分得到第二评分;
根据所述分词后的第一样本地址文本与预配置的分词检查项,对所述新的第一样本标签序列进行评分得到第三评分;
对所述第一评分、所述第二评分与所述第三评分进行求和,得到相应的标签序列评分。
5.根据权利要求2所述的方法,其特征在于,所述对所述每个第一样本地址文本进行序列标注得到相应的第一样本标签序列,包括:
将所述每个第一样本地址文本对应的第一样本字向量序列输入已训练好的序列标注模型,得到相应的第一样本标签序列;所述序列标注模型,是基于预先获取的第二训练样本集进行模型训练得到的;所述第二训练样本集包括第二样本地址文本对应的第二样本字向量序列与第二样本标签序列。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当满足模型更新条件时,获取第三训练样本集;所述第三训练样本集包括第三样本地址文本对应的第三样本字向量序列与第三样本标签序列;
根据所述第三训练样本集对所述地址文本分词模型进行迭代更新,得到更新后的地址文本分词模型,并将所述更新后的地址文本分词模型作为已训练好的地址文本分词模型。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述获取目标地址文本,包括:
获取待分词的初始地址文本;
对所述初始地址文本进行规范化处理得到相应的目标地址文本。
8.一种地址文本分词装置,其特征在于,所述装置包括:
获取模块,用于获取目标地址文本;
向量生成模块,用于对所述目标地址文本逐字生成每个字对应的目标字向量;
序列生成模块,用于根据所述目标字向量得到所述目标地址文本对应的目标字向量序列;
分词模块,用于将所述目标字向量序列输入已训练好的地址文本分词模型,得到相应的目标标签序列,并根据所述目标标签序列得到所述目标地址文本对应的分词结果;所述地址文本分词模型,是基于预先获取的第一样本地址文本对应的第一样本字向量序列与第一样本标签序列训练得到的;所述第一样本标签序列是由已训练好的序列标注模型,根据所述第一样本字向量序列得到的。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010888618.1A CN112052670B (zh) | 2020-08-28 | 2020-08-28 | 地址文本分词方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010888618.1A CN112052670B (zh) | 2020-08-28 | 2020-08-28 | 地址文本分词方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112052670A true CN112052670A (zh) | 2020-12-08 |
CN112052670B CN112052670B (zh) | 2024-04-02 |
Family
ID=73607584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010888618.1A Active CN112052670B (zh) | 2020-08-28 | 2020-08-28 | 地址文本分词方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052670B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948677A (zh) * | 2021-02-26 | 2021-06-11 | 上海携旅信息技术有限公司 | 基于点评美感度的推荐理由确定方法、系统、设备及介质 |
CN113609850A (zh) * | 2021-07-02 | 2021-11-05 | 北京达佳互联信息技术有限公司 | 分词处理方法、装置、电子设备及存储介质 |
CN114626378A (zh) * | 2020-12-22 | 2022-06-14 | 亚信科技(中国)有限公司 | 命名实体识别方法、装置、电子设备及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028077A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN110083824A (zh) * | 2019-03-18 | 2019-08-02 | 昆明理工大学 | 一种基于多模型组合神经网络的老挝语分词方法 |
CN110472229A (zh) * | 2019-07-11 | 2019-11-19 | 新华三大数据技术有限公司 | 序列标注模型训练方法、电子病历处理方法及相关装置 |
CN111209751A (zh) * | 2020-02-14 | 2020-05-29 | 全球能源互联网研究院有限公司 | 一种中文分词方法、装置及存储介质 |
CN111428488A (zh) * | 2020-03-06 | 2020-07-17 | 平安科技(深圳)有限公司 | 简历数据信息解析及匹配方法、装置、电子设备及介质 |
CN111444723A (zh) * | 2020-03-06 | 2020-07-24 | 深圳追一科技有限公司 | 信息抽取模型训练方法、装置、计算机设备和存储介质 |
-
2020
- 2020-08-28 CN CN202010888618.1A patent/CN112052670B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028077A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN110083824A (zh) * | 2019-03-18 | 2019-08-02 | 昆明理工大学 | 一种基于多模型组合神经网络的老挝语分词方法 |
CN110472229A (zh) * | 2019-07-11 | 2019-11-19 | 新华三大数据技术有限公司 | 序列标注模型训练方法、电子病历处理方法及相关装置 |
CN111209751A (zh) * | 2020-02-14 | 2020-05-29 | 全球能源互联网研究院有限公司 | 一种中文分词方法、装置及存储介质 |
CN111428488A (zh) * | 2020-03-06 | 2020-07-17 | 平安科技(深圳)有限公司 | 简历数据信息解析及匹配方法、装置、电子设备及介质 |
CN111444723A (zh) * | 2020-03-06 | 2020-07-24 | 深圳追一科技有限公司 | 信息抽取模型训练方法、装置、计算机设备和存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114626378A (zh) * | 2020-12-22 | 2022-06-14 | 亚信科技(中国)有限公司 | 命名实体识别方法、装置、电子设备及计算机可读存储介质 |
CN114626378B (zh) * | 2020-12-22 | 2024-06-18 | 亚信科技(中国)有限公司 | 命名实体识别方法、装置、电子设备及计算机可读存储介质 |
CN112948677A (zh) * | 2021-02-26 | 2021-06-11 | 上海携旅信息技术有限公司 | 基于点评美感度的推荐理由确定方法、系统、设备及介质 |
CN112948677B (zh) * | 2021-02-26 | 2023-11-03 | 上海携旅信息技术有限公司 | 基于点评美感度的推荐理由确定方法、系统、设备及介质 |
CN113609850A (zh) * | 2021-07-02 | 2021-11-05 | 北京达佳互联信息技术有限公司 | 分词处理方法、装置、电子设备及存储介质 |
CN113609850B (zh) * | 2021-07-02 | 2024-05-17 | 北京达佳互联信息技术有限公司 | 分词处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112052670B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11983269B2 (en) | Deep neural network system for similarity-based graph representations | |
CN112052670A (zh) | 地址文本分词方法、装置、计算机设备和存储介质 | |
CN109493417B (zh) | 三维物体重建方法、装置、设备和存储介质 | |
CN110147421B (zh) | 一种目标实体链接方法、装置、设备及存储介质 | |
CN109284397A (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
CN111931067A (zh) | 兴趣点推荐方法、装置、设备和介质 | |
CN107038173A (zh) | 应用查询方法和装置、相似应用检测方法和装置 | |
CN110197284A (zh) | 一种虚假地址识别方法、装置及设备 | |
CN111429204A (zh) | 酒店推荐方法、系统、电子设备和存储介质 | |
CN113641835B (zh) | 多媒体资源推荐方法、装置、电子设备及介质 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN115409111A (zh) | 命名实体识别模型的训练方法和命名实体识别方法 | |
WO2023225335A1 (en) | Performing computer vision tasks by generating sequences of tokens | |
CN110717094A (zh) | 信息推荐方法、装置、计算机设备和存储介质 | |
CN118036646A (zh) | 一种上下文检索增强的时空智能体方法及计算机可读介质 | |
CN113343711A (zh) | 工单生成方法、装置、设备及存储介质 | |
CN114692889A (zh) | 用于机器学习算法的元特征训练模型 | |
CN118013031A (zh) | 提示词的确定方法、装置、计算机设备以及存储介质 | |
Alhelbawy et al. | Named entity disambiguation using hmms | |
CN112559877A (zh) | 基于跨平台异构数据及行为上下文的ctr预估方法及系统 | |
CN112052672A (zh) | 基于地址文本的单元区域识别方法、装置和计算机设备 | |
CN115098722B (zh) | 文本和图像的匹配方法、装置、电子设备和存储介质 | |
CN116433899A (zh) | 图像分割方法、训练图像分割模型的方法及装置 | |
CN112183095A (zh) | 一种事件抽取方法和装置 | |
CN109918583B (zh) | 一种任务信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |