CN111444298B - 一种基于兴趣点知识图谱预训练的地址匹配算法 - Google Patents

一种基于兴趣点知识图谱预训练的地址匹配算法 Download PDF

Info

Publication number
CN111444298B
CN111444298B CN202010197064.0A CN202010197064A CN111444298B CN 111444298 B CN111444298 B CN 111444298B CN 202010197064 A CN202010197064 A CN 202010197064A CN 111444298 B CN111444298 B CN 111444298B
Authority
CN
China
Prior art keywords
address
interest point
predicted
formula
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010197064.0A
Other languages
English (en)
Other versions
CN111444298A (zh
Inventor
陈华钧
叶志权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010197064.0A priority Critical patent/CN111444298B/zh
Publication of CN111444298A publication Critical patent/CN111444298A/zh
Application granted granted Critical
Publication of CN111444298B publication Critical patent/CN111444298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于兴趣点知识图谱预训练的地址匹配算法,包括:获取兴趣点地址后区分出不同粒度的行政区域,得到标注后的兴趣点地址;将标注后的兴趣点地址随机遮盖部分行政区域输入到语言模型中,输出预测后的兴趣点地址,利用兴趣点地址与预测后的兴趣点地址计算损失函数,多次迭代后,得到输出准确的兴趣点地址的语言模型;将语言模型后面接上全连接层,使用标注后的地址匹配任务数据集对模型和全连接层进行整体参数微调,得到微调后的语言模型和全连接层;将标注后的待预测的原始兴趣点地址输入微调后的语言模型和全连接层,得到待预测兴趣点的预测地址,将待预测的原始兴趣点地址与待预测兴趣点的预测地址进行相似度计算,完成地址匹配。

Description

一种基于兴趣点知识图谱预训练的地址匹配算法
技术领域
本发明涉及知识图谱和自然语言处理领域,具体涉及一种基于兴趣点知识图谱预训练的地址匹配算法。
背景技术
传统网络训练模型中自然语言处理任务需要大量的标注数据,这些数据的标注需要耗费大量的人力,然而即使获得了大量的标注数据,模型的训练也很容易陷入过拟合的困境,即缺少泛化能力。
文本的语义匹配指的是判断两段自然语言是否表达了同样的意思,传统的词袋模型的问题在于无法很好地处理自然语言的歧义性,同样的意思存在多种称谓和表述,而相同的表述在不同的语境下又可能存在多种意思,经典的语义匹配模型有传统的基于词袋模型的TF-IDF,BM25算法,以及基于深度学习的DSSM、匹配金字塔(MatchPyramid)等模型。
地址作为一种特定领域的自然语言,表述的是地理位置上某一地点的名称,现实生活中同一目的地的地址名称通常存在多种写法,通常是由于地址的不完整性、独特性和别名等多种原因造成。地址匹配的目的是判断两地址文本是否指向同一目的地,其本质上是一种文本语义匹配问题。由于地址的表述存在的差异性以及地理信息的复杂性,基于传统词袋模型的字符精确匹配无法获得很好的效果;而深度学习模型存在的问题在于,需要大量的训练语料,同时容易存在泛化性能差等特点。
因此,开发一种有效的语言预训练模型,利用互联网上海量的无监督语料,通过预训练模型可以学习到语言的特征,得到每个词的向量表示,然后将向量表示输入给下游任务进行参数的微调;这种预训练在自然语言推理、文本匹配、命名实体识别以及问答系统等许多自然语言处理任务上都取得了很好的效果。这种预训练模型充分利用了海量的无监督语料,有效地减少下游任务的标注数据量,同时提高下游任务模型的泛化能力和效果。
其中,地理信息系统中的某个兴趣点(兴趣点Int ofInterest,简称“兴趣点”)可以是商铺、建筑物、公交站等,其中,兴趣点知识图谱是指包含某一区域的兴趣点的集合,知识图谱中包含了海量的地址文本信息,如何利用知识图谱中海量的地址文本,来增强有监督的地址匹配任务的效果和泛化能力,是接下来研究的重点。
发明内容
本发明提供了一种基于兴趣点知识图谱预训练的地址匹配算法,该知识图谱构建方法可增强地址匹配算法的效果,减小有监督的标注样本,提高模型的泛化能力。
一种基于兴趣点知识图谱预训练的地址匹配算法,包括:
(1)获取经过数字化处理的、能在网络环境下运行的兴趣点地址,将兴趣点地址区分出不同粒度的行政区域;
所述的行政区域依次为省、市、区、路、社区、镇、村、名称和其他,分别用Prov,City,District,Road,Community,Town,Village,Name,O表示。
(2)随机遮盖部分行政区域,将遮盖后的兴趣点地址输入到语言模型中,输出预测后的兴趣点地址;利用兴趣点地址与预测后的兴趣点地址计算损失函数,多次迭代后,得到输出准确的兴趣点地址的语言模型。
所述的遮盖的行政区域的字数占兴趣点地址总字数的15%-25%。
所述的将遮盖后的兴趣点地址输入到语言模型中的具体过程为:
(2.1)将兴趣点地址文本输入到语言模型的向量编码层,经计算得到兴趣点地址中每个字符的向量表示;
所述的兴趣点地址文本为式(1)所示:
C={c0,c1,…,cn-1} (1)
其中,C为兴趣点地址文本;n为兴趣点地址文本的长。
所述的兴趣点地址中每个字符的向量表示为式(2)所示:
h0=CWe+Wp (2)
其中,h0为兴趣点地址中每个字符的向量表示;We为词表矩阵;Wp为位置向量矩阵;h0∈Rn×d为输入字符的向量表示;d为向量维度。
(2.2)将兴趣点地址中每个字符的向量表示作为transformer编码层的输入,得到兴趣点地址训练样本的特征向量;
所述的兴趣点地址训练样本的特征向量的计算公式为式(3)所示:
hl=transformer(hl),l∈[1,6] (3)
其中,hl为兴趣点地址训练样本的特征向量;l为transformer编码层的堆叠层数。
(2.3)将兴趣点地址训练样本的特征向量作为全连接层的输入,得到兴趣点地址的概率矩阵;
所述的兴趣点地址的概率矩阵的计算公式为式(4)所示:
pi=softmax(hlW) (4)
其中,W为全连接层的矩阵;pi∈Rn×V为概率矩阵;V为词表大小。
(2.4)利用兴趣点地址与预测后的兴趣点地址计算损失函数,多次迭代后,得到输出准确的兴趣点地址的语言模型。
所述的损失函数的计算公式为式(5)所示:
Figure BDA0002418009750000041
其中yi是被遮盖的词,pi是对应i位置上输出的概率分布。
(3)将步骤(2)得到的语言模型后面接上全连接层,使用标注后的地址匹配任务数据集对模型和全连接层进行整体参数微调,得到微调后的语言模型和全连接层。
所述的地址匹配任务的目的是判断两条地址文本是否匹配,即是否指向同一兴趣点。
使用标注后的地址匹配任务数据集对模型和全连接层进行整体参数微调,包括:
(3.1)将地址匹配任务数据集中的地址文本输入语言模型中,得到地址文本的输出向量;
所述的地址文本为式(6)所示:
Figure BDA0002418009750000051
其中,Ci为地址文本;
Figure BDA0002418009750000052
分别为地址文本的正负样本,即
Figure BDA0002418009750000053
与Ci匹配,
Figure BDA0002418009750000054
则为随机采样的负样本。
所述的地址文本的输出向量的计算公式为式(7)所示:
Figure BDA0002418009750000055
其中,
Figure BDA0002418009750000056
为地址文本的输出向量;hi∈Rd
(3.2)利用合页损失函数计算地址文本输出向量中hi
Figure BDA0002418009750000057
之间的相似度和hi
Figure BDA0002418009750000058
之间的相似度的损失值,迭代求解直至损失值收敛,得到微调后的语言模型和全连接层。
所述的损失值的计算公式为式(8)所示:
Figure BDA0002418009750000059
(4)将标注后的待预测的原始兴趣点地址输入步骤(3)得到微调后的语言模型和全连接层,得到待预测兴趣点的预测地址,将待预测的原始兴趣点地址与待预测兴趣点的预测地址进行相似度计算,完成地址匹配。
所述的待预测兴趣点的预测地址的计算公式为式(9)所示:
Figure BDA00024180097500000510
其中,
Figure BDA00024180097500000511
分别为遮盖不同的待预测兴趣点地址;
Figure BDA00024180097500000512
为待预测兴趣点地址
Figure BDA00024180097500000513
的实际地址;
Figure BDA00024180097500000514
为待预测兴趣点地址
Figure BDA00024180097500000515
的实际地址。
所述的相似度计算的公式为式(10)所示:
Figure BDA00024180097500000516
根据simi的取值判断是否匹配,所述的判断公式具体为式(11)所示:
Figure BDA0002418009750000061
其中,当yi=1时,微调后的语言模型计算出的待预测兴趣点的实际地址与真实地址匹配;当yi=0时,微调后的语言模型计算出的待预测兴趣点的实际地址与真实地址不匹配。
本发明的有益效果:
(1)本发明所述的基于兴趣点知识图谱预训练的地址匹配算法中通过大规模的地址预训练,模型学习到了地址的语义特征,可以有效提高下游地址匹配任务的泛化性能。
(2)相比于基于精确字符匹配的传统文本匹配模型,本发明所述的基于兴趣点知识图谱预训练的地址匹配算法本质上是基于词向量的模型,它可以更好地处理地址文本中的歧义性问题。
(3)相比于其他深度学习模型,本发明所述的基于兴趣点知识图谱预训练的地址匹配算法可以有效减少训练语料,同时加快模型的收敛速度,减少训练开销。
(4)本发明所述的基于兴趣点知识图谱预训练的地址匹配算法中模型的测试过程是一个端到端的过程,无需经过传统自然语言处理复杂的预处理流程:如分词、词性标注、句法分析等。
附图说明
图1为本发明所述的基于兴趣点知识图谱预训练的地址匹配算法的流程示意图;
图2为本发明所述的基于兴趣点知识图谱预训练的地址匹配算法的匹配模型的结构示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
如图1所示,步骤1、区分地址文本的行政区域标签,输出为地址文本每个字的标签信息,如表1所示,输入地址文本为“浙江省杭州市西湖区黄龙路1号黄龙体育中心”;
表1行政区域划分结果列表
西
Prov Prov Prov City City City District District District Road
1
Road Road Road Road Name Name Name Name Name Name
步骤2、利用行政区域划分的结果,随机掩盖部分地址块,利用双向语言模型对缺失词进行预测。
假设输入地址为“浙江省杭州市西湖区黄龙区1号黄龙体育中心”,对“西湖区”进行遮盖,则输入为表2预训练输入示例
Figure BDA0002418009750000071
Figure BDA0002418009750000081
在输出端,计算遮盖部分位置上的输出概率分布的交叉熵损失,对原输入进行重建,最小化该损失函数。
所述的将遮盖后的兴趣点地址输入到语言模型中的具体过程为:
(2.1)将兴趣点地址文本输入到语言模型的向量编码层,经计算得到兴趣点地址中每个字符的向量表示;
所述的兴趣点地址文本为式(1)所示:
C={c0,c1,…,cn-1} (1)
其中,C为兴趣点地址文本;n为兴趣点地址文本的长。
所述的兴趣点地址中每个字符的向量表示为式(2)所示:
h0=CWe+Wp (2)
其中,h0为兴趣点地址中每个字符的向量表示;We为词表矩阵;Wp为位置向量矩阵;h0∈Rn×d为输入字符的向量表示;d为向量维度。
(2.2)将兴趣点地址中每个字符的向量表示作为transformer编码层的输入,得到兴趣点地址训练样本的特征向量;
所述的兴趣点地址训练样本的特征向量的计算公式为式(3)所示:
hl=transformer(hl),l∈[1,6] (3)
其中,hl为兴趣点地址训练样本的特征向量;l为transformer编码层的堆叠层数。
(2.3)将兴趣点地址训练样本的特征向量作为全连接层的输入,得到兴趣点地址的概率矩阵;
所述的兴趣点地址的概率矩阵的计算公式为式(4)所示:
pi=softmax(hlW) (4)
其中,W为全连接层的矩阵;pi∈Rn×V为概率矩阵;V为词表大小。
(2.4)利用兴趣点地址与预测后的兴趣点地址计算损失函数,多次迭代后,得到输出准确的兴趣点地址的语言模型。
所述的损失函数的计算公式为式(5)所示:
Figure BDA0002418009750000091
其中yi是被遮盖的词,pi是对应i位置上输出的概率分布。
步骤3:在有标签的文本匹配训练集上,对步骤(2)得到的语言模型进行训练,得到微调后的语言模型,模型输入如表3所示,损失函数为合页损失,学习率设置为1e-5,训练轮数为5。优化方法采用了Adam算法,训练时的批次大小为64,正负样本比例为1:1,模型的向量维度d设置为576,transformer的层数M设置为6,模型的结构示意图如图2所示。
所述的地址匹配任务的目的是判断两条地址文本是否匹配,即是否指向同一兴趣点。
(3)步骤(2)得到的语言模型后面接上全连接层,使用标注后的地址匹配任务数据集对模型和全连接层进行整体参数微调,得到微调后的语言模型和全连接层,包括:
(3.1)将地址匹配任务数据集中的地址文本输入语言模型中,得到地址文本的输出向量;
所述的地址文本为式(6)所示:
Figure BDA0002418009750000101
其中,Ci为地址文本;
Figure BDA0002418009750000102
分别为地址文本的正负样本,即
Figure BDA0002418009750000103
与Ci匹配,
Figure BDA0002418009750000104
则为随机采样的负样本。
所述的地址文本的输出向量的计算公式为式(7)所示:
Figure BDA0002418009750000105
其中,
Figure BDA0002418009750000106
为地址文本的输出向量;hi∈Rd
表3微调输入示例
Figure BDA0002418009750000107
(3.2)利用合页损失函数计算地址文本输出向量中hi
Figure BDA0002418009750000108
之间的相似度和hi
Figure BDA0002418009750000109
之间的相似度的损失值,迭代求解直至损失值收敛,得到微调后的语言模型和全连接层。
所述的损失值的计算公式为式(8)所示:
Figure BDA00024180097500001010
步骤4、将待预测兴趣点地址输入步骤3得到的微调后的语言模型和全连接层,得到待预测兴趣点的实际地址,完成地址匹配。
所述的待预测兴趣点地址为式(9)所示:
Figure BDA00024180097500001011
其中,
Figure BDA00024180097500001012
分别为遮盖不同的待预测兴趣点地址,yi∈{0,1}代表是否匹配。
所述的得到待预测兴趣点的实际地址的计算公式为式(10)所示:
Figure BDA0002418009750000111
其中,
Figure BDA0002418009750000112
为待预测兴趣点地址
Figure BDA0002418009750000113
的实际地址;
Figure BDA0002418009750000114
为待预测兴趣点地址
Figure BDA0002418009750000115
的实际地址。
所述的计算相似度的公式为式(11)所示:
Figure BDA0002418009750000116
根据simi的取值判断是否匹配,所述的判断公式具体为式(12)所示:
Figure BDA0002418009750000117
其中,当yi=1时,微调后的语言模型和全连接层计算出的待预测兴趣点的实际地址与真实地址匹配;当yi=0时,微调后的语言模型和全连接层计算出的待预测兴趣点的实际地址与真实地址不匹配。
上述的对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims (3)

1.一种基于兴趣点知识图谱预训练的地址匹配方法,其特征在于,包括,
(1)获取经过数字化处理的、能在网络环境下运行的兴趣点地址,将兴趣点地址区分出不同粒度的行政区域,得到标注后的兴趣点地址;
(2)将标注后的兴趣点地址随机遮盖部分行政区域输入到语言模型中,输出预测后的兴趣点地址,利用兴趣点地址与预测后的兴趣点地址计算损失函数,多次迭代后,得到输出准确的兴趣点地址的语言模型,包括以下步骤:
(2.1)将兴趣点地址文本输入到语言模型的向量编码层,经计算得到兴趣点地址中每个字符的向量表示;
所述的兴趣点地址文本为式(1)所示:
C={c0,c1,…,cn-1} (1)
其中,C为兴趣点地址文本;n为兴趣点地址文本的长;
所述的兴趣点地址中每个字符的向量表示为式(2)所示:
h0=CWe+Wp (2)
其中,h0为兴趣点地址中每个字符的向量表示;We为词表矩阵;Wp为位置向量矩阵;h0∈Rn×d为输入字符的向量表示;d为向量维度;
(2.2)将兴趣点地址中每个字符的向量表示作为transformer编码层的输入,得到兴趣点地址训练样本的特征向量;
所述的兴趣点地址训练样本的特征向量的计算公式为式(3)所示:
hl=transformer(hl),l∈[1,6] (3)
其中,hl为兴趣点地址训练样本的特征向量;l为transformer编码层的堆叠层数;
(2.3)将兴趣点地址训练样本的特征向量作为全连接层的输入,得到兴趣点地址的概率矩阵;
所述的兴趣点地址的概率矩阵的计算公式为式(4)所示:
pi=softmax(hlW) (4)
其中,W为全连接层的矩阵;pi∈Rn×V为概率矩阵;V为词表大小;
(2.4)利用兴趣点地址与预测后的兴趣点地址计算损失函数,多次迭代后,得到输出准确的兴趣点地址的语言模型;
所述的损失函数的计算公式为式(5)所示:
Figure FDA0003633234210000021
其中yi是被遮盖的词,pi是对应i位置上输出的概率分布;
(3)将步骤(2)得到的语言模型后面接上全连接层,使用标注后的地址匹配任务数据集对模型和全连接层进行整体参数微调,得到微调后的语言模型和全连接层,包括以下步骤:
(3.1)将地址匹配任务数据集中的地址文本输入语言模型中,得到地址文本的输出向量;
所述的地址文本为式(6)所示:
Figure FDA0003633234210000022
其中,Ci为地址文本;
Figure FDA0003633234210000023
分别为地址文本的正负样本,即
Figure FDA0003633234210000024
与Ci匹配,
Figure FDA0003633234210000025
则为随机采样的负样本;
所述的地址文本的输出向量的计算公式为式(7)所示:
Figure FDA0003633234210000026
其中,
Figure FDA0003633234210000027
为地址文本的输出向量;hi∈Rd
(3.2)利用合页损失函数计算地址文本输出向量中hi
Figure FDA0003633234210000028
之间的相似度和hi
Figure FDA0003633234210000029
之间的相似度的损失值,迭代求解直至损失值收敛,得到微调后的语言模型和全连接层;所述的损失值的计算公式为式(8)所示:
Figure FDA00036332342100000210
(4)将标注后的待预测的原始兴趣点地址输入步骤(3)得到微调后的语言模型和全连接层,得到待预测兴趣点的预测地址,将待预测的原始兴趣点地址与待预测兴趣点的预测地址进行相似度计算,完成地址匹配,包括以下步骤:
得到待预测兴趣点的预测地址的计算公式为式(9)所示:
Figure FDA00036332342100000211
其中,
Figure FDA00036332342100000212
分别为遮盖不同的待预测兴趣点地址;
Figure FDA00036332342100000213
为待预测兴趣点地址
Figure FDA00036332342100000214
的实际地址;
Figure FDA00036332342100000215
为待预测兴趣点地址
Figure FDA00036332342100000216
的实际地址;
相似度计算的公式为式(10)所示:
Figure FDA00036332342100000217
根据simi的取值判断是否匹配,判断公式具体为式(11)所示:
Figure FDA0003633234210000031
其中,当yi=1时,微调后的语言模型计算出的待预测兴趣点的实际地址与真实地址匹配;当yi=0时,微调后的语言模型计算出的待预测兴趣点的实际地址与真实地址不匹配。
2.根据权利要求1所述的基于兴趣点知识图谱预训练的地址匹配方法,其特征在于,步骤(1)中,所述的行政区域依次为省、市、区、路、社区、镇、村、名称和其他,分别用Prov,City,District,Road,Community,Town,Village,Name,O表示。
3.根据权利要求1所述的基于兴趣点知识图谱预训练的地址匹配方法,其特征在于,步骤(2)中,所述的遮盖的行政区域的字数占兴趣点地址总字数的15%-25%。
CN202010197064.0A 2020-03-19 2020-03-19 一种基于兴趣点知识图谱预训练的地址匹配算法 Active CN111444298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010197064.0A CN111444298B (zh) 2020-03-19 2020-03-19 一种基于兴趣点知识图谱预训练的地址匹配算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010197064.0A CN111444298B (zh) 2020-03-19 2020-03-19 一种基于兴趣点知识图谱预训练的地址匹配算法

Publications (2)

Publication Number Publication Date
CN111444298A CN111444298A (zh) 2020-07-24
CN111444298B true CN111444298B (zh) 2022-10-14

Family

ID=71629339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010197064.0A Active CN111444298B (zh) 2020-03-19 2020-03-19 一种基于兴趣点知识图谱预训练的地址匹配算法

Country Status (1)

Country Link
CN (1) CN111444298B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100393B (zh) * 2020-08-07 2022-03-15 浙江大学 一种低资源场景下的知识三元组抽取方法
CN112329470B (zh) * 2020-11-09 2024-05-28 北京中科闻歌科技股份有限公司 一种基于端到端模型训练的智能地址识别方法及装置
CN112671716B (zh) * 2020-12-03 2022-07-05 中国电子科技网络信息安全有限公司 基于图谱的漏洞知识挖掘方法及系统
CN112528664B (zh) * 2021-02-05 2021-04-27 湖南工商大学 基于多任务联合学习与地址层级结构知识的地址匹配方法
CN113515677B (zh) * 2021-07-22 2023-10-27 中移(杭州)信息技术有限公司 地址匹配方法、装置及计算机可读存储介质
CN113806562B (zh) * 2021-11-17 2022-04-15 阿里巴巴达摩院(杭州)科技有限公司 模型训练方法、装置、设备及存储介质
CN114417022B (zh) * 2022-03-30 2022-06-28 阿里巴巴(中国)有限公司 模型训练方法、数据处理方法及其装置
CN114911909B (zh) * 2022-06-08 2023-01-10 北京青萌数海科技有限公司 结合深度卷积网络和注意力机制的地址匹配方法以及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9805130B1 (en) * 2016-09-26 2017-10-31 Uber Technologies, Inc. Geographical location search using multiple data sources
CN109977283B (zh) * 2019-03-14 2021-03-05 中国人民大学 一种基于知识图谱和用户足迹的旅游推荐方法和系统
CN110489507B (zh) * 2019-08-16 2023-03-31 腾讯科技(深圳)有限公司 确定兴趣点相似度的方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111444298A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN111444298B (zh) 一种基于兴趣点知识图谱预训练的地址匹配算法
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN107273355B (zh) 一种基于字词联合训练的中文词向量生成方法
CN109284406B (zh) 基于差异循环神经网络的意图识别方法
CN109885824B (zh) 一种层次的中文命名实体识别方法、装置及可读存储介质
CN112883738A (zh) 基于神经网络和自注意力机制的医学实体关系抽取方法
CN112905801B (zh) 基于事件图谱的行程预测方法、系统、设备及存储介质
CN107169079A (zh) 一种基于Deepdive的领域文本知识抽取方法
CN113515632B (zh) 基于图路径知识萃取的文本分类方法
CN110705298B (zh) 一种改进的前缀树与循环神经网络结合的领域分类方法
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN111368542A (zh) 一种基于递归神经网络的文本语言关联抽取方法和系统
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN111144119A (zh) 一种改进知识迁移的实体识别方法
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN112765983A (zh) 一种基于结合知识描述的神经网络的实体消歧的方法
CN115496072A (zh) 一种基于对比学习的关系抽取方法
CN115658846A (zh) 一种适用于开源软件供应链的智能搜索方法及装置
Zhu et al. Prior knowledge driven label embedding for slot filling in natural language understanding
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN115019183B (zh) 基于知识蒸馏和图像重构的遥感影像模型迁移方法
CN114357166B (zh) 一种基于深度学习的文本分类方法
CN115062123A (zh) 一种对话生成系统的知识库问答对生成方法
CN115062109A (zh) 一种基于实体对注意力机制的实体关系联合抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant