CN110377686A - 一种基于深度神经网络模型的地址信息特征抽取方法 - Google Patents
一种基于深度神经网络模型的地址信息特征抽取方法 Download PDFInfo
- Publication number
- CN110377686A CN110377686A CN201910666632.4A CN201910666632A CN110377686A CN 110377686 A CN110377686 A CN 110377686A CN 201910666632 A CN201910666632 A CN 201910666632A CN 110377686 A CN110377686 A CN 110377686A
- Authority
- CN
- China
- Prior art keywords
- address
- character
- model
- module
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 42
- 238000003062 neural network model Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 121
- 238000012549 training Methods 0.000 claims abstract description 106
- 238000000034 method Methods 0.000 claims abstract description 62
- 238000013528 artificial neural network Methods 0.000 claims abstract description 51
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 238000005457 optimization Methods 0.000 claims abstract description 12
- 238000010276 construction Methods 0.000 claims abstract description 11
- 238000012512 characterization method Methods 0.000 claims abstract description 6
- 230000010354 integration Effects 0.000 claims description 29
- 238000009826 distribution Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 27
- 238000003780 insertion Methods 0.000 claims description 23
- 230000037431 insertion Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000000694 effects Effects 0.000 claims description 20
- 230000009466 transformation Effects 0.000 claims description 20
- 238000010606 normalization Methods 0.000 claims description 15
- 244000309464 bull Species 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000003064 k means clustering Methods 0.000 claims description 7
- 230000007704 transition Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000000465 moulding Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000005520 cutting process Methods 0.000 claims description 2
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 210000004218 nerve net Anatomy 0.000 claims description 2
- 210000005036 nerve Anatomy 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 10
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 13
- 238000012360 testing method Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000004321 preservation Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000019771 cognition Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 230000009514 concussion Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007850 degeneration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000006641 stabilisation Effects 0.000 description 2
- 238000011105 stabilization Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Abstract
本发明公开了一种基于深度神经网络模型的地址信息特征抽取方法。本发明利用深度神经网络架构,将文本特征提取、地址规范化建设和语义空间融合等任务转化为可量化的深度神经网络模型构建与训练优化问题。以地址中的字符为基本输入单元,设计语言模型将其向量化表达,再将地名地址规范化建设的关键技术通过神经网络目标任务加以实现。同时考虑到地名地址空间表达特性,提出地址语义‑空间的特征融合方案,设计加权聚类方法与特征融合模型,从自然语言的地址文本中抽取出融合有语义特征和空间特征的融合向量。本发明可实现地址信息的特征内容提取,其结构具备高拓展性,能够统一地址信息任务的解决思路,对于城市建设具有重要意义。
Description
技术领域
本发明涉及GIS(地理信息系统)的地址信息挖掘领域,具体涉及一种基于深度神经网络模型的地址信息特征抽取方法。
背景技术
随着GIS认知与应用能力的不断提升,地址信息逐步成为智慧城市时代的核心资源,其内容中所承载的语义和空间内涵,更是构建智慧城市中地理本体与时空语义框架的基础支撑。让计算机从理解地址文本的角度出发,深度提炼地名地址综合特征并形成数值形式的量化表达,对于融合和理解城市语义与空间内容具有重要的理论价值和实践意义。然而当前以非结构化文本管理或地址编码为核心的理论研究,由于无法深入挖掘文本的特征内涵,导致其在任务处理时面临信息孤岛、附加数据依赖、泛化性弱等突出问题,限制了地址数据在智慧城市领域内的使用。
以深度神经网络为代表的深度学习方法,能充分利用计算机处理性能,具有对非线性问题超强的参数计算和拟合能力。在自然语言领域的研究中,神经网络语言模型以深度神经网络为基础,能够以高维向量的形式去表达字符、词语、语句甚至文章的语义特征。而地名地址作为一种特异化的自然语言,能够很好地与当前语言模型结合,构造出一种符合地名地址语法规则与意义的地名地址语言模型,是实现地址文本语义特征表达的有效途径。
地名地址在城市范围内具有数据量大、空间分布稠密等特点,同时地址文本的语义特征向量维度很高。改进的K-means算法是一种无监督聚类方法,具有逻辑简单、运行效率高、收敛速度快、算法可解释性强、调参数目少、适合大数据和高维度的聚类等特点,聚类数量可参考范围内的功能区分布进行设定,使结果更符合人类逻辑,适合于地址文本的语义-空间融合聚类应用。
随着迁移学习在自然语言领域的深入应用,当前的神经网络语言模型已从神经网络结构设计着手开始支持微调任务的开展,方便使用者基于其通用模型实例进行下游任务的神经网络改造,核心是将已训练好的模型中的神经网络节点迁移到一个新的网络结构中去。相比于传统重新训练模型的方式,该方法在数据要求、训练时间和实践效果等方面都具有显著的优势,使模型输出的结果信息包含微调目标的融合权重,并实现目标任务的求解。
发明内容
本发明的目的是克服现有技术存在的问题,提供一种地址信息特征抽取的深度神经网络模型。
本发明的目的是通过以下技术方案来实现的:
一种基于深度神经网络模型的地址信息特征抽取方法,它包括如下步骤:
S1:构建位置顺序加权的词嵌入模块,用于通过位置编码算法与内置矩阵变量,将输入的地址文本中每个地址字符以唯一值的向量形式表达,实现地址信息从文本到编码的转换;
S2:构建字符编码的特征提取模块,通过多头自注意力机制的语义提取方法,获得字符要素在不同语义空间下的综合语义输出;
S3:构建基于上下文预测未知字符的目标任务模块,在满足地址字符与上下文表征映射关系的条件下,输出训练任务所需的预测字符条件概率分布;
S4:将S1中的词嵌入模块、S2中的特征提取模块以及S3中的目标任务模块顺次连接,形成地名地址语言模型,并采用基于随机屏蔽策略的自然语言训练方案对地名地址语言模型进行训练,使模型能够输出得到地址文本中每个字符的语义特征向量;
S5:综合地址文本中所有字符的语义特征向量,通过地址语义特征的池化方法得到句向量,并结合空间位置信息进行高维加权,通过K-Means聚类方法得到语义-空间融合的聚类结果;
S6:将S4中训练完成的地名地址语言模型中的词嵌入模块和特征提取模块进行移植,构成编码器;基于神经网络微调理论重构目标任务模块形成解码器,用于将S5中的聚类结果作为地址文本标签,对编码器中的神经网络参数变量赋予语义-空间的融合权重;
S7:结合所述的编码器和解码器,构建地址语义-空间融合模型,并对地址语义-空间融合模型进行训练,使模型能够针对地址文本输出语义与空间特征的融合向量表达。
基于上述方案,各步骤可具体采用以下具体方式实现。
优选的,所述的步骤S1中,词嵌入模块中具体的执行流程包括:
S11:创建字典-向量转换矩阵C;
S12:获得输入的地址文本中每个地址字符位于字典中的索引char_index;
S13:根据索引获得每个字符的one-hot向量,向量长度为字典的大小;
S14:将one-hot向量与Lookup Table相乘,得到每个字符的词嵌入值embedding0;
S15:获得每个字符在地址文本中的位置position;
S16:根据位置编码算法,获得每个字符的位置权重向量;每个字符的位置权重向量PW由所有维度的位置权重值组成;
偶数维度的位置权重值为:
奇数维度的位置权重值为:
其中dmodel表示词嵌入embedding0的维度,i表示计算的第i个维度;
S17:将每个字符的位置权重向量与词嵌入值相加,得到每个字符经过位置顺序加权的字符向量化表达内容:
embedding=embedding0+PW。
优选的,所述的步骤S2中,特征提取模块中具体的执行流程包括:
S21:将S1中词嵌入模块输出的字符向量化表达内容输入由多层自转换器子模块串联形成的神经网络中;在每层自转换器子模块中,输入数据首先代入自注意力神经网络,其输出经过残差和归一化计算后,再代入前馈网络层,再经过残差和归一化计算后,作为该自转换器子模块的输出;
S22:除第一层自转换器子模块之外的其余自转换器子模块中,上一层的自转换器子模块的输出作下一层自转换器子模块的输入,层层传递,直至得到最后一层自转换器子模块的输出SAN。
优选的,所述的步骤S3中,目标任务模块中具体的执行流程包括:
S31:将S2中特征提取模块的输出作为前馈网络层的输入,通过非线性变换将其转化为每个字符经过上下文影响后的“修正词嵌入”信息prob_embedding,非线性变换公式为:
prob_embedding=g(W×SA+b)
式中:g()表示ReLu函数,W表示权重矩阵,b表示线性偏置;
S32:将prob_embedding进行线性变换,得到其概率分布得分:
logits=CT×prob_embedding+b′
其中权重矩阵CT为字典-向量转换矩阵C的转置,b′表示线性变换的偏置;
S33:将概率分布得分logits代入到softmax激活函数,最终得到每个字符是字典中各个字的条件概率分布。
prob=softmax(logits)
优选的,所述的步骤S4的具体实现流程包括:
S41:将S1中的词嵌入模块、S2中的特征提取模块以及S3中的目标任务模块顺次连接,形成地名地址语言模型;
S42:构建地名地址语言模型训练框架,训练框架中首先定义基于随机屏蔽策略的自然语言训练方案,然后构造字典以及训练数据的模型输入,再定义损失函数并通过构造神经网络优化器对模型参数变量进行优化;
S43:基于所述训练框架对地名地址语言模型进行训练,使模型能够输出地址文本中每个字符的语义特征向量表达。
进一步的,所述的步骤S42中:
所述的基于随机屏蔽策略的自然语言训练方案具体为:随机屏蔽输入的地址文本句子中部分字符,以屏蔽符号表示;然后将地址文本句子中的部分屏蔽符号替换成真实字符,再将地址文本句子中的部分屏蔽符号替换成错误字符,剩余的屏蔽符号不变;在地名地址语言模型训练过程中,只针对这3种被屏蔽符号替换的字符执行目标任务模块;
所述神经网络优化器中采用学习率衰减、全局梯度裁剪和自适应矩估计算法三种梯度更新优化策略。
优选的,所述的步骤S5的具体实现流程包括:
S51:获取地址文本在所述特征提取模块中最后四层自转换器子模块的输出SAN、SAN-1、SAN-2、SAN-3,分别对SAN、SAN-1、SAN-2、SAN-3进行平均值池化与最大值池化,然后并将池化结果全部相加,获得地址文本的最终语义特征表达sentEmbed0;
S52:分别计算所有地址文本在语义特征向量空间中的欧氏距离极差sent_range和空间特征向量空间中的欧氏距离极差coor_range;
对每个地址文本的语义特征向量sentEmbed0和空间特征向量coorEmbed0进行去量纲操作,并通过设置权值λ对去量纲后的特征向量进行权重分配,得到处理后的语义特征向量sentEmbed和空间特征向量coorEmbed:
coorEmbed=coorEmbed0*(1-λ)
将两种处理后的特征向量直接拼接,最终形成融合特征向量:
concatEmbed={sentEmbed,coorEmbed};
S53:通过K-Means聚类算法,结合Elkan距离计算优化算法、Mini-Batch K-means策略和K-means++聚类中心初始化方案,对所有融合特征向量进行聚类,得到语义-空间融合的聚类结果。
优选的,所述的步骤6的具体实现流程包括:
S61:将S4中训练完成的地名地址语言模型中的词嵌入模块和特征提取模块进行移植,两者连接构成编码器;
S62:重新构建用于对地址文本进行分类的目标任务模块作为解码器,用于通过神经网络对所述编码器的输出生成概率分布;在解码器中,首先对所述编码器中特征提取模块的最后一层自转换器子模块输出SAN做平均值池化,池化结果作为地址句语义特征;然后通过前馈网络层对地址句语义特征进行非线性变换,将语义特征转换为分类问题的概率分布特征,激活函数使用tanh;最后将得到的概率分布特征通过全连接层转换为地址文本的概率得分分布,由softmax函数求得地址文本属于S5中得到的每一个聚类的预测概率分布。
优选的,所述的步骤S7的具体实现流程包括:
S71:将所述的编码器和解码器连接得到地址语义-空间融合模型;
S72:构建地址语义-空间融合模型的训练框架,并基于该训练框架对地址语义-空间融合模型进行训练,使模型能够针对地址文本输出语义与空间特征的融合向量表达。
本发明的另一目的在于提供一种地址文本的地理位置预测方法,其步骤如下:
首先,构建地址空间坐标预测模型;所述地址空间坐标预测模型中包括三层连续的全连接层以及一层线性变换层,按照权利要求1~9所述方法训练得到地址语义-空间融合模型,并将其中特征提取模块的最后一层自转换器子模块的输出SAN经过池化层池化后,依次输入三层连续的全连接层以及一层线性变换层中,输出地址文本所描述的空间实体所在的预测坐标;
然后将待预测地理位置的地址文本输入经过训练的地址空间坐标预测模型中,得到该地址文本所描述的空间实体所在的预测坐标。
本发明与现有技术相比具有有益效果:
(1)本发明利用现代人工智能方法优越的拟合与计算能力,将地址文本的特征表达任务转换为深度神经网络的结构设计与训练问题,革新了地址信息的研究方法,为地名地址数据的处理和应用提供新的思路。而现有技术尚未有关于地址文本特征提取的相关研究。
(2)本发明结合多头自注意力机制、位置加权算法、未知字符预测任务设计了地名地址语言模型ALM。模型结构与训练框架完善且具有自调整能力,可实现模型参数变量的精准拟合与高效计算,对地名地址语义特征进行高效提取。
(3)本发明复用ALM结构及相关神经网络输出,设计地址文本句向量表达,引入K-Means聚类理论,提出了地址信息的高维聚类融合方法,改进传统空间聚类无法概括地址语义的弊端,实现语义-空间加权的地址元素分割;同时参考深度神经网络模型微调理论,设计地址语义-空间融合模型GSAM,以聚类结果为导向开展模型的目标任务实现,使其具备两者特征的综合概括能力。
附图说明
图1为本发明的基于深度神经网络模型的地址信息特征抽取方法流程图;
图2为特征提取模块的结构图;
图3为本发明地名地址语言模型(ALM)结构图;
图4为本发明地址语义-空间融合模型(GSAM)结构图;
图5为本发明地址元素语义-空间加权聚类结果(语义权重0.4/空间权重0.6);
图6为地址空间坐标预测模型结构图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
地址文本及其对应的空间位置是城市建设的基础,对地址信息进行统一建模并以数值结果输出,有助于下游任务的统一化开展,降低业务的复杂性。然而地址文本是一种特异化的自然语言文本,其无法直接被计算机所理解,需要利用语言模型抽取出其中有用的特征信息。语言模型的本质是衡量一个句子出现的可能性,核心思想是根据句子里前面的一系列前导单词预测后面跟上哪个单词的概率分布。针对现有地名地址研究中存在的信息特征表达不充分、数据建设工作不深入、应用场景局限的困境,本发明的构思是:综合利用人工智能方法的深度神经网络架构,将文本特征提取、地址规范化建设和语义空间融合等任务转化为可量化的深度神经网络模型构建与训练优化问题。以地址中的字符为基本输入单元,设计语言模型将其向量化表达。在此基础上,将地名地址规范化建设的关键技术通过神经网络目标任务加以实现。同时考虑到地名地址空间表达特性,提出地址语义-空间的特征融合方案,设计加权聚类方法与特征融合模型,该模型的目的是从自然语言的地址文本中抽取出融合有语义特征和空间特征的融合向量。下面本发明对技术方案进行具体描述。
如图1所示,一种基于深度神经网络模型的地址信息特征抽取方法,包括以下步骤:
S1:构建位置顺序加权的词嵌入模块,用于通过位置编码算法与内置矩阵变量,将输入的地址文本中每个地址字符以唯一值的向量形式表达,实现地址信息从文本到编码的转换;
S2:构建字符编码的特征提取模块,通过多头自注意力机制的语义提取方法,获得字符要素在不同语义空间下的综合语义输出;
S3:构建基于上下文预测未知字符的目标任务模块,在满足地址字符与上下文表征映射关系的条件下,输出训练任务所需的预测字符条件概率分布;
S4:将S1中的词嵌入模块、S2中的特征提取模块以及S3中的目标任务模块顺次连接,形成地名地址语言模型(ALM),并采用基于随机屏蔽策略的自然语言训练方案对地名地址语言模型进行训练,使模型能够输出得到地址文本中每个字符的语义特征向量;
S5:综合地址文本中所有字符的语义特征向量,通过地址语义特征的池化方法得到句向量,并结合空间位置信息进行高维加权,通过K-Means聚类方法得到语义-空间融合的聚类结果;
S6:将S4中训练完成的地名地址语言模型中的词嵌入模块和特征提取模块进行移植,构成编码器;基于神经网络微调理论重构目标任务模块形成解码器,用于将S5中的聚类结果作为地址文本标签,对编码器中的神经网络参数变量赋予语义-空间的融合权重;
S7:结合所述的编码器和解码器,构建地址语义-空间融合模型(GSAM),并对地址语义-空间融合模型进行训练,使模型能够针对地址文本输出语义与空间特征的融合向量表达。
下面对于前述步骤在本发明中的具体实现过程进行详细阐述。
字符向量化表达是模型的基础,字符初始化表达所涵盖的信息决定了后续网络开展的效果,传统的词嵌入没有位置信息的权重,会导致在语义特征提取时每个字对目标字符的影响与位置无关的结果,这与人脑对于文本的理解并不符合,因此需要嵌入位置信息。本发明通过步骤S1的词嵌入模块来实现,下面具体展开描述在步骤S1中词嵌入模块中具体的执行流程如下:
S11:创建字典-向量转换矩阵(Lookup Table)C。
S12:获得输入的地址文本中每个地址字符位于字典中的索引char_index。
S13:根据索引获得每个字符的one-hot向量,向量长度为字典的大小:
S14:将one-hot向量与Lookup Table相乘,得到每个字符的词嵌入值embedding0:
embedding0=C×one_hot
S15:获得每个字符在地址文本中的位置position;position代表了该字符在地址文本中的字符序数。
S16:根据位置编码算法,获得每个字符的位置权重向量;每个字符的位置权重向量PW由所有维度的位置权重值组成,因此需要计算每一个维度的权重值后组合形成PW。奇数维度与偶数维度的计算公式不同,分别如下:
偶数维度的位置权重值为:
奇数维度的位置权重值为:
其中dmodel表示词嵌入embedding0的维度,i表示计算的第i个维度。每个字符的PW的维度与embedding0维度保持一致。
S17:将每个字符的位置权重向量与词嵌入值相加,得到每个字符经过位置顺序加权的字符向量化表达内容:
embedding=embedding0+PW。
由此可见,在步骤S1中构建的词嵌入模块,不仅可以实现字符位置顺序的加权,还考虑了字符之间的相对位置,更有利于后续的网络展开。词嵌入模块提取的字符向量化表达信息需要在S2的特征提取模块进行特征向量提取。特征提取模块能够深入挖掘字符所处语言环境,实现字符语义的提炼,将语义特征以数值向量形式输出。本发明中,特征提取模块基于多头自注意力机制来构建语言模型的语义特征深度神经网络结构,以实现地址文本语义化精确表述。
在步骤S2中,特征提取模块中具体的执行流程如下:
S21:将S1中词嵌入模块输出的字符向量化表达内容输入由多层自转换器(Self-Transformer)子模块串联形成的神经网络中。在每层自转换器子模块中,输入数据首先代入自注意力神经网络,其输出经过残差和归一化计算后,再代入前馈网络层,再经过残差和归一化计算后,作为该自转换器子模块的输出。
S22:除第一层自转换器子模块之外的其余自转换器子模块中,上一层的自转换器子模块的输出作下一层自转换器子模块的输入,层层传递,直至得到最后一层自转换器子模块的输出SAN。
由此可见,在特征提取模块中核心是自转换器子模块。为了更清楚解释每个自转换器子模块的实现,下面对其具体的结构进行详细描述。根据前述的描述,每个自转换器子模块中实际封装有多头自注意力神经网络框架层、残差网络-批归一化层、前馈网络层、残差网络-批归一化层,下面逐个进行阐述。
(1)构建文本自注意力(self-attention)神经网络框架。
自注意力的本质来源于人类视觉观察文本的注意力机制,以文本中的特定字符为例,人类理解它的语义需要参考它与其他字符的相互联系,因此自注意力机制的具体实现思路可以表示为:将句中所有字符对于该字的影响赋予权重,通过权重与字符本身内容结合,来综合确定该字的语义特征。
地址文本的本质是一个描述地址的句子,句子中每个字符表示为3个特征向量,分别为Query(Q),Key(K),Value(V),他们由字符的词嵌入向量X乘以三个权重矩阵WQ,WK,WV算得,权重矩阵则通过神经网络训练得到。字符l的attention内容的计算流程如下:
首先,由步骤S1中词嵌入模块可以获得输入句子的所有字符词嵌入向量,计算得到每个字符的Q,K,V向量q,k,v。
计算l与所有字符的得分。
score1=ql·k1,score2=ql·k2,...,scoren=ql·kn
为了训练时梯度的稳定,将得分值进行归一化,其中dk是表示向量k的维度:
对所有得分值进行softmax归一化输出:
score=softmax(score)
将每个得分值点乘对应的v向量,得到每个字符对于该字的加权评价:
eva=score·v
将所有字符对于该字的加权评价相加,得到该字的语义特征表达:
在实际过程中,上述计算过程均由矩阵操作完成,可表达为:
Q=WQ×embedding
K=WK×embedding
V=WV×embedding
然而该方法只能获得一种语义空间的信息,在此基础之上发展而来的多头自注意力机制(Mutli-head self-attention)则是将原本只映射一次的特征向量进行了多次映射,得到多个语义子空间下的Q,K,V,再分别对其进行注意力取值操作,并将结果进行拼接,最终得到字符综合语义空间下的self-attention表达。
将上述多头自注意力方法封装成单个神经网络层,称之为多头自注意力神经网络框架层(MSA layer),为了更好地提升语义特征提取效果,本发明采用多个MSA layer以层层叠加的形式进行地址语义的提取。
(2)残差网络-批归一化层
由于输出的语义SA的实际意义是全文字符对于每个字符的影响,其计算过程难免存在语义提取的误差,若单以此表达字符语义,则随着网络层数的增加,低层特征传到高层时会发生信息丢失的情况,误差也会随之逐级递增,出现语义表达的退化(degradation)现象。为避免MSA layer之间信息传递的语义退化,引入残差网络层神经网络结构,MSA layer的输出需要在残差网络-批归一化层中经过残差和归一化计算。以第l层的多头注意力层的输出为例,核心思想表示为如下公式:
SAl=SAl-1+F(SAl-1)
SA0=X
SAl-1表示上一层的输出,F函数表示多头注意力的处理方法,其中SA0为初始传入的词嵌入信息。在每一个MSA layer输出后对上一层信息相加,融合自注意力语义和文本嵌入信息,同时对结果进行批归一化(Batch Normailize,BN)操作,方便结果信息传递后的下一步计算,避免训练时的梯度消失(多步反向传播导致误差梯度趋于0的情况)。
(3)前馈网络层
同时由于输出结果是自注意力头计算得到的向量拼接结果,会存在数据空间无序的问题,因此需通过一个前馈网络层(全连接神经网络)并辅以激活函数ReLU对该结果进行非线性变换,使语义以顺序且有意义的形式输出。随后将输出结果再输入残差网络-批归一化层进行一次残差与归一化操作。
因此,在本发明中由MSA layer-残差网络-批归一化层-前馈网络层-残差网络-批归一化层组合成自转换器子模块(Self-Transformer Moudule)。最终神经网络结构由多个Self-Transformer Moudule顺序叠加而成,其整体结构如图2所示。
目标任务模块(Target Module)紧接在语义特征提取模块之后,在本发明中可以理解为,该模块的输入即为Self-Transformer Module叠加后的输出,已知该输入包含了句子中每一字符的语义特征信息。
基于以上条件,本发明中提出了基于上下文预测未知字符的目标任务,其具体内容为:
假设句子中的某一字符未知,其他上下文可知。
W={w1,w2,...,wi-1,wi(unknow),wi+1,...,wn}
式中:wj表示地址文本的句子中第j个字符(j≠i),wi(unknow)表示地址文本的句子中第i个字符为未知字符。
通过已知上下文,预测该未知字符的出现概率,写为如下条件概率表达:
P(xi|x1,x2,...xi-1,xi+1,...,xn)
将地址文本内容代入至前述的词嵌入模块和特征提取模块中,得到最终字符上下文语义特征信息:
SA={sa1,sa2,...,sai-1,sai,sai+1,...san}
sai表达的是上下文作用于字符xi的权重,此处可用sai表达全文对该字符的影响,则可将条件概率表达式作如下近似:
P(xi|x1,x2,...xi-1,xi+1,...,xn)≈P(xi|sai)
基于该目标任务,本发明设计了基于上下文预测字符的目标任务神经网络结构。步骤S3中,目标任务模块中具体的执行流程如下:
S31:将S2中特征提取模块的输出作为前馈网络层(Feed Forward)的输入,通过非线性变换将其转化为每个字符经过上下文影响后的“修正词嵌入”信息prob_embedding,为之后基于Lookup Table计算字符概率做准备。非线性变换公式为:
prob_embedding=g(W×SA+b)
式中:g()表示ReLu函数,W表示权重矩阵,b表示线性偏置;
S32:构建全连接层,将prob_embedding进行线性变换,实现“修正词嵌入”到概率分布得分的线性变换,得到其概率分布得分:
logits=CT×prob_embedding+b′
其中权重矩阵CT为字典-向量转换矩阵C的转置,b′表示线性变换的偏置;
S33:将概率分布得分logits代入到softmax激活函数,最终得到每个字符是字典中各个字的条件概率分布。
prob=softmax(logits)
该目标任务模块的优点在于兼顾了字符的上下文语义,且符合语义特征提取模块实现的单词-上下文表征的映射关系。
完成上述三个模块的构建后,即可进行地名地址语言模型(Address LanguageModel,ALM)的构建和训练。在本发明中,步骤S4的具体实现流程包括:
S41:将S1中的词嵌入模块、S2中的特征提取模块以及S3中的目标任务模块顺次连接,形成地名地址语言模型ALM的完整结构,如图3所示。
S42:构建地名地址语言模型训练框架,训练框架中首先定义基于随机屏蔽策略的自然语言训练方案,然后构造字典以及训练数据的模型输入,再定义损失函数并通过构造神经网络优化器对模型参数变量进行优化。神经网络的训练框架可以根据实际需要进行调整,现有技术中也存在大量的可实现方式,为了便于理解,本发明中对其具体的实现方式进行示例性展开。
(1)定义随机屏蔽策略的自然语言训练方案
基于随机屏蔽策略的自然语言训练方案设计为:随机屏蔽输入的地址文本句子中部分字符,以屏蔽符号表示。屏蔽符号是指不会正常出现在地名地址文本中的字符,可根据需要进行选择。然后将地址文本句子中的部分屏蔽符号替换成真实字符,再将地址文本句子中的部分屏蔽符号替换成错误字符,剩余的屏蔽符号不变。然而屏蔽符号字符会对其他字符产生影响,若屏蔽太多字符,在语义特征提取时屏蔽符号的作用会造成其他内容的注意力计算偏差;而若每句文本只屏蔽一个字符,则会使模型训练所需步数急剧增加,造成严重的时间浪费。因此,屏蔽符号的具体数量需要根据实际进行调整优化。
为了方便操作且避免计算时的无用开销,训练时语言模型目标任务模块并不会对语义特征提取模块输出的所有信息进行计算,而只提取需要进行条件概率计算的字符位置处的神经元输出。因此,在地名地址语言模型训练过程中,只针对这3种被屏蔽符号替换的字符(包括依然是屏蔽符号的字符,以及被替换成屏蔽符号后由以其他字符替换的字符)执行目标任务模块。
为了便于理解,此处以“浙江省杭州市上城区复兴南街清怡花苑6幢3单元402室”这一地址文本为例,说明具体实现过程。
首先,随机屏蔽输入句子中15%的字符,以“mask”单词表示,由于该单词不会正常出现在地名地址文本中,所以不会对真实字符产生干扰,可以理解为完形填空中的“空格”表达,替换位置以下划线表示,如:
浙江mask杭州市上城区mask兴南街清怡mask苑6幢3单元402室
浙mask省杭州市上城区望mask家园东苑18栋3单mask601室
此外,考虑到后续任务的开展及模型的鲁棒性,对屏蔽字符中10%的mask替换成真实的字符,10%的mask内容替换成错误字符,如:
80%:浙江省杭州市上mask区复兴南街清怡花苑6幢3单元402室
10%:浙江省杭州市上城区复兴南街清怡花苑6幢3单元402室
10%:浙江省杭州市上清区复兴南街清怡花苑6幢3单元402室
在ALM的实际训练过程中,不对所有的字符自注意力语义信息SA进行目标任务的概率统计计算,只针对上述3种被替换的字符执行目标任务操作。
(2)构造模型输入
模型输入分为字典构造和输入数据构造。
字典为模型涉及到的所有字符提供查找依据,其结构为<索引序号(key)>到<字符(value)>的键值对序列,可通过遍历所有地址的文本内容得到。此外,需新构造两个键值对,其value分别为mask和OOV(out of vocabulary),用以表示文本中的空格和字典外的字符。
本发明中需预先收集地址文本数据集作为构建训练数据的基础。训练数据是原始地名地址文本经过处理后,能够被训练框架识别的输入。在构造训练数据时,直接将字符转化为对应的字典索引号,将句子以整型向量的形式表示,其形状可表示为:
inputData(batch_size,setence_size,embedding_size)
其中batch_size表示每次训练时,执行小批量梯度下降的样本大小;sentence_size为句子长度,embedding_size为词嵌入向量的长度。为保证句子长度一致,采用后位补齐(padding)方法,首先求得数据中的最大句子长度,若构造训练样本的句子小于该最大长度,则在后面补上索引号0。
此外,被屏蔽字符的位置信息、被屏蔽字符内容和所有字符顺序,也通过上述方法构造向量,一并作为训练时的输入数据传入。
(3)定义损失函数
根据ALM输出,获得mask位置上下文语义的预测字符的条件概率分布P(X|SAi),训练目标是使其对应字符字典索引序号处的条件概率趋近于1,即为P(xi|SAi)→1,该函数仅针对单个mask进行表达,在实际模型训练过程中的输出是矩阵形式,其形状为prob(batch_size,max_mask_size,voc_size),同时模型训练的输入也包含了相应句子中mask对应的正确信息true_ids(batch_size,max_mask_size),通过的gather切片操作,以true_ids的值作为prob的索引进行内容查找,获得预测正确字符的条件概率矩阵true_prob:
true_prob(batch_size,max_mask_size)=gather(prob,true_ids)
若true_ids中包含0元素,则其对应true_prob元素的值也设置为0。
将true_prob转换为对数概率,取值区间为(-∞,0]:
true_prob=log(true_prob)
训练框架下的目标函数,即将true_prob中的所有非零元素相加后取平均值,使得结果尽可能趋近于0:
将true_prob中所有非零元素相加后取平均值的负数,得到损失函数定义:
(4)超参数确定
本实施例中,超参数包括训练样本大小batch_size、学习率η、训练轮数epoch、字典大小voc_size、最大句子长度max_sentence_size、最大屏蔽字数量max_mask_size、词嵌入长度embedding_size、语义特征提取模块数量num_self_transformer_module、自注意力头数量attention_head_size等等。需要根据数据内容、体量、硬件资源,综合确定模型训练时的超参数取值。
(5)构造神经网络优化器(Optimizer)
神经网络优化器是对梯度下降方法和梯度更新操作的具体实现,用来更新模型内部的神经网络参数变量,使其逼近或达到最优值,从而使损失函数结果最小。本实施例中可引入学习率衰减(learning rate decay)、全局梯度裁剪(clip by global norm)和自适应矩估计算法(adaptive moment estimation,Adam)三种梯度更新优化策略。
S43:构建完上述训练框架后,即可基于该框架和相应的训练数据,对地名地址语言模型进行训练,使模型能够输出地址文本中每个字符的语义特征向量表达。
(6)ALM模型语义输出
模型经过训练后所有内部参数变量均已实现对目标函数的拟合,从前述ALM的特征提取模块构建可知,特征提取模块的输出是每个字符的语义特征向量,即为本发明所要获得的地名地址语义特征表达。
通过训练后的ALM模型能够获得任意地址数据的每一个字符的语义向量。在此基础上,句子语义向量作为整句话语义特征的综合表达,本发明对其进行如下定义:在涉及到模型参数变量调整的优化任务中,地址句语义特征是地址文本中所有字符的语义向量的总和取平均。地址句语义特征可表示为如下公式:
式中:n为地址本文中的字符总数。
人脑对于地址文本存在空间特征联想,即在回答地址相关的问题时,会对该地址的坐落区域产生大致印象,这与传统自然语言的思考方式有本质区别。前述的ALM语义特征输出,能够捕获地址文本中的字符语义关系并以向量形式输出,但尚未融合空间语义特征,因此需要进一步设计符合人类思维的地址空间区域为目标,对地址语义和空间的加权聚类方法。
在本发明中,地址语义和空间的加权聚类通过步骤S5来实现,其具体实现流程如下:
S51:获取地址文本在所述特征提取模块中最后四层自转换器子模块的输出SAN、SAN-1、SAN-2、SAN-3,分别对SAN、SAN-1、SAN-2、SAN-3进行平均值池化(average pooling)与最大值池化(max pooling)。对整句文本求值,假设句子的长度为L,字符语义特征数量为S,字符内容以L×S的二维数组存储charEmbed[L,S]:
avg_sentEmbed[i]=avg(charEmbed[0:L][i])
max_sentEmbed[i]=max(charEmbed[0:L][i])
where:i∈[0,S-1]
平均值池化照顾到了句子包含的所有字符信息,而最大值池化则重点照顾句子中的关键字符及显著表征,为了兼顾以上优点,本发明融合了这两种池化方法,分别将平均值池化和最大值池化所得的地址文本表征相加,最终得到与字向量长度相同的句向量表达:
sentEmbed=avg_sentEmbed+max_sentEmbed
同时ALM结构中包含多个Self-Transformer Module,每一层输出求得的句向量均包含不同侧重方向的语义信息,通过与ALM结构相似的BERT语言模型相关研究发现,其encoder(BERT语言模型中的语义提取模块)的输出在命名实体识别任务中具有如下表现:最后四层的向量连接>最后四层向量相加>其他,然而在本发明中连接操作会造成维度灾难。因此采用最后四层Self-Transformer Module池化结果sentEmbed相加的方式获得最终地址文本的向量表达,也就是说本发明中将最后四层输出的两种池化结果(共8个结果)全部相加,获得地址文本的最终语义特征表达sentEmbed0。
S52:将每个地址文本的语义句向量和空间作为特征信息,对两者进行融合:
为了统一标准,采用欧氏距离作为地址信息中语义与空间特征的差异度量单位。分别计算所有地址文本在语义特征向量空间中的欧氏距离极差sent_range和空间特征向量空间中的欧氏距离极差coor_range。假设文本语义特征数量为S,地址数据集合为D,可表达为如下等式:
将两者极差值相除,即可近似求得其数量级之间的比值,实现两者特征的去量纲操作,且为了突出地址信息的某种特征,可对去量纲后的特征向量进行权重分配(此处λ表示权重),得到处理后的语义特征向量sentEmbed和空间特征向量coorEmbed:
coorEmbed=coorEmbed*(1-λ)
将两种特征向量直接拼接,最终形成一个S+2长度的融合特征向量是:
concatEmbed={sentEmbed,coorEmbed}
语义特征和空间特征之间的权重λ,会改变最终融合向量的应用效果。总的来说,语义特征和空间特征存在相互制约的关系:语义权重设置过大会导致空间距离很远的地址元素仍具有同样的类别,造成聚类的空间离散,进而会降低后续GSAM模型的空间精确性;而空间权重过大则会丢失地址的语义信息,使聚类丧失了对城市功能区块的划分能力,从而造成不符合人类认知的结果,进而降低了GSAM模型对于地址文本的语义理解能力。
S53:通过K-Means聚类算法,对所有地址文本的融合特征向量进行聚类,得到语义-空间融合的聚类结果。为了提高聚类的性能,本发明采用了Elkan的距离计算优化算法,该算法以聚类中心之间的距离作为三角形的一条边,通过三角不等式来简化聚类的计算流程,以减少不必要的距离计算。同时,还使用了K-Means的变体Mini-Batch K-Means来提高聚类速度。Mini-Batch K-Means采用随机抽取小批量数据子集的方式以减小计算时间,相比于传统K-Means需要对所有元素进行计算后才更新聚类中心,其在每次迭代操作时,只随机选取指定样本大小的元素集合,再根据集合中的元素来更新聚类中心。除此之外,由于K-Means目标函数存在局部极小值点,算法容易陷入局部最优解,为了使聚类结果尽量接近全局最优解,聚类中心的初始化显得尤为关键。本发明使用了Arthur and Vassilvitskii(2007)提出的K-Means++聚类中心初始化方案,进行聚类结果的误差改善。该算法的核心思想是在初始化聚类中心时,让聚类中心之间的距离尽可能远。
在得到地址文本语义与空间融合的聚类结果后,将每条地名地址文本Wi赋予聚类结果标签Bi,分别得到地址文本与分类标签数据集W{W1,W2,W3,…},B{B1,B2,B3,…},在此基础上可以后续定义新的神经网络结构目标任务,即对每条地址文本的聚类结果进行正确预测,并以W和B作为实验数据,进行迁移学习模型和训练框架的设计,构建具有融合特征提取能力的地址语义-空间融合模型(Geospatial-Semantic Address Model,GSAM)。
下面以实现ALM的语义-空间融合为目标,从神经网络语言模型的微调理论出发,在步骤S6中构建GSAM模型,具体的执行流程如下:
S61:将S4中训练完成的地名地址语言模型中的词嵌入模块和特征提取模块进行移植(复用ALM结构),两者连接构成编码器。移植过程中,神经网络参数变量均保持不变。
因此在该GSAM模型的编码器中,词嵌入模块和特征提取模块是与ALM模型一致的,其特征提取模块的每一层自转换器子模块均可输出对应的语义特征变量。但原来的目标任务模块无法实现地址文本分类的目标,因此需要通过下述步骤重新构建地址文本分类器。
S62:重新构建用于对地址文本进行分类的目标任务模块作为解码器,用于通过神经网络对所述编码器的输出生成概率分布。在解码器中具体的执行流程为:
首先对所述编码器中特征提取模块的最后一层自转换器子模块输出SAN做平均值池化,池化结果作为地址句语义特征。
然后通过前馈网络层对地址句语义特征进行非线性变换,将语义特征转换为分类问题的概率分布特征,并保留输入的语义特征数量S,输出的概率分布特征数量仍为S,激活函数使用tanh。该函数的输出梯度区间为(-1,1),相比于ReLU中会把负梯度置零的缺点,它可以尽可能地保留神经元的激活状态,虽然收敛效果不如ReLU,但此处由于目标任务的网络结构较为简单,且该层已靠近模型的最终输出层,因此以此为激活函数具有更好的效果。
随后将得到的概率分布特征通过全连接层将其转换为地址文本的概率得分分布。其中神经元的权值矩阵与偏置均为训练参数变量,以随机的方式进行初始化赋值。
最后将概率得分分布得分代入softmax函数,得到地址文本属于每一个聚类(聚类类别在S5中得到)的预测概率分布P(B|W)。
利用上述编码器和解码器,即可构建地址语义-空间融合模型(其结构如图4所示),并结合其目标任务制定地址文本分类的模型训练框架。其具体通过步骤S7实现,具体的执行流程如下:
S71:将上述编码器和解码器连接,得到地址语义-空间融合模型GSAM的完整结构。
S72:构建地址语义-空间融合模型的训练框架,并基于该训练框架对地址语义-空间融合模型进行训练,使模型能够针对地址文本输出语义与空间特征的融合向量表达。
地址语义-空间融合模型的训练框架如下:
(1)模型输入与超参数构造
训练数据输入包括地址文本数据集及与其对应的聚类标签,其中文本数据集用于训练时的输入,聚类标签则代表模型输出的概率分布中应正确对应的索引值,是评判模型好坏的监督依据。同时由于地址文本中数字与空间位置相关,因此不能忽略,需要将文本数据中出现的数字加入字典,同时移植的ALM模型实例的神经网络参数也应是未替换成NUM的模型训练结果。
训练时超参数与前述的ALM模型类似,包括训练样本大小batch_size、学习率η、字典大小、分类标签数量num_labels、训练轮数epoch、测试间隔步数train_interval;另外,还包括最大句子长度max_sentence_size、词嵌入长度(特征数量)embedding_size、语义特征提取模块数量num_self_transformer_module和自注意力头数量attention_head_size,这几个超参数均是ALM训练时的超参数,此处与移植的参数变量所在ALM模型实例严格保持一致。
(2)定义最大化预测分类概率的训练方案,将地址文本通过模型输出后的正确标签概率变得尽可能大,从而使模型内部的参数变量向着正确分类结果不断拟合。
(3)定义模型训练的损失函数。
每次训练的地址文本数量为batch_size,模型的概率输出为prob(batch_size,num_labels),结合样本的真实标签序列B(batch_size),获得每一条样本的真实标签概率:
true_prob(batch_size)=gather(prob,B)
通过概率的对数值相加后取平均值,可得到训练框架中的目标函数表达:
通过概率的对数值相加后取平均负值,可得到训练任务的损失函数表达:
(4)结合模型训练框架与输入的训练数据,对GSAM模型展开训练。获得训练完毕的GSAM模型后,可以将地址文本输入该模型中,输出语义-空间特征的融合向量表达。在该输出的融合向量中,即含有语义特征,又含有空间特征,具有语义-空间的融合属性,此类融合向量具有广泛的应用场景,可以用于构建各类地名地址空间下游任务。
下面基于该上述方法,将其应用至实施例1中,以直观展示其技术效果。
实施例1
本实施例中,以杭州市上城区200百万条地名地址数据构建成地址文本数据集,对其进行特征向量抽取。其基本步骤如前述的S1~S7所述,不再赘述,下面主要对各步骤的一些具体实现细节和效果进行展示。
1、根据步骤S1~S7中描述的方法,使用TensorFlow深度学习框架构建ALM和GSAM,同时设置模型的保存点,保存除目标任务模块以外的神经网络参数变量,方便接下来微调任务中的移植;模型的超参数通过hype-para.config配置文件进行设定,其中具体内容主要包括如下几类:
1)训练样本大小batch_size:64;2)初始学习率η:0.00005;3)训练轮数epoch:3;4)字典大小voc_size:4587;5)最大句子长度max_sentence_size:52;6)最大屏蔽字数量max_mask_size:7;7)词嵌入长度embedding_size:768;8)语义特征提取模块数量num_self_transformer_module:6至12;9)自注意力头数量attention_head_size:12;10)分类标签数量num_labels:500;11)测试间隔步数train_interval:500
2、针对杭州市上城区地名地址的文本内容,构建相关字典,并根据ALM训练数据的构造方法生成随机屏蔽结果,将其中1%,即两万条内容作为测试集,剩余作为训练集。
3、开展杭州市上城区地址数据的ALM实例训练,每隔500步保存模型实例,并对验证集进行一次验证,同时利用TensorBoard插件绘制训练梯度曲线和测试梯度曲线,判断模型是否存在过拟合或欠拟合,最终选取验证准确率最高的保存点作为模型生成结果,其中特征提取模块中Self-Transformer子模块的输出即为地址文本的语义特征向量。以语义特征提取模块数量作为变量,分别设置为6、8、10、12进行模型实例的训练,对比指标如下表:
四类模型实例最终验证的准确度均在90.5%左右,按语义模块数量的顺序依次递增,平均损失值与准确度呈现负相关趋势。从训练模型得到的损失值来看,验证数据集损失值与之相差很小,因此基本可以判断上述四个模型均未出现过拟合及欠拟合的情况。在训练耗时方面,随着模块数量的增加,训练时长也相应增加,然而即使消耗时间最长的模型,在实际训练中带来的负担也仍在可接受范围之内。同时,语义提取模块的增加能更好地提升模型对于地址文本语义特征的提取能力,使各层模块的语义输出更具线性。综合上述各指标情况,判定12个提取模块能够给模型带来最好的目标任务结果和语义特征提取效果;
4、根据前述的聚类方式,对地址文本的语义特征句向量和空间坐标信息开展融合聚类,以城市功能区块划分为依据设定聚类数量为500,通过调整语义特征向量和空间特征向量的权重进行聚类实验和对比,最终发现该实验室数据在语义特征向量权重0.4和空间特征向量权重0.6的权重分配模式下(即λ为0.4),聚类的结果如图5所示,该结果最符合人类认知。记录此时地址文本的聚类结果标签,与地址文本建立关联。
5、将第三步得到保存点中的神经网络参数变量移植到GSAM模型中,构建验证集与测试集(不屏蔽地址内容,包含文本所有字符序号的整型向量),数据集内容包含地址文本信息和聚类标签结果,比例依然保持1%(不少于1万条)与99%。
6、以最大化预测分类概率为目标,开展杭州市上城区地址数据的GSAM模型实例训练,每隔500步保存模型实例,并对验证集进行一次验证,绘制训练梯度曲线和测试梯度曲线,判断模型是否存在过拟合或欠拟合,最终选取验证F1值最高的保存点作为模型生成结果。其中特征提取模块中Self-Transformer子模块的输出即为地址文本的语义-空间融合特征向量。从训练数据集的梯度曲线变化来看,模型实例的损失值在20k步前有着较快的下降趋势,随后下降过程变缓并存在小幅度的局部震荡,直至100k步后逐渐平稳,损失值保持在0.18到0.01之间反复震荡,经过平滑后基本在0.08到0.05的区间内,因此可以认为GSAM实例此时已达到训练要求。验证集与训练集的损失梯度曲线状态几乎保持一致,仍是“快速下降-缓慢下降-平稳震荡”的趋势表达。然而在稳定后的损失值方面,验证集则是在0.1293到0.1271之间,与测试集曲线中心有着一定差距,可知模型实例在训练时存在轻微的过拟合现象,需要在100k之后综合考虑测试数据的评价指标曲线,从而选取最优的训练状态点作为模型的生成实例。验证指标的曲线变化是损失曲线的负相关表达,其在训练早期呈快速上升趋势,精确率、宏F1(Macro-F1)分类性能在20k步时分别达到了0.9457,0.9308和0.9458,随后开始缓慢上升,直到100k到120k之间时,三者的指标区间分别稳定在0.9696-0.9711,0.9593-0.9614和0.9698-0.9711之间,其中伴随着小幅度震荡,由于上述三个区间的范围已经很小,因此可认为此时模型已经达到了训练要求,从中取一个较好的步长点作为模型的生成实例。综合以上情况,实验决定在保证模型训练效果的范围内,尽可能降低模型训练集与验证集的过拟合差距,且在该段范围内的验证指标曲线已经稳定,因此不会对模型效果造成太大影响,最终实验选取115.5k时的模型实例保存点作为模型的生成实例GSAM_Format,训练集和测试集的损失值分别为0.128和0.1176,此时的验证精确率、宏F1值及微F1值分别为0.9706,0.9607和0.9710。从GSAM_Format对目标任务的分类效果来看,验证集的三项指标均达到了0.96以上,说明该模型实例能够很好地实现聚类结果的标签识别,因此可认为其已具备高效精确的分类能力;从模型结构上进行分析,其特征提取模块通过训练,能够输出包含语义-空间的融合特征,可为地址相关的下游工程提供支撑。而且,GSAM能对地址文本中的数字赋予聚类粒度的空间特征,其输出的地址文本能够以语义-空间融合特征的形式进行表达,这是ALM及其他自然语言模型所不具备的。
下面通过另一实施例,给出基于该方法提取的融合向量开展的一种下游任务实现方式,以便于本领域技术人员更好地理解。
实施例2
本实施例中提供了一种地址文本的地理位置预测方法,该方法的目的是实现地址文本中提到的地点名称与其对应的空间坐标之间的关联,构建两者的联合表达方式,即“基于地址文本内容预测文档中提及的空间实体的坐标”。
本实施例中地址文本的地理位置预测方法的具体步骤如下:
首先,构建地址空间坐标预测模型;所述地址空间坐标预测模型中包括三层连续的全连接层以及一层线性变换层,按照S1~S7所述方法训练得到地址语义-空间融合模型,并将其中特征提取模块的最后一层自转换器子模块的输出SAN经过池化层池化后,依次输入三层连续的全连接层以及一层线性变换层中,输出地址文本所描述的空间实体所在的预测坐标。模型整体结构如图6所示。
然后将待预测地理位置的地址文本输入经过训练的地址空间坐标预测模型中,得到该地址文本所描述的空间实体所在的预测坐标。
该模型通过设置三个全连接层作为目标任务模块的隐藏层,并将结果经过线性变换,实现预测坐标的二值输出,该模块的输入则为GSAM模型中的特征提取模块输出。实现过程中,按照前述的S1~S7及实施例1中描述的方法,构建并训练GSAM模型(GSAM_Format),然后将其中特征提取模块的最后一层自转换器子模块的输出SAN经过池化层池化后,依次输入三层连续的全连接层,使模型能够保留更多语义-空间到坐标转换时的关联信息,使用ReLU作为激活函数以保证在训练时的收敛效果。最后一层的神经元输出结果已具有预测坐标的特征,但特征数量与空间坐标的维度并不匹配,因此需经过线性变换层实现降维操作,输出结果即为地址文本所描述的空间实体所在的预测坐标
该地址空间坐标预测模型需要进行训练后,才能够用于预测工作。但需要注意的是,在训练时需要对GSAM模型中的编码器部分变量参数,即任务目标模块之前的神经网络参数Frozen While Training,即进行冻结,在执行反向传播时不对上述参数变量进行梯度下降操作。
模型输入与超参数构造:
训练数据输入包括地址文本数据集及与其对应的真实坐标信息,其中文本数据集用于训练时的输入,真实坐标信息则用于评价模型输出的预测坐标,是指导模型训练时梯度下降的数值依据。同时由于模型中的特征提取模块迁移自训练得到的GSAM模型实例,因此需获取GSAM实例对相关神经网络参数变量进行赋值,训练时的字典也与该模型实例保持一致。
训练时超参数的定义与赋值如下:
(1)训练样本大小batch_size:64。
(2)学习率η:1×10-4(初始学习率)。
(3)字典大小:与地址语义-空间融合模型实例使用的词典大小保持一致,此处字典应包含地址文本中的所有数字枚举。
(4)训练轮数epoch:5。
(5)测试间隔步数train_interval:500。
(6)其他ALM训练的相关超参数(max_sentence_size、embedding_size),与GSAM实例所设值保持一致。
定义训练方案的具体内容:使地址文本通过模型输出后的坐标预测值与真实值尽可能接近,从而使目标任务模块内部的参数变量向着正确结果不断拟合。
每次训练的地址文本数量为batch_size,因此可将训练目标定义为使该样本距离误差的平均值为0,模型的输出为pred_coord(batch_size,2),结合样本的空间坐标序列true_coord(batch_size,2),可得到训练框架中的目标函数表达,其中dis(x)表示空间距离量算函数:
由此可得模型训练的损失函数:
为了对比本发明的效果,除了基于GSAM_Format构建预测模型之外,本实施例还构建和训练了两个对照模型实例。其中一个的模型结构与本实施例一致,但在特征提取器方面,采用ALM_Format对目标任务模块外的神经网络参数变量进行赋值,此时该模型实例的特征表达仅包含地址文本语义信息;另一个则使用Word2Vec方法对地址文本进行向量表达,其目标任务模块与下游任务模型相同,也以三层全连接神经网络作为隐藏层,最后进行线性变化得到输出。两组对照模型在训练时同样仅对目标任务模块中的神经网络参数执行梯度更新操作。隐藏层维度大小为变量,依次设置为768/768/768,1024/1024/1024,2048/2048/2048和4096/4096/4096开展下游任务模型及对照模型实例的训练。
对训练模型取收敛后最优效果的步长点作为模型最终实例保存,此时模型评价指标概括如下表所示:
从上述三个指标以及曲线变化的分析来看,基于GSAM_Format的预测模型针对样本地址信息,无论从全面还是局部来看,其空间坐标的预测能力都远胜于其他两类模型,能高效且精准地完成类似人脑从“地址文本认知”到“空间区域感知”的过程。这也从侧面论证了本发明的GSAM模型确实具有语义-空间融合特征的学习能力,其训练实例包含语义-空间的融合权重。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (10)
1.一种基于深度神经网络模型的地址信息特征抽取方法,其特征在于,包括如下步骤:
S1:构建位置顺序加权的词嵌入模块,用于通过位置编码算法与内置矩阵变量,将输入的地址文本中每个地址字符以唯一值的向量形式表达,实现地址信息从文本到编码的转换;
S2:构建字符编码的特征提取模块,通过多头自注意力机制的语义提取方法,获得字符要素在不同语义空间下的综合语义输出;
S3:构建基于上下文预测未知字符的目标任务模块,在满足地址字符与上下文表征映射关系的条件下,输出训练任务所需的预测字符条件概率分布;
S4:将S1中的词嵌入模块、S2中的特征提取模块以及S3中的目标任务模块顺次连接,形成地名地址语言模型,并采用基于随机屏蔽策略的自然语言训练方案对地名地址语言模型进行训练,使模型能够输出得到地址文本中每个字符的语义特征向量;
S5:综合地址文本中所有字符的语义特征向量,通过地址语义特征的池化方法得到句向量,并结合空间位置信息进行高维加权,通过K-Means聚类方法得到语义-空间融合的聚类结果;
S6:将S4中训练完成的地名地址语言模型中的词嵌入模块和特征提取模块进行移植,构成编码器;基于神经网络微调理论重构目标任务模块形成解码器,用于将S5中的聚类结果作为地址文本标签,对编码器中的神经网络参数变量赋予语义-空间的融合权重;
S7:结合所述的编码器和解码器,构建地址语义-空间融合模型,并对地址语义-空间融合模型进行训练,使模型能够针对地址文本输出语义与空间特征的融合向量表达。
2.根据权利要求1所述的基于深度神经网络模型的地址信息特征抽取方法,其特征在于,所述的步骤S1中,词嵌入模块中具体的执行流程包括:
S11:创建字典-向量转换矩阵C;
S12:获得输入的地址文本中每个地址字符位于字典中的索引char_index;
S13:根据索引获得每个字符的one-hot向量,向量长度为字典的大小;
S14:将one-hot向量与Lookup Table相乘,得到每个字符的词嵌入值embedding0;
S15:获得每个字符在地址文本中的位置position;
S16:根据位置编码算法,获得每个字符的位置权重向量;每个字符的位置权重向量PW由所有维度的位置权重值组成;
偶数维度的位置权重值为:
奇数维度的位置权重值为:
其中dmodel表示词嵌入embedding0的维度,i表示计算的第i个维度;
S17:将每个字符的位置权重向量与词嵌入值相加,得到每个字符经过位置顺序加权的字符向量化表达内容:
embedding=embedding0+PW。
3.根据权利要求1所述的基于深度神经网络模型的地址信息特征抽取方法,其特征在于,所述的步骤S2中,特征提取模块中具体的执行流程包括:
S21:将S1中词嵌入模块输出的字符向量化表达内容输入由多层自转换器子模块串联形成的神经网络中;在每层自转换器子模块中,输入数据首先代入自注意力神经网络,其输出经过残差和归一化计算后,再代入前馈网络层,再经过残差和归一化计算后,作为该自转换器子模块的输出;
S22:除第一层自转换器子模块之外的其余自转换器子模块中,上一层的自转换器子模块的输出作下一层自转换器子模块的输入,层层传递,直至得到最后一层自转换器子模块的输出SAN。
4.根据权利要求1所述的基于深度神经网络模型的地址信息特征抽取方法,其特征在于,所述的步骤S3中,目标任务模块中具体的执行流程包括:
S31:将S2中特征提取模块的输出作为前馈网络层的输入,通过非线性变换将其转化为每个字符经过上下文影响后的“修正词嵌入”信息prob_embedding,非线性变换公式为:
prob_embedding=g(W×SA+b)
式中:g()表示ReLu函数,W表示权重矩阵,b表示线性偏置;
S32:将prob_embedding进行线性变换,得到其概率分布得分:
logits=CT×prob_embedding+b′
其中权重矩阵CT为字典-向量转换矩阵C的转置,b′表示线性变换的偏置;
S33:将概率分布得分logits代入到softmax激活函数,最终得到每个字符是字典中各个字的条件概率分布。
prob=softmax(logits) 。
5.根据权利要求1所述的一种地址信息特征抽取的深度神经网络模型,其特征在于,所述的步骤S4的具体实现流程包括:
S41:将S1中的词嵌入模块、S2中的特征提取模块以及S3中的目标任务模块顺次连接,形成地名地址语言模型;
S42:构建地名地址语言模型训练框架,训练框架中首先定义基于随机屏蔽策略的自然语言训练方案,然后构造字典以及训练数据的模型输入,再定义损失函数并通过构造神经网络优化器对模型参数变量进行优化;
S43:基于所述训练框架对地名地址语言模型进行训练,使模型能够输出地址文本中每个字符的语义特征向量表达。
6.根据权利要求5所述的基于深度神经网络模型的地址信息特征抽取方法,其特征在于,所述的步骤S42中:
所述的基于随机屏蔽策略的自然语言训练方案具体为:随机屏蔽输入的地址文本句子中部分字符,以屏蔽符号表示;然后将地址文本句子中的部分屏蔽符号替换成真实字符,再将地址文本句子中的部分屏蔽符号替换成错误字符,剩余的屏蔽符号不变;在地名地址语言模型训练过程中,只针对这3种被屏蔽符号替换的字符执行目标任务模块;
所述神经网络优化器中采用学习率衰减、全局梯度裁剪和自适应矩估计算法三种梯度更新优化策略。
7.根据权利要求1所述的基于深度神经网络模型的地址信息特征抽取方法,其特征在于,所述的步骤S5的具体实现流程包括:
S51:获取地址文本在所述特征提取模块中最后四层自转换器子模块的输出SAN、SAN-1、SAN-2、SAN-3,分别对SAN、SAN-1、SAN-2、SAN-3进行平均值池化与最大值池化,然后并将池化结果全部相加,获得地址文本的最终语义特征表达sentEmbed0;
S52:分别计算所有地址文本在语义特征向量空间中的欧氏距离极差sent_range和空间特征向量空间中的欧氏距离极差coor_range;
对每个地址文本的语义特征向量sentEmbed0和空间特征向量coorEmbed0进行去量纲操作,并通过设置权值λ对去量纲后的特征向量进行权重分配,得到处理后的语义特征向量sentEmbed和空间特征向量coorEmbed:
coorEmbed=coorEmbed0*(1-λ)
将两种处理后的特征向量直接拼接,最终形成融合特征向量:
concatEmbed={sentEmbed,coorEmbed};
S53:通过K-Means聚类算法,结合Elkan距离计算优化算法、Mini-Batch K-means策略和K-means++聚类中心初始化方案,对所有融合特征向量进行聚类,得到语义-空间融合的聚类结果。
8.根据权利要求1所述的基于深度神经网络模型的地址信息特征抽取方法,其特征在于,所述的步骤6的具体实现流程包括:
S61:将S4中训练完成的地名地址语言模型中的词嵌入模块和特征提取模块进行移植,两者连接构成编码器;
S62:重新构建用于对地址文本进行分类的目标任务模块作为解码器,用于通过神经网络对所述编码器的输出生成概率分布;在解码器中,首先对所述编码器中特征提取模块的最后一层自转换器子模块输出SAN做平均值池化,池化结果作为地址句语义特征;然后通过前馈网络层对地址句语义特征进行非线性变换,将语义特征转换为分类问题的概率分布特征,激活函数使用tanh;最后将得到的概率分布特征通过全连接层转换为地址文本的概率得分分布,由softmax函数求得地址文本属于S5中得到的每一个聚类的预测概率分布。
9.根据权利要求1所述的基于深度神经网络模型的地址信息特征抽取方法,其特征在于,所述的步骤S7的具体实现流程包括:
S71:将所述的编码器和解码器连接得到地址语义-空间融合模型;
S72:构建地址语义-空间融合模型的训练框架,并基于该训练框架对地址语义-空间融合模型进行训练,使模型能够针对地址文本输出语义与空间特征的融合向量表达。
10.一种地址文本的地理位置预测方法,其特征在于,步骤如下:
首先,构建地址空间坐标预测模型;所述地址空间坐标预测模型中包括三层连续的全连接层以及一层线性变换层,按照权利要求1~9所述方法训练得到地址语义-空间融合模型,并将其中特征提取模块的最后一层自转换器子模块的输出SAN经过池化层池化后,依次输入三层连续的全连接层以及一层线性变换层中,输出地址文本所描述的空间实体所在的预测坐标;
然后将待预测地理位置的地址文本输入经过训练的地址空间坐标预测模型中,得到该地址文本所描述的空间实体所在的预测坐标。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2019106004475 | 2019-07-04 | ||
CN201910600447 | 2019-07-04 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110377686A true CN110377686A (zh) | 2019-10-25 |
CN110377686B CN110377686B (zh) | 2021-09-17 |
Family
ID=68255063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910666632.4A Active CN110377686B (zh) | 2019-07-04 | 2019-07-23 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11941522B2 (zh) |
JP (1) | JP7041281B2 (zh) |
CN (1) | CN110377686B (zh) |
WO (1) | WO2021000362A1 (zh) |
Cited By (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110837733A (zh) * | 2019-10-31 | 2020-02-25 | 创新工场(广州)人工智能研究有限公司 | 自重建方式的语言模型训练方法、系统及计算机可读介质 |
CN110874392A (zh) * | 2019-11-20 | 2020-03-10 | 中山大学 | 基于深度双向注意力机制的文本网络信息融合嵌入方法 |
CN110929017A (zh) * | 2019-11-25 | 2020-03-27 | 三角兽(北京)科技有限公司 | 文本的推荐方法及装置 |
CN111104802A (zh) * | 2019-12-11 | 2020-05-05 | 中国平安财产保险股份有限公司 | 一种地址信息文本的提取方法及相关设备 |
CN111177289A (zh) * | 2019-12-12 | 2020-05-19 | 山东省国土测绘院 | 众源网络数据空间相关信息提取校验方法与系统 |
CN111178074A (zh) * | 2019-12-12 | 2020-05-19 | 天津大学 | 一种基于深度学习的中文命名实体识别方法 |
CN111178041A (zh) * | 2019-12-31 | 2020-05-19 | 北京妙笔智能科技有限公司 | 一种智能的文本复述系统和方法 |
CN111178046A (zh) * | 2019-12-16 | 2020-05-19 | 山东众阳健康科技集团有限公司 | 一种基于排序的字向量训练方法 |
CN111209362A (zh) * | 2020-01-07 | 2020-05-29 | 苏州城方信息技术有限公司 | 基于深度学习的地址数据解析方法 |
CN111222320A (zh) * | 2019-12-17 | 2020-06-02 | 共道网络科技有限公司 | 一种字符预测模型训练方法及装置 |
CN111553363A (zh) * | 2020-04-20 | 2020-08-18 | 北京易道博识科技有限公司 | 一种端到端的图章识别方法及系统 |
CN111666461A (zh) * | 2020-04-24 | 2020-09-15 | 百度在线网络技术(北京)有限公司 | 检索地理位置的方法、装置、设备和计算机存储介质 |
CN111680169A (zh) * | 2020-06-03 | 2020-09-18 | 国网内蒙古东部电力有限公司 | 一种基于bert模型技术的电力科技成果数据抽取方法 |
CN111711629A (zh) * | 2020-06-16 | 2020-09-25 | 荆门汇易佳信息科技有限公司 | 背景知识引导的特征化定位隐私防泄露方法 |
CN111737419A (zh) * | 2020-07-31 | 2020-10-02 | 支付宝(杭州)信息技术有限公司 | 机器阅读理解中的数值推理方法和装置 |
CN111753802A (zh) * | 2020-07-06 | 2020-10-09 | 北京猿力未来科技有限公司 | 识别方法及装置 |
CN111814468A (zh) * | 2020-07-09 | 2020-10-23 | 前海企保科技(深圳)有限公司 | 一种自适应架构语义分布文本理解方法及系统 |
CN111814448A (zh) * | 2020-07-03 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 预训练语言模型量化方法和装置 |
CN112133304A (zh) * | 2020-09-18 | 2020-12-25 | 中科极限元(杭州)智能科技股份有限公司 | 基于前馈神经网络的低延时语音识别模型及训练方法 |
CN112288806A (zh) * | 2020-09-28 | 2021-01-29 | 北京沃东天骏信息技术有限公司 | 物体空间关系的识别方法、装置和训练方法、装置 |
CN112328844A (zh) * | 2020-11-18 | 2021-02-05 | 恩亿科(北京)数据科技有限公司 | 一种处理多类型数据的方法及系统 |
CN112329470A (zh) * | 2020-11-09 | 2021-02-05 | 北京中科闻歌科技股份有限公司 | 一种基于端到端模型训练的智能地址识别方法及装置 |
CN112488200A (zh) * | 2020-11-30 | 2021-03-12 | 上海寻梦信息技术有限公司 | 物流地址特征提取方法、系统、设备及存储介质 |
CN112527938A (zh) * | 2020-12-17 | 2021-03-19 | 安徽迪科数金科技有限公司 | 基于自然语言理解的中文poi匹配方法 |
CN112528643A (zh) * | 2020-12-14 | 2021-03-19 | 上海栖盟科技有限公司 | 一种基于神经网络的文本信息提取方法及装置 |
CN112651227A (zh) * | 2020-11-24 | 2021-04-13 | 中国科学院信息工程研究所 | 一种基于向量空间下语言建模的IPv6目标生成方法和装置 |
CN112765339A (zh) * | 2021-01-21 | 2021-05-07 | 山东师范大学 | 一种基于强化学习的个性化图书推荐方法及系统 |
CN112800737A (zh) * | 2019-10-29 | 2021-05-14 | 京东数字科技控股有限公司 | 自然语言文本生成方法和装置以及对话系统 |
CN112818666A (zh) * | 2021-01-29 | 2021-05-18 | 上海寻梦信息技术有限公司 | 地址识别方法、装置、电子设备和存储介质 |
CN112836146A (zh) * | 2021-03-09 | 2021-05-25 | 威创集团股份有限公司 | 一种基于网络消息的地理空间坐标信息获取方法及装置 |
CN112949284A (zh) * | 2019-12-11 | 2021-06-11 | 上海大学 | 一种基于Transformer模型的文本语义相似度预测方法 |
CN113011580A (zh) * | 2021-02-10 | 2021-06-22 | 华为技术有限公司 | 一种嵌入表征的处理方法以及相关设备 |
CN113064995A (zh) * | 2021-03-31 | 2021-07-02 | 上海金融期货信息技术有限公司 | 一种基于图深度学习的文本多标签分类方法和系统 |
CN113190655A (zh) * | 2021-05-10 | 2021-07-30 | 南京大学 | 一种基于语义依赖的空间关系抽取方法及装置 |
CN113255346A (zh) * | 2021-07-01 | 2021-08-13 | 湖南工商大学 | 一种基于图嵌入与crf知识融入的地址要素识别方法 |
CN113313197A (zh) * | 2021-06-17 | 2021-08-27 | 哈尔滨工业大学 | 一种全连接神经网络训练方法 |
CN113342970A (zh) * | 2020-11-24 | 2021-09-03 | 中电万维信息技术有限责任公司 | 一种多标签复杂文本分类方法 |
CN113592037A (zh) * | 2021-08-26 | 2021-11-02 | 武大吉奥信息技术有限公司 | 一种基于自然语言推断的地址匹配方法 |
CN113591971A (zh) * | 2021-07-28 | 2021-11-02 | 上海数鸣人工智能科技有限公司 | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 |
CN113656607A (zh) * | 2021-08-19 | 2021-11-16 | 郑州轻工业大学 | 一种文本挖掘装置及储存介质 |
CN113807102A (zh) * | 2021-08-20 | 2021-12-17 | 北京百度网讯科技有限公司 | 建立语义表示模型的方法、装置、设备和计算机存储介质 |
CN113948066A (zh) * | 2021-09-06 | 2022-01-18 | 北京数美时代科技有限公司 | 一种实时转译文本的纠错方法、系统、存储介质和装置 |
CN114003698A (zh) * | 2021-12-27 | 2022-02-01 | 成都晓多科技有限公司 | 一种文本检索方法、系统、设备及存储介质 |
WO2022089227A1 (zh) * | 2020-10-30 | 2022-05-05 | 深圳壹账通智能科技有限公司 | 地址参数处理方法及相关设备 |
CN114528368A (zh) * | 2021-11-12 | 2022-05-24 | 南京师范大学 | 基于预训练语言模型与文本特征融合的空间关系抽取方法 |
CN114579688A (zh) * | 2022-04-29 | 2022-06-03 | 中国地质科学院地质力学研究所 | 一种基于gis的地质数据呈现方法及系统 |
WO2022134592A1 (zh) * | 2020-12-23 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 地址信息解析方法、装置、设备及存储介质 |
WO2022142011A1 (zh) * | 2020-12-30 | 2022-07-07 | 平安科技(深圳)有限公司 | 一种地址识别方法、装置、计算机设备及存储介质 |
CN114911909A (zh) * | 2022-06-08 | 2022-08-16 | 北京青萌数海科技有限公司 | 结合深度卷积网络和注意力机制的地址匹配方法以及装置 |
CN114926655A (zh) * | 2022-05-20 | 2022-08-19 | 北京百度网讯科技有限公司 | 地理与视觉跨模态预训练模型的训练方法、位置确定方法 |
CN115065567A (zh) * | 2022-08-19 | 2022-09-16 | 北京金睛云华科技有限公司 | 用于dga域名研判推理机的插件化执行方法 |
CN115114433A (zh) * | 2022-05-19 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 语言模型的训练方法、装置、设备及存储介质 |
CN115439921A (zh) * | 2022-09-22 | 2022-12-06 | 徐州华讯科技有限公司 | 一种基于眼动图推理的图像偏好预测方法 |
CN115658886A (zh) * | 2022-09-20 | 2023-01-31 | 广东技术师范大学 | 基于语义文本的智能肝癌分期方法、系统及介质 |
CN116824305A (zh) * | 2023-08-09 | 2023-09-29 | 中国气象服务协会 | 应用于云计算的生态环境监测数据处理方法及系统 |
CN116910186A (zh) * | 2023-09-12 | 2023-10-20 | 南京信息工程大学 | 一种文本索引模型构建方法、索引方法、系统和终端 |
CN117033393A (zh) * | 2023-10-08 | 2023-11-10 | 四川酷赛科技有限公司 | 一种基于人工智能的信息存储管理系统 |
US11836174B2 (en) | 2020-04-24 | 2023-12-05 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus of establishing similarity model for retrieving geographic location |
EP4150875A4 (en) * | 2020-05-11 | 2024-01-17 | Paypal Inc | DETERMINING GEOGRAPHICAL COORDINATES USING MACHINE LEARNING TECHNIQUES |
CN112836146B (zh) * | 2021-03-09 | 2024-05-14 | 威创集团股份有限公司 | 一种基于网络消息的地理空间坐标信息获取方法及装置 |
Families Citing this family (119)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11048933B2 (en) | 2019-07-31 | 2021-06-29 | Intuit Inc. | Generating structured representations of forms using machine learning |
US11928429B2 (en) * | 2020-05-22 | 2024-03-12 | Microsoft Technology Licensing, Llc | Token packing for sequence models |
CN111737995B (zh) * | 2020-05-29 | 2024-04-05 | 北京百度网讯科技有限公司 | 基于多种词向量训练语言模型的方法、装置、设备及介质 |
US11393233B2 (en) * | 2020-06-02 | 2022-07-19 | Google Llc | System for information extraction from form-like documents |
US11782685B2 (en) * | 2020-06-17 | 2023-10-10 | Bank Of America Corporation | Software code vectorization converter |
US20220156297A1 (en) * | 2020-11-13 | 2022-05-19 | Tencent America LLC | Efficient and compact text matching system for sentence pairs |
CN112766359B (zh) * | 2021-01-14 | 2023-07-25 | 北京工商大学 | 一种面向食品安全舆情的字词双维度微博谣言识别方法 |
CN112861648B (zh) * | 2021-01-19 | 2023-09-26 | 平安科技(深圳)有限公司 | 文字识别方法、装置、电子设备及存储介质 |
CN112818118A (zh) * | 2021-01-22 | 2021-05-18 | 大连民族大学 | 基于反向翻译的中文幽默分类模型 |
CN112836496B (zh) * | 2021-01-25 | 2024-02-13 | 之江实验室 | 一种基于bert和前馈神经网络的文本纠错方法 |
CN112860992B (zh) * | 2021-01-25 | 2023-03-24 | 西安博达软件股份有限公司 | 基于网站内容数据推荐的特征优化预训练方法 |
CN112784831B (zh) * | 2021-02-02 | 2022-06-28 | 电子科技大学 | 融合多层特征增强注意力机制的文字识别方法 |
CN112507628B (zh) * | 2021-02-03 | 2021-07-02 | 北京淇瑀信息科技有限公司 | 基于深度双向语言模型的风险预测方法、装置和电子设备 |
CN112818086A (zh) * | 2021-02-04 | 2021-05-18 | 上海畅圣计算机科技有限公司 | 一种机器人催收获取客户意向标签的多标签分类方法 |
CN112949318B (zh) * | 2021-03-03 | 2022-03-25 | 电子科技大学 | 基于文本和用户表示学习的文本立场检测方法 |
CN113011126B (zh) * | 2021-03-11 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
CN112884354B (zh) * | 2021-03-15 | 2023-07-11 | 北京工商大学 | 一种字词双维度的化妆品安全监管领域事件信息抽取方法 |
CN112989790B (zh) * | 2021-03-17 | 2023-02-28 | 中国科学院深圳先进技术研究院 | 基于深度学习的文献表征方法及装置、设备、存储介质 |
CN113032672A (zh) * | 2021-03-24 | 2021-06-25 | 北京百度网讯科技有限公司 | 多模态poi特征的提取方法和装置 |
US20220327489A1 (en) * | 2021-04-08 | 2022-10-13 | Nec Laboratories America, Inc. | Hierarchical word embedding system |
CN113434667B (zh) * | 2021-04-20 | 2024-01-23 | 国网浙江省电力有限公司杭州供电公司 | 基于配网自动化终端文本分类模型的文本分类方法 |
CN113139054B (zh) * | 2021-04-21 | 2023-11-24 | 南通大学 | 一种基于Transformer的代码编程语言分类方法 |
CN113011443B (zh) * | 2021-04-23 | 2022-06-03 | 电子科技大学 | 一种基于关键点的目标检测的特征融合方法 |
CN113128600B (zh) * | 2021-04-23 | 2024-02-23 | 湖北珞珈环创科技有限公司 | 一种结构化深度非完整多视角聚类方法 |
CN113076750B (zh) * | 2021-04-26 | 2022-12-16 | 华南理工大学 | 一种基于新词发现的跨领域中文分词系统及方法 |
CN113132410B (zh) * | 2021-04-29 | 2023-12-08 | 深圳信息职业技术学院 | 一种用于检测钓鱼网址的方法 |
CN113343638B (zh) * | 2021-05-10 | 2023-10-13 | 武汉大学 | 面向精细化内容重组的服务内容多重语义自动编码方法 |
CN113221568B (zh) * | 2021-05-10 | 2022-05-17 | 天津大学 | 一种基于神经网络的改进分层序列标注联合关系抽取方法 |
CN113590814A (zh) * | 2021-05-13 | 2021-11-02 | 上海大学 | 一种融合文本解释特征的文本分类方法 |
CN112990388B (zh) * | 2021-05-17 | 2021-08-24 | 成都数联铭品科技有限公司 | 基于概念词的文本聚类方法 |
CN113345574B (zh) * | 2021-05-26 | 2022-03-22 | 复旦大学 | 基于bert语言模型与cnn模型的中医胃痛养生方案获取装置 |
CN113157927B (zh) * | 2021-05-27 | 2023-10-31 | 中国平安人寿保险股份有限公司 | 文本分类方法、装置、电子设备及可读存储介质 |
CN113256145B (zh) * | 2021-06-09 | 2021-09-21 | 深圳万顺叫车云信息技术有限公司 | 安全中心中台系统 |
CN113420571A (zh) * | 2021-06-22 | 2021-09-21 | 康键信息技术(深圳)有限公司 | 基于深度学习的文本翻译方法、装置、设备及存储介质 |
CN113536804B (zh) * | 2021-06-29 | 2022-05-03 | 北京理工大学 | 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法 |
CN113420689B (zh) * | 2021-06-30 | 2024-03-22 | 平安科技(深圳)有限公司 | 基于概率校准的文字识别方法、装置、计算机设备及介质 |
CN113378574B (zh) * | 2021-06-30 | 2023-10-24 | 武汉大学 | 一种基于kgann的命名实体识别方法 |
CN113569558B (zh) * | 2021-07-06 | 2023-09-26 | 上海交通大学 | 一种实体关系抽取方法及系统 |
CN113468877A (zh) * | 2021-07-09 | 2021-10-01 | 浙江大学 | 语言模型的微调方法、装置、计算设备和存储介质 |
CN113537345B (zh) * | 2021-07-15 | 2023-01-24 | 中国南方电网有限责任公司 | 一种通信网设备数据关联的方法及系统 |
CN113538475B (zh) * | 2021-07-19 | 2022-03-25 | 中国科学院自动化研究所 | 基于多任务算法的实时多器械分割方法和系统 |
CN113672726A (zh) * | 2021-07-20 | 2021-11-19 | 贵州电网有限责任公司 | 一种基于重采样的多轮对话分类方法 |
CN113609304B (zh) * | 2021-07-20 | 2023-05-23 | 广州大学 | 一种实体匹配方法和装置 |
CN113743118A (zh) * | 2021-07-22 | 2021-12-03 | 武汉工程大学 | 基于融合关系信息编码的法律文书中的实体关系抽取方法 |
CN113297410A (zh) * | 2021-07-26 | 2021-08-24 | 广东众聚人工智能科技有限公司 | 一种图像检索方法、装置、计算机设备及存储介质 |
CN113568845B (zh) * | 2021-07-29 | 2023-07-25 | 北京大学 | 一种基于强化学习的内存地址映射方法 |
CN113591459B (zh) * | 2021-08-10 | 2023-09-15 | 平安银行股份有限公司 | 地址标准化处理方法、装置、电子设备及可读存储介质 |
CN113392191B (zh) * | 2021-08-18 | 2022-01-21 | 中关村科学城城市大脑股份有限公司 | 一种基于多维度语义联合学习的文本匹配方法和装置 |
CN113823292B (zh) * | 2021-08-19 | 2023-07-21 | 华南理工大学 | 基于通道注意力深度可分卷积网络的小样本话者辨认方法 |
CN113626603B (zh) * | 2021-08-19 | 2024-03-29 | 支付宝(杭州)信息技术有限公司 | 文本分类的方法和装置 |
CN113673219B (zh) * | 2021-08-20 | 2022-06-07 | 合肥中科类脑智能技术有限公司 | 一种停电计划文本解析方法 |
CN113723072A (zh) * | 2021-08-25 | 2021-11-30 | 北京来也网络科技有限公司 | Rpa结合ai的模型融合结果获取方法、装置及电子设备 |
CN113723278B (zh) * | 2021-08-27 | 2023-11-03 | 上海云从汇临人工智能科技有限公司 | 表格信息提取模型的训练方法及装置 |
CN113837240A (zh) * | 2021-09-03 | 2021-12-24 | 南京昆虫软件有限公司 | 一种针对教育部的分类系统和分类方法 |
CN113761131A (zh) * | 2021-09-07 | 2021-12-07 | 上海快确信息科技有限公司 | 一种将文本结构化为表格的深度学习模型装置 |
CN113505190B (zh) * | 2021-09-10 | 2021-12-17 | 南方电网数字电网研究院有限公司 | 地址信息修正方法、装置、计算机设备和存储介质 |
CN113869052B (zh) * | 2021-09-26 | 2023-05-05 | 杭州中房信息科技有限公司 | 基于ai的房屋地址匹配方法、存储介质及设备 |
CN113836928B (zh) * | 2021-09-28 | 2024-02-27 | 平安科技(深圳)有限公司 | 文本实体生成方法、装置、设备及存储介质 |
CN113760778B (zh) * | 2021-11-09 | 2022-02-08 | 浙江大学滨海产业技术研究院 | 一种基于词向量模型的微服务接口划分评价方法 |
US11514370B1 (en) * | 2021-12-03 | 2022-11-29 | FriendliAI Inc. | Selective batching for inference system for transformer-based generation tasks |
US11442775B1 (en) | 2021-12-03 | 2022-09-13 | FriendliAI Inc. | Dynamic batching for inference system for transformer-based generation tasks |
CN113920989B (zh) * | 2021-12-13 | 2022-04-01 | 中国科学院自动化研究所 | 一种语音识别与语音翻译端到端系统及设备 |
CN114035098A (zh) * | 2021-12-14 | 2022-02-11 | 北京航空航天大学 | 一种融合未来工况信息和历史状态信息的锂电池健康状态预测方法 |
CN113971407B (zh) * | 2021-12-23 | 2022-03-18 | 深圳佑驾创新科技有限公司 | 语义特征提取方法及计算机可读存储介质 |
CN114358014B (zh) * | 2021-12-23 | 2023-08-04 | 佳源科技股份有限公司 | 基于自然语言的工单智能诊断方法、装置、设备及介质 |
CN114492463B (zh) * | 2021-12-30 | 2023-12-12 | 永中软件股份有限公司 | 一种基于对抗多任务学习的统一语义性中文文本润色方法 |
CN114329472B (zh) * | 2021-12-31 | 2023-05-19 | 淮阴工学院 | 基于双重嵌入与模型剪枝的bios恶意程序检测方法及装置 |
CN114049508B (zh) * | 2022-01-12 | 2022-04-01 | 成都无糖信息技术有限公司 | 一种基于图片聚类和人工研判的诈骗网站识别方法及系统 |
CN114386334B (zh) * | 2022-01-19 | 2022-09-13 | 浙江大学 | 一种基于分布式水文径流模拟替代模型的径流滚动预报方法 |
CN114443845A (zh) * | 2022-01-20 | 2022-05-06 | 序跋网络科技(上海)有限公司 | 一种基于bert的多特征细粒度中文短文本情感分类方法 |
CN114510968B (zh) * | 2022-01-21 | 2022-09-16 | 石家庄铁道大学 | 一种基于Transformer的故障诊断方法 |
CN114582443B (zh) * | 2022-02-23 | 2023-08-18 | 西北大学 | 一种基于知识图谱的药物关系抽取方法 |
CN114816909B (zh) * | 2022-04-13 | 2024-03-26 | 北京计算机技术及应用研究所 | 一种基于机器学习的实时日志检测预警方法及系统 |
CN114782791B (zh) * | 2022-04-14 | 2024-03-22 | 华南理工大学 | 基于transformer模型和类别关联的场景图生成方法 |
CN114897004B (zh) * | 2022-04-15 | 2023-05-02 | 成都理工大学 | 一种基于深度学习Transformer模型的梯形堆积核脉冲识别方法 |
US11615247B1 (en) * | 2022-04-24 | 2023-03-28 | Zhejiang Lab | Labeling method and apparatus for named entity recognition of legal instrument |
CN114580424B (zh) * | 2022-04-24 | 2022-08-05 | 之江实验室 | 一种用于法律文书的命名实体识别的标注方法和装置 |
CN114818698B (zh) * | 2022-04-28 | 2024-04-16 | 华中师范大学 | 一种自然语言文本和数学语言文本的混合词嵌入方法 |
CN114661968B (zh) * | 2022-05-26 | 2022-11-22 | 卡奥斯工业智能研究院(青岛)有限公司 | 产品数据处理方法、装置及存储介质 |
WO2023244648A1 (en) * | 2022-06-14 | 2023-12-21 | The Regents Of The University Of California | Residual and attentional architectures for vector-symbols |
CN114791886B (zh) * | 2022-06-21 | 2022-09-23 | 纬创软件(武汉)有限公司 | 一种软件问题跟踪方法和系统 |
CN115081439B (zh) * | 2022-07-01 | 2024-02-27 | 淮阴工学院 | 一种基于多特征自适应增强的化学药品分类方法及系统 |
CN114841293B (zh) * | 2022-07-04 | 2022-10-25 | 国网信息通信产业集团有限公司 | 一种面向电力物联网的多模态数据融合分析方法与系统 |
CN115344693B (zh) * | 2022-07-11 | 2023-05-12 | 北京容联易通信息技术有限公司 | 一种基于传统算法和神经网络算法融合的聚类方法 |
CN115242868A (zh) * | 2022-07-13 | 2022-10-25 | 郑州埃文计算机科技有限公司 | 一种基于图神经网络的街道级ip地址定位方法 |
CN115081428B (zh) * | 2022-07-22 | 2022-11-29 | 粤港澳大湾区数字经济研究院(福田) | 一种处理自然语言的方法、自然语言处理模型、设备 |
CN115168856B (zh) * | 2022-07-29 | 2023-04-21 | 山东省计算中心(国家超级计算济南中心) | 二进制代码相似性检测方法及物联网固件漏洞检测方法 |
CN115277626B (zh) * | 2022-07-29 | 2023-07-25 | 平安科技(深圳)有限公司 | 地址信息转换方法、电子设备和计算机可读存储介质 |
CN115329766B (zh) * | 2022-08-23 | 2023-04-18 | 中国人民解放军国防科技大学 | 一种基于动态词信息融合的命名实体识别方法 |
CN115099242B (zh) * | 2022-08-29 | 2022-11-15 | 江西电信信息产业有限公司 | 意图识别方法、系统、计算机及可读存储介质 |
CN115410158B (zh) * | 2022-09-13 | 2023-06-30 | 北京交通大学 | 一种基于监控摄像头的地标提取方法 |
CN115422477B (zh) * | 2022-09-16 | 2023-09-05 | 哈尔滨理工大学 | 一种轨迹近邻查询系统、方法、计算机及存储介质 |
CN115545098B (zh) * | 2022-09-23 | 2023-09-08 | 青海师范大学 | 一种基于注意力机制的三通道图神经网络的节点分类方法 |
CN115470354B (zh) * | 2022-11-03 | 2023-08-22 | 杭州实在智能科技有限公司 | 基于多标签分类识别嵌套和重叠风险点的方法及系统 |
CN116704537B (zh) * | 2022-12-02 | 2023-11-03 | 大连理工大学 | 一种轻量的药典图片文字提取方法 |
CN115983274B (zh) * | 2022-12-20 | 2023-11-28 | 东南大学 | 一种基于两阶段标签校正的噪声事件抽取方法 |
CN116452241B (zh) * | 2023-04-17 | 2023-10-20 | 广西财经学院 | 一种基于多模态融合神经网络的用户流失概率计算方法 |
CN116431711B (zh) * | 2023-06-13 | 2024-03-15 | 北京长河数智科技有限责任公司 | 基于数据特征实现的数据智能采集方法及系统 |
CN116719936B (zh) * | 2023-06-15 | 2023-12-26 | 湖北大学 | 一种基于集成学习的网络不可靠信息早期检测方法 |
CN116611131B (zh) * | 2023-07-05 | 2023-12-26 | 大家智合(北京)网络科技股份有限公司 | 一种包装图形自动生成方法、装置、介质及设备 |
CN116610791B (zh) * | 2023-07-20 | 2023-09-29 | 中国人民解放军国防科技大学 | 针对结构化信息的基于语义分析的问答方法、系统及设备 |
CN116758562B (zh) * | 2023-08-22 | 2023-12-08 | 杭州实在智能科技有限公司 | 通用文本验证码识别方法及系统 |
CN116958825B (zh) * | 2023-08-28 | 2024-03-22 | 中国公路工程咨询集团有限公司 | 一种移动式遥感图像采集方法及公路维护监测方法 |
CN116913383B (zh) * | 2023-09-13 | 2023-11-28 | 鲁东大学 | 一种基于多模态的t细胞受体序列分类方法 |
CN116915746B (zh) * | 2023-09-14 | 2023-11-21 | 北京国旭网络科技有限公司 | 一种基于物联网的IPv6寻址方法 |
CN117033394B (zh) * | 2023-10-08 | 2023-12-08 | 卓世科技(海南)有限公司 | 一种大语言模型驱动的向量数据库构建方法及系统 |
CN117236323B (zh) * | 2023-10-09 | 2024-03-29 | 京闽数科(北京)有限公司 | 一种基于大数据的信息处理方法及系统 |
CN117454873B (zh) * | 2023-10-23 | 2024-04-23 | 广东外语外贸大学 | 一种基于知识增强神经网络模型的讽刺检测方法及系统 |
CN117371299B (zh) * | 2023-12-08 | 2024-02-27 | 安徽大学 | 一种托卡马克新经典环向粘滞力矩的机器学习方法 |
CN117538910B (zh) * | 2023-12-20 | 2024-04-30 | 广东邦盛北斗科技股份公司 | 基于ai的北斗定位信号测试分析方法及系统 |
CN117457135B (zh) * | 2023-12-22 | 2024-04-09 | 四川互慧软件有限公司 | 一种地址数据治理方法和循环神经网络模型构建方法 |
CN117436460B (zh) * | 2023-12-22 | 2024-03-12 | 武汉大学 | 一种翻译质量评估方法、装置、设备及存储介质 |
CN117540009B (zh) * | 2024-01-09 | 2024-03-26 | 江西省科学院能源研究所 | 一种基于增强预训练文本匹配模型的文本匹配方法 |
CN117556064B (zh) * | 2024-01-11 | 2024-03-26 | 北京邮电大学 | 基于大数据分析的信息分类存储方法与系统 |
CN117688611A (zh) * | 2024-01-30 | 2024-03-12 | 深圳昂楷科技有限公司 | 电子病历脱敏方法及系统、电子设备、存储介质 |
CN117743698A (zh) * | 2024-02-05 | 2024-03-22 | 青岛国实科技集团有限公司 | 基于ai大模型的网络恶意写手识别方法及系统 |
CN117729176B (zh) * | 2024-02-18 | 2024-04-26 | 闪捷信息科技有限公司 | 基于网络地址和响应体的应用程序接口聚合方法及装置 |
CN117763361B (zh) * | 2024-02-22 | 2024-04-30 | 泰山学院 | 一种基于人工智能的学生成绩预测方法及系统 |
CN117875268A (zh) * | 2024-03-13 | 2024-04-12 | 山东科技大学 | 一种基于分句编码的抽取式文本摘要生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714081A (zh) * | 2012-09-29 | 2014-04-09 | 北京百度网讯科技有限公司 | 一种专有地名的识别方法和装置 |
US20180246908A1 (en) * | 2017-02-28 | 2018-08-30 | International Business Machines Corporation | Generating a ranked list of best fitting place names |
CN109145171A (zh) * | 2018-07-23 | 2019-01-04 | 广州市城市规划勘测设计研究院 | 一种多尺度地图数据更新方法 |
CN109902646A (zh) * | 2019-03-08 | 2019-06-18 | 中南大学 | 一种基于长短时记忆网络的步态识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TR201514432T1 (tr) * | 2013-06-21 | 2016-11-21 | Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi | Veri̇ni̇n i̇leri̇ beslemeli̇ si̇ni̇r aği mi̇mari̇si̇ kullanilarak yalanci-yi̇neleme i̇le i̇şlenmesi̇ i̇çi̇n yöntem |
CN107729311B (zh) * | 2017-08-28 | 2020-10-16 | 云南大学 | 一种融合文本语气的中文文本特征提取方法 |
CN108399421B (zh) * | 2018-01-31 | 2022-04-01 | 南京邮电大学 | 一种基于词嵌入的深度零样本分类方法 |
CN109492679A (zh) * | 2018-10-24 | 2019-03-19 | 杭州电子科技大学 | 基于注意力机制与联结时间分类损失的文字识别方法 |
CN109783817B (zh) * | 2019-01-15 | 2022-12-06 | 浙江大学城市学院 | 一种基于深度强化学习的文本语义相似计算模型 |
-
2019
- 2019-07-23 WO PCT/CN2019/097375 patent/WO2021000362A1/zh active Application Filing
- 2019-07-23 CN CN201910666632.4A patent/CN110377686B/zh active Active
- 2019-07-23 JP JP2020556939A patent/JP7041281B2/ja active Active
-
2020
- 2020-09-28 US US17/033,988 patent/US11941522B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714081A (zh) * | 2012-09-29 | 2014-04-09 | 北京百度网讯科技有限公司 | 一种专有地名的识别方法和装置 |
US20180246908A1 (en) * | 2017-02-28 | 2018-08-30 | International Business Machines Corporation | Generating a ranked list of best fitting place names |
CN109145171A (zh) * | 2018-07-23 | 2019-01-04 | 广州市城市规划勘测设计研究院 | 一种多尺度地图数据更新方法 |
CN109902646A (zh) * | 2019-03-08 | 2019-06-18 | 中南大学 | 一种基于长短时记忆网络的步态识别方法 |
Non-Patent Citations (2)
Title |
---|
ASHISH VASWANI: "Attention is all you need", 《ARXIV.ORG》 * |
陈永佩: "一种引入实体的地理语义相似度混合计算模型", 《浙江大学学报理科版》 * |
Cited By (84)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800737A (zh) * | 2019-10-29 | 2021-05-14 | 京东数字科技控股有限公司 | 自然语言文本生成方法和装置以及对话系统 |
CN110837733A (zh) * | 2019-10-31 | 2020-02-25 | 创新工场(广州)人工智能研究有限公司 | 自重建方式的语言模型训练方法、系统及计算机可读介质 |
CN110837733B (zh) * | 2019-10-31 | 2023-12-29 | 创新工场(广州)人工智能研究有限公司 | 自重建方式的语言模型训练方法、系统及电子设备 |
CN110874392A (zh) * | 2019-11-20 | 2020-03-10 | 中山大学 | 基于深度双向注意力机制的文本网络信息融合嵌入方法 |
CN110874392B (zh) * | 2019-11-20 | 2023-10-24 | 中山大学 | 基于深度双向注意力机制的文本网络信息融合嵌入方法 |
CN110929017A (zh) * | 2019-11-25 | 2020-03-27 | 三角兽(北京)科技有限公司 | 文本的推荐方法及装置 |
CN111104802B (zh) * | 2019-12-11 | 2023-03-28 | 中国平安财产保险股份有限公司 | 一种地址信息文本的提取方法及相关设备 |
CN111104802A (zh) * | 2019-12-11 | 2020-05-05 | 中国平安财产保险股份有限公司 | 一种地址信息文本的提取方法及相关设备 |
CN112949284B (zh) * | 2019-12-11 | 2022-11-04 | 上海大学 | 一种基于Transformer模型的文本语义相似度预测方法 |
CN112949284A (zh) * | 2019-12-11 | 2021-06-11 | 上海大学 | 一种基于Transformer模型的文本语义相似度预测方法 |
CN111177289A (zh) * | 2019-12-12 | 2020-05-19 | 山东省国土测绘院 | 众源网络数据空间相关信息提取校验方法与系统 |
CN111178074A (zh) * | 2019-12-12 | 2020-05-19 | 天津大学 | 一种基于深度学习的中文命名实体识别方法 |
CN111178046A (zh) * | 2019-12-16 | 2020-05-19 | 山东众阳健康科技集团有限公司 | 一种基于排序的字向量训练方法 |
CN111222320A (zh) * | 2019-12-17 | 2020-06-02 | 共道网络科技有限公司 | 一种字符预测模型训练方法及装置 |
CN111178041B (zh) * | 2019-12-31 | 2023-04-07 | 北京妙笔智能科技有限公司 | 一种智能的文本复述系统和方法 |
CN111178041A (zh) * | 2019-12-31 | 2020-05-19 | 北京妙笔智能科技有限公司 | 一种智能的文本复述系统和方法 |
CN111209362A (zh) * | 2020-01-07 | 2020-05-29 | 苏州城方信息技术有限公司 | 基于深度学习的地址数据解析方法 |
CN111553363B (zh) * | 2020-04-20 | 2023-08-04 | 北京易道博识科技有限公司 | 一种端到端的图章识别方法及系统 |
CN111553363A (zh) * | 2020-04-20 | 2020-08-18 | 北京易道博识科技有限公司 | 一种端到端的图章识别方法及系统 |
CN111666461B (zh) * | 2020-04-24 | 2023-05-26 | 百度在线网络技术(北京)有限公司 | 检索地理位置的方法、装置、设备和计算机存储介质 |
WO2021212827A1 (zh) * | 2020-04-24 | 2021-10-28 | 百度在线网络技术(北京)有限公司 | 检索地理位置的方法、装置、设备和计算机存储介质 |
CN111666461A (zh) * | 2020-04-24 | 2020-09-15 | 百度在线网络技术(北京)有限公司 | 检索地理位置的方法、装置、设备和计算机存储介质 |
US11836174B2 (en) | 2020-04-24 | 2023-12-05 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus of establishing similarity model for retrieving geographic location |
EP4150875A4 (en) * | 2020-05-11 | 2024-01-17 | Paypal Inc | DETERMINING GEOGRAPHICAL COORDINATES USING MACHINE LEARNING TECHNIQUES |
CN111680169A (zh) * | 2020-06-03 | 2020-09-18 | 国网内蒙古东部电力有限公司 | 一种基于bert模型技术的电力科技成果数据抽取方法 |
CN111711629A (zh) * | 2020-06-16 | 2020-09-25 | 荆门汇易佳信息科技有限公司 | 背景知识引导的特征化定位隐私防泄露方法 |
CN111814448A (zh) * | 2020-07-03 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 预训练语言模型量化方法和装置 |
CN111814448B (zh) * | 2020-07-03 | 2024-01-16 | 思必驰科技股份有限公司 | 预训练语言模型量化方法和装置 |
CN111753802A (zh) * | 2020-07-06 | 2020-10-09 | 北京猿力未来科技有限公司 | 识别方法及装置 |
CN111814468B (zh) * | 2020-07-09 | 2021-02-26 | 前海企保科技(深圳)有限公司 | 一种自适应架构语义分布文本理解方法及系统 |
CN111814468A (zh) * | 2020-07-09 | 2020-10-23 | 前海企保科技(深圳)有限公司 | 一种自适应架构语义分布文本理解方法及系统 |
CN111737419A (zh) * | 2020-07-31 | 2020-10-02 | 支付宝(杭州)信息技术有限公司 | 机器阅读理解中的数值推理方法和装置 |
CN112133304A (zh) * | 2020-09-18 | 2020-12-25 | 中科极限元(杭州)智能科技股份有限公司 | 基于前馈神经网络的低延时语音识别模型及训练方法 |
CN112288806A (zh) * | 2020-09-28 | 2021-01-29 | 北京沃东天骏信息技术有限公司 | 物体空间关系的识别方法、装置和训练方法、装置 |
WO2022089227A1 (zh) * | 2020-10-30 | 2022-05-05 | 深圳壹账通智能科技有限公司 | 地址参数处理方法及相关设备 |
CN112329470A (zh) * | 2020-11-09 | 2021-02-05 | 北京中科闻歌科技股份有限公司 | 一种基于端到端模型训练的智能地址识别方法及装置 |
CN112328844A (zh) * | 2020-11-18 | 2021-02-05 | 恩亿科(北京)数据科技有限公司 | 一种处理多类型数据的方法及系统 |
CN113342970A (zh) * | 2020-11-24 | 2021-09-03 | 中电万维信息技术有限责任公司 | 一种多标签复杂文本分类方法 |
CN112651227A (zh) * | 2020-11-24 | 2021-04-13 | 中国科学院信息工程研究所 | 一种基于向量空间下语言建模的IPv6目标生成方法和装置 |
CN112488200A (zh) * | 2020-11-30 | 2021-03-12 | 上海寻梦信息技术有限公司 | 物流地址特征提取方法、系统、设备及存储介质 |
CN112528643A (zh) * | 2020-12-14 | 2021-03-19 | 上海栖盟科技有限公司 | 一种基于神经网络的文本信息提取方法及装置 |
CN112527938A (zh) * | 2020-12-17 | 2021-03-19 | 安徽迪科数金科技有限公司 | 基于自然语言理解的中文poi匹配方法 |
WO2022134592A1 (zh) * | 2020-12-23 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 地址信息解析方法、装置、设备及存储介质 |
WO2022142011A1 (zh) * | 2020-12-30 | 2022-07-07 | 平安科技(深圳)有限公司 | 一种地址识别方法、装置、计算机设备及存储介质 |
CN112765339A (zh) * | 2021-01-21 | 2021-05-07 | 山东师范大学 | 一种基于强化学习的个性化图书推荐方法及系统 |
CN112765339B (zh) * | 2021-01-21 | 2022-10-04 | 山东师范大学 | 一种基于强化学习的个性化图书推荐方法及系统 |
CN112818666A (zh) * | 2021-01-29 | 2021-05-18 | 上海寻梦信息技术有限公司 | 地址识别方法、装置、电子设备和存储介质 |
CN113011580B (zh) * | 2021-02-10 | 2022-12-27 | 华为技术有限公司 | 一种嵌入表征的处理方法以及相关设备 |
CN113011580A (zh) * | 2021-02-10 | 2021-06-22 | 华为技术有限公司 | 一种嵌入表征的处理方法以及相关设备 |
CN112836146B (zh) * | 2021-03-09 | 2024-05-14 | 威创集团股份有限公司 | 一种基于网络消息的地理空间坐标信息获取方法及装置 |
CN112836146A (zh) * | 2021-03-09 | 2021-05-25 | 威创集团股份有限公司 | 一种基于网络消息的地理空间坐标信息获取方法及装置 |
CN113064995A (zh) * | 2021-03-31 | 2021-07-02 | 上海金融期货信息技术有限公司 | 一种基于图深度学习的文本多标签分类方法和系统 |
CN113190655A (zh) * | 2021-05-10 | 2021-07-30 | 南京大学 | 一种基于语义依赖的空间关系抽取方法及装置 |
CN113190655B (zh) * | 2021-05-10 | 2023-08-11 | 南京大学 | 一种基于语义依赖的空间关系抽取方法及装置 |
CN113313197A (zh) * | 2021-06-17 | 2021-08-27 | 哈尔滨工业大学 | 一种全连接神经网络训练方法 |
CN113255346A (zh) * | 2021-07-01 | 2021-08-13 | 湖南工商大学 | 一种基于图嵌入与crf知识融入的地址要素识别方法 |
CN113591971B (zh) * | 2021-07-28 | 2024-05-07 | 上海数鸣人工智能科技有限公司 | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 |
CN113591971A (zh) * | 2021-07-28 | 2021-11-02 | 上海数鸣人工智能科技有限公司 | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 |
CN113656607A (zh) * | 2021-08-19 | 2021-11-16 | 郑州轻工业大学 | 一种文本挖掘装置及储存介质 |
CN113807102B (zh) * | 2021-08-20 | 2022-11-01 | 北京百度网讯科技有限公司 | 建立语义表示模型的方法、装置、设备和计算机存储介质 |
CN113807102A (zh) * | 2021-08-20 | 2021-12-17 | 北京百度网讯科技有限公司 | 建立语义表示模型的方法、装置、设备和计算机存储介质 |
CN113592037B (zh) * | 2021-08-26 | 2023-11-24 | 吉奥时空信息技术股份有限公司 | 一种基于自然语言推断的地址匹配方法 |
CN113592037A (zh) * | 2021-08-26 | 2021-11-02 | 武大吉奥信息技术有限公司 | 一种基于自然语言推断的地址匹配方法 |
CN113948066B (zh) * | 2021-09-06 | 2022-07-12 | 北京数美时代科技有限公司 | 一种实时转译文本的纠错方法、系统、存储介质和装置 |
CN113948066A (zh) * | 2021-09-06 | 2022-01-18 | 北京数美时代科技有限公司 | 一种实时转译文本的纠错方法、系统、存储介质和装置 |
CN114528368A (zh) * | 2021-11-12 | 2022-05-24 | 南京师范大学 | 基于预训练语言模型与文本特征融合的空间关系抽取方法 |
CN114528368B (zh) * | 2021-11-12 | 2023-08-25 | 南京师范大学 | 基于预训练语言模型与文本特征融合的空间关系抽取方法 |
CN114003698A (zh) * | 2021-12-27 | 2022-02-01 | 成都晓多科技有限公司 | 一种文本检索方法、系统、设备及存储介质 |
CN114003698B (zh) * | 2021-12-27 | 2022-04-01 | 成都晓多科技有限公司 | 一种文本检索方法、系统、设备及存储介质 |
CN114579688A (zh) * | 2022-04-29 | 2022-06-03 | 中国地质科学院地质力学研究所 | 一种基于gis的地质数据呈现方法及系统 |
CN115114433A (zh) * | 2022-05-19 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 语言模型的训练方法、装置、设备及存储介质 |
CN115114433B (zh) * | 2022-05-19 | 2024-04-02 | 腾讯科技(深圳)有限公司 | 语言模型的训练方法、装置、设备及存储介质 |
CN114926655A (zh) * | 2022-05-20 | 2022-08-19 | 北京百度网讯科技有限公司 | 地理与视觉跨模态预训练模型的训练方法、位置确定方法 |
CN114926655B (zh) * | 2022-05-20 | 2023-09-26 | 北京百度网讯科技有限公司 | 地理与视觉跨模态预训练模型的训练方法、位置确定方法 |
CN114911909A (zh) * | 2022-06-08 | 2022-08-16 | 北京青萌数海科技有限公司 | 结合深度卷积网络和注意力机制的地址匹配方法以及装置 |
CN114911909B (zh) * | 2022-06-08 | 2023-01-10 | 北京青萌数海科技有限公司 | 结合深度卷积网络和注意力机制的地址匹配方法以及装置 |
CN115065567A (zh) * | 2022-08-19 | 2022-09-16 | 北京金睛云华科技有限公司 | 用于dga域名研判推理机的插件化执行方法 |
CN115658886A (zh) * | 2022-09-20 | 2023-01-31 | 广东技术师范大学 | 基于语义文本的智能肝癌分期方法、系统及介质 |
CN115439921A (zh) * | 2022-09-22 | 2022-12-06 | 徐州华讯科技有限公司 | 一种基于眼动图推理的图像偏好预测方法 |
CN116824305A (zh) * | 2023-08-09 | 2023-09-29 | 中国气象服务协会 | 应用于云计算的生态环境监测数据处理方法及系统 |
CN116910186B (zh) * | 2023-09-12 | 2023-11-21 | 南京信息工程大学 | 一种文本索引模型构建方法、索引方法、系统和终端 |
CN116910186A (zh) * | 2023-09-12 | 2023-10-20 | 南京信息工程大学 | 一种文本索引模型构建方法、索引方法、系统和终端 |
CN117033393B (zh) * | 2023-10-08 | 2023-12-12 | 四川酷赛科技有限公司 | 一种基于人工智能的信息存储管理系统 |
CN117033393A (zh) * | 2023-10-08 | 2023-11-10 | 四川酷赛科技有限公司 | 一种基于人工智能的信息存储管理系统 |
Also Published As
Publication number | Publication date |
---|---|
JP2021532432A (ja) | 2021-11-25 |
JP7041281B2 (ja) | 2022-03-23 |
US20210012199A1 (en) | 2021-01-14 |
US11941522B2 (en) | 2024-03-26 |
WO2021000362A1 (zh) | 2021-01-07 |
CN110377686B (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377686A (zh) | 一种基于深度神经网络模型的地址信息特征抽取方法 | |
Zhao et al. | Learning deep features to recognise speech emotion using merged deep CNN | |
CN108897857B (zh) | 面向领域的中文文本主题句生成方法 | |
CN109992779B (zh) | 一种基于cnn的情感分析方法、装置、设备及存储介质 | |
CN111666846B (zh) | 一种人脸属性识别方法和装置 | |
Wang et al. | Learning performance prediction via convolutional GRU and explainable neural networks in e-learning environments | |
CN108765383A (zh) | 基于深度迁移学习的视频描述方法 | |
CN113779220A (zh) | 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法 | |
CN111581368A (zh) | 一种基于卷积神经网络的面向智能专家推荐的用户画像方法 | |
CN116415170A (zh) | 基于预训练语言模型的提示学习小样本分类方法、系统、设备及介质 | |
CN116010581A (zh) | 一种基于电网隐患排查场景的知识图谱问答方法及系统 | |
CN106021402A (zh) | 用于跨模态检索的多模态多类Boosting框架构建方法及装置 | |
Wu et al. | AI for online customer service: Intent recognition and slot filling based on deep learning technology | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
Sood et al. | Neunets: An automated synthesis engine for neural network design | |
Li et al. | Speech recognition based on k-means clustering and neural network ensembles | |
CN117349311A (zh) | 一种基于改进RetNet的数据库自然语言查询方法 | |
CN117197569A (zh) | 图像审核方法、图像审核模型训练方法、装置和设备 | |
Xia | An overview of deep learning | |
Xu et al. | CNN-based skip-gram method for improving classification accuracy of chinese text | |
CN116975743A (zh) | 行业信息分类方法、装置、计算机设备和存储介质 | |
CN114880527B (zh) | 一种基于多预测任务的多模态知识图谱表示方法 | |
CN115809314A (zh) | 基于双层多门控专家混合模型(mmoe)的多任务nl2sql方法 | |
CN115796029A (zh) | 基于显式及隐式特征解耦的nl2sql方法 | |
CN114969087A (zh) | 基于多视角特征解耦的nl2sql方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |