CN110781413B

CN110781413B - 兴趣点确定方法及装置、存储介质、电子设备

Info

Publication number: CN110781413B
Application number: CN201910802810.1A
Authority: CN
Inventors: 张升; 曹睿
Original assignee: Tencent Technology Shenzhen Co Ltd; Tencent Dadi Tongtu Beijing Technology Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Dadi Tongtu Beijing Technology Co Ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2024-01-30
Anticipated expiration: 2039-08-28
Also published as: CN110781413A

Abstract

本公开提供一种基于人工智能的兴趣点确定方法及装置、电子设备、存储介质；涉及人工智能技术领域，并涉及机器学习技术。所述方法包括：获取终端设备的定位坐标，根据定位坐标确定一个或多个候选兴趣点，并获取各候选兴趣点的兴趣点标识信息；获取终端设备所连接的网络的网络标识信息；基于机器学习模型确定网络标识信息与各兴趣点标识信息之间的相似度；将与网络标识信息相似度最高的兴趣点标识信息对应的候选兴趣点作为目标兴趣点。本公开可以提高目标兴趣点确定的准确性。

Description

兴趣点确定方法及装置、存储介质、电子设备

技术领域

本公开涉及人工智能技术领域，具体而言，涉及一种基于人工智能的兴趣点确定方法、基于人工智能的兴趣点确定装置、电子设备以及计算机可读存储介质。

背景技术

兴趣点指可以抽象为点的地理对象，兴趣点可以用于对事物或事件的地址进行描述。在某些场景下，可以对用户到访的兴趣点进行挖掘，以根据用户到访的兴趣点确定用户的行为习惯等。

目前，可以根据用户的定位坐标确定用户所在的兴趣点，例如，将距离定位坐标最近的兴趣点作为用户所在的兴趣点。然而，如果定位坐标的误差较大，确定的兴趣点准确性较低。

发明内容

本公开的目的在于提供一种基于人工智能的兴趣点确定方法、基于人工智能的兴趣点确定装置、电子设备以及计算机可读存储介质，进而在一定程度上克服由于相关技术的限制和缺陷而导致的所确定的兴趣点准确性较低的问题。

根据本公开的第一方面，提供一种基于人工智能的兴趣点确定方法，包括：

获取终端设备的定位坐标，根据所述定位坐标确定一个或多个候选兴趣点，并获取各所述候选兴趣点的兴趣点标识信息；

获取所述终端设备所连接的网络的网络标识信息；

基于机器学习模型确定所述网络标识信息与各所述兴趣点标识信息之间的相似度；

将与所述网络标识信息相似度最高的兴趣点标识信息对应的候选兴趣点作为目标兴趣点。

在本公开的一种示例性实施例中，针对每一所述兴趣点标识信息，确定所述网络标识信息与该兴趣点标识信息之间的相似度，包括：

确定该兴趣点标识信息中各字符的向量并对各字符的向量分别进行特征提取，得到对应的各隐含向量；

确定所述网络标识信息中各字符的向量并对各字符的向量分别进行特征提取，得到对应的各隐含向量；

基于注意力机制，对该兴趣点标识信息的各隐含向量和所述网络标识信息的各隐含向量进行运算，得到多个增强向量；

将所述多个增强向量拼接后进行归一化运算，得到所述网络标识信息和该兴趣点标识信息之间的相似度。

在本公开的一种示例性实施例中，所述基于注意力机制，对该兴趣点标识信息的各隐含向量和所述网络标识信息的各隐含向量进行运算，得到多个增强向量，包括：

针对所述网络标识信息的每个隐含向量，计算该隐含向量与该兴趣点标识信息的各隐含向量之间的注意力分数；

根据该兴趣点标识信息的各隐含向量对应的注意力分数，对该兴趣点标识信息的各隐含向量进行加权平均，得到所述网络标识信息的该隐含向量对应的增强向量。

在本公开的一种示例性实施例中，所述根据该兴趣点标识信息的各隐含向量对应的注意力分数，对该兴趣点标识信息的各隐含向量进行加权平均，得到所述网络标识信息的该隐含向量对应的增强向量，包括：

对该兴趣点标识信息的各隐含向量对应的注意力分数进行归一化运算，确定该兴趣点标识信息的各隐含向量对应的权重；

将该兴趣点标识信息的各隐含向量与对应的权重的乘积之和，作为所述网络标识信息的该隐含向量对应的增强向量。

在本公开的一种示例性实施例中，所述计算该隐含向量与该兴趣点标识信息的各隐含向量之间的注意力分数，包括：

根据公式f(h_i，s)＝u^T tanh(W_h*h_i+W_s*s)计算注意力分数f(h_i，s)；

其中，h_i表示该兴趣点标识信息的第i个隐含向量，i为1～M的整数，M表示该兴趣点标识信息的隐含向量的数量，s表示所述网络标识信息的该隐含向量，u^T、W_h和W_s表示所述机器学习模型的参数。

在本公开的一种示例性实施例中，所述方法还包括：

获取多组样本信息，每组样本信息包括：样本兴趣点标识信息、样本网络标识信息，及对应的该样本网络标识信息和该样本兴趣点标识信息之间的相似度；

根据所述样本兴趣点标识信息、样本网络标识信息以及样本网络标识信息和样本兴趣点标识信息之间的相似度，对所述机器学习模型进行训练。

在本公开的一种示例性实施例中，所述根据所述样本兴趣点标识信息、样本网络标识信息以及样本网络标识信息和样本兴趣点标识信息之间的相似度，对所述机器学习模型进行训练，包括：

针对每组样本信息，确定该组样本信息中的样本兴趣点标识信息中各字符的向量，并对各字符的向量分别进行特征提取，得到对应的各隐含向量；

确定该组样本信息中的样本网络标识信息中各字符的向量并对各字符的向量分别进行特征提取，得到对应的各隐含向量；

基于注意力机制，对该样本兴趣点标识信息的各隐含向量和该样本网络标识信息的各隐含向量进行运算，得到多个样本增强向量；

将所述多个样本增强向量拼接后进行归一化运算，得到该样本网络标识信息和该样本兴趣点标识信息之间的预测相似度；

根据该样本网络标识信息和该样本兴趣点标识信息之间的相似度和所述预测相似度计算损失函数，并根据所述损失函数更新所述机器学习模型。

根据本公开的第二方面，提供一种基于人工智能的兴趣点确定装置，包括：

候选兴趣点确定模块，用于获取终端设备的定位坐标，根据所述定位坐标确定一个或多个候选兴趣点，并获取各所述候选兴趣点的兴趣点标识信息；

网络标识信息获取模块，用于获取所述终端设备所连接的网络的网络标识信息；

相似度确定模块，用于基于机器学习模型确定所述网络标识信息与各所述兴趣点标识信息之间的相似度；

目标兴趣点确定模块，用于将与所述网络标识信息相似度最高的兴趣点标识信息对应的候选兴趣点作为目标兴趣点。

在本公开的一种示例性实施例中，所述相似度确定模块，包括：

兴趣点隐含向量确定单元，用于针对每一所述兴趣点标识信息，确定该兴趣点标识信息中各字符的向量并对各字符的向量分别进行特征提取，得到对应的各隐含向量；

网络隐含向量确定单元，用于确定所述网络标识信息中各字符的向量并对各字符的向量分别进行特征提取，得到对应的各隐含向量；

增强向量确定单元，用于基于注意力机制，对该兴趣点标识信息的各隐含向量和所述网络标识信息的各隐含向量进行运算，得到多个增强向量；

相似度确定单元，用于将所述多个增强向量拼接后进行归一化运算，得到所述网络标识信息和该兴趣点标识信息之间的相似度。

在本公开的一种示例性实施例中，所述增强向量确定单元，包括：

注意力分数确定子单元，用于针对所述网络标识信息的每个隐含向量，计算该隐含向量与该兴趣点标识信息的各隐含向量之间的注意力分数；

加权计算子单元，用于根据该兴趣点标识信息的各隐含向量对应的注意力分数，对该兴趣点标识信息的各隐含向量进行加权平均，得到所述网络标识信息的该隐含向量对应的增强向量。

在本公开的一种示例性实施例中，所述加权计算子单元，具体用于对该兴趣点标识信息的各隐含向量对应的注意力分数进行归一化运算，确定该兴趣点标识信息的各隐含向量对应的权重；将该兴趣点标识信息的各隐含向量与对应的权重的乘积之和，作为所述网络标识信息的该隐含向量对应的增强向量。

在本公开的一种示例性实施例中，所述注意力分数确定子单元，具体用于根据公式f(h_i，s)＝u^T tanh(W_h*h_i+W_s*s)计算注意力分数f(h_i，s)；

在本公开的一种示例性实施例中，所述装置还包括：

样本信息获取模块，用于获取多组样本信息，每组样本信息包括：样本兴趣点标识信息、样本网络标识信息，及对应的该样本网络标识信息和该样本兴趣点标识信息之间的相似度；

模型训练模块，用于根据所述样本兴趣点标识信息、样本网络标识信息以及样本网络标识信息和样本兴趣点标识信息之间的相似度，对所述机器学习模型进行训练。

在本公开的一种示例性实施例中，所述模型训练模块，包括：

样本兴趣点隐含向量确定单元，用于针对每组样本信息，确定该组样本信息中的样本兴趣点标识信息中各字符的向量，并对各字符的向量分别进行特征提取，得到对应的各隐含向量；

样本网络隐含向量确定单元，用于确定该组样本信息中的样本网络标识信息中各字符的向量并对各字符的向量分别进行特征提取，得到对应的各隐含向量；

样本增强向量确定单元，用于基于注意力机制，对该样本兴趣点标识信息的各隐含向量和该样本网络标识信息的各隐含向量进行运算，得到多个样本增强向量；

预测相似度计算单元，用于将所述多个样本增强向量拼接后进行归一化运算，得到该样本网络标识信息和该样本兴趣点标识信息之间的预测相似度；

模型更新单元，用于根据该样本网络标识信息和该样本兴趣点标识信息之间的相似度和所述预测相似度计算损失函数，并根据所述损失函数更新所述机器学习模型。

根据本公开的第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

本公开示例性实施例可以具有以下部分或全部有益效果：

在本公开的一示例实施方式所提供的基于人工智能的兴趣点确定方法及装置，通过机器学习模型可以提取网络标识信息与兴趣点标识信息中的语义信息，即使网络标识信息和兴趣点标识信息中存在不连续的相同字符，或者网络标识信息和兴趣点标识信息中存在字符不相同的近义词时，根据语义信息可以更准确地确定网络标识信息与兴趣点标识信息之间的相似度。因此，在根据相似度确定目标兴趣点时，可以提高目标兴趣点的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的一种基于人工智能的兴趣点确定方法及装置的示例性系统架构的示意图；

图2示意性示出了本公开实施例的基于人工智能的兴趣点确定方法的流程图；

图3示意性示出了本公开实施例的机器学习模型确定相似度的流程图；

图4(a)示意性示出了本公开实施例的机器学习模型的一种结构示意图；

图4(b)示意性示出了本公开实施例的机器学习模型的又一种结构示意图；

图5示意性示出了本公开实施例的一种归一化注意力分数示意图；

图6示意性示出了本公开实施例的又一种归一化注意力分数示意图；

图7示意性示出了本公开实施例的基于注意力机制的机器学习模型的训练方法的一种流程图；

图8示意性示出了本公开实施例的基于注意力机制的机器学习模型的训练方法的又一种流程图；

图9示意性示出了本公开实施例的基于人工智能的兴趣点确定装置的结构示意图；

图10示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的一种基于人工智能的兴趣点确定方法及装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的基于人工智能的兴趣点确定方法一般由服务器105执行，相应地，基于人工智能的兴趣点确定装置一般设置于服务器105中。但本领域技术人员容易理解的是，本公开实施例所提供的基于人工智能的兴趣点确定方法也可以由终端设备101、102、103执行，相应地，基于人工智能的兴趣点确定装置也可以设置于终端设备101、102、103中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例中，可以是终端设备101、102、103将定位坐标和所连接的网络的网络标识信息上传至服务器105，服务器105通过本公开实施例所提供的基于人工智能的兴趣点确定方法确定目标兴趣点。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

以下对本公开实施例的技术方案进行详细阐述：

兴趣点是地理信息系统中的一个术语，是一些与人们生活密切相关的地理实体，如学校、银行、餐馆、超市等。通常情况下，兴趣点的兴趣点标识信息和该兴趣点中的网络标识信息之间是相关联的，例如，该兴趣点的兴趣点标识信息可以是该兴趣点的名称，该兴趣点的网络标识信息也可以是该兴趣点的名称，或者是该兴趣点的名称的近义词、该兴趣点的名称的拼音全称等等。因此，可以通过网络标识信息来辅助确定用户到访的兴趣点，即目标兴趣点。也就是，可以根据用户所使用的终端设备的定位坐标，结合终端设备所连接的网络的网络标识信息确定目标兴趣点。

发明人提供的一种方式是，根据终端设备的定位坐标，确定距离该定位坐标附近的各兴趣点，将终端设备所连接网络的网络标识信息分别和各兴趣点的兴趣点标识信息进行匹配，计算两者之间的相似度，根据得到的各相似度选取目标兴趣点。其中，可以通过最长公共子串的方法计算相似度，即对网络标识信息和兴趣点标识信息匹配的长度进行加权来计算两者的相似度。具体的，首先计算网络标识信息和兴趣点标识信息的最长公共子串长度和匹配单词的数量，并根据以下相似度函数：

得到相似度。

其中，len1表示网络标识信息的长度，len2表示兴趣点标识信息的长度，l表示网络标识信息和兴趣点标识信息匹配的最长公共子串的长度，s表示网络标识信息和兴趣点标识信息匹配的单词数量，sim表示相似度，η,θ,β为预设参数。

然而，该方法对于匹配长度进行非线性加权的系数(上述η,θ,β)是根据经验人为设置的，基于相同字符的匹配，导致近义词、同义词、近义字、同义字无法处理，并且，对于字符有间隔、颠倒等情况无法处理，导致所确定的目标兴趣点的准确性较低。

为了解决上述问题，本公开提供了一种基于人工智能的兴趣点确定方法，参见图2，包括以下步骤：

步骤S210，获取终端设备的定位坐标，根据定位坐标确定一个或多个候选兴趣点，并获取各候选兴趣点的兴趣点标识信息。

步骤S220，获取终端设备所连接的网络的网络标识信息。

步骤S230，基于机器学习模型确定网络标识信息与各兴趣点标识信息之间的相似度。

步骤S240，将与网络标识信息相似度最高的兴趣点标识信息对应的候选兴趣点作为目标兴趣点。

本示例实施方式的基于人工智能的兴趣点确定方法，通过机器学习模型可以提取网络标识信息与兴趣点标识信息中的语义信息，即使网络标识信息和兴趣点标识信息中存在不连续的相同字符，或者网络标识信息和兴趣点标识信息中存在字符不相同的近义词时，根据语义信息可以更准确地确定网络标识信息与兴趣点标识信息之间的相似度。因此，在根据相似度确定目标兴趣点时，可以提高目标兴趣点的准确性。

下面，对于本示例实施方式的上述步骤进行更加详细的说明。

在步骤S210中，获取终端设备的定位坐标，根据定位坐标确定一个或多个候选兴趣点，并获取各候选兴趣点的兴趣点标识信息。

本公开实施例中，终端设备可以是智能手机、平板电脑等，可以通过卫星定位、移动基站定位等定位方式获取终端设备的定位坐标，该定位坐标可以是三维位置坐标，在确定目标兴趣点时表示高度的位置坐标可以忽略不计，因此定位坐标还可以是二维位置坐标。每个兴趣点可以有对应的兴趣点标识信息，该兴趣点标识信息用于与其他兴趣点进行区分，可以是兴趣点的名称等信息。

如前所述，对于同一兴趣点，兴趣点标识信息和网络标识信息之间通常是相关联的，相应地，对于不同的兴趣点，兴趣点标识信息和网络标识信息之间是不相关的。因此，在根据定位坐标确定一个或多个候选兴趣点时，可以选取与定位坐标之间的距离小于距离阈值的各兴趣点作为候选兴趣点。其中，距离阈值可以是预先设定的值，例如，可以是250米、500米等，在此不做限定。

在步骤S220中，获取终端设备所连接的网络的网络标识信息。

本公开实施例中，终端设备所连接的网络可以是无线网等，网络标识信息用于与其他网络进行区分，可以是无线网的服务集标识SSID，或者其他可以标识网络的信息等，在此不做限定。

在步骤S230中，基于机器学习模型确定网络标识信息与各兴趣点标识信息之间的相似度。

本公开实施例中，网络标识信息和兴趣点标识信息可以是中文，也可以是英文或其他，为了提高计算网络标识信息和兴趣点标识信息之间相似度的准确性，可以分别对网络标识信息和兴趣点标识信息进行清洗处理。即，将网络标识信息和兴趣点标识信息均表示为多种形式，例如，可以均表示为中文、中文拼音全称、中文拼音缩写、英文全称、英文全称缩写等。在确定相似度时，分别将中文的网络标识信息和中文的兴趣点标识信息输入机器学习模型，得到一个相似度；或者，分别将中文拼音全称的网络标识信息和中文拼音全称的兴趣点标识信息输入机器学习模型，得到另一个相似度；按照该方式，还可以计算中文拼音缩写、英文全称、英文全称缩写对应的相似度。这样，可以得到多个相似度，选取多个相似度中的最大值作为网络标识信息和兴趣点标识信息之间的相似度。针对每个兴趣点标识信息，均可以按照上述方式计算网络标识信息和该兴趣点标识信息之间的相似度，可以得到网络标识信息与各兴趣点标识信息之间的相似度。

本公开实施例的机器学习模型可以是基于注意力机制的机器学习模型，注意力机制是模拟人类的视觉注意力行为，人类在观察一幅画的时候，在全局扫描图像后，会得到需要注意的目标区域，然后投入更多关注，从而获得目标区域的细节信息。因此，可以将人类的注意力行为抽象出来，应用在机器学习模型中。本公开实施例中，针对每一兴趣点标识信息，机器学习模型对网络标识信息和该兴趣点标识信息的处理过程，可参见图3，包括以下步骤：

步骤S310，确定该兴趣点标识信息中各字符的向量并对各字符的向量分别进行特征提取，得到对应的各隐含向量。

步骤S320，确定网络标识信息中各字符的向量并对各字符的向量分别进行特征提取，得到对应的各隐含向量。

步骤S310中兴趣点标识信息和步骤S320网络标识信息的处理过程相同，在此以兴趣点标识信息为例进行说明。具体的，兴趣点标识信息中通常包含多个字符，可以对每个字符进行独热编码，得到每个字符的向量，即独热编码向量，向量的维度是所有字符个数。独热编码即一位有效编码，主要是采用Q位状态寄存器来对Q个状态进行编。本公开也可以通过其他编码方式对兴趣点标识信息进行编码，在此不做限定。

本公开实施例中，基于注意力机制的机器学习模型可参见图4(a)，包括：嵌入层、神经网络层、注意力层、连接层和归一化层。在得到独热编码向量后，可以将独热编码向量输入到机器学习模型的嵌入层，嵌入层可以把各字符的独热编码向量构成的矩阵，通过一些线性变换变成密集矩阵，即将高维稀疏且不相关的独热编码向量投影到低维的向量。

之后还可以通过神经网络层对兴趣点标识信息中各字符的低维向量进行隐含特征的提取，本公开可以通过长短期记忆网络提取隐含特征，得到兴趣点标识信息中各字符对应的隐含向量。其中，长短期记忆网络是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。当然，也可以通过卷积神经网络、循环神经网络或其他网络提取隐含特征，在此不做限定。

步骤S330，基于注意力机制，对该兴趣点标识信息的各隐含向量和网络标识信息的各隐含向量进行运算，得到多个增强向量。

在注意力层，针对网络标识信息的每个隐含向量，可以计算该隐含向量与该兴趣点标识信息的各隐含向量之间的注意力分数。也就是，网络标识信息的各隐含向量和兴趣点标识信息的各隐含向量之间均可以计算注意力分数，这样，可以充分挖掘语义相关性。具体可以根据公式f(h_i，s)＝u^T tanh(W_h*h_i+W_s*s)计算注意力分数f(h_i，s)；

其中，h_i表示该兴趣点标识信息的第i个隐含向量，i为1～M的整数，M表示该兴趣点标识信息的隐含向量的数量，s表示网络标识信息的该隐含向量，u^T、W_h和W_s表示机器学习模型的参数，

之后，根据该兴趣点标识信息的各隐含向量对应的注意力分数，对该兴趣点标识信息的各隐含向量进行加权平均，得到网络标识信息的该隐含向量对应的增强向量。

具体的，可以对该兴趣点标识信息的各隐含向量对应的注意力分数进行归一化运算，确定该兴趣点标识信息的各隐含向量对应的权重；将该兴趣点标识信息的各隐含向量与对应的权重的乘积之和，作为网络标识信息的该隐含向量对应的增强向量。参见图4(b)，以网络标识信息的第一个字符对应的隐含向量s1为例进行说明，可以根据上述公式，计算隐含向量s1与兴趣点标识信息中所有字符的隐含向量h₁，h₂，...h_M的注意力分数f(h_i，s1)。各注意力分数f(h_i，s1)经过归一化可以得到权重a₁，...，a_M。然后与兴趣点标识信息中所有字符的隐含向量做加权平均，得到增强向量c₁，即按照相同的方式，可以得到网络标识信息的其他隐含向量s2，...，sn对应的增强向量c₂，...c_N，N表示网络标识信息中字符的数量。

其中，归一化后的注意力分数即权重可参见图5和图6，图5和图6中水平方向表示兴趣点标识信息，竖直方向表示网络标识信息，可以看出，即使网络标识信息和兴趣点标识信息中相同字符出现了跳跃、间隔，也能够正确匹配上，得到重点注意。需要说明的是，由于不同兴趣点标识信息对应的隐含向量的数量是不同的，不同网络标识信息对应的隐含向量也是不同的，在此，可以对兴趣点标识信息的隐含向量的数量以及网络标识信息的隐含向量的数量分别设置固定长度的值。例如，在兴趣点标识信息的隐含向量的数量小于该固定值时，可以补充随机隐含向量；在兴趣点标识信息的隐含向量的数量大于该固定值时，可以进行截断处理等。

步骤S340，将多个增强向量拼接后进行归一化运算，得到网络标识信息和该兴趣点标识信息之间的相似度。

其中，机器学习模型中的连接层可以将两个及以上的特征进行拼接，即可以将增强向量c₁,c₂,…c_N进行拼接。之后，可以通过池化处理和归一化运算，得到网络标识信息和兴趣点标识信息之间的相似度。

可见，本公开实施例的机器学习模型，通过注意力机制对网络标识信息中的每个字符聚焦兴趣点标识信息中所有字符的重点匹配单元，有效避免兴趣点标识信息出现间隔或者逆序带来的影响，提高相似度计算的准确性。并且，通过机器学习模型还可以利用字符之间的语义相关性，对近义词、同义词、近义字、同义字等进行处理，进一步提高相似度计算的准确性。

相应地，上述基于注意力机制的机器学习模型的训练方法，可参见图7，包括以下步骤：

步骤S710，获取多组样本信息，每组样本信息包括：样本兴趣点标识信息、样本网络标识信息，及对应的该样本网络标识信息和该样本兴趣点标识信息之间的相似度。

机器学习模型是基于大量的样本信息训练得到，样本信息的获取方法具体可以为：获取多个样本网络标识信息，确定每个样本网络标识信息对应的样本兴趣点标识信息。如前所述，由于距离较远的不同位置的网络标识信息和兴趣点标识信息通常是不相关的，因此，在获取样本网络标识信息之后，可以获取样本网络标识信息所在位置附近的兴趣点标识信息作为候选样本兴趣点标识信息。针对每个候选样本兴趣点标识信息，可以通过连续最长公共子串的方法计算样本网络标识信息和该候选样本兴趣点标识信息之间的相似度。将与样本网络标识信息相似度最高的候选样本兴趣点标识信息、该样本网络信息以及两者之间的相似度作为一组信息。

针对任一组信息，若该组信息中样本网络标识信息和样本兴趣点标识信息之间的相似度大于相似度阈值，将该样本网络标识信息和样本兴趣点标识信息之间的相似度设置为1；否则，将该样本网络标识信息和样本兴趣点标识信息之间的相似度设置为0。在设置之后，可以将该组信息作为样本信息。其中，相似度阈值可以是0.6或0.7等大于0.5且小于1的数值，在此不做限定。在选取样本信息时，为了提高机器学习模型的准确性，样本信息中相似度是0和1的比例可以是接近1:1的值，例如，样本信息中相似度是0和1的比例是100:98，也可以是1:1等，在此不做限定。

步骤S720，根据样本兴趣点标识信息、样本网络标识信息以及样本网络标识信息和样本兴趣点标识信息之间的相似度，对机器学习模型进行训练。

本公开实施例中，对机器学习模型训练的过程，也就是不断更新机器学习模型中参数的过程。具体可参见图8，包括以下步骤：

步骤S810，针对每组样本信息，确定该组样本信息中的样本兴趣点标识信息中各字符的向量，并对各字符的向量分别进行特征提取，得到对应的各隐含向量。

步骤S820，确定该组样本信息中的样本网络标识信息中各字符的向量并对各字符的向量分别进行特征提取，得到对应的各隐含向量。

步骤S830，基于注意力机制，对该样本兴趣点标识信息的各隐含向量和该样本网络标识信息的各隐含向量进行运算，得到多个样本增强向量。

步骤S840，将多个样本增强向量拼接后进行归一化运算，得到该样本网络标识信息和该样本兴趣点标识信息之间的预测相似度。

上述步骤S810～步骤S840，分别与步骤S310～步骤S340的处理过程类似，详细过程可参见步骤S410～步骤S440中的描述即可，在此不再赘述。

步骤S850，根据该样本网络标识信息和该样本兴趣点标识信息之间的相似度和预测相似度计算损失函数，并根据损失函数更新机器学习模型。

本公开实施例中，机器学习模型中的参数(u^T、W_h和W_s)是预先设置的，在训练的过程中，可以通过梯度下降法，根据反向传播原理，不断计算损失函数，并根据损失函数更新机器学习模型中的参数，其中，损失函数可以用来估量模型的预测值与真实值的不一致程度。由于机器学习模型的参数是自动学习到的，因此，本公开可以减少人为干预。最终训练得到的机器学习模型平均准确率大于90％，召回率大于90％。其中，准确率和召回率可以用来评价结果的质量，准确率衡量的是查准率，召回率衡量的是查全率。

在步骤S240中，将与网络标识信息相似度最高的兴趣点标识信息对应的候选兴趣点作为目标兴趣点。

可以理解的是，对于网络标识信息与各兴趣点标识信息之间的相似度，相似度越高，表示网络标识信息与兴趣点标识信息相关性越高；相似度越小，表示网络标识信息与兴趣点标识信息相关性越低。因此，可以将与网络标识信息相似度最高的兴趣点标识信息对应的候选兴趣点作为目标兴趣点。

在确定目标兴趣点之后，还可以建立网络标识信息和兴趣点标识信息的映射关系。针对每个网络标识信息，均可以建立对应的兴趣点标识信息。这样，在获取终端设备所连接的网络标识信息后，可以直接根据该映射关系确定对应的兴趣点标识信息，从而可以确定用户到访的兴趣点。本公开在全量的网络标识信息与兴趣点标识信息上进行测试，结果表明，与现有技术相比，在最终建立的映射关系中，网络标识信息的数量提高17％，兴趣点标识信息的数量提高24％。

另外，针对每个终端设备，可以将确定该终端设备的目标兴趣点的时刻，作为该终端设备的到访时刻。这样，在接收到到访统计请求时，还可以根据到访统计请求中的时间段和兴趣点，统计在该时间段到访该兴趣点的终端设备的数量。

本示例实施方式的基于人工智能的兴趣点确定方法，通过基于注意力机制的机器学习模型提取网络标识信息与兴趣点标识信息中的语义信息时，可以提取语义信息中更多的细节信息。这样，即使网络标识信息和兴趣点标识信息中存在不连续的相同字符，或者网络标识信息和兴趣点标识信息中存在字符不相同的近义词时，根据语义信息可以更准确地确定网络标识信息与兴趣点标识信息之间的相似度。从而在根据相似度确定目标兴趣点时，可以提高所确定的目标兴趣点的准确性。本公开还可以通过建立网络标识信息和兴趣点标识信息的映射关系，在保证准确率的基础上，匹配更多的网络标识信息和兴趣点标识信息。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中，还提供了一种基于人工智能的兴趣点确定装置900，参考图9所示，包括：

候选兴趣点确定模块910，用于获取终端设备的定位坐标，根据定位坐标确定一个或多个候选兴趣点，并获取各候选兴趣点的兴趣点标识信息；

网络标识信息获取模块920，用于获取终端设备所连接的网络的网络标识信息；

相似度确定模块930，用于基于机器学习模型确定网络标识信息与各兴趣点标识信息之间的相似度；

目标兴趣点确定模块940，用于将与网络标识信息相似度最高的兴趣点标识信息对应的候选兴趣点作为目标兴趣点。

在本公开的一种示例性实施例中，相似度确定模块，包括：

兴趣点隐含向量确定单元，用于针对每一兴趣点标识信息，确定该兴趣点标识信息中各字符的向量并对各字符的向量分别进行特征提取，得到对应的各隐含向量；

网络隐含向量确定单元，用于确定网络标识信息中各字符的向量并对各字符的向量分别进行特征提取，得到对应的各隐含向量；

增强向量确定单元，用于基于注意力机制，对该兴趣点标识信息的各隐含向量和网络标识信息的各隐含向量进行运算，得到多个增强向量；

相似度确定单元，用于将多个增强向量拼接后进行归一化运算，得到网络标识信息和该兴趣点标识信息之间的相似度。

在本公开的一种示例性实施例中，增强向量确定单元，包括：

注意力分数确定子单元，用于针对网络标识信息的每个隐含向量，计算该隐含向量与该兴趣点标识信息的各隐含向量之间的注意力分数；

加权计算子单元，用于根据该兴趣点标识信息的各隐含向量对应的注意力分数，对该兴趣点标识信息的各隐含向量进行加权平均，得到网络标识信息的该隐含向量对应的增强向量。

在本公开的一种示例性实施例中，加权计算子单元，具体用于对该兴趣点标识信息的各隐含向量对应的注意力分数进行归一化运算，确定该兴趣点标识信息的各隐含向量对应的权重；将该兴趣点标识信息的各隐含向量与对应的权重的乘积之和，作为网络标识信息的该隐含向量对应的增强向量。

在本公开的一种示例性实施例中，注意力分数确定子单元，具体用于根据公式f(h_i，s)＝u^T tanh(W_h*h_i+W_s*s)计算注意力分数f(h_i，s)；

其中，h_i表示该兴趣点标识信息的第i个隐含向量，i为1～M的整数，M表示该兴趣点标识信息的隐含向量的数量，s表示网络标识信息的该隐含向量，u^T、W_h和W_s表示机器学习模型的参数。

在本公开的一种示例性实施例中，装置还包括：

模型训练模块，用于根据样本兴趣点标识信息、样本网络标识信息以及样本网络标识信息和样本兴趣点标识信息之间的相似度，对机器学习模型进行训练。

在本公开的一种示例性实施例中，模型训练模块，包括：

预测相似度计算单元，用于将多个样本增强向量拼接后进行归一化运算，得到该样本网络标识信息和该样本兴趣点标识信息之间的预测相似度；

模型更新单元，用于根据该样本网络标识信息和该样本兴趣点标识信息之间的相似度和预测相似度计算损失函数，并根据损失函数更新机器学习模型。

上述基于人工智能的兴趣点确定装置中各模块或单元的具体细节已经在对应的方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本公开的示例性实施例中，还提供一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行本示例实施方式中的基于人工智能的兴趣点确定方法的全部或者部分步骤。

图10示出了用于实现本公开实施例的电子设备的计算机系统的结构示意图。需要说明的是，图10示出的电子设备的计算机系统1000仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统1000包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如局域网(LAN)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的装置中限定的各种功能。在一些实施例中，计算机系统1000还可以包括人工智能处理器，该人工智能处理器用于处理有关机器学习的计算操作。

在本公开的示例性实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

需要说明的是，本公开所示的计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频等等，或者上述的任意合适的组合。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种基于人工智能的兴趣点确定方法，其特征在于，所述方法包括：

获取所述终端设备所连接的网络的网络标识信息；

根据基于注意力机制的机器学习模型确定所述网络标识信息与各所述兴趣点标识信息之间的相似度；

将与所述网络标识信息相似度最高的兴趣点标识信息对应的候选兴趣点作为目标兴趣点；

其中，针对每一所述兴趣点标识信息，确定所述网络标识信息与该兴趣点标识信息之间的相似度，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于注意力机制，对该兴趣点标识信息的各隐含向量和所述网络标识信息的各隐含向量进行运算，得到多个增强向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据该兴趣点标识信息的各隐含向量对应的注意力分数，对该兴趣点标识信息的各隐含向量进行加权平均，得到所述网络标识信息的该隐含向量对应的增强向量，包括：

4.根据权利要求2所述的方法，其特征在于，所述计算该隐含向量与该兴趣点标识信息的各隐含向量之间的注意力分数，包括：

根据公式f(h_i，s)＝u^Ttanh(W_h*h_i+W_s*s)计算注意力分数f(h_i，s)；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述机器学习模型进行训练，包括：

7.一种基于人工智能的兴趣点确定装置，其特征在于，所述装置包括：

相似度确定模块，用于根据基于注意力机制的机器学习模型确定所述网络标识信息与各所述兴趣点标识信息之间的相似度；

目标兴趣点确定模块，用于将与所述网络标识信息相似度最高的兴趣点标识信息对应的候选兴趣点作为目标兴趣点；

其中，所述相似度确定模块针对每一所述兴趣点标识信息，确定所述网络标识信息与该兴趣点标识信息之间的相似度的过程包括：

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～6任一项所述的方法。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～6任一项所述的方法。