CN112579793A - 模型的训练方法、poi标签检测方法和装置 - Google Patents

模型的训练方法、poi标签检测方法和装置 Download PDF

Info

Publication number
CN112579793A
CN112579793A CN202011555428.4A CN202011555428A CN112579793A CN 112579793 A CN112579793 A CN 112579793A CN 202011555428 A CN202011555428 A CN 202011555428A CN 112579793 A CN112579793 A CN 112579793A
Authority
CN
China
Prior art keywords
poi
probability
label
text
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011555428.4A
Other languages
English (en)
Other versions
CN112579793B (zh
Inventor
贺夏龙
康文云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Chuangxin Journey Network Technology Co ltd
Original Assignee
Beijing Chuangxin Journey Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Chuangxin Journey Network Technology Co ltd filed Critical Beijing Chuangxin Journey Network Technology Co ltd
Priority to CN202011555428.4A priority Critical patent/CN112579793B/zh
Publication of CN112579793A publication Critical patent/CN112579793A/zh
Application granted granted Critical
Publication of CN112579793B publication Critical patent/CN112579793B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Abstract

本申请提供一种模型的训练方法、POI标签检测方法和装置,该方法包括:获取数据源,数据源包括多个文本;对各文本进行分析,得到文本中包括POI的概率、以及文本标注为各POI标签的概率;根据文本确定POI分别与各POI标签之间的距离;构建POI在预设时间段内的图谱;根据多个文本中包括各POI的概率、各POI标签的概率、POI分别与各POI标签之间的距离以及图谱,确定POI在预设时间段内对应的特征向量;根据各POI在预设时间段内对应的特征向量和各POI的标注标签对初始训练模型进行训练,得到POI标签检测模型。本申请能够提高POI、时间和POI标签之间的关系确定的效率。

Description

模型的训练方法、POI标签检测方法和装置
技术领域
本发明涉及计算机技术,尤其涉及一种模型的训练方法、POI标签检测方法和装置。
背景技术
随着人们生活水平的提高,越来越多的用户选择旅行以进行休闲放松。有很多的用户会在旅行过程中记录他们的旅行感受以及相关体验,另外,也会有很多其他用户在搜索、浏览和阅读这些内容,以筛选出自己想去的兴趣点(Point of Interest,POI),以及与该POI相关的POI标签,从而制定自己的旅行计划和旅行攻略,其中,POI标签为某些用来表征该POI的特征或者特色的内容。
然而,很多用户在记录自己的旅行感受和相关体验时,可能会存在信息不准确、信息过时或者有价值的信息过少等问题,其他用户想要在这些信息中找到自己所需要的内容,就需要翻阅大量的内容,而且需要人工判断哪些信息是准确的且有价值的,在筛选出这些信息之后,再根据这些信息确定POI以及POI标签。然而,上述方式中,不仅POI以及POI标签的确定效率较低,而且还会造成大量人力的浪费。
发明内容
为解决现有技术中存在的问题,本发明提供一种模型的训练方法、POI标签检测方法和装置,能够提高POI、时间和POI标签之间的关系确定的效率,降低人力物力资源的浪费。
第一方面,本申请实施例提供了一种模型的训练方法,包括:
获取数据源;所述数据源包括多个文本;
针对任一个文本,对所述文本进行分析,得到所述文本中包括POI的概率、以及所述文本标注为与所述POI相关的各POI标签的概率;其中,所述POI标签用于标识所述POI的特征;
根据所述文本确定所述POI分别与所述各POI标签之间的距离;
根据多个用户在预设时间段内对所述POI的搜索行为,构建所述POI在所述预设时间段内的图谱;
根据所述多个文本中包括各POI的概率、与所述POI相关的各POI标签的概率、所述POI分别与所述各POI标签之间的距离以及所述图谱,确定所述POI在所述预设时间段内对应的特征向量;
根据各POI在所述预设时间段内对应的特征向量和所述各POI的标注标签对初始训练模型进行训练,得到POI标签检测模型;所述POI标签检测模型用于检测待处理文本中所述POI在所述预设时间段内对应的POI标签。
可选的,所述根据所述多个文本中包括各POI的概率、与所述POI相关的各POI标签的概率、所述POI分别与所述各POI标签之间的距离以及所述图谱,确定所述POI在所述预设时间段内对应的特征向量,包括:
根据所述各POI的概率、与所述POI相关的各POI标签的概率、所述POI分别与所述各POI标签之间的距离,生成关联矩阵;其中,所述关联矩阵的每一行中的元素表示各POI和与所述POI对应的所述POI标签标注于同一文本的概率;
根据所述关联矩阵和所述图谱生成所述POI在所述预设时间段内对应的特征向量。
可选的,所述根据所述各POI的概率、与所述POI相关的各POI标签的概率、所述POI分别与所述各POI标签之间的距离,生成关联矩阵,包括:
针对各所述POI,若所述POI和所述与所述POI相关的各POI标签标注于同一文本中的最大概率对应的POI标签,与所述POI和与所述各POI标签之间的最小距离对应的POI标签不同,则根据所述最小距离、所述最大概率以及所述最大概率对应的标签POI对应的距离,对所述最小距离对应的POI标签的概率进行更新;
根据所述各所述POI各自对应的POI标签的概率生成所述关联矩阵。
可选的,所述根据所述关联矩阵和所述图谱生成所述POI在所述预设时间段内对应的特征向量,包括:
确定所述POI在所述图谱中的入度POI和出度POI;
根据所述入度POI和所述关联矩阵,确定所述POI对应的入度特征,并根据所述出度POI和所述关联矩阵,确定所述POI对应的出度特征;
获取所述POI的基础属性特征,以及对所述POI有搜索行为的用户的特征信息;
根据所述入度特征、所述出度特征、所述基础属性特征以及所述用户的特征信息生成所述POI在所述预设时间段内对应的所述特征向量。
可选的,所述根据所述入度POI和所述关联矩阵,确定所述POI对应的入度特征,包括:
在所述关联矩阵中,确定所述POI和各POI标签标注于同一文本中的概率;
在所述关联矩阵中,确定与所述入度POI和各POI标签标注于同一文本中的概率;
根据所述图谱确定所述入度POI的入度边的权重;所述权重用于表示依次搜索过所述入度POI和所述POI的用户数;
根据所述POI和各POI标签标注于同一文本中的概率、所述入度POI和各POI标签标注于同一文本中的概率,以及所述入度边的权重,确定所述POI对应的入度特征。
可选的,所述根据所述出度POI和所述关联矩阵,确定所述POI对应的出度特征,包括:
在所述关联矩阵中,确定所述POI和各POI标签标注于同一文本中的概率;
在所述关联矩阵中,确定所述出度POI和各POI标签标注于同一文本中的概率;
根据所述图谱确定所述出度POI的出度边的权重;所述权重用于表示依次搜索过所述POI和所述出度POI的用户数;
根据所述POI和各POI标签标注于同一文本中的概率、所述出度POI和各POI标签标注于同一文本中的概率,以及所述出度边的权重,确定所述POI对应的出度特征。
可选的,所述根据多个用户在预设时间段内对所述POI的搜索行为,构建所述POI在所述预设时间段内的图谱,包括:
根据多个用户在预设时间段内对所述POI的搜索行为,确定所述多个用户搜索过的POI,以及搜索顺序;
根据所述搜索顺序,确定所述图谱中各个边的入度POI和出度POI;
针对所述各个边,根据所述多个用户搜索过的POI和所述搜索顺序,将依次搜索过所述入度POI和所述出度POI的用户数确定为所述边的权重。
可选的,所述根据所述文本确定所述POI分别与所述各POI标签之间的距离,包括:
对所述文本进行分词处理,得到多个分词;其中,所述分词中包括所述POI和所述各POI标签;
根据各分词对应的词向量确定所述POI分别与所述各POI标签之间的距离。
第二方面,本申请实施例还提供了一种POI标签检测方法,包括:
获取待处理文本;
将所述待处理文本输入至第一方面所述的POI标签检测模型,得到所述待处理文本中的POI在所述预设时间段内对应的POI标签;
输出所述POI在所述预设时间段内对应的POI标签。
第三方面,本申请实施例还提供了一种POI标签检测模型的训练装置,包括:
获取单元,用于获取数据源,所述数据源包括多个文本;
处理单元,用于针对任一个文本,对所述文本进行分析,得到所述文本中包括POI的概率、以及所述文本标注为与所述POI相关的各POI标签的概率;其中,所述POI标签用于标识所述POI的特征;
确定单元,用于根据所述文本确定所述POI分别与所述各POI标签之间的距离;
所述处理单元,还用于根据多个用户在预设时间段内对所述POI的搜索行为,构建所述POI在所述预设时间段内的图谱;
所述确定单元,还用于根据所述多个文本中包括各POI的概率、与所述POI相关的各POI标签的概率、所述POI分别与所述各POI标签之间的距离以及所述图谱,确定所述POI在所述预设时间段内对应的特征向量;
训练单元,用于根据各POI在所述预设时间段内对应的特征向量和所述各POI的标注标签对初始训练模型进行训练,得到POI标签检测模型;所述POI标签检测模型用于检测待处理文本中所述POI在所述预设时间段内对应的POI标签。
可选的,所述确定单元,具体用于:
根据所述各POI的概率、与所述POI相关的各POI标签的概率、所述POI分别与所述各POI标签之间的距离,生成关联矩阵;其中,所述关联矩阵的每一行中的元素表示各POI和与所述POI对应的所述POI标签标注于同一文本的概率;
根据所述关联矩阵和所述图谱生成所述POI在所述预设时间段内对应的特征向量。
可选的,所述确定单元,具体用于:
针对各所述POI,若所述POI和所述与所述POI相关的各POI标签标注于同一文本中的最大概率对应的POI标签,与所述POI和与所述各POI标签之间的最小距离对应的POI标签不同,则根据所述最小距离、所述最大概率以及所述最大概率对应的标签POI对应的距离,对所述最小距离对应的POI标签的概率进行更新;
根据所述各所述POI各自对应的POI标签的概率生成所述关联矩阵。
可选的,所述确定单元,具体用于:
确定所述POI在所述图谱中的入度POI和出度POI;
根据所述入度POI和所述关联矩阵,确定所述POI对应的入度特征,并根据所述出度POI和所述关联矩阵,确定所述POI对应的出度特征;
获取所述POI的基础属性特征,以及对所述POI有搜索行为的用户的特征信息;
根据所述入度特征、所述出度特征、所述基础属性特征以及所述用户的特征信息生成所述POI在所述预设时间段内对应的所述特征向量。
可选的,所述确定单元,具体用于:
在所述关联矩阵中,确定所述POI和各POI标签标注于同一文本中的概率;
在所述关联矩阵中,确定与所述入度POI和各POI标签标注于同一文本中的概率;
根据所述图谱确定所述入度POI的入度边的权重;所述权重用于表示依次搜索过所述入度POI和所述POI的用户数;
根据所述POI和各POI标签标注于同一文本中的概率、所述入度POI和各POI标签标注于同一文本中的概率,以及所述入度边的权重,确定所述POI对应的入度特征。
可选的,所述确定单元,具体用于:
在所述关联矩阵中,确定所述POI和各POI标签标注于同一文本中的概率;
在所述关联矩阵中,确定所述出度POI和各POI标签标注于同一文本中的概率;
根据所述图谱确定所述出度POI的出度边的权重;所述权重用于表示依次搜索过所述POI和所述出度POI的用户数;
根据所述POI和各POI标签标注于同一文本中的概率、所述出度POI和各POI标签标注于同一文本中的概率,以及所述出度边的权重,确定所述POI对应的出度特征。
可选的,所述处理单元,具体用于:
根据多个用户在预设时间段内对所述POI的搜索行为,确定所述多个用户搜索过的POI,以及搜索顺序;
根据所述搜索顺序,确定所述图谱中各个边的入度POI和出度POI;
针对所述各个边,根据所述多个用户搜索过的POI和所述搜索顺序,将依次搜索过所述入度POI和所述出度POI的用户数确定为所述边的权重。
可选的,所述确定单元,具体用于:
对所述文本进行分词处理,得到多个分词;其中,所述分词中包括所述POI和所述各POI标签;
根据各分词对应的词向量确定所述POI分别与所述各POI标签之间的距离。
第四方面,本申请实施例还提供了一种POI标签检测装置,包括:
获取单元,用于获取待处理文本;
处理单元,用于将所述待处理文本输入至第三方面所述的POI标签检测模型,得到所述待处理文本中的POI在所述预设时间段内对应的POI标签;
输出单元,用于输出所述POI在所述预设时间段内对应的POI标签。
第五方面,本申请实施例还提供了一种电子设备,包括处理器和存储器;其中,所述存储器,用于存储计算机程序;
所述处理器,用于读取所述存储器存储的计算机程序,并根据所述存储器中的计算机程序执行上述第一方面所述的模型的训练方法;或者,根据所述存储器中的计算机程序执行上述第二方面所述的POI标签检测方法。
第六方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述第一方面所述的模型的训练方法;或者,实现上述第二方面所述的POI标签检测方法。
第七方面,本申请实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现上述第一方面所述的模型的训练方法;或者,实现上述第二方面所述的POI标签检测方法。
本申请提供的模型的训练方法、POI标签检测方法和装置,通过获取数据源,并针对数据源中的任意一个文本,对该文本进行分析,得到文本中包括POI的概率、以及文本标注为与POI相关的各POI标签的概率,并根据文本确定POI分别与各POI标签之间的距离,还可以根据多个用户在预设时间段内对POI的搜索行为,构建POI在预设时间段内的图谱,根据多个文本中包括各POI的概率、与POI相关的各POI标签的概率、POI分别与各POI标签之间的距离以及图谱,确定POI在预设时间段内对应的特征向量,然后根据各POI在预设时间段内对应的特征向量和各POI的标注标签对初始训练模型进行训练,得到POI标签检测模型,该POI标签检测模型用于检测待处理文本中POI在预设时间段内对应的POI标签。由于通过用户发布的文本,挖掘出POI和各POI标签的概率,以及POI分别与各POI标签之间的距离,并结合用户在预设时间段内的搜索行为构建图谱,从而确定出特征向量,以此训练出POI标签检测模型,由于该POI标签检测模型是集合用户在预设时间段内的搜索行为确定出的,因此,可以提高该POI标签检测模型的准确性。另外,可以根据该POI标签检测模型,快速的从大量的待处理文本中检测出POI、POI标签以及时间之间的关系,从而不仅可以提高POI以及POI标签确定的效率,而且可以提高准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的模型的训练方法的系统架构图;
图2为本申请实施例提供的一种模型的训练方法的流程示意图;
图3为用户通过终端设备发布文本内容的界面示意图;
图4为POI在预设时间段内的图谱的示意图;
图5为本申请实施例提供的一种POI标签检测方法的流程示意图;
图6为POI-时间-POI标签之间的关系示意图;
图7为本申请实施例提供的一种POI标签检测模型的训练装置的结构示意图;
图8为本申请实施例提供的一种POI标签检测装置的结构示意图;
图9为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例提供的模型的训练方法,可以应用于根据已有的文本数据,挖掘POI、POI标签以及时间之间的关系,从而构建知识图谱,以根据该知识图谱,为用户推荐POI以及在某个时间段内与该POI对应的POI标签的场景中。例如,企业会根据挖掘的POI、POI标签以及时间之间的关系,为用户推荐合适的POI,或者推荐预设时间段内,具有相同POI标签的多个POI,或者为用户推荐某个POI对应的POI标签,以供用户快速制定自己的旅行计划或者旅行攻略等。又例如,企业会根据挖掘的POI、POI标签以及时间之间的关系,进行市场分析、优化内部运营等等。
目前,用户在出行时,通常都会在网络上搜索之前其他用户发表的一些内容,以从该内容中筛选出一些正确的以及有价值的内容,从而根据筛选出的内容挖掘出POI、POI标签以及时间之间的关系,以制定出行计划或者攻略。这种方式,一方面是用户需要翻阅大量的内容,才能挖掘出POI以及POI标签,效率较低。另一方面是其他用户发表的内容,往往会存在作者的一些主观意愿,可能会有很多感受偏差,而且一些内容可能会是错误的,这就导致确定出的POI以及POI标签准确性不高。
本申请实施例中考虑到上述问题,提出一种模型的训练方法,该方法的基本构思在于,由于对于一些POI来说,其具备的特征往往不会随着时间的变化而变化的,也不会因为某个人的特定感受而发生改变。基于此,可以通过对多个用户之前记录的文本进行分析,得到每个文本中所出现POI的概率以及与该POI相关的各标签所对应的概率,以及POI分别与各标签之间的距离,确定各POI在预设时间段内对应的特征向量,从而通过这些特征向量构建样本数据,以进行模型的训练。通过训练得到的目标训练模型,可以从大量的待处理文本中检测出POI、POI标签以及时间之间的关系,从而不仅可以提高POI以及POI标签确定的效率,而且可以提高准确性。
在描述本申请的模型的训练方法、POI标签检测方法的方案之前,先根据图1来了解下本申请的系统架构。
图1为本申请实施例提供的模型的训练方法的系统架构图。如图1所示,该系统包括:第一终端设备101-103、服务器104和第二终端设备105。其中,用户在旅行时,可以通过第一终端设备101-103发布游记、自己的感受或者照片等,第一终端设备101-103将这些数据发送到服务器104之后,服务器104会将数据存储到数据库中。
服务器104用于对POI标签检测模型进行训练。该服务器104包括样本数据采集模块,用于从第一终端设备101-103接收用户发布的内容,并根据该内容生成样本数据;POI标签检测模型训练模块,用于根据生成的样本数据,对初始训练模型进行训练,从而得到POI标签检测模型;POI标签检测模块,用于根据训练得到的POI标签检测模型,确定待处理文本中某个POI在预设时间段内所对应的POI标签;POI以及POI标签数据库,用于存储训练得到的POI标签检测模型,以及POI在预设时间段内所对应的POI标签,也即存储POI、POI标签以及时间之间的关系。服务器104可以将得到的POI、POI标签以及时间之间的关系发送给第二终端设备105,或者可以将根据POI、POI标签以及时间之间的关系,处理后的信息发送给第二终端设备,例如:“冬天滑雪的景点排名:长白山、哈尔滨……”等等,这样,用户可以根据该信息,制定自己的旅行信息,或者,企业内部可以根据该信息,进行市场分析或者优化内部管理等。
示例性的,用户可以通过第二终端设备106向服务器104发送查询消息,以触发查询某个POI、POI标签以及时间之间的关系,服务器104在接收到查询消息后,可以从POI以及POI标签数据库中检索上述关系,并将检索到的内容发送给第二终端设备。
需要进行说明的是,上述服务器104中,也可以不包括POI标签检测模块,服务器104将训练得到的POI标签检测模型直接发送给第二终端设备105,第二终端设备106根据该POI标签检测模型,确定待处理文本中某个POI在预设时间段内对应的POI标签。
应该理解,在图1所示的系统架构中,第一终端设备101-103、服务器104以及第二终端设备105的数目仅仅是示例性的,更多或更少的数量都属于本申请的保护范畴。并且,在上述示例运行场景中,第一终端设备和第二终端设备例如可以是个人计算机、服务器、平板、手机、掌上电脑(Personal Digital Assistant,PDA)、笔记本或其它任何具有联网功能的计算设备。终端设备和服务器之间通信的网络可以包括各种类型的有线和无线网络,例如但不局限于:互联网、局域网、无线保真(Wireless Fidelity,WIFI)、无线局域网(Wireless Local Area Networks,WLAN)、蜂窝通信网络(通用分组无线服务技术(GeneralPacket Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、2G/3G/4G/5G蜂窝网络)、卫星通信网络等等。
在了解了本申请的系统架构后,结合图2对本申请的模型的训练方法的方案进行详细说明。
图2为本申请实施例提供的一种模型的训练方法的流程示意图。该方法可以由任意执行模型的训练方法的装置来执行,该装置可以通过软件和/或硬件实现。本实施例中,该装置可以集成在如图1所示的服务器中。如图2所示,本申请实施例提供的模型的训练方法包括如下步骤:
步骤201:获取数据源,该数据源包括多个文本。
图3为用户通过终端设备发布文本内容的界面示意图,如图3所示,用户在旅游过程中,会根据自己所旅游的景点以及自己的感受,发布如图3所示的内容,其中,该内容通常会包含大量的文字和图片,通常也会关联到某个POI。
在本步骤中,可以将用户发布的这些内容作为数据源,其中,该数据源中可以包括多个文本。其中,该多个文本为不同用户发布的内容。
步骤202:针对任一个文本,对该文本进行分析,得到文本中包括POI的概率、以及文本标注为与POI相关的各POI标签的概率;其中,该POI标签用于标识POI的特征。
在本步骤中,当用户上传了自己写的内容之后,服务器会使用自然语言处理算法和图像处理算法,对用户上传的内容进行分析,从而为其标注标签,以及标注上该标签的概率。
具体的,服务器可以根据预先训练好的标签预测模型对获取到的文本进行分析,以确定该文本中包括POI的概率,以及标注为该POI相关的各POI标签的概率。其中,标签预测模型是基于深度卷积神经网络训练构建得到的标签分类模型,并且可以通过人工对样本添加标记的形式确定训练样本并进行训练,以确定训练后的标签预测模型。在这种情况下,可以将得到的文本输入该标签预测模型,模型的输出即为该文本中可能包括的POI、包括该POI的概率,可能包括的POI标签以及包括该POI标签的概率。
其中,对于同一个文本来说,其可能包括一个POI,也可能包括多个POI,对于同一个POI,其可能对应一个POI标签,也可能对应多个POI标签。
其中,标签预测模型中包含了多个标签,而且这些标签按照标签粒度从粗到细的层级结构划分成三层。第一层标签诸如旅行景色,旅行时间,旅行玩法,美食等等,第二层包含城市景观,人文景观,冰雪运动,户外运动等等,第三层级包含滑雪,爬山,自驾等最具体的标签,其中,第三层标签中已经收纳了比较完善的玩法标签。或者,也可以按照标签粒度从粗到细的层级结构划分成四层,如第一层标签包括观光景点、第二层标签包括人文景观、第三层标签包括城市景观、第四层标签包括动物园或者博物馆等等。
示例性的,POI标签用于标识POI的特征,具体可以为上述的玩法标签。例如,POI“XX滑雪场”,其对应的POI特征可以为滑雪等。
举例来说,对于图3所示的文本,服务器将该文本输入到标签预测模型后,将确定出该文本中可能包括的POI以及对应的概率为“绍兴鲁迅故里景区,1”,以及与该POI相关的POI标签和POI标签出现的概率为“新攻略0.43,名人故居0.99,人文景观1,观光景点1,9月”。其中,“名人故居,人文景观,观光景点”都属于玩法类标签,标签后面的数字即为标注为该标签的概率值,如标注成“名人故居”的概率为0.99。
需要进行说明的是,若用户上传的内容中介绍的景点较为集中时,则根据该内容确定出的标签迁移到POI上时也相对较准确。
步骤203:根据文本确定POI分别与各POI标签之间的距离。
其中,POI与POI标签之间的距离越小,说明POI标注为该POI标签的可能性越大。
在一种可能的实现方式中,在确定POI分别与各POI标签之间的距离时,可以是对文本进行分词处理,得到多个分词后,根据各分词对应的词向量确定POI分别与各POI标签之间的距离,其中,该分词中包括POI和各POI标签。
具体的,可以根据预先训练好的分词模型,对每个文本进行处理,从而得到该文本对应的多个分词。其中,分词模型是基于深度卷积神经网络训练构建得到的分词模型,并且可以通过人工对样本添加标记的形式确定训练样本并进行训练,以确定训练后的分词模型,其中,样本中包括有POI以及对应的POI标签。示例性的,上述分词模型可以为Word2Vec模型,当然,也可以为其他模型,只要能对文本进行分词处理即可。在这种情况下,可以将文本输入该分词模型,模型的输出即为该文本对应的多个分词。其中,得到的多个分词中包括有POI以及POI对应的POI标签。
进一步的,可以根据预先构建的POI和POI对应的POI标签之间的对应关系,确定Word2Vec模型中对应的词向量,例如,该词向量的维度可以为200,从而根据确定出的词向量,计算POI与每一个POI标签之间的距离。
另外,为了去除与POI关联度较小的POI标签,以提高确定出的POI与POI标签之间的关系的准确度,对于每一个POI,可以按照POI和POI标签之间的距离从小到大的顺序,保留前预设数量个POI标签,然后可以依赖于人工观察,以确认所需要保留的最小距离,然后将前预设数量个POI标签中距离小于预设阈值的POI标签去掉。其中,预设数量的具体取值,可以根据实际情况或者经验进行设置,例如可以为30,对于预设数量的具体取值,本申请实施例在此不做限制。
在本实施例中,通过对文本进行分词处理,并根据得到的各分词对应的词向量,确定POI分别与各POI标签之间的距离,从而可以简单且快速的确定出个POI与对应的POI标签之间的距离。
可以理解,服务器在对多个文本中每个文本进行分析,确定出每个文本中的POI与其对应的各POI标签之间的距离之后,可以得到一个与POI个数相同长度,与POI标签个数相同维度的数据表,其中,每一个维度均存储POI与当前POI标签的向量距离。
步骤204:根据多个用户在预设时间段内对POI的搜索行为,构建POI在预设时间段内的图谱。
在本步骤中,为了挖掘出POI、POI标签和时间的关联关系,可以分别确定多个预设时间段内用户对POI的搜索行为,得到该预设时间段内的搜索数据,从而可以构建出不同预设时间段对应的图谱。例如,可以以预设日期作为分界点,如以15号为分界点,以上个月15号到当月的15号作为本月份的搜索数据,这样,为了挖掘出不同时间段内POI和POI之间的关系,可以按年为基础,确定出12份搜索数据,相应的,也即会构建出12个图谱。
在一种可能的实现方式中,以构建POI在其中某一个预设时间段内的图谱为例进行说明。可以根据多个用户在该预设时间段内对POI的搜索行为,确定多个用户搜索过的POI,以及搜索顺序,然后根据该搜索顺序,确定图谱中各个边的入度POI和出度POI,针对各个边,根据多个用户搜索过的POI和搜索顺序,将依次搜索过入度POI和出度POI的用户数确定为边的权重。
具体的,上述图谱是一个有向关系图,其中,顶点为POI,边为搜索顺序。由于是有向关系图,所以对于任意两个发生关系的POI之间可能会有两条边,一条由POI1指向POI2,一条由POI2指向POI1。
对于每一份搜索数据,以一个用户在该搜索数据对应的预设时间段内的搜索行为为基础线索,对于这个用户的搜索路径,如果该用户搜索了POI1,然后又搜索了POI2,那么就在POI1指向POI2的边上权重加1。因此,根据多个用户对POI的搜索顺序和搜索的用户数,可以构建出一个图关系模型。特别的,对于一个顶点POI,所有指向它的箭头称作它的入度POI,所有从它向外指出的POI称作它的出度POI。
综上,对于不同时间段内的搜索数据所构建的图谱,其中的POI会有当前时间段内的特色,某些POI只会出现在特定的时间段内,某些POI则会出现在多个时间段内,在每个时间段内,其出度和入度关系也会有很大的区别。
图4为POI在预设时间段内的图谱的示意图,如图4所示,其中,图谱的顶点表示POI,如阿那亚、青岛、千岛湖、杭州和北戴河,图谱中边的方向表示用户的搜索顺序,边的权重表示依次搜索过入度POI和出度POI的用户数。例如,从图4中可以看出,有123个用户在搜索了阿那亚之后,又搜索了青岛,有235个用户在搜索了青岛之后,又搜索了北戴河,有528个用户在搜索了北戴河之后,又搜索了阿那亚等等。可以理解的是,搜索了阿那亚之后,又搜索了青岛的123个用户,可以与搜索了青岛之后,又搜索了北戴河的235个用户部分相同,也可以全部不同。
在本方式中,可以根据多个用户实际在该预设时间段内对POI的搜索行为构建图谱,可以提高图谱的准确性。
步骤205:根据多个文本中包括各POI的概率、与POI相关的各POI标签的概率、POI分别与各POI标签之间的距离以及图谱,确定POI在预设时间段内对应的特征向量。
在本步骤中,由于数据源中包括有多个文本,分别对每个文本进行分析后,都会得到该文本中包括至少一个POI的概率,以及该文本被标注为与各POI相关的各POI标签的概率。另外,还可以根据每个文本,确定出各个POI分别与其相关的各POI标签之间的距离。这样,根据数据源中包括的所有文本中的POI的概率、与各POI相关的POI标签的概率、POI分别与各POI标签之间的距离,以及前述构建出的图谱,确定POI在预设时间段内对应的特征向量。
需要进行说明的是,由于图谱为预设时间段内的图谱,因此,确定出的特征向量也即为该预设时间段内的特征向量。相应的,根据前述说明可知,为了确定出不同时间段内POI与POI标签之间的关系,会构建多个不同时间段内的图谱,因此,服务器将会根据这多个不同时间段内的图谱,确定出多个特征向量。
在一种可能的实现方式中,可以根据各POI的概率、与POI相关的各POI标签的概率、POI分别与各POI标签之间的距离,生成关联矩阵,然后根据关联矩阵和图谱生成POI在预设时间段内对应的特征向量,其中,关联矩阵的每一行中的元素表示各POI和与POI对应的POI标签标注于同一文本的概率。
具体的,对于每个文本来说,根据前述实施例中的方式,可以确定出该文本被标注为POI的概率,以及与该POI相关的各POI标签的概率,因此,可以基于上述概率,确定出各POI和与该POI对应的POI标签标注于同一个文本的概率。例如,以图3为例,根据图3中的文本计算得到的“绍兴鲁迅故里景区”的概率为1,“名人故居”的概率为0.99,则“绍兴鲁迅故里景区”和“名人故居”被共同标注于图3中的文本的概率即为1*0.99=0.99。
另外,为了提升特征向量的准确率,还可以针对数据源中的多个文本,进一步计算POI和POI标签共同被标注于同一个文本中的支持度、置信度、提升度和确信度,并通过设定每个指标对应的预设值,将支持度、置信度、提升度和确信度分别大于各自对应的预设值的POI标签保留,从而完成对POI标签的筛选。
其中,POI和POI标签共同被标注于同一个文本中的支持度可以根据公式(1)计算:
Figure BDA0002858583230000161
其中,tagX表示POI标签,文本量表示数据源中包括的文本个数。
POI和POI标签共同被标注于同一个文本中的置信度可以根据公式(2)计算:
Figure BDA0002858583230000162
其中,POI出现的次数是指该POI在所有文本中被标注的次数。例如,若数据源中包括一万个文本,有五千个文本中标注了该POI,则该POI出现的次数为五千。
POI和POI标签共同被标注于同一个文本中的提升度可以根据公式(3)计算:
Figure BDA0002858583230000163
其中,
Figure BDA0002858583230000164
Figure BDA0002858583230000165
例如:若数据源中包括10个文本,其中,有三个文本标注了“绍兴鲁迅故里景区”,而且概率分别为0.9、0.8和1,则支持度(POI)为(0.9+0.8+1)/10=0.27。其中,有四个文本标注了“名人故居”这一tag,而且概率分别为0.8、0.7、0.6和0.75,则支持度(tag)为(0.8+0.7+0.6+0.75)/10=0.285。
POI和POI标签共同被标注于同一个文本中的确信度可以根据公式(4)计算:
Figure BDA0002858583230000171
应理解,根据上述公式(1)-公式(4)计算出POI和POI标签共同被标注于同一个文本中的支持度、置信度、提升度和确信度后,通过设定每个指标对应的预设值,将支持度、置信度、提升度和确信度分别大于各自对应的预设值的POI标签保留,从而完成对POI标签的筛选,由此可以提高确定出的特征向量的准确性。
进一步的,在生成关联矩阵时,针对各POI,若POI和与该POI相关的各POI标签标注于同一文本中的最大概率对应的POI标签,与POI和与各POI标签之间的最小距离对应的POI标签不同,则根据最小距离、最大概率以及最大概率对应的标签POI对应的距离,对最小距离对应的POI标签的概率进行更新,然后根据各POI各自对应的POI标签的概率生成关联矩阵。
具体的,对于每个POI来说,可以按照该POI和各POI标签标注于同一文本中的概率从大到小的顺序进行排序,并确定出最大概率对应的POI标签。另外,还可以按照该POI和各POI标签之间的距离从小到大的顺序进行排序,并确定出最小距离对应的POI标签。通常,POI和POI标签之间的距离越小,说明POI和该POI标签标注于同一文本中的概率越大。因此,当最大概率对应的POI标签和最小距离对应的POI标签不同时,则需要根据最小距离,最大概率以及最大概率对应的标签POI和POI之间的距离,对最小距离对应的POI标签的概率进行更新。
在具体的实现过程中,可以按照如下公式(5)对最小距离对应的POI标签的概率进行更新:
Figure BDA0002858583230000172
在对最小距离对应的POI标签的概率进行更新后,将更新后的概率和其他POI标签所对应的概率按照从大到小的顺序,生成关联矩阵,也即生成POI与POI标签的矩阵。其中,关联矩阵中每一行的数值分别表示一个POI和各POI标签共同标注于同一文本的概率值。示例性的,按照上述方式可以得到394个POI标签。
举例来说,假设POI为“乌纳瓦图纳”,为了便于说明,下面以三个POI标签为例进行说明,通过统计确定出与该POI相关的POI标签中,概率从大到小排序前三位的分别为日落、沙滩和夜景,其概率值分别如下所示:
{tag:{61217:{tagname:“日落”,概率:2.0},
16105:{tagname:“沙滩”,概率:1.0},
61266:{tagname:“夜景”,概率:0},
……
}}
另外,确定出POI与POI标签之间的距离如下所示:
{tag:{16105:{tagname:“沙滩”,距离:3.96},
61217:{tagname:“日落”,概率:4.299},
……
}}
根据上述内容可知,最大概率对应的POI标签为“日落”,而最小距离对应的POI标签为“沙滩”,因此,根据公式(5),可以确定出新的概率值为2.0*(4.3+0.1)/(3.96+0.1)=2.16,也即将POI标签“沙滩”的概率更新为2.16,此时,更新后的各POI标签的概率值分别为:
{tag:{16105:{tagname:“沙滩”,概率:2.16},
61217:{tagname:“日落”,概率:2.0},
61266:{tagname:“夜景”,概率:0},
……
}}
因此,按照上述概率值,即可确定出关联矩阵的第一行数据分别为[2.16,2.0,0,……],该行表示了与POI“乌纳瓦图纳”和各POI标签共同标注于同一文本的概率。
类似的,针对于其他POI,也可以按照上述方式,确定出POI和各POI标签共同标注于同一文本的概率,从而确定出完整的关联矩阵。
需要进行说明的是,为了方便计算,关联矩阵中的概率值可以是根据步骤202计算出的概率值进行归一化处理后的值。
例如,根据上述方式确定出的关联矩阵为
Figure BDA0002858583230000191
其中,m表示POI的数量,n表示POI标签的数量,ambn表示第m个POI am和第n个POI标签bn共同标注于同一文本中的概率。
在本实施中,在最大概率对应的POI标签与最小距离对应的POI标签不同时,可以根据最小距离、最大概率以及最大概率对应的标签POI对应的距离,对最小距离对应的POI标签的概率进行更新,从而根据更新后的概率生成关联矩阵,由此可以提高关联矩阵的准确性。
进一步的,在生成关联矩阵之后,可以根据该关联矩阵和POI在预设时间段内的图谱,生成该POI在预设时间段内对应的特征向量。示例性的,可以确定POI在图谱中的入度POI和出度POI,然后根据入度POI和关联矩阵,确定POI对应的入度特征,并根据出度POI和关联矩阵,确定POI对应的出度特征;通过获取POI的基础属性特征,以及对POI有搜索行为的用户的特征信息,然后根据入度特征、出度特征、基础属性特征以及用户的特征信息生成POI在预设时间段内对应的特征向量。
具体的,对于图谱中的任意一个POI来说,其特征向量通常由四部分构成,包括:POI的基础属性特征、用户的特征信息、出度特征和入度特征。示例性的,这四部分总共有1005维。
其中,POI的基础属性特征包括POI名称(200维)、POI的经纬度(2维)、星级(1维)和综合分(1维),其中,POI名称可以通过Word2Vec向量获取,星级来源于人工评级,综合分来源于人工评分。
对POI有搜索行为的用户的特征信息包括用户等级、年龄、性别、VIP级别、常住地、用户贡献等级、周活跃粘性、活跃度等级、消费特征、消费水平和潜质等。其中,对POI有搜索行为的用户可以包括在预设时间段内对该POI有搜索行为的用户,若用户有多个时,上述的特征信息按照预设算法或者取平均值的方式进行确定。其中,对于性别和常住地等信息,可以采用量化的方式,以对量化后的数值进行处理。以性别为例,可以以0代表女性,以1代表男性,从而对多个用户的性别取平均值。
另外,对于入度特征来说,通过之前构建的图谱,从图谱中确定每个POI的入度POI,根据该入度POI和关联矩阵,确定POI对应的入度特征,其中,入度特征可以包括394维,其中,这394维是指394个POI标签,也即玩法标签。示例性的,可以根据关联矩阵,确定POI和各POI标签标注于同一文本中的概率,以及入度POI和与入度POI相关的各POI标签标注于同一文本中的概率,根据图谱确定入度POI的入度边的权重,从而根据POI和各POI标签标注于同一文本中的概率、入度POI和各POI标签标注于同一文本中的概率,以及入度边的权重,确定POI对应的入度特征,其中,权重用于表示依次搜索过入度POI和POI的用户数。
具体的,由于关联矩阵中,每一行分别表示一个POI与各POI标签标注于同一文本中的概率,因此,可以从该关联矩阵中,确定出该POI和各POI标签标注于同一文本中的概率。同样的,对于该POI来说,可以从图谱中确定出该POI的入度POI,从而可以从关联矩阵中,确定出该入度POI和各POI标签标注于同一文本中的概率。另外,还可以从图谱中确定出入度POI的入度边的权重,然后根据公式(6)确定POI的入度特征:
Figure BDA0002858583230000201
其中,P1表示POI和各POI标签标注于同一文本中的概率,P2表示入度POI和各POI标签标注于同一文本中的概率,wi表示第i个入度POI对应的入度边的权重,n表示入度POI的个数。
举例来说,假设构建出如图4所示的图谱,且确定出的关联矩阵为
Figure BDA0002858583230000202
其中,在该关联矩阵中,第一行至第五行的数据分别为POI“青岛”、“北戴河”、“杭州”、“千岛湖”和“阿那亚”与各POI标签标注于同一文本中的概率。以确定“青岛”的入度特征为例,从图4可以看出,“青岛”的入度POI分别为“杭州”、“千岛湖”和“阿那亚”,因此,根据关联矩阵的第一行数据,可以得到“青岛”与各POI标签标注于同一文本中的概率,另外,根据关联矩阵的第三行至第五行的数据,可以分别得到“杭州”、“千岛湖”和“阿那亚”与各POI标签标注于同一文本中的概率。另外,根据图4可以得到,“杭州”对应的入度边的权重为1392,“千岛湖”对应的入度边的权重为896,“阿那亚”对应的入度边的权重为123。服务器可以基于这些数据,可以根据公式(6)确定出“青岛”的入度特征。
在本实施例中,可以通过关联矩阵,确定出POI和各POI标签标注于同一文本中的概率,以及入度POI和各POI标签标注于同一文本中的概率,从而根据这些概率值和入度边的权重,可以简单且快速的确定出POI对应的入度特征。
进一步的,对于出度特征来说,通过之前构建的图谱,从图谱中确定每个POI的出度POI,根据该出度POI和关联矩阵,确定POI对应的出度特征,其中,出度特征可以包括394维,其中,这394维是指394个POI标签,也即玩法标签。示例性的,可以根据关联矩阵,确定POI和各POI标签标注于同一文本中的概率,以及出度POI和与出度POI相关的各POI标签标注于同一文本中的概率,根据图谱确定出度POI的出度边的权重,从而根据POI和各POI标签标注于同一文本中的概率、出度POI和各POI标签标注于同一文本中的概率,以及出度边的权重,确定POI对应的出度特征,其中,权重用于表示依次搜索过POI和出度POI的用户数。
具体的,由于关联矩阵中,每一行分别表示一个POI与各POI标签标注于同一文本中的概率,因此,可以从该关联矩阵中,确定出该POI和各POI标签标注于同一文本中的概率。同样的,对于该POI来说,可以从图谱中确定出该POI的出度POI,从而可以从关联矩阵中,确定出该出度POI和各POI标签标注于同一文本中的概率。另外,还可以从图谱中确定出出度POI的出度边的权重,然后根据公式(7)确定POI的出度特征:
Figure BDA0002858583230000211
其中,P1表示POI和各POI标签标注于同一文本中的概率,P3表示出度POI和各POI标签标注于同一文本中的概率,wj表示第j个出度POI对应的出度边的权重,m表示出度POI的个数。
举例来说,假设构建出如图4所示的图谱,且确定出的关联矩阵为
Figure BDA0002858583230000221
其中,在该关联矩阵中,第一行至第五行的数据分别为POI“青岛”、“北戴河”、“杭州”、“千岛湖”和“阿那亚”与各POI标签标注于同一文本中的概率。以确定“青岛”的出度特征为例,从图4可以看出,“青岛”的出度POI为“北戴河”,因此,根据关联矩阵的第一行数据,可以得到“青岛”与各POI标签标注于同一文本中的概率,另外,根据关联矩阵的第二行的数据,可以得到“北戴河”与各POI标签标注于同一文本中的概率。另外,根据图4可以得到,“北戴河”对应的出度边的权重为235,可以根据公式(7)确定出“青岛”的出度特征。
在本实施例中,可以通过关联矩阵,确定出POI和各POI标签标注于同一文本中的概率,以及出度POI和各POI标签标注于同一文本中的概率,从而根据这些概率值和出度边的权重,可以简单且快速的确定出POI对应的出度特征。
由于通过基础属性特征、用户的特征信息、入度特征和出度特征,生成POI在预设时间段内所对应的特征向量,由于考虑了各方面的因素,因此可以使得生成的特征向量较为准确,从而提高了POI标签检测模型的准确性。
步骤206:根据各POI在预设时间段内对应的特征向量和各POI的标注标签对初始训练模型进行训练,得到POI标签检测模型。
其中,POI标签检测模型用于检测待处理文本中POI在预设时间段内对应的POI标签。
在本步骤中,在确定出各POI在预设时间段内对应的特征向量后,可以根据POI和各POI标签共同标注于同一文本的概率值中,概率值最大的两个POI标签作为该POI的标注信息,然后将该POI的特征向量以及标注信息输入到初始训练模型中进行训练,从而得到POI标签检测模型,其中,初始训练模型可以为XGB模型。当然,上述的标注信息也可以为多个,如三个或者四个等,对此本申请实施例不做限制。
另外,需要进行说明的是,上述标注信息也可以是人工对POI进行标注的,如人工标注两个POI标签。
需要进行说明的是,在前述实施例中,根据不同预设时间段对应的搜索数据,可以得到多个图谱,从而可以得到不同预设时间段分别对应的特征向量。在利用特征向量对初始训练模型进行训练后,得到的POI标签检测模型也可以是多个,也即不同的预设时间段分别对应不同的POI标签检测模型。
应理解,对于训练得到的POI标签检测模型,其可以拟合当前数据集中出现的POI的总体特征,然后再将所有POI的特征作为数据使用该POI标签检测模型进行预测,对于预测的结果,也选取前两个POI标签,作为该POI在当前预设时间段的POI标签。这样,就成功获得了POI-当前预设时间段-POI标签的关系。
本申请实施例提供的模型的训练方法,通过获取数据源,并针对数据源中的任意一个文本,对该文本进行分析,得到文本中包括POI的概率、以及文本标注为与POI相关的各POI标签的概率,并根据文本确定POI分别与各POI标签之间的距离,还可以根据多个用户在预设时间段内对POI的搜索行为,构建POI在预设时间段内的图谱,根据多个文本中包括各POI的概率、与POI相关的各POI标签的概率、POI分别与各POI标签之间的距离以及图谱,确定POI在预设时间段内对应的特征向量,然后根据各POI在预设时间段内对应的特征向量和各POI的标注标签对初始训练模型进行训练,得到POI标签检测模型,该POI标签检测模型用于检测待处理文本中POI在预设时间段内对应的POI标签。由于通过用户发布的文本,挖掘出POI和各POI标签的概率,以及POI分别与各POI标签之间的距离,并结合用户在预设时间段内的搜索行为构建图谱,从而确定出特征向量,以此训练出POI标签检测模型,由于该POI标签检测模型是集合用户在预设时间段内的搜索行为确定出的,因此,可以提高该POI标签检测模型的准确性。另外,可以根据该POI标签检测模型,快速的从大量的待处理文本中检测出POI、POI标签以及时间之间的关系,从而不仅可以提高POI以及POI标签确定的效率,而且可以提高准确性。
图5为本申请实施例提供的一种POI标签检测方法的流程示意图。该方法可以由任意执行POI标签检测方法的装置来执行,该装置可以通过软件和/或硬件实现。本实施例中,该装置可以集成在如图1所示的服务器中或者集成在图1所示的第二终端设备中。如图5所示,本申请实施例提供的POI标签检测方法包括如下步骤:
步骤501:获取待处理文本。
在本实施例中,待处理文本可以为用户发布的信息。其中,用户可能通过终端设备上传的是文本信息,也可能是图片信息,当用户上传图片信息后,将通过图像处理技术对图片信息进行处理,以得到待处理文本。
步骤502:将待处理文本输入至POI标签检测模型,得到待处理文本中的POI在预设时间段内对应的POI标签。
在本步骤中,POI标签检测模型可以为根据图2所示的实施例训练得到的模型,该模型可以存储在服务器本地,也可以由服务器发送给第二终端设备。若由服务器发送给第二终端设备,则第二终端设备在得到待处理文本后,会直接将该待处理文本输入至POI标签检测模型,从而得到待处理文本中的POI在预设时间段内对应的POI标签。若POI标签检测模型存储在服务器本地,则第二终端设备在接收到用户发布的待处理文本后,需要将该待处理文本发送给服务器。
另外,待处理文本中可以包括一个或者多个POI,通过该POI标签检测模型,可以分别得到各POI在预设时间段内对应的POI标签。
例如,可以得到“香山-9月-赏红叶”,或者“哈尔滨-12月-滑雪”等等。
步骤503:输出POI在预设时间段内对应的POI标签。
在本步骤中,在得到POI在预设时间段内对应的POI标签后,可以将POI-时间-POI标签之间的关系存储在数据库中。示例性的,由于JanusGraph图数据库可以无缝支持Hadoop平台和ES索引数据库,因此,可以将上述关系存储到JanusGraph图数据库中。
另外,服务器在得到多个POI以及每个POI在预设时间段内所对应的POI标签之后,可以对这些关系进行分析与整合,从而可以通过第二终端设备显示分析结果。
图6为POI-时间-POI标签之间的关系示意图,图6中示出了广州在10月份的POI及其对应的POI标签,如图6所示,可以通过第二终端设备显示出广州在10月份的POI标签,也即玩法标签包括有夜景、峡谷、自然景观、拍摄地和美食等。进一步的,根据上述关系,还可以分析出对于POI标签“峡谷”来说,其对应的POI可以包括流溪河国家森林公园、大丰门风景区、渔人码头、石门国家森林公园等,对于POI标签“拍摄地”来说,其对应的POI可以包括石门国家森林公园、华南植物园和小洲村,对于POI标签“美食”来说,其对应的POI可以包括天堂顶和原创。
本申请实施例提供的POI标签检测方法,在获取到待处理文本之后,可以将该待处理文本输入至POI标签检测模型中,从而得到待处理文本中的POI在预设时间段内对应的POI标签,由于通过POI标签检测模型可以直接获得POI、时间和POI标签之间的关系,避免了现有技术中用户需要翻阅大量的文本才能挖掘出POI、时间和POI标签之间的关系的现象,由此不仅可以提高POI、时间和POI标签之间的关系确定的效率,而且可以提高准确度。
图7为本申请实施例提供的一种POI标签检测模型的训练装置700的结构示意图,示例的,请参见图7所示,该POI标签检测模型的训练装置700可以包括:
获取单元701,用于获取数据源,所述数据源包括多个文本;
处理单元702,用于针对任一个文本,对所述文本进行分析,得到所述文本中包括POI的概率、以及所述文本标注为与所述POI相关的各POI标签的概率;其中,所述POI标签用于标识所述POI的特征;
确定单元703,用于根据所述文本确定所述POI分别与所述各POI标签之间的距离;
所述处理单元702,还用于根据多个用户在预设时间段内对所述POI的搜索行为,构建所述POI在所述预设时间段内的图谱;
所述确定单元703,还用于根据所述多个文本中包括各POI的概率、与所述POI相关的各POI标签的概率、所述POI分别与所述各POI标签之间的距离以及所述图谱,确定所述POI在所述预设时间段内对应的特征向量;
训练单元704,用于根据各POI在所述预设时间段内对应的特征向量和所述各POI的标注标签对初始训练模型进行训练,得到POI标签检测模型;所述POI标签检测模型用于检测待处理文本中所述POI在所述预设时间段内对应的POI标签。
可选的,所述确定单元703,具体用于:
根据所述各POI的概率、与所述POI相关的各POI标签的概率、所述POI分别与所述各POI标签之间的距离,生成关联矩阵;其中,所述关联矩阵的每一行中的元素表示各POI和与所述POI对应的所述POI标签标注于同一文本的概率;
根据所述关联矩阵和所述图谱生成所述POI在所述预设时间段内对应的特征向量。
可选的,所述确定单元703,具体用于:
针对各所述POI,若所述POI和所述与所述POI相关的各POI标签标注于同一文本中的最大概率对应的POI标签,与所述POI和与所述各POI标签之间的最小距离对应的POI标签不同,则根据所述最小距离、所述最大概率以及所述最大概率对应的标签POI对应的距离,对所述最小距离对应的POI标签的概率进行更新;
根据所述各所述POI各自对应的POI标签的概率生成所述关联矩阵。
可选的,所述确定单元703,具体用于:
确定所述POI在所述图谱中的入度POI和出度POI;
根据所述入度POI和所述关联矩阵,确定所述POI对应的入度特征,并根据所述出度POI和所述关联矩阵,确定所述POI对应的出度特征;
获取所述POI的基础属性特征,以及对所述POI有搜索行为的用户的特征信息;
根据所述入度特征、所述出度特征、所述基础属性特征以及所述用户的特征信息生成所述POI在所述预设时间段内对应的所述特征向量。
可选的,所述确定单元703,具体用于:
在所述关联矩阵中,确定所述POI和各POI标签标注于同一文本中的概率;
在所述关联矩阵中,确定与所述入度POI和各POI标签标注于同一文本中的概率;
根据所述图谱确定所述入度POI的入度边的权重;所述权重用于表示依次搜索过所述入度POI和所述POI的用户数;
根据所述POI和各POI标签标注于同一文本中的概率、所述入度POI和各POI标签标注于同一文本中的概率,以及所述入度边的权重,确定所述POI对应的入度特征。
可选的,所述确定单元703,具体用于:
在所述关联矩阵中,确定所述POI和各POI标签标注于同一文本中的概率;
在所述关联矩阵中,确定所述出度POI和各POI标签标注于同一文本中的概率;
根据所述图谱确定所述出度POI的出度边的权重;所述权重用于表示依次搜索过所述POI和所述出度POI的用户数;
根据所述POI和各POI标签标注于同一文本中的概率、所述出度POI和各POI标签标注于同一文本中的概率,以及所述出度边的权重,确定所述POI对应的出度特征。
可选的,所述处理单元702,具体用于:
根据多个用户在预设时间段内对所述POI的搜索行为,确定所述多个用户搜索过的POI,以及搜索顺序;
根据所述搜索顺序,确定所述图谱中各个边的入度POI和出度POI;
针对所述各个边,根据所述多个用户搜索过的POI和所述搜索顺序,将依次搜索过所述入度POI和所述出度POI的用户数确定为所述边的权重。
可选的,所述确定单元703,具体用于:
对所述文本进行分词处理,得到多个分词;其中,所述分词中包括所述POI和所述各POI标签;
根据各分词对应的词向量确定所述POI分别与所述各POI标签之间的距离。
本申请实施例提供的POI标签检测模型的训练装置700,可以执行上述任一实施例所示的模型的训练方法的技术方案,其实现原理以及有益效果与模型的训练方法的实现原理及有益效果类似,可参见模型的训练方法的实现原理及有益效果,此处不再进行赘述。
图8为本申请实施例提供的一种POI标签检测装置800的结构示意图,示例的,请参见图8所示,该POI标签检测装置800可以包括:
获取单元801,用于获取待处理文本;
处理单元802,用于将所述待处理文本输入至第三方面所述的POI标签检测模型,得到所述待处理文本中的POI在所述预设时间段内对应的POI标签;
输出单元803,用于输出所述POI在所述预设时间段内对应的POI标签。
本申请实施例提供的POI标签检测装置800,可以执行上述任一实施例所示的POI标签检测方法的技术方案,其实现原理以及有益效果与POI标签检测方法的实现原理及有益效果类似,可参见POI标签检测方法的实现原理及有益效果,此处不再进行赘述。
图9为本申请实施例提供的一种电子设备900的结构示意图,示例的,请参见图9所示,该电子设备可以包括处理器901和存储器902;其中,
所述存储器902,用于存储计算机程序。
所述处理器901,用于读取所述存储器902存储的计算机程序,并根据所述存储器902中的计算机程序执行上述任一实施例中的模型的训练方法或POI标签检测方法的技术方案。
可选地,存储器902既可以是独立的,也可以跟处理器901集成在一起。当存储器902是独立于处理器901之外的器件时,电子设备900还可以包括:总线,用于连接存储器902和处理器901。
可选地,本实施例还包括:通信接口,该通信接口可以通过总线与处理器901连接。处理器901可以控制通信接口来实现上述电子设备900的获取和发送的功能。
本申请实施例所示的电子设备900,可以执行上述任一实施例所示的模型的训练方法或POI标签检测方法的技术方案,其实现原理以及有益效果与模型的训练方法或POI标签检测方法的实现原理及有益效果类似,可参见模型的训练方法或POI标签检测方法的实现原理及有益效果,此处不再进行赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述任一实施例中的模型的训练方法或POI标签检测方法的技术方案,其实现原理以及有益效果与模型的训练方法或POI标签检测方法的实现原理及有益效果类似,可参见模型的训练方法或POI标签检测方法的实现原理及有益效果,此处不再进行赘述。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现上述任一实施例中的模型的训练方法或POI标签检测方法的技术方案,其实现原理以及有益效果与模型的训练方法或POI标签检测方法的实现原理及有益效果类似,可参见模型的训练方法或POI标签检测方法的实现原理及有益效果,此处不再进行赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所展示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元展示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例方法的部分步骤。
应理解的是,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital SignalProcessor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (14)

1.一种模型的训练方法,其特征在于,包括:
获取数据源;所述数据源包括多个文本;
针对任一个文本,对所述文本进行分析,得到所述文本中包括兴趣点POI的概率、以及所述文本标注为与所述POI相关的各POI标签的概率;其中,所述POI标签用于标识所述POI的特征;
根据所述文本确定所述POI分别与所述各POI标签之间的距离;
根据多个用户在预设时间段内对所述POI的搜索行为,构建所述POI在所述预设时间段内的图谱;
根据所述多个文本中包括各POI的概率、与所述POI相关的各POI标签的概率、所述POI分别与所述各POI标签之间的距离以及所述图谱,确定所述POI在所述预设时间段内对应的特征向量;
根据各POI在所述预设时间段内对应的特征向量和所述各POI的标注标签对初始训练模型进行训练,得到POI标签检测模型;所述POI标签检测模型用于检测待处理文本中所述POI在所述预设时间段内对应的POI标签。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个文本中包括各POI的概率、与所述POI相关的各POI标签的概率、所述POI分别与所述各POI标签之间的距离以及所述图谱,确定所述POI在所述预设时间段内对应的特征向量,包括:
根据所述各POI的概率、与所述POI相关的各POI标签的概率、所述POI分别与所述各POI标签之间的距离,生成关联矩阵;其中,所述关联矩阵的每一行中的元素表示各POI和与所述POI对应的所述POI标签标注于同一文本的概率;
根据所述关联矩阵和所述图谱生成所述POI在所述预设时间段内对应的特征向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述各POI的概率、与所述POI相关的各POI标签的概率、所述POI分别与所述各POI标签之间的距离,生成关联矩阵,包括:
针对各所述POI,若所述POI和所述与所述POI相关的各POI标签标注于同一文本中的最大概率对应的POI标签,与所述POI和与所述各POI标签之间的最小距离对应的POI标签不同,则根据所述最小距离、所述最大概率以及所述最大概率对应的标签POI对应的距离,对所述最小距离对应的POI标签的概率进行更新;
根据所述各所述POI各自对应的POI标签的概率生成所述关联矩阵。
4.根据权利要求2所述的方法,其特征在于,所述根据所述关联矩阵和所述图谱生成所述POI在所述预设时间段内对应的特征向量,包括:
确定所述POI在所述图谱中的入度POI和出度POI;
根据所述入度POI和所述关联矩阵,确定所述POI对应的入度特征,并根据所述出度POI和所述关联矩阵,确定所述POI对应的出度特征;
获取所述POI的基础属性特征,以及对所述POI有搜索行为的用户的特征信息;
根据所述入度特征、所述出度特征、所述基础属性特征以及所述用户的特征信息生成所述POI在所述预设时间段内对应的所述特征向量。
5.根据权利要求4所述的方法,其特征在于,所述根据所述入度POI和所述关联矩阵,确定所述POI对应的入度特征,包括:
在所述关联矩阵中,确定所述POI和各POI标签标注于同一文本中的概率;
在所述关联矩阵中,确定与所述入度POI和各POI标签标注于同一文本中的概率;
根据所述图谱确定所述入度POI的入度边的权重;所述权重用于表示依次搜索过所述入度POI和所述POI的用户数;
根据所述POI和各POI标签标注于同一文本中的概率、所述入度POI和各POI标签标注于同一文本中的概率,以及所述入度边的权重,确定所述POI对应的入度特征。
6.根据权利要求4所述的方法,其特征在于,所述根据所述出度POI和所述关联矩阵,确定所述POI对应的出度特征,包括:
在所述关联矩阵中,确定所述POI和各POI标签标注于同一文本中的概率;
在所述关联矩阵中,确定所述出度POI和各POI标签标注于同一文本中的概率;
根据所述图谱确定所述出度POI的出度边的权重;所述权重用于表示依次搜索过所述POI和所述出度POI的用户数;
根据所述POI和各POI标签标注于同一文本中的概率、所述出度POI和各POI标签标注于同一文本中的概率,以及所述出度边的权重,确定所述POI对应的出度特征。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述根据多个用户在预设时间段内对所述POI的搜索行为,构建所述POI在所述预设时间段内的图谱,包括:
根据多个用户在预设时间段内对所述POI的搜索行为,确定所述多个用户搜索过的POI,以及搜索顺序;
根据所述搜索顺序,确定所述图谱中各个边的入度POI和出度POI;
针对所述各个边,根据所述多个用户搜索过的POI和所述搜索顺序,将依次搜索过所述入度POI和所述出度POI的用户数确定为所述边的权重。
8.根据权利要求1-6任一项所述的方法,其特征在于,所述根据所述文本确定所述POI分别与所述各POI标签之间的距离,包括:
对所述文本进行分词处理,得到多个分词;其中,所述分词中包括所述POI和所述各POI标签;
根据各分词对应的词向量确定所述POI分别与所述各POI标签之间的距离。
9.一种POI标签检测方法,其特征在于,包括:
获取待处理文本;
将所述待处理文本输入至上述权利要求1-8任一项所述的兴趣点POI标签检测模型,得到所述待处理文本中的POI在所述预设时间段内对应的POI标签;
输出所述POI在所述预设时间段内对应的POI标签。
10.一种POI标签检测模型的训练装置,其特征在于,包括:
获取单元,用于获取数据源,所述数据源包括多个文本;
处理单元,用于针对任一个文本,对所述文本进行分析,得到所述文本中包括兴趣点POI的概率、以及所述文本标注为与所述POI相关的各POI标签的概率;其中,所述POI标签用于标识所述POI的特征;
确定单元,用于根据所述文本确定所述POI分别与所述各POI标签之间的距离;
所述处理单元,还用于根据多个用户在预设时间段内对所述POI的搜索行为,构建所述POI在所述预设时间段内的图谱;
所述确定单元,还用于根据所述多个文本中包括各POI的概率、与所述POI相关的各POI标签的概率、所述POI分别与所述各POI标签之间的距离以及所述图谱,确定所述POI在所述预设时间段内对应的特征向量;
训练单元,用于根据各POI在所述预设时间段内对应的特征向量和所述各POI的标注标签对初始训练模型进行训练,得到POI标签检测模型;所述POI标签检测模型用于检测待处理文本中所述POI在所述预设时间段内对应的POI标签。
11.一种POI标签检测装置,其特征在于,包括:
获取单元,用于获取待处理文本;
处理单元,用于将所述待处理文本输入至权利要求10所述的POI标签检测模型,得到所述待处理文本中的POI在所述预设时间段内对应的POI标签;
输出单元,用于输出所述POI在所述预设时间段内对应的POI标签。
12.一种电子设备,其特征在于,包括处理器和存储器;其中,
所述存储器,用于存储计算机程序;
所述处理器,用于读取所述存储器存储的计算机程序,并根据所述存储器中的计算机程序执行上述权利要求1-8任一项所述的模型的训练方法;或者,根据所述存储器中的计算机程序执行上述权利要求9所述的POI标签检测方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述权利要求1-8任一项所述的模型的训练方法;或者,实现上述权利要求9所述的POI标签检测方法。
14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时,实现上述权利要求1-8任一项所述的模型的训练方法;
或者,实现上述权利要求9所述的POI标签检测方法。
CN202011555428.4A 2020-12-24 2020-12-24 模型的训练方法、poi标签检测方法和装置 Active CN112579793B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011555428.4A CN112579793B (zh) 2020-12-24 2020-12-24 模型的训练方法、poi标签检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011555428.4A CN112579793B (zh) 2020-12-24 2020-12-24 模型的训练方法、poi标签检测方法和装置

Publications (2)

Publication Number Publication Date
CN112579793A true CN112579793A (zh) 2021-03-30
CN112579793B CN112579793B (zh) 2024-04-30

Family

ID=75139712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011555428.4A Active CN112579793B (zh) 2020-12-24 2020-12-24 模型的训练方法、poi标签检测方法和装置

Country Status (1)

Country Link
CN (1) CN112579793B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136016A (zh) * 2019-04-04 2019-08-16 中国科学院信息工程研究所 一种基于隐式关联的多标签传播方法及系统
CN111125550A (zh) * 2018-11-01 2020-05-08 百度在线网络技术(北京)有限公司 兴趣点分类方法、装置、设备及存储介质
CN111859160A (zh) * 2020-08-07 2020-10-30 成都理工大学 一种基于图神经网络会话序列推荐方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125550A (zh) * 2018-11-01 2020-05-08 百度在线网络技术(北京)有限公司 兴趣点分类方法、装置、设备及存储介质
CN110136016A (zh) * 2019-04-04 2019-08-16 中国科学院信息工程研究所 一种基于隐式关联的多标签传播方法及系统
CN111859160A (zh) * 2020-08-07 2020-10-30 成都理工大学 一种基于图神经网络会话序列推荐方法及系统

Also Published As

Publication number Publication date
CN112579793B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
Arefieva et al. A machine learning approach to cluster destination image on Instagram
Pickering et al. Using social media images and text to examine how tourists view and value the highest mountain in Australia
Ginzarly et al. Mapping historic urban landscape values through social media
Padilla et al. Temporal and spatiotemporal investigation of tourist attraction visit sentiment on Twitter
CN109977283B (zh) 一种基于知识图谱和用户足迹的旅游推荐方法和系统
Miah et al. A big data analytics method for tourist behaviour analysis
Konowalik et al. Evaluation metrics and validation of presence-only species distribution models based on distributional maps with varying coverage
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN110008300B (zh) Poi别名的确定方法、装置、计算机设备和存储介质
Ólafsdóttir et al. How wild is Iceland? Wilderness quality with respect to nature-based tourism
Venerandi et al. Measuring urban deprivation from user generated content
Sester et al. Integrating and generalising volunteered geographic information
CN109189959B (zh) 一种构建图像数据库的方法及装置
JP7023821B2 (ja) 情報検索システム
Lin et al. Uncertainty analysis of crowd-sourced and professionally collected field data used in species distribution models of Taiwanese moths
CN104794171B (zh) 标记图片地理位置信息的方法及装置
CN107657048A (zh) 用户识别方法及装置
CN108062366B (zh) 公共文化信息推荐系统
CN104537028B (zh) 一种网页信息处理方法及装置
CN111212383A (zh) 区域常住人口数量的确定方法、装置、服务器和介质
CN111460327B (zh) 兴趣地搜索方法及装置、存储介质、计算机设备
CN104520848A (zh) 按照出席者搜索事件
Cho et al. Classifying tourists’ photos and exploring tourism destination image using a deep learning model
da Mota et al. Popularity of Australian beaches: Insights from social media images for coastal management
CN110245286B (zh) 一种基于数据挖掘的旅行推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant