CN110427562A - 语义标签划分方法、装置和电子设备 - Google Patents

语义标签划分方法、装置和电子设备 Download PDF

Info

Publication number
CN110427562A
CN110427562A CN201910753069.4A CN201910753069A CN110427562A CN 110427562 A CN110427562 A CN 110427562A CN 201910753069 A CN201910753069 A CN 201910753069A CN 110427562 A CN110427562 A CN 110427562A
Authority
CN
China
Prior art keywords
user
semantic label
behavior
data
interest point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910753069.4A
Other languages
English (en)
Inventor
崔巍
陶周天
张岩
闫嘉
张楠
范东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smart Footprint Data Technology Co Ltd
Original Assignee
Smart Footprint Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smart Footprint Data Technology Co Ltd filed Critical Smart Footprint Data Technology Co Ltd
Priority to CN201910753069.4A priority Critical patent/CN110427562A/zh
Publication of CN110427562A publication Critical patent/CN110427562A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Abstract

本发明提供了一种语义标签划分方法、装置和电子设备;其中,该方法包括:获取目标区域的位置数据和目标时间内多个用户的兴趣点数据;将兴趣点数据和位置数据输入至预先设定的数学模型中,输出多个用户中每个用户对应的行为语义标签的个数;根据每个用户对应的行为语义标签的个数,确定每个用户的语义标签。该方法可以将位置数据和兴趣点数据输入到预先设定的数学模型中,由数学模型输出兴趣点数据中多个用户对应的行为语义标签,并以此确定上述用户的语义标签,可以增加行为语义标签的划分种类,使分析结果更加完整,提高分析结果的准确率,将用户的行为特征更加丰富化、具象化、完整化。

Description

语义标签划分方法、装置和电子设备
技术领域
本发明涉及数学建模技术领域,尤其是涉及一种语义标签划分方法、装置和电子设备。
背景技术
随着移动互联网、4G(the 4th Generation mobile communication technology,第四代移动通信技术)网络、大数据与云计算等先进技术的发展,基于手机信令生成的海量用户时空属性数据成为数据挖掘领域的研究与应用热点。相关技术中,一般通过用户的时空数据与居住、工作区域数据相融合,对用户的行为轨迹与驻留情况进行数据挖掘,分析出位置区域与用户的职住关系。
但随着用户海量时空属性数据的不断增多,通过分析用户的居住、工作区域与该用户的职住关系分析人的居住和工作行为轨迹的方法可以划分的行为语义标签较少,分析结果并不完整,准确率也较低。
发明内容
有鉴于此,本发明的目的在于提供一种语义标签划分方法、装置和电子设备,以增加行为语义标签的划分种类,使分析结果更加完整,提高分析结果的准确率。
第一方面,本发明实施例提供了一种语义标签划分方法,包括:获取目标区域的位置数据和目标时间内多个用户的兴趣点数据;兴趣点数据包括用户的身份信息、时间信息和时间信息对应的位置信息;将兴趣点数据和位置数据输入至预先设定的数学模型中,输出多个用户中每个用户对应的行为语义标签的个数;其中,数学模型根据预先设置的时间阈值和个数阈值建立;根据每个用户对应的行为语义标签的个数,确定每个用户的语义标签。
在本发明较佳的实施例中,上述获取目标时间内多个用户的兴趣点数据的步骤,包括:获取目标时间内多个用户的手机信令数据;手机信令数据包括用户对应的手机的标识信息、时间信息和时间信息对应的位置信息;根据手机信令数据得到多个用户的兴趣点数据。
在本发明较佳的实施例中,上述将兴趣点数据和位置数据输入至预先设定的数学模型中的步骤,包括:根据兴趣点数据和位置数据,得到目标时间内多个用户在目标区域的兴趣点数据;将目标时间内多个用户在目标区域的兴趣点数据输入至预先设定的数学模型中。
在本发明较佳的实施例中,上述数学模型通过以下步骤建立:基于预设的训练集确定训练位置数据、一个用户的训练兴趣点数据和结果数据;根据训练位置数据和训练兴趣点数据确定用户的逗留时间和逗留次数;根据时间阈值和个数阈值划分行为语义标签的范围;根据行为语义标签的范围、用户的逗留时间和逗留次数确定用户的行为语义标签的个数;根据用户的行为语义标签的个数和结果数据,调整时间阈值和个数阈值;继续执行基于预设的训练集确定训练位置数据、一个用户的训练兴趣点数据和结果数据的步骤,直至根据调整后的时间阈值和个数阈值确定的用户的行为语义标签的个数与结果数据的误差在预设范围内,得到最终的数学模型。
在本发明较佳的实施例中,上述时间阈值包括:第一时间阈值、第二时间阈值和第三时间阈值;个数阈值包括:第一个数阈值、第二个数阈值和第三个数阈值;根据时间阈值和个数阈值划分行为语义标签的范围的步骤,包括:如果用户的逗留时间符合第一时间阈值,并且用户的逗留次数符合第一个数阈值,则用户对应第一行为语义标签;如果用户的逗留时间符合第二时间阈值,并且用户的逗留次数符合第二个数阈值,则用户对应第二行为语义标签;如果用户的逗留时间符合第三时间阈值,并且用户的逗留次数符合第三个数阈值,则用户对应第三行为语义标签。
在本发明较佳的实施例中,上述根据每个用户对应的行为语义标签的个数,确定每个用户的语义标签的步骤,包括:如果用户对应的第一行为语义标签的个数大于预设的第一阈值,则用户对应的语义标签为第一语义标签;如果用户对应的第二行为语义标签的个数大于预设的第二阈值,则用户对应的语义标签为第二语义标签;如果用户对应的第三行为语义标签的个数大于预设的第三阈值,则用户对应的语义标签为第三语义标签;如果用户对应的第一行为语义标签的个数小于等于第一阈值,用户对应的第二行为语义标签的个数小于等于第二阈值,并且用户对应的第三行为语义标签的个数小于等于第三阈值,则用户对应的语义标签为第四语义标签。
第二方面,本发明实施例还提供一种语义标签划分装置,包括:数据获取模块,用于获取目标区域的位置数据和目标时间内多个用户的兴趣点数据;兴趣点数据包括用户的身份信息、时间信息和时间信息对应的位置信息;数学模型模块,用于将兴趣点数据和位置数据输入至预先设定的数学模型中,输出多个用户中每个用户对应的行为语义标签的个数;其中,数学模型根据预先设置的时间阈值和个数阈值建立;标签确定模块,用于根据每个用户对应的行为语义标签的个数,确定每个用户的语义标签。
在本发明较佳的实施例中,上述数据获取模块,用于:获取目标时间内多个用户的手机信令数据;手机信令数据包括用户对应的手机的标识信息、时间信息和时间信息对应的位置信息;根据手机信令数据得到多个用户的兴趣点数据。
第三方面,本发明实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述语义标签划分方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述语义标签划分方法的步骤。
本发明实施例带来了以下有益效果:
本发明实施例提供的语义标签划分方法、装置和电子设备,将位置数据和兴趣点数据输入到预先设定的数学模型中,由数学模型输出兴趣点数据中多个用户对应的行为语义标签,并以此确定上述用户的语义标签,可以增加行为语义标签的划分种类,使分析结果更加完整,提高分析结果的准确率,将用户的行为特征更加丰富化、具象化、完整化。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种语义标签划分方法的流程图;
图2为本发明实施例提供的另一种语义标签划分方法的流程图;
图3为本发明实施例提供的一种多个用户在目标区域的兴趣点数据的示意图;
图4为本发明实施例提供的一种语义标签划分装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,一般通过分析用户的居住、工作区域与该用户的职住关系分析人的居住和工作行为轨迹,这种分析方法可以划分的行为语义标签较少,分析结果并不完整,准确率也较低。基于此,本发明实施例提供的一种语义标签划分方法、装置和电子设备,该技术应用于数学建模的技术领域,尤其可以适用于用户时空轨迹以及周期性地到访特定区域(医院、学校、商场、景区等)的情况,通过数学建模,继续深挖用户行为轨迹与特定区域(医院、学校、商场、景区等)的互动关系,并基于此种互动关系给用户打上相应的行为语义标签。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种语义标签划分方法进行详细介绍。
实施例1
参见图1所示的一种语义标签划分方法的流程图,该方法包括如下步骤:
步骤S102,获取目标区域的位置数据和目标时间内多个用户的兴趣点数据;该兴趣点数据包括用户的身份信息、时间信息和时间信息对应的位置信息。
在进行语义标签的划分之前,首先需要确定对哪些地区的人群在那个时间段进行划分,目标区域就是被划分语义标签的地区,目标时间就是被划分予以便签的时间段。位置数据是指说明目标区域地理位置信息的数据,可以从地图、电子地图或者其他资料中获得。用户就是在目标区域和目标时间内被划分语义标签的人。
兴趣点(Point of Interest,POI)数据是指不同的地理位置,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。兴趣点数据就是记录了一个用户在某个时间位于某个地理位置的数据,用户的身份信息用来标识用户,时间信息用来说明用户的时间,时间信息对应的位置信息用来说明用户在该时间处于的地理位置。
步骤S104,将兴趣点数据和位置数据输入至预先设定的数学模型中,输出多个用户中每个用户对应的行为语义标签的个数;其中,该数学模型根据预先设置的时间阈值和个数阈值建立。
数学模型需要预先设定完成,输入兴趣点数据和位置数据后,即可输出用户对应的行为语义标签和行为语义标签的个数。行为语义是指用户的行为对应的含义,不同的行为对应不同的含义,也就是不同的行为语义。时间阈值和个数阈值是用户预先设置的,当数学模型根据一个用户的兴趣点数据和位置数据转化后的数据符合时间阈值和个数阈值的范围,则该用户就对应一个上述范围对应的行为语义标签。
数学模型最后输出一个结果,这个结果上有多个用户以及这些用户对应的行为语义标签,因为兴趣点数据中一个用户可能含有多组数据,那么一个用户就有可能包括多个相同的行为语义标签,因此,上述结果还包括用户对应的行为语义标签的个数。
步骤S106,根据每个用户对应的行为语义标签的个数,确定每个用户的语义标签。
用户对应的不同的行为语义标签表明了该用户在目标时间位于目标区域的行为目的,这个行为目的可以将该用户划分为不用的种类,上述种类由语义标签进行区分。给用户确定语义标签,就是为用户区分不同的行为目的。
本发明实施例提供的一种语义标签划分方法,将位置数据和兴趣点数据输入到预先设定的数学模型中,由数学模型输出兴趣点数据中多个用户对应的行为语义标签,并以此确定上述用户的语义标签,可以增加行为语义标签的划分种类,使分析结果更加完整,提高分析结果的准确率,将用户的行为特征更加丰富化、具象化、完整化。
实施例2
本发明实施例还提供另一种语义标签划分方法;该方法在上述实施例方法的基础上实现;该方法重点描述获取目标时间内多个用户的兴趣点数据的具体实现方式。
如图2所示的另一种语义标签划分方法的流程图,该方法包括如下步骤:
步骤S202,获取目标时间内多个用户的手机信令数据;该手机信令数据包括用户对应的手机的标识信息、时间信息和时间信息对应的位置信息。
手机信令数据是手机用户在网络活动中留下的信号数据,只要手机开机,产生任何行为或活动,都会与基站产生信号交换,这个信号交换会被记录下来,称作手机信令数据。手机信令数据中包括的手机标识信息用来标明不同的手机,一般为手机的IMSI(International Mobile Subscriber Identity,国际移动用户识别码),通过IMSI码,就可以知道手机信令对应的手机,进一步可以获取用户的身份信息。时间信息是指手机发出信令的时间,时间信息对应的位置信息是指手机发送信令的位置坐标。
步骤S204,根据手机信令数据得到多个用户的兴趣点数据。
从手机信令数据中就可以提取对应用户的兴趣点数据,兴趣点数据包括的用户的身份信息可以由手机的标识信息处理得到,兴趣点数据包括的时间信息和时间信息对应的位置信息可以由手机信令数据包括的时间信息和时间信息对应的位置信息处理得到。
步骤S206,获取目标区域的位置数据。
步骤S208,将兴趣点数据和位置数据输入至预先设定的数学模型中,输出多个用户中每个用户对应的行为语义标签的个数;其中,该数学模型根据预先设置的时间阈值和个数阈值建立。
将兴趣点数据和位置数据输入至预先设定的数学模型中的步骤,可以通过以下步骤执行:
(1)根据兴趣点数据和位置数据,得到目标时间内多个用户在目标区域的兴趣点数据;
兴趣点数据包括用户的身份信息、时间信息和位置信息,一条兴趣点数据即可以获得谁何时何地做了什么,再判断何地是否属于位置数据包括的范围,如果是,则保留这条兴趣点数据,即目标时间内一个用户在目标区域的兴趣点数据。对所有兴趣点数据一一判断,即可以获得目标时间内多个用户在目标区域的兴趣点数据。
(2)将目标时间内多个用户在目标区域的兴趣点数据输入至预先设定的数学模型中。
将兴趣点数据中位置信息在目标区域位置数据内的目标时间内多个用户在目标区域的兴趣点数据输入到数学模型中。输入的兴趣点数据可以用表格所示,参见表1所示的一种医疗类兴趣点数据表。
表1一种医疗类兴趣点数据表
由表1一个用户编号为1的用户,在精度116,纬度39的POI编号为11的地址xxx的A医院分别在2018-10-18有两次记录,时间分别为08:15:44-09:45:55,以及17:21:09-18:38:57。
举例说明数学模型的输入输出情况:
一、医疗类的行为语义标签
针对医疗类的行为语义标签,目标区域为各类医院或诊所,这里以医院为例,获得它们的位置数据并画出区域边界;手机信令数据选择了2018年2月到2019年3月13个月份的手机信令数据,手机信令数据也可以叫做人的POI经纬度点位数据。获得用户的兴趣点数据,判断这些数据是否在区域边界中,在区域边界的兴趣数据即为目标时间内多个用户在目标区域的兴趣点数据。
参见图3所示的一种多个用户在目标区域的兴趣点数据的示意图,方框为某家医院的区域边界,圆圈为用户的兴趣点数据,在方框内的圆圈就是目标时间内多个用户在目标区域的兴趣点数据。
这里的时间阈值是指一个用户在目标区域的逗留时间,数学模型会优化时间阈值和个数阈值,不断优化医院各类看病人群占比,最终优化后的时间阈值划分为[4,12),[12,24]两个区间;个数阈值是指一个用户在目标区域的逗留次数,优化后的个数阈值划分为5次和10次。
数学模型根据单独月份人的逗留时长,判定分析用户的行为语义标签,对于医疗类的行为语义标签,可以分为:1、工作行为标签:逗留4-12小时10次以上并且逗留12-24小时10次以下或者逗留4-12小时5次以上10次以下并且逗留12-24小时5次以上10次以下;2、住院行为标签:逗留12-24小时10次以上;3、看病行为标签:工作和住院行为标签以外的到访用户。
二、高校类行为语义标签
针对高校疗类的行为语义标签,目标区域为各类学校,这里以大学为例,手机信令数据选择了2018年1月到2018年12月的手机信令数据。将大学氛围寒假、春季学年、暑假、秋季学年四部分,这里需要将每年分为寒假、春季学年和暑假、秋季学年两部分。
时间阈值依旧代表逗留时间,优化后的时间阈值为[0,10),[10,24];个数阈值代表逗留次数,优化后的逗留次数划分为10次、25次和50次。
数学模型根据不同学年部分人的逗留时长,判定分析用户的行为语义标签,对于高校类的行为语义标签,可以分为:1、新生:寒假+春季学年逗留0-10小时加上逗留10-24小时次数小于10次并且暑假+秋季学年逗留0-10小时加上逗留10-24小时次数大于50次;2、在校生:寒假+春季学年逗留0-10小时加上逗留10-24小时次数大于25次并且暑假+秋季学年逗留0-10小时加上逗留10-24小时次数大于25次;3、毕业生:寒假+春季学年逗留0-10小时加上逗留10-24小时次数大于50次并且暑假+秋季学年逗留0-10小时加上逗留10-24小时次数小于10次。
这样,数学模型就会输出每个用户的对应的行为语义标签,以及该行为语义标签的个数。
步骤S210,根据每个用户对应的行为语义标签的个数,确定每个用户的语义标签。
对于医疗类的行为语义标签,之前的例子获得了13个月的兴趣数据,因此,可以给用户对应以下的语义标签:1、工作人员:工作行为标签3次以上;2、慢性病隐患:看病行为标签5次以上;3、重病隐患:住院行为标签1次以上;4、普通看病:工作人员、慢性病隐患、重病隐患外其他医院到访用户。
表2一个慢性病隐患用户的底层数据样式表
举例来说,慢性病隐患用户的底层数据样式如表2所示,该用户在7月份有8次驻留时间较短,不属于其他的行为语义标签,因此,可以看着7月份该用户对应普通看病标签。同理,8月份有5次驻留,不属于其他的行为语义标签;9月份有3次驻留,不属于其他的行为语义标签;10月份有2次驻留,不属于其他的行为语义标签;11月份有8次驻留,不属于其他的行为语义标签;12月份有5次驻留,不属于其他的行为语义标签。8-12月份对应普通看病标签,1年内的不同看病标签的个数为6次,大于5次,则该用户对应慢性病隐患标签。
表3一个重病隐患用户的底层数据样式表
重病隐患用户的底层数据样式如表3所示,可以看出12月从2号到30号一共29天的时间在医院驻留的时间均超位于12-24小时,则该用户12月对应住院标签,该用户对应一个重病标签,即对应重病隐患标签。
表4一个工作人员用户的底层数据样式表
工作人员用户的底层数据样式如表4所示,可以看出,11月该用户有13天的驻留时间在4-12小时,3天驻留3小时,则该用户对应工作行为标签,分析其他月份,如果13个月中有3个工作行为便签,则该用户对应工作人员标签。
对于高校类的行为语义标签,之前的例子获得了1年的兴趣点数据,因此无需通过次数判断,语义标签可以当作行为语义标签。例如,获得新生的行为语义便签,就获得了新生的语义标签;获得在校生的行为语义便签,就获得了在校生的语义标签;获得毕业生的行为语义便签,就获得了毕业生的语义标签;如果一个用户没有任何的行为语义标签,则该用户对应其他人员的语义标签。通过划分语义标签,即实现了对用户的身份进行标注和分类。
表4高校类用户的底层数据样式表
举例来说,高校类用户的底层数据样式如表5所示,A用户在1-8月份均不在校,在9月份2天短时间逗留(逗留时长0-10小时),10月份2天短时间逗留,18天长时间逗留(逗留时长10-24小时),则A用户寒假+春季学年逗留0-10小时加上逗留10-24小时次数为0(小于10次),暑假+秋季学年逗留0-10小时加上逗留10-24小时次数为53次(大于50次),则A用户对应新生的行为语义标签和语义标签。
B用户寒假+春季学年逗留0-10小时加上逗留10-24小时次数45次(大于25次)并且暑假+秋季学年逗留0-10小时加上逗留10-24小时次数49次(大于25次),则B用户对应在校生的行为语义标签和语义标签。
C用户寒假+春季学年逗留0-10小时加上逗留10-24小时次数53次(大于50次)并且暑假+秋季学年逗留0-10小时加上逗留10-24小时次数0(小于10次),则C用户对应毕业生的行为语义标签和语义标签。
D用户只在9月份有过一次短时间逗留,不属于新生、在校生和毕业生标签,因此D用户属于其他人员。
对于数学模型的建立方法,可以通过以下步骤执行:
(1)基于预设的训练集确定训练位置数据、一个用户的训练兴趣点数据和结果数据;
训练集是指已知用户对应的行为语义标签的数据集,包括训练位置数据、训练兴趣点数据和结果数据,训练数据位置与数据位置为同种数据,训练兴趣点数据与兴趣点数据为同种数据,结果数据表明该用户的对应的行为语义标签和行为语义标签的个数。
(2)根据训练位置数据和训练兴趣点数据确定用户的逗留时间和逗留次数;
训练兴趣点数据包括开始时间和结束时间,二者的时间差就是逗留时间,也可以确定逗留次数。
(3)根据时间阈值和个数阈值划分行为语义标签的范围;
首先,需要根据需要划分为不同的行为语义标签,举例来说,如果时间阈值包括:第一时间阈值、第二时间阈值和第三时间阈值;个数阈值包括:第一个数阈值、第二个数阈值和第三个数阈值,划分行为语义标签可以通过以下步骤执行:
(1)如果用户的逗留时间符合第一时间阈值,并且用户的逗留次数符合第一个数阈值,则用户对应第一行为语义标签;
对于医疗类的行为语义标签,第一行为语义标签可以为工作行为标签,第一时间阈值和第一个数阈值的要求为逗留4-12小时10次以上并且逗留12-24小时10次以下或者逗留4-12小时5次以上10次以下并且逗留12-24小时5次以上10次以下。
对于高校类行为语义标签,第一行为语义标签可以为新生标签,第一时间阈值和第一个数阈值的要求为寒假+春季学年逗留0-10小时加上逗留10-24小时次数小于10次并且暑假+秋季学年逗留0-10小时加上逗留10-24小时次数大于50次。
(2)如果用户的逗留时间符合第二时间阈值,并且用户的逗留次数符合第二个数阈值,则用户对应第二行为语义标签;
对于医疗类的行为语义标签,第二行为语义标签可以为住院行为标签,第二时间阈值和第二个数阈值的要求为逗留12-24小时10次以上。
对于高校类行为语义标签,第二行为语义标签可以为在校生标签,第二时间阈值和第二个数阈值的要求为寒假+春季学年逗留0-10小时加上逗留10-24小时次数大于25次并且暑假+秋季学年逗留0-10小时加上逗留10-24小时次数大于25次。
(3)如果用户的逗留时间符合第三时间阈值,并且用户的逗留次数符合第三个数阈值,则用户对应第三行为语义标签。
对于医疗类的行为语义标签,第三行为语义标签可以为看病行为标签,第三时间阈值和第三个数阈值的要求为不满足第一时间阈值与第一行为阈值的要求,并且不满足第二时间阈值与第二行为阈值的要求。
对于高校类行为语义标签,第三行为语义标签可以为毕业生标签,第三时间阈值和第三个数阈值的要求为寒假+春季学年逗留0-10小时加上逗留10-24小时次数大于50次并且暑假+秋季学年逗留0-10小时加上逗留10-24小时次数小于10次。
(4)根据行为语义标签的范围、用户的逗留时间和逗留次数确定用户的行为语义标签的个数;
确定标准后,就可以获得行为语义标签范围,并以此为根据确定每个用户对应的行为语义标签和行为语义标签的个数。
(5)根据用户的行为语义标签的个数和结果数据,调整时间阈值和个数阈值;
输出的行为语义标签的个数可能与结果数据存在较大的误差,这样需要调整上述时间阈值和个数阈值,重新计算。
(6)继续执行基于预设的训练集确定训练位置数据、一个用户的训练兴趣点数据和结果数据的步骤,直至根据调整后的时间阈值和个数阈值确定的用户的行为语义标签的个数与结果数据的误差在预设范围内,得到最终的数学模型。
调整后重新输出行为语义标签的个数,直至误差在允许的范围内,这样将优化后的数学模型作为最终的数学模型。
根据上述数学模型的建立方法,对应到步骤S210,确定每个用户的语义标签的步骤,可以通过以下方法执行:
如果用户对应的第一行为语义标签的个数大于预设的第一阈值,则用户对应的语义标签为第一语义标签;
这里以高校类行为语义标签为例,如果寒假+春季学年逗留0-10小时加上逗留10-24小时次数小于10次并且暑假+秋季学年逗留0-10小时加上逗留10-24小时次数大于50次,则为大于预设的第一阈值,则用户对应的语义标签为第一语义标签,即新生标签。
如果用户对应的第二行为语义标签的个数大于预设的第二阈值,则用户对应的语义标签为第二语义标签;
如果寒假+春季学年逗留0-10小时加上逗留10-24小时次数大于25次并且暑假+秋季学年逗留0-10小时加上逗留10-24小时次数大于25次,则为大于预设的第二阈值,则用户对应的语义标签为第二语义标签,即在校生标签。
如果用户对应的第三行为语义标签的个数大于预设的第三阈值,则用户对应的语义标签为第三语义标签;
如果寒假+春季学年逗留0-10小时加上逗留10-24小时次数大于50次并且暑假+秋季学年逗留0-10小时加上逗留10-24小时次数小于10次,则为大于预设的第三阈值,则用户对应的语义标签为第三语义标签,即毕业生标签。
如果用户对应的第一行为语义标签的个数小于等于第一阈值,用户对应的第二行为语义标签的个数小于等于第二阈值,并且用户对应的第三行为语义标签的个数小于等于第三阈值,则用户对应的语义标签为第四语义标签。
如果一个用户的第一行为语义标签的个数小于等于第一阈值,用户对应的第二行为语义标签的个数小于等于第二阈值,并且用户对应的第三行为语义标签的个数小于等于第三阈值即该用户没有任何的行为语义标签,则该用户对第四语义标签,即其他人员的标签。
上述方式中,根据手机信令数据得到多个用户的兴趣点数据;根据兴趣点数据和位置数据,得到目标时间内多个用户在目标区域的兴趣点数据,并将目标时间内多个用户在目标区域的兴趣点数据输入至数学模型中,说明了数学模型的建立方法,介绍了每个用户的语义标签的确定方法。可以增加行为语义标签的划分种类,使分析结果更加完整,提高分析结果的准确率,将用户的行为特征更加丰富化、具象化、完整化。
需要说明的是,上述各方法实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
实施例3
对应于上述方法实施例,本发明实施例提供了一种语义标签划分装置,如图4所示的一种语义标签划分装置的结构示意图,该装置包括:
数据获取模块41,用于获取目标区域的位置数据和目标时间内多个用户的兴趣点数据;兴趣点数据包括用户的身份信息、时间信息和时间信息对应的位置信息;
数学模型模块42,用于将兴趣点数据和位置数据输入至预先设定的数学模型中,输出多个用户中每个用户对应的行为语义标签的个数;其中,数学模型根据预先设置的时间阈值和个数阈值建立;
标签确定模块43,用于根据每个用户对应的行为语义标签的个数,确定每个用户的语义标签。
本发明实施例提供的一种语义标签划分装置,将位置数据和兴趣点数据输入到预先设定的数学模型中,由数学模型输出兴趣点数据中多个用户对应的行为语义标签,并以此确定上述用户的语义标签,可以增加行为语义标签的划分种类,使分析结果更加完整,提高分析结果的准确率,将用户的行为特征更加丰富化、具象化、完整化。
在一些实施例中,数据获取模块,用于:获取目标时间内多个用户的手机信令数据;手机信令数据包括用户对应的手机的标识信息、时间信息和时间信息对应的位置信息;根据手机信令数据得到多个用户的兴趣点数据。
在一些实施例中,数学模型模块,用于:根据兴趣点数据和位置数据,得到目标时间内多个用户在目标区域的兴趣点数据;将目标时间内多个用户在目标区域的兴趣点数据输入至预先设定的数学模型中。
在一些实施例中,上述数学模型通过以下模块建立:
训练集获取模块,用于:基于预设的训练集确定训练位置数据、一个用户的训练兴趣点数据和结果数据;
训练集数据模块,用于:根据训练位置数据和训练兴趣点数据确定用户的逗留时间和逗留次数;
语义标签划分模块,用于:根据时间阈值和个数阈值划分行为语义标签的范围;
语义标签个数模块,用于:根据行为语义标签的范围、用户的逗留时间和逗留次数确定用户的行为语义标签的个数;
阈值调整模块,用于:根据用户的行为语义标签的个数和结果数据,调整时间阈值和个数阈值;
继续优化模块,用于:继续执行基于预设的训练集确定训练位置数据、一个用户的训练兴趣点数据和结果数据的步骤,直至根据调整后的时间阈值和个数阈值确定的用户的行为语义标签的个数与结果数据的误差在预设范围内,得到最终的数学模型。
在一些实施例中,时间阈值包括:第一时间阈值、第二时间阈值和第三时间阈值;个数阈值包括:第一个数阈值、第二个数阈值和第三个数阈值;上述语义标签划分模块,用于:如果用户的逗留时间符合第一时间阈值,并且用户的逗留次数符合第一个数阈值,则用户对应第一行为语义标签;如果用户的逗留时间符合第二时间阈值,并且用户的逗留次数符合第二个数阈值,则用户对应第二行为语义标签;如果用户的逗留时间符合第三时间阈值,并且用户的逗留次数符合第三个数阈值,则用户对应第三行为语义标签。
在一些实施例中,上述标签确定模块,用于:如果用户对应的第一行为语义标签的个数大于预设的第一阈值,则用户对应的语义标签为第一语义标签;如果用户对应的第二行为语义标签的个数大于预设的第二阈值,则用户对应的语义标签为第二语义标签;如果用户对应的第三行为语义标签的个数大于预设的第三阈值,则用户对应的语义标签为第三语义标签;如果用户对应的第一行为语义标签的个数小于等于第一阈值,用户对应的第二行为语义标签的个数小于等于第二阈值,并且用户对应的第三行为语义标签的个数小于等于第三阈值,则用户对应的语义标签为第四语义标签。
本发明实施例提供的语义标签划分装置,与上述实施例提供的语义标签划分方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实施例4
本发明实施例还提供了一种电子设备,用于运行上述语义标签划分方法;参见图5所示的一种电子设备的结构示意图,该电子设备包括存储器100和处理器101,其中,存储器100用于存储一条或多条计算机指令,一条或多条计算机指令被处理器101执行,以实现上述语义标签划分方法。
进一步地,图5所示的电子设备还包括总线102和通信接口103,处理器101、通信接口103和存储器100通过总线102连接。
其中,存储器100可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100,处理器101读取存储器100中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述语义标签划分方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的语义标签划分方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和/或电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种语义标签划分方法,其特征在于,包括:
获取目标区域的位置数据和目标时间内多个用户的兴趣点数据;所述兴趣点数据包括所述用户的身份信息、时间信息和所述时间信息对应的位置信息;
将所述兴趣点数据和所述位置数据输入至预先设定的数学模型中,输出多个所述用户中每个用户对应的行为语义标签的个数;其中,所述数学模型根据预先设置的时间阈值和个数阈值建立;
根据每个所述用户对应的行为语义标签的个数,确定每个所述用户的语义标签。
2.根据权利要求1所述的方法,其特征在于,获取目标时间内多个用户的兴趣点数据的步骤,包括:
获取目标时间内多个用户的手机信令数据;所述手机信令数据包括所述用户对应的手机的标识信息、时间信息和所述时间信息对应的位置信息;
根据所述手机信令数据得到多个用户的兴趣点数据。
3.根据权利要求1所述的方法,其特征在于,将所述兴趣点数据和所述位置数据输入至预先设定的数学模型中的步骤,包括:
根据所述兴趣点数据和所述位置数据,得到所述目标时间内多个用户在目标区域的兴趣点数据;
将所述目标时间内多个用户在目标区域的兴趣点数据输入至预先设定的数学模型中。
4.根据权利要求1所述的方法,其特征在于,所述数学模型通过以下步骤建立:
基于预设的训练集确定训练位置数据、一个用户的训练兴趣点数据和结果数据;
根据所述训练位置数据和训练兴趣点数据确定所述用户的逗留时间和逗留次数;
根据所述时间阈值和所述个数阈值划分所述行为语义标签的范围;
根据所述行为语义标签的范围、所述用户的逗留时间和逗留次数确定所述用户的行为语义标签的个数;
根据所述用户的行为语义标签的个数和所述结果数据,调整所述时间阈值和所述个数阈值;
继续执行基于预设的训练集确定训练位置数据、一个用户的训练兴趣点数据和结果数据的步骤,直至根据调整后的所述时间阈值和所述个数阈值确定的用户的行为语义标签的个数与所述结果数据的误差在预设范围内,得到最终的数学模型。
5.根据权利要求4所述的方法,其特征在于,所述时间阈值包括:第一时间阈值、第二时间阈值和第三时间阈值;所述个数阈值包括:第一个数阈值、第二个数阈值和第三个数阈值;
根据所述时间阈值和所述个数阈值划分所述行为语义标签的范围的步骤,包括:
如果所述用户的逗留时间符合所述第一时间阈值,并且所述用户的逗留次数符合所述第一个数阈值,则所述用户对应第一行为语义标签;
如果所述用户的逗留时间符合所述第二时间阈值,并且所述用户的逗留次数符合所述第二个数阈值,则所述用户对应第二行为语义标签;
如果所述用户的逗留时间符合所述第三时间阈值,并且所述用户的逗留次数符合所述第三个数阈值,则所述用户对应第三行为语义标签。
6.根据权利要求5所述的方法,其特征在于,根据每个所述用户对应的行为语义标签的个数,确定每个所述用户的语义标签的步骤,包括:
如果所述用户对应的所述第一行为语义标签的个数大于预设的第一阈值,则所述用户对应的语义标签为第一语义标签;
如果所述用户对应的所述第二行为语义标签的个数大于预设的第二阈值,则所述用户对应的语义标签为第二语义标签;
如果所述用户对应的所述第三行为语义标签的个数大于预设的第三阈值,则所述用户对应的语义标签为第三语义标签;
如果所述用户对应的所述第一行为语义标签的个数小于等于所述第一阈值,所述用户对应的所述第二行为语义标签的个数小于等于所述第二阈值,并且所述用户对应的所述第三行为语义标签的个数小于等于所述第三阈值,则所述用户对应的语义标签为第四语义标签。
7.一种语义标签划分装置,其特征在于,包括:
数据获取模块,用于获取目标区域的位置数据和目标时间内多个用户的兴趣点数据;所述兴趣点数据包括所述用户的身份信息、时间信息和所述时间信息对应的位置信息;
数学模型模块,用于将所述兴趣点数据和所述位置数据输入至预先设定的数学模型中,输出多个所述用户中每个用户对应的行为语义标签的个数;其中,所述数学模型根据预先设置的时间阈值和个数阈值建立;
标签确定模块,用于根据每个所述用户对应的行为语义标签的个数,确定每个所述用户的语义标签。
8.根据权利要求7所述的装置,其特征在于,所述数据获取模块,用于:
获取目标时间内多个用户的手机信令数据;所述手机信令数据包括所述用户对应的手机的标识信息、时间信息和所述时间信息对应的位置信息;
根据所述手机信令数据得到多个用户的兴趣点数据。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至6任一项所述的语义标签划分方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使处理器实现权利要求1至6任一项所述的语义标签划分方法的步骤。
CN201910753069.4A 2019-08-14 2019-08-14 语义标签划分方法、装置和电子设备 Pending CN110427562A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910753069.4A CN110427562A (zh) 2019-08-14 2019-08-14 语义标签划分方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910753069.4A CN110427562A (zh) 2019-08-14 2019-08-14 语义标签划分方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN110427562A true CN110427562A (zh) 2019-11-08

Family

ID=68416387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910753069.4A Pending CN110427562A (zh) 2019-08-14 2019-08-14 语义标签划分方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN110427562A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561759A (zh) * 2020-01-02 2021-03-26 北京融信数联科技有限公司 一种基于移动信令大数据的毕业生去向动态监测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079824A (zh) * 2006-06-15 2007-11-28 腾讯科技(深圳)有限公司 一种用户兴趣偏好向量生成系统和方法
CN102682041A (zh) * 2011-03-18 2012-09-19 日电(中国)有限公司 用户行为识别设备及方法
CN103268495A (zh) * 2013-05-31 2013-08-28 公安部第三研究所 计算机系统中基于先验知识聚类的人体行为建模识别方法
CN104077295A (zh) * 2013-03-27 2014-10-01 百度在线网络技术(北京)有限公司 一种数据标签的挖掘方法及系统
CN104463633A (zh) * 2014-12-19 2015-03-25 成都品果科技有限公司 一种基于地理位置和兴趣点信息的用户细分方法
CN104597469A (zh) * 2015-02-04 2015-05-06 四川大学 基于GPS/AGPS/GPSOne和目标行为特征的智能定位方法
US20170249491A1 (en) * 2011-08-30 2017-08-31 Digimarc Corporation Methods and arrangements for identifying objects
CN109858365A (zh) * 2018-12-28 2019-06-07 深圳云天励飞技术有限公司 一种特殊人群聚集行为分析方法、装置及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079824A (zh) * 2006-06-15 2007-11-28 腾讯科技(深圳)有限公司 一种用户兴趣偏好向量生成系统和方法
CN102682041A (zh) * 2011-03-18 2012-09-19 日电(中国)有限公司 用户行为识别设备及方法
US20170249491A1 (en) * 2011-08-30 2017-08-31 Digimarc Corporation Methods and arrangements for identifying objects
CN104077295A (zh) * 2013-03-27 2014-10-01 百度在线网络技术(北京)有限公司 一种数据标签的挖掘方法及系统
CN103268495A (zh) * 2013-05-31 2013-08-28 公安部第三研究所 计算机系统中基于先验知识聚类的人体行为建模识别方法
CN104463633A (zh) * 2014-12-19 2015-03-25 成都品果科技有限公司 一种基于地理位置和兴趣点信息的用户细分方法
CN104597469A (zh) * 2015-02-04 2015-05-06 四川大学 基于GPS/AGPS/GPSOne和目标行为特征的智能定位方法
CN109858365A (zh) * 2018-12-28 2019-06-07 深圳云天励飞技术有限公司 一种特殊人群聚集行为分析方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何承等: "《城市交通大数据》", 31 January 2015, 上海科学技术出版社 *
刘军林等: "《智慧旅游产业融合发展研究》", 31 August 2018, 华中科技大学出版社 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561759A (zh) * 2020-01-02 2021-03-26 北京融信数联科技有限公司 一种基于移动信令大数据的毕业生去向动态监测方法
CN112561759B (zh) * 2020-01-02 2023-08-04 北京融信数联科技有限公司 一种基于移动信令大数据的毕业生去向动态监测方法

Similar Documents

Publication Publication Date Title
CN108280685B (zh) 信息获取方法和装置
CN109919316A (zh) 获取网络表示学习向量的方法、装置和设备及存储介质
CN103455472B (zh) 信息处理设备和信息处理方法
CN105989082B (zh) 报表视图生成方法和装置
CN105005587A (zh) 一种用户画像的更新方法、装置和系统
CN106548381A (zh) 智能用户标签系统及实现方法
CN107315824A (zh) 用于生成热力图的方法和装置
CN106897402A (zh) 基于社保数据构建用户画像的方法和用户画像生成器
CN110033156A (zh) 一种业务活动效果的确定方法及装置
CN105894358A (zh) 通勤订单识别方法和装置
She et al. The network-max-P-regions model
CN104346408B (zh) 一种对网络用户进行标注的方法与设备
Svoray et al. Demonstrating the effect of exposure to nature on happy facial expressions via Flickr data: Advantages of non-intrusive social network data analyses and geoinformatics methodologies
WO2021027493A1 (zh) 数据处理方法、装置及存储介质
CN109408522A (zh) 一种用户特征数据的更新方法和装置
Amarawickrama et al. Defining urban sprawl in the Sri Lankan context: With special reference to the Colombo Metropolitan Region
CN105408894B (zh) 一种用户身份类别确定方法以及装置
CN108876465A (zh) 一种对商户进行经营模式分群的方法、装置和服务器
CN109376192A (zh) 一种用户留存分析方法、装置、电子设备及存储介质
CN110147923A (zh) 用于识别风险用户的方法及装置
CN109522858A (zh) 植物疾病检测方法、装置及终端设备
CN109697626A (zh) 基于JeeSite快速开发平台的营销系统、方法、电子终端及介质
CN109062947A (zh) 用户画像标签查询方法、设备及计算机可读存储介质
CN110070380A (zh) 信息生成方法和装置
I. Watson Efficient design of geographically-defined clusters with spatial autocorrelation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191108