CN106777273A - 一种地图围栏匹配方法 - Google Patents
一种地图围栏匹配方法 Download PDFInfo
- Publication number
- CN106777273A CN106777273A CN201611241540.4A CN201611241540A CN106777273A CN 106777273 A CN106777273 A CN 106777273A CN 201611241540 A CN201611241540 A CN 201611241540A CN 106777273 A CN106777273 A CN 106777273A
- Authority
- CN
- China
- Prior art keywords
- user
- keyword
- address
- base attribute
- matching process
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种地图围栏匹配方法,本方法包括获取用户输入地址信息中的地址关键词;确定所述地址关键词所在的位置区域;获取所述位置区域中用户的行为数据;通过对所述行为数据进行用户行为偏向性的匹配计算,获取用户的基本属性。通过用户输入地址信息确认位置区域,从而可以获取所述区域内的行为数据,和现有技术中常用的LBS定位相比,不但适用于获取用户当前的数据信息,还可以获取用户历史的行为数据;其次,通过对用户行为数据进行偏向性的匹配计算,获取用户的基本属性。相比较现有技术中根据用户行为数据中关键词来判断用户的基本属性相比,提高了准确度。
Description
技术领域
本发明涉及大数据匹配技术领域,尤其涉及一种地图围栏匹配方法。
背景技术
近年来,大数据技术应用广泛,大数据分析的前提是获取用户行为数据,并对行为数据进行分析,获取用户的基本属性,再根据用户基本属性进行精准营销。
地理围栏技术是大数据分析中常用到的技术,主要是用一个虚拟的栅栏围出一个虚拟地理边界。当手机进入、离开某个特定地理区域,或在该区域内活动时,可以接收自动通知和警告。地理围栏技术中的地理区域是被网格化的,是根据一个地理区域内的业务和商业聚类的,而不是纯粹的经纬度和城市地图的匹配。
地理围栏通常使用LBS定位技术,通过手机定位技术向广大移动通信用户提供与坐标位置相关的多样化服务,基于位置的服务,是指通过电信移动运营商的无线电通讯网络或外部定位方式,获取移动终端用户的位置信息,在GIS平台的支持下,为用户提供相应服务的一种增值业务。
LBS主要的定位方法包含:
手机移动基站定位方法:发源区(COO)定位、入射角(AOA)定位、到达时间与到达时间差定位、混合定位方法;
基站与卫星定位系统联合的定位方法:A-GPS技术、A-MPS技术。
现技术缺陷:
采用上述技术,若需要获取用户行为数据时,只能实时获得用户定位所在地的信息,用户离开所在地之后,历史数据难以获取。在获取用户行为数据后,现有技术大数据分析时,根据用户的属性,向用户推送相关信息,涉及用户属性计算的准确度不够,如一用户曾多次购买女性产品,则判定为用户为女性,仅这样是不够的,也会导致判断失误,不能达到准确预测的目的。
发明内容
本发明公开一种地图围栏匹配方法,通过本方法,可以获取用户历史的行为数据,且通过对行为数据的匹配计算,准确获知用户的基本属性。
为了达到上述发明目的,本发明提供了一种地图围栏匹配方法,所述方法包括:
获取用户输入地址信息中的地址关键词;
确定所述地址关键词所在的位置区域;
获取所述位置区域中用户的行为数据;
通过对所述行为数据进行用户行为偏向性的匹配计算,获取用户的基本属性。
优先地,所述通过对所述行为数据进行用户行为偏向性的匹配计算,获取用户的基本属性的步骤包括:
获取用户行为数据中与用户基本属性相关的关键信息;
将所述关键信息与预先设置的关键信息表进行匹配计算,获取置信度值,所述置信度值为用户行为的偏向性值;
根据所述置信度值,确定用户基本属性。
优先地,所述关键信息包括关键词和域名;所述关键信息表包括关键词表和域名表。
优先地,将所述关键信息与预先设置的关键信息表进行匹配计算,获取置信度值的步骤包括:
所述用户的基本属性包括至少一个以上的标签,所述标签包括性别状况、子女状况、婚姻状况。
优先地,所述根据所述置信度值,确定用户基本属性的步骤具体包括:
当所述置信度值达到一定的阈值时,则确认用户的基本属性为所述置信度值对应的属性。
优先地,所述当置信度值达到一定的阈值时,则确认用户的基本属性为所述置信度值对应的属性的步骤包括:
将所述置信度值与阈值进行比较,若所述置信度值大于阈值,则确认用户的基本属性为所述置信度值对应的属性;
若所述置信度值小于阈值,则用户的基本属性为未知属性。
优先地,所述获取用户输入地址信息中的地址关键词的步骤包括:
根据隐马尔科夫模型和维特比算法,对接收用户输入的地址信息进行智能分词,获取所述地址信息中的地址关键词。
优先地,所述确定地址关键词所在的位置区域的步骤包括:
根据所述地址关键词,采用地址模糊匹配方法,确定所述地址关键词所在的位置区域。
优先地,所述地址模糊匹配方法为Lucence全文索引方法。
本发明公开了一种地图围栏匹配方法,通过用户输入地址信息确认位置区域,从而可以获取所述区域内的行为数据,和现有技术中常用的LBS定位相比,不但适用于获取用户当前的数据信息,还可以获得用户历史的行为数据;其次,通过对用户行为数据进行偏向性的匹配计算,获取用户的基本属性。相比较现有技术中根据用户行为数据中关键词来判断用户的基本属性相比,提高了准确度。
附图说明
图1是本发明实施例地图围栏匹配方法第一流程图;
图2是本发明实施例地图围栏匹配方法第二流程图;
图3是本发明实施例地图围栏匹配方法第三流程图;
图4是本发明实施例地图围栏匹配方法第三流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开了一种地图围栏匹配方法,通过用户输入地址信息确认位置区域,从而可以获取所述区域内的行为数据,和现有技术中常用的LBS定位相比,不但适用于获取用户当前的数据信息,还可以获得用户历史的行为数据;其次,通过对用户行为数据进行偏向性的匹配计算,获取用户的基本属性。相比较现有技术中根据用户行为数据中关键词来判断用户的基本属性相比,提高了准确度。
地图围栏匹配方法具体实施例:
请参见图1,为本发明实施例地图围栏匹配方法第一流程图,如图所示,所述地图围栏匹配方法包括:
S101、获取用户输入地址信息中的地址关键词;
S102、确定所述地址关键词所在的位置区域;
S103、获取所述位置区域中用户的行为数据;
S104、通过对所述行为数据进行用户行为偏向性的匹配计算,获取用户的基本属性。
本实施例通过用户输入地址信息确认位置区域,从而可以获取所述区域内的行为数据,和现有技术中常用的LBS定位相比,不但适用于获取用户当前的数据信息,还可以获得用户历史的行为数据;其次,通过对用户行为数据进行偏向性的匹配计算,获取用户的基本属性。相比较现有技术中根据用户行为数据中关键词来判断用户的基本属性相比,提高了准确度。
请参见图2,为本发明实施例地图围栏匹配方法第二流程图,如图所示,所述地图围栏匹配方法包括:
S201、根据隐马尔科夫模型和维特比算法,对接收用户输入的地址信息进行智能分词,获取所述地址信息中的地址关键词;
隐马尔科夫模型,可简称为HMM模型。在将隐马尔科夫模型用于中文分词的过程中,可以采用四个隐含状态,分别为‘S’、‘B’、‘M’、‘E’分别表示为单字成词,词组的开头,词组的中间,词组的结尾。通过标注好的分词训练集,可以得到HMM的各个参数,然后使用维特比算法来解释测试集,得到分词结果。
S202、根据所述地址关键词,采用地址模糊匹配方法,确定所述地址关键词所在的位置区域;
所述地址模糊匹配方法可为Lucence全文索引方法。
S203、获取所述位置区域中用户的行为数据;
S204、通过对所述行为数据进行用户行为偏向性的匹配计算,获取用户的基本属性。
本实施例通过用户输入地址信息,采用地址模糊匹配方法,确认位置区域,从而可以获取所述区域内的行为数据,和现有技术中常用的LBS定位相比,不但适用于获取用户当前的数据信息,还可以获得用户历史的行为数据;其次,通过对用户行为数据进行偏向性的匹配计算,获取用户的基本属性。相比较现有技术中根据用户行为数据中关键词来判断用户的基本属性相比,提高了准确度。
请参见图3,为本发明实施例地图围栏匹配方法第三流程图,如图所示,所述地图围栏匹配方法包括:
S301、获取用户输入地址信息中的地址关键词;
S302、确定所述地址关键词所在的位置区域;
S303、获取所述位置区域中用户的行为数据;
S304、获取用户行为数据中与用户基本属性相关的关键信息;所述关键信息包括关键词和域名。
S305、将所述关键信息与预先设置的关键信息表进行匹配计算,获取置信度值,所述置信度值为用户行为的偏向性值;
优先地,所述用户的基本属性包括至少一个以上的标签,所述标签包括性别状况、子女状况、婚姻状况。
S306、根据所述置信度值,确定用户基本属性。
优先地,当所述置信度值达到一定的阈值时,则确认用户的基本属性为所述置信度值对应的属性。
本实施例通过用户输入地址信息确认位置区域,从而可以获取所述区域内的行为数据,和现有技术中常用的LBS定位相比,不但适用于获取用户当前的数据信息,还可以获得用户历史的行为数据;其次,通过对用户行为数据进行偏向性的匹配计算,获取用户的基本属性。相比较现有技术中根据用户行为数据中关键词来判断用户的基本属性相比,提高了准确度。
请参见图4,为本发明实施例地图围栏匹配方法第4流程图,如图所示,所述地图围栏匹配方法包括:
S401、获取用户输入地址信息中的地址关键词;
该步骤主要根据隐马尔科夫模型和维特比算法,对接收用户输入的地址信息进行智能分词,获取所述地址信息中的地址关键词;根据所得的地址关键词和标准地址库中地址做匹配。
地址维护:对于标准地址的维护可以采用灵活的方式,标准地址级别管理,数据初始化时,可以设置标准地址拆分级别。
智能拆分:对地址按照地址拆分关键字,进行自动拆分成多级标准地址。
拆分规则维护:即标准地址拆分关键字管理,对标准地址拆分级别的关键字进行管理。如:街道、路等关键词;以及各类标志性地址,如杭州大厦、西湖等。考虑到各地区地名的命名规则差异非常大,拆分规则要能够进行地域性差别配置。
S402、确定所述地址关键词所在的位置区域;
本步骤中,根据所述地址关键词,采用地址模糊匹配方法,确定所述地址关键词所在的位置区域;所述地址模糊匹配方法为Lucence全文索引方法。
在管理区块图形时系统自动搜索所述地址关键词所在的周边临近区块并建立关联关系,在电信接入型资源应用中,可在当前区块中没有资源或者资源已用完之后从临近区块中搜索可用资源。
S403、获取所述位置区域中用户的行为数据;
本步骤获取海量周边人群上网行为数据。
S404、获取用户行为数据中与用户基本属性相关的关键信息;所述关键信息包括关键词和域名;
此步骤,对用户的行为数据进行分词计算,获知用户行为的发生地即域名信息以及具体的用户行为,如婚礼、结婚、生子等。
S405、将所述关键信息与预先设置的关键信息表进行匹配计算,获取置信度值,所述置信度值为用户行为的偏向性值;所述关键信息表包括关键词表和域名表。
优先地,所述用户的基本属性包括至少一个以上的标签,所述标签包括性别状况、子女状况、婚姻状况。
如男性关键词,如中华烟和域名man.91.com;女性关键词,如资生堂和域名lady.hnr.cn;子女关键词,纸尿裤;婚姻关键词,如婚礼。
其中,纸尿裤对应的标签婴幼儿,童车对应的标签是儿童,婚礼对应的标签是结婚前后。
S406、将所述置信度值与阈值进行比较,判断所述置信度值是否大于阈值;
上述阈值用于判断某个用户属于某个基本属性,阈值可预先设置,后可经过定期的训练学习,不断修正。
S407a、若所述置信度值大于阈值,则确认用户的基本属性为所述置信度值所对应的属性;
S407b、若所述置信度值小于阈值,则用户的基本属性为未知属性。
其中S405-S407步骤具体实施方案如下,分为三种情况,性别、子女和婚姻。
性别置信度:用朴素贝叶斯的方法会生成四个值:wordScore1,wordScore0,domainScore1,domainScore0,分别代表男性词贝叶斯得分,女性词贝叶斯得分,男性域贝叶斯得分,女性域贝叶斯得分。定义关键词置信度wordConfi,如果wordScore1/wordScore0>5,则wordConfi=wordScore1/(wordScore1+wordScore0);如果wordScore0/wordScore1>5,则wordConfi=wordScore0/(wordScore1+wordScore0);如果不满足这两个条件,则wordConfi=null。类似上述方法可以得到域名置信度domainConfi。
如果根据关键词和域名判断出的性别是相同的,那么该用户的性别置信度confi_sex=((wordConfi+domainConfi))/2;如果根据关键词和域名判断出的性别不同,且wordConfi>domainConfi,那么confi_sex=wordConfi-domainConfi;如果根据关键词和域名判断出的性别不同,且wordConfi<domainConfi,那么confi_sex=domainConfi-wordConfi。
子女及置信度:将用户的所有title分词,得到N个关键词,其中有M个是我们匹配到的子女关键词,则子女的关键词置信度wordConfi=Min(M/(N×0.5),1.0)。同理可得域名置信度domainConfi。用户子女置信度confi_children=Min(wordConfi+domainConfi,1.0),如果confi_childern大于一定阈值,则判断该用户是有子女的。
婚姻及置信度:如果一个用户是有子女的,则他是有或有过婚姻的;如果没有子女,则按照子女及置信度的方法判断其婚姻状态。
然后根据性别、婚姻子女关键词/域名所对应的标签,去匹配用户关键词/域名,当匹配到的关键词/域名到达一定的阈值时,就把该标签选为用户标签。一个用户可以有多个标签。
上述案例,通过对用户行为数据进行置信度的匹配计算,获取用户的基本属性。相比较现有技术中根据用户行为数据中关键词来判断用户的基本属性相比,提高了准确度。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他任何未背离本发明的精神实质和原理下所作的修改、修饰、替代、组合、简化,均应为等效的置换方式,都应包含在本发明的保护范围之内。
Claims (9)
1.一种地图围栏匹配方法,其特征在于,所述方法包括:
获取用户输入地址信息中的地址关键词;
确定所述地址关键词所在的位置区域;
获取所述位置区域中用户的行为数据;
通过对所述行为数据进行用户行为偏向性的匹配计算,获取用户的基本属性。
2.根据权利要求1所述的地图围栏匹配方法,其特征在于,所述通过对所述行为数据进行用户行为偏向性的匹配计算,获取用户的基本属性的步骤包括:
获取用户行为数据中与用户基本属性相关的关键信息;
将所述关键信息与预先设置的关键信息表进行匹配计算,获取置信度值,所述置信度值为用户行为的偏向性值;
根据所述置信度值,确定用户基本属性。
3.根据权利要求2所述的地图围栏匹配方法,其特征在于,所述根据所述置信度值,确定用户基本属性的步骤具体包括:
当所述置信度值达到一定的阈值时,则确认用户的基本属性为所述置信度值对应的属性。
4.根据权利要求3所述的地图围栏匹配方法,其特征在于,所述当置信度值达到一定的阈值时,则确认用户的基本属性为所述置信度值对应的属性的步骤包括:
将所述置信度值与阈值进行比较,若所述置信度值大于阈值,则确认用户的基本属性为所述置信度值对应的属性;
若所述置信度值小于阈值,则用户的基本属性为未知属性。
5.根据权利要求3、4所述的地图围栏匹配方法,其特征在于,所述用户的基本属性包括至少一个以上的标签,所述标签包括性别状况、子女状况、婚姻状况。
6.根据权利要求2、3、4任意一项所述的地图围栏匹配方法,其特征在于,所述关键信息包括关键词和域名;所述关键信息表包括关键词表和域名表。
7.根据权利要求1所述的地图围栏匹配方法,其特征在于,所述获取用户输入地址信息中的地址关键词的步骤包括:
根据隐马尔科夫模型和维特比算法,对接收用户输入的地址信息进行智能分词,获取所述地址信息中的地址关键词。
8.根据权利要求1所述的地图围栏匹配方法,其特征在于,所述确定地址关键词所在的位置区域的步骤包括:
根据所述地址关键词,采用地址模糊匹配方法,确定所述地址关键词所在的位置区域。
9.根据权利要求8所述的地图围栏匹配方法,其特征在于,所述地址模糊匹配方法为Lucence全文索引方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611241540.4A CN106777273A (zh) | 2016-12-29 | 2016-12-29 | 一种地图围栏匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611241540.4A CN106777273A (zh) | 2016-12-29 | 2016-12-29 | 一种地图围栏匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106777273A true CN106777273A (zh) | 2017-05-31 |
Family
ID=58925539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611241540.4A Pending CN106777273A (zh) | 2016-12-29 | 2016-12-29 | 一种地图围栏匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106777273A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112132209A (zh) * | 2020-09-19 | 2020-12-25 | 北京智能工场科技有限公司 | 一种基于偏向性特征的属性预测方法 |
CN113157828A (zh) * | 2020-01-22 | 2021-07-23 | 北京京东振世信息技术有限公司 | 一种推送数据的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101276375A (zh) * | 2007-03-31 | 2008-10-01 | 索尼德国有限责任公司 | 用于推荐内容的方法 |
CN104035955A (zh) * | 2014-03-18 | 2014-09-10 | 北京百度网讯科技有限公司 | 搜索方法和装置 |
CN104850641A (zh) * | 2015-05-26 | 2015-08-19 | 无线生活(杭州)信息科技有限公司 | 一种推荐信息的方法及装置 |
-
2016
- 2016-12-29 CN CN201611241540.4A patent/CN106777273A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101276375A (zh) * | 2007-03-31 | 2008-10-01 | 索尼德国有限责任公司 | 用于推荐内容的方法 |
CN104035955A (zh) * | 2014-03-18 | 2014-09-10 | 北京百度网讯科技有限公司 | 搜索方法和装置 |
CN104850641A (zh) * | 2015-05-26 | 2015-08-19 | 无线生活(杭州)信息科技有限公司 | 一种推荐信息的方法及装置 |
Non-Patent Citations (3)
Title |
---|
付倩文: "基于Hadoop_hive架构的网络身份识别系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
水利信息化新技术及应用 编委会: "《水利信息化新技术及应用》", 31 July 2013, 广州:羊城晚报出版社 * |
谢恩宏: "基于LBS模式的电子商务推荐技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157828A (zh) * | 2020-01-22 | 2021-07-23 | 北京京东振世信息技术有限公司 | 一种推送数据的方法和装置 |
CN113157828B (zh) * | 2020-01-22 | 2023-11-07 | 北京京东振世信息技术有限公司 | 一种推送数据的方法和装置 |
CN112132209A (zh) * | 2020-09-19 | 2020-12-25 | 北京智能工场科技有限公司 | 一种基于偏向性特征的属性预测方法 |
CN112132209B (zh) * | 2020-09-19 | 2024-05-31 | 北京智能工场科技有限公司 | 一种基于偏向性特征的属性预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2012339408B2 (en) | Method and server for searching for nearby user in social network | |
CN110008413B (zh) | 一种交通出行问题查询方法和装置 | |
CN111651685A (zh) | 一种兴趣点获取方法、装置、电子设备及存储介质 | |
US11086953B2 (en) | Determining relevance of points of interest to a user | |
WO2014090081A1 (zh) | 群组加入方法、群组创建方法、客户端、服务器及系统 | |
CN105554704A (zh) | 推荐系统中基于假轨迹的位置隐私保护方法 | |
WO2016127879A1 (zh) | 一种确定热点区域的方法和装置 | |
CN109165527A (zh) | 支持个性化隐私的轨迹敏感数据保护方法 | |
CN110674423A (zh) | 一种地址定位的方法、装置、可读存储介质和电子设备 | |
US20100250366A1 (en) | Merge real-world and virtual markers | |
CN105630884A (zh) | 一种微博热点事件的地理位置发现方法 | |
CN106997666A (zh) | 一种利用手机信令数据位置切换获取交通流速度的方法 | |
EP3425876A1 (en) | Location-based service implementing method and apparatus | |
CN103250151A (zh) | 服务器、信息管理方法、信息管理程序以及记录该程序的计算机可读取的记录介质 | |
CN108345609A (zh) | 一种处理poi信息的方法和装置 | |
CN104661306A (zh) | 移动终端被动定位方法及系统 | |
CN105354226A (zh) | 将Wi-Fi信号发射设备定位到地理信息点的方法和装置 | |
CN104866623A (zh) | 一种搜索方法及搜索服务器 | |
CN111931077A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN112653748A (zh) | 信息推送的方法、装置、电子设备及可读存储介质 | |
CN105246157B (zh) | 一种移动终端的定位方法和定位系统 | |
CN111651535B (zh) | 信息查询处理方法、装置、电子设备及可读存储介质 | |
CN106777273A (zh) | 一种地图围栏匹配方法 | |
CN103714081A (zh) | 一种专有地名的识别方法和装置 | |
CN114707506A (zh) | 快递进入派件站点的分拣方法、系统及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |