CN106022839B - 一种特定群体的识别方法、系统及终端 - Google Patents
一种特定群体的识别方法、系统及终端 Download PDFInfo
- Publication number
- CN106022839B CN106022839B CN201610374247.9A CN201610374247A CN106022839B CN 106022839 B CN106022839 B CN 106022839B CN 201610374247 A CN201610374247 A CN 201610374247A CN 106022839 B CN106022839 B CN 106022839B
- Authority
- CN
- China
- Prior art keywords
- rule
- address
- data
- information
- subtraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种特定群体的识别方法、系统及终端。该方法包括:获取订单信息,提取所述订单信息中的地址信息组成地址库;构建基于所述地址库的规则样本集和剩余地址集;所述规则样本集初始为空集,所述剩余地址集初始为全量地址数据;从所述剩余地址集中的全量地址数据中随机抽取至少一条地址信息,放入所述规则样本集中;识别并剔除放入所述规则样本集中的地址信息中携带不符合特定群体的标识信息的地址信息,将符合所述特定群体的标识信息组成加法规则,将不符合所述特定群体的标识信息组成减法规则;将所述加法规则和/或所述减法规则固化。其克服现有的电子商务领域的特定群体识别难的技术问题,提高了特定群体的识别的效率和用户体验。
Description
技术领域
本发明涉及电子商务领域,尤其涉及一种特定群体的识别方法、系统及终端。
背景技术
电子商务是利用微电脑技术和网络技术进行的商务活动,通常是指在全球各地广泛的商业贸易活动中,在因特网开放的网络环境下,基于浏览器/服务器应用方式,买卖双方不谋面地进行各种商贸活动,实现消费者的网上购物、商户之间的网上交易和在线电子支付以及各种商务活动、交易活动、金融活动和相关的综合服务活动的一种新型的商业运营模式。各国政府、学者、企业界人士根据自己所处的地位和对电子商务参与的角度和程度的不同,给出了许多不同的定义。电子商务分为:ABC、B2B、B2C、C2C、B2M、M2C、B2A(即B2G)、C2A(即C2G)、O2O电子商务模式等等。电子商务的形成与交易离不开以下三方面的关系:交易平台、平台经营者和站内经营者。
网购的普及使得电子商务整体市场保持高速增长,目前电子商务领域的用户群体数量庞大,则需要迅速从用户群里中辨识到特性群体类别,针对该特定群体进行特定营销推广,快速建立营销路径。
发明人在研究的过程中发现,由于网购本身的大众化性质,无法通过消费特征、行为特征等有效区分不同的用户群体,而区分特定用户群体类别,目前主要有以下两方面的问题:
一是获取渠道。线上或线下问卷调查的形式、线上用户注册时获取,但如果问卷或者系统设计时没有考虑职业这一选项,则不能收集到用户的职业信息,同时很难覆盖全量用户。
二是数据的质量。即使有收集到用户的职业信息,用户出于自我保护意识,故意填错导致数据质量不高,误差比较大。
发明内容
本发明的主要目的在于提供一种特定群体的识别方法、系统及终端,以克服现有的电子商务领域的特定用户群体识别难的技术问题。
本发明一方面提供了一种特定群体的识别方法,包括:
步骤一、获取订单信息,提取所述订单信息中的地址信息组成地址库;
步骤二、构建基于所述地址库的规则样本集和剩余地址集;所述规则样本集初始为空集,所述剩余地址集初始为全量地址数据;
步骤三、从所述剩余地址集中的全量地址数据中随机抽取至少一条地址信息,放入所述规则样本集中;识别并剔除放入所述规则样本集中的地址信息中携带不符合特定群体的标识信息的地址信息,将符合所述特定群体的标识信息组成加法规则,将不符合所述特定群体的标识信息组成减法规则;
步骤四、将所述加法规则和/或所述减法规则固化。
进一步的,所述步骤一中,具体包括:获取订单信息,提取所述订单信息中的有效地址信息;
所述有效地址信息,具体包括:可识别出所述地址信息中的行政区域标识的地址信息。
进一步的,步骤三中,所述放入所述规则样本集中之后,还包括:
将所述放入所述规则样本集中至少一条地址信息,从所述剩余地址集中删除。
进一步的,步骤三中,所述特定群体标识,包括:含有该特定群体的标示性文字的标识信息;
所述不符合特定群体标识,包括:含有该特定群体的标示性文字的标识信息的临近参考标识信息。
进一步的,所述步骤三之后,还包括,扩充加法规则,所述扩充加法规则包括:重复步骤三,直至所述规则样本集中的地址信息满足预定数量和/或所述加法规则的中增加的标识信息小于指定数量为止。
进一步的,所述步骤四中,将所述加法规则和/或所述减法规则固化,具体包括:
不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配未成功后,且判断所述地址库中的数据未完成抽取,重复不放回抽取所述地址库中的至少一条数据的步骤;和/或
不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配成功后,对该条数据标注对应的规则,且所述地址库中的数据完成抽取后,将所述加法规则和/或所述减法规则固化;和/或
不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配未成功后,且判断所述地址库中的数据完成抽取,将所述加法规则和/或所述减法规则固化。
进一步的,所述匹配加法规则和/或减法规则,判断匹配完成后,且匹配结果不满足预定误判率,还包括,扩充减法规则,所述扩充减法规则包括:加法规则和/或减法规则抽取完毕之后,且所述加法规则和/或减法规则不满足预定误判率,增加不符合特定群体标识,重复步骤三;直至满足预定误判率为止。
本发明另一方面还提供了一种特定群体的识别系统,包括:
获取模块,用于获取订单信息,提取所述订单信息中的地址信息组成地址库;
构建模块,用于构建基于所述地址库的规则样本集和剩余地址集;所述规则样本集初始为空集,所述剩余地址集初始为全量地址数据;
规则模块,用于从所述剩余地址集中的全量地址数据中随机抽取至少一条地址信息,放入所述规则样本集中;识别并剔除放入所述规则样本集中的地址信息中携带不符合特定群体的标识信息的地址信息,将符合所述特定群体的标识信息组成加法规则,将不符合所述特定群体的标识信息组成减法规则;
固化模块,用于将所述加法规则和/或所述减法规则固化。
进一步的,所述获取模块,具体包括:
获取单元,用于获取订单信息,提取所述订单信息中的有效地址信息;所述有效地址信息,具体包括:可识别出所述地址信息中的行政区域标识的地址信息。
进一步的,所述规则模块,还包括:
删除单元,用于将所述放入所述规则样本集中至少一条地址信息,从所述剩余地址集中删除。
进一步的,所述特定群体标识,包括:含有该特定群体的标示性文字的标识信息;
所述不符合特定群体标识,包括:含有该特定群体的标示性文字的标识信息的临近参考标识信息。
进一步的,还包括:
第一规则单元,所述第一规则单元携带扩充加法规则,所述扩充加法规则包括:运行规则模块,直至所述规则样本集中的地址信息满足预定数量和/或所述加法规则的中增加的标识信息小于指定数量为止;
第二规则单元,所述第二规则单元携带扩充减法规则,用于匹配加法规则和/或减法规则,判断匹配完成后,且匹配结果不满足预定误判率,启动扩充减法规则,包括:加法规则和/或减法规则抽取完毕之后,且所述加法规则和/或减法规则不满足预定误判率,增加不符合特定群体标识,重复步骤三;直至满足预定误判率为止。
进一步的,该系统还包括包括:
第一匹配单元,用于不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配未成功后,且判断所述地址库中的数据未完成抽取,重复不放回抽取所述地址库中的至少一条数据的步骤;和/或
第二匹配单元,用于不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配成功后,对该条数据标注对应的规则,且所述地址库中的数据完成抽取后,将所述加法规则和/或所述减法规则固化;和/或
第三匹配单元,用于不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配未成功后,且判断所述地址库中的数据完成抽取,将所述加法规则和/或所述减法规则固化。
本发明另一方面还提供了一种特定群体的识别终端,包括所述的系统。
本发明通过获取订单信息,提取所述订单信息中的地址信息作为地址库;从而构建基于所述地址库的规则样本集和剩余地址集;所述规则样本集初始为空集,所述剩余地址集初始为全量地址数据;并从所述剩余地址集中的全量地址数据中随机抽取至少一条地址信息,放入所述规则样本集中;识别并剔除放入所述规则样本集中的地址信息中携带不符合特定群体的标识信息的地址信息,将符合所述特定群体的标识信息组成加法规则,将不符合所述特定群体的标识信息组成减法规则;同时将所述加法规则和/或所述减法规则固化后,识别特定群体,例如学生类群体、公职类群体。通过分析特定群体的消费特征、行为特征等,为其匹配相关的项目或活动进行营销。
附图说明
图1为根据本发明的一种特定群体的识别方法的实施例一的流程图;
图2为根据本发明的一种特定群体的识别方法的实施例二的流程图;
图3为根据本发明的一种特定群体的识别方法的实施例三的流程图;
图4为根据本发明的一种特定群体的识别系统的实施例四的结构框图之一;
图5为根据本发明的一种特定群体的识别系统的实施例五的结构框图之二;
图6为根据本发明的一种特定群体的识别系统的实施例六的结构框图之三。
具体实施方式
下面结合附图对本发明实施例提供的一种特定群体的识别方法、系统及终端进行详细描述。
实施例一
参照图1,图1示出了本发明的方法的一实施例的流程图。
本发明一方面提供了一种特定群体的识别方法,包括:
在步骤一中,获取订单信息,提取所述订单信息中的地址信息组成地址库。
具体的,获取订单信息,包括,获取有效订单信息,提取所述订单信息或有效订单信息中的有效地址信息。
所述有效订单信息,只标记已完成的订单信息;所述有效地址信息,是指地址的精确程度,即通过常规电子地图(如百度地图、高德地图)能很快精准定位地理位置的地址。具体包括:可识别出所述地址信息中的行政区域标识的地址信息。
作为优选实施例,有效地址判定方法如下:
1、城镇级特征的地址视为有效地址。即包含以下关键词的地址默认为有效地址:“小区”、“街”、“路”、“弄”、“巷”如,“北京市昌平区”为无效地址,“北京市昌平区立水桥合立方小区3号楼二单元1102室”是有效地址。
2、村级特征的地址视为有效地址。即包含以下关键词的地址默认为有效地址:“村”、“庄”、“寨”如,“临沂市沂南县”为无效地址,“临沂市沂南县杨坡镇李家坡村”为有效地址。
该判定方法可通过电子地图工具判定或地址的精确度判定,如城镇级地址判定或村级地址判定。
在步骤二中,构建基于所述地址库的规则样本集和剩余地址集;所述规则样本集初始为空集,所述剩余地址集初始为全量地址数据。
在步骤三中,从所述剩余地址集中的全量地址数据中随机抽取至少一条地址信息,放入所述规则样本集中;识别并剔除放入所述规则样本集中的地址信息中携带不符合特定群体的标识信息的地址信息,将符合所述特定群体的标识信息组成加法规则,将不符合所述特定群体的标识信息组成减法规则。
其中,所述放入所述规则样本集中之后,还包括:
将所述放入所述规则样本集中至少一条地址信息,从所述剩余地址集中删除。
具体的,所述特定群体标识,包括:含有该特定群体的标示性文字的标识信息;所述不符合特定群体标识,包括:含有该特定群体的标示性文字的标识信息的临近参考标识信息。
如特定群体为学生类群体,含有该特定群体的标示性文字的标识信息至少为包含关键词“大学”,所述不符合特定群体标识的标识信息至少为包含关键词“大学”且“大学”后包含关键词“附近”,如“北京大学北门附近全时便利店”。
作为优选实施例,从剩余地址集中随机抽取有效地址k条(k≥1)(k值需基于实际情况进行制定,默认抽取有效地址条数占总地址库条数的5%)放入规则样本集,同时在剩余地址集中将此k条数据删除。根据抽取的k条数据,归纳出各类用户群体的规则,包括加法规则和减法规则。
其中加法规则是指将地址标注为某类用户群体的规则(如识别学生群体的加法规则包含关键词“大学”);减法规则是指将误标记的地址从已标记的某类用户群体地址库中剔除的规则。(如基于加法规则标记的学生类群体中剔除包含关键词“大学”且“大学”后包含关键词“附近”的“北京大学北门附近全时便利店”),减法规则主要是用来减小误标记比例的,即减小误判率。
在步骤四中,将所述加法规则和/或所述减法规则固化。
将加法规则和减法规则进行程序化,对全量地址数据进行特定群体抽取及标记,同时结合具体的业务规则及场景,完成对特定群体指定场景的操作。
具体的,所述步骤四之后还包括:
不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配未成功后,且判断所述地址库的数据未完成抽取,重复不放回抽取所述地址库中的至少一条数据的步骤;和/或
不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配成功后,对该条数据标注对应的规则,且所述地址库中的数据完成抽取后,将所述加法规则和/或所述减法规则固化;和/或
不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配未成功后,且判断所述地址库中的数据完成抽取,将所述加法规则和/或所述减法规则固化。
具体的,在实际应用中,一般需要考虑以下问题:
1.特定群体标记投入的人数、误判率等,需提前制定,指导完成抽取结果的过程及质量;
2.地址编码问题:由于用户在输入地址时可能有各种各样的问题,需要采取编码异常捕捉机制进行异常的捕获过滤和调整替换。异常捕捉,是编程语言里的一种机制,用于处理程序中出现的异常状况,使程序正常执行。如当遇到地址“翠微路宏阳大厦17楼”时,程序将返回该条数据,程序继续执行。程序结束后,人工修改错误编码,例如将上述错误地址修改为“翠微路宏阳大厦17楼”。对修改过的地址进行特定群体标记。该编码异常的捕捉优选为放在不放回抽取所述规则样本集或剩余地址集中的至少一条数据之后,也可根据需要,放在该流程运行中的相应位置。
本发明实施例一公开了一种特定群体的识别方法,基于关键词识别收货地址进而识别出特定群体的技术方案,避免了目前获取特定群体需要面临的两个问题:获取途径和数据质量的问题。利用收货地址成功避免了获取途径这一问题;通过关键词识别地址成功避免了用户自我保护意识造成的数据质量问题。
基于关键词识别收货地址进而识别出特定群体的技术方案,能够较灵活地支撑不同场景的营销活动,既节约了营销资源,又降低了营销模型的构建成本,最终达到成本最低、营销效果最好的目的。
实施例二
参照图2,图2示出了本发明的方法的另一实施例的流程图。
本发明实施例二与实施例一的区别在于:
所述步骤三之后,还包括,扩充加法规则,所述扩充加法规则包括:重复步骤三,直至所述规则样本集中的地址信息满足预定数量和/或所述加法规则的中增加的标识信息小于指定数量为止。
具体的,扩充加法规则。重复上述抽取及标记的操作n轮,直到第n轮抽取的新的加法规则小于指定条数m(需根据项目进行时的时间及人力投入要求来具体确定m值,默认为1)为止,加法规则抽取完毕(由于地址类记录数据有限,因此抽取过程是不会陷入死循环的,且在实际应用中会快速迭代扩充完毕)。
本发明实施例二公开了一种特定群体的识别方法,基于关键词识别收货地址进而识别出特定群体的技术方案,避免了目前获取特定群体需要面临的两个问题:获取途径和数据质量的问题。利用收货地址成功避免了获取途径这一问题;通过关键词识别地址成功避免了用户自我保护意识造成的数据质量问题。
基于关键词识别收货地址进而识别出特定群体的技术方案,能够较灵活地支撑不同场景的营销活动,既节约了营销资源,又降低了营销模型的构建成本,最终达到成本最低、营销效果最好的目的。
实施例三
参照图3,图3示出了本发明的方法的另一实施例的流程图。
本发明实施例三与实施例一和二的区别在于:
所述匹配加法规则和/或减法规则,判断匹配完成后,且匹配结果不满足预定误判率,还包括,扩充减法规则,所述扩充减法规则包括:加法规则和/或减法规则抽取完毕之后,且所述加法规则和/或减法规则不满足预定误判率,增加不符合特定群体标识,重复步骤三;直至满足预定误判率为止。
扩充减法规则。当加法规则抽取完毕后,需要检查规则的误判情况。首先将加法规则全部应用于所有地址库中的数据上进行特定群体的抽取、标记;其次从标记出的特定群体中随机抽取L条(需基于实际情况进行制定,默认抽取条数占总地址库条数的1%),人工检查误判情况,若小于指定误判率(需基于实际情况进行制定,默认为5%),则认为满足标记要求,识别结束;若大于制定误判率,则根据误判记录归纳、扩充减法规则。重复上述标记、抽取判定过程,直至满足标记要求,识别结束。
本发明实施例三公开的一种特定群体的识别方法,基于关键词识别收货地址进而识别出特定群体的技术方案,避免了目前获取特定群体需要面临的两个问题:获取途径和数据质量的问题。利用收货地址成功避免了获取途径这一问题;通过关键词识别地址成功避免了用户自我保护意识造成的数据质量问题。
基于关键词识别收货地址进而识别出特定群体的技术方案,能够较灵活地支撑不同场景的营销活动,既节约了营销资源,又降低了营销模型的构建成本,最终达到成本最低、营销效果最好的目的。
实施例四
参照图4,图4示出了本发明的系统的一实施例的方框图。
本发明另一方面还提供了一种特定群体的识别系统,包括:
获取模块11,用于获取订单信息,提取所述订单信息中的地址信息组成规则库。具体实现的功能和处理方式参见步骤一。
所述获取模块11,具体包括:获取单元111,用于获取订单信息,提取所述订单信息中的有效地址信息;所述有效地址信息,具体包括:可识别出所述地址信息中的行政区域标识的地址信息。
获取订单信息,包括,获取有效订单信息,所述有效地址信息,是指地址的精确程度,即通过常规电子地图(如百度地图、高德地图)能很快精准定位地理位置的地址。具体包括:可识别出所述地址信息中的行政区域标识的地址信息。
作为优选实施例,有效地址判定方法如下:
1、城镇级特征的地址视为有效地址。即包含以下关键词的地址默认为有效地址:“小区”、“街”、“路”、“弄”、“巷”如,“北京市昌平区”为无效地址,“北京市昌平区立水桥合立方小区3号楼二单元1102室”是有效地址。
2、村级特征的地址视为有效地址。即包含以下关键词的地址默认为有效地址:“村”、“庄”、“寨”如,“临沂市沂南县”为无效地址,“临沂市沂南县杨坡镇李家坡村”为有效地址。
该判定方法可通过电子地图工具判定或地址的精确度判定,如城镇级地址判定或村级地址判定。
构建模块12,用于构建基于所述地址库的规则样本集和剩余地址集;所述规则样本集初始为空集,所述剩余地址集初始为全量地址数据。具体实现的功能和处理方式参见步骤二。
规则模块13,用于从所述剩余地址集中的全量地址数据中随机抽取至少一条地址信息,放入所述规则样本集中;识别并剔除放入所述规则样本集中的地址信息中携带不符合特定群体的标识信息的地址信息,将符合所述特定群体的标识信息组成加法规则,将不符合所述特定群体的标识信息组成减法规则。具体实现的功能和处理方式参见步骤三。
所述规则模块13,还包括:删除单元131,用于将所述放入所述规则样本集中至少一条地址信息,从所述剩余地址集中删除。
所述特定群体标识,包括:含有该特定群体的标示性文字的标识信息;所述不符合特定群体标识,包括:含有该特定群体的标示性文字的标识信息的临近参考标识信息。
如特定群体为学生类群体,含有该特定群体的标示性文字的标识信息至少为包含关键词“大学”,所述不符合特定群体标识的标识信息至少为包含关键词“大学”且“大学”后包含关键词“附近”,如“北京大学北门附近全时便利店”。
优选的,从剩余地址集中随机抽取有效地址k条(k≥1)(k值需基于实际情况进行制定,默认抽取有效地址条数占总地址库条数的5%)放入规则样本集,同时在剩余地址集中将此k条数据删除。根据抽取的k条数据,归纳出各类用户群体的规则,包括加法规则和减法规则。
其中加法规则是指将地址标注为某类用户群体的规则(如识别学生群体的加法规则包含关键词“大学”);减法规则是指将误标记的地址从已标记的某类用户群体地址库中剔除的规则。(如基于加法规则标记的学生类群体中剔除包含关键词“大学”且“大学”后包含关键词“附近”的“北京大学北门附近全时便利店”),减法规则主要是用来减小误标记比例的,即减小误判率。
固化模块14,用于将所述加法规则和/或所述减法规则固化。具体实现的功能和处理方式参见步骤四。
将加法规则和减法规则进行程序化,对全量地址数据进行特定群体抽取及标记,同时结合具体的业务规则及场景,完成对特定群体指定场景的操作。
该系统还包括:
第一匹配单元171,用于不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配未成功后,且判断所述地址库中的数据未完成抽取,重复不放回抽取所述地址库中的至少一条数据的步骤;和/或
第二匹配单元172,用于不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配成功后,对该条数据标注对应的规则,且所述地址库中的数据完成抽取后,将所述加法规则和/或所述减法规则固化;和/或
第三匹配单元173,用于不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配未成功后,且判断所述地址库中的数据完成抽取,将所述加法规则和/或所述减法规则固化。
具体的,在实际应用中,一般需要考虑以下问题:
1.特定群体标记投入的人数、误判率等,需提前制定,指导完成抽取结果的过程及质量;
2.地址编码问题:由于用户在输入地址时可能有各种各样的问题,需要采取编码异常捕捉机制进行异常的捕获过滤和调整替换。异常捕捉,是编程语言里的一种机制,用于处理程序中出现的异常状况,使程序正常执行。如当遇到地址“翠微路宏阳大厦17楼”时,程序将返回该条数据,程序继续执行。程序结束后,人工修改错误编码,例如将上述错误地址修改为“翠微路宏阳大厦17楼”。对修改过的地址进行特定群体标记。该编码异常的捕捉优选为放在不放回抽取所述规则样本集或剩余地址集中的至少一条数据之后,也可根据需要,放在该流程运行中的相应位置。
本发明实施例四公开的一种特定群体的识别系统,基于关键词识别收货地址进而识别出特定群体的技术方案,避免了目前获取特定群体需要面临的两个问题:获取途径和数据质量的问题。利用收货地址成功避免了获取途径这一问题;通过关键词识别地址成功避免了用户自我保护意识造成的数据质量问题。
基于关键词识别收货地址进而识别出特定群体的技术方案,能够较灵活地支撑不同场景的营销活动,既节约了营销资源,又降低了营销模型的构建成本,最终达到成本最低、营销效果最好的目的。
实施例五
参照图5,图5示出了本发明的系统的另一实施例的方框图。
本发明实施例五与实施例四的区别在于,还包括:
该系统还包括:
第一规则单元15,所述第一规则单元携带扩充加法规则,所述扩充加法规则包括:运行规则模块,直至所述规则样本集中的地址信息满足预定数量和/或所述加法规则的中增加的标识信息小于指定数量为止。
具体的,扩充加法规则。重复上述抽取及标记的操作n轮,直到第n轮抽取的新的加法规则小于指定条数m(需根据项目进行时的时间及人力投入要求来具体确定m值,默认为1)为止,我们认为加法规则抽取完毕(由于地址类记录数据有限,因此抽取过程是不会陷入死循环的,且在实际应用中会快速迭代扩充完毕)。
本发明实施例五公开的一种特定群体的识别系统,基于关键词识别收货地址进而识别出特定群体的技术方案,避免了目前获取特定用户群体需要面临的两个问题:获取途径和数据质量的问题。利用用户收货地址成功避免了获取途径这一问题;通过关键词识别地址成功避免了用户自我保护意识造成的数据质量问题。
基于关键词识别收货地址进而识别出特定群体的技术方案,能够较灵活地支撑不同场景的营销活动,既节约了营销资源,又降低了营销模型的构建成本,最终达到成本最低、营销效果最好的目的。
实施例六
参照图6,图6示出了本发明的系统的另一实施例的方框图。
本发明实施例六与实施例四和五的区别在于,还包括:
第二规则单元16,所述第二规则单元携带扩充减法规则,用于匹配加法规则和/或减法规则,判断匹配完成后,且匹配结果不满足预定误判率,启动所述扩充减法规则,所述扩充减法规则包括:加法规则和/或减法规则抽取完毕之后,且所述加法规则和/或减法规则不满足预定误判率,增加不符合特定群体标识,重复步骤三;直至满足预定误判率为止。
扩充减法规则。当加法规则抽取完毕后,需要检查规则的误判情况。首先将加法规则全部应用于所有地址库中的数据上进行特定群体的抽取、标记;其次从标记出的特定群体中随机抽取L条(需基于实际情况进行制定,默认抽取条数占总地址库条数的1%),人工检查误判情况,若小于指定误判率(需基于实际情况进行制定,默认为5%),则认为满足标记要求,识别结束;若大于制定误判率,则根据误判记录归纳、扩充减法规则。重复上述标记、抽取判定过程,直至满足标记要求,识别结束。
本发明实施例六公开的一种特定群体的识别系统,基于关键词识别收货地址进而识别出特定群体的技术方案,避免了目前获取特定用户群体需要面临的两个问题:获取途径和数据质量的问题。利用用户收货地址成功避免了获取途径这一问题;通过关键词识别地址成功避免了用户自我保护意识造成的数据质量问题。
基于关键词识别收货地址进而识别出特定群体的技术方案,能够较灵活地支撑不同场景的营销活动,既节约了营销资源,又降低了营销模型的构建成本,最终达到成本最低、营销效果最好的目的。
实施例七
参考图1-6,本发明另一方面还提供了一种特定群体的识别终端,包括所述的系统。
本发明通过获取订单信息,抽取所述订单信息中的地址信息;从而构建基于所述地址信息的规则样本集和剩余地址集;所述规则样本集初始为空集,所述剩余地址集初始为全量地址数据;并从所述剩余地址集中的全量地址数据中随机抽取至少一条地址信息,放入所述规则样本集中;识别并剔除放入所述规则样本集中的地址信息中携带不符合特定群体的标识信息的地址信息,将符合所述特定群体的标识信息组成加法规则,将不符合所述特定群体的标识信息组成减法规则;同时将所述加法规则和/或所述减法规则固化后,识别特定群体,例如学生类群体、公职类群体。通过分析特定群体的消费特征、行为特征等,为其匹配相关的项目或活动进行营销。
需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。
上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (12)
1.一种特定群体的识别方法,其特征在于,包括:
步骤一、获取订单信息,提取所述订单信息中的地址信息组成地址库;
步骤二、构建基于所述地址库的规则样本集和剩余地址集;所述规则样本集初始为空集,所述剩余地址集初始为全量地址数据;
步骤三、从所述剩余地址集中的全量地址数据中随机抽取至少一条地址信息,放入所述规则样本集中;识别并剔除放入所述规则样本集中的地址信息中携带不符合特定群体的标识信息的地址信息,将符合所述特定群体的标识信息组成加法规则,将不符合所述特定群体的标识信息组成减法规则,其中,符合所述特定群体的标识信息,包括:含有该特定群体的标示性文字的标识信息;不符合所述特定群体的标识信息,包括:含有该特定群体的标示性文字的标识信息的临近参考标识信息;
步骤四、将所述加法规则和/或所述减法规则固化。
2.如权利要求1所述的方法,其特征在于,所述步骤一中,具体包括:获取订单信息,提取所述订单信息中的有效地址信息;
所述有效地址信息,具体包括:可识别出所述地址信息中的行政区域标识的地址信息。
3.如权利要求1或2所述的方法,其特征在于,步骤三中,所述放入所述规则样本集中之后,还包括:
将所述放入所述规则样本集中至少一条地址信息,从所述剩余地址集中删除。
4.如权利要求1所述的方法,其特征在于,所述步骤三之后,还包括,扩充加法规则,所述扩充加法规则包括:重复步骤三,直至所述规则样本集中的地址信息满足预定数量和/或所述加法规则的中增加的标识信息小于指定数量为止。
5.如权利要求1所述的方法,其特征在于,所述步骤四之后还包括:
不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配未成功且判断所述地址库中的数据未完成抽取,重复不放回抽取所述地址库中的至少一条数据的步骤;和/或
不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配成功后,对该条数据标注对应的规则,且所述地址库中的数据完成抽取后,将所述加法规则和/或所述减法规则固化;和/或
不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配未成功后,且判断所述地址库中的数据完成抽取,将所述加法规则和/或所述减法规则固化。
6.如权利要求5所述的方法,其特征在于,所述匹配加法规则和/或减法规则,判断匹配完成后,且匹配结果不满足预定误判率,扩充减法规则;
所述扩充减法规则包括:加法规则和/或减法规则抽取完毕之后,且所述加法规则和/或减法规则不满足预定误判率,增加不符合特定群体标识,重复步骤三;直至满足预定误判率为止。
7.一种特定群体的识别系统,其特征在于,包括:
获取模块,用于获取订单信息,提取所述订单信息中的地址信息组成地址库;
构建模块,用于构建基于所述地址库的规则样本集和剩余地址集;所述规则样本集初始为空集,所述剩余地址集初始为全量地址数据;
规则模块,用于从所述剩余地址集中的全量地址数据中随机抽取至少一条地址信息,放入所述规则样本集中;识别并剔除放入所述规则样本集中的地址信息中携带不符合特定群体的标识信息的地址信息,将符合所述特定群体的标识信息组成加法规则,将不符合所述特定群体的标识信息组成减法规则,其中,符合所述特定群体的标识信息,包括:含有该特定群体的标示性文字的标识信息;不符合所述特定群体的标识信息,包括:含有该特定群体的标示性文字的标识信息的临近参考标识信息;
固化模块,用于将所述加法规则和/或所述减法规则固化。
8.如权利要求7所述的系统,其特征在于,所述获取模块,具体包括:
获取单元,用于获取订单信息,提取所述订单信息中的有效地址信息;所述有效地址信息,具体包括:可识别出所述地址信息中的行政区域标识的地址信息。
9.如权利要求7或8所述的系统,其特征在于,所述规则模块,还包括:
删除单元,用于将所述放入所述规则样本集中至少一条地址信息,从所述剩余地址集中删除。
10.如权利要求7所述的系统,其特征在于,还包括:
第一规则单元,所述第一规则单元携带扩充加法规则,所述扩充加法规则包括:运行规则模块,直至所述规则样本集中的地址信息满足预定数量和/或所述加法规则的中增加的标识信息小于指定数量为止;
第二规则单元,所述第二规则单元携带扩充减法规则,用于匹配加法规则和/或减法规则,判断匹配完成后,且匹配结果不满足预定误判率,启动扩充减法规则,包括:加法规则和/或减法规则抽取完毕之后,且所述加法规则和/或减法规则不满足预定误判率,增加不符合特定群体标识,重复步骤三;直至满足预定误判率为止。
11.如权利要求7所述的系统,其特征在于,还包括:
第一匹配单元,用于不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配未成功后,且判断所述地址库中的数据未完成抽取,重复不放回抽取所述地址库中的至少一条数据的步骤;和/或
第二匹配单元,用于不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配成功后,对该条数据标注对应的规则,且所述地址库中的数据完成抽取后,将所述加法规则和/或所述减法规则固化;和/或
第三匹配单元,用于不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配未成功后,且判断所述地址库中的数据完成抽取,将所述加法规则和/或所述减法规则固化。
12.一种特定群体的识别终端,包括如权利要求7-11任一项所述的系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610374247.9A CN106022839B (zh) | 2016-05-31 | 2016-05-31 | 一种特定群体的识别方法、系统及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610374247.9A CN106022839B (zh) | 2016-05-31 | 2016-05-31 | 一种特定群体的识别方法、系统及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106022839A CN106022839A (zh) | 2016-10-12 |
CN106022839B true CN106022839B (zh) | 2021-09-28 |
Family
ID=57091766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610374247.9A Active CN106022839B (zh) | 2016-05-31 | 2016-05-31 | 一种特定群体的识别方法、系统及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106022839B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109146638B (zh) * | 2018-08-29 | 2021-11-30 | 创新先进技术有限公司 | 异常金融交易群体的识别方法及装置 |
CN109783540B (zh) * | 2019-01-08 | 2021-05-07 | 武汉烽火众智数字技术有限责任公司 | 一种基于特征码对特定群体人员的分析方法及系统 |
CN110782238B (zh) * | 2019-09-18 | 2022-07-22 | 中国银联股份有限公司 | 异常资源转移组合识别方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102044009A (zh) * | 2009-10-23 | 2011-05-04 | 华为技术有限公司 | 群组推荐方法和系统 |
CN102663626A (zh) * | 2012-04-26 | 2012-09-12 | 焦点科技股份有限公司 | 基于区域特征的协同过滤推荐方法 |
CN102999618A (zh) * | 2012-11-30 | 2013-03-27 | 深圳市络道科技有限公司 | 基于地址归户的个人行为属性信息库建立方法及系统 |
CN104778231A (zh) * | 2015-03-31 | 2015-07-15 | 北京奇艺世纪科技有限公司 | 一种地理区域的特征识别方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8442959B2 (en) * | 2007-12-19 | 2013-05-14 | Verizon Patent And Licensing Inc. | Methods and systems for automated processing of fallout orders |
-
2016
- 2016-05-31 CN CN201610374247.9A patent/CN106022839B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102044009A (zh) * | 2009-10-23 | 2011-05-04 | 华为技术有限公司 | 群组推荐方法和系统 |
CN102663626A (zh) * | 2012-04-26 | 2012-09-12 | 焦点科技股份有限公司 | 基于区域特征的协同过滤推荐方法 |
CN102999618A (zh) * | 2012-11-30 | 2013-03-27 | 深圳市络道科技有限公司 | 基于地址归户的个人行为属性信息库建立方法及系统 |
CN104778231A (zh) * | 2015-03-31 | 2015-07-15 | 北京奇艺世纪科技有限公司 | 一种地理区域的特征识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106022839A (zh) | 2016-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423613B (zh) | 依据相似度确定设备指纹的方法、装置及服务器 | |
TWI709927B (zh) | 目標用戶群體的確定方法及裝置 | |
WO2020143377A1 (zh) | 一种行业识别模型确定方法和装置 | |
CN106022839B (zh) | 一种特定群体的识别方法、系统及终端 | |
CN107657048A (zh) | 用户识别方法及装置 | |
CN111241367A (zh) | 一种基于自定义规则对网络餐饮平台进行监管的方法及系统 | |
CN109858919A (zh) | 异常账号的确定方法及装置、在线下单方法及装置 | |
CN112328936A (zh) | 一种网站识别方法、装置、设备及计算机可读存储介质 | |
CN112699871A (zh) | 字段内容识别方法、系统、设备及计算机可读存储介质 | |
CN110334590B (zh) | 图像采集引导方法以及装置 | |
CN111104628A (zh) | 一种用户识别方法、装置、电子设备和存储介质 | |
CN111047455A (zh) | 一种针对邮件的个人塑像方法及系统 | |
CN115983873B (zh) | 一种基于大数据的用户数据分析管理系统及方法 | |
CN111160975A (zh) | 一种目标用户确定方法、装置、设备及计算机存储介质 | |
Zhang et al. | Deep-learning generation of POI data with scene images | |
CN116503166A (zh) | 一种以太坊链上交易资金的追踪方法及追踪系统 | |
CN112861532B (zh) | 地址标准化处理方法、装置、设备及在线搜索系统 | |
CN110569418A (zh) | 学历信息验证方法以及装置 | |
CN114461657A (zh) | 兴趣点信息的更新方法、装置、电子设备及存储介质 | |
CN107203561B (zh) | 一种数据处理方法和设备 | |
CN113079052B (zh) | 模型训练、物联网数据识别方法、装置、设备及存储介质 | |
CN112488748B (zh) | 数据标识匹配方法及装置、存储介质、计算设备 | |
CN109829713B (zh) | 一种基于知识与数据共同驱动的移动支付方式识别方法 | |
CN110135804B (zh) | 数据处理方法及装置 | |
CN114218892A (zh) | 商机信息获取方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |