具体实施方式
本申请实施例通过建立包含大量非法的执行信息以及合法的执行信息的数据库,在有新的执行信息需要识别其合法性时,从数据库中确定出与待识别的执行信息相似度较高的执行信息,并根据从数据库中确定出的执行信息是否合法,来判定待识别的执行信息的合法性,由于本申请方案是根据多条相似度较高的执行信息来判定该待识别的执行信息的合法性,综合了合法执行信息和非法执行信息的特征,使识别出的执行信息的合法性能够真实地反映出该执行信息表示的网络购物业务的合法性,提高了执行信息识别的准确性。
本申请各实施例中涉及的执行信息是指一次购物业务过程中,服务器记录了与该购物业务相关的信息。
本申请各实施例中涉及的执行信息中的特征是指执行信息中各类信息,其中,每一类信息为一个特征。例如:执行信息中包括购物业务过程中的以下6类信息中的多个或全部:卖家性别、买家评价、购买日期、成交量、成交价、物流方式,则每一类信息就是执行信息的一个特征。
本申请各实施例中涉及的执行信息中的特定特征是指执行信息中的特征中,用于识别执行信息合法性的特征,特定特征可以是部分或全部特征。
执行信息的合法性判定是指该执行信息是合法信息还是非法信息的判定。
合法的执行信息是指该执行信息中的各类信息未有异常,合法的执行信息所表示的网络购物业务是合法业务;非法的执行信息是指该执行信息中的各类信息中出现异常或很可能出现异常的执行信息,非法的执行信息所表示的网络购物业务是非法业务,如卖家用户购买自己商品的虚假交易等。
下面结合说明书附图对本申请实施例进行详细描述。
实施例一
如图1所示,为本申请实施例一中信息识别的方法流程示意图,所述方法包括以下步骤:
步骤101:信息识别设备确定待识别的执行信息中的特定特征。
在本步骤中,当执行一次网络购物业务时,服务器将记录本次网络购物业务的执行信息,并将记录的执行信息发送给信息识别设备,要求信息识别设备对接收到的执行信息的合法性进行判定。
本实施例一中使用的特定特征可以是根据经验值从执行信息的特征中选定的部分特征,如:选取四维特征{卖家性别,买家评价,购买日期,成交量}作为特定特征,信息识别设备接收到待识别的执行信息后,从中确定四维特定特征的内容{男,好,2010.9.29,300}。
步骤102:信息识别设备分别确定待识别的执行信息中的特定特征与已存储的每条执行信息中的特定特征之间的相似度。
本实施例一的方案中维护了一个存储一定数量的执行信息的数据库,数据库中存储的执行信息有合法信息也有非法信息,由于利用数据库中与待识别的执行信息相似度较高的执行信息来判定待识别的执行信息的合法性,为了避免数据库中合法执行信息的数量与非法执行信息的数量差别较大,导致与待识别的执行信息相似度较高的各条执行信息的权重差别较大,因此,数据库中存储的合法信息的数量与非法信息的数量大致相等,如:设定非法信息的数量与合法信息的数量之差不大于N,所述N为大于0的正整数,或非法信息的数量与合法信息的数量之比维持在0.9~1.1。
本实施例一中涉及的数据库可以独立于信息识别设备但能够与信息识别设备通信,也可以是信息识别设备内部的数据库。
信息识别设备依次将数据库中的每条执行信息与待识别的执行信息进行相似度计算,得到数据库中每条执行信息与待识别的执行信息之间的相似度。
本实施例中涉及的执行信息之间的相似度,可以看作是将每一执行信息的多维特定特征映射至多维空间后,执行信息在该多维空间内的距离。两条执行信息的距离越远,表示这两条执行信息的相似度越低。
步骤103:信息识别设备从存储的执行信息中选取与待识别的执行信息的相似度最高的M条执行信息。
所述M为大于0的正整数。
M的取值可以根据数据库中执行信息的特定特征选定,避免因M取值过大或过小影响判断准确性的问题。例如,特殊地,如果M取值过小,如M=1,表示待识别的执行信息的合法性将由与其最相似的一条执行信息判定,在此情况下,若选取的最相似的一条执行信息是无意义的信息或是在选取过程中有误差的信息,则可能使待识别的执行信息的合法性判定不准确;如果M取值过大,如M=50,表示待识别的执行信息的合法性将由与其最相似的50条执行信息来共同判定,此时可能出现这种情况:与待识别的执行信息相似度最高的15条执行信息是非法信息,选取的35条相似度次高的执行信息是合法信息,则由于合法信息的数量较多,最终的判定结果是待识别的执行信息合法。但实际上待识别的执行信息与15条非法信息的相似度最高,待识别的执行信息的真实情况应该是非法信息,从而出现误判的情况。
步骤104:信息识别设备根据相似度最高的M条执行信息中的非法信息和合法信息的计算数值,识别所述待识别的执行信息的合法性。
本步骤中,包括但不限于通过以下两种方式识别所述待识别的执行信息的合法性:
第一种方式:
在所述M为奇数时,确定相似度最高的M条执行信息中非法信息数量和合法信息数量的较大者,识别所述待识别的执行信息与较大的数量对应信息的合法性相同。
如M=11时,非法执行信息的数量为7,合法执行信息的数量为4,则由于待识别的执行信息在大多数情况下更加接近非法执行信息,因此,确定待识别的执行信息是非法信息。
第二种方式:
按照与待识别的执行信息相似度越高,对应的加权值越大的原则,分别确定相似度最高的M条执行信息中每条执行信息对应的加权值,将M条执行信息中非法信息加权求和,得到非法信息加权求和值,以及,将合法信息加权求和,得到合法信息加权求和值,识别所述待识别的执行信息与较大的加权求和值对应信息的合法性相同。
如M=11时,非法执行信息的数量为7,合法执行信息的数量为4,将7条非法执行信息按照各自的加权值进行加权求和操作,将4条合法执行信息按照各自的加权值进行加权求和操作,若非法信息加权求和值为8,合法信息加权求和值为5,则确定待识别的执行信息是非法信息。
进一步地,考虑到实际的网络购物业务中,非法业务占的比例并不高,而一旦确定待识别的执行信息是非法信息,将会对该执行信息所表示的网络购物业务的执行主体作出限制措施,因此,为了避免将合法信息误识别为非法信息且尽可能地识别出真正的非法信息,按照上述第一种方式确定合法信息的数量和非法信息的数量,或按照上述第二种方式确定非法信息加权求和值以及合法信息加权求和值之后,选择其中的较大值,并在较大值对应的信息类型是非法信息时,进一步在较大值与较小值的差值较大(如差值大于设定门限值)时,才认定待识别的执行信息是非法信息,否则,确定待识别的执行信息是合法信息。
通过上述本申请实施例一方案的描述,将待识别的执行信息的特定特征与数据库中已知的执行信息进行相似度运算,利用相似度较高的已知执行信息来判定待识别的执行信息的合法性,相对于现有技术中为特征设定阈值的方式,有效提高了合法性判定的准确性;且由于数据库中存储的合法执行信息和非法执行信息的数量大致相同,克服了由于参考的合法执行信息和非法执行信息的数量差别较大带来的确定高相似度时可选的合法信息和非法信息数量差别大的问题,使得最终选取的相似度高的执行信息能够正确地反映待识别的执行信息的合法性。
实施例二
本申请实施例二通过具体实例对本申请实施例一的方案进行详细说明。
假设本实施例二中使用的特定特征是四维特征{卖家性别,买家评价,购买日期,成交量},本实施例二的方案包括以下步骤:
第一步:在初始状态时,训练、建立数据库。
如图2所示,本步骤的具体实现过程包括以下内容:
首先,选择需要写入数据库中的执行信息。
需要写入数据库中的执行信息可以是设定时长(如3个月)内,服务器在每次执行网络购物业务时记录的原始信息。服务器记录的执行信息中包括合法信息和非法信息,因此,在写入数据库之前,可以通过手动方式确定合法执行信息和非法执行信息,并将确定结果标记在执行信息内,然后从标记结果的执行信息中选择用于训练并写入数据库的执行信息。
假设本步骤中选择200条合法执行信息和200条非法执行信息作为需要写入数据库的执行信息。
然后,针对数据库中的每条执行信息,提取该执行信息中的特定特征,并将该特定特征转换为数据向量形式。
例如,针对数据库中的一条执行信息,假设该执行信息对应的网络购物业务包括:买家用户购买了男性卖家用户的商品,本次网络购物业务的创建时间是2010.9.29,本次网络购物业务的成交量是300件,买家用户对本次网络购物业务的评价是好,则按照设定的特定特征{卖家性别,买家评价,购买日期,成交量},可以得到该执行信息的特定特征转换成数据向量形式为{男,好,2010.9.29,300}。数据向量中的每一维度对应相应的特定特征,在数据库中存储每条转换为数据向量形式的执行信息既表征了执行信息的特定特征,这样可以减少在数据库中存储的数据量。后续可以将待识别的执行信息的数据向量与各数据库中已存储的执行信息的数据向量之间的相似度作为执行信息之间的相似度。
为了进一步方便后续的相似度计算过程,可以将数据向量的各维度做归一化处理,将每一维度的内容转换为0~1的数值。例如:性别为“男”对应的数值是1,性别为“女”对应的数值是0;买家评价有“好”、“一般”、“差”三种,对应的数值分别为1、0.5、0;根据购买日期与设定日期的差值确定购买日期对应的数值,差值越大,购买日期对应的数值也越大,或差值越大,购买日期对应的数值越小;预先划分成交量与数值的对应关系,根据数据向量中成交量的大小确定对应的数值。例如:成交量为0时,对应的数值为0,成交量为1~10,对应的数值为0.1,成交量为11~300,对应的数值为0.2,以此类推。例如,某一数据向量为{男,好,2010.9.29,300},进行归一化处理后转换为{1,1,0.1,0.2}。
在数据库中存储归一化处理的数据向量后,可以利用该数据库中存储的执行信息对待识别的执行信息做合法性判定。
需要说明的是,本实施例二中数据库中的内容在初始时是预先配置的,但是在本实施例方案不断执行的过程中,每次判定新的执行信息的合法性后,可以将判定后的执行信息按照上述格式写入数据库中,以实时更新数据库的内容,使数据库中作为判定基准的执行信息不断地与层出不穷的各种网络购物业务相适应;另外,对新的执行信息的合法性判定有可能出现误判,如判定某一执行信息是非法信息,但执行相应网购业务的买家用户或卖家用户向管理员投诉,在确定某一执行信息的合法性出现误判时,可以根据误判的执行信息中被误判的特征更新特定特征,有效地完善设定的特定特征,使设定的特征特征能够更好地反映合法信息和非法信息。
在建立完成数据库后,可以利用该数据库对新的执行信息的合法性按照以下步骤进行识别,具体过程如图3所示。
第二步:按照黑名单、白名单方式判断待识别的执行信息的合法性。
若执行信息中的卖家用户或买家用户是黑名单中的用户,则确定该待识别的执行信息是非法信息。
若执行信息中的卖家用户和买家用户都是白名单中的用户,则确定该待识别的执行信息是合法信息。
若执行信息中的卖家用户和买家用户既不是黑名单中的用户也不是白名单中的用户,则继续执行第三步。
第三步:提取待识别的执行信息中的特定特征。
假设待识别的执行信息的特定特征转换得到的数据向量为{女,一般,2010.9.29,300},对其进行归一化处理后为{0,0.5,0.1,0.2}。
第四步:根据待识别的执行信息归一化处理后的数据向量与数据库中每一归一化处理后的数据向量,确定待识别的执行信息中的特定特征与数据库中各执行信息中的特定特征之间的相似度。
假设待识别的执行信息(称之为执行信息A)归一化处理后的数据向量为{0,0.5,0.1,0.2},数据库中某一执行信息(称之为执行信息B)归一化处理后的数据向量为{1,1,0.1,0.2},则本步骤中具体的相似度计算过程为:
首先,分别计算两条执行信息的数据向量中,每一维度之间的比较结果。具体的计算方式包括但不限于以下两种方式:
第一种计算方式:
依次计算每一维度数值之间的差值,将得到的差值作为该维度的比较结果,具体到执行信息A和执行信息B,按照本计算方式得到的每一维度之间的比较结果为{1,0.5,0,0}。
第二种计算方式:
针对每一维度,按照以下公式(1)计算执行信息A和执行信息B之间各维度的比较结果:
d(ai,bi)=|ai-bi|/maxvalue(i) (1)
其中,ai表示待识别的执行信息的数据向量中的第i维的数值;bi表示一已存储的执行信息的数据向量中的第i维的数值;max value(i)表示第i维的最大可取值与最小可取值之差;d(ai,bi)表示待识别的执行信息的数据向量中的第i维与一已存储的执行信息中的数据向量中的第i维的比较结果。
按照第二种计算方式得到的执行信息A和执行信息B之间每一维度之间的比较结果为{1,0.5,0,0}。
然后,将执行信息A与执行信息B的数据向量每一维比较结果之和作为这两条执行信息的相似度。
根据上述第一种方式或第二种方式得到的执行信息A和执行信息B之间每一维度之间的比较结果为{1,0.5,0,0},则执行信息A和执行信息B之间的相似度为1.5。
将数据库中存储的每一执行信息按照本步骤的方式与待识别的执行信息进行计算,得到待识别的执行信息与数据库中每一执行信息之间的相似度。
第五步:从数据库中选取相似度最高的M条执行信息。
第六步:采用加权方式计算选取的M条执行信息中,合法信息的加权求和值,以及非法信息的加权求和值,并根据计算结果判定待识别的执行信息是否是合法信息。
本实施例采用连续光滑的加权函数来计算各条执行信息的加权值,该加权函数的表现形式如公式(2)所示:
其中,w
j表示M条执行信息中第j条执行信息的权重;D(A,B
j)表示第j条执行信息与待识别的执行信息之间的相似度;K
w表示平衡因子,本实施例中采用
所述range表示选取的M条执行信息中,相似度最低的执行信息与待识别的执行信息的相似度,n是固定参数,如n=16。
通过公式(2)计算得到各执行信息的加权值后,可以计算加权求和值,具体的加权求和算法包括但不限于以下两种方式:
第一种算法:
按照以下公式(3)计算合法信息和非法信息的加权求和值:
其中:y表示合法信息和非法信息的加权求和值,wj表示M条执行信息中第j条执行信息的权重,yj表示M条执行信息中第j条执行信息是合法信息还是非法信息,若是合法信息,yj=1,否则,yj=0。
通过通过(3)得到的y是0~1的数值,将该数值与设定值进行比较,确定待识别的执行信息是否合法。如:设定值为0.7,若计算出的y不小于0.7,则确定待识别的执行信息综合起来更接近于合法信息,因此,该待识别的执行信息是合法信息;否则,该待识别的执行信息是非法信息。
第二种算法:
将M条执行信息中非法信息加权求和,得到非法信息加权求和值,以及,将合法信息加权求和,得到合法信息加权求和值,所采用的加权求和公式如公式(4)所示:
z1=∑wkyk,z2=∑wlyl (4)
其中:z1表示合法信息的加权求和值,z2表示非法信息的加权求和值;wk表示合法执行信息中第k条执行信息的权重,wl表示非法执行信息中第l条执行信息的权重;yk和yl分别表示合法执行信息中第k条执行信息是合法信息还是非法信息,非法执行信息中第l条执行信息是合法信息还是非法信息,若是合法信息,yk=yl=1,否则,yk=yl=0。
选取z1和z2中的较大值,若z1大于z2,则该待识别的执行信息是合法信息;若z2大于z1且其差值较大,则该待识别的执行信息是非法信息,否则,该待识别的执行信息仍是合法信息。
实施例三
本申请实施例三还提供一种信息识别设备,如图4所示,包括特征识别模块11、相似度确定模块12和合法性识别模块13,其中:特征识别模块11用于确定待识别的执行信息中的特定特征;相似度确定模块12用于分别确定所述待识别的执行信息中的特定特征与已存储的每条执行信息中的特定特征之间的相似度;合法性识别模块13用于根据相似度最高的M条执行信息中的非法信息和合法信息的计算数值,识别所述待识别的执行信息是非法信息或合法信息,所述M为大于0的正整数。
所述设备还包括信息训练模块14,用于将数据库中存储的每条执行信息中的特定特征转换为数据向量,其中,数据向量中的每一维度对应一个特定特征;所述相似度确定模块12具体用于将待识别的执行信息中的特定特征转换为数据向量,并分别确定待识别的执行信息的数据向量与各已存储的执行信息的数据向量之间的相似度。
所述信息训练模块14还用于依次将每条执行信息中的数据向量做归一化处理,得到数据向量中每一维度的数值;所述相似度确定模块12具体用于对待识别的执行信息的数据向量做归一化处理,得到数据向量中每一维度的数值,以及分别将待识别的执行信息的数据向量各维度的数值与每一已存储的执行信息中的数据向量各维度的数值进行比较,根据比较结果,确定待识别的执行信息中的特定特征与已存储的执行信息中的特定特征之间的相似度。
所述合法性识别模块13具体用于在所述M为奇数时,确定相似度最高的M条执行信息中非法信息数量和合法信息数量的较大者,确定所述待识别的执行信息与较大的数量对应信息的合法性相同。
所述合法性识别模块13具体用于分别确定相似度最高的M条执行信息对应的加权值,其中,与待识别的执行信息相似度越高,对应的加权值越大,并将M条执行信息中非法信息加权求和,得到非法信息加权求和值,以及,将合法信息加权求和,得到合法信息加权求和值,确定所述待识别的执行信息与较大的加权求和值对应信息的合法性相同。
图4所示的信息识别设备是与数据库分离的情况,本实施例中的信息识别设备也可以集成所述数据库。
本实施例三中的信息识别设备还具有能够实现实施例一和实施例二方案的功能模块,此处不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。