CN102541899A - 一种信息识别方法及设备 - Google Patents

一种信息识别方法及设备 Download PDF

Info

Publication number
CN102541899A
CN102541899A CN2010106034889A CN201010603488A CN102541899A CN 102541899 A CN102541899 A CN 102541899A CN 2010106034889 A CN2010106034889 A CN 2010106034889A CN 201010603488 A CN201010603488 A CN 201010603488A CN 102541899 A CN102541899 A CN 102541899A
Authority
CN
China
Prior art keywords
information
execution information
identified
data vector
execution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010106034889A
Other languages
English (en)
Other versions
CN102541899B (zh
Inventor
潘健民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZHEJIANG INTIME E-COMMERCE Co.,Ltd.
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201010603488.9A priority Critical patent/CN102541899B/zh
Priority to TW100104751A priority patent/TWI534735B/zh
Priority to US13/330,400 priority patent/US20120166307A1/en
Priority to PCT/US2011/066024 priority patent/WO2012088035A1/en
Publication of CN102541899A publication Critical patent/CN102541899A/zh
Priority to HK12108964.1A priority patent/HK1168176A1/zh
Application granted granted Critical
Publication of CN102541899B publication Critical patent/CN102541899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种信息识别方法及设备,主要内容包括:通过从数据库中选取与待识别的执行信息相似度较高的多条执行信息,并根据从数据库中确定出的执行信息的合法性来判定待识别的执行信息的合法性,由于本申请方案是根据多条相似度较高的执行信息来判定该待识别的执行信息的合法性,综合了选取出的合法执行信息和非法执行信息的特征,使最终确定的待识别执行信息的合法性的准确性较高。

Description

一种信息识别方法及设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种信息识别方法及设备。
背景技术
随着计算机网络技术的不断进步,依靠计算机网络技术的各种应用业务也得到长足发展。买家用户利用登录的购物网站购买卖家用户提供商品的业务是目前常用的网站购物业务。在网站购物业务中,买家用户向卖家用户购买商品的过程包括买家用户确定购买商品、买家用户付费、卖家用户通过物流向买家用户发货等,上述购物过程的每一步都会由相应的业务服务器记录,得到一次购物业务的执行信息。
上述依靠计算机网络技术的网站购物业务,在极大地方便用户的同时,也由于网络购物的虚拟性,使网站购物业务存在一定的不安全因素。例如:卖家用户冒充买家用户购买自己的商品,以提高向其他用户显示的销售额等,这种非法操作使得其他买家用户查看到不真实的销售信息,导致买家用户在该卖家用户处进行的购物业务的安全性得不到保证。
为了提高网站购物业务的安全性,目前大多采用一种基于统计分析的识别非法信息的方案,根据识别出的非法信息确定该非法信息对应的网络购物业务是非法操作。所述基于统计分析的识别非法信息的方案主要包括以下步骤:
第一步,采集大量的执行信息,通过人工方式从中判别出非法的执行信息。
这里的每一条执行信息都可以看作是执行一次购物业务后,业务服务器记录的与本次购物业务相关的所有信息。
在本步骤中,假设某一次购物业务的执行信息中包含以下三种特征:“购买的商品名称、买家用户的付费方式、卖家用户使用的物流方式”,若其中“卖家用户使用的物流方式”的内容为空,表示卖家用户并没有真正地向买家用户发货,此时,可以将本次购物业务看作是卖家用户冒充买家用户购买商品,因此,可以确定本次购物业务的执行信息为非法信息。
第二步,设定执行信息中的特定特征。
若每一条执行信息中都包含上一步中的三种特征,则可以将其中的“买家用户的付费方式、卖家用户使用的物流方式”两种特征设定为特定特征。
第三步,分析、统计每种特定特征在非法的执行信息中的表现形式以及在合法的执行信息中的表现形式。
以卖家用户使用的物流方式为例,该特定特征在非法的执行信息中的表现形式是内容为空,而在合法的执行信息中的表现形式是内容为:邮寄、快递等。
第四步,比较得到特定特征在非法的执行信息中和合法的执行信息中表现形式的区别。
第五步,当产生一条新的执行信息(即当前执行了一次网站购物业务)时,提取该新的执行信息中的特定特征,并将该特定特征的内容与该特征在非法的执行信息中的表现形式以及在合法的执行信息中的表现形式进行比较,以此判断新的购物业务的执行信息是非法的执行信息还是合法的执行信息。具体的比较过程为:
将该特定特征在非法的执行信息中的表现形式按照设定算法转换为一个数值,将该特定特征在合法的执行信息中的表现形式按照相同算法也转换为一个数值,并根据得到的两个数值定义一个阈值,若新的执行信息中的该特定特征的表现形式转换后的数值高于该阈值,表示新的执行信息是非法信息,否则,表示该新的执行信息是合法信息。
上述基于统计分析的识别非法信息的方案将预先统计分析的非法执行信息的特征作为比较基准,来识别新的执行信息是否是非法信息,能够识别出部分非法信息,但在实际情况下,海量的执行信息的特征有着极其复杂的表现形式,上述方案中仅按照预先设定的阈值来区分合法、非法信息,只能查找出常见的非法形式的执行信息,并不能对海量的执行信息的合法性进行准确识别。
发明内容
本申请的目的在于:提供一种信息识别方法及设备,用以解决现有技术中存在的对非法信息识别的准确性较低的问题。
一种信息识别方法,包括:
服务器确定待识别的执行信息中的特定特征;
分别确定所述待识别的执行信息中的特定特征与已存储的每条执行信息中的特定特征之间的相似度;
根据相似度最高的M条执行信息中的非法信息和合法信息的计算数值,识别所述待识别的执行信息是非法信息或合法信息,所述M为大于0的正整数。
一种信息识别设备,包括:
特征识别模块,用于确定待识别的执行信息中的特定特征;
相似度确定模块,用于分别确定所述待识别的执行信息中的特定特征与已存储的每条执行信息中的特定特征之间的相似度;
合法性识别模块,用于根据相似度最高的M条执行信息中的非法信息和合法信息的计算数值,识别所述待识别的执行信息是非法信息或合法信息,所述M为大于0的正整数。
本申请有益效果如下:
本申请实施例通过从数据库中选取与待识别的执行信息相似度较高的多条执行信息,并根据从数据库中确定出的执行信息的合法性来判定待识别的执行信息的合法性,由于本申请方案是根据多条相似度较高的执行信息来判定该待识别的执行信息的合法性,综合了选取出的合法执行信息和非法执行信息的特征,提高了待识别执行信息的合法性的准确性。
附图说明
图1为本申请实施例一信息识别的方法流程示意图;
图2为本申请实施例二训练、建立数据库的方法流程示意图;
图3为本申请实施例二对新的执行信息的合法性识别的方法流程示意图;
图4为本申请实施例三信息识别设备结构示意图。
具体实施方式
本申请实施例通过建立包含大量非法的执行信息以及合法的执行信息的数据库,在有新的执行信息需要识别其合法性时,从数据库中确定出与待识别的执行信息相似度较高的执行信息,并根据从数据库中确定出的执行信息是否合法,来判定待识别的执行信息的合法性,由于本申请方案是根据多条相似度较高的执行信息来判定该待识别的执行信息的合法性,综合了合法执行信息和非法执行信息的特征,使识别出的执行信息的合法性能够真实地反映出该执行信息表示的网络购物业务的合法性,提高了执行信息识别的准确性。
本申请各实施例中涉及的执行信息是指一次购物业务过程中,服务器记录了与该购物业务相关的信息。
本申请各实施例中涉及的执行信息中的特征是指执行信息中各类信息,其中,每一类信息为一个特征。例如:执行信息中包括购物业务过程中的以下6类信息中的多个或全部:卖家性别、买家评价、购买日期、成交量、成交价、物流方式,则每一类信息就是执行信息的一个特征。
本申请各实施例中涉及的执行信息中的特定特征是指执行信息中的特征中,用于识别执行信息合法性的特征,特定特征可以是部分或全部特征。
执行信息的合法性判定是指该执行信息是合法信息还是非法信息的判定。
合法的执行信息是指该执行信息中的各类信息未有异常,合法的执行信息所表示的网络购物业务是合法业务;非法的执行信息是指该执行信息中的各类信息中出现异常或很可能出现异常的执行信息,非法的执行信息所表示的网络购物业务是非法业务,如卖家用户购买自己商品的虚假交易等。
下面结合说明书附图对本申请实施例进行详细描述。
实施例一
如图1所示,为本申请实施例一中信息识别的方法流程示意图,所述方法包括以下步骤:
步骤101:信息识别设备确定待识别的执行信息中的特定特征。
在本步骤中,当执行一次网络购物业务时,服务器将记录本次网络购物业务的执行信息,并将记录的执行信息发送给信息识别设备,要求信息识别设备对接收到的执行信息的合法性进行判定。
本实施例一中使用的特定特征可以是根据经验值从执行信息的特征中选定的部分特征,如:选取四维特征{卖家性别,买家评价,购买日期,成交量}作为特定特征,信息识别设备接收到待识别的执行信息后,从中确定四维特定特征的内容{男,好,2010.9.29,300}。
步骤102:信息识别设备分别确定待识别的执行信息中的特定特征与已存储的每条执行信息中的特定特征之间的相似度。
本实施例一的方案中维护了一个存储一定数量的执行信息的数据库,数据库中存储的执行信息有合法信息也有非法信息,由于利用数据库中与待识别的执行信息相似度较高的执行信息来判定待识别的执行信息的合法性,为了避免数据库中合法执行信息的数量与非法执行信息的数量差别较大,导致与待识别的执行信息相似度较高的各条执行信息的权重差别较大,因此,数据库中存储的合法信息的数量与非法信息的数量大致相等,如:设定非法信息的数量与合法信息的数量之差不大于N,所述N为大于0的正整数,或非法信息的数量与合法信息的数量之比维持在0.9~1.1。
本实施例一中涉及的数据库可以独立于信息识别设备但能够与信息识别设备通信,也可以是信息识别设备内部的数据库。
信息识别设备依次将数据库中的每条执行信息与待识别的执行信息进行相似度计算,得到数据库中每条执行信息与待识别的执行信息之间的相似度。
本实施例中涉及的执行信息之间的相似度,可以看作是将每一执行信息的多维特定特征映射至多维空间后,执行信息在该多维空间内的距离。两条执行信息的距离越远,表示这两条执行信息的相似度越低。
步骤103:信息识别设备从存储的执行信息中选取与待识别的执行信息的相似度最高的M条执行信息。
所述M为大于0的正整数。
M的取值可以根据数据库中执行信息的特定特征选定,避免因M取值过大或过小影响判断准确性的问题。例如,特殊地,如果M取值过小,如M=1,表示待识别的执行信息的合法性将由与其最相似的一条执行信息判定,在此情况下,若选取的最相似的一条执行信息是无意义的信息或是在选取过程中有误差的信息,则可能使待识别的执行信息的合法性判定不准确;如果M取值过大,如M=50,表示待识别的执行信息的合法性将由与其最相似的50条执行信息来共同判定,此时可能出现这种情况:与待识别的执行信息相似度最高的15条执行信息是非法信息,选取的35条相似度次高的执行信息是合法信息,则由于合法信息的数量较多,最终的判定结果是待识别的执行信息合法。但实际上待识别的执行信息与15条非法信息的相似度最高,待识别的执行信息的真实情况应该是非法信息,从而出现误判的情况。
步骤104:信息识别设备根据相似度最高的M条执行信息中的非法信息和合法信息的计算数值,识别所述待识别的执行信息的合法性。
本步骤中,包括但不限于通过以下两种方式识别所述待识别的执行信息的合法性:
第一种方式:
在所述M为奇数时,确定相似度最高的M条执行信息中非法信息数量和合法信息数量的较大者,识别所述待识别的执行信息与较大的数量对应信息的合法性相同。
如M=11时,非法执行信息的数量为7,合法执行信息的数量为4,则由于待识别的执行信息在大多数情况下更加接近非法执行信息,因此,确定待识别的执行信息是非法信息。
第二种方式:
按照与待识别的执行信息相似度越高,对应的加权值越大的原则,分别确定相似度最高的M条执行信息中每条执行信息对应的加权值,将M条执行信息中非法信息加权求和,得到非法信息加权求和值,以及,将合法信息加权求和,得到合法信息加权求和值,识别所述待识别的执行信息与较大的加权求和值对应信息的合法性相同。
如M=11时,非法执行信息的数量为7,合法执行信息的数量为4,将7条非法执行信息按照各自的加权值进行加权求和操作,将4条合法执行信息按照各自的加权值进行加权求和操作,若非法信息加权求和值为8,合法信息加权求和值为5,则确定待识别的执行信息是非法信息。
进一步地,考虑到实际的网络购物业务中,非法业务占的比例并不高,而一旦确定待识别的执行信息是非法信息,将会对该执行信息所表示的网络购物业务的执行主体作出限制措施,因此,为了避免将合法信息误识别为非法信息且尽可能地识别出真正的非法信息,按照上述第一种方式确定合法信息的数量和非法信息的数量,或按照上述第二种方式确定非法信息加权求和值以及合法信息加权求和值之后,选择其中的较大值,并在较大值对应的信息类型是非法信息时,进一步在较大值与较小值的差值较大(如差值大于设定门限值)时,才认定待识别的执行信息是非法信息,否则,确定待识别的执行信息是合法信息。
通过上述本申请实施例一方案的描述,将待识别的执行信息的特定特征与数据库中已知的执行信息进行相似度运算,利用相似度较高的已知执行信息来判定待识别的执行信息的合法性,相对于现有技术中为特征设定阈值的方式,有效提高了合法性判定的准确性;且由于数据库中存储的合法执行信息和非法执行信息的数量大致相同,克服了由于参考的合法执行信息和非法执行信息的数量差别较大带来的确定高相似度时可选的合法信息和非法信息数量差别大的问题,使得最终选取的相似度高的执行信息能够正确地反映待识别的执行信息的合法性。
实施例二
本申请实施例二通过具体实例对本申请实施例一的方案进行详细说明。
假设本实施例二中使用的特定特征是四维特征{卖家性别,买家评价,购买日期,成交量},本实施例二的方案包括以下步骤:
第一步:在初始状态时,训练、建立数据库。
如图2所示,本步骤的具体实现过程包括以下内容:
首先,选择需要写入数据库中的执行信息。
需要写入数据库中的执行信息可以是设定时长(如3个月)内,服务器在每次执行网络购物业务时记录的原始信息。服务器记录的执行信息中包括合法信息和非法信息,因此,在写入数据库之前,可以通过手动方式确定合法执行信息和非法执行信息,并将确定结果标记在执行信息内,然后从标记结果的执行信息中选择用于训练并写入数据库的执行信息。
假设本步骤中选择200条合法执行信息和200条非法执行信息作为需要写入数据库的执行信息。
然后,针对数据库中的每条执行信息,提取该执行信息中的特定特征,并将该特定特征转换为数据向量形式。
例如,针对数据库中的一条执行信息,假设该执行信息对应的网络购物业务包括:买家用户购买了男性卖家用户的商品,本次网络购物业务的创建时间是2010.9.29,本次网络购物业务的成交量是300件,买家用户对本次网络购物业务的评价是好,则按照设定的特定特征{卖家性别,买家评价,购买日期,成交量},可以得到该执行信息的特定特征转换成数据向量形式为{男,好,2010.9.29,300}。数据向量中的每一维度对应相应的特定特征,在数据库中存储每条转换为数据向量形式的执行信息既表征了执行信息的特定特征,这样可以减少在数据库中存储的数据量。后续可以将待识别的执行信息的数据向量与各数据库中已存储的执行信息的数据向量之间的相似度作为执行信息之间的相似度。
为了进一步方便后续的相似度计算过程,可以将数据向量的各维度做归一化处理,将每一维度的内容转换为0~1的数值。例如:性别为“男”对应的数值是1,性别为“女”对应的数值是0;买家评价有“好”、“一般”、“差”三种,对应的数值分别为1、0.5、0;根据购买日期与设定日期的差值确定购买日期对应的数值,差值越大,购买日期对应的数值也越大,或差值越大,购买日期对应的数值越小;预先划分成交量与数值的对应关系,根据数据向量中成交量的大小确定对应的数值。例如:成交量为0时,对应的数值为0,成交量为1~10,对应的数值为0.1,成交量为11~300,对应的数值为0.2,以此类推。例如,某一数据向量为{男,好,2010.9.29,300},进行归一化处理后转换为{1,1,0.1,0.2}。
在数据库中存储归一化处理的数据向量后,可以利用该数据库中存储的执行信息对待识别的执行信息做合法性判定。
需要说明的是,本实施例二中数据库中的内容在初始时是预先配置的,但是在本实施例方案不断执行的过程中,每次判定新的执行信息的合法性后,可以将判定后的执行信息按照上述格式写入数据库中,以实时更新数据库的内容,使数据库中作为判定基准的执行信息不断地与层出不穷的各种网络购物业务相适应;另外,对新的执行信息的合法性判定有可能出现误判,如判定某一执行信息是非法信息,但执行相应网购业务的买家用户或卖家用户向管理员投诉,在确定某一执行信息的合法性出现误判时,可以根据误判的执行信息中被误判的特征更新特定特征,有效地完善设定的特定特征,使设定的特征特征能够更好地反映合法信息和非法信息。
在建立完成数据库后,可以利用该数据库对新的执行信息的合法性按照以下步骤进行识别,具体过程如图3所示。
第二步:按照黑名单、白名单方式判断待识别的执行信息的合法性。
若执行信息中的卖家用户或买家用户是黑名单中的用户,则确定该待识别的执行信息是非法信息。
若执行信息中的卖家用户和买家用户都是白名单中的用户,则确定该待识别的执行信息是合法信息。
若执行信息中的卖家用户和买家用户既不是黑名单中的用户也不是白名单中的用户,则继续执行第三步。
第三步:提取待识别的执行信息中的特定特征。
假设待识别的执行信息的特定特征转换得到的数据向量为{女,一般,2010.9.29,300},对其进行归一化处理后为{0,0.5,0.1,0.2}。
第四步:根据待识别的执行信息归一化处理后的数据向量与数据库中每一归一化处理后的数据向量,确定待识别的执行信息中的特定特征与数据库中各执行信息中的特定特征之间的相似度。
假设待识别的执行信息(称之为执行信息A)归一化处理后的数据向量为{0,0.5,0.1,0.2},数据库中某一执行信息(称之为执行信息B)归一化处理后的数据向量为{1,1,0.1,0.2},则本步骤中具体的相似度计算过程为:
首先,分别计算两条执行信息的数据向量中,每一维度之间的比较结果。具体的计算方式包括但不限于以下两种方式:
第一种计算方式:
依次计算每一维度数值之间的差值,将得到的差值作为该维度的比较结果,具体到执行信息A和执行信息B,按照本计算方式得到的每一维度之间的比较结果为{1,0.5,0,0}。
第二种计算方式:
针对每一维度,按照以下公式(1)计算执行信息A和执行信息B之间各维度的比较结果:
d(ai,bi)=|ai-bi|/maxvalue(i)  (1)
其中,ai表示待识别的执行信息的数据向量中的第i维的数值;bi表示一已存储的执行信息的数据向量中的第i维的数值;max value(i)表示第i维的最大可取值与最小可取值之差;d(ai,bi)表示待识别的执行信息的数据向量中的第i维与一已存储的执行信息中的数据向量中的第i维的比较结果。
按照第二种计算方式得到的执行信息A和执行信息B之间每一维度之间的比较结果为{1,0.5,0,0}。
然后,将执行信息A与执行信息B的数据向量每一维比较结果之和作为这两条执行信息的相似度。
根据上述第一种方式或第二种方式得到的执行信息A和执行信息B之间每一维度之间的比较结果为{1,0.5,0,0},则执行信息A和执行信息B之间的相似度为1.5。
将数据库中存储的每一执行信息按照本步骤的方式与待识别的执行信息进行计算,得到待识别的执行信息与数据库中每一执行信息之间的相似度。
第五步:从数据库中选取相似度最高的M条执行信息。
第六步:采用加权方式计算选取的M条执行信息中,合法信息的加权求和值,以及非法信息的加权求和值,并根据计算结果判定待识别的执行信息是否是合法信息。
本实施例采用连续光滑的加权函数来计算各条执行信息的加权值,该加权函数的表现形式如公式(2)所示:
w j = exp ( - D ( A , B j ) 2 K w 2 ) - - - ( 2 )
其中,wj表示M条执行信息中第j条执行信息的权重;D(A,Bj)表示第j条执行信息与待识别的执行信息之间的相似度;Kw表示平衡因子,本实施例中采用
Figure BDA0000040239710000121
所述range表示选取的M条执行信息中,相似度最低的执行信息与待识别的执行信息的相似度,n是固定参数,如n=16。
通过公式(2)计算得到各执行信息的加权值后,可以计算加权求和值,具体的加权求和算法包括但不限于以下两种方式:
第一种算法:
按照以下公式(3)计算合法信息和非法信息的加权求和值:
y = Σ w j y j Σ w j - - - ( 3 )
其中:y表示合法信息和非法信息的加权求和值,wj表示M条执行信息中第j条执行信息的权重,yj表示M条执行信息中第j条执行信息是合法信息还是非法信息,若是合法信息,yj=1,否则,yj=0。
通过通过(3)得到的y是0~1的数值,将该数值与设定值进行比较,确定待识别的执行信息是否合法。如:设定值为0.7,若计算出的y不小于0.7,则确定待识别的执行信息综合起来更接近于合法信息,因此,该待识别的执行信息是合法信息;否则,该待识别的执行信息是非法信息。
第二种算法:
将M条执行信息中非法信息加权求和,得到非法信息加权求和值,以及,将合法信息加权求和,得到合法信息加权求和值,所采用的加权求和公式如公式(4)所示:
z1=∑wkyk,z2=∑wlyl  (4)
其中:z1表示合法信息的加权求和值,z2表示非法信息的加权求和值;wk表示合法执行信息中第k条执行信息的权重,wl表示非法执行信息中第l条执行信息的权重;yk和yl分别表示合法执行信息中第k条执行信息是合法信息还是非法信息,非法执行信息中第l条执行信息是合法信息还是非法信息,若是合法信息,yk=yl=1,否则,yk=yl=0。
选取z1和z2中的较大值,若z1大于z2,则该待识别的执行信息是合法信息;若z2大于z1且其差值较大,则该待识别的执行信息是非法信息,否则,该待识别的执行信息仍是合法信息。
实施例三
本申请实施例三还提供一种信息识别设备,如图4所示,包括特征识别模块11、相似度确定模块12和合法性识别模块13,其中:特征识别模块11用于确定待识别的执行信息中的特定特征;相似度确定模块12用于分别确定所述待识别的执行信息中的特定特征与已存储的每条执行信息中的特定特征之间的相似度;合法性识别模块13用于根据相似度最高的M条执行信息中的非法信息和合法信息的计算数值,识别所述待识别的执行信息是非法信息或合法信息,所述M为大于0的正整数。
所述设备还包括信息训练模块14,用于将数据库中存储的每条执行信息中的特定特征转换为数据向量,其中,数据向量中的每一维度对应一个特定特征;所述相似度确定模块12具体用于将待识别的执行信息中的特定特征转换为数据向量,并分别确定待识别的执行信息的数据向量与各已存储的执行信息的数据向量之间的相似度。
所述信息训练模块14还用于依次将每条执行信息中的数据向量做归一化处理,得到数据向量中每一维度的数值;所述相似度确定模块12具体用于对待识别的执行信息的数据向量做归一化处理,得到数据向量中每一维度的数值,以及分别将待识别的执行信息的数据向量各维度的数值与每一已存储的执行信息中的数据向量各维度的数值进行比较,根据比较结果,确定待识别的执行信息中的特定特征与已存储的执行信息中的特定特征之间的相似度。
所述合法性识别模块13具体用于在所述M为奇数时,确定相似度最高的M条执行信息中非法信息数量和合法信息数量的较大者,确定所述待识别的执行信息与较大的数量对应信息的合法性相同。
所述合法性识别模块13具体用于分别确定相似度最高的M条执行信息对应的加权值,其中,与待识别的执行信息相似度越高,对应的加权值越大,并将M条执行信息中非法信息加权求和,得到非法信息加权求和值,以及,将合法信息加权求和,得到合法信息加权求和值,确定所述待识别的执行信息与较大的加权求和值对应信息的合法性相同。
图4所示的信息识别设备是与数据库分离的情况,本实施例中的信息识别设备也可以集成所述数据库。
本实施例三中的信息识别设备还具有能够实现实施例一和实施例二方案的功能模块,此处不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种信息识别方法,其特征在于,包括:
服务器确定待识别的执行信息中的特定特征;
分别确定所述待识别的执行信息中的特定特征与已存储的每条执行信息中的特定特征之间的相似度;
根据相似度最高的M条执行信息中的非法信息和合法信息的计算数值,识别所述待识别的执行信息是非法信息或合法信息,所述M为大于0的正整数。
2.如权利要求1所述的方法,其特征在于,确定待识别的执行信息中的特定特征之前,所述方法还包括:
在数据库中存储多条执行信息,并将每条执行信息中的特定特征转换为数据向量,其中,数据向量中的每一维度对应一个特定特征,且存储的多条执行信息中;
分别确定待识别的执行信息中的特定特征与已存储的每条执行信息中的特定特征之间的相似度,具体包括:
将待识别的执行信息中的特定特征转换为数据向量,并分别确定待识别的执行信息的数据向量与各已存储的执行信息的数据向量之间的相似度。
3.如权利要求2所述的方法,其特征在于,将数据库中存储的每条执行信息中的特定特征转换为数据向量至后,且确定待识别的执行信息中的特定特征之前,所述方法还包括:
依次将每条执行信息中的数据向量做归一化处理,得到数据向量中每一维度的数值;
分别确定待识别的执行信息中的特定特征与已存储的每条执行信息中的特定特征之间的相似度,具体包括:
对待识别的执行信息的数据向量做归一化处理,得到数据向量中每一维度的数值;
分别将待识别的执行信息的数据向量各维度的数值与每一已存储的执行信息中的数据向量各维度的数值进行比较,根据比较结果,确定待识别的执行信息中的特定特征与已存储的执行信息中的特定特征之间的相似度。
4.如权利要求3所述的方法,其特征在于,通过以下公式确定待识别的执行信息的数据向量各维度的数值与一已存储的执行信息中的数据向量各维度的数值的比较结果:
d(ai,bi)=|ai-bi|/max value(i)
其中,ai表示待识别的执行信息的数据向量中的第i维的数值;bi表示一已存储的执行信息的数据向量中的第i维的数值;max value(i)表示第i维的最大取值与最小取值之差;d(ai,bi)表示待识别的执行信息的数据向量中的第i维与一已存储的执行信息中的数据向量中的第i维的比较结果;
待识别的执行信息中的特定特征与一已存储的执行信息中的特定特征之间的相似度为:
该待识别的执行信息的数据向量与已存储的执行信息的数据向量每一维比较结果之和。
5.如权利要求1所述的方法,其特征在于,根据相似度最高的M条执行信息识别所述待识别的执行信息是非法信息或合法信息,具体包括:
在所述M为奇数时,确定相似度最高的M条执行信息中非法信息数量和合法信息数量的较大者,确定所述待识别的执行信息与较大的数量对应信息的合法性相同。
6.如权利要求1所述的方法,其特征在于,根据相似度最高的M条执行信息识别所述待识别的执行信息是非法信息或合法信息,具体包括:
分别确定相似度最高的M条执行信息对应的加权值,其中,与待识别的执行信息相似度越高,对应的加权值越大;
将M条执行信息中非法信息加权求和,得到非法信息加权求和值,以及,将合法信息加权求和,得到合法信息加权求和值;
确定所述待识别的执行信息与教大的加权求和值对应信息的合法性相同。
7.如权利要求6所述的方法,其特征在于,通过以下公式确定M条执行信息对应的加权值:
w j = exp ( - D ( A , B j ) 2 K w 2 )
其中,wj表示M条执行信息中第j条执行信息的权重;D(A,Bj)表示第j条执行信息与待识别的执行信息之间的相似度;Kw表示平衡因子。
8.一种信息识别设备,其特征在于,包括:
特征识别模块,用于确定待识别的执行信息中的特定特征;
相似度确定模块,用于分别确定所述待识别的执行信息中的特定特征与已存储的每条执行信息中的特定特征之间的相似度;
合法性识别模块,用于根据相似度最高的M条执行信息中的非法信息和合法信息的计算数值,识别所述待识别的执行信息是非法信息或合法信息,所述M为大于0的正整数。
9.如权利要求8所述的设备,其特征在于,所述设备还包括:
信息训练模块,用于将数据库中存储的每条执行信息中的特定特征转换为数据向量,其中,数据向量中的每一维度对应一个特定特征;
所述相似度确定模块,具体用于将待识别的执行信息中的特定特征转换为数据向量,并分别确定待识别的执行信息的数据向量与各已存储的执行信息的数据向量之间的相似度。
10.如权利要求9所述的设备,其特征在于,
所述信息训练模块,还用于依次将每条执行信息中的数据向量做归一化处理,得到数据向量中每一维度的数值;
所述相似度确定模块,具体用于对待识别的执行信息的数据向量做归一化处理,得到数据向量中每一维度的数值,以及分别将待识别的执行信息的数据向量各维度的数值与每一已存储的执行信息中的数据向量各维度的数值进行比较,根据比较结果,确定待识别的执行信息中的特定特征与已存储的执行信息中的特定特征之间的相似度。
11.如权利要求8所述的设备,其特征在于,
所述合法性识别模块,具体用于在所述M为奇数时,确定相似度最高的M条执行信息中非法信息数量和合法信息数量的较大者,确定所述待识别的执行信息与较大的数量对应信息的合法性相同。
12.如权利要求8所述的设备,其特征在于,
所述合法性识别模块,具体用于分别确定相似度最高的M条执行信息对应的加权值,其中,与待识别的执行信息相似度越高,对应的加权值越大,并将M条执行信息中非法信息加权求和,得到非法信息加权求和值,以及,将合法信息加权求和,得到合法信息加权求和值,确定所述待识别的执行信息与较大的加权求和值对应信息的合法性相同。
CN201010603488.9A 2010-12-23 2010-12-23 一种信息识别方法及设备 Active CN102541899B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201010603488.9A CN102541899B (zh) 2010-12-23 2010-12-23 一种信息识别方法及设备
TW100104751A TWI534735B (zh) 2010-12-23 2011-02-14 Information identification methods and equipment
US13/330,400 US20120166307A1 (en) 2010-12-23 2011-12-19 Determination of permissibility associated with e-commerce transactions
PCT/US2011/066024 WO2012088035A1 (en) 2010-12-23 2011-12-20 Determination of permissibility associated with e-commerce transactions
HK12108964.1A HK1168176A1 (zh) 2010-12-23 2012-09-13 種信息識別方法及設備

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010603488.9A CN102541899B (zh) 2010-12-23 2010-12-23 一种信息识别方法及设备

Publications (2)

Publication Number Publication Date
CN102541899A true CN102541899A (zh) 2012-07-04
CN102541899B CN102541899B (zh) 2014-04-16

Family

ID=46318220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010603488.9A Active CN102541899B (zh) 2010-12-23 2010-12-23 一种信息识别方法及设备

Country Status (4)

Country Link
US (1) US20120166307A1 (zh)
CN (1) CN102541899B (zh)
HK (1) HK1168176A1 (zh)
TW (1) TWI534735B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105898722A (zh) * 2016-03-31 2016-08-24 联想(北京)有限公司 一种非正常短信息的鉴别方法、装置和电子设备
CN106354725A (zh) * 2015-07-15 2017-01-25 腾讯科技(深圳)有限公司 一种事件防刷方法、装置、服务器及系统
CN107741938A (zh) * 2016-10-13 2018-02-27 腾讯科技(深圳)有限公司 一种网络信息识别方法及装置
CN107992501A (zh) * 2016-10-27 2018-05-04 腾讯科技(深圳)有限公司 社交网络信息识别方法、处理方法及装置
CN109350965A (zh) * 2018-10-09 2019-02-19 苏州好玩友网络科技有限公司 一种应用于移动终端的游戏控制方法、装置及终端
US10805255B2 (en) 2016-10-13 2020-10-13 Tencent Technology (Shenzhen) Company Limited Network information identification method and apparatus

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016473B (zh) 2016-01-27 2022-11-22 创新先进技术有限公司 一种风险控制方法和设备
CN107451879B (zh) * 2017-06-12 2018-11-02 北京小度信息科技有限公司 信息判断方法及装置
CN107977404B (zh) * 2017-11-15 2020-08-28 深圳壹账通智能科技有限公司 用户信息筛选方法、服务器及计算机可读存储介质
CN108876213B (zh) * 2018-08-22 2022-05-17 泰康保险集团股份有限公司 基于区块链的产品管理方法、装置、介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1614607A (zh) * 2004-11-25 2005-05-11 中国科学院计算技术研究所 垃圾邮件过滤的方法和系统
CN1649311A (zh) * 2005-03-23 2005-08-03 北京首信科技有限公司 基于机器学习的用户行为异常检测系统和方法
CN1761204A (zh) * 2005-11-18 2006-04-19 郑州金惠计算机系统工程有限公司 在互联网上堵截色情图像与不良信息的系统
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
CN101600178A (zh) * 2009-06-26 2009-12-09 成都市华为赛门铁克科技有限公司 垃圾信息确认方法和装置、终端
CN101847163A (zh) * 2010-05-28 2010-09-29 广东工业大学 一种多特征融合的外观设计专利图像检索方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819226A (en) * 1992-09-08 1998-10-06 Hnc Software Inc. Fraud detection using predictive modeling
US6094643A (en) * 1996-06-14 2000-07-25 Card Alert Services, Inc. System for detecting counterfeit financial card fraud
US7610216B1 (en) * 2000-07-13 2009-10-27 Ebay Inc. Method and system for detecting fraud

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1614607A (zh) * 2004-11-25 2005-05-11 中国科学院计算技术研究所 垃圾邮件过滤的方法和系统
CN1649311A (zh) * 2005-03-23 2005-08-03 北京首信科技有限公司 基于机器学习的用户行为异常检测系统和方法
CN1761204A (zh) * 2005-11-18 2006-04-19 郑州金惠计算机系统工程有限公司 在互联网上堵截色情图像与不良信息的系统
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
CN101600178A (zh) * 2009-06-26 2009-12-09 成都市华为赛门铁克科技有限公司 垃圾信息确认方法和装置、终端
CN101847163A (zh) * 2010-05-28 2010-09-29 广东工业大学 一种多特征融合的外观设计专利图像检索方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354725A (zh) * 2015-07-15 2017-01-25 腾讯科技(深圳)有限公司 一种事件防刷方法、装置、服务器及系统
CN106354725B (zh) * 2015-07-15 2020-08-28 腾讯科技(深圳)有限公司 一种事件防刷方法、装置、服务器及系统
CN105898722A (zh) * 2016-03-31 2016-08-24 联想(北京)有限公司 一种非正常短信息的鉴别方法、装置和电子设备
US10231129B2 (en) 2016-03-31 2019-03-12 Lenovo (Beijing) Limited Malicious text message identification
CN105898722B (zh) * 2016-03-31 2019-07-26 联想(北京)有限公司 一种非正常短信息的鉴别方法、装置和电子设备
CN107741938A (zh) * 2016-10-13 2018-02-27 腾讯科技(深圳)有限公司 一种网络信息识别方法及装置
US10805255B2 (en) 2016-10-13 2020-10-13 Tencent Technology (Shenzhen) Company Limited Network information identification method and apparatus
CN107992501A (zh) * 2016-10-27 2018-05-04 腾讯科技(深圳)有限公司 社交网络信息识别方法、处理方法及装置
CN109350965A (zh) * 2018-10-09 2019-02-19 苏州好玩友网络科技有限公司 一种应用于移动终端的游戏控制方法、装置及终端

Also Published As

Publication number Publication date
HK1168176A1 (zh) 2012-12-21
TW201227571A (en) 2012-07-01
CN102541899B (zh) 2014-04-16
US20120166307A1 (en) 2012-06-28
TWI534735B (zh) 2016-05-21

Similar Documents

Publication Publication Date Title
CN102541899A (zh) 一种信息识别方法及设备
TWI512653B (zh) Information providing method and apparatus, method and apparatus for determining the degree of comprehensive relevance
CN103092861B (zh) 一种商品代表图的选取方法和系统
CN111080409A (zh) 一种推送信息的计算机装置、方法、设备及介质
CN110807669B (zh) 一种跨平台的用户信息管理方法和装置
CN110852818A (zh) 商品排序方法、装置和计算机可读存储介质
CN111831894B (zh) 一种信息匹配方法及装置
CN108876545A (zh) 订单识别方法、装置和可读存储介质
CN116629937A (zh) 营销策略推荐方法及装置
CN110084643A (zh) 一种基于历史交易分布的商品定价方法及装置
CN105844516A (zh) 一种企业信用评估方法及装置
CN109426894A (zh) 用户信息共享、竞价方法、装置、系统及电子设备
CN110472143A (zh) 一种信息推送方法、装置、可读存储介质及终端设备
KR102023090B1 (ko) 유형 및 무형의 물품을 배송하기 위한 서비스를 제공하는 전자 상거래 시스템 및 방법
CN107798125B (zh) 基于亲密度模型的准入判定方法、系统、设备及存储介质
CN109934701A (zh) 一种股权质押的风险评估方法和装置
CN117273865A (zh) 商品推荐方法、装置、电子设备及存储介质
KR101290536B1 (ko) 아이템 가격 설정 방법 및 시스템
CN115017548B (zh) 数据定价方法、装置及相关设备
CN110020135B (zh) 一种需求确定方法、资源推荐方法和相关装置
CN104331823A (zh) 确定发布信息中关键词保留价格的方法及装置
CN116228278A (zh) 基于大数据的用户画像建立方法和用户画像管理系统
CN110264250B (zh) 确定产品对等资源量在多个地域的分布数据的方法及装置
CN104796478A (zh) 一种资源推荐方法及装置
JPH11306238A (ja) 確率積分システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1168176

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1168176

Country of ref document: HK

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201228

Address after: Room 701-2, 528 Yan'an Road, Xiacheng District, Hangzhou City, Zhejiang Province

Patentee after: ZHEJIANG INTIME E-COMMERCE Co.,Ltd.

Address before: Cayman Islands Grand Cayman capital building, a four storey No. 847 mailbox

Patentee before: Alibaba Group Holding Ltd.