CN105744493A - 一种信息识别方法及装置 - Google Patents
一种信息识别方法及装置 Download PDFInfo
- Publication number
- CN105744493A CN105744493A CN201410752048.8A CN201410752048A CN105744493A CN 105744493 A CN105744493 A CN 105744493A CN 201410752048 A CN201410752048 A CN 201410752048A CN 105744493 A CN105744493 A CN 105744493A
- Authority
- CN
- China
- Prior art keywords
- instruction information
- sample
- value
- parameter
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012545 processing Methods 0.000 claims description 53
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 10
- 230000006399 behavior Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 5
- 238000007619 statistical method Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Landscapes
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例公开了一种信息识别方法及装置;其中,所述方法包括:接收指令信息,确定所述指令信息满足第一预设条件时,获取所述指令信息的第一参数;所述第一参数用于表征所述指令信息的时间属性;判断所述第一参数是否满足第二预设条件,获得第二判断结果;当所述第二判断结果为所述第一参数满足第二预设条件时,确定接收到的指令信息为非人为发送的指令信息;当所述第二判断结果为所述第一参数不满足第二预设条件时,确定接收到的指令信息为人为发送的指令信息。
Description
技术领域
本发明涉及无线通信网络技术,具体涉及一种信息识别方法及装置。
背景技术
短信营业厅(即运营商)根据客户发送的短信内容为客户提供业务查询或业务办理的一种工具。目前,短信营业厅接收到的短信可分为两类:一类是用户主动发送的短信;另一类是非人为发送的、由应用程序发送的短信,例如流量监控软件的自动校准功能可为用户提供本月可用流量总额、已使用流量和剩余流量提示,该自动校准功能是通过定期发送流量查询短信指令至相应端口(如10086),再通过接收到的短信获得相应的流量信息。而短信营业厅对于接收到的短信一视同仁进行处理,不能识别接收到的短信是否是人为发送,也不能针对人为发送的短信优先提供服务。当短信营业厅接收到的数据量大时,非人为发送的短信占用大量的系统性能,这就使得人为发送的短信不能够得到较快的回复,从而大大降低了用户的操作体验满意度。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种信息识别方法及装置,能够识别出非人为操作的指令信息。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种信息识别方法,所述方法包括:
接收指令信息,确定所述指令信息满足第一预设条件时,获取所述指令信息的第一参数;所述第一参数用于表征所述指令信息的时间属性;
判断所述第一参数是否满足第二预设条件,获得第二判断结果;
当所述第二判断结果为所述第一参数满足第二预设条件时,确定接收到的指令信息为非人为发送的指令信息;
当所述第二判断结果为所述第一参数不满足第二预设条件时,确定接收到的指令信息为人为发送的指令信息。
上述方案中,所述接收指令信息之前,所述方法还包括:建立目标指令信息集合;
相应的,所述确定所述指令信息满足第一预设条件,包括:
当所述指令信息与所述目标指令信息集合中任一目标指令信息匹配一致时,确定所述指令信息满足第一预设条件。
上述方案中,所述第一参数包括:时间点参数和时间间隔参数;
所述判断所述第一参数是否满足第二预设条件,包括:
根据时间点和时间间隔建立坐标模型,基于所述坐标模型确定所述指令信息的样本值,所述样本值为(时间点参数,时间间隔参数);
确定所述样本值与预设样本集合的中心点值之间的距离;当所述样本值与预设样本集合的中心点值之间的距离小于预设阈值时,确定所述第一参数满足所述第二预设条件;
当所述样本值与预设样本集合的中心点值之间的距离大于预设阈值时,确定所述第一参数不满足所述第二预设条件。
上述方案中,所述接收指令信息之前,所述方法还包括:
依次接收M个指令信息,基于所述坐标模型并根据所述M个指令信息的时间点参数和时间间隔参数确定M个样本值;其中,所述M个指令信息为任一客户端发送的属于所述目标指令信息集合中的指令信息;M为正整数;
确定所述M个样本值中每个样本值归属的样本集合;
确定每个样本集合中的样本值数量与M的比例关系集合;
当所述比例关系集合中任一比例关系P超过第一阈值时,确定所述比例关系P对应的样本集合为预设样本集合。
上述方案中,所述确定所述M个样本值中每个样本值归属的样本集合,包括:
以第一个样本值作为第一样本集合的中心点值;
依次确定当前样本值与已存在样本集合的中心点值的距离集合,获得所述距离集合中的最小距离以及所述最小距离对应的样本集合;
确定所述最小距离小于第一预设距离时,确定所述当前样本值归属于所述样本集合。
上述方案中,所述当前样本值与任一样本集合的中心点值的距离满足如下表达式:
其中,(Ti,Di)为所述当前样本值,(Tc,Dc)为样本集合的中心点值;α为预设时间权重值;(1-α)为预设时间间隔权重值;
所述样本集合的中心点值满足如下表达式:
其中,N为所述样本集合中样本值的个数,且N小于M;sit为第i个样本值的时间点参数,sid为第i个样本的时间间隔参数;其中,i大于0且小于等于N。
本发明实施例还提供了一种信息识别装置,所述装置包括:接收单元、第一处理单元和第二处理单元;其中,
所述接收单元,用于接收指令信息;
所述第一处理单元,用于所述确定所述接收单元接收的所述指令信息满足第一预设条件时,获取所述指令信息的第一参数;所述第一参数用于表征所述指令信息的时间属性;
所述第二处理单元,用于判断所述第一处理单元获取的所述第一参数是否满足第二预设条件,获得第二判断结果;当所述第二判断结果为所述第一参数满足第二预设条件时,确定接收到的指令信息为非人为发送的指令信息;当所述第二判断结果为所述第一参数不满足第二预设条件时,确定接收到的指令信息为人为发送的指令信息。
上述方案中,所述装置还包括第一建立单元,用于建立目标指令信息集合;
所述第一处理单元,用于当所述接收单元接收的所述指令信息与所述目标指令信息集合中任一目标指令信息匹配一致时,确定所述指令信息满足第一预设条件。
上述方案中,所述第一参数包括:时间点参数和时间间隔参数;
所述第二处理单元,用于根据时间点和时间间隔建立坐标模型,基于所述坐标模型确定所述指令信息的样本值,所述样本值为(时间点参数,时间间隔参数);确定所述样本值与预设样本集合的中心点值之间的距离;当所述样本值与预设样本集合的中心点值之间的距离小于预设阈值时,确定所述第一参数满足所述第二预设条件;当所述样本值与预设样本集合的中心点值之间的距离大于预设阈值时,确定所述第一参数不满足所述第二预设条件。
上述方案中,所述第二处理单元,还用于在所述接收单元接收指令信息之前,依次接收M个指令信息,基于所述坐标模型并根据所述M个指令信息的时间点参数和时间间隔参数确定M个样本值;其中,M为正整数;确定所述M个样本值中每个样本值归属的样本集合;确定每个样本集合中的样本值数量与M的比例关系集合;当所述比例关系集合中任一比例关系P超过第一阈值时,确定所述比例关系P对应的样本集合为预设样本集合。
上述方案中,所述第二处理单元,用于以第一个样本值作为第一样本集合的中心点值;依次确定当前样本值与已存在样本集合的中心点值的距离集合,获得所述距离集合中的最小距离以及所述最小距离对应的样本集合;确定所述最小距离小于第一预设距离时,确定所述当前样本值归属于所述样本集合。
上述方案中,所述当前样本值与任一样本集合的中心点值的距离满足如下表达式:
其中,(Ti,Di)为所述当前样本值,(Tc,Dc)为样本集合的中心点值;α为预设时间权重值;(1-α)为预设时间间隔权重值;
所述样本集合的中心点值满足如下表达式:
其中,N为所述样本集合中样本值的个数,且N小于M;sit为第i个样本值的时间点参数,sid为第i个样本的时间间隔参数;其中,i大于0且小于等于N。
本发明实施例提供的信息识别方法及装置,接收指令信息,确定所述指令信息满足第一预设条件时,获取所述指令信息的第一参数;所述第一参数用于表征所述指令信息的时间属性;判断所述第一参数是否满足第二预设条件,获得第二判断结果;当所述第二判断结果为所述第一参数满足第二预设条件时,确定接收到的指令信息为非人为发送的指令信息;当所述第二判断结果为所述第一参数不满足第二预设条件时,确定接收到的指令信息为人为发送的指令信息。采用本发明实施例的技术方案,基于非人为操作的指令信息的发送时间具有较强的规律性,通过获取到的所述指令信息的时间属性识别出非人为操作的指令信息,进而可以针对人为操作的指令信息和非人为操作的指令信息进行区别处理,当系统资源消耗较大时,优先处理人为操作的指令信息,使得人为发送的指令信息能够得到较快的回复,从而大大提升了用户的操作体验满意度。
附图说明
图1为指令信息的处理流程示意图;
图2为指令信息的处理系统的架构示意图;
图3为本发明实施例的信息识别方法的流程示意图;
图4为本发明实施例中样本值的二维坐标示意图;
图5为本发明实施例中样本集合的划分示意图;
图6为本发明实施例的信息识别装置的组成结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细的说明。
在本发明的各种实施例中,所发送的或所接收的短信均为用于查询的指令信息,则以下所述的短信均可以为指令信息。图1为指令信息的处理流程示意图;如图1所示,客户端发送的上行短信首先被短信中心接收,短信中心将所述上行短信发送至短信网关;所述短信网关将所述上行短信转发至短信营业厅;所述短信营业厅接收到所述上行短信后,根据预设的指令解析方式和匹配规则在短信营业厅业务指令表中查找短信指令,若能成功匹配,则调用下一代业务运营支撑系统(NGBOSS,NextGenerationBusinessOperationSupportSystem)进行业务处理;所述NGBOSS对上行短信进行处理后向短信营业厅回复处理结果。所述短信营业厅根据处理结果调用短信模板生成下行短信内容数据,将下行短信内容数据封装后发送给短信网关,再由短信网关下发给短信中心,短信中心再将下行短信发送到客户端。如果在短信营业厅业务指令表中查找短信指令失败,则短信营业厅调用智能机器人功能,解析用户上行短信的关键字,根据一定的处理规则向用户下发相应的下行短信。
图2为指令信息的处理系统的架构示意图;根据短信营业厅处理流程,可将短信营业厅分为如图2所示的四个模块:收发模块、入库模块、处理模块和发送模块;除收发模块外,其他模块均需要与数据库进行交互;所述数据库包括图2中所示的上行短信表、上行短信历史表、下行短信表和下行短信历史表;其中,
所述收发模块是短信营业厅的扩展短消息实体(ESME,ExternalShortMessageEntity),负责通过标准协议根短信网关交互,区分上下行短信处理,并且完成协议转换,将标准短消息点对点(SMPP,ShortMessagePeertoPeer)协议或者中国移动点对点(CMPP,ChinaMobilePeertoPeer)协议转换为业务处理的内部协议,并通过消息队列传递给入库模块进行处理;
所述入库模块负责接收用户上行短信和回执短信,并将这些信息入到数据库表上行短信表;
所述处理模块负责从数据库表上行短信表中读取数据,进行相应的业务办理,同时将该数据从上行短信表删除,写入到上行短信历史表。根据处理结果获取模板编号和结果信息并将这些信息传递给发送模块;
所述发送模块负责根据模板信息获取模板,并根据参数信息组织下发短信,并将组织好的短信写入到数据库表下行短信表,同时提交给收发模块进行下发,收到收发模块的回复后将该条记录从下行短信表删除,并写入到下行短信历史表。
基于对人类行为研究的分析,人为发送短信的时间具有较大的随机性。而相对于人为操作来说,非人为操作如软件发送上行短信的时间具有较强的规律性,一般表现为发送相同上行短信的时间点相对固定,同时发送时间间隔也相对固定。因此,只要获取到非人为短信的发送规律,便可识别出非人为短信。
图3为本发明实施例的信息识别方法的流程示意图;如图3所示,所述信息识别方法包括:
步骤301:接收指令信息,确定所述指令信息满足第一预设条件时,获取所述指令信息的第一参数;所述第一参数用于表征所述指令信息的时间属性。
这里,所述接收指令信息之前,所述方法还包括:建立目标指令信息集合;
相应的,所述确定所述指令信息满足第一预设条件,包括:
当所述指令信息与所述目标指令信息集合中任一目标指令信息匹配一致时,确定所述指令信息满足第一预设条件。
具体的,首先需要建立需要监控的目标短信指令集M(即所述目标指令信息集合,以下所述的目标短信指令集M均为所述目标指令信息集合)。目前短信营业厅的短信指令很多,如果对所有的短信指令都进行监控势必会大幅增加短信营业厅的系统性能消耗,因此可以根据实际情况先建立需要监控的目标短信指令集;可以预先通过市场调研、数据统计等多种方法收集应用程序经常会发送的短信指令。研究发现,非人为发送的短信指令较集中于流量和资费的查询指令,因此,所述目标短信指令集M主要包括流量查询短信指令和资费查询短信指令;则建立流量查询和资费查询的短信指令集M能够保证监控的指令较集中而且有效,避免性能的浪费。其中,M的取值可以根据需要监控的指令内容具体而定。在本实施例中,当接收到的指令信息与所述目标指令信息集合中的任一目标指令信息匹配,即接收到的短信指令与短信指令集M中的任一短信指令匹配一致时,确定所述指令信息满足所述第一预设条件。
其中,所述第一参数包括:时间点参数T和时间间隔参数D;具体的,所述时间点参数T具体为接收到所述指令信息的时间点;所述时间间隔参数D为当前接收到所述指令信息与上一次接收到所述指令信息的时间间隔。在本实施例中,为每位用户建立单独的样本集合,记录每次接收到所述目标指令信息集合内的指令信息所对应的用户信息、指令信息和第一参数,所述第一参数包括:时间点参数T和时间间隔参数D。其中,所述时间间隔参数D以小时为单位,根据实际情况,考虑最大的时间间隔为7天,大于7天的数据取为无穷大,因此所述时间间隔参数D的取值为0到7×24-1=167;所述时间点参数T以每分钟为单位,由于一天有1440分钟,因此所述时间点参数T的取值范围为0至1339。比如用户第一次发送所述目标指令信息集合内的指令信息的时间为2014年5月6日10:01:07,则D=∞,T=10×60+1=601,第二次发送所述目标指令信息集合内的指令信息的时间为2014年5月7日10:02:23,则D=24,T=10×60+2=602。
步骤302:判断所述第一参数是否满足第二预设条件,当所述第一参数满足第二预设条件时,执行步骤303;当所述第一参数不满足第二预设条件时,执行步骤304。
步骤303:当所述第二判断结果为所述第一参数满足第二预设条件时,确定接收到的指令信息为非人为发送的指令信息。
步骤304:当所述第二判断结果为所述第一参数不满足第二预设条件时,确定接收到的指令信息为人为发送的指令信息。
这里,所述判断所述第一参数与预设样本集合之间的关系是否满足第二预设条件,包括:
根据时间点和时间间隔建立坐标模型,基于所述坐标模型确定所述指令信息的样本值,所述样本值为(时间点参数,时间间隔参数);
确定所述样本值与预设样本集合的中心点值之间的距离;当所述样本值与预设样本集合的中心点值之间的距离小于预设阈值时,确定所述第一参数满足所述第二预设条件;
当所述样本值与预设样本集合的中心点值之间的距离大于预设阈值时,确定所述第一参数不满足所述第二预设条件。
具体的,以时间点T为x轴,以时间间隔D为y轴建立二维坐标系。每次接收到所述目标指令信息集合内的指令信息后根据获得的第一参数确定所述指令信息的(T,D)值(即所述样本值),将所述样本值映射为所述二维坐标上的一点。图4为本发明实施例中样本值的二维坐标示意图;如图4所示A点。这样可通过对多次接收到的相同的指令信息的记录,便可得到特定用户某一指令信息的发送行为特征,表现为所述二维坐标系上的点分布。
本实施例中,在接收到指令信息之前,确定预设样本集合,所述预设样本集合可以理解为非人为发送的指令信息对应的样本值集合;具体的,预设样本集合的确定方式包括:依次接收M个指令信息,基于所述坐标模型并根据所述M个指令信息的时间点参数和时间间隔参数确定M个样本值;其中,所述M个指令信息为任一客户端发送的属于所述目标指令信息集合中的指令信息;M为正整数;
确定所述M个样本值中每个样本值归属的样本集合;
确定每个样本集合中的样本值数量与M的比例关系集合;
当所述比例关系集合中任一比例关系P超过第一阈值时,确定所述比例关系P对应的样本集合为预设样本集合。
其中,所述确定所述M个样本值中每个样本值归属的样本集合,包括:
以第一个样本值作为第一样本集合的中心点值;
依次确定当前样本值与已存在样本集合的中心点值的距离集合,获得所述距离集合中的最小距离以及所述最小距离对应的样本集合;
确定所述最小距离小于第一预设距离时,确定所述当前样本值归属于所述样本集合。
本实施例中采用聚类算法对映射在上述二维坐标系中的样本值进行统计分析,按照特定标准(本实施例中所述的距离标准)将多个样本值分为不同的样本集合。使得同一个样本集合中的样本值的相似性尽可能大,同时不在一个样本集合中的样本值的差异性尽可能大,以获得非人为发送的指令信息的接收规律,进而判断出某一次接收的指令信息是否是人为操作。在本实施例中,所述M个指令信息为某一客户端发送的属于所述目标指令信息集合中的指令信息,M个样本值组成了所述客户端的样本全集。在实际应用过程中,采用聚类算法对映射在上述二维坐标系中的样本值进行统计分析过程包括以下步骤:
步骤1:初始化和有关参数的设定。
这里,对于每一个样本集合,设置Ld为第一预设距离,设置当前样本集合的个数初始化为0,设置样本数量初始化为0。
步骤2:依次取样本集内的每个样本值Sn,每增加一个样本值,样本数n加一。
步骤3:若样本值为第一个样本值,则将所述样本值归为第一个样本集合(即所述第一样本集合),将所述样本值作为所述第一样本集合的中心点值,同时记录所述第一样本集合中样本值的个数n为1。
步骤4:对于每一个样本,依次计算当前样本值与已存在样本集合中心点值之间的距离L,距离的计算采用两点之间基于权重的欧氏距离,则所述距离L满足如下表达式:
其中,(Ti,Di)为所述当前样本值(也即待新增加的样本值),(Tc,Dc)为样本集合的中心点值;α为预设时间权重值;(1-α)为预设时间间隔权重值;
本实施例中考虑如下一种情况,如果非人为指令信息的发送规律为每天十点,而用户在某天下午人为发送了一条相同的短信指令到短信营业厅,这条人为发送短信会对第二天上午待发送的非人为指令信息的时间间隔属性产生影响。因此,基于干扰因素的考虑,降低时间间隔属性的权重系数。例如,本实施例中α可以取0.6。
步骤5:获取与所述样本值最近的样本集合,即获取所述样本值与所述最近的样本集合的最小距离Lmin以及所述样本值对应的样本集合;其中,所述最小距离满足如下表达式:
Lmin=min(L1,L2,…,Lcnt)(2)
其中,Cnt为样本集合数量。
步骤6:若Lmin<Ld,则表示当前样本值属于所述最小距离对应的样本集合且对所述样本集合中样本值的数量n进行加1操作,并重新计算所述样本集合的中心点值。所述样本集合的中心点值取决于所述样本集合中各个样本值的时间点T以及时间间隔参数D的加权平均数,则所述样本集合的中心点值满足如下表达式:
其中,N为所述样本集合中样本值的个数,且N小于M;sit为第i个样本值的时间点参数,sid为第i个样本的时间间隔参数;其中,i大于0且小于等于N。
基于所述样本值加入所述样本集合前已存在中心点值,因此在所述样本值加入所述样本集合后,新的样本集合的中心点值会发生改变。所述新的样本集合的中心点值可以根据之前样本集合的中心点值和所述样本值计算得到,所述新的样本集合的中心点值公式满足如下表达式:
其中,Cn(Tc,Dc)为新的样本集合的中心点值;Cn-1(Tc)为加入样本值之前样本集合中心点的时间点参数T;Cn-1(Dc)为加入样本值之前样本集合中心点的时间间隔参数D。
步骤7:若样本值不归属任何一个样本集合,则将所述样本值作为一个新的样本集合,把所述样本值作为所述新的样本集合的中心点值,记录所述新的样本集合中样本值的个数为1,样本集合数量Cnt加1。其中,可通过获取所述样本值与所述最近的样本集合的最小距离Lmin与第一预设距离Ld的比较结果确定所述样本值是否不归属任何一个样本集合;具体的,若Lmin>Ld,则表示所述样本值不归属任何一个样本集合。
步骤8:根据步骤2至步骤7,依次确定每个样本值归属的样本集合,比较各个样本集合中样本值的数量,获取样本值数量最多的样本集合Cmax,确定所述样本集合Cmax在样本全集的比例关系P:
P=样本集合Cmax的样本数量/样本全集的样本数量;
其中,若P大于等于第一阈值Pt,则认为存在疑似非人为发送的操作指令,将所述样本集合Cmax中的样本值对应的指令信息确定为非人为发送的指令信息。
图5为本发明实施例中样本集合的划分示意图,划分后的样本集合如图5所示,以(240,72)为中心点值的样本集合(如图5中虚线框所示)中样本值的数量明显较多,若所述样本集合与样本全集的比例关系P高于第一阈值,则确定所述样本集合为预设样本集合,即非人为发送的指令信息存在某一固定的行为模式,本实施例中为每隔3天的4点钟发送相同的短信指令。
本实施例中,考虑到用户行为会不断的变更,所述预设样本集合具有一定的有效期,所述有效期如7天,则依据本发明实施例的另一实施例,所述方法还包括:判断所述预设样本集合是否在有效期内,当判断的结果为所述预设样本集合在有效期内时,继续执行本发明实施例所述的技术方案,即执行步骤301至步骤303;当判断的结果为所述预设样本集合不在有效期内时,重新获得样本值集合进而确定预设样本集合,所述预设样本集合的确定方式与上述预设样本集合的确定方式相同,这里不再赘述。
采用本发明实施例的技术方案,基于非人为操作的指令信息的发送时间具有较强的规律性,通过获取到的所述指令信息的时间属性识别出非人为操作的指令信息,进而可以针对人为操作的指令信息和非人为操作的指令信息进行区别处理,当系统资源消耗较大时,优先处理人为操作的指令信息,使得人为发送的指令信息能够得到较快的回复,从而大大提升了用户的操作体验满意度。
本发明实施例还提供了一种信息识别装置;图6为本发明实施例的信息识别装置的组成结构示意图;如图6所示,所述装置包括:接收单元61、第一处理单元62和第二处理单元63;其中,
所述接收单元61,用于接收指令信息;
所述第一处理单元62,用于所述确定所述接收单元61接收的所述指令信息满足第一预设条件时,获取所述指令信息的第一参数;所述第一参数用于表征所述指令信息的时间属性;
所述第二处理单元63,用于判断所述第一处理单元62获取的所述第一参数是否满足第二预设条件,获得第二判断结果;当所述第二判断结果为所述第一参数满足第二预设条件时,确定接收到的指令信息为非人为发送的指令信息;当所述第二判断结果为所述第一参数不满足第二预设条件时,确定接收到的指令信息为人为发送的指令信息。
具体的,所述装置还包括第一建立单元64,用于建立目标指令信息集合;
所述第一处理单元62,用于当所述接收单元61接收的所述指令信息与所述目标指令信息集合中任一目标指令信息匹配一致时,确定所述指令信息满足第一预设条件。
具体的,所述第一建立单元64建立需要监控的目标短信指令集M(即所述目标指令信息集合,以下所述的目标短信指令集M均为所述目标指令信息集合)。目前短信营业厅的短信指令很多,如果对所有的短信指令都进行监控势必会大幅增加短信营业厅的系统性能消耗,因此可以根据实际情况先建立需要监控的目标短信指令集;可以预先通过市场调研、数据统计等多种方法收集应用程序经常会发送的短信指令。研究发现,非人为发送的短信指令较集中于流量和资费的查询指令,因此,所述目标短信指令集M主要包括流量查询短信指令和资费查询短信指令;则建立流量查询和资费查询的短信指令集M能够保证监控的指令较集中而且有效,避免性能的浪费。其中,M的取值可以根据需要监控的指令内容具体而定。在本实施例中,当所述第一处理单元62确定所述接收单元61接收到的指令信息与所述目标指令信息集合中的任一目标指令信息匹配,即接收到的短信指令与短信指令集M中的任一短信指令匹配一致时,确定所述指令信息满足所述第一预设条件。
其中,所述第一参数包括:时间点参数和时间间隔参数;
所述第二处理单元63,用于根据时间点和时间间隔建立坐标模型,基于所述坐标模型确定所述指令信息的样本值,所述样本值为(时间点参数,时间间隔参数);确定所述样本值与预设样本集合的中心点值之间的距离;当所述样本值与预设样本集合的中心点值之间的距离小于预设阈值时,确定所述第一参数满足所述第二预设条件;当所述样本值与预设样本集合的中心点值之间的距离大于预设阈值时,确定所述第一参数不满足所述第二预设条件。
所述第二处理单元63,还用于在所述接收单元61接收指令信息之前,依次接收M个指令信息,基于所述坐标模型并根据所述M个指令信息的时间点参数和时间间隔参数确定M个样本值;其中,M为正整数;确定所述M个样本值中每个样本值归属的样本集合;确定每个样本集合中的样本值数量与M的比例关系集合;当所述比例关系集合中任一比例关系P超过第一阈值时,确定所述比例关系P对应的样本集合为预设样本集合。
本实施例中,所述第二处理单元63,用于以第一个样本值作为第一样本集合的中心点值;依次确定当前样本值与已存在样本集合的中心点值的距离集合,获得所述距离集合中的最小距离以及所述最小距离对应的样本集合;确定所述最小距离小于第一预设距离时,确定所述当前样本值归属于所述样本集合。
具体的,所述当前样本值与任一样本集合的中心点值的距离满足如下表达式:
其中,(Ti,Di)为所述当前样本值,(Tc,Dc)为样本集合的中心点值;α为预设时间权重值;(1-α)为预设时间间隔权重值;
所述样本集合的中心点值满足如下表达式:
其中,N为所述样本集合中样本值的个数,且N小于M;sit为第i个样本值的时间点参数,sid为第i个样本的时间间隔参数;其中,i大于0且小于等于N。
具体的,所述第二处理单元63以时间点T为x轴,以时间间隔D为y轴建立二维坐标系。每次接收到所述目标指令信息集合内的指令信息后根据获得的第一参数确定所述指令信息的(T,D)值(即所述样本值),将所述样本值映射为所述二维坐标上的一点。如图4所示A点。这样可通过对多次接收到的相同的指令信息的记录,便可得到特定用户某一指令信息的发送行为特征,表现为所述二维坐标系上的点分布。
本实施例中所述第二处理单元63采用聚类算法对映射在上述二维坐标系中的样本值进行统计分析,按照特定标准(本实施例中所述的距离标准)将多个样本值分为不同的样本集合。使得同一个样本集合中的样本值的相似性尽可能大,同时不在一个样本集合中的样本值的差异性尽可能大,以获得非人为发送的指令信息的接收规律,进而判断出某一次接收的指令信息是否是人为操作。在本实施例中,所述M个指令信息为某一客户端发送的属于所述目标指令信息集合中的指令信息,M个样本值组成了所述客户端的样本全集。在实际应用过程中,所述第二处理单元63采用聚类算法对映射在上述二维坐标系中的样本值进行统计分析过程具体可参照方法实施例中的步骤1至步骤8所述,这里不再赘述。
依据本实施例的另一优选实施例,所述第二处理单元63,还用于判断所述预设样本集合是否在有效期内,当判断的结果为所述预设样本集合在有效期内时,继续执行本发明实施例所述的技术方案;当判断的结果为所述预设样本集合不在有效期内时,重新获得样本值集合进而确定预设样本集合。
本领域技术人员应当理解,本发明实施例的信息识别装置中各处理单元的功能,可参照前述信息识别方法的相关描述而理解,本发明实施例的信息识别装置中各处理单元,可通过实现本发明实施例所述的功能的模拟电路而实现,也可以通过执行本发明实施例所述的功能的软件在智能终端上的运行而实现。
本实施例中,所述信息识别装置可应用于短信营业厅中,所述短信营业厅具体可以是通过短信指令处理业务的服务器;所述信息识别装置中的第一处理单元62、第二处理单元63和第一建立单元64在实际应用中,可由所述信息识别装置中的中央处理器(CPU,CentralProcessingUnit)、数字信号处理器(DSP,DigitalSignalProcessor)或可编程门阵列(FPGA,Field-ProgrammableGateArray)实现;所述信息识别装置中的接收单元61在实际应用中,可由所述信息是被装置中的收发器或收发天线实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (12)
1.一种信息识别方法,其特征在于,所述方法包括:
接收指令信息,确定所述指令信息满足第一预设条件时,获取所述指令信息的第一参数;所述第一参数用于表征所述指令信息的时间属性;
判断所述第一参数是否满足第二预设条件,获得第二判断结果;
当所述第二判断结果为所述第一参数满足第二预设条件时,确定接收到的指令信息为非人为发送的指令信息;
当所述第二判断结果为所述第一参数不满足第二预设条件时,确定接收到的指令信息为人为发送的指令信息。
2.根据权利要求1所述的方法,其特征在于,所述接收指令信息之前,所述方法还包括:建立目标指令信息集合;
相应的,所述确定所述指令信息满足第一预设条件,包括:
当所述指令信息与所述目标指令信息集合中任一目标指令信息匹配一致时,确定所述指令信息满足第一预设条件。
3.根据权利要求1所述的方法,其特征在于,所述第一参数包括:时间点参数和时间间隔参数;
所述判断所述第一参数是否满足第二预设条件,包括:
根据时间点和时间间隔建立坐标模型,基于所述坐标模型确定所述指令信息的样本值,所述样本值为(时间点参数,时间间隔参数);
确定所述样本值与预设样本集合的中心点值之间的距离;当所述样本值与预设样本集合的中心点值之间的距离小于预设阈值时,确定所述第一参数满足所述第二预设条件;
当所述样本值与预设样本集合的中心点值之间的距离大于预设阈值时,确定所述第一参数不满足所述第二预设条件。
4.根据权利要求3所述的方法,其特征在于,所述接收指令信息之前,所述方法还包括:
依次接收M个指令信息,基于所述坐标模型并根据所述M个指令信息的时间点参数和时间间隔参数确定M个样本值;其中,所述M个指令信息为任一客户端发送的属于所述目标指令信息集合中的指令信息;M为正整数;
确定所述M个样本值中每个样本值归属的样本集合;
确定每个样本集合中的样本值数量与M的比例关系集合;
当所述比例关系集合中任一比例关系P超过第一阈值时,确定所述比例关系P对应的样本集合为预设样本集合。
5.根据权利要求4所述的方法,其特征在于,所述确定所述M个样本值中每个样本值归属的样本集合,包括:
以第一个样本值作为第一样本集合的中心点值;
依次确定当前样本值与已存在样本集合的中心点值的距离集合,获得所述距离集合中的最小距离以及所述最小距离对应的样本集合;
确定所述最小距离小于第一预设距离时,确定所述当前样本值归属于所述样本集合。
6.根据权利要求5所述的方法,其特征在于,所述当前样本值与任一样本集合的中心点值的距离满足如下表达式:
其中,(Ti,Di)为所述当前样本值,(Tc,Dc)为样本集合的中心点值;α为预设时间权重值;(1-α)为预设时间间隔权重值;
所述样本集合的中心点值满足如下表达式:
其中,N为所述样本集合中样本值的个数,且N小于M;sit为第i个样本值的时间点参数,sid为第i个样本的时间间隔参数;其中,i大于0且小于等于N。
7.一种信息识别装置,其特征在于,所述装置包括:接收单元、第一处理单元和第二处理单元;其中,
所述接收单元,用于接收指令信息;
所述第一处理单元,用于所述确定所述接收单元接收的所述指令信息满足第一预设条件时,获取所述指令信息的第一参数;所述第一参数用于表征所述指令信息的时间属性;
所述第二处理单元,用于判断所述第一处理单元获取的所述第一参数是否满足第二预设条件,获得第二判断结果;当所述第二判断结果为所述第一参数满足第二预设条件时,确定接收到的指令信息为非人为发送的指令信息;当所述第二判断结果为所述第一参数不满足第二预设条件时,确定接收到的指令信息为人为发送的指令信息。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括第一建立单元,用于建立目标指令信息集合;
所述第一处理单元,用于当所述接收单元接收的所述指令信息与所述目标指令信息集合中任一目标指令信息匹配一致时,确定所述指令信息满足第一预设条件。
9.根据权利要求7所述的装置,其特征在于,所述第一参数包括:时间点参数和时间间隔参数;
所述第二处理单元,用于根据时间点和时间间隔建立坐标模型,基于所述坐标模型确定所述指令信息的样本值,所述样本值为(时间点参数,时间间隔参数);确定所述样本值与预设样本集合的中心点值之间的距离;当所述样本值与预设样本集合的中心点值之间的距离小于预设阈值时,确定所述第一参数满足所述第二预设条件;当所述样本值与预设样本集合的中心点值之间的距离大于预设阈值时,确定所述第一参数不满足所述第二预设条件。
10.根据权利要求9所述的装置,其特征在于,所述第二处理单元,还用于在所述接收单元接收指令信息之前,依次接收M个指令信息,基于所述坐标模型并根据所述M个指令信息的时间点参数和时间间隔参数确定M个样本值;其中,M为正整数;确定所述M个样本值中每个样本值归属的样本集合;确定每个样本集合中的样本值数量与M的比例关系集合;当所述比例关系集合中任一比例关系P超过第一阈值时,确定所述比例关系P对应的样本集合为预设样本集合。
11.根据权利要求10所述的装置,其特征在于,所述第二处理单元,用于以第一个样本值作为第一样本集合的中心点值;依次确定当前样本值与已存在样本集合的中心点值的距离集合,获得所述距离集合中的最小距离以及所述最小距离对应的样本集合;确定所述最小距离小于第一预设距离时,确定所述当前样本值归属于所述样本集合。
12.根据权利要求11所述的装置,其特征在于,所述当前样本值与任一样本集合的中心点值的距离满足如下表达式:
其中,(Ti,Di)为所述当前样本值,(Tc,Dc)为样本集合的中心点值;α为预设时间权重值;(1-α)为预设时间间隔权重值;
所述样本集合的中心点值满足如下表达式:
其中,N为所述样本集合中样本值的个数,且N小于M;sit为第i个样本值的时间点参数,sid为第i个样本的时间间隔参数;其中,i大于0且小于等于N。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410752048.8A CN105744493B (zh) | 2014-12-08 | 2014-12-08 | 一种信息识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410752048.8A CN105744493B (zh) | 2014-12-08 | 2014-12-08 | 一种信息识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105744493A true CN105744493A (zh) | 2016-07-06 |
CN105744493B CN105744493B (zh) | 2019-09-10 |
Family
ID=56238406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410752048.8A Active CN105744493B (zh) | 2014-12-08 | 2014-12-08 | 一种信息识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105744493B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573266A (zh) * | 2017-03-10 | 2018-09-25 | 中国移动通信集团河北有限公司 | 抽取共同特征的方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645802A (zh) * | 2008-08-04 | 2010-02-10 | 华为技术有限公司 | 内容控制方法及装置 |
CN101790142A (zh) * | 2010-03-11 | 2010-07-28 | 上海粱江通信系统股份有限公司 | 结合短信内容和发送频次识别垃圾短信源的系统与方法 |
CN101909261A (zh) * | 2010-08-10 | 2010-12-08 | 中兴通讯股份有限公司 | 一种垃圾短信监控的方法和系统 |
CN102572744A (zh) * | 2010-12-13 | 2012-07-11 | 中国移动通信集团设计院有限公司 | 识别特征库获取方法、装置及短消息识别方法、装置 |
CN103581844A (zh) * | 2012-07-26 | 2014-02-12 | 中兴通讯股份有限公司 | 一种信息下发控制方法、装置及系统 |
CN103888919A (zh) * | 2012-12-19 | 2014-06-25 | 中兴通讯股份有限公司 | 短消息监控方法及装置 |
-
2014
- 2014-12-08 CN CN201410752048.8A patent/CN105744493B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645802A (zh) * | 2008-08-04 | 2010-02-10 | 华为技术有限公司 | 内容控制方法及装置 |
CN101790142A (zh) * | 2010-03-11 | 2010-07-28 | 上海粱江通信系统股份有限公司 | 结合短信内容和发送频次识别垃圾短信源的系统与方法 |
CN101909261A (zh) * | 2010-08-10 | 2010-12-08 | 中兴通讯股份有限公司 | 一种垃圾短信监控的方法和系统 |
CN102572744A (zh) * | 2010-12-13 | 2012-07-11 | 中国移动通信集团设计院有限公司 | 识别特征库获取方法、装置及短消息识别方法、装置 |
CN103581844A (zh) * | 2012-07-26 | 2014-02-12 | 中兴通讯股份有限公司 | 一种信息下发控制方法、装置及系统 |
CN103888919A (zh) * | 2012-12-19 | 2014-06-25 | 中兴通讯股份有限公司 | 短消息监控方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573266A (zh) * | 2017-03-10 | 2018-09-25 | 中国移动通信集团河北有限公司 | 抽取共同特征的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105744493B (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107547633B (zh) | 一种用户常驻点的处理方法、装置和存储介质 | |
CN106649831B (zh) | 一种数据过滤方法及装置 | |
CN108280115B (zh) | 识别用户关系的方法及装置 | |
CN104917739B (zh) | 虚假账号的识别方法及装置 | |
US20210049609A1 (en) | Transaction indicator monitoring methods, apparatuses, and devices | |
EP4020315A1 (en) | Method, apparatus and system for determining label | |
CN110347888B (zh) | 订单数据的处理方法、装置及存储介质 | |
CN112650743B (zh) | 一种漏斗数据分析方法、系统、电子设备及存储介质 | |
CN107748739B (zh) | 一种短信文本模版的提取方法及相关装置 | |
CN105550295A (zh) | 分类模型优化方法及装置 | |
CN111694923B (zh) | 基于名称映射的参数赋值方法、装置、计算机设备 | |
CN113537685A (zh) | 一种数据处理方法和装置 | |
CN112328688A (zh) | 数据存储方法、装置、计算机设备及存储介质 | |
CN106304085B (zh) | 信息处理方法及装置 | |
CN110677269B (zh) | 通信用户关系的确定方法、装置和计算机可读存储介质 | |
CN105744493B (zh) | 一种信息识别方法及装置 | |
CN103617298A (zh) | 一种数据连接方法和数据连接器 | |
CN106304084B (zh) | 信息处理方法及装置 | |
CN112288317A (zh) | 一种基于多源异构数据治理的工业大数据分析平台和方法 | |
CN107277095A (zh) | 会话分割方法及装置 | |
CN112231167A (zh) | 云资源监控方法、装置、设备及存储介质 | |
CN106815772A (zh) | 电力数据上报方法及装置 | |
CN110582091A (zh) | 定位无线质量问题的方法和装置 | |
CN108510298A (zh) | 目标用户的识别方法及装置 | |
CN104079627B (zh) | 发送展示信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |