CN106650783A - 用于移动终端数据分类、生成、匹配的方法、装置及系统 - Google Patents
用于移动终端数据分类、生成、匹配的方法、装置及系统 Download PDFInfo
- Publication number
- CN106650783A CN106650783A CN201610962013.6A CN201610962013A CN106650783A CN 106650783 A CN106650783 A CN 106650783A CN 201610962013 A CN201610962013 A CN 201610962013A CN 106650783 A CN106650783 A CN 106650783A
- Authority
- CN
- China
- Prior art keywords
- message
- data message
- data
- keyword
- mobile terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本申请公开了一种用于移动终端数据分类的方法、装置、一种用于移动终端数据匹配的方法、装置、一种用于移动终端数据生成的方法、装置以及一种用于移动终端数据匹配的系统。一般意义上市场包括需求和供给,本申请通过移动互联网及数字及信息智能化系统对市场供需进行连接和实现交易,其中用于移动终端数据分类的方法包括:接收待分类的数据信息;从待分类的数据信息中的属性标识提取关键字信息;根据关键字信息和预设的多层级分类模型对待分类的数据信息进行分类。采用上述方法,能够解决根据信息属性进行分类时由于具有多个关键字,对每一单个关键字进行分类容易出现误差,且关键字之间缺少联系,使信息的分类不准确针对性不强的问题。
Description
本申请要求于2015年10月30日提交中国专利局、申请号为201510728992.4、发明名称为“用于移动终端数据分类、生成、匹配的方法、装置及系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及移动终端数据处理技术领域,具体涉及一种用于移动终端数据分类的方法、一种用于移动终端数据匹配的方法、一种用于移动终端数据生成的方法以及一种用于移动终端数据匹配的系统;本申请同时涉及一种用于移动终端数据分类的装置、一种用于移动终端数据匹配的装置以及一种用于移动终端数据生成的装置。
背景技术
随着信息技术的发展和普及,多样化的信息充斥了整个互联网。为了使不计其数的信息在被搜索或使用时能够匹配到相关的信息资源,需要对多样化的信息进行分类。目前,对大部分信息的分类方案为:根据该信息的关键字得到与关键字对应的多个信息属性,根据信息属性进行分类。
然而由于每个信息的内容不一,且用户对信息的关键字概括能力有限,使在根据该信息的关键字得到与关键字对应的多个信息属性,根据信息属性进行分类时由于具有多个关键字,对每一单个关键字进行分类容易出现误差,关键字之间缺少联系,使信息的分类不准确针对性不强。
发明内容
本申请提供一种用于移动终端数据分类的方法、一种用于移动终端数据匹配的方法、一种用于移动终端数据生成的方法以及一种用于移动终端数据匹配的系统,以解决现有技术中的上述问题。本申请同时涉及一种用于移动终端数据分类的装置、一种用于移动终端数据匹配的装置以及一种用于移动终端数据生成的装置。
本申请提供了一种用于移动终端数据分类的方法,所述用于移动终端数据分类的方法包括:
接收待分类的数据信息;所述待分类的数据信息包括:数据信息的属性标识;
从所述待分类的数据信息中的属性标识提取关键字信息;
根据所述关键字信息和预设的多层级分类模型对所述待分类的数据信息进行分类。
可选的,所述从所述待分类的数据信息中的属性标识提取关键字信息,包括:
对所述待分类的数据信息中的属性标识进行预处理,使所述待分类的数据信息中的属性标识呈现标准化状态;
采用模糊匹配方法识别所述待分类的数据信息中的属性标识中的关键字信息,并提取出至少一个与预设的关键字列表中相同的关键字信息。
可选的,所述预设的多层级分类模型是,按照多维度进行分类的具有多层级的类别描述的分类模型,所述预设的多层级分类模型的各层级具有从高层级到低层级的层级关系。
可选的,所述根据所述关键字信息和预设的多层级分类模型对所述待分类的数据信息进行分类,包括:
逐层读取所述预设的多层级分类模型中的类别描述;
逐层判断预处理后的至少一个关键字信息中是否存在与该类别描述相符合的关键字信息;
若是,则从预处理后的至少一个关键字信息中提取出相应的关键字信息;
将提取出的关键字信息进行合并生成关键字特征集。
可选的,在所述将提取出的关键字信息进行合并生成关键字特征集的步骤之前,包括:
判断在所述预设的多层级分类模型的同层级中提取出的关键字信息的数目是否大于一;
若是,则计算在该同层级中提取出的关键字信息的权重值;
保留计算出的权重值数值最高的所述关键字信息。
可选的,所述待分类的数据信息,还包括:对该数据信息的文字描述。
可选的,所述计算在该同层级中提取出的关键字信息的权重值,包括:
判断所述关键字信息对应的所述预设的多层级分类模型中的类别描述的高层级或低层级的类别描述是否具有相符合的关键字信息;
若是,则读取所述对该数据信息的文字描述;
计算所述对该数据信息的文字描述中出现所述关键字信息的词频;
将所述关键字信息的词频作为该关键字信息的权重值。
可选的,所述将提取出的关键字信息进行合并生成关键字特征集,包括:
将提取出的关键字信息按照对应的类别描述在多层级分类模型中高层级到低层级的顺序进行排序,将排序后的所述关键字信息作为该数据信息的关键字特征集。
相应的,本申请还提供了一种用于移动终端数据分类的装置,所述用于移动终端数据分类的装置,包括:
数据信息接收单元,用于接收待分类的数据信息;所述待分类的数据信息包括:数据信息的属性标识;
关键字提取单元,用于从所述待分类的数据信息中的属性标识提取关键字信息;
分类单元,用于根据所述关键字信息和预设的多层级分类模型对所述待分类的数据信息进行分类。
此外,本申请还提供了一种用于移动终端数据匹配的方法,所述用于移动终端数据匹配的方法,包括:
使用上述权利要求1-8任意一项所述的用于移动终端数据分类的方法,对所述待分类的数据信息进行分类;
获取存储在服务器中的已分类的账户信息的关键字特征集,向关键字特征集与所述数据信息的关键字特征集相对应的账户信息发送所述数据信息。
可选的,所述关键字特征集,包括:
按照关键字信息对应的类别描述在多层级分类模型中高层级到低层级的顺序,排序后的关键字信息。
可选的,所述获取存储在服务器中的已分类的账户信息的关键字特征集,向关键字特征集与所述数据信息的关键字特征集相对应的账户信息发送所述数据信息,包括:
获取存储在服务器中的已分类的账户信息的关键字特征集;
将该数据信息的关键字特征集与已分类的账户信息的关键字特征集进行比对;
向关键字特征集与所述数据信息的关键字特征集完全相同的账户信息发送所述数据信息。
可选的,在所述向关键字特征集与所述数据信息的关键字特征集完全相同的账户信息发送所述数据信息的步骤之后,包括:
剔除该数据信息的关键字特征集最低层的关键字信息;
向关键字特征集与所述数据信息的剔除最低层的关键字信息后的关键字特征集完全相同的账户信息发送所述数据信息;
返回所述剔除该数据信息的关键字特征集最低层的关键字信息的步骤,直至剔除该数据信息的关键字特征集中的全部关键字信息。
可选的,在所述对所述待分类的数据信息进行分类的步骤中,还包括:
使用上述权利要求1-8任意一项所述的用于移动终端数据分类的方法,对所述待分类的账户信息进行分类;所述账户信息包括:账户信息的特征标识。
可选的,在所述对所述待分类的账户信息进行分类的步骤之后,还包括:
获取存储在服务器中的未被分配的数据信息的关键字特征集,向关键字特征集与所述账户信息的关键字特征集相对应的数据信息发送所述账户信息;所述关键字特征集包括:按照关键字信息对应的类别描述在多层级分类模型中高层级到低层级的顺序,排序后的关键字信息。
可选的,所述获取存储在服务器中的未被分配的数据信息的关键字特征集,向关键字特征集与所述账户信息的关键字特征集相对应的数据信息发送所述账户信息,包括:
获取存储在服务器中的未被分配的数据信息的关键字特征集;
将该账户信息的关键字特征集与未被分配的数据信息的关键字特征集进行比对;
向关键字特征集中包含账户信息的关键字特征集中的关键字的数据信息发送所述账户信息。
相应的,本申请还提供了一种用于移动终端数据匹配的装置,所述用于移动终端数据匹配的装置包括:
所述的用于移动终端数据分类的装置,以及数据信息匹配单元;
所述数据信息匹配单元,用于获取存储在服务器中的已分类的账户信息的关键字特征集,向关键字特征集与所述数据信息的关键字特征集相对应的账户信息发送所述数据信息。
此外,本申请还提供了一种用于移动终端数据生成的方法,所述用于移动终端数据生成的方法,包括:
接收输入的具有若干参数的属性标识;所述属性标识是描述数据信息需求的参数;
根据所述属性标识生成待分类的数据信息,并向服务器端发布所述待分类的数据信息。
可选的,在接收输入的具有若干参数的属性标识的步骤之后,还包括:
接收输入的描述数据信息的文字描述;
在所述根据所述属性标识生成待分类的数据信息,并向服务器端发布所述待分配的数据信息的步骤中,所述待分配的数据信息,携带对该数据信息的文字描述。
可选的,在所述根据所述属性标识生成待分类的数据信息,并向服务器端发布所述待分类的数据信息的步骤之后,包括:
接收所述服务器端发送的账户信息。
可选的,所述的用于移动终端数据生成的方法,还包括:
接收输入的具有若干参数的特征标识;所述特征标识是描述账户信息特征的参数;
根据所述特征标识生成待分类的账户信息,并向服务器端发送所述待分类的账户信息;
接收所述服务器端发送的数据信息。
相应的,本申请还提供了一种用于移动终端数据生成的装置,所述用于移动终端数据生成的装置包括:
属性标识接收单元,用于接收输入的具有若干参数的属性标识;所述属性标识是描述数据信息需求的参数;
数据信息发送单元,用于根据所述属性标识生成待分类的数据信息,并向服务器端发布所述待分配的数据信息。
此外,本申请还提供了一种用于移动终端数据匹配的系统,所述用于移动终端数据匹配的系统,包括:
根据上述所述的用于移动终端数据分类的装置;以及
根据上述所述的用于移动终端数据匹配的装置;以及
根据上述所述的用于移动终端数据生成的装置。
与现有技术相比,本申请具有以下优点:
本申请提供的一种用于移动终端数据分类的方法以及装置,通过接收待分类的数据信息;所述待分类的数据信息包括:数据信息的属性标识;从所述待分类的数据信息中的属性标识提取关键字信息;根据所述关键字信息和预设的多层级分类模型对所述待分类的数据信息进行分类。所述技术方案解决了根据信息属性进行分类时由于具有多个关键字,对每一单个关键字进行分类容易出现误差,且关键字之间缺少联系,使信息的分类不准确针对性不强的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1示出了根据本申请的实施例提供的用于移动终端数据分类的方法的流程图;
图2示出了根据本申请的实施例提供的从所述待分类的数据信息中的属性标识提取关键字信息的流程图;
图3示出了根据本申请的实施例提供的根据所述关键字信息和预设的多层级分类模型对所述待分类的数据信息进行分类的流程图;
图4示出了根据本申请的实施例提供的计算在该同层级中提取出的关键字信息的权重值的流程图;
图5示出了根据本申请的实施例提供的用于移动终端数据分类的装置的示意图;
图6示出了根据本申请的实施例提供的用于移动终端数据匹配的方法的流程图;
图7示出了根据本申请的实施例提供的获取存储在服务器中的已分类的账户信息的关键字特征集,向关键字特征集与所述数据信息的关键字特征集相对应的账户信息发送所述数据信息的流程图;
图8示出了根据本申请的实施例提供的向更多的账户信息推送所述数据信息的流程图;
图9示出了根据本申请的实施例提供的所述获取存储在服务器中的未被分配的数据信息的关键字特征集,向关键字特征集与所述账户信息的关键字特征集相对应的数据信息发送所述账户信息的流程图;
图10示出了根据本申请的实施例提供的用于移动终端数据匹配的装置的示意图;
图11示出了根据本申请的实施例提供的用于移动终端数据生成的方法的流程图;
图12示出了根据本申请的实施例提供的生成待分类的账户信息的流程图;
图13示出了根据本申请的实施例提供的用于移动终端数据生成的装置的示意图;
图14示出了根据本申请的实施例提供的用于移动终端数据匹配的系统的示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是,本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此,本申请不受下面公开的具体实施的限制。
本申请的实施例提供了一种用于移动终端数据分类的方法、一种用于移动终端数据匹配的方法、一种用于移动终端数据生成的方法以及一种用于移动终端数据匹配的系统;本申请同时涉及一种用于移动终端数据分类的装置、一种用于移动终端数据匹配的装置以及一种用于移动终端数据生成的装置。在下面的实施例中逐一进行详细说明。
目前,对大部分信息的分类方案为:根据该信息的关键字得到与关键字对应的多个信息属性,根据信息属性进行分类。然而由于每个信息的内容不一,且用户对信息的关键字概括能力有限,使在根据该信息的关键字得到与关键字对应的多个信息属性,根据信息属性进行分类时由于具有多个关键字,对每一单个关键字进行分类容易出现误差,关键字之间缺少联系,使信息的分类不准确针对性不强。针对这一问题,本申请的技术方案通过接收待分类的数据信息;所述待分类的数据信息包括:数据信息的属性标识;从所述待分类的数据信息中的属性标识提取关键字信息;根据所述关键字信息和预设的多层级分类模型对所述待分类的数据信息进行分类,从而实现了基于在大数据背景下对多关键词的数据信息进行准确分类的功能。
在详细描述本实施例的具体步骤之前,先对本技术方案的应用场景作简要说明。
一般意义上市场包括需求方和供给方,本申请通过移动互联网、数字及信息智能化系统对市场供需进行连接和实现交易。本申请的技术方案是针对智能化连接市场的供需平台下,需求方与供给方之间进行分类匹配的方法。其中,通过移动终端发布数据信息的是需求方,需求方通过向供需平台发送需求参数实现与供给方之间的连接;通过账户信息中的特征标识与数据信息进行匹配的是供给方。需要说明的是,在不同的场景之下,供给方也可以通过账户信息中的特征标识主动与需求方进行匹配进行连接,下面对本实施例作详细说明。
本申请的实施例提供了一种用于移动终端数据分类的方法。一般性的,所述用于移动终端数据分类的方法由服务器端完成,服务器端根据接收到的待分类的数据信息,通过预设的多层级分类模型对所述待分类的数据信息进行分类。所述用于移动终端数据分类的方法实施例如下:
请参考图1,其示出了根据本申请的实施例提供的用于移动终端数据分类的方法的流程图。
所述用于移动终端数据分类的方法包括:
步骤S101,接收待分类的数据信息;所述待分类的数据信息包括:数据信息的属性标识。
在本实施例中,所述待分类的数据信息是由发布该待分类的数据信息的移动终端生成,接收所述待分类的数据信息,可以采用如下方式实现:通过WIFI等近距离无线通讯方式与移动终端之间建立连接关系,或者通过移动互联网与移动终端之间建立连接关系。
需要说明的是,所述待分类的数据信息可以是互联网中订单数据,或者是互联网中预约服务的数据。可以理解的,接收到的待分类的数据信息中包括该数据信息的属性标识,所述属性标识是描述该数据信息需求的参数,在具体实施时,待分类的数据信息的属性标识可以是用户为该数据信息添加的用于描述该数据信息需求参数的标签或为该数据信息输入的关键字。
例如:待分类的数据信息是在互联网上购买手机的具体的订单,则该订单的属性标识为:手机、ios以及6s以及其他更具体的描述需要购买的手机的具体参数;或者待分类的数据信息是在互联网上预约服务的数据,则该预约的属性标识为:法律、婚姻以及咨询等。
步骤S103,从所述待分类的数据信息中的属性标识提取关键字信息。
本步骤对步骤S101中接收的待分类的数据信息中的属性标识进行识别,提取该待分类的数据信息中的关键字信息。
可以理解的,由于所述待分类的数据信息中的属性标识是用户为该数据信息添加的用于描述该数据信息需求参数的标签或为该数据信息输入的关键字,所以该属性标识通常为表述简洁,往往只表达出其大概意义,而不太注意规范性的短语,可能包括拼写错误或者缩写短语等,并且用户每次查询的关键字不一定只有一个词语,通常是包含了以空格分隔或条目分别的多个关键字,但关键字的内容离散且短,不能独立成文,所以在步骤S101中接收到的待分类的数据信息中的属性标识不够清晰和明确。
下面对步骤S103从所述待分类的数据信息中的属性标识提取关键字信息进行具体说明。所述从所述待分类的数据信息中的属性标识提取关键字信息,具体包括步骤S103-1至S103-2,下面结合图2作进一步说明。
请参考图2,其示出了根据本申请的实施例提供的从所述待分类的数据信息中的属性标识提取关键字信息的流程图。
步骤S103-1,对所述待分类的数据信息中的属性标识进行预处理,使所述待分类的数据信息中的属性标识呈现标准化状态。
在本实施例中,所述对所述待分类的数据信息中的属性标识进行预处理,使所述待分类的数据信息中的属性标识呈现标准化状态,可以采用如下方式实现:对所述待分类的数据信息中的属性标识进行数据清洗的预处理,对所述属性标识进行分词处理,删除所述属性标识中的停止词和无实际意义的虚词等,使得预处理后的所述属性标识呈现为标准化状态。例如:可以使用Lucene分词工具对所述待分类的数据信息中的属性标识执行预处理。
步骤S103-2,采用模糊匹配方法识别所述待分类的数据信息中的属性标识中的关键字信息,并提取出至少一个与预设的关键字列表中相同的关键字信息。
在本实施例中,所述预设的关键字列表是根据在互联网中或生活中常用的或使用频率高的词汇的列表。例如:买、预约、计算机、手机、打车等。
所述采用模糊匹配方法识别所述待分类的数据信息中的属性标识中的关键字信息,并提取出至少一个与预设的关键字列表中相同的关键字信息,可以采用如下方式实现:将预处理后呈现出的标准化状态的所述属性标识采用模糊匹配方法进行识别,将识别出的文字信息与预设的关键字列表进行比对,从识别出的文字信息中提取与预设的关键字列表中的关键字相同的文字信息,将所述文字信息作为所述待分类的数据信息的属性标识的关键字信息。
可以理解的,按照预设的关键字列表从所述待分类的数据信息的属性标识中,识别并提取至少一个关键字信息,是对所述待分类的数据信息的属性标识的筛选过程,删除部分信息含量低、不具有类别意义的属性标识,以便在减少关键字信息数量的同时,缩小所述属性标识的范围,增加对关键字的命中率。
模糊匹配方法是目前计算机查找信息用得最多的一种匹配方法,是利用部分参数查找到相关数据的方式。比如说按姓名查询,仅指定姓名的某个部分,如姓或名字中的某个字或它们的组合,都可以找出与之相关的数据。主要用来在已知信息少的情况下尽可能的找出所需要的数据。在编程中主要用到:变量、宏替换运算(函数)&、包涵运算$。例如:SELECT*FROM oneself WHERE name like'%',like是模糊查询的关键字,%是通配符,代表多个任意匹配,'%人民'就是搜索前半段是任意字符,结尾是人民的记录,类似的可以将%放在条件字段的任意位置。_是单个字符的统配符,可以匹配单个任意字符。
例如:待分类的数据信息是在互联网上购买手机的具体的订单,该订单的属性标识为:手机、ios以及6s以及其他更具体的描述需要购买的手机的具体参数,则在识别并提取的过程中提取出手机、ios等关键字信息;或者待分类的数据信息是在互联网上预约服务的数据,则该预约的属性标识为:法律、婚姻以及咨询等,则在识别并提取的过程中提取出法律、婚姻以及咨询等关键字信息。
可以理解的,所述采用模糊匹配方法识别所述待分类的数据信息中的属性标识中的关键字信息,并提取出至少一个与预设的关键字列表中相同的关键字信息的步骤,是判断所述待分类的数据信息的属性标识是否在预设的关键字列表中的过程,只要所述待分类的数据信息的属性标识在预设的关键字列表中出现,就将该属性标识提取出来作为关键字信息。
步骤S105,根据所述关键字信息和预设的多层级分类模型对所述待分类的数据信息进行分类。
在本实施例中,所述预设的多层级分类模型是指:按照多维度进行分类的具有多层级的类别描述的分类模型,所述预设的多层级分类模型的各层级具有从高层级到低层级的层级关系。
具体的,在本实施例中,所述预设的多层级分类模型是按照类型进行分类,其包括但不限于:电子、化工、机械工程、物理以及其它类。其中,每一分类中均预存储有每一分类中的关键字,例如:电子行业分类中预存储的分类关键字可以包括但不限于:计算机、个人电脑、电子设备、移动设备、平板电脑、通讯、对讲机、电子商务、平板电脑、手机。
可以理解的,所述预设的多层级分类模型是通过若干个评估函数来统计特征与类别之间的相互关系,再根据统计结果决定关键字的取舍。
需要说明的是,所述预设的多层级分类模型类似于树状图,以电子、化工、机械工程、物理以及其它类型的节点作为所述多层级分类模型的顶点,即:最高层级,在所述多层级分类模型中对每个节点的描述称为类别描述,每个节点下又可以划分出多个节点,但是从顶点开始向下划分出的每个节点都属于同一类型。
例如:所述预设的多层级分类模型的最高层级的某个节点的类别描述为运输,则最高层级的下一层级(即:第二层级)的类别描述可以是空运、道路等,则类别描述为道路第二层级的下一层级(第三层级)的类别描述可以是火车或汽车等。
需要说明的是,所述预设的多层级分类模型在上述给出的例子仅仅是示意性的,在具体的实施中,最高层级的节点设置的数量以及低层级的节点数量会更多,并且节点的划分会更细致。
在本步骤S105中根据所述关键字信息和预设的多层级分类模型对所述待分类的数据信息进行分类,具体包括步骤S105-1至S105-4,下面结合图3作进一步说明。
请参考图3,其示出了根据本申请的实施例提供的根据所述关键字信息和预设的多层级分类模型对所述待分类的数据信息进行分类的流程图。
步骤S105-1,逐层读取所述预设的多层级分类模型中的类别描述。
在本实施例中,所述逐层读取所述预设的多层级分类模型中的类别描述,可以采用如下方式实现:先读取多层级分类模型中第一层级的所有类别描述,再读取多层级分类模型中第二层级的所有类别描述,直至将多层级分类模型中每一层级的类别描述读取完。
例如:在多层级分类模型中第一层级中,读取到化学,运输,法律,电子等。
步骤S105-2,逐层判断预处理后的至少一个关键字信息中是否存在与该类别描述相符合的关键字信息。
在本实施例中,所述逐层判断预处理后的至少一个关键字信息中是否存在与该类别描述相符合的关键字信息,可以采用如下方式实现:将在步骤S105-1中读取出的多层级分类模型中每一层级的类别描述,一层一层的与在步骤S103中提取出的关键字信息进行比对,判断提取出的关键字信息中是否存在与该层中的类别描述相符合的关键字信息。
步骤S105-3,若是,则从预处理后的至少一个关键字信息中提取出相应的关键字信息。
本步骤接收步骤S105-2中的判断结果,从预处理后的至少一个关键字信息中提取出相应的关键字信息,并将相应的关键词对应在与该关键词信息相符合的对应层级的类别描述的层级位置上。
为了消除同关键字不同类型的关键字信息的二义性带来的误差,本实施例的技术方案提供了一种优选实施方式,在优选方式下,在步骤S105-4所述将提取出的关键字信息进行合并生成关键字特征集之前,包括如下步骤:
判断在所述预设的多层级分类模型的同层级中提取出的关键字信息的数目是否大于一;
若是,则计算在该同层级中提取出的关键字信息的权重值;
保留计算出的权重值数值最高的所述关键字信息。
例如:预处理后的至少一个关键字信息中包括:苹果,由于在所述预设的多层级分类模型中关键词苹果具有二义性,对应的类别描述的顶点类型可以是农业类型,也可以是电子类型。
需要说明的是,在计算在该同层级中提取出的关键字信息的权重值时,还需要读取所述待分类的数据信息中的对该数据信息的文字描述。可以理解的,所述数据信息的文字描述是用户在移动终端中发布所述数据信息时添加的用来说明该数据信息需求的描述。
在具体实施时,所述计算在该同层级中提取出的关键字信息的权重值,具体包括步骤S105-3-1至S105-3-4,下面结合图4作进一步说明。
请参考图4,其示出了根据本申请的实施例提供的计算在该同层级中提取出的关键字信息的权重值的流程图。
S105-3-1,判断所述关键字信息对应的所述预设的多层级分类模型中的类别描述的高层级或低层级的类别描述是否具有相符合的关键字信息。
在本实施例中,所述判断所述关键字信息对应的所述预设的多层级分类模型中的类别描述的高层级或低层级的类别描述是否具有相符合的关键字信息,可以采用如下方式实现:获取所述关键字信息对应的所述预设的多层级分类模型中的类别描述的位置,读取该类别描述的上一层或下一层层级的类别描述,判断该类别描述的上一层或下一层层级的类别描述是否对应从预处理后提取出的关键字信息。
例如:关键字苹果在农业类型中的上一层级的类别描述为水果;关键字苹果在电子类型中的上一层级的类别描述为手机,则判断类别描述水果对应的关键字信息“水果”是否在从预处理后提取出的关键字信息中,若不在则说明在农业类型中“水果”类别描述为误差值。
S105-3-2,若是,则读取所述对该数据信息的文字描述。
所述数据信息的文字描述是用户在移动终端中发布所述数据信息时添加的用来说明该数据信息需求的描述。
S105-3-3,计算所述对该数据信息的文字描述中出现所述关键字信息的词频。
在本实施例中,所述计算所述对该数据信息的文字描述中出现所述关键字信息的词频,可以采用如下方式实现:扫描所述数据信息的文字描述,获取每个在所述预设的多层级分类模型的同层级中提取出的关键字信息在所述数据信息的文字描述中出现的次数。
例如:在所述预设的多层级分类模型的同层级中提取出的关键字信息为三星和苹果,则获取所述数据信息的文字描述中出现关键词三星的次数以及获取出现关键词苹果的次数。
S105-3-4,将所述关键字信息的词频作为该关键字信息的权重值。
在本实施例中,所述将所述关键字信息的词频作为该关键字信息的权重值,可以采用如下方式实现:获取每个在所述预设的多层级分类模型的同层级中提取出的关键字信息在所述数据信息的文字描述中出现的次数,将该关键字出现的次数作为该关键字信息的权重值。
步骤S105-4,将提取出的关键字信息进行合并生成关键字特征集。
在本实施例中,所述将提取出的关键字信息进行合并生成关键字特征集,可以采用如下方式实现:将提取出的关键字信息按照对应的类别描述在多层级分类模型中高层级到低层级的顺序进行排序,将排序后的所述关键字信息作为该数据信息的关键字特征集。
例如:提取出的关键字信息为苹果、手机、6s,则生成的关键字特征集为<手机,苹果,6s>。
在上述的实施例中,提供了一种用于移动终端数据分类的方法,与上述用于移动终端数据分类的方法相对应的,本申请还提供了一种用于移动终端数据分类的装置。由于装置的实施例基本相似于方法的实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。所述用于移动终端数据分类的装置实施例如下:
请参考图5,其示出了根据本申请的实施例提供的用于移动终端数据分类的装置的示意图。
所述用于移动终端数据分类的装置,包括:数据信息接收单元501、关键字提取单元503以及分类单元505;
所述数据信息接收单元501,用于接收待分类的数据信息;所述待分类的数据信息包括:数据信息的属性标识;
所述关键字提取单元503,用于从所述待分类的数据信息中的属性标识提取关键字信息;
所述分类单元505,用于根据所述关键字信息和预设的多层级分类模型对所述待分类的数据信息进行分类。
可选的,所述关键字提取单元503,包括:标准化子单元以及关键字提取子单元;
所述标准化子单元,用于对所述待分类的数据信息中的属性标识进行预处理,使所述待分类的数据信息中的属性标识呈现标准化状态;
所述关键字提取子单元,用于采用模糊匹配方法识别所述待分类的数据信息中的属性标识中的关键字信息,并提取出至少一个与预设的关键字列表中相同的关键字信息。
可选的,所述分类单元505,具体用于根据所述关键字信息和按照多维度进行分类的具有多层级的类别描述的分类模型,所述预设的多层级分类模型的各层级具有从高层级到低层级的层级关系对所述待分类的数据信息进行分类。
可选的,所述分类单元505,包括:类别描述读取子单元、关键字判断子单元、关键字提取子单元以及特征集生成子单元;
所述类别描述读取子单元,用于逐层读取所述预设的多层级分类模型中的类别描述;
所述关键字判断子单元,用于逐层判断预处理后的至少一个关键字信息中是否存在与该类别描述相符合的关键字信息;
所述关键字提取子单元,用于接收所述关键字判断子单元的判断结果,若是,则从预处理后的至少一个关键字信息中提取出相应的关键字信息;
所述特征集生成子单元,用于将提取出的关键字信息进行合并生成关键字特征集。
可选的,所述分类单元505,还包括:数目判断子单元、权重值计算子单元以及关键字保留子单元;
所述数目判断子单元,用于在所述将提取出的关键字信息进行合并生成关键字特征集之前,判断在所述预设的多层级分类模型的同层级中提取出的关键字信息的数目是否大于一;
所述权重值计算子单元,用于接收所述数目判断子单元的判断结果,若是,则计算在该同层级中提取出的关键字信息的权重值;
所述关键字保留子单元,用于保留计算出的权重值数值最高的所述关键字信息。
可选的,所述数据信息接收单元501,用于接收待分类的数据信息还包括:对该数据信息的文字描述。
可选的,所述权重值计算子单元,包括:上下层判断子单元、文字描述读取子单元、词频计算子单元以及权重值生成子单元;
所述上下层判断子单元,用于判断所述关键字信息对应的所述预设的多层级分类模型中的类别描述的高层级或低层级的类别描述是否具有相符合的关键字信息;
所述文字描述读取子单元,用于接收所述上下层判断子单元的判断结果,若是,则读取所述对该数据信息的文字描述;
所述词频计算子单元,用于计算所述对该数据信息的文字描述中出现所述关键字信息的词频;
所述权重值生成子单元,用于将所述关键字信息的词频作为该关键字信息的权重值。
可选的,所述特征集生成子单元,具体用于将提取出的关键字信息按照对应的类别描述在多层级分类模型中高层级到低层级的顺序进行排序,将排序后的所述关键字信息作为该数据信息的关键字特征集。
在上述的实施例中,提供了一种用于移动终端数据分类的方法以及一种用于移动终端数据分类的装置,此外,本申请还提供了一种用于移动终端数据匹配的方法;所述用于移动终端数据匹配的方法实施例如下:
请参考图6,其示出了根据本申请的实施例提供的用于移动终端数据匹配的方法的流程图。
所述用于移动终端数据匹配的方法,包括:
步骤S601,使用上述权利要求1-9任意一项所述的用于移动终端数据分类的方法,对所述待分类的数据信息进行分类。
在本实施例中,所述对所述待分类的数据信息进行分类是指:根据用于移动终端数据分类的方法生成所述待分类的数据信息的关键字特征集。
由于所述数据信息在匹配时是通过该数据信息的关键字特征集与账户信息的关键字特征集进行匹配,所以在所述对所述待分类的数据信息进行分类的步骤中,还需对账户信息进行分类,具体包括如下步骤:
使用上述权利要求1-9任意一项所述的用于移动终端数据分类的方法,对所述待分类的账户信息进行分类;所述账户信息包括:账户信息的特征标识。
在本实施例中,所述对所述待分类的账户信息进行分类是指:根据用于移动终端数据分类的方法生成所述待分类的账户信息的关键字特征集。
步骤S603,获取存储在服务器中的已分类的账户信息的关键字特征集,向关键字特征集与所述数据信息的关键字特征集相对应的账户信息发送所述数据信息。
在本实施例中,所述关键字特征集,包括:
按照关键字信息对应的类别描述在多层级分类模型中高层级到低层级的顺序,排序后的关键字信息。
在生成所述数据信息的关键字特征集之后,需要将所述数据信息推送给对应的账户信息,具体包括步骤S603-1至S603-3,下面结合图7作进一步说明。
请参考图7,其示出了根据本申请的实施例提供的获取存储在服务器中的已分类的账户信息的关键字特征集,向关键字特征集与所述数据信息的关键字特征集相对应的账户信息发送所述数据信息的流程图。
步骤S603-1,获取存储在服务器中的已分类的账户信息的关键字特征集。
在本实施例中,所述获取存储在服务器中的已分类的账户信息的关键字特征集,可以采用如下方式实现:查询存储在服务器的数据库中的已进行过分类的账户信息,获取所述已分类的账户信息的关键字特征集。
步骤S603-2,将该数据信息的关键字特征集与已分类的账户信息的关键字特征集进行比对。
所述将该数据信息的关键字特征集与已分类的账户信息的关键字特征集进行比对,可以采用如下方式实现:
比对所述数据信息生成的关键字特征集与已分类的账户信息的关键字特征集中的关键字信息的数量、关键字信息顺序以及关键字信息。
步骤S603-3,向关键字特征集与所述数据信息的关键字特征集完全相同的账户信息发送所述数据信息。
所述向关键字特征集与所述数据信息的关键字特征集完全相同的账户信息发送所述数据信息,可以采用如下方式实现:若所述数据信息生成的关键字特征集与已分类的账户信息的关键字特征集中的关键字信息的数量、关键字信息顺序以及关键字信息都相同,则向所述账户信息发送所述数据信息。
可以理解的,由于与同类型的类型描述对应的关键字信息越多,则说明对数据信息的分类越细,则关键字特征集与所述数据信息的关键字特征集相对应的账户信息与所述数据信息的匹配度就越高,但是为了向更多的账户信息推送所述数据信息,本实施例的技术方案提供了一种优选实施方式,在优选方式下,在所述向关键字特征集与所述数据信息的关键字特征集完全相同的账户信息发送所述数据信息的步骤之后,具体包括步骤S603-4至S603-6,下面结合图8作进一步说明。
请参考图8,其示出了根据本申请的实施例提供的向更多的账户信息推送所述数据信息的流程图。
步骤S603-4,剔除该数据信息的关键字特征集最低层的关键字信息。
在本实施例中,所述剔除该数据信息的关键字特征集最低层的关键字信息,可以采用如下方式实现:按照关键字信息对应的类别描述在多层级分类模型中高层级到低层级的顺序,剔除在该数据信息的关键字特征集中排在最后的关键字信息。
例如:所述数据信息的关键字特征集为<手机,苹果,6s>,则剔除关键字特征集中的关键字6s,生成所述数据信息的关键字特征集<手机,苹果>。
步骤S603-5,向关键字特征集与所述数据信息的剔除最低层的关键字信息后的关键字特征集完全相同的账户信息发送所述数据信息。
所述向关键字特征集与所述数据信息的剔除最低层的关键字信息后的关键字特征集完全相同的账户信息发送所述数据信息,可以采用如下方式实现:若剔除最低层的关键字信息后的关键字特征集与已分类的账户信息的关键字特征集中的关键字信息的数量、关键字信息顺序以及关键字信息都相同,则向所述账户信息发送所述数据信息。
步骤S603-6,返回所述剔除该数据信息的关键字特征集最低层的关键字信息的步骤,直至剔除该数据信息的关键字特征集中的全部关键字信息。
本步骤在步骤S603-5向关键字特征集与所述数据信息的剔除最低层的关键字信息后的关键字特征集完全相同的账户信息发送所述数据信息之后,返回步骤S603-4对所述数据信息再次进行剔除,直至剔除该数据信息的关键字特征集中的全部关键字信息。
由于所述数据信息只有在进行分类之后,才会向已分类的账户信息进行推送,若在此次推送时没有账户信息对该数据信息进行接单,则该数据信息就会处于违背分配的状态,为了防止数据信息的积压,在所述对所述待分类的账户信息进行分类的步骤之后,还包括:
获取存储在服务器中的未被分配的数据信息的关键字特征集,向关键字特征集与所述账户信息的关键字特征集相对应的数据信息发送所述账户信息;所述关键字特征集包括:按照关键字信息对应的类别描述在多层级分类模型中高层级到低层级的顺序,排序后的关键字信息。
所述获取存储在服务器中的未被分配的数据信息的关键字特征集,向关键字特征集与所述账户信息的关键字特征集相对应的数据信息发送所述账户信息,具体包括步骤S604至S606,下面结合图9作进一步说明。
请参考图9,其示出了根据本申请的实施例提供的所述获取存储在服务器中的未被分配的数据信息的关键字特征集,向关键字特征集与所述账户信息的关键字特征集相对应的数据信息发送所述账户信息的流程图。
步骤S604,获取存储在服务器中的未被分配的数据信息的关键字特征集。
在本实施例中,所述获取存储在服务器中的未被分配的数据信息的关键字特征集,可以采用如下方式实现:查询存储在服务器的数据库中的未被分配的账户信息,获取所述未被分配的数据信息的关键字特征集。
步骤S605,将该账户信息的关键字特征集与未被分配的数据信息的关键字特征集进行比对。
所述将该账户信息的关键字特征集与未被分配的数据信息的关键字特征集进行比对,可以采用如下方式实现:
比对所述账户信息生成的关键字特征集与未被分配的数据信息的关键字特征集中的关键字信息的数量、关键字信息顺序以及关键字信息。
步骤S606,向关键字特征集中包含账户信息的关键字特征集中的关键字的数据信息发送所述账户信息。
所述向关键字特征集中包含账户信息的关键字特征集中的关键字的数据信息发送所述账户信息,可以采用如下方式实现:若所述数据信息生成的关键字特征集中,包含至少一个账户信息的关键字特征集中的关键字,则向所述数据信息发送所述账户信息。
在上述的实施例中,提供了一种用于移动终端数据匹配的方法,与上述用于移动终端数据匹配的方法相对应的,本申请还提供了一种用于移动终端数据匹配的装置。由于装置的实施例基本相似于方法的实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。所述用于移动终端数据匹配的装置实施例如下:
请参考图10,其示出了根据本申请的实施例提供的用于移动终端数据匹配的装置的示意图。
所述用于移动终端数据匹配的装置,包括:
所述的用于移动终端数据分类的装置,以及数据信息匹配单元1001;
所述数据信息匹配单元1001,用于获取存储在服务器中的已分类的账户信息的关键字特征集,向关键字特征集与所述数据信息的关键字特征集相对应的账户信息发送所述数据信息。
可选的,所述数据信息匹配单元1001中用于获取存储在服务器中的已分类的账户信息的关键字特征集,包括:
按照关键字信息对应的类别描述在多层级分类模型中高层级到低层级的顺序,排序后的关键字信息。
可选的,所述数据信息匹配单元1001,包括:已分类账户信息获取子单元、比对子单元以及数据信息发送子单元;
所述已分类账户信息获取子单元,用于获取存储在服务器中的已分类的账户信息的关键字特征集;
所述比对子单元,用于将该数据信息的关键字特征集与已分类的账户信息的关键字特征集进行比对;
所述数据信息发送子单元,用于向关键字特征集与所述数据信息的关键字特征集完全相同的账户信息发送所述数据信息。
可选的,所述数据信息匹配单元1001,还包括:关键字剔除子单元、剔除数据信息发送子单元以及循环子单元;
所述关键字剔除子单元,用于在所述向关键字特征集与所述数据信息的关键字特征集完全相同的账户信息发送所述数据信息之后,剔除该数据信息的关键字特征集最低层的关键字信息;
所述剔除数据信息发送子单元,用于向关键字特征集与所述数据信息的剔除最低层的关键字信息后的关键字特征集完全相同的账户信息发送所述数据信息;
所述循环子单元,用于返回所述剔除该数据信息的关键字特征集最低层的关键字信息的步骤,直至剔除该数据信息的关键字特征集中的全部关键字信息。
可选的,所述分类单元505,用于根据所述关键字信息和预设的多层级分类模型对所述待分类的账户信息进行分类;所述账户信息包括:账户信息的特征标识。
可选的,所述用于移动终端数据匹配的装置,还包括:未被分配数据信息获取单元;
所述未被分配数据信息获取单元,用于在所述对所述待分类的账户信息进行分类之后,获取存储在服务器中的未被分配的数据信息的关键字特征集,向关键字特征集与所述账户信息的关键字特征集相对应的数据信息发送所述账户信息;所述关键字特征集包括:按照关键字信息对应的类别描述在多层级分类模型中高层级到低层级的顺序,排序后的关键字信息。
可选的,所述未被分配数据信息获取单元,包括:关键字特征集获取子单元、特征集比对子单元以及账户信息发送子单元;
所述关键字特征集获取子单元,用于获取存储在服务器中的未被分配的数据信息的关键字特征集;
所述特征集比对子单元,用于将该账户信息的关键字特征集与未被分配的数据信息的关键字特征集进行比对;
所述账户信息发送子单元,用于向关键字特征集中包含账户信息的关键字特征集中的关键字的数据信息发送所述账户信息。
在上述的实施例中,提供了一种用于移动终端数据分类的方法、一种用于移动终端数据分类的装置、一种用于移动终端数据匹配的方法以及一种用于移动终端数据匹配的装置,此外,本申请还提供了一种用于移动终端数据生成的方法;所述用于移动终端数据生成的方法实施例如下:
请参考图11,其示出了根据本申请的实施例提供的用于移动终端数据生成的方法的流程图。
所述用于移动终端数据生成的方法,包括:
步骤S1101,用于接收输入的具有若干参数的属性标识;所述属性标识是描述数据信息需求的参数。
在本实施例中,所述接收输入的具有若干参数的属性标识,可以采用如下方式实现:选择在移动终端中显示的具体类目,并输入对该具体类目的参数。所述属性标识是描述该待分类的数据信息的需求的参数,所述输入对该具体类目的参数就是所述数据信息的属性描述,具体到本实施例中,就是在移动终端中输入描述该待分类的数据信息的标签。
例如:待分类的数据信息是在互联网上购买手机的具体的订单,则该订单中的第一个标签为手机,第二个标签为苹果,第三个标签为型号note以及向下的其他更具体的层级以更加具体的描述需要购买的手机的具体参数。
需要说明的是,除了输入具有若干参数的属性标识外,还可以在移动终端中输入描述数据信息的文字描述,所述数据信息的文字描述是用户在移动终端中发布所述数据信息时添加的用来说明该数据信息需求的描述。
此外,在移动终端中生成的数据除了数据信息,还包括:账户建立时输入的账户信息,具体包括步骤S1102-1至S1102-2,下面结合图12作进一步说明。
请参考图12,其示出了根据本申请的实施例提供的生成待分类的账户信息的流程图。
步骤S1102-1,接收输入的具有若干参数的特征标识;所述特征标识是描述账户信息特征的参数。
在本实施例中,所述接收输入的具有若干参数的特征标识,可以采用如下方式实现:选择在移动终端中显示的具体类目,并输入对该具体类目的参数。所述特征标识是描述该账户信息涉及的服务的参数,所述输入对该具体类目的参数就是所述数据信息的特征描述,具体到本实施例中,就是在移动终端中输入描述该待分类的账户信息的标签。
例如:待分类的账户信息是在互联网上出售手机的销售商,则该账户信息中的第一个标签为销售,第二个标签为手机,以及向下的其他更具体的层级以更加具体的描述该账户信息涉及的服务范围。
步骤S1102-2,根据所述特征标识生成待分类的账户信息,并向服务器端发送所述待分类的账户信息。
在向服务器端发布所述待分类的账户信息之后,由于所述待分类的账户信息在服务器端进行了分类,所以还需接收服务器端发送的基于分类后产生的关键字特征集匹配的数据信息。
步骤S1102-3,接收所述服务器端发送的数据信息。
步骤S1103,根据所述属性标识生成待分类的数据信息,并向服务器端发布所述待分类的数据信息。
在本实施例中,若在步骤S1101之后,还在移动终端中输入了描述数据信息的文字描述,则根据所述属性标识生成待分类的数据信息,并向服务器端发布所述待分类的数据信息时,所述待分类的数据信息,携带对该数据信息输入的文字描述。
在向服务器端发布所述待分类的数据信息之后,由于所述待分类的数据信息在服务器端进行了分类,所以还需接收服务器端发送的基于分类后产生的关键字特征集匹配的账户信息。
在上述的实施例中,提供了一种用于移动终端数据生成的方法,与上述用于移动终端数据生成的方法相对应的,本申请还提供了一种用于移动终端数据生成的装置。由于装置的实施例基本相似于方法的实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。所述用于移动终端数据生成的装置实施例如下:
请参考图13,其示出了根据本申请的实施例提供的用于移动终端数据生成的装置的示意图。
所述用于移动终端数据生成的装置,包括:属性标识接收单元1301以及数据信息发送单元1303;
所述属性标识接收单元1301,用于接收输入的具有若干参数的属性标识;所述属性标识是描述数据信息需求的参数;
所述数据信息发送单元1303,用于根据所述属性标识生成待分类的数据信息,并向服务器端发布所述待分配的数据信息。
可选的,所述用于移动终端数据生成的装置,还包括:文字描述输入单元;
所述文字描述输入单元,用于在接收输入的具有若干参数的属性标识之后,接收输入的描述数据信息的文字描述;
所述数据信息发送单元1303,用于根据所述属性标识生成待分类的数据信息,并向服务器端发布所述待分配的数据信息,所述待分配的数据信息,携带对该数据信息的文字描述。
可选的,所述用于移动终端数据生成的装置,还包括:账户信息接收单元;
所述账户信息接收单元,用于在所述根据所述属性标识生成待分类的数据信息,并向服务器端发布所述待分类的数据信息之后,接收所述服务器端发送的账户信息。
可选的,所述用于移动终端数据生成的装置,还包括:特征标识接收单元、账户信息发送单元以及数据信息接收单元;
所述特征标识接收单元,用于接收输入的具有若干参数的特征标识;所述特征标识是描述账户信息特征的参数;
所述账户信息发送单元,用于根据所述特征标识生成待分类的账户信息,并向服务器端发送所述待分类的账户信息;
所述数据信息接收单元,用于接收所述服务器端发送的数据信息。
所述数据信息接收单元,用于在所述根据所述特征标识生成待分类的账户信息,并向服务器端发送所述待分类的账户信息之后,接收所述服务器端发送的数据信息。
在上述的实施例中,提供了一种用于移动终端数据分类的方法、一种用于移动终端数据分类的装置、一种用于移动终端数据匹配的方法、一种用于移动终端数据匹配的装置、一种用于移动终端数据生成的方法以及一种用于移动终端数据生成的装置,此外,本申请还提供了一种用于移动终端数据匹配的系统;所述用于移动终端数据匹配的系统实施例如下:
请参考图14,其示出了根据本申请的实施例提供的用于移动终端数据匹配的系统的示意图。
所述用于移动终端数据匹配的系统,包括:用于移动终端数据分类的装置1401、用于移动终端数据匹配的装置1403以及用于移动终端数据生成的装置1405;
所述用于移动终端数据分类的装置1401,用于接收待分类的数据信息;所述待分类的数据信息包括:数据信息的属性标识,从所述待分类的数据信息中的属性标识提取关键字信息,根据所述关键字信息和预设的多层级分类模型对所述待分类的数据信息进行分类;
所述用于移动终端数据匹配的装置1403,用于使用上述权利要求1-9任意一项所述的用于移动终端数据分类的方法,对所述待分类的数据信息进行分类,获取存储在服务器中的已分类的账户信息的关键字特征集,向关键字特征集与所述数据信息的关键字特征集相对应的账户信息发送所述数据信息;
所述用于移动终端数据生成的装置1404,用于接收输入的具有若干参数的属性标识;所述属性标识是描述数据信息需求的参数,根据所述属性标识生成待分类的数据信息,并向服务器端发布所述待分类的数据信息。
所述用于移动终端数据分类的装置1401和所述用于移动终端数据匹配的装置1403可以布置于计算机上,但并不局限于这种设备,可以是能够实现上述用于移动终端数据匹配的方法和用于移动终端数据分类的方法的任何设备;所述用于移动终端数据生成的装置1405可以布置于移动终端上,但并不局限于这种设备,可以是能够实现上述用于移动终端数据生成的方法的任何设备。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
Claims (23)
1.一种用于移动终端数据分类的方法,其特征在于,包括:
接收待分类的数据信息;所述待分类的数据信息包括:数据信息的属性标识;
从所述待分类的数据信息中的属性标识提取关键字信息;
根据所述关键字信息和预设的多层级分类模型对所述待分类的数据信息进行分类。
2.根据权利要求1所述的用于移动终端数据分类的方法,其特征在于,所述从所述待分类的数据信息中的属性标识提取关键字信息,包括:
对所述待分类的数据信息中的属性标识进行预处理,使所述待分类的数据信息中的属性标识呈现标准化状态;
采用模糊匹配方法识别所述待分类的数据信息中的属性标识中的关键字信息,并提取出至少一个与预设的关键字列表中相同的关键字信息。
3.根据权利要求2所述的用于移动终端数据分类的方法,其特征在于,所述预设的多层级分类模型是,按照多维度进行分类的具有多层级的类别描述的分类模型,所述预设的多层级分类模型的各层级具有从高层级到低层级的层级关系。
4.根据权利要求3所述的用于移动终端数据分类的方法,其特征在于,所述根据所述关键字信息和预设的多层级分类模型对所述待分类的数据信息进行分类,包括:
逐层读取所述预设的多层级分类模型中的类别描述;
逐层判断预处理后的至少一个关键字信息中是否存在与该类别描述相符合的关键字信息;
若是,则从预处理后的至少一个关键字信息中提取出相应的关键字信息;
将提取出的关键字信息进行合并生成关键字特征集。
5.根据权利要求4所述的用于移动终端数据分类的方法,其特征在于,在所述将提取出的关键字信息进行合并生成关键字特征集的步骤之前,包括:
判断在所述预设的多层级分类模型的同层级中提取出的关键字信息的数目是否大于一;
若是,则计算在该同层级中提取出的关键字信息的权重值;
保留计算出的权重值数值最高的所述关键字信息。
6.根据权利要求5所述的用于移动终端数据分类的方法,其特征在于,所述待分类的数据信息,还包括:对该数据信息的文字描述。
7.根据权利要求6所述的用于移动终端数据分类的方法,其特征在于,所述计算在该同层级中提取出的关键字信息的权重值,包括:
判断所述关键字信息对应的所述预设的多层级分类模型中的类别描述的高层级或低层级的类别描述是否具有相符合的关键字信息;
若是,则读取所述对该数据信息的文字描述;
计算所述对该数据信息的文字描述中出现所述关键字信息的词频;
将所述关键字信息的词频作为该关键字信息的权重值。
8.根据权利要求4所述的用于移动终端数据分类的方法,其特征在于,所述将提取出的关键字信息进行合并生成关键字特征集,包括:
将提取出的关键字信息按照对应的类别描述在多层级分类模型中高层级到低层级的顺序进行排序,将排序后的所述关键字信息作为该数据信息的关键字特征集。
9.一种用于移动终端数据分类的装置,其特征在于,包括:
数据信息接收单元,用于接收待分类的数据信息;所述待分类的数据信息包括:数据信息的属性标识;
关键字提取单元,用于从所述待分类的数据信息中的属性标识提取关键字信息;
分类单元,用于根据所述关键字信息和预设的多层级分类模型对所述待分类的数据信息进行分类。
10.一种用于移动终端数据匹配的方法,其特征在于,包括:
使用上述权利要求1-8任意一项所述的用于移动终端数据分类的方法,对所述待分类的数据信息进行分类;
获取存储在服务器中的已分类的账户信息的关键字特征集,向关键字特征集与所述数据信息的关键字特征集相对应的账户信息发送所述数据信息。
11.根据权利要求书10所述的用于移动终端数据匹配的方法,其特征在于,所述关键字特征集,包括:
按照关键字信息对应的类别描述在多层级分类模型中高层级到低层级的顺序,排序后的关键字信息。
12.根据权利要求书11所述的用于移动终端数据匹配的方法,其特征在于,所述获取存储在服务器中的已分类的账户信息的关键字特征集,向关键字特征集与所述数据信息的关键字特征集相对应的账户信息发送所述数据信息,包括:
获取存储在服务器中的已分类的账户信息的关键字特征集;
将该数据信息的关键字特征集与已分类的账户信息的关键字特征集进行比对;
向关键字特征集与所述数据信息的关键字特征集完全相同的账户信息发送所述数据信息。
13.根据权利要求书12所述的用于移动终端数据匹配的方法,其特征在于,在所述向关键字特征集与所述数据信息的关键字特征集完全相同的账户信息发送所述数据信息的步骤之后,包括:
剔除该数据信息的关键字特征集最低层的关键字信息;
向关键字特征集与所述数据信息的剔除最低层的关键字信息后的关键字特征集完全相同的账户信息发送所述数据信息;
返回所述剔除该数据信息的关键字特征集最低层的关键字信息的步骤,直至剔除该数据信息的关键字特征集中的全部关键字信息。
14.根据权利要求书10所述的用于移动终端数据匹配的方法,其特征在于,在所述对所述待分类的数据信息进行分类的步骤中,还包括:
使用上述权利要求1-8任意一项所述的用于移动终端数据分类的方法,对所述待分类的账户信息进行分类;所述账户信息包括:账户信息的特征标识。
15.根据权利要求书14所述的用于移动终端数据匹配的方法,其特征在于,在所述对所述待分类的账户信息进行分类的步骤之后,还包括:
获取存储在服务器中的未被分配的数据信息的关键字特征集,向关键字特征集与所述账户信息的关键字特征集相对应的数据信息发送所述账户信息;所述关键字特征集包括:按照关键字信息对应的类别描述在多层级分类模型中高层级到低层级的顺序,排序后的关键字信息。
16.根据权利要求书15所述的用于移动终端数据匹配的方法,其特征在于,所述获取存储在服务器中的未被分配的数据信息的关键字特征集,向关键字特征集与所述账户信息的关键字特征集相对应的数据信息发送所述账户信息,包括:
获取存储在服务器中的未被分配的数据信息的关键字特征集;
将该账户信息的关键字特征集与未被分配的数据信息的关键字特征集进行比对;
向关键字特征集中包含账户信息的关键字特征集中的关键字的数据信息发送所述账户信息。
17.一种用于移动终端数据匹配的装置,其特征在于,包括:
所述的用于移动终端数据分类的装置,以及数据信息匹配单元;
所述数据信息匹配单元,用于获取存储在服务器中的已分类的账户信息的关键字特征集,向关键字特征集与所述数据信息的关键字特征集相对应的账户信息发送所述数据信息。
18.一种用于移动终端数据生成的方法,其特征在于,包括:
接收输入的具有若干参数的属性标识;所述属性标识是描述数据信息需求的参数;
根据所述属性标识生成待分类的数据信息,并向服务器端发布所述待分类的数据信息。
19.根据权利要求18所述的用于移动终端数据生成的方法,其特征在于,在接收输入的具有若干参数的属性标识的步骤之后,还包括:
接收输入的描述数据信息的文字描述;
在所述根据所述属性标识生成待分类的数据信息,并向服务器端发布所述待分配的数据信息的步骤中,所述待分配的数据信息,携带对该数据信息的文字描述。
20.根据权利要求19所述的用于移动终端数据生成的方法,其特征在于,在所述根据所述属性标识生成待分类的数据信息,并向服务器端发布所述待分类的数据信息的步骤之后,包括:
接收所述服务器端发送的账户信息。
21.根据权利要求18所述的用于移动终端数据生成的方法,其特征在于,还包括:
接收输入的具有若干参数的特征标识;所述特征标识是描述账户信息特征的参数;
根据所述特征标识生成待分类的账户信息,并向服务器端发送所述待分类的账户信息;
接收所述服务器端发送的数据信息。
22.一种用于移动终端数据生成的装置,其特征在于,包括:
属性标识接收单元,用于接收输入的具有若干参数的属性标识;所述属性标识是描述数据信息需求的参数;
数据信息发送单元,用于根据所述属性标识生成待分类的数据信息,并向服务器端发布所述待分配的数据信息。
23.一种用于移动终端数据匹配的系统,其特征在于,包括:
根据上述权利要求9所述的用于移动终端数据分类的装置;以及
根据上述权利要求17所述的用于移动终端数据匹配的装置;以及
根据上述权利要求22所述的用于移动终端数据生成的装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2015107289924 | 2015-10-30 | ||
CN201510728992 | 2015-10-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106650783A true CN106650783A (zh) | 2017-05-10 |
Family
ID=58821733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610962013.6A Withdrawn CN106650783A (zh) | 2015-10-30 | 2016-10-28 | 用于移动终端数据分类、生成、匹配的方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106650783A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609097A (zh) * | 2017-09-11 | 2018-01-19 | 首都医科大学附属北京天坛医院 | 一种数据整合分类方法 |
CN108710659A (zh) * | 2018-05-11 | 2018-10-26 | 维沃移动通信有限公司 | 一种信息分类方法和终端设备 |
CN109388705A (zh) * | 2017-08-07 | 2019-02-26 | 芋头科技(杭州)有限公司 | 一种文本意图分类方法 |
WO2019095768A1 (zh) * | 2017-11-15 | 2019-05-23 | 深圳壹账通智能科技有限公司 | 用户信息筛选方法、服务器及计算机可读存储介质 |
CN109993646A (zh) * | 2018-12-25 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 会计分录信息确定方法及装置、账务数据记录方法及装置 |
CN110019797A (zh) * | 2017-11-15 | 2019-07-16 | 公安部户政管理研究中心 | 数据分类方法及装置 |
CN110807148A (zh) * | 2019-10-08 | 2020-02-18 | 北京百度网讯科技有限公司 | 设备标识过滤方法、装置、电子设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007049282A2 (en) * | 2005-10-26 | 2007-05-03 | Cortica Ltd. | A computing device, a system and a method for parallel processing of data streams |
CN102426572A (zh) * | 2011-07-05 | 2012-04-25 | 百度在线网络技术(北京)有限公司 | 一种对业务词条进行分类的方法和设备 |
CN103646343A (zh) * | 2013-12-18 | 2014-03-19 | 世纪禾光科技发展(北京)有限责任公司 | 一种基于文本的商品分类处理方法及其系统 |
CN103778124A (zh) * | 2012-10-17 | 2014-05-07 | 北大方正集团有限公司 | 一种树形结构查询方法及装置 |
US20140185933A1 (en) * | 2012-12-28 | 2014-07-03 | Yibin TIAN | Document image compression method and its application in document authentication |
CN104063514A (zh) * | 2011-09-29 | 2014-09-24 | 北京奇虎科技有限公司 | 垂直搜索方法 |
CN104598647A (zh) * | 2015-02-16 | 2015-05-06 | 李剑 | 一种树图搜索和匹配物品的方法 |
CN104978328A (zh) * | 2014-04-03 | 2015-10-14 | 北京奇虎科技有限公司 | 一种获取层级分类器以及文本分类的方法及装置 |
-
2016
- 2016-10-28 CN CN201610962013.6A patent/CN106650783A/zh not_active Withdrawn
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007049282A2 (en) * | 2005-10-26 | 2007-05-03 | Cortica Ltd. | A computing device, a system and a method for parallel processing of data streams |
CN102426572A (zh) * | 2011-07-05 | 2012-04-25 | 百度在线网络技术(北京)有限公司 | 一种对业务词条进行分类的方法和设备 |
CN104063514A (zh) * | 2011-09-29 | 2014-09-24 | 北京奇虎科技有限公司 | 垂直搜索方法 |
CN103778124A (zh) * | 2012-10-17 | 2014-05-07 | 北大方正集团有限公司 | 一种树形结构查询方法及装置 |
US20140185933A1 (en) * | 2012-12-28 | 2014-07-03 | Yibin TIAN | Document image compression method and its application in document authentication |
CN103646343A (zh) * | 2013-12-18 | 2014-03-19 | 世纪禾光科技发展(北京)有限责任公司 | 一种基于文本的商品分类处理方法及其系统 |
CN104978328A (zh) * | 2014-04-03 | 2015-10-14 | 北京奇虎科技有限公司 | 一种获取层级分类器以及文本分类的方法及装置 |
CN104598647A (zh) * | 2015-02-16 | 2015-05-06 | 李剑 | 一种树图搜索和匹配物品的方法 |
Non-Patent Citations (1)
Title |
---|
李森: "层次化文本分类方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388705A (zh) * | 2017-08-07 | 2019-02-26 | 芋头科技(杭州)有限公司 | 一种文本意图分类方法 |
CN109388705B (zh) * | 2017-08-07 | 2020-05-19 | 芋头科技(杭州)有限公司 | 一种文本意图分类方法 |
CN107609097A (zh) * | 2017-09-11 | 2018-01-19 | 首都医科大学附属北京天坛医院 | 一种数据整合分类方法 |
CN107609097B (zh) * | 2017-09-11 | 2021-02-09 | 首都医科大学附属北京天坛医院 | 一种数据整合分类方法 |
WO2019095768A1 (zh) * | 2017-11-15 | 2019-05-23 | 深圳壹账通智能科技有限公司 | 用户信息筛选方法、服务器及计算机可读存储介质 |
CN110019797A (zh) * | 2017-11-15 | 2019-07-16 | 公安部户政管理研究中心 | 数据分类方法及装置 |
CN108710659A (zh) * | 2018-05-11 | 2018-10-26 | 维沃移动通信有限公司 | 一种信息分类方法和终端设备 |
CN109993646A (zh) * | 2018-12-25 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 会计分录信息确定方法及装置、账务数据记录方法及装置 |
CN109993646B (zh) * | 2018-12-25 | 2023-08-18 | 创新先进技术有限公司 | 会计分录信息确定方法及装置、账务数据记录方法及装置 |
CN110807148A (zh) * | 2019-10-08 | 2020-02-18 | 北京百度网讯科技有限公司 | 设备标识过滤方法、装置、电子设备和存储介质 |
CN110807148B (zh) * | 2019-10-08 | 2022-09-27 | 北京百度网讯科技有限公司 | 设备标识过滤方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106650783A (zh) | 用于移动终端数据分类、生成、匹配的方法、装置及系统 | |
US9449271B2 (en) | Classifying resources using a deep network | |
CN108021929B (zh) | 基于大数据的移动端电商用户画像建立与分析方法及系统 | |
US20180232443A1 (en) | Intelligent matching system with ontology-aided relation extraction | |
CN109815498A (zh) | 一种中文地址标准化方法、装置及电子设备 | |
CN104516910B (zh) | 在客户端服务器环境中推荐内容 | |
Ghahremanlou et al. | Geotagging twitter messages in crisis management | |
US20130054605A1 (en) | Data mapping acceleration | |
CN110598070B (zh) | 应用类型识别方法及装置、服务器及存储介质 | |
CN104750795A (zh) | 一种智能语义检索系统和方法 | |
TW201935292A (zh) | 投訴舉報類別的排序方法和裝置 | |
CN105787025A (zh) | 网络平台公共账号分类方法及装置 | |
US11741094B2 (en) | Method and system for identifying core product terms | |
US11288673B1 (en) | Online fraud detection using machine learning models | |
CN109284374A (zh) | 用于确定实体类别的方法、装置、设备以及计算机可读存储介质 | |
CN106844407A (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
CN107229614A (zh) | 用于分类数据的方法和装置 | |
CN116151967A (zh) | 一种基于交易知识图谱的欺诈团伙识别系统 | |
CN113268649A (zh) | 基于多元化数据融合的线索监测方法及系统 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
CN112650858A (zh) | 应急协助信息的获取方法、装置、计算机设备及介质 | |
Zheng et al. | Learning‐based topic detection using multiple features | |
CN116975267A (zh) | 一种信息处理方法、装置及计算机设备、介质、产品 | |
CN116881429A (zh) | 一种基于多租户的对话模型交互方法、装置及存储介质 | |
CN115952770B (zh) | 一种数据标准化的处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20170510 |