CN105528399A - 多源终端参数数据融合方法及装置 - Google Patents
多源终端参数数据融合方法及装置 Download PDFInfo
- Publication number
- CN105528399A CN105528399A CN201510868243.1A CN201510868243A CN105528399A CN 105528399 A CN105528399 A CN 105528399A CN 201510868243 A CN201510868243 A CN 201510868243A CN 105528399 A CN105528399 A CN 105528399A
- Authority
- CN
- China
- Prior art keywords
- mobile phone
- data source
- data item
- hardware parameter
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供一种多源终端参数数据融合方法及装置,其中方法包括:通过根据各个数据源中各个手机机型对应的硬件参数数据项,确定各个数据源中的相同手机机型,对比各个数据源中相同手机机型对应的硬件参数数据项,确定发生冲突的硬件参数数据项并抽取部分发生冲突的硬件参数数据项,将部分发生冲突的硬件参数数据项在各个数据源中的值与对应的准确值进行对比,确定各个数据源的错误率,进而确定各个数据源的可信度,根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合,得到手机静态参数数据库,从而提高手机静态参数数据库的准确度,使得用户能够参考硬件参数准确度较高的手机静态参数数据库去挑选到合适的智能手机。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种多源终端参数数据融合方法及装置。
背景技术
目前,随着现代社会的发展,智能手机已经成为人们的生活必备品,智能手机市场达到了空前的繁荣。目前,互联网上有很多公开的网站有智能手机终端的硬件参数的内容。例如,手机信息网、中关村在线、手机之家、各手机品牌官网、工信部设备认证中心以及GSMA协会等。但上述各数据源的智能手机终端硬件参数都是人工填写,容易存在参数数据跟实际情况不符的情况,导致上述各数据源的硬件参数数据的准确度参差不齐,智能手机用户难以选择到合适的数据源,进而难以根据数据源挑选到合适的智能手机。
发明内容
本发明提供一种多源终端参数数据融合方法及装置,用于解决现有技术中各数据源的硬件参数数据的准确度参差不齐,智能手机用户难以根据数据源挑选到合适的智能手机的问题。
本发明的第一个方面是提供一种多源终端参数数据融合方法,包括:
获取至少一个数据源,所述数据源中包括:至少一个手机机型,以及各手机机型对应的至少一个硬件参数数据项;
针对每个数据源,根据各手机机型对应的品牌数据项,对所述数据源中的手机机型进行分组,得到与各品牌对应的手机机型分组;
针对所述至少一个数据源中的第一数据源,获取所述第一数据源中与第一品牌对应的手机机型分组中各个第一手机机型对应的硬件参数数据项;将所述第一手机机型对应的硬件参数数据项与其他数据源中相同品牌对应的手机机型分组中各个手机机型对应的硬件参数数据项进行相似度匹配,将对应的相似度最大的机型确定为所述第一手机机型的相同手机机型;
针对所述第一数据源中的每个手机机型,将所述手机机型对应的硬件参数数据项分别与其他数据源中相同手机机型对应的硬件参数数据项进行比对,获取发生冲突的硬件参数数据项;
从发生冲突的硬件参数数据项中随机抽取预设数量的冲突数据项,根据所述冲突数据项对应的手机机型查询获取所述冲突数据项的准确值,将各个数据源中所述冲突数据项的值与所述冲突数据项的准确值进行比对,确定各个数据源的错误率,根据各个数据源的错误率确定各个数据源的可信度;
根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合,得到手机静态参数数据库。
进一步地,所述针对每个数据源,根据各手机机型对应的品牌数据项,对所述数据源中的手机机型进行分组,得到与各品牌对应的手机机型分组之前,还包括:
对所述至少一个数据源中各个硬件参数数据项的计量单位按照预设的计量单位进行统一换算。
进一步地,所述从发生冲突的硬件参数数据项中随机抽取预设数量的冲突数据项,根据所述冲突数据项对应的手机机型查询获取所述冲突数据项的准确值,将各个数据源中所述冲突数据项的值与所述冲突数据项的准确值进行比对,确定各个数据源的错误率,根据各个数据源的错误率确定各个数据源的可信度,包括:
从发生冲突的硬件参数数据项中随机抽取N/10个冲突数据项,其中N为发生冲突的硬件参数数据项的总数量;
根据所述冲突数据项对应的手机机型查询获取所述冲突数据项的准确值,将各个数据源中所述冲突数据项的值与所述冲突数据项的准确值进行比对,按照以下公式计算各个数据源的错误率;
数据源的错误率=M×10/N;其中,M为数据源中冲突数据项的值与准确值不同的冲突数据项的数量;
根据各个数据源的错误率确定各个数据源的可信度。
进一步地,根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合,得到手机静态参数数据库,包括:
将可信度最大的数据源作为手机静态参数数据库。
进一步地,根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合,得到手机静态参数数据库,包括:
针对发生冲突的硬件参数数据项,判断所述各个数据源中可信度大于预设可信度的第二数据源的数量是否大于1;
若所述第二数据源的数量大于1,则获取所述第二数据源中所述发生冲突的硬件参数数据项的值;
判断所述第二数据源中所述发生冲突的硬件参数数据项的值是否有L个相同;其中,1<L<K,其中K为第二数据源的总数量;
若所述第二数据源中所述发生冲突的硬件参数数据项的值有L个相同,则将发生冲突的硬件参数数据项的值相同的至少两个第三数据源的可信度进行求中值计算,将求中值计算得到的可信度以及其他第二数据源的可信度中的最大可信度对应的数据源中发生冲突的硬件参数数据项的值确定为手机静态参数数据库所述硬件参数数据项的值。
本发明中,通过根据各个数据源中各个手机机型对应的硬件参数数据项,确定各个数据源中的相同手机机型,对比各个数据源中相同手机机型对应的硬件参数数据项,确定发生冲突的硬件参数数据项,抽取各个数据源中的部分发生冲突的硬件参数数据项,将部分发生冲突的硬件参数数据项在各个数据源中的值与部分发生冲突的硬件参数数据项的准确值进行对比,确定各个数据源的错误率,进而确定各个数据源的可信度,根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合,得到手机静态参数数据库,从而提高手机静态参数数据库的准确度,使得用户能够参考硬件参数准确度较高的手机静态参数数据库去挑选到合适的智能手机。
本发明的第二个方面是提供一种多源终端参数数据融合装置,包括:
获取模块,用于获取至少一个数据源,所述数据源中包括:至少一个手机机型,以及各手机机型对应的至少一个硬件参数数据项;
分组模块,用于针对每个数据源,根据各手机机型对应的品牌数据项,对所述数据源中的手机机型进行分组,得到与各品牌对应的手机机型分组;
匹配模块,用于针对所述至少一个数据源中的第一数据源,获取所述第一数据源中与第一品牌对应的手机机型分组中各个第一手机机型对应的硬件参数数据项;将所述第一手机机型对应的硬件参数数据项与其他数据源中相同品牌对应的手机机型分组中各个手机机型对应的硬件参数数据项进行相似度匹配,将对应的相似度最大的机型确定为所述第一手机机型的相同手机机型;
获取模块,还用于针对所述第一数据源中的每个手机机型,将所述手机机型对应的硬件参数数据项分别与其他数据源中相同手机机型对应的硬件参数数据项进行比对,获取发生冲突的硬件参数数据项;
确定模块,用于从发生冲突的硬件参数数据项中随机抽取预设数量的冲突数据项,根据所述冲突数据项对应的手机机型查询获取所述冲突数据项的准确值,将各个数据源中所述冲突数据项的值与所述冲突数据项的准确值进行比对,确定各个数据源的错误率,根据各个数据源的错误率确定各个数据源的可信度;
融合模块,用于根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合,得到手机静态参数数据库。
进一步地,所述的装置还包括:统一模块;
所述统一模块,用于在所述分组模块针对每个数据源,根据各手机机型对应的品牌数据项,对所述数据源中的手机机型进行分组,得到与各品牌对应的手机机型分组之前,对所述至少一个数据源中各个硬件参数数据项的计量单位按照预设的计量单位进行统一换算。
进一步地,所述确定模块包括:抽取子模块、计算子模块和确定子模块;
所述抽取子模块,用于从发生冲突的硬件参数数据项中随机抽取N/10个冲突数据项,其中N为发生冲突的硬件参数数据项的总数量;
所述计算子模块,用于根据所述冲突数据项对应的手机机型查询获取所述冲突数据项的准确值,将各个数据源中所述冲突数据项的值与所述冲突数据项的准确值进行比对,按照以下公式计算各个数据源的错误率;
数据源的错误率=M×10/N;其中,M为数据源中冲突数据项的值与准确值不同的冲突数据项的数量;
所述确定子模块,用于根据各个数据源的错误率确定各个数据源的可信度。
进一步地,所述融合模块具体用于,将可信度最大的数据源作为手机静态参数数据库。
进一步地,所述融合模块具体用于,
针对发生冲突的硬件参数数据项,判断所述各个数据源中可信度大于预设可信度的第二数据源的数量是否大于1;
若所述第二数据源的数量大于1,则获取所述第二数据源中所述发生冲突的硬件参数数据项的值;
判断所述第二数据源中所述发生冲突的硬件参数数据项的值是否有L个相同;其中,1<L<K,其中K为第二数据源的总数量;
若所述第二数据源中所述发生冲突的硬件参数数据项的值有L个相同,则将发生冲突的硬件参数数据项的值相同的至少两个第三数据源的可信度进行求中值计算,将求中值计算得到的可信度以及其他第二数据源的可信度中的最大可信度对应的数据源中发生冲突的硬件参数数据项的值确定为手机静态参数数据库所述硬件参数数据项的值。
本发明中,通过根据各个数据源中各个手机机型对应的硬件参数数据项,确定各个数据源中的相同手机机型,对比各个数据源中相同手机机型对应的硬件参数数据项,确定发生冲突的硬件参数数据项,抽取各个数据源中的部分发生冲突的硬件参数数据项,将部分发生冲突的硬件参数数据项在各个数据源中的值与部分发生冲突的硬件参数数据项的准确值进行对比,确定各个数据源的错误率,进而确定各个数据源的可信度,根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合,得到手机静态参数数据库,从而提高手机静态参数数据库的准确度,使得用户能够参考硬件参数准确度较高的手机静态参数数据库去挑选到合适的智能手机。
附图说明
图1为本发明提供的多源终端参数数据融合方法一个实施例的流程图;
图2为本发明提供的多源终端参数数据融合方法又一个实施例的流程图;
图3为本发明提供的多源终端参数数据融合装置一个实施例的结构示意图;
图4为本发明提供的多源终端参数数据融合装置又一个实施例的结构示意图;
图5为本发明提供的多源终端参数数据融合装置又一个实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的多源终端参数数据融合方法一个实施例的流程图,如图1所示,包括:
101、获取至少一个数据源,数据源中包括:至少一个手机机型,以及各手机机型对应的至少一个硬件参数数据项。
本发明提供的多源终端参数数据融合方法的执行主体为多源终端参数数据融合装置,多源终端参数数据融合装置具体可以为执行多源终端参数数据融合方法的服务器或者其他设备等。此处的数据源可以由服务器通过爬虫、接口等方式从手机信息网、中关村在线网站、手机之家网站、各手机品牌管网、工信部设备认证中心、全球性的贸易协会(GlobalSystemforMobileCommunicationsassemblyGSM,GSMA)等网站等获取。
其中,手机机型为手机的型号,例如Iphone6、Iphone6S、Iphone6plus等等。硬件参数数据项包括:手机的机型定制种类、手机平台型号、内存大小、外形尺寸、主摄像头像素、电池容量等等,此处不做限定。手机的定制种类,例如移动定制、联通定制、电信定制或者公开版。手机平台型号例如高通、MTK等。
102、针对每个数据源,根据各手机机型对应的品牌数据项,对数据源中的手机机型进行分组,得到与各品牌对应的手机机型分组。
其中,手机机型对应的品牌数据项,例如苹果、小米、三星、华为等。例如,苹果品牌对应的手机机型分组中可以包括Iphone6、Iphone6S、Iphone6plus等机型。
进一步地,为了保证相似度匹配的准确性,以及为后期的数据融合提供便利,在步骤102之前,服务器还可以对至少一个数据源中各个硬件参数数据项的计量单位按照预设的计量单位进行统一换算。
103、针对至少一个数据源中的第一数据源,获取第一数据源中与第一品牌对应的手机机型分组中各个第一手机机型对应的硬件参数数据项;将第一手机机型对应的硬件参数数据项与其他数据源中相同品牌对应的手机机型分组中各个手机机型对应的硬件参数数据项进行相似度匹配,将对应的相似度最大的机型确定为第一手机机型的相同手机机型。
其中,第一数据源可以为至少一个数据源中的任意一个数据源。第一品牌可以为第一数据源中的任意一个品牌。
以硬件参数数据项包括:手机的机型定制种类、手机平台型号、内存大小、外形尺寸、主摄像头像素和电池容量6个参数,数据源的数量为3个为例进行说明,第1个数据源中与苹果品牌对应的分组为第一分组,第2个数据源中与苹果品牌对应的分组为第二分组,第3个数据源中与苹果品牌对应的分组为第三分组,针对第一分组中的每个机型,根据该机型对应的机型定制种类、平台型号、内存大小、外形尺寸、主摄像头像素、电池容量分别计算该机型与第二分组以及第三分组中各机型之间的相似度,将对应的相似度大于预设相似度,且对应的相似度最大的两个机型确定为相同机型。具体地,手机机型之间的相似度=a×(b+c+d+e+f)。a:在两个手机机型对应的机型定制种类相同时取1,不同时取x(0<x<1);b:在两个手机机型对应的手机平台型号相同时取0.2,不同时取0;c:在两个手机机型对应的内存大小相同时取0.2,不同时取0;d:在两个手机机型对应的外形尺寸相同时取0.2,不同时取0;e:在两个手机机型对应的主摄像头像素相同时取0.2,不同时取0;f:在两个手机机型对应的电池容量相同时取0.2,不同时取0。按照以上公式可以计算出不同数据源中两个机型之间的相似度。
104、针对第一数据源中的每个手机机型,将手机机型对应的硬件参数数据项分别与其他数据源中相同手机机型对应的硬件参数数据项进行比对,获取发生冲突的硬件参数数据项。
以硬件参数数据项包括:手机的机型定制种类、手机平台型号、内存大小、外形尺寸、主摄像头像素和电池容量6个参数,数据源的数量为3个,手机机型为Iphone6为例进行说明。步骤104具体可以为,针对3个数据源中任意一个数据源的Iphone6手机机型,将Iphone6手机机型对应的6个硬件参数数据项分别与其他两个数据源中Iphone6手机机型对应的6个硬件参数数据项进行比对,获取发生冲突的硬件参数数据项。
具体的比对过程是,将任意一个数据源中Iphone6手机机型对应的机型定制种类与其他两个数据源中Iphone6手机机型对应的机型定制种类进行比对,确定是否相同;将任意一个数据源中Iphone6手机机型对应的手机平台型号与其他两个数据源中Iphone6手机机型对应的手机平台型号进行比对,确定是否相同;将任意一个数据源中Iphone6手机机型对应的内存大小与其他两个数据源中Iphone6手机机型对应的内存大小进行比对,确定是否相同;将任意一个数据源中Iphone6手机机型对应的外形尺寸与其他两个数据源中Iphone6手机机型对应的外形尺寸进行比对,确定是否相同;将任意一个数据源中Iphone6手机机型对应的主摄像头像素与其他两个数据源中Iphone6手机机型对应的主摄像头像素进行比对,确定是否相同;将任意一个数据源中Iphone6手机机型对应的电池容量与其他两个数据源中Iphone6手机机型对应的电池容量进行比对,确定是否相同;将各个硬件参数数据项比对过程中的不同的数量进行统计,得到Iphone6手机机型对应的发生冲突的硬件参数数据项。进而服务器可以以类似的手段获取其他手机机型对应的发生冲突的硬件参数数据项,最后得到数据源中发生冲突的硬件参数数据项的总数量。
105、从发生冲突的硬件参数数据项中随机抽取预设数量的冲突数据项,根据冲突数据项对应的手机机型查询获取冲突数据项的准确值,将各个数据源中冲突数据项的值与冲突数据项的准确值进行比对,确定各个数据源的错误率,根据各个数据源的错误率确定各个数据源的可信度。
106、根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合,得到手机静态参数数据库。
其中,手机静态参数数据库中包括:至少一个手机机型,以及各手机机型对应的至少一个硬件参数数据项。
根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合的方法可以有两种。其中一种方法为将可信度最大的数据源作为手机静态参数数据库。
第二种方法为:针对发生冲突的硬件参数数据项,判断各个数据源中可信度大于预设可信度的第二数据源的数量是否大于1;若第二数据源的数量大于1,则获取第二数据源中发生冲突的硬件参数数据项的值;判断第二数据源中发生冲突的硬件参数数据项的值是否有L个相同;其中,1<L<K,其中K为第二数据源的总数量;若第二数据源中发生冲突的硬件参数数据项的值有L个相同,则将发生冲突的硬件参数数据项的值相同的至少两个第三数据源的可信度进行求中值计算,将求中值计算得到的可信度以及其他第二数据源的可信度中的最大可信度对应的数据源中发生冲突的硬件参数数据项的值确定为手机静态参数数据库硬件参数数据项的值。
其中,在第二种方法中,针对发生冲突的硬件参数数据项,若各个数据源中可信度大于预设可信度的第二数据源的数量小于等于1,则将该第二数据源中发生冲突的硬件参数数据项的值确定为手机静态参数数据库硬件参数数据项的值。
在第二种方法中,针对发生冲突的硬件参数数据项,若第二数据源中发生冲突的硬件参数数据项的值均相同,则将任意一个第二数据源中发生冲突的硬件参数数据项的值确定为手机静态参数数据库硬件参数数据项的值。
在第二种方法中,针对发生冲突的硬件参数数据项,若第二数据源中发生冲突的硬件参数数据项的值均不相同,则将任意一个第二数据源中发生冲突的硬件参数数据项的值确定为手机静态参数数据库硬件参数数据项的值,或者将第二数据源中发生冲突的硬件参数数据项的值进行求和并求中值后得到的值确定为手机静态参数数据库硬件参数数据项的值。
在第二种方法中,若第二数据源中发生冲突的硬件参数数据项的值有L个相同,则将发生冲突的硬件参数数据项的值相同的至少两个第三数据源的可信度进行求中值计算后,有2个以上可信度相同且最大,则将任意一个最大可信度对应的数据源中发生冲突的硬件参数数据项的值确定为手机静态参数数据库硬件参数数据项的值。
本实施例中,通过根据各个数据源中各个手机机型对应的硬件参数数据项,确定各个数据源中的相同手机机型,对比各个数据源中相同手机机型对应的硬件参数数据项,确定发生冲突的硬件参数数据项,抽取各个数据源中的部分发生冲突的硬件参数数据项,将部分发生冲突的硬件参数数据项在各个数据源中的值与部分发生冲突的硬件参数数据项的准确值进行对比,确定各个数据源的错误率,进而确定各个数据源的可信度,根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合,得到手机静态参数数据库,从而提高手机静态参数数据库的准确度,使得用户能够参考硬件参数准确度较高的手机静态参数数据库去挑选到合适的智能手机。
图2为本发明提供的自适应网络资源调整方法又一个实施例的流程图,如图2所示,在图1所示实施例的基础上,步骤105具体可以包括:
1051、从发生冲突的硬件参数数据项中随机抽取N/10个冲突数据项,其中N为发生冲突的硬件参数数据项的总数量。
1052、根据冲突数据项对应的手机机型查询获取冲突数据项的准确值,将各个数据源中冲突数据项的值与冲突数据项的准确值进行比对,按照以下公式计算各个数据源的错误率;数据源的错误率=M×10/N;其中,M为数据源中冲突数据项的值与准确值不同的冲突数据项的数量。
其中,根据冲突数据项对应的手机机型查询获取冲突数据项的准确值的过程可以为:根据冲突数据项对应的手机机型查询手机官网,例如苹果手机官网、小米手机官网等获取冲突数据项的准确值。
1053、根据各个数据源的错误率确定各个数据源的可信度。
其中,可信度可以等于1-错误率。
本实施例中,通过根据各个数据源中各个手机机型对应的硬件参数数据项,确定各个数据源中的相同手机机型,对比各个数据源中相同手机机型对应的硬件参数数据项,确定发生冲突的硬件参数数据项,从发生冲突的硬件参数数据项中随机抽取N/10个冲突数据项,其中N为发生冲突的硬件参数数据项的总数量,根据冲突数据项对应的手机机型查询获取冲突数据项的准确值,将各个数据源中冲突数据项的值与冲突数据项的准确值进行比对,按照以下公式计算各个数据源的错误率;数据源的错误率=M×10/N;其中,M为数据源中冲突数据项的值与准确值不同的冲突数据项的数量,进而确定各个数据源的可信度,根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合,得到手机静态参数数据库,从而提高手机静态参数数据库的准确度,使得用户能够参考硬件参数准确度较高的手机静态参数数据库去挑选到合适的智能手机。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图3为本发明提供的多源终端参数数据融合装置一个实施例的结构示意图,如图3所示,包括:
获取模块31,用于获取至少一个数据源,数据源中包括:至少一个手机机型,以及各手机机型对应的至少一个硬件参数数据项;
分组模块32,用于针对每个数据源,根据各手机机型对应的品牌数据项,对数据源中的手机机型进行分组,得到与各品牌对应的手机机型分组;
匹配模块33,用于针对至少一个数据源中的第一数据源,获取第一数据源中与第一品牌对应的手机机型分组中各个第一手机机型对应的硬件参数数据项;将第一手机机型对应的硬件参数数据项与其他数据源中相同品牌对应的手机机型分组中各个手机机型对应的硬件参数数据项进行相似度匹配,将对应的相似度最大的机型确定为第一手机机型的相同手机机型;
获取模块31,还用于针对第一数据源中的每个手机机型,将手机机型对应的硬件参数数据项分别与其他数据源中相同手机机型对应的硬件参数数据项进行比对,获取发生冲突的硬件参数数据项;
确定模块34,用于从发生冲突的硬件参数数据项中随机抽取预设数量的冲突数据项,根据冲突数据项对应的手机机型查询获取冲突数据项的准确值,将各个数据源中冲突数据项的值与冲突数据项的准确值进行比对,确定各个数据源的错误率,根据各个数据源的错误率确定各个数据源的可信度;
融合模块35,用于根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合,得到手机静态参数数据库。
本发明提供的多源终端参数数据融合装置具体可以为执行多源终端参数数据融合方法的服务器或者其他设备等。此处的数据源可以由服务器通过爬虫、接口等方式从手机信息网、中关村在线网站、手机之家网站、各手机品牌管网、工信部设备认证中心、全球性的贸易协会(GlobalSystemforMobileCommunicationsassemblyGSM,GSMA)等网站等获取。手机机型为手机的型号,例如Iphone6、Iphone6S、Iphone6plus等等。硬件参数数据项包括:手机的机型定制种类、手机平台型号、内存大小、外形尺寸、主摄像头像素、电池容量等等,此处不做限定。手机的定制种类,例如移动定制、联通定制、电信定制或者公开版。手机平台型号例如高通、MTK等。
以硬件参数数据项包括:手机的机型定制种类、手机平台型号、内存大小、外形尺寸、主摄像头像素和电池容量6个参数,数据源的数量为3个为例进行说明,第1个数据源中与苹果品牌对应的分组为第一分组,第2个数据源中与苹果品牌对应的分组为第二分组,第3个数据源中与苹果品牌对应的分组为第三分组,针对第一分组中的每个机型,根据该机型对应的机型定制种类、平台型号、内存大小、外形尺寸、主摄像头像素、电池容量分别计算该机型与第二分组以及第三分组中各机型之间的相似度,将对应的相似度大于预设相似度,且对应的相似度最大的两个机型确定为相同机型。具体地,手机机型之间的相似度=a×(b+c+d+e+f)。a:在两个手机机型对应的机型定制种类相同时取1,不同时取x(0<x<1);b:在两个手机机型对应的手机平台型号相同时取0.2,不同时取0;c:在两个手机机型对应的内存大小相同时取0.2,不同时取0;d:在两个手机机型对应的外形尺寸相同时取0.2,不同时取0;e:在两个手机机型对应的主摄像头像素相同时取0.2,不同时取0;f:在两个手机机型对应的电池容量相同时取0.2,不同时取0。按照以上公式可以计算出不同数据源中两个机型之间的相似度。
进一步地,结合参考图4,在图3所示实施例的基础上,所述的装置还可以包括:统一模块36;
统一模块,用于在分组模块针对每个数据源,根据各手机机型对应的品牌数据项,对数据源中的手机机型进行分组,得到与各品牌对应的手机机型分组之前,对至少一个数据源中各个硬件参数数据项的计量单位按照预设的计量单位进行统一换算。
进一步地,根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合的方法可以有两种。其中一种方法为将可信度最大的数据源作为手机静态参数数据库。
第二种方法为:针对发生冲突的硬件参数数据项,判断各个数据源中可信度大于预设可信度的第二数据源的数量是否大于1;若第二数据源的数量大于1,则获取第二数据源中发生冲突的硬件参数数据项的值;判断第二数据源中发生冲突的硬件参数数据项的值是否有L个相同;其中,1<L<K,其中K为第二数据源的总数量;若第二数据源中发生冲突的硬件参数数据项的值有L个相同,则将发生冲突的硬件参数数据项的值相同的至少两个第三数据源的可信度进行求中值计算,将求中值计算得到的可信度以及其他第二数据源的可信度中的最大可信度对应的数据源中发生冲突的硬件参数数据项的值确定为手机静态参数数据库硬件参数数据项的值。
其中,在第二种方法中,针对发生冲突的硬件参数数据项,若各个数据源中可信度大于预设可信度的第二数据源的数量小于等于1,则将该第二数据源中发生冲突的硬件参数数据项的值确定为手机静态参数数据库硬件参数数据项的值。
在第二种方法中,针对发生冲突的硬件参数数据项,若第二数据源中发生冲突的硬件参数数据项的值均相同,则将任意一个第二数据源中发生冲突的硬件参数数据项的值确定为手机静态参数数据库硬件参数数据项的值。
在第二种方法中,针对发生冲突的硬件参数数据项,若第二数据源中发生冲突的硬件参数数据项的值均不相同,则将任意一个第二数据源中发生冲突的硬件参数数据项的值确定为手机静态参数数据库硬件参数数据项的值,或者将第二数据源中发生冲突的硬件参数数据项的值进行求和并求中值后得到的值确定为手机静态参数数据库硬件参数数据项的值。
在第二种方法中,若第二数据源中发生冲突的硬件参数数据项的值有L个相同,则将发生冲突的硬件参数数据项的值相同的至少两个第三数据源的可信度进行求中值计算后,有2个以上可信度相同且最大,则将任意一个最大可信度对应的数据源中发生冲突的硬件参数数据项的值确定为手机静态参数数据库硬件参数数据项的值。
本实施例中,通过根据各个数据源中各个手机机型对应的硬件参数数据项,确定各个数据源中的相同手机机型,对比各个数据源中相同手机机型对应的硬件参数数据项,确定发生冲突的硬件参数数据项,抽取各个数据源中的部分发生冲突的硬件参数数据项,将部分发生冲突的硬件参数数据项在各个数据源中的值与部分发生冲突的硬件参数数据项的准确值进行对比,确定各个数据源的错误率,进而确定各个数据源的可信度,根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合,得到手机静态参数数据库,从而提高手机静态参数数据库的准确度,使得用户能够参考硬件参数准确度较高的手机静态参数数据库去挑选到合适的智能手机。
结合参考图5,在图3所示实施例的基础上,确定模块34可以包括:抽取子模块341、计算子模块342和确定子模块343;
抽取子模块341,用于从发生冲突的硬件参数数据项中随机抽取N/10个冲突数据项,其中N为发生冲突的硬件参数数据项的总数量;
计算子模块342,用于根据冲突数据项对应的手机机型查询获取冲突数据项的准确值,将各个数据源中冲突数据项的值与冲突数据项的准确值进行比对,按照以下公式计算各个数据源的错误率;
数据源的错误率=M×10/N;其中,M为数据源中冲突数据项的值与准确值不同的冲突数据项的数量;
确定子模块343,用于根据各个数据源的错误率确定各个数据源的可信度。
其中,计算子模块342根据冲突数据项对应的手机机型查询获取冲突数据项的准确值的过程可以为:根据冲突数据项对应的手机机型查询手机官网,例如苹果手机官网、小米手机官网等获取冲突数据项的准确值。可信度可以等于1-错误率。
本实施例中,通过根据各个数据源中各个手机机型对应的硬件参数数据项,确定各个数据源中的相同手机机型,对比各个数据源中相同手机机型对应的硬件参数数据项,确定发生冲突的硬件参数数据项,从发生冲突的硬件参数数据项中随机抽取N/10个冲突数据项,其中N为发生冲突的硬件参数数据项的总数量,根据冲突数据项对应的手机机型查询获取冲突数据项的准确值,将各个数据源中冲突数据项的值与冲突数据项的准确值进行比对,按照以下公式计算各个数据源的错误率;数据源的错误率=M×10/N;其中,M为数据源中冲突数据项的值与准确值不同的冲突数据项的数量,进而确定各个数据源的可信度,根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合,得到手机静态参数数据库,从而提高手机静态参数数据库的准确度,使得用户能够参考硬件参数准确度较高的手机静态参数数据库去挑选到合适的智能手机。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种多源终端参数数据融合方法,其特征在于,包括:
获取至少一个数据源,所述数据源中包括:至少一个手机机型,以及各手机机型对应的至少一个硬件参数数据项;
针对每个数据源,根据各手机机型对应的品牌数据项,对所述数据源中的手机机型进行分组,得到与各品牌对应的手机机型分组;
针对所述至少一个数据源中的第一数据源,获取所述第一数据源中与第一品牌对应的手机机型分组中各个第一手机机型对应的硬件参数数据项;将所述第一手机机型对应的硬件参数数据项与其他数据源中相同品牌对应的手机机型分组中各个手机机型对应的硬件参数数据项进行相似度匹配,将对应的相似度最大的机型确定为所述第一手机机型的相同手机机型;
针对所述第一数据源中的每个手机机型,将所述手机机型对应的硬件参数数据项分别与其他数据源中相同手机机型对应的硬件参数数据项进行比对,获取发生冲突的硬件参数数据项;
从发生冲突的硬件参数数据项中随机抽取预设数量的冲突数据项,根据所述冲突数据项对应的手机机型查询获取所述冲突数据项的准确值,将各个数据源中所述冲突数据项的值与所述冲突数据项的准确值进行比对,确定各个数据源的错误率,根据各个数据源的错误率确定各个数据源的可信度;
根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合,得到手机静态参数数据库。
2.根据权利要求1所述的方法,其特征在于,所述针对每个数据源,根据各手机机型对应的品牌数据项,对所述数据源中的手机机型进行分组,得到与各品牌对应的手机机型分组之前,还包括:
对所述至少一个数据源中各个硬件参数数据项的计量单位按照预设的计量单位进行统一换算。
3.根据权利要求1所述的方法,其特征在于,所述从发生冲突的硬件参数数据项中随机抽取预设数量的冲突数据项,根据所述冲突数据项对应的手机机型查询获取所述冲突数据项的准确值,将各个数据源中所述冲突数据项的值与所述冲突数据项的准确值进行比对,确定各个数据源的错误率,根据各个数据源的错误率确定各个数据源的可信度,包括:
从发生冲突的硬件参数数据项中随机抽取N/10个冲突数据项,其中N为发生冲突的硬件参数数据项的总数量;
根据所述冲突数据项对应的手机机型查询获取所述冲突数据项的准确值,将各个数据源中所述冲突数据项的值与所述冲突数据项的准确值进行比对,按照以下公式计算各个数据源的错误率;
数据源的错误率=M×10/N;其中,M为数据源中冲突数据项的值与准确值不同的冲突数据项的数量;
根据各个数据源的错误率确定各个数据源的可信度。
4.根据权利要求1所述的方法,其特征在于,根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合,得到手机静态参数数据库,包括:
将可信度最大的数据源作为手机静态参数数据库。
5.根据权利要求1所述的方法,其特征在于,根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合,得到手机静态参数数据库,包括:
针对发生冲突的硬件参数数据项,判断所述各个数据源中可信度大于预设可信度的第二数据源的数量是否大于1;
若所述第二数据源的数量大于1,则获取所述第二数据源中所述发生冲突的硬件参数数据项的值;
判断所述第二数据源中所述发生冲突的硬件参数数据项的值是否有L个相同;其中,1<L<K,其中K为第二数据源的总数量;
若所述第二数据源中所述发生冲突的硬件参数数据项的值有L个相同,则将发生冲突的硬件参数数据项的值相同的至少两个第三数据源的可信度进行求中值计算,将求中值计算得到的可信度以及其他第二数据源的可信度中的最大可信度对应的数据源中发生冲突的硬件参数数据项的值确定为手机静态参数数据库所述硬件参数数据项的值。
6.一种多源终端参数数据融合装置,其特征在于,包括:
获取模块,用于获取至少一个数据源,所述数据源中包括:至少一个手机机型,以及各手机机型对应的至少一个硬件参数数据项;
分组模块,用于针对每个数据源,根据各手机机型对应的品牌数据项,对所述数据源中的手机机型进行分组,得到与各品牌对应的手机机型分组;
匹配模块,用于针对所述至少一个数据源中的第一数据源,获取所述第一数据源中与第一品牌对应的手机机型分组中各个第一手机机型对应的硬件参数数据项;将所述第一手机机型对应的硬件参数数据项与其他数据源中相同品牌对应的手机机型分组中各个手机机型对应的硬件参数数据项进行相似度匹配,将对应的相似度最大的机型确定为所述第一手机机型的相同手机机型;
获取模块,还用于针对所述第一数据源中的每个手机机型,将所述手机机型对应的硬件参数数据项分别与其他数据源中相同手机机型对应的硬件参数数据项进行比对,获取发生冲突的硬件参数数据项;
确定模块,用于从发生冲突的硬件参数数据项中随机抽取预设数量的冲突数据项,根据所述冲突数据项对应的手机机型查询获取所述冲突数据项的准确值,将各个数据源中所述冲突数据项的值与所述冲突数据项的准确值进行比对,确定各个数据源的错误率,根据各个数据源的错误率确定各个数据源的可信度;
融合模块,用于根据各个数据源的可信度对各个数据源中相同手机机型对应的硬件参数数据项进行融合,得到手机静态参数数据库。
7.根据权利要求6所述的装置,其特征在于,还包括:统一模块;
所述统一模块,用于在所述分组模块针对每个数据源,根据各手机机型对应的品牌数据项,对所述数据源中的手机机型进行分组,得到与各品牌对应的手机机型分组之前,对所述至少一个数据源中各个硬件参数数据项的计量单位按照预设的计量单位进行统一换算。
8.根据权利要求6所述的装置,其特征在于,所述确定模块包括:抽取子模块、计算子模块和确定子模块;
所述抽取子模块,用于从发生冲突的硬件参数数据项中随机抽取N/10个冲突数据项,其中N为发生冲突的硬件参数数据项的总数量;
所述计算子模块,用于根据所述冲突数据项对应的手机机型查询获取所述冲突数据项的准确值,将各个数据源中所述冲突数据项的值与所述冲突数据项的准确值进行比对,按照以下公式计算各个数据源的错误率;
数据源的错误率=M×10/N;其中,M为数据源中冲突数据项的值与准确值不同的冲突数据项的数量;
所述确定子模块,用于根据各个数据源的错误率确定各个数据源的可信度。
9.根据权利要求6所述的装置,其特征在于,所述融合模块具体用于,将可信度最大的数据源作为手机静态参数数据库。
10.根据权利要求6所述的装置,其特征在于,所述融合模块具体用于,
针对发生冲突的硬件参数数据项,判断所述各个数据源中可信度大于预设可信度的第二数据源的数量是否大于1;
若所述第二数据源的数量大于1,则获取所述第二数据源中所述发生冲突的硬件参数数据项的值;
判断所述第二数据源中所述发生冲突的硬件参数数据项的值是否有L个相同;其中,1<L<K,其中K为第二数据源的总数量;
若所述第二数据源中所述发生冲突的硬件参数数据项的值有L个相同,则将发生冲突的硬件参数数据项的值相同的至少两个第三数据源的可信度进行求中值计算,将求中值计算得到的可信度以及其他第二数据源的可信度中的最大可信度对应的数据源中发生冲突的硬件参数数据项的值确定为手机静态参数数据库所述硬件参数数据项的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510868243.1A CN105528399B (zh) | 2015-12-01 | 2015-12-01 | 多源终端参数数据融合方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510868243.1A CN105528399B (zh) | 2015-12-01 | 2015-12-01 | 多源终端参数数据融合方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105528399A true CN105528399A (zh) | 2016-04-27 |
CN105528399B CN105528399B (zh) | 2019-02-15 |
Family
ID=55770622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510868243.1A Active CN105528399B (zh) | 2015-12-01 | 2015-12-01 | 多源终端参数数据融合方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105528399B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874962A (zh) * | 2017-03-13 | 2017-06-20 | 上海普适导航科技股份有限公司 | 多源卫星数据的融合方法及装置 |
CN110517083A (zh) * | 2019-08-27 | 2019-11-29 | 秒针信息技术有限公司 | 一种确定用户属性信息的方法及装置 |
CN110532254A (zh) * | 2018-05-25 | 2019-12-03 | 杭州海康威视数字技术股份有限公司 | 融合数据表的方法和装置 |
CN112035561A (zh) * | 2020-07-22 | 2020-12-04 | 大箴(杭州)科技有限公司 | 数据处理方法、装置、存储介质及计算机设备 |
CN116450634A (zh) * | 2023-06-15 | 2023-07-18 | 中新宽维传媒科技有限公司 | 一种数据源权重评估方法及其相关装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7298868B2 (en) * | 2002-10-08 | 2007-11-20 | Siemens Corporate Research, Inc. | Density estimation-based information fusion for multiple motion computation |
CN101216998A (zh) * | 2008-01-11 | 2008-07-09 | 浙江工业大学 | 基于模糊粗糙集的证据理论城市交通流信息融合方法 |
CN102819673A (zh) * | 2012-07-26 | 2012-12-12 | 中国农业科学院农田灌溉研究所 | 一种多源灌溉信息融合方法及装置 |
CN103838772A (zh) * | 2012-11-26 | 2014-06-04 | 香港生产力促进局 | 一种多源交通数据融合方法 |
CN104699818A (zh) * | 2015-03-25 | 2015-06-10 | 武汉大学 | 一种多源异构的多属性poi融合方法 |
-
2015
- 2015-12-01 CN CN201510868243.1A patent/CN105528399B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7298868B2 (en) * | 2002-10-08 | 2007-11-20 | Siemens Corporate Research, Inc. | Density estimation-based information fusion for multiple motion computation |
CN101216998A (zh) * | 2008-01-11 | 2008-07-09 | 浙江工业大学 | 基于模糊粗糙集的证据理论城市交通流信息融合方法 |
CN102819673A (zh) * | 2012-07-26 | 2012-12-12 | 中国农业科学院农田灌溉研究所 | 一种多源灌溉信息融合方法及装置 |
CN103838772A (zh) * | 2012-11-26 | 2014-06-04 | 香港生产力促进局 | 一种多源交通数据融合方法 |
CN104699818A (zh) * | 2015-03-25 | 2015-06-10 | 武汉大学 | 一种多源异构的多属性poi融合方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874962A (zh) * | 2017-03-13 | 2017-06-20 | 上海普适导航科技股份有限公司 | 多源卫星数据的融合方法及装置 |
CN106874962B (zh) * | 2017-03-13 | 2020-09-01 | 上海普适导航科技股份有限公司 | 多源卫星数据的融合方法及装置 |
CN110532254A (zh) * | 2018-05-25 | 2019-12-03 | 杭州海康威视数字技术股份有限公司 | 融合数据表的方法和装置 |
CN110517083A (zh) * | 2019-08-27 | 2019-11-29 | 秒针信息技术有限公司 | 一种确定用户属性信息的方法及装置 |
CN112035561A (zh) * | 2020-07-22 | 2020-12-04 | 大箴(杭州)科技有限公司 | 数据处理方法、装置、存储介质及计算机设备 |
CN116450634A (zh) * | 2023-06-15 | 2023-07-18 | 中新宽维传媒科技有限公司 | 一种数据源权重评估方法及其相关装置 |
CN116450634B (zh) * | 2023-06-15 | 2023-09-29 | 中新宽维传媒科技有限公司 | 一种数据源权重评估方法及其相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105528399B (zh) | 2019-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105528399A (zh) | 多源终端参数数据融合方法及装置 | |
CN109685647B (zh) | 信贷欺诈检测方法及其模型的训练方法、装置和服务器 | |
KR102193502B1 (ko) | 지불 임계값을 취득하기 위한 방법 및 디바이스 | |
CN104657396A (zh) | 数据迁移方法及装置 | |
CN109800560A (zh) | 一种设备识别方法和装置 | |
CN107688987A (zh) | 电子装置、保险推荐方法、及计算机可读存储介质 | |
CN104850567A (zh) | 一种识别网络用户之间关联关系的方法和装置 | |
CN106815274B (zh) | 基于Hadoop的日志数据挖掘方法及系统 | |
CN102930444A (zh) | 一种移动终端及其应用分类管理方法和系统 | |
CN106326062B (zh) | 应用程序的运行状态控制方法和装置 | |
CN103945430A (zh) | 一种移动终端类型推荐方法及装置 | |
CN104408640A (zh) | 应用软件推荐方法及装置 | |
CN103530431A (zh) | 用于网页页面点击量统计的数据处理方法和装置 | |
CN106650519A (zh) | 一种设备追踪方法和系统 | |
CN109582834B (zh) | 数据风险预测方法及装置 | |
CN113850523A (zh) | 基于数据补全的esg指数确定方法及相关产品 | |
CN109684033A (zh) | 云平台裸机管理方法、存储介质、电子设备及系统 | |
US9665668B2 (en) | Configuring a dispatching rule for execution in a simulation | |
CN112579847A (zh) | 生产数据的处理方法和装置、存储介质及电子设备 | |
CN112529739A (zh) | 一种建筑质量全局检测方法及系统 | |
CN107194280A (zh) | 模型建立方法及装置 | |
CN106407212A (zh) | 一种网络账户的类别确定方法、对象聚类方法及装置 | |
CN105591842A (zh) | 一种获取移动终端操作系统版本的方法和装置 | |
CN109598525A (zh) | 数据处理方法和装置 | |
CN104516956B (zh) | 一种网站信息增量爬取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |