CN109033217A - 基于相似度的数据对比查询方法及系统 - Google Patents

基于相似度的数据对比查询方法及系统 Download PDF

Info

Publication number
CN109033217A
CN109033217A CN201810709541.XA CN201810709541A CN109033217A CN 109033217 A CN109033217 A CN 109033217A CN 201810709541 A CN201810709541 A CN 201810709541A CN 109033217 A CN109033217 A CN 109033217A
Authority
CN
China
Prior art keywords
character string
similarity
comparison
keyword
checked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810709541.XA
Other languages
English (en)
Inventor
孙英辉
姚天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhu Wisdom Big Data Operation Co Ltd
Original Assignee
Wuhu Wisdom Big Data Operation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhu Wisdom Big Data Operation Co Ltd filed Critical Wuhu Wisdom Big Data Operation Co Ltd
Priority to CN201810709541.XA priority Critical patent/CN109033217A/zh
Publication of CN109033217A publication Critical patent/CN109033217A/zh
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种基于相似度的数据对比查询方法及系统。该方法可以包括:分析待查字符串,提取待查字符串的多个关键词;检索多个关键词,获得多个对比字符串;将待查字符串分别与每一个对比字符串进行计算,获得对比字符串对应的相似度系数;根据相似度系数的大小,对多个对比字符串进行排序。本发明通过对比待查字符串与对比字符串,计算相似度系数,实现快速精准的查询数据。

Description

基于相似度的数据对比查询方法及系统
技术领域
本发明涉及信息技术领域,更具体地,涉及一种基于相似度的数据对比查询方法及系统。
背景技术
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,其具有5大特点:大量、高速、多样、价值、真实性。但是,目前的大数据查询多为人力手动,效率较低。因此,有必要开发一种基于相似度的数据对比查询方法及系统。
公开于本发明背景技术部分的信息仅仅旨在加深对本发明的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
本发明提出了一种基于相似度的数据对比查询方法及系统,其能够通过对比待查字符串与对比字符串,计算相似度系数,实现快速精准的查询数据。
根据本发明的一方面,提出了一种基于相似度的数据对比查询方法。所述方法可以包括:分析待查字符串,提取所述待查字符串的多个关键词;检索所述多个关键词,获得多个对比字符串;将所述待查字符串分别与每一个所述对比字符串进行计算,获得所述对比字符串对应的相似度系数;根据所述相似度系数的大小,对所述多个对比字符串进行排序。
优选地,每一个所述对比字符串包括至少一个所述关键词。
优选地,还包括:将所述多个关键词根据重要程度进行排序,并对每一个关键词赋予重点因子。
优选地,所述相似度系数为:
Fj=∑Aiwi (1)
其中,Fj表示第j个对比字符串的相似度系数,j取[1,M],M表示对比字符串的个数,wi表示该对比字符串与待查字符串相同的关键词,Ai表示该关键词对应的重点因子,i取[1,N],N表示关键词的个数。
根据本发明的另一方面,提出了一种基于相似度的数据对比查询系统,所述系统可以包括:处理器,用于分析待查字符串,提取所述待查字符串的多个关键词;检索器,用于检索所述多个关键词,获得多个对比字符串;计算单元,用于将所述待查字符串分别与每一个所述对比字符串进行计算,获得所述对比字符串对应的相似度系数;显示单元,用于根据所述相似度系数的大小,对所述多个对比字符串进行排序。
优选地,每一个所述对比字符串包括至少一个所述关键词。
优选地,还包括:将所述多个关键词根据重要程度进行排序,并对每一个关键词赋予重点因子。
优选地,所述相似度系数为:
Fj=∑Aiwi (1)
其中,Fj表示第j个对比字符串的相似度系数,j取[1,M],M表示对比字符串的个数,wi表示该对比字符串与待查字符串相同的关键词,Ai表示该关键词对应的重点因子,i取[1,N],N表示关键词的个数。
本发明的方法和装置具有其它的特性和优点,这些特性和优点从并入本文中的附图和随后的具体实施方式中将是显而易见的,或者将在并入本文中的附图和随后的具体实施方式中进行详细陈述,这些附图和具体实施方式共同用于解释本发明的特定原理。
附图说明
通过结合附图对本发明示例性实施方式进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显,其中,在本发明示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了根据本发明的基于相似度的数据对比查询方法的步骤的流程图。
具体实施方式
下面将参照附图更详细地描述本发明。虽然附图中显示了本发明的优选实施方式,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
图1示出了根据本发明的基于相似度的数据对比查询方法的步骤的流程图。
在该实施方式中,根据本发明的基于相似度的数据对比查询方法可以包括:步骤101,分析待查字符串,提取待查字符串的多个关键词;步骤102,检索多个关键词,获得多个对比字符串;步骤103,将待查字符串分别与每一个对比字符串进行计算,获得对比字符串对应的相似度系数;以及步骤104,根据相似度系数的大小,对多个对比字符串进行排序。
在一个示例中,每一个对比字符串包括至少一个关键词。
在一个示例中,还包括:将多个关键词根据重要程度进行排序,并对每一个关键词赋予重点因子。
在一个示例中,相似度系数为:
Fj=∑Aiwi (1)
其中,Fj表示第j个对比字符串的相似度系数,j取[1,M],M表示对比字符串的个数,wi表示该对比字符串与待查字符串相同的关键词,Ai表示该关键词对应的重点因子,i取[1,N],N表示关键词的个数。
具体地,根据本发明的基于相似度的数据对比查询方法可以包括:根据待查字符串,通过分析,提取待查字符串的多个关键词,将多个关键词根据重要程度进行排序,并对每一个关键词赋予重点因子,基于多个关键词,通过检索,获得多个对比字符串,其中,每一个对比字符串包括至少一个关键词,将对比字符串与待查字符串相同的关键词及其对应的重点因子代入公式(1),计算求取每一个对比字符串对应的相似度系数,按照相似度系数从大到小,对多个对比字符串进行排序,并按顺序显示多个对比字符串。
本方法通过对比待查字符串与对比字符串,计算相似度系数,实现快速精准的查询数据。
应用示例
为便于理解本发明实施方式的方案及其效果,以下给出一个具体应用示例。本领域技术人员应理解,该示例仅为了便于理解本发明,其任何具体细节并非意在以任何方式限制本发明。
根据本发明的基于相似度的数据对比查询方法包括:待查字符串为华为P20(极光色,6GB,128GB),通过分析,提取待查字符串的5个关键词,并将5个关键词根据重要程度进行排序为华为、P20、128GB、极光色、6GB,并对每一个关键词赋予重点因子:华为为0.3、P20为0.25、128GB为0.25、极光色为0.1、6GB为0.1,基于5个关键词,通过检索,获得3个对比字符串为华为P20黑色6GB 64GB、华为Mate10与P20 Pro,将对比字符串与待查字符串相同的关键词及其对应的重点因子代入公式(1),计算求取华为P20黑色6GB 64GB对应的相似度系数为0.65,华为Mate10对应的相似度系数为0.3,P20 Pro对应的相似度系数为0.25,按照相似度系数从大到小,对3个对比字符串进行排序,并按顺序显示3个对比字符串为:华为P20黑色6GB 64GB、华为Mate10、P20 Pro。
综上所述,本发明通过对比待查字符串与对比字符串,计算相似度系数,实现快速精准的查询数据。
本领域技术人员应理解,上面对本发明的实施方式的描述的目的仅为了示例性地说明本发明的实施方式的有益效果,并不意在将本发明的实施方式限制于所给出的任何示例。
根据本发明的实施方式,提供了一种基于相似度的数据对比查询系统,系统可以包括:处理器,用于分析待查字符串,提取待查字符串的多个关键词;检索器,用于检索多个关键词,获得多个对比字符串;计算单元,用于将待查字符串分别与每一个对比字符串进行计算,获得对比字符串对应的相似度系数;显示单元,用于根据相似度系数的大小,对多个对比字符串进行排序。
在一个示例中,每一个对比字符串包括至少一个关键词。
在一个示例中,还包括:将多个关键词根据重要程度进行排序,并对每一个关键词赋予重点因子。
在一个示例中,相似度系数为:
Fj=∑Aiwi (1)
其中,Fj表示第j个对比字符串的相似度系数,j取[1,M],M表示对比字符串的个数,wi表示该对比字符串与待查字符串相同的关键词,Ai表示该关键词对应的重点因子,i取[1,N],N表示关键词的个数。
本发明通过对比待查字符串与对比字符串,计算相似度系数,实现快速精准的查询数据。
本领域技术人员应理解,上面对本发明的实施方式的描述的目的仅为了示例性地说明本发明的实施方式的有益效果,并不意在将本发明的实施方式限制于所给出的任何示例。
以上已经描述了本发明的各实施方式,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施方式。在不偏离所说明的各实施方式的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

Claims (8)

1.一种基于相似度的数据对比查询方法,包括:
分析待查字符串,提取所述待查字符串的多个关键词;
检索所述多个关键词,获得多个对比字符串;
将所述待查字符串分别与每一个所述对比字符串进行计算,获得所述对比字符串对应的相似度系数;
根据所述相似度系数的大小,对所述多个对比字符串进行排序。
2.根据权利要求1所述的基于相似度的数据对比查询方法,其中,每一个所述对比字符串包括至少一个所述关键词。
3.根据权利要求1所述的基于相似度的数据对比查询方法,其中,还包括:将所述多个关键词根据重要程度进行排序,并对每一个关键词赋予重点因子。
4.根据权利要求3所述的基于相似度的数据对比查询方法,其中,所述相似度系数为:
Fj=∑Aiwi (1)
其中,Fj表示第j个对比字符串的相似度系数,j取[1,M],M表示对比字符串的个数,wi表示该对比字符串与待查字符串相同的关键词,Ai表示该关键词对应的重点因子,i取[1,N],N表示关键词的个数。
5.一种基于相似度的数据对比查询系统,包括:
处理器,用于分析待查字符串,提取所述待查字符串的多个关键词;
检索器,用于检索所述多个关键词,获得多个对比字符串;
计算单元,用于将所述待查字符串分别与每一个所述对比字符串进行计算,获得所述对比字符串对应的相似度系数;
显示单元,用于根据所述相似度系数的大小,对所述多个对比字符串进行排序。
6.根据权利要求5所述的基于相似度的数据对比查询系统,其中,每一个所述对比字符串包括至少一个所述关键词。
7.根据权利要求5所述的基于相似度的数据对比查询系统,其中,还包括:将所述多个关键词根据重要程度进行排序,并对每一个关键词赋予重点因子。
8.根据权利要求7所述的基于相似度的数据对比查询系统,其中,所述相似度系数为:
Fj=∑Aiwi (1)
其中,Fj表示第j个对比字符串的相似度系数,j取[1,M],M表示对比字符串的个数,wi表示该对比字符串与待查字符串相同的关键词,Ai表示该关键词对应的重点因子,i取[1,N],N表示关键词的个数。
CN201810709541.XA 2018-07-02 2018-07-02 基于相似度的数据对比查询方法及系统 Withdrawn CN109033217A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810709541.XA CN109033217A (zh) 2018-07-02 2018-07-02 基于相似度的数据对比查询方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810709541.XA CN109033217A (zh) 2018-07-02 2018-07-02 基于相似度的数据对比查询方法及系统

Publications (1)

Publication Number Publication Date
CN109033217A true CN109033217A (zh) 2018-12-18

Family

ID=65521231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810709541.XA Withdrawn CN109033217A (zh) 2018-07-02 2018-07-02 基于相似度的数据对比查询方法及系统

Country Status (1)

Country Link
CN (1) CN109033217A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573943A (zh) * 2024-01-11 2024-02-20 云筑信息科技(成都)有限公司 一种基于序列化相似度计算的数据对比方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573943A (zh) * 2024-01-11 2024-02-20 云筑信息科技(成都)有限公司 一种基于序列化相似度计算的数据对比方法
CN117573943B (zh) * 2024-01-11 2024-05-28 云筑信息科技(成都)有限公司 一种基于序列化相似度计算的数据对比方法

Similar Documents

Publication Publication Date Title
CN109948561A (zh) 基于迁移网络的无监督图像视频行人重识别的方法及系统
CN109948121A (zh) 文章相似度挖掘方法、系统、设备及存储介质
CN103810168A (zh) 检索应用的方法、装置及终端
CN104268216A (zh) 一种基于互联网信息的数据清洗系统
WO2008106668A1 (en) User query mining for advertising matching
CN101980211A (zh) 一种机器学习模型及其建立方法
CN101980210A (zh) 一种标的词分类分级方法及系统
CN109871686A (zh) 基于图标表示和软件行为一致性分析的恶意程序识别方法及装置
CN108304382A (zh) 基于制造过程文本数据挖掘的质量分析方法与系统
CN102867049A (zh) 一种基于单词查找树实现的汉语拼音快速分词方法
CN116881430A (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN114491081A (zh) 基于数据血缘关系图谱的电力数据溯源方法及系统
CN109033217A (zh) 基于相似度的数据对比查询方法及系统
CN109783483A (zh) 一种数据整理的方法、装置、计算机存储介质及终端
CN108958917A (zh) 云计算的任务调度方法及系统
Belhi et al. Deep learning and cultural heritage: the CEPROQHA project case study
CN116821087A (zh) 输电线路故障数据库构建方法、装置、终端及存储介质
CN116401212A (zh) 一种基于数据分析的人事文书档案快速查找系统
CN108959207A (zh) 基于相似度的数据信息储存方法及系统
WO2012091539A1 (en) A semantic similarity matching system and a method thereof
CN110825792A (zh) 基于golang中间件协程模式下的高并发分布式数据检索方法
CN112003884A (zh) 一种网络资产的采集和自然语言检索方法
CN110502669A (zh) 基于n边dfs子图的轻量级无监督图表示学习方法及装置
CN113313178B (zh) 一种跨域图像示例级主动标注方法
Li et al. A novel approach to remote sensing image retrieval with multi-feature VP-tree indexing and online feature selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20181218