CN106033475A - 一种信息匹配方法、装置及电子设备 - Google Patents

一种信息匹配方法、装置及电子设备 Download PDF

Info

Publication number
CN106033475A
CN106033475A CN201610334760.5A CN201610334760A CN106033475A CN 106033475 A CN106033475 A CN 106033475A CN 201610334760 A CN201610334760 A CN 201610334760A CN 106033475 A CN106033475 A CN 106033475A
Authority
CN
China
Prior art keywords
information
field information
data message
field
english alphabet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610334760.5A
Other languages
English (en)
Inventor
牛铭海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUZHOU JIANGDUODUO TECHNOLOGY Co Ltd
Original Assignee
SUZHOU JIANGDUODUO TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU JIANGDUODUO TECHNOLOGY Co Ltd filed Critical SUZHOU JIANGDUODUO TECHNOLOGY Co Ltd
Priority to CN201610334760.5A priority Critical patent/CN106033475A/zh
Publication of CN106033475A publication Critical patent/CN106033475A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种信息匹配方法,包括:获取多种数据信息,所述多种数据信息包括至少两个数据信息;将所述至少两个数据信息分别转化为预设数据类型的字段信息;确定所述字段信息之间的信息相似度;根据所述字段信息之间的信息相似度,确定所述至少两个数据信息是否匹配。本发明实施例还公开了一种信息匹配装置及电子设备。采用本发明实施例,实现信息的统一性,保障信息匹配的准确性,减少运营工作量。

Description

一种信息匹配方法、装置及电子设备
技术领域
本发明涉及电子技术领域,尤其涉及一种信息匹配方法、装置及电子设备。
背景技术
随着网络的迅速发展,各种信息层出不穷,如果对每种信息进行存储,势必需要占用大量的存储空间,其中有些信息极其相似,信息内容完全匹配,可以将这些完全匹配的信息建立统一关系,来减少信息的存储量。例如,现在很多体育赛事网站都公布有赛事信息(比如,国外足球联赛),虽然有时是同一场比赛,由于翻译标准不统一,导致国内很多网站会显示不同的球队信息,用户需要分别对这些不同的信息进行识别处理,占用大量运营工作量。
发明内容
本发明实施例提供一种信息匹配方法、装置及电子设备。可以解决信息不统一,占用运营工作量的问题。
本发明实施例提供了一种信息匹配方法,包括:
获取多种数据信息,所述多种数据信息包括至少两个数据信息;
将所述至少两个数据信息分别转化为预设数据类型的字段信息;
确定所述字段信息之间的信息相似度;
根据所述字段信息之间的信息相似度,确定所述至少两个数据信息是否匹配。
其中,所述至少两个数据信息包括第一数据信息以及第二数据信息,所述字段信息包括与所述第一数据信息对应的第一字段信息以及与所述第二数据信息对应的第二字段信息,所述数据信息包括中文信息,所述预设数据类型包括英文字母,所述确定所述字段信息之间的信息相似度包括:
确定所述第一字段信息的英文字母的个数、所述第二字段信息的英文字母的个数,以及所述第一字段信息与所述第二字段信息中不相同的英文字母的个数;
根据所述第一字段信息的英文字母的个数、所述第二字段信息的英文字母的个数,以及所述第一字段信息与所述第二字段信息中不相同的英文字母的个数,计算所述第一字段信息与所述第二字段信息之间的信息相似度。
其中,所述根据所述第一字段信息的英文字母的个数、所述第二字段信息的英文字母的个数,以及所述第一字段信息与所述第二字段信息中不相同的英文字母的个数,计算所述第一字段信息与所述第二字段信息之间的信息相似度包括:
选择所述第一字段信息的英文字母的个数以及所述第二字段信息的英文字母的个数中数量较少的一个作为基准参数;
将所述第一字段信息与所述第二字段信息中不相同的英文字母的个数除以所述基准参数得到计算得到比例值;
将单位值1减去所述比例值,计算得到所述第一字段信息与所述第二字段信息之间的信息相似度。
其中,所述至少两个数据信息包括第一数据信息以及第二数据信息,所述字段信息包括与所述第一数据信息对应的第一字段信息以及与所述第二数据信息对应的第二字段信息,所述数据信息包括时间信息,所述预设数据类型包括标准时间格式,所述确定所述字段信息之间的信息相似度包括:
判断转化为所述标准时间格式的第一字段信息与第二字段信息是否一致;
所述确定所述至少两个数据信息是否匹配包括:
若所述第一字段信息与所述第二字段信息一致,则确定所述第一数据信息与所述第二数据信息匹配。
其中,所述根据所述字段信息之间的信息相似度,确定所述至少两个数据信息是否匹配包括:
判断所述第一字段信息与所述第二字段信息之间的信息相似度是否大于预设阈值;
若所述第一字段信息与所述第二字段信息之间的信息相似度大于所述预设阈值,则确定所述第一数据信息与所述第二数据信息匹配。
相应地,本发明实施例提供了一种信息匹配装置,包括:
信息获取模块,用于获取多种数据信息,所述多种数据信息包括至少两个数据信息;
信息转化模块,用于将所述至少两个数据信息分别转化为预设数据类型的字段信息;
信息确定模块,用于确定所述字段信息之间的信息相似度;
信息匹配模块,用于根据所述字段信息之间的信息相似度,确定所述至少两个数据信息是否匹配。
其中,所述至少两个数据信息包括第一数据信息以及第二数据信息,所述字段信息包括与所述第一数据信息对应的第一字段信息以及与所述第二数据信息对应的第二字段信息,所述数据信息包括中文信息,所述预设数据类型包括英文字母,所述信息确定模块包括:
个数确定单元,用于确定所述第一字段信息的英文字母的个数、所述第二字段信息的英文字母的个数,以及所述第一字段信息与所述第二字段信息中不相同的英文字母的个数;
信息计算单元,用于根据所述第一字段信息的英文字母的个数、所述第二字段信息的英文字母的个数,以及所述第一字段信息与所述第二字段信息中不相同的英文字母的个数,计算所述第一字段信息与所述第二字段信息之间的信息相似度。
其中,所述信息计算单元具体用于:
选择所述第一字段信息的英文字母的个数以及所述第二字段信息的英文字母的个数中数量较少的一个作为基准参数;
将所述第一字段信息与所述第二字段信息中不相同的英文字母的个数除以所述基准参数得到计算得到比例值;
将单位值1减去所述比例值,计算得到所述第一字段信息与所述第二字段信息之间的信息相似度。
其中,所述至少两个数据信息包括第一数据信息以及第二数据信息,所述字段信息包括与所述第一数据信息对应的第一字段信息以及与所述第二数据信息对应的第二字段信息,所述数据信息包括时间信息,所述预设数据类型包括标准时间格式,所述信息确定模块具体用于:
判断转化为所述标准时间格式的第一字段信息与第二字段信息是否一致;
所述信息匹配模块具体用于:
若所述第一字段信息与所述第二字段信息一致,则确定所述第一数据信息与所述第二数据信息匹配。
其中,所述信息匹配模块具体用于:
判断所述第一字段信息与所述第二字段信息之间的信息相似度是否大于预设阈值;
若所述第一字段信息与所述第二字段信息之间的信息相似度大于所述预设阈值,则确定所述第一数据信息与所述第二数据信息匹配。
相应地,本发明实施例提供了一种电子设备,包括:处理器、存储器、通信接口和总线;
所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信;
所述存储器存储可执行程序代码;
所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于:
获取多种数据信息,所述多种数据信息包括至少两个数据信息;
将所述至少两个数据信息分别转化为预设数据类型的字段信息;
确定所述字段信息之间的信息相似度;
根据所述字段信息之间的信息相似度,确定所述至少两个数据信息是否匹配。
实施本发明实施例,首先获取多种数据信息,然后将至少两个数据信息分别转化为预设数据类型的字段信息;其次确定字段信息之间的信息相似度;最后根据字段信息之间的信息相似度,确定至少两个数据信息是否匹配。通过将不同的数据信息转化为预设数据类型的字段信息,来确定多个数据信息之间相似度,从而将完全匹配的数据信息建立统一关系,并保障信息的准确性,减少运营工作量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提出的一种信息匹配方法的第一实施例流程图;
图2是本发明提出的一种信息匹配方法的第二实施例流程图;
图3是本发明实施例提出的一种信息匹配装置的结构示意图;
图4是本发明实施例提供的装置中信息确定模块的结构示意图;
图5是本发明实施例提出的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1是本发明提出的一种信息匹配方法的第一实施例流程图。如图所示,本发明实施例中的方法包括:
S101,获取多种数据信息,所述多种数据信息包括至少两个数据信息。
具体实现中,可以从多个网络服务器采集多种数据信息,其中,数据信息包括球队信息、比分信息以及时间信息等等,数据信息可以为中文简体、中文繁体或中英文的数据类型。
S102,将所述至少两个数据信息分别转化为预设数据类型的字段信息。
具体实现中,所述预设数据类型包括英文字母或者数字,可以将中文简体、中文繁体或中英文的数据信息转化为英文字母的字段信息。例如,从两个不同的网站采集到“博莱”和“比尔森”、“博雷斯拉夫”和“皮尔森”的赛事信息,“博莱”拼音转换后为“BO,LAI”,“博雷斯拉夫”拼音转换后为“BO,LEI,SI,LA,FU”,“比尔森”拼音转换后为“BI,ER,SEN”,“皮尔森”拼音转换后为“PI,ER,SEN”。
S103,确定所述字段信息之间的信息相似度。
具体实现中,所述至少两个数据信息包括第一数据信息以及第二数据信息,所述字段信息包括与所述第一数据信息对应的第一字段信息以及与所述第二数据信息对应的第二字段信息,所述数据信息包括中文信息,所述预设数据类型包括英文字母,可以确定所述第一字段信息的英文字母的个数、所述第二字段信息的英文字母的个数,以及所述第一字段信息与所述第二字段信息中不相同的英文字母的个数;根据所述第一字段信息的英文字母的个数、所述第二字段信息的英文字母的个数,以及所述第一字段信息与所述第二字段信息中不相同的英文字母的个数,计算所述第一字段信息与所述第二字段信息之间的信息相似度。
进一步的,可以选择所述第一字段信息的英文字母的个数以及所述第二字段信息的英文字母的个数中数量较少的一个作为基准参数;将所述第一字段信息与所述第二字段信息中不同的英文字母的个数除以所述基准参数得到计算得到比例值;将单位值1减去所述比例值,计算得到所述第一字段信息与所述第二字段信息之间的信息相似度。
例如:比较“比尔森(BI,ER,SEN)”和“皮尔森(PI,ER,SEN)”,两者均包括三个拼音字段,分别比较三个拼音字段,第一个拼音字段“BI”和“PI”中有一个字符不相同,第二个拼音字段“ER”和第三个拼音字段“SEN”相同,因此,不同的拼音字符在第一个拼音字段中的所占比例为1/2,在整个拼音字段中所占比例为1/2*1/3=1/6,比尔森(BI,ER,SEN)”和“皮尔森(PI,ER,SEN)”的信息相似度为1-1/6=5/6,其中,英文字母包括拼音字符。
又如:比较“博莱(BO,LAI)”和“博雷斯拉夫(BO,LEI,SI,LA,FU)”,第一字段信息包括二个拼音字段,第二字段信息包括五个拼音字段,选择2为基准参数,分别比较前二个拼音字段,第一个拼音字段“BO”相同,第二个拼音字段“LAI”和“LEI”中有一个拼音字符不相同,因此,不同的拼音字符在第二个拼音字段中的所占比例为1/3,在整个拼音字段中所占比例为1/3*1/2=1/6,“博莱(BO,LAI)”和“博雷斯拉夫(BO,LEI,SI,LA,FU)”信息相似度为1-1/6=5/6。
因此,对于采集的“博莱”对阵“比尔森”、“博雷斯拉夫”对阵“皮尔森”的两场赛事信息,“博莱”和“博雷斯拉夫”的信息相似度为5/6,“比尔森”和“皮尔森”的信息相似度为5/6,则该两场赛事信息的信息相似度为5/6*50%+5/6*50%=5/6。
可选的,所述数据信息包括时间信息,所述预设数据类型可以包括标准时间格式,标准时间格式可以为国际标准统一时间,由于各个网站的数据信息显示的是各自系统自带的时间,导致有时可能是同一比赛信息,但是显示时间不同,可以将所述第一时间信息转化为标准时间格式的第一字段信息,以及将所述第二时间信息转化标准时间格式的第二字段信息,判断转化为所述标准时间格式的第一字段信息与第二字段信息是否一致。
需要说明的是,如果确定三个以上的字段信息,可以两两比较来确定每两个字段信息之间的信息相似度,进而确定该三个以上的字段信息之间的信息相似度。
S104,根据所述字段信息之间的信息相似度,确定所述至少两个数据信息是否匹配。
具体实现中,可以判断所述第一字段信息与所述第二字段信息之间的信息相似度是否大于预设阈值;若所述第一字段信息与所述第二字段信息之间的信息相似度大于所述预设阈值,则确定所述第一数据信息与所述第二数据信息匹配,其中,预设阈值可以为80%或90%,但不局限于上述值。或者,若第一字段信息与第二字段信息一致,则确定所述第一数据信息与所述第二数据信息匹配。
在本发明实施例中,首先获取多种数据信息,然后将至少两个数据信息分别转化为预设数据类型的字段信息;其次确定字段信息之间的信息相似度;最后根据字段信息之间的信息相似度,确定至少两个数据信息是否匹配。通过将不同的数据信息转化为预设数据类型的字段信息,来确定多个数据信息之间相似度,从而将完全匹配的数据信息建立统一关系,并保障信息的准确性,减少运营工作量。
请参考图2,图2是本发明提出的一种信息匹配方法的第二实施例流程图。如图所示,本发明实施例中的方法包括:
S201,获取多种数据信息,所述多种数据信息包括第一数据信息以及第二数据信息。
具体实现中,可以从多个网络服务器采集多种数据信息,其中,数据信息包括球队信息、比分信息以及时间信息等等,数据信息可以为中文简体、中文繁体或中英文的数据类型。
S202,将所述第一数据信息转化为预设数据类型的第一字段信息,以及将所述第二字段信息转化为所述预设数据类型的第二字段信息。
具体实现中,所述预设数据类型包括拼音、全英文或者数字,可以将中文简体、中文繁体或中英文的数据信息转化为英文字母的字段信息。例如,从两个不同的网站采集到“博莱”和“比尔森”、“博雷斯拉夫”和“皮尔森”的赛事信息,“博莱”拼音转换后为“BO,LAI”,“博雷斯拉夫”拼音转换后为“BO,LEI,SI,LA,FU”,“比尔森”拼音转换后为“BI,ER,SEN”,“皮尔森”拼音转换后为“PI,ER,SEN”。
S203,确定所述第一字段信息与所述第二字段信息之间的信息相似度。
具体实现中,可以可以确定所述第一字段信息的英文字母的个数、所述第二字段信息的英文字母的个数,以及所述第一字段信息与所述第二字段信息中不相同的英文字母的个数;根据所述第一字段信息的英文字母的个数、所述第二字段信息的英文字母的个数,以及所述第一字段信息与所述第二字段信息中不相同的英文字母的个数,计算所述第一字段信息与所述第二字段信息之间的信息相似度。
进一步的,可以选择所述第一字段信息的英文字母的个数以及所述第二字段信息的英文字母的个数中数量较少的一个作为基准参数;将所述第一字段信息与所述第二字段信息中不同的英文字母的个数除以所述基准参数得到计算得到比例值;将单位值1减去所述比例值,计算得到所述第一字段信息与所述第二字段信息之间的信息相似度。
例如:比较“比尔森(BI,ER,SEN)”和“皮尔森(PI,ER,SEN)”,两者均包括三个拼音字段,分别比较三个拼音字段,第一个拼音字段“BI”和“PI”中有一个字符不相同,第二个拼音字段“ER”和第三个拼音字段“SEN”相同,因此,不同的拼音字符在第一个拼音字段中的所占比例为1/2,在整个拼音字段中所占比例为1/2*1/3=1/6,比尔森(BI,ER,SEN)”和“皮尔森(PI,ER,SEN)”的信息相似度为1-1/6=5/6。
又如:比较“博莱(BO,LAI)”和“博雷斯拉夫(BO,LEI,SI,LA,FU)”,第一字段信息包括二个拼音字段,第二字段信息包括五个拼音字段,选择2为基准参数,分别比较前二个拼音字段,第一个拼音字段“BO”相同,第二个拼音字段“LAI”和“LEI”中有一个拼音字符不相同,因此,不同的拼音字符在第二个拼音字段中的所占比例为1/3,在整个拼音字段中所占比例为1/3*1/2=1/6,“博莱(BO,LAI)”和“博雷斯拉夫(BO,LEI,SI,LA,FU)”信息相似度为1-1/6=5/6。
因此,对于采集的“博莱”对阵“比尔森”、“博雷斯拉夫”对阵“皮尔森”的两场赛事信息,“博莱”和“博雷斯拉夫”的信息相似度为5/6,“比尔森”和“皮尔森”的信息相似度为5/6,则该两场赛事信息的信息相似度为5/6*50%+5/6*50%=5/6。
S204,判断所述第一字段信息与所述第二字段信息之间的信息相似度是否小于第一预设阈值大于第二预设阈值。其中,第一预设阈值可以为80%或90%,第二预设阈值为60%或50%,但不局限于上述值。
S205,若所述第一字段信息与所述第二字段信息之间的信息相似度小于第一预设阈值大于第二预设阈值,则判断第一时间信息与第二时间信息是否一致。
具体实现中,每场赛事信息不仅包括球队名字,而且包括开赛时间以及完赛时间等等,在判断球队名字信息无法完全匹配时,可以判断该赛事信息中的开赛时间或者完赛时间是否一致,由于各个网站的数据信息显示的是各自系统自带的时间,导致有时可能是同一比赛信息,但是显示时间不同,可以将所述第一时间信息转化为标准时间格式的第一字段信息,以及将所述第二时间信息转化标准时间格式的第二字段信息,判断转化为所述标准时间格式的第一字段信息与第二字段信息是否一致,其中,标准时间格式可以为国际标准统一时间。
另外,若所述第一字段信息与所述第二字段信息之间的信息相似度小于第一预设阈值,则无需执行判断第一时间信息与第二时间信息是否一致,确定所述第一数据信息与所述第二数据信息匹配,若所述第一字段信息与所述第二字段信息之间的信息相似度小于第二预设阈值,则确定所述第一数据信息与所述第二数据信息完全不匹配。
S206,若所述第一时间信息与所述第二时间信息一致,则确定所述第一数据信息与所述第二数据信息匹配,若所述第一时间信息与所述第二时间信息不一致,则确定所述第一数据信息与所述第二数据信息不匹配。
在本发明实施例中,首先获取多种数据信息,然后将所述第一数据信息转化为预设数据类型的第一字段信息,以及将所述第二字段信息转化为所述预设数据类型的第二字段信息;其次确定所述第一字段信息与所述第二字段信息之间的信息相似度;最后根据所述第一字段信息与所述第二字段信息之间的信息相似度,确定所述第一数据信息与所述第二数据信息是否匹配。通过将不同的数据信息转化为预设数据类型的字段信息,来确定多个数据信息之间相似度,从而将完全匹配的数据信息建立统一关系,并保障信息的准确性,减少运营工作量。
请参考图3,图3是本发明实施例提出的一种信息匹配装置的结构示意图。如图所示,本发明实施例中的装置包括:
信息获取模块301,用于获取多种数据信息,所述多种数据信息包括至少两个数据信息。
具体实现中,可以从多个网络服务器采集多种数据信息,其中,数据信息包括球队信息、比分信息以及时间信息等等,数据信息可以为中文简体、中文繁体或中英文的数据类型。
信息转化模块302,用于将所述至少两个数据信息分别转化为预设数据类型的字段信息。
具体实现中,所述预设数据类型包括拼音、全英文或者数字,可以将中文简体、中文繁体或中英文的数据信息转化为拼音、全英文或数字的字段信息。例如,从两个不同的网站采集到“博莱”和“比尔森”、“博雷斯拉夫”和“皮尔森”的赛事信息,“博莱”拼音转换后为“BO,LAI”,“博雷斯拉夫”拼音转换后为“BO,LEI,SI,LA,FU”,“比尔森”拼音转换后为“BI,ER,SEN”,“皮尔森”拼音转换后为“PI,ER,SEN”。
信息确定模块303,用于确定所述字段信息之间的信息相似度。其中,所述至少两个数据信息包括第一数据信息以及第二数据信息,所述字段信息包括与所述第一数据信息对应的第一字段信息以及与所述第二数据信息对应的第二字段信息
具体实现中,如图4所示,信息确定模块303还可以进一步包括:
个数确定单元401,用于确定所述第一字段信息的英文字母的个数、所述第二字段信息的英文字母的个数,以及所述第一字段信息与所述第二字段信息中不相同的英文字母的个数;
信息计算单元402,用于根据所述第一字段信息的英文字母的个数、所述第二字段信息的英文字母的个数,以及所述第一字段信息与所述第二字段信息中不相同的英文字母的个数,计算所述第一字段信息与所述第二字段信息之间的信息相似度。
信息计算单元402具体用于,选择所述第一字段信息的英文字母的个数以及所述第二字段信息的英文字母的个数中数量较少的一个作为基准参数;将所述第一字段信息与所述第二字段信息中不同的英文字母的个数除以所述基准参数得到计算得到比例值;将单位值减去所述比例值,计算得到所述第一字段信息与所述第二字段信息之间的信息相似度。
例如:比较“比尔森(BI,ER,SEN)”和“皮尔森(PI,ER,SEN)”,两者都是三个拼音字段,分别比较三个拼音字段,第一个拼音字段“BI”和“PI”中有一个字符不相同,第二个拼音字段“ER”和第三个拼音字段“SEN”相同,因此,不同的拼音字符在第一个拼音字段中的所占比例为1/2,在整个拼音字段中所占比例为1/2*1/3=1/6,比尔森(BI,ER,SEN)”和“皮尔森(PI,ER,SEN)”的信息相似度为1-1/6=5/6。
又如:比较“博莱(BO,LAI)”和“博雷斯拉夫(BO,LEI,SI,LA,FU)”,第一字段信息包括二个拼音字段,第二字段信息包括五个拼音字段,选择2为基准参数,分别比较前二个拼音字段,第一个拼音字段“BO”相同,第二个拼音字段“LAI”和“LEI”中有一个拼音字符不相同,因此,不同的拼音字符在第二个拼音字段中的所占比例为1/3,在整个拼音字段中所占比例为1/3*1/2=1/6,“博莱(BO,LAI)”和“博雷斯拉夫(BO,LEI,SI,LA,FU)”信息相似度为1-1/6=5/6。
因此,对于采集的“博莱”对阵“比尔森”、“博雷斯拉夫”对阵“皮尔森”的两场赛事信息,“博莱”和“博雷斯拉夫”的信息相似度为5/6,“比尔森”和“皮尔森”的信息相似度为5/6,则该两场赛事信息的信息相似度为5/6*50%+5/6*50%=5/6。
可选的,所述数据信息包括时间信息,所述预设数据类型可以包括标准时间格式,标准时间格式可以为国际标准统一时间,由于各个网站的数据信息显示的是各自系统自带的时间,导致有时可能是同一比赛信息,但是显示时间不同,可以将所述第一时间信息转化为标准时间格式的第一字段信息,以及将所述第二时间信息转化标准时间格式的第二字段信息,判断转化为所述标准时间格式的第一字段信息与第二字段信息是否一致。
信息匹配模块304,用于根据所述第一字段信息与所述第二字段信息之间的信息相似度,确定所述第一数据信息与所述第二数据信息是否匹配。
具体实现中,可以判断所述第一字段信息与所述第二字段信息之间的信息相似度是否大于预设阈值;若所述第一字段信息与所述第二字段信息之间的信息相似度大于所述预设阈值,则确定所述第一数据信息与所述第二数据信息匹配,其中,预设阈值可以为80%或90%,但不局限于上述值。或者,若第一字段信息与第二字段信息一致,则确定所述第一数据信息与所述第二数据信息匹配。
在本发明实施例中,首先获取多种数据信息,然后将至少两个数据信息分别转化为预设数据类型的字段信息;其次确定字段信息之间的信息相似度;最后根据字段信息之间的信息相似度,确定至少两个数据信息是否匹配。通过将不同的数据信息转化为预设数据类型的字段信息,来确定多个数据信息之间相似度,从而将完全匹配的数据信息建立统一关系,并保障信息的准确性,减少运营工作量。
请参考图5,图5是本发明实施例提出的一种电子设备的结构示意图。如图所示,该电子设备可以包括:至少一个处理器501,例如CPU,至少一个接收器503,至少一个存储器505,至少一个发送器505,至少一个通信总线502。其中,通信总线502用于实现这些组件之间的连接通信。其中,本发明实施例中的接收器503和发送器505可以是有线发送端口,也可以为无线设备,例如包括天线装置,用于与其他节点设备进行信令或数据的通信。存储器505可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器505可选的还可以是至少一个位于远离前述处理器501的存储装置。存储器505中存储一组程序代码,且处理器501用于调用存储器中存储的程序代码,用于执行以下操作:
获取多种数据信息,所述多种数据信息包括至少两个数据信息;
将所述至少两个数据信息分别转化为预设数据类型的字段信息;
确定所述字段信息之间的信息相似度;
根据所述字段信息之间的信息相似度,确定所述至少两个数据信息是否匹配。
其中,处理器501还用于执行如下操作步骤:
确定所述第一字段信息的英文字母的个数、所述第二字段信息的英文字母的个数,以及所述第一字段信息与所述第二字段信息中不相同的英文字母的个数;
根据所述第一字段信息的英文字母的个数、所述第二字段信息的英文字母的个数,以及所述第一字段信息与所述第二字段信息中不相同的英文字母的个数,计算所述第一字段信息与所述第二字段信息之间的信息相似度。
其中,处理器501还用于执行如下操作步骤:
选择所述第一字段信息的英文字母的个数以及所述第二字段信息的英文字母的个数中数量较少的一个作为基准参数;
将所述第一字段信息与所述第二字段信息中不同的英文字母的个数除以所述基准参数得到计算得到比例值;
将单位值1减去所述比例值,计算得到所述第一字段信息与所述第二字段信息之间的信息相似度。
其中,处理器501还用于执行如下操作步骤:
判断转化为所述标准时间格式的第一字段信息与第二字段信息是否一致;
所述确定所述第一数据信息与所述第二数据信息是否匹配包括:
若所述第一字段信息与所述第二字段信息一致,则确定所述第一数据信息与所述第二数据信息匹配。
其中,处理器501还用于执行如下操作步骤:
判断所述第一字段信息与所述第二字段信息之间的信息相似度是否大于预设阈值;
若所述第一字段信息与所述第二字段信息之间的信息相似度大于所述预设阈值,则确定所述第一数据信息与所述第二数据信息匹配。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本发明实施例所提供的内容下载方法及相关设备、系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种信息匹配方法,其特征在于,所述方法包括:
获取多种数据信息,所述多种数据信息包括至少两个数据信息;
将所述至少两个数据信息分别转化为预设数据类型的字段信息;
确定所述字段信息之间的信息相似度;
根据所述字段信息之间的信息相似度,确定所述至少两个数据信息是否匹配。
2.如权利要求1所述的方法,其特征在于,所述至少两个数据信息包括第一数据信息以及第二数据信息,所述字段信息包括与所述第一数据信息对应的第一字段信息以及与所述第二数据信息对应的第二字段信息,所述数据信息包括中文信息,所述预设数据类型包括英文字母,所述确定所述字段信息之间的信息相似度包括:
确定所述第一字段信息的英文字母的个数、所述第二字段信息的英文字母的个数,以及所述第一字段信息与所述第二字段信息中不相同的英文字母的个数;
根据所述第一字段信息的英文字母的个数、所述第二字段信息的英文字母的个数,以及所述第一字段信息与所述第二字段信息中不相同的英文字母的个数,计算所述第一字段信息与所述第二字段信息之间的信息相似度。
3.如权利要求2所述的方法,其特征在于,所述根据所述第一字段信息的英文字母的个数、所述第二字段信息的英文字母的个数,以及所述第一字段信息与所述第二字段信息中不相同的英文字母的个数,计算所述第一字段信息与所述第二字段信息之间的信息相似度包括:
选择所述第一字段信息的英文字母的个数以及所述第二字段信息的英文字母的个数中数量较少的一个作为基准参数;
将所述第一字段信息与所述第二字段信息中不相同的英文字母的个数除以所述基准参数得到计算得到比例值;
将单位值1减去所述比例值,计算得到所述第一字段信息与所述第二字段信息之间的信息相似度。
4.如权利要求1所述的方法,其特征在于,所述至少两个数据信息包括第一数据信息以及第二数据信息,所述字段信息包括与所述第一数据信息对应的第一字段信息以及与所述第二数据信息对应的第二字段信息,所述数据信息包括时间信息,所述预设数据类型包括标准时间格式,所述确定所述字段信息之间的信息相似度包括:
判断转化为所述标准时间格式的第一字段信息与第二字段信息是否一致;
所述确定所述至少两个数据信息是否匹配包括:
若所述第一字段信息与所述第二字段信息一致,则确定所述第一数据信息与所述第二数据信息匹配。
5.如权利要求2或3所述的方法,其特征在于,所述根据所述字段信息之间的信息相似度,确定所述至少两个数据信息是否匹配包括:
判断所述第一字段信息与所述第二字段信息之间的信息相似度是否大于预设阈值;
若所述第一字段信息与所述第二字段信息之间的信息相似度大于所述预设阈值,则确定所述第一数据信息与所述第二数据信息匹配。
6.一种信息匹配装置,其特征在于,所述装置包括:
信息获取模块,用于获取多种数据信息,所述多种数据信息包括至少两个数据信息;
信息转化模块,用于将所述至少两个数据信息分别转化为预设数据类型的字段信息;
信息确定模块,用于确定所述字段信息之间的信息相似度;
信息匹配模块,用于根据所述字段信息之间的信息相似度,确定所述至少两个数据信息是否匹配。
7.如权利要求6所述的装置,其特征在于,所述至少两个数据信息包括第一数据信息以及第二数据信息,所述字段信息包括与所述第一数据信息对应的第一字段信息以及与所述第二数据信息对应的第二字段信息,所述数据信息包括中文信息,所述预设数据类型包括英文字母,所述信息确定模块包括:
个数确定单元,用于确定所述第一字段信息的英文字母的个数、所述第二字段信息的英文字母的个数,以及所述第一字段信息与所述第二字段信息中不相同的英文字母的个数;
信息计算单元,用于根据所述第一字段信息的英文字母的个数、所述第二字段信息的英文字母的个数,以及所述第一字段信息与所述第二字段信息中不相同的英文字母的个数,计算所述第一字段信息与所述第二字段信息之间的信息相似度。
8.如权利要求7所述的装置,其特征在于,所述信息计算单元具体用于:
选择所述第一字段信息的英文字母的个数以及所述第二字段信息的英文字母的个数中数量较少的一个作为基准参数;
将所述第一字段信息与所述第二字段信息中不相同的英文字母的个数除以所述基准参数得到计算得到比例值;
将单位值1减去所述比例值,计算得到所述第一字段信息与所述第二字段信息之间的信息相似度。
9.如权利要求6所述的装置,其特征在于,所述至少两个数据信息包括第一数据信息以及第二数据信息,所述字段信息包括与所述第一数据信息对应的第一字段信息以及与所述第二数据信息对应的第二字段信息,所述数据信息包括时间信息,所述预设数据类型包括标准时间格式,所述信息确定模块具体用于:
判断转化为所述标准时间格式的第一字段信息与第二字段信息是否一致;
所述信息匹配模块具体用于:
若所述第一字段信息与所述第二字段信息一致,则确定所述第一数据信息与所述第二数据信息匹配。
10.一种电子设备,其特征在于,包括:处理器、存储器、通信接口和总线;
所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信;
所述存储器存储可执行程序代码;
所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于:
获取多种数据信息,所述多种数据信息包括至少两个数据信息;
将所述至少两个数据信息分别转化为预设数据类型的字段信息;
确定所述字段信息之间的信息相似度;
根据所述字段信息之间的信息相似度,确定所述至少两个数据信息是否匹配。
CN201610334760.5A 2016-05-18 2016-05-18 一种信息匹配方法、装置及电子设备 Pending CN106033475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610334760.5A CN106033475A (zh) 2016-05-18 2016-05-18 一种信息匹配方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610334760.5A CN106033475A (zh) 2016-05-18 2016-05-18 一种信息匹配方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN106033475A true CN106033475A (zh) 2016-10-19

Family

ID=57149410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610334760.5A Pending CN106033475A (zh) 2016-05-18 2016-05-18 一种信息匹配方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN106033475A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189809A (zh) * 2018-10-17 2019-01-11 北京金堤科技有限公司 一种股东名称关联匹配的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080065630A1 (en) * 2006-09-08 2008-03-13 Tong Luo Method and Apparatus for Assessing Similarity Between Online Job Listings
CN102789467A (zh) * 2011-05-20 2012-11-21 腾讯科技(深圳)有限公司 一种数据融合的方法、装置及数据处理系统
CN103823838A (zh) * 2013-12-18 2014-05-28 江苏省电力公司常州供电公司 一种多格式文档录入并比对的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080065630A1 (en) * 2006-09-08 2008-03-13 Tong Luo Method and Apparatus for Assessing Similarity Between Online Job Listings
CN102789467A (zh) * 2011-05-20 2012-11-21 腾讯科技(深圳)有限公司 一种数据融合的方法、装置及数据处理系统
CN103823838A (zh) * 2013-12-18 2014-05-28 江苏省电力公司常州供电公司 一种多格式文档录入并比对的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189809A (zh) * 2018-10-17 2019-01-11 北京金堤科技有限公司 一种股东名称关联匹配的方法和装置

Similar Documents

Publication Publication Date Title
CN110890970B (zh) 创建群组的方法及装置、存储介质及电子设备
US20200311342A1 (en) Populating values in a spreadsheet using semantic cues
US10796244B2 (en) Method and apparatus for labeling training samples
US20170099253A1 (en) Social media messaging platform for creating and sharing moments
US20180104588A1 (en) Method, apparatus, and storage medium for displaying data
CN104809209A (zh) 社交网络信息流的显示方法、装置及服务器
CN103714115A (zh) 一种网页内容的加载方法和装置
CN105354306A (zh) 一种应用推荐方法以及终端
CN108399072A (zh) 应用页面更新方法和装置
CN104112002A (zh) 一种表单适配的方法、装置和系统
CN102880695A (zh) 网页中点击位置的确定方法及装置
CN104424240B (zh) 多表关联方法、主服务节点、计算节点及系统
WO2014194656A1 (en) Method and device for data screening
KR101483611B1 (ko) 이미지에서 객체를 추출하기 위한 방법 및 단말기
CN106033475A (zh) 一种信息匹配方法、装置及电子设备
CN106708591B (zh) 操作系统的文字检测方法及装置
CN109614592B (zh) 文本的处理方法、装置、存储介质和电子设备
CN109361929B (zh) 一种确定直播间标签的方法以及相关设备
CN110535669B (zh) 内容推荐方法与内容推荐装置
CN103559195A (zh) 一种搜索方法和终端
CN108427671B (zh) 信息转换方法和装置、存储介质及电子装置
CN102629208A (zh) 一种用于确定系统界面的方法、装置和设备
CN105426438A (zh) 一种信息显示方法及终端
CN105991400B (zh) 一种群组搜索方法及其设备
CN111459371B (zh) 视图切换方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161019

RJ01 Rejection of invention patent application after publication