CN102298618B - 一种获取匹配度以执行相应操作的方法、装置及设备 - Google Patents

一种获取匹配度以执行相应操作的方法、装置及设备 Download PDF

Info

Publication number
CN102298618B
CN102298618B CN 201110221841 CN201110221841A CN102298618B CN 102298618 B CN102298618 B CN 102298618B CN 201110221841 CN201110221841 CN 201110221841 CN 201110221841 A CN201110221841 A CN 201110221841A CN 102298618 B CN102298618 B CN 102298618B
Authority
CN
China
Prior art keywords
character string
fragment
matching
string fragment
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110221841
Other languages
English (en)
Other versions
CN102298618A (zh
Inventor
常磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN 201110221841 priority Critical patent/CN102298618B/zh
Publication of CN102298618A publication Critical patent/CN102298618A/zh
Application granted granted Critical
Publication of CN102298618B publication Critical patent/CN102298618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种获取匹配度以执行相应操作的方法、装置及设备。根据本发明的方案包括:获取待匹配字符串;获取该待匹配字符串的字符串片段组集合,其中,该字符串片段组集合中的每组字符串片段包含属于所述待匹配字符串的一个或多个字符串片段,且属于同组的字符串片段具有相同的字符数;分别获取所述字符串片段组集合与至少一个其他字符串片段组集合间的匹配度,以根据所述匹配度来对所述待匹配字符串和/或所述至少一个其他字符串片段组集合对应的字符序列执行相应操作。本发明的优点在于,提高了匹配精度,可获得更多的匹配结果,并且待匹配字符串与其纠错提示序列的起始部分可以不同。

Description

一种获取匹配度以执行相应操作的方法、装置及设备
技术领域
本发明涉及计算机领域,尤其涉及一种用于获取匹配度以执行相应操作的方法、装置及设备。
背景技术
现有技术中,通过采用对两个字符串进行正向匹配或反向匹配的方式,来确定两个字符串间的匹配度。然而,该等匹配方式存在缺陷,例如,当一个字符串分散在另一个字符串中时,该等匹配方式往往难以获得较好的匹配结果。
发明内容
本发明的目的是提供一种用于获取匹配度以执行相应操作的方法、装置及设备。
根据本发明的一个方面,提供一种计算机实现的用于获取匹配度以执行相应操作的方法,其中,所述方法包括以下步骤:
a.获取待匹配字符串;
b.获取该待匹配字符串的字符串片段组集合,其中,该字符串片段组集合中的每组字符串片段包含属于所述待匹配字符串的一个或多个字符串片段,且属于同组的字符串片段具有相同的字符数;
c.分别获取所述字符串片段组集合与至少一个其他字符串片段组集合间的匹配度,以根据所述匹配度来对所述待匹配字符串和/或所述至少一个其他字符串片段组集合对应的字符序列执行相应操作。
根据本发明的一个方面,还提供了一种用于获取匹配度以执行相应操作的提示获取装置,其中,所述提示获取装置包括:
第一获取装置,用于获取待匹配字符串;
第二获取装置,用于获取该待匹配字符串的字符串片段组集合,其中,该字符串片段组集合中的每组字符串片段包含属于所述待匹配字符串的一个或多个字符串片段,且属于同组的字符串片段具有相同的字符数;
匹配执行装置,用于分别获取所述字符串片段组集合与至少一个其他字符串片段组集合间的匹配度,以根据所述匹配度来对所述待匹配字符串和/或所述至少一个其他字符串片段组集合对应的字符序列执行相应操作。
与现有技术相比,本发明具有以下优点:1)通过采用多个粒度对待匹配字符串进行切分以获得字符串片段组集合,并通过所述字符串片段组集合来获得与所述待匹配字符串匹配度较高的字符串,来提高匹配的精度;2)本发明中只要字符序列中的任何部分与所述待匹配字符串相匹配,即使该字符序列的起始部分的字符与待匹配字符串无关,仍可获得该字符序列与所述待匹配字符串的匹配的结果,从而可匹配到更多可能的字符序列;3)通过对各个字符串片段组集合间的匹配,以及对各个字符串片段和/或字符序列设置权重,可更加合理的确定各个字符串片段组集合间的匹配度,以获得更精确或更符合用户偏好的纠错提示序
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一个方面的计算机实现的用于获取匹配度以执行相应操作的方法流程图;
图2为本发明一个优选实施例的用于获取匹配度以执行相应操作的方法流程图;
图3为本发明一个方面的用于获取匹配度以执行相应操作的提示获取装置的结构示意图;
图4为本发明一个优选实施例的用于获取匹配度以执行相应操作的提示获取装置的结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示意出了本发明一个方面的计算机实现的用于获取匹配度以执行相应操作的方法流程图。根据本发明的方法包括步骤S1、步骤S2以及步骤S3。其中,根据本发明的方法可通过计算机设备中的提示获取装置来实现,例如,通过计算机设备中诸如应用模块、操作系统、处理控制器等来实现。其中,所述计算机设备为一种能够按照事先存储的程序,自动、高速地进行大量数值计算和各种信息处理的现代化智能电子设备,其硬件包括但不限于微处理器、FPGA、DSP、嵌入式设备等。其中,所述计算机设备包括网络设备和用户用设备,所述网络设备和用户设备可单独执行来实现本发明,也可通过接入网络与网络中的其他设备进行交互来实现本发明。所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机;所述用户设备包括但不限于电脑、智能手机、PDA等。其中,所述用户设备或所述网络设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S1中,提示获取装置获取待匹配字符串。
其中,所述提示获取装置获取待匹配字符串的方法包括但不限于:1)提示获取装置获取用户输入的字符串作为待匹配字符串;2)提示获取装置获取用户选择的字符串作为待匹配字符串;3)提示获取装置获取文本中符合预定获取条件的字符串作为待匹配字符串,例如,提示获取装置获取文本的标题部分作为待匹配字符串,又例如,提示获取装置获取文本中包含特定关键词的句子作为待匹配字符串等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取待匹配字符串的实现方式,均应包含在本发明的范围内。
接着,在步骤S2中,提示获取装置获取该待匹配字符串的字符串片段组集合。其中,该字符串片段组集合中的每组字符串片段包含属于所述待匹配字符串的一个或多个字符串片段,且属于同组的字符串片段具有相同的字符数。
其中,所述提示获取装置获取该待匹配字符串的字符串片段组集合的方法包括但不限于:
1)提示获取装置直接获取与所述待匹配字符串对应的字符串片段组集合。
例如,提示获取装置在本地查询所述待匹配字符串,以获得预存储的与所述待匹配字符串对应的字符串片段组集合。
又例如,提示获取装置向网络发送包含所述待匹配字符串的请求,以获得网络反馈的与所述待匹配字符串相应的字符串片段组集合。
2)提示获取装置根据多个粒度来对所述待匹配字符串进行切分,获得与所述多个粒度分别对应的多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合。
其中,所述粒度用于确定字符串片段所包含的字符数,例如,根据粒度2对待匹配字符串进行切分,则获得的所有字符串片段均包含2个字符。
具体地,所述提示获取装置根据多个粒度来对所述待匹配字符串进行切分,获得与所述多个粒度分别对应的多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合的方式包括但不限于:
1)提示获取装置根据预定的多个粒度,来对待匹配字符串进行切分,获得与所述多个粒度分别对应的多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合。
例如,提示获取装置根据预定的1至4这四个粒度对待匹配字符串“abcd”进行切分,获得与粒度1对应的字符串片段组“a、b、c、d”、与粒度2对应的字符串片段组“ab、bc、cd”,与粒度3对应的字符串片段组“abc、bcd”以及与粒度4对应的字符串片段组“abcd”,则提示获取装置确定“abcd”对应的字符串片段组集合包含“a、b、c、d;ab、bc、cd;abc、bcd;abcd”。
2)提示获取装置根据待匹配字符串的字符数来确定最大粒度;并采用小于或小于等于该最大粒度的多个粒度来对所述待匹配字符串进行切分,获得所述多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合。
其中,所述提示获取装置根据待匹配字符串的字符数来确定最大粒度的方式包括但不限于:
a)直接根据所述待匹配字符串的字符数来确定最大粒度。
例如,直接将所述待匹配字符串的字符数作为最大粒度;又例如,将待匹配字符串的字符数的1/2(取整)的值作为最大粒度。
b)提示获取装置判断所述待匹配字符串的字符数是否大于或等于预定阈值;当所述待匹配字符串的字符数大于或等于预定阈值时,提示获取装置将所述预定阈值作为所述待匹配字符串的最大粒度。
例如,提示获取装置在步骤S1中获得的待匹配字符串的字符数为11,则提示获取装置判断字符数11大于预定阈值5,则提示获取装置确定最大粒度为5。
优选地,当所述待匹配字符串的字符数小于预定阈值时,提示获取装置将所述待匹配字符串的字符数作为所述待匹配字符串的最大切分粒度。
其中,提示获取装置采用小于或小于等于该最大粒度的多个粒度来对所述待匹配字符串进行切分,获得所述多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合的方式包括但不限于:
a)提示获取装置采用小于等于该最大粒度的全部粒度来对所述待匹配字符串进行切分,获得所述多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合。
例如,当最大粒度为4时,提示获取装置采用粒度1、2、3、4这4个粒度对待匹配字符串进行切分,获得所述多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合。
b)提示获取装置采用小于等于该最大粒度的部分粒度对所述待匹配字符串进行切分,获得所述多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合。
例如,当最大粒度为5时,提示获取装置采用粒度1、3、5这三个粒度对待匹配字符串“南京市长江大桥”进行切分,以获得与粒度1对应的字符串片段组“南、京、市、长、江、大、桥”,与粒度1对应的字符串片段组“南京市、京市长、市长江、长江大、江大桥”,以及与粒度5对应的字符串片段组“南京市长江、京市长江大、市长江大桥”;则提示获取装置确定待匹配字符串“南京市长江大桥”对应的字符串片段组集合包括该3组字符串片段“南、京、市、长、江、大、桥;南京市、京市长、市长江、长江大、江大桥;南京市长江、京市长江大、市长江大桥”。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取该待匹配字符串的字符串片段组集合的实现方式,均应包含在本发明的范围内。
接着,在步骤S3中,提示获取装置分别获取待匹配字符串的字符串片段组集合与至少一个其他字符串片段组集合间的匹配度,以根据所述匹配度来对所述待匹配字符串和/或所述至少一个其他字符串片段组集合对应的字符序列执行相应操作。
具体地,提示获取装置先分别获取待匹配字符串的字符串片段组集合与所述至少一个其他字符串片段组集合中各个其他字符串片段组集合间的匹配度,再根据所述匹配度来对所述待匹配字符串和/或所述至少一个其他字符串片段组集合对应的字符序列执行相应操作。优选地,该相应操作包括但不限于:1)基于用户输入的待匹配字符串与搜索项包含的字符序列间的匹配度来确定搜索项在搜索结果中排序,例如,所包含的字符序列与待匹配字符串匹配度较高的搜索项排序前置等;2)根据所述匹配度来由所述至少一个其他字符串片段组集合分别对应的字符序列中选择至少一个字符序列作为所述待匹配字符串的纠错提示序列等。需要说明的是,上述仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据匹配度来对待匹配字符串和/或字符序列执行相应操作的方式,均应包含在本发明的范围内。
其中,所述提示获取装置分别获取待匹配字符串的字符串片段组集合与至少一个其他字符串片段组集合间的匹配度的方式包括但不限于:
1)分别获取待匹配字符串的字符串片段组集合与该至少一个其他字符串片段组集合中每个其他字符串片段组集合间的匹配度;以所述匹配度来对待匹配字符串和/或字符序列执行相应操作。
2)提示获取装置由所述预定集合库包含的其他字符串片段组集合中选择所对应的字符序列与所述待匹配字符串相关的多个其他字符串片段组集合,并分别获取所述字符串片段组集合与所获取的多个其他字符串片段组集合间的多个匹配度。
具体地,所述提示获取装置先选择所有所对应的字符序列与所述待匹配字符串相关的多个其他字符串片段组集合,并分别获取所述字符串片段组集合与所获取的多个其他字符串片段组集合间的多个匹配度;或者,所述提示获取装置每选择一个所对应的字符序列与所述待匹配字符串相关的其他字符串片段组集合,即获取待匹配字符串的字符串片段组集合与该其他字符串片段组集合间的匹配度。
例如,提示获取装置在步骤S1中获得待匹配字符串“zhangjiag”,则提示获取装置基于所述预定集合库的索引,选择在索引“zh”下的一个或多个字符序列所对应的其他字符串片段组集合,并获取所述一个或多个字符序列所对应的其他字符串片段组集合与“zhangjiag”的字符串片段组集合间的匹配度。
又例如,提示获取装置在步骤S1中获得待匹配字符串“张家界”,则每当提示获取装置获得一个包含字符“张”的字符序列的字符串片段组集合,即获得该字符序列所对应的字符串片段组集合与“张家界”的字符串片段组集合间的匹配度,直至获得预定集合库中所有包含字符“张”的字符序列所对应的字符串片段组集合与“张家界”的字符串片段组集合间的匹配度。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何分别获取待匹配字符串的字符串片段组集合与至少一个其他字符串片段组集合间的匹配度,以根据所述匹配度来对所述待匹配字符串和/或所述至少一个其他字符串片段组集合对应的字符序列执行相应操作的实现方式,均应包含在本发明的范围内。
作为本发明的优选实施例之一,步骤S3中所述根据所述匹配度来对所述待匹配字符串和/或所述至少一个其他字符串片段组集合对应的字符序列执行相应操作的步骤包括以下步骤:根据匹配度来由至少一个其他字符串片段组集合分别对应的字符序列中选择至少一个字符序列作为所述待匹配字符串的纠错提示序列;并将所述纠错提示序列呈现给用户。
具体地,提示获取装置先分别获取待匹配字符串的字符串片段组集合与至少一个其他字符串片段组集合中各个其他字符串片段组集合间的匹配度,再根据所述匹配度由该至少一个其他字符串片段组集合分别对应的字符序列中选择至少一个字符序列作为所述待匹配字符串的纠错提示序列;例如,提示获取装置获得待匹配字符串Str1的字符串片段组集合与预定集合库中的3个其他字符串片段组集合的匹配度分别为30%、67%以及80%,则提示获取装置选择匹配度大于预定阈值50%的其他字符串片段组集合所对应的字符序列作为Str1的纠错提示序列。
或者,提示获取装置每获得待匹配字符串的字符串片段组集合与一个其他字符串片段组集合间的匹配度,即根据匹配度判断是否选择该其他字符串片段组集合所对应的字符序列作为纠错提示序列;例如,提示获取装置获得待匹配字符串Str2的字符串片段组集合CL1与一个其他字符串片段组集合CL2之间的匹配度为85%,提示获取装置已选择的纠错提示序列Str3的字符串片段组集合CL3与CL1之间的匹配度79%,则提示获取装置确定采用与CL2对应的字符序列Str4来替换Str3作为待匹配字符串Str2的纠错提示序列。
其中,所述提示获取装置将所述纠错提示序列呈现给用户的方式包括但不限于:
1)将所获得的一个或多个纠错提示序列直接呈现给用户。
例如,将步骤S3中所选择的多个纠错提示序列以预定的顺序呈现给用户;又例如,按照随机顺序呈现步骤S3中所选择的多个纠错提示序列。
2)提示获取装置根据各个纠错提示序列分别对应的其他字符串片段组集合与所述字符串片段组集合间的匹配度,获得用于确定各个纠错提示序列的呈现方式的呈现信息;接着,提示获取装置根据各个纠错提示序列的呈现信息,将所述各个纠错提示序列呈现给所述用户。
其中,所述呈现信息包括但不限于:a)纠错提示序列的呈现顺序;b)纠错提示序列的呈现样式,例如,字体、大小、颜色等。
例如,提示获取装置将各个纠错提示序列各个纠错提示序列按照匹配度由高到低排序展现,且匹配度最高的纠错提示序列加粗显示等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何将所述纠错提示序列呈现给用户的实现方式,均应包含在本发明的范围内。
根据本发明的方法,通过采用多个粒度对待匹配字符串进行切分以获得字符串片段组集合,并通过所述字符串片段组集合来获得与所述待匹配字符串匹配度较高的字符串,来提高匹配的精度;并且本发明中只要字符序列中的任何部分与所述待匹配字符串相匹配,即使该字符序列的起始部分的字符与待匹配字符串无关,仍可获得该字符序列与所述待匹配字符串的匹配的结果,从而可匹配到更多可能的字符序列。
图2示意出了本发明一个优选实施例的用于获取匹配度以执行相应操作的方法流程图。根据本实施例的方法包括步骤S1、步骤S2以及步骤S3。其中,所述步骤S3包括步骤S301。
所述步骤S1以及步骤S2已在参照图1所示实施例中予以详述,并以引用的方式包含于此,不再赘述。
接着,提示获取装置通过执行步骤S3来获取字符串片段组集合与至少一个其他字符串片段组集合间的匹配度,以根据所述匹配度来对所述待匹配字符串和/或所述至少一个其他字符串片段组集合对应的字符序列执行相应操作。其中,在执行步骤S3过程中,提示获取装置通过执行步骤S301来获取字符串片段组集合与至少一个其他字符串片段组集合中的一个其他字符串片段组集合间的匹配度。
在步骤S301中,提示获取装置将所述字符串片段组集合中的各组字符串片段分别与该其他字符串片段组集合中至少一组字符串片段进行匹配,以获得所述字符串片段组集合与该其他字符串片段组集合间的匹配度。
优选地,所述提示获取装置将所述字符串片段组集合中的每组字符串片段均与该其他字符串片段组集合中的各组字符串片段进行匹配,以获得所述字符串片段组集合与该其他字符串片段组集合间的匹配度;或者,所述提示获取装置将所述字符串片段组集合中的各组字符串片段分别与该其他字符串片段组集合中的字符串片段的字符数相同的字符串片段组进行匹配,以获得所述字符串片段组集合与该其他字符串片段组集合间的匹配度。
例如,提示获取装置在步骤S1中获得的待匹配字符串Str5包含char1和char2个字符,且在步骤S2中获得Str5的字符串片段组集合CL4“char1、char2;char1char2”;则提示获取装置将CL4中粒度为1的字符串片段组“char1、char2”与其他字符串片段组集合CL5“char3、char4、char5;char3char4、char4char5;char3char4char5”中的各组字符串片段“char3、char4、char5”、“char3char4、char4char5”以及“char3char4char5”分别进行匹配,其中,char1与char2分别占三个字节的存储空间,char3、char4、char5各占1个字节的存储空间,提示获取装置判断存储“char1”的三个字节的值与存储“char3char4char5”的三个字节的值相同,则提示获取装置确定粒度为1的字符串片段组“char1、char2”中有1个字符获得匹配,则确定“char1、char2”与CL5的组匹配度为1;接着,提示获取装置将CL4中粒度为2的字符串片段组“char1char2”与其他字符串片段组集合CL5中的各组字符串片段“char3、char4、char5”、“char3char4、char4char5”、以及“char3char4char5”分别进行匹配,确定未获得与“char1char2”匹配的字符串片段,提示获取装置确定“char1char2”与CL5的组匹配度为0;则提示获取装置确定CL4与CL5之间的匹配度为被匹配的字符串片段数量1占全部字符串片段3的百分比,即33.3%。需要说明的是,char1至char5用于指代字符,而非表示字符本身。
又例如,提示获取装置将待匹配字符串Str6“abcd”的字符串片段组集合CL6“a、b、c、d;ab、bc、cd;abc、bcd;abcd”中粒度为1的字符串片段组“a、b、c、d”与其他字符串片段组集合CL7“a、b、c、e;ab、bc、ce;abc、bce;abce”中粒度同样为1的字符串片段组““a、b、c、e、m”进行匹配,并确定“a、b、c、d”中有3个的字符串片段包含于字符串片段组“a、b、c、e、m”中,则提示获取装置确定“a、b、c、d”与CL7的组匹配度为3;相似地,提示获取装置确定“ab、bc、cd”与CL7的组匹配度为2,“abc、bcd”与CL7的组匹配度为1;“abcd”与CL7的组匹配度为0,则提示获取装置确定字符串片段组集合CL6与CL7之间的匹配度为各组的组匹配度的平均值1.5。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何将所述字符串片段组集合中的各组字符串片段分别与该其他字符串片段组集合中至少一组字符串片段进行匹配,以获得所述字符串片段组集合与该其他字符串片段组集合间的匹配度的实现方式,均应包含在本发明的范围内。
作为本实施例的优选方案之一,所述步骤S302进一步包括根据所述字符串片段组集合中每个字符串片段的预定片段权重信息和/或该其他字符串片段组集合所对应字符序列的预定序列权重信息,并结合所述字符串片段组集合中的各组字符串片段分别与该其他字符串片段组集合中至少一组字符串片段的匹配结果,确定所述字符串片段组集合与该其他字符串片段组集合间的匹配度的步骤。
其中,所述预定片段权重信息基于以下至少一项因素来确定:1)该预定片段权重信息对应的字符串片段在该字符串片段所属待匹配字符串中的位置信息;例如,将待匹配字符串平均分为前中后三段,其中,位于各段的字符串片段的预定片段权重信息由大到小依次为:位于待匹配字符串前段的字符串片段、位于待匹配字符串后段的字符串片段、以及位于待匹配字符串中段的字符串片段。2)该预定片段权重信息对应的字符串片段的粒度;例如,预定片段权重信息与字符串片段的粒度成正比。3)该预定片段权重信息对应的字符串片段的第一历史使用记录;其中,所述第一历史使用记录包括但不限于:a)字符串片段被用户选择的频次;b)字符串片段被搜索的频次等。
其中,所述预定序列权重信息基于以下至少一项因素来确定:1)该预定序列权重信息所对应的字符序列的第二历史使用记录;其中,所述第二历史使用记录包括但不限于:a)所述字符序列被选择的频次;b)所述字符序列被搜索的频次等。2)该预定序列权重信息所对应的字符序列的用户关注度;例如,将用户历史所选择的字符序列与该预定序列权重信息所对应的字符序列的相似度作为用户关注度;又例如,根据字符序列是否属于用户所选择的关注领域的字符序列来确定该字符序列的用户关注度。
例如,步骤S2中获得待匹配字符串Str7“mavie”的字符串片段组集合CL8“m、a、v、i、e;ma、av、vi、ie;mav、avi、vie”;其中,粒度为1的字符串片段组“m、a、v、i、e”中各个字符串片段的预定片段权重信息按照字符串片段在待匹配字符串中的位置由前至后依次为5、4、3、2、1;粒度为2的字符串片段组“ma、av、vi、ie”中各个字符串片段的预定片段权重信息依次为4、3、2、1;粒度为3的字符串片段组“mav、avi、vie”中各个字符串片段的预定片段权重信息依次为3、2、1;提示获取装置将CL8与其他字符串片段组集合CL9“m、o、v、i、e;mo、ov、vi、ie;mov、ovi、vie”进行匹配,则提示获取装置基于预定CL8中每组字符串片段的组匹配度为在CL9中匹配到的字符串片段的预定片段权重信息之和的规则,确定粒度为1的字符串片段组中仅字符串片段“a”未在被匹配到,则该组的组匹配度为5+3+2+1=11,相似地,确定粒度为2的字符串片段组的匹配度为2+1=3,确定粒度为3的字符串片段组的匹配度为1,则确定CL8与CL9的匹配度=CL8的各组匹配度之和÷CL8的全部字符串片段的预定权重信息之和=(11+3+1)÷(5+4+3+2+1+4+3+2+1+3+2+1)=48.4%。
又例如,提示获取装置采用如前例所述的方法确定待匹配字符串的字符串片段组集合CL8与其他字符串组集合CL9之间的初步匹配度48.4%之后,再判断CL9所对应的字符序列Str8是否属于用户所关注的电影领域词汇,若Str8属于电影领域词汇,则确定CL8与CL9间的匹配度为初始匹配度的1.5倍,即匹配度为48.4%×1.5=72.6%。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述字符串片段组集合中每个字符串片段的预定片段权重信息和/或该其他字符串片段组集合所对应字符序列的预定序列权重信息,并结合所述字符串片段组集合中的各组字符串片段分别与该其他字符串片段组集合中至少一组字符串片段的匹配结果,确定所述字符串片段组集合与该其他字符串片段组集合间的匹配度的步骤的实现方式,均应包含在本发明的范围内。
根据本实施例的方法,通过对各个字符串片段组集合间的匹配,提高了待匹配字符串与字符序列之间匹配的精确度,并且通过对各个字符串片段和/或字符序列设置权重,更合理的确定各个字符串片段组集合间的匹配度,以获得更精确或更符合用户偏好的纠错提示序列。
图3示意出了本发明一个方面的计算机实现的用于获取匹配度以执行相应操作的提示获取装置的结构示意图。本发明中,所述提示获取装置包括第一获取装置1、第二获取装置2以及匹配执行装置3。
第一获取装置1获取待匹配字符串。
其中,所述第一获取装置1获取待匹配字符串的方式包括但不限于:1)第一获取装置1获取用户输入的字符串作为待匹配字符串;2)第一获取装置1获取用户选择的字符串作为待匹配字符串;3)第一获取装置1获取文本中符合预定获取条件的字符串作为待匹配字符串,例如,第一获取装置1获取文本的标题部分作为待匹配字符串,又例如,第一获取装置1获取文本中包含特定关键词的句子作为待匹配字符串等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取待匹配字符串的实现方式,均应包含在本发明的范围内。
接着,第二获取装置2获取该待匹配字符串的字符串片段组集合。其中,该字符串片段组集合中的每组字符串片段包含属于所述待匹配字符串的一个或多个字符串片段,且属于同组的字符串片段具有相同的字符数。
其中,所述第二获取装置2获取该待匹配字符串的字符串片段组集合的方式包括但不限于:
1)第二获取装置2直接获取与所述待匹配字符串对应的字符串片段组集合。
例如,第二获取装置2在本地查询所述待匹配字符串,以获得预存储的与所述待匹配字符串对应的字符串片段组集合。
又例如,第二获取装置2向网络发送包含所述待匹配字符串的请求,以获得网络反馈的与所述待匹配字符串相应的字符串片段组集合。
2)包含于第二获取装置2中的第一子获取装置(图未示)根据多个粒度来对所述待匹配字符串进行切分,获得与所述多个粒度分别对应的多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合。
其中,所述粒度用于确定字符串片段所包含的字符数,例如,根据粒度2对待匹配字符串进行切分,则获得的所有字符串片段均包含2个字符。
具体地,所述第一子获取装置根据多个粒度来对所述待匹配字符串进行切分,获得与所述多个粒度分别对应的多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合的方式包括但不限于:
a)第一子获取装置根据预定的多个粒度,来对待匹配字符串进行切分,获得与所述多个粒度分别对应的多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合。
例如,第一子获取装置根据预定的1至4这四个粒度对待匹配字符串“abcd”进行切分,获得与粒度1对应的字符串片段组“a、b、c、d”、与粒度2对应的字符串片段组“ab、bc、cd”,与粒度3对应的字符串片段组“abc、bcd”以及与粒度4对应的字符串片段组“abcd”,则第一子获取装置确定“abcd”对应的字符串片段组集合包含“a、b、c、d;ab、bc、cd;abc、bcd;abcd”。
b)包含于第一子获取装置中的粒度确定装置根据待匹配字符串的字符数来确定最大粒度;接着,包含于第一子获取装置中的第二子获取装置(图未示)采用小于或小于等于该最大粒度的多个粒度来对所述待匹配字符串进行切分,获得所述多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合。
其中,所述粒度确定装置根据待匹配字符串的字符数来确定最大粒度的方式包括但不限于:
i)直接根据所述待匹配字符串的字符数来确定最大粒度。
例如,直接将所述待匹配字符串的字符数作为最大粒度;又例如,将待匹配字符串的字符数的1/2(取整)的值作为最大粒度。
ii)包含于粒度确定装置中的判断装置(图未示)判断所述待匹配字符串的字符数是否大于或等于预定阈值;当所述待匹配字符串的字符数大于或等于预定阈值时,包含于粒度确定装置中的第一子粒度确定装置(图未示)将所述预定阈值作为所述待匹配字符串的最大粒度。
例如,第一获取装置1获得的待匹配字符串的字符数为11,则提示获取装置判断字符数11大于预定阈值5,则提示获取装置确定最大粒度为5。
优选地,当所述待匹配字符串的字符数小于预定阈值时,包含于粒度确定装置中的第二子粒度确定装置(图未示)将所述待匹配字符串的字符数作为所述待匹配字符串的最大切分粒度。
其中,第二子获取装置采用小于或小于等于该最大粒度的多个粒度来对所述待匹配字符串进行切分,获得所述多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合的方式包括但不限于:
a)第二子获取装置采用小于等于该最大粒度的全部粒度来对所述待匹配字符串进行切分,获得所述多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合。
例如,当最大粒度为4时,第二子获取装置采用粒度1、2、3、4这4个粒度对待匹配字符串进行切分,获得所述多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合。
b)第二子获取装置采用小于等于该最大粒度的部分粒度对所述待匹配字符串进行切分,获得所述多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合。
例如,当最大粒度为5时,第二子获取装置采用粒度1、3、5这三个粒度对待匹配字符串“南京市长江大桥”进行切分,以获得与粒度1对应的字符串片段组“南、京、市、长、江、大、桥”,与粒度1对应的字符串片段组“南京市、京市长、市长江、长江大、江大桥”,以及与粒度5对应的字符串片段组“南京市长江、京市长江大、市长江大桥”;则第二子获取装置确定待匹配字符串“南京市长江大桥”对应的字符串片段组集合包括该3组字符串片段“南、京、市、长、江、大、桥;南京市、京市长、市长江、长江大、江大桥;南京市长江、京市长江大、市长江大桥”。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取该待匹配字符串的字符串片段组集合的实现方式,均应包含在本发明的范围内。
接着,匹配执行装置3分别获取待匹配字符串的字符串片段组集合与至少一个其他字符串片段组集合间的匹配度,以根据所述匹配度来对所述待匹配字符串和/或所述至少一个其他字符串片段组集合对应的字符序列执行相应操作。
具体地,匹配执行装置3先分别获取待匹配字符串的字符串片段组集合与所述至少一个其他字符串片段组集合中各个其他字符串片段组集合间的匹配度,再根据所述匹配度来对所述待匹配字符串和/或所述至少一个其他字符串片段组集合对应的字符序列执行相应操作。优选地,该相应操作包括但不限于:1)基于用户输入的待匹配字符串与搜索项包含的字符序列间的匹配度来确定搜索项在搜索结果中排序,例如,所包含的字符序列与待匹配字符串匹配度较高的搜索项排序前置等;2)根据所述匹配度来由所述至少一个其他字符串片段组集合分别对应的字符序列中选择至少一个字符序列作为所述待匹配字符串的纠错提示序列等。需要说明的是,上述仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据匹配度来对待匹配字符串和/或字符序列执行相应操作的方式,均应包含在本发明的范围内。
其中,所述匹配执行装置3分别获取待匹配字符串的字符串片段组集合与至少一个其他字符串片段组集合间的匹配度的方式包括但不限于:
1)匹配执行装置3分别获取待匹配字符串的字符串片段组集合与该至少一个其他字符串片段组集合中每个其他字符串片段组集合间的匹配度;以所述匹配度来对待匹配字符串和/或字符序列执行相应操作。
2)包含于匹配执行装置3中的子匹配执行装置(图未示)由所述预定集合库包含的其他字符串片段组集合中选择所对应的字符序列与所述待匹配字符串相关的多个其他字符串片段组集合,并分别获取所述字符串片段组集合与所获取的多个其他字符串片段组集合间的多个匹配度。
具体地,所述子匹配执行装置先选择所有所对应的字符序列与所述待匹配字符串相关的多个其他字符串片段组集合,并分别获取所述字符串片段组集合与所获取的多个其他字符串片段组集合间的多个匹配度;或者,所述子匹配执行装置每选择一个所对应的字符序列与所述待匹配字符串相关的其他字符串片段组集合,即获取待匹配字符串的字符串片段组集合与该其他字符串片段组集合间的匹配度。
例如,第一获取装置1获得待匹配字符串“zhangjiag”,则子匹配执行装置基于所述预定集合库的索引,选择在索引“zh”下的一个或多个字符序列所对应的其他字符串片段组集合,并获取所述一个或多个字符序列所对应的其他字符串片段组集合与“zhangjiag”的字符串片段组集合间的匹配度。
又例如,第一获取装置1获得待匹配字符串“张家界”,则每当子匹配执行装置获得一个包含字符“张”的字符序列的字符串片段组集合,即获得该字符序列所对应的字符串片段组集合与“张家界”的字符串片段组集合间的匹配度,直至获得预定集合库中所有包含字符“张”的字符序列所对应的字符串片段组集合与“张家界”的字符串片段组集合间的匹配度。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何分别获取待匹配字符串的字符串片段组集合与至少一个其他字符串片段组集合间的匹配度,以根据所述匹配度来对所述待匹配字符串和/或所述至少一个其他字符串片段组集合对应的字符序列执行相应操作的实现方式,均应包含在本发明的范围内。
作为本发明的优选实施例之一,匹配执行装置3通过选择装置(图未示)和呈现装置(图未示)来根据所述匹配度来对所述待匹配字符串和/或所述至少一个其他字符串片段组集合对应的字符序列执行相应操作:其中,选择装置根据匹配度来由至少一个其他字符串片段组集合分别对应的字符序列中选择至少一个字符序列作为所述待匹配字符串的纠错提示序列;接着,呈现装置将所述纠错提示序列呈现给用户。
具体地,选择装置先分别获取待匹配字符串的字符串片段组集合与至少一个其他字符串片段组集合中各个其他字符串片段组集合间的匹配度,再根据所述匹配度由该至少一个其他字符串片段组集合分别对应的字符序列中选择至少一个字符序列作为所述待匹配字符串的纠错提示序列;例如,选择装置获得待匹配字符串Str1的字符串片段组集合与预定集合库中的3个其他字符串片段组集合的匹配度分别为30%、67%以及80%,则选择装置选择匹配度大于预定阈值50%的其他字符串片段组集合所对应的字符序列作为Str1的纠错提示序列。
或者,选择装置每获得待匹配字符串的字符串片段组集合与一个其他字符串片段组集合间的匹配度,即根据匹配度判断是否选择该其他字符串片段组集合所对应的字符序列作为纠错提示序列;例如,选择装置获得待匹配字符串Str2的字符串片段组集合CL1与一个其他字符串片段组集合CL2之间的匹配度为85%,选择装置已选择的纠错提示序列Str3的字符串片段组集合CL3与CL1之间的匹配度79%,则选择装置确定采用与CL2对应的字符序列Str4来替换Str3作为待匹配字符串Str2的纠错提示序列。
其中,所述呈现装置将所述纠错提示序列呈现给用户的方式包括但不限于:
1)将所获得的一个或多个纠错提示序列直接呈现给用户。
例如,呈现装置将匹配执行装置3所选择的多个纠错提示序列以预定的顺序呈现给用户;又例如,呈现装置按照随机顺序呈现匹配执行装置3所选择的多个纠错提示序列。
2)包含于呈现装置中的呈现信息获取装置(图未示)根据各个纠错提示序列分别对应的其他字符串片段组集合与所述字符串片段组集合间的匹配度,获得用于确定各个纠错提示序列的呈现方式的呈现信息;接着,包含于呈现装置中的子呈现装置根据各个纠错提示序列的呈现信息,将所述各个纠错提示序列呈现给所述用户。
其中,所述呈现信息包括但不限于:a)纠错提示序列的呈现顺序;b)纠错提示序列的呈现样式,例如,字体、大小、颜色等。
例如,子呈现装置将各个纠错提示序列各个纠错提示序列按照匹配度由高到低排序展现,且匹配度最高的纠错提示序列加粗显示等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何将所述纠错提示序列呈现给用户的实现方式,均应包含在本发明的范围内。
根据本发明的方案,通过采用多个粒度对待匹配字符串进行切分以获得字符串片段组集合,并通过所述字符串片段组集合来获得与所述待匹配字符串匹配度较高的字符串,来提高匹配的精度;并且本发明中只要字符序列中的任何部分与所述待匹配字符串相匹配,即使该字符序列的起始部分的字符与待匹配字符串无关,仍可获得该字符序列与所述待匹配字符串的匹配的结果,从而可匹配到更多可能的字符序列。
图4示意出了本发明一个优选实施例的用于获取匹配度以执行相应操作的提示获取装置的结构示意图。根据本实施例的提示获取装置包括第一获取装置1、第二获取装置2以及包含于匹配执行装置3中的第一匹配装置301。
所述第一获取装置1以及第二获取装置2已在参照图3所示实施例中予以详述,并以引用的方式包含于此,不再赘述。
接着,提示获取装置通过匹配执行装置3来获取字符串片段组集合与至少一个其他字符串片段组集合间的匹配度,以根据所述匹配度来对所述待匹配字符串和/或所述至少一个其他字符串片段组集合对应的字符序列执行相应操作。其中,在匹配执行装置3执行操作的过程中,提示获取装置通过第一匹配装置301来获取字符串片段组集合与至少一个其他字符串片段组集合中的一个其他字符串片段组集合间的匹配度。
第一匹配装置301将所述字符串片段组集合中的各组字符串片段分别与该其他字符串片段组集合中至少一组字符串片段进行匹配,以获得所述字符串片段组集合与该其他字符串片段组集合间的匹配度。
优选地,所述第一匹配装置301将所述字符串片段组集合中的每组字符串片段均与该其他字符串片段组集合中的各组字符串片段进行匹配,以获得所述字符串片段组集合与该其他字符串片段组集合间的匹配度;或者,所述第一匹配装置301将所述字符串片段组集合中的各组字符串片段分别与该其他字符串片段组集合中的字符串片段的字符数相同的字符串片段组进行匹配,以获得所述字符串片段组集合与该其他字符串片段组集合间的匹配度。
例如,第一获取装置1获得的待匹配字符串Str5包含char1和char2个字符,且第二获取装置2获得Str5的字符串片段组集合CL4“char1、char2;char1char2”;则第一匹配装置301将CL4中粒度为1的字符串片段组“char1、char2”与其他字符串片段组集合CL5“char3、char4、char5;char3char4、char4char5;char3char4char5”中的各组字符串片段“char3、char4、char5”、“char3char4、char4char5”以及“char3char4char5”分别进行匹配,其中,char1与char2分别占三个字节的存储空间,char3、char4、char5各占1个字节的存储空间,第一匹配装置301判断存储“char1”的三个字节的值与存储“char3char4char5”的三个字节的值相同,则第一匹配装置301确定粒度为1的字符串片段组“char1、char2”中有1个字符获得匹配,则确定“char1、char2”与CL5的组匹配度为1;接着,第一匹配装置301将CL4中粒度为2的字符串片段组“char1char2”与其他字符串片段组集合CL5中的各组字符串片段“char3、char4、char5”、“char3char4、char4char5”、以及“char3char4char5”分别进行匹配,确定未获得与“char1char2”匹配的字符串片段,第一匹配装置301确定“char1char2”与CL5的组匹配度为0;则提示获取装置确定CL4与CL5之间的匹配度为被匹配的字符串片段数量1占全部字符串片段3的百分比,即33.3%。需要说明的是,char1至char5用于指代字符,而非表示字符本身。
又例如,第一匹配装置301将待匹配字符串Str6“abcd”的字符串片段组集合CL6“a、b、c、d;ab、bc、cd;abc、bcd;abcd”中粒度为1的字符串片段组“a、b、c、d”与其他字符串片段组集合CL7“a、b、c、e;ab、bc、ce;abc、bce;abce”中粒度同样为1的字符串片段组““a、b、c、e、m”进行匹配,并确定“a、b、c、d”中有3个的字符串片段包含于字符串片段组“a、b、c、e、m”中,则第一匹配装置301确定“a、b、c、d”与CL7的组匹配度为3;相似地,第一匹配装置301确定“ab、bc、cd”与CL7的组匹配度为2,“abc、bcd”与CL7的组匹配度为1;“abcd”与CL7的组匹配度为0,则第一匹配装置301确定字符串片段组集合CL6与CL7之间的匹配度为各组的组匹配度的平均值1.5。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何将所述字符串片段组集合中的各组字符串片段分别与该其他字符串片段组集合中至少一组字符串片段进行匹配,以获得所述字符串片段组集合与该其他字符串片段组集合间的匹配度的实现方式,均应包含在本发明的范围内。
作为本实施例的优选方案之一,所述第一匹配装置301进一步包括第二匹配装置(图未示),所述第二匹配装置根据所述字符串片段组集合中每个字符串片段的预定片段权重信息和/或该其他字符串片段组集合所对应字符序列的预定序列权重信息,并结合所述字符串片段组集合中的各组字符串片段分别与该其他字符串片段组集合中至少一组字符串片段的匹配结果,确定所述字符串片段组集合与该其他字符串片段组集合间的匹配度。
其中,所述预定片段权重信息基于以下至少一项因素来确定:1)该预定片段权重信息对应的字符串片段在该字符串片段所属待匹配字符串中的位置信息;例如,将待匹配字符串平均分为前中后三段,其中,位于各段的字符串片段的预定片段权重信息由大到小依次为:位于待匹配字符串前段的字符串片段、位于待匹配字符串后段的字符串片段、以及位于待匹配字符串中段的字符串片段。2)该预定片段权重信息对应的字符串片段的粒度;例如,预定片段权重信息与字符串片段的粒度成正比。3)该预定片段权重信息对应的字符串片段的第一历史使用记录;其中,所述第一历史使用记录包括但不限于:a)字符串片段被用户选择的频次;b)字符串片段被搜索的频次等。
其中,所述预定序列权重信息基于以下至少一项因素来确定:1)该预定序列权重信息所对应的字符序列的第二历史使用记录;其中,所述第二历史使用记录包括但不限于:a)所述字符序列被选择的频次;b)所述字符序列被搜索的频次等。2)该预定序列权重信息所对应的字符序列的用户关注度;例如,将用户历史所选择的字符序列与该预定序列权重信息所对应的字符序列的相似度作为用户关注度;又例如,根据字符序列是否属于用户所选择的关注领域的字符序列来确定该字符序列的用户关注度。
例如,第二获取装置2获得待匹配字符串Str7“mavie”的字符串片段组集合CL8“m、a、v、i、e;ma、av、vi、ie;mav、avi、vie”;其中,粒度为1的字符串片段组“m、a、v、i、e”中各个字符串片段的预定片段权重信息按照字符串片段在待匹配字符串中的位置由前至后依次为5、4、3、2、1;粒度为2的字符串片段组“ma、av、vi、ie”中各个字符串片段的预定片段权重信息依次为4、3、2、1;粒度为3的字符串片段组“mav、avi、vie”中各个字符串片段的预定片段权重信息依次为3、2、1;第二匹配装置将CL8与其他字符串片段组集合CL9“m、o、v、i、e;mo、ov、vi、ie;mov、ovi、vie”进行匹配,则第二匹配装置基于预定CL8中每组字符串片段的组匹配度为在CL9中匹配到的字符串片段的预定片段权重信息之和的规则,确定粒度为1的字符串片段组中仅字符串片段“a”未在被匹配到,则该组的组匹配度为5+3+2+1=11,相似地,确定粒度为2的字符串片段组的匹配度为2+1=3,确定粒度为3的字符串片段组的匹配度为1,则第二匹配装置确定CL8与CL9的匹配度=CL8的各组匹配度之和÷CL8的全部字符串片段的预定权重信息之和=(11+3+1)÷(5+4+3+2+1+4+3+2+1+3+2+1)=48.4%。
又例如,第二匹配装置采用如前例所述的方式确定待匹配字符串的字符串片段组集合CL8与其他字符串组集合CL9之间的初步匹配度48.4%之后,再判断CL9所对应的字符序列Str8是否属于用户所关注的电影领域词汇,若Str8属于电影领域词汇,则确定CL8与CL9间的匹配度为初始匹配度的1.5倍,即匹配度为48.4%×1.5=72.6%。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述字符串片段组集合中每个字符串片段的预定片段权重信息和/或该其他字符串片段组集合所对应字符序列的预定序列权重信息,并结合所述字符串片段组集合中的各组字符串片段分别与该其他字符串片段组集合中至少一组字符串片段的匹配结果,确定所述字符串片段组集合与该其他字符串片段组集合间的匹配度的实现方式,均应包含在本发明的范围内。
根据本实施例的方案,通过对各个字符串片段组集合间的匹配,提高了待匹配字符串与字符序列之间匹配的精确度,并且通过对各个字符串片段和/或字符序列设置权重,更合理的确定各个字符串片段组集合间的匹配度,以获得更精确或更符合用户偏好的纠错提示序列。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (24)

1.一种计算机实现的用于获取匹配度以执行相应操作的方法,其中,所述方法包括以下步骤:
a.获取待匹配字符串;
b.获取该待匹配字符串的字符串片段组集合,其中,该字符串片段组集合中的每组字符串片段包含属于所述待匹配字符串的一个或多个字符串片段,且属于同组的字符串片段具有相同的字符数;
c.分别获取所述字符串片段组集合与至少一个其他字符串片段组集合间的匹配度,以根据所述匹配度来对所述待匹配字符串和/或所述至少一个其他字符串片段组集合对应的字符序列执行相应操作。
2.根据权利要求1所述的方法,其中,所述步骤b包括以下步骤:
-根据多个粒度来对所述待匹配字符串进行切分,获得与所述多个粒度分别对应的多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合。
3.根据权利要求1或2所述的方法,其中,所述步骤b包括以下步骤:
b1根据待匹配字符串的字符数来确定最大粒度;
b2采用小于或小于等于该最大粒度的多个粒度来对所述待匹配字符串进行切分,获得多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合。
4.根据权利要求3所述的方法,其中,所述步骤b1包括以下步骤:
-判断所述待匹配字符串的字符数是否大于或等于预定阈值;
-当所述待匹配字符串的字符数大于或等于预定阈值时,将所述预定阈值作为所述待匹配字符串的最大切分粒度。
5.根据权利要求4所述的方法,其中,所述步骤b1还包括以下步骤:
-当所述待匹配字符串的字符数小于预定阈值时,将所述待匹配字符串的字符数作为所述待匹配字符串的最大切分粒度。
6.根据权利要求1所述的方法,其中,所述步骤c包括以下步骤:
-由预定集合库包含的其他字符串片段组集合中选择所对应的字符序列与所述待匹配字符串相关的多个其他字符串片段组集合,并分别获取所述字符串片段组集合与所获取的多个其他字符串片段组集合间的多个匹配度,以根据所述多个匹配度来对所述待匹配字符串和/或所述多个其他字符串片段组集合对应的字符序列执行相应操作。
7.根据权利要求1所述的方法,其中,所述步骤c中获取所述字符串片段组集合与所述多个其他字符串片段组集合中的一个其他字符串片段组集合间的匹配度的步骤包括:
-将所述字符串片段组集合中的各组字符串片段分别与该其他字符串片段组集合中至少一组字符串片段进行匹配,以获得所述字符串片段组集合与该其他字符串片段组集合间的匹配度。
8.根据权利要求7所述的方法,其中,所述步骤c中获取所述字符串片段组集合与所述多个其他字符串片段组集合中的一个其他字符串片段组集合间的匹配度的步骤包括:
-根据所述字符串片段组集合中每个字符串片段的预定片段权重信息和/或该其他字符串片段组集合所对应字符序列的预定序列权重信息,并结合所述字符串片段组集合中的各组字符串片段分别与该其他字符串片段组集合中至少一组字符串片段的匹配结果,确定所述字符串片段组集合与该其他字符串片段组集合间的匹配度。
9.根据权利要求8所述的方法,其中,所述预定片段权重信息基于以下至少一项因素来确定:
-该预定片段权重信息对应的字符串片段在该字符串片段所属待匹配字符串中的位置信息;
-该预定片段权重信息对应的字符串片段的粒度;
-该预定片段权重信息对应的字符串片段的第一历史使用记录;所述第一历史使用记录包括:
a)字符串片段被用户选择的频次;
b)字符串片段被搜索的频次。
10.根据权利要求8或9所述的方法,其中,所述预定序列权重信息基于以下至少一项因素来确定:
-该预定序列权重信息所对应的字符序列的第二历史使用记录;所述第二历史使用记录包括:
a)所述字符序列被选择的频次;
b)所述字符序列被搜索的频次;
-该预定序列权重信息所对应的字符序列的用户关注度。
11.根据权利要求1所述的方法,其中,所述根据所述匹配度来对所述待匹配字符串和/或所述至少一个其他字符串片段组集合对应的字符序列执行相应操作的步骤包括:
-根据所述匹配度来由所述至少一个其他字符串片段组集合分别对应的字符序列中选择至少一个字符序列作为所述待匹配字符串的纠错提示序列;
-.将所述纠错提示序列呈现给用户。
12.根据权利要求11所述的方法,其中,所述将所述纠错提示序列呈现给用户的步骤包括:
-根据各个纠错提示序列分别对应的其他字符串片段组集合与所述字符串片段组集合间的匹配度,获得用于确定各个纠错提示序列的呈现方式的呈现信息;
-根据各个纠错提示序列的呈现信息,将所述各个纠错提示序列呈现给所述用户。
13.一种计算机实现的用于获取匹配度以执行相应操作的提示获取装置,其中,所述提示获取装置包括:
第一获取装置,用于获取待匹配字符串;
第二获取装置,用于获取该待匹配字符串的字符串片段组集合,其中,该字符串片段组集合中的每组字符串片段包含属于所述待匹配字符串的一个或多个字符串片段,且属于同组的字符串片段具有相同的字符数;
匹配执行装置,用于分别获取所述字符串片段组集合与至少一个其他字符串片段组集合间的匹配度,以根据所述匹配度来对所述待匹配字符串和/或所述至少一个其他字符串片段组集合对应的字符序列执行相应操作。
14.根据权利要求13所述的提示获取装置,其中,所述第二获取装置包括:
第一子获取装置,用于根据多个粒度来对所述待匹配字符串进行切分,获得与所述多个粒度分别对应的多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合。
15.根据权利要求13或14所述的提示获取装置,其中,所述第一子获取装置包括:
粒度确定装置,用于根据待匹配字符串的字符数来确定最大粒度;
第二子获取装置,用于采用小于或小于等于该最大粒度的多个粒度来对所述待匹配字符串进行切分,获得多组字符串片段,以将该多组字符串片段作为所述字符串片段组集合。
16.根据权利要求15所述的提示获取装置,其中,所述粒度确定装置包括:
判断装置,用于判断所述待匹配字符串的字符数是否大于或等于预定阈值;
第一子粒度确定装置,用于当所述待匹配字符串的字符数大于或等于预定阈值时,将所述预定阈值作为所述待匹配字符串的最大粒度。
17.根据权利要求16所述的提示获取装置,其中,所述粒度确定装置还包括以下步骤:
第二子粒度确定装置,用于当所述待匹配字符串的字符数小于预定阈值时,将所述待匹配字符串的字符数作为所述待匹配字符串的最大粒度。
18.根据权利要求13所述的提示获取装置,其中,所述匹配执行装置包括:
子匹配执行装置,用于由预定集合库包含的其他字符串片段组集合中选择所对应的字符序列与所述待匹配字符串相关的多个其他字符串片段组集合,并分别获取所述字符串片段组集合与所获取的多个其他字符串片段组集合间的多个匹配度,以根据所述多个匹配度来对所述待匹配字符串和/或所述多个其他字符串片段组集合对应的字符序列执行相应操作。
19.根据权利要求13所述的提示获取装置,其中,所述匹配执行装置获取所述字符串片段组集合与所述多个其他字符串片段组集合中的一个其他字符串片段组集合间的匹配度的操作通过以下装置执行:
第一匹配装置,用于将所述字符串片段组集合中的各组字符串片段分别与该其他字符串片段组集合中至少一组字符串片段进行匹配,以获得所述字符串片段组集合与该其他字符串片段组集合间的匹配度。
20.根据权利要求19所述的提示获取装置,其中,所述第一匹配装置包括:
第二匹配装置,用于根据所述字符串片段组集合中每个字符串片段的预定片段权重信息和/或该其他字符串片段组集合所对应字符序列的预定序列权重信息,并结合所述字符串片段组集合中的各组字符串片段分别与该其他字符串片段组集合中至少一组字符串片段的匹配结果,确定所述字符串片段组集合与该其他字符串片段组集合间的匹配度。
21.根据权利要求20所述的提示获取装置,其中,所述预定片段权重信息基于以下至少一项因素来确定:
-该预定片段权重信息对应的字符串片段在该字符串片段所属待匹配字符串中的位置信息;
-该预定片段权重信息对应的字符串片段的粒度;
-该预定片段权重信息对应的字符串片段的第一历史使用记录;所述第一历史使用记录包括:
a)字符串片段被用户选择的频次;
b)字符串片段被搜索的频次。
22.根据权利要求20或21所述的提示获取装置,其中,所述预定序列权重信息基于以下至少一项因素来确定:
-该预定序列权重信息所对应的字符序列的第二历史使用记录;所述第二历史使用记录包括:
a)所述字符序列被选择的频次;
b)所述字符序列被搜索的频次;
-该预定序列权重信息所对应的字符序列的用户关注度。
23.根据权利要求13所述的提示获取装置,其中,提示获取装置通过以下装置来根据所述匹配度来对所述待匹配字符串和/或所述至少一个其他字符串片段组集合对应的字符序列执行相应操作:
选择装置,用于根据所述匹配度来由所述至少一个其他字符串片段组集合分别对应的字符序列中选择至少一个字符序列作为所述待匹配字符串的纠错提示序列;
呈现装置,用于将所述纠错提示序列呈现给用户。
24.根据权利要求23所述的提示获取装置,其中,所述呈现装置包括:
呈现信息获取装置,用于根据各个纠错提示序列分别对应的其他字符串片段组集合与所述字符串片段组集合间的匹配度,获得用于确定各个纠错提示序列的呈现方式的呈现信息;
子呈现装置,用于根据各个纠错提示序列的呈现信息,将所述各个纠错提示序列呈现给所述用户。
CN 201110221841 2011-08-03 2011-08-03 一种获取匹配度以执行相应操作的方法、装置及设备 Active CN102298618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110221841 CN102298618B (zh) 2011-08-03 2011-08-03 一种获取匹配度以执行相应操作的方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110221841 CN102298618B (zh) 2011-08-03 2011-08-03 一种获取匹配度以执行相应操作的方法、装置及设备

Publications (2)

Publication Number Publication Date
CN102298618A CN102298618A (zh) 2011-12-28
CN102298618B true CN102298618B (zh) 2013-05-29

Family

ID=45359032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110221841 Active CN102298618B (zh) 2011-08-03 2011-08-03 一种获取匹配度以执行相应操作的方法、装置及设备

Country Status (1)

Country Link
CN (1) CN102298618B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778171A (zh) * 2014-01-10 2015-07-15 携程计算机技术(上海)有限公司 字符串匹配系统及方法
CN109214846B (zh) * 2017-07-04 2020-08-04 上海优扬新媒信息技术有限公司 信息存储方法和装置
CN108984695B (zh) * 2018-07-04 2021-04-06 科大讯飞股份有限公司 一种字符串匹配方法及装置
CN109101405A (zh) * 2018-07-05 2018-12-28 北京西普阳光教育科技股份有限公司 基于计算机的交互操作的评判方法和装置
CN111859037A (zh) * 2020-06-03 2020-10-30 北京百度网讯科技有限公司 行车意图识别方法、装置、电子设备及存储介质
CN112215216A (zh) * 2020-09-10 2021-01-12 中国东方电气集团有限公司 一种图像识别结果的字符串模糊匹配系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1230770C (zh) * 2002-01-22 2005-12-07 住友电气工业株式会社 字符串相似度计算方法和装置
JP2005190185A (ja) * 2003-12-25 2005-07-14 Nippon Telegr & Teleph Corp <Ntt> 類似文選択方法、類似文選択装置、および、類似文選択プログラムの記録媒体
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
CN102063424A (zh) * 2010-12-24 2011-05-18 上海电机学院 一种中文分词方法
CN102135814B (zh) * 2011-03-30 2017-08-08 北京搜狗科技发展有限公司 一种字词输入方法及系统

Also Published As

Publication number Publication date
CN102298618A (zh) 2011-12-28

Similar Documents

Publication Publication Date Title
CN102298618B (zh) 一种获取匹配度以执行相应操作的方法、装置及设备
US11341419B2 (en) Method of and system for generating a prediction model and determining an accuracy of a prediction model
CN105389349B (zh) 词典更新方法及装置
CN102184169B (zh) 用于确定字符串信息间相似度信息的方法、装置和设备
CN102346778B (zh) 一种用于提供搜索结果的方法与设备
KR101617696B1 (ko) 데이터 정규표현식의 마이닝 방법 및 장치
CN102591880A (zh) 信息提供方法及装置
CN110442847B (zh) 基于代码仓库过程管理的代码相似性检测方法及装置
CN102193993B (zh) 用于确定字符串信息间相似度信息的方法、装置和设备
CN103927309A (zh) 一种对业务对象标注信息标签的方法及装置
CN103123624A (zh) 确定中心词的方法及装置、搜索方法及装置
CN101526956A (zh) 基于内容引用的网页搜索结果排序方法
CN112765452B (zh) 搜索推荐方法、装置及电子设备
CN111737966B (zh) 文档重复度检测方法、装置、设备和可读存储介质
CN111813828A (zh) 一种实体关系挖掘方法、装置、电子设备及存储介质
CN102207935A (zh) 用于创建索引的方法和系统
CN102521713B (zh) 数据处理装置和数据处理方法
CN102999495B (zh) 一种同义词语义映射关系确定方法及装置
CN106919576A (zh) 利用二级类目下的关键词库搜索应用程序的方法及装置
CN106648839A (zh) 数据处理的方法和装置
CN107977504A (zh) 一种非对称堆芯燃料管理计算方法、装置及终端设备
CN103336765A (zh) 一种文本关键词的马尔可夫矩阵离线修正方法
CN109522275A (zh) 基于用户生产内容的标签挖掘方法、电子设备及存储介质
CN111858927B (zh) 数据测试方法、装置、电子设备及存储介质
CN109102141A (zh) 一种服务水平评分方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant