CN106021504A - 字符串模糊匹配方法及装置 - Google Patents

字符串模糊匹配方法及装置 Download PDF

Info

Publication number
CN106021504A
CN106021504A CN201610343584.1A CN201610343584A CN106021504A CN 106021504 A CN106021504 A CN 106021504A CN 201610343584 A CN201610343584 A CN 201610343584A CN 106021504 A CN106021504 A CN 106021504A
Authority
CN
China
Prior art keywords
text
target text
source
matching degree
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610343584.1A
Other languages
English (en)
Inventor
曾红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen TCL New Technology Co Ltd
Shenzhen TCL Digital Technology Co Ltd
Original Assignee
Shenzhen TCL New Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen TCL New Technology Co Ltd filed Critical Shenzhen TCL New Technology Co Ltd
Priority to CN201610343584.1A priority Critical patent/CN106021504A/zh
Priority to PCT/CN2016/096429 priority patent/WO2017197802A1/zh
Publication of CN106021504A publication Critical patent/CN106021504A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种字符串模糊匹配方法,所述字符串模糊匹配方法包括以下步骤:获取源文本和各个目标文本匹配的字符数量;根据匹配的所述字符数量与所述源文本的字符数量计算各个目标文本的源匹配度;根据所述源文本的字段数量获取所述源文本对应的第一预设阈值;获取所述各个目标文本的源匹配度大于或等于所述第一预设阈值的目标文本,并将获取到的所述目标文本作为匹配的目标文本。本发明还公开了一种字符串模糊匹配装置。本发明解决了采用的精确查找的方式查找匹配的目标字符串的精确度低的问题,提高了字符串的识别率。

Description

字符串模糊匹配方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种字符串模糊匹配方法及装置。
背景技术
现有的数据查找过程中,通常使用精确匹配算法进行查找操作,如文本编辑中的查找替换,数据库中按索引进行检索等,其匹配要求严格准确,实现算法有带回溯的匹配算法、KMP算法等。然而,采用精确匹配算法查找数据时,需要待查找的数据与目标数据完全相同时,才能将待查找数据从目标数据中找出。在一些场合下,人们往往不能准确地给出完整的待查找数据(待查找字符串),如果采用精确匹配算法,由于精确匹配算法需要待查找字符串与目标字符串完全一样时,才能匹配成功,因此,在这种场合下使用精确匹配算法就得不到查找结果,造成查找字符串的识别率较低。
发明内容
本发明的主要目的在于提供一种字符串模糊匹配方法及装置,旨在解决现有技术采用精确匹配方法查找字符串的识别率较低的问题。
为实现上述目的,本发明提供的一种字符串模糊匹配方法,所述字符串模糊匹配方法包括以下步骤:
获取源文本和各个目标文本匹配的字符数量;
根据匹配的所述字符数量与所述源文本的字符数量计算各个目标文本的源匹配度;
根据所述源文本的字段数量获取所述源文本对应的第一预设阈值;
获取所述各个目标文本的源匹配度大于或等于所述第一预设阈值的目标文本,并将获取到的所述目标文本作为匹配的目标文本。
可选地,所述获取所述各个目标文本的源匹配度大于或等于所述第一预设阈值的目标文本,并将获取到的所述目标文本作为匹配的目标文本的步骤包括:
根据计算得出的各个目标文本的源匹配度确定源匹配度最高的目标文本;
判断所述源匹配度最高的目标文本的源匹配度是否大于或等于所述第一预设阈值;
若是,则将所述源匹配度最高的目标文本作为匹配的目标文本。
可选地,所述匹配的目标文本存在多个时,所述将所述源匹配度最高的目标文本作为匹配的目标文本的步骤之后,还包括:
根据匹配的所述字符数量与各个匹配的所述目标文本的字符数量计算各个所述匹配的目标文本的目标匹配度,并根据计算结果确定目标匹配度最高的目标文本;
将确定的所述目标匹配度最高的目标文本作为最终匹配的目标文本。
可选地,所述将确定的所述目标匹配度最高的目标文本作为最终匹配的目标文本的步骤包括:
根据所述第一预设阈值获取所述源文本对应的第二预设阈值;
判断确定的所述目标匹配度最高的目标文本的目标匹配度是否大于或者等于所述第二预设阈值;
若是,则将确定的所述目标匹配度最高的目标文本作为最终匹配的目标文本。
可选地,所述获取源文本和各个目标文本匹配的字符数量的步骤包括:
将所述源文本和所述各个目标文本转换为拼音形式的字符信息;
获取所述各个目标文本对应的拼音形式的字符信息与所述源文本对应的拼音形式的字符信息匹配的字符数量。
此外,为实现上述目的,本发明还提供一种字符串模糊匹配装置,所述字符串模糊匹配装置包括:
获取模块,用于获取源文本和各个目标文本匹配的字符数量;
第一计算模块,用于根据匹配的所述字符数量与所述源文本的字符数量计算各个目标文本的源匹配度;
所述获取模块,还用于根据所述源文本的字段数量获取所述源文本对应的第一预设阈值;
第一作为模块,用于获取所述各个目标文本的源匹配度大于或等于所述第一预设阈值的目标文本,并将获取到的所述目标文本作为匹配的目标文本。
可选地,所述第一作为模块包括:
确定单元,用于根据计算得出的各个目标文本的源匹配度确定源匹配度最高的目标文本;
第一判断单元,用于判断所述源匹配度最高的目标文本的源匹配度是否大于或等于所述第一预设阈值;
第一作为单元,用于若所述源匹配度最高的目标文本的源匹配度大于或等于所述第一预设阈值,则将所述源匹配度最高的目标文本作为匹配的目标文本。
可选地,所述匹配的目标文本存在多个时,所述字符串模糊匹配装置还包括:
第二计算模块,用于根据匹配的所述字符数量与各个匹配的所述目标文本的字符数量计算各个匹配的所述目标文本的目标匹配度,并根据计算结果确定目标匹配度最高的目标文本;
第二作为模块,还用于将确定的所述目标匹配度最高的目标文本作为最终匹配的目标文本。
可选地,所述第二作为模块包括:
获取单元,用于根据所述第一预设阈值获取所述源文本对应的第二预设阈值;
第二判断单元,用于判断确定的所述目标匹配度最高的目标文本的目标匹配度是否大于或者等于所述第二预设阈值;
第二作为单元,用于若确定的所述目标匹配度最高的目标文本的目标匹配度大于或者等于所述第二预设阈值,则将确定的所述目标匹配度最高的目标文本作为最终匹配的目标文本。
可选地,所述获取模块包括:
转换单元,用于将所述源文本和所述各个目标文本转换为拼音形式的字符信息;
获取单元,用于获取所述各个目标文本对应的拼音形式的字符信息与所述源文本对应的拼音形式的字符信息匹配的字符数量。
本发明通过获取源文本和各个目标文本匹配的字符数量;根据所述字符数量计算所述各个目标文本的源匹配度;依次判断所述各个目标文本的源匹配度是否满足第一预设条件;若是,则将满足第一预设条件的目标文本作为匹配的目标文本。由于本实施例采用的是模糊匹配的方式查找匹配的目标文本,而不是采用的精确查找的方式查找匹配的目标文本,从而有效提高了字符串的识别率。
附图说明
图1为本发明字符串模糊匹配方法的第一实施例的流程示意图;
图2为本发明字符串模糊匹配方法的第二实施例的流程示意图;
图3为本发明字符串模糊匹配方法的第三实施例的流程示意图;
图4为本发明字符串模糊匹配方法的第四实施例的流程示意图;
图5为本发明字符串模糊匹配方法的第五实施例的流程示意图;
图6为本发明字符串模糊匹配装置的第一实施例的功能模块示意图;
图7为本发明字符串模糊匹配装置的第二实施例的功能模块示意图;
图8为本发明字符串模糊匹配装置的第三实施例的功能模块示意图;
图9为本发明字符串模糊匹配装置的第四实施例的功能模块示意图;
图10为本发明字符串模糊匹配装置的第五实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
基于上述问题,本发明提供一种字符串模糊匹配方法。
参照图1,图1为本发明字符串模糊匹配方法的第一实施例的流程示意图。
在本实施例中,所述字符串模糊匹配方法包括:
步骤S10,获取源文本和各个目标文本匹配的字符数量;
在本实施中,所述源文本为用户输入的文本,所述源文本可以为语音文本、中文文本或者拼音文本。所述各个目标文本为用于和源文本匹配的文本,所述各个目标文本也可以为语音文本、中文文本或者拼音文本。在接收到用户输入的源文本后,系统将接收到的源文本与本地预存的各个目标文本进行匹配操作,查找源文本与各个目标文本相匹配的字符,即查找所述各个目标文本中的字符与源文本中的字符一致的字符,然后统计各个目标文本与源文本匹配的字符数量。
步骤S20,根据匹配的所述字符数量与所述源文本的字符数量计算各个目标文本的源匹配度;
在获取到各个目标文本与源文本匹配的字符数量后,可以根据该字符数量与源文本的字符数量计算各个目标文本的源匹配度,所述源匹配度为所述匹配的字符数量与源文本的字符数量的百分比,即所述源匹配度=匹配字符数量/源文本的字符数量*100%。例如,假设所述源文本字符数量为8个字符,各个目标文本与所述源文本匹配的字符数量分别为5个字符,4个字符,6个字符,1个字符,0个字符等,则各个目标文本的源匹配度依次为62.5%、50.0%、75.0%、12.5%、0等。
步骤S30,根据所述源文本的字段数量获取所述源文本对应的第一预设阈值;
步骤S40,获取所述各个目标文本的源匹配度大于或等于所述第一预设阈值的目标文本,并将获取到的所述目标文本作为匹配的目标文本。
在获取到各个目标文本的源匹配度后,为了筛选出匹配的目标文本,可以通过依次判断所述各个目标文本的源匹配度是否大于或等于第一预设阈值的方式来查找匹配的目标文本,若目标文本的源匹配度大于或等于第一预设阈值的目标文本只有一个,则将该源匹配度大于或等于第一预设阈值目标文本作为匹配的目标文本,若源匹配度大于或等于第一预设阈值目标文本存在多个,则将所有的源匹配度大于或等于第一预设阈值目标文本都作为匹配的目标文本;若目标文本的源匹配度小于第一预设阈值,则该目标文本不是与源文本所匹配的目标文本,即该目标文本与所述源文本不匹配。在本实施例中,所述第一预设阈值与源文本的字段数量有关,即不同字段数量的源文本对应着不同的第一预设阈值,其中,所述字段数量为源文本中的中文字符数量。故在判断目标文本的源匹配度是否大于或等于所述第一预设阈值之前,需要先确定源文本的字段数量,然后根据源文本的字段数量获取源文本对应的第一预设阈值。具体来说,所述第一预设阈值可以根据源文本的字段数量进行设置。例如,若源文本的字段数量为小于或等于2个,则可以设置第一预设阈值为1,该第一预设阈值为1代表该目标文本的源匹配度为100%时,该目标文本才与源文本匹配;若源文本的字段数量大于2,即源文本中的中文字符数量多于2个,则可以设置第一预设阈值为0.67,该第一预设阈值为0.67代表该目标文本的源匹配度为67%或以上时,该目标文本与源文本才匹配。需要说明的是,上述所述的三个值可以根据实际需要自由设定和动态调整,也可以根据实际需要设置更多个第一预设阈值,在本实施例中,不做限定。比如在语音应用中,在源文本字段数量超过2个时设置第一预设阈值为0.67,在源文本字段数量小于或等于两个时设置第一预设阈值为1,即如果用户说了一个或者两个字,就必须全部匹配到,如果说了三个字及以上,必须匹配到2/3以上。
本实施例通过获取源文本和各个目标文本匹配的字符数量;根据所述字符数量计算所述各个目标文本的源匹配度;依次判断所述各个目标文本的源匹配度是否满足第一预设条件;若是,则将满足第一预设条件的目标文本作为匹配的目标文本。由于本实施例采用的是模糊匹配的方式查找匹配的目标文本,而不是采用的精确查找的方式查找匹配的目标文本,从而有效提高了字符串的识别率。
进一步的,参照图2,图2为本发明字符串模糊匹配方法的第二实施例的流程示意图。基于上述字符串模糊匹配方法的第一实施例,所述步骤S40包括:
步骤S41,根据计算得出的各个目标文本的源匹配度确定源匹配度最高的目标文本;
在计算出各个目标文本的源匹配度后,可以通过比较各个目标文本的源匹配度,然后从中选择出源匹配度最高的目标文本。需要说明的是,若源匹配度最高的目标文本存在多个,则需要将该多个源匹配度最高的目标文本都选择出来。
步骤S42,判断所述源匹配度最高的目标文本的源匹配度是否大于或等于所述第一预设阈值;
步骤S43,若是,则将所述源匹配度最高的目标文本作为匹配的目标文本。
在选择出源匹配度最高的目标文本后,由于选择出的源匹配度最高的目标文本的源匹配度可能很小,也就是表明选出的目标文本与源文本的差距很大,可能不是用户所需要的目标文本,因此,需要丢弃此次选出的目标文本,故在选择出源匹配度最高的目标文本后,可以判断源匹配度最高的目标文本的源匹配度是否大于或等于所述第一预设阈值,若所述源匹配度最高的目标文本的源匹配度大于或等于所述第一预设阈值,则表明所述源匹配度最高的目标文本与所述源文本匹配,并将该源匹配度最高的目标文本作为匹配的目标文本,若源匹配度最高的目标文本的源匹配度小于所述第一预设预设,则表明所述源匹配度最高的目标文本与所述源文本不匹配,也即目标文本与所述源文本不匹配,用户可以重新输入源文本进行匹配操作。
本实施例通过在计算出所述各个目标文本的源匹配度之后,选择出源匹配度最高的目标文本组,然后对该选择出的目标文本进行判断,若该目标文本组的源匹配度大于或等于所述第一预设阈值,则将该目标文本作为匹配的目标文本,本实施例中通过对选择出源匹配度最高的目标文本的源匹配度进行判断,而不需要对每个目标文本的源匹配度进行判断,从而节省了匹配操作的时间。
进一步的,参照图3,图3为本发明字符串模糊匹配方法的第三实施例的流程示意图。基于上述字符串模糊匹配方法的第二实施例,所述匹配的目标文本存在多个,所述步骤S43之后,还包括:
步骤S44,根据匹配的所述字符数量与各个匹配的所述目标文本的字符数量计算各个匹配的所述目标文本的目标匹配度,并根据计算结果确定目标匹配度最高的目标文本;
步骤S45,将确定的所述目标匹配度最高的目标文本作为最终匹配的目标文本。
由于通过上述方式获取的匹配的目标文本可能存在多个,因此,为了获取到更准确的匹配的目标文本,可以在获取到匹配的多个目标文本之后,根据匹配的所述字符数量与各个匹配的所述目标文本的字符数量计算各个匹配的目标文本的目标匹配度,并在计算出各个匹配的目标文本的目标匹配度后,确定目标匹配度最高的目标文本,所述目标匹配度为所述匹配的字符数量与目标文本的字符数量的百分比,即所述目标匹配度=匹配的字符数量/目标文本的字符数量*100%。例如,假设各个匹配的目标文本与源文本匹配的字符数量为5个字符,各个目标文本的字符数量分别为5个字符,6个字符,8个字符,10个字符,12个字符,则各个目标文本的目标匹配度依次为100%、83.3%、62.5%、50%、41.7%,则目标匹配度最高的目标文本为所述目标匹配度为100%所对应的目标文本,在确定目标匹配度最高的目标文本后,将该目标文本作为最终匹配的目标文本,需要说明的是,若目标匹配度最高的目标文本存在多个,则将该多个目标匹配度最高的目标文本都作为最终匹配的目标文本。
本实施例通过在筛选出匹配的目标文本后,进一步根据该匹配的各个目标文本的目标匹配度作进一步的筛选,以获取最终匹配的目标文本,由于获取的最终匹配的目标文本经过了两次筛选,因此,提高了获取目标文本的准确率。
进一步的,参照图4,图4为本发明字符串模糊匹配方法的第四实施例的流程示意图。基于上述字符串模糊匹配方法的第三实施例,所述步骤S45包括:
步骤S451,根据所述第一预设阈值获取所述源文本对应的第二预设阈值;
在本实施例中,所述第二预设阈值与所述第一预设阈值有关,具体地来说,所述第二预设阈值可以根据所述第一预设阈值进行设置。例如,若所述第一预设阈值为1,则可以设置所述第二预设阈值也为1,该第二预设阈值为1代表目标文本的目标匹配度为100%时,该目标文本与源文本才匹配;若所述第一预设阈值为0.67,则可以设置所述第二预设阈值为0.50,该第二预设阈值为0.50代表目标文本的目标匹配度为50%或以上时,该目标文本与源文本才匹配。需要说明的是,上述所述的各个阈值可以根据实际需要自由设定和动态调整,也可以根据实际需要设置更多个第二预设阈值,在本实施例中,不做限定。
步骤S452,判断确定的所述目标匹配度最高的目标文本的目标匹配度是否大于或者等于所述第二预设阈值;
步骤S453,若是,则将确定的所述目标匹配度最高的目标文本作为最终匹配的目标文本。
在确定目标匹配度最高的目标文本后,由于确定的目标匹配度最高的目标文本的目标匹配度可能很小,也就是表明选出的目标文本与源文本的差距很大,可能不是用户所需要的目标文本,因此,需要丢弃此次选出的目标文本,故在确定目标匹配度最高的目标文本后,可以判断目标匹配度最高的目标文本的目标匹配度是否大于或等于所述第二预设阈值,若所述目标匹配度最高的目标文本的目标匹配度大于或等于所述第二预设阈值,则表明所述目标匹配度最高的目标文本与所述源文本匹配,并将该目标匹配度最高的目标文本作为最终匹配的目标文本,若目标匹配度最高的目标文本的目标匹配度小于所述第二预设预设,则表明所述目标匹配度最高的目标文本与所述源文本不匹配,也即目标文本与所述源文本匹配失败。
本实施例通过在将所述目标匹配度最高的目标文本作为最终匹配的目标文本之前,判断确定的所述目标匹配度最高的目标文本的目标匹配度是否大于或等于所述第二预设阈值,若是,则匹配成功,若否,则匹配失败,本实施例通过对目标匹配度最高的目标文本的目标匹配度进行判断,以提高获取的目标文本的准确率。
进一步的,参照图5,图5为本发明字符串模糊匹配方法的第五实施例的流程示意图。基于上述字符串模糊匹配方法的任一实施例,所述步骤S10包括:
步骤S11,将所述源文本和所述各个目标文本转换为拼音形式的字符信息;
步骤S12,获取所述各个目标文本对应的拼音形式的字符信息与所述源文本对应的拼音形式的字符信息匹配的字符数量。
在本实施例中,所述源文本及目标文本为语音文本或者中文文本,系统在接收到源文本后,为了进行匹配操作,需要将源文本和各个目标文本转换为拼音形式的字符信息,在将源文本和各个目标文本转换为拼音形式的字符信息后,可以将源文本的各个拼音字符信息从第一字符开始依次与目标文本的所有拼音形式的字符信息进行匹配,若匹配成功,则记录下该字符,然后对源文本的第二个字符进行匹配操作,重复上述操作,直到对所述源文本的所有字符完成匹配操作,然后统计出目标文本与该源文本中匹配的字符数量,需要说明的是,若源文本中存在多个相同的字符,则在源文本与目标文本进行匹配操作时,若目标文本中只存在一个字符与源文本中多个相同的字符匹配,则在统计匹配的字符数量时,只计算与该字符匹配的字符数量为一个,而不应该计算为多个。
本实施例通过将源文本和目标文本转换为拼音形式的字符信息进行匹配操作,可以提高目标文本的识别率。
本发明进一步提供一种字符串模糊匹配装置。
参照图6,图6为本发明字符串模糊匹配装置的第一实施例的功能模块示意图。
在本实施例中,所述字符串模糊匹配装置包括:获取模块10、第一计算模块20及第一作为模块30。
所述获取模块10,用于获取源文本和各个目标文本匹配的字符数量;
在本实施中,所述源文本为用户输入的文本,所述源文本可以为语音文本、中文文本或者拼音文本。所述各个目标文本为用于和源文本匹配的文本,所述各个目标文本也可以为语音文本、中文文本或者拼音文本。在接收到用户输入的源文本后,所述获取模块10将接收到的源文本与本地预存的各个目标文本进行匹配操作,查找源文本与各个目标文本相匹配的字符,即查找所述各个目标文本中的字符与源文本中的字符一致的字符,然后统计各个目标文本与源文本匹配的字符数量。
所述第一计算模块20,用于根据匹配的所述字符数量与所述源文本的字符数量计算各个目标文本的源匹配度;
在获取到各个目标文本与源文本匹配的字符数量后,所述第一计算模块20可以根据该字符数量与源文本的字符数量计算源文本与各个目标文本的源匹配度,所述源匹配度为所述匹配的字符数量与源文本的字符数量的百分比,即所述源匹配度=匹配字符数量/源文本的字符数量*100%。例如,假设所述源文本字符数量为8个字符,各个目标文本与所述源文本匹配的字符数量分别为5个字符,4个字符,6个字符,1个字符,0个字符等,则各个目标文本的源匹配度依次为62.5%、50.0%、75.0%、12.5%、0等。
所述获取模块10,还用于根据所述源文本的字段数量获取所述源文本对应的第一预设阈值;
所述第一作为模块30,用于获取所述各个目标文本的源匹配度大于或等于所述第一预设阈值的目标文本,并将获取到的所述目标文本作为匹配的目标文本。
在获取到各个目标文本的源匹配度后,为了筛选出匹配的目标文本,可以通过依次判断所述各个目标文本的源匹配度是否大于或等于第一预设阈值的方式来查找匹配的目标文本,若目标文本的源匹配度大于或等于第一预设阈值的目标文本只有一个,则将该源匹配度大于或等于第一预设阈值目标文本作为匹配的目标文本,若源匹配度大于或等于第一预设阈值目标文本存在多个,则将所有的源匹配度大于或等于第一预设阈值目标文本都作为匹配的目标文本;若目标文本的源匹配度小于第一预设阈值,则该目标文本不是与源文本所匹配的目标文本,即该目标文本与所述源文本不匹配。在本实施例中,所述第一预设阈值与源文本的字段数量有关,即不同字段数量的源文本对应着不同的第一预设阈值,其中,所述字段数量为源文本中的中文字符数量。故在判断目标文本的源匹配度是否大于或等于所述第一预设阈值之前,需要先确定源文本的字段数量,然后根据源文本的字段数量获取源文本对应的第一预设阈值。具体来说,所述第一预设阈值可以根据源文本的字段数量进行设置。例如,若源文本的字段数量为小于或等于2个,则可以设置第一预设阈值为1,该第一预设阈值为1代表该目标文本的源匹配度为100%时,该目标文本才与源文本匹配;若源文本的字段数量大于2,即源文本中的中文字符数量多于2个,则可以设置第一预设阈值为0.67,该第一预设阈值为0.67代表该目标文本的源匹配度为66.7%或以上时,该目标文本与源文本才匹配。需要说明的是,上述所述的三个值可以根据实际需要自由设定和动态调整,也可以根据实际需要设置更多个第一预设阈值,在本实施例中,不做限定。比如在语音应用中,在源文本字段数量超过2个时设置第一预设阈值为0.67,在源文本字段数量小于或等于两个时设置第一预设阈值为1,即如果用户说了两个字,就必须全部匹配到,如果说了三个字及以上,必须匹配到2/3以上。
本实施例通过获取源文本和各个目标文本匹配的字符数量;根据所述字符数量计算所述各个目标文本的源匹配度;依次判断所述各个目标文本的源匹配度是否满足第一预设条件;若是,则将满足第一预设条件的目标文本作为匹配的目标文本。由于本实施例采用的是模糊匹配的方式查找匹配的目标文本,而不是采用的精确查找的方式查找匹配的目标文本,从而有效提高了字符串的识别率。
进一步的,参照图7,图7为本发明字符串模糊匹配装置的第二实施例的功能模块示意图。基于上述字符串模糊匹配装置的第一实施例,所述第一作为模块30包括:确定单元31、第一判断单元32及第一作为单元33。
所述确定单元31,用于根据计算得出的各个目标文本的源匹配度确定源匹配度最高的目标文本;
在计算出各个目标文本的源匹配度后,可以通过比较各个目标文本的源匹配度,然后从中选择出源匹配度最高的目标文本。需要说明的是,若源匹配度最高的目标文本存在多个,则需要将该多个源匹配度最高的目标文本都选择出来。
所述第一判断单元32,用于判断所述源匹配度最高的目标文本的源匹配度是否大于或等于所述第一预设阈值;
所述第一作为单元33,用于若所述源匹配度最高的目标文本的源匹配度大于或等于所述第一预设阈值,则将所述源匹配度最高的目标文本作为匹配的目标文本。
在选择出源匹配度最高的目标文本后,由于选择出的源匹配度最高的目标文本的源匹配度可能很小,也就是表明选出的目标文本与源文本的差距很大,可能不是用户所需要的目标文本,因此,需要丢弃此次选出的目标文本,故在选择出源匹配度最高的目标文本后,可以判断源匹配度最高的目标文本的源匹配度是否大于或等于所述第一预设阈值,若所述源匹配度最高的目标文本的源匹配度大于或等于所述第一预设阈值,则表明所述源匹配度最高的目标文本与所述源文本匹配,并将该源匹配度最高的目标文本作为匹配的目标文本,若源匹配度最高的目标文本的源匹配度小于所述第一预设预设,则表明所述源匹配度最高的目标文本与所述源文本不匹配,也即目标文本与所述源文本不匹配,用户可以重新输入源文本进行匹配操作。
本实施例通过在计算出所述各个目标文本的源匹配度之后,选择出源匹配度最高的目标文本组,然后对该选择出的目标文本进行判断,若该目标文本组的源匹配度大于或等于所述第一预设阈值,则将该目标文本作为匹配的目标文本,本实施例中通过对选择出源匹配度最高的目标文本的源匹配度进行判断,而不需要对每个目标文本的源匹配度进行判断,从而节省了匹配操作的时间。
进一步的,参照图8,图8为本发明字符串模糊匹配装置的第三实施例的功能模块示意图。基于上述字符串模糊匹配装置的第二实施例,所述匹配的目标文本存在多个时,所述字符串模糊匹配装置还包括:第二计算模块40及第二作为模块50。
所述第二计算模块40,用于根据匹配的所述字符数量与各个匹配的所述目标文本的字符数量计算各个匹配的所述目标文本的目标匹配度,并根据计算结果确定目标匹配度最高的目标文本;
所述第二作为模块50,还用于将确定的所述目标匹配度最高的目标文本作为最终匹配的目标文本。
由于通过上述方式获取的匹配的目标文本可能存在多个,因此,为了获取到更准确的匹配的目标文本,可以在获取到匹配的多个目标文本之后,根据匹配的所述字符数量与各个匹配的所述目标文本的字符数量计算所述源文本与各个匹配的所述目标文本的目标匹配度,并在计算出各个匹配的目标文本的目标匹配度后,根据各个匹配的目标文本的目标匹配度确定目标匹配度最高的目标文本,所述目标匹配度为所述匹配的字符数量与目标文本的字符数量的百分比,即所述目标匹配度=匹配的字符数量/目标文本的字符数量*100%。例如,假设各个匹配的目标文本与源文本匹配的字符数量为5个字符,各个目标文本的字符数量分别为5个字符,6个字符,8个字符,10个字符,12个字符,则各个目标文本的目标匹配度依次为100%、83.3%、62.5%、50%、41.7%,则目标匹配度最高的目标文本为所述目标匹配度为100%所对应的目标文本,在确定目标匹配度最高的目标文本后,将该目标文本作为最终匹配的目标文本,需要说明的是,若目标匹配度最高的目标文本存在多个,则将该多个目标匹配度最高的目标文本都作为最终匹配的目标文本。
本实施例通过在筛选出匹配的目标文本后,进一步根据该匹配的各个目标文本的目标匹配度作进一步的筛选,以获取最终匹配的目标文本,由于获取的最终匹配的目标文本经过了两次筛选,因此,提高了获取目标文本的准确率。
进一步的,参照图9,图9为本发明字符串模糊匹配装置的第四实施例的流程示意图。基于上述字符串模糊匹配装置的第三实施例,所述第二作为模块包括50:获取单元51、第二判断单元52及第二作为单元53。
所述获取单元51,用于根据所述第一预设阈值获取所述源文本对应的第二预设阈值;
在本实施例中,所述第二预设阈值与所述第一预设阈值有关,具体地来说,所述第二预设阈值可以根据所述第一预设阈值进行设置。例如,若所述第一预设阈值为1,则可以设置所述第二预设阈值也为1,该第二预设阈值为1代表目标文本的目标匹配度为100%时,该目标文本与源文本才匹配;若所述第一预设阈值对应的源匹配度为0.67,则可以设置所述第二预设阈值为0.50,该第二预设阈值为0.50代表目标文本的目标匹配度为50%或以上时,该目标文本与源文本才匹配。需要说明的是,上述所述的各个阈值可以根据实际需要自由设定和动态调整,也可以根据实际需要设置更多个第二预设阈值,在本实施例中,不做限定。
所述第二判断单元52,用于判断确定的所述目标匹配度最高的目标文本的目标匹配度是否大于或者等于所述第二预设阈值;
所述第二作为单元53,用于若确定的所述目标匹配度最高的目标文本的目标匹配度大于或者等于所述第二预设阈值,则将确定的所述目标匹配度最高的目标文本作为最终匹配的目标文本。
在确定目标匹配度最高的目标文本后,由于确定的目标匹配度最高的目标文本的目标匹配度可能很小,也就是表明选出的目标文本与源文本的差距很大,可能不是用户所需要的目标文本,因此,需要丢弃此次选出的目标文本,故在确定目标匹配度最高的目标文本后,可以判断目标匹配度最高的目标文本的目标匹配度是否大于或等于所述第二预设阈值,若所述目标匹配度最高的目标文本的目标匹配度大于或等于所述第二预设阈值,则表明所述目标匹配度最高的目标文本与所述源文本匹配,并将该目标匹配度最高的目标文本作为最终匹配的目标文本,若目标匹配度最高的目标文本的目标匹配度小于所述第二预设预设,则表明所述目标匹配度最高的目标文本与所述源文本不匹配,也即目标文本与所述源文本匹配失败。
本实施例通过在将所述目标匹配度最高的目标文本作为最终匹配的目标文本之前,判断确定的所述目标匹配度最高的目标文本的目标匹配度是否大于或等于所述第二预设阈值,若是,则匹配成功,若否,则匹配失败,本实施例通过对目标匹配度最高的目标文本的目标匹配度进行判断,以提高获取的目标文本的准确率。
进一步的,参照图10,图10为本发明字符串模糊匹配装置的第五实施例的流程示意图。基于上述字符串模糊匹配装置的任一实施例,所述获取模块10包括:转换单元11及获取单元12。
所述转换单元11,用于将所述源文本和所述各个目标文本转换为拼音形式的字符信息;
所述获取单元12,用于获取所述各个目标文本对应的拼音形式的字符信息与所述源文本对应的拼音形式的字符信息匹配的字符数量。
在本实施例中,所述源文本及目标文本为语音文本或者中文文本,系统在接收到源文本后,为了进行匹配操作,需要将源文本和各个目标文本转换为拼音形式的字符信息,在将源文本和各个目标文本转换为拼音形式的字符信息后,可以将源文本的各个拼音字符信息从第一字符开始依次与目标文本的所有拼音形式的字符信息进行匹配,若匹配成功,则记录下该字符,然后对源文本的第二个字符进行匹配操作,重复上述操作,直到对所述源文本的所有字符完成匹配操作,然后统计出目标文本与该源文本中匹配的字符数量,需要说明的是,若源文本中存在多个相同的字符,则在源文本与目标文本进行匹配操作时,若目标文本中只存在一个字符与源文本中多个相同的字符匹配,则在统计匹配的字符数量时,只计算与该字符匹配的字符数量为一个,而不应该计算为多个。
本实施例通过将源文本和目标文本转换为拼音形式的字符信息进行匹配操作,可以提高目标文本的识别率。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种字符串模糊匹配方法,其特征在于,所述字符串模糊匹配方法包括以下步骤:
获取源文本和各个目标文本匹配的字符数量;
根据匹配的所述字符数量与所述源文本的字符数量计算各个目标文本的源匹配度;
根据所述源文本的字段数量获取所述源文本对应的第一预设阈值;
获取所述各个目标文本的源匹配度大于或等于所述第一预设阈值的目标文本,并将获取到的所述目标文本作为匹配的目标文本。
2.如权利要求1所述的字符串模糊匹配方法,其特征在于,所述获取所述各个目标文本的源匹配度大于或等于所述第一预设阈值的目标文本,并将获取到的所述目标文本作为匹配的目标文本的步骤包括:
根据计算得出的各个目标文本的源匹配度确定源匹配度最高的目标文本;
判断所述源匹配度最高的目标文本的源匹配度是否大于或等于所述第一预设阈值;
若是,则将所述源匹配度最高的目标文本作为匹配的目标文本。
3.如权利要求2所述的字符串模糊匹配方法,其特征在于,所述匹配的目标文本存在多个时,所述将所述源匹配度最高的目标文本作为匹配的目标文本的步骤之后,还包括:
根据匹配的所述字符数量与各个匹配的所述目标文本的字符数量计算各个所述匹配的目标文本的目标匹配度,并根据计算结果确定目标匹配度最高的目标文本;
将确定的所述目标匹配度最高的目标文本作为最终匹配的目标文本。
4.如权利要求3所述的字符串模糊匹配方法,其特征在于,所述将确定的所述目标匹配度最高的目标文本作为最终匹配的目标文本的步骤包括:
根据所述第一预设阈值获取所述源文本对应的第二预设阈值;
判断确定的所述目标匹配度最高的目标文本的目标匹配度是否大于或者等于所述第二预设阈值;
若是,则将确定的所述目标匹配度最高的目标文本作为最终匹配的目标文本。
5.如权利要求1至4任一项所述的字符串模糊匹配方法,其特征在于,所述获取源文本和各个目标文本匹配的字符数量的步骤包括:
将所述源文本和所述各个目标文本转换为拼音形式的字符信息;
获取所述各个目标文本对应的拼音形式的字符信息与所述源文本对应的拼音形式的字符信息匹配的字符数量。
6.一种字符串模糊匹配装置,其特征在于,所述字符串模糊匹配装置包括:
获取模块,用于获取源文本和各个目标文本匹配的字符数量;
第一计算模块,用于根据匹配的所述字符数量与所述源文本的字符数量计算各个目标文本的源匹配度;
所述获取模块,还用于根据所述源文本的字段数量获取所述源文本对应的第一预设阈值;
第一作为模块,用于获取所述各个目标文本的源匹配度大于或等于所述第一预设阈值的目标文本,并将获取到的所述目标文本作为匹配的目标文本。
7.如权利要求6所述的字符串模糊匹配装置,其特征在于,所述第一作为模块包括:
确定单元,用于根据计算得出的各个目标文本的源匹配度确定源匹配度最高的目标文本;
第一判断单元,用于判断所述源匹配度最高的目标文本的源匹配度是否大于或等于所述第一预设阈值;
第一作为单元,用于若所述源匹配度最高的目标文本的源匹配度大于或等于所述第一预设阈值,则将所述源匹配度最高的目标文本作为匹配的目标文本。
8.如权利要求7所述的字符串模糊匹配装置,其特征在于,所述匹配的目标文本存在多个时,所述字符串模糊匹配装置还包括:
第二计算模块,用于根据匹配的所述字符数量与各个匹配的所述目标文本的字符数量计算各个匹配的所述目标文本的目标匹配度,并根据计算结果确定目标匹配度最高的目标文本;
第二作为模块,还用于将确定的所述目标匹配度最高的目标文本作为最终匹配的目标文本。
9.如权利要求8所述的字符串模糊匹配装置,其特征在于,所述第二作为模块包括:
获取单元,用于根据所述第一预设阈值获取所述源文本对应的第二预设阈值;
第二判断单元,用于判断确定的所述目标匹配度最高的目标文本的目标匹配度是否大于或者等于所述第二预设阈值;
第二作为单元,用于若确定的所述目标匹配度最高的目标文本的目标匹配度大于或者等于所述第二预设阈值,则将确定的所述目标匹配度最高的目标文本作为最终匹配的目标文本。
10.如权利要求6至9任一项所述的字符串模糊匹配装置,其特征在于,所述获取模块包括:
转换单元,用于将所述源文本和所述各个目标文本转换为拼音形式的字符信息;
获取单元,用于获取所述各个目标文本对应的拼音形式的字符信息与所述源文本对应的拼音形式的字符信息匹配的字符数量。
CN201610343584.1A 2016-05-20 2016-05-20 字符串模糊匹配方法及装置 Pending CN106021504A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610343584.1A CN106021504A (zh) 2016-05-20 2016-05-20 字符串模糊匹配方法及装置
PCT/CN2016/096429 WO2017197802A1 (zh) 2016-05-20 2016-08-23 字符串模糊匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610343584.1A CN106021504A (zh) 2016-05-20 2016-05-20 字符串模糊匹配方法及装置

Publications (1)

Publication Number Publication Date
CN106021504A true CN106021504A (zh) 2016-10-12

Family

ID=57096944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610343584.1A Pending CN106021504A (zh) 2016-05-20 2016-05-20 字符串模糊匹配方法及装置

Country Status (2)

Country Link
CN (1) CN106021504A (zh)
WO (1) WO2017197802A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919663A (zh) * 2017-02-14 2017-07-04 华北电力大学 电力调控系统多源异构数据融合中的字符串匹配方法
CN107123185A (zh) * 2017-06-20 2017-09-01 深圳怡化电脑股份有限公司 一种有价文件磁性字符的识别装置及方法
CN108572998A (zh) * 2017-03-14 2018-09-25 北京橙鑫数据科技有限公司 一种针对电子卡片数据的数据查找方法及装置
CN108734571A (zh) * 2018-05-29 2018-11-02 佛山市金晶微阅信息科技有限公司 一种信贷反欺诈侦测模糊匹配算法
CN109542785A (zh) * 2018-11-19 2019-03-29 北京云测网络科技有限公司 一种无效bug确定方法和装置
CN109740361A (zh) * 2018-12-29 2019-05-10 深圳Tcl新技术有限公司 数据处理方法、装置及计算机可读存储介质
CN110600003A (zh) * 2019-10-18 2019-12-20 北京云迹科技有限公司 机器人的语音输出方法、装置、机器人和存储介质
CN112215216A (zh) * 2020-09-10 2021-01-12 中国东方电气集团有限公司 一种图像识别结果的字符串模糊匹配系统及方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191087B (zh) * 2019-12-31 2023-11-07 歌尔股份有限公司 字符匹配方法、终端设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101236566A (zh) * 2008-03-06 2008-08-06 宇龙计算机通信科技(深圳)有限公司 一种名称查询的方法及系统
CN101984422A (zh) * 2010-10-18 2011-03-09 百度在线网络技术(北京)有限公司 一种容错文本查询的方法和设备
CN102831232A (zh) * 2012-08-30 2012-12-19 山石网科通信技术(北京)有限公司 字符串的匹配方法及装置
CN103336850A (zh) * 2013-07-24 2013-10-02 昆明理工大学 一种数据库检索系统中确定检索词的方法及装置
CN103440865A (zh) * 2013-08-06 2013-12-11 普强信息技术(北京)有限公司 语音识别的后处理方法
CN103456297A (zh) * 2012-05-29 2013-12-18 中国移动通信集团公司 一种语音识别匹配的方法和设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101236566A (zh) * 2008-03-06 2008-08-06 宇龙计算机通信科技(深圳)有限公司 一种名称查询的方法及系统
CN101984422A (zh) * 2010-10-18 2011-03-09 百度在线网络技术(北京)有限公司 一种容错文本查询的方法和设备
CN103456297A (zh) * 2012-05-29 2013-12-18 中国移动通信集团公司 一种语音识别匹配的方法和设备
CN102831232A (zh) * 2012-08-30 2012-12-19 山石网科通信技术(北京)有限公司 字符串的匹配方法及装置
CN103336850A (zh) * 2013-07-24 2013-10-02 昆明理工大学 一种数据库检索系统中确定检索词的方法及装置
CN103440865A (zh) * 2013-08-06 2013-12-11 普强信息技术(北京)有限公司 语音识别的后处理方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919663A (zh) * 2017-02-14 2017-07-04 华北电力大学 电力调控系统多源异构数据融合中的字符串匹配方法
CN108572998A (zh) * 2017-03-14 2018-09-25 北京橙鑫数据科技有限公司 一种针对电子卡片数据的数据查找方法及装置
CN107123185A (zh) * 2017-06-20 2017-09-01 深圳怡化电脑股份有限公司 一种有价文件磁性字符的识别装置及方法
CN108734571A (zh) * 2018-05-29 2018-11-02 佛山市金晶微阅信息科技有限公司 一种信贷反欺诈侦测模糊匹配算法
CN109542785A (zh) * 2018-11-19 2019-03-29 北京云测网络科技有限公司 一种无效bug确定方法和装置
CN109542785B (zh) * 2018-11-19 2021-07-27 北京云测网络科技有限公司 一种无效bug确定方法和装置
CN109740361A (zh) * 2018-12-29 2019-05-10 深圳Tcl新技术有限公司 数据处理方法、装置及计算机可读存储介质
CN110600003A (zh) * 2019-10-18 2019-12-20 北京云迹科技有限公司 机器人的语音输出方法、装置、机器人和存储介质
CN112215216A (zh) * 2020-09-10 2021-01-12 中国东方电气集团有限公司 一种图像识别结果的字符串模糊匹配系统及方法

Also Published As

Publication number Publication date
WO2017197802A1 (zh) 2017-11-23

Similar Documents

Publication Publication Date Title
CN106021504A (zh) 字符串模糊匹配方法及装置
US11113234B2 (en) Semantic extraction method and apparatus for natural language, and computer storage medium
CN111046152B (zh) Faq问答对自动构建方法、装置、计算机设备及存储介质
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN106534548B (zh) 语音纠错方法和装置
CN105159962B (zh) 职位推荐方法与装置、简历推荐方法与装置、招聘平台
CN104298672A (zh) 一种输入的纠错方法和装置
CN108228576B (zh) 文本翻译方法及装置
CN103076892A (zh) 一种用于提供输入字符串所对应的输入候选项的方法与设备
CN111831911A (zh) 查询信息的处理方法、装置、存储介质和电子装置
CN110991187A (zh) 一种实体链接的方法、装置、电子设备及介质
CN106777328B (zh) 一种移动终端的题目推荐方法及装置
CN103092826A (zh) 一种根据用户的输入信息构建输入词条的方法与设备
US20170034111A1 (en) Method and Apparatus for Determining Key Social Information
CN106601236A (zh) 语音识别方法及装置
CN102270199B (zh) 一种信息的筛选方法和设备
CN104850241A (zh) 一种在移动终端中进行文字输入的方法及移动终端
CN106326388A (zh) 一种信息处理方法和装置
CN112364014A (zh) 数据查询方法、装置、服务器及存储介质
US20140163891A1 (en) Apparatus and method for real-time emotion recognition using heart rate variability
CN111353025A (zh) 平行语料处理方法、装置、存储介质及计算机设备
US20180341646A1 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
CN106202349A (zh) 网页分类字典生成方法及装置
CN104408036A (zh) 关联话题的识别方法和装置
KR102053858B1 (ko) 콘텐츠 평점 산출 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161012

RJ01 Rejection of invention patent application after publication