CN103914570A - 基于字符串相似度算法的智能客服搜索方法与系统 - Google Patents

基于字符串相似度算法的智能客服搜索方法与系统 Download PDF

Info

Publication number
CN103914570A
CN103914570A CN201410171685.6A CN201410171685A CN103914570A CN 103914570 A CN103914570 A CN 103914570A CN 201410171685 A CN201410171685 A CN 201410171685A CN 103914570 A CN103914570 A CN 103914570A
Authority
CN
China
Prior art keywords
value
search
keyword
knowledge base
optimal value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410171685.6A
Other languages
English (en)
Inventor
陆赞信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING ZHONGXUN MUSIC TECHNOLOGY Co Ltd
Original Assignee
BEIJING ZHONGXUN MUSIC TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING ZHONGXUN MUSIC TECHNOLOGY Co Ltd filed Critical BEIJING ZHONGXUN MUSIC TECHNOLOGY Co Ltd
Priority to CN201410171685.6A priority Critical patent/CN103914570A/zh
Publication of CN103914570A publication Critical patent/CN103914570A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于字符串相似度算法的智能客服搜索方法,包括接收来自于客户端的搜索请求,在知识库中进行搜索;判断知识库中是否存在与搜索请求相匹配的关键词,若存在,则将知识库中相匹配的关键词所对应的回复语反馈至客户端;若不存在,则对陌生词库进行搜索;判断陌生词库中是否存在与搜索请求相匹配的关键词,若存在,则将关键词所对应的提问次数进行累计,并将默认回复语反馈至所述客户端;若不存在,则在陌生词库中新增与搜索请求相匹配的关键词,并将默认回复语反馈至客户端。本发明还公开一种基于字符串相似度算法的智能客服搜索系统。本发明具有资源消耗低、匹配准确率高的优点。

Description

基于字符串相似度算法的智能客服搜索方法与系统
技术领域
本发明涉及信息检索技术领域,尤其涉及一种基于字符串相似度算法的智能客服搜索方法。
背景技术
随着经济的发展,国内外正在往服务型社会转变,要求社会的主体以人为本,具备更好地服务他人的理念,“智能客服”正是基于这个理念产生的。智能客服终端可以7天×24小时无间断为用户提供服务,既减少了资源的投入,也满足了用户随时访问的需求,提高了便捷性。譬如,目前,通过“微信”公众平台、SMS(Short Message Service,短信服务)等平台,用户可以随时将数据请求发送到服务平台的智能客服端口,服务平台的智能客服终端则需要根据用户请求的关键字,找到最匹配的信息(如问题答案)回复给用户。例如,用户在“微信”公众平台关注了某航空公司的公众账号后,发送信息“行程单”到该公众平台,智能客服终端可以检测出该信息,并在其所在的数据库中搜索出与该信息相关的行程内容,并进一步将这些内容推荐给用户,以满足用户获取某种特定数据的需要,智能地将用户请求与数据库数据进行匹配和推送。
目前的智能客服匹配大多是采用数据库技术,即在数据库中查找出用户请求搜索的提问语完全一致的关键词,或者将在提问语中出现的某个或某些关键词进行匹配。但是,这种简单的数据搜索方案无法做到“提问语与关键词中有某一部分相同”时的数据搜索和匹配计算,并且其无法智能更新数据库,因此难以做到真正的最优匹配。基于此,现有技术中提出了一些大数据量的数据匹配或搜索方案,虽然这种改进方案能够提高数据匹配搜索的准确度,但是这种数据量巨大的数据搜索方案无疑需要投入大量的时间和资源才能完成,因而其适用范围受到了限制。
发明内容
本发明所要解决的技术问题是,提供一种基于字符串相似度算法的智能客服搜索方法,如何降低数据搜索的复杂度并提高数据匹配的准确度,从而提高智能客服的整体性能和拓宽其适用范围。
为解决以上技术问题,一方面,本发明提供一种基于字符串相似度算法的智能客服搜索方法,
在知识库或陌生词库对关键词进行搜索,所述方法包括以下步骤:
S1:接收来自于客户端的搜索请求,在所述知识库中进行搜索;
S2:判断所述知识库中是否存在与所述搜索请求相匹配的关键词,若存在,则将所述知识库中相匹配的关键词所对应的回复语反馈至所述客户端;若不存在,则执行步骤S3,具体包括:
S21:将所述知识库中的所有关键词分割成多个数组;
S22:将每个数组中的所有关键词与所述搜索请求的提问语进行逐一比较,采用字符串相似度算法逐一计算出所述提问语与每个所述数组中所有关键词的相似度值;
S23:逐一比较所述相似度值与门限值的大小,记录大于所述门限值的相似度值;在大于所述门限值的相似度值中查找每个所述数组中的最大相似度值,并记录所述最大相似度值在所述知识库中所对应的标识以及所述最大相似度值的个数;
S24:判断所述最大相似度值是否存在最优值;若存在,则判定所述最优值的标识所对应的关键词为与所述搜索请求相匹配的关键词,且将所述相匹配的关键词在所述知识库中所对应的回复语判定为最优回复语并将其反馈至所述客户端;若不存在,则执行步骤S3;
S3:对所述陌生词库进行搜索;判断所述陌生词库中是否存在与所述搜索请求相匹配的关键词,若存在,则将所述关键词所对应的提问次数进行累计,并将默认回复语反馈至所述客户端;若不存在,则在所述陌生词库中新增与所述搜索请求相匹配的关键词,并将默认回复语反馈至所述客户端。
优选地,所述步骤S24具体包括:
若当前最大相似度值的个数为零时,判定所述最大相似度值中不存在最优值,并执行所述步骤S3;
若当前最大相似度值的个数不为零时,判定所述最大相似度值存在最优值,且检测所述知识库中是否存储有在先搜索的最优值;
若所述知识库中存储有在先搜索的最优值,则将所述在先搜索的最优值与当前最大相似度值进行比较,若不相等,则将所述在先搜索的最优值与所述当前最大相似度值中的较大值赋为当前搜索的最优值,并记录所述最优值的标识;若相等,则将所述在先搜索的最优值的个数与当前最大相似度值的个数进行比较;
若所述在先搜索的最优值的个数大于当前最大相似度值的个数,则将所述在先搜索的最优值赋为当前搜索的最优值,并记录所述最优值的标识;若所述在先搜索的最优值的个数小于当前最大相似度值的个数,则将所述当前最大相似度值赋为当前搜索的最优值,并记录所述最优值的标识;
将所述最优值的标识所对应的关键词判定为与所述搜索请求相匹配的关键词,且将所述相匹配的关键词在所述知识库中所对应的回复语判定为最优回复语并将其反馈至所述客户端。
进一步地,在所述步骤S3中,当所述陌生词库中存在与所述搜索请求相匹配的关键词时,还包括:
判断与所述搜索请求相匹配的关键词的提问次数是否大于跳变值;若是,则将与所述搜索请求相匹配的关键词以及相应的回复语录入所述知识库中。
另一方面,本发明还提供一种基于字符串相似度算法的智能客服搜索系统,用于根据客户端所发送的搜索请求对数据进行搜索,所述系统包括智能客服搜索服务器、知识库、陌生词库和智能客服管理服务器;
所述智能客服搜索服务器,用于接收来自于客户端的搜索请求,在所述知识库中进行搜索;判断所述知识库中是否存在与所述搜索请求相匹配的关键词,若存在,则将所述知识库中相匹配的关键词所对应的回复语反馈至所述客户端;若不存在,则执行对所述陌生词库进行搜索;判断所述陌生词库中是否存在与所述搜索请求相匹配的关键词,并将默认回复语反馈至所述客户端;
所述智能客服管理服务器,在所述陌生词库中存在与所述搜索请求相匹配的关键词时,用于将所述关键词所对应的提问次数进行累计;在所述陌生词库中不存在与所述搜索请求相匹配的关键词时,用于在所述陌生词库中新增与所述搜索请求相匹配的关键词;
所述智能客服搜索服务器具体包括:
数据分割器,用于将所述知识库中的所有关键词分割成多个数组;
数据处理器,用于将每个数组中的所有关键词与所述搜索请求的提问语进行逐一比较,采用字符串相似度算法逐一计算出所述提问语与每个所述数组中所有关键词的相似度值;
查找记录器,用于逐一比较所述相似度值与门限值的大小,记录大于所述门限值的相似度值;在大于所述门限值的相似度值中查找每个所述数组中的最大相似度值,并记录所述最大相似度值在所述知识库中所对应的标识以及所述最大相似度值的个数;
最优匹配器,用于判断所述最大相似度值是否存在最优值;若存在,则判定所述最优值的标识所对应的关键词为与所述搜索请求相匹配的关键词,且将所述相匹配的关键词在所述知识库中所对应的回复语判定为最优回复语并将其反馈至所述客户端;若不存在,则触发所述智能客服管理服务器对所述陌生词库进行数据处理。
本发明提供的基于字符串相似度算法的智能客服搜索方法和系统,根据关键词的访问热度区分设置知识库和陌生词库,降低数据查询数据量和读写次数,对知识库中的关键字进行分组后,采用字符串相似度算法在每组关键词中搜索出与用户端的提问语具有最大相似度值的关键词,并在最大相似度值中确定最优值及其对应的最优回复语;若未在知识库中搜索到最优值,则对陌生词库中进行搜索,并在搜索到匹配的关键词时,对关键词的提问次数进行累计,在搜索不到匹配的关键词时,则在陌生词库中录入新的与提问语相匹配的关键词。通过对知识库或陌生词库中的关键词的层层比较,以一种“关键词分治”的形式搜索出与所述用户请求最优匹配的关键词,无需设置数量繁多的服务器,从而节约了数据资源并提高了数据匹配的准确度。因此,本发明提供的基于字符串相似度算法的智能客服搜索方法和系统具有更高的适用性。
附图说明
图1是本发明第一实施例提供的基于字符串相似度算法的智能客服搜索方法的流程示意图;
图2是本发明第一实施例所提供的方法在知识库中查找最优回复语的流程示意图;
图3是本发明第二实施例提供的一种基于字符串相似度算法的智能客服搜索系统的结构示意图;
图4是本发明第二实施例提供的智能客服搜索服务器的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
参见图1,是本发明第一实施例提供的基于字符串相似度算法的智能客服搜索方法的结构流程示意图。
本发明提供的基于字符串相似度算法的智能客服搜索方法,在知识库或陌生词库对关键词进行搜索,以获得与客户端所发出的提问语相匹配的回复语。具体地,所述方法包括以下步骤:
步骤S1:接收来自于客户端的搜索请求,在所述知识库中进行搜索,以获得与所述搜索请求相匹配的关键词及其对应的回复语。
步骤S2:判断所述知识库中是否存在与所述搜索请求相匹配的关键词,若存在,则将所述知识库中相匹配的关键词所对应的回复语反馈至所述客户端;若不存在,则执行步骤S3。
步骤S3:对所述陌生词库进行搜索;判断所述陌生词库中是否存在与所述搜索请求相匹配的关键词,若存在,则将所述关键词所对应的提问次数进行累计,并将默认回复语反馈至所述客户端;若不存在,则在所述陌生词库中新增与所述搜索请求相匹配的关键词,并将默认回复语反馈至所述客户端。
进一步地,在所述步骤S3中,当所述陌生词库中存在与所述搜索请求相匹配的关键词时,还包括:
判断与所述搜索请求相匹配的关键词的提问次数是否大于跳变值;若是,则将与所述搜索请求相匹配的关键词以及相应的回复语录入所述知识库中。
具体地,所述步骤S2可采用字符串相似度算法计算出客户端的搜索请求与知识库中已存有的关键字的相似度,并通过对关键字的层层分治比较,可快速获得最优值。
参看图2,是本发明第一实施例所提供的方法在知识库中查找最优回复语的流程示意图。
在一种可实现方式中,所述步骤S2具体包括:
步骤S21:将所述知识库中的所有关键词分割成多个数组;具体实施时,知识库中的以数据列表的形式对关键词进行存储,通过以空格分隔符为区分标志,将所述知识库中的所有关键词分割成多个数组。
步骤S22:将每个数组中的所有关键词与所述搜索请求的提问语进行逐一比较,采用字符串相似度算法逐一计算出所述提问语与每个所述数组中所有关键词的相似度值;
步骤S23:逐一比较所述相似度值与门限值的大小,记录大于所述门限值的相似度值;在大于所述门限值的相似度值中查找每个所述数组中的最大相似度值,并记录所述最大相似度值在所述知识库中所对应的标识以及所述最大相似度值的个数;
步骤S24:判断所述最大相似度值是否存在最优值;若存在,则判定所述最优值的标识所对应的关键词为与所述搜索请求相匹配的关键词,且将所述相匹配的关键词在所述知识库中所对应的回复语判定为最优回复语并将其反馈至所述客户端;若不存在,则执行所述步骤S3。
在本实施例中,字符串相似度算法又称为Levenshtein Distance(编辑距离)算法,字符串的相似度可以用Levenshtein距离来表示,其中Levenshtein距离是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。例如,客户端发送“kitten”,若知识库中存有“kitten”,则需要编辑次数为0,相似度最大;若知识库中并没有“kitten”这一关键词,只录入有关键词“setting”和“witten”,则提问语“kitten”转换成关键词“setting”步骤:①sitten(k→s)②settin(i→e)③setting(→g)最少编辑操作次数为3;将提问语“kitten”一字转换成关键词“witten”步骤:①witten(k→w)最少编辑操作次数为1,可见,关键词“witten”相对于“setting”而言,其与“kitten”的相似度更高,即相似度值更大。若该相似度值符合系统设置的最优值要求,则将“witten”关键词对应的回复内容返回给客户端。如果在知识库中找不到适合的关键词,则对陌生词库进行查找。与以上所述的在知识库中搜索最优值的过程相同,在陌生词库中查找是否存在与客户端提问语最优匹配的关键词,若在陌生词库中找到与客户端提问语相似度大于设定最低相似值的关键词(或陌生词),则在对应关键词的提问次数上加1,并将默认回复语(如:“提问语为陌生词”)反馈给客户端;若在陌生词库中查找不到适合的关键词,就在陌生词库中新增一条关键词,并设置其的提问次数为1,并将默认回复语(如:“找不到对应关键词”)反馈给客户端。进一步地,当陌生词库中的某一关键词的提问次数超过某一设定数值(跳变值)时,则在知识库中录入该关键词及其对应回复语,并在陌生词库中删除该关键词。
其中,所述步骤S24具体包括:
若当前最大相似度值max的个数N为零时,判定所述最大相似度值max中不存在最优值,并执行所述步骤S3;
若当前最大相似度值max的个数N不为零时,判定所述最大相似度值存在最优值,且检测所述知识库中是否存储有在先搜索的最优值max_all(即在知识库中对相同提问语的前一次搜索中所保存的最优值)。
若所述知识库中存储有在先搜索的最优值max_all,则将所述在先搜索的最优值max_all与当前最大相似度值max进行比较,若不相等,则将所述在先搜索的最优值max_all与所述当前最大相似度值max中的较大值赋为当前搜索的最优值,并记录所述最优值的标识(Identity,简称ID);若相等,则将所述在先搜索的最优值max_all的个数M与当前最大相似度值max的个数N进行比较;
若所述在先搜索的最优值max_all的个数M大于当前最大相似度值max的个数N,则将所述在先搜索的最优值max_all赋为当前搜索的最优值,并记录所述最优值的标识(Identity,简称ID);若所述在先搜索的最优值max_all的个数M小于当前最大相似度值max的个数N,则将所述当前最大相似度值赋max为当前搜索的最优值,并记录所述最优值的标识(Identity,简称ID);
将所述最优值的标识ID所对应的关键词判定为与所述搜索请求相匹配的关键词,且将所述相匹配的关键词在所述知识库中所对应的回复语判定为最优回复语并将其反馈至所述客户端。
优选地,所述知识库中的一个或多个关键词对应于同一个回复语,且每个所述关键词之间采用空格分隔符进行隔断后存放在关键词字段中。
本发明实施例还进一步提供了一种基于字符串相似度算法的智能客服搜索系统。
参看图3,是本发明第二实施例提供的一种基于字符串相似度算法的智能客服搜索系统的结构示意图。
本实施例提供的基于字符串相似度算法的智能客服搜索系统,用于根据客户端所发送的搜索请求对数据进行搜索,所述系统包括智能客服搜索服务器100、知识库200、陌生词库300和智能客服管理服务器400。
所述智能客服搜索服务器100,用于接收来自于客户端的搜索请求,在所述知识库中进行搜索;判断所述知识库中是否存在与所述搜索请求相匹配的关键词,若存在,则将所述知识库中相匹配的关键词所对应的回复语反馈至所述客户端;若不存在,则执行对所述陌生词库进行搜索;判断所述陌生词库中是否存在与所述搜索请求相匹配的关键词,并将默认回复语反馈至所述客户端;
所述智能客服管理服务器400,在所述陌生词库中存在与所述搜索请求相匹配的关键词时,用于将所述关键词所对应的提问次数进行累计;在所述陌生词库中不存在与所述搜索请求相匹配的关键词时,用于在所述陌生词库中新增与所述搜索请求相匹配的关键词。
在本实施例中,从提问者与回答者的角度去看,客户端代表提问者,智能客服最优匹配搜索系统代表回答者。当客户端通过网站交互系统或通讯平台提出问题后,该系统通过智能客服搜索服务器100处理,对知识库200和/或陌生词库300进行数据搜索或更新,并将搜索获得的最优匹配的回复语反馈给客户端。
参看图4,是本发明第二实施例提供的智能客服搜索服务器的一种结构示意图。在本实施例中,所述智能客服搜索服务器100具体包括:
数据分割器101,用于将所述知识库中的所有关键词分割成多个数组;特别地,所述数据分割器用于:以空格分隔符为区分标志,将所述知识库中的所有关键词分割成多个数组。
数据处理器102,用于将每个数组中的所有关键词与所述搜索请求的提问语进行逐一比较,采用字符串相似度算法逐一计算出所述提问语与每个所述数组中所有关键词的相似度值;
查找记录器103,用于逐一比较所述相似度值与门限值的大小,记录大于所述门限值的相似度值;在大于所述门限值的相似度值中查找每个所述数组中的最大相似度值,并记录所述最大相似度值在所述知识库中所对应的标识以及所述最大相似度值的个数;
最优匹配器104,用于判断所述最大相似度值是否存在最优值;若存在,则判定所述最优值的标识所对应的关键词为与所述搜索请求相匹配的关键词,且将所述相匹配的关键词在所述知识库中所对应的回复语判定为最优回复语并将其反馈至所述客户端;若不存在,则触发所述智能客服管理服务器对所述陌生词库进行数据处理。
具体实施时,所述最优匹配器104还用于:
若当前最大相似度值的个数为零时,判定所述最大相似度值中不存在最优值,并执行对所述陌生词库进行搜索;判断所述陌生词库中是否存在与所述搜索请求相匹配的关键词,若存在,则将所述关键词所对应的提问次数进行累计,并将默认回复语反馈至所述客户端;若不存在,则在所述陌生词库中新增与所述搜索请求相匹配的关键词,并将默认回复语反馈至所述客户端;
若当前最大相似度值的个数不为零时,判定所述最大相似度值存在最优值,且检测所述知识库中是否存储有在先搜索的最优值;
若所述知识库中存储有在先搜索的最优值,则将所述在先搜索的最优值与当前最大相似度值进行比较,若不相等,则将所述在先搜索的最优值与所述当前最大相似度值中的较大值赋为当前搜索的最优值,并记录所述最优值的标识;若相等,则将所述在先搜索的最优值的个数与当前最大相似度值的个数进行比较;
若所述在先搜索的最优值的个数大于当前最大相似度值的个数,则将所述在先搜索的最优值赋为当前搜索的最优值,并记录所述最优值的标识;若所述在先搜索的最优值的个数小于当前最大相似度值的个数,则将所述当前最大相似度值赋为当前搜索的最优值,并记录所述最优值的标识;
将所述最优值的标识所对应的关键词判定为与所述搜索请求相匹配的关键词,且将所述相匹配的关键词在所述知识库中所对应的回复语判定为最优回复语并将其反馈至所述客户端。
进一步地,所述智能客服管理服务器400还用于:
判断与所述搜索请求相匹配的关键词的提问次数是否大于跳变值;若是,则将与所述搜索请求相匹配的关键词以及相应的回复语录入所述知识库中。
优选地,所述知识库中的一个或多个关键词对应于同一个回复语,且每个所述关键词之间采用空格分隔符进行隔断后存放在关键词字段中。
本发明提供的基于字符串相似度算法的智能客服搜索方法和系统,通过使用人工智能的服务器和消息搜索与推送引擎,使得用户在提出问题后更加方便和快速地获得回复,降低数据读写次数,节约系统资源。
具体地,根据关键词的访问热度区分设置知识库和陌生词库,降低数据查询数据量和读写次数,对知识库中的关键字进行分组后,采用字符串相似度算法在每组关键词中搜索出与用户端的提问语具有最大相似度值的关键词,并在最大相似度值中确定最优值及其对应的最优回复语;若未在知识库中搜索到最优值,则对陌生词库中进行搜索,并在搜索到匹配的关键词时,对关键词的提问次数进行累计,在搜索不到匹配的关键词时,则在陌生词库中录入新的与提问语相匹配的关键词。通过对知识库或陌生词库中的关键词的层层比较,以一种“关键词分治”的形式搜索出与所述用户请求最优匹配的关键词,无需设置数量繁多的服务器,从而节约了数据资源并提高了数据匹配的准确度。因此,本发明提供的基于字符串相似度算法的智能客服搜索方法和系统具有更高的适用性。以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种基于字符串相似度算法的智能客服搜索方法,其特征在于,在知识库或陌生词库对关键词进行搜索,所述方法包括以下步骤:
S1:接收来自于客户端的搜索请求,在所述知识库中进行搜索;
S2:判断所述知识库中是否存在与所述搜索请求相匹配的关键词,若存在,则将所述知识库中相匹配的关键词所对应的回复语反馈至所述客户端;若不存在,则执行步骤S3,具体包括:
S21:将所述知识库中的所有关键词分割成多个数组;
S22:将每个数组中的所有关键词与所述搜索请求的提问语进行逐一比较,采用字符串相似度算法逐一计算出所述提问语与每个所述数组中所有关键词的相似度值;
S23:逐一比较所述相似度值与门限值的大小,记录大于所述门限值的相似度值;在大于所述门限值的相似度值中查找每个所述数组中的最大相似度值,并记录所述最大相似度值在所述知识库中所对应的标识以及所述最大相似度值的个数;
S24:判断所述最大相似度值是否存在最优值;若存在,则判定所述最优值的标识所对应的关键词为与所述搜索请求相匹配的关键词,且将所述相匹配的关键词在所述知识库中所对应的回复语判定为最优回复语并将其反馈至所述客户端;若不存在,则执行步骤S3;
S3:对所述陌生词库进行搜索;判断所述陌生词库中是否存在与所述搜索请求相匹配的关键词,若存在,则将所述关键词所对应的提问次数进行累计,并将默认回复语反馈至所述客户端;若不存在,则在所述陌生词库中新增与所述搜索请求相匹配的关键词,并将默认回复语反馈至所述客户端。
2.如权利要求1所述的基于字符串相似度算法的智能客服搜索方法,其特征在于,所述步骤S24具体包括:
若当前最大相似度值的个数为零时,判定所述最大相似度值中不存在最优值,并执行所述步骤S3;
若当前最大相似度值的个数不为零时,判定所述最大相似度值存在最优值,且检测所述知识库中是否存储有在先搜索的最优值;
若所述知识库中存储有在先搜索的最优值,则将所述在先搜索的最优值与当前最大相似度值进行比较,若不相等,则将所述在先搜索的最优值与所述当前最大相似度值中的较大值赋为当前搜索的最优值,并记录所述最优值的标识;若相等,则将所述在先搜索的最优值的个数与当前最大相似度值的个数进行比较;
若所述在先搜索的最优值的个数大于当前最大相似度值的个数,则将所述在先搜索的最优值赋为当前搜索的最优值,并记录所述最优值的标识;若所述在先搜索的最优值的个数小于当前最大相似度值的个数,则将所述当前最大相似度值赋为当前搜索的最优值,并记录所述最优值的标识;
将所述最优值的标识所对应的关键词判定为与所述搜索请求相匹配的关键词,且将所述相匹配的关键词在所述知识库中所对应的回复语判定为最优回复语并将其反馈至所述客户端。
3.如权利要求1或2所述的基于字符串相似度算法的智能客服搜索方法,其特征在于,在所述步骤S3中,当所述陌生词库中存在与所述搜索请求相匹配的关键词时,还包括:
判断与所述搜索请求相匹配的关键词的提问次数是否大于跳变值;若是,则将与所述搜索请求相匹配的关键词以及相应的回复语录入所述知识库中。
4.如权利要求3所述的基于字符串相似度算法的智能客服搜索方法,其特征在于,所述知识库中的一个或多个关键词对应于同一个回复语,且每个所述关键词之间采用空格分隔符进行隔断后存放在关键词字段中。
5.如权利要求4所述的基于字符串相似度算法的智能客服搜索方法,其特征在于,在所述步骤S21中,具体为:
以空格分隔符为区分标志,将所述知识库中的所有关键词分割成多个数组。
6.一种基于字符串相似度算法的智能客服搜索系统,其特征在于,用于根据客户端所发送的搜索请求对数据进行搜索,所述系统包括智能客服搜索服务器、知识库、陌生词库和智能客服管理服务器;
所述智能客服搜索服务器,用于接收来自于客户端的搜索请求,在所述知识库中进行搜索;判断所述知识库中是否存在与所述搜索请求相匹配的关键词,若存在,则将所述知识库中相匹配的关键词所对应的回复语反馈至所述客户端;若不存在,则执行对所述陌生词库进行搜索;判断所述陌生词库中是否存在与所述搜索请求相匹配的关键词,并将默认回复语反馈至所述客户端;
所述智能客服管理服务器,在所述陌生词库中存在与所述搜索请求相匹配的关键词时,用于将所述关键词所对应的提问次数进行累计;在所述陌生词库中不存在与所述搜索请求相匹配的关键词时,用于在所述陌生词库中新增与所述搜索请求相匹配的关键词;
所述智能客服搜索服务器具体包括:
数据分割器,用于将所述知识库中的所有关键词分割成多个数组;
数据处理器,用于将每个数组中的所有关键词与所述搜索请求的提问语进行逐一比较,采用字符串相似度算法逐一计算出所述提问语与每个所述数组中所有关键词的相似度值;
查找记录器,用于逐一比较所述相似度值与门限值的大小,记录大于所述门限值的相似度值;在大于所述门限值的相似度值中查找每个所述数组中的最大相似度值,并记录所述最大相似度值在所述知识库中所对应的标识以及所述最大相似度值的个数;
最优匹配器,用于判断所述最大相似度值是否存在最优值;若存在,则判定所述最优值的标识所对应的关键词为与所述搜索请求相匹配的关键词,且将所述相匹配的关键词在所述知识库中所对应的回复语判定为最优回复语并将其反馈至所述客户端;若不存在,则触发所述智能客服管理服务器对所述陌生词库进行数据处理。
7.如权利要求6所述的基于字符串相似度算法的智能客服搜索系统,其特征在于,所述最优匹配器还用于:
若当前最大相似度值的个数为零时,判定所述最大相似度值中不存在最优值,并执行对所述陌生词库进行搜索;判断所述陌生词库中是否存在与所述搜索请求相匹配的关键词,若存在,则将所述关键词所对应的提问次数进行累计,并将默认回复语反馈至所述客户端;若不存在,则在所述陌生词库中新增与所述搜索请求相匹配的关键词,并将默认回复语反馈至所述客户端;
若当前最大相似度值的个数不为零时,判定所述最大相似度值存在最优值,且检测所述知识库中是否存储有在先搜索的最优值;
若所述知识库中存储有在先搜索的最优值,则将所述在先搜索的最优值与当前最大相似度值进行比较,若不相等,则将所述在先搜索的最优值与所述当前最大相似度值中的较大值赋为当前搜索的最优值,并记录所述最优值的标识;若相等,则将所述在先搜索的最优值的个数与当前最大相似度值的个数进行比较;
若所述在先搜索的最优值的个数大于当前最大相似度值的个数,则将所述在先搜索的最优值赋为当前搜索的最优值,并记录所述最优值的标识;若所述在先搜索的最优值的个数小于当前最大相似度值的个数,则将所述当前最大相似度值赋为当前搜索的最优值,并记录所述最优值的标识;
将所述最优值的标识所对应的关键词判定为与所述搜索请求相匹配的关键词,且将所述相匹配的关键词在所述知识库中所对应的回复语判定为最优回复语并将其反馈至所述客户端。
8.如权利要求6或7所述的基于字符串相似度算法的智能客服搜索系统,其特征在于,所述智能客服管理服务器还用于:
判断与所述搜索请求相匹配的关键词的提问次数是否大于跳变值;若是,则将与所述搜索请求相匹配的关键词以及相应的回复语录入所述知识库中。
9.如权利要求8所述的基于字符串相似度算法的智能客服搜索系统,其特征在于,所述知识库中的一个或多个关键词对应于同一个回复语,且每个所述关键词之间采用空格分隔符进行隔断后存放在关键词字段中。
10.如权利要求9所述的基于字符串相似度算法的智能客服搜索系统,其特征在于,所述数据分割器用于:
以空格分隔符为区分标志,将所述知识库中的所有关键词分割成多个数组。
CN201410171685.6A 2014-04-25 2014-04-25 基于字符串相似度算法的智能客服搜索方法与系统 Pending CN103914570A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410171685.6A CN103914570A (zh) 2014-04-25 2014-04-25 基于字符串相似度算法的智能客服搜索方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410171685.6A CN103914570A (zh) 2014-04-25 2014-04-25 基于字符串相似度算法的智能客服搜索方法与系统

Publications (1)

Publication Number Publication Date
CN103914570A true CN103914570A (zh) 2014-07-09

Family

ID=51040250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410171685.6A Pending CN103914570A (zh) 2014-04-25 2014-04-25 基于字符串相似度算法的智能客服搜索方法与系统

Country Status (1)

Country Link
CN (1) CN103914570A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866985A (zh) * 2015-05-04 2015-08-26 小米科技有限责任公司 快递单号识别方法、装置及系统
CN105608083A (zh) * 2014-11-13 2016-05-25 北京搜狗科技发展有限公司 获得输入库的方法、装置及电子设备
CN105740210A (zh) * 2016-03-17 2016-07-06 腾讯科技(深圳)有限公司 一种信息相似度确定方法及装置
CN106294557A (zh) * 2016-07-26 2017-01-04 众德迪克科技(北京)有限公司 一种具有自学习功能的智能机器人及其自学习方法
CN107679544A (zh) * 2017-08-04 2018-02-09 平安科技(深圳)有限公司 数据自动匹配方法、电子设备及计算机可读存储介质
CN107862062A (zh) * 2017-11-15 2018-03-30 中国银行股份有限公司 一种信息查询方法、装置及电子设备
CN109285396A (zh) * 2018-07-11 2019-01-29 北京美高森教育科技有限公司 语音生词检测方法、学习机、教练机及其教学app系统
CN110059171A (zh) * 2019-04-12 2019-07-26 中国工商银行股份有限公司 智能问答性能提升方法及系统
CN114117021A (zh) * 2022-01-24 2022-03-01 北京数智新天信息技术咨询有限公司 一种确定回复内容的方法、装置及电子设备
CN117648426A (zh) * 2023-12-12 2024-03-05 广州圈量网络信息科技有限公司 基于有效关键词的智能客服方法、系统、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101076184A (zh) * 2006-07-31 2007-11-21 腾讯科技(深圳)有限公司 一种实现自动应答的系统及方法
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统
CN103309963A (zh) * 2013-06-03 2013-09-18 苏州阔地网络科技有限公司 一种智能客服的处理方法及系统
CN103353894A (zh) * 2013-07-19 2013-10-16 武汉睿数信息技术有限公司 一种基于语义分析的数据搜索方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101076184A (zh) * 2006-07-31 2007-11-21 腾讯科技(深圳)有限公司 一种实现自动应答的系统及方法
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统
CN103309963A (zh) * 2013-06-03 2013-09-18 苏州阔地网络科技有限公司 一种智能客服的处理方法及系统
CN103353894A (zh) * 2013-07-19 2013-10-16 武汉睿数信息技术有限公司 一种基于语义分析的数据搜索方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
秦春秀等: ""词语相似度计算研究"", 《情报理论与实践》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608083A (zh) * 2014-11-13 2016-05-25 北京搜狗科技发展有限公司 获得输入库的方法、装置及电子设备
CN105608083B (zh) * 2014-11-13 2019-09-03 北京搜狗科技发展有限公司 获得输入库的方法、装置及电子设备
CN104866985B (zh) * 2015-05-04 2019-03-08 小米科技有限责任公司 快递单号识别方法、装置及系统
CN104866985A (zh) * 2015-05-04 2015-08-26 小米科技有限责任公司 快递单号识别方法、装置及系统
CN105740210A (zh) * 2016-03-17 2016-07-06 腾讯科技(深圳)有限公司 一种信息相似度确定方法及装置
CN105740210B (zh) * 2016-03-17 2020-06-16 腾讯科技(深圳)有限公司 一种信息相似度确定方法及装置
CN106294557A (zh) * 2016-07-26 2017-01-04 众德迪克科技(北京)有限公司 一种具有自学习功能的智能机器人及其自学习方法
CN107679544A (zh) * 2017-08-04 2018-02-09 平安科技(深圳)有限公司 数据自动匹配方法、电子设备及计算机可读存储介质
CN107862062A (zh) * 2017-11-15 2018-03-30 中国银行股份有限公司 一种信息查询方法、装置及电子设备
CN109285396A (zh) * 2018-07-11 2019-01-29 北京美高森教育科技有限公司 语音生词检测方法、学习机、教练机及其教学app系统
CN110059171A (zh) * 2019-04-12 2019-07-26 中国工商银行股份有限公司 智能问答性能提升方法及系统
CN114117021A (zh) * 2022-01-24 2022-03-01 北京数智新天信息技术咨询有限公司 一种确定回复内容的方法、装置及电子设备
CN114117021B (zh) * 2022-01-24 2022-04-01 北京数智新天信息技术咨询有限公司 一种确定回复内容的方法、装置及电子设备
CN117648426A (zh) * 2023-12-12 2024-03-05 广州圈量网络信息科技有限公司 基于有效关键词的智能客服方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN103914570A (zh) 基于字符串相似度算法的智能客服搜索方法与系统
US11580104B2 (en) Method, apparatus, device, and storage medium for intention recommendation
CN108052659B (zh) 基于人工智能的搜索方法、装置和电子设备
US20210209182A1 (en) Systems and methods for improved web searching
CN101706807B (zh) 一种中文网页新词自动获取方法
CN107918604B (zh) 一种中文的分词方法及装置
CN104750705A (zh) 信息回复方法及装置
CA2882280A1 (en) System and method for matching data using probabilistic modeling techniques
CN103020054B (zh) 模糊查询方法及系统
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN103577416A (zh) 扩展查询方法及系统
CN104166651A (zh) 基于对同类数据对象整合的数据搜索的方法和装置
CN104391908B (zh) 一种图上基于局部敏感哈希的多关键字索引方法
CN102262670A (zh) 一种基于移动可视设备的跨媒体信息检索系统及方法
CN102819592A (zh) 一种基于Lucene的桌面搜索系统及方法
Elshater et al. godiscovery: Web service discovery made efficient
CN103218373A (zh) 一种相关搜索系统、方法及装置
CN102646124A (zh) 一种自动识别地址信息的方法
CN112559717A (zh) 搜索匹配方法、装置、电子设备以及存储介质
CN110245357B (zh) 主实体识别方法和装置
CN105677664A (zh) 基于网络搜索的紧密度确定方法及装置
CN111782970B (zh) 一种数据分析方法和装置
CN113326363A (zh) 搜索方法及装置、预测模型训练方法及装置、电子设备
CN110990708A (zh) 热点事件确定方法、装置、存储介质及电子设备
CN107169065B (zh) 一种特定内容的去除方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140709