CN105488185B - 一种知识库的优化方法和装置 - Google Patents

一种知识库的优化方法和装置 Download PDF

Info

Publication number
CN105488185B
CN105488185B CN201510866521.XA CN201510866521A CN105488185B CN 105488185 B CN105488185 B CN 105488185B CN 201510866521 A CN201510866521 A CN 201510866521A CN 105488185 B CN105488185 B CN 105488185B
Authority
CN
China
Prior art keywords
daily record
human
computer interaction
error correction
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510866521.XA
Other languages
English (en)
Other versions
CN105488185A (zh
Inventor
蔡宏伟
朱频频
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Original Assignee
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhizhen Intelligent Network Technology Co Ltd filed Critical Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority to CN201510866521.XA priority Critical patent/CN105488185B/zh
Publication of CN105488185A publication Critical patent/CN105488185A/zh
Application granted granted Critical
Publication of CN105488185B publication Critical patent/CN105488185B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种知识库的优化方法和装置,该方法包括:在待维护的人机交互日志中筛选出需纠错的人机交互日志;基于历史人机交互日志数据对所述需纠错的人机交互日志的内容进行聚类优化;根据聚类优化的结果对所述需纠错的人机交互日志进行纠错处理,并将纠错后的结果添加到知识库中。本发明应用了大数据分析技术,通过对人机交互日志进行筛选以过滤掉大部分无需纠错或处理的人机交互数据,接下来采用大数据及聚类优化结合人工判定的方式,大量降低了日志处理工作中所需投入的人工量,并提高了极大工作的效率、降低了成本。

Description

一种知识库的优化方法和装置
技术领域
本发明涉及人机交互技术领域,尤其涉及一种知识库的优化方法和装置。
背景技术
人机交互是研究系统与用户之间的交互关系的科学。系统可以是各种各样的机器,也可以是计算机化的系统和软件。例如,通过人机交互可以实现各种人工智能系统,例如,智能客服系统、语音控制系统等等。
人工智能语义识别是人机交互的基础,其能够对人类语言进行识别,以转换成机器能够理解的语言。为了能够理解人类语言,人工智能语义识别系统需要一套知识库。海量异构数据通过知识学习体系整理成知识,并融入到已有的知识体系中来。不同企业会生成各自的“专属知识”;同领域企业的知识中可以总结出“领域语义库”。
各种人工智能系统采用人工智能语义识别技术对用户提出的原始问句进行处理,确定出该原始问句对应的标准问句,再基于该标准问句及原始问句中所附带的一些限定性的信息给出相应的答案,在人工智能系统中以日志的形式记录下针对每一个原始问句的处理情况,每一条日志的内容包含:原始问题、标准问句以及答案。
目前,面对庞大数量的人机交互日志,均是通过大量人工投入,对交互日志进行人工校验纠错,从而提取优化内容加入到知识库中,成本高且效率低下。
发明内容
本发明要解决的技术问题是,提供一种知识库的优化方法和装置,在知识库的优化过程中减少对人机交互日志的进行纠错时的大量人工投入,降低成本提高效率。
本发明采用的技术方案是,所述知识库的优化方法,包括:
在待维护的人机交互日志中筛选出需纠错的人机交互日志;
基于历史人机交互日志数据对所述需纠错的人机交互日志的内容进行聚类优化;
根据聚类优化的结果对所述需纠错的人机交互日志进行纠错处理,并将纠错后的结果添加到知识库中。
进一步的,所述在待维护的人机交互日志中筛选出需纠错的人机交互日志,包括:
从历史人机交互日志数据中提取正确答复的人机交互日志形成正确日志库;从历史人机交互日志数据中提取错误答复且无意义的人机交互日志以及未答复且无意义的人机交互日志形成无意义日志库;
将每条待维护的人机交互日志分别与所述正确日志库和无意义日志库进行匹配判断,并将匹配失败的人机交互日志作为需纠错的人机交互日志。
进一步的,所述匹配失败指的是:未与正确日志库的用户问句匹配且未与无意义日志库的用户问句匹配;或者,未与正确日志库的用户问句匹配且虽与无意义日志库的用户问句匹配但未与无意义日志库的答案匹配。
进一步的,在进行匹配判断之后,所述方法还包括:通过人工方式对匹配失败的人机交互日志进行过滤,并将过滤后的人机交互日志作为需纠错的人机交互日志。
进一步的,所述聚类优化包括:
将需纠错的人机交互日志的用户问句分别与历史人机交互日志数据的用户问句及历史人机交互日志数据的用户问句对应的标准问进行语义相似度计算;
将语义相似度计算结果最高的前N个用户问句对应的标准问作为聚类优化的结果。
进一步的,作为一种可选的技术方案,所述N大于或等于1,所述纠错处理包括:
通过人工方式判断所述聚类优化的结果中有无与所述需纠错的人机交互日志的用户问句对应的标准问;
若有,将所述需纠错的人机交互日志的用户问句作为所述标准问的拓展问添加到知识库中;
否则,通过人工方式为所述需纠错的人机交互日志的用户问句撰写对应的标准问及答案,并将所述标准问及答案添加到知识库中。
进一步的,作为另一种可选的技术方案,所述N为3~5。
本发明还提供一种知识库的优化装置,包括:
筛选模块,用于在待维护的人机交互日志中筛选出需纠错的人机交互日志;
聚类优化模块,用于基于历史人机交互日志数据对所述需纠错的人机交互日志的内容进行聚类优化;
纠错模块,用于根据聚类优化的结果对所述需纠错的人机交互日志进行纠错处理,并将纠错后的结果添加到知识库中。
进一步的,所述筛选模块,具体用于:
从历史人机交互日志数据中提取正确答复的人机交互日志形成正确日志库;从历史人机交互日志数据中提取错误答复且无意义的人机交互日志以及未答复且无意义的人机交互日志形成无意义日志库;
将每条待维护的人机交互日志分别与所述正确日志库和无意义日志库进行匹配判断,并将匹配失败的人机交互日志作为需纠错的人机交互日志。
进一步的,所述匹配失败指的是:未与正确日志库的用户问句匹配且未与无意义日志库的用户问句匹配;或者,未与正确日志库的用户问句匹配且虽与无意义日志库的用户问句匹配但未与无意义日志库的答案匹配。
进一步的,所述筛选模块,还用于:
在进行匹配判断之后,通过人工方式对匹配失败的人机交互日志进行过滤,并将过滤后的人机交互日志作为需纠错的人机交互日志。
进一步的,所述聚类优化模块,具体用于:
将需纠错的人机交互日志的用户问句分别与历史人机交互日志数据的用户问句及历史人机交互日志数据的用户问句对应的标准问进行语义相似度计算;
将语义相似度计算结果最高的前N个用户问句对应的标准问作为聚类优化的结果。
进一步的,作为一种可选的技术方案,所述N大于或等于1,所述纠错模块,具体用于:
通过人工方式判断所述聚类优化的结果中有无与所述需纠错的人机交互日志的用户问句对应的标准问;
若有,将所述需纠错的人机交互日志的用户问句作为所述标准问的拓展问添加到知识库中;
否则,通过人工方式为所述需纠错的人机交互日志的用户问句撰写对应的标准问及答案,并将所述标准问及答案添加到知识库中。
进一步的,作为另一种可选的技术方案,所述N为3~5。
采用上述技术方案,本发明至少具有下列优点:
本发明所述知识库的优化方法和装置,应用了大数据分析技术,通过对人机交互日志进行筛选以过滤掉大部分无需纠错或处理的人机交互数据,接下来采用大数据及聚类优化结合人工判定的方式,大量降低了日志处理工作中所需投入的人工量,并极大提高了工作的效率、降低了成本。
附图说明
图1为本发明第一实施例的知识库的优化方法流程图;
图2为本发明第三实施例的知识库的优化装置组成结构示意图;
图3为本发明第五实施例的分析得出无用数据的原理示意图;
图4为本发明第五实施例的用于过滤掉无用数据的大数据自定判断处理流程图。
具体实施方式
为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
本发明第一实施例,一种知识库的优化方法,如图1所示,包括以下具体步骤:
步骤S101,在待维护的人机交互日志中筛选出需纠错的人机交互日志。
具体的,步骤S101包括:
A1:从历史人机交互日志数据中提取正确答复的人机交互日志形成正确日志库;从历史人机交互日志数据中提取错误答复且无意义的人机交互日志以及未答复且无意义的人机交互日志形成无意义日志库;
需要说明的是,正确日志库中每条人机交互日志的内容中均包含以下组成部分:扩展问、标准问句及答案。待维护的人机交互日志很可能是未回复的,则此时可以使用系统预设的默认答案,但没有标准问及扩展问;同理,无意义日志库中的日志也可能是未回复的,则也可以使用系统预设的默认答案,此时也没有标准问和扩展问。
A2:将每条待维护的人机交互日志分别与所述正确日志库和无意义日志库进行匹配判断,并将匹配失败的人机交互日志作为需纠错的人机交互日志。
在步骤A2中,所述匹配失败指的是:未与正确日志库的用户问句匹配且未与无意义日志库的用户问句匹配;或者,未与正确日志库的用户问句匹配且虽与无意义日志库的用户问句匹配但未与无意义日志库的答案匹配。
本发明实施例对待维护的每一条人机交互日志,无论其是否正确、是否有意义,均会对其进行性质划分,经过性质划分之后,无需对正确人机交互日志、无意义人机交互日志和错误人机交互日志等无用数据进行维护,而只需对可能有意义的人机交互日志进行维护纠错,可能有意义的人机交互日志包括:未与正确日志库的用户问句匹配且未与无意义日志库的用户问句匹配的人机交互日志,以及未与正确日志库的用户问句匹配且虽与无意义日志库的用户问句匹配但未与无意义日志库的答案匹配的人机交互日志。避免了现有技术中在日志纠错时,只针对错误日志,且每天重复看的正确日志部分也未有有效利用。
而且,本发明实施例的技术方案可过滤掉大量无用数据,提高工作效率。现有技术中,大量的正确与错误混杂的日志通过人工处理,难免会有遗漏的情况存在,并且需要投入大量的人工。现在通过大数据处理过滤大部分无用数据内容,减少了需要投入的人工量。并且定位了需纠错的日志的范围后,使纠错的效果大大的提高了。
步骤S102,基于历史人机交互日志数据对所述需纠错的人机交互日志的内容进行聚类优化。
具体的,步骤S102包括:
B1:将需纠错的人机交互日志的用户问句分别与历史人机交互日志数据的用户问句及历史人机交互日志数据的用户问句对应的标准问进行语义相似度计算。
所述语义相似度计算可以是文本聚类分析算法、LDA分析算法、以及序列分析算法相结合来进行的,由于语义相似度计算采用的均是现有的算法,此处不详述。
B2:将语义相似度计算结果最高的前N个用户问句对应的标准问作为聚类优化的结果。
具体的,在N大于等于1的情况下,优选的,N为3~5;可选的,N为1。
由于前面同时和用户问句和标准问进行相似度计算,因此相似度值靠前的可能是用户问句,也可能是标准问,由于历史人机交互日志数据中用户问句必然对应有标准问,无论是由标准问直接出现在语义相似度计算的结果中还是用户问句出现在语义相似度计算的结果中,均将用户问句对应的标准问作为聚类优化的结果,呈现出来。
需要说明的是,本发明实施例的步骤S101中基于历史人机交互日志数据从待维护的人机交互日志中筛选出需纠错的人机交互日志的过程、以及步骤S102中基于历史人机交互日志数据对所述需纠错的人机交互日志的内容进行聚类优化的过程,均是基于大数据分析技术实现的。
步骤S103,根据聚类优化的结果对所述需纠错的人机交互日志进行纠错处理,并将纠错后的结果添加到知识库中。
具体的,步骤S103包括:
通过人工方式判断所述聚类优化的结果中有无与所述需纠错的人机交互日志的用户问句对应的标准问;
若有,将所述需纠错的人机交互日志的用户问句作为所述标准问的拓展问添加到知识库中;由于所述聚类优化的结果中存在的该标准问可能是一个也可能是多个,如果是多个,则可以通过人工方式选出一个最合适标准问对应的所述需纠错的人机交互日志的用户问句添加到知识库中。
否则,通过人工方式为所述需纠错的人机交互日志的用户问句撰写对应的标准问及答案,并将所述标准问及答案添加到知识库中。
进一步的,通过人工方式为所述需纠错的人机交互日志的用户问句撰写对应的标准问及答案,并将所述标准问及答案添加到知识库中,包括以下两种情况:一是直接将用户问句作为标准问,此时只把标准问和答案加至知识库中;二是用户问句不作为标准问,而是作为标准问的扩展问,此时同时把标准问、答案和用户问句加至知识库中。
针对现有技术中优化知识库内容的工作均需要由专业的知识工程师才能完成的缺陷,本发明实施例采用步骤B2中的大数据相似语义推荐后,对于“判断所述聚类优化的结果中有无与所述需纠错的人机交互日志的用户问句对应的标准问”的工作只要由普通的运营人员进行判定,即可完成知识库内容优化的工作。剩余需要新增语义的工作即“通过人工方式为所述需纠错的人机交互日志的用户问句撰写对应的标准问及答案”的部分再交由知识工程师完成,从而大大降低了知识优化工作需要工作人员的门槛。
知识库包括:标准问、答案和扩展问,在人机交互过程中,先有用户问句与知识库中的扩展问匹配上,然后找出对应的标准问,基于标准问以及用户问句中所含的相关限定信息在知识库的人机交互日志中寻找出答案。例如:用户问句是“今天北京天气如何?”,利用该用户问句在知识库中匹配上相类似的扩展问“天气如何?”,并进一步找到该扩展问对应的标准问“天气情况查询”,最后根据该标准问以及该用户问句中的限定信息“北京”和“今天”,在知识库中查找到相应的答案。知识库基于本发明实施例的优化方法在对已产生的人机交互日志进行逐条维护的过程中,不断的将经过优化的人机交互日志的相关信息加入到知识库中,以使知识库更加完善,从而在后续人机交互过程中更加准确智能的回答用户问句,满足用户的多种多样的需求。
本发明第二实施例,一种知识库的优化方法,本实施例所述方法与第一实施例大致相同,区别在于:
在第一实施例的步骤A2中进行匹配判断之后,所述方法还包括:通过人工方式对匹配失败的人机交互日志进行过滤,并将过滤后的人机交互日志作为需纠错的人机交互日志。
具体的,在进行匹配之后且进行聚类优化之前,先将所述需人工纠错的人机交互日志经过人工判断以过滤掉用户问句无意义的人机交互日志以及正确的人机交互日志,而保留下用户问句有意义的人机交互日志作为进行聚类优化的所述需人工纠错的人机交互日志。进一步的,人工可以将用户问句无意义的人机交互日志存入无意义日志库,将正确的人机交互日志存入正确日志库。
本发明第三实施例,与第一实施例对应,本实施例介绍一种知识库的优化装置,如图2所示,包括以下组成部分:
1)筛选模块201,用于在待维护的人机交互日志中筛选出需纠错的人机交互日志。
具体的,筛选模块201用于:
从历史人机交互日志数据中提取正确答复的人机交互日志形成正确日志库;从历史人机交互日志数据中提取错误答复且无意义的人机交互日志以及未答复且无意义的人机交互日志形成无意义日志库;
将每条待维护的人机交互日志分别与所述正确日志库和无意义日志库进行匹配判断,并将匹配失败的人机交互日志作为需纠错的人机交互日志。
其中,所述匹配失败指的是:未与正确日志库的用户问句匹配且未与无意义日志库的用户问句匹配;或者,未与正确日志库的用户问句匹配且虽与无意义日志库的用户问句匹配但未与无意义日志库的答案匹配。
2)聚类优化模块202,用于基于历史人机交互日志数据对所述需纠错的人机交互日志的内容进行聚类优化。
具体的,聚类优化模块202用于:
将需纠错的人机交互日志的用户问句分别与历史人机交互日志数据的用户问句及历史人机交互日志数据的用户问句对应的标准问进行语义相似度计算;
将语义相似度计算结果最高的前N个用户问句对应的标准问作为聚类优化的结果。在N大于等于1的情况下,优选的,N为3~5;可选的,N为1。
3)纠错模块203,用于根据聚类优化的结果对所述需纠错的人机交互日志进行纠错处理,并将纠错后的结果添加到知识库中。
具体的,纠错模块203,具体用于:
通过人工方式判断所述聚类优化的结果中有无与所述需纠错的人机交互日志的用户问句对应的标准问;
若有,将所述需纠错的人机交互日志的用户问句作为所述标准问的拓展问添加到知识库中;
否则,通过人工方式为所述需纠错的人机交互日志的用户问句撰写对应的标准问及答案,并将所述标准问及答案添加到知识库中。
本发明第四实施例,与第二实施例对应的介绍一种知识库的优化装置,本实施例所述装置与第三实施例大致相同,区别在于:
筛选模块201,还用于:
在进行匹配判断之后,通过人工方式对匹配失败的人机交互日志进行过滤,并将过滤后的人机交互日志作为需纠错的人机交互日志。
本发明第五实施例,本实施例是在上述实施例的基础上,结合图3~4介绍一个本发明的应用实例。
本发明实施例的知识库的优化方法,包括以下步骤:
步骤1,在待维护的人机交互日志中过滤掉无用数据,筛选出人工判定日志(类似于前面实施例的需纠错的人机交互日志)。
具体的,本发明实施例步骤1主要是应用了大数据分析技术。通过对人机交互日志的判定处理及分析,过滤掉大部分无用数据。采用大数据自动处理结合人工判定的方式,大大降低了日志处理工作中所需投入的人工成本,并提高了工作效率。
关于无用数据的定义,是通过对日志的长期处理的经验积累发现,机器人交互日志根据其答复的准确性可以划分为正确答复日志、错误答复日志、机器人未答复日志这三种,具体如下:
正确答复日志:这一类的日志内容是用户的问句已得到了机器人的正确回答,用户的需求已经满足。
错误答复日志:这一类的日志内容是机器人对用户的问句答非所问,用户的需求未得到满足。
未答复日志:机器人未给予用户问句任何有效答复,均是告知用户没听明白或者不知道怎么答复。这一部分内容为用户问句在知识库内未找到相应的知识点,从而给予的预设的默认答复。
如图3所示,在三种类型的答复内容中,本发明实施例对人机交互日志处理工作主要是针对错误答复日志以及未答复日志进行判定纠错,提取优化内容。在此过程中,将会根据用户问句的内容性质分为有意义的内容和无意义的内容。而需优化的日志内容均是来自于有意义的内容。
用户问句答非所问的情况有多种,无法确定明确的规则。但是正确答复和无意义内容相对的固定。并且这部分正确答复与无意义的内容均是每天会重复出现的。因此本发明实施例通过大数据自动处理,对这两部分内容进行过滤处理。在此过程中,预先建立了正确日志库与无意义日志库,应用到大数据自动处理中,作为判定过滤的基准。
基于上面的无用数据分析原理,用于过滤掉无用数据的大数据自定判断处理流程如下:
如图4所示,针对任一条待维护的人机交互日志的语义,在预先设置的正确日志库和无意义日志库中进行匹配判断,包括:
C1:针对任一条待维护的人机交互日志,先将用户问句与正确日志库中的用户问句进行匹配,若匹配上,则执行步骤C2,否则执行步骤C3;
C2:在所述任一条待维护的人机交互日志的标准问句和答案与在正确日志库中已匹配上的用户问句对应的标准问句和答案均不匹配的情况下,将所述任一条待维护的人机交互日志标注为疑似错误日志,流程结束;
C3:将所述任一条待维护的人机交互日志的用户问句与无意义日志库中的用户问句进行匹配,若匹配上,则执行步骤C4,否则将所述任一条待维护的人机交互日志标注为人工判定日志,流程结束;
C4:将所述任一条待维护的人机交互日志的答案与无意义日志库中的答案进行匹配,若未匹配上,则将所述任一条待维护的人机交互日志标注为人工判定日志,流程结束。
上述判断处理流程中标注为人工判定日志的即为符合下面条件的日志:未与正确日志库的用户问句匹配且未与无意义日志库的用户问句匹配;或者,未与正确日志库的用户问句匹配且虽与无意义日志库的用户问句匹配但未与无意义日志库的答案匹配。
由于疑似错误日志,只需排除断电、传输、设备故障等原因,因为此类疑似错误的日志很少发生,且基本上与智能语义分析技术的误判无关,所以交由现有技术中人工进行上述系统故障排查即可。因此,在判定为疑似错误日志的情况下,将所述任一条待维护的人机交互日志归为需人工排查系统故障的人机交互日志。
上述判断处理流程先使用正确日志库后使用无意义日志库进行匹配,在实际应用中,也可以根据需要先使用无意义日志库后使用正确日志库进行匹配。
步骤2,基于历史人机交互日志数据对所述人工判定日志的内容进行聚类优化。
基于所述人工判定日志的用户问句在历史人机交互日志数据中进行语义相似度计算;
按照语义相似度计算的数值从高到低,推荐出设定数量的来自历史人机交互日志数据中的用户问句,供在步骤3中进行人工判定是否可用。
步骤3,根据聚类优化的结果对所述人工判定日志进行纠错处理。
在判定可用的情况下,将由人工从推荐的用户问句中选出的用户问句添加到知识库中并与所述人工判定日志的标准问句对应,即作为该标准问的扩展问;
在判定不可用的情况下,将由人工根据所述人工判定日志的用户问句编写的对应的标准问句和答案存入知识库,以使知识库更加完善,从而在后续人机交互过程中更加准确智能的回答用户问句,满足用户的多种多样的需求。
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明加以限制。

Claims (10)

1.一种知识库的优化方法,其特征在于,包括:
在待维护的人机交互日志中筛选出需纠错的人机交互日志;
基于历史人机交互日志数据对所述需纠错的人机交互日志的内容进行聚类优化;
根据聚类优化的结果对所述需纠错的人机交互日志进行纠错处理,并将纠错后的结果添加到知识库中;
所述聚类优化包括:
将需纠错的人机交互日志的用户问句分别与历史人机交互日志数据的用户问句及历史人机交互日志数据的用户问句对应的标准问进行语义相似度计算;
将语义相似度计算结果最高的前N个用户问句对应的标准问作为聚类优化的结果;
所述N大于或等于1,所述纠错处理包括:
通过人工方式判断所述聚类优化的结果中有无与所述需纠错的人机交互日志的用户问句对应的标准问;
若有,将所述需纠错的人机交互日志的用户问句作为所述标准问的拓展问添加到知识库中;
否则,通过人工方式为所述需纠错的人机交互日志的用户问句撰写对应的标准问及答案,并将所述标准问及答案添加到知识库中。
2.根据权利要求1所述的知识库的优化方法,其特征在于,所述在待维护的人机交互日志中筛选出需纠错的人机交互日志,包括:
从历史人机交互日志数据中提取正确答复的人机交互日志形成正确日志库;从历史人机交互日志数据中提取错误答复且无意义的人机交互日志以及未答复且无意义的人机交互日志形成无意义日志库;
将每条待维护的人机交互日志分别与所述正确日志库和无意义日志库进行匹配判断,并将匹配失败的人机交互日志作为需纠错的人机交互日志。
3.根据权利要求2所述的知识库的优化方法,其特征在于,所述匹配失败指的是:未与正确日志库的用户问句匹配且未与无意义日志库的用户问句匹配;或者,未与正确日志库的用户问句匹配且虽与无意义日志库的用户问句匹配但未与无意义日志库的答案匹配。
4.根据权利要求2或3所述的知识库的优化方法,其特征在于,在进行匹配判断之后,所述方法还包括:通过人工方式对匹配失败的人机交互日志进行过滤,并将过滤后的人机交互日志作为需纠错的人机交互日志。
5.根据权利要求1所述的知识库的优化方法,其特征在于,所述N为3~5。
6.一种知识库的优化装置,其特征在于,包括:
筛选模块,用于在待维护的人机交互日志中筛选出需纠错的人机交互日志;
聚类优化模块,用于基于历史人机交互日志数据对所述需纠错的人机交互日志的内容进行聚类优化;
纠错模块,用于根据聚类优化的结果对所述需纠错的人机交互日志进行纠错处理,并将纠错后的结果添加到知识库中;
所述聚类优化模块,具体用于:
将需纠错的人机交互日志的用户问句分别与历史人机交互日志数据的用户问句及历史人机交互日志数据的用户问句对应的标准问进行语义相似度计算;
将语义相似度计算结果最高的前N个用户问句对应的标准问作为聚类优化的结果;
所述N大于或等于1,所述纠错处理模块,具体用于:
通过人工方式判断所述聚类优化的结果中有无与所述需纠错的人机交互日志的用户问句对应的标准问;
若有,将所述需纠错的人机交互日志的用户问句作为所述标准问的拓展问添加到知识库中;
否则,通过人工方式为所述需纠错的人机交互日志的用户问句撰写对应的标准问及答案,并将所述标准问及答案添加到知识库中。
7.根据权利要求6所述的知识库的优化装置,其特征在于,所述筛选模块,具体用于:
从历史人机交互日志数据中提取正确答复的人机交互日志形成正确日志库;从历史人机交互日志数据中提取错误答复且无意义的人机交互日志以及未答复且无意义的人机交互日志形成无意义日志库;
将每条待维护的人机交互日志分别与所述正确日志库和无意义日志库进行匹配判断,并将匹配失败的人机交互日志作为需纠错的人机交互日志。
8.根据权利要求7所述的知识库的优化装置,其特征在于,所述匹配失败指的是:未与正确日志库的用户问句匹配且未与无意义日志库的用户问句匹配;或者,未与正确日志库的用户问句匹配且虽与无意义日志库的用户问句匹配但未与无意义日志库的答案匹配。
9.根据权利要求7或8所述的知识库的优化装置,其特征在于,所述筛选模块,还用于:
在进行匹配判断之后,通过人工方式对匹配失败的人机交互日志进行过滤,并将过滤后的人机交互日志作为需纠错的人机交互日志。
10.根据权利要求6所述的知识库的优化装置,其特征在于,所述N为3~5。
CN201510866521.XA 2015-12-01 2015-12-01 一种知识库的优化方法和装置 Active CN105488185B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510866521.XA CN105488185B (zh) 2015-12-01 2015-12-01 一种知识库的优化方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510866521.XA CN105488185B (zh) 2015-12-01 2015-12-01 一种知识库的优化方法和装置

Publications (2)

Publication Number Publication Date
CN105488185A CN105488185A (zh) 2016-04-13
CN105488185B true CN105488185B (zh) 2018-07-24

Family

ID=55675159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510866521.XA Active CN105488185B (zh) 2015-12-01 2015-12-01 一种知识库的优化方法和装置

Country Status (1)

Country Link
CN (1) CN105488185B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202288B (zh) * 2016-06-30 2019-10-11 北京智能管家科技有限公司 一种人机交互系统知识库的优化方法及系统
CN106295807B (zh) * 2016-08-23 2018-12-21 上海智臻智能网络科技股份有限公司 一种信息处理的方法及装置
CN106485243B (zh) * 2016-10-31 2019-10-22 用友网络科技股份有限公司 一种票据识别纠错方法及装置
CN108286972B (zh) * 2017-01-09 2021-08-13 北京四维图新科技股份有限公司 导航电子地图数据的智能查错方法和装置及混合导航系统
CN109800879B (zh) * 2018-12-21 2022-02-01 科大讯飞股份有限公司 知识库构建方法和装置
CN111382239B (zh) * 2018-12-27 2023-06-23 上海智臻智能网络科技股份有限公司 一种交互流程的优化方法及其装置
CN111382235A (zh) * 2018-12-27 2020-07-07 上海智臻智能网络科技股份有限公司 一种问答知识库的优化方法及其装置
CN109710746A (zh) * 2018-12-28 2019-05-03 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN109947651B (zh) * 2019-03-21 2022-08-02 上海智臻智能网络科技股份有限公司 人工智能引擎优化方法和装置
CN113282475B (zh) * 2021-06-02 2022-12-06 青岛海尔科技有限公司 用于评价交互系统交互性能的方法和装置
CN116010600B (zh) * 2023-01-09 2023-09-26 北京天融信网络安全技术有限公司 日志分类方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679910A (zh) * 2015-03-25 2015-06-03 北京智齿博创科技有限公司 智能应答方法及系统
CN104679815A (zh) * 2014-12-08 2015-06-03 北京云知声信息技术有限公司 一种筛选问答对并实时更新问答库的方法及系统
CN104699708A (zh) * 2013-12-09 2015-06-10 中国移动通信集团北京有限公司 一种客服机器人的自学习方法及装置
CN104850539A (zh) * 2015-05-28 2015-08-19 宁波薄言信息技术有限公司 一种自然语言理解方法及基于该方法的旅游问答系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135240B2 (en) * 2013-02-12 2015-09-15 International Business Machines Corporation Latent semantic analysis for application in a question answer system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699708A (zh) * 2013-12-09 2015-06-10 中国移动通信集团北京有限公司 一种客服机器人的自学习方法及装置
CN104679815A (zh) * 2014-12-08 2015-06-03 北京云知声信息技术有限公司 一种筛选问答对并实时更新问答库的方法及系统
CN104679910A (zh) * 2015-03-25 2015-06-03 北京智齿博创科技有限公司 智能应答方法及系统
CN104850539A (zh) * 2015-05-28 2015-08-19 宁波薄言信息技术有限公司 一种自然语言理解方法及基于该方法的旅游问答系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
领域问答系统中的文本错误自动发现方法;刘亮亮等;《中文信息学报》;20130531;第27卷(第3期);全文 *

Also Published As

Publication number Publication date
CN105488185A (zh) 2016-04-13

Similar Documents

Publication Publication Date Title
CN105488185B (zh) 一种知识库的优化方法和装置
CN107819627B (zh) 系统故障处理方法及服务器
CN105721193A (zh) 一种系统信息监控的方法和设备
CN106603264A (zh) 一种定位故障根源的方法和设备
CN105160548A (zh) 对广告点击率进行预测的方法及装置
CN107016019B (zh) 数据库索引创建方法及装置
CN107016018B (zh) 数据库索引创建方法及装置
US20140067804A1 (en) Workflow generation server and method of generating workflow
CN104268216A (zh) 一种基于互联网信息的数据清洗系统
US20170116189A1 (en) Search method and apparatus and storage medium
CN102073912A (zh) 数据质量控制方法、装置及系统
CN105045847A (zh) 一种从文本信息中提取中文机构单位名称的方法
JP6419667B2 (ja) テストdbデータ生成方法及び装置
CN111221873A (zh) 基于关联网络的企业间同名人识别方法及系统
CN106156170A (zh) 舆情分析方法及装置
CN102364475A (zh) 基于身份识别对检索结果排序的系统及方法
CN104967532A (zh) Toc技术运维系统及应用方法
KR102411291B1 (ko) 스마트공장 데이터 품질평가 방법
CN106227872A (zh) 一种基于电商平台的数据清洗验证方法
CN107562558A (zh) 一种错误信息的反馈方法及系统
CN104216986B (zh) 以数据更新周期进行预操作提高数据查询效率的装置及方法
CN107783896B (zh) 一种数据处理模型的优化方法和装置
CN104123469A (zh) 一种普适计算环境上下文一致性检测调度系统及方法
CN104376021A (zh) 文件推荐系统及方法
CN109426576A (zh) 容错处理方法以及容错组件

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant