CN105653620A

CN105653620A - 智能问答系统的日志分析方法及装置

Info

Publication number: CN105653620A
Application number: CN201510993307.0A
Authority: CN
Inventors: 曾永梅; 张磊; 朱频频
Original assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2015-12-25
Filing date: 2015-12-25
Publication date: 2016-06-08
Anticipated expiration: 2035-12-25
Also published as: CN105653620B

Abstract

本发明提供了一种智能问答系统的日志分析方法及装置。该智能问答系统包括正确日志库，该方法包括收集用户日志库；以及以该正确日志库中的正确日志为基础对该用户日志库中的日志数据进行聚类分析。本发明通过对用户日志数据进行聚类，可大大地提高聚类的准确度，以便于用户以每一类用户日志为基础进行分析优化，大大降低人工工作量。

Description

智能问答系统的日志分析方法及装置

技术领域

本发明涉及人机交互技术领域，尤其涉及智能问答系统的日志分析方法及装置。

背景技术

人机交互是研究系统与用户之间的交互关系的科学。系统可以是各种各样的机器，也可以是计算机化的系统和软件。例如，通过人机交互可以实现各种人工智能系统，例如，智能客服系统、语音控制系统等等。人工智能语义识别是人机交互的基础，其能够对人类语言进行识别，以转换成机器能够理解的语言。

智能问答系统是人机交互的一种典型应用，其中当用户提出问题后，智能问答系统给出该问题的答案。为此，智能问答系统中有一套知识库，里面有大量的问题和与每个问题相对应的答案。智能问答系统首先需要识别用户所提出的问题，即从知识库中找到与该用户问题所对应的问题，然后找出与该问题相匹配的答案。

智能问答系统在使用过程中会产生海量的用户日志，每一条用户日志包括用户提出的问题以及由智能问答系统给出的答案。对智能问答系统产生的这些用户日志进行分析具有重要意义。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

根据本发明的一方面，提供了一种智能问答系统的日志分析方法，该智能问答系统包括正确日志库，该方法包括：

收集用户日志库；以及

以该正确日志库中的正确日志为基础对该用户日志库中的日志数据进行聚类分析。

在一实例中，该正确日志包括标准问的集合，该以该正确日志库中的正确日志为基础对该用户日志库中的日志数据进行聚类分析包括：

将该日志数据与该标准问的集合执行语义相似度计算以使得该日志数据被聚类为多个日志群集，每个日志群集中包含特定标准问以及与该特定标准问相似的多个日志。

在一实例中，该语义相似度计算是基于文本聚类分析、LDA分析或序列分析中的任一者或任意组合来执行的。

在一实例中，该方法还包括：

以每个日志群集中的日志为基础对该日志数据进行优化处理。

在一实例中，该优化处理包括：

基于每个日志群集中的日志，建立相应的一个语义表达式或修改先前建立的语义表达式。

在一实例中，该方法还包括：

在聚类分析后，基于每个日志群集中的日志与相应标准问的语义相似度将每个日志群集中的日志分为多个组。

在一实例中，该方法还包括：

分别以每个日志群集中的每一组日志部分为基础对该日志数据进行优化处理。

在一实例中，该优化处理包括分别以每个日志群集中的每一组日志部分为基础建立相应的一个语义表达式或修改先前建立的语义表达式。

根据本发明的另一方面，提供了一种智能问答系统的日志分析装置，该智能问答系统包括正确日志库，该装置包括：

收集模块，用于收集用户日志库；以及

聚类分析模块，用于以该正确日志库中的正确日志为基础对该用户日志库中的日志数据进行聚类分析。

在一实例中，该正确日志包括标准问的集合，该聚类分析模块包括：

语义相似度计算模块，用于将该日志数据与该标准问的集合执行语义相似度计算以使得该日志数据被聚类为多个日志群集，每个日志群集中包含特定标准问以及与该特定标准问相似的多个日志。

在一实例中，该语义相似度计算模块是基于文本聚类分析、LDA分析或序列分析中的任一者或任意组合来执行语义相似度计算的。

在一实例中，该装置还包括：

优化处理模块，用于以每个日志群集中的日志为基础对该日志数据进行优化处理。

在一实例中，该优化处理模块包括：

语义表达式编辑模块，用于基于每个日志群集中的日志，建立相应的一个语义表达式或修改先前建立的语义表达式。

在一实例中，该装置还包括：

编组模块，用于在聚类分析后，基于每个日志群集中的日志与相应标准问的语义相似度将每个日志群集中的日志分为多个组。

在一实例中，该装置还包括：

优化处理模块，用于分别以每个日志群集中的每一组日志部分为基础对该日志数据进行优化处理。

在一实例中，该优化处理模块包括：

语义表达式编辑模块，用于分别以每个日志群集中的每一组日志部分为基础，建立相应的一个语义表达式或修改先前建立的语义表达式。

与现有技术相比，本发明的有益效果包括：

本发明利用正确日志库对用户日志数据进行聚类，可大大地提高聚类的准确度，以便于用户以每一类用户日志为基础进行分析优化，从而大大加快知识运维效率，降低知识运维的人工成本。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1是示出了根据本发明的一方面的用于智能问答系统的日志分析方法的流程图；

图2是示出了根据本发明的一方面的用于智能问答系统的日志分析装置的框图；

图3是示出了根据本发明的另一方面的用于智能问答系统的日志分析方法的流程图；以及

图4是示出了根据本发明的另一方面的用于智能问答系统的日志分析装置的框图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

知识库中的基本知识点最原始和最简单的形式就是平时常用的FAQ，一般的形式是“问-答”对。在本发明中，“标准问”是用来表示某个知识点的文字，主要目标是表达清晰，便于维护。例如，“彩铃的资费”就是表达清晰的标准问描述。这里的“问”不应被狭义地理解为“询问”，而应广义地来理解一“输入”，该“输入”具有对应的“输出”。例如，对于用于控制系统的语义识别而言，用户的一个指令，例如“打开收音机”也应可以被理解为是一个“问”，此时对应的“答”可以是用于执行相应控制的控制程序的调用。

用户在向机器输入时，最理想的情况是使用标准问，则机器的智能语义识别系统马上能够理解用户的意思。然而，用户往往并非使用的是标准问，而是标准问的一些变形的形式。例如，若对于收音机的电台切换的标准问形式是“换一个电台”，那么用户可能使用的命令是“切换一个电台”，机器也需要能够识别用户表达的是同一个意思。

因此，对于智能语义识别而言，知识库里需要有标准问的扩展问，该扩展问与标准问表达形式有略微差异，但是表达相同的含义。

进一步，为了更准确、高效地识别用户问题，智能问答系统还发展出了抽象语义的概念。抽象语义是对本体类属性的进一步抽象。一个类别的抽象语义通过一组抽象语义表达式的集合来描述一类抽象语义的不同表达，为表达更为抽象的语义，这些抽象语义表达式在组成元素上进行了扩充。当这些扩充的元素一旦被赋予了相应的值就可以表达各种各样的具体语义。

每一个抽象语义表达式主要可包括缺失语义成分和语义规则词。缺失语义成分由语义成分符表示，当这些缺失的语义成分被填充了相应的值(即内容)后可以表达各式各样的具体语义。

抽象语义的语义成分符可包括：

[concept]：表示主体或客体成份的词或短语。

比如：“彩铃如何开通”中的“彩铃”

[action]：表示动作成分的词或短语。

比如：“信用卡如何办理”中的“办理”

[attribute]：表示属性成份的词或短语。

比如：“iphone有哪些颜色”中的“颜色”

[adjective]：表示修饰成分的词或短语。

比如：“冰箱哪个品牌便宜”中的“便宜”

一些主要的抽象语义类别示例有：

概念说明[concept]是什么

属性构成[concept]有哪些[attribute]

行为方式[concept]如何[action]

行为地点[concept]在什么地方[action]

行为原因[concept]为什么会[action]

行为预测[concept]会不会[action]

行为判断[concept]有没有[attribute]

属性状况[concept]的[attribute]是不是[adjective]

属性判断[concept]是不是有[attribute]

属性原因[concept]的[attribute]为什么这么[adjective]

概念比较[concept1]和[concept2]的区别在哪里

属性比较[concept1]和[concept2]的[attribute]有什么不同之处

问句在抽象语义层面的成份判断可以通过词性标注来做一般的评判，concept对应的词性为名词，action对应的词性为动词、attribute对应的词性为名词、adjective对应的是形容词。

以类别为“行为方式”的抽象语义[concept]如何[action]为例，该类别的抽象语义集合下可包括多条抽象语义表达式：

抽象语义类别：行为方式

抽象语义表达式：

a.[concept][需要|应该？][如何]<才[可以]？><进行？>[action]

b.{[concept]～[action]}

c.[concept]<的？>[action]<方法|方式|步骤？>

d.<有哪些|有什么|有没有><通过|用|在>[concept][action]<的？>[方法]

e.[如何][action]～[concept]

上述a、b、c、d四个抽象语义表达式都是用来描述“行为方式”这一抽象语义类别的。符号“|”表示“或”关系，符号“？”表示该成分可有可无。以上述抽象语义表达式c为例，可展开为以下的抽象语义表达：

c1.[concept]<的>[action]<方法>

c2.[concept]<的>[action]<方式>

c3.[concept]<的>[action]<步骤>

c4.[concept]<的>[action]

c5.[concept][action]<方法>

c6.[concept][action]<方式>

c7.[concept][action]<步骤>

c8.[concept][action]

在上述抽象语义表达式中，除了作为缺失语义成分的抽象的语义成分符之外，其他出现的具体的词如“如何”、“应该”、“方法”等等，这些词需要在抽象语义规则中被使用，所以可统称为语义规则词。

以上介绍了智能问答系统中的一些基本概念。

智能问答系统在使用中会产生大量的用户日志，每一条日志包括用户给出的用户问题以及针对该用户问题由智能问答系统给出的答案。人工需要对智能问答系统产生的海量的用户日志进行分析确认，以用于对智能问答系统的优化和维护。

然而，对这些海量的用户日志进行分析其工作量是巨大的，因此，如果能够对这些用户日志进行分类，然后在每一类用户日志的基础上进行分析优化，会大大降低人工工作量。

在本发明中，利用了正确日志库来对智能问答系统产生的海量日志数据进行分类。正确日志库是智能问答系统中用于存储所有正确日志的数据库。所谓的正确日志是经系统或人工确认无误的日志，例如每一条正确日志包括系统的标准问以及该标准问的标准答案。因此，以正确日志库中的正确日志为基础，对用户日志数据进行聚类，可大大地提高聚类的准确度，以便于用户以每一类用户日志为基础进行分析优化，大大降低人工工作量。

图1是示出了根据本发明的一方面的用于智能问答系统的日志分析方法100的流程图。如图1所示，日志分析方法100可包括步骤102和104。

在步骤102，收集用户日志库。

该收集可以是在智能问答系统产生每一条用户日志时逐条收集的，也可以是定期地从智能问答系统中批量收集的。收集到的用户日志被存放到用户日志库中。

在步骤104：以正确日志库中的正确日志为基础对用户日志库中的日志数据进行聚类分析。

在此步骤中，以正确日志库中的正确日志作为大数据聚类模型，使得用户日志库中的用户日志被聚类到正确日志库中的相应的日志。

在一实例中，正确日志库可包括标准问的集合，可将用户日志库中的日志数据与该标准问的集合执行语义相似度计算，以使得日志数据被聚类为多个日志群集，每个日志群集中包含正确日志库中的一个标准问以及与该标准问相似的多个日志。

具体而言，将用户日志库中的每一条用户日志(例如可以是该条用户日志的用户问题)与标准问的集合中的每个标准问执行一次语义相似度计算，然后，将该条用户日志聚到具有最高语义相似度的那一个标准问。日志数据中的所有用户日志都执行了语义相似度计算后，每一条用户日志都会被聚到与其具有最高语义相似度的标准问。作为结果，可以得到多个日志群集，每个日志群集中包含一个特定的标准问，以及与该标准问相似的多个日志。

需要说明的是，不同日志群集中日志的数目可以相同，也可以不同。

在一实例中，语义相似度计算可以基于文本聚类分析、LDA分析或序列分析中的任一者或任意组合来执行。

在日志数据被分为多个群集之后，可以以每个日志群集为基础对日志数据进行优化处理。例如，对于用户日志的优化处理包括基于用户日志建立语义表达式。根据本发明的方法，海量的用户日志被分为多个群集，且每个群集中的用户具有高度相似性，则每个群集中的用户日志可以建立一个或多个语义表达式即可，或者如果已经存在对应该群集的用户日志的语义表达式，则可以在需要的情况下基于该群集的用户日志对先前存在的语义表达式进行修改即可。

图2是示出了根据本发明的一方面的智能问答系统的日志分析装置200的框图。

如图2所示，日志分析装置200可包括收集模块202和聚类分析模块204。

收集模块202可在智能问答系统产生每一条用户日志时逐条收集用户日志，也可以是定期地从智能问答系统中批量收集用户日志。收集到的用户日志被存放到用户日志库中。

聚类分析模块204可以正确日志库中的正确日志为基础对用户日志库中的日志数据进行聚类分析。

在一实例中，聚类分析模块204可包括语义相似度计算模块2040，以用于将用户日志库中的日志数据与该标准问的集合执行语义相似度计算，以使得日志数据被聚类为多个日志群集，每个日志群集中包含正确日志库中的一个标准问以及与该标准问相似的多个日志。

具体而言，语义相似度计算模块2040可将用户日志库中的每一条用户日志(例如可以是该条用户日志的用户问题)与标准问的集合中的每个标准问执行一次语义相似度计算，然后，将该条用户日志聚到具有最高语义相似度的那一个标准问。日志数据中的所有用户日志都执行了语义相似度计算后，每一条用户日志都会被聚到与其具有最高语义相似度的标准问。作为结果，可以得到多个日志群集，每个日志群集中包含一个特定的标准问，以及与该标准问相似的多个日志。

在一实例中，语义相似度计算模块2040可以基于文本聚类分析、LDA分析或序列分析中的任一者或任意组合来执行语义相似度计算。

日志分析装置200还可包括优化处理模块，以每个日志群集中的日志为基础对日志数据进行优化处理。具体而言，优化处理模块包括语义表达式编辑模块，以基于每个日志群集中的日志，建立相应的一个语义表达式或修改先前建立的语义表达式。

图3是示出了根据本发明的另一方面的智能问答系统的日志分析方法300的流程图。如图3所示，日志分析方法300可包括步骤302、304、306。

在步骤302，收集用户日志库。

在步骤304：以正确日志库中的正确日志为基础对用户日志库中的日志数据进行聚类分析。

在步骤306：基于每个日志群集中的日志与相应标准问的语义相似度将每个日志群集中的日志分为多个组。

如上所述，每个日志群集中包括一个特定的标准问以及与该标准问相似的多个日志。但是一个日志群集中，各个日志与该标准问的相似度是不相等的。可基于各个日志与该日志群集中的标准问的相似度对一个日志群集中的日志进行分组。例如，相似度从高到低在第一相似度区间的日志被分为一组，在第二相似度区间的日志被分为一组，依此类推。典型地，每个日志群集中的日志可分为两组，即相似度高于某个阈值的被分为一组，低于该阈值的被分为另一组。

此后，可分别以每个日志群集中的每一组日志部分为基础对所述日志数据进行优化处理。例如分别以每个日志群集中的每一组日志部分为基础建立相应的一个语义表达式或修改先前建立的语义表达式。

假设用户日志库中收集了10000条用户日志，通过聚类分析，聚为100个日志群集，每个日志群集中平均有100条日志。此时每个日志群集中的多条(如：100条)日志根据相似度可以再次被划分为两组，例如相似度高于0.9的日志(例如90条)分为一组，相似度低于0.9的日志(例如10条)分为另一组。

然后，以每个日志群集中的每一组日志部分进行优化处理。此时聚类分析更加精细，从而更利于进行后续的优化处理，这大大地降低了人工工作量。

图4是示出了根据本发明的一方面的用于智能问答系统的日志分析装置400的框图。

如图4所示，日志分析装置400可包括收集模块402、聚类分析模块404和编组模块406。

收集模块402可在智能问答系统产生每一条用户日志时逐条收集用户日志，也可以是定期地从智能问答系统中批量收集用户日志。收集到的用户日志被存放到用户日志库中。

聚类分析模块404可以正确日志库中的正确日志为基础对用户日志库中的日志数据进行聚类分析。

在一实例中，聚类分析模块404可包括语义相似度计算模块4040，以用于将用户日志库中的日志数据与该标准问的集合执行语义相似度计算，以使得日志数据被聚类为多个日志群集，每个日志群集中包含正确日志库中的一个标准问以及与该标准问相似的多个日志。

具体而言，语义相似度计算模块4040可将用户日志库中的每一条用户日志(例如可以是该条用户日志的用户问题)与标准问的集合中的每个标准问执行一次语义相似度计算，然后，将该条用户日志聚到具有最高语义相似度的那一个标准问。日志数据中的所有用户日志都执行了语义相似度计算后，每一条用户日志都会被聚到与其具有最高语义相似度的标准问。作为结果，可以得到多个日志群集，每个日志群集中包含一个特定的标准问，以及与该标准问相似的多个日志。

在一实例中，语义相似度计算模块4040可以基于文本聚类分析、LDA分析或序列分析中的任一者或任意组合来执行语义相似度计算。

编组模块406可在聚类分析后，基于每个日志群集中的日志与相应标准问的语义相似度将每个日志群集中的日志分为多个组。

日志分析装置400还可包括优化处理模块，分别以每个日志群集中的每一组日志部分为基础对所述日志数据进行优化处理。具体而言，优化处理模块包括语义表达式编辑模块，用于分别以每个日志群集中的每一组日志部分为基础，建立相应的一个语义表达式或修改先前建立的语义表达式。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

软件应当被宽泛地解释成意味着指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行件、执行的线程、规程、函数等，无论其是用软件、固件、中间件、微代码、硬件描述语言、还是其它术语来述及皆是如此。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种智能问答系统的日志分析方法，其特征在于，所述智能问答系统包括正确日志库，所述方法包括：

收集用户日志库；以及

以所述正确日志库中的正确日志为基础对所述用户日志库中的日志数据进行聚类分析。

2.如权利要求1所述的日志分析方法，其特征在于，所述正确日志包括标准问的集合，所述以所述正确日志库中的正确日志为基础对所述用户日志库中的日志数据进行聚类分析包括：

将所述日志数据与所述标准问的集合执行语义相似度计算以使得所述日志数据被聚类为多个日志群集，每个日志群集中包含特定标准问以及与所述特定标准问相似的多个日志。

3.如权利要求2所述的日志分析方法，其特征在于，所述语义相似度计算是基于文本聚类分析、LDA分析或序列分析中的任一者或任意组合来执行的。

4.如权利要求2所述的日志分析方法，其特征在于，还包括：

以每个日志群集中的日志为基础对所述日志数据进行优化处理。

5.如权利要求4所述的日志分析方法，其特征在于，所述优化处理包括：

6.如权利要求2所述的日志分析方法，其特征在于，还包括：

7.如权利要求6所述的日志分析方法，其特征在于，还包括：

分别以每个日志群集中的每一组日志部分为基础对所述日志数据进行优化处理。

8.如权利要求7所述的日志分析方法，其特征在于，所述优化处理包括分别以每个日志群集中的每一组日志部分为基础建立相应的一个语义表达式或修改先前建立的语义表达式。

9.一种智能问答系统的日志分析装置，其特征在于，所述智能问答系统包括正确日志库，所述装置包括：

收集模块，用于收集用户日志库；以及

聚类分析模块，用于以所述正确日志库中的正确日志为基础对所述用户日志库中的日志数据进行聚类分析。

10.如权利要求9所述的日志分析装置，其特征在于，所述正确日志包括标准问的集合，所述聚类分析模块包括：

语义相似度计算模块，用于将所述日志数据与所述标准问的集合执行语义相似度计算以使得所述日志数据被聚类为多个日志群集，每个日志群集中包含特定标准问以及与所述特定标准问相似的多个日志。

11.如权利要求10所述的日志分析装置，其特征在于，所述语义相似度计算模块是基于文本聚类分析、LDA分析或序列分析中的任一者或任意组合来执行语义相似度计算的。

12.如权利要求10所述的日志分析装置，其特征在于，还包括：

优化处理模块，用于以每个日志群集中的日志为基础对所述日志数据进行优化处理。

13.如权利要求12所述的日志分析装置，其特征在于，所述优化处理模块包括：

14.如权利要求10所述的日志分析装置，其特征在于，还包括：

15.如权利要求14所述的日志分析装置，其特征在于，还包括：

优化处理模块，用于分别以每个日志群集中的每一组日志部分为基础对所述日志数据进行优化处理。

16.如权利要求15所述的日志分析装置，其特征在于，所述优化处理模块包括：