CN110019068B

CN110019068B - 一种日志文本处理方法和装置

Info

Publication number: CN110019068B
Application number: CN201710979602.XA
Authority: CN
Inventors: 李斯
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-10-19
Filing date: 2017-10-19
Publication date: 2023-04-28
Anticipated expiration: 2037-10-19
Also published as: CN110019068A

Abstract

本申请实施例提供了一种日志文本处理方法和装置，所述方法包括：获取日志文本集合；所述日志文本集合包括针对业务服务平台的服务产生的多个日志文本；针对所述日志文本集合，获得文本关联参数；所述文本关联参数包括：基于两个日志文本之间的关联关系确定的距离函数，以及，基于主题模型对所述日志文本集合生成的主题模型参数；依据所述文本关联参数，确定两个日志文本之间具有关联关系的概率分布；基于所述两个日志文本之间具有关联关系的概率分布，确定关联的日志文本。在本申请实施例，可以从语义角度更深层次的描述日志文本之间的关联关系，相比基于字面信息的分析方法，能更准确的找到不同服务的日志文本之间的关联关系。

Description

一种日志文本处理方法和装置

技术领域

本申请涉及数据处理技术领域，特别是涉及一种日志文本处理方法和一种日志文本处理装置。

背景技术

随着微服务技术的快速发展，很多在线的业务系统，如订单系统、电子商务网站等等，都会包括很多解耦的服务。每个不同的服务都会产生非常大量的日志文本，日志里按照时间顺序记录了每个服务所产生的行为。

对业务系统的日志文本进行分析，对优化业务系统具有很大的帮助。传统的日志分析系统主要是针对各个单独的服务，使用基于日志的字面信息进行搜索和统计的方法，对日志进行分析，据此生成告警和报表。传统的这些方法存在两个明显的缺点：一是只能根据日志的字面信息进行搜索和聚合，二是无法自动分析出不同服务所产生的日志之间的关联关系。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种日志文本处理方法和相应的一种日志文本处理装置。

为了解决上述问题，本申请实施例公开了一种日志文本处理方法，包括：

获取日志文本集合；所述日志文本集合包括针对业务服务平台的服务产生的多个日志文本；

针对所述日志文本集合，获得文本关联参数；所述文本关联参数包括：基于两个日志文本之间的关联关系确定的距离函数，以及，基于主题模型对所述日志文本集合生成的主题模型参数；

依据所述文本关联参数，确定两个日志文本之间具有关联关系的概率分布；

基于所述两个日志文本之间具有关联关系的概率分布，确定关联的日志文本。

优选的，所述文本关联参数还包括：基于所述日志文本集合生成的第一数据集合；

所述依据所述文本关联参数，确定两个日志文本之间具有关联关系的概率分布的步骤包括：

对每个日志文本，基于所述主题模型参数，确定第二数据集合与第三数据集合具有关联关系的第一概率分布函数，作为似然函数；所述第二数据集合为：所述第一数据集合中，所述当前日志文本所属的类的数据集合；所述第三数据集合为：所述第一数据集合中，所述另一日志文本所属的类的数据集合；

采用所述距离函数，生成先验概率分布；

将所述似然函数乘以所述先验概率分布，得到两个日志文本之间具有关联关系的概率分布。

优选的，所述采用所述距离函数，生成先验概率分布的步骤包括：

生成针对在先日志文本对应的生成时间点，与在后日志文本对应的生成时间点的差值在预设时间段范围内的第一示性函数；

生成针对两个日志文本属于不同服务的第二示性函数；

将所述第一示性函数，所述第二示性函数以及所述距离函数相乘，作为先验概率分布。

优选的，所述文本关联参数还包括：当前日志文本与任一日志文本不具有关联关系的关联概率参数；

所述将所述第一示性函数，所述第二示性函数以及所述距离函数相乘，作为先验概率分布的步骤包括：

将所述第一示性函数，所述距离函数，以及所述第二示性函数相乘得到的函数，以及关联概率参数，作为先验概率分布。

优选的，所述对每个日志文本，基于所述主题模型参数，确定第二数据集合与第三数据集合具有关联关系的第一概率分布函数的步骤包括：

基于所述主题模型参数，确定产生了第二数据集合的第二概率分布函数；

基于所述主题模型参数，确定产生了第三数据集合的第三概率分布函数；

基于所述主题模型参数，确定产生了第四数据集合的第四概率分布函数；所述第四数据集合为：所述第一数据集合中，所述当前日志文本所属的类与所述另一日志文本所属的类的数据集合；

将所述第四概率分布函数，除以所述第二概率分布函数乘以所述第三概率分布函数的函数，作为所述第一概率分布函数。

优选的，所述基于所述两个日志文本之间具有关联关系的概率分布，确定关联的日志文本的步骤包括：

对所述先验概率分布乘以所述似然函数得到的概率分布进行迭代采样，采样得到日志文本；

将迭代采样最后的采样得到的日志文本，确定为与当前日志文本具有关联关系的日志文本。

优选的，所述两个日志文本之间具有关联关系的概率分布为两个日志文本对应的日志向量之间具有关联关系的概率分布；日志文本的向量通过如下方式生成：

对所有日志文本进行预处理，生成对应的词汇表；

采用词汇表中各个词，生成所述日志文本对应的日志向量。

本申请实施例还公开了一种日志文本处理装置，包括：

日志文本集合获取模块，用于获取日志文本集合；所述日志文本集合包括针对业务服务平台的服务产生的多个日志文本；

文本关联参数获得模块，用于针对所述日志文本集合，获得文本关联参数；所述文本关联参数包括：基于两个日志文本之间的关联关系确定的距离函数，以及，基于主题模型对所述日志文本集合生成的主题模型参数；

关联概率分布确定模块，用于依据所述文本关联参数，确定两个日志文本之间具有关联关系的概率分布；

关联日志文本确定模块，用于基于所述两个日志文本之间具有关联关系的概率分布，确定关联的日志文本。

所述关联概率分布确定模块包括：

似然函数确定子模块，用于对每个日志文本，基于所述主题模型参数，确定第二数据集合与第三数据集合具有关联关系的第一概率分布函数，作为似然函数；所述第二数据集合为：所述第一数据集合中，所述当前日志文本所属的类的数据集合；所述第三数据集合为：所述第一数据集合中，所述另一日志文本所属的类的数据集合；

先验概率分布生成子模块，用于采用所述距离函数，生成先验概率分布；

关联概率分布确定子模块，用于将所述似然函数乘以所述先验概率分布，得到两个日志文本之间具有关联关系的概率分布。

优选的，所述先验概率分布生成子模块包括：

第一示性函数生成单元，用于生成针对在先日志文本对应的生成时间点，与在后日志文本对应的生成时间点的差值在预设时间段范围内的第一示性函数；

第二示性函数生成单元，用于生成针对两个日志文本属于不同服务的第二示性函数；

先验概率分布生成单元，用于将所述第一示性函数，所述第二示性函数以及所述距离函数相乘，作为先验概率分布。

所述先验概率分布生成单元包括：

先验概率分布生成子单元，用于将所述第一示性函数，所述距离函数，以及所述第二示性函数相乘得到的函数，以及关联概率参数，作为先验概率分布。

优选的，所述似然函数确定子模块包括：

第二概率分布函数确定单元，用于基于所述主题模型参数，确定产生了第二数据集合的第二概率分布函数；

第三概率分布函数确定单元，用于基于所述主题模型参数，确定产生了第三数据集合的第三概率分布函数；

第四概率分布函数确定单元，用于基于所述主题模型参数，确定产生了第四数据集合的第四概率分布函数；所述第四数据集合为：所述第一数据集合中，所述当前日志文本所属的类与所述另一日志文本所属的类的数据集合；

第一概率分布函数确定单元，用于将所述第四概率分布函数，除以所述第二概率分布函数乘以所述第三概率分布函数的函数，作为所述第一概率分布函数。

优选的，所述关联日志文本确定模块包括：

采样子模块，用于对所述先验概率分布乘以所述似然函数得到的概率分布进行迭代采样，采样得到日志文本；

关联日志文本确定子模块，用于将迭代采样最后的采样得到的日志文本，确定为与当前日志文本具有关联关系的日志文本。

优选的，所述两个日志文本之间具有关联关系的概率分布为两个日志文本对应的日志向量之间具有关联关系的概率分布；日志文本的向量通过如下模块生成：

预处理模块，用于对所有日志文本进行预处理，生成对应的词汇表；

日志向量生成模块，用于采用词汇表中各个词，生成所述日志文本对应的日志向量。

本申请实施例还公开了一种装置，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行如上所述的一个或多个的方法。

本申请实施例还公开了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如上所述的一个或多个的方法。

本申请实施例包括以下优点：

在本申请实施例中，结合主题模型对日志文本进行语义分析的主题模型参数和基于两个日志文本之间的关联关系确定的距离函数，确定两个日志文本之间具有关联关系的概率分布。从而可以从语义角度更深层次的描述日志文本之间的关联关系，相比基于字面信息的分析方法，能更准确的找到不同服务的日志文本之间的关联关系。

在本申请实施例中，业务服务平台的开发人员可以根据不同场景自定义不同的距离函数，具有很好的适用性。

附图说明

图1是本申请的一种日志文本处理方法实施例1的步骤流程图；

图2是本申请的一种日志文本处理方法实施例2的步骤流程图；

图3是本申请的一种日志文本处理装置实施例的结构框图；

图4是本申请一种智能终端实施例的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

传统的日志分析系统主要是针对各个单独的服务，使用基于日志的字面信息进行搜索和统计的方法，对日志进行分析。只能根据日志的字面信息进行搜索和聚合而无法利用更深层次的语义信息，并且无法自动分析出不同服务所产生的日志之间的关联关系。

如果我们能够通过语义分析从这些日志文本中挖掘出各服务的行为之间深层次的因果关联关系，那么就可以分析出每个服务相互之间的影响，比如服务A的行为1发生会导致服务B产生行为2。这对于大型系统的错误分析将会有很大的帮助。

本申请实施例的核心构思之一在于，利用主题模型对海量的离线日志进行深层次的语义分析，挖掘出日志之间的因果关联关系，以此作为分析产生日志的各个服务之间存在的关系的依据。

参照图1，示出了本申请的一种日志文本处理方法实施例1的步骤流程图，具体可以包括如下步骤：

步骤101，获取日志文本集合；所述日志文本集合包括针对业务服务平台的服务产生的多个日志文本；

对于提供多种解耦服务的业务服务平台，同一个服务产生的日志数据中，相同时间点生成的数据可以看作为一个日志文本。日志文本集合包括不同服务在不同时间点产生的日志文本。

在获取到日志文本后，需要将日志文本转换为向量形式，以使得可以日志文本可以数学计算。

将日志文本转换为向量形式的步骤具体可以包括：

首先对日志文本集合中的每一个日志文本进行预处理，然后生成词汇表。预处理可以包括：分词、去停词、去高频词和低频词。

例如，日志文本d1:There is an apple tree in my house

日志文本d2:Steve Jobs,Apple founder,died in2011

对日志文本d1分词得到：there/is/an/apple/tree/in/my/house

对日志文本d2分词得到：Steve Jobs/apple/founder/died/in/2011

对日志文本d1和d2去停词、高频词、低频词。

其中的there/is/an/in/my都是没有实际意义的副词、冠词、代词等，它们都统被称为停词，都是需要去除的，如果文档集合较大的话，还需要将其中出现频率特别高和特别低的词也都去掉。

生成词汇表，将剩余的词去重即可得到词汇表：

apple/tree/house/Steve Jobs/founder/died/2011

用单词在词汇表中的位置替换原单词，即可将文本转换成向量表示：

d1:[1，2，3]

d2:[4，1，5，6，7]

步骤102，针对所述日志文本集合，获得文本关联参数；所述文本关联参数包括：基于两个日志文本之间的关联关系确定的距离函数，以及，基于主题模型对所述日志文本集合生成的主题模型参数；

文本关联参数是在已知日志文本集合的情况下，对日志文本集合进行分析确定的参数。

在本申请实施例中，文本关联参数包括：基于两个日志文本之间的关联关系确定的距离函数，以及，基于主题模型对所述日志文本集合生成的主题模型参数。

两个日志文本之间的距离函数是两个日志文本之间关联关系的定义，两个日志文本之间的距离函数可以根据不同应用场景进行定义，比如可以使用基于规则匹配的距离，也可以使用基于word2vec的余弦距离等等。距离函数的定义可以由开发人员或维护人员来定义，只要开发人员或维护人员认为距离函数可以表示出实际场景中的情况即可。如在本申请实施例的目的在于，找出日志文本之间的关联关系，因此距离函数可以定义为基于两个日志文本之间的关联关系确定的距离函数。

例如，有的场景下内容相似即是有关联的，那么可以将距离函数定义为正比于文本相似度的函数。有的场景下如php+nginx+mysql构成的一个系统，假设已知mysql出错会导致php执行出错，php执行出错会导致nginx返回失败的状态码，那么就可以基于这种规则来定义距离函数。

主题模型参数是，采用了主题模型对日志文本进行语义分析所生成的参数。主题模型参数可以从语义角度表示日志文本之间的关联关系。

主题模型是对文字中隐含主题的一种建模方法，主题模型的意义在于，它能够挖掘出所看到的文本背后隐藏的真实含义，即隐变量。比如在前文解释如何生成词汇表的描述中，日志文本d1和日志文本d2这两个文本中都出现了apple这个单词，但是在日志文本d1中它所表示的是苹果树的苹果，在日志文本d2中表示的苹果公司的苹果。虽然是同一个单词，但背后却代表了不同的含义，单词背后的含义即称为隐变量。文本也是同样的道理。

在主题模型中，认为一篇文本的每个词都是通过“以一定概率选择了某个主题参数，并从这个主题参数中以一定概率选择某个词语”这样一个过程得到的。

步骤103，依据所述文本关联参数，确定两个日志文本之间具有关联关系的概率分布；

在日志文本集合已知的情况下，日志文本之间的关联关系已经是存在了的。在概率学的角度，两个日志文本之间具有关联关系可以用概率分布来描述，日志文本之间具有关联关系的用概率分布，受文本关联参数的影响。

文本关联参数的不同，日志文本之间具有关联关系的概率分布也不同。日志文本之间具有关联关系的概率分布与实际已经存在的日志文本之间的关联关系的匹配程度，取决于文本关联参数的设定。

日志文本之间具有关联关系的概率分布与实际已经存在的日志文本之间的关联关系的匹配程度越高，对日志文本的关联关系的分析越准确。

在给定文本关联参数下，两个日志文本之间具有关联关系的概率分布是一种后验概率分布。

步骤104，基于所述两个日志文本之间具有关联关系的概率分布，确定关联的日志文本。

基于所述两个日志文本之间具有关联关系的概率分布，可以找到与当前日志文本具有关联关系的其他日志文本。

对于业务服务平台的开发人员或维护人员而言，可以根据具有关联关系的日志文本优化业务服务平台提供的业务。

参照图2，示出了本申请的一种日志文本处理方法实施例2的步骤流程图，具体可以包括如下步骤：

步骤201，获取日志文本集合；所述日志文本集合包括针对业务服务平台的服务产生的多个日志文本；

在本申请实施例中，两个日志文本之间具有关联关系的概率分布为两个日志文本对应的日志向量之间具有关联关系的概率分布；日志文本的向量通过如下方式生成：

对所有日志文本进行预处理，生成对应的词汇表；

采用词汇表中各个词，生成所述日志文本对应的日志向量。

具体的，预处理的过程可以包括：分词、去停词、去高频词和低频词。然后根据日志文本的中经过预处理的得到的词汇在词汇表中的顺序，生成该日志文本对应的日志向量。

实际上本申请实施例中，所有针对日志文本的计算，都是基于日志文本对应的日志向量的。日志文本之间的关联关系就是日志文本对应的日志向量之间的关联关系。

步骤202，针对所述日志文本集合，获得文本关联参数；所述文本关联参数包括：基于两个日志文本之间的关联关系确定的距离函数，基于主题模型对所述日志文本集合生成的主题模型参数，以及，基于所述日志文本集合生成的第一数据集合；

两个日志文本之间的距离函数是两个日志文本之间关联关系的定义，两个日志文本之间的距离函数可以根据不同应用场景进行定义。

主题模型参数是，采用了主题模型对日志文本进行语义分析所生成的参数。

基于日志文本集合生成的第一数据集合，具体可以是日志文本集合中，各个词汇的集合，如上述的词汇表。

步骤203，对每个日志文本，基于所述主题模型参数，确定第二数据集合与第三数据集合具有关联关系的第一概率分布函数，作为似然函数；所述第二数据集合为：所述第一数据集合中，所述当前日志文本所属的类的数据集合；所述第三数据集合为：所述第一数据集合中，所述另一日志文本所属的类的数据集合；

似然函数，也称似然，是一个关于统计模型参数的函数。在本申请实施例中，基于文本关联参数，两个日志文本之间具有关联关系的概率分布看作为后验概率分布。

后验概率是关于随机事件或者不确定性断言的条件概率，是在相关证据或者背景给定并纳入考虑之后的条件概率。后验概率分布就是未知量作为随机变量的概率分布，并且是在基于实验或者调查所获得的信息上的条件分布。

本申请实施例中，文本关联参数是基于已知的日志文本集合生成的，因此，在给定文本关联参数下，两个日志文本之间具有关联关系的概率分布看作为后验概率分布。

在统计学中，后验概率分布正比于先验概率分布和似然函数。

在本申请中，日志文本所属的类，是指与当前日志文本具有直接关联关系或间接关联关系的日志文本的集合。例如，日志文本A与日志文本B具有关联关系，日志文本B与日志文本C具有关联关系，也就是日志文本A会关联到日志文本B，日志文本B会关联到日志文本C。则日志文本A与日志文本B是直接关联，日志文本A与日志文本C是间接关联。

日志文本A所属的类的数据集合，具体是日志文本A所属的类的各个日志文本的词汇集合。

在本申请实施例中，所述步骤203具体可以包括如下子步骤：

子步骤S11，基于所述主题模型参数，确定产生了第二数据集合的第二概率分布函数；

第二数据集合为：日志文本集合的第一数据集合中，当前日志文本所属的类的数据集合。

基于所述主题模型参数，确定产生了第二数据集合的第二概率分布函数可以理解为：在给定主题模型参数的情况下，从日志文本集合的第一数据集合中，产生当前日志文本所属的类的数据集合的概率。

子步骤S12，基于所述主题模型参数，确定产生了第三数据集合的第三概率分布函数；

第三数据集合为：日志文本集合的第一数据集合中，另一日志文本所属的类的数据集合；

基于所述主题模型参数，确定产生了第三数据集合的第三概率分布函数可以理解为：在给定主题模型参数的情况下，从日志文本集合的第一数据集合中，产生另一个日志文本所属的类的数据集合的概率。

子步骤S13，基于所述主题模型参数，确定产生了第四数据集合的第四概率分布函数；所述第四数据集合为：所述第一数据集合中，所述当前日志文本所属的类与所述另一日志文本所属的类的数据集合；

第四数据集合为当前日志文本所属的类与另一日志文本所属的类共同构成的数据集合。

基于所述主题模型参数，确定产生了第四数据集合的第四概率分布函数可以理解为：在给定主题模型参数的情况下，从日志文本集合的第一数据集合中，产生当前日志文本所属的类与另一日志文本所属的类共同构成的数据集合的概率。

子步骤S14，将所述第四概率分布函数，除以所述第二概率分布函数乘以所述第三概率分布函数的函数，作为所述第一概率分布函数。

步骤204，采用所述距离函数，生成先验概率分布；

在本申请实施例中，所述步骤204具体可以包括如下子步骤：

子步骤S21，生成针对在先日志文本对应的生成时间点，与在后日志文本对应的生成时间点的差值在预设时间段范围内的第一示性函数；

示性函数1[cond]表示当条件满足时返回1，否则返回0。

第一示性函数，是指当在先产生的日志文本对应的生成时间点，与在后产生的日志文本对应的生成时间点的差值在预设时间段范围内时，返回1，否则返回0。

所有日志文本都是有时间戳的，表示日志文本的生成时间点。本申请实施例中当前日志文本与另一日志文本的关联关系是指，后产生的日志文本与在先产生的日志文本会产生关联，即这种关联关系是单向的；再者日志是具有一定时效性的，相互之间的关联关系只会发生在一段时间之内，而不是任意两个时间段的日志都会有关联。因此本申请实施例中，设定第一示性函数去限定关联关系。

子步骤S22，生成针对两个日志文本属于不同服务的第二示性函数；

两个日志文本属于不同服务的第二示性函数是指，当两个日志文本属于不同服务时，返回1，否则返回。

在实际中，需要分析的是不同服务之间产生的日志文本之间的关联关系，而不需要分析同一个服务的日志文本的关联关系，因此设定第二示性函数去限定关联关系。

子步骤S23，将所述第一示性函数，所述第二示性函数以及所述距离函数相乘，作为先验概率分布。

先验概率仅仅依赖于主观上的经验估计，也就是事先根据已有的知识的推断。在本申请实施例中，业务服务平台的开发人员可以根据不同场景自定义不同的距离函数，具有很好的适用性。

本申请实施例中，两个日志文本之间的距离函数是两个日志文本之间关联关系的定义，对距离函数增加第一示性函数和第二示性函数，可以使得两个日志文本之间关联关系在时间上是有序且是单向的。

在本申请实施例中，所述文本关联参数还包括：当前日志文本与任一日志文本不具有关联关系的关联概率参数；

所述子步骤S23可以进一步包括：将所述第一示性函数，所述距离函数，以及所述第二示性函数相乘得到的函数，以及关联概率参数，作为先验概率分布。

因为实际上并不是所有的日志文本之间都会存在关联关系，因此引入了关联概率参数α，关联概率参数α表示一个日志文件与其他日志文件并没有关联的概率，显然关联概率参数α∈[0，1]，关联概率参数α越大时日志之间产生的关联越少且越准确，反之产生的关联越多且越泛化，因此可以通过关联概率参数α来控制产生关联的程度。

步骤205，将所述似然函数乘以所述先验概率分布，得到两个日志文本之间具有关联关系的概率分布；

在给定文本关联参数下，两个日志文本之间具有关联关系的概率分布，正比于似然函数乘以先验概率分布。

步骤206，基于所述两个日志文本之间具有关联关系的概率分布，确定关联的日志文本。

在本申请实施例中，所述步骤206具体可以包括如下子步骤：

子步骤S31，对所述先验概率分布乘以所述似然函数得到的概率分布进行迭代采样，采样得到日志文本；

先验概率分布乘以所述似然函数得到的概率分布，也就是在给定文本关联参数下，两个日志文本之间具有关联关系的概率分布。

概率分布可以通过采样的方式求解。采样的过程相对于对概率分布情况按随机数进行输出。每一次采样的结果，都是在当前两个日志文本之间具有关联关系的概率分布的下，与当前日志文本所关联的另一个日志文本。每进行一次采样，两个日志文本之间具有关联关系的概率分布都会改变。

子步骤S31，将迭代采样最后的采样得到的日志文本，确定为与当前日志文本具有关联关系的日志文本。

当对两个日志文本之间具有关联关系的概率分布的采样，满足收敛条件或达到最大迭代次数时，则停止采样。将迭代采样最后的采样得到的日志文本，确定为与当前日志文本具有关联关系的日志文本。

为了使本领域技术人员能够更好地理解本发明实施例，下面通过一个例子对本发明实施例加以说明：

1)获取日志文本集合，包括业务服务平台的各个服务产生的多个日志文本；

将同一个服务产生的日志中相同时间点的数据看作一个文本d_x，并标记其所属的服务为s_x。

2)对每个日志文本进行预处理，预处理包括：分词，去停词，去高频词和低频词。采用各个日志文本预处理之后得到词汇，生成词汇表V。

3)根据词汇表，将每一个日志文本转换成向量进行表示。具体可以为，将日志文本中的每一个词在词汇表中的位置顺序，替换原词。其中，需要将预处理中去除的词丢弃。

4)生成日志文本之间的距离函数f(d_x，d_y)；x，y泛指日志文本集合中的不同的日志文本。此距离函数可以根据不同应用场景进行自定义。

5)对距离函数f(d_x，d_y)，添加第一示性函数1[0＜t_x-t_y＜w]和第二示性函数

得到目标距离函数D_s(x，y)。

D_s(x，y)＝1[0＜t_x-t_y＜w]·1[s_x≠s_y]·f(d_x，d_y)。

其中，t_x，t_y分别表示日志文档x，y的产生时间。

第一示性函数1[0＜t_x-t_y＜w]表示，若日志文档x的产生时间，在日志文档y的产生时间之前，并且日志文档x的产生时间与日志文档y的产生时间的差值，在w时间段内，则第一示性函数的值1，否则为0。

第二示性函数1[s_x≠s_y]表示，若日志文档x所属的服务s_x与日志文档y所属的服务s_y不同，则第二示性函数的值1，否则为0。

对距离函数f(d_x，d_y)添加第一示性函数和第二示性函数，能使两个日志文本的距离表示更符合实际，目标距离函数D_s(x，y)才是最终的表示两个日志文本的距离的函数。

6)生成当前日志文本与任一日志文本不具有关联关系的关联概率参数α，α∈[0，1]。α越大时日志之间产生的关联越少且越准确，反之产生的关联越多且越泛化，因此可以通过控制参数α来控制产生关联的程度。α的大小没有具体的参考依据，可以根据算法的结果进行调整。

7)对于日志文本集合D中的每一个文本d_x，采用F(D_S(x，y)；α)作为先验概率分布，采样得到日志文本d_x的分配链接c_x。

分配链接c_x是指与日志文本d_x与另一日志文本的关联关系；

例如，日志文本d_x与日志文本d_y具有关联关系，则日志文本d_x的分配链接c_x＝y。

采样分配链接cx的具体公司可以为：

p(c_x＝y|c_-x，X，θ，α，D_S(x，y))就是在给定c_-x，X，θ，α，D_S(x，y))这些参数下，日志文本d_x的分配链接c_x的概率分布，也可以说是与日志文本d_x具有关联关系的日志文本d_y的概率分布。

其中，c_-x表示日志文本d_x的分配链接c_x不会是日志文本d_x本身。

X表示，日志文本集合D中的词汇表V中的各个词汇。

θ表示在主题模型下，日志文本背后的主题，是隐变量。

p(c_x＝y|c_-x，X，θ，α，D_S(x，y))是后验概率分布。由于后验概率分布正，比于似然函数乘以先验概率分布。因此，可以推导得到，

p(c_x＝y|c_-x，X，θ，α，D_S(x，y))正比于

表示有α的日志文本d_x是指向自己的，即x＝y。有

的日志文本d_x是指向另一个日志文本d_y的，即x≠y。

先验概率分布为F(D_S(x，y)；α)，似然函数为

函数f_c(x)表示日志文本d_x所分配到的类。X_S是一组从多项式分布S中产生的数据集合。S是表示在主题模型下，日志文本背后的主题θ的多项式分布。

表示日志文本d_x所属的类的数据集合。

表示日志文本d_y所属的类的数据集合。∪为并集符号，

表示日志文本d_x所属的类和日志文本d_y所属的类共同构成的数据集合。

表示在给定了主题θ的情况下，产生数据集合

的概率。

表示在给定了主题θ的情况下，产生数据集合

的概率。

表示在给定了主题θ的情况下，产生数据集合

的概率。

8)对上述公式进行迭代采样得到所有日志文本的分配链接c_x。

在对一个日志文本d_x进行采样迭代采样的过程中，当算法满足收敛条件或达到最大迭代次数时，停止采样，将最后采样得到的结果作为日志文本d_x的分配链接c_x，即与日志文本d_x具有关联关系的日志文本。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图3，示出了本申请的一种日志文本处理装置实施例的结构框图，具体可以包括如下模块：

日志文本集合获取模块301，用于获取日志文本集合；所述日志文本集合包括针对业务服务平台的服务产生的多个日志文本；

文本关联参数获得模块302，用于针对所述日志文本集合，获得文本关联参数；所述文本关联参数包括：基于两个日志文本之间的关联关系确定的距离函数，以及，基于主题模型对所述日志文本集合生成的主题模型参数；

关联概率分布确定模块303，用于依据所述文本关联参数，确定两个日志文本之间具有关联关系的概率分布；

关联日志文本确定模块304，用于基于所述两个日志文本之间具有关联关系的概率分布，确定关联的日志文本。

在本申请实施例中，所述文本关联参数还可以包括：基于所述日志文本集合生成的第一数据集合；

所述关联概率分布确定模块303可以包括：

在本申请实施例中，所述先验概率分布生成子模块可以包括：

在本申请实施例中，所述文本关联参数还可以包括：当前日志文本与任一日志文本不具有关联关系的关联概率参数；

所述先验概率分布生成单元可以包括：

在本申请实施例中，所述似然函数确定子模块可以包括：

在本申请实施例中，所述关联日志文本确定模块304可以包括：

在本申请实施例中，所述两个日志文本之间具有关联关系的概率分布为两个日志文本对应的日志向量之间具有关联关系的概率分布；日志文本的向量可以通过如下模块生成：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的系统。图4示意性地示出了可被用于实现本公开中所述的各个实施例的示例性系统(或装置)400。

对于一个实施例，图4示出了示例性系统400，该系统具有一个或多个处理器402、被耦合到(一个或多个)处理器402中的至少一个的系统控制模块(芯片组)404、被耦合到系统控制模块404的系统存储器406、被耦合到系统控制模块404的非易失性存储器(NVM)/存储设备408、被耦合到系统控制模块404的一个或多个输入/输出设备410，以及被耦合到系统控制模块406的网络接口412。

处理器402可包括一个或多个单核或多核处理器，处理器402可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，系统400能够作为本申请实施例中所述的浏览器。

在一些实施例中，系统400可包括具有指令的一个或多个计算机可读介质(例如，系统存储器406或NVM/存储设备408)以及与该一个或多个计算机可读介质相合并被配置为执行指令以实现模块从而执行本公开中所述的动作的一个或多个处理器402。

对于一个实施例，系统控制模块404可包括任意适当的接口控制器，以向(一个或多个)处理器402中的至少一个和/或与系统控制模块404通信的任意适当的设备或组件提供任意适当的接口。

系统控制模块404可包括存储器控制器模块，以向系统存储器2106提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

系统存储器406可被用于例如为系统400加载和存储数据和/或指令。对于一个实施例，系统存储器406可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，系统存储器406可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，系统控制模块404可包括一个或多个输入/输出控制器，以向NVM/存储设备408及(一个或多个)输入/输出设备410提供接口。

例如，NVM/存储设备408可被用于存储数据和/或指令。NVM/存储设备408可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备408可包括在物理上作为系统400被安装在其上的设备的一部分的存储资源，或者其可被该设备访问而不必作为该设备的一部分。例如，NVM/存储设备408可通过网络经由(一个或多个)输入/输出设备410进行访问。

(一个或多个)输入/输出设备410可为系统400提供接口以与任意其他适当的设备通信，输入/输出设备410可以包括通信组件、音频组件、传感器组件等。网络接口412可为系统400提供接口以通过一个或多个网络通信，系统400可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器402中的至少一个可与系统控制模块404的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器402中的至少一个可与系统控制模块404的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器402中的至少一个可与系统控制模块404的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器402中的至少一个可与系统控制模块404的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，系统400可以但不限于是：浏览器、工作站、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中，系统400可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，系统400包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

其中，如果显示器包括触摸面板，显示屏可以被实现为触屏显示器，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在终端设备时，可以使得该终端设备执行本申请实施例中各方法步骤的指令(instructions)。

在一个示例中提供了一种装置，包括：一个或多个处理器；和，其上存储的有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行如本申请实施例中的方法。

在一个示例中还提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如本申请实施例中的方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种日志文本处理方法和一种日志文本处理装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种日志文本处理方法，其特征在于，包括：

针对所述日志文本集合，获得文本关联参数；所述文本关联参数包括：基于两个日志文本之间的关联关系确定的距离函数，以及，基于主题模型对所述日志文本集合生成的主题模型参数；所述文本关联参数还包括：基于所述日志文本集合生成的第一数据集合；

依据所述文本关联参数，确定两个日志文本之间具有关联关系的概率分布；所述概率分布基于似然函数和先验概率分布确定；所述先验概率分布采用所述距离函数生成；所述似然函数为基于所述主题模型参数，确定的所述第一数据集合中两个日志文本所属的类的数据集合具有关联关系的第一概率分布函数；

2.根据权利要求1所述的方法，其特征在于，所述依据所述文本关联参数，确定两个日志文本之间具有关联关系的概率分布的步骤包括：

对每个日志文本，基于所述主题模型参数，确定第二数据集合与第三数据集合具有关联关系的第一概率分布函数，作为似然函数；所述第二数据集合为：所述第一数据集合中，当前日志文本所属的类的数据集合；所述第三数据集合为：所述第一数据集合中，另一日志文本所属的类的数据集合；

采用所述距离函数，生成先验概率分布；

3.根据权利要求2所述的方法，其特征在于，所述采用所述距离函数，生成先验概率分布的步骤包括：

生成针对两个日志文本属于不同服务的第二示性函数；

4.根据权利要求3所述的方法，其特征在于，所述文本关联参数还包括：当前日志文本与任一日志文本不具有关联关系的关联概率参数；

5.根据权利要求2所述的方法，其特征在于，所述对每个日志文本，基于所述主题模型参数，确定第二数据集合与第三数据集合具有关联关系的第一概率分布函数的步骤包括：

6.根据权利要求2所述的方法，其特征在于，所述基于所述两个日志文本之间具有关联关系的概率分布，确定关联的日志文本的步骤包括：

7.根据权利要求1所述的方法，其特征在于，所述两个日志文本之间具有关联关系的概率分布为两个日志文本对应的日志向量之间具有关联关系的概率分布；日志文本的向量通过如下方式生成：

对所有日志文本进行预处理，生成对应的词汇表；

采用词汇表中各个词，生成所述日志文本对应的日志向量。

8.一种日志文本处理装置，其特征在于，包括：

文本关联参数获得模块，用于针对所述日志文本集合，获得文本关联参数；所述文本关联参数包括：基于两个日志文本之间的关联关系确定的距离函数，以及，基于主题模型对所述日志文本集合生成的主题模型参数；所述文本关联参数还包括：基于所述日志文本集合生成的第一数据集合；

关联概率分布确定模块，用于依据所述文本关联参数，确定两个日志文本之间具有关联关系的概率分布；所述概率分布基于似然函数和先验概率分布确定；所述先验概率分布采用所述距离函数生成；所述似然函数为基于所述主题模型参数，确定的所述第一数据集合中两个日志文本所属的类的数据集合具有关联关系的第一概率分布函数；

9.根据权利要求8所述的装置，其特征在于，所述关联概率分布确定模块包括：

似然函数确定子模块，用于对每个日志文本，基于所述主题模型参数，确定第二数据集合与第三数据集合具有关联关系的第一概率分布函数，作为似然函数；所述第二数据集合为：所述第一数据集合中，当前日志文本所属的类的数据集合；所述第三数据集合为：所述第一数据集合中，另一日志文本所属的类的数据集合；

10.根据权利要求9所述的装置，其特征在于，所述先验概率分布生成子模块包括：

11.根据权利要求10所述的装置，其特征在于，所述文本关联参数还包括：当前日志文本与任一日志文本不具有关联关系的关联概率参数；

所述先验概率分布生成单元包括：

12.根据权利要求9所述的装置，其特征在于，所述似然函数确定子模块包括：

13.根据权利要求9所述的装置，其特征在于，所述关联日志文本确定模块包括：

14.根据权利要求8所述的装置，其特征在于，所述两个日志文本之间具有关联关系的概率分布为两个日志文本对应的日志向量之间具有关联关系的概率分布；日志文本的向量通过如下模块生成：

15.一种装置，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行如权利要求1-7中任一项所述的方法。

16.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1-7中任一项所述的方法。