CN107239438B

CN107239438B - 一种文档分析方法及装置

Info

Publication number: CN107239438B
Application number: CN201610181909.0A
Authority: CN
Inventors: 周扬; 蔡宁; 任望; 熊军; 何帝君; 张凯; 杨旭
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-03-28
Filing date: 2016-03-28
Publication date: 2020-07-28
Anticipated expiration: 2036-03-28
Also published as: CN107239438A

Abstract

本申请实施例提供一种文档分析方法及装置，该方法预先设置若干主题以及每个主题包含的若干中心词，并确定每个中心词属于各主题的概率，之后随机设置训练文档集中各非中心词属于各主题的初始概率以及各训练文档属于各主题的初始概率，最后通过训练得到每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率。当接收到待分析文档集时，针对该待分析文档集中的每个分词，根据每个中心词属于各主题的概率、每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率，确定该分词属于各主题的概率，并确定每个待分析文档属于各主题的概率。通过上述方法，使得对文档的分析结果的可理解性增强，提高了文档分析效率。

Description

一种文档分析方法及装置

技术领域

本申请涉及信息技术领域，尤其涉及一种文档分析方法及装置。

背景技术

随着信息化社会的发展，由于可以通过分析文档，了解该文档所包含的主题，并根据这些主题了解大众行为习惯、大众关注热点等重要的有价值的信息，所以如何确定大量文档的潜在主题，便成为人们重点关注的技术之一。

在现有技术中，对于大规模文档或者语料库中潜藏主题信息的识别方法，即，对大规模文档集或者语料库对应的数据进行文档分析后，确定各文档或者各语言材料的主题信息的文档分析方法，主要使用潜在狄里克雷分配(Latent Dirichlet Allocation，LDA)来实现，并且通过该文档分析方法，了解各文档的主题。LDA是一种文档主题生成模型(并且，也是一种非监督机器学习技术)，它可以将大规模文档集中每篇文档的主题以概率分布的形式给出，并且在通过分析若干文档、抽取该若干文档的主题(即，主题的概率分布)后，还可以根据该若干文档的主题进行主题聚类或文本分类。同时，LDA是一种典型的词袋模型，即一篇文档是由一组词构成，词与词之间没有先后顺序的关系，此外，一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。

但是，在现有技术中，在使用LDA对大规模文档集进行主题聚类或者文档分类时，针对每个文档，由于该文档的主题的概率分布是由该文档的语言结构确定的(即，根据该文档中存在的所有词汇确定的)，所以在通过该LDA确定的该文档的各主题并不一定具有期望的含义(即，确定的该文档的主题概率分布中的各主题的可理解性低，人们无法从确定的主题中理解该文档所表述的内容)。例如，通过该LDA确定文档M的主题分布概率可为：“使得”70％、“需要”20％、“天气”10％，可见“使得”和“需要”这两个主题并不是人们需要的具有含义的主题，而是没有特定意义的主题，人们也无法通过这两个主题了解该文档M所表述的内容，无法达到了解该文档M的主题的需要。并且，当该文档的语言结构存在缺陷(如，口语化的省略或者乱用分隔符等)，或者文档中文字数量太少(如，短文)，也会导致这一问题。

可见，现有的文档分析方法，在通过LDA确定大规模文档集或者语料集的主题时，存在确定的主题可理解性低，而当确定的文档的主题无法满足要求(即，可理解性低)时，则需要对该文档再次分析，影响文档分析效率的问题。

发明内容

本申请实施例提供一种文档分析方法及装置，用以解决现有技术的文档分析方法，对文档集或语料集进行分析确定的主题可理解性低，导致需要重复分析文档，影响文档分析效率的问题。

本申请实施例提供的一种文档分析方法，预设若干主题以及每个主题包含的若干中心词，所述方法包括：

根据每个中心词所属的各主题，确定每个中心词属于各主题的概率；

针对预设的训练文档集中各训练文档的每个非中心词，随机设置该非中心词属于各主题的初始概率；

针对每个训练文档，随机设置该训练文档属于各主题的初始概率；

根据针对每个非中心词设置的初始概率和针对每个训练文档设置的初始概率，训练得到每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率；

当接收到待分析文档集时，针对所述待分析文档集中的每个分词，判断该分词是否为预设的中心词，若是，则根据每个中心词属于各主题的概率，确定该分词属于各主题的概率，若否，则根据每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率，确定该分词属于各主题的概率；

根据所述待分析文档集中的每个分词属于各主题的概率，确定所述待分析文档集中每个待分析文档属于各主题的概率。

本申请实施例提供的一种文档分析装置，包括：

中心词模块，用于根据每个中心词所属的各主题，确定每个中心词属于各主题的概率；

非中心词模块，用于针对预设的训练文档集中各训练文档的每个非中心词，随机设置该非中心词属于各主题的初始概率；

训练文档模块，用于针对每个训练文档，随机设置该训练文档属于各主题的初始概率；

训练模块，用于根据针对每个非中心词设置的初始概率和针对每个训练文档设置的初始概率，训练得到每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率；

分析模块，用于当接收到待分析文档集时，针对所述待分析文档集中的每个分词，判断该分词是否为预设的中心词，若是，则根据每个中心词属于各主题的概率，确定该分词属于各主题的概率，若否，则根据每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率，确定该分词属于各主题的概率；

分析结果模块，用于根据所述待分析文档集中的每个分词属于各主题的概率，确定所述待分析文档集中每个待分析文档属于各主题的概率。

本申请实施例提供一种文档分析方法及装置，该方法预先设置若干主题以及每个主题包含的若干中心词，并确定每个中心词属于各主题的概率，之后随机设置训练文档集中各非中心词属于各主题的初始概率以及各训练文档属于各主题的初始概率，最后通过训练得到每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率。当接收到待分析文档集时，针对该待分析文档集中的每个分词，根据每个中心词属于各主题的概率、每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率，确定该分词属于各主题的概率，最终确定该待分析文档集中每个待分析文档属于各主题的概率。通过上述方法，利用预设主题中包含的若干中心词，固定了文档分析时的聚类中心，使得对文档的分析结果的可理解性增强，避免了对文档的重复分析，提高了文档分析效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的文档分析过程；

图2为本申请实施例提供的一种文档分析装置的结构示意图。

具体实施方式

在本申请实施例中，预先设置若干主题以及每个主题包含的若干中心词，之后确定每个中心词属于各主题的概率，然后通过训练随机设置的训练文档集中各非中心词属于各主题的初始概率以及各训练文档属于各主题的初始概率得到各非中心词属于各主题的最终概率以及各训练文档属于各主题的最终概率。当接收到待分析文档集时，针对该待分析文档集中的每个分词，根据每个中心词属于各主题的概率、每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率，确定该分词属于各主题的概率，最终确定该待分析文档集中每个待分析文档属于各主题的概率。可见本申请所述的方法，并不直接分析待分析文档集，而是预先设定若干中心词以及主题，确定每个中心词属于各主题的概率，作为聚类的中心，之后再通过训练文档集进行训练，确定每个非中心词属于各主题的最终概率，以及各训练文档属于各主题的最终概率。使得当接收到待分析文档集时，可以根据每个分词是否为预设的中心词或者是否为该训练文档集中出现过的非中心词，分别采用不同的方法确定每个分词属于各主题的概率，最后根据每个分词属于各主题的概率，确定每个待分析文档属于各主题的概率。可见，在使用本申请的方法进行文档分析时，中心词属于各主题的概率以及训练后的非中心属于各主题的最终概率，对最终每个分词属于各主题的概率产生了积极的影响，使得各主题的可理解性得以提高，也就使得各待分析文档所属的各主题的可理解性增强，避免了重复分析待分析文档，从而使文档分析效率提高。

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的文档分析过程，其中，预设若干主题以及每个主题包含的若干中心词。

在本申请实施例中，为了使文档分析结果的可理解性更高，所以可通过人工设定若干主题以及每个主题对应的若干中心词，其中，由于各中心词是由人工给出的，所以该中心词的可理解性很高，即，人们可以容易的理解该中心词要表达的含义(关于中心词的可理解性，连词如“和”、“虽然”、“但是”等的理解性就很低，即，这些词语没有特定的有用的含义，名词如“医院”、“飞机”、“食品”等的理解性就很高，即这些词语对人们来说有特定的有用的含义)。并且，由于此时每个主题都是由各中心词组成，所以每个主题的可理解性较高。

具体的，由于一般采用服务器进行文档分析，所以在本申请中，工作人员可通过该服务器预设主题的数量、中心词的数量、每个主题中包含的各中心词、以及每个中心词具体为那些词语。其中，各主题中包含的预设的中心词的数量无需一致，为了方便说明，以下预设的若干主题的数量以K表示，预设的若干中心词的数量以V’表示。

进一步的，该预设的若干主题以及每个主题包含的若干中心词，可以由人工按照需要设定(即，不是随意设定的)，如，想要分析西药类论文的主题，那么预设一个包含中心词“当归”、“灵芝”的主题就显得并不合适。并且，为了提高文档分析的效率，在本申请中，所述预设的若干主题以及所述预设的若干中心词可与后续步骤中的训练文档集、待分析文档集相关。或者可以理解为，为了提高文档分析效率，针对不同的文档分析需要(即，不同类型的待分析文档)，可针对性的设定不同的主题和中心词。

则图1所示的文档分析方法，具体包括以下步骤：

S101：根据每个中心词所属的各主题，确定每个中心词属于各主题的概率。

在本申请实施例中，在确定了预设的若干主题以及每个主题包含的若干中心词后，由于各主题中可以包含多个中心词，并且不同主题中包含的中心词可以出现重复，所以同一个中心词可属于多个主题。则此时，虽然每个中心词都具有很高的可理解性，但是对于属于多个主题的中心词，由于该中心词属于多个主题，所以该中心词可用于专门表达某一个主题的可能性就越低。如，假设中心词a、b、c，分属于主题1和主题2，具体分布如表1所示。

主题	中心词
		1	a、b
2	a、c

表1

可见，由于该中心词a又属于主题1又属于主题2，所以该中心词用于表示主题1和主题2的可能性是相同的，并不能明确该中心词a到底是要表述主题1还是主题2，而该中心词b由于仅属于主题1，所以当出现该中心词b时，可以明确该中心词b是表示主题1而不是主题2，同理对于中心词c来说该中心词c可明确表示主题2。

于是，在本申请中，还需要确定每个中心词属于各主题的概率，即，针对每个主题，该主题中每个中心词属于该主题的概率是有区别的，则概率较高的中心词在文档中是表示该主题的可能性较高，概率较低的中心词在文档中是表示该主题的可能性较低。

具体的，该服务器针对每个中心词，首先计算该中心词在每个主题中出现的次数，并采用逆文档频率(Inverse Document Count，IDC)表示(如表1中，该中心词a的IDC为2，该中心词b和中心词c的IDC为1)，之后采用映射规则：e^{[-0.5·(IDC-1)]}，确定该中心属于各主题的概率，其中，e为自然常数。通过上述两次计算，便可以确定每个中心词属于各主题的概率。

进一步的，该服务器还可以根据每个中心词属于各主题的概率确定一个“中心词-主题”的矩阵，该矩阵中每个单元表示：该单元对应的中心词属于该单元对应的主题的概率。并且，由于每个主题中包含的中心词并不完全一致，所以在该“中心词-主题”的矩阵中的单元会出现数值为0的情况，表示该单元对应的中心词未在该单元对应的主题中出现过。

例如，假设用于文档分析的服务器Q，该服务器Q用于分析客服人员与客户之间的聊天记录集(即，文档集)，并按需求确定一段时间内的客户向客服人员反映的问题(即，文档集中各文档属于各主题的概率)，以便该服务器Q后续可以将确定的客户关注较多的问题的答案写入机器人应答系统中，使得客户在询问这类问题时，可以通过机器人应答给出相应的答案，而使客户无需通过人工应答便可以得到问题的答案，进而使的人工应答的工作量减少，并提高客服系统的运行效率。进一步假设，在该服务器Q中，工作人员预设了K个主题以及V’个中心词，并且每个中心词均是与客户询问问题的关键词或者与该关键词相关的词语。则该服务器Q通过计算每个中心词的IDC，并采用映射规则e^{[-0.5·(IDC-1)]}，可以确定每个中心词属于各主题的概率，并且可以用一个K·V'的矩阵ψ来表示，其中，该矩阵

为行数为K，列数为V’的矩阵，行维度表示各主题，列维度表示各中心词，其中ψ_ij为该矩阵ψ的单元，该单元表示第i个主题包含第j个中心词的概率，也就是该第j个中心词属于该第i个主题的概率。

需要说明的是，在本申请中所述的服务器可以是单独的一台设备，也可是由多台设备组成的系统。

S102：针对预设的训练文档集中各训练文档的每个非中心词，随机设置该非中心词属于各主题的初始概率。

在本申请实施例中，当确定了每个中心词属于各主题的概率(即，“中心词-主题”的矩阵)后，在进行文档分析时，该服务器便可以根据上述步骤S101中确定的“中心词-主题”的矩阵，确定该中心词属于各主题的概率，使文档分析的结果受到该预设主题、预设中心词以及该“中心词-主题”的矩阵的影响，进而使得文档分析结果更加可控。

但是，在进行文档分析时，相对于待分析的文档集中词语的数量，该预先设定的中心词的数量通常是较少的，所以该“中心词-主题”的矩阵对与文档分析结果的影响作用相对较小，于是为了增加各预设中心词在文档分析结果中所起的作用，该服务器还需要选择训练文档集，并对该文档集进行训练，以便后续步骤可以增加该“中心词-主题”的矩阵对于文档分析结果的影响。

具体的，首先，该服务器需要确定一个用于训练的训练文档集，并且，该训练文档集中个训练文档的大致内容可与该预设的各主题以及该预设的各中心词相关。其中，由该训练文档集与该预设的中心词相关，所以该训练文档集中可存在预设的中心词，但是，根据常识一篇文章不可能仅由中心词组成，所以该训练文档集中应存在不是预设的中心词的词语，即，非中心词。

其次，针对每个非中心词，该服务器需要随机设置该非中心词属于各主题的初始概率。并且，该服务器可以根据该随机设置的每个非中心词属于各主题的初始概率，确定一个“非中心词-主题”矩阵，该矩阵中每个单元表示该单元对应的非中心词属于该单元对应的主题的初始概率。并且，由于每个非中心词属于各主题的初始概率是随机设置的，所以在该“非中心词-主题”的矩阵中的单元会出现数值为0的情况，表示该单元对应的非中心词不属于该单元对应的主题。

进一步的，为了提高后续的训练效果，该确定的该训练文档集也可以根据后续需要分析的待分析文档集来确定(即，使得确定的各待分析文档集中的主题实质是与该训练文档集中的主题相关、相近)，使得该训练文档集与该后续需要分析的待分析文档集相关或者性质相同(如，均是聊天记录或者都是医药领域的论文)。当然，即便该训练文档集与待分析文档集并不相关，通过本申请所述的方法，也可提高最终确定的各待分析文档的主题可理解性。

继续沿用上例，假设该服务器Q确定了大量的客服人员与不同客户的历史聊天记录集，作为训练文档集。则该服务器Q需要遍历该历史聊天记录，确定若干非中心词，并且针对每一个非中心词，随机设置该非中心词属于各主题的初始概率。进一步假设，确定的非中心词的数量为V，则此时该服务器Q可以确定一个K·V的矩阵φ来表示随机设置的每个非中心词属于各主题的初始概率，其中，该矩阵

为行数为K，列数为V的矩阵，行维度表示各主题，列维度表示各非中心词，其中φ_ij为该矩阵φ的单元，该单元表示第i个主题包含第j个非中心词的概率，也就是该第j个非中心词属于该第i个主题的概率。

S103：针对每个训练文档，随机设置该训练文档属于各主题的初始概率。

在本申请实施例中，在对该训练文档集进行训练前，该服务器已经确定该训练文档集中每个中心词属于各主题的概率以及每个非中心词属于各主题的初始概率。但是，在本身申请中进行文档分析的目的是确定文档属于主题的概率，而不是词语属于各主题的概率，所以为了后续的训练步骤，该服务器还需要针对每个训练文档，随机设置该训练文档属于各主题的初始概率。

具体的，该服务器针对每个训练文档，随机设置该训练文档属于各主题的初始概率，并确定一个“训练文档-主题”的矩阵，该矩阵中每个单元表示该单元对应的训练文档属于该单元对应的主题的初始概率。当然，如“非中心词-主题”的矩阵一样，在该“训练文档-主题”的矩阵中的单元会出现数值为0的情况，表示该单元对应的训练文档中不存在该单元对应的主题。

继续沿用上例，假设该服务器Q确定的“客服人员与不同客户的历史聊天记录”的训练文档集中，包含M篇聊天记录(即，M篇训练文档)，则该服务器Q需要针对每一篇聊天记录，随机设置该聊天记录属于各主题的初始概率，并确定一个M·K的矩阵θ来表示，其中该矩阵

为行数为M，列数为K的矩阵，行维度表示各训练文档，列维度表示各主题，其中θ_ij为该矩阵θ的单元，该单元表示第i个训练文档包含第j个主题的概率，也就是该第j个主题属于该第i个训练文档的概率。

S104：根据针对每个非中心词设置的初始概率和针对每个训练文档设置的初始概率，训练得到每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率。

在本申请实施例中，基于步骤S102中所述的理由，该服务器需要针对该训练文档集进行训练，以便使得该训练文档集中的各非中心词属于各主题的概率向各中心词属于各主题的概率聚类，进而使各主题的可理解性提高。并且，由于该训练文档集可与后续步骤中的待分析文档集相关，所以为了后续文档分析速度更快，结果更准确，所以同时也需要训练每个训练文档属于各主题的概率。即，对该“非中心词-主题”矩阵和该“训练文档-主题”矩阵进行训练。

具体的，首先，针对该训练文档集中的每个训练文档，该服务器可采用吉布斯采样公式(Gibbs Sampling)

确定该“非中心词-主题”矩阵中各单元的各中间概率(具体的，该公式表示：第t个非中心词属于第K个主题的中间概率)。

其次，该服务器可将针对每个训练文档确定的最大中间概率，重新作为该“非中心词-主题”矩阵中各单元的初始概率，即，第t个非中心词属于第K个主题的初始概率。

之后，该服务器可根据重新确定的每个非中心词属于各主题的初始概率，重新确定每个训练文档属于各主题的初始概率。

然后，重复上述过程，直至重新确定每个非中心词属于各主题的初始概率的次数达到第一设定次数时，将最后一次确定的每个非中心词属于各主题的初始概率确定为每个非中心词属于各主题的最终概率，将最后一次确定每个训练文档属于各主题的初始概率确定为每个训练文档属于各主题的最终概率。即，训练得到了每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率。该服务器通过上述重复计算过程(也称：训练过程)，使得该训练文档中的各非中心词属于各主题的概率向该中心词属于各主题的概率靠近，相当于根据每个中心词使各非中心词向该中心词聚类。

对于公式

继续沿用上例中的矩阵φ和矩阵θ进行详细说明，首先，该公式

表示：针对第M个训练文档集，第t个非中心词属于第K个主题的中间概率。其中，V表示非中心词的数量、K表示第K个主题、

表示第t个非中心词在除第K个主题以外的其他主题中出现的期望次数、

表示该第K个主题在除第M个训练文档以外的其他文档中出现的期望次数、β_t和α_K为预设的常数。

进一步的，针对公式中的

和

的计算方法进行说明。具体的，由于可以知道该训练文档集中每个训练文档包含的词语数量，所以根据矩阵θ和矩阵φ，可以计算得出每个主题在每个文档中包含的词语数量的期望值和每个非中心词在每个主题中包含的词语数量的期望值。于是，在计算

的数值时，可以确定除了第K个主题以外，第t个非中心词包含的词语数量的期望值，在计算

时，可以确定除了第M个训练文档以外，第K个主题包含的词语数量的期望值(示例，如，假设训练文档集X中的训练文档α属于主题A、主题B、主题C的概率分别为50％、30％、20％，若该训练文档α由100个词语构成，则该训练文档α中有50个词属于主题A、30个词属于主题B、20个词属于主题C，进一步假设非中心词t属于主题A、主题B、主题C的概率分别为10％、11％、40％，则在该训练文档α中该非中心词t不属于主题A的词语数量期望值为30·11％+20·40％＝11.3，将该训练文档集X每个训练文档中该非中心词t不属于主题A的词语数量期望值之和，作为计算该非中心词t属于主题A的中间概率时需要用到的数值

另外，上述示例中出现的具体数值均是期望值)。

更进一步的，在上述公式中作为常数出现的β_t和α_K一般是极小的数值(如0.0001)，具体的β_t和α_K用于防止计算中出现

和/或

为0时，公式的计算结果为0的情况。

继续沿用上例，假设该服务器Q根据矩阵φ和矩阵θ，采用公式

重复计算该矩阵φ和矩阵θ种各单元的值，进一步假设，工作人员对该服务器Q设置的第一设定次数为1000，即，当重复该训练过程1000次后，该服务器Q判断该矩阵φ和矩阵θ无需继续训练。

需要说明的是，在本申请中各公式中的变量单元均可以通“针对公式中的

和

的计算方法进行说明”中给出的就算示例计算出来，后续本申请中不再重复描述。并且，该第一设定次数可由人工按照经验值设置。

S105：当接收到待分析文档集时，针对所述待分析文档集中的每个分词，判断该分词是否为预设的中心词，若是，则执行步骤S106，若否，则执行步骤S107。

在本申请实施例中，当该服务器训练得到每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率后，该服务器便可进行文档分析。与上述步骤S102～S104所述的步骤类似，该服务器可确定该待分析文档集中的每个分词属于各主题的概率，再通过每个待分析文档中包含的各分词属于各主题的概率，确定每个待分析文档属于各主题的概率。

但是，在实际使用中，针对该服务器接收到的待分析文档集中包含的每个分词，该分词存在三种情况：是中心词、是非中心词或者既不是中心词也不是非中心词。可见，对于不同情况的分词，需要区别分析(如，对于是中心词的分词，便可以直接采用在步骤S101中确定的该中心词属于各主题的概率)，于是，该服务器在接收到待分析文档集时，需要对接收到的待分析文档集中包含的每个分词进行判断、分类。

具体的，当该服务器接收到待分析文档集时，该服务器需要对该待分析文档集中的每个分词，判断该分词是否为预设的中心词，若是，则执行步骤S106，若否，则执行步骤S107。

继续沿用上例，假设该服务器Q接收待分析的客服人员与客户之间聊天记录集(即，待分析文档集)，其中包含待分析文档数量为N，分词数量为V”。于是该服务器Q需要根据预设的各中心词，判断该待分析的聊天记录集中的每个分词是否为中心词。

S106：根据每个中心词属于各主题的概率，确定该分词属于各主题的概率。

在本申请实施例中，当确定该待分析文档集中是中心词的分词后，该服务器可以根据在步骤S101中确定的“中心词-主题”矩阵，针对每一个确定是中心词的分词，确定该分词属于各主题的概率。

需要说明的是，步骤S106和步骤S107是同步进行的，只是通过步骤S106对各分词进行不同的分析过程，并不存在流程顺序上的区别。

S107：根据每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率，确定该分词属于各主题的概率。

在本申请实施例中，该服务器在判断该待分析文档集中的分词不是预设的中心词后，针对每个不是中心词的分词，该分词还存在两种情况：该分词是非中心词或者不是非中心词(即，该分词在训练文档集中出现过，或者该分词未在该训练文档集中出现过)。针对这两种不同情况，该服务器还可分别采用不同的方法进行分析。

具体的，首先，该服务器可确定该待分析文档集中的分词数量、以及待分析文档数量，并如步骤S102～103中一样，针对每个不是中心词的分词随机设置该分词属于各主题的初始预期概率，以及针对每个待分析文档随机设置该待分析文档属于各主题的初始预期概率，并分别确定“不是中心词的分词-主题”矩阵和“待分析文档-主题”矩阵。

其次，该服务器针对所述待分析文档集中的每个待分析文档，判断每个不是中心词的分词是否为非中心词，若是，则该服务器可采用公式

计算每个是非中心词的分词属于各主题的中间预期概率，若否，则该服务器可采用公式

计算每个既不是中心词也不是非中心词的分词属于各主题的中间预期概率。具体的，公式

和公式

均表示示：第t个分词属于第K个主题的中间概率。

再次，将针对每个待分析文档确定的最大中间预期概率，重新作为第t个分词属于第K个主题的初始预期概率。

之后，根据重新确定的每个分词属于各主题的初始预期概率，重新确定每个待分析文档属于各主题的初始预期概率。

最后，重复上述过程，直至重新确定每个分词属于各主题的初始预期概率的次数达到第二设定次数时，将最后一次确定的每个分词属于各主题的初始预期概率确定为每个分词属于各主题的概率。

另外，在上述公式中，

由在步骤S104中训练得到的该“非中心词-主题”矩阵和该“训练文档-主题”矩阵确定(即，每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率)，

则根据该“不是中心词的分词-主题”矩阵和“待分析文档-主题”矩阵确定(即，随机设置的每个分词属于各主题的初始预期概率以及随机设置的每个待分析文档属于各主题的初始预期概率)。V_new表示分词的数量、M_new表示待分析文档数量、K表示第K个主题、

表示根据每个非中心词属于各主题的最终概率确定的第t个分词在除第K个主题以外的其他主题中出现的期望次数、

表示根据每个分词属于各主题的初始预期概率确定的第t个非中心词在除第K个主题以外的其他主题中出现的期望次数、

表示根据每个训练文档属于各主题的最终概率确定的该第K个主题在除第M个训练文档以外的其他文档中出现的期望次数、

表示根据每个待分析文档集属于各主题的初始预期概率确定的该第K个主题在除第M_new个待分析文档以外的其他文档中出现的期望次数、β_t和α_K为预设的常数。

进一步的，该第二设定次数的大小与在步骤S104中所述的第一设定次数的大小可不同，并且可以远小于在步骤S104中所述第一设定次数。

继续沿用上例，该服务器Q可针对每一篇待分析聊天记录文档(即，待分析文档)，随机设置该聊天记录属于各主题的初始预期概率，并确定一个N·K的矩阵θ_new来表示，其中该矩阵

为行数为N，列数为K的矩阵，行维度表示各待分析文档，列维度表示各主题，其中θ_{new_ij}为该矩阵θ_new的单元，该单元表示第i个待分析文档包含第j个主题的初始预期概率，也就是该第j个主题属于该第i个待分析文档的初始预期概率。

该服务器Q可针对每一个不是中心词的分词，随机设置该分词属于各主题的初始预期概率，并确定一个V”·K的矩阵φ_new来表示，其中该矩阵

为行数为K，列数为V”的矩阵，行维度表示各主题，列维度表示各分词，其中φ_{new_ij}为该矩阵φ_new的单元，该单元表示第i个主题包含第j个分词的初始预期概率，也就是该第j个分词属于该第i个主题的初始预期概率。

下一步，该服务器Q便可针对每一篇聊天记录文档，再次判断不是中心词的各分词是否为非中心词，假设当前判断第t个分词是否为非中心词，若判断结果为是，则通过公式

确定第t个分词属于第K个主题的中间预期概率，若判断结果为否，则通过公式

确定第t个分词属于第K个主题的中间预期概率。

之后，将针对每个待分析文档确定的最大中间预期概率，重新作为第t个分词属于第K个主题的初始预期概率，直至重新确定每个分词属于各主题的初始预期概率的次数达到第二设定次数时，将最后一次确定的每个分词属于各主题的初始预期概率确定为每个分词属于各主题的概率。

假设，该第二设定次数为20次，也就是重新确定每个分词属于各主题的初始预期概率的次数达到20次后，该服务器Q将最后一次确定的每个分词属于各主题的初始预期概率确定为每个分词属于各主题的概率。

S108：根据所述待分析文档集中的每个分词属于各主题的概率，确定所述待分析文档集中每个待分析文档属于各主题的概率。

在本申请实施例中，当通过步骤S105～S107之后，该服务器可以确定该待分析文档集中每个分词属于各主题的概率，于是，该服务器便可通过每个分词在各待分析文档中的数量，确定各待分析文档集中每个待分析文档属于各主题的概率，并作为该待分析文档的分析结果。

继续沿用上例，该服务器Q在通过上述步骤之后，可以确定待分析客服人员与客户之间的聊天记录文档集中每个分词属于各主题的概率，于是可以进一步确定每一个待分析客服人员与客户之间的聊天记录文档属于各主题的概率。假设，确定第一篇聊天记录的主题为“认证”20％“复杂”50％“失败”30％、第二篇聊天记录的主题为“购买”30％“发货”70％、第三篇聊天记录的主题为“购买”40％“骗子”60％、、、等等。于是，后续该服务器Q可以通过归纳聊天记录中各主题占聊天记录集中的比率，确定客户关心的问题，并后续针对性的改进等等，当然后续如何利用所述每一个待分析客服人员与客户之间的聊天记录文档属于各主题的概率，不在本申请所叙述的范围内。

通过如图1所示的文档分析方法，可见，在分析文档或者文档集之前，该服务器需要预先设定若干对应的主题，以及每个主题中包含的若干中心词，之后还需要确定训练文档集，利用预设的各主题以及各中心词，训练该训练文档集中每个非中心词属于各主题的概率以及每个训练文档属于各主题的概率，使得训练得到的每个非中心词属于各主题的最终概率向该每个中心词属于各主题的概率聚类，并使最终的到的每个训练文档属于各主题的最终概率中对应的主题的可理解性更高。之后，当接收到待分析文档集时，该服务器可以根据每个中心词属于各主题的概率、之前训练得到的每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率，训练得到该待分析文档集中的每个分词属于各主题的概率，并最终确定该待分析文档集中每个待分析文档属于各主题的概率。可见，由于各中心词和各主题的预先设定，以及本申请所采用的方法，使得在进行文档分析时，确定的每个文档属于的各主题的可理解性更高，使得无需因为出现无法理解的主题，而对文档重复分析，提高了文档分析的效率。

另外，在步骤S104中，为了获得更好的训练结果，当重新确定每个非中心词属于各主题的初始概率的次数达到第一设定次数时，可以对确定的每个非中心词属于各主题的初始概率进行间隔采样。

具体的，当重新确定每个非中心词属于各主题的初始概率的次数达到第一设定次数时，选择每个非中心词属于各主题的初始概率中的部分数值作为每个非中心词属于各主题的最终概率，之后继续上述训练过程，当达到间隔次数时，选择每个非中心词属于各主题的初始概率中之前未被选择过的部分数值作为每个非中心词属于各主题的最终概率，直至每个非中心词属于各主题的初始概率的数值均被选择过。

例如，对于一个每个非中心词属于各主题的初始概率的矩阵

当重新确定每个非中心词属于各主题的初始概率的次数达到第一设定次数时，选择φ″₁₁、φ″₂₃、φ″₃₁作为每个非中心词属于各主题的最终概率的矩阵

的数值，假设继续训练过程10次后达到间隔次数，此时

选择φ″₂₂、φ″₂₁、φ″₁₂作为每个非中心词属于各主题的最终概率的矩阵

的数值，继续进行训练，假设再次达到间隔次数，此时

选择φ″₁₃、φ″₃₂、φ″₃₃的数值，则最终确定的每个非中心词属于各主题的最终概率的矩阵

另外，需要说明的是，在本申请步骤S101中，除了可以采用IDC计算每个中心词的在各主题中出现的次数，并通过映射规则e^{[-0.5·(IDC-1)]}，来确定每个中心词属于各主题的概率之外，还可以采用其他的概率计算方式确定每个中心词属于各主题的概率，如，将每个中心词在各主题中出现的次数与预设的主题数量之比，作为该中心词属于各主题的概率，并最终确定每个中心词属于各主题的概率。

进一步的，在本申请步骤S104中，除了采用吉布斯公式

确定该“非中心词-主题”矩阵中各单元的各中间概率，并最后确定每个训练文档属于各主题的最终概率和每个非中心词属于各主题的最终概率之外，还可以采用变分推理、变分贝叶斯期望最大化等方法，训练得到每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率。

更进一步的，在本申请步骤S107中，也可以采用变分推理、变分贝叶斯期望最大化等方法，确定每个分词属于各主题的概率以及每个待分析文档属于各主题的概率。其中，在步骤S104和在步骤S107中采用的方法，可以相同也可以不同，本申请对此并不做具体限定。

基于图1所示的文件传输过程，本申请实施例还提供一种文档分析装置，如图2所示。

图2是本申请实施例提供一种文档分析装置的结构示意图，具体包括：

中心词模块201，用于根据每个中心词所属的各主题，确定每个中心词属于各主题的概率；

非中心词模块202，用于针对预设的训练文档集中各训练文档的每个非中心词，随机设置该非中心词属于各主题的初始概率；

训练文档模快203，用于针对每个训练文档，随机设置该训练文档属于各主题的初始概率；

训练模块204，用于根据针对每个非中心词设置的初始概率和针对每个训练文档设置的初始概率，训练得到每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率；

分析模块205，用于当接收到待分析文档集时，针对所述待分析文档集中的每个分词，判断该分词是否为预设的中心词，若是，则根据每个中心词属于各主题的概率，确定该分词属于各主题的概率，若否，则根据每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率，确定该分词属于各主题的概率；

分析结果模块206，用于根据所述待分析文档集中的每个分词属于各主题的概率，确定所述待分析文档集中每个待分析文档属于各主题的概率。

所述中心词模块201具体用于，针对每一个中心词，根据该中心词所属的主题的数量，确定该中心词属于各主题的概率。

所述训练模块204具体用于，针对所述训练文档集中的每个训练文档，采用公式

确定第t个非中心词属于第K个主题的中间概率，将针对每个训练文档确定的最大中间概率，重新作为第t个非中心词属于第K个主题的初始概率，根据重新确定的每个非中心词属于各主题的初始概率，重新确定每个训练文档属于各主题的初始概率，直至重新确定每个非中心词属于各主题的初始概率的次数达到第一设定次数时，将最后一次确定的每个非中心词属于各主题的初始概率确定为每个非中心词属于各主题的最终概率，将最后一次确定每个训练文档属于各主题的初始概率确定为每个训练文档属于各主题的最终概率，其中，V表示非中心词的数量、K表示第K个主题、

所述分析模块205具体用于，针对所述待分析文档集中各待分析文档集的每个分词，随机设置该分词属于各主题的初始预期概率，针对每个待分析文档集，随机设置该待分析文档集属于各主题的初始预期概率，针对所述待分析文档集中的每个待分析文档，当所述待分析文档集中的第t个分词是训练文档集中出现过的非中心词时，采用公式

确定第t个分词属于第K个主题的中间预期概率，针对所述待分析文档集中的每个待分析文档，当第t个分词是训练文档集中未出现过的非中心词时，采用公式

确定第t个分词属于第K个主题的中间预期概率，将针对每个待分析文档确定的最大中间预期概率，重新作为第t个分词属于第K个主题的初始预期概率，根据重新确定的每个分词属于各主题的初始预期概率，重新确定每个待分析文档属于各主题的初始预期概率，直至重新确定每个分词属于各主题的初始预期概率的次数达到第二设定次数时，将最后一次确定的每个分词属于各主题的初始预期概率确定为每个分词属于各主题的概率，其中，V_new表示分词的数量、M_new表示待分析文档数量、K表示第K个主题、

所述待分析文档为聊天记录文档。

具体的，上述如图2所示的文档分析装置可以位于服务器中，该服务器可以是单独的一台设备，也可以是由多个设备组成的系统。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文档分析方法，其特征在于，预设若干主题以及每个主题包含的若干中心词，所述方法包括：

根据所述待分析文档集中的每个分词属于各主题的概率，确定所述待分析文档集中每个待分析文档属于各主题的概率；

根据针对每个非中心词设置的初始概率和针对每个训练文档设置的初始概率，训练得到每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率，具体包括：

针对所述训练文档集中的每个训练文档，采用公式

确定第t个非中心词属于第K个主题的中间概率；

将针对每个训练文档确定的最大中间概率，重新作为第t个非中心词属于第K个主题的初始概率，根据重新确定的每个非中心词属于各主题的初始概率，重新确定每个训练文档属于各主题的初始概率，直至重新确定每个非中心词属于各主题的初始概率的次数达到第一设定次数时，将最后一次确定的每个非中心词属于各主题的初始概率确定为每个非中心词属于各主题的最终概率，将最后一次确定每个训练文档属于各主题的初始概率确定为每个训练文档属于各主题的最终概率；

其中，V表示非中心词的数量、K表示第K个主题、

表示该第K个主题在除第M个训练文档以外的其他文档中出现的期望次数、β_t和α_K为预设的常数；

根据每个非中心词属于各主题的最终概率以及每个训练文档属于各主题的最终概率，确定该分词属于各主题的概率，具体包括：

针对所述待分析文档集中各待分析文档集的每个非中心词的分词，随机设置该分词属于各主题的初始预期概率；

针对每个待分析文档集，随机设置该待分析文档集属于各主题的初始预期概率；

针对所述待分析文档集中的每个待分析文档，当所述待分析文档集中的第t个分词是训练文档集中出现过的非中心词时，采用公式

确定第t个分词属于第K个主题的中间预期概率；

针对所述待分析文档集中的每个待分析文档，当第t个分词是训练文档集中未出现过的非中心词时，采用公式

确定第t个分词属于第K个主题的中间预期概率；

将针对每个待分析文档确定的最大中间预期概率，重新作为第t个分词属于第K个主题的初始预期概率，根据重新确定的每个分词属于各主题的初始预期概率，重新确定每个待分析文档属于各主题的初始预期概率，直至重新确定每个分词属于各主题的初始预期概率的次数达到第二设定次数时，将最后一次确定的每个分词属于各主题的初始预期概率确定为每个分词属于各主题的概率；

其中，V_new表示分词的数量、M_new表示待分析文档数量、K表示第K个主题、