CN110019796A

CN110019796A - 一种用户文本信息分析方法及装置

Info

Publication number: CN110019796A
Application number: CN201711118314.1A
Authority: CN
Inventors: 张健; 齐林; 何琼; 李飞; 胡泽
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2019-07-16

Abstract

本发明提供一种用户文本信息分析方法，对待分析文本信息进行预处理；对预处理后的待分析文本信息进行潜在主题挖掘，获取文本的主题概率分布；针对所述主题概率分布计算文本的相似度，根据相似度进行用户特征值聚类；对聚类后的待分析文本信息进行数字化标记，得到待分析样本数据；将待分析样本数据输入预先建立的用户偏好分析模型中，得到用户偏好分析结果。该方案中，通过深入挖掘用户文本特征，计算用户间文本相似度，并根据相似度距离进行聚类分析，简化深度神经网络隐含层的结构，提高深度神经网络的学习效率。

Description

一种用户文本信息分析方法及装置

技术领域

本发明涉及数据挖掘领域，具体涉及一种用户文本信息分析方法及装置。

背景技术

随着市场竞争的加剧，企业间的竞争已经不仅仅是产品间的竞争，更重要的是客户之间的竞争，客户作为市场消费的主体，满足他们的需求是企业经营管理的出发点。于是如何收集客户信息、整合客户数据、挖掘客户之间的潜在信息显得至关重要，这是企业能够制定合理的产品和服务的前提，也是企业经营决策正确性的有力保证。

为了更好的服务用户，企业会收集用户的信息形成文本数据，由于用户的数据量较大，因此收集用户信息形成的文本也是海量文本数据。在用户的文本信息中，会记载用户的偏好，用户对产品的关注程度，购买喜好等等，这些信息可以从侧面反应出用户的个人需求，如果企业可以获取众多客户的偏好需求或其相关数据，便可以为市场经营与决策人员制定相应的策略提供依据，因此如何从用户的海量文本数据中分析用户的特点，指导企业更好的为用户提供服务。

发明内容

因此，本发明要解决的技术问题在于现有技术中的无法从用户的海量文本数据中分析用户的特点。

一种用户文本信息分析方法，包括如下步骤：对待分析文本信息进行预处理；对预处理后的待分析文本信息进行潜在主题挖掘，获取文本的主题概率分布；针对所述主题概率分布计算文本的相似度，根据相似度进行用户特征值聚类；对聚类后的待分析文本信息进行数字化标记，得到待分析样本数据；将待分析样本数据输入预先建立的用户偏好分析模型中，得到用户偏好分析结果。

优选地，所述用户偏好分析模型的建立方法，包括：对用户文本信息进行预处理；对预处理后的用户文本信息进行潜在主题挖掘，获取文本的主题概率分布；针对所述主题概率分布计算文本的相似度，根据相似度进行用户特征值聚类；对聚类后的用户文本信息进行数字化标记，得到用户样本数据；使用用户样本数据对神经网络模型进行训练，根据训练后的神经网络模型得到用户偏好分析模型。

优选地，还包括将所述用户样本数据分为训练集和测试集，使用所述训练集对所述神经网络模型进行训练，使用测试集对所述神经网络模型进行验证，识别率达到预设阈值时，将所述神经网络模型作为用户偏好分析模型。

优选地，所述对预处理后的待分析文本信息进行潜在主题挖掘的步骤，包括：对所述待分析文本信息进行中文分词处理，获取关键词；生成可被狄利克雷模型处理的文档并采用狄利克雷模型进行潜在主题挖掘。

优选地，所述相似度计算公式如下：

w_1k、w_2k分别表示文本D₁和D₂第k个特征项的权值，1≤k≤N。

优选地，所述对聚类后的用户文本信息进行数字化标记，得到用户样本数据的步骤包括：

根据上下文解读词的具体含义，形成一个词表V，里面的每一个词w_i都有一个编号i∈{1,...,|V|}，那么词w_i的一位有效编码表示就是一个维度为|V|的向量，其中第i个元素值非零，其余元素全为0；

利用词向量构建的结果，进行评论集的标注，然后将用户偏好特性映射为一个向量，将分词后用户文本信息中所有单词对应词向量相加做平均，每一个特征对应一个向量。

优选地，所述使用用户样本数据对神经网络模型进行训练的过程，包括：

在原始神经网络中从特征空间输入到神经网络中，并用类别标签与输出空间来衡量误差，用最优化理论不断求得极小值，从而得到一个与类别标签相近的输出。

此外，本发明还提供一种用户文本信息分析装置，包括：预处理单元，用于对待分析文本信息进行预处理；主题挖掘单元，用于对预处理后的待分析文本信息进行潜在主题挖掘，获取文本的主题概率分布；聚类单元，用于针对所述主题概率分布计算文本的相似度，根据相似度进行用户特征值聚类；标记单元，用于对聚类后的待分析文本信息进行数字化标记，得到待分析样本数据；分析单元，用于将待分析样本数据输入预先建立的用户偏好分析模型中，得到用户偏好分析结果。

本发明提供一种计算机装置，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述用户文本信息分析方法。

本发明提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于使所述计算机执行所述的用户文本信息分析方法。

本发明技术方案，具有如下优点：

1.本发明提供的用户文本信息分析方法，对待分析文本信息进行预处理；对预处理后的待分析文本信息进行潜在主题挖掘，获取文本的主题概率分布；针对所述主题概率分布计算文本的相似度，根据相似度进行用户特征值聚类；对聚类后的待分析文本信息进行数字化标记，得到待分析样本数据；将待分析样本数据输入预先建立的用户偏好分析模型中，得到用户偏好分析结果。该方案中，通过深入挖掘用户文本特征，计算用户间文本相似度，并根据相似度距离进行聚类分析，简化深度神经网络隐含层的结构，提高深度神经网络的学习效率。可以对用户信息系统中的海量文本数据进行分析、处理、预测，最终根据用户设定的条件，实现最优方案。采用深度神经网络进行用户偏好分类预测，使学习网络在满足精度要求的前提下，减少隐层节点数，从而简化网络结构，加快深度神经网络的学习速度，并通过潜在概率主题模型进行用户潜在偏好主题信息。

这种方法可以使深度神经网络分布式的进行网络参数和网络结构的自适应调整，可以消除主观选择固定节点权重选择对网络性能的影响，达到进一步改善神经网络学习效率和精度的目的，在此基础上对学习结果进行用户潜在概率分布发现潜在偏好，进一步提高用户价值评估的全面性和准确性，本方法采用的分布式处理对目前环境下海量数据有较好的数据处理效果。

2.本发明提供的用户文本信息分析方法，对用户偏好文档进行潜在狄利克雷模型的主题挖掘，计算文本主题间的相似度并进行聚类，通过聚类后的用户偏好矩阵进行深度学习，提高深度学习模型的效率及准确度。为保证分析过程的稳定性高效性，本技术采用分布式数据处理技术应对海量用户数据，该技术可以有效提高偏好分析模型的可靠性和扩展性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中用户文本信息分析方法的一个具体示例的流程图；

图2为本发明实施例1中用户文本信息分析方法的概率模型结构图；

图3、图4为发明实施例1中用户文本信息分析方法的神经网络机构示意图；

图5为发明实施例2中的用户文本信息分析装置的结构图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本实施例中提供一种用户文本信息分析方法，用户根据收集到的用户的文本信息对用户进行分析，尤其是可以获得用户的偏好信息，从而为企业营销或维持客户、拓展客户提供参考。

首先，建立分析模型，本实施例中建立的模型为用户偏好分析模型，采用栈式自编码神经网络训练。此处的用户偏好分析模型的建立方法如下：

S01、对用户文本信息进行预处理。

用户文本信息具有高维性、离散数据和连续数据混合、数据的时间特性和统计特性、存在不确定性如噪声、缺损数据等问题。作为数据初始集的数据仓库中数据很多，但也许只需要其中一部分数据用于某一决策，需要对用于本次偏好分析的数据数值进行选择，并针对文本进行停词、断句、删减重复词汇等工作。

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件 (commodityhardware)上的分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。故此处对用户文本信息进行预处理时，将数据源导入Hadoop分布式系统，以适应海量异构数据批处理，通过用户文本数据模型的需求进行标准化处理，剔除错误数据及冗余信息。

对用户文本信息的数据预处理和转换数据预处理就是对选择出的干净数据进行增强处理的过程。对神经网络数据挖掘来说，还需将数据转化成一种能够被深度神经网络数据挖掘算法接受的形式。神经网络只能处理数值性的数据，文本数据需要转换为神经网络能够识别的数值性数据。大多数神经网络模型只接受(0,1)或(-1,1)范围的数据值，而用户信息系统中的数据在数值的数量级上存在较大的差别，因此，为了提高网络的训练速率，便于网络的计算，在原始文本数据转换成数值型数据后进行归一化处理。本实施例中使premnm函数对原始数据样本的输入和输出进行归一化处理，使处理后的数据均匀地分布在[-1,1]的范围内，其转换公式为：

其中，p和t分别为原始数据的输入样本和输出样本；minp和maxp分别为p的最小值和最大值；mint和maxt分别为t的最小值和最大值；PN和TN 分别为函数归一化处理后的输入样本和输出样本。后续神经网络训练结束后，得到的仿真结果仍然是归一化的数据，这时还要使用postmnmx函数进行反归一化处理，还原成正常值。

S02、对预处理后的用户文本信息进行潜在主题挖掘，获取文本的主题概率分布。

对预处理后的用户文本信息进行文本挖掘获取文本潜在主题概率分布，设置共有m篇可比的文本集，一共涉及了K个主题；文本集中每个词的生产过程如下：每篇文章(长度为N_m)都有各自的主题分布，主题分布是多项分布，该多项分布的参数服从Dirichlet分布，该Dirichlet分布的参数为α；每个主题都有各自的词分布，词分布为多项分布，该多项分布的参数服从Dirichlet分布，该Dirichlet分布的参数为β；对于某篇文章中的第n个词，

Step1：从该文章的主题分布中采样一个主题，

Step2：在这个主题对应的词分布中采样一个词。

不断重复这个随机生成过程，直到m篇文章全部完成上述过程。字典中共有V个term(代表一个词条，不可重复)，这些term出现在具体的文章中，就是代表词汇在具体某文章中的词汇当然是有可能重复的。语料库中共有m篇文档d₁,d₂…d_m；对于文档d_i，由N_i个word组成(可重复)；语料库中共有K个主题T₁，T₂…T_k；α和β为先验分布的参数，可以实现先给定：如取0.1的对称Dirichlet分布—表示在参数学习结束后，期望每个文档的主题不会十分密集。

如果给定一个文档集合，w_m,n是可以观察到的已知变量，α和β是根据经验给定的先验参数，其他的变量z_m,n、θ、φ都是未知的隐含变量，需要根据观察到的变量来学习估计的。根据LDA的图模型，可以写出所有变量的联合分布：

S03、针对所述主题概率分布计算文本的相似度，根据相似度进行用户特征值聚类。

将数据进行文本间的相似性评估，通过文本相似度距离计算，得到文本间的相似度，计算公式是：w_1k、w_2k分别表示文本D₁和D₂第k个特征项的权值，1≤k≤N。并根据相似度距离进行文本聚类，每个分类下的数据具有一个类别标签。

S04、对聚类后的用户文本信息进行数字化标记，得到用户样本数据。

根据上下文解读一次词的具体含义，此处对每个词进行One-Hot编码形式，又称为一位有效编码，此方法主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，且在任意时候只有一位有效。故如果考虑一个词表V，里面的每一个词w_i都有一个编号i∈ {1,...,|V|}，那么词w_i的one-hot表示就是一个维度为|V|的向量，其中第i个元素值非零，其余元素全为0。利用词向量构建的结果，进行评论集的标注，然后将用户偏好特性映射为一个向量，将分词后用户特征文本所有单词对应词向量相加做平均，每一个特征对应一个向量。

S05、使用用户样本数据对神经网络模型进行训练，根据训练后的神经网络模型得到用户偏好分析模型。本步骤中还可将所述用户样本数据分为训练集和测试集，使用所述训练集对所述神经网络模型进行训练，使用测试集对所述神经网络模型进行验证，识别率达到预设阈值时，将所述神经网络模型作为用户偏好分析模型。训练集数据用来训练神经网络、测试集数据用来测试网络评估模型，确认数据集独立地测试网络，这三个数据集的比例分别为80％和20％。

本实施例中试用自编码网络在原始神经网络中从特征空间输入到神经网络中，并用类别标签与输出空间来衡量误差，用最优化理论不断求得极小值，从而得到一个与类别标签相近的输出，具体步骤：

Step1：根据用户偏好文本的特征空间向量作为深度模型的输入 (x₁,x₂,x₃,x₄),把神经网络训练后的向量(x₁’,x₂’,x₃’,x₄’)与输入向量 (x₁,x₂,x₃,x₄)来衡量误差，将多层系数自编码器组成的神经网络逐层训练，分成几个小的自编码网络，且每次只训练一个自编码器，将前一层自编码的输出作为其后自编码器的输入；

Step2：将各自编码器连接在一个分类器上，来初始化深度神经网络的权重，并引入反向传播微调神经元权重，提高分类准确率得到最优化栈式自编码神经网络；

Step3：栈式自编码神经网络是由多层稀疏自编码器组成的神经网络模型，即前一个自编码器的输出作为后一个自编码器的输入。假设有一个n 层栈式自编码神经网络，假定W^(k,1),W^(k,2),b^(k,1),b^(k,2)表示的是第k个自编码器对应的权重和偏置，对于栈式自编码神经网络主要可以分为两个过程：1)编码阶段。即信息从前向后传播：a⁽¹⁾＝f(z⁽¹⁾)；Z^(l+1)＝W^(l,1)a^(l)+ b^(l,1)；2)解码阶段。即信息从后向前传播：a^(n+l)＝f(z^(n+l))； z^(n+l+1)＝W^(n-l,2)a^(n+l)+b^(n-l,2)，f是Sigmoid函数，W,b为自编码器对应的权重和偏置。这样，a⁽ⁿ⁾是最深的隐藏单元的激活值，该值表示对特征的更高的抽象，可以将该值作为分类器的特征，将栈式自编码神经网络应用于分类中。

Step4：对于深度神经网络可以采用逐层贪婪的训练方式，则对于栈式自编码神经网络的训练同样可以选择采用逐层贪婪的训练方式，即先利用输入的特征训练栈式自编码神经网络的第一层，即第一个自编码器，得到权重和偏置W^(1,1),W^(1,2),b^(1,1),b^(1,2)，然后将第一层的隐含层的激活值，即第一个自编码器的隐含层的输出，记为Λ作为第二层，即第二个自编码器的输入，训练出第二个自编码器的权重和偏置W^(2,1),W^(2,2),b^(2,1),b^(2,2)，依次下去，便可以训练出栈式自编码神经网络中的参数。在整个过程中，训练下一层的时候回保持上一层的参数不变，最后，在完成了网络中参数的初始化后，需要对参数进行“微调”。

Step5：微调提高栈式自编码神经网络的性能，在微调的过程中，将整个栈式自编码神经网络的所有层都看成一个模型，统一对模型中的参数进行修正的过程，对于输出层n_l上的神经元i，其残差为：

1)首先，将原始的输入x^(k)作为输入训练第一个自编码神经网络；

2)其次，对于每一个训练样本x^(k)便能得到其隐含层的输出h^(1)(k)，将这个隐含层的输出作为第二个自编码器的输入，继续训练第二个自编码器；

3)将得到的第二个自编码器的隐含层的输出h^(2)(k)，称第一个自编码器的隐含层的输出h^(1)(k)为一阶特征，称第二个自编码器的隐含层的输出h^(2)(k)为二阶特征。为了进行分类，此时可以将二阶特征h^(2)(k)作为Softmax回归的输入进行训练；

4)最后借助栈式自编码神经网络的层次特征表示。进行一层一层的特征学习，得到特征间的层次结构。并根据上述的自编码神经网络分类，丢弃第二个自编码器的“解码”过程，直接将隐含层的输出作为Softmax回归的输入

Step6：微调是深度学习的一种策略，可以提高栈式自编码神经网络的性能。在微调的过程中，将整个栈式自编码神经网络的所有层都看成一个模型，统一对模型中的参数进行修正的过程：

1)进行全局微调通用的方式是对误差进行反向传播，利用前面在神经网络中的推导，对于输出层ni上的神经元i，其残差为：

2)对于非输出层，即对于l＝n_l-1,n_l-2,…,2各层，第l层的残差的计算方法如下(以第n_l-1层为例)：

对于栈式自编码神经网络中的权重和偏置的更新公式为:

以上网络训练损失函数为J，J(W,b；x,y)是针对单个样例计算得到的方差代价函数；J(W,b)定义中的第一项是一个均方差项，第二项是一个规则化项(也叫权重衰减项)，其目的是减小权重的幅度，防止过度拟合。其中 W和b为自编码器的权重和偏置，h表示隐层神经元，f是Sigmoid函数，该残差表明了该节点对最终输出值的残差产生了多少影响，其中表示输出层第nl上第i个神经元。

最终得到一个能从原始数据中自主学习特征的的一个特征提取神经网络，从一个线性相关的向量中寻找一组低维的基，而这组基线性组合后能还原成原始数据。

此处采用栈式自编码神经网络训练，由多层神经元组成，深度神经网络由多个隐含层神经网络堆栈构成，可见层神经元之间和隐层神经元之间假定无连接。深神经网络用层次无监督贪婪预训练方法分层预训练，将得到的结果作为监督学习训练概率模型的初始值，学习性能得到很大改善。无监督特征学习就是将复杂层次结构与海量数据集之间实现统计建模。通过无监督预训练使网络获得高阶抽象特征，并且提供较好的初始权值，将权值限定在对全局训练有利的范围内，使用层与层之间的局部信息进行逐层训练，注重训练数据自身的特性，能够减小对学习目标过拟合的风险，并避免深神经网络中误差累积传递过长的问题。由于表示力强、易于推理等优点被成功用作深神经网络的结构单元使用，在近些年受到广泛关注，作为实际应用。

本实施例中采用栈式自编码神经网络。因为栈式自编码神经网络具有良好的逼近任意非线性映射和处理系统内在的难以解析表达的规律性的能力；拓扑结构不仅使得学习速度大大加快，而且避免了局部极小问题；栈式自编码神经网络另一个突出优点是可解释性好。

本实施例中还提供一种用户文本信息分析方法，利用上述建立的用户偏好分析模型进行用户文本信息分析，包括如下步骤：

S11、对待分析文本信息进行预处理。与步骤S01相同，不再赘述。

S12、对预处理后的待分析文本信息进行潜在主题挖掘，获取文本的主题概率分布；与步骤S02相同，不再赘述。

S13、针对所述主题概率分布计算文本的相似度，根据相似度进行用户特征值聚类；与步骤S03相同，不再赘述。

S14、对聚类后的待分析文本信息进行数字化标记，得到待分析样本数据；与步骤S04相同，不再赘述。

S15、将待分析样本数据输入预先建立的用户偏好分析模型中，得到用户偏好分析结果。

用户偏好分析作为客户数据分析系统的数据湖中一个重要主题，主要任务是根据现存消费客户、潜在客户的性质和消费行为及特征，进行挖掘分析，建立大客户留宿预测模型，分析哪些客户的价值量最大，潜在客户的消费行为如何，以及客户流失的其他相关因素，如竞争对手的优惠政策、业务系统事故、国家政策和现行经济运行环境等。为市场经营与决策人员制定相应的策略、留住相应的客户提供决策依据，并使企业能够预测客户流失的可能性，并通过对客户离开原因的分析提出相应的挽留政策，从而使客户保持在自己的系统中，降低客户流失率，提高客户的忠诚度，减少企业的运营成本。

本发明提供一种适用于用户信息系统的基于深度学习的用户偏好分析方法，可以对用户信息系统中的海量文本数据进行分析、处理、预测，最终根据用户设定的条件，实现最优方案。采用深度神经网络进行用户偏好分类预测，使学习网络在满足精度要求的前提下，减少隐层节点数，从而简化网络结构，加快深度神经网络的学习速度，并通过潜在概率主题模型进行用户潜在偏好主题信息。这种方法可以使深度神经网络分布式的进行网络参数和网络结构的自适应调整，可以消除主观选择固定节点权重选择对网络性能的影响，达到进一步改善神经网络学习效率和精度的目的，在此基础上对学习结果进行用户潜在概率分布发现潜在偏好，进一步提高用户价值评估的全面性和准确性，本方法采用的分布式处理对目前环境下海量数据有较好的数据处理效果。

实施例2

本施例还提供一种用户文本信息分析装置，如图5所示，包括：

预处理单元01，用于对待分析文本信息进行预处理；

主题挖掘单元02，用于对预处理后的待分析文本信息进行潜在主题挖掘，获取文本的主题概率分布；

聚类单元03，用于针对所述主题概率分布计算文本的相似度，根据相似度进行用户特征值聚类；

标记单元04，用于对聚类后的待分析文本信息进行数字化标记，得到待分析样本数据；

分析单元05，用于将待分析样本数据输入预先建立的用户偏好分析模型中，得到用户偏好分析结果。

本实施例中的用户文本信息分析装置，能针对企业客户信息系统数据进行效率更高的利用深度学习算法进行用户文本偏好分析并挖掘潜在用户的主题信息，主要用于提高用户偏好分析预测的有效性和可靠性，保证获得最佳的用户信息系统数据挖掘效果。

实施例3

本施例提供一种计算机装置，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其特征在于，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行实施例1的用户文本信息分析方法。

本实施例中还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于使所述计算机执行实施例1所述的用户文本信息分析方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种用户文本信息分析方法，其特征在于，包括如下步骤：

对待分析文本信息进行预处理；

对预处理后的待分析文本信息进行潜在主题挖掘，获取文本的主题概率分布；

针对所述主题概率分布计算文本的相似度，根据相似度进行用户特征值聚类；

对聚类后的待分析文本信息进行数字化标记，得到待分析样本数据；

将待分析样本数据输入预先建立的用户偏好分析模型中，得到用户偏好分析结果。

2.根据权利要求1所述的用户文本信息分析方法，其特征在于，所述用户偏好分析模型的建立方法，包括：

对用户文本信息进行预处理；

对预处理后的用户文本信息进行潜在主题挖掘，获取文本的主题概率分布；

对聚类后的用户文本信息进行数字化标记，得到用户样本数据；

使用用户样本数据对神经网络模型进行训练，根据训练后的神经网络模型得到用户偏好分析模型。

3.根据权利要求2所述的方法，其特征在于，还包括将所述用户样本数据分为训练集和测试集，使用所述训练集对所述神经网络模型进行训练，使用测试集对所述神经网络模型进行验证，识别率达到预设阈值时，将所述神经网络模型作为用户偏好分析模型。

4.根据权利要求1或2或3所述的方法，其特征在于，所述对预处理后的待分析文本信息进行潜在主题挖掘的步骤，包括：

对所述待分析文本信息进行中文分词处理，获取关键词；

生成可被狄利克雷模型处理的文档并采用狄利克雷模型进行潜在主题挖掘。

5.根据权利要求1所述的方法，其特征在于，所述相似度计算公式如下：

6.根据权利要求1所述的方法，其特征在于，所述对聚类后的用户文本信息进行数字化标记，得到用户样本数据的步骤包括：

7.根据权利要求1所述的方法，其特征在于，所述使用用户样本数据对神经网络模型进行训练的过程，包括：

8.一种用户文本信息分析装置，其特征在于，包括：

预处理单元，用于对待分析文本信息进行预处理；

主题挖掘单元，用于对预处理后的待分析文本信息进行潜在主题挖掘，获取文本的主题概率分布；

聚类单元，用于针对所述主题概率分布计算文本的相似度，根据相似度进行用户特征值聚类；

标记单元，用于对聚类后的待分析文本信息进行数字化标记，得到待分析样本数据；

分析单元，用于将待分析样本数据输入预先建立的用户偏好分析模型中，得到用户偏好分析结果。

9.一种计算机装置，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其特征在于，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述权利要求1-7任一项的用户文本信息分析方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于使所述计算机执行权利要求1-7任一项所述的用户文本信息分析方法。