CN110019796A - 一种用户文本信息分析方法及装置 - Google Patents

一种用户文本信息分析方法及装置 Download PDF

Info

Publication number
CN110019796A
CN110019796A CN201711118314.1A CN201711118314A CN110019796A CN 110019796 A CN110019796 A CN 110019796A CN 201711118314 A CN201711118314 A CN 201711118314A CN 110019796 A CN110019796 A CN 110019796A
Authority
CN
China
Prior art keywords
user
text
analyzed
neural network
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711118314.1A
Other languages
English (en)
Inventor
张健
齐林
何琼
李飞
胡泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201711118314.1A priority Critical patent/CN110019796A/zh
Publication of CN110019796A publication Critical patent/CN110019796A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种用户文本信息分析方法,对待分析文本信息进行预处理;对预处理后的待分析文本信息进行潜在主题挖掘,获取文本的主题概率分布;针对所述主题概率分布计算文本的相似度,根据相似度进行用户特征值聚类;对聚类后的待分析文本信息进行数字化标记,得到待分析样本数据;将待分析样本数据输入预先建立的用户偏好分析模型中,得到用户偏好分析结果。该方案中,通过深入挖掘用户文本特征,计算用户间文本相似度,并根据相似度距离进行聚类分析,简化深度神经网络隐含层的结构,提高深度神经网络的学习效率。

Description

一种用户文本信息分析方法及装置
技术领域
本发明涉及数据挖掘领域,具体涉及一种用户文本信息分析方法及装 置。
背景技术
随着市场竞争的加剧,企业间的竞争已经不仅仅是产品间的竞争,更 重要的是客户之间的竞争,客户作为市场消费的主体,满足他们的需求是 企业经营管理的出发点。于是如何收集客户信息、整合客户数据、挖掘客 户之间的潜在信息显得至关重要,这是企业能够制定合理的产品和服务的 前提,也是企业经营决策正确性的有力保证。
为了更好的服务用户,企业会收集用户的信息形成文本数据,由于用 户的数据量较大,因此收集用户信息形成的文本也是海量文本数据。在用 户的文本信息中,会记载用户的偏好,用户对产品的关注程度,购买喜好 等等,这些信息可以从侧面反应出用户的个人需求,如果企业可以获取众 多客户的偏好需求或其相关数据,便可以为市场经营与决策人员制定相应 的策略提供依据,因此如何从用户的海量文本数据中分析用户的特点,指导企业更好的为用户提供服务。
发明内容
因此,本发明要解决的技术问题在于现有技术中的无法从用户的海量 文本数据中分析用户的特点。
一种用户文本信息分析方法,包括如下步骤:对待分析文本信息进行 预处理;对预处理后的待分析文本信息进行潜在主题挖掘,获取文本的主 题概率分布;针对所述主题概率分布计算文本的相似度,根据相似度进行 用户特征值聚类;对聚类后的待分析文本信息进行数字化标记,得到待分 析样本数据;将待分析样本数据输入预先建立的用户偏好分析模型中,得 到用户偏好分析结果。
优选地,所述用户偏好分析模型的建立方法,包括:对用户文本信息 进行预处理;对预处理后的用户文本信息进行潜在主题挖掘,获取文本的 主题概率分布;针对所述主题概率分布计算文本的相似度,根据相似度进 行用户特征值聚类;对聚类后的用户文本信息进行数字化标记,得到用户 样本数据;使用用户样本数据对神经网络模型进行训练,根据训练后的神 经网络模型得到用户偏好分析模型。
优选地,还包括将所述用户样本数据分为训练集和测试集,使用所述 训练集对所述神经网络模型进行训练,使用测试集对所述神经网络模型进 行验证,识别率达到预设阈值时,将所述神经网络模型作为用户偏好分析 模型。
优选地,所述对预处理后的待分析文本信息进行潜在主题挖掘的步骤, 包括:对所述待分析文本信息进行中文分词处理,获取关键词;生成可被 狄利克雷模型处理的文档并采用狄利克雷模型进行潜在主题挖掘。
优选地,所述相似度计算公式如下:
w1k、w2k分别表示文本D1和D2第k个特征项的权值,1≤k≤N。
优选地,所述对聚类后的用户文本信息进行数字化标记,得到用户样 本数据的步骤包括:
根据上下文解读词的具体含义,形成一个词表V,里面的每一个词wi都有一个编号i∈{1,...,|V|},那么词wi的一位有效编码表示就是一个维 度为|V|的向量,其中第i个元素值非零,其余元素全为0;
利用词向量构建的结果,进行评论集的标注,然后将用户偏好特性映 射为一个向量,将分词后用户文本信息中所有单词对应词向量相加做平均, 每一个特征对应一个向量。
优选地,所述使用用户样本数据对神经网络模型进行训练的过程,包 括:
在原始神经网络中从特征空间输入到神经网络中,并用类别标签与输 出空间来衡量误差,用最优化理论不断求得极小值,从而得到一个与类别 标签相近的输出。
此外,本发明还提供一种用户文本信息分析装置,包括:预处理单元, 用于对待分析文本信息进行预处理;主题挖掘单元,用于对预处理后的待 分析文本信息进行潜在主题挖掘,获取文本的主题概率分布;聚类单元, 用于针对所述主题概率分布计算文本的相似度,根据相似度进行用户特征 值聚类;标记单元,用于对聚类后的待分析文本信息进行数字化标记,得 到待分析样本数据;分析单元,用于将待分析样本数据输入预先建立的用 户偏好分析模型中,得到用户偏好分析结果。
本发明提供一种计算机装置,包括:至少一个处理器;以及与所述至 少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少 一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述 至少一个处理器执行所述用户文本信息分析方法。
本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序, 所述计算机程序用于使所述计算机执行所述的用户文本信息分析方法。
本发明技术方案,具有如下优点:
1.本发明提供的用户文本信息分析方法,对待分析文本信息进行预处 理;对预处理后的待分析文本信息进行潜在主题挖掘,获取文本的主题概 率分布;针对所述主题概率分布计算文本的相似度,根据相似度进行用户 特征值聚类;对聚类后的待分析文本信息进行数字化标记,得到待分析样 本数据;将待分析样本数据输入预先建立的用户偏好分析模型中,得到用 户偏好分析结果。该方案中,通过深入挖掘用户文本特征,计算用户间文 本相似度,并根据相似度距离进行聚类分析,简化深度神经网络隐含层的 结构,提高深度神经网络的学习效率。可以对用户信息系统中的海量文本 数据进行分析、处理、预测,最终根据用户设定的条件,实现最优方案。 采用深度神经网络进行用户偏好分类预测,使学习网络在满足精度要求的 前提下,减少隐层节点数,从而简化网络结构,加快深度神经网络的学习 速度,并通过潜在概率主题模型进行用户潜在偏好主题信息。
这种方法可以使深度神经网络分布式的进行网络参数和网络结构的自 适应调整,可以消除主观选择固定节点权重选择对网络性能的影响,达到 进一步改善神经网络学习效率和精度的目的,在此基础上对学习结果进行 用户潜在概率分布发现潜在偏好,进一步提高用户价值评估的全面性和准 确性,本方法采用的分布式处理对目前环境下海量数据有较好的数据处理 效果。
2.本发明提供的用户文本信息分析方法,对用户偏好文档进行潜在狄 利克雷模型的主题挖掘,计算文本主题间的相似度并进行聚类,通过聚类 后的用户偏好矩阵进行深度学习,提高深度学习模型的效率及准确度。为 保证分析过程的稳定性高效性,本技术采用分布式数据处理技术应对海量 用户数据,该技术可以有效提高偏好分析模型的可靠性和扩展性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下 面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍, 显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普 通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获 得其他的附图。
图1为本发明实施例1中用户文本信息分析方法的一个具体示例的流 程图;
图2为本发明实施例1中用户文本信息分析方法的概率模型结构图;
图3、图4为发明实施例1中用户文本信息分析方法的神经网络机构 示意图;
图5为发明实施例2中的用户文本信息分析装置的结构图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然, 所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发 明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得 的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼 此之间未构成冲突就可以相互结合。
实施例1
本实施例中提供一种用户文本信息分析方法,用户根据收集到的用户 的文本信息对用户进行分析,尤其是可以获得用户的偏好信息,从而为企 业营销或维持客户、拓展客户提供参考。
首先,建立分析模型,本实施例中建立的模型为用户偏好分析模型, 采用栈式自编码神经网络训练。此处的用户偏好分析模型的建立方法如下:
S01、对用户文本信息进行预处理。
用户文本信息具有高维性、离散数据和连续数据混合、数据的时间特 性和统计特性、存在不确定性如噪声、缺损数据等问题。作为数据初始集 的数据仓库中数据很多,但也许只需要其中一部分数据用于某一决策,需 要对用于本次偏好分析的数据数值进行选择,并针对文本进行停词、断句、 删减重复词汇等工作。
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件 (commodityhardware)上的分布式文件系统。HDFS是一个高度容错性的系 统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适 合大规模数据集上的应用。故此处对用户文本信息进行预处理时,将数据 源导入Hadoop分布式系统,以适应海量异构数据批处理,通过用户文本数 据模型的需求进行标准化处理,剔除错误数据及冗余信息。
对用户文本信息的数据预处理和转换数据预处理就是对选择出的干净 数据进行增强处理的过程。对神经网络数据挖掘来说,还需将数据转化成 一种能够被深度神经网络数据挖掘算法接受的形式。神经网络只能处理数 值性的数据,文本数据需要转换为神经网络能够识别的数值性数据。大多 数神经网络模型只接受(0,1)或(-1,1)范围的数据值,而用户信息系统中 的数据在数值的数量级上存在较大的差别,因此,为了提高网络的训练速率,便于网络的计算,在原始文本数据转换成数值型数据后进行归一化处 理。本实施例中使premnm函数对原始数据样本的输入和输出进行归一化处 理,使处理后的数据均匀地分布在[-1,1]的范围内,其转换公式为:
其中,p和t分别为原始数据的输入样本和输出样本;minp和maxp分别 为p的最小值和最大值;mint和maxt分别为t的最小值和最大值;PN和TN 分别为函数归一化处理后的输入样本和输出样本。后续神经网络训练结束 后,得到的仿真结果仍然是归一化的数据,这时还要使用postmnmx函数进 行反归一化处理,还原成正常值。
S02、对预处理后的用户文本信息进行潜在主题挖掘,获取文本的主题 概率分布。
对预处理后的用户文本信息进行文本挖掘获取文本潜在主题概率分布, 设置共有m篇可比的文本集,一共涉及了K个主题;文本集中每个词的生 产过程如下:每篇文章(长度为Nm)都有各自的主题分布,主题分布是多项 分布,该多项分布的参数服从Dirichlet分布,该Dirichlet分布的参数 为α;每个主题都有各自的词分布,词分布为多项分布,该多项分布的参数 服从Dirichlet分布,该Dirichlet分布的参数为β;对于某篇文章中的 第n个词,
Step1:从该文章的主题分布中采样一个主题,
Step2:在这个主题对应的词分布中采样一个词。
不断重复这个随机生成过程,直到m篇文章全部完成上述过程。字典 中共有V个term(代表一个词条,不可重复),这些term出现在具体的文章 中,就是代表词汇在具体某文章中的词汇当然是有可能重复的。语料库中 共有m篇文档d1,d2…dm;对于文档di,由Ni个word组成(可重复);语 料库中共有K个主题T1,T2…Tk;α和β为先验分布的参数,可以实现先给定:如取0.1的对称Dirichlet分布—表示在参数学习结束后,期望每 个文档的主题不会十分密集。
如果给定一个文档集合,wm,n是可以观察到的已知变量,α和β是根 据经验给定的先验参数,其他的变量zm,n、θ、φ都是未知的隐含变量,需 要根据观察到的变量来学习估计的。根据LDA的图模型,可以写出所有变 量的联合分布:
S03、针对所述主题概率分布计算文本的相似度,根据相似度进行用户 特征值聚类。
将数据进行文本间的相似性评估,通过文本相似度距离计算,得到文 本间的相似度,计算公式是:w1k、w2k分 别表示文本D1和D2第k个特征项的权值,1≤k≤N。并根据相似度距离进 行文本聚类,每个分类下的数据具有一个类别标签。
S04、对聚类后的用户文本信息进行数字化标记,得到用户样本数据。
根据上下文解读一次词的具体含义,此处对每个词进行One-Hot编码 形式,又称为一位有效编码,此方法主要是采用N位状态寄存器来对N个 状态进行编码,每个状态都由他独立的寄存器位,且在任意时候只有一位 有效。故如果考虑一个词表V,里面的每一个词wi都有一个编号i∈ {1,...,|V|},那么词wi的one-hot表示就是一个维度为|V|的向量,其中 第i个元素值非零,其余元素全为0。利用词向量构建的结果,进行评论集 的标注,然后将用户偏好特性映射为一个向量,将分词后用户特征文本所 有单词对应词向量相加做平均,每一个特征对应一个向量。
S05、使用用户样本数据对神经网络模型进行训练,根据训练后的神经 网络模型得到用户偏好分析模型。本步骤中还可将所述用户样本数据分为 训练集和测试集,使用所述训练集对所述神经网络模型进行训练,使用测 试集对所述神经网络模型进行验证,识别率达到预设阈值时,将所述神经 网络模型作为用户偏好分析模型。训练集数据用来训练神经网络、测试集 数据用来测试网络评估模型,确认数据集独立地测试网络,这三个数据集的比例分别为80%和20%。
本实施例中试用自编码网络在原始神经网络中从特征空间输入到神经 网络中,并用类别标签与输出空间来衡量误差,用最优化理论不断求得极 小值,从而得到一个与类别标签相近的输出,具体步骤:
Step1:根据用户偏好文本的特征空间向量作为深度模型的输入 (x1,x2,x3,x4),把神经网络训练后的向量(x1’,x2’,x3’,x4’)与输入向量 (x1,x2,x3,x4)来衡量误差,将多层系数自编码器组成的神经网络逐层训练, 分成几个小的自编码网络,且每次只训练一个自编码器,将前一层自编码 的输出作为其后自编码器的输入;
Step2:将各自编码器连接在一个分类器上,来初始化深度神经网络的 权重,并引入反向传播微调神经元权重,提高分类准确率得到最优化栈式 自编码神经网络;
Step3:栈式自编码神经网络是由多层稀疏自编码器组成的神经网络模 型,即前一个自编码器的输出作为后一个自编码器的输入。假设有一个n 层栈式自编码神经网络,假定W(k,1),W(k,2),b(k,1),b(k,2)表示的是第k个自 编码器对应的权重和偏置,对于栈式自编码神经网络主要可以分为两个过 程:1)编码阶段。即信息从前向后传播:a(1)=f(z(1));Z(l+1)=W(l,1)a(l)+ b(l,1);2)解码阶段。即信息从后向前传播:a(n+l)=f(z(n+l)); z(n+l+1)=W(n-l,2)a(n+l)+b(n-l,2),f是Sigmoid函数,W,b为自编码器对应 的权重和偏置。这样,a(n)是最深的隐藏单元的激活值,该值表示对特征的 更高的抽象,可以将该值作为分类器的特征,将栈式自编码神经网络应用 于分类中。
Step4:对于深度神经网络可以采用逐层贪婪的训练方式,则对于栈式 自编码神经网络的训练同样可以选择采用逐层贪婪的训练方式,即先利用 输入的特征训练栈式自编码神经网络的第一层,即第一个自编码器,得到 权重和偏置W(1,1),W(1,2),b(1,1),b(1,2),然后将第一层的隐含层的激活值, 即第一个自编码器的隐含层的输出,记为Λ作为第二层,即第二个自编码 器的输入,训练出第二个自编码器的权重和偏置W(2,1),W(2,2),b(2,1),b(2,2),依次 下去,便可以训练出栈式自编码神经网络中的参数。在整个过程中,训练 下一层的时候回保持上一层的参数不变,最后,在完成了网络中参数的初 始化后,需要对参数进行“微调”。
Step5:微调提高栈式自编码神经网络的性能,在微调的过程中,将整 个栈式自编码神经网络的所有层都看成一个模型,统一对模型中的参数进 行修正的过程,对于输出层nl上的神经元i,其残差为:
1)首先,将原始的输入x(k)作为输入训练第一个自编码神经网络;
2)其次,对于每一个训练样本x(k)便能得到其隐含层的输出h(1)(k),将 这个隐含层的输出作为第二个自编码器的输入,继续训练第二个自编码器;
3)将得到的第二个自编码器的隐含层的输出h(2)(k),称第一个自编码器 的隐含层的输出h(1)(k)为一阶特征,称第二个自编码器的隐含层的输出h(2)(k)为二阶特征。为了进行分类,此时可以将二阶特征h(2)(k)作为Softmax回归 的输入进行训练;
4)最后借助栈式自编码神经网络的层次特征表示。进行一层一层的特 征学习,得到特征间的层次结构。并根据上述的自编码神经网络分类,丢 弃第二个自编码器的“解码”过程,直接将隐含层的输出作为Softmax回 归的输入
Step6:微调是深度学习的一种策略,可以提高栈式自编码神经网络的 性能。在微调的过程中,将整个栈式自编码神经网络的所有层都看成一个 模型,统一对模型中的参数进行修正的过程:
1)进行全局微调通用的方式是对误差进行反向传播,利用前面在神经 网络中的推导,对于输出层ni上的神经元i,其残差为:
2)对于非输出层,即对于l=nl-1,nl-2,…,2各层,第l层的残差的计算 方法如下(以第nl-1层为例):
对于栈式自编码神经网络中的权重和偏置的更新公式为:
以上网络训练损失函数为J,J(W,b;x,y)是针对单个样例计算得到的方 差代价函数;J(W,b)定义中的第一项是一个均方差项,第二项是一个规则 化项(也叫权重衰减项),其目的是减小权重的幅度,防止过度拟合。其中 W和b为自编码器的权重和偏置,h表示隐层神经元,f是Sigmoid函数,该残差表明了该节点对最终输出值的残差产生了多少影响,其中表示输 出层第nl上第i个神经元。
最终得到一个能从原始数据中自主学习特征的的一个特征提取神经网 络,从一个线性相关的向量中寻找一组低维的基,而这组基线性组合后能 还原成原始数据。
此处采用栈式自编码神经网络训练,由多层神经元组成,深度神经网 络由多个隐含层神经网络堆栈构成,可见层神经元之间和隐层神经元之间 假定无连接。深神经网络用层次无监督贪婪预训练方法分层预训练,将得 到的结果作为监督学习训练概率模型的初始值,学习性能得到很大改善。 无监督特征学习就是将复杂层次结构与海量数据集之间实现统计建模。通 过无监督预训练使网络获得高阶抽象特征,并且提供较好的初始权值,将权值限定在对全局训练有利的范围内,使用层与层之间的局部信息进行逐 层训练,注重训练数据自身的特性,能够减小对学习目标过拟合的风险, 并避免深神经网络中误差累积传递过长的问题。由于表示力强、易于推理 等优点被成功用作深神经网络的结构单元使用,在近些年受到广泛关注, 作为实际应用。
本实施例中采用栈式自编码神经网络。因为栈式自编码神经网络具有 良好的逼近任意非线性映射和处理系统内在的难以解析表达的规律性的能 力;拓扑结构不仅使得学习速度大大加快,而且避免了局部极小问题;栈 式自编码神经网络另一个突出优点是可解释性好。
本实施例中还提供一种用户文本信息分析方法,利用上述建立的用户 偏好分析模型进行用户文本信息分析,包括如下步骤:
S11、对待分析文本信息进行预处理。与步骤S01相同,不再赘述。
S12、对预处理后的待分析文本信息进行潜在主题挖掘,获取文本的主 题概率分布;与步骤S02相同,不再赘述。
S13、针对所述主题概率分布计算文本的相似度,根据相似度进行用户 特征值聚类;与步骤S03相同,不再赘述。
S14、对聚类后的待分析文本信息进行数字化标记,得到待分析样本数 据;与步骤S04相同,不再赘述。
S15、将待分析样本数据输入预先建立的用户偏好分析模型中,得到用 户偏好分析结果。
用户偏好分析作为客户数据分析系统的数据湖中一个重要主题,主要 任务是根据现存消费客户、潜在客户的性质和消费行为及特征,进行挖掘 分析,建立大客户留宿预测模型,分析哪些客户的价值量最大,潜在客户 的消费行为如何,以及客户流失的其他相关因素,如竞争对手的优惠政策、 业务系统事故、国家政策和现行经济运行环境等。为市场经营与决策人员 制定相应的策略、留住相应的客户提供决策依据,并使企业能够预测客户流失的可能性,并通过对客户离开原因的分析提出相应的挽留政策,从而 使客户保持在自己的系统中,降低客户流失率,提高客户的忠诚度,减少 企业的运营成本。
本发明提供一种适用于用户信息系统的基于深度学习的用户偏好分析 方法,可以对用户信息系统中的海量文本数据进行分析、处理、预测,最 终根据用户设定的条件,实现最优方案。采用深度神经网络进行用户偏好 分类预测,使学习网络在满足精度要求的前提下,减少隐层节点数,从而 简化网络结构,加快深度神经网络的学习速度,并通过潜在概率主题模型 进行用户潜在偏好主题信息。这种方法可以使深度神经网络分布式的进行 网络参数和网络结构的自适应调整,可以消除主观选择固定节点权重选择 对网络性能的影响,达到进一步改善神经网络学习效率和精度的目的,在 此基础上对学习结果进行用户潜在概率分布发现潜在偏好,进一步提高用 户价值评估的全面性和准确性,本方法采用的分布式处理对目前环境下海 量数据有较好的数据处理效果。
实施例2
本施例还提供一种用户文本信息分析装置,如图5所示,包括:
预处理单元01,用于对待分析文本信息进行预处理;
主题挖掘单元02,用于对预处理后的待分析文本信息进行潜在主题挖 掘,获取文本的主题概率分布;
聚类单元03,用于针对所述主题概率分布计算文本的相似度,根据相 似度进行用户特征值聚类;
标记单元04,用于对聚类后的待分析文本信息进行数字化标记,得到 待分析样本数据;
分析单元05,用于将待分析样本数据输入预先建立的用户偏好分析模 型中,得到用户偏好分析结果。
本实施例中的用户文本信息分析装置,能针对企业客户信息系统数据 进行效率更高的利用深度学习算法进行用户文本偏好分析并挖掘潜在用户 的主题信息,主要用于提高用户偏好分析预测的有效性和可靠性,保证获 得最佳的用户信息系统数据挖掘效果。
实施例3
本施例提供一种计算机装置,包括:至少一个处理器;以及与所述至 少一个处理器通信连接的存储器;其特征在于,其中,所述存储器存储有 可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执 行,以使所述至少一个处理器执行实施例1的用户文本信息分析方法。
本实施例中还提供一种非暂态计算机可读存储介质,其上存储有计算 机程序,所述计算机程序用于使所述计算机执行实施例1所述的用户文本 信息分析方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、 或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施 例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个 或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不 限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形 式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序 产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流 程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中 的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专 用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个 机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产 生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方 框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理 设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存 储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上, 使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现 的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流 程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能 的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方 式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可 以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予 以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保 护范围之中。

Claims (10)

1.一种用户文本信息分析方法,其特征在于,包括如下步骤:
对待分析文本信息进行预处理;
对预处理后的待分析文本信息进行潜在主题挖掘,获取文本的主题概率分布;
针对所述主题概率分布计算文本的相似度,根据相似度进行用户特征值聚类;
对聚类后的待分析文本信息进行数字化标记,得到待分析样本数据;
将待分析样本数据输入预先建立的用户偏好分析模型中,得到用户偏好分析结果。
2.根据权利要求1所述的用户文本信息分析方法,其特征在于,所述用户偏好分析模型的建立方法,包括:
对用户文本信息进行预处理;
对预处理后的用户文本信息进行潜在主题挖掘,获取文本的主题概率分布;
针对所述主题概率分布计算文本的相似度,根据相似度进行用户特征值聚类;
对聚类后的用户文本信息进行数字化标记,得到用户样本数据;
使用用户样本数据对神经网络模型进行训练,根据训练后的神经网络模型得到用户偏好分析模型。
3.根据权利要求2所述的方法,其特征在于,还包括将所述用户样本数据分为训练集和测试集,使用所述训练集对所述神经网络模型进行训练,使用测试集对所述神经网络模型进行验证,识别率达到预设阈值时,将所述神经网络模型作为用户偏好分析模型。
4.根据权利要求1或2或3所述的方法,其特征在于,所述对预处理后的待分析文本信息进行潜在主题挖掘的步骤,包括:
对所述待分析文本信息进行中文分词处理,获取关键词;
生成可被狄利克雷模型处理的文档并采用狄利克雷模型进行潜在主题挖掘。
5.根据权利要求1所述的方法,其特征在于,所述相似度计算公式如下:
w1k、w2k分别表示文本D1和D2第k个特征项的权值,1≤k≤N。
6.根据权利要求1所述的方法,其特征在于,所述对聚类后的用户文本信息进行数字化标记,得到用户样本数据的步骤包括:
根据上下文解读词的具体含义,形成一个词表V,里面的每一个词wi都有一个编号i∈{1,...,|V|},那么词wi的一位有效编码表示就是一个维度为|V|的向量,其中第i个元素值非零,其余元素全为0;
利用词向量构建的结果,进行评论集的标注,然后将用户偏好特性映射为一个向量,将分词后用户文本信息中所有单词对应词向量相加做平均,每一个特征对应一个向量。
7.根据权利要求1所述的方法,其特征在于,所述使用用户样本数据对神经网络模型进行训练的过程,包括:
在原始神经网络中从特征空间输入到神经网络中,并用类别标签与输出空间来衡量误差,用最优化理论不断求得极小值,从而得到一个与类别标签相近的输出。
8.一种用户文本信息分析装置,其特征在于,包括:
预处理单元,用于对待分析文本信息进行预处理;
主题挖掘单元,用于对预处理后的待分析文本信息进行潜在主题挖掘,获取文本的主题概率分布;
聚类单元,用于针对所述主题概率分布计算文本的相似度,根据相似度进行用户特征值聚类;
标记单元,用于对聚类后的待分析文本信息进行数字化标记,得到待分析样本数据;
分析单元,用于将待分析样本数据输入预先建立的用户偏好分析模型中,得到用户偏好分析结果。
9.一种计算机装置,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其特征在于,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述权利要求1-7任一项的用户文本信息分析方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于使所述计算机执行权利要求1-7任一项所述的用户文本信息分析方法。
CN201711118314.1A 2017-11-10 2017-11-10 一种用户文本信息分析方法及装置 Pending CN110019796A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711118314.1A CN110019796A (zh) 2017-11-10 2017-11-10 一种用户文本信息分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711118314.1A CN110019796A (zh) 2017-11-10 2017-11-10 一种用户文本信息分析方法及装置

Publications (1)

Publication Number Publication Date
CN110019796A true CN110019796A (zh) 2019-07-16

Family

ID=67186497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711118314.1A Pending CN110019796A (zh) 2017-11-10 2017-11-10 一种用户文本信息分析方法及装置

Country Status (1)

Country Link
CN (1) CN110019796A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674636A (zh) * 2019-09-02 2020-01-10 中国南方电网有限责任公司 一种用电行为分析方法
CN111539653A (zh) * 2020-05-27 2020-08-14 山西东易园智能家居科技有限公司 一种智能填充施工进度管理方法
CN111597336A (zh) * 2020-05-14 2020-08-28 腾讯科技(深圳)有限公司 训练文本的处理方法、装置、电子设备及可读存储介质
CN112905740A (zh) * 2021-02-04 2021-06-04 合肥工业大学 一种竞品层次的主题偏好挖掘方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080005137A1 (en) * 2006-06-29 2008-01-03 Microsoft Corporation Incrementally building aspect models
CN104951441A (zh) * 2014-03-24 2015-09-30 阿里巴巴集团控股有限公司 一种对对象进行排序的方法及装置
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN106802940A (zh) * 2016-12-30 2017-06-06 东软集团股份有限公司 一种计算文本主题模型的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080005137A1 (en) * 2006-06-29 2008-01-03 Microsoft Corporation Incrementally building aspect models
CN104951441A (zh) * 2014-03-24 2015-09-30 阿里巴巴集团控股有限公司 一种对对象进行排序的方法及装置
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN106802940A (zh) * 2016-12-30 2017-06-06 东软集团股份有限公司 一种计算文本主题模型的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王攀 等: "《优化与控制中的软计算》", 31 January 2017 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674636A (zh) * 2019-09-02 2020-01-10 中国南方电网有限责任公司 一种用电行为分析方法
CN110674636B (zh) * 2019-09-02 2023-06-20 中国南方电网有限责任公司 一种用电行为分析方法
CN111597336A (zh) * 2020-05-14 2020-08-28 腾讯科技(深圳)有限公司 训练文本的处理方法、装置、电子设备及可读存储介质
CN111597336B (zh) * 2020-05-14 2023-12-22 腾讯科技(深圳)有限公司 训练文本的处理方法、装置、电子设备及可读存储介质
CN111539653A (zh) * 2020-05-27 2020-08-14 山西东易园智能家居科技有限公司 一种智能填充施工进度管理方法
CN112905740A (zh) * 2021-02-04 2021-06-04 合肥工业大学 一种竞品层次的主题偏好挖掘方法
CN112905740B (zh) * 2021-02-04 2022-08-30 合肥工业大学 一种竞品层次的主题偏好挖掘方法

Similar Documents

Publication Publication Date Title
CN111177575B (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
Mienye et al. Prediction performance of improved decision tree-based algorithms: a review
CN108647226B (zh) 一种基于变分自动编码器的混合推荐方法
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN110019796A (zh) 一种用户文本信息分析方法及装置
CN110750640A (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN110427616B (zh) 一种基于深度学习的文本情感分析方法
Pandey et al. An analysis of machine learning techniques (J48 & AdaBoost)-for classification
CN109840322A (zh) 一种基于强化学习的完形填空型阅读理解分析模型及方法
CN112989761A (zh) 文本分类方法及装置
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
Zhang et al. Memory-gated recurrent networks
CN115129807A (zh) 基于自注意的社交媒体主题评论的细粒度分类方法及系统
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data
CN117494760A (zh) 一种基于超大规模语言模型的富语义标签数据增广方法
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
Luo Research and implementation of text topic classification based on text CNN
CN112528015B (zh) 在消息交互传播中进行谣言判别的方法及装置
Postalcioglu et al. Comparison of Neural Network Models for Nostalgic Sentiment Analysis of YouTube Comments
Li et al. Mutual information variational autoencoders and its application to feature extraction of multivariate time series
Yang et al. MTSC-GE: A novel graph based method for multivariate time series clustering
Wu et al. Discovering Mathematical Expressions Through DeepSymNet: A Classification-Based Symbolic Regression Framework
Luo et al. E-commerce big data classification and mining algorithm based on artificial intelligence
Desale et al. Fake review detection with concept drift in the data: a survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190716