CN110427480B - 个性化文本智能推荐方法、装置及计算机可读存储介质 - Google Patents
个性化文本智能推荐方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110427480B CN110427480B CN201910582849.7A CN201910582849A CN110427480B CN 110427480 B CN110427480 B CN 110427480B CN 201910582849 A CN201910582849 A CN 201910582849A CN 110427480 B CN110427480 B CN 110427480B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- corpus
- keyword
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Abstract
本发明涉及一种人工智能技术,揭露了一种个性化文本智能推荐方法,接收语料集和标签集,将所述语料集进行预处理得到标准语料集,对所述标准语料集进行关键字抽取后得到关键字数据集,对所述关键字数据集进行聚类分析得到类别集,将所述类别集与所述关键字数据集进行词向量化操作得到词向量类别集与词向量关键字集,将所述词向量类别集与所述词向量关键字集输入至推荐模型训练,直至所述推荐模型退出训练,接收用户输入的文本数据,判断所述文本数据的类别和标签,并根据判断的所述类别和标签从数据库中推荐相同类别和标签的文本内容。本发明还提出一种个性化文本智能推荐装置以及一种计算机可读存储介质。本发明可以实现精准的个性化文本推荐。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种个性化文本推荐方法、装置及计算机可读存储介质。
背景技术
随着互联网信息的快速增长,用户每天会浏览大量的文本数据,如果能从用户所浏览的文本数据中提取有用的关键字信息,从而进行个性化推荐,则能更高效的利用计算资源,并节约用户时间。目前国内外学者对推荐算法进行了相关研究,研究发现,其中数据稀疏性问题、冷启动问题以及用户兴趣获取问题都是影响推荐效果的重要因素。因此基于所述研究结果,现有的一些网站例如:电影、音乐、小说等使用神经规则引擎方法进行个性化推荐,所述神经规则引擎方法虽然精确,但是其方法僵硬脆弱,推荐的内容往往与用户实际所需的内容大相径庭,因此,个性化推荐的准确率有待进一步加强。
发明内容
本发明提供一种个性化文本智能推荐方法、装置及计算机可读存储介质,其主要目的在于当用户输入文本数据时,给用户精准的推荐与所述文本数据内容相近的文本数据。
为实现上述目的,本发明提供的一种个性化文本智能推荐方法,包括:
接收包括基础文本数据集和场景文本数据集的语料集和标签集,将所述语料集进行包括分词、去停用词的预处理操作得到标准语料集;
基于关键字抽取算法对所述标准语料集进行关键字抽取后得到关键字数据集,对所述关键字数据集进行聚类分析得到类别集,将所述类别集与所述关键字数据集进行词向量化操作得到词向量类别集与词向量关键字集;
将所述词向量关键字集输入至推荐模型,所述推荐模型将所述词向量关键字集输入至卷积神经网络中进行训练并得到第一训练值和第二训练值,将所述第一训练值和所述词向量类别集输入至损失函数中,所述损失函数计算得到第一损失值,判断所述第一损失值与预设第一阈值的大小,若所述第一损失值大于预设第一阈值,则所述卷积神经网络继续训练,若所述第一损失值小于预设第一阈值,则将所述第二训练值和所述标签集输入至所述损失函数计算得到第二损失值,判断所述第二损失值与预设第二阈值的大小,若所述第二损失值大于预设第二阈值,所述卷积神经网络继续训练,若所述第二损失值小于预设第二阈值,所述卷积神经网络退出训练;
接收用户输入的文本数据,将所述文本数据输入至所述推荐模型中判断所述文本数据的类别和标签,并根据判断的所述类别和标签从数据库中推荐相同类别和标签的文本内容。
可选地,所述基础文本数据集包括微博评论集、电影观后感集、音乐评论集;
所述场景文本数据集包括股票评论集、政府工作报告评论集、公司季度年度财务报表评论集、大学生就业情况评论集。
可选地,所述分词包括:
根据所述语料集建立概率分词模型P(S)和最大化所述概率分词模型P(S),并利用最大化后的所述概率分词模型P(S)对所述语料集执行分词操作;
其中,所述概率分词模型P(S)为:
其中,W1,W2,...,Wm为所述语料集包括的词,m为所述语料集的数量,p(Wi|Wi-1)表示在词Wi-1出现的情况下词Wi出现的概率;
所述最大化后的所述概率分词模型P(S):
其中,count(Wi-1,Wi)表示词Wi-1和词Wi同时出现在所述语料集内同一篇文本的文本数量,count(Wi-1)表示词Wi-1出现在所述语料集内的文本数量,argmax表示最大化操作。
可选地,基于关键字抽取算法对所述标准语料集进行关键字抽取后得到关键字数据集,包括:
计算所述标准语料集中任意两词Wi,Wj之间的依存关联度Dep(Wi,Wj):
其中,len(Wi,Wj)表示词语Wi和Wj之间的依存路径长度,b是超参数;
计算所述标准语料集中任意两词Wi,Wj之间的引力值fgrav(Wi,Wj):
其中,tfidf(Wi)、tfidf(Wj)表示词Wi,Wj的词频-逆文本频率指数,d表示词Wi和Wj的词向量之间的欧式距离;
根据所述依存关联度Dep(Wi,Wj)和所述引力值fgrav(Wi,Wj)判断所述标准语料集中任意两词Wi,Wj之间的权重系数weight(Wi,Wj):
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
按照所述权重系数大小选择权重系数weight(Wi,Wj)最大的词,完成所述关键字抽取,得到关键字数据集。
可选地,所述聚类分析包括随机化类别中心位置和最优化类别中心位置;
其中,所述随机化类别中心位置包括确定类别中心个数和随机生成所述类别中心的坐标位置,所述类别中心个数为所述基础文本数据集的种类和场景文本数据集的种类的总和。
此外,为实现上述目的,本发明还提供一种个性化文本智能推荐装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的个性化文本智能推荐程序,所述个性化文本智能推荐程序被所述处理器执行时实现如下步骤:
接收包括基础文本数据集和场景文本数据集的语料集和标签集,将所述语料集进行包括分词、去停用词的预处理操作得到标准语料集;
基于关键字抽取算法对所述标准语料集进行关键字抽取后得到关键字数据集,对所述关键字数据集进行聚类分析得到类别集,将所述类别集与所述关键字数据集进行词向量化操作得到词向量类别集与词向量关键字集;
将所述词向量关键字集输入至推荐模型,所述推荐模型将所述词向量关键字集输入至卷积神经网络中进行训练并得到第一训练值和第二训练值,将所述第一训练值和所述词向量类别集输入至损失函数中,所述损失函数计算得到第一损失值,判断所述第一损失值与预设第一阈值的大小,若所述第一损失值大于预设第一阈值,则所述卷积神经网络继续训练,若所述第一损失值小于预设第一阈值,则将所述第二训练值和所述标签集输入至所述损失函数计算得到第二损失值,判断所述第二损失值与预设第二阈值的大小,若所述第二损失值大于预设第二阈值,所述卷积神经网络继续训练,若所述第二损失值小于预设第二阈值,所述卷积神经网络退出训练;
接收用户输入的文本数据,将所述文本数据输入至所述推荐模型中判断所述文本数据的类别和标签,并根据判断的所述类别和标签从数据库中推荐相同类别和标签的文本内容。
可选地,所述基础文本数据集包括微博评论集、电影观后感集、音乐评论集;
所述场景文本数据集包括股票评论集、政府工作报告评论集、公司季度年度财务报表评论集、大学生就业情况评论集。
可选地,所述分词包括:
根据所述语料集建立概率分词模型P(S)和最大化所述概率分词模型P(S),并利用最大化后的所述概率分词模型P(S)对所述语料集执行分词操作;
其中,所述概率分词模型P(S)为:
其中,W1,W2,...,Wm为所述语料集包括的词,m为所述语料集的数量,p(Wi|Wi-1)表示在词Wi-1出现的情况下词Wi出现的概率;
所述最大化后的所述概率分词模型P(S):
其中,count(Wi-1,Wi)表示词Wi-1和词Wi同时出现在所述语料集内同一篇文本的文本数量,count(Wi-1)表示词Wi-1出现在所述语料集内的文本数量,argmax表示最大化操作。
可选地,基于关键字抽取算法对所述标准语料集进行关键字抽取后得到关键字数据集,包括:
计算所述标准语料集中任意两词Wi,Wj之间的依存关联度Dep(Wi,Wj):
其中,len(Wi,Wj)表示词语Wi和Wj之间的依存路径长度,b是超参数;
计算所述标准语料集中任意两词Wi,Wj之间的引力值fgrav(Wi,Wj):
其中,tfidf(Wi)、tfidf(Wj)表示词Wi,Wj的词频-逆文本频率指数,d表示词Wi和Wj的词向量之间的欧式距离;
根据所述依存关联度Dep(Wi,Wj)和所述引力值fgrav(Wi,Wj)判断所述标准语料集中任意两词Wi,Wj之间的权重系数weight(Wi,Wj):
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
按照所述权重系数大小选择权重系数weight(Wi,Wj)最大的词,完成所述关键字抽取,得到关键字数据集。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有个性化文本智能推荐程序,所述个性化文本智能推荐程序可被一个或者多个处理器执行,以实现如上所述的个性化文本智能推荐方法的步骤。
本发明提出的个性化文本智能推荐方法、装置及计算机可读存储介质。本发明将文本数据分为基础文本和场景文本,提高了初期对文本数据内容的精确划分;同时构建了概率分词模型并最大化概率分词模型,提高对所述文本数据的特征提取,高效并最大化的利用到已有特征;另外基于深度学习的卷积神经网络可有效的利用所述特征进行学习,提高对文本数据的推荐能力。因此,本发明可为用户实现精确的个性化文本推荐。
附图说明
图1为本发明一实施例提供的个性化文本智能推荐方法的流程示意图;
图2为本发明一实施例提供的个性化文本智能推荐装置的内部结构示意图;
图3为本发明一实施例提供的个性化文本智能推荐装置中个性化文本智能推荐程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种个性化文本智能推荐方法。参照图1所示,为本发明一实施例提供的个性化文本智能推荐方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,个性化文本智能推荐方法包括:
S1、接收语料集和标签集,将所述语料集进行包括分词、去停用词的预处理操作得到标准语料集。
本发明较佳实施例所述语料集包括文本数据,所述语料集可分为基础文本数据集和场景文本数据集。
进一步地所述基础文本数据集包括微博评论集、电影观后感集、音乐评论集等。所述微博评论集、所述电影观后感集、所述乐评论集都包括若干条数据。所述场景文本数据集包括股票评论集、政府工作报告评论集、公司季度年度财务报表评论集、大学生就业情况评论集。
优选地,所述标签集注明所述语料集内各文本数据所属的领域。
本发明较佳实施例中,所述分词包括根据所述语料集建立概率分词模型P(S)和最大化所述概率分词模型P(S),并利用最大化后的所述概率分词模型P(S)对所述语料集执行分词操作。
其中,所述概率分词模型P(S)为:
其中,W1,W2,...,Wm为所述语料集包括的词,m为所述语料集的数量,p(Wi|Wi-1)表示在词Wi-1出现的情况下词Wi出现的概率;
所述最大化后的所述概率分词模型P(S):
其中,count(Wi-1,Wi)表示词Wi-1和词Wi同时出现在所述语料集内同一篇文本的文本数量,count(Wi-1)表示词Wi-1出现在所述语料集内的文本数量,argmax表示最大化操作。
所述停用词是文本数据中没有什么实际意义的词,且对文本的情感分析没有什么影响,但出现频率高的词,所述停用词包括常用的代词、介词等。
本发明较佳实施例,所述去停用词的方法为停用词表过滤法,基于已构建好的停用词表和所述语料集的词进行一一匹配,若匹配成功,则该词为停用词,且将所述该词从所述语料集中删除。
S2、基于关键字抽取算法对所述标准语料集进行关键字抽取后得到关键字数据集,对所述关键字数据集进行聚类分析得到类别集,将所述类别集与所述关键字数据集进行词向量化操作得到词向量类别集与词向量关键字集。
较佳实施例所述关键字抽取算法包括:计算所述标准语料集中任意两词Wi,Wj之间的依存关联度Dep(Wi,Wj):
其中,len(Wi,Wj)表示词语Wi和Wj之间的依存路径长度,b是超参数;
计算所述标准语料集中任意两词Wi,Wj之间的引力值fgrav(Wi,Wj):
其中,tfidf(Wi)、tfidf(Wj)表示词Wi,Wj的词频-逆文本频率指数,d表示词Wi和Wj的词向量之间的欧式距离;
根据所述依存关联度Dep(Wi,Wj)和所述引力值fgrav(Wi,Wj)判断所述标准语料集中任意两词Wi,Wj之间的权重系数weight(Wi,Wj):
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
按照所述权重系数大小选择权重系数weight(Wi,Wj)大的词,完成所述关键字抽取,得到关键字数据集。
本发明较佳实施例所述聚类分析包括随机化类别中心位置和最优化类别中心位置。
其中,所述随机化类别中心位置包括确定类别中心个数和随机生成所述类别中心的坐标位置,所述类别中心个数为所述基础文本数据集的种类和场景文本数据集的种类的总和。
较优地,所述类别集是通过所述聚类分析后,得到的具有相似文本的文本集。如所述标准语料集中有文本数据A、文本数据B,所述文本数据A与所述文本数据B在所述聚类分析中被判别有很多相同用词,属于相同类别,因此被划分为同一类别集中。
较佳实施例所述词向量化操作采用Word2Vec算法,所述Word2Vec算法包括输入层、投影层和输出层,所述输入层接收所述关键字数据集,所述输出层输出得到所述词向量集,所述投影层ζ(ω,j)为:
本发明较佳实施例所述霍夫曼编码是根据数据通信知识使用0,1码的不同排列来表示所述关键字数据集。
S3、将所述词向量关键字集输入至推荐模型,所述推荐模型将所述词向量关键字集输入至卷积神经网络中进行训练并得到第一训练值和第二训练值,将所述第一训练值和所述词向量类别集输入至所述损失函数中,所述损失函数计算得到第一损失值。
优选地所述卷积神经网络包括卷积层、池化层、第一全连接层和第二全连接层。所述卷积层接收所述词向量关键字集并对所述词向量关键字集进行卷积操作得到卷积集。
进一步地所述卷积操作为:
其中ω′为所述卷积集,ω为所述词向量关键字集,k为卷积核的大小,s为所述卷积操作的步幅,p为数据补零矩阵。
本发明较佳实施例将所述卷积集输入至所述池化层,所述池化层寻找所述卷积集中各词向量数值最大的词向量并组成池化集。
进一步地将所述池化集同时输入至所述第一全连接层和所述第二全连接层,所述第一全连接层和所述第二全连接层根据激活函数输出所述训练值。所述激活函数为:
其中y为所述第一训练值或第二训练值,e为无限不循环小数。
较佳地所述第一损失值E1为:
其中,x为所述第一训练值,μj为所述词向量类别集,m为所述类别集的数量。
S4、判断所述第一损失值与预设第一阈值的大小。
本发明较佳实施例所述预设第一阈值一般设定为0.5。
若所述第一损失值大于预设第一阈值,则返回S3,所述卷积神经网络继续训练。
当所述第一损失值大于所述预设第一阈值时,表明所述卷积神经网络对所述关键字数据集内各关键字的类别分类与所述聚类分析得到所述类别集误差较大,证明所述卷积神经网络识别类别能力较差,需继续训练。
S5、若所述第一损失值小于预设第一阈值,则进一步将所述第二训练值和所述标签集输入至所述损失函数计算得到第二损失值。
本发明较佳实施例所述第二损失值E2为:
其中,x为所述第二训练值,μj为所述标签集,m为所述标签集的数量。
S6、判断所述第二损失值与预设第二阈值的大小。
较佳地所述预设第二阈值一般设置为0.01。
若所述第二损失值大于预设第二阈值,返回S3,所述卷积神经网络继续训练。
若所述第二损失值大于预设第二阈值,表明所述卷积神经网络对所述关键字数据集内各关键字的领域分类与所述标签集误差较大。如所述卷积神经网络接受到“操作系统”关键字,所述“操作系统”关键字在所述标签集中注明为“计算机”领域,但所述卷积神经网络可能会将所述“操作系统”关键字识别为“艺术”领域,表明所述卷积神经网络领域识别能力较差,需继续训练。
S7、若所述第二损失值小于预设第二阈值,所述卷积神经网络退出训练。
S8、接收用户输入的文本数据,将所述文本数据输入至所述推荐模型中判断所述文本数据的类别和标签,并根据所述判断的类别和标签推荐相同类别和标签的文本内容。
较佳地,如用户输入文本数据X。所述推荐模型根据所述聚类分析后得出与所述文本数据X有较多相同用词的文本数据,同时分析出所述文本数据X的标签输入为NBA体育类,因此会智能化的推荐出相同类别和相同标签的文本供用户阅读。
发明还提供一种个性化文本智能推荐装置。参照图2所示,为本发明一实施例提供的个性化文本智能推荐装置的内部结构示意图。
在本实施例中,所述个性化文本智能推荐装置1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该个性化文本智能推荐装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是个性化文本智能推荐装置1的内部存储单元,例如该个性化文本智能推荐装置1的硬盘。存储器11在另一些实施例中也可以是个性化文本智能推荐装置1的外部存储设备,例如个性化文本智能推荐装置1上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括个性化文本智能推荐装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于个性化文本智能推荐装置1的应用软件及各类数据,例如个性化文本智能推荐程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行个性化文本智能推荐程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在个性化文本智能推荐装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及个性化文本智能推荐程序01的个性化文本智能推荐装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对个性化文本智能推荐装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有个性化文本智能推荐程序01;处理器12执行存储器11中存储的个性化文本智能推荐程序01时实现如下步骤:
步骤一、接收语料集和标签集,将所述语料集进行包括分词、去停用词的预处理操作得到标准语料集。
本发明较佳实施例所述语料集包括文本数据,所述语料集可分为基础文本数据集和场景文本数据集。
进一步地所述基础文本数据集包括微博评论集、电影观后感集、音乐评论集等。所述微博评论集、所述电影观后感集、所述乐评论集都包括若干条数据。所述场景文本数据集包括股票评论集、政府工作报告评论集、公司季度年度财务报表评论集、大学生就业情况评论集。
优选地,所述标签集注明所述语料集内各文本数据所属的领域。
本发明较佳实施例中,所述分词包括根据所述语料集建立概率分词模型P(S)和最大化所述概率分词模型P(S),并利用最大化后的所述概率分词模型P(S)对所述语料集执行分词操作。
其中,所述概率分词模型P(S)为:
其中,W1,W2,...,Wm为所述语料集包括的词,m为所述语料集的数量,p(Wi|Wi-1)表示在词Wi-1出现的情况下词Wi出现的概率;
所述最大化后的所述概率分词模型P(S):
其中,count(Wi-1,Wi)表示词Wi-1和词Wi同时出现在所述语料集内同一篇文本的文本数量,count(Wi-1)表示词Wi-1出现在所述语料集内的文本数量,argmax表示最大化操作。
所述停用词是文本数据中没有什么实际意义的词,且对文本的情感分析没有什么影响,但出现频率高的词,所述停用词包括常用的代词、介词等。
本发明较佳实施例,所述去停用词的方法为停用词表过滤法,基于已构建好的停用词表和所述语料集的词进行一一匹配,若匹配成功,则该词为停用词,且将所述该词从所述语料集中删除。
步骤二、基于关键字抽取算法对所述标准语料集进行关键字抽取后得到关键字数据集,对所述关键字数据集进行聚类分析得到类别集,将所述类别集与所述关键字数据集进行词向量化操作得到词向量类别集与词向量关键字集。
较佳实施例所述关键字抽取算法包括:计算所述标准语料集中任意两词Wi,Wj之间的依存关联度Dep(Wi,Wj):
其中,len(Wi,Wj)表示词语Wi和Wj之间的依存路径长度,b是超参数;
计算所述标准语料集中任意两词Wi,Wj之间的引力值fgrav(Wi,Wj):
其中,tfidf(Wi)、tfidf(Wj)表示词Wi,Wj的词频-逆文本频率指数,d表示词Wi和Wj的词向量之间的欧式距离;
根据所述依存关联度Dep(Wi,Wj)和所述引力值fgrav(Wi,Wj)判断所述标准语料集中任意两词Wi,Wj之间的权重系数weight(Wi,Wj):
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
按照所述权重系数大小选择权重系数weight(Wi,Wj)最大的词,完成所述关键字抽取,得到关键字数据集。
本发明较佳实施例所述聚类分析包括随机化类别中心位置和最优化类别中心位置。
其中,所述随机化类别中心位置包括确定类别中心个数和随机生成所述类别中心的坐标位置,所述类别中心个数为所述基础文本数据集的种类和场景文本数据集的种类的总和。
较优地,所述类别集是通过所述聚类分析后,得到的具有相似文本的文本集。如所述标准语料集中有文本数据A、文本数据B,所述文本数据A与所述文本数据B在所述聚类分析中被判别有很多相同用词,属于相同类别,因此被划分为同一类别集中。
较佳实施例所述词向量化操作采用Word2Vec算法,所述Word2Vec算法包括输入层、投影层和输出层,所述输入层接收所述关键字数据集,所述输出层输出得到所述词向量集,所述投影层ζ(ω,j)为:
本发明较佳实施例所述霍夫曼编码是根据数据通信知识使用0,1码的不同排列来表示所述关键字数据集。
步骤三、将所述词向量关键字集输入至推荐模型,所述推荐模型将所述词向量关键字集输入至卷积神经网络中进行训练并得到第一训练值和第二训练值,将所述第一训练值和所述词向量类别集输入至所述损失函数中,所述损失函数计算得到第一损失值。
优选地所述卷积神经网络包括卷积层、池化层、第一全连接层和第二全连接层。所述卷积层接收所述词向量关键字集并对所述词向量关键字集进行卷积操作得到卷积集。
进一步地所述卷积操作为:
其中ω′为所述卷积集,ω为所述词向量关键字集,k为卷积核的大小,s为所述卷积操作的步幅,p为数据补零矩阵。
本发明较佳实施例将所述卷积集输入至所述池化层,所述池化层寻找所述卷积集中各词向量数值最大的词向量并组成池化集。
进一步地将所述池化集同时输入至所述第一全连接层和所述第二全连接层,所述第一全连接层和所述第二全连接层根据激活函数输出所述训练值。所述激活函数为:
其中y为所述第一训练值或第二训练值,e为无限不循环小数。
较佳地所述第一损失值E1为:
其中,x为所述第一训练值,μj为所述词向量类别集,m为所述类别集的数量。
步骤四、判断所述第一损失值与预设第一阈值的大小。
本发明较佳实施例所述预设第一阈值一般设定为0.5。
若所述第一损失值大于预设第一阈值,则返回步骤三,所述卷积神经网络继续训练。
当所述第一损失值大于所述预设第一阈值时,表明所述卷积神经网络对所述关键字数据集内各关键字的类别分类与所述聚类分析得到所述类别集误差较大,证明所述卷积神经网络识别类别能力较差,需继续训练。
步骤五、若所述第一损失值小于预设第一阈值,则进一步将所述第二训练值和所述标签集输入至所述损失函数计算得到第二损失值。
本发明较佳实施例所述第二损失值E2为:
其中,x为所述第二训练值,μj为所述标签集,m为所述标签集的数量。
步骤六、判断所述第二损失值与预设第二阈值的大小。
较佳地所述预设第二阈值一般设置为0.01。
若所述第二损失值大于预设第二阈值,返回步骤三,所述卷积神经网络继续训练。
若所述第二损失值大于预设第二阈值,表明所述卷积神经网络对所述关键字数据集内各关键字的领域分类与所述标签集误差较大。如所述卷积神经网络接受到“操作系统”关键字,所述“操作系统”关键字在所述标签集中注明为“计算机”领域,但所述卷积神经网络可能会将所述“操作系统”关键字识别为“艺术”领域,表明所述卷积神经网络领域识别能力较差,需继续训练。
步骤七、若所述第二损失值小于预设第二阈值,所述卷积神经网络退出训练。
步骤八、接收用户输入的文本数据,将所述文本数据输入至所述推荐模型中判断所述文本数据的类别和标签,并根据所述判断的类别和标签推荐相同类别和标签的文本内容。
较佳地,如用户输入文本数据X。所述推荐模型根据所述聚类分析后得出与所述文本数据X有较多相同用词的文本数据,同时分析出所述文本数据X的标签输入为NBA体育类,因此会智能化的推荐出相同类别和相同标签的文本供用户阅读。
可选地,在其他实施例中,个性化文本智能推荐程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述个性化文本智能推荐程序在个性化文本智能推荐装置中的执行过程。
例如,参照图3所示,为本发明个性化文本智能推荐装置一实施例中的个性化文本智能推荐程序的程序模块示意图,该实施例中,所述个性化文本智能推荐程序可以被分割为源数据接收模块10、特征提取模块20、特征分析模块30以及个性化文本输出模块40,示例性地:
所述源数据接收模块10用于:接收包括基础文本数据集和场景文本数据集的语料集和标签集,将所述语料集进行包括分词、去停用词的预处理操作得到标准语料集。
所述特征提取模块20用于:基于关键字抽取算法对所述标准语料集进行关键字抽取后得到关键字数据集,对所述关键字数据集进行聚类分析得到类别集,将所述类别集与所述关键字数据集进行词向量化操作得到词向量类别集与词向量关键字集。
所述特征分析模块30用于:将所述词向量关键字集输入至推荐模型,所述推荐模型将所述词向量关键字集输入至卷积神经网络中进行训练并得到第一训练值和第二训练值,将所述第一训练值和所述词向量类别集输入至损失函数中,所述损失函数计算得到第一损失值,判断所述第一损失值与预设第一阈值的大小,若所述第一损失值大于预设第一阈值,则所述卷积神经网络继续训练,若所述第一损失值小于预设第一阈值,则将所述第二训练值和所述标签集输入至所述损失函数计算得到第二损失值,判断所述第二损失值与预设第二阈值的大小,若所述第二损失值大于预设第二阈值,所述卷积神经网络继续训练,若所述第二损失值小于预设第二阈值,所述卷积神经网络退出训练。
所述个性化文本输出模块40用于:接收用户输入的文本数据,将所述文本数据输入至所述推荐模型中判断所述文本数据的类别和标签,并根据判断的所述类别和标签从数据库中推荐相同类别和标签的文本内容。
上述源数据接收模块10、特征提取模块20、特征分析模块30以及个性化文本输出模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有个性化文本智能推荐程序,所述个性化文本智能推荐程序可被一个或多个处理器执行,以实现如下操作:
接收包括基础文本数据集和场景文本数据集的语料集和标签集,将所述语料集进行包括分词、去停用词的预处理操作得到标准语料集;
基于关键字抽取算法对所述标准语料集进行关键字抽取后得到关键字数据集,对所述关键字数据集进行聚类分析得到类别集,将所述类别集与所述关键字数据集进行词向量化操作得到词向量类别集与词向量关键字集;
将所述词向量关键字集输入至推荐模型,所述推荐模型将所述词向量关键字集输入至卷积神经网络中进行训练并得到第一训练值和第二训练值,将所述第一训练值和所述词向量类别集输入至损失函数中,所述损失函数计算得到第一损失值,判断所述第一损失值与预设第一阈值的大小,若所述第一损失值大于预设第一阈值,则所述卷积神经网络继续训练,若所述第一损失值小于预设第一阈值,则将所述第二训练值和所述标签集输入至所述损失函数计算得到第二损失值,判断所述第二损失值与预设第二阈值的大小,若所述第二损失值大于预设第二阈值,所述卷积神经网络继续训练,若所述第二损失值小于预设第二阈值,所述卷积神经网络退出训练;
接收用户输入的文本数据,将所述文本数据输入至所述推荐模型中判断所述文本数据的类别和标签,并根据判断的所述类别和标签从数据库中推荐相同类别和标签的文本内容。
本发明计算机可读存储介质具体实施方式与上述个性化文本智能推荐装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种个性化文本智能推荐方法,其特征在于,所述方法包括:
接收包括基础文本数据集和场景文本数据集的语料集和标签集,将所述语料集进行包括分词、去停用词的预处理操作得到标准语料集;
基于关键字抽取算法对所述标准语料集进行关键字抽取后得到关键字数据集,对所述关键字数据集进行聚类分析得到类别集,将所述类别集与所述关键字数据集进行词向量化操作得到词向量类别集与词向量关键字集;
将所述词向量关键字集输入至推荐模型,所述推荐模型将所述词向量关键字集输入至卷积神经网络中进行训练并得到第一训练值和第二训练值,将所述第一训练值和所述词向量类别集输入至损失函数中,所述损失函数计算得到第一损失值,判断所述第一损失值与预设第一阈值的大小,若所述第一损失值大于预设第一阈值,则所述卷积神经网络继续训练,若所述第一损失值小于预设第一阈值,则将所述第二训练值和所述标签集输入至所述损失函数计算得到第二损失值,判断所述第二损失值与预设第二阈值的大小,若所述第二损失值大于预设第二阈值,所述卷积神经网络继续训练,若所述第二损失值小于预设第二阈值,所述卷积神经网络退出训练;
接收用户输入的文本数据,将所述文本数据输入至所述推荐模型中判断所述文本数据的类别和标签,并根据判断的所述类别和标签从数据库中推荐相同类别和标签的文本内容。
2.如权利要求1所述的个性化文本智能推荐方法,其特征在于,所述基础文本数据集包括微博评论集、电影观后感集、音乐评论集;
所述场景文本数据集包括股票评论集、政府工作报告评论集、公司季度年度财务报表评论集、大学生就业情况评论集。
3.如权利要求1所述的个性化文本智能推荐方法,其特征在于,所述分词包括:
根据所述语料集建立概率分词模型P(S)和最大化所述概率分词模型P(S),并利用最大化后的所述概率分词模型P(S)对所述语料集执行分词操作;
其中,所述概率分词模型P(S)为:
其中,W1,W2,...,Wm为所述语料集包括的词,m为所述语料集的数量,p(Wi|Wi-1)表示在词Wi-1出现的情况下词Wi出现的概率;
所述最大化后的所述概率分词模型P(S):
其中,count(Wi-1,Wi)表示词Wi-1和词Wi同时出现在所述语料集内同一篇文本的文本数量,count(Wi-1)表示词Wi-1出现在所述语料集内的文本数量,argmax表示最大化操作。
4.如权利要求1至3中任意一项所述的个性化文本智能推荐方法,其特征在于,基于关键字抽取算法对所述标准语料集进行关键字抽取后得到关键字数据集,包括:
计算所述标准语料集中任意两词Wi,Wj之间的依存关联度Dep(Wi,Wj):
其中,len(Wi,Wj)表示词语Wi和Wj之间的依存路径长度,b是超参数;
计算所述标准语料集中任意两词Wi,Wj之间的引力值fgrav(Wi,Wj):
其中,tfidf(Wi)、tfidf(Wj)表示词Wi,Wj的词频-逆文本频率指数,d表示词Wi和Wj的词向量之间的欧式距离;
根据所述依存关联度Dep(Wi,Wj)和所述引力值fgrav(Wi,Wj)判断所述标准语料集中任意两词Wi,Wj之间的权重系数weight(Wi,Wj):
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
按照所述权重系数大小选择权重系数weight(Wi,Wj)最大的词,完成所述关键字抽取,得到关键字数据集。
5.一种个性化文本智能推荐装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的个性化文本智能推荐程序,所述个性化文本智能推荐程序被所述处理器执行时实现如下步骤:
接收包括基础文本数据集和场景文本数据集的语料集和标签集,将所述语料集进行包括分词、去停用词的预处理操作得到标准语料集;
基于关键字抽取算法对所述标准语料集进行关键字抽取后得到关键字数据集,对所述关键字数据集进行聚类分析得到类别集,将所述类别集与所述关键字数据集进行词向量化操作得到词向量类别集与词向量关键字集;
将所述词向量关键字集输入至推荐模型,所述推荐模型将所述词向量关键字集输入至卷积神经网络中进行训练并得到第一训练值和第二训练值,将所述第一训练值和所述词向量类别集输入至损失函数中,所述损失函数计算得到第一损失值,判断所述第一损失值与预设第一阈值的大小,若所述第一损失值大于预设第一阈值,则所述卷积神经网络继续训练,若所述第一损失值小于预设第一阈值,则将所述第二训练值和所述标签集输入至所述损失函数计算得到第二损失值,判断所述第二损失值与预设第二阈值的大小,若所述第二损失值大于预设第二阈值,所述卷积神经网络继续训练,若所述第二损失值小于预设第二阈值,所述卷积神经网络退出训练;
接收用户输入的文本数据,将所述文本数据输入至所述推荐模型中判断所述文本数据的类别和标签,并根据判断的所述类别和标签从数据库中推荐相同类别和标签的文本内容。
6.如权利要求5所述的个性化文本智能推荐装置,其特征在于,所述基础文本数据集包括微博评论集、电影观后感集、音乐评论集;
所述场景文本数据集包括股票评论集、政府工作报告评论集、公司季度年度财务报表评论集、大学生就业情况评论集。
7.如权利要求5所述的个性化文本智能推荐装置,其特征在于,所述分词包括:
根据所述语料集建立概率分词模型P(S)和最大化所述概率分词模型P(S),并利用最大化后的所述概率分词模型P(S)对所述语料集执行分词操作;
其中,所述概率分词模型P(S)为:
其中,W1,W2,...,Wm为所述语料集包括的词,m为所述语料集的数量,p(Wi|Wi-1)表示在词Wi-1出现的情况下词Wi出现的概率;
所述最大化后的所述概率分词模型P(S):
其中,count(Wi-1,Wi)表示词Wi-1和词Wi同时出现在所述语料集内同一篇文本的文本数量,count(Wi-1)表示词Wi-1出现在所述语料集内的文本数量,argmax表示最大化操作。
8.如权利要求5至7任一项所述的个性化文本智能推荐装置,其特征在于,基于关键字抽取算法对所述标准语料集进行关键字抽取后得到关键字数据集,包括:
计算所述标准语料集中任意两词Wi,Wj之间的依存关联度Dep(Wi,Wj):
其中,len(Wi,Wj)表示词语Wi和Wj之间的依存路径长度,b是超参数;
计算所述标准语料集中任意两词Wi,Wj之间的引力值fgrav(Wi,Wj):
其中,tfidf(Wi)、tfidf(Wj)表示词Wi,Wj的词频-逆文本频率指数,d表示词Wi和Wj的词向量之间的欧式距离;
根据所述依存关联度Dep(Wi,Wj)和所述引力值fgrav(Wi,Wj)判断所述标准语料集中任意两词Wi,Wj之间的权重系数weight(Wi,Wj):
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
按照所述权重系数大小选择权重系数weight(Wi,Wj)最大的词,完成所述关键字抽取,得到关键字数据集。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有个性化文本智能推荐程序,所述个性化文本智能推荐程序可被一个或者多个处理器执行,以实现如权利要求1至4中任一项所述的个性化文本智能推荐方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910582849.7A CN110427480B (zh) | 2019-06-28 | 2019-06-28 | 个性化文本智能推荐方法、装置及计算机可读存储介质 |
PCT/CN2019/102201 WO2020258481A1 (zh) | 2019-06-28 | 2019-08-23 | 个性化文本智能推荐方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910582849.7A CN110427480B (zh) | 2019-06-28 | 2019-06-28 | 个性化文本智能推荐方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427480A CN110427480A (zh) | 2019-11-08 |
CN110427480B true CN110427480B (zh) | 2022-10-11 |
Family
ID=68408912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910582849.7A Active CN110427480B (zh) | 2019-06-28 | 2019-06-28 | 个性化文本智能推荐方法、装置及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110427480B (zh) |
WO (1) | WO2020258481A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737456A (zh) * | 2020-05-15 | 2020-10-02 | 恩亿科(北京)数据科技有限公司 | 一种语料信息的处理方法和装置 |
CN112559740A (zh) * | 2020-12-03 | 2021-03-26 | 星宏传媒有限公司 | 一种基于多模型融合的广告标签分类方法、系统及设备 |
CN112989040B (zh) * | 2021-03-10 | 2024-02-27 | 河南中原消费金融股份有限公司 | 一种对话文本标注方法、装置、电子设备及存储介质 |
CN115982429B (zh) * | 2023-03-21 | 2023-08-01 | 中交第四航务工程勘察设计院有限公司 | 一种基于流程控制的知识管理方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015106657A1 (zh) * | 2014-01-16 | 2015-07-23 | 上海资本加管理软件有限公司 | 一种应用于社交网络的推荐方法和推荐系统 |
CN108573047A (zh) * | 2018-04-18 | 2018-09-25 | 广东工业大学 | 一种中文文本分类模型的训练方法及装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110137898A1 (en) * | 2009-12-07 | 2011-06-09 | Xerox Corporation | Unstructured document classification |
US20140207716A1 (en) * | 2013-01-22 | 2014-07-24 | Maluuba Inc. | Natural language processing method and system |
US10726018B2 (en) * | 2014-02-10 | 2020-07-28 | Microsoft Technology Licensing, Llc | Semantic matching and annotation of attributes |
CN104298732B (zh) * | 2014-09-29 | 2018-01-09 | 中国科学院计算技术研究所 | 一种面向网络用户的个性化文本排序及推荐方法 |
CN105677769B (zh) * | 2015-12-29 | 2018-01-05 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统 |
US10489438B2 (en) * | 2016-05-19 | 2019-11-26 | Conduent Business Services, Llc | Method and system for data processing for text classification of a target domain |
CN106776881A (zh) * | 2016-11-28 | 2017-05-31 | 中国科学院软件研究所 | 一种基于微博平台的领域信息推荐系统及方法 |
CN108319627A (zh) * | 2017-02-06 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 关键词提取方法以及关键词提取装置 |
CN107315797A (zh) * | 2017-06-19 | 2017-11-03 | 江西洪都航空工业集团有限责任公司 | 一种网络新闻获取及文本情感预测系统 |
CN109299270B (zh) * | 2018-10-30 | 2021-09-28 | 云南电网有限责任公司信息中心 | 一种基于卷积神经网络的文本数据无监督聚类方法 |
CN109857860A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
-
2019
- 2019-06-28 CN CN201910582849.7A patent/CN110427480B/zh active Active
- 2019-08-23 WO PCT/CN2019/102201 patent/WO2020258481A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015106657A1 (zh) * | 2014-01-16 | 2015-07-23 | 上海资本加管理软件有限公司 | 一种应用于社交网络的推荐方法和推荐系统 |
CN108573047A (zh) * | 2018-04-18 | 2018-09-25 | 广东工业大学 | 一种中文文本分类模型的训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2020258481A1 (zh) | 2020-12-30 |
CN110427480A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN110427480B (zh) | 个性化文本智能推荐方法、装置及计算机可读存储介质 | |
CN110334272B (zh) | 基于知识图谱的智能问答方法、装置及计算机存储介质 | |
CN107705066B (zh) | 一种商品入库时信息录入方法及电子设备 | |
CN110222160A (zh) | 智能语义文档推荐方法、装置及计算机可读存储介质 | |
CN110851596A (zh) | 文本分类方法、装置及计算机可读存储介质 | |
CN109871485B (zh) | 一种个性化推荐方法及装置 | |
CN109271514B (zh) | 短文本分类模型的生成方法、分类方法、装置及存储介质 | |
CN112231569B (zh) | 新闻推荐方法、装置、计算机设备及存储介质 | |
CN110750640A (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN107301199A (zh) | 一种数据标签生成方法和装置 | |
CN110827112B (zh) | 深度学习的商品推荐方法、装置、计算机设备及存储介质 | |
WO2020253042A1 (zh) | 情感智能判断方法、装置及计算机可读存储介质 | |
CN111241828A (zh) | 情感智能识别方法、装置及计算机可读存储介质 | |
CN110795548A (zh) | 智能问答方法、装置及计算机可读存储介质 | |
CN110765761A (zh) | 基于人工智能的合同敏感词校验方法、装置及存储介质 | |
CN111767375A (zh) | 语义召回方法、装置、计算机设备及存储介质 | |
CN107807968A (zh) | 基于贝叶斯网络的问答装置、方法及存储介质 | |
CN110866042A (zh) | 表格智能查询方法、装置及计算机可读存储介质 | |
CN113886708A (zh) | 基于用户信息的产品推荐方法、装置、设备及存储介质 | |
CN111931516A (zh) | 一种基于强化学习的文本情感分析方法及系统 | |
CN112101029A (zh) | 一种基于bert模型的高校导师推荐管理方法 | |
CN115062134A (zh) | 知识问答模型训练及知识问答方法、装置和计算机设备 | |
KR20120047622A (ko) | 디지털 콘텐츠 관리 시스템 및 방법 | |
CN113609847B (zh) | 信息抽取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |