CN117852507B - 一种餐馆回头客预测模型、方法、系统及设备 - Google Patents

一种餐馆回头客预测模型、方法、系统及设备 Download PDF

Info

Publication number
CN117852507B
CN117852507B CN202410257553.9A CN202410257553A CN117852507B CN 117852507 B CN117852507 B CN 117852507B CN 202410257553 A CN202410257553 A CN 202410257553A CN 117852507 B CN117852507 B CN 117852507B
Authority
CN
China
Prior art keywords
text
return
time
restaurant
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410257553.9A
Other languages
English (en)
Other versions
CN117852507A (zh
Inventor
韩梦娇
侯磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202410257553.9A priority Critical patent/CN117852507B/zh
Publication of CN117852507A publication Critical patent/CN117852507A/zh
Application granted granted Critical
Publication of CN117852507B publication Critical patent/CN117852507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种餐馆回头客预测模型、方法、系统及设备,属于深度学习的文本分类领域。通过标签化文本向量化方法,使用LSTM这种深度学习模型,从语序角度对用户在餐馆的评论文本进行预训练,通过对预测用户的评论文本的类别,判断该用户是否会再次进行评论,以此确定该用户是否为该餐馆的回头客,解决了浅层机器学习模型对用户二次评论预测准确率较低,tf‑idf等文本向量化方法易导致向量稀疏化问题。

Description

一种餐馆回头客预测模型、方法、系统及设备
技术领域
本发明涉及深度学习的文本分类领域,具体涉及一种餐馆回头客预测模型、方法、系统及设备。
背景技术
随着大数据时代的到来,餐馆的运营方式发生改变。许多餐馆都选择线上线下相结合的运营方式,用户可以通过电脑、手机APP等软件对餐馆进行线上评论。用户通过评论的形式在网络上发表自己对某家餐馆的体验感受,这也给其他用户传递了利于快速决策的信息,帮助其他用户筛选餐馆。同样,用户的线上评论信息也能向餐馆传递信息,通过对评论文本进行分类,寻找潜在的回头客用户,有利于餐馆精准营销,提高餐馆利润。
文本分类是指用计算机或者人工的方式对文本按照一定的分类体系或标准进行自动分类并打上对应的标签,可以快速的对大量的文本进行分类,降低了人工成本。当下的文本分类模型一般分为浅层学习模型和深度学习模型。浅层神经网络是指只有一层隐藏层的神经网络,其结构较为简单,通常用于解决二分类或单变量问题,代表性的模型包括感知器和线性回归模型等。而深层神经网络则是指具有多层隐藏层的神经网络,其结构较为复杂,能够处理多分类和复杂数据类型的问题。
在进行文本分类前还要进行文本向量化操作,一般的文本向量化方法有tf、tf-idf、预训练词向量等,但tf-idf易导致向量稀疏化的问题,而浅层学习模型的分类准确率较低。针对向量稀疏化和准确率较低的问题,提出一种餐馆回头客预测模型、方法、系统及设备。
发明内容
针对现有技术的不足,本发明提出了一种餐馆回头客预测模型、方法、系统及设备,本方法使用词嵌入进行文本向量化操作,通过深度学习模型有效解决准确率较低的问题,该方法能够对用户的评论文本进行有效的分类,通过对评论文本打上回头客或非回头客的标签,预测该用户是否为某家餐馆的回头客用户,帮助餐馆进行精准营销。
本发明的目的可以通过以下技术方案实现:
第一方面,本申请公开一种餐馆回头客预测模型,包括:
将用户评论文本划分为非回头客文本和回头客文本;基于非回头客文本和回头客文本构建第一数据集;
对第一数据集的非回头客文本和回头客文本进行文本向量化处理和筛除停用词得到第二数据集;其中文本向量化处理包括tf处理、tf-idf处理、预训练词向量处理和词嵌入处理;
从第二数据集选取数据,得到训练集、测试集和验证集;将训练集、测试集和验证集分别代入LSTM深度学习模型进行预训练,得到初始预测模型;
通过测试集对初始预测模型进行训练,得到训练后的预测模型;若训练后的预测模型的准确率未达到0.7,则调节初始预测模型的参数,再通过测试集对初始预测模型进行训练;若训练后的预测模型的准确率达到0.7,则训练后的预测模型即为餐馆回头客预测模型。
在一些实施例中,LSTM深度学习模型包括遗忘门、输入门和输出门;
遗忘门满足:;其中为t时刻选择保留的信息,为神经元的斜率,表示t时刻的输入内容,表示t-1时刻的短期记忆,表示神经元的偏置;
输入门满足:
其中,为t时刻的初步长期记忆,为t时刻长期记忆选择保留的信息权重,为神经元的斜率,表示t时刻的输入内容,表示t-1时刻的短期记忆,表示神经元的偏置;
输出门满足:
其中表示t时刻的长期记忆,为t-1时刻的长期记忆,为t时刻输出内容,为神经元的斜率,表示神经元的偏置。
在一些实施例中,将训练集、测试集和验证集分别代入LSTM深度学习模型进行预训练,包括以下步骤:
将第二数据集中的用户评论文本向量中的当前时刻的输入内容时刻的短期记忆输入遗忘门中计算得到时刻选择保留的信息时刻的输入内容;其中,表示用户评论文本向量的长度,
时刻的短期记忆带入输入门进行计算得到时刻长期记忆选择保留的信息权重时刻的初步长期记忆
时刻选择保留的信息时刻长期记忆选择保留的信息权重时刻的初步长期记忆时刻的长期记忆时刻的短期记忆时刻的输入内容带入输出门得到时刻的长期记忆时刻输出内容时刻的短期记忆
重复上述操作,将输入内容变为时刻的输入时刻的短期记忆,即当前时刻变更为时刻,上一时刻变更为时刻,通过这种方式对文本向量进行迭代,得到T时刻的短期记忆
基于T时刻的短期记忆,判断用户评论文本向量所对应的评论所属类别;通过全连接层对T时刻的短期记忆进行处理,得到一个判定数值;判定数值大于0.5,则代表该条评论属于回头客类别,否则属于非回头客类别。
在一些实施例中,调节初始预测模型的参数包括步长、循环次数和神经元个数。
在一些实施例中,词嵌入处理包括以下步骤:
对第一数据集中的用户评论文本分别进行分词操作、筛选停用词、以及忽略中出现在50%以上文档中的词语和出现在2%以下文档的词语的操作,得到N个不同的单词;
给N个不同的单词分配0至N-1的数字标签,通过指代单词,得到存储N个单词以及对应标签的字典,字典格式为:,其中分别指代N个单词;
将分词后的用户评论文本转化为向量;其中M+1为用户评论文本的长度为范围在0至N-1之间的随机数,代表该单词所对应的数字标签。
在一些实施例中,tf处理包括以下步骤:
对第一数据集进行筛选停用词,以及忽略中出现在50%以上文档中的词语和出现在2%以下文档的词语的操作,得到单词的集合;根据得到的单词的集合构建包含N个单词的词袋模型:
,其中指代单词;
对上述词袋模型进行文本向量化操作,将其转化为向量的形式为:,其中代表单词在该用户文本评论中出现的次数,未出现则为0;tf表示词频。
在一些实施例中,tf-idf处理包括以下步骤:
对第一数据集进行筛选停用词,以及忽略中出现在50%以上文档中的词语和出现在2%以下文档的词语的操作,得到单词的集合;根据得到的单词的集合构建包含N个单词的词袋模型:
,其中指代单词;
计算tf值,,其中指代单词,代表单词在该用户文本评论中出现的次数,未出现则为0;
计算idf值,,其中指代单词;
计算tf-idf值,
对上述词袋模型进行文本向量化操作,将其转化为向量的形式为:
,其中代表单词在该用户文本评论中出现的次数,未出现则为0;tf指的是词频,idf指的是逆文本频率。
第二方面,本申请公开一种餐馆回头客预测方法,包括以下步骤:
获取待预测餐馆的用户评论文本;
将所述待预测餐馆的用户评论文本输入如第一方面所述的餐馆回头客预测模型,得到预测结果;
基于所述预测结果确定所述待预测餐馆的回头客数量。
第三方面,本申请公开一种餐馆回头客预测系统,包括以下模块:
获取模块:获取待预测餐馆的用户评论文本;
第一数据集模块:将所述用户评论文本划分为非回头客文本和回头客文本;基于非回头客文本和回头客文本构建第一数据集;
第二数据集模块:将所述第一数据集的非回头客文本和回头客文本进行文本向量化处理和筛除停用词得到第二数据集;其中所述文本向量化处理包括tf、tf-idf、预训练词向量和词嵌入;
初始预测模型构建模块:从所述第二数据集选取数据,得到训练集、测试集和验证集;将所述训练集、测试集和验证集分别代入LSTM深度学习模型进行预训练,得到初始预测模型;
训练模块:通过所述测试集对所述初始预测模型进行训练,得到训练后的预测模型;若所述训练后的预测模型的准确率未达到0.7,则调节所述初始预测模型的参数,通过所述测试集对所述初始预测模型进行训练;若所述训练后的预测模型的准确率达到0.7,则所述训练后的预测模型即为餐馆回头客预测模型;
预测模块:基于所述餐馆回头客预测模型预测回头客的数量。
第四方面,本申请公开一种终端设备,包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序,所述存储器中存储有能够在处理器上运行的计算机程序,所述处理器加载并执行计算机程序时,采用了如第二方面所述的一种餐馆回头客预测方法。
本发明的有益效果:
本发明的餐馆回头客预测模型、方法、系统及设备从文本向量化和机器学习模型两个角度进行改进,从评论文本角度预测回头客,解决了tf-idf易导致向量稀疏化和浅层机器学习模型对用户二次评论预测准确率较低的问题。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本申请的总体流程图;
图2为本申请的LSTM深度学习模型计算模型示意图;
图3为各类机器学习模型准确率结果对比图;
图4为各类机器学习模型精确率结果对比图;
图5为各类机器学习模型召回率结果对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
下面结合实施例对本申请的一种餐馆回头客预测模型进行说明,流程如图1所示,具体包括以下步骤:
S1:为用户评论文本打上非回头客标签和回头客标签;选取含有非回头客标签、回头客标签各20万数据的用户评论文本作为第一数据集;其中若某个用户在某个餐馆发表一条评论,在后续时间段中又在该餐馆再次发表评论,则先前发表的那条评论文本的标签类型为回头客。某个用户在某个餐馆发表一条评论后,没有再次在该餐馆进行评论,则这条评论文本的标签类型为非回头客。
某条评论文本被打上回头客的标签意味着发表该条评论的用户后续还会在该家餐馆继续发表评论,以此来判断该用户属于该家餐馆的回头客。某条评论文本被打上非回头客标签意味着发表该条评论的用户后续不会再次在该家餐馆用餐和发表评论,以此来判断该用户属于非回头客,大概率不会再次光临该家餐馆。
S2:对第一数据集中的非回头客文本和回头客文本分别进行tf、tf-idf、预训练词向量、词嵌入(word encoding)四种文本向量化操作,并筛除停用词,得到第二数据集;具体地包括以下步骤:
(1)Tf的文本向量化步骤如下:
构建词袋,在筛选停用词和设置max_df=0.5,min_df=0.02(其中max_df=0.5表示“忽略出现在50%以上文档中的词语,min_df=0.02表示“忽略出现在2%以下文档的词语”)后,根据得到的单词的集合构建包含N个单词的词袋模型:
,其中指代单词。
进行文本向量化操作,针对用户评论文本,将其转化为向量的形式为:,其中代表单词在该用户文本评论中出现的次数,未出现则为0。
其中,tf就是词频,表示词语在文章中出现的次数。该方法单纯以词频衡量词语的重要性,一条评论文本向量化得到的向量长度是根据所有用户评论文本的词语集合得到的,当评论文本的数据量过大时,可能会造成向量过长,增加计算时间。
(2)tf-idf的文本向量化步骤如下:
同tf的步骤1一样,构建词袋模型。
构建词袋,在筛选停用词和设置max_df=0.5,min_df=0.02(其中max_df=0.5表示“忽略出现在50%以上文档中的词语,min_df=0.02表示“忽略出现在2%以下文档的词语”)后,根据得到的单词的集合构建包含N个单词的词袋模型:
计算tf值,,其中指代单词,代表单词在该用户文本评论中出现的次数,未出现则为0;
计算idf值,,其中指代单词;
计算tf-idf值,
对上述词袋模型进行文本向量化操作,将其转化为向量的形式为:
,其中代表单词在该用户文本评论中出现的次数,未出现则为0;tf指的是词频,idf指的是逆文本频率。
其中,tf指的是词频,idf指的是逆文本频率,tf-idf相较于tf,考虑到了词语在所有文本中出现的频率,对于在语料库中出现频率非常大的词语,降低其权重,在词频的基础上,考虑到词语在语料库中的独特性,并赋予相应权重,但是该方法得到的文本向量通常数值较小,易出现向量稀疏化的问题,造成最终用户二次评论分类预测的准确率较低。
(3)预训练词向量的文本向量化步骤如下:
选择维度为50的预训练词向量文件,构建单词与对应长度为50的向量匹配的字典,形式如下:
,其中指代单词,指代单词所对应的长度为50的向量。
进行文本向量化操作,对于LSTM深度学习模型,在Embedding_dim=50的情况下,预训练词向量数据可直接代入进行预训练。
对于浅层机器学习模型,其要求输入的用户评论文本向量为一维,因此将句子中各单词的向量相加并除以该用户评论文本的长度,得到用户评论文本一维向量,具体步骤如下:
针对一条长度为M+1的用户评论文本,评论文本中各个单词对应的向量形式为,最终得到的一维用户评论文本向量:
预训练词向量,也称Glove embedding,该数据集中包含了单词以及对应的向量,向量之间的距离也可以用来反映单词之间的距离,可直接应用于多种场景。
(4)词嵌入(word encoding)的文本向量化步骤如下:
对所有的用户评论文本分别进行分词操作,筛选停用词和设置max_df=0.5,min_df=0.02后(其中max_df=0.5表示“忽略出现在50%以上文档中的词语,min_df=0.02表示“忽略出现在2%以下文档的词语”),得到N个不同的单词,给这N个单词分配0至N-1的数字标签,通过指代单词,得到存储N个单词以及对应标签的字典,字典格式如下:,其中分别指代N个单词。
将分词后的用户评论文本转化为向量:针对一条长度为M+1的用户评论文本,其中为范围在0至N-1之间的随机数,代表该单词所对应的数字标签,该条用户评论文本所对应的文本向量为
该词嵌入方法是根据具体的数据集生成单词的集合,给定各个单词特定的标签,与预训练词向量方法相比,词嵌入的应用场景具有特殊性,根据数据集不同,单词集合、单词标签会发生改变,词向量也会发生改变。而预训练方法在所有场景中,单词的向量不会发生改变。
故第二数据集包括:
S3:将第二数据集80%的数据为训练集、第二数据集20%的数据为测试集,从训练集中划分10%的数据作为验证集,以便预训练过程中查看准确率情况,将不同的文本向量化数据结果分别代入LSTM深度学习模型进行预训练,得到初始预测模型;
将不同的文本向量化数据结果代入LSTM深度学习模型中进行训练,对于tf、tf-idf、词嵌入这三种文本向量化方法得到的用户评论文本一维向量,代入LSTM深度学习模型中进行训练,加入Embedding层,选择Embedding_dim=50。对于预训练词向量文本向量化方法,LSTM深度学习模型无需加入Embeddin层,该向量化方法已包含Embedding层的操作。
其中LSTM深度学习模型包括遗忘门、输入门和输出门,具体步骤如下:
遗忘门满足:;其中为t时刻选择保留的信息,为神经元的斜率,表示t时刻的输入内容,表示t-1时刻的短期记忆,表示神经元的偏置。通过激活函数给定权重,确定需要保留和去除的信息。
输入门满足:
其中,为t时刻的初步长期记忆,为t时刻长期记忆选择保留的信息权重,为神经元的斜率,表示t时刻的输入内容,表示t-1时刻的短期记忆,表示神经元的偏置。当前输入的内容和上一时刻输出的内容通过激活函数,还通过,两者相乘,选择性的保留当前的输入信息。
输出门满足:
其中表示t时刻的长期记忆,为t-1时刻的长期记忆,为t时刻输出内容,为神经元的斜率,表示神经元的偏置;表示遗忘门的信息,表示输入门的信息,两者相加得到当前时刻即t时刻的长期记忆。通过激活函数tanh、t时刻的长期记忆、t时刻输出内容得到t时刻的短期记忆。最终输出t时刻的长期记忆和t时刻的短期记忆
其中,通过遗忘门对上一状态中的用户评论文本信息进行选择性保留,输入门输入心得用户评论文本信息,并将新输入的用户评论文本信息选择性的增加到目前的状态中,输出门控制选择性的输出权重占比较大的部分信息,做出预测。具体的包括以下步骤:
针对第二数据集中一条长为k+1的用户评论文本向量为;假设当前时刻为时刻(),此时输入为时刻的输入内容,将上一时刻即时刻的短期记忆和当前时刻的输入内容带入遗忘门中,遗忘门通过激活函数,以及神经元的斜率和神经元的偏置这两个参数对数据进行计算,得到选择保留的信息。将上一时刻即时刻的短期记忆和当前时刻的输入内容带入输入门中,输入门分别通过这两个激活函数得到时刻长期记忆选择保留的信息权重时刻的初步长期记忆
将遗忘门、输入门得到的时刻选择保留的信息时刻长期记忆选择保留的信息权重时刻的初步长期记忆时刻的长期记忆带入输出门,计算得到时刻的长期记忆,将上一时刻即时刻的短期记忆和当前时刻的输入内容带入输出门中,得到时刻输出内容,再通过激活函数tanh、时刻的长期记忆时刻输出内容得到时刻的短期记忆,最终得到时刻的长期记忆,通过对时刻的长期记忆进行选择性保留,最终得到时刻的短期记忆;接着重复上述操作,将输入内容变为时刻的输入时刻的短期记忆,即当前时刻变更为时刻,上一时刻变更为时刻,通过这种方式对文本向量进行迭代,最后得到T时刻的短期记忆;通过全连接层对T时刻的短期记忆进行处理,得到一个判定数值,该判定数值大于0.5,则代表该条评论属于回头客类别,否则属于非回头客类别。
初始预测模型即为通过上述LSTM深度学习模型训练80%的数据后得到的模型。
对于浅层机器学习模型,针对tf、tf-idf、词嵌入这三种文本向量化方法,将其得到的一维向量直接代入训练,针对预训练词向量文本向量化方法,按照上述步骤S2中预训练词向量的介绍,将其转化为一维向量,代入浅层机器学习模型中进行训练;
由于浅层机器学习模型需要调节的参数较少,结构简单,易于理解,适用的范围较广,但是浅层机器学习模型得到的分类结构较为粗糙,分类准确率较低,只适用于简单的分类任务和较为结构化的数据集,但是用户的评论文本数据结构并不明显,因此浅层机器学习已经无法满足用户二次评论文本分类任务要求。而LSTM深度学习模型可以自动的对数据进行特征提取和分类,可以通过调节参数(batchsize、epoch、hidden_dim),使得模型本身适合于各种大小的数据集。
这也意味着LSTM深度学习模型的参数调节比浅层机器学习模型复杂,需要不断进行调参以达到提高分类准确率的目的。通过训练集数据训练各类机器学习模型,通过验证集查看预测效果,当准确率较差时,继续调节机器学习模型参数,当结果较好时,代入测试集进行预测,得到测试集准确率情况,评估各类机器学习模型。
最终得到的各类机器学习模型最优参数以及对于文本向量化方法如表1所示:
表1
其中,KNN中的n_neighbors为参数指定K值,也就是参照K个距离最近的已知数据;metric表示距离的计算方法,metric = "euclidean"代表通过欧几里得方法计算距离;
Logistic Regression中的C表示正则化强度的倒数。正则化系数决定惩罚程度,C的数值越小表示正则化越强。
SVM中的kernel='linear',代表选择的核函数为linear(线性核函数) ;C代表错误项的惩罚系数。c越大,即对分错样本的惩罚程度越大,因此在训练样本中准确率越高,但是泛化能力降低,也就是对测试数据的分类准确率降低。相反,减小c的话,允许训练样本中有一些误分类错误样本,泛化能力强。
Decision Tree中的criterion表示属性分裂的准则,这里选择gini系数作为属性分裂的准则;min_impurity_decrease是常用的先剪枝手段之一,规定如果分裂后的不纯度降低小于该值,则认为分裂效果不显著,即不进行分裂;max_depth可用于规定分裂层数的上限,若不指定则尽可能分裂更多层数; min_samples_leaf是另一种先剪枝手段,规定如果分裂后的结点包含小于阈值数的样本,则不进行分裂。
LSTM深度学习模型中的epoch为循环次数,当一个完整的数据集通过了神经网络一次并且返回了一次,这个过程称为一个epoch;batchsize为步长,代表一次训练中输入多少数据进行训练;maxlen为文本向量长度,如果初始文本向量长度大于maxlen,则筛除末尾数据,如果初始的文本向量长度小于maxlen,则在末尾进行补0操作,达到用户评论文本向量长度一致的目的,便于后续训练(在tf、tf-idf这两种方法下,maxlen=536,其中536为文本向量最大长度);hidden_dim为神经元个数。
针对LSTM深度学习模型的调参步骤,当总数据量为40万时,对于预训练词向量和词嵌入这两种文本向量化方法,神经元个数达到100后,继续增加神经元个数,准确率提升幅度较小,且运行时间增加较多,因此最终确定神经元个数为100。重复上述调参流程,综合考虑代码运行时间和预测准确率情况,最终确定四种文本向量化方法下最优的epoch、batchsize、maxlen、hidden_dim。
S4:通过测试集对初始预测模型进行训练,得到训练后的预测模型;若所述训练后的预测模型的准确率未达到0.7,则调节所述初始预测模型的参数,通过所述测试集对所述初始预测模型进行训练;若所述训练后的预测模型的准确率达到0.7,则所述训练后的预测模型即为餐馆回头客预测模型。
本申请采用准确率、精确率、召回率作为模型的评价指标;表2为评论文本预测的可能结果分类
各类深度学习模型和浅层机器学习模型的准确率、精确率、召回率结果分别如图3、4、5所示。
表2评论文本预测的可能结果分类
准确率
准确率表示,针对用户评论测试集的数据,机器学习模型预测正确的用户评论文本数量除以测试集用户评论文本总数据量。代表测试集整体预测的准确率情况,准确率越高,模型预测结果越准确。
精确率
精确率表示,针对用户评论测试集的数据,机器学习模型预测用户评论文本为回头客并且该用户评论文本实际也属于回头客类别的数据量除以所有预测为回头客类别的用户评论文本数量。
召回率
召回率表示,针对用户评论测试集的数据,机器学习模型预测用户评论文本为回头客并且该用户评论文本实际也属于回头客类别的数据量除以测试集数据中用户评论文本实际为回头客类别的数据量。代表对回头客类别的用户评论文本预测的准确率情况,召回率越高,模型对回头客类别的评论文本预测越准确,能够精准的为餐馆预测回头客用户。
图3、4、5分别是代码运行十次后得到的准确率、精确率、召回率结果的均值,以及根据对应情况下得到的标准差的均值,绘制柱状图并添加error bar。
根据图3所示,当文本向量化方法为词嵌入,机器学习模型为LSTM深度学习模型时,用户二次评论预测的准确率最高,为0.73,并且准确率较为稳定。浅层机器学习模型预测的准确率一般在0.5-0.6之间,从机器学习模型的角度来看,LSTM深度学习模型的准确率总体上高于浅层机器学习模型。结果表示,本发明通过深度学习模型提高了用户二次评论预测的准确率。从文本向量化方法的角度来看,词嵌入方法下,用户二次评论预测的准确率最高,其他文本向量化方法在各类机器学习模型下的准确率都低于0.7,结果表示,本发明通过词嵌入文本向量化方法成功提高了模型的准确率,解决了tf-idf文本向量化方法由于向量稀疏化导致准确率较低的问题。
根据图4所示,从机器学习模型的角度来看,LSTM深度学习模型的精确率普遍高于浅层机器学习模型,在LSTM深度学习模型下,词嵌入(和预训练词向量这两种文本向量化方法的精确率较高,在0.7以上,且结果较为稳定。在浅层机器学习模型Decision Tree下,用户二次评论预测的准确率最低,且最不稳定,变化幅度较大。
根据图5所示,从机器学习模型的角度来看,浅层机器学习模型KNN的召回率最高,为0.86,且稳定性较好,该召回率结果表示,KNN对回头客预测的准确率高于LSTM深度学习模型,这可能于KNN将大多数用户评论文本预测为回头客有关。
LSTM深度学习模型下,词嵌入作为文本向量化方法时,召回率结果为0.72,准确率结果为0.73,这表示深度学习模型LSTM深度学习模型对总数据集(包含回头客、非回头客)预测的准确率较高,同时对回头客类别的评论文本的预测也较为准确,均在0.7以上,并且准确率和召回率均较为稳定,分别为0.017和0.036。说明本专利提出的基于LSTM深度学习模型的餐馆回头客预测方法准确率较高,且模型性能稳定。
本发明从用户评论文本出发,提出一种餐馆回头客预测模型,该模型利用深度学习模型对用户评论文本进行预训练,根据对用户的评论文本进行分类,判断该评论文本所属类别,以此判断在某家餐馆发表该评论的用户是否为该餐馆的回头客,使用深度学习模型帮助餐馆快速的整理得到可能的回头客名单,以此辅助各餐馆做出精准营销决策。
本申请实施例公开一种餐馆回头客预测方法,包括以下步骤:
获取待预测餐馆的用户评论文本;
将所述待预测餐馆的用户评论文本输入如上述实施例中的餐馆回头客预测模型,得到预测结果;
基于所述预测结果确定所述待预测餐馆的回头客数量。
本申请实施例公开一种餐馆回头客预测系统,包括以下模块:
获取模块:获取待预测餐馆的用户评论文本;
第一数据集模块:将所述用户评论文本划分为非回头客文本和回头客文本;基于非回头客文本和回头客文本构建第一数据集;
第二数据集模块:将所述第一数据集的非回头客文本和回头客文本进行文本向量化处理和筛除停用词得到第二数据集;其中所述文本向量化处理包括tf、tf-idf、预训练词向量和词嵌入;
初始预测模型构建模块:以所述第二数据集80%的数据为训练集、所述第二数据集20%的数据为测试集、所述训练集10%的数据为验证集,分别代入LSTM深度学习模型和浅层学习模型进行预训练,得到初始预测模型;
训练模块:通过所述测试集对所述初始预测模型进行训练,得到训练后的预测模型;若所述训练后的预测模型的准确率未达到0.7,则调节所述初始预测模型的参数,通过所述测试集对所述初始预测模型进行训练;若所述训练后的预测模型的准确率达到0.7,则所述训练后的预测模型即为餐馆回头客预测模型;
预测模块:基于所述餐馆回头客预测模型预测回头客的数量。
本申请实施例还公开一种终端设备,包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,其中,处理器执行计算机程序时,采用了上述实施例中的一种餐馆回头客预测方法。
其中,终端设备可以采用台式电脑、笔记本电脑或者云端服务器等计算机设备,并且,终端设备包括但不限于处理器以及存储器,例如,终端设备还可以包括输入输出设备、网络接入设备以及总线等。
其中,处理器可以采用中央处理单元(CPU),当然,根据实际的使用情况,也可以采用其他通用处理器、数字信号处理器(DSP)、专用集成电路(基于LSTM深度学习模型的餐馆回头客预测SIC)、现成可编程门阵列(FPG基于LSTM深度学习模型的餐馆回头客预测)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以采用微处理器或者任何常规的处理器等,本申请对此不做限制。
其中,存储器可以为终端设备的内部存储单元,例如,终端设备的硬盘或者内存,也可以为终端设备的外部存储设备,例如,终端设备上配备的插接式硬盘、智能存储卡(SMC)、安全数字卡(SD)或者闪存卡(FC)等,并且,存储器还可以为终端设备的内部存储单元与外部存储设备的组合,存储器用于存储计算机程序以及终端设备所需的其他程序和数据,存储器还可以用于暂时地存储已经输出或者将要输出的数据,本申请对此不做限制。
其中,通过本终端设备,将上述实施例中的任意一种餐馆回头客预测方法存储于终端设备的存储器中,并且,被加载并执行于终端设备的处理器上,方便使用。
本申请实施例还公开一种计算机可读存储介质,并且,计算机可读存储介质存储有计算机程序,其中,计算机程序被处理器执行时,采用了上述实施例中的任意一种餐馆回头客预测方法。
其中,计算机程序可以存储于计算机可读介质中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间件形式等,计算机可读介质包括能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM)、随机存取存储器(R基于LSTM深度学习模型的餐馆回头客预测M)、电载波信号、电信信号以及软件分发介质等,需要说明的是,计算机可读介质包括但不限于上述元器件。
其中,通过本计算机可读存储介质,将上述实施例中的任意一种餐馆回头客预测方法存储于计算机可读存储介质中,并且,被加载并执行于处理器上,以方便上述方法的存储及应用。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (5)

1.一种餐馆回头客预测模型的构建方法,其特征在于,包括:
将用户评论文本划分为非回头客文本和回头客文本;基于非回头客文本和回头客文本构建第一数据集;
对第一数据集的非回头客文本和回头客文本进行词嵌入处理和筛除停用词得到第二数据集;
从第二数据集选取数据,得到训练集、测试集和验证集;将训练集、测试集和验证集分别代入LSTM深度学习模型进行预训练,得到初始预测模型;
通过测试集对初始预测模型进行训练,得到训练后的预测模型;若训练后的预测模型的准确率未达到0.7,则调节初始预测模型的参数,再通过测试集对初始预测模型进行训练;若训练后的预测模型的准确率达到0.7,则训练后的预测模型即为餐馆回头客预测模型;
所述词嵌入处理包括以下步骤:
对第一数据集中的用户评论文本分别进行分词操作、筛选停用词、以及忽略中出现在50%以上文档中的词语和出现在2%以下文档的词语的操作,得到N个不同的单词;
给N个不同的单词分配0至N-1的数字标签,通过指代单词,得到存储N个单词以及对应标签的字典,字典格式为:,其中分别指代N个单词;
将分词后的用户评论文本转化为向量;其中M+1为用户评论文本的长度为范围在0至N-1之间的随机数,代表该单词所对应的数字标签;
LSTM深度学习模型包括遗忘门、输入门和输出门;
遗忘门满足:;其中为t时刻选择保留的信息,为神经元的斜率,表示t时刻的输入内容,表示t-1时刻的短期记忆,表示神经元的偏置;
输入门满足:
其中,为t时刻的初步长期记忆,为t时刻长期记忆选择保留的信息权重,为神经元的斜率,表示t时刻的输入内容,表示t-1时刻的短期记忆,表示神经元的偏置;
输出门满足:
其中表示t时刻的长期记忆,为t-1时刻的长期记忆,为t时刻输出内容,为神经元的斜率,表示神经元的偏置;
将训练集、测试集和验证集分别代入LSTM深度学习模型进行预训练,包括以下步骤:
将第二数据集中的用户评论文本向量中的当前时刻的输入内容时刻的短期记忆输入遗忘门中计算得到时刻选择保留的信息时刻的输入内容;其中,表示用户评论文本向量的长度,
时刻的短期记忆带入输入门进行计算得到时刻长期记忆选择保留的信息权重时刻的初步长期记忆
将时刻选择保留的信息时刻长期记忆选择保留的信息权重时刻的初步长期记忆时刻的长期记忆时刻的短期记忆时刻的输入内容带入输出门得到时刻的长期记忆时刻输出内容时刻的短期记忆
将输入内容变为时刻的输入时刻的短期记忆,即当前时刻变更为时刻,上一时刻变更为时刻,通过这种方式对文本向量进行迭代,得到T时刻的短期记忆
基于T时刻的短期记忆,判断用户评论文本向量所对应的评论所属类别;通过全连接层对T时刻的短期记忆进行处理,得到一个判定数值;判定数值大于0.5,则代表该条评论属于回头客类别,否则属于非回头客类别。
2.根据权利要求1所述的一种餐馆回头客预测模型的构建方法,其特征在于,调节初始预测模型的参数包括步长、循环次数和神经元个数。
3.一种餐馆回头客预测方法,其特征在于,包括以下步骤:
获取待预测餐馆的用户评论文本;
将所述待预测餐馆的用户评论文本输入如权利要求1~2任一项所述的餐馆回头客预测模型的构建方法构建的模型,得到预测结果;
基于所述预测结果确定所述待预测餐馆的回头客数量。
4.一种餐馆回头客预测系统,其特征在于,包括以下模块:
获取模块:获取待预测餐馆的用户评论文本;
第一数据集模块:将所述用户评论文本划分为非回头客文本和回头客文本;基于非回头客文本和回头客文本构建第一数据集;
第二数据集模块:将所述第一数据集的非回头客文本和回头客文本进行词嵌入处理和筛除停用词得到第二数据集;
初始预测模型构建模块:从所述第二数据集选取数据,得到训练集、测试集和验证集;将所述训练集、测试集和验证集分别代入LSTM深度学习模型进行预训练,得到初始预测模型;
训练模块:通过所述测试集对所述初始预测模型进行训练,得到训练后的预测模型;若所述训练后的预测模型的准确率未达到0.7,则调节所述初始预测模型的参数,通过所述测试集对所述初始预测模型进行训练;若所述训练后的预测模型的准确率达到0.7,则所述训练后的预测模型即为餐馆回头客预测模型;
预测模块:基于权利要求1~2任一项所述的餐馆回头客预测模型的构建方法构建的模型预测回头客的数量。
5.一种终端设备,包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序,其特征在于,所述存储器中存储有能够在处理器上运行的计算机程序,所述处理器加载并执行计算机程序时,采用了如权利要求3所述的一种餐馆回头客预测方法。
CN202410257553.9A 2024-03-07 2024-03-07 一种餐馆回头客预测模型、方法、系统及设备 Active CN117852507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410257553.9A CN117852507B (zh) 2024-03-07 2024-03-07 一种餐馆回头客预测模型、方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410257553.9A CN117852507B (zh) 2024-03-07 2024-03-07 一种餐馆回头客预测模型、方法、系统及设备

Publications (2)

Publication Number Publication Date
CN117852507A CN117852507A (zh) 2024-04-09
CN117852507B true CN117852507B (zh) 2024-05-17

Family

ID=90544413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410257553.9A Active CN117852507B (zh) 2024-03-07 2024-03-07 一种餐馆回头客预测模型、方法、系统及设备

Country Status (1)

Country Link
CN (1) CN117852507B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210913A (zh) * 2019-06-14 2019-09-06 重庆邮电大学 一种基于大数据的商家回头客预测方法
CN110704710A (zh) * 2019-09-05 2020-01-17 上海师范大学 一种基于深度学习的中文电商情感分类方法
CN110929034A (zh) * 2019-11-26 2020-03-27 北京工商大学 一种基于改进lstm的商品评论细粒度情感分类方法
CN111858945A (zh) * 2020-08-05 2020-10-30 上海哈蜂信息科技有限公司 基于深度学习的评论文本方面级情感分类方法及系统
CN111914060A (zh) * 2020-06-28 2020-11-10 杭州电子科技大学 一种基于在线点评数据的商户多视图特征提取及模型构建方法
CN111914086A (zh) * 2020-07-07 2020-11-10 广西科技大学 一种基于lstm神经网络的手机评论分析方法及系统
CN114357170A (zh) * 2022-01-05 2022-04-15 中国工商银行股份有限公司 模型训练方法、分析方法、装置、设备及介质
CN114896386A (zh) * 2021-09-24 2022-08-12 武汉工程大学 基于BiLSTM的电影评论语义情感分析方法及系统
CN115879546A (zh) * 2022-11-29 2023-03-31 河北工程大学 一种复合神经网络心理医学知识图谱构建方法及系统
CN115934951A (zh) * 2023-02-16 2023-04-07 湖南大学 一种网络热点话题用户情绪预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11379668B2 (en) * 2018-07-12 2022-07-05 Samsung Electronics Co., Ltd. Topic models with sentiment priors based on distributed representations
US11436267B2 (en) * 2020-01-08 2022-09-06 International Business Machines Corporation Contextually sensitive document summarization based on long short-term memory networks

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210913A (zh) * 2019-06-14 2019-09-06 重庆邮电大学 一种基于大数据的商家回头客预测方法
CN110704710A (zh) * 2019-09-05 2020-01-17 上海师范大学 一种基于深度学习的中文电商情感分类方法
CN110929034A (zh) * 2019-11-26 2020-03-27 北京工商大学 一种基于改进lstm的商品评论细粒度情感分类方法
CN111914060A (zh) * 2020-06-28 2020-11-10 杭州电子科技大学 一种基于在线点评数据的商户多视图特征提取及模型构建方法
CN111914086A (zh) * 2020-07-07 2020-11-10 广西科技大学 一种基于lstm神经网络的手机评论分析方法及系统
CN111858945A (zh) * 2020-08-05 2020-10-30 上海哈蜂信息科技有限公司 基于深度学习的评论文本方面级情感分类方法及系统
CN114896386A (zh) * 2021-09-24 2022-08-12 武汉工程大学 基于BiLSTM的电影评论语义情感分析方法及系统
CN114357170A (zh) * 2022-01-05 2022-04-15 中国工商银行股份有限公司 模型训练方法、分析方法、装置、设备及介质
CN115879546A (zh) * 2022-11-29 2023-03-31 河北工程大学 一种复合神经网络心理医学知识图谱构建方法及系统
CN115934951A (zh) * 2023-02-16 2023-04-07 湖南大学 一种网络热点话题用户情绪预测方法

Also Published As

Publication number Publication date
CN117852507A (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
US11631029B2 (en) Generating combined feature embedding for minority class upsampling in training machine learning models with imbalanced samples
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
US8645298B2 (en) Topic models
Silva Filho et al. Classifier calibration: a survey on how to assess and improve predicted class probabilities
Madjarov et al. An extensive experimental comparison of methods for multi-label learning
Xie et al. Factorization machine based service recommendation on heterogeneous information networks
CN109145245A (zh) 预测点击率的方法、装置、计算机设备及存储介质
CN112685539B (zh) 基于多任务融合的文本分类模型训练方法和装置
CN110263152A (zh) 基于神经网络的文本分类方法、系统及计算机设备
CN111259647A (zh) 基于人工智能的问答文本匹配方法、装置、介质及电子设备
Moreo et al. Re-assessing the “classify and count” quantification method
CN112288554B (zh) 商品推荐方法和装置、存储介质及电子装置
CN113609337A (zh) 图神经网络的预训练方法、训练方法、装置、设备及介质
JP2020512651A (ja) 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体
CN113486670B (zh) 基于目标语义的文本分类方法、装置、设备及存储介质
Ciaburro et al. Python Machine Learning Cookbook: Over 100 recipes to progress from smart data analytics to deep learning using real-world datasets
CN109063120B (zh) 一种基于聚类的协同过滤推荐方法和装置
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN113159213A (zh) 一种业务分配方法、装置及设备
CN114707041A (zh) 消息推荐方法、装置、计算机可读介质及电子设备
CN108304568B (zh) 一种房地产公众预期大数据处理方法及系统
Latha et al. Product recommendation using enhanced convolutional neural network for e-commerce platform
CN117852507B (zh) 一种餐馆回头客预测模型、方法、系统及设备
CN115730152A (zh) 基于用户画像分析的大数据处理方法及大数据处理系统
CN116089713A (zh) 推荐模型训练方法、推荐方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant