CN116932853A - 一种基于app评论数据的用户需求获取方法 - Google Patents

一种基于app评论数据的用户需求获取方法 Download PDF

Info

Publication number
CN116932853A
CN116932853A CN202310914763.6A CN202310914763A CN116932853A CN 116932853 A CN116932853 A CN 116932853A CN 202310914763 A CN202310914763 A CN 202310914763A CN 116932853 A CN116932853 A CN 116932853A
Authority
CN
China
Prior art keywords
text
data
user demand
training
app
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310914763.6A
Other languages
English (en)
Other versions
CN116932853B (zh
Inventor
王进
周继聪
周青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Renshengguo Information Technology Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202310914763.6A priority Critical patent/CN116932853B/zh
Publication of CN116932853A publication Critical patent/CN116932853A/zh
Application granted granted Critical
Publication of CN116932853B publication Critical patent/CN116932853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理领域领域,具体涉及一种基于APP评论数据的用户需求获取方法,包括通过Python爬虫爬取APP评论数据并进行预处理,得到预处理文本数据;采用预处理文本数据对Bert模型进行SRP任务和LAP任务的联合预训练;构造用户需求预测模型,采用预训练完成的Bert模型对预处理文本数据构造训练数据编码,采用编码后的训练数据训练用户需求预测模型;预训练完成的Bert模型与训练完成的用户需求预测模型组成用户需求生成模型,获取待处理数据输入用户需求生成模型得到对应的用户需求生成结果;本发明将文本分类问题转换为匹配问题,缓解了评论类别分布不平衡的问题,提升了预测性能。

Description

一种基于APP评论数据的用户需求获取方法
技术领域
本发明属于自然语言处理领域领域,具体涉及一种基于APP评论数据的用户需求获取方法。
背景技术
随着互联网技术的不断发展,计算机软件的应用范围和规模也在不断扩大。互联网技术的大范围普及使软件成为了各行各业的核心工具和基础设施,人们对软件的质量和用户体验有了更高的要求。
在软件开发过程中,了解用户需求是至关重要的。用户需求是指用户对软件系统功能、性能、可靠性等方面的期望和要求。传统的用户需求获取方法包括面对面访谈、问卷调查、焦点小组讨论等。然而,这些方法存在一些局限性,例如可能导致信息不完整、存在主观偏见或者用户无法准确表达需求。
近年来,用户在各种在线平台上留下了大量的评论和反馈。这些评论往往包含了用户对软件产品的使用体验、问题反馈、功能需求等信息。因此,研究人员开始关注如何利用这些用户评论来获取软件的用户需求。目前很多热门的方法都能够利用自然语言处理、机器学习等技术从大量的用户评论中提取有用的信息,但现有的这些方法仍然存在一些不足之处,用户评论往往是在特定的上下文中产生的,而算法在进行用户需求挖掘时可能无法准确理解上下文信息。此外,用户评论中的语义可能具有隐含和模糊性,这也增加了算法理解和处理的难度。同时,很多评论其实并不具备一些需求性的意见,有需求性意见的评论只是少数,所以这也带来了数据类别不平衡的问题。
发明内容
为解决上述问题,本发明提供了一种基于APP评论数据的用户需求获取方法,包括以下步骤:
S1.通过Python爬虫爬取APP评论数据并进行预处理,得到预处理文本数据;
S2.采用预处理文本数据对Bert模型进行SRP任务和LAP任务的联合预训练;
S3.构造用户需求预测模型,采用预训练完成的Bert模型对基于预处理文本数据构造的训练数据编码,采用编码后的训练数据训练用户需求预测模型;
S4.预训练完成的Bert模型与训练完成的用户需求预测模型组成用户需求生成模型,获取待处理数据输入用户需求生成模型得到对应的用户需求生成结果。
进一步的,步骤S1通过Python爬虫爬取APP评论数据并进行预处理,包括:
S11.爬取数据:通过Python爬虫爬取8款APP在应用商城的多条评论;
S12.清洗数据:去除每一条评论中的特殊符号,只保留英文、中文、数字以及常见标点符号;
S13.筛选数据:对于清洗后的所有评论,筛除掉长度小于4个字符以及大于200个字符的评论;
S14.数据分类:对于筛除后的所有评论,按照功能需求、非功能需求和其他三种类别进行划分。
进一步的,步骤S2采用预处理文本数据对Bert模型进行SRP任务,包括:
S201.在预处理文本数据中选取一条类别为x的预处理文本qx,剩余预处理文本组成第二数据集;
S202.在第二数据集中,以概率p1随机选取一条类别为x的预处理文本cx,将其与预处理文本qx构成同类型文本对<qx,cx>,并打上标签1;以概率1-p1随机选取一条类别为y的预处理文本cy,将其与预处理文本qx构成异类型文本对
<qx,cy>,并打上标签0;其中x和y为两种不同的类别;
S203.将步骤S202获取的数据输入Bert模型,输出文本间关系预测结果。
进一步的,步骤S2采用预处理文本数据对Bert模型进行LAP任务,包括:
S211.在预处理文本数据中选取一条类别为x的预处理文本qx
S212.对于预处理文本qx,以15%的概率随机丢弃预处理文本qx中的一个词语,形成第一文本并打上标签1;以15%的概率随机替换预处理文本qx中的一个词语,形成第二文本并打上标签2;以15%的概率重复生成预处理文本qx中的一个词语,形成第三文本并打上标签3;将第一文本、第二文本和第三文本以外的情况看做形成第四文本,并打上标签0;
S213.将步骤S212获取的数据输入Bert模型,输出文本内类别增强预测结果。
进一步的,步骤S3根据预处理文本数据构造训练数据,包括:
S301.在预处理文本数据中选取一条类别为x的预处理文本qx作为待匹配元素,剩余预处理文本组成第二数据集;
S302.在第二数据集中,随机选取3条类别分别为x、y、z的预处理文本cx、cy、cz作为候选元素,将其与预处理文本qx组成(qx,cx,cy,cz)四元组,并采用符号[SEP]对(qx,cx,cy,cz)四元组中的cx、cy、cz进行分隔处理;其中x、y、z是3种不同的类别;
S303.将(qx,cx,cy,cz)四元组中cx、cy、cz的排列顺序打乱,然后查找cx的位置并记为索引标签x’;索引标签x’=0,表示cx在qx后面第一个位置;索引标签x’=1,表示cx在qx后面第二个位置;索引标签x’=2,表示cx在qx后面第三个位置;
S304.将索引标签x’加在(qx,cx,cy,cz)四元组后面,并在(qx,cx,cy,cz)四元组前面加入三个特殊标记符号[MASK],最终得到一条训练样本,表示为([MASK][MASK][MASK],qx,cx,cy,cz,x’);
S305.重复步骤S301-304,获取多条训练样本组成训练数据。
进一步的,采用训练数据对用户需求预测模型进行训练,包括:
S311.将训练样本([MASK][MASK][MASK],qx,cx,cy,cz,x’)送入预训练完成的Bert模型,得到待匹配元素qx的特征向量Sm和候选元素cx、cy、cz的特征向量S1、S2、S3
S312.初始化三个可学习矩阵M1、M2和M3,提取出三个特殊标记符号[MASK]的字向量Em1、Em2和Em3
S313.根据S311和S312获取的数据计算每一个候选元素的评分向量,
S314.根据评分向量获取待匹配元素qx的类别预测结果。
进一步的,步骤S313计算评分向量的公式为:
scorei∈{1,2,3}=σ(Emi(wi(Mi⊙Si)Sm T+ti))
其中,i=1,2,3,score1表示候选元素cx的评分向量,score2表示候选元素cy的评分向量,score3表示候选元素cz的评分向量,wi表示第i个线性层的可学习权重,ti表示第i个线性层的可学习偏置,σ表示sigmoid激活函数,⊙表示逐元素相乘,Sm T表示Sm的转置矩阵。
本发明的有益效果:
本发明提出了一种基于APP评论数据的用户需求获取方法,在对Bert模型进行预训练时,提出SRP任务和LAP任务进行联合训练,从而使Bert模型充分理解评论内容,解决评论文字语义难以提取的困难。本发明还提出了一种数据处理方式来构建用户需求预测模型的训练数据,将预处理文本转换为listwise文本,即训练样本,将模型文本分类训练变成匹配任务,对于标签类别更少的部分,会更加稳定不受到影响,缓解了评论类别分布不平衡的问题,提升了方法的预测性能。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于APP评论数据的用户需求获取方法,如图1所示,包括以下步骤:
S1.通过Python爬虫爬取APP评论数据并进行预处理,得到预处理文本数据。
优选地,步骤S1通过Python爬虫爬取APP评论数据并进行预处理,包括:
S11.爬取数据:通过Python爬虫爬取8款APP在应用商城的多条评论。
具体地,本发明实施例主要爬取Bilibili视频、小红书、百度、UC浏览器、360手机卫士、微信、QQ音乐和淘宝8款APP在360手机应用商店的评论数据,共计11567条,其中好评由于包含需求信息很少,所以不进行爬取,只爬取中评和差评。
S12.清洗数据:去除每一条评论中的特殊符号,只保留英文、中文、数字以及常见标点符号。
S13.筛选数据:对于清洗后的所有评论,筛除掉长度小于4个字符以及大于200个字符的评论。
S14.数据分类:对于筛除后的所有评论,按照功能需求、非功能需求和其他三种类别进行划分;
S15.数据划分:完成数据类别划分后,将整体数据以8:2的比例划分为训练集和测试集。
具体地,功能需求类别是指该评论内容中涉及到一些用户认为待添加或者待改进的功能,非功能需求类别是指评论内容中涉及到APP性能问题、可靠性问题或者可用性问题等,其他类别是指评论内容无法为开发者提供明确的意见。本发明实施例获取的11567条评论在完成S12-S14的所有处理过程以后,最终得到3605条评论,其中,功能需求类别的评论有486条,非功能需求的评论有760条,其他的评论有2359条。
S2.采用预处理文本数据对Bert模型进行SRP任务和LAP任务的联合预训练。
优选地,在每一个模型的训练过程中,所采用的数据都是经过步骤S15划分后的训练集中的。
优选地,步骤S2采用预处理文本数据对Bert模型进行基于类别关系预测的SRP(Sentence Relation Prediction)任务,包括:
S201.在预处理文本数据中选取一条类别为x的预处理文本qx,剩余预处理文本组成第二数据集;
S202.在第二数据集中,以概率p1随机选取一条类别为x的预处理文本cx,将其与预处理文本qx构成同类型文本对<qx,cx>,并打上标签1;以概率1-p1随机选取一条类别为y的预处理文本cy,将其与预处理文本qx构成异类型文本对<qx,cy>,并打上标签0;其中x和y为两种不同的类别;
S203.将步骤S202获取的数据输入Bert模型,输出文本间关系预测结果,采用交叉损失熵函数计算损失值。
优选地,步骤S2采用预处理文本数据对Bert模型进行基于语言增强的LAP(Language Augment Prediction)任务,包括:
S211.在预处理文本数据中选取一条类别为x的预处理文本qx
S212.对于预处理文本qx,以15%的概率随机丢弃预处理文本qx中的一个词语,丢弃词语后的预处理文本qx形成第一文本并打上标签1;以15%的概率随机选取预处理文本qx中的一个词语,并采用与其相似的词语进行替换,替换词语后的预处理文本qx形成第二文本并打上标签2;以15%的概率随机选取预处理文本qx中的一个词语,并针对该词语重复生成一个词语加入预处理文本qx,然后形成第三文本并打上标签3;将第一文本、第二文本和第三文本以外的情况看做形成第四文本,并打上标签0;
S213.将步骤S212获取的数据输入Bert模型,输出文本内类别增强预测结果,即判断输入数据是以哪种方式被改变增强的,让Bert模型对句子中细节的词语变化更加敏感,然后采用交叉熵损失函数计算损失值。
具体地,在Bert模型的预训练过程中,SRP任务和LAP任务同时进行,Bert模块作为两种任务共享的上层结构,采用两种不同的分类器进行任务结果预测。SRP任务和LAP任务的损失值以1:1加权求和得到预训练的总损失值,将总损失值反向传播以此对Bert模型进行预训练。
S3.构造用户需求预测模型,采用预训练完成的Bert模型对预处理文本数据构造的训练数据编码,采用编码后的训练数据训练用户需求预测模型。
具体地,步骤S3根据预处理文本数据构造训练数据,包括:
S301.在预处理文本数据中选取一条类别为x的预处理文本qx作为待匹配元素,剩余预处理文本组成第二数据集;
S302.在第二数据集中,随机选取3条类别分别为x、y、z的预处理文本cx、cy、cz作为候选元素,将其与预处理文本qx组成(qx,cx,cy,cz)四元组,并采用符号[SEP]对(qx,cx,cy,cz)四元组中的cx、cy、cz进行分隔处理;其中x、y、z是3种不同的类别;
S303.将(qx,cx,cy,cz)四元组中cx、cy、cz的排列顺序打乱,然后查找cx的位置并记为索引标签x’;索引标签x’=0,表示cx在qx后面第一个位置;索引标签x’=1,表示cx在qx后面第二个位置;索引标签x’=2,表示cx在qx后面第三个位置;
S304.将索引标签x’加在(qx,cx,cy,cz)四元组后面,并在(qx,cx,cy,cz)四元组前面加入三个特殊标记符号[MASK],最终得到一条训练样本,表示为([MASK][MASK][MASK],qx,cx,cy,cz,x’);
S305.重复步骤S301-304,获取多条训练样本组成训练数据。
具体地,采用训练数据对用户需求预测模型进行训练,包括:
S311.将训练样本([MASK][MASK][MASK],qx,cx,cy,cz,x’)送入预训练完成的Bert模型,得到待匹配元素qx的特征向量Sm和候选元素cx、cy、cz的特征向量S1、S2、S3
S312.初始化三个可学习矩阵M1、M2和M3,提取出三个特殊标记符号[MASK]的字向量Em1、Em2和Em3
S313.根据S311和S312获取的数据计算每一个候选元素的评分向量scorei
具体地,步骤S313计算评分向量的公式为:
scorei∈{1,2,3}=σ(Emi(wi(Mi⊙Si)Sm T+ti))
其中,i=1,2,3,score1表示候选元素cx的评分向量,score2表示候选元素cy的评分向量,score3表示候选元素cz的评分向量,wi表示第i个线性层的可学习权重,ti表示第i个线性层的可学习偏置,σ表示sigmoid激活函数,⊙表示逐元素相乘,Sm T表示Sm的转置矩阵。通过特殊标记符号[MASK]将MLM(Mask language model)融入到此次训练任务中来,同时采用三个可学习矩阵M1、M2和M3为每个MLM预测的单词去加权分数,最后再与匹配的句子进行评分,得到具体的类别。这个公式采用了三个分数向量来计算每个类别的分数,也就是待匹配元素qx为每个类别的概率,选取最大概率对应的类别作为预测结果,而不是传统采用线性层3分类的形式。
S314.选取最大的评分向量所对应的候选元素,将该候选元素所属的类别作为待匹配元素qx的类别。
具体来说,在采用构造的训练样本训练用户需求预测模型的过程中,每一条训练样本([MASK][MASK][MASK],qx,cx,cy,cz,x’)存在x、y、z三个类别的候选元素,计算出每一个候选元素的评分向量比较大小,筛选出最大评分向量所对应的候选元素,该候选元素所对应的类别即为待匹配元素的类别;接着获取该候选元素的位置索引,然后将该位置索引与索引标签x’计算匹配误差,这样使得整个训练将文本分类任务变成了匹配任务。再通俗一点讲,将原本的预测预处理文本qx属于功能需求、非功能需求和其他三种类别中的某一类,变成了判断预处理文本qx与cx、cy、cz中的哪一个类别相同。
具体地,采用训练数据对户需求预测模型进行训练时,采用交叉熵损失函数计算损失值,计算公式为:
其中,yk是第k个训练样本的真实值(真实类别),是第k个样本的预测值(预测类别)。得到损失值后通过反向传播,对模型的各个参数进行优化,直到最后收敛,完成模型训练。
S4.预训练完成的Bert模型与训练完成的用户需求预测模型组成用户需求生成模型,获取待处理数据输入用户需求生成模型得到对应的用户需求生成结果。
优选地,本发明实施例在用户需求预测模型完成后,还通过测试数据进行了模型验证,验证通过即完成模型训练。
具体地,测试数据的的构造过程包括:
S41.采用预训练完成的Bert模型对训练集中每一条预处理文本进行编码,得到每一条预处理文本中每一个字的特征向量,用Eit表示第i条预处理文本第t个字的特征向量;
S42.计算训练集中每一条预处理文本的每一个字的TF-IDF值,采用Tit表示第i条预处理文本第t个字的TF-IDF值;通过下列公式计算训练集中每一条预处理文本的句子向量:
Ei=Eit×Tit
其中,Ei表示第i条预处理文本的句子向量。
S43.提取出训练集中所有属于功能需求类别的预处理文本,通过下列公式计算功能需求类别向量Eq
其中,q表示功能需求类别的预处理文本的数量,label1表示所有功能需求类别的预处理文本集合。
S44.依据步骤S43的做法,分别计算训练集中非功能需求类别向量Ew和其他类别向量Ee
S45.采用预训练完成的Bert模型获取测试集中每一条预处理文本的句子向量,并构建相应的四元组,然后在四元组前面加入三个特殊标记符号[MASK],最终得到测试样本([MASK][MASK][MASK],Eqy,Eq,Ew,Ee),其中Eqy表示测试集中类别为y的预处理文本的句子向量。
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种基于APP评论数据的用户需求获取方法,其特征在于,包括以下步骤:
S1.通过Python爬虫爬取APP评论数据并进行预处理,得到预处理文本数据;
S2.采用预处理文本数据对Bert模型进行SRP任务和LAP任务的联合预训练;
S3.构造用户需求预测模型,采用预训练完成的Bert模型对基于预处理文本数据构造的训练数据编码,采用编码后的训练数据训练用户需求预测模型;
S4.预训练完成的Bert模型与训练完成的用户需求预测模型组成用户需求生成模型,获取待处理数据输入用户需求生成模型得到对应的用户需求生成结果。
2.根据权利要求1所述的一种基于APP评论数据的用户需求获取方法,其特征在于,步骤S1通过Python爬虫爬取APP评论数据并进行预处理,包括:
S11.爬取数据:通过Python爬虫爬取8款APP在应用商城的多条评论;
S12.清洗数据:去除每一条评论中的特殊符号,只保留英文、中文、数字以及常见标点符号;
S13.筛选数据:对于清洗后的所有评论,筛除掉长度小于4个字符以及大于200个字符的评论;
S14.数据分类:对于筛除后的所有评论,按照功能需求、非功能需求和其他三种类别进行划分。
3.根据权利要求1所述的一种基于APP评论数据的用户需求获取方法,其特征在于,步骤S2采用预处理文本数据对Bert模型进行SRP任务,包括:
S201.在预处理文本数据中选取一条类别为x的预处理文本qx,剩余预处理文本组成第二数据集;
S202.在第二数据集中,以概率p1随机选取一条类别为x的预处理文本cx,将其与预处理文本qx构成同类型文本对<qx,cx>,并打上标签1;以概率1-p1随机选取一条类别为y的预处理文本cy,将其与预处理文本qx构成异类型文本对<qx,cy>,并打上标签0;其中x和y为两种不同的类别;
S203.将步骤S202获取的数据输入Bert模型,输出文本间关系预测结果。
4.根据权利要求1所述的一种基于APP评论数据的用户需求获取方法,其特征在于,步骤S2采用预处理文本数据对Bert模型进行LAP任务,包括:
S211.在预处理文本数据中选取一条类别为x的预处理文本qx
S212.对于预处理文本qx,以15%的概率随机丢弃预处理文本qx中的一个词语,形成第一文本并打上标签1;以15%的概率随机替换预处理文本qx中的一个词语,形成第二文本并打上标签2;以15%的概率重复生成预处理文本qx中的一个词语,形成第三文本并打上标签3;将第一文本、第二文本和第三文本以外的情况看做形成第四文本,并打上标签0;
S213.将步骤S212获取的数据输入Bert模型,输出文本内类别增强预测结果。
5.根据权利要求1所述的一种基于APP评论数据的用户需求获取方法,其特征在于,步骤S3根据预处理文本数据构造训练数据,包括:
S301.在预处理文本数据中选取一条类别为x的预处理文本qx作为待匹配元素,剩余预处理文本组成第二数据集;
S302.在第二数据集中,随机选取3条类别分别为x、y、z的预处理文本cx、cy、cz作为候选元素,将其与预处理文本qx组成(qx,cx,cy,cz)四元组,并采用符号[SEP]对(qx,cx,cy,cz)四元组中的cx、cy、cz进行分隔处理;其中x、y、z是3种不同的类别;
S303.将(qx,cx,cy,cz)四元组中cx、cy、cz的排列顺序打乱,然后查找cx的位置并记为索引标签x’;索引标签x’=0,表示cx在qx后面第一个位置;索引标签x’=1,表示cx在qx后面第二个位置;索引标签x’=2,表示cx在qx后面第三个位置;
S304.将索引标签x’加在(qx,cx,cy,cz)四元组后面,并在(qx,cx,cy,cz)四元组前面加入三个特殊标记符号[MASK],最终得到一条训练样本,表示为([MASK][MASK][MASK],qx,cx,cy,cz,x’);
S305.重复步骤S301-304,获取多条训练样本组成训练数据。
6.根据权利要求5所述的一种基于APP评论数据的用户需求获取方法,其特征在于,采用训练数据对用户需求预测模型进行训练,包括:
S311.将训练样本([MASK][MASK][MASK],qx,cx,cy,cz,x’)送入预训练完成的Bert模型,得到待匹配元素qx的特征向量Sm和候选元素cx、cy、cz的特征向量S1、S2、S3
S312.初始化三个可学习矩阵M1、M2和M3,提取出三个特殊标记符号[MASK]的字向量Em1、Em2和Em3
S313.根据S311和S312获取的数据计算每一个候选元素的评分向量,
S314.根据评分向量获取待匹配元素qx的类别预测结果。
7.根据权利要求6所述的一种基于APP评论数据的用户需求获取方法,其特征在于,步骤S313计算评分向量的公式为:
scorei∈{1,2,3+=σ(Emi(wi(Mi⊙Si)Sm T+ti))
其中,i=1,2,3,score1表示候选元素cx的评分向量,score2表示候选元素cy的评分向量,score3表示候选元素cz的评分向量,wi表示第i个线性层的可学习权重,ti表示第i个线性层的可学习偏置,σ表示sigmoid激活函数,⊙表示逐元素相乘,Sm T表示Sm的转置矩阵。
CN202310914763.6A 2023-07-25 2023-07-25 一种基于app评论数据的用户需求获取方法 Active CN116932853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310914763.6A CN116932853B (zh) 2023-07-25 2023-07-25 一种基于app评论数据的用户需求获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310914763.6A CN116932853B (zh) 2023-07-25 2023-07-25 一种基于app评论数据的用户需求获取方法

Publications (2)

Publication Number Publication Date
CN116932853A true CN116932853A (zh) 2023-10-24
CN116932853B CN116932853B (zh) 2024-07-05

Family

ID=88390561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310914763.6A Active CN116932853B (zh) 2023-07-25 2023-07-25 一种基于app评论数据的用户需求获取方法

Country Status (1)

Country Link
CN (1) CN116932853B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210200958A1 (en) * 2019-12-27 2021-07-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Comment information processing method and apparatus, and medium
CN115357220A (zh) * 2022-08-22 2022-11-18 北京航空航天大学 一种面向工业app开发的群智化需求获取方法
CN115879669A (zh) * 2022-11-30 2023-03-31 暨南大学 一种评论评分的预测方法、装置、电子设备及存储介质
CN116304063A (zh) * 2023-05-19 2023-06-23 吉林大学 一种简单的情感知识增强提示调优的方面级情感分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210200958A1 (en) * 2019-12-27 2021-07-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Comment information processing method and apparatus, and medium
CN115357220A (zh) * 2022-08-22 2022-11-18 北京航空航天大学 一种面向工业app开发的群智化需求获取方法
CN115879669A (zh) * 2022-11-30 2023-03-31 暨南大学 一种评论评分的预测方法、装置、电子设备及存储介质
CN116304063A (zh) * 2023-05-19 2023-06-23 吉林大学 一种简单的情感知识增强提示调优的方面级情感分类方法

Also Published As

Publication number Publication date
CN116932853B (zh) 2024-07-05

Similar Documents

Publication Publication Date Title
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
US11568138B2 (en) System for entity and evidence-guided relation prediction and method of using the same
Kenyon-Dean et al. Resolving event coreference with supervised representation learning and clustering-oriented regularization
Peng et al. Phonetic-enriched text representation for Chinese sentiment analysis with reinforcement learning
CN113435203B (zh) 多模态命名实体识别方法、装置以及电子设备
CN111414476A (zh) 一种基于多任务学习的属性级情感分析方法
CN107980130A (zh) 自动回答方法、装置、存储介质及电子设备
CN112434520A (zh) 命名实体识别方法、装置及可读存储介质
Ashik et al. Data set for sentiment analysis on Bengali news comments and its baseline evaluation
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN111339772A (zh) 俄语文本情感分析方法、电子设备和存储介质
Zhang et al. Description-enhanced label embedding contrastive learning for text classification
CN115129807A (zh) 基于自注意的社交媒体主题评论的细粒度分类方法及系统
CN112528003B (zh) 一种基于语义排序和知识修正的多项选择问答方法
Rahman et al. Analyzing sentiments in elearning: A comparative study of bangla and romanized bangla text using transformers
Jahan et al. A Comprehensive Study on NLP Data Augmentation for Hate Speech Detection: Legacy Methods, BERT, and LLMs
Wang et al. Deep Context Model for Grammatical Error Correction.
ELAffendi et al. A simple Galois Power-of-Two real time embedding scheme for performing Arabic morphology deep learning tasks
Kumhar et al. Translation of English Language into Urdu Language Using LSTM Model
Shah et al. A study of various word embeddings in deep learning
CN116932853B (zh) 一种基于app评论数据的用户需求获取方法
Samuel et al. The dark side of sentiment analysis: An exploratory review using lexicons, dictionaries, and a statistical monkey and chimp
CN113190659B (zh) 基于多任务联合训练的文言文机器阅读理解方法
Kaili et al. A simple but effective classification model for grammatical error correction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240523

Address after: 518000 1104, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Hongyue Enterprise Management Consulting Co.,Ltd.

Country or region after: China

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Country or region before: China

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240613

Address after: 210000 2nd floor, building 7, Huaqingyuan, 100 Tianjiao Road, Qilin science and Technology Innovation Park, Jiangning District, Nanjing City, Jiangsu Province

Applicant after: NANJING RENSHENGGUO INFORMATION TECHNOLOGY Co.,Ltd.

Country or region after: China

Address before: 518000 1104, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Applicant before: Shenzhen Hongyue Enterprise Management Consulting Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant