CN117474631A - 基于电商平台评论的数据挖掘与情感分析的推荐算法 - Google Patents
基于电商平台评论的数据挖掘与情感分析的推荐算法 Download PDFInfo
- Publication number
- CN117474631A CN117474631A CN202311544458.9A CN202311544458A CN117474631A CN 117474631 A CN117474631 A CN 117474631A CN 202311544458 A CN202311544458 A CN 202311544458A CN 117474631 A CN117474631 A CN 117474631A
- Authority
- CN
- China
- Prior art keywords
- user
- emotion
- mobile phone
- data
- comments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 25
- 238000004458 analytical method Methods 0.000 title claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 title claims description 10
- 238000007418 data mining Methods 0.000 title description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 7
- 238000005065 mining Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 6
- 230000002996 emotional effect Effects 0.000 abstract description 5
- 238000004140 cleaning Methods 0.000 abstract description 3
- 238000007619 statistical method Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000017525 heat dissipation Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Game Theory and Decision Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据采集、数据清洗、文本分词、统计分析、文本特征提取、用户信息输入、特征相似度计算推荐等技术。本发明先通过采集常用电商平台上常用手机品牌的最新最热门的一些型号产品的用户评论,接着通过数据清洗的操作,再按照指定的词典进行分词和情感分析操作。再统计评论中高频的词语,以及对情感分析的结果进行统计。接着再进行LDA文本特征提取,获取到用户对于品牌或者具体型号产品的情感特征属性。对这些情感特征的优点文本内容和缺点文本内容进行提取。最后用户输入自定义标签,比如评论一段内容、提供用户年龄、上一步手机价格等。再根据这些属性从数据库中已有的产品中给用户推荐一款或者几款手机产品,供用户参考。
Description
技术领域
本发明涉及数据挖掘、情感分析、中文文本分词、LDA建模提取文本特征、文本内容相似度计算等技术领域。
背景技术
随着科技的高速发展以及互联网时代的深入,手机已经深入到人们生活的每个层面,成为了当代社会生活不可或缺的一部分。同时,随着消费者能够表达观点互联网平台,尤其是各大社交媒体和常用电商平台的兴起,消费者对手机品牌的选择以及使用体验的各种评论也日益增多。这其中既包含了产品本身性能、价格、外观、拍照、散热等常见因素的考量,也涉及到品牌声誉、售后服务、品牌形象等诸多品牌因素的考察。因此,对手机常用品牌以及各品牌热门型号产品的用户评论进行数据挖掘和情感分析,既可以为我们带来更加深入的消费者爱好和行为洞察,也可以进行预测整个手机市场动态和发展趋势。此外,数据分析可以挖掘出消费者之间的互动关系、以及消费者所关注的重点问题,辅助公司进行精准营销、优化产品设计以及改善服务质量。同时也可以给消费者在选择品牌以及产品的时候提供一定的建议,帮助消费者选到自己更喜欢的产品,提高消费者的购买体验。
数据挖掘可以揭示数据中隐藏的模式和关联规则,帮助人们发现新的见解和知识。这些信息可以用于改进产品和服务、优化业务流程,或者发现新的市场机会。通过对历史数据的挖掘和建模,数据挖掘可以帮助预测未来的趋势和行为。这对于制定战略决策、市场营销规划、风险评估和资源分配等方面非常重要。数据挖掘可以分析客户行为和偏好,帮助企业了解客户需求,并提供个性化的产品推荐和营销策略。这可以提高客户满意度,增加销售和市场份额。数据挖掘可以帮助企业发现市场趋势、竞争对手行为和消费者需求的变化。
情感分析可以帮助企业了解客户对产品、服务或品牌的感受和情感态度。这有助于调整营销策略、改进产品设计、提高客户满意度,并更好地满足客户需求。情感分析可以帮助企业评估其品牌声誉和消费者对品牌的情感态度。通过监测和分析消费者的情感反馈,企业可以及时采取措施来保护品牌形象,回应消费者关注和抱怨,并改善消费者体验。
在现代信息社会中,随着各大手机厂商之间的竞争变得愈发激烈,各大手机厂商瞄准的目标已经远远超过了一个固定的消费者群体。他们不仅要瞄准静态市场,比如特定的年龄层或收入水平的消费者群体,而且还要关注市场的动态变化,特别是众多消费者的用户反馈。在这种情况下,基于用户评论的数据挖掘和情感分析为满足以上需求提供了强大的工具。通过这一方式,手机厂商可以更加精准地了解到消费者对于自家产品和别人的产品的需求,也可以捕捉市场变化,从而做出更具针对性的产品改进和市场策略。同时这一研究也可以增强消费者与厂商之间的交流,以便整个行业的发展。
发明内容
本发明旨在提出一种基于手机电商平台评论的数据挖掘与情感分析的文本推荐算法。
本发明解决其技术难题所采用的技术方案如下:
传统的推荐算法一般是根据用户的行为数据信息,比如日志信息、浏览信息等数据通过给用户打上一些标签用于数据的查找和分类筛选。这样的做法通过推荐算法得出的推荐结果一般都是与用户行为信息相似的结果。但是却忽略了用户对这些已经浏览的数据的情感倾向。
本发明基于目前比较成熟的基于内容的推荐算法。传统的基于内容的推荐算法是根据物品的特征和用户的偏好来进行推荐。它利用物品的属性和描述信息,例如关键词、标签或文本内容,来计算物品之间的相似性。当用户对某个物品表达了兴趣或喜好时,系统会推荐具有相似特征的其他物品。这其中与本发明最相似的地方在于都是根据物品的文本信息,与用户所表达的信息进行相似特征比较,从而推荐具有相似特征的物品。但是其中存在着一个问题是,无法辨别用户对某个物品的表达的情感倾向是正向还是负向。如果用户表达的是负向的情感,有可能就会导致算法所推荐的物品朝着用户不喜欢的方向前进。
附图说明
图1是本发明的整体流程图,其中阐述了整体的算法流程,以及每个步骤具体的实施方式,其中涉及到数据采集、数据清洗、文本分词、统计分析、文本特征提取、用户信息输入、特征相似度计算推荐等技术。
具体实施方式
步骤1,系统定时爬取常用电商平台的常用品牌的手机热门型号的使用评论。并保存进数据库中。
步骤2,将爬取到的评论数据进行数据清洗,例如去除重复的数据、去除系统默认的数据等操作。
步骤3,将清洗过的数据按照停用词典进行分词操作,并按照褒义词典、贬义词典和程度词典进行情感计算评分。并提取保存积极和消极的词语列表。此步骤较为关键的是对所涉及到词典的修正。因为很多机构提供的词典都是几年前的数据。很多网友比较喜欢实用新颖的网络用词,此时我们需要做的就是将这些网络用词通过人工判断之后加入到词典中。以便我们的情感分析能够得到更准确一点的结果。
步骤4,将上步计算之后的结果进行一个统计分析,得出每个型号手机评论的情感得分中位数、平均数、积极占比、消极占比等数据。此数据用于最后得出的推荐结果的排序。将用户反馈效果较好的排在前面推荐。
步骤5,将分词之后的结果进行LDA文本特征分析,提取出这些评论数据的文本特征。这一步主要作用是将众多评论按照所描述的特征进行分类。便于筛选出用户所关注的特征的评论。这样可以使得推荐的结果更适用于每个用户自身的特点。
步骤6,用户输入自己上一款使用的手机型号,并输入一条自己对这款手机的评论。这一步骤可以将用户的信息接入到系统中,让系统了解到用户潜在的一些标签特点。以便推荐的结果用户更能够接受。
步骤7,将用户输入的评论数据,也进行分词、情感计算、提取积极和消极词汇、LDA文本特征提取等步骤。也就是将用户能够理解的数据转换为系统能够使用的数据,这样可以提高用户的使用体验,同时能够降低用户的使用学习成本。
步骤8,将用户评论经过LDA提取出来的特征、积极和消极词汇,以及用户手机型号的一些信息放入到推荐系统中进行计算,得出最后的推荐结果。此步骤也是本系统的最核心的步骤即关于推荐算法的设计。首先将用户提供的评论数据经过文本特征提取之后,得到用户所关注的特征,例如拍照、屏幕、外观等特征。此时再去数据库中筛选出涉及到这些特征的评论数据。同时将用户评论中提取出来的积极词汇与数据库中筛选出的评论数据的积极词汇进行文本内容相似度计算,根据最后的相似度由高到低进行一个排名。同时也将消极词汇进行相似度计算,得到一个相似度由低到高的排名。最后根据这两个排名综合得出初步的推荐结果。该推荐结果的意义在于用户所关注的特征方面,优点最相似,缺点最不相似的结果。
此时的结果还不能够直接推荐给用户,还应该通过用户的一些潜在特征进行筛选之后再推荐。例如价格就是一个非常重要的因素,系统会根据用户提供的上一款使用的手机型号的价格与不同手机价格区间的用户特点进行筛选。例如手机价格在3000元以下的用户关注点一般是手机的性价比,并且此类用户更换手机的时候一般不会选择5000元以上的手机。
Claims (3)
1.其特征在于将采集并清洗过的数据按照停用词典进行分词操作,并按照褒义词典、贬义词典和程度词典进行情感计算评分,并提取保存积极和消极的词语列表,此步骤较为关键的是对所涉及到词典的修正,因为很多机构提供的词典都是几年前的数据,很多网友比较喜欢实用新颖的网络用词,此时我们需要做的就是将这些网络用词通过人工判断之后加入到词典中,以便我们的情感分析能够得到更准确一点的结果,在此步骤中需要重点关注的有两点,一是对于各种使用的词典的修正,通过人工判断去增加或者删除某些词语,从而达到分词以及情感评分的准确率,二是通过对中文常用语法的分析,来判断中文分词的词性的组合,比如程度词加形容词、否定词加形容词等。
2.其特征在于将分词之后的结果进行LDA文本特征分析,提取出这些评论数据的文本特征,LDA主题数量的选择,以及对应的词频数量的选择都能够一定程度上影响最后的算法计算结果,因此,应该通过Perplexity(困惑度)与 Log-Likelihood(对数似然值)两个指标确定LDA主题的数量。
3.其特征在于通过分词操作去掉停用词、情感分析提取出用户输入评论的特征,然后再去筛选出数据库中描述到这些特征的用户评论;利用情感分析提取出第一点中涉及到的数据中的用户评论的优点词语列表和缺点词语列表,与用户输入的评论的优点词语列表和缺点词语列表进行相似度计算,提取出优点相似度最高的,缺点相似度最低的;根据用户输入的手机型号去参考统计机构统计的不同手机价格区间、不同年龄的消费者群体的报告,去挖掘出用户的潜在信息比如价格、品牌、爱好(比如游戏、拍照等有关手机的特征)再进行对第二点中的结果进行筛选;最后根据手机型号的评论数据的情感分析统计数据(包含多种手机产品的用户评论分析报告,其中包括积极正面情感占比、中级情感占比、消极负面情感占比、情感计算得分中位数、平均数等数据)进行排序,再综合选择排序第一的手机产品进行输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311544458.9A CN117474631A (zh) | 2023-11-20 | 2023-11-20 | 基于电商平台评论的数据挖掘与情感分析的推荐算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311544458.9A CN117474631A (zh) | 2023-11-20 | 2023-11-20 | 基于电商平台评论的数据挖掘与情感分析的推荐算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117474631A true CN117474631A (zh) | 2024-01-30 |
Family
ID=89627430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311544458.9A Pending CN117474631A (zh) | 2023-11-20 | 2023-11-20 | 基于电商平台评论的数据挖掘与情感分析的推荐算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117474631A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117670435A (zh) * | 2024-02-01 | 2024-03-08 | 威海双子星软件科技有限公司 | 基于计算机软硬件集成的网页应用交叉推广系统 |
-
2023
- 2023-11-20 CN CN202311544458.9A patent/CN117474631A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117670435A (zh) * | 2024-02-01 | 2024-03-08 | 威海双子星软件科技有限公司 | 基于计算机软硬件集成的网页应用交叉推广系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Analyzing changes in hotel customers’ expectations by trip mode | |
Provost et al. | Data Science for Business: What you need to know about data mining and data-analytic thinking | |
Sivapalan et al. | Recommender systems in e-commerce | |
JP4218099B2 (ja) | データベース、顧客情報検索方法及び顧客情報検索装置 | |
Tsiptsis et al. | Data mining techniques in CRM: inside customer segmentation | |
Lee et al. | Automated marketing research using online customer reviews | |
Ngai et al. | Application of data mining techniques in customer relationship management: A literature review and classification | |
US20110179114A1 (en) | User communication analysis systems and methods | |
CN112667899A (zh) | 基于用户兴趣迁移的冷启动推荐方法、装置及存储设备 | |
Wu et al. | An approach of product usability evaluation based on Web mining in feature fatigue analysis | |
US20130173583A1 (en) | Keyword index pruning | |
US20160171590A1 (en) | Push-based category recommendations | |
Zhang et al. | Using neutral sentiment reviews to improve customer requirement identification and product design strategies | |
CN113076484A (zh) | 基于深度学习的产品推荐方法、装置、设备和存储介质 | |
CN111861679A (zh) | 一种基于人工智能的商品推荐方法 | |
CN117745349A (zh) | 一种基于用户特征的个性化推券方法及系统 | |
Anusha et al. | Segmentation of retail mobile market using HMS algorithm | |
US20230245144A1 (en) | System for identifying and predicting trends | |
CN117455529A (zh) | 基于大数据技术的用户用电特征画像构建方法及系统 | |
Wu et al. | [Retracted] Using the Mathematical Model on Precision Marketing with Online Transaction Data Computing | |
Schwartz et al. | Assessing objective recommendation quality through political forecasting | |
Pinto et al. | Hybrid recommendation system based on collaborative filtering and fuzzy numbers | |
CN117474631A (zh) | 基于电商平台评论的数据挖掘与情感分析的推荐算法 | |
CN111400567B (zh) | 一种基于ai的用户数据的处理方法、装置及系统 | |
Tang et al. | Service recommendation based on dynamic user portrait: an integrated approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |