CN117114745A - 一种意向车型预测方法及装置 - Google Patents

一种意向车型预测方法及装置 Download PDF

Info

Publication number
CN117114745A
CN117114745A CN202311049099.XA CN202311049099A CN117114745A CN 117114745 A CN117114745 A CN 117114745A CN 202311049099 A CN202311049099 A CN 202311049099A CN 117114745 A CN117114745 A CN 117114745A
Authority
CN
China
Prior art keywords
comment
vehicle type
vehicle
user
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311049099.XA
Other languages
English (en)
Other versions
CN117114745B (zh
Inventor
周策
蓬蕾
程博
高巧巧
汤昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Piston Intelligence Technology Co ltd
Original Assignee
Guangdong Piston Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Piston Intelligence Technology Co ltd filed Critical Guangdong Piston Intelligence Technology Co ltd
Priority to CN202311049099.XA priority Critical patent/CN117114745B/zh
Publication of CN117114745A publication Critical patent/CN117114745A/zh
Application granted granted Critical
Publication of CN117114745B publication Critical patent/CN117114745B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据分析技术领域,公开了一种意向车型预测方法及装置。该方法获取第一用户的用户信息和评论文本,并将用户信息和评论文本中的每段文本转换成若干个信息向量,从评论文本中提取评论车型、评论场景、评论主题和评论主题的情感倾向;根据提取到的评论车型,获取若干个相似车型;将提取的主题和主题的情感倾向、场景、评论车型和相似车型都转换成向量,输入至预测模型,得出第一用户对评论车型和各相似车型的第一意向概率,并将第一意向概率最大的车型确定为第一用户的意向车型;本发明通过分析用户的评论内容,可以预测用户的意向车型,提高预测用户购买意向的准确性,更了解用户的需求和偏好,从而更好地调整产品定位和市场策略。

Description

一种意向车型预测方法及装置
技术领域
本发明涉及数据分析技术领域,特别是涉及一种意向车型预测方法及装置。
背景技术
随着互联网的快速发展和普及,越来越多的消费者倾向于在垂直媒体论坛中寻找关于汽车购买的信息和意见。所以垂媒的论坛中聚集了一部分想要了解车型优缺点、听取车主经验的有购车意向的用户。通过筛选出这类具有购车意向的用户,垂媒可以提升广告的效果,用户可以得到更充分的信息,车企则一方面可以通过个性化的信息与服务增加他们的转化率,另一方面还可以更准确地了解真正的潜客们在本品和哪些竞品中犹豫以及他们的需求、偏好和行为模式,从而更好地调整产品定位和市场策略,提供符合用户期望的产品和服务,增强企业在竞争激烈的汽车市场中的竞争力。因此在垂媒论坛中识别有购车意向的用户对于垂媒和车企均有明显的益处。
目前确定购车意向用户的方法是比对未购车用户的行为数据和已购车客户在购买考虑阶段的行为,将行为相似的未购车用户确定为购车意向用户。但由于购车过程中用户行为多但每一种都不足够典型,因此以已购车用户为标准寻找意向用户时,若仅凭单一行为来判断购车意向则缺乏典型性,会导致很多无购车意向的用户被错误地判断为有购车意向,另一方面,如果使用一系列行为组合来判断购车意向,由于数据稀疏,符合条件的用户数量会非常有限,则会使得有购车意向的用户被漏判。而且当用户感兴趣多个车型时,这种方法无法判断用户对每个车型的意向程度。
发明内容
本发明提供了一种意向车型预测方法及装置,可以预测用户的意向车型,提高预测准确性,从而调整产品定位和市场策略。
为了解决上述技术问题,本发明提供了一种意向车型预测方法,包括:
获取第一用户的用户信息和评论文本,并将所述第一用户的用户信息和评论文本中的每段文本转换成若干个信息向量;
从所述评论文本中提取评论车型、评论场景、若干个评论主题和各评论主题对应的情感倾向;
根据所述评论车型,确定所述评论车型的若干个相似车型;
结合各评论主题和各评论主题对应的情感倾向,形成若干个第一主题向量;
根据所述评论车型和所述评论车型的若干个相似车型,形成若干个第一车型向量;
将所述评论场景转换成第一场景向量;
将所述信息向量、所述第一主题向量、所述第一车型向量和所述第一场景向量输入至预设的预测模型,得出第一用户对所述评论车型和各相似车型的第一意向概率,并确定第一意向概率最大的车型为第一用户的意向车型。
本发明预测第一用户的意向车型,先获取第一用户的用户信息和评论文本,并将其文本转换成若干个信息向量,根据评论文本提取评论中提到的车型、场景、主题和主题的情感倾向;根据提取到的评论车型,获取若干个相似车型;将提取的主题和主题的情感倾向、场景、评论车型和相似车型都转换成向量,输入至预测模型,得出第一用户对评论车型和各相似车型的第一意向概率,并将第一意向概率最大的车型确定为第一用户的意向车型;本发明通过分析用户的评论内容,可以提高预测用户购买意向的准确性,更了解用户的需求和偏好,从而更好地调整产品定位和市场策略。
进一步地,所述将所述第一用户的用户信息和评论文本中的每段文本转换成若干个信息向量,具体为:
获取预训练的LLM和对应的分词器;
采用所述分词器,对所述第一用户的用户信息和评论文本中的每段文本进行编码,以使每段文本的格式符合所述LLM的模型输入格式;
依次将编码后的每段文本输入至所述LLM进行转换,将所述LLM中最后一个隐藏层的向量确定为每段文本对应的信息向量。
进一步地,所述根据所述评论车型,确定所述评论车型的若干个相似车型,具体为:
在预设数据库中获取用户评论;其中,所述用户评论中包括若干个第一车型;
依次将所述评论车型和预设数据库中的各第一车型设置为待转换车型,利用第一数据转换法,分别对所述待转换车型中的评论车型和各第一车型进行数据转换,生成评论向量和若干个第一竞争车型向量;
计算所述评论向量和各第一竞争车型向量之间的相似度;
确定相似度大于预设阈值的第一车型为所述评论车型的相似车型。
本发明利用预设数据库获取用户评论,提取用户评论中提及的若干个第一车型,再对各车型进行向量转换,计算评论车型和各第一车型的相似度,将相似度大于阈值的第一车型确定为评论车型的相似车型;本发明通过将各车型进行向量转换,计算相似度的方法确定相似车型,提高了确定相似车型的便捷性和准确性。
进一步地,所述第一数据转换法,具体为:
获取预设数据库中的用户评论和各用户评论对应的用户账户;
根据获取的用户评论,分别计算待转换车型和预设数据库中各第一车型的同时提及概率;
根据获取的用户评论和各用户评论对应的用户账户,计算待转换车型和预设数据库中各第一车型的同时对比概率;
根据待转换车型和预设数据库中各第一车型的同时提及概率和同时对比概率,生成待转换车型对应的向量。
进一步地,所述结合各评论主题和各评论主题对应的情感倾向,形成若干个第一主题向量,具体为:
所述评论主题对应的情感倾向的类型包括极端正向、正向、中性、负向和极端负向;
对所述情感倾向的类型设置相应的情感数值;
根据各评论主题对应的情感数值,形成第一主题向量。
本发明根据评论主题和评论主题对应的情感倾向确定第一主题向量,其中,情感倾向包括5种类型,通过对各情感倾向赋值可以确定各主题的情感数值,从而得出第一主题向量,将文本进行数字化可以方便后续的模型分析,提高分析的准确性。
进一步地,在所述得出第一用户对所述评论车型和各相似车型的第一意向概率后,还包括:
更改第一用户的评论文本中第一主题的情感倾向;其中,第一主题为评论文本中若干个评论主题的任意一个评论主题;
对更改后的评论文本进行特征提取,并利用所述预测模型,获取第一用户对所述评论车型和各相似车型的第二意向概率;
分别比较所述评论车型和各相似车型的第一意向概率和第二意向概率,获取各车型的意向概率变化值;
将意向概率变化值大于阈值的车型确定为第一主题的影响车型。
本发明在获取第一用户对评论车型和各相似车型的第一意向概率后,改动第一用户对某个主题的情感倾向,再重新输入预测模型得到新的第二意向概率。对比第一意向概率和第二意向概率可以模拟情感倾向变化引起的意向概率变化,了解用户对主题的看法如何影响用户的车型选购,从而帮助厂家了解用户需求和偏好为精准营销指出方向。
进一步地,所述的意向车型预测方法,还包括:
在预设数据库中获取用户评论数据,利用所述预测模型,计算各用户对各车型的意向概率;
根据各用户对各车型的意向概率,计算各车型间的竞争强度,具体为:
其中,i为用户;j和k分别为数据库中的车型;为车型j对车型k的竞争强度;Pij为用户i对车型j意向概率;Pik为用户i对车型k的意向概率;l为除了车型k以外的其它车型;I()为示性函数。
本发明将预设数据库中的大量用户记录输入预测模型,可以得到每个用户对每个车型的意向概率,计算两个车型在同一个用户下意向概率之间的相关关系,可以得到车型之间的竞争关系,还可以通过模拟主题情感倾向变化引起的每个车型意向概率的变化而得到用户的需求、偏好和行为模式,从而更好地调整产品定位和市场策略,提供符合用户期望的产品和服务,增强企业的竞争力。
本发明提供了一种意向车型预测方法,获取第一用户的用户信息和评论文本,并将用户信息和评论文本中的每段文本转换成若干个信息向量,从评论文本中提取评论车型、评论场景、评论主题和评论主题的情感倾向;根据提取到的评论车型,获取若干个相似车型;将提取的主题和主题的情感倾向、场景、评论车型和相似车型都转换成向量,输入至预测模型,得出第一用户对评论车型和各相似车型的第一意向概率,并将第一意向概率最大的车型确定为第一用户的意向车型;本发明通过分析用户的评论内容,可以预测用户的意向车型,提高预测用户购买意向的准确性,更了解用户的需求和偏好,从而更好地调整产品定位和市场策略。
相应的,本发明提供了一种意向车型预测装置,包括:第一向量转换模块、提取模块、车型确定模块、第二向量转换模块、第三向量转换模块、第四向量转换模块和概率确定模块;
所述第一向量转换模块用于获取第一用户的用户信息和评论文本,并将所述第一用户的用户信息和评论文本中的每段文本转换成若干个信息向量;
所述提取模块用于从所述评论文本中提取评论车型、评论场景、若干个评论主题和各评论主题对应的情感倾向;
所述车型确定模块用于根据所述评论车型,确定所述评论车型的若干个相似车型;
所述第二向量转换模块用于结合各评论主题和各评论主题对应的情感倾向,形成若干个第一主题向量;
所述第三向量转换模块用于根据所述评论车型和所述评论车型的若干个相似车型,形成若干个第一车型向量;
所述第四向量转换模块用于将所述评论场景转换成第一场景向量;
所述概率确定模块用于将所述信息向量、所述第一主题向量、所述第一车型向量和所述第一场景向量输入至预设的预测模型,得出第一用户对所述评论车型和各相似车型的第一意向概率,并确定第一意向概率最大的车型为第一用户的意向车型。
进一步地,所述车型确定模块,包括:所述车型确定模块,包括:获取单元、向量转换单元、相似度计算单元和相似车型确定单元;
所述获取单元用于在预设数据库中获取用户评论;其中,所述用户评论中包括若干个第一车型;
所述向量转换单元用于依次将所述评论车型和预设数据库中的各第一车型设置为待转换车型,利用第一数据转换法,分别对所述待转换车型中的评论车型和各第一车型进行数据转换,生成评论向量和若干个第一竞争车型向量;
所述相似度计算单元用于计算所述评论向量和各第一竞争车型向量之间的相似度;
所述相似车型确定单元用于确定相似度大于预设阈值的第一车型为所述评论车型的相似车型。
进一步地,所述第一数据转换法,具体为:
获取预设数据库中的用户评论和各用户评论对应的用户账户;
根据获取的用户评论,分别计算待转换车型和预设数据库中各第一车型的同时提及概率;
根据获取的用户评论和各用户评论对应的用户账户,计算待转换车型和预设数据库中各第一车型的同时对比概率;
根据待转换车型和预设数据库中各第一车型的同时提及概率和同时对比概率,生成待转换车型对应的向量。
本发明提供了一种意向车型预测装置,以模块间的有机结合为基础,可以预测用户的意向车型,提高预测准确性,还可以得到车型之间的竞争关系,以及模拟主题情感倾向变化引起的每个车型意向概率的变化,从而调整产品定位和市场策略,提供符合用户期望的产品和服务,增强企业的竞争力。
附图说明
图1为本发明提供的意向车型预测方法的一种实施例的流程示意图;
图2为本发明提供的意向车型预测装置的一种实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,应当理解的是,本发明中采用术语如下:
1.“车型”:车企对具有同类型、品牌、车身形式、种类及系列的车辆所给予的名称。
2.“LLM”:基于GPT架构训练的一种强大的自然语言处理模型,使用深度学习技术,特别是变压器(Transformer)模型,通过大规模的预训练和微调过程来学习语言的潜在结构和规律,在其基础上用少量语料进行二次开发可以适应特定的任务或领域。
实施例1
参见图1,是本发明提供的意向车型预测方法的一种实施例的流程示意图,该方法包括步骤101至步骤107,各步骤具体如下:
步骤101:获取第一用户的用户信息和评论文本,并将所述第一用户的用户信息和评论文本中的每段文本转换成若干个信息向量。
在本发明第一实施例中,基于第一用户的评论可以预测第一用户的意向车型,其中,第一用户的评论可以从相关论坛或网站中获取,在获取评论的同时获取用户信息,包括用户的登录频次、评论类型、对比情况、关注页面、停留时长等。
进一步地,在本发明第一实施例中,将所述第一用户的用户信息和评论文本中的每段文本转换成若干个信息向量,具体为:
获取预训练的LLM和对应的分词器;
采用所述分词器,对所述第一用户的用户信息和评论文本中的每段文本进行编码,以使每段文本的格式符合所述LLM的模型输入格式;
依次将编码后的每段文本输入至所述LLM进行转换,将所述LLM中最后一个隐藏层的向量确定为每段文本对应的信息向量。
在本发明第一实施例中,利用LLM(如ChatGPT)可以将文本转化成向量。首先载预训练的LLM和相应的分词器,将文本编码成模型可以接受的输入格式,将LLM的最后一个隐藏层的向量作为输入文本的向量。
步骤102:从所述评论文本中提取评论车型、评论场景、若干个评论主题和各评论主题对应的情感倾向。
在本发明第一实施例中,可以选择对LLM进行二次开发,并利用二次开发后的专属模型从评论文本中解析出评论车型、评论场景、评论主题和评论主题对应的情感倾向。其中,评论场景包括试驾、4S店,高速和旅行等;评论主题包括外观、智能和服务等;主题对应的情感倾向包括极端正向、正向、中性、负向和极端负向。利用预置的NLP模型结果辅助LLM模型的二次开发可以得到汽车主题与场景提取的专属模型。首先将评论文本和相关数据输入至预置的NLP模型提取主题、主题的情感倾向和场景;再将评论文本和相关数据输入至LLM,以使LLM返回主题、主题的情感倾向和场景;比对NLP模型的输出结果和LLM的输出结果,当两者结果不同时进行人工校验和标注,保留LLM提取错误的样本形成数据集,并将其按照8:2分配形成训练集与测试集。利用数据集对LLM进行二次开发,先将评论文本与对应的主题、情感倾向和场景等逐一匹配,并转换为模型可接受的数值表示;在LLM基础上增加分类器层,定义分类任务;冻结模型预训练的权重;定义成本函数(如交叉熵)和优化器来训练得到分类器层的权重,使其更适应汽车主题及场景的提取任务,形成汽车主题与场景提取的专属模型。使用该专属模型可以从评论文本中解析出用户关注的主题(比如价格,外观,动力,关注的车型名称等)和它们的情感倾向以及场景(比如试驾、4S店,高速,旅行等)。
步骤103:根据所述评论车型,确定所述评论车型的若干个相似车型。
进一步地,在本发明第一实施例中,根据所述评论车型,确定所述评论车型的若干个相似车型,具体为:
在预设数据库中获取用户评论;其中,所述用户评论中包括若干个第一车型;
依次将所述评论车型和预设数据库中的各第一车型设置为待转换车型,利用第一数据转换法,分别对所述待转换车型中的评论车型和各第一车型进行数据转换,生成评论向量和若干个第一竞争车型向量;
计算所述评论向量和各第一竞争车型向量之间的相似度;
确定相似度大于预设阈值的第一车型为所述评论车型的相似车型。
在本发明第一实施例中,利用预设数据库获取用户评论,提取用户评论中提及的若干个第一车型,再对各车型进行向量转换,计算评论车型和各第一车型的距离作为相似度,将相似度大于阈值的第一车型确定为评论车型的相似车型;本发明通过将各车型进行向量转换,计算相似度的方法确定相似车型,提高了确定相似车型的便捷性和准确性。
进一步地,在本发明第一实施例中,第一数据转换法,具体为:
获取预设数据库中的用户评论和各用户评论对应的用户账户;
根据获取的用户评论,分别计算待转换车型和预设数据库中各第一车型的同时提及概率;
根据获取的用户评论和各用户评论对应的用户账户,计算待转换车型和预设数据库中各第一车型的同时对比概率;
根据待转换车型和预设数据库中各第一车型的同时提及概率和同时对比概率,生成待转换车型对应的向量。
在本发明第一实施例中,利用第一数据转换法将车型转换成向量,可以通过分析预设数据库中的数据,获取待转换车型和预设数据库中各第一车型的同时提及概率和同时对比概率,基于这两个概率可以形成待转换车型对应的向量。
作为本发明第一实施例的一种举例,使用无监督聚类算法,可以提取待转换车型的相似车型。在预设数据库中可以获取若干个车型,首先对每一个车型i计算它与其它车型j被同时在一段评论中提及的概率rij 再对每一个车型i计算它与其它车型j被对比的概率cij,/>利用以上的rij和cij,产生车型i的向量/> 并将向量/>作为高维空间的坐标计算任意两个车型之间的距离Dij作为两个车型之间的相似度。在计算了任意两个车型之间的相似度后,利用无监督聚类算法,如层次聚类等将车型划分成若干个子细分,并基于这些子细分设置相似度阈值,该相似度阈值被用做筛选相似车型的标准。对于任意一个车型i,将Dij小于相似度阈值的车型j都确定为车型i的相似车型。
步骤104:结合各评论主题和各评论主题对应的情感倾向,形成若干个第一主题向量。
进一步地,在本发明第一实施例中,结合各评论主题和各评论主题对应的情感倾向,形成若干个第一主题向量,具体为:
所述评论主题对应的情感倾向的类型包括极端正向、正向、中性、负向和极端负向;
对所述情感倾向的类型设置相应的情感数值;
根据各评论主题对应的情感数值,形成第一主题向量。
在本发明第一实施例中,根据评论主题和评论主题对应的情感倾向确定第一主题向量,其中,情感倾向包括5种类型,通过对各情感倾向赋值可以确定各主题的情感数值,从而得出第一主题向量,将文本进行数字化可以方便后续的模型分析,提高分析的准确性。
步骤105:根据所述评论车型和所述评论车型的若干个相似车型,形成若干个第一车型向量。
步骤106:将所述评论场景转换成第一场景向量。
作为本发明第一实施例的一种举例,结合评论主题和该主题对应的情感倾向,可以形成第一主题向量。例如:对极端负向、负向、中性、正向和极端正向分别赋值-2、-1、0、1和2,在n个主题中,第一个主题的情感倾向是极端正向,第二个的情感倾向是负向,其余没有提及,则对应的向量为(2,-1,0,0,0,...,0)。评论场景和各车型转化为向量,可以采用one-hot-encoding或者embedding等。另外,用户信息中的其它行为特征也可以转化为数字,例如登录频次、对比次数、关注页面、停留时长等。
步骤107:将所述信息向量、所述第一主题向量、所述第一车型向量和所述第一场景向量输入至预设的预测模型,得出第一用户对所述评论车型和各相似车型的第一意向概率,并确定第一意向概率最大的车型为第一用户的意向车型。
作为本发明第一实施例的一种举例,建立预测模型,先获取数据集,数据集包括通过转换用户信息和评论文本中的每段文本得到的信息向量、通过转换用户意向车型及其相似车型得到的车型向量、通过提取用户评论中的主题和主题情感倾向得到的主题向量、通过提取用户评论中的评论场景得到的场景向量,以及用户的登录频次、对比次数、关注页面和停留时长。其中,用户意向车型是指评论用户后期留下线索的车型。将数据集按照6:2:2分为训练集、验证集、测试集;选择多分类模型作为基础模型,例如树模型、神经网络等;对基础模型进行训练。
比如,采用梯度提升树(Gradient Boosting Trees)作为基础模型,初始化f0(x)=argminγ∑L(yi,γ),其中i代表用户,L是成本函数,迭代M次,其中第m次如下:
其中,Rjm是字段j的终端区域;
对模型进行验证和测试,与人工标注的数据进行对比,评估提取结果的准确性和效果,调整模型或数据准备过程进行迭代改进,进一步提高预测意向车型的准确率。
进一步地,在本发明第一实施例中,在所述得出第一用户对所述评论车型和各相似车型的第一意向概率后,还包括:
更改第一用户的评论文本中第一主题的情感倾向;其中,第一主题为评论文本中若干个评论主题的任意一个评论主题;
对更改后的评论文本进行特征提取,并利用所述预测模型,获取第一用户对所述评论车型和各相似车型的第二意向概率;
分别比较所述评论车型和各相似车型的第一意向概率和第二意向概率,获取各车型的意向概率变化值;
将意向概率变化值大于阈值的车型确定为第一主题的影响车型。
在本发明第一实施例中,在获取第一用户对评论车型和各相似车型的第一意向概率后,改动第一用户对某个主题的情感倾向,再重新输入预测模型得到新的第二意向概率。对比第一意向概率和第二意向概率可以模拟情感倾向变化引起的意向概率变化,了解用户对主题的看法如何影响用户的车型选购,从而帮助厂家了解用户需求和偏好为精准营销指出方向。
进一步地,在本发明第一实施例中,意向车型预测方法,还包括:
在预设数据库中获取用户评论数据,利用所述预测模型,计算各用户对各车型的意向概率;
根据各用户对各车型的意向概率,计算各车型间的竞争强度,具体为:
其中,i为用户;j和k分别为数据库中的车型;为车型j对车型k的竞争强度;Pij为用户i对车型j意向概率;Pik为用户i对车型k的意向概率;l为除了车型k以外的其它车型;I()为示性函数。
在本发明第一实施例中,将预设数据库中的大量用户记录输入预测模型,可以得到每个用户对每个车型的意向概率,计算两个车型在同一个用户下意向概率之间的相关关系,可以得到车型之间的竞争关系,从而更好地调整产品定位和市场策略。
在本发明第一实施例中,利用本发明提供的意向车型预测方法,可以得出用户i对各车型的意向概率,若用户i对车型j的意向概率超过阈值,则将用户i标记为车型j所对应细分的意向用户,统计每个细分中意向用户评论中各字段出现的概率(字段包括提及的主题、情感倾向和场景),可以总结出意向用户的需求与关注点。例如,细分n中字段Zm值域中每个值v出现的概率可以由下式计算得出:
综上,本发明第一实施例提供了一种意向车型预测方法,获取第一用户的用户信息和评论文本,并将用户信息和评论文本中的每段文本转换成若干个信息向量,从评论文本中提取评论车型、评论场景、评论主题和评论主题的情感倾向;根据提取到的评论车型,获取若干个相似车型;将提取的主题和主题的情感倾向、场景、评论车型和相似车型都转换成向量,输入至预测模型,得出第一用户对评论车型和各相似车型的第一意向概率,并将第一意向概率最大的车型确定为第一用户的意向车型;本发明通过分析用户的评论内容,可以预测用户的意向车型,提高预测用户购买意向的准确性,更了解用户的需求和偏好,从而更好地调整产品定位和市场策略。
实施例2
参见图2,是本发明提供的意向车型预测装置的一种实施例的结构示意图,该装置包括第一向量转换模块201、提取模块202、车型确定模块203、第二向量转换模块204、第三向量转换模块205、第四向量转换模块206和概率确定模块207;
第一向量转换模块201用于获取第一用户的用户信息和评论文本,并将用户信息和评论文本中的每段文本转换成若干个信息向量;
提取模块202用于从所述评论文本中提取评论车型、评论场景、若干个评论主题和各评论主题对应的情感倾向;
车型确定模块203用于根据所述评论车型,确定所述评论车型的若干个相似车型;
第二向量转换模块204用于结合各评论主题和各评论主题对应的情感倾向,形成若干个第一主题向量;
第三向量转换模块205用于根据所述评论车型和所述评论车型的若干个相似车型,形成若干个第一车型向量;
第四向量转换模块206用于将所述评论场景转换成第一场景向量;
概率确定模块207用于将所述信息向量、所述第一主题向量、所述第一车型向量和所述第一场景向量输入至预设的预测模型,得出第一用户对所述评论车型和各相似车型的第一意向概率,并确定第一意向概率最大的车型为第一用户的意向车型。
进一步地,在本发明第二实施例中,第一向量转换模块201,包括:模型获取单元、格式转换单元和向量确定单元;
模型获取单元用于获取预训练的LLM和对应的分词器;
格式转换单元用于采用所述分词器,对所述第一用户的用户信息和评论文本中的每段文本进行编码,以使每段文本的格式符合所述LLM的模型输入格式;
向量确定单元用于依次将编码后的每段文本输入至所述LLM进行转换,将所述LLM中最后一个隐藏层的向量确定为每段文本对应的信息向量。
进一步地,在本发明第二实施例中,车型确定模块203,包括:数据获取单元、向量转换单元、相似度计算单元和相似车型确定单元;
数据获取单元用于在预设数据库中获取用户评论;其中,所述用户评论中包括若干个第一车型;
向量转换单元用于依次将所述评论车型和预设数据库中的各第一车型设置为待转换车型,利用第一数据转换法,分别对所述待转换车型中的评论车型和各第一车型进行数据转换,生成评论向量和若干个第一竞争车型向量;
相似度计算单元用于计算所述评论向量和各第一竞争车型向量之间的相似度;
相似车型确定单元用于确定相似度大于预设阈值的第一车型为所述评论车型的相似车型。
进一步地,在本发明第二实施例中,第一数据转换法,具体为:
获取预设数据库中的用户评论和各用户评论对应的用户账户;
根据获取的用户评论,分别计算待转换车型和预设数据库中各第一车型的同时提及概率;
根据获取的用户评论和各用户评论对应的用户账户,计算待转换车型和预设数据库中各第一车型的同时对比概率;
根据待转换车型和预设数据库中各第一车型的同时提及概率和同时对比概率,生成待转换车型对应的向量。
进一步地,在本发明第二实施例中,第二向量转换模块204,包括:设置单元和向量形成单元;
所述评论主题对应的情感倾向的类型包括极端正向、正向、中性、负向和极端负向;
设置单元用于对所述情感倾向的类型设置相应的情感数值;
向量形成单元用于根据各评论主题对应的情感数值,形成第一主题向量。
进一步地,在本发明第二实施例中,意向车型预测装置还包括意向概率变化模块,该模块包括更改单元、特征提取单元、对比单元和影响车型确定单元;
更改单元用于更改第一用户的评论文本中第一主题的情感倾向;其中,第一主题为评论文本中若干个评论主题的任意一个评论主题;
特征提取确定单元用于对更改后的评论文本进行特征提取,并利用所述预测模型,获取第一用户对所述评论车型和各相似车型的第二意向概率;
对比单元用于分别比较所述评论车型和各相似车型的第一意向概率和第二意向概率,获取各车型的意向概率变化值;
影响车型确定单元用于将意向概率变化值大于阈值的车型确定为第一主题的影响车型。
进一步地,在本发明第二实施例中,意向车型预测装置还包括竞争模块,该模块包括概率计算单元和竞争强度计算单元;
概率计算单元用于在预设数据库中获取用户评论数据,利用所述预测模型,计算各用户对各车型的意向概率;
竞争强度计算单元用于根据各用户对各车型的意向概率,计算各车型间的竞争强度,具体为:
其中,i为用户;j和k分别为数据库中的车型;为车型j对车型k的竞争强度;Pij为用户i对车型j意向概率;Pik为用户i对车型k的意向概率;l为除了车型k以外的其它车型;I()为示性函数。
综上,本发明第二实施例提供了一种意向车型预测装置,以模块间的有机结合为基础,获取第一用户的用户信息和评论文本,并将用户信息和评论文本中的每段文本转换成若干个信息向量,从评论文本中提取评论车型、评论场景、评论主题和评论主题的情感倾向;根据提取到的评论车型,获取若干个相似车型;将提取的主题和主题的情感倾向、场景、评论车型和相似车型都转换成向量,输入至预测模型,得出第一用户对评论车型和各相似车型的第一意向概率,并将第一意向概率最大的车型确定为第一用户的意向车型;本发明通过分析用户的评论内容,可以预测用户的意向车型,提高预测用户购买意向的准确性,更了解用户的需求和偏好,从而更好地调整产品定位和市场策略。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种意向车型预测方法,其特征在于,包括:
获取第一用户的用户信息和评论文本,并将所述第一用户的用户信息和评论文本中的每段文本转换成若干个信息向量;
从所述评论文本中提取评论车型、评论场景、若干个评论主题和各评论主题对应的情感倾向;
根据所述评论车型,确定所述评论车型的若干个相似车型;
结合各评论主题和各评论主题对应的情感倾向,形成若干个第一主题向量;
根据所述评论车型和所述评论车型的若干个相似车型,形成若干个第一车型向量;
将所述评论场景转换成第一场景向量;
将所述信息向量、所述第一主题向量、所述第一车型向量和所述第一场景向量输入至预设的预测模型,得出第一用户对所述评论车型和各相似车型的第一意向概率,并确定第一意向概率最大的车型为第一用户的意向车型。
2.根据权利要求1所述的意向车型预测方法,其特征在于,所述将所述第一用户的用户信息和评论文本中的每段文本转换成若干个信息向量,具体为:
获取预训练的LLM和对应的分词器;
采用所述分词器,对所述第一用户的用户信息和评论文本中的每段文本进行编码,以使每段文本的格式符合所述LLM的模型输入格式;
依次将编码后的每段文本输入至所述LLM进行转换,将所述LLM中最后一个隐藏层的向量确定为每段文本对应的信息向量。
3.根据权利要求1所述的意向车型预测方法,其特征在于,所述根据所述评论车型,确定所述评论车型的若干个相似车型,具体为:
在预设数据库中获取用户评论;其中,所述用户评论中包括若干个第一车型;
依次将所述评论车型和预设数据库中的各第一车型设置为待转换车型,利用第一数据转换法,分别对所述待转换车型中的评论车型和各第一车型进行数据转换,生成评论向量和若干个第一竞争车型向量;
计算所述评论向量和各第一竞争车型向量之间的相似度;
确定相似度大于预设阈值的第一车型为所述评论车型的相似车型。
4.根据权利要求3所述的意向车型预测方法,其特征在于,所述第一数据转换法,具体为:
获取预设数据库中的用户评论和各用户评论对应的用户账户;
根据获取的用户评论,分别计算待转换车型和预设数据库中各第一车型的同时提及概率;
根据获取的用户评论和各用户评论对应的用户账户,计算待转换车型和预设数据库中各第一车型的同时对比概率;
根据待转换车型和预设数据库中各第一车型的同时提及概率和同时对比概率,生成待转换车型对应的向量。
5.根据权利要求1所述的意向车型预测方法,其特征在于,所述结合各评论主题和各评论主题对应的情感倾向,形成若干个第一主题向量,具体为:
所述评论主题对应的情感倾向的类型包括极端正向、正向、中性、负向和极端负向;
对所述情感倾向的类型设置相应的情感数值;
根据各评论主题对应的情感数值,形成第一主题向量。
6.根据权利要求1所述的意向车型预测方法,其特征在于,在所述得出第一用户对所述评论车型和各相似车型的第一意向概率后,还包括:
更改第一用户的评论文本中第一主题的情感倾向;其中,第一主题为评论文本中若干个评论主题的任意一个评论主题;
对更改后的评论文本进行特征提取,并利用所述预测模型,获取第一用户对所述评论车型和各相似车型的第二意向概率;
分别比较所述评论车型和各相似车型的第一意向概率和第二意向概率,获取各车型的意向概率变化值;
将意向概率变化值大于阈值的车型确定为第一主题的影响车型。
7.根据权利要求1所述的意向车型预测方法,其特征在于,还包括:
在预设数据库中获取用户评论数据,利用所述预测模型,计算各用户对各车型的意向概率;
根据各用户对各车型的意向概率,计算各车型间的竞争强度,具体为:
其中,i为用户;j和k分别为数据库中的车型;为车型j对车型k的竞争强度;Pij为用户i对车型j意向概率;Pik为用户i对车型k的意向概率;l为除了车型k以外的其它车型;I()为示性函数。
8.一种意向车型预测装置,其特征在于,包括:第一向量转换模块、提取模块、车型确定模块、第二向量转换模块、第三向量转换模块、第四向量转换模块和概率确定模块;
所述第一向量转换模块用于获取第一用户的用户信息和评论文本,并将所述第一用户的用户信息和评论文本中的每段文本转换成若干个信息向量;
所述提取模块用于从所述评论文本中提取评论车型、评论场景、若干个评论主题和各评论主题对应的情感倾向;
所述车型确定模块用于根据所述评论车型,确定所述评论车型的若干个相似车型;
所述第二向量转换模块用于结合各评论主题和各评论主题对应的情感倾向,形成若干个第一主题向量;
所述第三向量转换模块用于根据所述评论车型和所述评论车型的若干个相似车型,形成若干个第一车型向量;
所述第四向量转换模块用于将所述评论场景转换成第一场景向量;
所述概率确定模块用于将所述信息向量、所述第一主题向量、所述第一车型向量和所述第一场景向量输入至预设的预测模型,得出第一用户对所述评论车型和各相似车型的第一意向概率,并确定第一意向概率最大的车型为第一用户的意向车型。
9.根据权利要求8所述的意向车型预测装置,其特征在于,所述车型确定模块,包括:获取单元、向量转换单元、相似度计算单元和相似车型确定单元;
所述获取单元用于在预设数据库中获取用户评论;其中,所述用户评论中包括若干个第一车型;
所述向量转换单元用于依次将所述评论车型和预设数据库中的各第一车型设置为待转换车型,利用第一数据转换法,分别对所述待转换车型中的评论车型和各第一车型进行数据转换,生成评论向量和若干个第一竞争车型向量;
所述相似度计算单元用于计算所述评论向量和各第一竞争车型向量之间的相似度;
所述相似车型确定单元用于确定相似度大于预设阈值的第一车型为所述评论车型的相似车型。
10.根据权利要求9所述的意向车型预测装置,其特征在于,所述第一数据转换法,具体为:
获取预设数据库中的用户评论和各用户评论对应的用户账户;
根据获取的用户评论,分别计算待转换车型和预设数据库中各第一车型的同时提及概率;
根据获取的用户评论和各用户评论对应的用户账户,计算待转换车型和预设数据库中各第一车型的同时对比概率;
根据待转换车型和预设数据库中各第一车型的同时提及概率和同时对比概率,生成待转换车型对应的向量。
CN202311049099.XA 2023-08-18 2023-08-18 一种意向车型预测方法及装置 Active CN117114745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311049099.XA CN117114745B (zh) 2023-08-18 2023-08-18 一种意向车型预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311049099.XA CN117114745B (zh) 2023-08-18 2023-08-18 一种意向车型预测方法及装置

Publications (2)

Publication Number Publication Date
CN117114745A true CN117114745A (zh) 2023-11-24
CN117114745B CN117114745B (zh) 2024-03-15

Family

ID=88812125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311049099.XA Active CN117114745B (zh) 2023-08-18 2023-08-18 一种意向车型预测方法及装置

Country Status (1)

Country Link
CN (1) CN117114745B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117667979A (zh) * 2023-12-08 2024-03-08 暨南大学 基于大语言模型的数据挖掘方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443290A (zh) * 2019-07-23 2019-11-12 广东数鼎科技有限公司 一种基于大数据的产品竞争关系量化生成方法及装置
CN111798262A (zh) * 2020-05-20 2020-10-20 合肥工业大学 用户关注点识别方法、系统和存储介质
US11023953B1 (en) * 2020-03-11 2021-06-01 Capital One Services, Llc Recommendation engine that integrates customer social review-based data to understand preferences and recommend products
CN115409039A (zh) * 2022-08-25 2022-11-29 中国第一汽车股份有限公司 一种对标车型数据的分析方法、装置、电子设备及介质
CN115983915A (zh) * 2022-12-30 2023-04-18 高健 一种基于运维大数据的汽车营销分析方法及系统
CN116109357A (zh) * 2022-12-15 2023-05-12 麒麟软件有限公司 一种汽车在线评论综合评分计算方法、系统及介质
CN116597406A (zh) * 2023-05-24 2023-08-15 蔚来软件科技(上海)有限公司 基于多模态的用户意图车型识别方法及装置、存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443290A (zh) * 2019-07-23 2019-11-12 广东数鼎科技有限公司 一种基于大数据的产品竞争关系量化生成方法及装置
US11023953B1 (en) * 2020-03-11 2021-06-01 Capital One Services, Llc Recommendation engine that integrates customer social review-based data to understand preferences and recommend products
CN111798262A (zh) * 2020-05-20 2020-10-20 合肥工业大学 用户关注点识别方法、系统和存储介质
CN115409039A (zh) * 2022-08-25 2022-11-29 中国第一汽车股份有限公司 一种对标车型数据的分析方法、装置、电子设备及介质
CN116109357A (zh) * 2022-12-15 2023-05-12 麒麟软件有限公司 一种汽车在线评论综合评分计算方法、系统及介质
CN115983915A (zh) * 2022-12-30 2023-04-18 高健 一种基于运维大数据的汽车营销分析方法及系统
CN116597406A (zh) * 2023-05-24 2023-08-15 蔚来软件科技(上海)有限公司 基于多模态的用户意图车型识别方法及装置、存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117667979A (zh) * 2023-12-08 2024-03-08 暨南大学 基于大语言模型的数据挖掘方法、装置、设备及介质
CN117667979B (zh) * 2023-12-08 2024-07-05 暨南大学 基于大语言模型的数据挖掘方法、装置、设备及介质

Also Published As

Publication number Publication date
CN117114745B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN110287320B (zh) 一种结合注意力机制的深度学习多分类情感分析模型
CN107608956B (zh) 一种基于cnn-grnn的读者情绪分布预测算法
CN111444326B (zh) 一种文本数据处理方法、装置、设备以及存储介质
CN109101537B (zh) 基于深度学习的多轮对话数据分类方法、装置和电子设备
CN111368049B (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN107944911B (zh) 一种基于文本分析的推荐系统的推荐方法
CN110362753B (zh) 一种基于用户隐式反馈的个性化神经网络推荐方法及系统
CN117114745B (zh) 一种意向车型预测方法及装置
CN110472245B (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
Liu et al. Open intent discovery through unsupervised semantic clustering and dependency parsing
CN117390141B (zh) 一种农业社会化服务质量用户评价数据分析方法
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN110992988A (zh) 一种基于领域对抗的语音情感识别方法及装置
CN117807232A (zh) 商品分类方法、商品分类模型构建方法及装置
CN115481219A (zh) 一种基于语法序列嵌入模型的售电公司评价情感分类方法
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN117808103A (zh) 一种基于话语级特征动态交互的共情回复生成方法
CN115186071A (zh) 意图识别方法、装置、电子设备及可读存储介质
CN114444609B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN114547435B (zh) 内容质量的识别方法、装置、设备及可读存储介质
Elbarougy et al. Continuous audiovisual emotion recognition using feature selection and lstm
CN118036602B (zh) 一种虚假评论识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant