CN112990973A - 线上店铺画像构建方法及系统 - Google Patents
线上店铺画像构建方法及系统 Download PDFInfo
- Publication number
- CN112990973A CN112990973A CN202110302703.XA CN202110302703A CN112990973A CN 112990973 A CN112990973 A CN 112990973A CN 202110302703 A CN202110302703 A CN 202110302703A CN 112990973 A CN112990973 A CN 112990973A
- Authority
- CN
- China
- Prior art keywords
- shop
- data
- portrait
- index
- store
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种线上店铺画像构建方法及系统,属于信息数据分析技术领域,包括:获取待画像店铺的基础数据,建立原始数据集;根据待画像店铺画像目标,对原始数据集进行分析处理,构建画像指标体系;结合相关性理论,对画像指标体系进行处理,构建画像最终关联指标;根据画像最终关联指标构建线上店铺画像,利用词云完成画像可视化。本发明提高了模型特征提取准确度,在用户画像的基础上延伸使用店铺画像的概念,构建了一个多维全面的店铺画像,帮助决策者聚焦服务对象,提高服务标准,实现精准营销,进一步的可以辅助店铺解决商品上新、活动促销、店铺视觉设计等问题。帮助决策者全面的认知店铺的水平和发展趋势,辅助进行决策,降低了决策风险。
Description
技术领域
本发明涉及信息数据分析技术领域,具体涉及一种基于BERT-LDA模型的线上店铺画像构建方法及系统。
背景技术
近年来,伴随着电商领域的极速扩张,越来越多的用户信息暴露在互联网上,随着数据挖掘、数据分析技术的日益成熟以及电商企业的需求,画像的概念应运而生,所谓画像技术,就是将信息标签化处理,通过为分析主体“贴”标签的行为,刻画主体的全貌。
分析主体标签化的优势在于能够人为的定义规则,帮助使用者快速的建立起对主体的印象,能够快速、准确的获取信息,此外,还能提高决策的效率,画像是基于对目标主体的研究,能够准确、直观的反映被分析主体的需求,将决策者的思路约束在同一个大方向上,提高决策效率。
目前,用户画像在电商领域应用广泛,在精准营销方向取得了不可忽视的成绩。大多用户画像是以消费者为基础,通过对人群的画像,进行店铺的经营策略调整。然而人群数据无法全面、清楚且准确的反映店铺的经营行为及状态,画像的准确率偏低,会对店铺的经营发展带来隐患。
发明内容
本发明的目的在于提供一种能够构建多维全面画像、帮助决策者聚焦服务对象、提高服务标准、实现精准营销的基于BERT-LDA模型的线上店铺画像构建方法及系统,以解决上述背景技术中存在的至少一项技术问题。
为了实现上述目的,本发明采取了如下技术方案:
第一方面,本发明提供一种线上店铺画像构建方法,包括:
获取待画像店铺的基础数据,建立原始数据集;
根据待画像店铺画像目标,对原始数据集进行分析处理,构建画像指标体系;
结合相关性理论,对画像指标体系进行处理,构建画像最终关联指标;
根据画像最终关联指标构建线上店铺画像,利用词云完成画像可视化。
优选的,待画像店铺的基础数据包括:店铺商品数据、店铺会员数据、店铺等级数据、店铺访问量数据、客单价数据、商品评价数据、供应商数据。
优选的,根据待画像店铺画像目标,利用层次分析法,对原始数据集进行分析处理,确定所述待画像药店的静态标签和动态标签。
优选的,对原始数据集进行分析处理包括:删除重复数据、修正错误数据并使用零值、空字符串或实际数据补全数据;进行新词识别,分词及词性标注,停用词及词性过滤、BERT-LDA文本表示;进行特征选择,数据降维。
优选的,静态标签是基于静态数据的标签,是指该店铺中不随时间变化的指标,包括店铺名称标签、店铺星级标签、店铺主要业务范围标签;动态指标与静态指标相反,是指该店铺中不随时间变化的指标,包括店铺会员标签、用户浏览行为标签、用户收藏行为标签、用户购买行为标签、用户点评行为标签。
优选的,构建画像关联指标包括:根据相关性理论,拆分画像指标体系的指标维度,删除不相关或弱相关指标,建立可靠的模型结果指标,得到画像最终关联指标。
优选的,获取待画像店铺的基础数据包括:采用垂直爬虫的方式采集该店铺的互联网公开数据;通过店铺后台获取店铺内部经营数据。
优选的,根据所述画像最终关联指标中的静态标签和动态标签,设置相关参数,利用词云完成零售药店的可视化操作。
第二方面,本发明提供一种线上店铺画像构建系统,包括:
获取模块,用于获取待画像店铺的基础数据,建立原始数据集;
体系构建模块,用于根据待画像店铺画像目标,对原始数据集进行分析处理,构建画像指标体系;
指标提取模块,用于结合相关性理论,对画像指标体系进行处理,构建画像最终关联指标;
显示模块,用于根据画像最终关联指标构建线上店铺画像,利用词云完成画像可视化。
优选的,所述体系构建模块包括:
分析单元,用于根据待画像店铺画像目标,利用层次分析法,对原始数据集进行分析处理,确定所述待画像药店的静态标签和动态标签;
清洗单元,用于删除重复数据、修正错误数据并使用零值、空字符串或实际数据补全数据;
标准化单元,用于进行新词识别,分词及词性标注,停用词及词性过滤、BERT-LDA文本表示;
特征选择单元,进行特征选择,数据降维。
第三方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质包括用于执行如上所述的线上店铺画像构建方法的指令。
第四方面,本发明提供一种电子设备,包括如上所述的非暂态计算机可读存储介质;以及能够执行所述非暂态计算机可读存储介质的所述指令的一个或多个处理器。
本发明有益效果:弥补LDA模型无法有效结合文本的语义和上下文信息进行主题提取的缺陷,提高了模型特征提取准确度;构建了一个多维全面的店铺画像,帮助决策者聚焦服务对象,提高服务标准,实现精准营销;帮助决策者全面的认知店铺的水平和发展趋势,辅助进行决策,降低了决策风险。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述的线上零售药店画像构建方法流程图。
图2为本发明实施例所述的线上零售药店画像构建系统功能原理框图。
图3为本发明实施例所述的基于BERT-LDA模型的评价标签提取流程图。
具体实施方式
下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
实施例1
本发明实施例1提供一种线上店铺画像构建系统,该系统包括:
获取模块,用于获取待画像店铺的基础数据,建立原始数据集;
体系构建模块,用于根据待画像店铺画像目标,对原始数据集进行分析处理,构建画像指标体系;
指标提取模块,用于结合相关性理论,对画像指标体系进行处理,构建画像最终关联指标;
显示模块,用于根据画像最终关联指标构建线上店铺画像,利用词云完成画像可视化。
在本实施例1中,所述体系构建模块包括:
分析单元,用于根据待画像店铺画像目标,利用层次分析法,对原始数据集进行分析处理,确定所述待画像药店的静态标签和动态标签;
清洗单元,用于删除重复数据、修正错误数据并使用零值、空字符串或实际数据补全数据;
标准化单元,用于进行新词识别,分词及词性标注,停用词及词性过滤、BERT-LDA文本表示;
特征选择单元,进行特征选择,数据降维。
在本实施例1中,数据获取单元(获取模块),获取待画像店铺的基础数据建立原始数据集,包括店铺商品数据、店铺会员数据、店铺等级数据、店铺访问量数据、客单价数据、商品评价数据、供应商数据等。
指标体系构建单元(体系构建模块),根据零售药店画像目标,利用层次分析法,对数据进行分析处理,构建画像指标体系,确定所述带画像药店的静态标签和动态标签,其中静态指标是基于静态数据的标签,是指店铺中不会随时间经常变化的指标,例如店铺名称、主要业务范围、装修风格、店铺星级等,动态指标与静态指标相反,是指会随着时间的变化而常变化的指标,例如店铺会员数量、店铺访问量、浏览量等;
指标体系权重计算单元(指标提取模块),根据相关性理论,拆分指标维度,删除不相关或弱相关指标,提高画像精确度。建立可靠的模型结果指标(最终关联指标),构建线上零售药店画像;
画像显示单元(显示模块),根据线上零售药店画像,利用词云完成可视化操作。
在本实施例1中,利用上述的线上店铺画像构建系统,实现了线上店铺画像构建方法,该方法包括:获取待画像店铺的基础数据,建立原始数据集;根据待画像店铺画像目标,对原始数据集进行分析处理,构建画像指标体系;结合相关性理论,对画像指标体系进行处理,构建画像最终关联指标;根据画像最终关联指标构建线上店铺画像,利用词云完成画像可视化。
其中,获取待画像店铺的基础数据建立原始数据集,包括店铺商品数据、店铺会员数据、店铺等级数据、店铺访问量数据、客单价数据、商品评价数据、供应商数据等;
获取待画像店铺的基础数据,所述数据至少包括店铺商品数据(销量、种类、核心商品、价格、点击率、收藏率等)、店铺会员数据(会员购买频率、性别、年龄、地址等)、店铺等级数据(店铺星级等)、店铺访问量数据、客单价数据、商品评价数据(等级评价、物流评价、商品评价、服务评价、文本评价等)、供应商数据(产地、品牌等)等。
根据零售药店画像目标,利用层次分析法,对数据进行分析处理,构建画像指标体系,确定所述待画像药店的静态标签和动态标签。其中,静态指标是基于静态数据的标签,是指店铺中不会随时间经常变化的指标,例如店铺名称、主要业务范围、装修风格、店铺星级等。动态指标与静态指标相反,是指会随着时间的变化而常变化的指标,例如店铺会员数量、店铺访问量、浏览量等。
根据相关性理论,拆分指标维度,删除不相关或弱相关指标,提高画像精确度。建立可靠的模型计算指标权重,构建线上零售药店画像。依据相关性理论,以消费者、产品等重要实体为核心,对指标进行维度分解,通过列表的形式进行展示,依据主成分分析删除不相关的指标,避免无用的指标占用资源甚至影响画像结果。
根据所述静态标签和动态标签,确定标签权重,利用词云完成可视化操作,即利用词云的形式,做线上零售药店画像的可视化呈现。
获取待画像店铺的基础数据建立原始数据集,包括店铺商品数据、店铺会员数据、店铺等级数据、店铺访问量数据、客单价数据、商品评价数据、供应商数据等,具体步骤包括:
数据的收集包括两个部分,一部分是企业外部的数据,主要来源是互联网公开数据,该部分数据的获取采用网络爬虫的方式;一部分是店铺内部的数据,主要是店铺经营数据,这部分数据可以在店铺后台获取。
获取所述待画像线上零售药店的原始数据集后,进行数据处理,具体步骤包括:首先进行数据清洗,目的是删除重复数据、修正错误数据并使用零值、空字符串或实际数据补全数据。然后进行新词识别,分词及词性标注,停用词及词性标注、BERT-LDA文本表示,最后进行特征选择。
根据零售药店画像目标,利用层次分析法,对数据进行分析处理,构建画像指标体系,确定所述待画像药店的静态标签和动态标签,具体包括:
静态标签至少包括店铺名称标签、店铺星级标签、店铺主要业务范围标签等;动态标签至少包括店铺会员标签、用户浏览行为标签、用户收藏行为标签、用户购买行为标签、用户点评行为标签等。
静态标签和动态标签的提取,具体步骤包括:
静态标签,是基于静态数据提取的标签,此部分标签的提取可以基于具体的计算公式或关键词选择。
动态标签,例如用户点评行为标签,首先使用文本挖掘技术获取用户评论数据,然后对数据进行清洗、分词、停用词过滤,使用BERT-LDA模型进行主题生成,构建用户点评行为标签。
根据线上零售药店画像,利用词云完成可视化操作,具体步骤包括:
根据所述静态标签和动态标签,设置相关参数,利用词云完成零售药店的可视化操作,便于决策者进行分析决策。
综上,本实施例1中,基于对店铺全方位数据的采集和挖掘能够全面、准确的反应店铺的经营状况,为决策者提供真实可靠的线上零售药店画像,能够满足决策者经营决策的需要,帮助决策者提高决策的效率和准确性,进一步的可以辅助解决商品上新、活动促销、店铺视觉设计等问题。
实施例2
如图2所示,本发明实施例2提供一种基于BERT-LDA模型的线上零售药店画像构建系统,所述系统包括:
数据获取单元A100,获取待画像店铺的基础数据建立原始数据集,包括店铺商品数据、店铺会员数据、店铺等级数据、店铺访问量数据、客单价数据、商品评价数据、供应商数据等;
数据建模单元A200,根据零售药店画像目标,利用层次分析法,对数据进行分析处理,构建画像指标体系,确定所述带画像药店的静态标签和动态标签,其中静态指标是基于静态数据的标签,是指店铺中不会随时间经常变化的指标,例如店铺名称、主要业务范围、装修风格、店铺星级等,动态指标与静态指标相反,是指会随着时间的变化而常变化的指标,例如店铺会员数量、店铺访问量、浏览量等;
画像构建单元A300,根据相关性理论,拆分指标维度,删除不相关或弱相关指标,提高画像精确度,建立可靠的模型结果指标,构建线上零售药店画像;
画像显示单元A400,根据线上零售药店画像,利用词云完成可视化操作。
具体的,数据获取单元A100获取待画像店铺的基础数据建立原始数据集,包括店铺商品数据、店铺会员数据、店铺等级数据、店铺访问量数据、客单价数据、商品评价数据、供应商数据等;其中,数据的收集包括两个部分,一部分是企业外部的数据,主要来源是互联网公开数据,该部分数据的获取采用网络爬虫的方式,本发明所采集的数据领域性明确,结构清晰,所以采用垂直爬虫的方式采集,主要数据来源是淘宝网、美团外卖、饿了么外卖;一部分是店铺内部的数据,主要是店铺经营数据,这部分数据可以在店铺后台获取。
数据建模单元A200,所述数据建模单元具体包括:
数据分析单元,用于根据根据零售药店画像目标,利用层次分析法,对数据进行分析处理,构建画像指标体系,确定所述带画像药店的静态标签和动态标签。
数据清洗单元,用于删除重复数据、修正错误数据并使用零值、空字符串或实际数据补全数据;
数据标准化单元,新词识别,新词识别的目的是向分词词库中添加新词,来提高分词的准确度。
数据特征选择单元,用于进行特征选择,数据降维,提高结果的准确度。
画像构建单元A300,根据相关性理论,拆分指标维度,删除不相关或弱相关指标,提高画像精确度,建立可靠的模型结果指标,构建线上零售药店画像,店铺画像指标确定为两大维度九个大标签二十二个指标。
画像显示单元A400,根据A300画像构建单元所确定的二十二个指标,利用Wordcloud完成可视化操作。
基于图1所示,本发明实施例2利用上述的系统,实现了线上零售药店画像的构方法,该方法具体包括:
S100,获取待画像店铺的基础数据建立原始数据集,包括店铺商品数据、店铺会员数据、店铺等级数据、店铺访问量数据、客单价数据、商品评价数据、供应商数据等;
S200,根据零售药店画像目标,利用层次分析法,对数据进行分析处理,构建画像指标体系,确定所述带画像药店的静态标签和动态标签;
S300,根据相关性理论,拆分指标维度,删除不相关或弱相关指标,提高画像精确度,建立可靠的模型结果指标,构建线上零售药店画像;
S400,根据线上零售药店画像,利用词云完成可视化操作。
具体的,步骤S100中,获取待画像店铺的基础数据建立原始数据集,所述数据至少包括店铺商品数据(销量、种类、核心商品、价格、点击率、收藏率等)、店铺会员数据(会员购买频率、性别、年龄、地址等)、店铺等级(店铺星级等)、店铺访问量、客单价、商品评价数据(等级评价、物流评价、商品评价、服务评价、文本评价等)、供应商数据(产地、品牌等)等;所建立的原始数据集不仅包括店铺人群数据,还包括店铺经营数据,综合考虑店铺的内外部数据,建立指标体系,构建全面、立体的店铺画像。
其中,原始数据集中的数据主要分为店铺内部数据和外部数据两个部分,数据的收集包括两个部分,一部分是店铺内部的数据,主要是店铺经营数据,这部分数据可以在店铺后台获取;一部分是企业外部的数据,主要来源是互联网公开数据,该部分数据的获取采用网络爬虫的方式。
本实施例2中,所采集的数据领域性明确,结构清晰,所以采用垂直爬虫的方式采集。主要数据来源是淘宝网、美团外卖、饿了么外卖,现在网页具有反爬虫设计,即使使用多线程、修改Headers参数,仍不能保证每次100%的爬取,所以,在爬取数据时增加循环爬取,爬取未成功爬取的页面,直至所有页面爬取成功为止。
在步骤S200中,根据零售药店画像目标,利用层次分析法,对数据进行分析处理,构建画像指标体系,确定所述待画像药店的静态标签和动态标签。其中,静态指标是基于静态数据的标签,是指店铺中不会随时间经常变化的指标,例如店铺名称、主要业务范围、装修风格、店铺星级等,动态指标与静态指标相反,是指会随着时间的变化而常变化的指标,例如店铺会员数量、店铺访问量、浏览量等。
其中,层次分析法是指将一个复杂的多目标决策问题作为一个系统,将目标分解为多指标的若干层次,通过定性指标模糊量化方法算出层次但排序和总排序,以作为目标、多方案优化决策的系统方法。
用层次分析法建立店铺画像分级指标体系,首先要确定评估指标的数据矩阵,本实施例2中采用熵值法来确定数据矩阵,公式:
X=|Xij|m*n
式中,m是指店铺画像中涉及的对象数量,n是评估指标的数量,Xij是第i个样本的第j项评估指标数值,该矩阵计算了评估指标的熵值,能够判断所选择的指标对画像构建的重要程度。
本实施例2中,利用层次分析法将画像指标拆分为两大维度九个大标签二十二个指标进行分析预测。
其中,待画像店铺的静态标签至少包括店铺名称标签、店铺星级标签、店铺主要业务范围标签等;
动态标签至少包括店铺会员标签、用户浏览行为标签、用户收藏行为标签、用户购买行为标签、用户点评行为标签等。
其中,在进行模型预测前需对数据进行数据处理:
第一,进行数据清洗,目的是删除重复数据、修正错误数据并使用零值、空字符串或实际数据补全数据;
新词识别,新词识别的目的是向分词词库中添加新词,来提高分词的准确度。本实施例2中,在运行过过程中采用定时向词库补充新词的方式,其中,新词主要是指新产生的网络用语,以提高分词的正确率。
分词及词性标注,本实施例使用hanlp分词工具对评价文本进行分词处理,其词库在新词的基础上,进一步增加医药行业的专业词和情感词。
其中,医药行业专业词主要来源中国基层医药杂志发布的可直接缩写常用词汇、中国医药行业科学技术信息网、百度文库,情感词采用知网公布的情感词库。停用词及词性过滤,停用词是指在文本分析过程中出现的无意义词汇,例如“的、地、我、后、个、是”等。
本实施例2中,在过滤停用词时,参考中文文本情感分类停用词表。
第三,进行特征选择,对数据进行降维处理,提高模型预测的准确度。
其中,静态标签和动态标签的提取,具体步骤包括:静态标签,是基于静态数据提取的标签,此部分标签的提取可以基于计算具体的计算公式或关键词选择。
动态标签,例如,用户点评行为标签,首先使用文本挖掘技术获取用户评论数据,然后对数据进行清洗、分词、停用词过滤,使用BERT-LDA模型进行主题生成,构建用户点评行为标签。
其中,如图3所示,使用BERT-LDA模型进行主题生成,LDA模型用来推测文档主题分布的模型,它可以将每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题,然后根据主题分布进行主题聚类或文本分类。
定义文本集D={di|i∈{1,2,3……,M}}由M个文档组成;
文档di={dis|s∈{1,2,3,……,S}}包含S个句子,且di={wij|j∈{1,2,3……,Ni}}由Ni个词构成,每个词都对应一个潜在的主题,则di所对应的主题集为zi={zij|j∈{1,2,3,……,Ni}};
设定LDA模型中的变量联合分布式如下:
式中:α,β服从先验Dirichlet分布;θi为文本主题分布的概率;P(θi|α)为Dirichlet先验参数α产生文档di的“文本-主题”分布概率;P(zij|θi)为主题分布θi中取样生成文档di第j个词对应的主题概率;P(φ|β)为Dirichlet先验参数β生成主题zij的“主题-词”分布矩阵;为词语分布中生成词语wij对应的概率。
该模型能够有效的计算出文档的主题模型,在进行主题提取是难以有效结合文本的语义和上下文,基于此,本实施例2将BERT模型与LDA主题模型相结合,优势互补,来提高复杂文本主题提取的精确度。
BERT本质是通过在海量的语料基础上运行自我监督学习方法为单词学习一个好的特征表示,自我监督学习是指在没有人工标注的数据上运行的监督学习。本实施例2将BERT的特征表示作为任务词嵌入特征来优化模型,将分词后的文档di={wij|j∈{1,2,3,……,Ni}}输入BERT模型,生成新的词向量d′i,
d′i={w′ij|j∈{1,2,3,……,Ni}}为文档di的词融合了改进的全文语义信息的向量集合,将改进后词向量用于主题提取,大大提高LDA模型的仿真精确度和细粒度。
步骤S300,根据相关性理论,拆分指标维度,删除不相关或弱相关指标,提高画像精确度,建立可靠的模型结果指标,构建线上零售药店画像。依据相关性理论,以消费者、产品等重要实体为核心,对指标进行维度分解,通过列表的形式进行展示,依据主观分析删除不相关的指标,避免无用的指标占用资源甚至影响画像结果。
本实施例2所建立的指标体系如表1所示。
表1线上零售药店标签体系及评价标准
其中,市场占有率标签:又称市场份额,是指某个公司的产品在同类产品市场中销售量所占的比例。
式中:Qit是品牌i在时间t的销量,Qt为同一产品类别在时间t的全部销量。
库存周转率标签:是指在某一段时间内库存货物周转的次数。周转率越高说明销售情况越好。
库存周转率=年度销售成本/当年平均库存价值
库存周转率=(该期间的出库总金额/该期间的平均库存金额)*100%
步骤S400,根据所述静态标签和动态标签,确定标签权重,利用词云完成线上零售药店画像的视觉呈现。
实施例3
本发明实施例3提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质包括用于执行线上店铺画像构建方法的指令,该方法包括:
获取待画像店铺的基础数据,建立原始数据集;
根据待画像店铺画像目标,对原始数据集进行分析处理,构建画像指标体系;
结合相关性理论,对画像指标体系进行处理,构建画像最终关联指标;
根据画像最终关联指标构建线上店铺画像,利用词云完成画像可视化。
实施例4
本发明实施例4提供一种电子设备,该电子设备包括一种非暂态计算机可读存储介质;以及能够执行所述非暂态计算机可读存储介质的所述指令的一个或多个处理器。所述非暂态计算机可读存储介质包括用于执行线上店铺画像构建方法的指令,该方法包括:
获取待画像店铺的基础数据,建立原始数据集;
根据待画像店铺画像目标,对原始数据集进行分析处理,构建画像指标体系;
结合相关性理论,对画像指标体系进行处理,构建画像最终关联指标;
根据画像最终关联指标构建线上店铺画像,利用词云完成画像可视化。
实施例5
本发明实施例5提供一种电子设备,所述设备包括用于执行线上店铺画像构建方法的指令,该方法包括:
获取待画像店铺的基础数据,建立原始数据集;
根据待画像店铺画像目标,对原始数据集进行分析处理,构建画像指标体系;
结合相关性理论,对画像指标体系进行处理,构建画像最终关联指标;
根据画像最终关联指标构建线上店铺画像,利用词云完成画像可视化。
综上所述,本发明实施例所述的线上店铺画像构建方法及系统,采用融合了BERT的LDA模型,BERT模型能够通过在海量的语料基础上运行自我监督学习,为单词学习一个好的特征表示,弥补LDA模型无法有效结合文本的语义和上下文信息进行主题提取的缺陷,提高了模型特征提取准确度。在用户画像的基础上延伸使用店铺画像的概念,构建了一个多维全面的店铺画像,帮助决策者聚焦服务对象,提高服务标准,实现精准营销,进一步的可以辅助店铺解决商品上新、活动促销、店铺视觉设计等问题。帮助决策者全面的认知店铺的水平和发展趋势,辅助进行决策,降低了决策风险。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种线上店铺画像构建方法,其特征在于,包括:
获取待画像店铺的基础数据,建立原始数据集;
根据待画像店铺画像目标,对原始数据集进行分析处理,构建画像指标体系;
结合相关性理论,对画像指标体系进行处理,构建画像最终关联指标;
根据画像最终关联指标构建线上店铺画像,利用词云完成画像可视化。
2.根据权利要求1所述的线上店铺画像构建方法,其特征在于,待画像店铺的基础数据包括:店铺商品数据、店铺会员数据、店铺等级数据、店铺访问量数据、客单价数据、商品评价数据、供应商数据。
3.根据权利要求1所述的线上店铺画像构建方法,其特征在于,根据待画像店铺画像目标,利用层次分析法,对原始数据集进行分析处理,确定所述待画像药店的静态标签和动态标签。
4.根据权利要求3所述的线上店铺画像构建方法,其特征在于,对原始数据集进行分析处理包括:删除重复数据、修正错误数据并使用零值、空字符串或实际数据补全数据;进行新词识别,分词及词性标注,停用词及词性过滤、BERT-LDA文本表示;进行特征选择,数据降维。
5.根据权利要求4所述的线上店铺画像构建方法,其特征在于,静态标签是基于静态数据的标签,是指该店铺中不随时间变化的指标,包括店铺名称标签、店铺星级标签、店铺主要业务范围标签;动态指标与静态指标相反,是指该店铺中不随时间变化的指标,包括店铺会员标签、用户浏览行为标签、用户收藏行为标签、用户购买行为标签、用户点评行为标签。
6.根据权利要求3所述的线上店铺画像构建方法,其特征在于,构建画像关联指标包括:根据相关性理论,拆分画像指标体系的指标维度,删除不相关或弱相关指标,建立可靠的模型结果指标,得到画像最终关联指标。
7.根据权利要求3所述的线上店铺画像构建方法,其特征在于,获取待画像店铺的基础数据包括:采用垂直爬虫的方式采集该店铺的互联网公开数据;通过店铺后台获取店铺内部经营数据。
8.根据权利要求3-7任一项所述的线上店铺画像构建方法,其特征在于,根据所述画像最终关联指标中的静态标签和动态标签,设置相关参数,利用词云完成零售药店的可视化操作。
9.一种线上店铺画像构建系统,其特征在于,包括:
获取模块,用于获取待画像店铺的基础数据,建立原始数据集;
体系构建模块,用于根据待画像店铺画像目标,对原始数据集进行分析处理,构建画像指标体系;
指标提取模块,用于结合相关性理论,对画像指标体系进行处理,构建画像最终关联指标;
显示模块,用于根据画像最终关联指标构建线上店铺画像,利用词云完成画像可视化。
10.根据权利要求9所述的线上店铺画像构建系统,其特征在于,所述体系构建模块包括:
分析单元,用于根据待画像店铺画像目标,利用层次分析法,对原始数据集进行分析处理,确定所述待画像药店的静态标签和动态标签;
清洗单元,用于删除重复数据、修正错误数据并使用零值、空字符串或实际数据补全数据;
标准化单元,用于进行新词识别,分词及词性标注,停用词及词性过滤、BERT-LDA文本表示;
特征选择单元,进行特征选择,数据降维。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110302703.XA CN112990973B (zh) | 2021-03-22 | 2021-03-22 | 线上店铺画像构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110302703.XA CN112990973B (zh) | 2021-03-22 | 2021-03-22 | 线上店铺画像构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990973A true CN112990973A (zh) | 2021-06-18 |
CN112990973B CN112990973B (zh) | 2023-06-30 |
Family
ID=76334290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110302703.XA Active CN112990973B (zh) | 2021-03-22 | 2021-03-22 | 线上店铺画像构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990973B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113345080A (zh) * | 2021-06-22 | 2021-09-03 | 郑州信源信息技术股份有限公司 | 一种供应商画像建模方法及系统 |
CN113393278A (zh) * | 2021-07-05 | 2021-09-14 | 上海汉沅教育科技有限公司 | 一种餐饮门店智能诊断方法、系统、设备及介质 |
CN113901318A (zh) * | 2021-10-13 | 2022-01-07 | 燕山大学 | 一种用户画像构建系统 |
CN115456679A (zh) * | 2022-09-19 | 2022-12-09 | 浪潮卓数大数据产业发展有限公司 | 一种网络零售店铺指标体系的分析方法、装置及介质 |
CN116629917A (zh) * | 2023-05-19 | 2023-08-22 | 广州商研网络科技有限公司 | 店铺特征应用方法及其装置、设备、介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104867037A (zh) * | 2015-05-29 | 2015-08-26 | 北京京东尚科信息技术有限公司 | 一种画像特征的数据处理方法及装置 |
CN109359244A (zh) * | 2018-10-30 | 2019-02-19 | 中国科学院计算技术研究所 | 一种个性化信息推荐方法和装置 |
WO2020133438A1 (zh) * | 2018-12-29 | 2020-07-02 | 深圳市欢太科技有限公司 | 信息内容的确定方法及相关产品 |
CN111861262A (zh) * | 2020-07-30 | 2020-10-30 | 国网山东省电力公司寿光市供电公司 | 一种基于能源大数据的企业透视画像方法及终端 |
-
2021
- 2021-03-22 CN CN202110302703.XA patent/CN112990973B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104867037A (zh) * | 2015-05-29 | 2015-08-26 | 北京京东尚科信息技术有限公司 | 一种画像特征的数据处理方法及装置 |
CN109359244A (zh) * | 2018-10-30 | 2019-02-19 | 中国科学院计算技术研究所 | 一种个性化信息推荐方法和装置 |
WO2020133438A1 (zh) * | 2018-12-29 | 2020-07-02 | 深圳市欢太科技有限公司 | 信息内容的确定方法及相关产品 |
CN111861262A (zh) * | 2020-07-30 | 2020-10-30 | 国网山东省电力公司寿光市供电公司 | 一种基于能源大数据的企业透视画像方法及终端 |
Non-Patent Citations (1)
Title |
---|
谢慧志: "基于用户选购及在线点评行为的门店画像研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113345080A (zh) * | 2021-06-22 | 2021-09-03 | 郑州信源信息技术股份有限公司 | 一种供应商画像建模方法及系统 |
CN113393278A (zh) * | 2021-07-05 | 2021-09-14 | 上海汉沅教育科技有限公司 | 一种餐饮门店智能诊断方法、系统、设备及介质 |
CN113901318A (zh) * | 2021-10-13 | 2022-01-07 | 燕山大学 | 一种用户画像构建系统 |
CN115456679A (zh) * | 2022-09-19 | 2022-12-09 | 浪潮卓数大数据产业发展有限公司 | 一种网络零售店铺指标体系的分析方法、装置及介质 |
CN116629917A (zh) * | 2023-05-19 | 2023-08-22 | 广州商研网络科技有限公司 | 店铺特征应用方法及其装置、设备、介质 |
CN116629917B (zh) * | 2023-05-19 | 2024-01-30 | 广州商研网络科技有限公司 | 店铺特征应用方法及其装置、设备、介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112990973B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919619B (zh) | 一种商品聚类方法、装置及电子设备 | |
CN112990973B (zh) | 线上店铺画像构建方法及系统 | |
CN112001187B (zh) | 一种基于中文句法和图卷积神经网络的情感分类系统 | |
CN111914096A (zh) | 基于舆情知识图谱的公共交通乘客满意度评价方法及系统 | |
CN108491377A (zh) | 一种基于多维度信息融合的电商产品综合评分方法 | |
Jammalamadaka et al. | Predicting a stock portfolio with the multivariate bayesian structural time series model: Do news or emotions matter? | |
CN112861541B (zh) | 一种基于多特征融合的商品评论情感分析方法 | |
CN107357793A (zh) | 信息推荐方法和装置 | |
CN108874783A (zh) | 电力信息运维知识模型构建方法 | |
CN108319734A (zh) | 一种基于线性组合器的产品特征结构树自动构建方法 | |
CN107357860A (zh) | 一种基于新闻数据的个股情绪汇聚方法 | |
CN107688870A (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
Manikandan et al. | Deep sentiment learning for measuring similarity recommendations in twitter data | |
Durana et al. | Digital twin modeling and spatial awareness tools, acoustic environment recognition and visual tracking algorithms, and deep neural network and vision sensing technologies in blockchain-based virtual worlds | |
CN115578137A (zh) | 一种基于文本挖掘与深度学习模型的农产品期货价格预测方法及系统 | |
Morley | Image Processing Computational Algorithms, Movement and Behavior Tracking Tools, and Virtual Retail Algorithms in a Real-Time Interoperable Decentralized Metaverse. | |
CN114942974A (zh) | 电商平台商品用户评价情感倾向分类方法 | |
Aftab et al. | Sentiment analysis of customer for ecommerce by applying AI | |
Perkins | Extended reality and geospatial mapping technologies, behavioral predictive and mobile location analytics, and motion planning and object recognition algorithms in immersive hyper-connected virtual spaces | |
Huang et al. | Feature extraction of search product based on multi-feature fusion-oriented to Chinese online reviews | |
Abdullah et al. | An introduction to data analytics: its types and its applications | |
CN116703506A (zh) | 一种基于多特征融合的电商商品推荐方法及系统 | |
Kordomatis et al. | Web object identification for web automation and meta-search | |
CN110083684A (zh) | 面向细粒度情感的可解释推荐模型 | |
Liu et al. | User-generated content analysis for customer needs elicitation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |