CN111858930A - 一种社交电商用户画像的建立方法 - Google Patents

一种社交电商用户画像的建立方法 Download PDF

Info

Publication number
CN111858930A
CN111858930A CN202010639145.1A CN202010639145A CN111858930A CN 111858930 A CN111858930 A CN 111858930A CN 202010639145 A CN202010639145 A CN 202010639145A CN 111858930 A CN111858930 A CN 111858930A
Authority
CN
China
Prior art keywords
social
commerce
training
data
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010639145.1A
Other languages
English (en)
Inventor
张文
崔浩亮
陈轶
牛少彰
王让定
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast Digital Economic Development Research Institute
Original Assignee
Southeast Digital Economic Development Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast Digital Economic Development Research Institute filed Critical Southeast Digital Economic Development Research Institute
Priority to CN202010639145.1A priority Critical patent/CN111858930A/zh
Publication of CN111858930A publication Critical patent/CN111858930A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种社交电商用户画像的建立方法,它解决了现有技术存在的干扰噪音多的问题。其方法包括:步骤S1:在中文语料库中进行自监督训练得到预训练模型;步骤S2:对社交电商公开文本数据集预处理后进行分类标注;步骤S3:将预训练模型在类别标注完成的数据集上进行微调训练,得到用户画像模型。本发明优点在于有效减少干扰噪音,合理使用社交电商专业领域文本信息,提升用户画像建立的精准度。

Description

一种社交电商用户画像的建立方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种社交电商用户画像的建立方法。
背景技术
随着社交工具和移动互联网设施的不断完善,社交电商作为一种依托社交关系进行商品交易存在的电商将处于井喷式发展时期。社交电商有别于淘宝等电商平台式运营,社交销售员处于网络零售末端通过社交软件进行交易活动。同时,社交工具软件也有别于传统电商软件,没有对销售员进行统一化注册和管理以及没有对售卖产品进行系统化分类,并且对商品的描述也没有规范化术语。这导致服务商对用户(即社交电商)缺乏全面了解,不能很好地通过用户需求和市场环境对用户提供优质服务,也无法疏导商品流通渠道起到产业路由的作用。因此,如何建立高效为社交电商建立用户画像模型已经成为了业内关注的焦点问题之一.
目前现有的用户画像建立方案多是基于用户在社交网站上的行为信息。然而,此类数据只能反应该用户自身作为买家的兴趣爱好,无法反应该用户作为社交电商卖家时的用户画像。
例如,专利公布号CN106021337A公开了一种智能推荐方法,通过用户在电商应用或信息平台的行为数据进行分析,从而实现商品的推荐。该发明使用的数据相比于社交领域公开的文本信息而言存在滞后性。该数据属性大多偏向用户作为买家时的兴趣爱好,不能很好反应用户作为社交电商角色的用户画像。
例如,专利公布号CN105608171A公开了一种用户画像建立方法,通过用户上网日志与海量知识库进行匹配的方式建立用户画像。此发明用到的上网日志数据对于社交电商的用户画像而言会存在很多的干扰噪声,影响用户画像的建立。
发明内容
鉴于此,本发明的目的在于克服现有技术的不足,提供一种社交电商用户画像的建立方法,进一步减少数据的干扰噪声。
为实现以上目的,本发明采用如下技术方案:
一种社交电商用户画像的建立方法,包括以下步骤:
步骤S1:在中文语料库中进行自监督训练得到预训练模型;
步骤S2:对社交电商公开文本数据集预处理后进行分类标注;
步骤S3:将预训练模型在类别标注完成的数据集上进行微调训练,得到用户画像模型。
在上述的一种社交电商用户画像的建立方法中,S2所述的公开文本数据集预处理为通过正则表达式删除文本中的表情、数字、空格和制表符。
在上述的一种社交电商用户画像的建立方法中,S1所述对中文语料库的预训练是基于Transformer的双向神经网络模型在中文语料库中进行自监督学习。
在上述的一种社交电商用户画像的建立方法中,S1中的中文语料库选用数据由通用领域公开文本和社交电商领域专业文本组成。
在上述的一种社交电商用户画像的建立方法中,S1中对中文语料库预训练后参照BERT进行token序列化,将token序列化的结果输入模型进行预训练。
在上述的一种社交电商用户画像的建立方法中,S1中预训练所进行的是对社交电商专业语料库的遮掩词预测和/或通用语料库的遮掩测预测和/或通用语料库的前后文预测。
在上述的一种社交电商用户画像的建立方法中,S3所述分类微调是对分类标注后的数据进行token序列化,将第一个token对应的最终应参状态以向量的形式输入值全连接层,再经过softmax层得到的数值定义为该条文本数据对应各类标签的归一化概率。
在上述的一种社交电商用户画像的建立方法中,S2的标注分类阶段,至少两人对每条数据进行标注,最终选取所有人标注相同的数据为本次实验数据集,否则重新进行标注直到相同为止。
通过对于语料库的预训练排除多余的噪声干扰,提高数据整合的精确度,提升用户画像建立的精准度。
附图说明
图1:本发明一实施例提供的一种社交电商用户画像的建立方法的流程示意图;
图2:数据预处理流程
图3:文本数据标记示例
图4:数据标注流程示意图
图5:预训练模型示意图
图6:文本信息token序列化示意图
图7:文本分类BERT微调模型结构图
具体实施方式
以下采用本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
步骤S1:在中文语料库中进行自监督训练得到预训练模型。S1所述对中文语料库的预训练是基于Transformer的双向神经网络模型在中文语料库中进行自监督学习。S1中的中文语料库选用数据由wiki中文百科、搜狐新闻、网易新闻和社交电商领域专业文本组成。S1中对中文语料库预训练后参照BERT进行token序列化,将token序列化的结果输入模型进行预训练。S1中预训练所进行的是对社交电商专业语料库的遮掩词预测和/或通用语料库的遮掩测预测和/或通用语料库的前后文预测。一般来说S1预训练过程都会有两个任务,一个是遮掩词预测,另一个是与前后句预测相类似的两种任务。一般这两个任务都会要做。但是对于社交电商公开文本内容而言,更适合做第一个,所以本发明在对社交电商专业领域文本做预训练时可以选择性的只做任务一,可以根据不同的场景进行适应性的改进。作为优选地,实际预训练时,可以选择性的对社交电商专业语料库只做遮掩词预测,而通用语料库既要进行遮掩词预测也要进行前后文本预测。
步骤S2:对社交电商公开文本数据集预处理后进行分类标注。S2所述的公开文本数据集预处理为通过正则表达式删除文本中的表情、数字、空格和制表符。S2的标注分类阶段,至少两人对每条数据进行标注,最终选取所有人标注相同的数据为本次实验数据集,否则重新进行标注直到相同为止。
步骤S3:将预训练模型在类别标注完成的数据集上进行微调训练,得到用户画像模型。S3所述分类微调是对分类标注后的数据进行token序列化,将第一个token对应的最终应参状态以向量的形式输入值全连接层,再经过softmax层得到的数值定义为该条文本数据对应各类标签的归一化概率。S3中的保存方式以“标签+tab+文本信息”的进行标注保存。
本发明先在大规模中文语料库上进行预训练,然后用标注完成的社交电商公开社交本文信息进行分类微调,以达到按社交电商所售卖产品属性的不同建立用户画像的目的。本发明方法流程示意图如图1所示。
本发明按照社交电商售卖商品属性的不同对其公开社交文本内容进行分类标注,标签包括:电子产品、服饰、食品、汽车、房产、美容、美妆个护、培训、首饰、推广、医药保健、话费充值、金融、卡类、香烟、杂文、加粉软件、旅游、书画其他等,共计20类。
本发明文本信息预处理是通过正则表达式以Unicode编码查询的方式删除文本中的emoji表情、数字、空格和制表符。其中,emoji表情主要描述情绪方面信息,数字主要描述商品的份数、价格和尺寸,这些内容在以商品特征属性对社交电商建立用户画像时为数据噪声,空格和制表符亦是如此。数据预处理流程如图2所示。
本发明使用的微调数据以“标签+tab+文本信息”的形式进行标注保存。标注形式如图3所示。
在数据标注阶段,三名社交电商领域资深研究人员同时对每条数据进行标注,最终选取三人标注部分相同的数据为本次的实验数据集。数据标注流程示意图如图4所示。
本发明的模型训练采用预训练加微调的迁移学习方式。预训练阶段选用基于Transformer的双向神经网络模型在中文语料库中进行自监督学习。模型示意图如图5所示。
Transformer作为一种基于注意力机制的encoder-decoder模型,解决了RNN无法处理长距离依赖和模型无法并行的问题,在提升模型性能的同时不丧失准确性。预训练时选用的数据为wiki中文百科、搜狐新闻、网易新闻等通用文本和社交电商领域专业文本组成的语料库。语料库中的文本经上述方法预处理后参照谷歌提出的BERT进行token序列化,将token序列化后结果输入模型进行预训练。文本token序列化示意图如图6所示。在第一个句首增加一个特殊的token CLS,在句尾增加token SEP表示句子结束。
预训练阶段进行的任务为语料库的遮掩词预测和前后文本预测,任务执行参数参照谷歌提出的BERT模型的预训练流程。其中,在对wiki中文百科、搜狐新闻、网易新闻等通用语料库进行预训练时,采用遮掩词预测和前后文本预测两种任务相结合的形式;而在对社交电商领域相关语料库进行预训练时任务仅执行遮掩词预测任务。这部分区别是因为考虑到社交电商领域文本多由单一句子组成,不适合执行与上下文有关的任务,如前后文本预测等。
模型预训练完成后进入微调阶段。微调阶段使用的数据集为标注完成的数据。该数据集按照和预训练阶段同样的方式进行token序列化。然后,将第一个token[CLS]对应的最终隐藏状态以向量形式输入至全连接层,再经过softmax层得到的数值定义为该条文本数据对应各类标签的归一化概率。模型微调结构示意图如7所示。
我们选取38981条数据,按照6:4比例划分为训练集和验证集,即训练集23,388条,验证集15,593条。实验结果表明,本发明文本分类准确率为96.22%。结果如下表所示.
Figure BDA0002570218050000061
此外,我们额外选取了9542条社交电商的公开社交文本数据对此模型进行测试,模型准确率依然高达90.3%。因此,本发明可以通过对社交电商公开的社交文本内容分类的形式建立社交电商的用户画像,为信息服务商实现产业路由功能提供技术支撑。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种社交电商用户画像的建立方法,其特征在于,包括以下步骤:
步骤S1:在中文语料库中进行自监督训练得到预训练模型;
步骤S2:对社交电商公开文本数据集预处理后进行分类标注;
步骤S3:将预训练模型在类别标注完成的数据集上进行微调训练,得到用户画像模型。
2.根据权利要求1所述的一种社交电商用户画像的建立方法,其特征在于,S2所述的公开文本数据集预处理为通过正则表达式删除文本中的表情、数字、空格和制表符。
3.根据权利要求1所述的一种社交电商用户画像的建立方法,其特征在于,S1所述对中文语料库的预训练是基于Transformer的双向神经网络模型在中文语料库中进行自监督学习。
4.根据权利要求1所述的一种社交电商用户画像的建立方法,其特征在于,S1中的中文语料库选用数据由通用领域公开文本和社交电商领域专业文本组成。
5.根据权利要求1所述的一种社交电商用户画像的建立方法,其特征在于,S1中对中文语料库预训练后参照BERT进行token序列化,将token序列化的结果输入模型进行预训练。
6.根据权利要求5所述的一种社交电商用户画像的建立方法,其特征在于,S1中预训练所进行的是对社交电商专业语料库的遮掩词预测和/或通用语料库的遮掩测预测和/或通用语料库的前后文预测。
7.根据权利要求1所述的一种社交电商用户画像的建立方法,其特征在于,S3所述分类微调是对分类标注后的数据进行token序列化,将第一个token对应的最终应参状态以向量的形式输入值全连接层,再经过softmax层得到的数值定义为该条文本数据对应各类标签的归一化概率。
8.根据权利要求1所述的一种社交电商用户画像的建立方法,其特征在于,S2的标注分类阶段,至少两人对每条数据进行标注,最终选取所有人标注相同的数据为本次实验数据集,否则重新进行标注直到相同为止。
CN202010639145.1A 2020-07-06 2020-07-06 一种社交电商用户画像的建立方法 Pending CN111858930A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010639145.1A CN111858930A (zh) 2020-07-06 2020-07-06 一种社交电商用户画像的建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010639145.1A CN111858930A (zh) 2020-07-06 2020-07-06 一种社交电商用户画像的建立方法

Publications (1)

Publication Number Publication Date
CN111858930A true CN111858930A (zh) 2020-10-30

Family

ID=73152957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010639145.1A Pending CN111858930A (zh) 2020-07-06 2020-07-06 一种社交电商用户画像的建立方法

Country Status (1)

Country Link
CN (1) CN111858930A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609851A (zh) * 2021-07-09 2021-11-05 浙江连信科技有限公司 心理学上想法认知偏差的识别方法、装置及电子设备
CN113761331A (zh) * 2020-11-04 2021-12-07 北京京东尚科信息技术有限公司 用户画像构建方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512245A (zh) * 2015-11-30 2016-04-20 青岛智能产业技术研究院 一种基于回归模型建立企业画像的方法
CN108804701A (zh) * 2018-06-19 2018-11-13 苏州大学 基于社交网络大数据的人物画像模型构建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512245A (zh) * 2015-11-30 2016-04-20 青岛智能产业技术研究院 一种基于回归模型建立企业画像的方法
CN108804701A (zh) * 2018-06-19 2018-11-13 苏州大学 基于社交网络大数据的人物画像模型构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
翟剑锋: "基于BERT的用户画像", 电子技术与软件工程, pages 253 - 255 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761331A (zh) * 2020-11-04 2021-12-07 北京京东尚科信息技术有限公司 用户画像构建方法、装置、电子设备及存储介质
CN113609851A (zh) * 2021-07-09 2021-11-05 浙江连信科技有限公司 心理学上想法认知偏差的识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
RU2635257C1 (ru) Сентиментный анализ на уровне аспектов и создание отчетов с использованием методов машинного обучения
Miao et al. Aspect-based sentiment analysis in Chinese based on mobile reviews for BiLSTM-CRF
Kumar et al. Sentic computing for aspect-based opinion summarization using multi-head attention with feature pooled pointer generator network
Wei et al. Sentiment classification of Chinese Weibo based on extended sentiment dictionary and organisational structure of comments
Wen et al. Sentiment analysis of hotel online reviews using the BERT model and ERNIE model—Data from China
Kocayusufoglu et al. Riser: Learning better representations for richly structured emails
Suresh et al. Mining of customer review feedback using sentiment analysis for smart phone product
CN112036189A (zh) 一种金文语义识别方法和系统
CN116821372A (zh) 基于知识图谱的数据处理方法、装置、电子设备及介质
Alquhtani et al. Development of Effective Electronic Customer Relationship Management (ECRM) Model by the Applications of Web Intelligence Analytics
Li Cross‐Border E‐Commerce Intelligent Information Recommendation System Based on Deep Learning
Chen et al. Attending to customer attention: A novel deep learning method for leveraging multimodal online reviews to enhance sales prediction
CN116541517A (zh) 文本信息处理方法、装置、设备、软件程序以及存储介质
Liu et al. A deep multi-embedding model for mobile application recommendation
CN111858930A (zh) 一种社交电商用户画像的建立方法
Wu et al. [Retracted] Using the Mathematical Model on Precision Marketing with Online Transaction Data Computing
Zou et al. Automatic product copywriting for e‐commerce
Wang Research on the art value and application of art creation based on the emotion analysis of art
Ye et al. Cross cultural Comparative Study on Emotional Analysis of Social Media
Dong et al. Potential Trend for Online Shopping Data Based on the Linear Regression and Sentiment Analysis
Wang et al. Prediction of perceived utility of consumer online reviews based on lstm neural network
Zhao A dynamic pricing mechanism model based on sentiments analysis
Li Deep Learning‐Based Natural Language Processing Methods for Sentiment Analysis in Social Networks
Xiao et al. Analysis of influencing factors and enterprise strategy of online consumer behavior decision based on association rules and mobile computing
Qin et al. Exploring the distribution regularities of user attention and sentiment toward product aspects in online reviews

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination