CN113392205A - 用户画像构建方法、装置、设备及存储介质 - Google Patents

用户画像构建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113392205A
CN113392205A CN202110618837.2A CN202110618837A CN113392205A CN 113392205 A CN113392205 A CN 113392205A CN 202110618837 A CN202110618837 A CN 202110618837A CN 113392205 A CN113392205 A CN 113392205A
Authority
CN
China
Prior art keywords
user
dialogue information
information
characteristic
target user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110618837.2A
Other languages
English (en)
Inventor
陈林
王剑辉
吴伟佳
李羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimin Insurance Agency Co Ltd
Original Assignee
Weimin Insurance Agency Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimin Insurance Agency Co Ltd filed Critical Weimin Insurance Agency Co Ltd
Priority to CN202110618837.2A priority Critical patent/CN113392205A/zh
Publication of CN113392205A publication Critical patent/CN113392205A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例涉及一种用户画像构建方法、装置、设备及存储介质,包括:获取目标用户与预设对象之间的历史对话信息;从第一对话信息中提取出所述目标用户的第一用户特征,所述第一对话信息为所述历史对话信息中,由所述目标用户发送给所述预设对象的对话信息;从所述历史对话信息中提取出所述目标用户的第二用户特征;根据所述第一用户特征和所述第二用户特征,构建所述目标用户的用户画像。由此,可以实现提高用户画像中用户信息的丰富度。

Description

用户画像构建方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种用户画像构建方法、装置、设备及存储介质。
背景技术
随着大数据技术的深入研究与应用,互联网企业的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深入挖掘客户的潜在商业价值,基于此,用户画像的概念应运而生。
用户画像的目的是尽量全面地抽象出用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息提供足够的数据基础。目前,可根据用户在互联网各渠道(例如网站、APP应用、H5等)上的行为,例如点击、浏览、搜索、支付等行为构建用户画像。
然而,一些用户特征,例如用户对某行业的认知水平、用户对某项活动的参与意愿等无法通过上述用户行为直接地表现出来,因此,亟需一种新型的构建用户画像的方法,以弥补现有技术中根据用户行为所构建的用户画像中用户信息不足的缺陷。
发明内容
本申请实施例的目的在于提供一种用户画像构建方法、装置、设备及存储介质,以实现提高用户画像中用户信息的丰富度的有益效果。具体技术方案如下:
本申请提供一种用户画像构建方法,所述方法包括:
获取目标用户与预设对象之间的历史对话信息;
从第一对话信息中提取出所述目标用户的第一用户特征,所述第一对话信息为所述历史对话信息中,由所述目标用户发送给所述预设对象的对话信息;
从所述历史对话信息中提取出所述目标用户的第二用户特征;
根据所述第一用户特征和所述第二用户特征,构建所述目标用户的用户画像。
本申请提供一种用户画像构建装置,所述装置包括:
第一获取模块,用于获取目标用户与预设对象之间的历史对话信息;
第一特征提取模块,用于从第一对话信息中提取出所述目标用户的第一用户特征,所述第一对话信息为所述历史对话信息中,由所述目标用户发送给所述预设对象的对话信息;
第二特征提取模块,用于从所述历史对话信息中提取出所述目标用户的第二用户特征;
画像构建模块,用于根据所述第一用户特征和所述第二用户特征,构建所述目标用户的用户画像。
本申请提供了一种设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述各种可选实现方式中提供的方法。
本申请提供一种存储介质,所述存储介质中存储有计算机指令,当其在计算机上运行时,使得计算机执行上述各种可选实现方式中提供的方法。
本申请提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述各种可选实现方式中提供的方法。
本申请实施例提供的技术方案,通过获取目标用户与预设对象之间的历史对话信息,从历史对话信息中,由目标用户发送给预设对象的第一对话信息中提取出目标用户的第一用户特征,从历史对话信息中提取出目标用户的第二用户特征,根据第一用户特征和第二用户特征,构建目标用户的用户画像,实现了根据用户与预设对象之间的对话信息构建用户画像,挖掘出对话信息的数据价值,并且,由于用户与预设对象之间的对话信息能够表现出用户行为所不能够表现出的一些用户特征,例如用户对某行业的认知水平、用户对某项事务的参与意愿等,因此,根据用户与预设对象之间的对话信息构建的用户画像能够弥补现有技术中根据用户行为所构建的用户画像中信息不足的缺陷,提高最终构建出用户画像中用户信息的丰富度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中示出的一种用户画像构建方法的应用场景示意图;
图2为用户40与预设对象50之间对话信息的一种示例;
图3为本申请实施例提供的一种用户画像构建方法的实施例流程图;
图4为本申请实施例提供的一种特征提取模型的结构示意图;
图5为本申请实施例提供的一种构建关键词集的实施例流程图;
图6为本申请实施例提供的一种聚类过程的实施例流程图;
图7为本申请实施例提供的一种用户画像构建装置的实施例框图;
图8为本申请实施例提供的一种设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于理解本申请实施例,以下首先对本申请实施例涉及的应用场景进行示例性说明。
如图1所示,为本申请实施例中示出的一种用户画像构建方法的应用场景示意图。图1所示应用场景为对话场景,至少包括:第一终端设备10、第二终端设备20、服务器30、用户40和预设对象50,其中,第一终端设备10和第二终端设备20可以是支持具有显示屏的各种电子设备,包括但不限于:智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备等。第一终端设备10和第二终端设备20通过服务器30建立通信连接。
预设对象50是指向用户40提供服务的对象。可选地,预设对象50可以是服务人员,也可以是自动应答系统,本申请实施例对此不做限制。预设对象50向用户提供的服务可以是咨询服务、售后服务、业务办理服务等。
当预设对象50是服务人员时,预设对象50可操作第二终端设备20向用户40提供服务。具体地,用户40操作第一终端设备10向第二终端设备20发送对话信息,第二终端设备20展示接收到的对话信息,以及预设对象50基于第二终端设备20展示的对话信息,操作第二终端设备20向第一终端设备10发送对话信息,如此实现了用户40同预设对象50之间进行对话,以通过对话过程实现预设对象50向用户40提供服务。参见图2,为用户40与预设对象50之间对话信息的一种示例。
需要说明的是,图2中仅以对话信息为文本信息为例,在应用中,对话信息还可以是图像信息、视频信息、音频信息等,本申请实施例对此不做限制。
当预设对象50是自动应答系统时,预设对象50可植入于第二终端设备20上,也可以植入于服务器30上。其中,可以理解的是,当预设对象50植入于服务器30上时,图1所示应用场景中可不包括第二终端设备20。此为,在实践中,图1所示应用场景中还可包括其他类型、其他数量的设备,本申请实施例对此不做限制。
针对图1所示例的应用场景,可应用本申请实施例提供的用户画像构建方法构建用户40的用户画像,以实现后续根据用户画像进行数据化运营。
下面将结合附图以具体实施例对本申请做进一步的解释说明,实施例并不构成对本申请实施例的限定。
参见图3,为本申请实施例提供的一种用户画像构建方法的实施例流程图。在一个例子中,该方法可应用于图1中所示例的服务器30。如图3所示,该方法可包括以下步骤:
步骤301:获取目标用户与预设对象之间的历史对话信息。
这里,目标用户是指待为其构建用户画像的用户,例如图1所示应用场景中的用户40。
如图1所示应用场景的相关描述,通过目标用户与预设对象之间进行对话可实现预设对象向目标用户提供服务,且在目标用户与预设对象进行对话的过程中,可由服务器作为两者之间的通信媒介,因此,服务器可以获取到目标用户与预设对象之间的历史对话信息。
这里,历史对话信息是指目标用户与预设对象在设定历史时间段内(例如最近3天内、最近一周内、最近一个月内、最近半年内)的对话信息,该对话信息至少包括目标用户发送给预设对象的信息,以及预设对象发送给目标用户的信息。其中,预设对象发送给目标用户的信息包括预设对象自主发送的信息,以及内置自动应答系统发送的信息。设定历史时间段可以是预设的固定值,也可由用户(例如运营人员)根据实际需求自行设置,本申请实施例对此不做限制。
步骤302:从第一对话信息中提取出目标用户的第一用户特征。
这里,第一对话语句是指步骤301获取到的历史对话信息中,由目标用户发送给预设对象的信息,例如图2中所示例的文本信息“了解,没有别的办法了吗”。
可以理解的是,目标用户发送给预设对象的第一对话信息中很可能包括目标用户的用户特征,因此,本申请实施例中,可单独地对第一对话信息进行特征提取,以从第一对话信息中提取出目标用户的用户特征(为描述方便,以下称为第一用户特征)。
本申请实施例中,在对第一对话信息进行特征提取之前,可先对第一对话信息进行预处理,之后,对预处理后的第一对话信息进行特征提取,得到目标用户的第一用户特征。这里,在第一对话信息为文本信息时,预处理包括但不限于:剔除第一对话信息中的空格、将第一对话信息中的繁体字转换为简体字等;在第一对话信息为图像信息或视频信息时,预处理包括但不限于:识别图像中的文本信息、对识别到的文本信息进行校正等;在第一对话信息为音频信息时,预处理包括但不限于:将第一对话信息转换为文本信息、对转换得到的文本信息进行校正等。
作为一个实施例,可通过以下方式从第一对话信息中提取出目标用户的第一用户特征:预先构建一个符合当下业务场景的关键词集,该关键词集中可包括多个符合当下业务场景的关键词,例如,假设当下业务场景为保险营销场景,则关键词集中可包括等待期、犹豫期、保费豁免、免责条款、疾病名称(例如肿瘤、糖尿病、心脏病、高血压等)等关键词,将第一对话信息与预先构建的关键词集进行匹配,若匹配出第一对话信息中包括至少一个关键词,则根据该至少一个关键词确定目标用户的第一用户特征。
进一步地,上述关键词集中的关键词被划分为不同的特征维度,例如,等待期、犹豫期、保费豁免、免责条款、免赔额等关键词被划分至保险认知这一特征维度,疾病名称等关键词被划分至健康风险这一特征维度,年费、缴纳年数、投保等关键词被划分至投保意向这一特征维度,老人投保、儿童(或小孩)投保、配偶投保、受益人等关键词被划分至家庭保障这一特征维度,基于此,在根据匹配出的至少一个关键词确定目标用户的第一用户特征时,可确定目标用户在该至少一个关键词所属特征维度下的第一用户特征。
举例来说,假设第一对话信息为:“高血压患者是否可投保?”,那么通过将第一对话信息与预先构建的关键词集进行匹配,可以匹配出第一对话信息中包括高血压这一关键词,而高血压这一关键词被划分至健康风险这一特征维度,因此,可从第一对话信息“高血压患者是否可投保?”中提取出目标用户在健康风险这一特征维度下的第一用户特征,此处提取出的第一用户特征可表征目标用户的健康风险等级。
再举例来说,假设第一对话信息为:“老人是否可投保?”,那么通过将第一对话信息与预先构建的关键词集进行匹配,可以匹配出第一对话信息中包括老人投保这一关键词,而老人投保这一关键词被划分至家庭保障这一特征维度,因此,可从第一对话信息“老人是否可投保?”中提取出目标用户在家庭保障这一特征维度下的第一用户特征,此处提取出的第一用户特征可表征目标用户的家庭保障意愿。
再进一步地,每一特征维度下的关键词可被划分为多个分组,不同分组对应不同的用户特征,例如,健康风险这一特征维度下的关键词被划分为三个分组,分别为(高血压)、(心脏病)、(肿瘤),且该三个分组各自对应的用户特征为健康风险较低、健康风险中等、健康风险较高。基于此,针对上述举例的第一对话信息,可从该第一对话信息中提取出目标用户在健康风险这一特征维度下的第一用户特征为:目标用户的健康风险较低。
再例如,保险认知这一特征维度下的关键词被划分为两个分组,分别为(等待期、犹豫期)、(保费豁免、免赔额),且该两个分组各自对应的用户特征为保险认知水平中等、保险认知水平较高。基于此,若第一对话信息为:“犹豫期是多久?”,基于上述描述,可从该第一对话信息中提取出目标用户在保险认知这一特征维度下的第一用户特征为:目标用户的保险认知水平中等。
又例如,家庭保障这一特征维度下的关键词被划分为两个分组,分别为(老人投保、小孩投保)、(个人投保、配偶投保),且该两个分组各自对应的用户特征为家庭保障意愿一般、家庭保障意愿强烈。基于此,针对上述举例的第一对话信息,可从该第一对话信息中提取出目标用户在家庭保障意愿这一特征维度下的第一用户特征为:目标用户的家庭保障意愿一般。
至于是如何构建关键词集的,在下文中通过图5所示实施例进行说明,这里先不详述。
步骤303:从历史对话信息中提取目标用户的第二用户特征。
可以理解的是,用户特征也能够从目标用户与预设对象之间的对话信息中体现出来,例如,预设对象询问目标用户:“是否需要为小孩投保?”,目标用户回答:“需要”,那么,这一对话信息可体现出目标用户的家庭保障意愿特征,因此,本申请实施例中,还对目标用户与预设对象之间的对话信息进行特征提取,以从对话信息中提取目标用户的用户特征(为描述方便,以下称为第二用户特征)。
作为一个实施例,首先从步骤301获取到的历史对话信息中确定目标用户与预设对象之间的问答对话信息,然后从问答对话信息中提取目标用户的第二用户特征。这里,问答对话信息可以包括预设对象向目标用户发送的询问语句和目标用户针对该询问语句做出的应答语句,也可以包括目标用户向预设对象发送的询问语句和预设对象针对该询问语句做出的应答语句。例如,问答对话信息为:预设对象询问目标用户:“是否需要为小孩投保?”,目标用户回答:“需要”;再例如,目标用户询问预设对象:“糖尿病是否在保险保障范围内?”,预设对象回答:“在”。
作为一个可选的实现方式,可通过以下方式从步骤301获取到的历史对话信息中确定目标用户与预设对象之间的问答对话信息:通过已训练的问句识别模型从历史对话信息中找到目标用户或预设对象发送的询问语句,然后,从该询问语句之后的历史对话信息中,找出预设对象或目标用户的应答语句,将该询问语句和该应答语句组成一组问答对话信息。其中,可将历史对话信息中,位于询问语句之后,且由对方发送的多条语句中确定该询问语句的应答语句。这里,若询问语句由目标用户发送,则对方是指预设对象,若询问语句由预设对象发送,则对方是指目标用户。
作为一个可选的实现方式,可通过以下方式从每一组问答对话信息中提取目标用户的第二用户特征:在一组问答对话信息中,在目标用户和预设对象的对话信息之间加入预设的分割符,以将询问语句和应答语句分割开来,从而能够区分上下文,然后,将该组问答对话信息输入至已训练的特征提取模型,得到目标用户的第二用户特征。
参见图4,为本申请实施例提供的一种特征提取模型的结构示意图。图4所示例的特征提取模型包括:Bert子模型、BiLSTM子模型,以及CRF子模型。其中,Bert子模型用于对输入的问答对话信息进行预处理,得到多个包含上下文信息的词向量,这些词向量也就是问答对话信息的特征。进一步地,Bert子模型提取到的词向量可用做下游模型,也即BiLSTM子模型的特征输入,以由BiLSTM子模型对多个词向量进行序列建模,得到分值序列,该分值序列包括每一词向量对应各预设标签的预测分值,并将该分值序列输入至CRF子模型,以由CRF子模型根据分值序列确定各词向量对应的预测标签,将预测标签确定为目标用户的第二用户特征。
具体地,Bert子模型对输入的问答对话信息进行预处理,得到多个包含上下文信息的词向量的过程包括:分别对输入的问答对话信息进行token embedding(词语向量化)、segment embedding(分段向量化),以及position embedding(位置向量化),然后,将上述三个向量化结果进行向量求和,得到问答对话信息中,每个词语最终的向量化表示,也即包含上下文信息的词向量。
BiLSTM子模型是一种循环神经网络,其对输入的词向量序列(即由Bert子模型得到的多个词向量按照文本顺序组成的序列)按照文本顺序进行建模,双向保证多个词向量能够综合正向序列和反向序列的信息。具体流程包括:将输入的多个词向量经过LSTM门控的计算,得到经过正向或反向序列影响后的词向量序列,之后,正向和反向地遍历整个词向量序列,将遍历到的词向量输入softmax层,得到词向量对应对应各预设标签的预测分值,也即得到上述分值序列。
CRF原理可以简单理解为:假设原始文本有n个词,每个词都有k种预设标签的可能性,因此按照词序列,可以得到n*k种结果,而CRF通过条件随机场,学习原始文本序列的规律,从n*k种序列中得出可能性最大的序列。基于此,CRF子模型则将上述分值序列作为输入,输出符合标注转移约束条件的、最大可能的预测标签序列,该预测标签序列则包括上述所描述的各词向量对应的预测标签。
需要说明的是,上述预设标签本身能够表征出特征维度,例如,预设标签为保险认知水平中等,因此,步骤303所得到的第二用户特征能够表征出特征维度。
还需要说明的是,特征提取模型包括Bert子模型、BiLSTM子模型,以及CRF子模型,仅仅是一种可选的实现方式,在实践中,特征提取模型还可以采用其他模型结构,例如特征提取模型包括BiLSTM子模型和CRF子模型,或者特征提取模型为CRF模型等,本申请实施例对此不做限制。但无论特征提取模型采用何种模型结构,都可通过对大量样本数据进行训练得到,这里,样本数据包括对话信息和预设标签的对应关系。
还需要说明的是,特征提取模型包括Bert子模型、BiLSTM子模型,以及CRF子模型的模型结构,相较于其他模型结构而言,由于在得到目标用户的第二用户特征时,引入了包含上下文信息的词向量,也即结合了上下文信息,因此,采用Bert子模型、BiLSTM子模型,以及CRF子模型这一模型结构的特征提取模型,所提取出的第二用户特征更准确。
步骤304:根据第一用户特征和第二用户特征,构建目标用户的用户画像。
本申请实施例中,可先将第一用户特征和第二用户特征进行归一化处理,然后根据归一化处理之后的用户特征构建目标用户的用户画像。这里,归一化处理包括但不限于:数值提取转化、专有名词替换、特征合并等。
其中,数值提取转化包括:利用正则表达式从第一用户特征、第二用户特征中提取出数值,然后将提取出的数值转换为设定格式,以便于后续的数据处理。比如,第一用户特征中包含表征用户月收入的数值8000,从中提取出该数值8000,然后将提取出的数值转换为月薪8000元。
专有名词替换包括:将第一用户特征与预设的专有名词库进行匹配,得到与第一用户特征相匹配的第一专有名词,将第一用户特征替换为所述第一专有名词;将第二用户特征与专有名词库进行匹配,得到与第二用户特征相匹配的第二专有名词,将第二用户特征替换为第二专有名词。举例来说:将新农保替换为新型农村社会养老保险,再保替换为再保险。
其中,在将用户特征(包括第一用户特征和第二用户特征)与专有名词进行匹配时,可确定参与匹配的双方之间的杰卡德距离、编辑距离等,若参与匹配的双方之间的杰卡德距离或编辑距离小于设定的距离阈值,则可确定两者相匹配。
特征合并包括:在第一用户特征和第二用户特征属于同一特征维度的情况下,确定第一用户特征和第二用户特征各自的置信度,然后选择两者中置信度较高的一方参与到后续的用户画像构建中。
举例来说,假设通过执行上述步骤302和步骤303,得到的用户特征分别包括:目标用户的健康风险较低、目标用户的健康风险较高,由此可见,该两个用户特征属于健康风险这一特征维度,并且两者相矛盾,按照上述描述,则可确定该两个用户特征各自的置信度,选择两者中置信度较高的一方,也即将该两个用户特征合并为一个用户特征(置信度较高的用户特征)。
作为一个实施例,可预先做出以下设置:通过执行上述步骤303得到的第二用户特征的置信度高于通过执行上述步骤302得到的第一用户特征的置信度,因此,在第一用户特征和第二用户特征属于同一特征维度的情况下,选择第一用户特征参与到后续的用户画像构建中。
作为另一个实施例,可分别计算第一用户特征和第二用户特征与各自对应的对话信息之间的相似度,根据相似度确定上述置信度。优选地,相似度越高,意味着置信度越高,因此,选择对应的相似度较高的一方则意味着选择置信度较高的一方。上述相似度可通过以下参数表征:杰卡德距离、编辑距离、语义相似度距离等。
本申请实施例提供的技术方案,通过获取目标用户与预设对象之间的历史对话信息,从历史对话信息中,由目标用户发送给预设对象的第一对话信息中提取出目标用户的第一用户特征,从历史对话信息中提取出目标用户的第二用户特征,根据第一用户特征和第二用户特征,构建目标用户的用户画像,实现了根据用户与预设对象之间的对话信息构建用户画像,挖掘出对话信息的数据价值,并且,由于用户与预设对象之间的对话信息能够表现出用户行为所不能够表现出的一些用户特征,例如用户对某行业的认知水平、用户对某项事务的参与意愿等,因此,根据用户与预设对象之间的对话信息构建的用户画像能够弥补现有技术中根据用户行为所构建的用户画像中信息不足的缺陷,提高最终构建出用户画像中用户信息的丰富度。
参见图5,为本申请实施例提供的一种构建关键词集的实施例流程图。如图5所示,该流程可包括以下步骤:
步骤501、获取多个用户与预设对象之间的历史对话信息。
这里,历史对话信息可以指多个用户与预设对象在设定历史时间段内(例如最近3天内、最近一周内、最近一个月内、最近半年内)的对话信息。
步骤502、确定多个用户与预设对象之间的历史对话信息中,每一对话信息的语义向量。
作为一个实施例,可针对步骤501获取到的历史对话信息中的每一对话信息,将该对话信息输入至已训练的句子语义表达模型,得到该对话信息的语义向量。这里,句子语义表达模型可以是对大量句子进行弱监督训练所得到的模型,例如可以是神经网络模型、深度学习模型等。
作为另一个实施例,可针对步骤501获取到的历史对话信息中的每一对话信息,对该对话信息进行分词处理,得到对应的词序列,然后,确定词序列对应的词向量序列,其中,词向量序列中每个词向量为词序列中每个词的词向量(例如,可利用word2vec工具确定每个词的词向量),最后,根据词向量序列确定该对话信息的语义向量。例如,可以将词向量序列中,各词向量的均值向量或者中值向量确定为该对话信息的语义向量,还可以将词向量序列中模最大或最小的词向量确定为该对话信息的语义向量。
需要说明的是,上述两个实施例仅仅是确定对话信息的语义向量的示例性实现方式,在实践中,还可通过其他方式确定对话信息中的语义向量,本申请实施例对此不作限制。
步骤503、根据语义向量对多个用户与预设对象之间的历史对话信息进行聚类,得到多个类簇。
本申请实施例中,可利用预设的聚类算法实现根据语义向量对多个用户与预设对象之间的历史对话信息进行聚类,得到多个类簇。通过该种处理,可以实现将语义相近的对话信息聚为一类。至于具体是如何对多个用户与预设对象之间的历史对话信息进行聚类的,在下文中通过图6所示流程进行说明,这里先不详述。
步骤504、针对每一类簇,从该类簇对应的对话信息中确定关键词。
这里,可通过TF-IDF方法、主题模型、RAKE算法等,从类簇对应的所有对话信息中确定关键词,或者进一步确定类簇中心语义向量,从类簇中心语义向量对应的对话信息中确定关键词。
可以理解的是,由于类簇中心语义向量对于类簇而言更具代表意义,因此,从类簇中心语义向量对应的对话信息中确定的关键词,相较于从类簇对应的所有对话信息中确定的关键词而言,也更具代表意义。
步骤505、将关键词归入关键词集。
通过图5所示流程,实现了智能地总结出关键词,这相较于人工总结关键词而言,可以提升效率,减少人工工作量。
进一步地,本申请实施例中,通过先对历史对话信息对应的语义向量进行聚类,得到多个类簇,再从每一类簇中确定关键词,相较于直接通过TF-IDF方法、主题模型等方法,从全量的历史对话信息中确定关键词而言,可以过滤掉一些无法表征用户特征的高频词,例如,在保险营销场景中,保险这一词很可能频繁出现于用户和预设对象之间的对话信息中,但保险这一词并无法表征用户特征,由此可见,通过先聚类,再从类簇中确定关键词的方式,可以使得最终构建的关键词集更能够表征用户特征,从而根据关键词集提取到的用户特征更为准确。
此外,本申请实施例中,在得到关键词集之后,可由用户(例如产品运营人员)人为地将关键词集中的关键词划分为不同的特征维度。
参见图6,为本申请实施例提供的一种聚类过程的实施例流程图。如图6所示,该流程可包括以下步骤:
步骤601、确定多个用户与预设对象之间的历史对话信息中,每一对话信息的局部密度。
步骤602、针对多个用户与预设对象之间的历史对话信息中的每一对话信息,确定对话信息对应的最小距离值。
步骤603、根据多个用户与预设对象之间的历史对话信息中,每一对话信息的局部密度和最小距离值,将多个用户与预设对象之间的历史对话信息划分至多个类簇中。
作为一个实施例,采取基于密度和距离的无监督语义聚类算法实现根据语义向量对多个用户与预设对象之间的历史对话信息进行聚类,得到多个类簇,该聚类算法基于以下假设:聚类中心被具有较低局部密度的邻居点包围,且与具有更高密度的任何点具有较大的距离。本申请实施例中,上述点则指对话信息。
基于此,本申请实施例中,确定多个用户与预设对象之间的历史对话信息中,每一对话信息的局部密度,以及针对多个用户与预设对象之间的历史对话信息中的每一对话信息,确定对话信息对应的最小距离值。这里,上述最小距离值指当前所针对的对话信息的语义向量与各第一语义向量之间距离的最小值。第一语义向量对应的对话信息(为描述方便,称为第一对话信息)的局部密度大于当前所针对的对话信息的局部密度,也即,第一语义向量是指局部密度大于当前所针对的对话信息的对话信息,所对应的语义向量。语义向量之间的距离可以是余弦距离、欧式距离、曼哈顿距离等等。
进一步地,从多个用户与预设对象之间的历史对话信息中,选择局部密度大于预设的密度阈值,且最小距离值大于预设的距离阈值的对话信息,将所选择的对话信息作为类簇中心,然后,针对所有历史对话信息中,除类簇中心以外的其他对话信息,按照距离最小的原则,将其他对话信息划分至某个类簇中心对应的类簇中。这里,距离最小是指:对话信息与其所属类簇的类簇中心之间的距离小于该对话信息与其他任一类簇中心之间的聚类。
通过图6所示流程,实现了对多个用户和预设对象之间的历史对话信息对应的语义向量进行聚类,得到多个类簇。
需要说明的是,图6所示例的聚类算法仅仅是一种示例,在实践中,还可利用其它聚类算法,例如基于距离的无监督聚类算法、基于k-means和TF-IDF的文本聚类算法等进行聚类,本申请实施例对此不做限制。
与前述用户画像构建方法的实施例相对应,本申请还提供用户画像构建装置的实施例。
参见图7,为本申请实施例提供的一种用户画像构建装置的实施例框图,该装置包括:第一获取模块71、第一特征提取模块72、第二特征提取模块73,以及画像构建模块74。
其中,第一获取模块71,用于获取目标用户与预设对象之间的历史对话信息;
第一特征提取模块72,用于从第一对话信息中提取出所述目标用户的第一用户特征,所述第一对话信息为所述历史对话信息中,由所述目标用户发送给所述预设对象的对话信息;
第二特征提取模块73,用于从所述历史对话信息中提取出所述目标用户的第二用户特征;
画像构建模块74,用于根据所述第一用户特征和所述第二用户特征,构建所述目标用户的用户画像。
在一可能的实施方式中,所述第一特征提取模块72包括(图中未示出):
第一匹配子模块,用于将第一对话信息与预设的关键词集进行匹配;
第一确定子模块,用于若匹配出所述第一对话信息中包括至少一个关键词,则根据所述至少一个关键词确定所述目标用户的第一用户特征。
在一可能的实施方式中,所述装置还包括(图中未示出):
第二获取模块,用于获取多个用户与预设对象之间的历史对话信息;
向量化模块,用于确定所述多个用户与预设对象之间的历史对话信息中,每一对话信息的语义向量;
聚类模块,用于根据所述语义向量对所述多个用户与预设对象之间的历史对话信息进行聚类,得到多个类簇;
关键词集构建模块,用于针对每一所述类簇,从所述类簇包括的对话信息中确定关键词,将所述关键词归入所述关键词集。
在一可能的实施方式中,所述聚类模块具体用于:
确定所述多个用户与预设对象之间的历史对话信息中,每一对话信息的局部密度;针对所述多个用户与预设对象之间的历史对话信息中的每一对话信息,确定所述对话信息对应的最小距离值,所述最小距离值指所述对话信息的语义向量与各第一语义向量之间距离的最小值,所述第一语义向量对应的第一对话信息的局部密度大于所述对话信息的局部密度;根据所述多个用户与预设对象之间的历史对话信息中,每一对话信息的局部密度和最小距离值,将所述多个用户与预设对象之间的历史对话信息划分至多个类簇中。
在一可能的实施方式中,所述第二特征提取模块73包括(图中未示出):
第二确定子模块,用于从所述历史对话信息中确定所述目标用户与所述预设对象之间的问答对话信息;
提取子模块,用于从所述问答对话信息中提取出所述目标用户的第二用户特征。
在一可能的实施方式中,所述提取子模块具体用于:
对所述问答对话信息进行预处理,得到多个包含上下文信息的词向量;对多个所述词向量进行序列建模,得到分值序列,所述分值序列包括每一所述词向量对应各预设标签的预测分值;根据所述分值序列,从各所述预设标签中确定各所述词向量对应的预测标签;将所述预测标签确定为所述目标用户的第二用户特征。
在一可能的实施方式中,所述画像构建模块74包括(图中未示出):
第二匹配子模块,用于将所述第一用户特征与预设的专有名词库进行匹配,得到与所述第一用户特征相匹配的第一专有名词,将所述第一用户特征替换为所述第一专有名词;
第三匹配子模块,用于将所述第二用户特征与所述专有名词库进行匹配,得到与所述第二用户特征相匹配的第二专有名词,将所述第二用户特征替换为所述第二专有名词;
第一构建子模块,用于根据替换后的所述第一用户特征和所述第二用户特征,构建所述目标用户的用户画像。
在一可能的实施方式中,所述画像构建模块74包括(图中未示出):
置信度确定子模块,用于若所述第一用户特征和所述第二用户特征属于同一特征维度,则确定所述第一用户特征和所述第二用户特征各自的置信度;
第二构建子模块,用于选择所述第一用户特征和所述第二用户特征中,置信度高的用户特征构建所述目标用户的用户画像。
本申请实施例还提供了一种设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
存储器803,用于存放计算机程序;
处理器801,用于执行存储器803上所存放的程序时,实现如下步骤:
获取目标用户与预设对象之间的历史对话信息;从第一对话信息中提取出所述目标用户的第一用户特征,所述第一对话信息为所述历史对话信息中,由所述目标用户发送给所述预设对象的对话信息;从所述历史对话信息中提取出所述目标用户的第二用户特征;根据所述第一用户特征和所述第二用户特征,构建所述目标用户的用户画像。
上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述服务器与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种存储介质,该存储介质中存储有指令,当其在设备上运行时,使得设备执行上述实施例中任一所述的用户画像构建方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在设备上运行时,使得设备执行上述实施例中任一所述的用户画像构建方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在存储介质中,或者从一个存储介质向另一个存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (11)

1.一种用户画像构建方法,其特征在于,包括:
获取目标用户与预设对象之间的历史对话信息;
从第一对话信息中提取出所述目标用户的第一用户特征,所述第一对话信息为所述历史对话信息中,由所述目标用户发送给所述预设对象的对话信息;
从所述历史对话信息中提取出所述目标用户的第二用户特征;
根据所述第一用户特征和所述第二用户特征,构建所述目标用户的用户画像。
2.根据权利要求1所述的方法,其特征在于,所述从第一对话信息中提取出所述目标用户的第一用户特征,包括:
将第一对话信息与预设的关键词集进行匹配;
若匹配出所述第一对话信息中包括至少一个关键词,则根据所述至少一个关键词确定所述目标用户的第一用户特征。
3.根据权利要求2所述的方法,其特征在于,所述关键词集通过以下方式构建得到:
获取多个用户与预设对象之间的历史对话信息;
确定所述多个用户与预设对象之间的历史对话信息中,每一对话信息的语义向量;
根据所述语义向量对所述多个用户与预设对象之间的历史对话信息进行聚类,得到多个类簇;
针对每一所述类簇,从所述类簇包括的对话信息中确定关键词,将所述关键词归入所述关键词集。
4.根据权利要求3所述的方法,其特征在于,所述对多个所述语义向量进行聚类,得到多个类簇,包括:
确定所述多个用户与预设对象之间的历史对话信息中,每一对话信息的局部密度;
针对所述多个用户与预设对象之间的历史对话信息中的每一对话信息,确定所述对话信息对应的最小距离值,所述最小距离值指所述对话信息的语义向量与各第一语义向量之间距离的最小值,所述第一语义向量对应的第一对话信息的局部密度大于所述对话信息的局部密度;
根据所述多个用户与预设对象之间的历史对话信息中,每一对话信息的局部密度和最小距离值,将所述多个用户与预设对象之间的历史对话信息划分至多个类簇中。
5.根据权利要求1所述的方法,其特征在于,所述从所述历史对话信息中提取出所述目标用户的第二用户特征,包括:
从所述历史对话信息中确定所述目标用户与所述预设对象之间的问答对话信息;
从所述问答对话信息中提取出所述目标用户的第二用户特征。
6.根据权利要求5所述的方法,其特征在于,所述从所述问答对话信息中提取出所述目标用户的第二用户特征,包括:
对所述问答对话信息进行预处理,得到多个包含上下文信息的词向量;
对多个所述词向量进行序列建模,得到分值序列,所述分值序列包括每一所述词向量对应各预设标签的预测分值;
根据所述分值序列,从各所述预设标签中确定各所述词向量对应的预测标签;
将所述预测标签确定为所述目标用户的第二用户特征。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第一用户特征和所述第二用户特征,构建所述目标用户的用户画像,包括:
将所述第一用户特征与预设的专有名词库进行匹配,得到与所述第一用户特征相匹配的第一专有名词,将所述第一用户特征替换为所述第一专有名词;
将所述第二用户特征与所述专有名词库进行匹配,得到与所述第二用户特征相匹配的第二专有名词,将所述第二用户特征替换为所述第二专有名词;
根据替换后的所述第一用户特征和所述第二用户特征,构建所述目标用户的用户画像。
8.根据权利要求1所述的方法,其特征在于,所述根据所述第一用户特征和所述第二用户特征,构建所述目标用户的用户画像,包括:
若所述第一用户特征和所述第二用户特征属于同一特征维度,则确定所述第一用户特征和所述第二用户特征各自的置信度;
选择所述第一用户特征和所述第二用户特征中,置信度高的用户特征构建所述目标用户的用户画像。
9.一种用户画像构建装置,其特征在于,包括:
第一获取模块,用于获取目标用户与预设对象之间的历史对话信息;
第一特征提取模块,用于从第一对话信息中提取出所述目标用户的第一用户特征,所述第一对话信息为所述历史对话信息中,由所述目标用户发送给所述预设对象的对话信息;
第二特征提取模块,用于从所述历史对话信息中提取出所述目标用户的第二用户特征;
画像构建模块,用于根据所述第一用户特征和所述第二用户特征,构建所述目标用户的用户画像。
10.一种设备,其特征在于,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的用户画像构建程序,以实现权利要求1~8中任一项所述的用户画像构建方法。
11.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~8中任一项所述的用户画像构建方法。
CN202110618837.2A 2021-06-03 2021-06-03 用户画像构建方法、装置、设备及存储介质 Pending CN113392205A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110618837.2A CN113392205A (zh) 2021-06-03 2021-06-03 用户画像构建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110618837.2A CN113392205A (zh) 2021-06-03 2021-06-03 用户画像构建方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113392205A true CN113392205A (zh) 2021-09-14

Family

ID=77619882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110618837.2A Pending CN113392205A (zh) 2021-06-03 2021-06-03 用户画像构建方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113392205A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114048283A (zh) * 2022-01-11 2022-02-15 北京仁科互动网络技术有限公司 用户画像生成方法、装置、电子设备及存储介质
CN116628153A (zh) * 2023-05-10 2023-08-22 上海任意门科技有限公司 一种人工智能设备对话的控制方法、装置、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114048283A (zh) * 2022-01-11 2022-02-15 北京仁科互动网络技术有限公司 用户画像生成方法、装置、电子设备及存储介质
CN116628153A (zh) * 2023-05-10 2023-08-22 上海任意门科技有限公司 一种人工智能设备对话的控制方法、装置、设备及介质
CN116628153B (zh) * 2023-05-10 2024-03-15 上海任意门科技有限公司 一种人工智能设备对话的控制方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
US10657332B2 (en) Language-agnostic understanding
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
US20220188521A1 (en) Artificial intelligence-based named entity recognition method and apparatus, and electronic device
CN111274365B (zh) 基于语义理解的智能问诊方法、装置、存储介质及服务器
WO2020108608A1 (zh) 搜索结果处理方法、装置、终端、电子设备及存储介质
WO2020019686A1 (zh) 一种会话交互方法及装置
CN110704626B (zh) 一种用于短文本的分类方法及装置
CN108885623A (zh) 基于知识图谱的语意分析系统及方法
CN111368075A (zh) 文章质量预测方法、装置、电子设备及存储介质
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
Nie et al. Learning user attributes via mobile social multimedia analytics
US11436446B2 (en) Image analysis enhanced related item decision
JP2022548215A (ja) リアルタイム会話のための累進的なコロケーション
US11640420B2 (en) System and method for automatic summarization of content with event based analysis
Yan et al. Biomedical literature classification with a CNNs-based hybrid learning network
CN113392205A (zh) 用户画像构建方法、装置、设备及存储介质
WO2021114634A1 (zh) 文本标注方法、设备及存储介质
CN112015928A (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
CN112487824A (zh) 客服语音情感识别方法、装置、设备及存储介质
Wei et al. Sentiment classification of Chinese Weibo based on extended sentiment dictionary and organisational structure of comments
WO2022267755A1 (zh) 表单处理方法、装置、设备以及存储介质
CN113407677A (zh) 评估咨询对话质量的方法、装置、设备和存储介质
CN110399473B (zh) 为用户问题确定答案的方法和装置
CN113378090B (zh) 一种互联网网站相似度分析方法、装置以及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination