CN112231556A

CN112231556A - 基于对话场景的用户画像方法、装置、设备及介质

Info

Publication number: CN112231556A
Application number: CN202011091407.1A
Authority: CN
Inventors: 李茂昌; 阮智昊; 任俊松
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-01-15
Anticipated expiration: 2040-10-13
Also published as: CN112231556B

Abstract

本申请涉及数字医疗技术领域，揭示了一种基于对话场景的用户画像方法、装置、设备及可读存储介质，其中方法包括：获取目标对话数据；根据所述目标对话数据，获取历史对话数据；对所述目标对话数据、所述历史对话数据进行预处理，得到待理解对话数据；对所述待理解对话数据进行特征提取，得到目标意图特征、目标实体特征、目标标签属性特征；根据所述目标意图特征、所述目标实体特征、所述目标标签属性特征进行用户画像，得到目标用户画像特征。从而基于上下文依赖丰富了特征，解决了无特征或只有少量人工特征的情况，得到了丰富的用户画像。

Description

基于对话场景的用户画像方法、装置、设备及介质

技术领域

本申请涉及到数字医疗技术领域，特别是涉及到一种基于对话场景的用户画像方法、装置及设备。

背景技术

推荐系统现已广泛应用于很多领域，比如，电商平台、音乐、电影等领域。推荐系统有三个重要的过程：识人、断物、推荐，也就是用户理解、内容理解以及推荐算法模型构建。在电商平台、音乐、电影等领域中，因为基础数据都有比较多的特征，便于建模。在对话场景中，基础数据为对话过程中的对话，对话一般为短文本，无特征或只有少量人工特征，且上下文依赖严重，从而导致对内容理解和用户理解比较困难。

发明内容

本申请的主要目的为提供一种基于对话场景的用户画像方法、装置和计算机设备，旨在解决现有技术中在对话场景中无特征或只有少量人工特征，且上下文依赖严重，导致对内容理解和用户理解比较困难的技术问题。

为了实现上述发明目的，本申请提出一种基于对话场景的用户画像方法，所述方法包括：

获取目标对话数据；

根据所述目标对话数据，获取历史对话数据；

对所述目标对话数据、所述历史对话数据进行预处理，得到待理解对话数据；

对所述待理解对话数据进行特征提取，得到目标意图特征、目标实体特征、目标标签属性特征；

根据所述目标意图特征、所述目标实体特征、所述目标标签属性特征进行用户画像，得到目标用户画像特征。

进一步的，所述对所述目标对话数据、所述历史对话数据进行预处理，得到待理解对话数据的步骤，包括：

将所述目标对话数据、所述历史对话数据进行拼接，得到待预处理对话数据；

对所述待预处理对话数据进行纠错，得到已纠错对话数据；

对所述已纠错对话数据进行补全，得到所述待理解对话数据。

进一步的，所述对所述待理解对话数据进行特征提取，得到目标意图特征、目标实体特征、目标标签属性特征的步骤，包括：

对所述待理解对话数据进行意图特征识别，得到所述目标意图特征；

对所述待理解对话数据采用命名实体识别技术进行实体特征提取，得到所述目标实体特征；

对所述待理解对话数据进行标签属性特征提取，得到所述目标标签属性特征。

进一步的，所述根据所述目标意图特征、所述目标实体特征、所述目标标签属性特征进行用户画像，得到目标用户画像特征的步骤，包括：

根据所述目标意图特征、所述目标实体特征、所述目标标签属性特征按对话轮数进行划分，确定单轮对话特征集合；

根据所有所述单轮对话特征集合的每个特征进行评分，得到多个单轮对话特征评分结果；

从所有所述单轮对话特征评分结果中，找出最后一轮对话对应的所述单轮对话特征评分结果，将找出的所述单轮对话特征评分结果作为所述目标用户画像特征。

进一步的，所述根据所有所述单轮对话特征集合的每个特征进行评分，得到多个单轮对话特征评分结果的步骤，包括：

根据对话顺序，从所有所述单轮对话特征集合提取出所述单轮对话特征集合，将提取得到的所述单轮对话特征集合作为待评分单轮对话特征集合；

根据所述待评分单轮对话特征集合的每个特征按轮次衰减法进行评分，得到待评估单轮对话特征集合评分结果；

重复执行所述根据对话顺序，从所有所述单轮对话特征集合提取出所述单轮对话特征集合，将提取得到的所述单轮对话特征集合作为待评分单轮对话特征集合的步骤，直至所有所述单轮对话特征集合完成轮次衰减法评分，将每个所述待评估单轮对话特征集合评分结果作为一个所述单轮对话特征评分结果。

进一步的，所述根据所述待评分单轮对话特征集合的每个特征按轮次衰减法进行评分，得到待评估单轮对话特征集合评分结果的步骤，包括：

对所述待评分单轮对话特征集合的每个特征按预设分值进行评分，得到与所述待评分单轮对话特征集合对应的当前轮评分结果；

对所述待评分单轮对话特征集合的每个特征，获取上一轮的评分结果，将获取的评分结果作为与所述待评分单轮对话特征集合对应的上轮评分结果；

对与所述待评分单轮对话特征集合对应的上轮评分结果按预设权重进行衰减，得到与所述待评分单轮对话特征集合对应的上轮评分衰减结果；

从所述待评分单轮对话特征集合的上轮所述单轮对话特征集合中找出所述待评分单轮对话特征集合中没有的特征，将找出的特征作为与所述待评分单轮对话特征集合对应的隐性特征；

对与所述待评分单轮对话特征集合对应的隐性特征，获取上一轮的评分结果，将获取的评分结果作为与所述待评分单轮对话特征集合对应的隐性特征评分结果；

对与所述待评分单轮对话特征集合对应的隐性特征评分结果按所述预设权重进行衰减，得到与所述待评分单轮对话特征集合对应的隐性特征评分衰减结果；

根据所述当前轮评分结果、所述上轮评分衰减结果、所述隐性特征评分衰减结果，按相同特征进行组合，得到所述待评估单轮对话特征集合评分结果。

进一步的，所述根据所述目标对话数据，获取历史对话数据的步骤，包括：

获取所述目标对话数据的上文对话数据；

将获取的上文对话数据作为历史对话数据。

本申请还提出了一种基于对话场景的用户画像装置，所述装置包括：

对话数据获取模块，用于获取目标对话数据，根据所述目标对话数据，获取历史对话数据；

预处理模块，用于对所述目标对话数据、所述历史对话数据进行预处理，得到待理解对话数据；

特征提取模块，用于对所述待理解对话数据进行特征提取，得到目标意图特征、目标实体特征、目标标签属性特征；

用户画像模块，用于根据所述目标意图特征、所述目标实体特征、所述目标标签属性特征进行用户画像，得到目标用户画像特征。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的基于对话场景的用户画像方法、装置及设备，通过对目标对话数据、历史对话数据进行预处理，得到待理解对话数据，对待理解对话数据进行特征提取，得到目标意图特征、目标实体特征、目标标签属性特征，从而基于上下文依赖丰富了特征，解决了无特征或只有少量人工特征的情况；根据目标意图特征、目标实体特征、目标标签属性特征进行用户画像，得到目标用户画像特征，从而得到了丰富的用户画像。

附图说明

图1为本申请一实施例的基于对话场景的用户画像方法的流程示意图；

图2为本申请一实施例的基于对话场景的用户画像装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为了解决现有技术中现有技术中在对话场景中无特征或只有少量人工特征，且上下文依赖严重，导致对内容理解和用户理解比较困难的技术问题，提出了一种基于对话场景的用户画像方法，所述方法可以应用于数字医疗技术领域，所述方法还可以应用于人工智能技术领域。所述方法通过对对话数据提取意图特征、实体特征、标签属性特征，从而基于上下文依赖丰富了特征，解决了无特征或只有少量人工特征的情况；然后根据意图特征、实体特征、标签属性特征进行用户画像，从而得到了丰富的用户画像。

参照图1，所述基于对话场景的用户画像方法包括：

S1：获取目标对话数据；

S2：根据所述目标对话数据，获取历史对话数据；

S3：对所述目标对话数据、所述历史对话数据进行预处理，得到待理解对话数据；

S4：对所述待理解对话数据进行特征提取，得到目标意图特征、目标实体特征、目标标签属性特征；

S5：根据所述目标意图特征、所述目标实体特征、所述目标标签属性特征进行用户画像，得到目标用户画像特征。

本实施例通过对目标对话数据、历史对话数据进行预处理，得到待理解对话数据，对待理解对话数据进行特征提取，得到目标意图特征、目标实体特征、目标标签属性特征，从而基于上下文依赖丰富了特征，解决了无特征或只有少量人工特征的情况；根据目标意图特征、目标实体特征、目标标签属性特征进行用户画像，得到目标用户画像特征，从而得到了丰富的用户画像。

对于S1，可以从数据库中获取目标对话数据，也可以直接获取用户输入的目标对话数据，还可以从其他数据源获取目标对话数据。

所述目标对话数据，是需要进行用户画像的对话数据。也就是说，所述目标对话数据是被画像用户一轮对话的数据。比如，所述目标对话数据为“A保险产品的保障范围”，在此举例不做具体限定。又比如，所述目标对话数据为“M药品的服用方法”，在此举例不做具体限定。

所述目标对话数据可以是一句话，也可以是多句话。

优选的，所述目标对话数据是文本信息。可以理解的是，当获取的目标对话数据是非文本信息时，需要先将获取的数据转换为文本信息，将转换后的文本信息作为所述目标对话数据。

对于S2，获取所述目标对话数据的上文对话数据，将获取的上文对话数据作为所述历史对话数据。

可以理解的是，所述目标对话数据和所述历史对话数据是属于同一个被画像用户的对话数据。

优选的，所述目标对话数据和所述历史对话数据是属于同一个被画像用户在一次对话中的对话数据。其中，一次对话可以包括多轮对话。

优选的，所述目标对话数据和所述历史对话数据是属于同一个被画像用户在多次对话中的对话数据。

优选的，所述历史对话数据可以不包括对话数据，也可以包括一轮对话数据，还可以包括多轮对话数据。

对于S3，对所述目标对话数据和所述历史对话数据进行纠错处理和补全处理，得到待理解对话数据。也就是说，待理解对话数据包括所述目标对话数据和所述历史对话数据处理后的对话数据。

对于S4，对所述待理解对话数据进行特征提取，得到目标意图特征、目标实体特征、目标标签属性特征。也就是说，目标意图特征、目标实体特征、目标标签属性特征用于表征所述目标对话数据和所述历史对话数据的特征。

所述目标意图特征中包括意图特征。所述意图特征，是用于表述被画像用户希望达到某种目的打算。比如：“我昨天买了一个医疗保险，我咨询下它该怎么缴费”，假定这个医疗保险根据被画像用户的上下文或者购买记录确定昨天购买的是A保险，那么用户这句话的意图特征就是“A保险的缴费方式”，在此举例不做具体限定。又比如，“我昨天买了一个药品，我咨询下它该的服用方法”，假定这个药品根据被画像用户的上下文或者购买记录确定昨天购买的是M药品，那么用户这句话的意图特征就是“M药品的服用方法”，在此举例不做具体限定。

所述目标实体特征中包括实体特征。所述实体特征，用于表述客观存在并可相互区别的事物。比如，“小明早上8点去学校上课”中，对其进行命名实体识别，提取出的信息包括：人名“小明”，时间“早上8点”，地点“学校”，则“小明”、“早上8点”、“学校”就是实体特征，在此举例不做具体限定。

所述目标标签属性特征中包括标签属性。所述标签属性，用于表述分类标签。比如，“A保险的保障范围”经过分词后有“A保险”和“保障范围”两个词，“A保险”和“保障范围”即为标签属性特征，在此举例不做具体限定。又比如，“M药品的服用方法”经过分词后有“M药品”和“服用方法”两个词，“M药品”和“服用方法”即为标签属性特征，在此举例不做具体限定。

对于S5，根据所述目标意图特征、所述目标实体特征及所述目标标签属性特征中的每个特征进行特征评分，得到特征评分结果；将所述目标对话数据对应的所述特征评分结果，作为所述目标用户画像特征。

用户特征不仅包含年龄、性别等静态特征，静态特征是不随用户行为而变更的。但在对话场景中，用户的实时画像是会变化的，比如上一刻用户想买咨询A保险，但是现在用户却想咨询B保险。

可以理解的是，所述目标用户画像特征包括至少一个用户画像特征。

所述用户画像特征包括：动态特征、动态特征评分。所述动态特征，是指所述目标意图特征、所述目标实体特征、所述目标标签属性特征中的任一个。比如，所述目标用户画像特征包括：四个用户画像特征，分别是：动态特征“A保险”的动态特征评分为0.75分，动态特征“保障范围”的动态特征评分为1.25分，动态特征“缴费期限”的动态特征评分为1.5分，动态特征“B保险”的动态特征评分为1分，在此举例不做具体限定。

又比如，所述目标用户画像特征包括：四个用户画像特征，分别是：动态特征“M药品”的动态特征评分为0.5分，动态特征“服用方法”的动态特征评分为1.25分，动态特征“单价”的动态特征评分为1.5分，动态特征“N药品”的动态特征评分为1分，在此举例不做具体限定。

推荐系统根据所述目标用户画像特征，进行产品推荐和/或服务推荐。

在一个实施例中，上述对所述目标对话数据、所述历史对话数据进行预处理，得到待理解对话数据的步骤，包括：

S31：将所述目标对话数据、所述历史对话数据进行拼接，得到待预处理对话数据；

S32：对所述待预处理对话数据进行纠错，得到已纠错对话数据；

S33：对所述已纠错对话数据进行补全，得到所述待理解对话数据。

本实施例对目标对话数据、历史对话数据进行拼接、纠错、补全处理，从而提高了待理解对话数据的规范化，基于该规范化提高了目标用户画像特征的准确性。

对于S31，将所述目标对话数据放在所述历史对话数据的末尾，得到所述待预处理对话数据。也就是说，所述待预处理对话数据是以对话顺序进行排序的对话数据。

对于S32，将所述待预处理对话数据输入纠错模型进行纠错，将纠错后的所述待预处理对话数据作为所述已纠错对话数据。

所述纠错，是指纠正输入错误。所述纠错包括：统一大小写、中英文纠错。所述中英文纠错，是指统一为中文，或者将用户的输入数据转换为拼音，再将转换得到的拼音转为正确输入。

比如，用户在保险营销网站输入“授衔”，保险营销网站的应用场景不会有授衔，根据保险营销网站的用途，用户最可能想输入的是“寿险”，此时通过NLP模型将“授衔”纠正为“寿险”，在此举例不做具体限定。

优选的，所述纠错模型是采用与应用场景对应的训练样本对NLP模型进行训练得到的模型。

对于S33，其中，对所述已纠错对话数据进行实体补全及关系补全，得到所述待理解对话数据。

采用知识图谱进行实体补全及关系补全，实体补全及关系补全表示为三元组。三元组的个数为：实体1-关系-实体2，其中关系表示的是实体1和实体2之间的关系。所述实体补全及关系补全，是指抽取句子中的实体-关系或者实体-实体，补全为实体-关系-实体的过程。

比如，用户在平台上输入了“A保险的保障范围”，“A保险”是实体，“保障范围”是关系，“保障范围”的值假如是“30周岁”，则“30周岁”也是一个实体，在此举例不做具体限定。

比如，在对话过程中用户已经问过“A保险的保障范围”，接下来用户问“B保险的呢？”，问“B保险的呢？”的用户意图很明显，但是却进行了省略，用户实际需要问的是“B保险的保障范围”，将“B保险的呢？”这句话改写成“B保险的保障范围”，补充了“保障范围”这个关系，即为关系补全。

比如，用户在平台上输入了“M药品的服用方法”，“M药品”是实体，“服用方法”是关系，“服用方法”的值假如是“一天三次，每次1一粒”，则“一天三次，每次1一粒”也是一个实体，在此举例不做具体限定。

比如，在对话过程中用户已经问过“M药品的服用方法”，接下来用户问“N药品的呢？”，问“N药品的呢？”的用户意图很明显，但是却进行了省略，用户实际需要问的是“N药品的服用方法”，将“N药品的呢？”这句话改写成“N药品的服用方法”，补充了“保障范围”这个关系，即为关系补全。

在一个实施例中，上述对所述待理解对话数据进行特征提取，得到目标意图特征、目标实体特征、目标标签属性特征的步骤，包括：

S41：对所述待理解对话数据进行意图特征识别，得到所述目标意图特征；

S42：对所述待理解对话数据采用命名实体识别技术进行实体特征提取，得到所述目标实体特征；

S43：对所述待理解对话数据进行标签属性特征提取，得到所述目标标签属性特征。

本实施例通过对待理解对话数据进行特征提取，丰富了特征，解决了无特征或只有少量人工特征的情况。

对于S41，其中，根据所述待理解对话数据采用意图识别模型进行意图特征识别，得到所述目标意图特征。

意图识别模型是基于神经网络训练得到的模型。

意图特征识别，其实就是分类，目的是根据用户输入的对话数据确定用户具体在咨询什么。此处意图(分类)是预先针对业务确定下来的。

对于S42，其中，对所述待理解对话数据采用命名实体识别技术进行实体特征提取，将提取得到的所有实体特征作为所述目标实体特征。也就是说，所述目标实体特征包括至少一个实体特征。

命名实体识别技术，简称NER技术(Named Entity Recognition)。命名实体识别的任务就是识别所述待理解对话数据的文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

对于S43，其中，根据所述待理解对话数据采用分词进行标签属性特征提取，得到所述目标标签属性特征。

在一个实施例中，上述根据所述目标意图特征、所述目标实体特征、所述目标标签属性特征进行用户画像，得到目标用户画像特征的步骤，包括：

S51：根据所述目标意图特征、所述目标实体特征、所述目标标签属性特征按对话轮数进行划分，确定单轮对话特征集合；

S52：根据所有所述单轮对话特征集合的每个特征进行评分，得到多个单轮对话特征评分结果；

S53：从所有所述单轮对话特征评分结果中，找出最后一轮对话对应的所述单轮对话特征评分结果，将找出的所述单轮对话特征评分结果作为所述目标用户画像特征。

本实施例实现了根据根据所述目标意图特征、所述目标实体特征、所述目标标签属性特征进行特征评分以实现用户画像，从而得到了丰富的用户画像。

对于S51，其中，将所述目标意图特征、所述目标实体特征、所述目标标签属性特征按对话轮数分成多个集合，也就是说，每轮对话对应一个所述单轮对话特征集合，而且所述单轮对话特征集合中包含：所述目标意图特征、所述目标实体特征、所述目标标签属性特征中的至少一个特征。

比如，用户M输入过3轮对话，分别是：“A保险的保障范围”、“A保险的缴费期限”、“B保险呢？”，则“A保险的保障范围”对应一个单轮对话特征集合，“A保险的缴费期限”对应一个单轮对话特征集合，“B保险呢？”对应一个单轮对话特征集合。

对于S52，根据所有所述单轮对话特征集合的每个特征按轮次衰减法进行评分，得到多个单轮对话特征评分结果。

可以理解的是，所述单轮对话特征评分结果的数量为至少一个。

对于S53，从所有所述单轮对话特征评分结果中，找出最后一轮对话对应的所述单轮对话特征评分结果，将找出的所述单轮对话特征评分结果作为所述目标用户画像特征。其中，最后一轮对话对应的所述单轮对话特征评分结果，也就是目标对话数据对应的所述单轮对话特征评分结果。

比如，待理解对话数据中用户M有三轮对话：“A保险的保障范围”、“A保险的缴费期限”、“B保险呢？”，其中：第一轮对话的特征评分结果为：特征“A保险”评分为1，特征“保障范围”评分为1；第二轮对话的特征评分结果为：特征“A保险”评分为1.5分，特征“保障范围”评分为0.5分，特征“缴费期限”评分为1；第三轮对话的特征评分结果为：特征“A保险”评分为0.75分，特征“保障范围”评分为1.25分，特征“缴费期限”评分为1.5分，特征“B保险”评分为1分；将第三轮对话的特征评分结果作为用户M的所述目标用户画像特征，也就是说用户M的所述目标用户画像特征包括：特征“A保险”评分为0.75分，特征“保障范围”评分为1.25分，特征“缴费期限”评分为1.5分，特征“B保险”评分为1分。

在一个实施例中，上述根据所有所述单轮对话特征集合的每个特征进行评分，得到多个单轮对话特征评分结果的步骤，包括：

S521：根据对话顺序，从所有所述单轮对话特征集合提取出所述单轮对话特征集合，将提取得到的所述单轮对话特征集合作为待评分单轮对话特征集合；

S522：根据所述待评分单轮对话特征集合的每个特征按轮次衰减法进行评分，得到待评估单轮对话特征集合评分结果；

S523：重复执行所述根据对话顺序，从所有所述单轮对话特征集合提取出所述单轮对话特征集合，将提取得到的所述单轮对话特征集合作为待评分单轮对话特征集合的步骤，直至所有所述单轮对话特征集合完成轮次衰减法评分，将每个所述待评估单轮对话特征集合评分结果作为一个所述单轮对话特征评分结果。

本实施例按对话顺序，按衰减法进行评分，从而实现了对特征评分。

对于S521，根据对话顺序，从所有所述单轮对话特征集合提取出所述单轮对话特征集合，将提取得到的所述单轮对话特征集合作为待评分单轮对话特征集合，也就是说，按对话顺序，每次从所有所述单轮对话特征集合提取出一轮对话对应的所述单轮对话特征集合。

比如，第一次从所有所述单轮对话特征集合中提取出第一轮对话对应的所述单轮对话特征集合，第二次从所有所述单轮对话特征集合中提取出第二轮对话对应的所述单轮对话特征集合，第三次从所有所述单轮对话特征集合中提取出第三轮对话对应的所述单轮对话特征集合，第四次从所有所述单轮对话特征集合中提取出第四轮对话对应的所述单轮对话特征集合，第五次从所有所述单轮对话特征集合中提取出第五轮对话对应的所述单轮对话特征集合，在此举例不做具体限定。

对于S522，按对话顺序，对所述待评分单轮对话特征集合的每个特征按轮次衰减法进行评分，得到待评估单轮对话特征集合评分结果。

比如，第一次对第一轮对话对应的所述待评分单轮对话特征集合的每个特征按轮次衰减法进行评分，第二次对第二轮对话对应的所述待评分单轮对话特征集合的每个特征按轮次衰减法进行评分，第三次对第三轮对话对应的所述待评分单轮对话特征集合的每个特征按轮次衰减法进行评分，第四次对第四轮对话对应的所述待评分单轮对话特征集合的每个特征按轮次衰减法进行评分，第五次对第五轮对话对应的所述待评分单轮对话特征集合的每个特征按轮次衰减法进行评分，在此举例不做具体限定。

对于S523，重复步骤S521至步骤S523，直至所有所述单轮对话特征集合完成轮次衰减法评分，将每个所述待评估单轮对话特征集合评分结果作为一个所述单轮对话特征评分结果。

在一个实施例中，上述根据所述待评分单轮对话特征集合的每个特征按轮次衰减法进行评分，得到待评估单轮对话特征集合评分结果的步骤，包括：

S5221：对所述待评分单轮对话特征集合的每个特征按预设分值进行评分，得到与所述待评分单轮对话特征集合对应的当前轮评分结果；

S5222：对所述待评分单轮对话特征集合的每个特征，获取上一轮的评分结果，将获取的评分结果作为与所述待评分单轮对话特征集合对应的上轮评分结果；

S5223：对与所述待评分单轮对话特征集合对应的上轮评分结果按预设权重进行衰减，得到与所述待评分单轮对话特征集合对应的上轮评分衰减结果；

S5224：从所述待评分单轮对话特征集合的上轮所述单轮对话特征集合中找出所述待评分单轮对话特征集合中没有的特征，将找出的特征作为与所述待评分单轮对话特征集合对应的隐性特征；

S5225：对与所述待评分单轮对话特征集合对应的隐性特征，获取上一轮的评分结果，将获取的评分结果作为与所述待评分单轮对话特征集合对应的隐性特征评分结果；

S5226：对与所述待评分单轮对话特征集合对应的隐性特征评分结果按所述预设权重进行衰减，得到与所述待评分单轮对话特征集合对应的隐性特征评分衰减结果；

S5227：根据所述当前轮评分结果、所述上轮评分衰减结果、所述隐性特征评分衰减结果，按相同特征进行组合，得到所述待评估单轮对话特征集合评分结果。

本实施例基于上下文的特征在无特征或只有少量人工特征的情况进行按轮次衰减法进行评分，确定每轮对话对应的所述待评估单轮对话特征集合评分结果。

对于S5221，对所述待评分单轮对话特征集合的每个特征按预设分值进行评分，得到与所述待评分单轮对话特征集合对应的当前轮评分结果，按预设分值进行评分就是对对所述待评分单轮对话特征集合的每个特征按相同分值(也就是预设分值)进行评分，也就是说，当前轮评分结果中每个特征的评分相同。

对于S5222，是将当前轮所述待评分单轮对话特征集合和上一轮所述待评分单轮对话特征集合的相同特征对应的评分结果(也就是上一轮所述待评分单轮对话特征集合对应的所述待评估单轮对话特征集合评分结果中的特征和评分结果)取出，将取出的评分结果作为与所述待评分单轮对话特征集合对应的上轮评分结果。

对于S5223，将与所述待评分单轮对话特征集合对应的上轮评分结果中的每个评分都乘以预设权重，得到与所述待评分单轮对话特征集合对应的上轮评分衰减结果。

所述预设权重是一个0-1的小数，不包括0，也不包括1。

优选的，所述预设权重为0.5。

对于S5224，将当前轮所述待评分单轮对话特征集合中没有出现，但是在上一轮所述待评分单轮对话特征集合中出现的特征，作为与所述待评分单轮对话特征集合对应的隐性特征。

对于S5225，对当前轮与所述待评分单轮对话特征集合对应的隐性特征，从上一轮所述待评分单轮对话特征集合对应的所述待评估单轮对话特征集合评分结果获取评分结果，将获取的评分结果作为与所述待评分单轮对话特征集合对应的隐性特征评分结果；

对于5226，将与所述待评分单轮对话特征集合对应的隐性特征评分结果中的每个评分都乘以所述预设权重，得到与所述待评分单轮对话特征集合对应的隐性特征评分衰减结果。

对于5227，将所述当前轮评分结果、所述上轮评分衰减结果、所述隐性特征评分衰减结果中相同特征的评分进行相加，得到所述待评估单轮对话特征集合评分结果。也就是说，所述待评估单轮对话特征集合评分结果中的特征具有唯一性，并且所述待评估单轮对话特征集合评分结果中每个特征对应一个评分。

比如，待理解对话数据中用户M有三轮对话：“A保险的保障范围”、“A保险的缴费期限”、“B保险呢？”，其中：

第一轮对话的特征评分结果为：特征“A保险”评分为1(当前轮提到得1分)，特征“保障范围”评分为1(当前轮提到得1分)；

第二轮对话的特征评分结果为：特征“A保险”评分为1.5分(当前轮提到得1分，上轮的1分衰减50％得到0.5分)，特征“保障范围”评分为0.5分(上轮的1分衰减50％得到0.5分)，特征“缴费期限”评分为1(当前轮提到得1分)；

第三轮对话的特征评分结果为：特征“A保险”评分为0.75分(上轮的1.5分衰减50％得到0.75分)，特征“保障范围”评分为1.25分(当前轮提到得1分，上轮的0.5分衰减50％得到0.25分)，特征“缴费期限”评分为1.5分(当前轮提到得1分，上轮的1分衰减50％得到0.5分)，特征“B保险”评分为1分(当前轮提到得1分)；

将第三轮对话的特征评分结果作为用户M的所述目标用户画像特征，也就是说用户M的所述目标用户画像特征包括：特征“A保险”评分为0.75分，特征“保障范围”评分为1.25分，特征“缴费期限”评分为1.5分，特征“B保险”评分为1分。

在一个实施例中，上述根据所述目标对话数据，获取历史对话数据的步骤，包括：

S21：获取所述目标对话数据的上文对话数据；

S22：将获取的上文对话数据作为历史对话数据。

本实施例实现了获取所述目标对话数据的上文对话数据作为历史对话数据，从而使历史对话数据与目标对话数据关联，形成上下文关系。

参照图2，本申请还提出了一种基于对话场景的用户画像装置，所述装置包括：

对话数据获取模块100，用于获取目标对话数据，根据所述目标对话数据，获取历史对话数据；

预处理模块200，用于对所述目标对话数据、所述历史对话数据进行预处理，得到待理解对话数据；

特征提取模块300，用于对所述待理解对话数据进行特征提取，得到目标意图特征、目标实体特征、目标标签属性特征；

用户画像模块400，用于根据所述目标意图特征、所述目标实体特征、所述目标标签属性特征进行用户画像，得到目标用户画像特征。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存预设的场景图片、预设的图片相似度计算方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于对话场景的用户画像方法。所述基于对话场景的用户画像方法，包括：获取目标对话数据；根据所述目标对话数据，获取历史对话数据；对所述目标对话数据、所述历史对话数据进行预处理，得到待理解对话数据；对所述待理解对话数据进行特征提取，得到目标意图特征、目标实体特征、目标标签属性特征；根据所述目标意图特征、所述目标实体特征、所述目标标签属性特征进行用户画像，得到目标用户画像特征。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种基于对话场景的用户画像方法，包括步骤：获取目标对话数据；根据所述目标对话数据，获取历史对话数据；对所述目标对话数据、所述历史对话数据进行预处理，得到待理解对话数据；对所述待理解对话数据进行特征提取，得到目标意图特征、目标实体特征、目标标签属性特征；根据所述目标意图特征、所述目标实体特征、所述目标标签属性特征进行用户画像，得到目标用户画像特征。

上述执行的基于对话场景的用户画像方法，通过对目标对话数据、历史对话数据进行预处理，得到待理解对话数据，对待理解对话数据进行特征提取，得到目标意图特征、目标实体特征、目标标签属性特征，从而基于上下文依赖丰富了特征，解决了无特征或只有少量人工特征的情况；根据目标意图特征、目标实体特征、目标标签属性特征进行用户画像，得到目标用户画像特征，从而得到了丰富的用户画像。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于对话场景的用户画像方法，其特征在于，所述方法包括：

获取目标对话数据；

根据所述目标对话数据，获取历史对话数据；

2.根据权利要求1所述的基于对话场景的用户画像方法，其特征在于，所述对所述目标对话数据、所述历史对话数据进行预处理，得到待理解对话数据的步骤，包括：

对所述待预处理对话数据进行纠错，得到已纠错对话数据；

3.根据权利要求1所述的基于对话场景的用户画像方法，其特征在于，所述对所述待理解对话数据进行特征提取，得到目标意图特征、目标实体特征、目标标签属性特征的步骤，包括：

4.根据权利要求1所述的基于对话场景的用户画像方法，其特征在于，所述根据所述目标意图特征、所述目标实体特征、所述目标标签属性特征进行用户画像，得到目标用户画像特征的步骤，包括：

5.根据权利要求4所述的基于对话场景的用户画像方法，其特征在于，所述根据所有所述单轮对话特征集合的每个特征进行评分，得到多个单轮对话特征评分结果的步骤，包括：

6.根据权利要求5所述的基于对话场景的用户画像方法，其特征在于，所述根据所述待评分单轮对话特征集合的每个特征按轮次衰减法进行评分，得到待评估单轮对话特征集合评分结果的步骤，包括：

7.根据权利要求1所述的基于对话场景的用户画像方法，其特征在于，所述根据所述目标对话数据，获取历史对话数据的步骤，包括：

获取所述目标对话数据的上文对话数据；

将获取的上文对话数据作为历史对话数据。

8.一种基于对话场景的用户画像装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。