CN111444341B - 用户画像构建方法、装置、设备及可读存储介质 - Google Patents

用户画像构建方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN111444341B
CN111444341B CN202010183158.2A CN202010183158A CN111444341B CN 111444341 B CN111444341 B CN 111444341B CN 202010183158 A CN202010183158 A CN 202010183158A CN 111444341 B CN111444341 B CN 111444341B
Authority
CN
China
Prior art keywords
semantic
sub
semantic intention
preset
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010183158.2A
Other languages
English (en)
Other versions
CN111444341A (zh
Inventor
余尔特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202010183158.2A priority Critical patent/CN111444341B/zh
Publication of CN111444341A publication Critical patent/CN111444341A/zh
Application granted granted Critical
Publication of CN111444341B publication Critical patent/CN111444341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据技术领域,公开了用户画像构建方法、装置、设备及可读存储介质,用于提高用户画像的准确率。该用户画像构建方法包括通过预先训练好的第一文本分类模型和第二文本分类模型分别对用户数据进行语义意图识别,得到第一语义意图识别结果;将第一语义意图识别结果输入语言表征bert模型,得到第二语义意图识别结果;从所述第二语义意图识别结果中获取符合第一预设规则的目标第二子语义意图,获得与所述目标第二子语义意图对应的第一应答数据;通过第三文本分类模型对第一应答数据和用户数据进行文本分类,得到分类结果;基于分类结果得到第一标签或第二标签,基于所述第一标签或所述第二标签生成用户画像。

Description

用户画像构建方法、装置、设备及可读存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种用户画像构建方法、装置、设备及可读存储介质。
背景技术
目前,在对语义意图进行识别时,一般都是将用户数据映射至语义框架模型中对应的语义槽,人机对话时,对访客问题进行主题类型的匹配,并将访客问题填充至主题类型对应的语义框架模型中的语义槽中,再根据访客问题从知识库中进行问题匹配,并将匹配的问题所对应的答案反馈给访客,这种方式的缺陷是,忽略了在不同的时刻用户的实际意图是存在转换的,因此输出的语义意图识别结果准确率较低,因此,在根据意图识别结果进行用户画像构建时,会造成用户画像准确率偏低。
发明内容
本发明的主要目的在于提供一种用户画像构建方法、装置、设备及可读存储介质,旨在解决现有的用户画像准确率低的技术问题。
实时收集人机对话数据中的用户数据,并通过预先训练好的第一文本分类模型和第二文本分类模型分别对所述用户数据进行语义意图识别,得到第一语义意图识别结果,其中,所述第一语义意图识别结果包括多个第一子语义意图,所述人机对话数据包括:用户数据和机器应答数据;
将所述第一语义意图识别结果输入语言表征bert模型,得到第二语义意图识别结果,其中,所述第二语义意图识别结果包括多个第二子语义意图,所述第二子语义意图具有不同的优先级别;
从所述第二语义意图识别结果中获取符合第一预设规则的目标第二子语义意图,根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的第一应答数据;
通过第三文本分类模型对所述第一应答数据和用户数据进行文本分类,得到分类结果;
根据所述分类结果与预置标签库中的标签的对应关系,判断所述预置标签库中是否存在与所述分类结果呈对应关系的标签;
若所述预置标签库中存在与所述分类结果呈对应关系的标签,则得到第一标签;
若所述预置标签库中不存在与所述分类结果呈对应关系的标签,则通过相似度查找,得到与所述分类结果相匹配的第二标签;
基于所述第一标签或所述第二标签生成用户画像。
可选地,所述将所述第一语义意图识别结果输入语言表征bert模型,得到第二语义意图识别结果,其中,所述第二语义意图识别结果包括多个第二子语义意图,所述第二子语义意图具有不同的优先级别,包括以下步骤:
将所述第一语义意图识别结果中的第一子语义意图按照人机对话时的时间顺序输入语言表征bert模型,以及通过所述bert模型对所述第一子语义意图进行识别,得到初始语义意图识别结果,其中,所述初始语义意图识别结果包括多个初始子语义意图;
通过归一化算法对所述初始语义意图识别结果中的每个初始子语义意图进行归一化处理,得到每个初始子语义意图的预测概率;
根据所述预测概率的大小确定所述多个初始子语义意图之间的优先级别;
根据所述优先级别得到具有优先级别的第二子语义意图,将所述具有优先级别的第二子语义意图作为第二语义意图识别结果,其中,所述第二语义意图识别结果包括多个第二子语义意图,所述第二子语义意图具有不同的优先级别。
可选地,在所述实时收集人机对话数据中的用户数据,并通过预先训练好的第一文本分类模型和第二文本分类模型分别对所述用户数据进行语义意图识别,得到第一语义意图识别结果之前,还包括以下步骤:
将预先标注好标识的意图识别结果和标准问答库中的数据均映射于高纬空间,得到空间向量集合;
按照预置训练轮数,采用所述空间向量集合分别对第一初始分类模型和第二初始分类模型进行训练,得到对应的第一中间分类模型和第二中间分类模型;
将待预测数据分别输入所述第一中间分类模型和第二中间分类模型,得到对应的第一初始应答数据和第二初始应答数据;
根据预置标准应答数据分别判断所述第一初始应答数据和第二初始应答数据的准确率是否大于或等于预置准确率;
若所述第一初始应答数据和第二初始应答数据的准确率大于或等于所述预置准确率,则得到对应的第一文本分类模型和对应的第二文本分类模型。
可选地,所述根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的第一应答数包括以下步骤:
根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的初始第一应答数据;
通过机器学习排序LTR算法对所述初始第一应答数据进行排序,并输出与所述第二语义意图识结果别对应的第一应答数据。
可选地,所述从所述第二语义意图识别结果中获取符合第一预设规则的目标第二子语义意图,根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的初始第一应答数据包括以下步骤:
基于所述第二语义意图识别结果中各个第二子语义意图的优先级确定语义意图跳转策略,其中,所述语义意图跳转策略为:当在后输出的语义意图的概率大于在先输出的概率时,进行语义意图跳转;
根据所述语义意图跳转策略对所述第二语义意图识别结果进行语义意图跳转,得到符合预置优先级的目标第二子语义意图;
根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的初始第一应答数据。
可选地,所述若所述预置标签库中不存在与所述分类结果呈对应关系的标签,则通过相似度查找,得到与所述分类结果相匹配的第二标签,包括以下步骤:
若所述预置标签库中不存在与所述分类结果呈对应关系的标签,则将第一应答数据转化成向量的形式,得到第一词向量,以及将所述预置标签库中的标签转化成向量的形式,得到第二词向量;
计算所述第一词向量与所述第二词向量之间的余弦夹角;
判断所述余弦夹角是否小于或等于预设夹角;
若余弦夹角小于或等于所述预设夹角,则根据所述第二词向量得到第二标签。
可选地,在所述实时收集人机对话数据中的用户数据,并通过预先训练好的第一文本分类模型和第二文本分类模型分别对所述用户数据进行语义意图识别,得到第一语义意图识别结果,=之前,还包括以下步骤:
通过会话管理端管理多个模块的信息传输,其中,所述多个模块均带有提供服务的服务端,所述多个模块包括:语义意图识别模块和用户画像模块。
进一步地,为实现上述目的,本发明还提供一种用户画像构建装置:
第一语义意图识别模块,用于实时收集人机对话数据中的用户数据,并通过预先训练好的第一文本分类模型和第二文本分类模型分别对所述用户数据进行语义意图识别,得到第一语义意图识别结果,其中,所述第一语义意图识别结果包括多个第一子语义意图,所述人机对话数据包括:用户数据和机器应答数据;
第二语义意图识别模块,用于将所述第一语义意图识别结果输入语言表征bert模型,得到第二语义意图识别结果,其中,所述第二语义意图识别结果包括多个第二子语义意图,所述第二子语义意图具有不同的优先级别;
第一应答数据输出模块,用于从所述第二语义意图识别结果中获取符合第一预设规则的目标第二子语义意图,根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的第一应答数据;
文本分类模块,用于通过第三文本分类模型对所述第一应答数据和用户数据进行文本分类,得到分类结果;
标签判断模块,用于根据所述分类结果与预置标签库中的标签的对应关系,判断所述预置标签库中是否存在与所述分类结果呈对应关系的标签;
第一标签获取模块,用于若所述预置标签库中存在与所述分类结果呈对应关系的标签,则得到第一标签;
第二标签获取模块,用于若所述预置标签库中不存在与所述分类结果呈对应关系的标签,则通过相似度查找,得到与所述分类结果相匹配的第二标签;
用户画像构建模块,用于基于所述第一标签或所述第二标签生成用户画像。
可选地,所述第二语义意图识别模块包括:
第一子语义意图识别单元,用于将所述第一语义意图识别结果中的第一子语义意图按照人机对话时的时间顺序输入语言表征bert模型,以及通过所述bert模型对所述第一子语义意图进行识别,得到初始语义意图识别结果,其中,所述初始语义意图识别结果包括多个初始子语义意图;
归一化处理单元,用于通过归一化算法对所述初始语义意图识别结果中的每个初始子语义意图进行归一化处理,得到每个初始子语义意图的预测概率;
优先级别确定单元,用于根据所述预测概率的大小确定所述多个初始子语义意图之间的优先级别;
第二语义意图识别结果输出单元,用于根据所述优先级别得到具有优先级别的第二子语义意图,将所述具有优先级别的第二子语义意图作为第二语义意图识别结果,其中,所述第二语义意图识别结果包括多个第二子语义意图,所述第二子语义意图具有不同的优先级别。
可选地,所述用户画像构建装置还包括:
数据映射模块,用于将预先标注好标识的意图识别结果和标准问答库中的数据均映射于高纬空间,得到空间向量集合;
第一初始分类模型训练模块,用于按照预置训练轮数,采用所述空间向量集合分别对第一初始分类模型和第二初始分类模型进行训练,得到对应的第一中间分类模型和第二中间分类模型;
待预测数据输入模块,用于将待预测数据分别输入所述第一中间分类模型和第二中间分类模型,得到对应的第一初始应答数据和第二初始应答数据;
初始应答数据准确率判断模块,用于根据预置标准应答数据分别判断所述第一初始应答数据和第二初始应答数据的准确率是否大于或等于预置准确率;
分类模型获取模块,用于若所述第一初始应答数据和第二初始应答数据的准确率大于或等于所述预置准确率,则得到对应的第一文本分类模型和对应的第二文本分类模型。
可选地,所述第一应答数据输出模块包括:
初始第一应答数据获取单元,用于根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的初始第一应答数据;
第一应答数据排序单元,用于通过机器学习排序LTR算法对所述初始第一应答数据进行排序,并输出与所述第二语义意图识结果别对应的第一应答数据。
可选地,所述初始第一应答数据获取单元具体用于:
基于所述第二语义意图识别结果中各个第二子语义意图的优先级确定语义意图跳转策略,其中,所述语义意图跳转策略为:当在后输出的语义意图的概率大于在先输出的概率时,进行语义意图跳转;
根据所述语义意图跳转策略对所述第二语义意图识别结果进行语义意图跳转,得到符合预置优先级的目标第二子语义意图;
根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的初始第一应答数据。
可选地,所述第二标签获取模块包括:
向量转化单元,用于若所述预置标签库中不存在与所述分类结果呈对应关系的标签,则将第一应答数据转化成向量的形式,得到第一词向量,以及将所述预置标签库中的标签转化成向量的形式,得到第二词向量;
余弦夹角计算单元,用于计算所述第一词向量与所述第二词向量之间的余弦夹角;
余弦夹角判断单元,用于判断所述余弦夹角是否小于或等于预设夹角;
第二标签获取单元,用于若余弦夹角小于或等于所述预设夹角,则根据所述第二词向量得到第二标签。
可选地,所述用户画像构建装置包括:
管理模块,用于通过会话管理端管理多个模块的信息传输,其中,所述多个模块均带有提供服务的服务端,所述多个模块包括:语义意图识别模块和用户画像模块。
进一步地,为实现上述目的,本发明还提供一种用户画像构建设备,所述用户画像构建设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的用户画像构建程序,所述用户画像构建程序被所述处理器执行时实现如上述任一项所述的用户画像构建方法的步骤。
进一步地,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有用户画像构建程序,所述用户画像构建程序被处理器执行时实现如上述任一项所述的用户画像构建方法的步骤。
本发明通过实时收集人机对话时的用户数据,并通过textcnn模型和fasttext模型同时对用户数据进行意图识别,由于对话时,往往要根据对话时上一时刻和下一时刻的数据综合判断,才能更为准确地输出语义意图,因此采用了可根据上下文关系识别语义意图的bert模,通过bert模可以将已得到的各个时间点的语义意图进行排序,输出优先级较高的意图,然后根据优先级较高的意图获取应答数据,最后根据应答数据和用户数据所对应的标签生成用户画像,可以有效提高用户画像的准确度。
附图说明
图1为本发明实施例方案涉及的用户画像构建设备运行环境的结构示意图;
图2为本发明用户画像构建方法的第一个实施例的流程示意图;
图3为图2中步骤S20的一个实施例的细化流程示意图;
图4为本发明用户画像构建方法的第二实施例的流程示意图;
图5为图2中步骤S30的一个实施例的细化流程示意图;
图6为图5中步骤S301的一个实施例的细化流程示意图;
图7为图2中步骤S70的一个实施例的细化流程示意图;
图8为本发明用户画像构建方法的第三实施例的流程示意图;
图9为本发明用户画像构建装置的一个实施例的功能模块示意图。
具体实施方式
本发明实施例涉及的用户画像构建方法主要应用于用户画像构建设备,该用户画像构建设备可以是PC、便携计算机、移动终端等具有显示和处理功能的设备。
参照图1,图1为本发明实施例方案中涉及的用户画像构建设备的硬件结构示意图。本发明实施例中,用户画像构建设备可以包括处理器1001(例如CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口);存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的硬件结构并不构成对用户画像构建设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种可读存储介质的存储器1005可以包括操作系统、网络通信模块以及用户画像构建程序。
在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的用户画像构建程序,并执行本发明实施例提供的用户画像构建方法。
本发明实施例提供了一种用户画像构建方法。
参照图2,图2为本发明用户画像构建方法的第一实施例的流程示意图。本实施例中,用户画像构建方法包括以下步骤:
步骤S10,实时收集人机对话数据中的用户数据,并通过预先训练好的第一文本分类模型和第二文本分类模型分别对用户数据进行语义意图识别,得到第一语义意图识别结果,其中,第一语义意图识别结果包括多个第一子语义意图,人机对话数据包括:用户数据和机器应答数据;
本实施例中,为了判断用户数据中是否存在多个语义意图,以及语义意图之间是否发生转换,因此采用第一文本分类模型和第二文本分类模型分别对用户数据进行处理,得到第一意语义意图识别结果。第一文本分类模型为textcnn模型,第二文本分类模型为fasttext模型,这两种模型均用于对文本进行分类。
步骤S20,将第一语义意图识别结果输入语言表征bert模型,得到第二语义意图识别结果,其中,第二语义意图识别结果包括多个第二子语义意图,第二子语义意图具有不同的优先级别;
本实施例中,语言表征bert模型,即bert模型是一种语言模型,可根据上下文关系对文本进行意图识别,由于在步骤S10中,已经得到了多个第一子语义意图,而由于并不知晓具体哪个第一子语义意图是需要被优先处理,或者是意图与意图之间是否需要进行切换,因此,需要通过可以基于上下文关系进行意图识别的bert模型对第一语义意图识别结果中的多个第一子语义意图进行排序,得到按照优先级别进行排序的第二语义意图识别结果。优先级别是根据bert模型输出的预测结果的概率决定的,概率越大,则意图的优先级就越高。
步骤S30,从第二语义意图识别结果中获取符合第一预设规则的目标第二子语义意图,根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与目标第二子语义意图对应的第一应答数据;
本实施例中,第一预设规则指的是预先设置的用于获取第二子语义意图的约束条件,例如,根据每个第二子语义意图的优先级,优先获取排在前十位的第二子语义意图。
映射关系是预先设置好的,应答数据可以与语义意图识别结果之间存在一对一的映射关系,例如,可将应答数据和语义意图识别结果通过哈希算法得到键值对,并将键值对存储于哈希表中。
步骤S40,通过第三文本分类模型对第一应答数据和用户数据进行文本分类,得到分类结果;
本实施例中,第三文本分类模型是预先训练好的,已得到了第一应答数据和用户数据,由于从用户数据中可提取到多个意图,多个意图也会存在对应多个应答数据的情况,若仅从第一应答数据或者仅从用户数据提取标签,都是无法全面地得到用于表征用户意图或兴趣的标签,因此需要同时使用第一应答数据和用户数据,用户数据来自于步骤S10,为了获取标签,需要对第一应答数据和用户数据进行分类,分类时可使用预置的,第三文本分类模型,即预先训练好的、可分类出符合预置准确率的分类结果的文本分类模型,例如,textcnn模型。
步骤S50,根据分类结果与预置标签库中的标签的对应关系,判断预置标签库中是否存在与分类结果呈对应关系的标签;
本实施例中,需要根据预先设置好的分类结果与标签之间的对应关系,获得与分类结果相匹配的标签。当预置标签库中存在与分类结果相匹配的标签时,则获取该标签,将该标签作为与分类结果呈对应关系的标签,例如可以将分类结果与预置标签库中的标签转化为向量,计算向量之间的欧式距离,获得与分类结果相匹配的标签。
步骤S60,若预置标签库中存在与分类结果呈对应关系的标签,则得到第一标签;
步骤S70,若预置标签库中不存在与分类结果呈对应关系的标签,则通过相似度查找,得到与分类结果相匹配的第二标签;
本实施例中,由于人机对话的数据多种多样,并不能保证每个分类结果都有刚好对应的标签,当不存在相对应的标签时,需要通过相似度查找,得到与分类结果相匹配的第二标签,相似度查找的具体方式可以是,将分类结果和预置标签都转化成向量的形式,然后通过计算向量之间的欧几里得距离的方式,来得到与当前分类结果相似的标签。
步骤S80,基于第一标签或第二标签生成用户画像。
本实施例中,基于与所述分类结果呈对应关系的第一标签或与分类结果相匹配的第二标签生成用户数据对应的用户画像,可以为第一标签和第二标签设置不同的权重值,分别将第一标签和第二标签作为不同维度进行数学建模,得到用户画像。第一标签和第二标签都是根据用户数据和第一应答数据的分类结果得到的,第一标签和第二标签可最大程度地展示用户的语义意图,因此用这样的标签生成的用户画像较为准确。
通过实时收集人机对话时的用户数据,并对用户数据进行意图识别,由于对话时,往往要根据对话时上一时刻和下一时刻的数据综合判断,才能更为准确地输出语义意图,因此采用了可根据上下文关系识别语义意图的bert模,通过bert模可以将已得到的各个时间点的语义意图进行排序,输出优先级较高的意图,然后根据优先级较高的意图获取应答数据,最后根据应答数据和用户数据所对应的用户标签生成用户画像,可以有效提高用户画像的准确度。
参照图3,图3为图2中步骤S20的一个实施例的细化流程示意图。本实施例中,步骤S20包括以下步骤:
步骤S201,将第一语义意图识别结果中的第一子语义意图按照人机对话时的时间顺序输入语言表征bert模型,以及通过bert模型对第一子语义意图进行识别,得到初始语义意图识别结果,其中,初始语义意图识别结果包括多个初始子语义意图;
本实施例中,第一语义意图识别结果中包括第一子语义意图,将这些第一子语义意图按照人机对话时的时间顺序输入bert模型的目的是,便于根据上下文关系对语义意图进行综合判断,从而可筛选出准确率更高的语义意图。
步骤S202,通过归一化算法对初始语义意图识别结果中的每个初始子语义意图进行归一化处理,得到每个初始子语义意图的预测概率;
本实施例中,将多个初始子语义意图进行归一化处理后,可将所有的初始子语义意图出现的概率映射于[0,1]的区间内,越趋近于1,则说明意图出现的概率就越大,即准确率就越高,由于是按照时间的先后顺序进行处理的,所以当在后输出的概率大于在先输出的概率时,则说明需要用在后的语义意图去替换在先的语义意图,因此可实现语义意图的切换,同时也可使输出的语义意图的准确率得到提高。
步骤S203,根据预测概率的大小确定多个初始子语义意图之间的优先级别;
本实施例中,判断在后时间段内的第一预测概率是否大于在先时间段内的第一预测概率;若在后时间段内的第一预测概率大于在先时间段内的第一预测概率,则通过冒泡排序算法对多个初始子语义意图进行排序,得到具有优先级别的多个初始子语义意图。
本实施例中,在先时间段在时间上要提前于在后时间段,例如,在先时间段为从第5秒到第10秒,在后时间段为从第11秒到第15秒。由于是按照时间的顺序获取多个初始子语义意图,因此各个初始子语义意图是按照时间的顺序形成的序列,通过冒泡排序算法可将时间段相邻的两个初始子语义意图按照预测概率的大小进行排序,得到具有优先级别的多个初始子语义意图。
步骤S204,根据优先级别得到具有优先级别的第二子语义意图,将具有优先级别的第二子语义意图作为第二语义意图识别结果,其中,第二语义意图识别结果包括多个第二子语义意图,第二子语义意图具有不同的优先级别。
本实施例中,由于预测概率可能相同也可能不同,且存在不同的大小顺序关系,为了尽可能地将预测概率高的语义意图作为获取应答数据的依据,因此需要根据预测概率对语义意图进行排序,预测概率越大,则优先级越高。
参照图4,图4为本发明中用户画像构建方法的第二实施例的流程示意图。本实施例中,在步骤S10之前,还包括以下步骤:
步骤S90,将预先标注好标识的意图识别结果和标准问答库中的数据均映射于高纬空间,得到空间向量集合;
本实施例中,可通过数据映射工具将数据映射于空间中,维数不限,维数越高则越能从各个维度反映数据的特征。
步骤S100,按照预置训练轮数,采用空间向量集合分别对第一初始分类模型和第二初始分类模型进行训练,得到对应的第一中间分类模型和第二中间分类模型;
本实施例中,第一初始分类模型和第二初始分类模型可以分别为通用的textcnn算法和fasttext算法,即分类算法,由于第一初始分类模型和第二初始分类模型需要具备根据对话场景下的数据,得到准确的应答数据的能力,因此需要按照预置训练轮数进行训练。
步骤S110,将待预测数据分别输入所述第一中间分类模型和第二中间分类模型,得到对应的第一初始应答数据和第二初始应答数据;
本实施例中,在训练过预置轮数后,需要校验模型输出结果的准确率,因此需要将待预测数据输入第二初始分类模型,待预测数据也是提前标注好的。
步骤S120,根据预置标准应答数据分别判断所述第一初始应答数据和第二初始应答数据的准确率是否大于或等于预置准确率;
本实施例中,由于待预测数据是提前标注好的,因此得到与待预测数据相对应的标准应答数据。从而可以根据标准应答数据检验模型输出的应答数据的准确率是否大于或等于预置准确率。
步骤S130,若所述第一初始应答数据和第二初始应答数据的准确率大于或等于所述预置准确率,则得到对应的第一文本分类模型和对应的第二文本分类模型。
本实施例中,若是符合预先设置的准确率,则得到对应的分类模型,即分别将符合预先设置的预置准确率的第一中间分类模型和第二中间分类模型作为最终的第一文本分类模型和第二文本分类模型,否则需要继续进行训练。本实施例中,第一文本分类模型为textcnn模型,第二文本分类模型为fasttext模型。
参照图5,图5为图2中步骤S30的一个实施例的细化流程示意图。本实施例中,步骤S30包括以下步骤:
步骤S301,根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的初始第一应答数据;
本实施例中,应答数据包括多个初始第一应答数据,因为预先建立了应答数据与语义意图识别结果之间一对多或多对多的映射关系,因此可得到对应于第二语义意图识别结果的多个初始第一应答数据。
步骤S302,通过机器学习排序LTR算法对所述初始第一应答数据进行排序,并输出与所述第二语义意图识结果别对应的第一应答数据。
本实施例中,学习排序算法(learning torank,LTR)是一种监督学习的排序方法,基于标准应答数据通过LTR对初始第一应答数据中的数据进行排序,从而有益于输出符合预先设置的标准应答数据的数据,标准应答数据是根据实际场景中的问题数据获得的应答数据。
参照图6,图6为图5中步骤S301的一个实施例的细化流程示意图。本实施例中,步骤S301包括以下步骤:
步骤S3011,基于第二语义意图识别结果中各个第二子语义意图的优先级确定语义意图跳转策略,其中,语义意图跳转策略为:当在后输出的语义意图的概率大于在先输出的概率时,进行语义意图跳转;
本实施例中,当在后输出的语义意图的概率大于在先输出的概率时,这说明需要用在后的语义意图去替换在先的语义意图,因此可实现语义意图的切换,同时也可使输出的语义意图的准确率得到提高。
步骤S3012,根据语义意图跳转策略对第二语义意图识别结果进行语义意图跳转,得到符合预置优先级的目标第二子语义意图;
步骤S3013,根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与目标第二子语义意图对应的初始第一应答数据。
本实施例中,根据语义意图跳转策略进行语义意图跳转,指的是,当在后输出的语义意图的概率大于在先输出的概率时,这说明需要用在后的语义意图去替换在先的语义意图,例如,在t时刻,a语义意图的预测概率为0.1,在t+1时刻,b语义意图的预测概率为0.9,则会暂存语义意图a的结果,进行语义意图b的任务。
参照图7,图7为图2中步骤S70的一个实施例的细化流程示意图。本实施例中,步骤S70包括以下步骤:
步骤S701,若预置标签库中不存在与分类结果呈对应关系的标签,则将第一应答数据转化成向量的形式,得到第一词向量,以及将预置标签库中的标签转化成向量的形式,得到第二词向量;
本实施例中,转化为词向量的形式是为了便于采用算法进行处理。
步骤S702,计算第一词向量与第二词向量之间的余弦夹角;
本实施例中,可通过余弦公式计算向量之间的夹角。
步骤S703,判断余弦夹角是否小于或等于预设夹角;
步骤S704,若余弦夹角小于或等于预设夹角,则根据第二词向量得到第二标签。
本实施例中,向量之间的夹角越小,则说明词向量之间越相似,本实施例仅将小于或等于预设夹角的词向量得到第二标签。
参照图8,图8为本发明用户画像构建方法的第三实施例的流程示意图。本实施例中,在步骤S10,之前,还包括以下步骤:
步骤S140,通过会话管理端管理多个模块的信息传输,其中,多个模块均带有提供服务的服务端,多个模块包括:语义意图识别模块和用户画像模块。
本实施例中,接收请求数据,其中,请求数据中带有会话信息;根据请求数据获取响应数据,将会话信息和响应数据传送至接收端。通过会话管理端管理多个模块的信息传输,从而实现各个模块功能之间的交互。例如,语义意图识别模块仅可以输出语义意图,用户画像模块仅可以输出用户画像,若想将用户画像作为输出语义意图的决定因素,则可通过会话管理端来实现。
会话信息用于指定服务提供端,传输过程是,根据会话信息将请求数据传输至指定的服务提供端,在实施例中,指的是模块,服务提供端会根据请求信息返回响应信息。
根据请求数据获取响应数据,将会话信息和响应数据传送至接收端,实现数据在各个模块之间的传输,进而实现了各个模块的功能之间的交互。
通过实时收集人机对话时的用户数据,并对用户数据进行意图识别,由于对话时,往往要根据对话时上一时刻和下一时刻的数据综合判断,才能更为准确地输出语义意图,因此采用了可根据上下文关系识别语义意图的bert模,通过bert模可以将已得到的各个时间点的语义意图进行排序,输出优先级较高的意图,然后根据优先级较高的意图获取应答数据,另外,还可根据应答数据和用户数据所对应的标签生成用户画像,用户画像又可以作为下一轮流程的中间环节,从而可获取更优的应答数据。本发明可以有效提高人机对话时识别语义意图准确度。
参照图9,图9为本发明用户画像构建装置的一个实施例的功能模块示意图。本实施例中,用户画像构建装置包括:
第一语义意图识别模块10,用于实时收集人机对话数据中的用户数据,并通过预先训练好的第一文本分类模型和第二文本分类模型分别对所述用户数据进行语义意图识别,得到第一语义意图识别结果,其中,所述第一语义意图识别结果包括多个第一子语义意图,所述人机对话数据包括:用户数据和机器应答数据;
第二语义意图识别模块20,用于将所述第一语义意图识别结果输入语言表征bert模型,得到第二语义意图识别结果,其中,所述第二语义意图识别结果包括多个第二子语义意图,所述第二子语义意图具有不同的优先级别;
第一应答数据输出模块30,用于从所述第二语义意图识别结果中获取符合第一预设规则的目标第二子语义意图,根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的第一应答数据;
文本分类模块40,用于通过第三文本分类模型对所述第一应答数据和用户数据进行文本分类,得到分类结果;
标签判断模块50,用于根据所述分类结果与预置标签库中的标签的对应关系,判断所述预置标签库中是否存在与所述分类结果呈对应关系的标签;
第一标签获取模块60,用于若所述预置标签库中存在与所述分类结果呈对应关系的标签,则得到第一标签;
第二标签获取模块70,用于若所述预置标签库中不存在与所述分类结果呈对应关系的标签,则通过相似度查找,得到与所述分类结果相匹配的第二标签;
用户画像构建模块80,用于基于所述第一标签或所述第二标签生成用户画像。
本发明还提供一种可读存储介质。
本实施例中,所述可读存储介质上存储有用户画像构建程序,所述用户画像构建程序被处理器执行时实现如上述任一项实施例中所述的用户画像构建方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本发明的保护之内。

Claims (10)

1.一种用户画像构建方法,其特征在于,所述用户画像构建方法包括以下步骤:
实时收集人机对话数据中的用户数据,并通过预先训练好的第一文本分类模型和第二文本分类模型分别对所述用户数据进行语义意图识别,得到第一语义意图识别结果,其中,所述第一语义意图识别结果包括多个第一子语义意图,所述人机对话数据包括:用户数据和机器应答数据;
将所述第一语义意图识别结果输入语言表征bert模型,得到第二语义意图识别结果,其中,所述第二语义意图识别结果包括多个第二子语义意图,所述第二子语义意图具有不同的优先级别;
从所述第二语义意图识别结果中获取符合第一预设规则的目标第二子语义意图,根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的第一应答数据;
通过第三文本分类模型对所述第一应答数据和用户数据进行文本分类,得到分类结果;
根据所述分类结果与预置标签库中的标签的对应关系,判断所述预置标签库中是否存在与所述分类结果呈对应关系的标签;
若所述预置标签库中存在与所述分类结果呈对应关系的标签,则得到第一标签;
若所述预置标签库中不存在与所述分类结果呈对应关系的标签,则通过相似度查找,得到与所述分类结果相匹配的第二标签;
基于所述第一标签或所述第二标签生成用户画像。
2.如权利要求1所述的用户画像构建方法,其特征在于,所述将所述第一语义意图识别结果输入语言表征bert模型,得到第二语义意图识别结果,其中,所述第二语义意图识别结果包括多个第二子语义意图,所述第二子语义意图具有不同的优先级别,包括以下步骤:
将所述第一语义意图识别结果中的第一子语义意图按照人机对话时的时间顺序输入语言表征bert模型,以及通过所述bert模型对所述第一子语义意图进行识别,得到初始语义意图识别结果,其中,所述初始语义意图识别结果包括多个初始子语义意图;
通过归一化算法对所述初始语义意图识别结果中的每个初始子语义意图进行归一化处理,得到每个初始子语义意图的预测概率;
根据所述预测概率的大小确定所述多个初始子语义意图之间的优先级别;
根据所述优先级别得到具有优先级别的第二子语义意图,将所述具有优先级别的第二子语义意图作为第二语义意图识别结果,其中,所述第二语义意图识别结果包括多个第二子语义意图,所述第二子语义意图具有不同的优先级别。
3.如权利要求1所述的用户画像构建方法,其特征在于,在所述实时收集人机对话数据中的用户数据,并通过预先训练好的第一文本分类模型和第二文本分类模型分别对所述用户数据进行语义意图识别,得到第一语义意图识别结果之前,还包括以下步骤:
将预先标注好标识的意图识别结果和标准问答库中的数据均映射于高纬空间,得到空间向量集合;
按照预置训练轮数,采用所述空间向量集合分别对第一初始分类模型和第二初始分类模型进行训练,得到对应的第一中间分类模型和第二中间分类模型;
将待预测数据分别输入所述第一中间分类模型和第二中间分类模型,得到对应的第一初始应答数据和第二初始应答数据;
根据预置标准应答数据分别判断所述第一初始应答数据和第二初始应答数据的准确率是否大于或等于预置准确率;
若所述第一初始应答数据和第二初始应答数据的准确率大于或等于所述预置准确率,则得到对应的第一文本分类模型和对应的第二文本分类模型。
4.如权利要求1所述的用户画像构建方法,其特征在于,所述根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的第一应答数据包括以下步骤:
根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的初始第一应答数据;
通过机器学习排序LTR算法对所述初始第一应答数据进行排序,并输出与所述第二语义意图识结果别对应的第一应答数据。
5.如权利要求4所述的用户画像构建方法,其特征在于,所述从所述第二语义意图识别结果中获取符合第一预设规则的目标第二子语义意图,根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的初始第一应答数据包括以下步骤:
基于所述第二语义意图识别结果中各个第二子语义意图的优先级确定语义意图跳转策略,其中,所述语义意图跳转策略为:当在后输出的语义意图的概率大于在先输出的概率时,进行语义意图跳转;
根据所述语义意图跳转策略对所述第二语义意图识别结果进行语义意图跳转,得到符合预置优先级的目标第二子语义意图;
根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的初始第一应答数据。
6.如权利要求1所述的用户画像构建方法,其特征在于,所述若所述预置标签库中不存在与所述分类结果呈对应关系的标签,则通过相似度查找,得到与所述分类结果相匹配的第二标签,包括以下步骤:
若所述预置标签库中不存在与所述分类结果呈对应关系的标签,则将第一应答数据转化成向量的形式,得到第一词向量,以及将所述预置标签库中的标签转化成向量的形式,得到第二词向量;
计算所述第一词向量与所述第二词向量之间的余弦夹角;
判断所述余弦夹角是否小于或等于预设夹角;
若余弦夹角小于或等于所述预设夹角,则根据所述第二词向量得到第二标签。
7.如权利要求1-6任一项所述的用户画像构建方法,其特征在于,在所述实时收集人机对话数据中的用户数据,并通过预先训练好的第一文本分类模型和第二文本分类模型分别对所述用户数据进行语义意图识别,得到第一语义意图识别结果之前,还包括以下步骤:
通过会话管理端管理多个模块的信息传输,其中,所述多个模块均带有提供服务的服务端,所述多个模块包括:语义意图识别模块和用户画像模块。
8.一种用户画像构建装置,其特征在于,所述用户画像构建装置包括以下模块:
第一语义意图识别模块,用于实时收集人机对话数据中的用户数据,并通过预先训练好的第一文本分类模型和第二文本分类模型分别对所述用户数据进行语义意图识别,得到第一语义意图识别结果,其中,所述第一语义意图识别结果包括多个第一子语义意图,所述人机对话数据包括:用户数据和机器应答数据;
第二语义意图识别模块,用于将所述第一语义意图识别结果输入语言表征bert模型,得到第二语义意图识别结果,其中,所述第二语义意图识别结果包括多个第二子语义意图,所述第二子语义意图具有不同的优先级别;
第一应答数据输出模块,用于从所述第二语义意图识别结果中获取符合第一预设规则的目标第二子语义意图,根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的第一应答数据;
文本分类模块,用于通过第三文本分类模型对所述第一应答数据和用户数据进行文本分类,得到分类结果;
标签判断模块,用于根据所述分类结果与预置标签库中的标签的对应关系,判断所述预置标签库中是否存在与所述分类结果呈对应关系的标签;
第一标签获取模块,用于若所述预置标签库中存在与所述分类结果呈对应关系的标签,则得到第一标签;
第二标签获取模块,用于若所述预置标签库中不存在与所述分类结果呈对应关系的标签,则通过相似度查找,得到与所述分类结果相匹配的第二标签;
用户画像构建模块,用于基于所述第一标签或所述第二标签生成用户画像。
9.一种用户画像构建设备,其特征在于,所述用户画像构建设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的用户画像构建程序,所述用户画像构建程序被所述处理器执行时实现如权利要求1-7中任一项所述的用户画像构建方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有用户画像构建程序,所述用户画像构建程序被处理器执行时实现如权利要求1-7中任一项所述的用户画像构建方法的步骤。
CN202010183158.2A 2020-03-16 2020-03-16 用户画像构建方法、装置、设备及可读存储介质 Active CN111444341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010183158.2A CN111444341B (zh) 2020-03-16 2020-03-16 用户画像构建方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010183158.2A CN111444341B (zh) 2020-03-16 2020-03-16 用户画像构建方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111444341A CN111444341A (zh) 2020-07-24
CN111444341B true CN111444341B (zh) 2024-04-12

Family

ID=71654007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010183158.2A Active CN111444341B (zh) 2020-03-16 2020-03-16 用户画像构建方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111444341B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035742B (zh) * 2020-08-28 2023-10-24 康键信息技术(深圳)有限公司 用户画像生成方法、装置、设备及存储介质
CN112328849B (zh) * 2020-11-02 2024-05-07 腾讯科技(深圳)有限公司 用户画像的构建方法、基于用户画像的对话方法及装置
CN114511339A (zh) * 2020-11-16 2022-05-17 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及可读存储介质
CN112507116B (zh) * 2020-12-16 2023-10-10 平安科技(深圳)有限公司 基于客户应答语料的客户画像方法及其相关设备
CN113139141B (zh) * 2021-04-22 2023-10-31 康键信息技术(深圳)有限公司 用户标签扩展标注方法、装置、设备及存储介质
CN113836903B (zh) * 2021-08-17 2023-07-18 淮阴工学院 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446045A (zh) * 2016-08-31 2017-02-22 上海交通大学 基于对话交互的用户画像的构建方法及系统
CN110457679A (zh) * 2019-07-01 2019-11-15 深圳追一科技有限公司 用户画像的构建方法、装置、计算机设备和存储介质
WO2020006835A1 (zh) * 2018-07-03 2020-01-09 平安科技(深圳)有限公司 智能客服多轮问答方法、设备、存储介质及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446045A (zh) * 2016-08-31 2017-02-22 上海交通大学 基于对话交互的用户画像的构建方法及系统
WO2020006835A1 (zh) * 2018-07-03 2020-01-09 平安科技(深圳)有限公司 智能客服多轮问答方法、设备、存储介质及装置
CN110457679A (zh) * 2019-07-01 2019-11-15 深圳追一科技有限公司 用户画像的构建方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111444341A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN111444341B (zh) 用户画像构建方法、装置、设备及可读存储介质
CN110837579B (zh) 视频分类方法、装置、计算机以及可读存储介质
US20200250378A1 (en) Methods and apparatuses for identifying a user intent of a statement
CN111932144B (zh) 一种客服坐席分配方法、装置、服务器及存储介质
CA2823835C (en) Voice search and response based on relevancy
CN108038208B (zh) 上下文信息识别模型的训练方法、装置和存储介质
CN110020022B (zh) 数据处理方法、装置、设备及可读存储介质
CN107291775B (zh) 错误样本的修复语料生成方法和装置
US11334758B2 (en) Method and apparatus of data processing using multiple types of non-linear combination processing
CN112966081A (zh) 处理问答信息的方法、装置、设备和存储介质
CN112100431A (zh) Ocr系统的评估方法、装置、设备及可读存储介质
CN107291774B (zh) 错误样本识别方法和装置
CN111611365A (zh) 一种对话系统的流程控制方法、装置、设备及存储介质
CN112766402A (zh) 算法选择方法、装置和电子设备
CN117911039A (zh) 售后服务系统的控制方法、设备及存储介质
CN115884195A (zh) 模型训练方法、无线资源调度方法及其装置及电子设备
CN107330069B (zh) 一种多媒体数据处理方法及其装置、服务器、存储介质
CN105162931A (zh) 一种通信号码的分类方法及装置
CN111985250A (zh) 模型训练方法、装置、系统及计算机可读存储介质
CN111143524A (zh) 一种用户意图确定方法及电子设备
CN116563604A (zh) 端到端目标检测模型训练、图像目标检测方法及相关设备
CN112328871A (zh) 一种基于rpa模块的回复生成方法、装置、设备及存储介质
US10873550B2 (en) Methods for communication in a communication network for reduced data traffic
CN114301886B (zh) 一种多媒体资源的识别方法、装置、设备及存储介质
CN118567701B (zh) 一种智能化运维管理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant