CN117556802B - 一种基于大语言模型的用户画像方法、装置、设备及介质 - Google Patents
一种基于大语言模型的用户画像方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117556802B CN117556802B CN202410044386.XA CN202410044386A CN117556802B CN 117556802 B CN117556802 B CN 117556802B CN 202410044386 A CN202410044386 A CN 202410044386A CN 117556802 B CN117556802 B CN 117556802B
- Authority
- CN
- China
- Prior art keywords
- dialogue
- user
- personality
- template
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000004458 analytical method Methods 0.000 claims abstract description 20
- 230000006854 communication Effects 0.000 claims abstract description 18
- 238000004891 communication Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 31
- 238000002372 labelling Methods 0.000 claims description 25
- 230000004044 response Effects 0.000 claims description 14
- 238000004088 simulation Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 8
- 239000000463 material Substances 0.000 claims description 8
- 230000008451 emotion Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 6
- 238000012417 linear regression Methods 0.000 claims description 5
- 230000032683 aging Effects 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 235000005911 diet Nutrition 0.000 claims description 3
- 230000037213 diet Effects 0.000 claims description 3
- 230000036541 health Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000003993 interaction Effects 0.000 abstract description 3
- 238000005065 mining Methods 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 46
- 238000013461 design Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008094 contradictory effect Effects 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000003743 erythrocyte Anatomy 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 101100456831 Caenorhabditis elegans sams-5 gene Proteins 0.000 description 1
- 241001122767 Theaceae Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013497 data interchange Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000006996 mental state Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 235000008935 nutritious Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035882 stress Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于大语言模型的用户画像方法、装置、设备及介质,涉及人工智能技术领域。所述方法是先预先建立一套覆盖面广的人格模板数据库,利用大语言模型训练对话机器人,建立对话机器人的最优对话策略,通过对话机器人在元宇宙、互联网及智能交互设备等多种场景下与用户进行自然语言交流,在多轮对话中进行语义分析,获得关键词与人格模版匹配,从而获得用户精准画像,能够同时挖掘用户显性特征和隐性特征,具有更高的准确性,是一种主动式、动态的用户画像方式,极大提高用户画像的精准度和即时性,便于实际应用和推广。
Description
技术领域
本发明属于人工智能技术领域,具体涉及一种基于大语言模型的用户画像方法、装置、设备及介质。
背景技术
用户画像是许多企业,特别是广告营销、运营、电商、游戏、金融等等行业企业,必不可少的运营步骤,通过各种方式精确获得用户偏好,以减少广告投放成本,提高营销推广效率。传统的用户画像方式是从各个维度收集用户数据,如用户浏览过的网页、网购订单、订购刊物、发表帖子,以及各种问卷填表和测试等等,进行收集和分析。
为了使收集的数据能产生画像效果,需要建立有效的鉴别方法和算法,或标签系统,或知识图谱,或行为分析,或测试题库等等。但是这些现有方法都是基于用户已产生的信息数据基础上,是被动式的、静态的收集和分析方式,只能刻画用户的消费偏好、行为偏好等显性特征,不仅效率低,若用户状态发生变化,也无法及时更新修正用户画像信息。同时,这种被动、静态的用户画像方法无法深度挖掘、刻画用户的隐形特征。实际上,一个人的人格特征非常复杂,不仅有表面上呈现出来的各种消费偏好、行为偏好,还有内在的精神状态、观点倾向,特别是在某种特定情况下产生的应激反应,往往才能体现出该人的真实性格特征,而这类隐性的人格特征在现有的互联网模式下是很难获得的,因为现有互联网模式仅是一个信息交换系统,而非一个生命体验系统,因此现有的用户画像方式无法真正获得用户内在的生命状态的画像。
专利文献CN116127204A记载了一种多视角用户画像方法、多视角用户画像系统、设备和介质。该方法包括对用户的原始数据集进行数据清洗,并进行向量化处理,构建用户图结构数据,得到降维后的用户社交向量,根据用户活跃度信息和用户自适应性参数,利用用户类别分类网络对用户聚合特征进行多层级分类处理,生成用户画像信息。该方法仍然基于用户已产生的原始数据进行清洗加工分析,由于数据量有限,产生的用户画像也不够精确。
专利文献CN112231556A记载了一种基于对话场景的用户画像方法、装置、设备及介质,该方法涉及数字医疗技术领域,包括获取目标对话数据;根据所述目标对话数据,获取历史对话数据;对所述目标对话数据、所述历史对话数据进行预处理,得到待理解对话数据;对所述待理解对话数据进行特征提取,得到目标意图特征、目标实体特征、目标标签属性特征;根据所述目标意图特征、所述目标实体特征、所述目标标签属性特征进行用户画像,得到目标用户画像特征。从而基于上下文依赖丰富了特征,解决了无特征或只有少量人工特征的情况,得到了丰富的用户画像。该方法采用用户已产生历史对话数据,建立一套评分系统,按轮次衰减法进行评分筛选用户特征。该方式的缺点在于,作为基础的上下文对话往往分散零碎,且有很多语义不明确的情形,据此提取的各项特征会与实际产生较大偏差,生成的用户画像也不够精确。
发明内容
本发明的目的是提供一种基于大语言模型的用户画像方法、装置、计算机设备及计算机可读存储介质,用以解决现有用户画像技术因无法真正获得用户内在生命状态画像而导致生成的用户画像不够精确的问题。
为了实现上述目的,本发明采用以下技术方案:
第一方面,提供了一种基于大语言模型的用户画像方法,包括:
获取基于人格理论建立的多个用户画像分类集,其中,所述用户画像分类集包含有M个人物类型模板,所述人物类型模板包含有N个人格特征标签,M和N分别表示正整数;
针对在所述多个用户画像分类集中的各个用户画像分类集,先采用半人工模拟自然对话的方式,通过人工调试获得专用的语料生成提示词模版库,然后根据对应的人物类型模板,在所述语料生成提示词模版库中采用相应的提示词模版,生成对应的话术语料库,其中,所述话术语料库包含有多个话术语料以及与所述多个话术语料一一对应的多个语料标注信息,所述语料标注信息包含有话术意图和用户人格特征类型,所述提示词模版用于向大语言模型提供与当前对话文本语义相关的用户人格特征标签的可选列表;
根据所述各个用户画像分类集的话术语料库,利用大语言模型建立以获取用户画像特征为目的的多轮对话语料库,并得到能够体现思维链推理能力的数据标注集,其中,所述数据标注集由标签对的序列构成,所述标签对是指具有关联性的话题标签与人格特征标签;
利用所述数据标注集和基于Transformer架构的语言生成模型,基于用户画像分类集,训练多个Transformer架构的任务型垂直领域对话模型,并针对各个所述任务型垂直领域对话模型,通过对应模型训练,在每次用户进入对应领域话题时,由对应模型输出在最小轮次对话成本的对话策略,以便作为对应的最优对话策略,其中,所述任务型垂直领域对话模型的每轮对话均有一个属于对应的用户画像分类领域的话题Ti,以便对抽取出来的用户特征CTi进行标注,所述任务型垂直领域对话模型是通过标注和训练优质的领域话术语料,达到优化对话成本和提高用户画像完成度的目的;
使用基于所述多轮对话语料库进行大语言模型训练得到的对话机器人,按照所述最优对话策略使用自然语言与目标用户进行对话交流,并由预训练的对话模型基于当前对话状态自动调整对话策略,获取用户应答内容,然后进行语义分析,提取在所述用户应答内容中的关键词,再然后与各个所述人物类型模板进行语义相似度计算的对比匹配,最后选取具有最大相似度的人物类型模板作为匹配结果,建立用户人格特征标签集,以便完成对所述目标用户的用户画像。
基于上述发明内容,提供了一种能够在互联网或元宇宙等场景下以自然语言方式与用户交流互动并完成用户画像的新方案,即是先预先建立一套覆盖面广的人格模板数据库,利用大语言模型训练对话机器人,建立对话机器人的最优对话策略,通过对话机器人在元宇宙、互联网及智能交互设备等多种场景下与用户进行自然语言交流,在多轮对话中进行语义分析,获得关键词与人格模版匹配,从而获得用户精准画像,能够同时挖掘用户显性特征和隐性特征,具有更高的准确性,是一种主动式、动态的用户画像方式,极大提高用户画像的精准度和即时性,便于实际应用和推广。
在一个可能的设计中,所述多个用户画像分类集包含有基于身体特征信息、家庭信息、职业信息、健康信息、教育信息、知识偏好信息、运动偏好信息、音乐偏好信息、休闲偏好信息、娱乐偏好信息、饮食偏好信息、出行偏好信息、消费偏好信息、旅游偏好信息和/或游戏偏好信息进行用户画像分类所得的多个人物类型模板集合;
和/或,所述多个用户画像分类集包含有若干对用户画像分类父集与用户画像分类子集,进而形成有基于决策树的用户画像分类结构,以建立多项人格特征之间的关联关系,其中,每个用户画像分类父集包含有至少一个用户画像分类子集。
在一个可能的设计中,根据所述各个用户画像分类集的话术语料库,利用大语言模型建立以获取用户画像特征为目的的多轮对话语料库,并得到能够体现思维链推理能力的数据标注集,包括:
根据所述各个用户画像分类集的对话语料库,由人工撰写专用提示词模版,形成模板对话策略,并将专用提示词模版输入大语言模型进行多轮多次对话模拟,生成模板会话数据,其中,所述多轮多次对话模拟是根据提示词模版扩展对话内容,提出相关性问题和/或转移话题,使对话继续下去,以便生成更多问题及对话数据;
采用人工方式对所述模板会话数据进行清洗和修正,建立起以获取用户画像特征为目的的多轮对话语料库,并得到能够体现思维链推理能力的数据标注集,其中,所述数据标注集由标签对的序列构成,所述标签对是指具有关联性的话题标签与人格特征标签。
在一个可能的设计中,在所述多轮多次对话模拟中按照如下步骤S311~S314来生成对话:
S311.通过随机生成的多样化对话参数来填充提示词模版,并将填充后的提示词模版导入大语言模型,以获得对话相关用户人格特征标签集CS={C1,C2,...,Ck},然后执行步骤S312,其中,所述多样化对话参数包含有场景设定、角色设定、情绪设定和/或话题设定,k表示对话相关用户特征总数,Ck表示第k个对话相关用户人格特征标签;
S312.判断k是否等于0,若是,则执行步骤S314,否则先执行步骤S313,再执行步骤S314;
S313.按照如下步骤S3131~S3132遍历在所述对话相关用户人格特征标签集CS中的各个对话相关用户人格特征标签:
S3131.针对在所述对话相关用户人格特征标签集CS中的第j个对话相关用户人格特征标签Cj,基于预先人工编写的提示词模版框架及指令,根据对应的人格特征标签自动匹配生成完整的提示词模版,然后基于该提示词模版获得对应的特征值Vj,再然后执行步骤S3132,其中,j表示小于等于k的正整数;
S3132.基于预先人工编写的蕴含提示词模版框架及指令,根据所述第j个对话相关用户人格特征标签Cj自动匹配生成蕴含提示词模版,并将该蕴含提示词模版导入所述大语言模型中,获得所述特征值Vj与Vnew的如下蕴含关系:若Vnew蕴含Vj,则返回执行步骤S3131;若Vj蕴含Vnew,则用Vnew更新Vj, 并更新对话生成策略;若Vj与Vnew冲突,则调用冲突消解策略,其中,Vnew是从新的对话句子中获得的特征值;
S314.调用对话生成策略,填充用于生成新一轮对话的对话生成模版,并调用大语言模型模拟不同角色进行相互对话问答,以在每轮对话中得到用户回答,再然后返回执行步骤S311。
在一个可能的设计中,所述对话成本基于大语言模型调用次数和会话消耗量来计算得到,其中,所述会话消耗量是指每次大语言模型调用时输入和输出的文本总长度;
和/或,所述用户画像完成度按照如下公式计算得到:
式中,i表示正整数,表示在用户特征集合C中的第i个用户特征/>的人工预设特征权重,/>表示所述第i个用户特征/>的特征获取置信度,/>表示在/>时刻所述第i个用户特征/>槽位上的且通过文本嵌入模型获得的对话匹配文本向量,/>表示在所述第i个用户特征/>的语料库中的特征文本,/>表示计算向量之间距离的函数,/>表示所述第i个用户特征/>的人格模板相似系数,当/>时,抽取所述第i个用户特征/>作为所述用户特征CTi。
在一个可能的设计中,在获取所述目标用户的某个人格特征标签后,所述方法还包括:
根据多个人格特征标签之间的关联关系,确定是否存在与所述某个人格特征标签具有关联关系的另一个人格特征标签,其中,所述关联关系预先利用开源数据集的线性回归用户画像预测算法建立得到;
若存在,则将所述另一个人格特征标签标注给所述目标用户。
在一个可能的设计中,在通过某轮对话得到所述目标用户的至少一个新人格特征标签后,所述方法还包括:
判断在所述目标用户当前的人格特征标签集合中是否存在与任一新人格特征标签冲突的某个已有人格特征标签,其中,所述任一新人格特征标签属于所述至少一个新人格特征标签;
若存在,则对所述任一新人格特征标签和所述某个已有人格特征标签进行个人特征冲突消解处理,使所述人格特征标签集合包含有所述任一新人格特征标签或所述某个已有人格特征标签,其中,所述个人特征冲突消解处理具体包括:
获取用户与对话机器人的历史对话序列,其中,/>表示当前对话次数,/>表示小于/>的正整数,/>表示在第/>次对话中的用户发言,/>表示在所述第/>次对话中的对话机器人发言,/>表示语言模型经过分类特征抽取在所述历史对话序列/>的对话窗口/>内获取的用户特征描述、相关类型/>和文本向量/>,所述对话窗口/>是指当前语言模型可以处理的对话轮次;
若相关类型与某个已获取用户画像因分类不一致发生冲突,则扫描已有特征描述序列/>,抽取与相关类型/>相关的特征描述序列/>,并由文本嵌入模型获取对应的文本向量集合/>,以及还通过改写的否定描述,生成/>的反向文本向量集合/>,其中,所述相关是指人格特征描述上的语义相关,所述文本嵌入模型用于输入文本且输出该文本的高维向量;
遍历在与/>中的所有文本向量对:/>与/>,分别计算文本向量/>的语义相似距离和/>,其中,/>表示计算向量之间距离的函数,并有,/>表示空文本;
判断如下条件公式是否成立:
式中,表示为所述第/>次对话预设的时效因子且为纯小数;
若是,则判定相关类型推翻由/>确定的已有特征分类,并更新用户画像,反之则保持用户画像结果不变。
第二方面,提供了一种基于大语言模型的用户画像装置,包括有依次通信连接的分类集获取模块、语料库编辑模块、大语言模型应用模块、对话策略优化模块和对话语义分析模块;
所述分类集获取模块,用于获取基于人格理论建立的多个用户画像分类集,其中,所述用户画像分类集包含有M个人物类型模板,所述人物类型模板包含有N个人格特征标签,M和N分别表示正整数;
所述语料库编辑模块,用于针对在所述多个用户画像分类集中的各个用户画像分类集,先采用半人工模拟自然对话的方式,通过人工调试获得专用的语料生成提示词模版库,然后根据对应的人物类型模板,在所述语料生成提示词模版库中采用相应的提示词模版,生成对应的话术语料库,其中,所述话术语料库包含有多个话术语料以及与所述多个话术语料一一对应的多个语料标注信息,所述语料标注信息包含有话术意图和用户人格特征类型,所述提示词模版用于向大语言模型提供与当前对话文本语义相关的用户人格特征标签的可选列表;
所述大语言模型应用模块,用于根据所述各个用户画像分类集的话术语料库,利用大语言模型建立以获取用户画像特征为目的的多轮对话语料库,并得到能够体现思维链推理能力的数据标注集,其中,所述数据标注集由标签对的序列构成,所述标签对是指具有关联性的话题标签与人格特征标签;
所述对话策略优化模块,用于利用所述数据标注集和基于Transformer架构的语言生成模型,基于用户画像分类集,训练多个Transformer架构的任务型垂直领域对话模型,并针对各个所述任务型垂直领域对话模型,通过对应模型训练,在每次用户进入对应领域话题时,由对应模型输出在最小轮次对话成本的对话策略,以便作为对应的最优对话策略,其中,所述任务型垂直领域对话模型的每轮对话均有一个属于对应的用户画像分类领域的话题Ti,以便对抽取出来的用户特征CTi进行标注,所述任务型垂直领域对话模型是通过标注和训练优质的领域话术语料,达到优化对话成本和提高用户画像完成度的目的;
所述对话语义分析模块,用于使用基于所述多轮对话语料库进行大语言模型训练得到的对话机器人,按照所述最优对话策略使用自然语言与目标用户进行对话交流,并由预训练的对话模型基于当前对话状态自动调整对话策略,获取用户应答内容,然后进行语义分析,提取在所述用户应答内容中的关键词,再然后与各个所述人物类型模板进行语义相似度计算的对比匹配,最后选取具有最大相似度的人物类型模板作为匹配结果,建立用户人格特征标签集,以便完成对所述目标用户的用户画像。
第三方面,本发明提供了一种计算机设备,包括有依次通信连接的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面或第一方面中任意可能设计所述的用户画像方法。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面或第一方面中任意可能设计所述的用户画像方法。
上述方案的有益效果:
(1)本发明创造性提供了一种能够在互联网或元宇宙等场景下以自然语言方式与用户交流互动并完成用户画像的新方案,即是先预先建立一套覆盖面广的人格模板数据库,利用大语言模型训练对话机器人,建立对话机器人的最优对话策略,通过对话机器人在元宇宙、互联网及智能交互设备等多种场景下与用户进行自然语言交流,在多轮对话中进行语义分析,获得关键词与人格模版匹配,从而获得用户精准画像,能够同时挖掘用户显性特征和隐性特征,具有更高的准确性,是一种主动式、动态的用户画像方式,极大提高用户画像的精准度和即时性,便于实际应用和推广;
(2)由于是基于大语言模型训练对话机器人,建立最优对话策略,通过对话机器人与用户的日常交流方式,由对话机器人在会话聊天中向用户主动提问各类兴趣偏好,轻松、自然、贴切,毫无违和感,不但很容易地获取用户日常工作生活偏好,还能够通过更深层次的话题交流,引导用户陈述内心世界中的观点、倾向、偏好等等,从而建立更全面、更生动、更人格化的用户画像。基于本方法建立的用户特征冲突消解规则,可以随着时间变化,在后续对话中自动更新用户画像;
(3)这种以人格特征描述用户画像的方式与现有的以标签描述用户画像方式相比,更加全面、具体,颗粒度更细,因而用户画像的精度更高;本方法采用以人物类型为主的人格化用户画像方式,而不是传统的以标签为主的用户画像方式,将用户作为一个整体进行人格画像,避免了标签式用户画像法的碎片化、静态、抽象等明显缺点,人物形象更加饱满、生动、具体,也更符合虚拟世界中的社交需要;本方法通过树状逐级递进方法,在多个人格特征之间建立了关联性,可以从一个特征可以推导出其他特征,为预测扩展模型提供了依据;
(4)本方法是为满足用户画像需求,模拟对话交流过程,因而撰写编辑的语料素材有很强的针对性和连贯性,能把话题内容控制在有效合理的范围内,避免低质量语料的侵入,也节省了人工清洗数据的时间和成本。
(5)现有用户画像方式为收集已有资料(包括对话数据)+问卷答题+测试,尚无以人机对话方式进行用户画像的方法。本方法的核心即通过大语言模型训练“有对话能力”的对话机器人,使对话机器人能够以自然语言方式与用户进行对话交流,经过大模型训练,对话机器人在无人操控的情况下,拥有强大对话能力。在大模型训练中获得的对话数据经过人工清洗,获得高质量的小模型训练语料,生成有思维链推理能力的数据标注集;
(6)可采取最少的对话轮数获得特定的人格特征标注数据。大语言模型的训练内容较为宽泛,目的是防止跑题和纠正偏题;小模型专门用于用户画像,有更强的针对性,就某项主题递进展开,更加明确具体又不生硬,避免话题泛化,不着边际,建立最优对话策略,提高画像效率;
(7)本方法将用户画像融入对话机器人中,由对话机器人与用户在自然状态下聊天对话,通过广泛的预设话题和自动产生的扩展话题,多方位、多维度提取用户人格特征,进行用户画像;
(8)可在产生某一个特征后,自动扩展出多个关联标注,这些关联标注构成下一轮会话的主题,得到进一步的明确,实现立体化、多维度的用户画像;
(9)现有常规的用户画像方法由于使用已有信息数据进行画像,是静态的、被动的数据,用户如果不提供或不表达,就不能获取新数据,因此不存在用户特征冲突情况。而在本方法中,由于是从用户对话中提取动态信息数据,因此容易发生前后不一致的情况,或随时间推移,用户境况发生变化,人格特征发生显著变化。这一功能在现实中非常有用,改变了现有用户画像方法难以动态更新、与实际情况偏差较大的状态;
(10)常规用户画像方法是给用户贴标签,由于标签数量有限,很难得到用户完整的画像构建,因而这样的用户画像仅能满足某种特定的用途需求,例如广告投放、电商推送、信息推送等等。而在许多互联网平台上,特别是元宇宙场景中,对用户画像的要求很高,需要获得更多的社交数据、情感数据以及其他偏好数据等,从而建立该用户在虚拟世界中的人格画像,平台系统才能据此精准推送各种虚拟道具、社交关系、特定事件、特定地图,以及各种内容服务等等。因此,本方法在特征标签基础上,增加了人格模版,每个人格模版都是一个标签集,能够全方位、多维度刻画用户人格特征,这一方法在元宇宙场景中有很高的实用价值,使用户在虚拟世界中建立人格画像成为可能;
(11)由于是以提取用户的人格特征为主,是一种主动式的、动态的、实时的用户画像方法,可以随时感知用户状态变化,并通过长期持续的自然对话交流,获得常规方法不易获得的用户隐性人格特征和偏好。在对话机器人与用户的自然聊天中,用户不经意中流露出的各种信息,更能够真切、精确的反映该用户的个性特征、兴趣偏好以及观点倾向,这些生活细节中的偏好无法通过答题方式获得,而在对话机器人与用户的自然聊天中,可以轻易获得,完全消除了用户的抵触排斥心理,这在元宇宙、互联网、广告、媒体、电商等实际应用中有极大的价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于大语言模型的用户画像方法的流程示意图。
图2为本申请实施例提供的基于大语言模型的用户画像装置的结构示意图。
图3为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。
应当理解,尽管本文可能使用术语第一和第二等等来描述各种对象,但是这些对象不应当受到这些术语的限制。这些术语仅用于区分一个对象和另一个对象。例如可以将第一对象称作第二对象,并且类似地可以将第二对象称作第一对象,同时不脱离本发明的示例实施例的范围。
应当理解,对于本文中可能出现的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A、单独存在B或者同时存在A和B等三种情况;又例如,A、B和/或C,可以表示存在A、B和C中的任意一种或他们的任意组合;另外,对于本文中可能出现的字符“/”,一般表示前后关联对象是一种“或”关系。
实施例
如图1所示,本实施例第一方面提供的且基于大语言模型的用户画像方法,可以但不限于由具有一定计算资源的计算机设备执行,例如由平台服务器等电子设备执行。如图1所示,所述用户画像方法,可以但不限于包括有如下步骤S1~S5。
S1.获取基于人格理论建立的多个用户画像分类集,其中,所述用户画像分类集包含有M个人物类型模板,所述人物类型模板包含有N个人格特征标签,M和N分别表示正整数。
在所述步骤S1中,所述人格理论(Personality Theories)是指一种探讨人格的结构、形成、发展和动力性的理论,具体包括:(1)人格由哪些部分构成,如何构成;(2)影响人格形成和发展的因素,以及在这些因素影响下所经过的阶段;(3)人的行为动力是什么,哪些因素起主导作用等,因此可以基于现代人格理论常规建立得到所述多个用户画像分类集。具体的,所述多个用户画像分类集包含但不限于有基于身体特征信息、家庭信息、职业信息、健康信息、教育信息、知识偏好信息、运动偏好信息、音乐偏好信息、休闲偏好信息、娱乐偏好信息、饮食偏好信息、出行偏好信息、消费偏好信息、旅游偏好信息和/或游戏偏好信息等进行用户画像分类所得的多个人物类型模板集合。同时所述多个用户画像分类集包含有若干对用户画像分类父集与用户画像分类子集,进而形成有基于决策树的用户画像分类结构,其中,每个用户画像分类父集包含有至少一个用户画像分类子集;即每个分类集下又分为若干子集,每个子集又分为若干孙集,可继续延伸下去,构成一个基于决策树的用户分类结构,对用户信息进行深度挖掘。例如,用户喜欢读书→喜欢读古典文学→喜欢读古典言情小说→喜欢古典名著红楼梦→喜欢林黛玉。所述多个用户画像分类集可包括有数万个人物类型模板,每个人物类型模板有多个人格特征标签,每个人格特征标签分为0~10个级别,级别数值越高,人格特征越明显,经与人格模板相似系数相乘,可以不断迭代提高模板相关的用户人格特征的置信度/>:/>。
S2.针对在所述多个用户画像分类集中的各个用户画像分类集,先采用半人工模拟自然对话的方式,通过人工调试获得专用的语料生成提示词模版库,然后根据对应的人物类型模板,在所述语料生成提示词模版库中采用相应的提示词模版,生成对应的话术语料库,其中,所述话术语料库包含有多个话术语料以及与所述多个话术语料一一对应的多个语料标注信息,所述语料标注信息包含有话术意图和用户人格特征类型,所述提示词模版用于向大语言模型提供与当前对话文本语义相关的用户人格特征标签的可选列表。
在所述步骤S2中,所述语料生成提示词模版库会包含有多个用于语料生成的多个提示词模版,例如可以但不限于有家庭信息提示词模版、运动偏好提示词模版和/或历史偏好提示词模版等等。详细的,一个提示词模版可示例如下:
“任务类型描述: 你是一个自然语言分析的超级专家, 擅长从用户对话中抽取用户画像特征;
用户已知信息:(根据用户对话历史)我们已经获取用户具有的人格特征:
性别:女; 年龄:20-25; .... 文学偏好:喜爱红楼梦;林黛玉人物模板:喜爱;
当前话题内容:
NPC(即Non-Player Character的缩写,是游戏中一种角色类型,意思是非玩家角色,指的是游戏中不受真人玩家操纵的游戏角色)对话文本:最近你都在听什么歌啊?
用户对话文本:86版红楼梦里的葬花吟真好听。
请完成下面的任务:根据和用户对话文本列出用户已知信息中和用户对话文本语义相关的所有人格特征;
要求Json(即Java Script Object Notation的缩写形式, JS 对象简谱, 是一种轻量级的数据交换格式)输出格式:{特征标签1,...,特征标签32};
输出:{文学偏好;音乐偏好;情绪偏好;娱乐偏好;影视偏好;林黛玉人物模板}。”
上述的“所有人格特征”即为所述用户人格特征标签。同时由于输出信息中包含有“林黛玉人物模板”,因此可以很容易地根据所述各个用户画像分类集的人物类型模板,在所述语料生成提示词模版库中采用相应的提示词模版。
在所述步骤S2中,所述半人工模拟自然对话的方式为现有常规方式。所述话术语料库的具体生成过程同样是如下常规方式:先采用半人工方式,撰写提示词,然后由大语言模型生成话术语料,最后通过人工方式予以校正。所述话术语料是采用半人工方式并借助大语言模型生成的,用于作为后续步骤中垂直领域对话模型的训练语料;而所述话术意图以及所述用户人格特征类型也用于作为训练语料的一部分,以便助于提高垂直领域对话模型的推理能力。
S3.根据所述各个用户画像分类集的话术语料库,利用大语言模型建立以获取用户画像特征为目的的多轮对话语料库,并得到能够体现思维链推理能力的数据标注集,其中,所述数据标注集由标签对的序列构成,所述标签对是指具有关联性的话题标签与人格特征标签。
在所述步骤S3中,所述大语言模型(Large Language Model,LLM)是指使用大量文本数据训练的并可生成自然语言文本或理解语言文本的含义的深度学习模型,已常用于处理多种自然语言任务,如文本分类、问答和对话等,是通向人工智能的一条重要途径。具体的,根据所述各个用户画像分类集的话术语料库,利用大语言模型建立以获取用户画像特征为目的的多轮对话语料库,并得到能够体现思维链推理能力的数据标注集,包括但不限于有如下步骤S31~S32。
S31.根据所述各个用户画像分类集的对话语料库,由人工撰写专用提示词模版,形成模板对话策略,并将专用提示词模版输入大语言模型进行多轮多次对话模拟,生成模板会话数据,其中,所述多轮多次对话模拟是根据提示词模版扩展对话内容,提出相关性问题和/或转移话题,使对话继续下去,以便生成更多问题及对话数据。
在所述步骤S31中,详细的,在所述多轮多次对话模拟中按照如下步骤S311~S314来生成对话。
S311.通过随机生成的多样化对话参数来填充提示词模版,并将填充后的提示词模版导入大语言模型,以获得对话相关用户人格特征标签集CS={C1,C2,...,Ck},然后执行步骤S312,其中,所述多样化对话参数包含但不限于有场景设定、角色设定、情绪设定和/或话题设定等,k表示对话相关用户特征总数,Ck表示第k个对话相关用户人格特征标签。
在所述步骤S311中,所述场景设定、所述角色设定、所述情绪设定和/或所述话题设定等均预先由人工编写得到,然后在需要生成所述多样化对话参数时,可基于现有随机算法来常规选择得到。另外,所述对话相关用户人格特征标签集CS可举例为{文学偏好;音乐偏好;情绪偏好;娱乐偏好;影视偏好}。
S312.判断k是否等于0,若是,则执行步骤S314,否则先执行步骤S313,再执行步骤S314。
S313.按照如下步骤S3131~S3132遍历在所述对话相关用户人格特征标签集CS中的各个对话相关用户人格特征标签。
S3131.针对在所述对话相关用户人格特征标签集CS中的第j个对话相关用户人格特征标签Cj,基于预先人工编写的提示词模版框架及指令,根据对应的人格特征标签自动匹配生成完整的提示词模版,然后基于该提示词模版获得对应的特征值Vj,再然后执行步骤S3132,其中,j表示小于等于k的正整数。
在所述步骤S3131中,基于提示词模版获取特征值的具体方式可采用现有数据特征提取手段实现。
S3132.基于预先人工编写的蕴含提示词模版框架及指令,根据所述第j个对话相关用户人格特征标签Cj自动匹配生成蕴含提示词模版,并将该蕴含提示词模版导入所述大语言模型中,获得所述特征值Vj与Vnew的如下蕴含关系:若Vnew蕴含Vj,则返回执行步骤S3131;若Vj蕴含Vnew,则用Vnew更新Vj, 并更新对话生成策略;若Vj与Vnew冲突,则调用冲突消解策略,其中,Vnew是从新的对话句子中获得的特征值。
在所述步骤S3132中,逻辑蕴含判断是NLP(Natural Language Processing,人工智能的自然语言处理)的标准任务之一,用于判断两个句子的语义相容性或逻辑蕴含关系,因此所述蕴含提示词模版可以用于判断所述第j个对话相关用户人格特征标签Cj是否有更细颗粒度的特征描述。详细的,所述蕴含提示词模版的具体形式可举例如下:
示例1:
系统: 这是一个判断文本语义一致还是矛盾关系的逻辑蕴含任务。
用户: 输入句子对:
前提: 张三前天说他最爱吃的水果是苹果。
假设: 张三刚刚告诉李四,苹果营养不如桔子。
判断: 矛盾关系(是/否): [请写出你的回答]
大语言模型:输出:是;
示例2:
系统: 这是一个判断文本语义一致还是矛盾关系的逻辑蕴含任务。
用户:输入句子对:
前提: 王女士每天都会喝下午茶,遛狗,有时候去逛商场。
假设: 王女士明天下午会安排一些休闲活动。
判断: 蕴含关系(是/否): [请写出你的回答]
大语言模型:输出:是。
在所述步骤S3132中,所述冲突消解策略的具体方式可见后续步骤S721~S722。
S314.调用对话生成策略,填充用于生成新一轮对话的对话生成模版,并调用大语言模型模拟不同角色进行相互对话问答,以在每轮对话中得到用户回答,再然后返回执行步骤S311。
S32.采用人工方式对所述模板会话数据进行清洗和修正,建立起以获取用户画像特征为目的的多轮对话语料库,并得到能够体现思维链推理能力的数据标注集,其中,所述数据标注集由标签对的序列构成,所述标签对是指具有关联性的话题标签与人格特征标签。
S4.利用所述数据标注集和基于Transformer架构的语言生成模型,基于用户画像分类集,训练多个Transformer架构的任务型垂直领域对话模型,并针对各个所述任务型垂直领域对话模型,通过对应模型训练,在每次用户进入对应领域话题时,由对应模型输出在最小轮次对话成本的对话策略,以便作为对应的最优对话策略,其中,所述任务型垂直领域对话模型的每轮对话均有一个属于对应的用户画像分类领域的话题Ti,以便对抽取出来的用户特征CTi进行标注,所述任务型垂直领域对话模型是通过标注和训练优质的领域话术语料,达到优化对话成本和提高用户画像完成度的目的。
在所述步骤S4中,针对每轮对话均有一个属于对应领域的话题Ti,以便对抽取出来的用户特征CTi进行标注,举例如下:判定用户有爱好运动的人格特征,再进行下一轮对话,例如询问用户是否喜欢足球,如果是,便展开足球主题,如果不是,便询问其他体育运动,如此循环下去,通过多轮对话,得到更多的人格特征标注数据。具体的,所述对话成本基于大语言模型调用次数和会话消耗量来计算得到,其中,所述会话消耗量是指每次大语言模型调用时输入和输出的文本总长度;以及所述用户画像完成度是本优化步骤的核心目标,可具体按照如下公式计算得到:
/>
式中,i表示正整数,表示在用户特征集合C中的第i个用户特征/>的人工预设特征权重,/>表示所述第i个用户特征/>的特征获取置信度,/>表示在/>时刻所述第i个用户特征/>槽位上的且通过文本嵌入模型获得的对话匹配文本向量,/>表示在所述第i个用户特征/>的语料库中的特征文本,/>表示计算向量之间距离的函数,/>表示所述第i个用户特征/>的人格模板相似系数,当/>时,抽取所述第i个用户特征/>作为所述用户特征CTi。前述的文本嵌入是自然语言处理领域中最重要的技术之一,它将文本数据映射到一个固定长度的向量空间中,并且保留了原始文本中的某些语义信息,因此可以预先常规训练得到所述文本嵌入模型。前述的特征文本具体可通过特征抽取提示词并调用语言模型推理的方式常规获得。所述人格模板相似系数具体可通过计算特征文本向量与人格模板文本向量的语义距离来常规获得。
S5.使用基于所述多轮对话语料库进行大语言模型训练得到的对话机器人,按照所述最优对话策略使用自然语言与目标用户进行对话交流,并由预训练的对话模型基于当前对话状态自动调整对话策略,获取用户应答内容,然后进行语义分析,提取在所述用户应答内容中的关键词,再然后与各个所述人物类型模板进行语义相似度计算的对比匹配,最后选取具有最大相似度的人物类型模板作为匹配结果,建立用户人格特征标签集,以便完成对所述目标用户的用户画像。
在所述步骤S5中,具体可以但不限于在元宇宙、互联网或智能交互设备中使用所述对话机器人。前述的语义相似度计算的具体过程包括但不限于有如下:针对各个所述人物类型模板,从对应的人格特征标签中获取特征关键词,然后按照如下公式计算得到对应的且与所述关键词的语义相似度:
式中,表示从人格特征标签中获取的特征关键词的总数,/>表示从用户应答内容中提取的关键词的总数,/>表示小于等于/>的正整数,/>表示小于等于/>的正整数,表示从人格特征标签中获取的第/>个特征关键词,/>表示从用户应答内容中提取的第/>个关键词,/>表示词语相似度计算函数(其为现有函数,利于编辑距离计算得到)。
前述步骤S5的具体过程,可举例如下:
(A)对话机器人询问用户今天心情好不好?用户回答心情不好;对话机器人接着询问要不要看电影?用户回答可以;对话机器人接着询问要看什么电影,要看动作片吗?用户回答看爱情片;对话机器人接着询问国产片还是外国片?用户回答外国片;对话机器人接着询问看哪个演员的电影?用户回答看苏**索主演的影片吧。在这个会话过程中,对话机器人按照训练好的对话策略,可以获得如下人格特征标签:心情状态不好、电影、爱情片、外国片和/或苏**索等。
(B)对话机器人询问用户喜欢看书吗?用户回答喜欢;对话机器人接着询问喜欢看历史书吗?用户回答喜欢看三国演义;对话机器人接着询问喜欢三国演义的哪个人物?用户回答喜欢诸葛亮;对话机器人接着询问喜欢诸葛亮的哪段情节?用户喜欢诸葛亮的出师表;对话机器人接着询问去过成都武侯祠吗?用户回答没有,但很想去。在这段对话中,可以获得如下人格标签:喜欢历史、三国、诸葛亮和/或武侯祠等。
(C)用户询问对话机器人4岁儿童适合看什么书?对话机器人回答是男孩还是女孩?用户说是男孩;对话机器人接着说,那我建议可以看看漫画书,比如奥特曼、变形金刚。用户询问想让孩子看看知识类方面的图书,有哪些推荐;对话机器人回答你的孩子喜欢哪一类的知识,是人文知识,还是自然知识,还是生活类知识?用户说人文知识吧,对话机器人回答,那我推荐XXXX。在这段对话中,可获得如下人格特征:有个4岁男孩、重视教育、重视人文知识培养和/或需要购买图书等。
可见,随着对话轮数越来越多,用户回答的内容也越来越多,用户展现的人格特征维度也越来越多,传递的信息量越来越大,用户画像的颗粒度也越来越精细。因此,这种主动式的用户画像方式,相较于常规的数据分析、填写问卷、答题测试等被动的画像方式,更加自然、全面、具体,并且不会引起用户的反感和排斥,因而更加有效和精确,实时性更强。通过这种自然会话式的用户画像方法,在元宇宙或互联网中,系统可以根据该用户的画像,自动匹配或推荐有相同兴趣爱好的网友、组群或商业广告,增强用户对平台的粘性,产生更多更好的商业价值。
在所述步骤S5之后,为了能够从某项人格特征自动预测、扩展至其他人格特征,优选的,在获取所述目标用户的某个人格特征标签后,所述方法还包括但不限于有如下步骤S711~S712。
S711.根据多个人格特征标签之间的关联关系,确定是否存在与所述某个人格特征标签具有关联关系的另一个人格特征标签,其中,所述关联关系预先利用开源数据集的线性回归用户画像预测算法建立得到。
在所述步骤S711中,所述开源数据集是已有的角色数据库,可利用线性回归算法计算出角色性格标签之间的关联度,例如,某人的标签是情商高,则关联度较高的其他标签会包括幽默、开朗、外向、关心、体贴和善于化解矛盾等等;反之,若某人拥有幽默、开朗、外向、关心和体贴等特征标签,则与情商高,有较高的关联度。所述线性回归用户画像预测算法可采用现有通用的预测算法实现,例如采用与天气预报使用的算法原理相同的现有预测算法来基于呈决策树的用户画像分类结构,建立所述多个人格特征标签之间的关联关系,以便降低获取特征的成本。
S712.若存在,则将所述另一个人格特征标签标注给所述目标用户。
在所述步骤S712中,举例的,例如获得用户经常打高尔夫球的人格特征标注数据,可通过用户特征预测扩展模型推测该用户的关联标注为:属高收入人群,拥有高档住房车辆,在单位中担任较高职务,具有较高消费能力,从而在无需更多对话轮次的情况下,获得更多的用户人格特征标注数据。另外,针对前述举例(A),还可预测扩展获得该用户可能的标签:浪漫题材影视文艺作品、法国旅游地、苏**索代表的人物类型和/或苏**索代言的消费品牌等等;针对前述举例(B),还可以预测扩展的可能标签:诸葛亮代表的人物类型、稳重、偏智慧型、知识型和/或旅游等;针对前述举例(C),还可以预测扩展的可能标签:亲子关系好、陪伴孩子时间较多和/或喜欢小孩等。
在所述步骤S5之后,还考虑在多轮对话过程中,每轮对话可能得到一个或多个新的人格特征数据,数据库就会增加新的事实。同时,在对话系统还会预设问题向用户询问有关的信息,也会使数据库的事实内容发生变化。若一轮对话生成了新的用户特征数据,与数据库中的历史人格特征数据不一致,则即可认为人格特征数据有较大的新鲜度,系统按已知事实的新鲜性排序,自动修正已生成的人格特征标注数据并更新关联标注数据。例如由于用户自我表达不清,出现人格特征前后矛盾的情况,以最新产生的语义判断数值为准;再如用户由于工作变动或突发事件等等,导致性情、经济状况、家庭状况等等发生相应变动,使得后续对话中获得的人格特征与前述情况不一致,则需要自动更新人格特征标注数据以及关联标注数据,即优选的,在通过某轮对话得到所述目标用户的至少一个新人格特征标签后,所述方法还包括但不限于有如下步骤S721~S722。
S721.判断在所述目标用户当前的人格特征标签集合中是否存在与任一新人格特征标签冲突的某个已有人格特征标签,其中,所述任一新人格特征标签属于所述至少一个新人格特征标签。
S722. 若存在,则对所述任一新人格特征标签和所述某个已有人格特征标签进行个人特征冲突消解处理,使所述人格特征标签集合包含有所述任一新人格特征标签或所述某个已有人格特征标签。
在所述步骤S722中,具体的冲突消解规则是基于语言模型的决策树分类系统,叶节点表示用户特征分类,非叶节点是对话文本描述语义扩充的用户人格特征分类规则,规则语义由一个相关文本向量集合。分类节点是对话文本中抽取的代表用户人格特征的文本描述标签。基于文本向量化,而且综合了语言模型对对话文本解析获取的场景、时效、主题、情感等权重变量,通过对对话文本向量进行相似度,相关性,蕴含性的计算,动态修正特征选择的信息增益,计算出的分类阈值。详细的,所述个人特征冲突消解处理具体包括但不限于有如下步骤S7221~S7225。
S7221.获取用户与对话机器人的历史对话序列,其中,/>表示当前对话次数,/>表示小于/>的正整数,/>表示在第/>次对话中的用户发言,/>表示在所述第/>次对话中的对话机器人发言,/>表示语言模型经过分类特征抽取在所述历史对话序列/>的对话窗口/>内获取的用户特征描述、相关类型/>和文本向量/>,所述对话窗口/>是指当前语言模型可以处理的对话轮次。
在所述步骤S7221中,所述对话窗口的大小是由大语言模型确定的处理能力确定的。此外,前述的信息/>是已经存在数据库里的,可通过常规抽取方式获得。
S7222.若相关类型与某个已获取用户画像因分类不一致发生冲突,则扫描已有特征描述序列/>,抽取与相关类型/>相关的特征描述序列/>,并由文本嵌入模型获取对应的文本向量集合/>,以及还通过改写的否定描述,生成/>的反向文本向量集合/>,其中,所述相关是指人格特征描述上的语义相关,所述文本嵌入模型用于输入文本且输出该文本的高维向量。/>
S7223.遍历在与/>中的所有文本向量对:/>与/>,分别计算文本向量/>的语义相似距离/>和/>,其中,/>表示计算向量之间距离的函数,并有/>,/>表示空文本;
S7224.判断如下条件公式是否成立:
式中,表示为所述第/>次对话预设的时效因子且为纯小数。
在所述步骤S7224中,前述的条件公式的理论基础是:基于机器学习中的文本二分类算法,通过对两组文本向量集合分别加权求和,比较均值向量的语义距离,做文本语义的正负极限分类,因此可用于本实施例进行人格特征冲突消解。而若前述的条件公式不成立,则无需冲突消解,即不更新用户画像。
S7225.若是,则判定相关类型推翻由/>确定的已有特征分类,并更新用户画像,反之则保持用户画像结果不变。
此外,在所述步骤S7224之后,经过冲突消解获得的新的人格特征数据,与其他未发生冲突的人格特征数据一道,合成新的用户人格画像。
由此基于前述步骤S1~S5所描述的用户画像方法,提供了一种能够在互联网或元宇宙等场景下以自然语言方式与用户交流互动并完成用户画像的新方案,即是先预先建立一套覆盖面广的人格模板数据库,利用大语言模型训练对话机器人,建立对话机器人的最优对话策略,通过对话机器人在元宇宙、互联网及智能交互设备等多种场景下与用户进行自然语言交流,在多轮对话中进行语义分析,获得关键词与人格模版匹配,从而获得用户精准画像,能够同时挖掘用户显性特征和隐性特征,具有更高的准确性,是一种主动式、动态的用户画像方式,极大提高用户画像的精准度和即时性,便于实际应用和推广。
如图2所示,本实施例第二方面提供了一种实现第一方面所述的用户画像方法的虚拟装置,包括有依次通信连接的分类集获取模块、语料库编辑模块、大语言模型应用模块、对话策略优化模块和对话语义分析模块;
所述分类集获取模块,用于获取基于人格理论建立的多个用户画像分类集,其中,所述用户画像分类集包含有M个人物类型模板,所述人物类型模板包含有N个人格特征标签,M和N分别表示正整数;
所述语料库编辑模块,用于针对在所述多个用户画像分类集中的各个用户画像分类集,先采用半人工模拟自然对话的方式,通过人工调试获得专用的语料生成提示词模版库,然后根据对应的人物类型模板,在所述语料生成提示词模版库中采用相应的提示词模版,生成对应的话术语料库,其中,所述话术语料库包含有多个话术语料以及与所述多个话术语料一一对应的多个语料标注信息,所述语料标注信息包含有话术意图和用户人格特征类型,所述提示词模版用于向大语言模型提供与当前对话文本语义相关的用户人格特征标签的可选列表;
所述大语言模型应用模块,用于根据所述各个用户画像分类集的话术语料库,利用大语言模型建立以获取用户画像特征为目的的多轮对话语料库,并得到能够体现思维链推理能力的数据标注集,其中,所述数据标注集由标签对的序列构成,所述标签对是指具有关联性的话题标签与人格特征标签;
所述对话策略优化模块,用于利用所述数据标注集和基于Transformer架构的语言生成模型,基于用户画像分类集,训练多个Transformer架构的任务型垂直领域对话模型,并针对各个所述任务型垂直领域对话模型,通过对应模型训练,在每次用户进入对应领域话题时,由对应模型输出在最小轮次对话成本的对话策略,以便作为对应的最优对话策略,其中,所述任务型垂直领域对话模型的每轮对话均有一个属于对应的用户画像分类领域的话题Ti,以便对抽取出来的用户特征CTi进行标注,所述任务型垂直领域对话模型是通过标注和训练优质的领域话术语料,达到优化对话成本和提高用户画像完成度的目的;
所述对话语义分析模块,用于使用基于所述多轮对话语料库进行大语言模型训练得到的对话机器人,按照所述最优对话策略使用自然语言与目标用户进行对话交流,并由预训练的对话模型基于当前对话状态自动调整对话策略,获取用户应答内容,然后进行语义分析,提取在所述用户应答内容中的关键词,再然后与各个所述人物类型模板进行语义相似度计算的对比匹配,最后选取具有最大相似度的人物类型模板作为匹配结果,建立用户人格特征标签集,以便完成对所述目标用户的用户画像。
本实施例第二方面提供的前述装置的工作过程、工作细节和技术效果,可以参见第一方面所述的用户画像方法,于此不再赘述。
如图3所示,本实施例第三方面提供了一种执行如第一方面所述的用户画像方法的计算机设备,包括有依次通信连接的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面所述的用户画像方法。具体举例的,所述存储器可以但不限于包括随机存取存储器(Random-Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、闪存(FlashMemory)、先进先出存储器(First Input First Output,FIFO)和/或先进后出存储器(First Input Last Output,FILO)等等;所述处理器可以但不限于采用型号为STM32F105系列的微处理器。此外,所述计算机设备还可以但不限于包括有电源模块、显示屏和其它必要的部件。
本实施例第三方面提供的前述计算机设备的工作过程、工作细节和技术效果,可以参见第一方面所述的用户画像方法,于此不再赘述。
本实施例第四方面提供了一种存储包含如第一方面所述的用户画像方法的指令的计算机可读存储介质,即所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面所述的用户画像方法。其中,所述计算机可读存储介质是指存储数据的载体,可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等计算机可读存储介质,所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。
本实施例第四方面提供的前述计算机可读存储介质的工作过程、工作细节和技术效果,可以参见如第一方面所述的用户画像方法,于此不再赘述。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于大语言模型的用户画像方法,其特征在于,包括:
获取基于人格理论建立的多个用户画像分类集,其中,所述用户画像分类集包含有M个人物类型模板,所述人物类型模板包含有N个人格特征标签,M和N分别表示正整数;
针对在所述多个用户画像分类集中的各个用户画像分类集,先采用半人工模拟自然对话的方式,通过人工调试获得专用的语料生成提示词模版库,然后根据对应的人物类型模板,在所述语料生成提示词模版库中采用相应的提示词模版,生成对应的话术语料库,其中,所述话术语料库包含有多个话术语料以及与所述多个话术语料一一对应的多个语料标注信息,所述语料标注信息包含有话术意图和用户人格特征类型,所述提示词模版用于向大语言模型提供与当前对话文本语义相关的用户人格特征标签的可选列表;
根据所述各个用户画像分类集的话术语料库,利用大语言模型建立以获取用户画像特征为目的的多轮对话语料库,并得到能够体现思维链推理能力的数据标注集,其中,所述数据标注集由标签对的序列构成,所述标签对是指具有关联性的话题标签与人格特征标签;
根据所述各个用户画像分类集的话术语料库,利用大语言模型建立以获取用户画像特征为目的的多轮对话语料库,并得到能够体现思维链推理能力的数据标注集,具体包括:根据所述各个用户画像分类集的对话语料库,由人工撰写专用提示词模版,形成模板对话策略,并将专用提示词模版输入大语言模型进行多轮多次对话模拟,生成模板会话数据,其中,所述多轮多次对话模拟是根据提示词模版扩展对话内容,提出相关性问题和/或转移话题,使对话继续下去,以便生成更多问题及对话数据;采用人工方式对所述模板会话数据进行清洗和修正,建立起以获取用户画像特征为目的的多轮对话语料库,并得到能够体现思维链推理能力的数据标注集,其中,所述数据标注集由标签对的序列构成,所述标签对是指具有关联性的话题标签与人格特征标签;
在所述多轮多次对话模拟中按照如下步骤S311~S314来生成对话:S311.通过随机生成的多样化对话参数来填充提示词模版,并将填充后的提示词模版导入大语言模型,以获得对话相关用户人格特征标签集CS={C1,C2,...,Ck},然后执行步骤S312,其中,所述多样化对话参数包含有场景设定、角色设定、情绪设定和/或话题设定,k表示对话相关用户特征总数,Ck表示第k个对话相关用户人格特征标签;S312.判断k是否等于0,若是,则执行步骤S314,否则先执行步骤S313,再执行步骤S314;S313.按照如下步骤S3131~S3132遍历在所述对话相关用户人格特征标签集CS中的各个对话相关用户人格特征标签:S3131.针对在所述对话相关用户人格特征标签集CS中的第j个对话相关用户人格特征标签Cj,基于预先人工编写的提示词模版框架及指令,根据对应的人格特征标签自动匹配生成完整的提示词模版,然后基于该提示词模版获得对应的特征值Vj,再然后执行步骤S3132,其中,j表示小于等于k的正整数;S3132.基于预先人工编写的蕴含提示词模版框架及指令,根据所述第j个对话相关用户人格特征标签Cj自动匹配生成蕴含提示词模版,并将该蕴含提示词模版导入所述大语言模型中,获得所述特征值Vj与Vnew的如下蕴含关系:若Vnew蕴含Vj,则返回执行步骤S3131;若Vj蕴含Vnew,则用Vnew更新Vj, 并更新对话生成策略;若Vj与Vnew冲突,则调用冲突消解策略,其中,Vnew是从新的对话句子中获得的特征值;S314.调用对话生成策略,填充用于生成新一轮对话的对话生成模版,并调用大语言模型模拟不同角色进行相互对话问答,以在每轮对话中得到用户回答,再然后返回执行步骤S311;
利用所述数据标注集和基于Transformer架构的语言生成模型,基于用户画像分类集,训练多个Transformer架构的任务型垂直领域对话模型,并针对各个所述任务型垂直领域对话模型,通过对应模型训练,在每次用户进入对应领域话题时,由对应模型输出在最小轮次对话成本的对话策略,以便作为对应的最优对话策略,其中,所述任务型垂直领域对话模型的每轮对话均有一个属于对应的用户画像分类领域的话题Ti,以便对抽取出来的用户特征CTi进行标注,所述任务型垂直领域对话模型用于通过标注和训练优质的领域话术语料来优化对话成本和提高用户画像完成度;
所述对话成本基于大语言模型调用次数和会话消耗量来计算得到,其中,所述会话消耗量是指每次大语言模型调用时输入和输出的文本总长度;
所述用户画像完成度按照如下公式计算得到:
式中,i表示正整数,表示在用户特征集合C中的第i个用户特征/>的人工预设特征权重,/>表示所述第i个用户特征/>的特征获取置信度,/>表示在/>时刻所述第i个用户特征/>槽位上的且通过文本嵌入模型获得的对话匹配文本向量,/>表示在所述第i个用户特征/>的语料库中的特征文本,/>表示计算向量之间距离的函数,/>表示所述第i个用户特征/>的人格模板相似系数,当/>时,抽取所述第i个用户特征/>作为所述用户特征CTi;
使用基于所述多轮对话语料库进行大语言模型训练得到的对话机器人,按照所述最优对话策略使用自然语言与目标用户进行对话交流,并由预训练的对话模型基于当前对话状态自动调整对话策略,获取用户应答内容,然后进行语义分析,提取在所述用户应答内容中的关键词,再然后与各个所述人物类型模板进行语义相似度计算的对比匹配,最后选取具有最大相似度的人物类型模板作为匹配结果,建立用户人格特征标签集,以便完成对所述目标用户的用户画像。
2.根据权利要求1所述的用户画像方法,其特征在于,所述多个用户画像分类集包含有基于身体特征信息、家庭信息、职业信息、健康信息、教育信息、知识偏好信息、运动偏好信息、音乐偏好信息、休闲偏好信息、娱乐偏好信息、饮食偏好信息、出行偏好信息、消费偏好信息、旅游偏好信息和/或游戏偏好信息进行用户画像分类所得的多个人物类型模板集合;
和/或,所述多个用户画像分类集包含有若干对用户画像分类父集与用户画像分类子集,进而形成有基于决策树的用户画像分类结构,以建立多项人格特征之间的关联关系,其中,每个用户画像分类父集包含有至少一个用户画像分类子集。
3.根据权利要求1所述的用户画像方法,其特征在于,在获取所述目标用户的某个人格特征标签后,所述方法还包括:
根据多个人格特征标签之间的关联关系,确定是否存在与所述某个人格特征标签具有关联关系的另一个人格特征标签,其中,所述关联关系预先利用开源数据集的线性回归用户画像预测算法建立得到;
若存在,则将所述另一个人格特征标签标注给所述目标用户。
4.根据权利要求1所述的用户画像方法,其特征在于,在通过某轮对话得到所述目标用户的至少一个新人格特征标签后,所述方法还包括:
判断在所述目标用户当前的人格特征标签集合中是否存在与任一新人格特征标签冲突的某个已有人格特征标签,其中,所述任一新人格特征标签属于所述至少一个新人格特征标签;
若存在,则对所述任一新人格特征标签和所述某个已有人格特征标签进行个人特征冲突消解处理,使所述人格特征标签集合包含有所述任一新人格特征标签或所述某个已有人格特征标签,其中,所述个人特征冲突消解处理具体包括:
获取用户与对话机器人的历史对话序列,其中,/>表示当前对话次数,/>表示小于/>的正整数,/>表示在第/>次对话中的用户发言,/>表示在所述第/>次对话中的对话机器人发言,/>表示语言模型经过分类特征抽取在所述历史对话序列/>的对话窗口/>内获取的用户特征描述、相关类型/>和文本向量/>,所述对话窗口/>是指当前语言模型可以处理的对话轮次;
若相关类型与某个已获取用户画像因分类不一致发生冲突,则扫描已有特征描述序列/>,抽取与相关类型/>相关的特征描述序列/>,并由文本嵌入模型获取对应的文本向量集合/>,以及还通过改写/>的否定描述,生成/>的反向文本向量集合/>,其中,所述相关是指人格特征描述上的语义相关,所述文本嵌入模型用于输入文本且输出该文本的高维向量;
遍历在与/>中的所有文本向量对:/>与/>,分别计算文本向量/>的语义相似距离和/>,其中,/>表示计算向量之间距离的函数,并有,/>表示空文本;
判断如下条件公式是否成立:
式中,表示为所述第/>次对话预设的时效因子且为纯小数;
若是,则判定相关类型推翻由/>确定的已有特征分类,并更新用户画像,反之则保持用户画像结果不变。
5.一种基于大语言模型的用户画像装置,其特征在于,包括有依次通信连接的分类集获取模块、语料库编辑模块、大语言模型应用模块、对话策略优化模块和对话语义分析模块;
所述分类集获取模块,用于获取基于人格理论建立的多个用户画像分类集,其中,所述用户画像分类集包含有M个人物类型模板,所述人物类型模板包含有N个人格特征标签,M和N分别表示正整数;
所述语料库编辑模块,用于针对在所述多个用户画像分类集中的各个用户画像分类集,先采用半人工模拟自然对话的方式,通过人工调试获得专用的语料生成提示词模版库,然后根据对应的人物类型模板,在所述语料生成提示词模版库中采用相应的提示词模版,生成对应的话术语料库,其中,所述话术语料库包含有多个话术语料以及与所述多个话术语料一一对应的多个语料标注信息,所述语料标注信息包含有话术意图和用户人格特征类型,所述提示词模版用于向大语言模型提供与当前对话文本语义相关的用户人格特征标签的可选列表;
所述大语言模型应用模块,用于根据所述各个用户画像分类集的话术语料库,利用大语言模型建立以获取用户画像特征为目的的多轮对话语料库,并得到能够体现思维链推理能力的数据标注集,其中,所述数据标注集由标签对的序列构成,所述标签对是指具有关联性的话题标签与人格特征标签;
根据所述各个用户画像分类集的话术语料库,利用大语言模型建立以获取用户画像特征为目的的多轮对话语料库,并得到能够体现思维链推理能力的数据标注集,具体包括:根据所述各个用户画像分类集的对话语料库,由人工撰写专用提示词模版,形成模板对话策略,并将专用提示词模版输入大语言模型进行多轮多次对话模拟,生成模板会话数据,其中,所述多轮多次对话模拟是根据提示词模版扩展对话内容,提出相关性问题和/或转移话题,使对话继续下去,以便生成更多问题及对话数据;采用人工方式对所述模板会话数据进行清洗和修正,建立起以获取用户画像特征为目的的多轮对话语料库,并得到能够体现思维链推理能力的数据标注集,其中,所述数据标注集由标签对的序列构成,所述标签对是指具有关联性的话题标签与人格特征标签;
在所述多轮多次对话模拟中按照如下步骤S311~S314来生成对话:S311.通过随机生成的多样化对话参数来填充提示词模版,并将填充后的提示词模版导入大语言模型,以获得对话相关用户人格特征标签集CS={C1,C2,...,Ck},然后执行步骤S312,其中,所述多样化对话参数包含有场景设定、角色设定、情绪设定和/或话题设定,k表示对话相关用户特征总数,Ck表示第k个对话相关用户人格特征标签;S312.判断k是否等于0,若是,则执行步骤S314,否则先执行步骤S313,再执行步骤S314;S313.按照如下步骤S3131~S3132遍历在所述对话相关用户人格特征标签集CS中的各个对话相关用户人格特征标签:S3131.针对在所述对话相关用户人格特征标签集CS中的第j个对话相关用户人格特征标签Cj,基于预先人工编写的提示词模版框架及指令,根据对应的人格特征标签自动匹配生成完整的提示词模版,然后基于该提示词模版获得对应的特征值Vj,再然后执行步骤S3132,其中,j表示小于等于k的正整数;S3132.基于预先人工编写的蕴含提示词模版框架及指令,根据所述第j个对话相关用户人格特征标签Cj自动匹配生成蕴含提示词模版,并将该蕴含提示词模版导入所述大语言模型中,获得所述特征值Vj与Vnew的如下蕴含关系:若Vnew蕴含Vj,则返回执行步骤S3131;若Vj蕴含Vnew,则用Vnew更新Vj, 并更新对话生成策略;若Vj与Vnew冲突,则调用冲突消解策略,其中,Vnew是从新的对话句子中获得的特征值;S314.调用对话生成策略,填充用于生成新一轮对话的对话生成模版,并调用大语言模型模拟不同角色进行相互对话问答,以在每轮对话中得到用户回答,再然后返回执行步骤S311;
所述对话策略优化模块,用于利用所述数据标注集和基于Transformer架构的语言生成模型,基于用户画像分类集,训练多个Transformer架构的任务型垂直领域对话模型,并针对各个所述任务型垂直领域对话模型,通过对应模型训练,在每次用户进入对应领域话题时,由对应模型输出在最小轮次对话成本的对话策略,以便作为对应的最优对话策略,其中,所述任务型垂直领域对话模型的每轮对话均有一个属于对应的用户画像分类领域的话题Ti,以便对抽取出来的用户特征CTi进行标注,所述任务型垂直领域对话模型用于通过标注和训练优质的领域话术语料来优化对话成本和提高用户画像完成度;
所述对话成本基于大语言模型调用次数和会话消耗量来计算得到,其中,所述会话消耗量是指每次大语言模型调用时输入和输出的文本总长度;
所述用户画像完成度按照如下公式计算得到:
式中,i表示正整数,表示在用户特征集合C中的第i个用户特征/>的人工预设特征权重,/>表示所述第i个用户特征/>的特征获取置信度,/>表示在/>时刻所述第i个用户特征/>槽位上的且通过文本嵌入模型获得的对话匹配文本向量,/>表示在所述第i个用户特征/>的语料库中的特征文本,/>表示计算向量之间距离的函数,/>表示所述第i个用户特征/>的人格模板相似系数,当/>时,抽取所述第i个用户特征/>作为所述用户特征CTi;
所述对话语义分析模块,用于使用基于所述多轮对话语料库进行大语言模型训练得到的对话机器人,按照所述最优对话策略使用自然语言与目标用户进行对话交流,并由预训练的对话模型基于当前对话状态自动调整对话策略,获取用户应答内容,然后进行语义分析,提取在所述用户应答内容中的关键词,再然后与各个所述人物类型模板进行语义相似度计算的对比匹配,最后选取具有最大相似度的人物类型模板作为匹配结果,建立用户人格特征标签集,以便完成对所述目标用户的用户画像。
6.一种计算机设备,其特征在于,包括有依次通信连接的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如权利要求1~4中任意一项所述的用户画像方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如权利要求1~4中任意一项所述的用户画像方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410044386.XA CN117556802B (zh) | 2024-01-12 | 2024-01-12 | 一种基于大语言模型的用户画像方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410044386.XA CN117556802B (zh) | 2024-01-12 | 2024-01-12 | 一种基于大语言模型的用户画像方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117556802A CN117556802A (zh) | 2024-02-13 |
CN117556802B true CN117556802B (zh) | 2024-04-05 |
Family
ID=89823630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410044386.XA Active CN117556802B (zh) | 2024-01-12 | 2024-01-12 | 一种基于大语言模型的用户画像方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117556802B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808946A (zh) * | 2024-03-01 | 2024-04-02 | 厦门深度赋智科技有限公司 | 基于大语言模型的二次元角色构建方法及系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859980A (zh) * | 2020-06-16 | 2020-10-30 | 中国科学院自动化研究所 | 讽刺类型的文本识别方法、装置、设备及计算机可读介质 |
CN112183075A (zh) * | 2020-10-10 | 2021-01-05 | 网易(杭州)网络有限公司 | 一种对话中的槽提取方法、装置、电子设备及存储介质 |
CN112328849A (zh) * | 2020-11-02 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 用户画像的构建方法、基于用户画像的对话方法及装置 |
CN112580902A (zh) * | 2021-02-26 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 对象数据处理方法、装置、计算机设备和存储介质 |
CN113051384A (zh) * | 2021-04-26 | 2021-06-29 | 中国平安人寿保险股份有限公司 | 基于对话的用户画像抽取方法及相关装置 |
CN113112282A (zh) * | 2021-04-20 | 2021-07-13 | 平安银行股份有限公司 | 基于客户画像处理咨诉问题的方法、装置、设备及介质 |
CN113704436A (zh) * | 2021-09-02 | 2021-11-26 | 宁波深擎信息科技有限公司 | 基于会话场景的用户画像标签挖掘方法及装置 |
CN114547329A (zh) * | 2022-01-25 | 2022-05-27 | 阿里巴巴(中国)有限公司 | 建立预训练语言模型的方法、语义解析方法和装置 |
CN114661881A (zh) * | 2022-03-30 | 2022-06-24 | 中国科学院空天信息创新研究院 | 一种基于问答模式的事件抽取方法、装置和设备 |
CN115903481A (zh) * | 2022-11-04 | 2023-04-04 | 北京控制工程研究所 | 一种基于共识模型的遥感星座任务自主冲突消解方法 |
CN116150338A (zh) * | 2023-02-22 | 2023-05-23 | 山东浪潮科学研究院有限公司 | 一种基于多轮对话的智能客服方法及系统 |
CN116340513A (zh) * | 2023-03-07 | 2023-06-27 | 湖南大学 | 一种基于标签与文本交互的多标签情感分类方法和系统 |
CN116797695A (zh) * | 2023-04-12 | 2023-09-22 | 碳丝路文化传播(成都)有限公司 | 一种数字人与虚拟白板的交互方法、系统及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200372396A1 (en) * | 2019-05-20 | 2020-11-26 | International Business Machines Corporation | Optimal content identification for learning paths |
US20210005316A1 (en) * | 2019-07-03 | 2021-01-07 | Kenneth Neumann | Methods and systems for an artificial intelligence advisory system for textual analysis |
WO2021178731A1 (en) * | 2020-03-04 | 2021-09-10 | Karl Denninghoff | Neurological movement detection to rapidly draw user attention to search results |
-
2024
- 2024-01-12 CN CN202410044386.XA patent/CN117556802B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859980A (zh) * | 2020-06-16 | 2020-10-30 | 中国科学院自动化研究所 | 讽刺类型的文本识别方法、装置、设备及计算机可读介质 |
CN112183075A (zh) * | 2020-10-10 | 2021-01-05 | 网易(杭州)网络有限公司 | 一种对话中的槽提取方法、装置、电子设备及存储介质 |
CN112328849A (zh) * | 2020-11-02 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 用户画像的构建方法、基于用户画像的对话方法及装置 |
CN112580902A (zh) * | 2021-02-26 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 对象数据处理方法、装置、计算机设备和存储介质 |
CN113112282A (zh) * | 2021-04-20 | 2021-07-13 | 平安银行股份有限公司 | 基于客户画像处理咨诉问题的方法、装置、设备及介质 |
CN113051384A (zh) * | 2021-04-26 | 2021-06-29 | 中国平安人寿保险股份有限公司 | 基于对话的用户画像抽取方法及相关装置 |
CN113704436A (zh) * | 2021-09-02 | 2021-11-26 | 宁波深擎信息科技有限公司 | 基于会话场景的用户画像标签挖掘方法及装置 |
CN114547329A (zh) * | 2022-01-25 | 2022-05-27 | 阿里巴巴(中国)有限公司 | 建立预训练语言模型的方法、语义解析方法和装置 |
CN114661881A (zh) * | 2022-03-30 | 2022-06-24 | 中国科学院空天信息创新研究院 | 一种基于问答模式的事件抽取方法、装置和设备 |
CN115903481A (zh) * | 2022-11-04 | 2023-04-04 | 北京控制工程研究所 | 一种基于共识模型的遥感星座任务自主冲突消解方法 |
CN116150338A (zh) * | 2023-02-22 | 2023-05-23 | 山东浪潮科学研究院有限公司 | 一种基于多轮对话的智能客服方法及系统 |
CN116340513A (zh) * | 2023-03-07 | 2023-06-27 | 湖南大学 | 一种基于标签与文本交互的多标签情感分类方法和系统 |
CN116797695A (zh) * | 2023-04-12 | 2023-09-22 | 碳丝路文化传播(成都)有限公司 | 一种数字人与虚拟白板的交互方法、系统及存储介质 |
Non-Patent Citations (5)
Title |
---|
First Impressions: A Survey on Vision-Based Apparent Personality Trait Analysis;Julio C. S. Jacques Junior等;IEEE;20220331;第13卷(第1期);第75页-95页 * |
人机协同视阈下青少年网络社交焦虑的智能介入策略;王艺等;当代传播;20230515(第第3期期);第82页-85页 * |
基于Web日志的性格预测与群体画像方法研究;康海燕;李昊;;郑州大学学报(理学版);20200211;第52卷(第01期);第39页-46页 * |
基于无监督技术的中文新闻事件数据构建与分析;元方等;中国传媒大学学报;20231020;第30卷(第5期);第1页-9页 * |
社交媒体用户画像构建方法研究与系统实现;高茹月;中南财经政法大学硕士论文;20221231;第1页-71页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117556802A (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106095833B (zh) | 人机对话内容处理方法 | |
Roller et al. | Open-domain conversational agents: Current progress, open problems, and future directions | |
Yenduri et al. | Generative pre-trained transformer: A comprehensive review on enabling technologies, potential applications, emerging challenges, and future directions | |
CN110674410B (zh) | 用户画像构建、内容推荐方法、装置及设备 | |
CN111415740A (zh) | 问诊信息的处理方法、装置、存储介质及计算机设备 | |
US20200137001A1 (en) | Generating responses in automated chatting | |
CN111797898B (zh) | 一种基于深度语义匹配的在线评论自动回复方法 | |
CN117556802B (zh) | 一种基于大语言模型的用户画像方法、装置、设备及介质 | |
CN111831798A (zh) | 信息处理方法、装置、电子设备及计算机可读存储介质 | |
CN110209774A (zh) | 处理会话信息的方法、装置及终端设备 | |
CN111767385A (zh) | 一种智能问答方法及装置 | |
Wilks et al. | A prototype for a conversational companion for reminiscing about images | |
CN106202053A (zh) | 一种社交关系驱动的微博主题情感分析方法 | |
CN112131472A (zh) | 信息推荐方法、装置、电子设备和存储介质 | |
Götz et al. | Let the algorithm speak: How to use neural networks for automatic item generation in psychological scale development. | |
CN113761156A (zh) | 人机交互对话的数据处理方法、装置、介质及电子设备 | |
Baymurzina et al. | Dream technical report for the alexa prize 4 | |
Matsuyama et al. | Automatic expressive opinion sentence generation for enjoyable conversational systems | |
Li et al. | Data-driven alibi story telling for social believability | |
JP7157239B2 (ja) | 感情認識機械を定義するための方法及びシステム | |
CN112948710A (zh) | 基于图神经网络的朋辈教育推荐方法、系统和存储介质 | |
CN117216234A (zh) | 基于人工智能的话术改写方法、装置、设备及存储介质 | |
Crittenden et al. | The power of language to influence people: Mary Kay Ash the entrepreneur | |
Kermanidis et al. | Designing a Support Tool for Creative Advertising by Mining Collaboratively Tagged Ad Video Content: The Architecture of PromONTotion | |
Olarewaju et al. | Automatic generation of text for match recaps using esport caster commentaries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |