CN113806620B - 内容推荐方法、设备、系统及存储介质 - Google Patents
内容推荐方法、设备、系统及存储介质 Download PDFInfo
- Publication number
- CN113806620B CN113806620B CN202010480986.2A CN202010480986A CN113806620B CN 113806620 B CN113806620 B CN 113806620B CN 202010480986 A CN202010480986 A CN 202010480986A CN 113806620 B CN113806620 B CN 113806620B
- Authority
- CN
- China
- Prior art keywords
- participant
- information
- feature
- obtaining
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000008451 emotion Effects 0.000 claims abstract description 294
- 230000001815 facial effect Effects 0.000 claims abstract description 62
- 239000013598 vector Substances 0.000 claims description 378
- 239000011159 matrix material Substances 0.000 claims description 19
- 230000007704 transition Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000012545 processing Methods 0.000 description 37
- 230000011218 segmentation Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 239000008267 milk Substances 0.000 description 7
- 210000004080 milk Anatomy 0.000 description 7
- 235000013336 milk Nutrition 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000008909 emotion recognition Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000009191 jumping Effects 0.000 description 3
- 238000010183 spectrum analysis Methods 0.000 description 3
- 230000003796 beauty Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009429 distress Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请实施例公开了人工智能领域中的一种内容推荐方法、设备、系统及存储介质,包括:获取多参与者对话的图像信息和语音信息,所述图像信息包括所述多参与者中每个参与者的脸部图像;根据多个参与者的脸部图像获取多个参与者的关系信息;根据每个参与者的脸部图像和/或语音信息获取每个参与者的情感信息;根据所述多个参与者的关系信息和每个参与者的情感信息获取每个参与者的重要性得分;根据每个参与者的脸部图像和/或语音信息获取每个参与者的特征集合;根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容。采用该手段,基于多人聊天中获取的多方面信息进行内容推荐,提升了内容推荐的智能性,提高了用户体验。
Description
技术领域
本申请涉及自然语言处理领域,尤其涉及一种内容推荐方法、设备、系统及存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
在现实生活中,很多场景都会需要机器人能够和多个不同的人进行交互。比如,对家用机器人来说,随时随地都会处在有多个人的环境中。类似于智能家居场景,多人交互的需求越来越多。
但是目前市面上的机器人都是以单人输入设计的,只能按照单次发出指令的顺序来响应,没有考虑实际场景中多人的存在;如果多人的意见不同,可能得不到推荐结果,或者仅仅是以最后发出的指令为准。例如父母和孩子同时在家庭机器人面前,父亲询问机器人推荐一部电影来欣赏,机器人只能基于父亲发出的指令播放符合父亲兴趣爱好的电影;然而父亲的本意是希望机器人推荐儿童适宜的内容,并同时考虑家庭成员群体的兴趣,进行合理的推荐。也就是说,现有技术大多只考虑了机器人和单人交互场景,缺少考虑机器人如何能够更好地参与到多人交互的场景中,并针对当前群体进行话题引导或推荐的方案。因此,现有机器人并不能满足实际场景中用户的需求。
发明内容
本申请公开了一种内容推荐方法、设备、系统及存储介质,可以实现多人聊天内容的智能推荐。
第一方面,本申请实施例提供一种内容推荐方法,包括:获取多参与者对话的图像信息和语音信息,所述图像信息包括所述多参与者中每个参与者的脸部图像;根据所述多个参与者的脸部图像获取所述多个参与者的关系信息;根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的情感信息;根据所述多个参与者的关系信息和所述每个参与者的情感信息获取所述每个参与者的重要性得分;根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的特征集合;根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容。
本申请实施例通过获取多参与者对话的图像信息和语音信息,基于得到的多个参与者的关系信息、每个参与者的情感信息进而获取每个参与者的重要性得分,进而基于每个参与者的重要性得分和每个参与者的特征集合得到目标推荐内容。采用该手段,基于多参与者对话中获取的多方面信息进行推荐,提升了内容推荐的智能性,提高了用户体验。
其中,上述图像信息可以包含多张图片信息,或者也可以是视频信息,此处不做具体限定。
其中,本申请实施例所述内容可以是相应电影名称、歌曲名字、图书等。其中,可进行播放上述相应电影、歌曲等操作。
上述根据所述多个参与者的脸部图像获取所述多个参与者的关系信息,可以是基于脸部图像识别得到每个参与者的身份信息,然后,根据该身份信息从预设关系图谱中获取上述多个参与者的关系信息。
上述根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的情感信息,可以仅根据每个参与者的脸部图像获取所述每个参与者的情感信息,也可以仅根据语音信息获取所述每个参与者的情感信息。其还可以是根据所述每个参与者的脸部图像和所述语音信息获取所述每个参与者的情感信息。此处不做具体限定。
上述根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的特征集合,可以是仅根据所述每个参与者的脸部图像进行人脸识别确定人物身份,然后基于该人物身份从预设存储有人物特征的系统里面获取与该人物身份对应的特征集合。其还可以是,根据语音信息获取所述每个参与者的声纹信息,基于该声纹信息以及每个参与者的脸部图像确定与该脸部图像对应的人物身份的特征集合。如该人物身份对应的图像信息显示活泼等,进而得到该脸部图像对应的人物身份的特征集合。
作为一种可选的实现方式,所述根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容,包括:根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;根据所述每个参与者的重要性得分和所述每个参与者的特征向量得到目标特征向量;根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
本方案基于每个参与者的重要性得分和参与聊天的多个参与者的特征集合得到目标推荐内容,通过考量每个参与者的重要性得分,使得该推荐方法更加客观,提升了内容推荐的智能性。
作为另一种可选的实现方式,所述根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容,包括:根据所述图像信息得到场景信息集合;根据所述每个参与者的重要性得分、所述每个参与者的特征集合和所述场景信息集合得到目标推荐内容。
所述根据所述每个参与者的重要性得分、所述每个参与者的特征集合和所述场景信息集合得到目标推荐内容,包括:根据所述场景信息集合得到场景特征向量,其中,所述场景特征向量包括多个特征值,所述场景信息集合包括多个特征信息,所述场景信息集合中的特征信息与所述场景特征向量中的特征值一一对应;根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;根据所述每个参与者的重要性得分、所述每个参与者的特征向量和所述场景特征向量得到目标特征向量;根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
本方案基于每个参与者的重要性得分、每个参与者的特征集合和场景信息集合得到目标推荐内容,通过考量每个参与者的重要性得分和场景信息集合,基于多个维度,提高了推荐的精准度,提升了话题推荐的智能性。
进一步地,所述根据所述每个参与者的重要性得分、所述每个参与者的特征集合和所述场景信息集合得到目标推荐内容,包括:根据所述语音信息得到当前聊天话题;根据所述每个参与者的重要性得分、所述每个参与者的特征集合、所述场景信息集合和所述当前聊天话题得到目标推荐内容。
其中,所述根据所述每个参与者的重要性得分、所述每个参与者的特征集合、所述场景信息集合和所述当前聊天话题得到目标推荐内容,包括:根据所述场景信息集合得到场景特征向量,其中,所述场景特征向量包括多个特征值,所述场景信息集合包括多个特征信息,所述场景信息集合中的特征信息与所述场景特征向量中的特征值一一对应;根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;根据所述每个参与者的重要性得分、所述每个参与者的特征向量和所述场景特征向量得到目标特征向量;根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间为与所述当前聊天话题对应的向量空间,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
本方案基于每个参与者的重要性得分、所述每个参与者的特征集合、场景信息集合和当前聊天话题得到目标推荐内容,通过考量每个参与者的重要性得分和场景信息集合,基于多个维度,提高了推荐的精准度,同时基于当前聊天内容进行推荐,提升了内容推荐的智能性和效率。
其中,所述情感信息为情感得分,所述根据所述多个参与者的关系信息和所述每个参与者的情感信息获取所述每个参与者的重要性得分,包括:对所述每个参与者的情感得分进行归一化处理,以得到归一化的情感得分;根据所述多个参与者的关系信息得到转移概率矩阵;根据所述归一化的情感得分和所述转移概率矩阵得到所述每个参与者的重要性得分。
其中,所述根据所述每个参与者的脸部图像获取所述每个参与者的情感信息,包括:根据所述每个参与者的脸部图像获取每个参与者的情绪参数;根据所述每个参与者的情绪参数得到每个参与者的情感信息。
其中,所述根据所述语音信息获取所述每个参与者的情感信息,包括:根据所述语音信息获取每个参与者的语音情感参数;根据所述每个参与者的语音情感参数得到每个参与者的情感信息;或者根据所述语音信息获取每个参与者的文本情感参数;根据所述每个参与者的文本情感参数得到每个参与者的情感信息。
可替代的,所述根据所述每个参与者的脸部图像和所述语音信息获取所述每个参与者的情感信息,包括:根据所述每个参与者的脸部图像获取每个参与者的情绪参数;根据所述语音信息获取每个参与者的语音情感参数和文本情感参数;根据所述每个参与者的情绪参数、每个参与者的语音情感参数和文本情感参数得到每个参与者的情感信息。
也就是说,在获取每个参与者的情感信息时,可以仅基于每个参与者的脸部图像获取所述每个参与者的情感信息,也可以仅基于语音信息获取所述每个参与者的情感信息。还可以基于上述两者的结合进行考量,该手段更加精准。其中,可预设各参数所占权重,进而根据对应权重进行求和可得每个参与者的情感得分。
本方案有效利用多个人的语音信息、图像信息等多模态信息以及多个人之间的关系进行话题推荐。其可以使得设备能够主动去识别每个聊天参与者的重要性得分,并综合群体之间的关系为内容推荐提供更准确的信息,同时这种交互方式极大地丰富了机器人和人类交互的可能性。
其中,所述根据所述每个参与者的脸部图像获取每个参与者的情绪参数,包括:对所述每个参与者的脸部图像进行人脸检测以及特征提取,以得到每个参与者对应的人脸特征信息;根据所述每个参与者对应的人脸特征信息分别确定每个参与者的情绪参数。
进一步地,所述根据所述语音信息获取每个参与者的语音情感参数,包括:对所述语音信息进行频谱分析,以得到每个参与者的语音特征信息;根据所述每个参与者的语音特征信息得到每个参与者的语音情感参数。
进一步地,所述根据所述语音信息获取每个参与者的文本情感参数,包括:将所述语音信息分别转化为对应每个参与者的文本信息;对所述对应每个参与者的文本信息分别进行分词处理,以得到对应每个参与者的文本特征;根据所述每个参与者的文本特征得到每个参与者的文本情感参数。
进一步地,获取所述当前聊天话题,包括:将所述语音信息分别转化为对应每个参与者的文本信息;对所述对应每个参与者的文本信息分别进行信息抽取和语义理解处理,以确定当前聊天话题。
第二方面,本申请实施例提供一种内容推荐设备,包括:存储器,用于存储指令;以及处理器,与所述存储器耦合;其中,当所述处理器执行所述指令时,执行如下方法:获取多参与者对话的图像信息和语音信息,所述图像信息包括所述多参与者中每个参与者的脸部图像;根据所述多个参与者的脸部图像获取所述多个参与者的关系信息;根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的情感信息;根据所述多个参与者的关系信息和所述每个参与者的情感信息获取所述每个参与者的重要性得分;根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的特征集合;根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容。
其中,所述处理器在根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容时,具体包括:根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;根据所述每个参与者的重要性得分和所述每个参与者的特征向量得到目标特征向量;根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
所述处理器在根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容时,具体包括:根据所述图像信息得到场景信息集合;根据所述每个参与者的重要性得分、所述每个参与者的特征集合和所述场景信息集合得到目标推荐内容。
其中,所述处理器在根据所述每个参与者的重要性得分、所述每个参与者的特征集合和所述场景信息集合得到目标推荐内容时,具体包括:根据所述场景信息集合得到场景特征向量,其中,所述场景特征向量包括多个特征值,所述场景信息集合包括多个特征信息,所述场景信息集合中的特征信息与所述场景特征向量中的特征值一一对应;根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;根据所述每个参与者的重要性得分、所述每个参与者的特征向量和所述场景特征向量得到目标特征向量;根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
其中,所述处理器在根据所述每个参与者的重要性得分、所述每个参与者的特征集合和所述场景信息集合得到目标推荐内容时,具体包括:根据所述语音信息得到当前聊天话题;根据所述每个参与者的重要性得分、所述每个参与者的特征集合、所述场景信息集合和所述当前聊天话题得到目标推荐内容。
其中,所述处理器在根据所述每个参与者的重要性得分、所述每个参与者的特征集合、所述场景信息集合和所述当前聊天话题得到目标推荐内容时,具体包括:根根据所述场景信息集合得到场景特征向量,其中,所述场景特征向量包括多个特征值,所述场景信息集合包括多个特征信息,所述场景信息集合中的特征信息与所述场景特征向量中的特征值一一对应;根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;根据所述每个参与者的重要性得分、所述每个参与者的特征向量和所述场景特征向量得到目标特征向量;根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间为与所述当前聊天话题对应的向量空间,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
其中,所述情感信息为情感得分,所述处理器在根据所述多个参与者的关系信息和所述每个参与者的情感信息获取所述每个参与者的重要性得分时,具体包括:对所述每个参与者的情感得分进行归一化处理,以得到归一化的情感得分;根据所述多个参与者的关系信息得到转移概率矩阵;根据所述归一化的情感得分和所述转移概率矩阵得到所述每个参与者的重要性得分。
其中,所述处理器在根据所述每个参与者的脸部图像获取所述每个参与者的情感信息时,具体包括:根据所述每个参与者的脸部图像获取每个参与者的情绪参数;根据所述每个参与者的情绪参数得到每个参与者的情感信息。
其中,所述处理器在根据所述语音信息获取所述每个参与者的情感信息时,具体包括:根据所述语音信息获取每个参与者的语音情感参数;根据所述每个参与者的语音情感参数得到每个参与者的情感信息;或者,根据所述语音信息获取每个参与者的文本情感参数;根据所述每个参与者的文本情感参数得到每个参与者的情感信息。
其中,所述处理器在根据所述每个参与者的脸部图像和所述语音信息获取所述每个参与者的情感信息时,具体包括:根据所述每个参与者的脸部图像获取每个参与者的情绪参数;根据所述语音信息获取每个参与者的语音情感参数和文本情感参数;根据所述每个参与者的情绪参数、每个参与者的语音情感参数和文本情感参数得到每个参与者的情感信息。
第三方面,本申请实施例提供一种芯片系统,所述芯片系统应用于电子设备;所述芯片系统包括一个或多个接口电路,以及一个或多个处理器;所述接口电路和所述处理器通过线路互联;所述接口电路用于从所述电子设备的存储器接收信号,并向所述处理器发送所述信号,所述信号包括所述存储器中存储的计算机指令;当所述处理器执行所述计算机指令时,所述电子设备执行所述方法。
第四方面,本申请实施例提供一种内容推荐装置,包括:获取模块,用于获取多参与者对话的图像信息和语音信息,所述图像信息包括所述多参与者中每个参与者的脸部图像;处理模块,用于根据所述多个参与者的脸部图像获取所述多个参与者的关系信息;根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的情感信息;根据所述多个参与者的关系信息和所述每个参与者的情感信息获取所述每个参与者的重要性得分;根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的特征集合;确定模块,用于根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容。
其中,所述确定模块,具体可用于:根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;根据所述每个参与者的重要性得分和所述每个参与者的特征向量得到目标特征向量;根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
所述确定模块,具体还可用于:根据所述图像信息得到场景信息集合;根据所述每个参与者的重要性得分、所述每个参与者的特征集合和所述场景信息集合得到目标推荐内容。
所述确定模块,具体还可用于:根据所述场景信息集合得到场景特征向量,其中,所述场景特征向量包括多个特征值,所述场景信息集合包括多个特征信息,所述场景信息集合中的特征信息与所述场景特征向量中的特征值一一对应;根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;根据所述每个参与者的重要性得分、所述每个参与者的特征向量和所述场景特征向量得到目标特征向量;根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
所述确定模块,具体还可用于:根据所述语音信息得到当前聊天话题;根据所述每个参与者的重要性得分、所述每个参与者的特征集合、所述场景信息集合和所述当前聊天话题得到目标推荐内容。
所述确定模块,具体还可用于:根据所述场景信息集合得到场景特征向量,其中,所述场景特征向量包括多个特征值,所述场景信息集合包括多个特征信息,所述场景信息集合中的特征信息与所述场景特征向量中的特征值一一对应;根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;根据所述每个参与者的重要性得分、所述每个参与者的特征向量和所述场景特征向量得到目标特征向量;根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间为与所述当前聊天话题对应的向量空间,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
所述处理模块,具体用于:根据所述视频信息和语音信息得到每个参与者的情感得分;根据所述多个参与者之间的关系图谱和所述每个参与者的情感得分得到所述每个参与者的重要性得分,其中,所述多个参与者之间的关系图谱是基于所述多个参与者的社会关系信息得到的。
所述处理模块,具体还可用于:对所述每个参与者的情感得分进行归一化处理,以得到归一化的情感得分;根据所述多个参与者的关系信息得到转移概率矩阵;根据所述归一化的情感得分和所述转移概率矩阵得到所述每个参与者的重要性得分。
所述处理模块,具体还可用于:根据所述每个参与者的脸部图像获取每个参与者的情绪参数;根据所述每个参与者的情绪参数得到每个参与者的情感信息。
所述处理模块,具体还可用于:根据所述语音信息获取每个参与者的语音情感参数;根据所述每个参与者的语音情感参数得到每个参与者的情感信息;或者根据所述语音信息获取每个参与者的文本情感参数;根据所述每个参与者的文本情感参数得到每个参与者的情感信息。
所述处理模块,具体还可用于:根据所述每个参与者的脸部图像获取每个参与者的情绪参数;根据所述语音信息获取每个参与者的语音情感参数和文本情感参数;根据所述每个参与者的情绪参数、每个参与者的语音情感参数和文本情感参数得到每个参与者的情感信息。
第五方面,本申请提供了一种计算机存储介质,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如第一方面任一种可能的实施方式提供的方法。
第六方面,本申请实施例提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一种可能的实施方式提供的方法。
可以理解地,上述提供的第二方面所述的设备、第三方面所述的系统、第四方面所述的装置、第五方面所述的计算机存储介质或者第六方面所述的计算机程序产品均用于执行第一方面中任一所提供的方法。因此,其所能达到的有益效果可参考对应方法中的有益效果,此处不再赘述。
附图说明
下面对本申请实施例用到的附图进行介绍。
图1A为本发明实施例提供的一种自然语言处理的应用场景示意图;
图1B为本发明实施例提供的另一种应用环境示意图;
图2是本申请实施例提供的一种内容推荐方法的流程示意图;
图3是本申请实施例提供的一种确定情感得分的方法的流程示意图;
图4是本申请实施例提供的一种内容推荐装置的结构示意图;
图5是本申请实施例提供的一种确定当前聊天人员信息和场景信息的方法的流程示意图;
图6是本申请实施例提供的一种确定当前聊天话题的方法的流程示意图;
图7是本申请实施例提供的一种场景示意图;
图8是本申请实施例提供的一种内容推荐装置的结构示意图;
图9是本申请实施例提供的一种内容推荐装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
场景介绍
如图1A所示,一种自然语言处理系统包括用户设备以及数据处理设备。
所述用户设备包括用户以及手机、个人电脑或者信息处理中心等智能终端。所述用户设备为自然语言数据处理的发起端,作为语言问答或者查询等请求的发起方,通常用户通过所述用户设备发起请求。
所述数据处理设备可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。所述数据处理设备通过所述交互接口接收来自所述智能终端的查询语句/语音/文本等问句,再通过存储数据的存储器以及数据处理的处理器环节进行机器学习,深度学习,搜索,推理,决策等方式的语言数据处理。所述存储器可以是一个统称,包括本地存储以及存储历史数据的数据库,所述数据库可以在数据处理设备上,也可以在其它网络服务器上。如用户设备向数据处理设备发起内容推荐请求,该请求可以是用户设备发出特定指令如基于特定动作等进行触发等;其中,数据处理设备可基于该请求,主动获取多参与者对话的图像信息和语音信息,所述图像信息包括所述多参与者中每个参与者的脸部图像;根据所述多个参与者的脸部图像获取所述多个参与者的关系信息;根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的情感信息;根据所述多个参与者的关系信息和所述每个参与者的情感信息获取所述每个参与者的重要性得分;根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的特征集合;根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容。
可替代的,用户设备也可以将获取的多参与者对话的图像信息和语音信息发送给数据处理设备,以发起内容推荐请求;数据处理设备可根据所述多个参与者的脸部图像获取所述多个参与者的关系信息;根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的情感信息;根据所述多个参与者的关系信息和所述每个参与者的情感信息获取所述每个参与者的重要性得分;根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的特征集合;根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容。如图1B所示为自然语言处理系统的另一个应用场景。此场景中智能终端直接作为数据处理设备,直接接收来自用户的输入并直接由智能终端本身的硬件进行处理,具体过程与图1A相似,可参考上面的描述,在此不再赘述。其中,用户的输入可以是特定指令,如特定语音、特定动作或特定文本等,此处不做具体限定。
参照图2,是本申请实施例提供的一种内容推荐方法的流程示意图。如图2所示,其包括步骤201-206,具体如下:
201、获取多参与者对话的图像信息和语音信息,所述图像信息包括所述多参与者中每个参与者的脸部图像;
上述多参与者对话的图像信息和语音信息,可以是一份包含当前多人对话的图像信息、语音信息;其也可以是当前多人对话的每个人的图像信息和语音信息,也就是说,可以是多份图像信息和语音信息。此处对此不做具体限定。
上述图像信息可以包含多张图片信息,或者也可以是视频信息,此处不做具体限定。
可选的,设备可通过主动监听参与聊天的多个参与者的语音信息,并获取参与聊天的多个参与者的图像信息。其也可以是基于终端用户发起请求指令等,此处不做具体限定。
202、根据所述多个参与者的脸部图像获取所述多个参与者的关系信息;
其中,上述根据所述多个参与者的脸部图像获取所述多个参与者的关系信息,可以是基于脸部图像识别得到每个参与者的身份信息,然后,根据该身份信息从预设关系图谱中获取上述多个参与者的关系信息。
其中,每个参与者的身份信息可以是设备从获取的语音信息中提取语音特征,然后再对提取的语音特征进行声纹识别;同时设备可基于对获取的图像信息进行人脸识别的结果和声纹识别的结果确定当前参与聊天的有几个人,以及当前参与聊天的人员的身份信息。
其中,关系图谱是指将人物的关系用图结构来表示。每个人是图中的一个节点,每个关系是节点之间的边。
203、根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的情感信息;
上述根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的情感信息,可以仅根据每个参与者的脸部图像获取所述每个参与者的情感信息,也可以仅根据语音信息获取所述每个参与者的情感信息。其还可以是根据所述每个参与者的脸部图像和所述语音信息获取所述每个参与者的情感信息。此处不做具体限定。
如,可仅根据图像信息得到每个参与者的情感信息,具体地,所述根据所述每个参与者的脸部图像获取所述每个参与者的情感信息,包括:根据所述每个参与者的脸部图像获取每个参与者的情绪参数;根据所述每个参与者的情绪参数得到每个参与者的情感信息。
或者,可仅根据语音信息得到每个参与者的情感信息,具体地,所述根据所述语音信息获取所述每个参与者的情感信息,包括:根据所述语音信息获取每个参与者的语音情感参数;根据所述每个参与者的语音情感参数得到每个参与者的情感信息;
或者,根据所述语音信息获取每个参与者的文本情感参数;根据所述每个参与者的文本情感参数得到每个参与者的情感信息。
进一步地,还可根据图像信息和语音信息得到每个参与者的情感信息。其中,所述根据所述每个参与者的脸部图像和所述语音信息获取所述每个参与者的情感信息,包括:根据所述每个参与者的脸部图像获取每个参与者的情绪参数;根据所述语音信息获取每个参与者的语音情感参数和文本情感参数;根据所述每个参与者的情绪参数、每个参与者的语音情感参数和文本情感参数得到每个参与者的情感信息。
也就是说,每个参与者的情感信息可分别基于人脸面部情绪参数、语音情感参数和文本情感参数等三个维度进行确定。
上述情感信息可以是情感得分。其中,如图3所示,为本申请实施例提供的一种确定情感得分的方法的流程示意图。其中,通过将获取的图像信息/视频信息和语音信息分别进行处理进而得到人脸面部情绪参数、语音情感参数和文本情感参数,然后基于该人脸面部情绪参数、语音情感参数和文本情感参数得到每个参与者对应当前聊天话题的情感得分。如通过设定上述三个方面分别对应的权重,进而可得到各参与者的情感得分。当然其还可以采用其他方式,此处不做具体限定。
具体地,通过将获取的各参与者的视频信息经过人脸检测、特征提取、特征分类后得到各参与者的人脸特征,然后将各参与者的人脸特征分别进行人脸情绪识别,如可将各参与者的视频信息经过人脸检测、特征提取、特征分类后输入至人脸情绪识别模型,以识别人脸面部情绪参数。
还包括:通过将获取的各参与者的语音信息(如语音序列)经过预处理、频谱分析等提取语音特征,然后将各参与者的语音特征分别输入至语音情感分类器,以获取该语音序列的情感参数,实现语音情感计算。
其中,情感分类器指的是对用户的情感倾向进行正负向判定的工具。情感分类器的类别只有正向和负向,句子经过该情感分类器会得到一个二维向量(a,b),其中a表示情感正向的概率,b表示情感负向的概率。
还包括:通过将获取的各参与者的语音信息(如语音序列)转成文字序列后,经过预处理,分词等抽取文本特征,然后将各参与者的文本特征分别输入情感分类器,获取文本的情感参数。
根据上述人脸面部情绪参数、语音情感参数和文本的情感参数,可计算得到各参与者对应所述当前聊天话题的情感得分。
其中,情感得分为0-1之间的取值,得分0.5表示中性情感,大于0.5表示正向情感,小于0.5表示负向情感。情感得分越接近1,表示该情感越接近正向情感;情感得分越接近0,表示该情感越接近负向情感。
204、根据所述多个参与者的关系信息和所述每个参与者的情感信息获取所述每个参与者的重要性得分;
其中,以上述所得的每个参与者的情感信息如情感得分为初始值,根据关系图谱中多个参与者之间的关系来更新该情感得分,以得到每个参与者的重要性得分。其中,上述每个参与者的重要性得分也即为在进行推荐时各参与者所占的权重。
可选的,利用PageRank算法得到每个人的重要性得分。其中,初始人物(节点)的权重为用户对当前话题的情感得分归一化后的取值。
PageRank是一种可以根据网页之间相互的超链接来计算网页重要性的算法。该算法的主要思想是一个页面的重要性是由所有链向它的页面的重要性经过递归算法得到的,一个页面有较多链入的页面则会有较高的重要性,相反如果一个页面没有任何链入它的页面,则它的重要性就比较低。PageRank的计算公式可表示为:
r=(1-c)Mr’+cu;
其中,M为网页之间根据链接的出入度计算出来的转移概率矩阵,r’为上一轮迭代的网页权重向量,r为本轮迭代的网页权重向量结果,c为网页随机跳转到其他网页的概率,1-c即为网页按照转移概率矩阵跳转的概率,u为随机跳转到其他网页的概率分布向量。
通过将PageRank算法应用到人物关系图谱上来计算人物的重要性。其中,将每个人都视作图中的一个节点,人与人之间的关系视作图中对应节点之间的边。同样地,一个人在关系图谱中的重要性可以根据和他有关系的人物的重要性递归得到。其中,在计算人物的重要性时,r’为用户对当前话题的情感得分归一化后的向量,本方案简化处理令u为和r’相等的向量。
其中,采用人物对当前话题的情感得分作为人物初始重要性的取值,是基于如果要对某个话题进行推荐,则应该尽量满足对该话题表现出积极态度的用户的需求。当同时有多个人都对某个话题表现出了较为积极的态度,则应该根据他们的关系进行权重的调整。
如用户在PageRank算法中的初始权重为情感得分归一化后的取值(小明,小华)=(0.4,0.6);
由于当前聊天者只有两个人,他们之间只有一条边关系相连,即每个人都只有一个人和自己有关系,那么转移概率矩阵M为[[0,1]
[1,0]],
c一般取值为0~0.5之间,如取c为0.15,r’=u=(0.4,0.6),执行PageRank算法,迭代次数为1000次,最终小明和小华的重要性得分为(0.491889,0.508111)。
具体地,根据所述多个参与者的关系信息和所述每个参与者的情感信息获取所述每个参与者的重要性得分,包括:对所述每个参与者的情感得分进行归一化处理,以得到归一化的情感得分;根据所述多个参与者的关系信息得到转移概率矩阵;根据所述归一化的情感得分和所述转移概率矩阵得到所述每个参与者的重要性得分。
通过人脸面部情绪识别、语音情感计算和文本情感分析来计算每个人对当前话题的情感得分。然后基于获取的当前聊天者们的关系图谱,利用参与聊天的各参与者的情感得分,以及他们之间的关系,计算出每个人的重要性得分。
205、根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的特征集合;
上述每个参与者的特征集合即为分别包含各参与者的人物特征的集合。该人物特征是指用来描述人物特点的关键词集合。
上述根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的特征集合,可以是仅根据所述每个参与者的脸部图像进行人脸识别确定人物身份,然后基于该人物身份从预设存储有人物特征的系统里面获取与该人物身份对应的特征集合。
其还可以是,根据语音信息获取所述每个参与者的声纹信息,基于该声纹信息以及每个参与者的脸部图像确定与该脸部图像对应的人物身份的特征集合。如该人物身份对应的图像信息显示活泼、高个子等,进而得到该脸部图像对应的人物身份的特征集合。
206、根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容。
上述根据所述每个参与者的重要性得分和所述参与聊天的多个参与者的特征集合得到目标推荐内容,可以是将所述每个参与者的重要性得分和所述参与聊天的多个参与者的特征集合输入至话题推荐装置中进而得到目标推荐内容。
其中,上述话题推荐装置可以看成一个标签体系,话题中的每个内容都有其对应的一个标签集合,如可以使用One-hot编码将标签集合表示成一个特征向量Oi用来代表每个内容,这样该话题就构成一个特征空间或向量空间。其中,one-hot编码的定义是用N位状态寄存器来对N个状态进行编码。同样地,可使用One-hot编码将每个聊天者的人物特征均映射为该话题特征空间下的特征向量Uj,然后将所有聊天参与者的特征向量进行加权求和,这里特征向量的权重wj为对应聊天参与者的重要性得分;加权求和后的结果为目标特征向量∑j(wj*Uj)。基于得到的目标特征向量在话题特征空间中确定出与该目标特征向量的相似度最高的内容,即为目标推荐内容。其中,向量空间包含多个向量以及与所述多个向量分别一一对应的多个内容。
其中,根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容,包括:
根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;
根据所述每个参与者的重要性得分和所述每个参与者的特征向量得到目标特征向量;
根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
上述实施例基于每个参与者的重要性得分和所述参与聊天的多个参与者的特征集合得到目标推荐内容。
可替代的,还可以基于每个参与者的重要性得分、所述参与聊天的多个参与者的特征集合以及场景信息集合得到目标推荐内容。
其中,根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容,包括:根据所述图像信息得到场景信息集合;根据所述每个参与者的重要性得分、所述每个参与者的特征集合和所述场景信息集合得到目标推荐内容。
其中,该场景信息集合可包括聊天地点、时间信息、人物和某个场合的词汇等。可选的,获取当前聊天的场景信息集合可以是设备从获取的视频信息中提取出能够描述当前场景的关键词。如视频信息中的时间、地点或其他物体信息。该场景关键词主要是用来描述场景的,比如:一个家庭主妇在厨房里准备晚餐,设备通过主动获取的图像信息和/或视频信息可以得到诸如“傍晚”、“女性”、“厨房”等关键词。
其中,所述根据所述每个参与者的重要性得分、所述每个参与者的特征集合和所述场景信息集合得到目标推荐内容,包括:根据所述场景信息集合得到场景特征向量,其中,所述场景特征向量包括多个特征值,所述场景信息集合包括多个特征信息,所述场景信息集合中的特征信息与所述场景特征向量中的特征值一一对应;根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;根据所述每个参与者的重要性得分、所述每个参与者的特征向量和所述场景特征向量得到目标特征向量;根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
进一步地,还可以根据每个参与者的重要性得分、所述参与聊天的多个参与者的特征集合、所述场景信息集合和当前聊天话题得到目标推荐内容。
所述根据所述每个参与者的重要性得分、所述每个参与者的特征集合和所述场景信息集合得到目标推荐内容,包括:根据所述语音信息得到当前聊天话题;根据所述每个参与者的重要性得分、所述每个参与者的特征集合、所述场景信息集合和所述当前聊天话题得到目标推荐内容。
具体地,当前聊天话题可以是设备将一定时间段内获取的语音信息转化为文本信息,对文本信息进行分词、词性标注、命名实体识别等处理,得到处理后的信息,并对该处理后的信息进行信息抽取和语义理解来确定当前聊天话题。
其中,上述分词包括将中文句子进行语义单位的切割。如获取的语音信息为“我想去天安云谷看电影。”,一种可选的分词结果是:“我想去天安云谷看电影。”。
上述词性标注是将切割后的词语归类后再进行标注。比如上面的分词结果可以标注为“我/r想/v去/v天安云谷/ns看/v电影/n。/w”,其中r表示人称代词,v表示动词,ns表示地名,n表示名词,w表示是标点符号。
上述命名实体识别包括将句子中的人名、地名、机构名等识别出来。在该句中,只有“天安云谷”是要识别的地名。
通过信息抽取技术,设备可抽取出“天安云谷”和“看电影”两个关键词,得到这句话的语义是去某个地方看电影,则确定当前聊天话题为去某个地方看电影。
同样地,可使用One-hot编码将每个聊天者的人物特征均映射为该话题特征空间下的特征向量Uj,以及将场景信息集合映射成该话题特征空间下的特征向量C。然后将所有聊天参与者的特征向量进行加权求和,这里特征向量的权重wj为对应聊天参与者的重要性得分;加权求和后的结果再和场景特征向量相加得到目标特征向量∑j(wj*Uj)+C。基于得到的目标特征向量在话题特征空间中确定出与该目标特征向量的相似度最高的内容,即为目标推荐内容。
即,所述根据所述每个参与者的重要性得分、所述每个参与者的特征集合、所述场景信息集合和所述当前聊天话题得到目标推荐内容,包括:根据所述场景信息集合得到场景特征向量,其中,所述场景特征向量包括多个特征值,所述场景信息集合包括多个特征信息,所述场景信息集合中的特征信息与所述场景特征向量中的特征值一一对应;根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;根据所述每个参与者的重要性得分、所述每个参与者的特征向量和所述场景特征向量得到目标特征向量;根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间为与所述当前聊天话题对应的向量空间,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
其中,上述设备可以是机器人、手机、平板电脑等。
本申请实施例所述推荐内容可以是相应电影、歌曲、图书等。
其中,设备可通过对该内容的推荐生成相应的回复内容或执行相关动作。如可在机器人的显示屏幕上显示该目标推荐内容。如,当该目标推荐内容为播放某部电影时,则直接播放该电影等。或者通过语音进行提示等,或者机器人可通过肢体动作进行指示等。
本申请实施例通过获取多参与者对话的图像信息和语音信息,基于得到的多个参与者的关系信息、每个参与者的情感信息进而获取每个参与者的重要性得分,进而基于每个参与者的重要性得分和每个参与者的特征集合得到目标推荐内容。采用该手段,基于多参与者对话中获取的多方面信息进行推荐,提升了内容推荐的智能性,提高了用户体验。
另一方面,本方案有效利用多个人的语音信息、图像信息等多模态信息以及多个人之间的关系进行内容推荐。其可以使得设备能够主动去识别每个聊天参与者的重要性得分,并综合群体之间的关系为内容推荐提供更准确的信息,同时这种交互方式极大地丰富了机器人和人类交互的可能性。
下面以一具体实施例来对本方案进行说明。
实施例一
假设傍晚一对夫妇在卧室中聊天,如图4所示,为本申请实施例提供的一种内容推荐装置的结构示意图。其中,该内容推荐装置可包括人物识别模块、情感计算模块、文本分析模块、场景识别模块、人物重要性计算模块和内容推荐模块。
其中,人物识别模块用于通过根据获取的语音信息、视频信息进行人物识别确定出参与聊天的每个人的特征集合以及参与聊天的多个人的关系信息。
情感计算模块用于根据获取的语音信息、视频信息进行情感计算得到每个人对当前话题的情感得分。
文本分析模块用于根据获取的语音信息进行文本分析确定出当前聊天话题。
场景识别模块用于根据获取的语音信息、视频信息识别出当前场景。
人物重要性计算模块用于基于得到的参与聊天的多个人的关系信息以及每个人对当前话题的情感得分进行人物重要性计算得到每个人的重要性得分。
上述内容推荐模块可基于人物画像、人物重要性得分、场景关键词得到推荐内容。其中,人物画像指通过对大量用户调研,将他们归类为不同的类型,然后为每种类型抽取出典型特征,并赋予名字、性别、年龄、喜好等要素形成的人物原型。
具体地,机器人可主动获取他们的语音信息和视频信息,然后将其输入至人物识别模块确定出参与聊天的每个人的信息;将获取的语音信息和视频信息输入至情感计算模块得到每个人对当前话题的情感得分;将获取的语音信息和视频信息输入至文本分析模块得到当前话题;将获取的语音信息和视频信息输入至场景识别模块得到场景关键词信息;并将聊天的各人之间的人物关系图谱以及确定出参与聊天的每个人的信息、每个人对当前话题的情感得分均输入至人物重要性计算模块,得到每个人的重要性得分;然后将每个人的重要性得分场景关键词信息以及人物画像输入至与当前话题对应的话题推荐装置中得到推荐内容,然后机器人基于该推荐话题生成相应的回复。
具体地,上述确定当前聊天人员信息和场景信息的方法可参照图5所示,其中,图5为本申请实施例提供的一种确定当前聊天人员信息和场景信息的方法的流程示意图。机器人将获取的语音信息提取语音特征,然后对提取的语音特征进行声纹识别;将获取的图像信息和视频信息输入到人脸识别模块进行人脸识别,通过综合声纹识别结果和人脸识别的结果可确定出当前参与聊天的人是家庭的男女主人。同时,机器人将获取的图像信息和视频信息进行特征提取,然后基于提取的特征进行场景识别,可确定能够描述当前场景的关键词是傍晚,卧室。
其中,上述确定当前的聊天话题的方法可参阅图6所示。如图6所示,为本申请实施例提供的一种确定当前聊天话题的方法的流程示意图。如机器人将一定时间段内获取的音频数据转换为文本信息,通过分词、词性标注、命名实体识别等步骤后进行信息抽取和语义理解来确定当前聊天的话题。
具体地,假设这对夫妇的聊天内容为:
女:咱们是不是好久没有一起看电影了?
男:是呀,你想看什么电影?
女:我就是想看电影,但是不知道最近有什么好看的。
男:小艺小艺,给我们推荐一部电影看看。
机器人将上述音频数据转换为文本信息并进行处理,其中,分词结果和词性标注的结果为:
女:咱们/r是不是/v好久/m没有/d一起/d看/v电影/n了/u?/w
男:是/v呀/u,/w你/r想/v看/v什么/r电影/n?/w
女:我/r就是/d想/v看/v电影/n,/w但是/c不知道/v最近/nt有/v什么/r好看/a的/u。/w
男:小艺/n小艺/n,/w给/p我们/r推荐/v一部/m电影/n看看/v。/w
这段对话除了机器人的名字“小艺”之外,不包含任何实体词。
根据信息抽取技术,可以得到上述对话的关键词为“看电影”和“推荐”,因此语义理解该话题为“电影”。
然后,机器人获取各参与者的语音信息和图像信息,将获取的各参与者的图像信息经过人脸检测、特征提取、特征分类等处理,得到处理后的特征,并将处理后的特征输入人脸情绪识别模型得到人物的情绪参数,以达到识别人脸面部情绪的目的;通过将获取的各参与者的语音信息(如语音序列)经过预处理、频谱分析等提取语音特征并输入至语音情感分类器,从而获取该语音序列的情感参数;通过将获取的各参与者的语音信息(如语音序列)转成文字序列后,经过预处理,分词等抽取文本特征,将抽取的文本特征输入情感分类器,获取文本的情感参数。根据上述人脸面部情绪参数、语音情感参数和文本的情感参数,得到男女主人分别对应所述当前聊天话题的情感得分。
其中,机器人将每个人的语音信息转换成文字后放在一起,即为:
女:咱们是不是好久没有一起看电影了?我就是想看电影,但是不知道最近有什么好看的。
男:是呀,你想看什么电影?小艺小艺,给我们推荐一部电影看看。
机器人将每个人说的话经过预处理,分词等抽取文本特征后,输入情感分类器,获取文本的情感结果(分别为正面情感、负面情感的概率表示)。如女主人说话的内容最后的情感得分可以为(正面,负面)=(0.9,0.1),男主人说话的内容最后的情感得分为(正面,负面)=(0.6,0.4)。
此处仅以文本的情感参数的确定过程为例进行说明,其中,人脸面部情绪参数、语音情感参数和上述文本的情感参数的确定过程类似,此处不作具体介绍。最终可以通过加权法得到一个综合三方面的情感得分。
然后,从人物关系图谱中获取当前聊天者们的子关系图谱,利用PageRank算法得到每个人的重要性得分。
如用户在PageRank算法中的初始权重为情感得分归一化后的取值(男主人,女主人)=(0.6/(0.6+0.9),(0.9)/(0.6+0.9))=(0.4,0.6);
由于当前聊天者只有家庭男女主人,他们之间只有一条边关系相连,即每个人都只有一个人和自己有关系,那么转移概率矩阵M为
[[0,1]
[1,0]],
c一般取值为0~0.5之间,如取c为0.15,r’=u=(0.4,0.6),执行PageRank算法,迭代次数为1000次,最终家庭男女主人的重要性得分为(0.491889,0.508111)。
其中,每个人的初始重要性得分也可以通过由用户任意设置等,如可在机器人的设置界面,用户可以添加男女主人公两个用户,并指定男主人的重要性是0.4,女主人的重要性是0.6。如果还有其他人物,比如家里的小孩子和爷爷奶奶等,也可以通过设置界面进行添加。
对于人物之间的关系,也可以通过设置界面进行设定,并且也可以为关系指定权重,关系的权重主要也是用来计算和更新人物的重要性的。
进一步地,还可以通过图像信息或者视频信息来进行人物肢体亲密度检测。基于人物肢体亲密度检测也可以影响上述情感得分,进而更新重要性得分。人物肢体亲密度在一定程度上能够反映两个人之间的关系,因此可以使用人物亲密度为关系进行权重赋值。
机器人将聊天者的人员信息、重要性得分和场景关键词输入到当前聊天话题对应的推荐装置中,得到最终推荐的话题。
具体地,首先机器人构建话题场景的特征空间;
如在电影这个话题下,有三个内容:天使爱美丽、勇敢的心和复仇者联盟。它们对应的标签如下:
天使爱美丽:法国、喜剧、爱情、奇幻、浪漫、夜晚
勇敢的心:美国、动作、传记、剧情
复仇者联盟:美国、动作、科幻、奇幻、周末
则构建的标签库集合为:美国、法国、传记、动作、剧情、喜剧、爱情、浪漫、科幻、奇幻、周末、夜晚。将这三个电影内容使用One-hot编码,得到的特征向量分别是
《天使爱美丽》:(0,1,0,0,0,1,1,1,0,1,0,1)
《勇敢的心》:(1,0,1,1,1,0,0,0,0,0,0,0)
《复仇者联盟》:(1,0,0,1,0,0,0,0,1,1,1,0)
它们共同构成了电影这个话题下的特征空间。
然后机器人构建聊天参与者的特征向量和场景特征向量;
基于确定的人物身份可以获取每个人的特征集合。如事先已经有了用户画像,女主人在用户画像中电影这个维度的人物特征标签为“浪漫”、“言情”,男主人关于电影的人物特征标签为“剧情”、“奇幻”、“搞笑”。通过收集到的同义词表,对每个标签进行同义词映射(言情映射为爱情、搞笑映射到喜剧),他们的特征向量分别为女主人(0,0,0,0,0,0,1,1,0,0,0,0)和男主人(0,0,0,0,1,1,0,0,0,1,0,0)。而场景关键信息经过同义词映射(将傍晚映射为夜晚)得到的场景特征向量为(0,0,0,0,0,0,0,0,0,0,0,1)。其中,一个标签体系可能包含有限的标签,因此可以是部分人物标签和场景标签可在推荐的过程中用上。如话题场景装置对应的标签体系不包括“卧室”这个标签。因此,只考虑傍晚这一场景关键词。
根据上述得到的男女主人重要性得分(男0.49,女0.51),将男女主人的特征向量与重要性得分加权得到群体特征向量为(0,0,0,0,0.49,0.49,0.51,0.51,0,0.49,0,0),再加上场景特征向量,最终得到的目标特征向量为(0,0,0,0,0.49,0.49,0.51,0.51,0,0.49,0,1)。
计算上述得到的目标特征向量与电影空间中的各向量之间的相似度:
Similary(群体用户,天使爱美丽)=(0,0,0,0,0.49,0.49,0.51,0.51,0,0.49,0,1)*(0,1,0,0,0,1,1,1,0,1,0,1)=0.49+0.51+0.51+1=2.51
Similary(群体用户,勇敢的心)=(0,0,0,0,0.49,0.49,0.51,0.51,0,0.49,0,1)*(1,0,1,1,1,0,0,0,0,0,0,0)=0.49
Similary(群体用户,复仇者联盟)=(0,0,0,0,0.49,0.49,0.51,0.51,0,0.49,0,1)*(1,0,0,1,0,0,0,0,1,1,1,0))=0.49
其中,相似度最高的内容即为目标推荐内容,也就是最符合家庭男女主人喜好和当前聊天场景的内容是《天使爱美丽》这部电影。
则机器人在卧室中为家庭的男女主人播放《天使爱美丽》这部电影,如图7所示,为本申请提供的一种场景示意图。
上述仅以两人的场景作为示例,其中,还可以考虑更加复杂地不限于两个人的场景,假定在一个周末,小明的爷爷奶奶从老家来看望小明。到了晚上,这个五口之家(包括小孩子、爸爸妈妈和爷爷奶奶)吃完饭后围坐在客厅一起看电视。机器人通过声纹识别和人脸识别不仅可以识别小明和爸爸妈妈,还可以识别出爷爷和奶奶,然后机器人通过在内部存储的人物图谱中新增爷爷和奶奶两个节点,并将爷爷奶奶和其他人的关系在人物图谱中进行补全。
则对于一个五口之家也可给出PageRank的初始参数和权重计算结果。
如:
小明:妈妈,我想看动画片。
妈妈:好久都没见爷爷奶奶了,你不问问他们想看点啥吗?
爷爷:让他看吧,我们都行。
奶奶:就是就是,给他放个好看的动画片。
爸爸:小艺小艺,给我们找个好看的动画片放一放。
根据上述谈话,机器人分析出大家是在谈论看动画片的话题,且得到所有人对动画片的情感得分为:
小明:(正面,负面)=(1.0,0.0)
妈妈:(正面,负面)=(0.4,0.6)
爷爷:(正面,负面)=(0.5,0.5)
奶奶:(正面,负面)=(0.6,0.4)
爸爸:(正面,负面)=(0.9,0.1)
归一化后的情感得分结果为:
(1.0/(1.0+0.4+0.5+0.6+0.9),0.4/(1.0+0.4+0.5+0.6+0.9),0.5/(1.0+0.4+0.5+0.6+0.9),0.6/(1.0+0.4+0.5+0.6+0.9),0.9/(1.0+0.4+0.5+0.6+0.9))
=(0.294,0.118,0.147,0.176,0.265)
其中,在这个五口之家每个人之间都有关系,则此时转移概率矩阵M为
如使用c=0.2,r’=u=(0.294,0.118,0.147,0.176,0.265),迭代后每个人的重要性得分为:(小明,妈妈,爷爷,奶奶,爸爸)=(0.216,0.186,0.191,0.196,0.211)。
然后,基于得到的当前聊天的场景信息、当前聊天话题、参与聊天的各参与者的特征集合以及各参与者的重要性得分来确定目标推荐内容以进行内容推荐。此处不再赘述。
实施例二
上述实施例一以家用机器人主动进行监听并进行目标内容推荐为例进行说明。下面以另一实施例对本方案进行说明。
假设在一个公共场合有三个人C1、C2和C3在进行谈话。其中,C1可主动打开其手机,并点击话题推荐应用。手机在检测到用户触发话题推荐时,则开始获取C1、C2和C3之间谈话的语音信息以及视频信息。其中,手机通过获取多参与者对话的图像信息和语音信息,所述图像信息包括所述多参与者中每个参与者的脸部图像;并根据所述多个参与者的脸部图像获取所述多个参与者的关系信息;根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的情感信息;根据所述多个参与者的关系信息和所述每个参与者的情感信息获取所述每个参与者的重要性得分;根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的特征集合;然后根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容。最终手机可展示所述目标推荐内容。其中,具体的处理过程可参阅实施例一的介绍,在此不再赘述。其中,如手机获取到当前聊天话题为购买书籍,手机根据所述当前聊天的场景信息、当前聊天话题、参与聊天的多个参与者的关系信息以及所述每个参与者的重要性得分确定目标推荐内容为购买心理学类书籍《遇见未知的自己》。则手机检测到已安装的第三方购买书籍的应用如京东,手机可直接打开京东并在显示界面展示该《遇见未知的自己》书籍所对应的购买信息。
上述仅以用户手动打开预设应用以触发进行话题推荐为例,其中还可以通过语音指令等进行触发,本方案对于触发形式不做具体限定。
本申请实施例仅以谈论电影的话题以及购买书籍的话题为例进行说明,其中,本方案并不限定具体话题,其还可以是音乐推荐、天气信息推荐等等。
如图8所示,是本申请实施例提供的一种内容推荐装置的结构示意图。其包括获取模块801、处理模块802和确定模块803,具体如下:
获取模块801,用于获取多参与者对话的图像信息和语音信息,所述图像信息包括所述多参与者中每个参与者的脸部图像;
处理模块802,用于根据所述多个参与者的脸部图像获取所述多个参与者的关系信息;根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的情感信息;根据所述多个参与者的关系信息和所述每个参与者的情感信息获取所述每个参与者的重要性得分;根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的特征集合;
确定模块803,用于根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容。
其中,所述确定模块803,具体可用于:根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;根据所述每个参与者的重要性得分和所述每个参与者的特征向量得到目标特征向量;根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
所述确定模块803,具体还可用于:根据所述图像信息得到场景信息;根据所述每个参与者的重要性得分、所述每个参与者的特征集合和所述场景信息得到目标推荐内容。
所述确定模块803,具体还可用于:根据所述场景信息得到场景特征向量,其中,所述场景特征向量包括多个特征值,所述场景信息与所述场景特征向量中的特征值一一对应;根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;根据所述每个参与者的重要性得分、所述每个参与者的特征向量和所述场景特征向量得到目标特征向量;根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
所述确定模块803,具体还可用于:根据所述语音信息得到当前聊天话题;根据所述每个参与者的重要性得分、所述每个参与者的特征集合、所述场景信息和所述当前聊天话题得到目标推荐内容。
所述确定模块803,具体还可用于:根据所述场景信息得到场景特征向量,其中,所述场景特征向量包括多个特征值,所述场景信息与所述场景特征向量中的特征值一一对应;根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;根据所述每个参与者的重要性得分、所述每个参与者的特征向量和所述场景特征向量得到目标特征向量;根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间为与所述当前聊天话题对应的向量空间,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
所述处理模块802,具体用于:根据所述视频信息和语音信息得到每个参与者的情感得分;根据所述多个参与者之间的关系图谱和所述每个参与者的情感得分得到所述每个参与者的重要性得分,其中,所述多个参与者之间的关系图谱是基于所述多个参与者的社会关系信息得到的。
所述处理模块802,具体还可用于:对所述每个参与者的情感得分进行归一化处理,以得到归一化的情感得分;根据所述多个参与者的关系信息得到转移概率矩阵;根据所述归一化的情感得分和所述转移概率矩阵得到所述每个参与者的重要性得分。
所述处理模块802,具体还可用于:根据所述每个参与者的脸部图像获取每个参与者的情绪参数;根据所述每个参与者的情绪参数得到每个参与者的情感信息。
所述处理模块802,具体还可用于:根据所述语音信息获取每个参与者的语音情感参数;根据所述每个参与者的语音情感参数得到每个参与者的情感信息;或者根据所述语音信息获取每个参与者的文本情感参数;根据所述每个参与者的文本情感参数得到每个参与者的情感信息。
所述处理模块802,具体还可用于:根据所述每个参与者的脸部图像获取每个参与者的情绪参数;根据所述语音信息获取每个参与者的语音情感参数和文本情感参数;根据所述每个参与者的情绪参数、每个参与者的语音情感参数和文本情感参数得到每个参与者的情感信息。
需要说明的是,上述各模块(获取模块801、处理模块802和确定模块803)用于执行上述方法的相关步骤。比如获取模块801用于执行201的相关内容,处理模块802用于执行202-205的相关内容,确定模块803用于执行206的相关内容。上述处理模块802还可分解为多个子模块,分别执行202、203、204、205的相关内容,此处不做具体限定。
在本实施例中,内容推荐装置是以模块的形式来呈现。这里的“模块”可以指特定应用集成电路(application-specific integrated circuit,ASIC),执行一个或多个软件或固件程序的处理器和存储器,集成逻辑电路,和/或其他可以提供上述功能的器件。此外,以上获取模块801、处理模块802和确定模块803可通过图9所示的训练设备的处理器901来实现。
如图9所示,该内容推荐装置包括至少一个处理器901,至少一个存储器902以及至少一个通信接口903。所述处理器901、所述存储器902和所述通信接口903通过所述通信总线连接并完成相互间的通信。
处理器901可以是通用中央处理器(CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制以上方案程序执行的集成电路。
通信接口903,用于与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(Wireless Local Area Networks,WLAN)等。
存储器902可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
其中,所述存储器902用于存储执行以上方案的应用程序代码,并由处理器901来控制执行。所述处理器901用于执行所述存储器902中存储的应用程序代码。
存储器902存储的代码可执行以上提供的任一种内容推荐方法,比如:获取多参与者对话的图像信息和语音信息,所述图像信息包括所述多参与者中每个参与者的脸部图像;根据所述多个参与者的脸部图像获取所述多个参与者的关系信息;根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的情感信息;根据所述多个参与者的关系信息和所述每个参与者的情感信息获取所述每个参与者的重要性得分;根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的特征集合;根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容。
本申请实施例还提供一种电子设备,包括处理器、存储器、通信接口,所述存储器中存储有一个或多个程序,并且被配置由所述处理器执行,所述程序包括用于执行上述任一个方法中的一个或多个步骤的指令。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机或处理器上运行时,使得计算机或处理器执行上述任一个方法中的一个或多个步骤。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机或处理器上运行时,使得计算机或处理器执行上述任一个方法中的一个或多个步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。
以上所述,仅为本申请实施例的具体实施方式,但本申请实施例的保护范围并不局限于此,任何在本申请实施例揭露的技术范围内的变化或替换,都应涵盖在本申请实施例的保护范围之内。因此,本申请实施例的保护范围应以所述权利要求的保护范围为准。
Claims (20)
1.一种内容推荐方法,其特征在于,包括:
获取多个参与者对话的图像信息和语音信息,所述图像信息包括所述多个参与者中每个参与者的脸部图像;
根据所述多个参与者的脸部图像获取所述多个参与者的关系信息;所述多个参与者的关系信息是基于所述多个参与者的脸部图像识别得到每个参与者的身份信息,并根据所述每个参与者的身份信息从预设关系图谱中获取到的;
根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的情感信息;
根据所述多个参与者的关系信息和所述每个参与者的情感信息获取所述每个参与者的重要性得分;所述情感信息为情感得分,所述根据所述多个参与者的关系信息和所述每个参与者的情感信息获取所述每个参与者的重要性得分,包括:对所述每个参与者的情感得分进行归一化处理,以得到归一化的情感得分;根据所述多个参与者的关系信息得到转移概率矩阵;根据所述归一化的情感得分和所述转移概率矩阵得到所述每个参与者的重要性得分;
根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的特征集合;
根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容。
2.根据权利要求1所述的方法,其特征在于,所述根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容,包括:
根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;
根据所述每个参与者的重要性得分和所述每个参与者的特征向量得到目标特征向量;
根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
3.根据权利要求1所述的方法,其特征在于,所述根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容,包括:
根据所述图像信息得到场景信息集合;
根据所述每个参与者的重要性得分、所述每个参与者的特征集合和所述场景信息集合得到目标推荐内容。
4.根据权利要求3所述的方法,其特征在于,所述根据所述每个参与者的重要性得分、所述每个参与者的特征集合和所述场景信息集合得到目标推荐内容,包括:
根据所述场景信息集合得到场景特征向量,其中,所述场景特征向量包括多个特征值,所述场景信息集合包括多个特征信息,所述场景信息集合中的特征信息与所述场景特征向量中的特征值一一对应;
根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;
根据所述每个参与者的重要性得分、所述每个参与者的特征向量和所述场景特征向量得到目标特征向量;
根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
5.根据权利要求3所述的方法,其特征在于,所述根据所述每个参与者的重要性得分、所述每个参与者的特征集合和所述场景信息集合得到目标推荐内容,包括:
根据所述语音信息得到当前聊天话题;
根据所述每个参与者的重要性得分、所述每个参与者的特征集合、所述场景信息集合和所述当前聊天话题得到目标推荐内容。
6.根据权利要求5所述的方法,其特征在于,所述根据所述每个参与者的重要性得分、所述每个参与者的特征集合、所述场景信息集合和所述当前聊天话题得到目标推荐内容,包括:
根据所述场景信息集合得到场景特征向量,其中,所述场景特征向量包括多个特征值,所述场景信息集合包括多个特征信息,所述场景信息集合中的特征信息与所述场景特征向量中的特征值一一对应;
根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;
根据所述每个参与者的重要性得分、所述每个参与者的特征向量和所述场景特征向量得到目标特征向量;
根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间为与所述当前聊天话题对应的向量空间,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述根据所述每个参与者的脸部图像获取所述每个参与者的情感信息,包括:
根据所述每个参与者的脸部图像获取每个参与者的情绪参数;
根据所述每个参与者的情绪参数得到每个参与者的情感信息。
8.根据权利要求1至6任一项所述的方法,其特征在于,所述根据所述语音信息获取所述每个参与者的情感信息,包括:
根据所述语音信息获取每个参与者的语音情感参数;根据所述每个参与者的语音情感参数得到每个参与者的情感信息;
或者
根据所述语音信息获取每个参与者的文本情感参数;根据所述每个参与者的文本情感参数得到每个参与者的情感信息。
9.根据权利要求1至6任一项所述的方法,其特征在于,所述根据所述每个参与者的脸部图像和所述语音信息获取所述每个参与者的情感信息,包括:
根据所述每个参与者的脸部图像获取每个参与者的情绪参数;
根据所述语音信息获取每个参与者的语音情感参数和文本情感参数;
根据所述每个参与者的情绪参数、每个参与者的语音情感参数和文本情感参数得到每个参与者的情感信息。
10.一种内容推荐设备,其特征在于,包括:
存储器,用于存储指令;以及
处理器,与所述存储器耦合;
其中,当所述处理器执行所述指令时,执行如下方法:
获取多个参与者对话的图像信息和语音信息,所述图像信息包括所述多个参与者中每个参与者的脸部图像;
根据所述多个参与者的脸部图像获取所述多个参与者的关系信息;所述多个参与者的关系信息是基于所述多个参与者的脸部图像识别得到每个参与者的身份信息,并根据所述每个参与者的身份信息从预设关系图谱中获取到的;
根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的情感信息;
根据所述多个参与者的关系信息和所述每个参与者的情感信息获取所述每个参与者的重要性得分;所述情感信息为情感得分,所述根据所述多个参与者的关系信息和所述每个参与者的情感信息获取所述每个参与者的重要性得分,包括:对所述每个参与者的情感得分进行归一化处理,以得到归一化的情感得分;根据所述多个参与者的关系信息得到转移概率矩阵;根据所述归一化的情感得分和所述转移概率矩阵得到所述每个参与者的重要性得分;
根据所述每个参与者的脸部图像和/或所述语音信息获取所述每个参与者的特征集合;根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容。
11.根据权利要求10所述的设备,其特征在于,所述处理器在根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容时,具体包括:
根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;
根据所述每个参与者的重要性得分和所述每个参与者的特征向量得到目标特征向量;
根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
12.根据权利要求10所述的设备,其特征在于,所述处理器在根据所述每个参与者的重要性得分和所述每个参与者的特征集合得到目标推荐内容时,具体包括:
根据所述图像信息得到场景信息集合;
根据所述每个参与者的重要性得分、所述每个参与者的特征集合和所述场景信息集合得到目标推荐内容。
13.根据权利要求12所述的设备,其特征在于,所述处理器在根据所述每个参与者的重要性得分、所述每个参与者的特征集合和所述场景信息集合得到目标推荐内容时,具体包括:
根据所述场景信息集合得到场景特征向量,其中,所述场景特征向量包括多个特征值,所述场景信息集合包括多个特征信息,所述场景信息集合中的特征信息与所述场景特征向量中的特征值一一对应;
根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;
根据所述每个参与者的重要性得分、所述每个参与者的特征向量和所述场景特征向量得到目标特征向量;
根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
14.根据权利要求12所述的设备,其特征在于,所述处理器在根据所述每个参与者的重要性得分、所述每个参与者的特征集合和所述场景信息集合得到目标推荐内容时,具体包括:
根据所述语音信息得到当前聊天话题;
根据所述每个参与者的重要性得分、所述每个参与者的特征集合、所述场景信息集合和所述当前聊天话题得到目标推荐内容。
15.根据权利要求14所述的设备,其特征在于,所述处理器在根据所述每个参与者的重要性得分、所述每个参与者的特征集合、所述场景信息集合和所述当前聊天话题得到目标推荐内容时,具体包括:
根据所述场景信息集合得到场景特征向量,其中,所述场景特征向量包括多个特征值,所述场景信息集合包括多个特征信息,所述场景信息集合中的特征信息与所述场景特征向量中的特征值一一对应;
根据所述每个参与者的特征集合得到所述每个参与者的特征向量,其中,所述特征向量包括多个特征值,所述每个参与者的特征集合包括多个特征信息,所述特征集合中的特征信息与所述特征向量中的特征值一一对应;
根据所述每个参与者的重要性得分、所述每个参与者的特征向量和所述场景特征向量得到目标特征向量;
根据所述目标特征向量得到所述目标推荐内容,其中,所述目标推荐内容为预设向量空间中与所述目标特征向量的相似度最高的向量所对应的内容,所述预设向量空间为与所述当前聊天话题对应的向量空间,所述预设向量空间包含多个向量,所述多个向量具有与其一一对应的多个内容。
16.根据权利要求10至15任一项所述的设备,其特征在于,所述处理器在根据所述每个参与者的脸部图像获取所述每个参与者的情感信息时,具体包括:
根据所述每个参与者的脸部图像获取每个参与者的情绪参数;
根据所述每个参与者的情绪参数得到每个参与者的情感信息。
17.根据权利要求10至15任一项所述的设备,其特征在于,所述处理器在根据所述语音信息获取所述每个参与者的情感信息时,具体包括:
根据所述语音信息获取每个参与者的语音情感参数;根据所述每个参与者的语音情感参数得到每个参与者的情感信息;
或者
根据所述语音信息获取每个参与者的文本情感参数;根据所述每个参与者的文本情感参数得到每个参与者的情感信息。
18.根据权利要求10至15任一项所述的设备,其特征在于,所述处理器在根据所述每个参与者的脸部图像和所述语音信息获取所述每个参与者的情感信息时,具体包括:
根据所述每个参与者的脸部图像获取每个参与者的情绪参数;
根据所述语音信息获取每个参与者的语音情感参数和文本情感参数;
根据所述每个参与者的情绪参数、每个参与者的语音情感参数和文本情感参数得到每个参与者的情感信息。
19.一种芯片系统,其特征在于,所述芯片系统应用于电子设备;所述芯片系统包括一个或多个接口电路,以及一个或多个处理器;所述接口电路和所述处理器通过线路互联;所述接口电路用于从所述电子设备的存储器接收信号,并向所述处理器发送所述信号,所述信号包括所述存储器中存储的计算机指令;当所述处理器执行所述计算机指令时,所述电子设备执行如权利要求1-9中任意一项所述方法。
20.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010480986.2A CN113806620B (zh) | 2020-05-30 | 2020-05-30 | 内容推荐方法、设备、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010480986.2A CN113806620B (zh) | 2020-05-30 | 2020-05-30 | 内容推荐方法、设备、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113806620A CN113806620A (zh) | 2021-12-17 |
CN113806620B true CN113806620B (zh) | 2023-11-21 |
Family
ID=78891915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010480986.2A Active CN113806620B (zh) | 2020-05-30 | 2020-05-30 | 内容推荐方法、设备、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113806620B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115064176B (zh) * | 2022-06-22 | 2023-06-16 | 广州市迪声音响有限公司 | 一种声纹筛系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101840163B1 (ko) * | 2017-03-31 | 2018-03-20 | 중앙대학교 산학협력단 | 감정 정보를 이용하여 사용자 그룹에 대해 아이템을 추천하는 장치 및 방법 |
CN109121007A (zh) * | 2018-09-18 | 2019-01-01 | 深圳市酷开网络科技有限公司 | 基于多人脸识别的影视内容推荐方法、智能电视及系统 |
JP2020068973A (ja) * | 2018-10-30 | 2020-05-07 | クラリオン株式会社 | 感情推定統合装置、感情推定統合方法およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030237093A1 (en) * | 2002-06-19 | 2003-12-25 | Marsh David J. | Electronic program guide systems and methods for handling multiple users |
KR101708682B1 (ko) * | 2010-03-03 | 2017-02-21 | 엘지전자 주식회사 | 영상표시장치 및 그 동작 방법. |
JP6365229B2 (ja) * | 2014-10-23 | 2018-08-01 | 株式会社デンソー | 多感覚インタフェースの制御方法および多感覚インタフェース制御装置、多感覚インタフェースシステム |
US10932004B2 (en) * | 2017-01-24 | 2021-02-23 | Adobe Inc. | Recommending content based on group collaboration |
-
2020
- 2020-05-30 CN CN202010480986.2A patent/CN113806620B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101840163B1 (ko) * | 2017-03-31 | 2018-03-20 | 중앙대학교 산학협력단 | 감정 정보를 이용하여 사용자 그룹에 대해 아이템을 추천하는 장치 및 방법 |
CN109121007A (zh) * | 2018-09-18 | 2019-01-01 | 深圳市酷开网络科技有限公司 | 基于多人脸识别的影视内容推荐方法、智能电视及系统 |
JP2020068973A (ja) * | 2018-10-30 | 2020-05-07 | クラリオン株式会社 | 感情推定統合装置、感情推定統合方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN113806620A (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110121706B (zh) | 提供会话中的响应 | |
US11302337B2 (en) | Voiceprint recognition method and apparatus | |
CN109844741B (zh) | 在自动聊天中生成响应 | |
CN109416816B (zh) | 支持交流的人工智能系统 | |
CN109643325B (zh) | 在自动聊天中推荐朋友 | |
CN110209897B (zh) | 智能对话方法、装置、存储介质及设备 | |
US20160379106A1 (en) | Human-computer intelligence chatting method and device based on artificial intelligence | |
US20150243279A1 (en) | Systems and methods for recommending responses | |
CN112328849B (zh) | 用户画像的构建方法、基于用户画像的对话方法及装置 | |
US20190184573A1 (en) | Robot control method and companion robot | |
US11074916B2 (en) | Information processing system, and information processing method | |
CN111831798A (zh) | 信息处理方法、装置、电子设备及计算机可读存储介质 | |
CN110476169B (zh) | 在会话中提供情感关怀 | |
CN112632242A (zh) | 智能对话方法及装置、电子设备 | |
Wailthare et al. | Artificial intelligence based chat-bot | |
Sharif et al. | Vision to language: Methods, metrics and datasets | |
CN114969282A (zh) | 基于富媒体知识图谱多模态情感分析模型的智能交互方法 | |
CN113806620B (zh) | 内容推荐方法、设备、系统及存储介质 | |
Yang et al. | User behavior fusion in dialog management with multi-modal history cues | |
CN111767386A (zh) | 对话处理方法、装置、电子设备及计算机可读存储介质 | |
CN113542797A (zh) | 视频播放中的互动方法、装置及计算机可读存储介质 | |
Wu et al. | Interactive question-posing system for robot-Assisted reminiscence from personal photographs | |
Shimomoto et al. | News2meme: An automatic content generator from news based on word subspaces from text and image | |
CN115171673A (zh) | 一种基于角色画像的交流辅助方法、装置及存储介质 | |
CN114449297A (zh) | 一种多媒体信息的处理方法、计算设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |