CN117141379A - 基于用户情感选择记录的车辆信息娱乐系统 - Google Patents

基于用户情感选择记录的车辆信息娱乐系统 Download PDF

Info

Publication number
CN117141379A
CN117141379A CN202211272737.XA CN202211272737A CN117141379A CN 117141379 A CN117141379 A CN 117141379A CN 202211272737 A CN202211272737 A CN 202211272737A CN 117141379 A CN117141379 A CN 117141379A
Authority
CN
China
Prior art keywords
emotion
user
record
content
infotainment system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211272737.XA
Other languages
English (en)
Inventor
V·尼玛格达
A·阿迪森
A·冈古拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of CN117141379A publication Critical patent/CN117141379A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R11/00Arrangements for holding or mounting articles, not otherwise provided for
    • B60R11/02Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Mechanical Engineering (AREA)
  • Software Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种用于车辆的信息娱乐系统,响应于接收到用户生成的查询,基于用户的当前情感来选择和播放记录。该用户生成的查询包括指示该用户当前心理状态的一个或多个单词。该信息娱乐系统包括一个或多个控制器,所述一个或多个控制器与一个或多个记录数据库电子通信,所述记录数据库存储多个内容聚类,每个内容聚类描述特定记录。该一个或多个控制器执行指令以选择由选择内容聚类所描述的记录,其中该记录反映了用户的该当前情感。

Description

基于用户情感选择记录的车辆信息娱乐系统
技术领域
本公开涉及一种用于车辆的信息娱乐系统,其响应于接收到用户生成的查询,基于用户的当前情感来选择和播放记录。
背景技术
许多车辆通常采用车载信息娱乐系统来提供音频和视频娱乐以及车辆上的其他信息。信息娱乐系统可能包括使用按钮、旋钮、触摸屏或通过免提语音控制来控制的音频和视觉系统。用户可以基于诸如,例如,艺术家的名字、歌曲的名称、流派或心情等类别来选择特定的歌曲或音频文件。音乐流派的一些示例包括但不限于蓝调、乡村和摇滚。
在一些情况下,用户可以基于他们目前正在经历的情感来手动选择歌曲。例如,如果用户心情不好,他或她可以选择蓝调或乡村风格的歌曲。替代地,用户可以根据歌曲的名称选择一首特别不愉快或悲伤的歌曲。因此,应理解,当前的信息娱乐系统为用户提供了原始的体验,其中他们只能基于简单的类别(如流派、心情或艺术家姓名)来选择和检索音乐和其他音频/视频记录。
因此,尽管当前的信息娱乐系统实现了它们的预期目的,但是在本领域中需要一种改善的信息娱乐系统,其基于用户当前的情感为用户提供更加个性化的音频和视觉体验。
发明内容
根据若干方面,公开了一种用于车辆的信息娱乐系统,其包括多个车辆内部传感器,该多个车辆内部传感器收集指示用户当前情感的传感器数据。该信息娱乐系统包括一个或多个控制器,该一个或多个控制器与一个或多个记录数据库电子通信,该记录数据库存储多个内容聚类,每个内容聚类描述特定记录。一个或多个控制器执行指令以监测多个车辆内部传感器。一个或多个控制器执行指令以接收用户生成的查询,该查询包括指示用户当前心理状态的一个或多个单词。响应于接收到用户生成的查询,一个或多个控制器执行指令来确定一个或多个单词向量,该一个或多个单词向量以数字的形式表示用户的当前心理状态。一个或多个控制器执行指令以基于一种或多种机器学习技术,基于由多个车辆内部传感器收集的传感器数据来确定一个或多个情感向量。一个或多个控制器执行指令以将一个或多个单词向量和一个或多个情感向量附加到组合的单词和情感向量中。一个或多个控制器执行指令以将组合的单词和情感向量与存储在一个或多个记录数据库中的多个内容聚类进行比较,从而确定与组合的单词和情感向量最类似的选择内容聚类。一个或多个控制器执行指令以选择由选择的内容聚类描述的记录,其中该记录反映了用户的当前情感。
在一个方面,一种或多种机器学习技术是高斯混合模型(GMM)。
在另一个方面,由高斯混合模型确定的情感向量是基于车辆上可用的不同传感器模态确定的组合情感向量。
在又一个方面,一种或多种机器学习技术是组合的高斯混合模型和深度神经网络(GMM-DNN)。
在一个方面,深度神经网络是卷积神经网络(CNN)。
在另一个方面,基于情感内容将记录分割成不同的部段。
在又一个方面,该记录是以下中的一者:音乐歌曲、电影剪辑、电视节目剪辑、播客、培训课程、教育课程和个人记录。
在一个方面,一个或多个控制器与一个或多个记录内容源进行电子通信。
在另一个方面,一个或多个控制器通过从一个或多个记录内容源接收特定记录,解析特定记录中的对话以确定对话的文本摘要,以及确定以数字的形式表示对话的文本摘要的一个或多个对话单词向量和表示特定记录的对话的文本摘要中表示情感的一个或多个对话情感向量,来确定所述多个内容聚类,其中每个内容聚类描述特定记录。
在又一个方面,一个或多个控制器通过将以数字的形式表示特定记录中对话的文本摘要的一个或多个对话单词向量和以数字的形式表示在对话的文本摘要中表示情感的一个或多个对话情感向量一起附加到组合的对话单词和情感向量中,来确定所述多个内容聚类,其中每个内容聚类都描述一个特定记录。
在一个方面,一个或多个控制器通过执行聚类算法来确定表示记录中对话的文本摘要的组合的单词和情感向量的质心,从而确定所述多个内容聚类,其中每个内容聚类都描述一个特定记录,其中质心是指描述特定记录的内容聚类。
在另一个方面,一个或多个控制器与扬声器和显示器电子通信。
在又一个方面,一个或多个控制器执行指令以确定车辆状态,其中车辆状态指示车辆的挡位。
在一个方面,响应于确定车辆状态为停车,一个或多个控制器确定通过扬声器播放音频内容并且在显示器上显示视频内容。
在另一个方面,响应于确定车辆状态是除停车挡以外的挡位,控制器仅通过扬声器播放音频内容。
在一个方面,一种基于用户的当前情感来通过信息娱乐系统选择和播放记录的方法。该方法包括通过一个或多个控制器监测多个车辆内部传感器。一个或多个控制器与一个或多个记录数据库进行电子通信,该一个或多个记录数据库存储多个内容聚类,每个内容聚类都描述特定记录。该方法包括接收用户生成的查询,该查询包括指示用户当前心理状态的一个或多个单词。响应于接收到用户生成的查询,该方法包括确定一个或多个单词向量,该一个或多个单词向量以数字的形式表示用户的当前心理状态。该方法包括基于一种或多种机器学习技术,基于由多个车辆内部传感器收集的传感器数据确定一个或多个情感向量。该方法包括将一个或多个单词向量和一个或多个情感向量附加到组合的单词和情感向量中。该方法包括将组合的单词和情感向量与存储在一个或多个记录数据库中的多个内容聚类进行比较,以确定与组合的单词和情感向量最类似的选择内容聚类。最后,该方法包括选择由该选择内容聚类所描述的记录,其中该记录反映了用户的当前情感。
在一个方面,用于车辆的信息娱乐系统包括多个车辆内部传感器,该多个车辆内部传感器收集指示用户当前情感的传感器数据,其中用户位于车辆的内部车厢内。信息娱乐系统还包括:一个或多个记录数据库,其存储多个内容聚类,每个内容聚类描述特定记录;以及一个或多个控制器,其与多个车辆内部传感器和一个或多个记录数据库电子通信。一个或多个控制器执行指令以监测多个车辆内部传感器。一个或多个控制器接收用户生成的查询,该查询包括指示用户当前心理状态的一个或多个单词。响应于接收到用户生成的查询,一个或多个控制器确定一个或多个单词向量,该一个或多个单词向量以数字的形式表示用户的当前心理状态。控制器基于一种或多种机器学习技术,基于由多个车辆内部传感器收集的传感器数据确定一个或多个情感向量。控制器将一个或多个单词向量和一个或多个情感向量组合成组合的单词和情感向量。控制器将组合的单词和情感向量与存储在一个或多个记录数据库中的多个内容聚类进行比较,以确定与组合的单词和情感向量最类似的选择内容聚类。最后,一个或多个控制器选择由该选择内容聚类所描述的记录,其中该记录反映了用户的当前情感。
在一个方面,车辆内部传感器包括以下一者或多者:作为驾驶员监测系统(DMS)一部分的一个或多个舱内相机、生物传感器、压力传感器和方向盘扭矩传感器。
在另一个方面,一种或多种机器学习技术是GMM。
在又一个方面,一种或多种机器学习技术是组合的GMM-DNN。
从本文提供的描述中,其他的应用领域将变得显而易见。应理解,描述和具体示例仅意图用于说明的目的,而不意图限制本公开的范围。
附图说明
本文描述的附图仅用于说明目的,并且不旨在以任何方式限制本公开的范围。
图1是根据一示例性实施例公开的信息娱乐系统的示意图,该信息娱乐系统包括一个或多个控制器,该一个或多个控制器与多个车辆内部传感器电子通信;
图2是根据一示例性实施例示出图1中的控制器与存储内容聚类的一个或多个记录数据库通信的框图;
图3是根据一示例性实施例示出用以确定由图2中的记录数据库存储的内容聚类的方法的过程流程图;以及
图4是根据一示例性实施例示出了由所公开的信息娱乐系统基于用户的当前情感来选择和播放记录的方法的过程流程图。
具体实施方式
以下描述本质上仅是示例性的,并且不旨在限制本公开、应用或使用。
参考图1,示出了用于车辆12的示例性信息娱乐系统10,其基于用户16的当前情感来选择和播放记录。车辆12可以是任何类型的车辆,诸如但不限于轿车、卡车、运动型多用途车、货车、拼车车辆或房车。信息娱乐系统10包括:一个或多个控制器20,其与一个或多个记录内容源8电子通信;用户输入设备22、多个车辆内部传感器24;扬声器26;以及显示器28。多个车辆内部传感器24收集用于确定用户16的当前情感的传感器数据30,其中用户16位于车辆12的内部车厢14内。应理解,用户16是任何乘客,诸如车辆12的驾驶员或乘客。用户输入设备22可以是用于接收用户生成的查询18的任何设备。在示出的示例中,用户输入设备22是用于接收语音查询的传声器,然而,应理解,用户输入设备22可以是多模式输入系统。例如,在实施例中,用户输入设备22可以包括触摸屏或键盘。
如下所述,信息娱乐系统10响应于接收到用户生成的查询18而基于用户16的当前情感来选择和播放记录。信息娱乐系统10基于由多个车辆内部传感器24收集的传感器数据30和用户生成的查询18来检测用户16的当前情感。用户生成的查询18包括指示用户16的当前心理状态的一个或多个单词。例如,用户生成的查询18可以是语音查询,其中用户16陈述“我对我的梦感到怀疑并且紧张”,或“我非常高兴并且感觉很棒。”
该记录可以是音频记录或组合的音频和视频记录。该记录包括唤起用户情感的一个或多个单词。记录内容的一个或多个源8包括内容源,例如流内容和车辆播放列表。流式传输内容可以包括通过互联网流式传输并且实时回放的任何类型的媒体内容。在实施例中,记录是歌曲。然而,应理解,也可以使用其他类型的音频以及组合的音频和视频记录,诸如,例如,电影剪辑、诸如情景喜剧的电视节目剪辑、播客、诸如外语课的培训或教育课程、或由用户创建的个人记录。个人记录可以包括由用户16记录的事件,诸如,例如,聚会、假日事件、假期和音乐会。应理解,在一些实施例中,基于情感内容将记录分割成不同的部段。例如,歌曲可能具有引子、若干对句和合唱,每一者都唤起人们不同的情感。
多个车辆内部传感器24收集指示用户16的当前情感的传感器数据30,并且包括传感器,诸如但不限于作为驾驶员监测系统(DMS)的一部分的一个或多个舱内相机、生物传感器、方向盘和座椅中的压力传感器、方向盘扭矩传感器、传声器和可穿戴设备。可穿戴设备的一个示例是监测心跳的智能手表。在一个示例中,相机可以安装到车辆12的后视镜、仪表板或A柱以监测用户16表达情感的面部表情。在一个示例中,脉冲无线电超宽带(IR-UWB)雷达系统可以用于检测生物特征,诸如用户16的心率和呼吸率。
图2是图1中示出的一个或多个控制器20的框图。应理解,尽管一个或多个控制器20被示出为在车辆12上,但是也可以使用其他处理机制,诸如基于边缘的处理或云处理。一个或多个控制器20包括单词嵌入模块40、情感检测模型42、组合器模块44、类似性模块46和选择模块48。一个或多个控制器20还与一个或多个记录数据库50通信,该记录数据库50存储多个内容聚类70,每个内容聚类70描述特定记录。如上所述,在实施例中,可以基于情感内容将记录分割成不同的部段。因此,记录的每个片段可以与唯一的内容聚类70相关联。尽管图2示出了本地存储的一个或多个记录数据库50,但是应理解,图2本质上仅是示例性的,并且一个或多个记录数据库50也可以在线存储(即,基于云的存储)。
参考图1和图2,单词嵌入模块40从用户16接收用户生成的查询18并且确定用户生成的查询18的以数字的形式表示的一个或多个单词向量60。如上所述,用户生成的查询18包括指示用户16的当前心理状态的一个或多个单词。一个或多个单词向量60以数字表示指示用户当前心理状态的一个或多个单词。情感检测模型42接收从多个车辆内部传感器24收集的传感器数据30作为输入并且,基于一种或多种机器学习技术,基于传感器数据30确定一个或多个情感向量62。下面更详细地解释一种或多种机器学习技术。情感向量62以数字的形式表示用户16在他或她创建用户生成的查询18时表现出的情感状态。如图2所示,组合器模块44接收单词向量60和情感向量62并且将单词向量60和情感向量62一起附加到组合的单词和情感向量64中。
类似性模块46将组合的单词和情感向量64与存储在一个或多个记录数据库50中的内容聚类70进行比较,并且选择与组合的单词和情感向量64最类似的内容聚类70。用于确定内容聚类70的方法100在图3中示出并且在下面描述。在实施例中,内容聚类70可以是描述特定记录的片段。在一个非限制性实施例中,类似性模块46基于余弦类似性选择与组合的单词和情感向量64最类似的内容聚类70,然而,应理解,也可以使用两个数字序列之间的其他类似性度量。
选择模块48接收与组合的单词和情感向量64最类似的内容聚类70,然后选择由内容聚类70所描述的特定记录。信息娱乐系统10然后通过扬声器26(图1)播放该记录,其中扬声器26可以是有线或无线扬声器。应理解,该记录反映了用户的当前情感。因此,如果用户16不开心和紧张,则选择被描述为不开心和紧张的记录通过扬声器26播放以反映用户16的当前情感。在实施例中,用户16可以提供关于由选择模块48选择的记录的反馈。
在实施例中,选择模块48基于车辆状态确定是否仅通过扬声器26(见图1)播放特定记录的音频内容,或将特定记录的音频内容和任何视觉内容两者都显示在显示器28上。车辆状态指示车辆12的挡位(图1),其中挡位指示车辆12何时被置于停车挡位。响应于确定车辆状态为停车,选择模块48确定音频内容通过扬声器26播放并且特定记录的视频内容(如果有的话)显示在显示器28上。然而,响应于确定车辆状态是除停车之外的另一个挡位,选择模块48仅通过扬声器26播放音频内容。
现在将描述情感检测模型42。如上所述,情感检测模型42基于一种或多种机器学习技术来确定情感向量62。在实施例中,一种或多种机器学习技术是高斯混合模型(GMM),或作为替代,组合的高斯混合模型和深度神经网络(GMM-DNN)。高斯混合模型等式在下面的等式1中表示,其中为用户16的每个情感状态训练唯一的高斯混合模型。
等式1包括情感类别K和分类器C,每个情感类别K表示用户16的情感状态(例如,K={愤怒、开心、悲伤、中性}),分类器C表示不同的传感器模态。不同的传感器模态是指不同的车辆内部传感器24(例如,C={DMS相机、IR-UWB雷达系统、座椅压力传感器、方向盘扭矩传感器}),其中等式1求解基于不同的分类器或传感器模态确定的组合情感向量。换句话说,由高斯混合模型确定的情感向量62是基于车辆12上可用的不同传感器模态确定的组合情感向量。
情感检测模型42接收在特定时间窗口期间(诸如,例如约60秒)捕获的传感器数据30。下面等式1中的x项表示特定时间窗口期间的观测值,并且观测值x构成特定时间窗口期间捕获的传感器输入,其中每个观测值x被表示为x={x1,x2,…xn},并且其中xi是分类器输出λi=i=1,2,…,C所使用的x的特征的子集。对于每个观察x,存在属于其中一个情感类别K的类别标签ω。等式1表示为:
其中P(ω|x)表示情感向量62,是分类器输出λi的预测,/>是给定类别标签ω的概率,假设分类器输出λi被分配了特定标签(例如,ωk=开心),并且P(λi|x)是给定观察窗口x的分类器输出λi的概率。通过求解等式1来确定情感向量62,其中情感向量62表示基于多个传感器模态确定的用户16的特定情感状态。
在一个示例中,分类器输出λ1指示来自DMS相机的输出,并且x:ω1=[0.05,0.72,0.01,0.22],其指示情感状态很可能是开心的。分类器输出λ2表示来自IR-UWB雷达系统的输出,并且x:ω2=[0.1,0.6,0.08,0.31]。在本示例中,两个分类器输出λ1、λ2的组合情感向量被表示为P(ω|x)=[0.06,0.7,0.04,0.2]。
在另一个实施例中,情感检测模型42基于组合的高斯混合模型和深度神经网络(GMM-DNN)来确定情感向量62。在此实施例中,情感检测模型42使用上述高斯混合模型来确定情感向量,然后将其供应给深度神经网络。深度神经网络还接收传感器数据30作为输入并且基于该输入确定情感向量62。在实施例中,深度神经网络是卷积神经网络(CNN)。
图3是说明用于确定存储在图2中示出的一个或多个记录数据库50中的内容聚类70的方法100的过程流程图。应理解,一个或多个记录数据库50是作为与图4中示出的方法200分离的离线处理的一部分而建立的。参考图1至图3,方法100开始于框102,其中一个或多个控制器20结合一个或多个用户偏好从一个或多个记录内容源8接收特定记录。用户偏好指示用户16的个人偏好并且包括诸如但不限于喜爱的歌曲或音乐流派、喜爱的电视节目、喜爱的电影、仅在用户16驾驶时播放的记录、以及当车辆12中有多个乘员时播放的记录(即,基于儿童的存在可以播放不同的歌曲)的信息。可以经由移动应用程序或由用户输入设备22(图1)来指定和更新用户偏好。方法100然后可以进行到框104。
在框104中,一个或多个控制器20解析特定记录中的对话以确定对话的文本摘要。例如,Miley Cyrus的歌曲“《攀登(Climb)》”的第一节可以被解析成陈述如下的文本摘要:“对实现梦想感到怀疑。怀疑在我脑海中以声音的形式出现。怀疑表现为感觉失落”。文本摘要可以根据提取方法确定,或在替代方案中,可以根据抽象方法确定。提取方法的一些示例包括文本排名(TextRank)和潜在语义分析(LSA)。提取方法是传统的,而抽象方法是最先进的,并且可以基于递归神经网络,这是一种深度神经网络。抽象方法的一些示例包括来自转换器的双向编码器表示(BERT)和生成式预训练转换器(GPT)。如上所述,可以将记录分割成不同的部段,并且可以为每个部段确定文本摘要。方法100然后可以进行到框106。
在框106中,控制器20确定以数字的形式表示对话的文本摘要的一个或多个对话单词向量,以及表示在特定记录的对话的文本摘要中表示情感的一个或多个对话情感向量。可以基于诸如GMM和GMM-DNN的机器学习技术来确定情感向量。方法100然后可以进行到框108。
在框108中,一个或多个控制器20将以数字的形式表示特定记录中对话的文本摘要的一个或多个对话单词向量和以数字的形式表示对话的文本摘要中表示情感的一个或多个对话情感向量组合成组合的对话单词和情感向量。组合的单词和情感向量可以表示整个记录,或替代地,表示记录的一部段。方法100然后可以进行到框110。
在框110中,一个或多个控制器20执行聚类算法来确定组合的对话单词和情感向量的质心,该组合的对话单词和情感向量表示记录中对话的文本摘要,其中质心是描述特定记录的内容聚类70。一个或多个控制器20然后可以将内容聚类70存储在一个或多个记录数据库50中。方法100然后可以终止。
图4是示出基于用户16的当前情感来通过公开的信息娱乐系统10选择和播放记录的方法200的过程流程图。参考图1、图2和图4,方法200开始于框202。在框202中,控制器监测收集指示用户16当前情感的传感器数据30的多个车辆内部传感器24。方法200然后可以进行到判定框204。
在判定框204中,控制器20继续监测多个车辆内部传感器24,直到接收到包括指示用户16的当前心理状态的一个或多个单词的用户生成的查询18。方法200然后可以进行到框206。
框206中,响应于接收到用户生成的查询18,一个或多个控制器20(图2)的单词嵌入模块40确定一个或多个单词向量60,该一个或多个单词向量以数字的形式表示用户的当前心理状态。一个或多个控制器20的情感检测模型42还基于一种或多种机器学习技术,基于由多个车辆内部传感器24收集的传感器数据30确定一个或多个情感向量62。方法200然后可以进行到框208。
在框208中,一个或多个控制器20的组合器模块44将一个或多个单词向量60和一个或多个情感向量64附加到组合的单词和情感向量64中。方法200然后可以进行到框210。
在框210中,一个或多个控制器20的类似性模块46将组合的单词和情感向量64与存储在一个或多个记录数据库50中的多个内容聚类70进行比较,以确定与组合的单词和情感向量64最类似的选择内容聚类70。方法200然后可以进行到框212。
在框212中,一个或多个控制器20的选择模块48选择由选择内容聚类70所描述的记录,其中该记录反映了用户16的当前情感。方法200然后可以进行到判定框214。
在判定框214中,选择模块48确定车辆状态,其中车辆状态指示车辆12(图1)的挡位。特别地,如果车辆状态为停车,则方法200进行到框216,并且选择模块48确定音频内容通过扬声器26播放,并且特定记录的视频内容(如果有的话)显示在显示器28上。方法200然后可以终止。然而,响应于确定车辆状态是除停车挡之外的挡位,方法200进行到框218,选择模块48仅通过扬声器26播放音频内容。方法200然后可以终止。
总体参考附图,所公开的信息娱乐系统提供了各种技术效果和益处。特别地,信息娱乐系统基于用户的当前情感来选择记录,从而提供了用于选择音乐和其他记录的智能的、个性化的方法。相比之下,目前可用的当前系统仅允许用户基于诸如艺术家姓名、歌曲名称、流派或心情的信息来手动选择记录。
控制器可以指电子电路、组合逻辑电路、现场可编程门阵列(FPGA)、执行代码的处理器(共享的、专用的或成组的),或上述的一些或全部的组合,或是它们的一部分,诸如在片上系统中。此外,控制器可以是基于微处理器的,诸如具有至少一个处理器、存储器(RAM和/或ROM)以及相关联的输入和输出总线的计算机。处理器可以在驻留在存储器中的操作系统的控制下操作。操作系统可以管理计算机资源,使得实施为一个或多个计算机软件应用程序的计算机程序代码,诸如驻留在存储器中的应用程序,可以具有由处理器执行的指令。在替代实施例中,处理器可以直接执行应用程序,在这种情况下,可以省略操作系统。
本公开的描述本质上仅是示例性的,并且不脱离本公开的主旨的变型旨在落入本公开的范围内。此类变化不应被视为背离了本公开的精神和范围。

Claims (10)

1.一种用于车辆的信息娱乐系统,其包括多个车辆内部传感器,所述多个车辆内部传感器收集指示用户当前情感的传感器数据,所述信息娱乐系统包括:
一个或多个控制器,其与存储多个内容聚类的一个或多个记录数据库进行电子通信,每个内容聚类都描述特定记录,所述一个或多个控制器执行指令以:
监测所述多个车辆内部传感器;
接收用户生成的查询,所述查询包括指示所述用户当前心理状态的一个或多个单词;
响应于接收到所述用户生成的查询,确定一个或多个单词向量,所述一个或多个单词向量以数字的形式表示所述用户的所述当前心理状态;
基于一种或多种机器学习技术,基于由所述多个车辆内部传感器收集的所述传感器数据来确定一个或多个情感向量;
将所述一个或多个单词向量和所述一个或多个情感向量附加到组合的单词和情感向量中;
将所述组合的单词和情感向量与存储在所述一个或多个记录数据库中的所述多个内容聚类进行比较,以确定与所述组合的单词和情感向量最类似的选择内容聚类;以及
选择由选择内容聚类所描述的记录,其中所述记录反映了用户的所述当前情感。
2.根据权利要求1所述的信息娱乐系统,其中所述一种或多种机器学习技术是高斯混合模型(GMM)。
3.根据权利要求2所述的信息娱乐系统,其中由高斯混合模型确定的所述情感向量是基于所述车辆上可用的不同传感器模态确定的组合情感向量。
4.根据权利要求1所述的信息娱乐系统,其中所述一种或多种机器学习技术是组合的高斯混合模型和深度神经网络(GMM-DNN)。
5.根据权利要求4所述的信息娱乐系统,其中所述深度神经网络是卷积神经网络(CNN)。
6.根据权利要求1所述的信息娱乐系统,其中所述记录基于情感内容被分割成不同的部段。
7.根据权利要求1所述的信息娱乐系统,其中所述记录是以下中的一者:音乐歌曲、电影剪辑、电视节目剪辑、播客、培训课程、教育课程和个人记录。
8.根据权利要求1所述的信息娱乐系统,其中所述一个或多个控制器与一个或多个记录内容源进行电子通信。
9.根据权利要求8所述的信息娱乐系统,其中所述一个或多个控制器通过以下方式确定所述多个内容聚类,每个内容聚类描述特定记录:
从所述一个或多个记录内容源接收所述特定记录;
解析所述特定记录中的对话以确定所述对话的文本摘要;以及
确定以数字的形式表示所述对话的所述文本摘要的一个或多个对话单词向量,以及表示在所述特定记录的所述对话的所述文本摘要中表示情感的一个或多个对话情感向量。
10.根据权利要求9所述的信息娱乐系统,其中所述一个或多个控制器通过以下方式确定所述多个内容聚类,每个内容聚类描述特定记录:
将以数字的形式表示所述特定记录中所述对话的所述文本摘要的一个或多个对话单词向量和以数字的形式表示所述对话的所述文本摘要中表示的情感的所述一个或多个对话情感向量一起附加到组合的对话单词和情感向量中。
CN202211272737.XA 2022-05-18 2022-10-18 基于用户情感选择记录的车辆信息娱乐系统 Pending CN117141379A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/747,186 US20230377601A1 (en) 2022-05-18 2022-05-18 Vehicle infotainment system for selecting recordings based on user emotion
US17/747,186 2022-05-18

Publications (1)

Publication Number Publication Date
CN117141379A true CN117141379A (zh) 2023-12-01

Family

ID=88599796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211272737.XA Pending CN117141379A (zh) 2022-05-18 2022-10-18 基于用户情感选择记录的车辆信息娱乐系统

Country Status (3)

Country Link
US (1) US20230377601A1 (zh)
CN (1) CN117141379A (zh)
DE (1) DE102022127650A1 (zh)

Also Published As

Publication number Publication date
DE102022127650A1 (de) 2023-11-23
US20230377601A1 (en) 2023-11-23

Similar Documents

Publication Publication Date Title
US9507326B2 (en) System and method for using biometrics to predict and select music preferences
EP3496098B1 (en) Generating personalized audio content based on mood
US11853645B2 (en) Machine-led mood change
JP6358212B2 (ja) 車両用覚醒制御システム
US11334804B2 (en) Cognitive music selection system and method
CN108549720A (zh) 一种基于情绪识别的安抚方法、装置及设备、存储介质
Müller et al. Multimodal input in the car, today and tomorrow
JP4470189B2 (ja) 自動車用音楽再生システム
CN109416733A (zh) 便携式个性化
CN107918637A (zh) 服务提供装置和服务提供方法
US20220205798A1 (en) Computer-implemented method and system for content recommendation to a user on board a vehicle
JP2017211703A (ja) 運転評価装置および運転評価プログラム
CN111611402B (zh) 一种基于位置的驾驶行为知识图谱生成方法、装置和系统
Çano et al. Mood-based on-car music recommendations
CN111400514A (zh) 一种信息推荐方法、装置和系统
JP7331850B2 (ja) 情報処理装置及び情報処理方法
CN117141379A (zh) 基于用户情感选择记录的车辆信息娱乐系统
CN110297617B (zh) 一种主动对话的发起方法和装置
CN107566896A (zh) 多媒体信息推荐方法及装置、存储介质、终端
Maiberger et al. Individual influences on the evaluation of vehicle sounds: A typology of premium car drivers with regard to their attitude towards cars and sounds
JP7427177B2 (ja) 提案装置および方法
CN110555128A (zh) 一种音乐推荐播放方法以及车载资讯娱乐系统
US20240025251A1 (en) Vehicle human machine interface generating system and method for generating the same
CN117349524A (zh) 一种基于情绪状态进行服务推荐的方法及其系统
CN117580227A (zh) 车辆氛围灯的控制方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination