CN116888588A - 人格档案的生成 - Google Patents
人格档案的生成 Download PDFInfo
- Publication number
- CN116888588A CN116888588A CN202080108250.0A CN202080108250A CN116888588A CN 116888588 A CN116888588 A CN 116888588A CN 202080108250 A CN202080108250 A CN 202080108250A CN 116888588 A CN116888588 A CN 116888588A
- Authority
- CN
- China
- Prior art keywords
- personality
- media
- profile
- user
- descriptors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 claims abstract description 131
- 238000000034 method Methods 0.000 claims abstract description 88
- 238000013507 mapping Methods 0.000 claims abstract description 37
- 238000004458 analytical method Methods 0.000 claims description 27
- 230000036651 mood Effects 0.000 claims description 26
- 230000007774 longterm Effects 0.000 claims description 18
- 238000013473 artificial intelligence Methods 0.000 claims description 15
- 238000010801 machine learning Methods 0.000 claims description 15
- 230000001020 rhythmical effect Effects 0.000 claims description 9
- 230000000875 corresponding effect Effects 0.000 description 18
- 230000002776 aggregation Effects 0.000 description 15
- 238000004220 aggregation Methods 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 14
- 230000002996 emotional effect Effects 0.000 description 14
- 239000000047 product Substances 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 9
- 230000001755 vocal effect Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004097 X-ray Buerger Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000001272 neurogenic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001107 psychogenic effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 235000019640 taste Nutrition 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/635—Filtering based on additional data, e.g. user or group profiles
- G06F16/637—Administration of user profiles, e.g. generation, initialization, adaptation or distribution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
- Medicines Containing Material From Animals Or Micro-Organisms (AREA)
- Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
Abstract
本公开涉及一种用于提供人格档案的方法。该方法包括:获取一个或更多个媒体项的标识;获取所标识的一个或更多个媒体项中的每个的媒体内容描述符集合,媒体内容描述符集合包括包含相应媒体项的语义描述符的特征,语义描述符包括相应媒体项的至少一个情感描述符;基于各个媒体项的相应媒体内容描述符来确定用于整个所标识的一个或更多个媒体项的聚合媒体内容描述符集合;将聚合媒体内容描述符集合映射到人格档案,其中,人格档案包括档案的元素的多个人格分数,根据聚合媒体内容描述符集合的聚合特征计算人格分数;以及提供与一个或更多个媒体项相对应的人格档案。
Description
技术领域
背景技术
本申请涉及分析媒体内容以用于根据所生成的媒体项的语义描述符确定媒体档案和人格档案。媒体档案和人格档案可以在多种使用情况下使用,例如,用于推荐相似媒体项以及确定具有匹配档案的媒体用户。使用情况可以包括媒体推荐引擎、虚拟现实、智能助理、广告(定向营销)和计算机游戏。
发明内容
在广义方面,本公开涉及根据一个或更多个媒体项生成人格档案。媒体项可以是任何种类的媒体内容,特别是音频剪辑或视频剪辑。音频媒体项优选地包括音乐或音乐部分,并且优选地是音乐片段。图片、一系列图片、视频、幻灯片和图形表示是媒体项的进一步示例。所生成的媒体和人格档案表征媒体项的客户(即消费媒体项的用户)的人格或情感状况。
用于提供人格档案的方法包括:获取一组媒体项的标识,该组媒体项包括一个或更多个媒体项。可以例如通过(经由URL)引用媒体项的存储位置的列表(例如,用户或用户组的播放列表、或者用户的流历史)、或通过列出媒体项的名称或标题(例如,艺术家、专辑、歌曲)、或通过唯一标识符(例如,ISRC、MD5和(MD5 sum)、音频识别指纹等)来标识媒体项。例如,所标识的一个或更多个媒体项可以对应于专辑或播放列表。对应的音频/视频文件的存储位置可以通过查表或搜索过程来确定。
接下来,获取该组的所标识的一个或更多个媒体项中的每个的媒体内容描述符集合。媒体项的媒体内容描述符集合(也称为媒体项的媒体档案、或者在音乐媒体项的情况下的音乐档案)包括在不同方面表征媒体项的多个媒体内容描述符(也称为特征)。除了可选的其他描述符之外,媒体内容描述符集合包括媒体项的语义描述符。语义描述符在高级别方面描述媒体项的内容,诸如媒体项所属的流派。在这种意义上,它可以将媒体项分类为多个语义类中的一个,并且以高概率指示媒体项属于哪个语义类。例如,语义描述符可以表示为指示媒体项的类成员资格的二进制值(0或1),或表示为指示媒体属于语义类的概率的实数。语义描述符可以是指示媒体项与情感方面(诸如情绪)相对应的情感描述符。情感描述符可以将该媒体项分类成多个情感类中的一个或更多个,并以高概率指示该媒体项属于哪个情感类。情感描述符可以被表示为指示媒体项的类成员资格的二进制值(0或1),或表示为指示媒体属于情感类的概率的实数。
可以根据所标识的媒体项计算媒体内容描述符,或者从存储有多个媒体项的预分析的媒体内容描述符的数据库中检索媒体内容描述符。像这样,获取所标识的一个或更多个媒体项中的每个的媒体内容描述符集合的步骤可以包括从数据库检索媒体项的媒体内容描述符集合。一些媒体内容描述符具有量化针对媒体项呈现的相应语义描述符和/或情感描述符的程度的数值。例如,数值媒体内容描述符可以被归一化并且具有在0与1之间或在0%与100%之间的值。
基于各个媒体项的相应媒体内容描述符,确定用于整组的所标识的一个或更多个媒体项的聚合媒体内容描述符集合。聚合媒体内容描述符表征该组中的媒体项的语义描述符和/或情感描述符。包括情绪并且与用户或用户组相关联的聚合媒体内容描述符集合也被称为用户或用户组的情感档案。可以通过对媒体项的各个媒体内容描述符(特别是具有数值的媒体内容描述符)的值进行平均来计算聚合媒体内容描述符。要注意的是,除了对各个媒体内容描述符的值进行简单平均之外的其他方法也是可能的。例如,可以应用均方根(root mean square,RMS)或(例如在聚合中强调较大值的)其他聚合公式(例如,“对数均值指数平均”(log-mean-exponent averaging))。由此,确定聚合媒体内容描述符集合的步骤可以包括:根据该组所标识的媒体项的相应数值内容描述符计算聚合数值内容描述符。
用户的聚合媒体内容描述符集合(即,他/她的情感档案)然后被映射到该组媒体项的人格档案。人格档案具有档案的元素的多个人格分数。根据聚合媒体内容描述符集合的聚合特征(例如,用户或用户组的情感档案)计算人格分数。典型地,人格档案基于定义包括属性(表示人格特质的值对)的多个档案元素的人格方案。档案元素的值也称为档案分数。人格方案的示例是迈尔斯-布里格斯型指标(Myers-Briggs type indicator,MBTI)、自我平衡(Ego Equilibrium)、大五人格特质(OCEAN:开放、尽责、外向、随和、神经质)、或九型人格(Enneagram)。定义人格档案元素的其他方案是可能的。
所标识的媒体项可能涉及用户的情感/心理情境并且允许确定该用户的人格档案。如果一个或更多个媒体项的标识包括用户的短期媒体消费历史(例如,最近收听的音乐片段),所生成的人格档案表征用户的当前或最近的情绪。如果一个或更多个媒体项的标识包括标识该用户的长期媒体项使用历史的播放列表,则所生成的人格档案表征该用户的长期人格档案。对于一些实施例,具体地,对于广告和品牌推广使用情况,还可以将长期人格档案与(基于最近收听的歌曲的情绪的)短期人格档案之间的混合考虑为用户的相关人格档案。
所生成的人格档案可以被分类成例如对应于人格方案的多个人格类型中的一个。分类可以基于与阈值相比较的档案分数。可以使用其他分类方案,诸如确定最大的分数。根据比较的结果,可以将人格类型分配给档案,因此分配给用户。例如,人格档案(例如MBTI)具有多个数值(分数),多个数值整体描述了人格类型。为了做出决定,可以根据这种档案确定“最大人格属性”以确定“单一人格类型”。两者都允许对用户进行心理表征,第一个是更细粒度的,第二个是针对一种特定的人格类型决定的。
分类结果和/或所生成的人格档案或所确定的人格类型的图形表示可以被显示在计算设备上或传输到数据库服务器。对应于一个或更多个媒体项的人格档案可以用于多种使用情况,诸如在媒体推荐引擎、智能助理、智能家庭、广告、产品定位、营销、虚拟现实和游戏中用于推荐相似媒体项或确定具有与所分析的音乐的档案相匹配的人格档案的媒体用户。反之亦然,可以选择与用户的人格档案相匹配的媒体项。在实施例中,根据媒体项的档案确定特定媒体项的一组目标用户,或者选择给定目标用户组的最佳音乐。
媒体项的媒体内容描述符集合可以进一步包括媒体项的一个或更多个声学描述符。可以基于媒体项内容的声学数字音频分析来确定媒体项的声学描述符(也称为声学属性)。例如,声学分析可以基于媒体项的音频内容推导的声谱图。例如基于分析音频波形信号,可以采用各种技术用于根据音频信号获取声学描述符。声学描述符的示例为音速(每分钟节拍)、持续时间、基调、模式、节奏存在和(频谱)能量。
可以至少部分地基于确定媒体项的一个或更多个情感描述符和/或一个或更多个语义描述符的一个或更多个人工智能模型来确定媒体项的媒体内容描述符集合。一个或更多个语义描述符可以包括流派或声乐属性(诸如,语音存在、语音性别(分别为低音或高音))中的至少一个。情感描述符的示例是音乐情绪和节奏情绪。人工智能模型可以基于机器学习技术,诸如深度学习(深度神经网络)。例如,人工神经网络可以被用于确定媒体项的情感描述符和语义描述符。可以通过由音乐专家和数据科学专家提供的大量数据集来训练神经网络。还有可能使用人工智能模型或机器学习技术(例如,神经网络),来确定媒体项的声学描述符(诸如bpm或基调)。
可以对媒体项的分段进行分析,并且基于对各个分段的分析结果来确定媒体项的媒体内容描述符集合。例如,媒体项可以被分段成媒体项部分,声学分析和/或人工智能技术可以被应用于各个部分,以与针对整组媒体项聚合媒体项的媒体内容描述符相似的方式,针对这些部分生成声学描述符和/或语义描述符,随后聚合声学描述符和/或语义描述符,以形成完整媒体项的声学描述符和/或语义描述符。
可以基于映射规则确定人格档案的人格分数(即,档案元素的属性(值对)的值),映射规则定义如何根据聚合媒体内容描述符集合计算人格分数。映射规则可以定义聚合媒体内容描述符集合中的哪个聚合媒体内容描述符对人格分数有贡献以及如何对人格分数有贡献的。例如,基于所标识的媒体项的加权聚合数值内容描述符确定人格档案的人格分数。基于加权,不同的内容描述符可以以不同的程度对分数做出贡献。进一步地,可以基于所标识的媒体项的聚合内容描述符的存在或不存在来确定人格档案的人格分数。换言之,如果存在聚合内容描述符,则例如通过对归一化的数值聚合内容描述符进行加权,可对分数做出贡献。可选地,在聚合内容描述符被认为不存在的情况下,对分数的贡献可以通过对1减去归一化的数值聚合内容描述符值(具有0和1之间的值)的差进行加权来表示。
可以通过机器学习技术来学习映射规则。例如,可以通过使用多个目标档案(现实世界用户档案)的机器学习和合适的机器学习技术来确定聚合数值内容描述符对分数贡献的权重,合适的机器学习技术能够确定关于如何从内容描述符映射到人格档案。此外,这种机器学习技术可以确定哪个内容描述符可能对档案分数有贡献并选择相应的内容描述符。
根据标识用户的长期媒体项使用历史的播放列表可以确定用户的(长期)人格档案,根据用户的短期媒体消费历史确定用户的(短期)情绪档案。该方法可以进一步包括:计算用户的长期人格档案和短期情绪档案之间的差异。基于这种差异,可以确定用户的当前情绪与他/她的一般人格有何不同。这可能有助于基于用户的一般人格档案的短期“偏离”推荐某个的音乐方向。
在为用户或用户组选择合适的媒体项的实施例中,为多个媒体项中的每个提供单独的人格档案。由此,在情感和人格方面来表征每个媒体项。此外,可以定义对应于一组用户或个体用户的目标人格档案。由此,用户或用户组还在情感和人格方面通过他/她/他们的人格档案来表征。该方法可以进一步包括:将媒体项的人格档案与目标人格档案进行比较,以及确定相对于该目标人格档案具有最佳匹配人格档案的至少一个媒体项。如果目标人格档案对应于个体,则这允许为用户选择最佳匹配的音乐。进一步地,如果目标人格档案对应于一组目标用户,则该方法为目标用户组提供最佳音乐的选择。
对一个或更多个最佳匹配人格档案的搜索可以基于对媒体项的人格档案与目标人格档案的比较。例如,档案的比较可以基于匹配档案元素并且选择具有与目标人格档案相同或相似的元素的媒体项的人格档案。进一步地,档案的比较可以基于相似性搜索,在相似性搜索中比较档案元素的对应分数并计算指示相应档案对的相似性的匹配分数值。档案对的匹配分数可以基于档案元素的对应属性值(分数)的各个匹配分数。例如,可以计算档案元素的对应值(分数)之间的差(例如,欧几里得距离、曼哈顿距离、余弦距离等)和由此计算的所比较的档案对的匹配分数。在实施例中,确定多个最佳匹配的人格档案,并且根据媒体项的人格档案的匹配分数对媒体项的人格档案进行排序。这允许确定最佳匹配的媒体项、第二最佳匹配等。
档案的比较可以进一步根据用户或用户组的相应情境或环境。情境或环境的示例是用户的位置、一天中的时间、天气、用户附近的其他人。相似的情境或示例可以用于用户组。
除了媒体项的人格档案之外,还可以通过以上公开的方法基于用户的一个或更多个优选媒体项的标识来确定用户的目标人格档案。由此,目标档案表征用户的人格,该方法允许找到与用户的人格相匹配的媒体项。如果所标识的优选媒体项中的一个或更多个是用户最新消费的媒体项,则目标人格档案表示用户的当前情绪。所标识的媒体项随后匹配用户的当前情绪。
可以选择所确定的媒体项中的至少一个用于向用户回放或推荐。可以将所选择的媒体项或者与所选择的媒体项相关联的信息(例如对媒体项存储或媒体数据库的引用)提供给用户或与用户相关联的用户设备,使得可以向用户推荐、检索或播放媒体项。
在实施例中,人们可能不想要简单地向用户呈现相同情绪的更多音乐,而是想要通过呈现不同情绪的音乐来主动地改变他的情绪。例如,如果确定用户是悲伤的,则选择以快乐情绪为表征的音乐并向用户播放。为此,用于搜索最佳匹配人格档案的目标档案可以是与用户的当前情绪档案互补的档案。在这种情况下,搜索最佳匹配媒体项可以基于将媒体项的人格档案与目标人格档案进行比较、以及确定与用户的当前情绪互补的媒体项。
例如,在确定的时间段之后或者在已经将多个媒体项呈现给用户之后,可以重复地执行媒体项的人格档案与目标人格档案的比较以及具有最佳匹配人格档案的至少一个媒体项的确定,该比较可以基于最近确定的用户档案作为目标档案。这样,可以例如在向用户呈现媒体项之后实时地定期更新用户的人格档案和用户的推荐或回放选择。这允许自适应音乐呈现服务,其中,根据先前播放的音乐,向用户播放新媒体项。
可以在服务器平台上生成人格档案。该方法还可以包括:将用户的一个或更多个优选媒体项的标识从与用户相关联的用户设备传输到服务器平台。因此,服务器接收关于用户的媒体消费(例如,播放列表)的信息并且可以根据该信息确定用户的人格档案。如上所述,这可以重复地执行。用户设备可以是任何用户装置,诸如个人计算机、平板计算机、移动计算机、智能电话、可穿戴设备、智能扬声器、智能家庭环境、汽车收音机等或这些设备的任何组合使用。在服务器通过将媒体项的人格档案与用户的目标人格档案进行比较已经确定最佳匹配媒体项之后,服务器可以将至少一个所确定的最佳匹配媒体项的表示传输至用户设备,在用户设备处接收信息并将信息呈现给用户,或引起对所确定的最佳匹配媒体项的回放。
用户的一个或更多个优选媒体项(例如,播放列表)的标识可以存储在服务器平台上,在服务器平台上生成用户和媒体项的人格档案。在服务器通过将媒体项的人格档案与用户的目标人格档案进行比较已经确定最佳匹配媒体项之后,服务器可以将至少一个所确定的媒体项的表示传输到与用户相关联的用户设备,在用户设备处接收信息并将信息呈现给用户,或引起所确定的最佳匹配媒体项的回放。
在本公开的另一方面,提出了一种用于执行上述方法中任一项的计算设备。计算设备可以是服务器计算机,服务器计算机包括用于存储指令的存储器和用于执行指令的处理器。计算设备可以进一步包括用于与用户设备通信的网络接口。计算设备可以从用户设备接收关于由用户消费的媒体项的信息。计算设备可以被配置为生成如以上所公开的人格档案。根据使用情况,人格档案可以用于推荐相似的媒体项或确定具有与所分析的音乐的档案相匹配的人格档案的媒体用户。可以向用户设备传输关于推荐的媒体项的信息。在实施例中,确定特定媒体项的一组目标用户,或者选择给定目标用户组的最佳音乐。
所公开的设备的实施方式可以包括使用(但不限于)一个或更多个处理器、一个或更多个专用集成电路(application specific integrated circuit,ASIC)和/或一个或更多个现场可编程门阵列(field programmable gate array,FPGA)。设备的实施方式还可以包括使用其他常规和/或定制硬件,诸如软件可编程处理器(诸如图形处理单元(graphicsprocessing unit,GPU)处理器)。
本公开的另一个方面可以涉及计算机软件、计算机程序产品、或者包含用于在可编程计算机或专用硬件上执行的计算机软件指令的任何介质或数据,可编程计算机或专用硬件包括至少一个处理器,这使至少一个处理器执行在本公开中公开的方法步骤中的任一方法步骤。
虽然本文将具体参考以上申请描述一些示例实施例,但将理解,本公开不限于此类使用领域,而是可以应用于更广泛的情境中。
值得注意的是,应当理解,根据本公开的方法涉及操作根据上述示例实施例及其变型的设备的方法,关于设备做出的相应陈述同样适用于相对应的方法,反之亦然,因此,为了简明起见,可以省去相似的描述。此外,即使没有明确公开,也可以以多种方式组合上述方面。本领域技术人员将理解,除非它产生明确排除的矛盾,否则这些方面和特征/步骤的组合是可能的。
在以下讨论的过程中并且通过参考附图,本公开的其他和进一步的示例实施例将变得清楚。
附图说明
现在将参考附图仅通过示例来描述本公开的示例实施例,在附图中:
图1示意性地示出了本公开的实施例的操作;
图2a示出了根据音频文件生成语义描述符;
图2b示出了由音频内容分析单元生成语义描述符;
图3a示出了情绪内容描述符到MBTI人格方案的E-I(extraversion–introversion(外向-内向))人格分数的映射;
图3b示出了情绪内容描述符到OCEAN人格方案的开放人格分数的映射;
图4a示出了MBTI人格方案的人格档案的图形表示的示例;
图4b示出了OCEAN人格方案的人格档案的图形表示的示例;以及
图5示出了为给定目标用户组选择最佳音乐的方法的实施例。
具体实施方式
根据本公开的广泛方面,由用于生成对应于所分析的媒体项的人格档案或情感档案的人格档案引擎确定媒体项(诸如音乐片段)的特征。这允许各种新应用(在本公开中也称为‘使用情况’),从而能够对媒体项或媒体用户进行分类、搜索、推荐和定位。例如,人格档案或情感档案可以用于推荐用户可能感兴趣的媒体项。
例如,如果到人格档案引擎的输入是用户的短期音乐收听历史,则可以根据用户的最近播放的音乐来确定表征音乐收听者的情绪的人格档案。如果输入是长期音乐收听历史,则可以确定音乐收听者的一般人格档案。甚至可以计算用户的长期人格档案与当前情绪之间的差异,并且确定用户是否处于异常状况。
由人格档案引擎生成的人格档案允许检测,例如,音乐收听者的情感签名,从而集中于定义人类的多层人格的情绪、感受和价值观。这允许解决例如以下问题:收听者是有自我意识的还是精神性的?他/她喜欢运动还是旅行?
在音频示例中,可以基于音频文件的情感描述符和/或语义描述符找到相似的发声音乐曲目。使用所生成的情感档案的媒体相似性引擎可以利用机器学习或人工智能(AI)来匹配和找到音乐上和/或情感上相似的曲目。这样的媒体相似性引擎可以像人类一样收听和理解音乐,然后搜索数百万首音乐曲目以寻找特定声学或情感模式,满足在数秒内找到所需音乐的要求。基于所生成的档案,可以仅搜索例如器乐或声乐曲目,或者可以根据其他语义标准(诸如流派、音速、情绪或低音与高音)进行搜索。
所提出的技术的基础是人格档案引擎,该人格档案引擎基于音频分析和/或人工智能(例如深度学习算法、神经网络等)用媒体内容描述符对媒体项进行标记。人格档案引擎可以利用AI来丰富元数据,用加权的情绪、情感和音乐属性(诸如流派、基调和音速(以每分钟节拍数bpm为单位))来标记媒体曲目。人格档案引擎可以分析媒体项(例如,音乐曲目(歌曲))中的情绪、流派、声学属性和情境,并且获取这些类别内的不同“标签”的加权值。人格档案引擎可以分析媒体目录,并用对应的元数据标记目录内的每个媒体项。媒体项可以用例如关于以下的媒体内容描述符来标记:
·声学属性(bpm、基调、能量…);
·情绪/节奏情绪;
·流派;
·声乐属性(器乐、高音、低音);以及
·情境。
在从“情感”角度标记音乐的情绪类别中,人格档案引擎可以输出例如高达35个“复杂情绪”的值,这些值可以在18个情绪亚家族内按分类法进行分类,18个情绪亚家族被结构化成6个主要家族。6个主要家族和18个亚家族包括所有人类情感。可以任意地细化在情绪分类法中所应用的细节水平,即如果需要,可以将35个“复杂情绪”进一步细分或进一步添加“复杂情绪”。
图1示意性地示出了用于生成人格档案并确定档案中的相似性以便(诸如针对相似媒体项或匹配的用户或用户组)进行不同推荐的本公开的实施例的操作。人格档案引擎10从媒体数据库20接收一个或更多个媒体文件21。为了从数据库20检索媒体项,在提供给人格档案引擎10的媒体列表30中标识媒体文件。媒体列表30可以是从播放列表数据库和用户定义的播放列表中检索的用户的播放列表,播放列表数据库存储用户已经播放的最新媒体项,用户定义的播放列表表示用户的媒体偏好。
分析媒体文件21以确定包括用于音频内容的声学描述符、语义描述符和/或情感描述符的媒体内容描述符43。例如通过产生(诸如音频内容的声谱图的)频域表示以及利用以计算(诸如音速(bpm)或基调的)声学特征的方法分析时频平面,由音频内容分析单元40确定一些媒体内容描述符43,音频内容分析单元40包括分析音频内容的声学特征的声学分析单元41。可以根据角度和/或对数标度例如以Log-Mel-Spectrogram形式来变换声谱图。媒体内容描述符可以存储在媒体内容描述符数据库44中。
人格档案引擎10的音频内容分析单元40进一步包括人工智能单元42,该人工智能单元42使用人工智能模型来确定媒体内容描述符43,诸如针对音频内容的情感描述符和/或语义描述符。人工智能单元42可以对音频内容的任何适当表示进行操作,音频内容的任何适当表示诸如音频内容的时域表示、频域表示(例如如上所述的Log-Mel-Spectrogram),或从由声学分析单元41生成的音频波形和/或频域表示导出的中间特征。人工智能单元42可以生成例如音频内容的情绪描述符,音频内容的情绪描述符表征音频内容的音乐和/或节奏情绪。可以在专有的大规模专家数据上训练这些AI模型。
图2a示出了由音频内容分析单元根据音频文件生成语义描述符的示例。在实施例中,音频文件样本可选地被分段成音频块,并被转换成(诸如Log-Mel-Spectrogram的)频率表示。音频内容分析单元40随后应用各种音频分析技术以从声谱图提取低级和/或中级和/或高级语义描述符。
图2b进一步示出了由音频内容分析单元40生成语义描述符的示例。虽然图2a示出了通过传统信号处理方法进行的直接音频内容分析,但是图2b示出了神经网络驱动的音频内容分析,其必须首先从“基础事实”数据(“先验知识”)学习。音频文件被转换为声谱图,并且应用一个或更多个神经网络以生成用于音频文件的媒体内容描述符43,诸如情绪、流派和情境。针对此任务,基于大规模专家数据(用于监督的神经网络训练的大型且详细的“基础事实”媒体注释)来训练神经网络。在由人工智能单元42生成语义描述符的示例中,音频文件的声谱图数据被作为输入馈送至神经网络,神经网络生成语义描述符作为输出。在实施例中,一个或更多个卷积神经网络用于生成例如流派、节奏情绪、语音家族的描述符。也可以使用其他网络配置和网络的组合。
映射单元50通过应用从映射规则数据库52接收的映射规则51将音频文件的媒体内容描述符43映射至媒体人格档案61。映射规则51可以定义哪些媒体内容描述符被用于计算档案分数(即,档案属性的值)、以及哪个权重被应用于媒体内容描述符。映射规则51可以表示为链接媒体内容描述符和档案属性的矩阵,并提供媒体内容描述符权重。可以将生成的人格档案61提供给媒体相似性引擎70以用于确定相似的档案,或者可以将生成的人格档案61存储在档案数据库60中以供以后使用。
在生成一组媒体项的人格档案的情况下,生成(或从媒体内容描述符数据库44检索)该组中的各个媒体项的媒体内容描述符43,并且生成整组媒体项的聚合媒体内容描述符。可以通过计算该组媒体项的相应媒体内容描述符的平均值来实现数值媒体内容描述符的聚合。也可以使用其他聚合算法,诸如均方根(Root-Mean-Square,RMS)。然后,映射单元50对聚合媒体内容描述符(例如,情感档案)进行操作,并且为整组媒体项生成人格档案。
媒体相似性引擎70可以直接从人格档案引擎10或从档案数据库60接收档案,如图1所示。媒体相似性引擎70比较档案以通过匹配档案元素或基于如下文所公开的相似性搜索来确定档案中的相似性。一旦确定了与目标档案相似的档案71,就可以确定对应的媒体项或用户并作出相应的推荐。例如,与用户的播放列表相匹配的一个或更多个媒体项可以被确定并且在用户的终端设备上自动播放。在本公开中陈述了其他使用情况。
如前所述,人格档案引擎可以使用机器学习或深度学习技术来确定媒体项的情感描述符和语义描述符。训练可以基于由大量数据点组成的数据库,以便学习关系来分析人的音乐品味和收听习惯。该算法可以检索用户的心理-情感肖像并补充现有的人口统计和行为统计以创建完整且演进的用户档案。人格档案引擎的输出是用于用户分析他们的音乐(播放列表或收听历史)的心理激励的用户档案(“人格档案”)。
人格档案引擎可以从较小或较大数量的媒体项中导出用户的人格档案。例如,如果基于用户在流服务上播放的最后10个或更多个音乐项,那么引擎可以计算用户的短期(“即时”)档案(反映“音乐收听者的当前情绪”)。如果(较大数量的)音乐项表示用户的较长期收听历史或最喜爱的播放列表,则引擎可以计算用户的固有人格档案。
人格档案引擎可以使用高级机器学习和深度学习技术来理解来自音频信号的音乐的有意义的内容,以超越简单的文本语言和标签进行查看以实现类似人类的比较水平。通过从音频信号捕获音乐方面的基本信息,算法可以学习理解音乐中的节奏、节拍、风格、流派和情绪。所生成的档案可以被应用于音乐或视频流服务、数字或线性无线电、广告、产品定位、计算机游戏、标签、图书馆、出版商、店内音乐提供商或同步机构、语音助理/智能助理、智能家居等。
人格档案引擎可以应用高级深度学习技术来理解来自音频的音乐的有意义的内容,从而实现类似人类的比较水平。该算法可以分析和预测相关情绪、流派、情境和其他基调属性,并且分配加权的相关性分数(%)。
该媒体相似性引擎可以应用于推荐、音乐定位和音频品牌推广任务。它可以用于音乐或视频流服务、数字或线性无线电、快速消费品(fast-moving consumer good,FMCG)(也称为消费包装品(consumer-packaged good,CPG))、广告商、创意机构、约会公司、店内音乐提供商或在电子商务中使用。
人格档案引擎
人格引擎可以被配置为通过执行以下方法基于一组媒体项生成人格档案。在第一步骤中,例如以用户定义的播放列表的形式获取包括一个或更多个媒体项的标识的一组列表。接下来,从先前分析的媒体项的数据库生成或检索用于该组的所标识的一个或更多个媒体项中的每个的媒体内容描述符集合。媒体内容描述符集合包括以下至少一个:相应媒体项的声学描述符、语义描述符和情感描述符。然后,该方法包括:基于各个媒体项的相应媒体内容描述符来确定用于整组的所标识的一个或更多个媒体项(即,用户的情感档案)的聚合媒体内容描述符集合。最后,聚合媒体内容描述符集合被映射到该组媒体项的人格档案。根据聚合媒体内容描述符集合的聚合特征来计算档案元素的分数。
在示例实施例中,应用人格档案引擎来确定媒体用户的情绪。例如,基于输入“短期音乐收听历史”确定音乐收听者的情绪;或者根据输入:长期音乐收听历史,确定音乐收听者的一般人格档案。在进一步地使用情况下,人的人格档案可以与其他人的人格档案有关,以确定在该特定时刻具有相似档案的人(例如,匹配人、推荐具有相似档案产品(电子商务)的人或建议人与其他人联系(交友、约会、社交网络……)。
人格档案引擎可以进一步用于使诸如音乐的媒体项(例如,当前播放列表和/或建议或者其他形式的娱乐(电影、……)或者诸如智能家居的环境):a)适应人的当前情绪;和/或b)意图改变人的情绪(由人明确表达的意图、或者由系统触发的隐式改变意图,例如以用于产品推荐或优化(增加)用户在平台上的停留)。
人格档案引擎可以用于计算用户的长期人格档案与当前(情绪)档案之间的差异,以便确定用户的当前情绪与他/她的一般人格有何不同。例如,这对于(根据某个收听情境、一天中的时间、用户的情绪等)将用户的一般人格档案的短期“偏离”中的推荐适配到某个音乐方向以及用于确定广告(ad)的显示是有用的,广告将通常适合用户的人格档案,但是因为当前收听情况的当前情绪档案偏离,所以此时并不适合用户的人格档案。在这两种情况下,推荐或广告放置可以适配于此时的用户的各个情况。
这些实施例的基础是人格档案引擎,该人格档案引擎分析由所提供的列表标识的一组媒体项。例如,分析(来自数字音频文件的)一组音乐歌曲中的音频曲目。分析可以是例如通过应用音频内容分析和/或机器学习(例如,深度学习)方法。人格档案引擎可以应用:
·用于从音频提取低级、中级和高级特征的算法。低级特征的示例是音频波形/声谱图相关特征(或“描述符”),中级特征(或“描述符”)是
“波动”、“能量”等,高级特征是语义描述符和情感描述符(像流派或情绪或基调)。
·声学波形和声谱图分析以分析声学属性,诸如音速(每分钟节拍)、基调、模式、持续时间、频谱能量、节奏存在等。
·基于神经网络/深度学习的模型,(例如,经由从音频曲目的各个分段提取的对数梅尔频率谱图)用于根据音频输入、高级描述符(诸如流派、情绪、节奏情绪和语音存在(器乐或声乐))、以及声乐属性(例如低音或高音)进行分析。神经网络/深度学习模型可能已经在大规模训练数据集上被训练,该大规模训练数据集包括由专业音乐学家标记的上述类别的(数百)数千个注释的示例。例如,可以使用深度学习卷积神经网络,但是可以使用其他类型的神经网络(诸如递归神经网络)或其他机器学习方法或者这些方法的任何混合作为替代。在实施例中,为情绪、流派、节奏情绪、语音存在/声乐属性的每个类别组训练一个模型。替代方案是训练一个完全共同的模型,或者例如训练同时用于情绪和节奏情绪的一个模型,或者甚至为每个情绪或流派本身训练一个模型。
可以对音频文件的若干时间位置执行音频分析(例如,对歌曲的第一部分、中间部分和最后部分执行3次15秒),也可以对完整音频文件执行音频分析。
输出可以被存储在分段级或音频曲目(歌曲)级(例如,来自分段的聚合)。也可以在分级别上应用后续程序(例如以获取每个分段的情绪(或情绪分数)的列表;例如适用于较长的音频记录(诸如古典音乐、DJ混音或播客)、或者在音频曲目具有变化的流派或情绪的情况下)。人格档案引擎可以将具有预测值或%值的所有导出的音乐内容描述符存储在一个或更多个数据库中以供进一步使用(参见下文)。
音频内容分析的输出是来自输入音频的媒体(例如音乐)内容描述符(也称为音频特征或音乐特征),诸如:
·音速:例如,135bpm;
·基调和模式:例如,F#小调;
·频谱能量:例如67%(通过曲目的目录上的最大值确定100%);
·节奏存在:例如55%(通过曲目的目录上的最大值确定100%);
·流派:作为类别列表(独立于其他类别,每个类别均具有0与100之间的%值),例如流行音乐80%、新浪潮音乐60%、流行电音33%、流行舞曲25%;
·情绪:作为音乐中所包含的情绪列表(独立于其他情绪,每个情绪均具有0与100之间的%值),例如梦想(Dreaming)70%、理智(Cerebral)60%、鼓舞(Inspired)40%、痛苦(Bitter)16%;
·节奏情绪:作为音乐中所包含的情绪列表(独立于其他情绪,每个情绪均具有在0与100之间的%值),例如流动的(Flowing)67%、抒情(Lyrical)53%;
·声乐属性:乐器(0或100%)、或在50%与100%之间的“男性”(低音)和/或“女性”(高音)的任何组合。
在实施例中,音频内容分析输出:
·来自音频特征提取:14个中级和高级特征+52个低级(频谱)特征;以及
·来自深度学习模型:67个流派、35种情绪(+24种,通过聚合到亚家族和家族,参见下文)、5种节奏情绪、3种声乐属性。
可选地,通过应用所谓的调整因子,执行对值的后续后处理,例如,给予流派、情绪或者其他类别中的一些更高或者更低的权重。调整因子调整机器预测值使得它们变得更接近人类感知。可以由专家(例如,音乐学家)确定调整因子或者通过机器学习来学习调整因子;可以由每个语义描述符或情感描述符的一个因子来定义调整因子,或者由从不同的机器预测值到调整的输出值的非线性映射来定义调整因子。
此外,可选地,通常按照分类法可以执行音乐内容描述符的聚合以为一组或“家族”音乐内容描述符创建值。在示例中,(按照情绪分类法)由深度学习模型预测的35种情绪被聚合成情绪的18个父“亚家族”和6个“主家族”,总共形成了59种情绪。
可以对以音频的形式递送的(以各种数字格式压缩的或未压缩的)音乐歌曲集合在歌曲级上进行分析。为了生成人格档案,可以为一组多首歌曲(通常称为“播放列表”)聚合多首歌曲的音乐内容描述符及其值。
在一些实施例(使用情况)中,确定收听者的当前情绪。在其他使用情况下,由人格档案引擎确定收听者的长期人格档案。在这两种情况下,输入是音乐歌曲列表,输出是(按照一个或更多个人格档案方案的)用户的人格档案。为了确定音乐收听者的情绪,输入是最近收听过的最近几首歌曲。这些歌曲允许了解用户的当前情绪档案。为了确定音乐收听者的一般(长期)人格档案,输入是表示用户的(长期)历史的(通常较大的一组)歌曲。
人格档案的生成可以基于用户收听的音乐的特征,包括例如(但不限于):情绪、流派、语音存在、声乐属性、基调、bpm、能量和其他声学属性(=“音乐内容描述符”、“音频特征”或“音乐特征”)。这可以针对每个歌曲的音乐内容特征来确定。
在实施例中,从n首歌曲的音乐内容描述符到聚合内容描述符(即用户的情感档案)的聚合被完成,例如作为在集合(播放列表)中的每首歌曲的数值(%)的平均值,或应用更复杂的聚合程序(诸如,中值、几何平均值、RMS(均方根)或各种形式的加权平均值)来完成从n首歌曲的音乐内容描述符到聚合内容描述符(即用户的情感档案)的聚合。
在实施例中,用户的播放列表或用户的收听历史中的歌曲可能已经被预分析以提取音乐内容描述符,这些音乐内容描述符可以包含数值(例如,对于每个值,在0-100%的范围内)。对于每个内容描述符(例如,情绪“敏感度”),可计算和存储所有各个歌曲“敏感度”值的均方根(RMS)。该聚合的输出将是音乐内容描述符集合,音乐内容描述符集合所具有的描述符(属性)与每首歌曲所具有的描述符(属性)的数量相同。聚合音乐内容描述符(情感档案)将在人格档案引擎的第二阶段中被用于确定用户的人格档案。
在一些实施例中,代替用户的播放列表,还可以使用专辑或艺术家的唱片(艺术家的所有曲目)作为聚合的输入。类似地,可以执行针对多个曲目(曲目可以表示专辑或艺术家或播放列表)的(使用如所公开的不同方法的)所述音乐内容描述符的聚合。
一旦已经计算每个音乐内容描述符的聚合值,就生成人格档案。例如,执行从情感档案(情感档案表示针对n首歌曲聚合的音乐内容描述符)中的元素到一个或更多个人格档案的映射。映射将情绪、流派、风格等转换成心理-情感用户特征(人格特质)。执行从所述音乐内容描述符到(包括人格特质/人类特征的)人格档案的分数的映射。可以定义规则以从音乐内容描述符及其值映射到由人格档案方案定义的一个或更多个类型的人格档案。
人格档案引擎的输出是描述用户的人格档案的数值输出参数的范围,被称为人格档案属性和分数。
可以根据各个人格档案方案来定义人格档案,方案诸如:
·MBTI(迈尔斯-布里格斯类型指标);
·自我平衡;
·OCEAN(也称为大五人格特质);
·九型人格。
这些人格档案方案中的每一个由人格属性组成,人格属性例如“外向”或“开放”以及分配分数(值),诸如51%或88%(以下给出具体示例)。
对于所有这些方案,可以使用从音乐内容描述符到档案分数的映射,反之亦然。图3a示出了情绪内容描述符到MBTI人格方案的EI人格分数的映射。映射可以应用如图3a所示的示例中的矩阵。存在(具有%的情绪或其他音乐内容描述符)或不存在(具有100–%的情绪或其他音乐内容描述符)可以与计算人格档案方案内的分数(值)相关。
每个方案可以具有它计算的多个“分数”,例如MBTI方案计算4种分数:EI、SN、TF、JP。对于每种分数,可以定义一个或更多个映射规则,其影响将如何根据聚合音乐内容描述符来计算分数。例如,分数等于由矩阵计算的值的总和除以所考虑的值的数量(即常规平均机制(regular averagingmechanism))。
例如,在EI计算中将(包括在音乐内容描述符中的)情绪“孤僻”用作MBTI方案的一部分。图3a示出了应用于来自音乐内容描述符的情绪部分的EI计算的规则矩阵的示例。规则矩阵示出了如何使用情绪的存在或不存在来计算EI分数。其他音乐内容描述符可以以相似的方式包括在计算中。
在实施例中,EI计算包括结合来自音乐内容描述符的17个值的17个规则。这些规则遵循心理配方,例如,一组“金(metal)”内的规则在心理上定义“闭合的肩膀”,而一组“木(wood)”内的规则定义“张开的肩膀”。
可以对其他档案矩阵(诸如OCEAN)进行相似计算。
如所提及的,MBTI人格档案具有以下分数:EI、TF、JP、SN。以下是MBTI人格档案及其分数的表示的示例:
"mbti":{"姓名":"INTJ","来源":{
"EI":33.66403316629877,
"SN":42.419498057065084,
"TF":57.82423612828757,
"JP":61.02633025243475}}
根据分数值,可以进行基本分数分类。分类可以基于分数值与特定阈值的比较。例如,MBTI方案中的EI分数表示用户的外向(E)与内向(I)之间的平衡。低于50%的EI意味着内向,而高于50%的EI意味着外向。因此,如果EI小于50%,则用户可以被分配给I(内向)类,否则他被分配给E(外向)类。其他MBTI分数可以以相似的方式被分类。
分数被定义为在每个轴上是相对的(E-I、S-N、T-F、J-P)。在每对字母中,值确定这个人是特质的哪一边,这是由小于50%或大于50%决定的。为了从以上示例中扣除字母,通常小于50%的采取字母对的右侧字母,等于或大于50%的采取左侧字母。
例如基于档案分数的基本分类结果,可以将所生成的档案的分数的结果进一步分类为一般人格类型。例如,可以从基本分数分类结果导出以下一般人格类型:
·ESTJ:外向(E)、感觉(S)、思维(T)、判断(J)
·INFP:内向(I)、直觉(N)、情感(F)、感知(P)
将上述示例中的档案分类为INTJ人格类型。将档案分数(EI、TF、JP、SN)的4维空间分类成人格类型允许人格特质在具有有意义表示的正方形中的2维排列。
图4a示出了根据MBTI方案的人格档案的图形表示,其中,可以用颜色指示用户的档案的分类结果(INTJ)。此图提供了用户的档案按照不同心理维度的直观表示。被分类为“INTJ”的人被解释为“优秀策划者、科学家”。可以在用户界面上输出与此MBTI类型相关联的附加人格特质。
在OCEAN人格档案方案中,对“大五”心态被定义以下分数:开放(openness)、尽责(conscientiousness)、外向(extraversion)、随和(agreeableness)、神经质(neuroticism)。图3b示出了情绪内容描述符到OCEAN人格方案的开放人格分数的映射。这里是OCEAN人格档案及其分数的表示的示例:
"ocean":{
"随和":51.10149671582637,
"尽责":73.42223321884429,
"外向":33.66403316629877,
"神经质":50.21693055551433,
"开放":39.72017677623826}
图4b示出了根据OCEAN方案的人格档案的图形表示。此图提供了用户的档案按照不同心理维度的直观表示。
在一些实施例中,可选地可以用根据附加源表征附加的与人相关的参数(例如,人体经由身体传感器(智能手表、运动跟踪设备、情感传感器等)的年龄、性别和/或生物信号)丰富人格档案,或可以将人格档案与根据附加源表征附加的与人相关的参数(例如,人体经由身体传感器(智能手表、运动跟踪设备、情感传感器等)的年龄、性别和/或生物信号)相关联。可选地,还可以用表征人的情境和环境的附加参数(位置、一天中的时间、天气、附近的其他人)丰富人格档案,或可以将人格档案与表征人的情境和环境的附加参数(位置、一天中的时间、天气、附近的其他人)相关联。
在实施例中,人格档案引擎被配置为:为特定媒体项(诸如音乐或视频剪辑)确定一组目标用户。人格档案引擎可以在声学属性、流派、风格、情绪等方面分析一个或更多个媒体项(例如歌曲或专辑或艺术家的歌曲)的内容。然后为媒体项(诸如新发布的歌曲、专辑或艺术家)(以人格档案的形式)生成目标组的描述,并且将描述提供给例如音乐公司、艺术家、音乐营销或声音品牌机构(sound branding agencies)。
人格档案引擎不仅可以为一首或更多首歌曲找到目标组的档案,它还可以以“反向模式”运行并且为一组目标人找到匹配的音乐。虽然通常需要至少10首曲目来计算档案,但是仅需要单个曲目来推荐(在情感上讲)最容易接受这首曲目的人的档案。当在“反向模式”中使用时,人格档案引擎可以推荐非常适合于所选择的档案的曲目的列表。这允许创建以该档案为目标的品牌的播放列表。进一步地,当由无线电台使用时,可以恰好在广告中断之前计算无线电节目的情感“时刻”,并且使这个时刻与品牌以及品牌想要表达/生成的情感一致。
在实施例中,人格档案引擎的输入是一首歌曲(或者,例如属于专辑或艺术家的歌曲集),输出是该歌曲的目标组的描述(例如,新发布的歌曲、专辑或艺术家)。目标组可以由遵循一个或更多个人格档案方案的一个或更多个人格档案指定,人格档案方案诸如MBTI、OCEAN、九型人格、自我平衡或其他。可选地可以通过与人相关的参数(诸如年龄、性别等)来丰富档案。
更详细地,分析音乐歌曲集合中的音频以导出包括语义描述符和/或情感描述符的音乐内容描述符。可选地,例如通过计算多首歌曲的情绪和/或其他描述符的平均值(可能性:平均值、RMS或加权平均值等),对多个曲目(曲目可以表示专辑或艺术家)的所述描述符(使用不同方法)进行聚合、以及确定用户的情感档案。然后,执行从音乐内容描述符到人格档案的映射,如上所述。系统然后输出一个或更多个相关目标人群的档案,这些档案由不同人格档案方案中的一个来定义。目标组的档案可以以数字形式提供,例如,所提及的方案内不同档案分数的浮点数。
媒体相似性引擎
在实施例中,媒体相似性引擎被配置为为给定目标用户组选择最佳音乐。在该实施例中,目标组被定义,媒体相似性引擎选择匹配的音乐,例如用于广播。这允许例如为由目标客户组定义的品牌的广告活动推荐音乐。其他可能的使用情况是店内音乐、广告等。
对于这些实施例,由遵循方案(诸如MBTI、OCEAN、九型人格、自我平衡或其他)的一个或更多个人格档案来指定一组目标人(对于音乐消费、店内音乐、广告活动和其他使用情况,意图为该目标组找到合适的音乐),如上所述。此外,可以添加目标组的人口统计参数。
可以在针对每首歌曲(即根据人格方案映射到人格档案的歌曲的内容描述符集合)的目标组档案与“音乐人格档案”之间的人格档案空间中执行搜索(例如,相似性搜索或精确分数匹配)。然后,标识与目标组人格档案最佳匹配的来自歌曲的“音乐人格档案”。在这方面,可以针对候选歌曲预先计算不同人格档案方案的人格档案分数。然后,通过所定义的目标组的档案分数与每首歌曲的人格档案分数之间的相似性搜索,找到一组目标人的最佳匹配。接下来将描述用于相似性搜索的不同选项。
术语“相似性搜索”应包括用于基于任何对象(例如档案)对之间的相似性搜索大空间对象(这里为档案)的一系列机制。最近邻搜索和范围查询是相似性搜索的示例。相似性搜索可以依赖于度量空间的数学概念,度量空间允许构建高效的索引结构以便在搜索域中实现可扩展性。可替代地,可以在相似性搜索中使用非度量空间(诸如,Kullback–Leibler散度或例如通过神经网络学习的嵌入)。最近邻搜索是邻近搜索的一种形式,可以被表示为在给定集合中找到最接近(或最相似)给定点的点的优化问题。接近度通常用相异性函数表示:对象越不相似,相异性函数值越大。在当前情况下,档案的相似性(相异性)是搜索的度量。
可以在人格档案空间中通过将目标档案与媒体项的人格档案(例如各首歌曲的音乐人格档案)进行比较来执行目标组的最佳匹配媒体项的搜索。此搜索可以通过以下方式执行:
·(根据档案的哪些元素存在或不存在)对档案的元素进行匹配;
·对档案的属性(分数)的值进行匹配(数值搜索);
·此类值的搜索范围(例如,“尊重”分数在75%与100%之间);
·基于向量的匹配和相似性计算:通过(例如使用距离测量,诸如欧几里得距离、曼哈顿距离、余弦距离或其他方法(诸如Kullback–Leibler散度等))比较目标档案和人格档案的数值档案的元素,来计算目标档案和人格档案的值的“接近”程度(在数值距离方面的相似性);
·基于机器学习的学习的相似性,其中,机器或深度学习算法基于提供给算法的示例学习相似性函数;然后,在实施例中可以永久地使用此学习的相似性函数。
可替代地,媒体相似性引擎可以使用人格档案方案到音乐内容描述符的映射来找到与该组目标人相关的音乐。因此,可以执行从目标组人格档案到音乐内容描述符的映射(“反向映射”),在音乐内容描述符空间中,可以执行对与目标档案相匹配的歌曲的搜索。在这种情况下,首先执行从目标组人格档案到音乐内容描述符的反向映射,然后选择与那些内容描述符最佳匹配的歌曲。
在这两种情况下,输出是与所定义的目标组相匹配的媒体项(例如,音乐曲目)的列表。
在实施例中,媒体相似性引擎可以使用用户的人格档案、用户的当前情形或情境及用户的当前情绪中的一个或更多个用于:
·在在线流平台上“实时”推荐音乐;
·在移动设备应用上建议音乐;和/或
·根据个人档案自动播放音乐(lean-back无线电)。
例如,如上所述,人格档案引擎分析用户的收听历史。以此方式,确定用户的人格档案和/或音乐收听者的情感档案(包括他/她的情绪)。接下来,类似于针对特定音乐确定目标组,媒体相似性引擎可以被配置为基于人的(长期)个人音乐收听历史和/或人格档案和/或(短期)情绪档案和/或人格档案、短期和长期人格档案之间的加权混合、以及可选地用户情境和环境信息来确定和发现最符合个人(用户)的音乐。人的情境和环境可以由(例如从移动或其他个人用户设备中测量的)其他数值因子来确定,其中,可以从移动或其他个人用户设备中导出位置数据、天气数据、移动数据、身体信号数据等。这可以在用户正在收听会话中收听期间立即执行。例如,基于他或她之前收听的歌曲,以及根据音乐内容描述符对歌曲的预分析以及它们到一个或更多个人格档案的映射,选择与用户的人格档案最佳匹配的歌曲。为此,将用户的人格档案与经由如以上所解释的从媒体内容描述符集合映射生成的人格档案进行比较。例如,在用户的目标档案和音乐的人格档案之间执行相似性搜索,确定最佳匹配的档案(和对应的音乐项)(并且可能根据匹配分数进行排序)。输出是被建议收听的歌曲列表,并且可以基于新输入(诸如更新的收听历史)实时更新输出。
可选地,以类似的方式,在映射到人格档案之前,根据歌曲集(例如,同一艺术家的专辑、播放列表或歌曲集)(如上所述)聚合音乐内容描述符,以便向收听者推荐艺术家、专辑或播放列表而非各首歌曲。
图5示出了为给定目标用户组选择最佳音乐的方法100的实施例。该方法开始于步骤110,获取包括一个或更多个媒体项的一组媒体项的标识。在步骤120中,获取该组中所标识的一个或更多个媒体项中的每个的媒体内容描述符集合。媒体内容描述符包括表征相应媒体项的声学描述符、语义描述符和/或情感描述符的特征,可以根据媒体项直接计算媒体内容描述符或者从数据库检索媒体内容描述符。上面提供了关于媒体内容描述符的生成的细节。
在步骤130中,基于各个媒体项的相应媒体内容描述符来确定用于整组所标识的一个或更多个媒体项的聚合媒体内容描述符集合。例如,如果所标识的一个或更多个媒体项对应于专辑或艺术家,则为专辑或艺术家确定聚合媒体内容描述符集合。如果仅标识了一个媒体项,则可以根据媒体项的分段来确定聚合媒体内容描述符集合。在步骤140中,聚合媒体内容描述符集合(例如,用户的情感档案)然后被映射到根据如上所述的人格方案定义的人格档案。映射可以基于映射规则。在步骤150中,将所生成的该组媒体项的人格档案提供给媒体相似性引擎。对另一组媒体项重复以上过程,并且为该另一组媒体项生成另外的人格档案。这样,生成多个人格档案,每个档案与其对应的该组媒体项相关联并且根据所应用的人格方案表征相应媒体项。
在步骤160中,将媒体项组的人格档案与目标人格档案进行比较,以及确定具有最佳匹配人格档案的至少一个媒体项。目标人格档案对应于包括一个或更多个用户的一组目标用户,如以上所解释的根据用户的媒体消费历史来确定目标人格档案。在步骤170中选择具有最佳匹配人格档案的至少一个媒体项,用于向用户或一组用户回放或推荐。最后,在步骤180中,系统输出与目标用户组的人格档案一致的曲目、艺术家或专辑的列表、以及匹配分数,匹配分数指示每个输出项匹配程度的值。可以通过如上所述的相似性搜索来执行匹配分数的计算。
应注意的是,上述装置(设备、系统)特征与为了简明起见可能未明确描述的相应方法特征相对应。本文件的公开被认为还延伸至此类方法特征。具体地,本公开被理解为涉及操作上述设备的方法,和/或涉及提供和/或布置这些设备的相应元件。
还应当注意,可以使用硬件和/或软件配置以多种方式来实现所公开的示例实施例。例如,可以使用专用硬件和/或与可在其上执行的软件相关联的硬件来实现所公开的实施例。附图中的组件和/或元件仅是示例,并且不限制实现本公开的特定实施例的任何硬件、与硬件结合的软件、固件、嵌入式逻辑组件、或两个或更多个此类组件的组合的使用或功能的范围。
应进一步注意,说明书和附图仅示出了本公开的原理。本领域技术人员将能够实施各种布置,虽然在本文中未明确描述或示出这些布置,但是这些布置体现了本公开的原理并且被包括在本公开的精神和范围内。此外,本公开中概述的所有示例和实施例主要明确地旨在仅用于解释性目的,以帮助读者理解所提出的方法的原理。此外,本文中提供本公开的原理、方面和实施例以及其具体示例的所有陈述旨在涵盖其等同物。
词汇表
本文件使用了以下术语。
媒体
媒体包括可以呈现给用户的所有类型的媒体项,诸如(特别是音乐的)音频和(包括所结合的音频曲目的)视频。进一步地,图片、一系列图片、幻灯片和图形表示是媒体项的示例。
媒体内容描述符
通过分析媒体项的内容来计算媒体内容描述符(又称“特征”)。通过分析数字音频(歌曲的分段(摘录)或整个歌曲)来计算音乐内容描述符(又称“音乐特征”)。它们被组织成音乐内容描述符集合,其包括情绪、流派、情境、声学属性(基调、音速、能量等)、语音属性(语音存在、语音家族、语音性别(低音或高音))等。它们中的每个包括一系列描述符或特征。由名称和浮点或%值(例如,bpm:128.0,能量:100%)来定义特征。
音乐
音乐是媒体项的一个示例,指的是包括音调或声音的音频数据,该音调或声音以单行(旋律)或多行(和声)发生,并由一个或更多个语音或乐器、或两者来发声。音乐项的媒体内容描述符也被称为音乐内容描述符或音乐档案。
情感档案
情感档案包括与情绪或情感相关的一个或更多个媒体内容描述符集合或一个或更多个音乐内容描述符集合,可以为多个媒体项来确定情感档案,在这种情况下,多个媒体项是各个媒体项的内容描述符的聚合。通常通过聚合来自与个人或个体(例如消费的)相关的媒体项集合的媒体/音乐内容描述符来得到情感档案。情感档案包括与媒体/音乐内容描述符相同的元素,媒体/音乐内容描述符具有(根据所使用的聚合方法)由各个内容描述符的聚合确定的值。
人(用户、个体):情感档案和人格档案
人(也称为用户或个体)由情感档案或人格档案表征。情感档案由媒体内容描述符的元素来表征(见上文)。然而,人格档案包括具有%值的多个不同元素:人格档案的元素是人格档案方案内(例如,由名称或属性和%值(例如MBTI:“EI:51%”)定义)的加权元素。人格档案由诸如MBTI、OCEAN、九型人格等的人格档案方案来定义,并且可能涉及:
-用户的情绪(即时、短期)-即被解释为用户的短期情感状态的人格档案(也称为用户的情绪档案);或
-用户的人格类型(长期)-即从用户的媒体消费行为的长期观察得出的人格档案。
目标组
目标组描述一组人。目标组被指定为“人格档案”中的一个或“人格档案”的组合。可选地,可以通过与人相关的参数(诸如年龄、性别等)来丰富目标组。
产品
产品档案包括产品属性,产品属性以心理、情感或类似营销的方式对产品进行描述。属性可以与重要性的%值相关联。
品牌
产品档案可能涉及品牌。品牌档案包括以心理、情感或类似营销的方式对品牌进行描述的品牌属性。属性可以与重要性的%值相关联。
映射
映射指的是在算法上实现并且将档案从一个实体(例如,媒体项、音乐)变换到另一个实体(例如,个人、产品或品牌)的规则集合,(或反之亦然)。例如,根据人格档案方案,在内容描述符集合(情感档案)与人格档案之间应用映射。
相似性搜索
相似性搜索是计算任何种类的两个或更多个“档案”(情感档案、人格档案、产品档案等)之间的相似性、接近度或距离的算法过程。输出是具有匹配分数的档案项的排序列表:指示档案匹配程度的值。
Claims (32)
1.一种用于提供人格档案的方法,包括:
获取一个或更多个媒体项的标识;
获取所标识的一个或更多个媒体项中的每个的媒体内容描述符集合,所述媒体内容描述符集合包括包含相应媒体项的语义描述符的特征,所述语义描述符包括所述相应媒体项的至少一个情感描述符;
基于各个媒体项的相应媒体内容描述符来确定用于整个所标识的一个或更多个媒体项的聚合媒体内容描述符集合;
将所述聚合媒体内容描述符集合映射到所述人格档案,其中,所述人格档案包括所述档案的元素的多个人格分数,根据所述聚合媒体内容描述符集合的聚合特征计算所述人格分数;以及
提供与所述一个或更多个媒体项相对应的人格档案。
2.根据权利要求1所述的方法,其中,所述媒体项包括音乐部分,所述媒体项优选地是音乐片段。
3.根据权利要求1或2所述的方法,其中,所述一个或更多个媒体项的标识包括用户或用户组的播放列表。
4.根据权利要求1或2所述的方法,其中,所述一个或更多个媒体项的标识包括用户的短期媒体消费历史,所述人格档案表征所述用户的当前情绪。
5.根据权利要求1或2所述的方法,其中,所标识的一个或更多个媒体项对应于专辑或艺术家。
6.根据任一项前述权利要求所述的方法,其中,媒体项的所述媒体内容描述符集合包括所述媒体项的一个或更多个声学描述符,所述媒体项的一个或更多个声学描述符是基于对所述媒体项的声学分析而确定的。
7.根据任一项前述权利要求所述的方法,其中,基于人工智能模型来确定媒体项的所述媒体内容描述符集合,所述人工智能模型确定所述媒体项的一个或更多个语义描述符和/或情感描述符。
8.根据权利要求7所述的方法,其中,所述一个或更多个语义描述符包括以下中的至少一个:流派、语音存在、语音性别、声调、音乐情绪和节奏情绪。
9.根据任一项前述权利要求所述的方法,其中,分析媒体项的分段,以及基于对所述分段的所述分析的结果来确定所述媒体项的所述媒体内容描述符集合。
10.根据任一项前述权利要求所述的方法,其中,获取所标识的一个或更多个媒体项中的每个的媒体内容描述符集合的步骤包括从数据库检索媒体项的所述媒体内容描述符集合。
11.根据任一项前述权利要求所述的方法,其中,确定聚合媒体内容描述符集合的步骤包括根据所标识的媒体项的相应数值特征计算聚合数值特征。
12.根据任一项前述权利要求所述的方法,其中,所述人格档案基于人格方案,所述人格方案定义表示人格特质的档案元素的多个人格分数。
13.根据任一项前述权利要求所述的方法,其中,基于映射规则确定所述人格档案的人格分数,所述映射规则定义如何根据所述聚合媒体内容描述符集合计算所述人格分数。
14.根据权利要求13所述的方法,其中,通过机器学习技术学习所述映射规则。
15.根据任一项前述权利要求所述的方法,其中,基于所标识的媒体项的加权聚合数值特征来确定所述人格档案的人格分数。
16.根据任一项前述权利要求所述的方法,其中,基于所标识的媒体项的聚合特征的存在或不存在来确定所述人格档案的人格分数。
17.根据任一项前述权利要求所述的方法,其中,提供所述人格档案包括:显示所述人格档案的图形表示或将所述人格档案传输至数据库服务器。
18.根据任一项前述权利要求所述的方法,其中,将所述人格档案分类成多种人格类型中的一种。
19.根据任一项前述权利要求所述的方法,其中,根据标识用户的长期媒体项使用历史的播放列表来确定所述用户的人格档案,以及根据所述用户的短期媒体消费历史来确定所述用户的情绪档案,所述方法还包括:计算所述用户的所述人格档案与所述情绪档案之间的差异。
20.根据任一项前述权利要求所述的方法,其中,为多个媒体项中的每个提供单独的人格档案,所述方法还包括:
将所述媒体项的人格档案与目标人格档案进行比较,以及确定具有最佳匹配人格档案的至少一个媒体项。
21.根据权利要求20所述的方法,其中,所述档案的比较基于匹配档案元素并选择具有与所述目标人格档案相同或相似的元素的媒体项的人格档案。
22.根据权利要求20所述的方法,其中,所述档案的比较基于相似性搜索,其中,比较档案的对应分数、并计算指示相应档案对的相似性的匹配分数。
23.根据权利要求22所述的方法,还包括:
根据所述媒体项的人格档案的匹配分数对所述媒体项的人格档案进行排序。
24.根据权利要求20-23中任一项所述的方法,其中,所述目标人格档案对应于一组用户或个体用户。
25.根据权利要求24所述的方法,其中,基于用户的一个或更多个优选媒体项的标识,通过权利要求1-18中任一项所述的方法确定所述用户的目标人格档案。
26.根据权利要求25所述的方法,其中,所标识的优选媒体项中的一个是所述用户最新消费的媒体项。
27.根据权利要求20-26中任一项所述的方法,其中,选择所确定的媒体项中的至少一个用于向所述用户回放或推荐。
28.根据权利要求20-27中任一项所述的方法,其中,将与所确定的媒体项中的至少一个相关联的信息提供给所述用户或者提供给与所述用户相关联的用户设备。
29.根据权利要求20-28中任一项所述的方法,其中,重复执行所述媒体项的所述人格档案与目标人格档案的比较以及具有所述最佳匹配人格档案的至少一个媒体项的确定。
30.根据权利要求25-29中任一项所述的方法,其中,在服务器平台上生成所述人格档案,所述方法还包括:
将所述用户的一个或更多个优选媒体项的标识从与所述用户相关联的用户设备传输至所述服务器平台;以及
在所述用户设备处接收至少一个所确定的媒体项的表示。
31.根据权利要求25-30中任一项所述的方法,其中,将所述用户的一个或更多个优选媒体项的标识存储在服务器平台上,在所述服务器平台上生成所述人格档案,所述方法还包括:
将至少一个所确定的媒体项的表示传输至与所述用户相关联的用户设备。
32.一种具有存储器和处理器的计算设备,所述计算设备被配置为执行前述权利要求中任一项所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2020/081176 WO2022096109A1 (en) | 2020-11-05 | 2020-11-05 | Generation of personality profiles |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116888588A true CN116888588A (zh) | 2023-10-13 |
Family
ID=73198284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080108250.0A Pending CN116888588A (zh) | 2020-11-05 | 2020-11-05 | 人格档案的生成 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20230401254A1 (zh) |
EP (1) | EP4241177A1 (zh) |
JP (1) | JP2023548250A (zh) |
CN (1) | CN116888588A (zh) |
AU (1) | AU2020475461A1 (zh) |
CA (1) | CA3197600A1 (zh) |
WO (1) | WO2022096109A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240025416A1 (en) * | 2022-07-21 | 2024-01-25 | Volvo Car Corporation | In-vehicle soundscape and melody generation system and method using continuously interpreted spatial contextualized information |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10623480B2 (en) * | 2013-03-14 | 2020-04-14 | Aperture Investments, Llc | Music categorization using rhythm, texture and pitch |
US9788777B1 (en) * | 2013-08-12 | 2017-10-17 | The Neilsen Company (US), LLC | Methods and apparatus to identify a mood of media |
US10346754B2 (en) * | 2014-09-18 | 2019-07-09 | Sounds Like Me Limited | Method and system for psychological evaluation based on music preferences |
-
2020
- 2020-11-05 CA CA3197600A patent/CA3197600A1/en active Pending
- 2020-11-05 EP EP20803781.2A patent/EP4241177A1/en active Pending
- 2020-11-05 WO PCT/EP2020/081176 patent/WO2022096109A1/en active Application Filing
- 2020-11-05 JP JP2023550348A patent/JP2023548250A/ja active Pending
- 2020-11-05 US US18/035,715 patent/US20230401254A1/en active Pending
- 2020-11-05 AU AU2020475461A patent/AU2020475461A1/en active Pending
- 2020-11-05 CN CN202080108250.0A patent/CN116888588A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022096109A1 (en) | 2022-05-12 |
CA3197600A1 (en) | 2022-05-12 |
US20230401254A1 (en) | 2023-12-14 |
JP2023548250A (ja) | 2023-11-15 |
EP4241177A1 (en) | 2023-09-13 |
AU2020475461A1 (en) | 2023-06-15 |
AU2020475461A9 (en) | 2024-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Moscato et al. | An emotional recommender system for music | |
Kaminskas et al. | Contextual music information retrieval and recommendation: State of the art and challenges | |
Mandel et al. | A web-based game for collecting music metadata | |
Kaminskas et al. | Location-aware music recommendation using auto-tagging and hybrid matching | |
Levy et al. | Music information retrieval using social tags and audio | |
Schedl et al. | Music recommender systems | |
US9747927B2 (en) | System and method for multifaceted singing analysis | |
Celma et al. | If you like radiohead, you might like this article | |
Hyung et al. | Utilizing context-relevant keywords extracted from a large collection of user-generated documents for music discovery | |
Knees et al. | Music retrieval and recommendation: A tutorial overview | |
Bogdanov | From music similarity to music recommendation: Computational approaches based on audio features and metadata | |
US20230401254A1 (en) | Generation of personality profiles | |
US20230409633A1 (en) | Identification of media items for target groups | |
Sanden et al. | A perceptual study on music segmentation and genre classification | |
Wishwanath et al. | A personalized and context aware music recommendation system | |
US20230401605A1 (en) | Identification of users or user groups based on personality profiles | |
Qin | A historical survey of music recommendation systems: Towards evaluation | |
Xiao et al. | Learning a music similarity measure on automatic annotations with application to playlist generation | |
Gupta | Music data analysis: A state-of-the-art survey | |
dos Santos Figueiredo | Music recommendation system based on emotions | |
Chepkoech | Unraveling Emotions in Lyrics: A Novel Approach to Enhance Spotify Music Recommendations | |
Sneha et al. | Recommending music by combining content-based and collaborative filtering with user preferences | |
형지원 | Utilizing User-Generated Documents to Reflect Music Listening Context of Users for Semantic Music Recommendation | |
Wolff et al. | On culture-dependent modelling of music similarity | |
Shao | User-centric music information retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20231013 |
|
WD01 | Invention patent application deemed withdrawn after publication |