CN107229691B - 一种用于提供社交对象的方法与设备 - Google Patents

一种用于提供社交对象的方法与设备 Download PDF

Info

Publication number
CN107229691B
CN107229691B CN201710359576.0A CN201710359576A CN107229691B CN 107229691 B CN107229691 B CN 107229691B CN 201710359576 A CN201710359576 A CN 201710359576A CN 107229691 B CN107229691 B CN 107229691B
Authority
CN
China
Prior art keywords
user
information
social
target
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710359576.0A
Other languages
English (en)
Other versions
CN107229691A (zh
Inventor
陈大年
刘华平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhangmen Science and Technology Co Ltd
Original Assignee
Shanghai Zhangmen Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhangmen Science and Technology Co Ltd filed Critical Shanghai Zhangmen Science and Technology Co Ltd
Priority to CN201710359576.0A priority Critical patent/CN107229691B/zh
Publication of CN107229691A publication Critical patent/CN107229691A/zh
Priority to PCT/CN2018/087420 priority patent/WO2018210323A1/zh
Application granted granted Critical
Publication of CN107229691B publication Critical patent/CN107229691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请的目的是提供一种用于提供社交对象的方法与设备。与现有技术相比,本申请的用户设备向对应网络设备上传目标用户的用户声音信息,所述网络设备基于所述用户声音信息在社交对象信息库中匹配查询,以获得与所述用户声音信息相匹配的一个或多个社交对象,然后,将所述一个或多个社交对象中至少一个社交对象提供至所述用户设备,所述用户设备呈现所述一个或多个社交对象中至少一个社交对象;从而方便用户快速找到与所述用户声音信息相匹配的社交对象,可基于声音特征拓展用户的社交关系链,提升用户体验。

Description

一种用于提供社交对象的方法与设备
技术领域
本申请涉及通信领域,尤其涉及一种用于提供社交对象的技术。
背景技术
人是群居的,社交是人类活动中永恒的主题,随着科学技术的发展,社交的形式和内容也发生了很大的变化,形式多由线下转向线上,内容也由单一的文字,转化成集文字、图片、语音和视频为一体的方式。好友数,特别是能找到一群与自己相关的人聊天并建立稳定的关系链,是一切社交产品最首要的目标。要实现这一目标,那就要给每一位用户进行相关属性的标签化,这样用户就能在社交平台上找到自己最希望找到的朋友。当下主要的标签有:性别、年龄、位置等。声音作为人最重要的生物特征,且是最重要的信息承载方式,但以声音为特征来对用户进行标签化,进而进行相关的社交关系链拓展目前没有得到相关应用。
发明内容
本申请的一个目的是提供一种用于提供社交对象的方法与设备。
根据本申请的一个方面,提供了一种在网络设备端用于提供社交对象的方法,其中,该方法包括:
获取用户设备上传的目标用户的用户声音信息;
基于所述用户声音信息在社交对象信息库中匹配查询,以获得与所述用户声音信息相匹配的一个或多个社交对象;
将所述一个或多个社交对象中至少一个社交对象提供至所述用户设备。
根据本申请的另一个方面,提供了一种在用户设备端用于提供社交对象的方法,其中,该方法包括:
向对应网络设备上传目标用户的用户声音信息;
接收所述网络设备提供的、与所述用户声音信息相匹配的一个或多个社交对象;
呈现所述一个或多个社交对象中至少一个社交对象。
根据本申请的又一个方面,提供了一种用于提供社交对象的方法,其中,该方法包括:
用户设备向对应网络设备上传目标用户的用户声音信息;
所述网络设备获取所述用户设备上传的目标用户的用户声音信息;
所述网络设备基于所述用户声音信息在社交对象信息库中匹配查询,以获得与所述用户声音信息相匹配的一个或多个社交对象;
所述网络设备将所述一个或多个社交对象中至少一个社交对象提供至所述用户设备;
所述用户设备接收所述网络设备提供的、与所述用户声音信息相匹配的一个或多个社交对象;
所述用户设备呈现所述一个或多个社交对象中至少一个社交对象。
根据本申请的再一个方面,提供了一种包括指令的计算机可读介质,所述指令在被执行时使得系统进行如上所述方法的操作。
根据本申请的又一个方面,提供了一种用于提供社交对象的网络设备,其中,该网络设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上所述的方法。
根据本申请的又一个方面,提供了一种用于提供社交对象的用户设备,其中,该用户设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上所述的方法。
根据本申请的又一个方面,提供了一种用于提供社交对象的系统,包括如上所述的网络设备,以及如上所述的用户设备。
与现有技术相比,本申请的用户设备向对应网络设备上传目标用户的用户声音信息,所述网络设备基于所述用户声音信息在社交对象信息库中匹配查询,以获得与所述用户声音信息相匹配的一个或多个社交对象,然后,将所述一个或多个社交对象中至少一个社交对象提供至所述用户设备,所述用户设备呈现所述一个或多个社交对象中至少一个社交对象;从而方便用户快速找到与所述用户声音信息相匹配的社交对象,可基于声音特征拓展用户的社交关系链,提升用户体验。进一步地,本申请基于所述用户声音信息及所述目标用户的用户相关信息在社交对象信息库中匹配查询,以获得与所述用户声音信息及所述用户相关信息相匹配的一个或多个社交对象,可以基于包括声音特征在内的多种特征拓展用户的社交关系链,从而进一步优化用户体验。进一步地,本申请基于所述社交对象的优先级信息,向用户提供所述一个或多个社交对象中至少一个社交对象,从而方便用户查看,节省用户的时间。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个实施例的一种用于提供社交对象的系统拓扑图;
图2示出根据本申请另一个实施例的一种用于提供社交对象的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
图1示出根据本申请一个实施例的一种用于提供社交对象的系统拓扑图,该系统包括用户设备1和网络设备2。
在此,所述网络设备2包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备2其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。所述用户设备1包括但不限于任何一种可与用户进行人机交互的电子产品,例如智能手机、平板电脑、笔记本电脑等,所述电子产品可以采用任意操作系统,如android操作系统、iOS操作系统、Windows操作系统等。
本领域技术人员应能理解,图1中仅为简明起见而示出的各类网络元素的数量可能小于一个实际网络中的数量,但这种省略无疑地是以不会影响对本发明进行清楚、充分的公开为前提的。为简明起见,下面以所述网络设备2及一个所述用户设备1组成的系统为例进行描述。
图2示出根据本申请另一个实施例的一种用于提供社交对象的方法流程图,其中,该方法包括网络设备端的步骤S201、步骤S202和步骤S203,以及用户设备端的步骤S101、步骤S102和步骤S103。
具体地,步骤S101中,用户设备1向对应网络设备2上传目标用户的用户声音信息;步骤S201中,网络设备2获取用户设备1上传的目标用户的用户声音信息;步骤S202中,网络设备2基于所述用户声音信息在社交对象信息库中匹配查询,以获得与所述用户声音信息相匹配的一个或多个社交对象;步骤S203中,网络设备2将所述一个或多个社交对象中至少一个社交对象提供至所述用户设备1;步骤S102中,用户设备1接收所述网络设备2提供的、与所述用户声音信息相匹配的一个或多个社交对象;步骤S103中,用户设备1呈现所述一个或多个社交对象中至少一个社交对象。
例如,用户甲可以通过用户设备1上的特定应用(包括但不限于网页应用、用户设备上安装的应用程序等)将目标用户的用户声音信息(例如所述目标用户的说话录音、唱歌音频等)上传至该特定应用云端的网络设备2。其中,所述目标用户可以是用户甲自己,也可以是用户甲的亲戚、朋友、同事、同学、路人等。
所述网络设备2在存储有众多用户声音信息的社交对象信息库中,通过查询得到与所述目标用户的用户声音信息相匹配的一个或多个社交对象。
其中,用户甲可以即时上传所述目标用户的用户声音信息,而后,所述网络设备2根据所述用户声音信息在社交对象信息库中进行匹配查询;或者,所述网络设备2也可以根据用户甲之前上传的所述用户声音信息在社交对象信息库中进行匹配查询。
然后,所述网络设备2将所述一个或多个社交对象返回至所述用户设备1;或者,所述网络设备2根据匹配度的高低,将所述一个或多个社交对象中匹配度最高的一个或匹配度较高的几个社交对象返回至所述用户设备1。
所述用户设备1收到与所述用户声音信息相匹配的一个或多个社交对象后,通过该特定应用向用户甲呈现(呈现内容包括但不限于社交对象的声音、图像、身高、年龄、职业等信息)该一个或多个社交对象;或者,根据匹配度的高低,向用户甲呈现该一个或多个社交对象中匹配度最高的一个或匹配度较高的几个社交对象。
优选地,步骤S201中,网络设备2获取用户设备1上传的目标用户的用户声音信息,对所述用户声音信息进行预处理;步骤S202中,网络设备2基于预处理后的所述用户声音信息在社交对象信息库中匹配查询,以获得与所述用户声音信息相匹配的一个或多个社交对象。
例如,网络设备2先对所述用户声音信息进行语音的降噪、高通滤波、分帧和端点检测等预处理,再基于预处理后的所述用户声音信息在社交对象信息库中匹配查询。
优选地,步骤S202中,网络设备2提取所述用户声音信息的多个特征参数;根据所述用户声音信息的多个特征参数,得到所述用户声音信息的特征向量;基于所述用户声音信息的特征向量在社交对象信息库中匹配查询,以获得与所述用户声音信息相匹配的一个或多个社交对象。
在此,所述特征参数包括但不限于基音(Pitch)、梅尔频率倒谱系数(MFCC)、动态差分参数等。
其中,(1)基音(Pitch)。人在发音时,根据声带是否震动可以将语音信号分为清音跟浊音两种。浊音又称有声语言,携带者语言中大部分的能量,浊音在时域上呈现出明显的周期性;而清音类似于白噪声,没有明显的周期性。发浊音时,气流通过声门使声带产生张驰震荡式振动,产生准周期的激励脉冲串。这种声带振动的频率称为基音频率,相应的周期就成为基音周期。基音频率与个人声带的长短、薄厚、韧性和发音习惯等关系,在很大程度上反应了个人的特征。
(2)梅尔频率倒谱系数(MFCC)。根据人的听觉机理的研究发现,人耳对不同频率的声波有不同的听觉灵敏度。从200Hz到5KHz之间的语音信号对语音的清晰度影响最大。低音掩蔽高音容易,反之则困难。在低频处的声音掩蔽的临界带宽较高频端小。据此,人们从低频到高频这一段频带内按临界带宽的大小由密到稀安排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果,因此,这种参数与基于声道模型的LPCC相比具有较好的鲁棒性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
MFCC是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:
Mel(f)=2595*lg(1+f/700)
式中,f为频率,单位为Hz。
(3)动态差分参数的提取。标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述,实验证明:把动、静态特征结合起来能有效提高系统的识别性能。差分参数的计算可以采用下面的公式:
Figure BDA0001300003190000071
式中,dt表示第t个一阶差分;Ct表示第t个倒谱系数;Q表示倒谱系数的阶数;K表示一阶导数的时间差,可去1或2。
例如,提取所述用户声音信息的基音(Pitch)、梅尔频率倒谱系数(MFCC)、动态差分参数,每帧声音可以得到多达36维的特征向量(包括:基频、能量、12维的MFCC、12维的一阶差分MFCC、12维的二阶差分MFCC)。然后,基于所述用户声音信息的特征向量在社交对象信息库中匹配查询,以获得与所述用户声音信息相匹配的一个或多个社交对象。
当然,本领域技术人员应能理解上述特征参数仅为举例,其他现有的或今后可能出现的特征参数如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
优选地,所述社交对象信息库包括一个或多个与社交对象对应的声音特征参数模型;基于所述用户声音信息的特征向量在社交对象信息库中匹配查询,以获得与所述用户声音信息相匹配的一个或多个社交对象,包括:将所述用户声音信息的特征向量作为所述社交对象信息库中声音特征参数模型的输入,得到所述社交对象信息库中声音特征参数模型输出的匹配度;根据所述社交对象信息库中声音特征参数模型输出的匹配度的高低,获得与所述用户声音信息相匹配的一个或多个社交对象。
例如,每个对象的声音特征参数模型的输入可以是所述用户声音信息的36维的特征向量,输出可以是所述用户声音信息与该声音特征参数模型的匹配度。假设所述对象数据库中有对象A、对象B、对象C、对象D、对象E、对象F的声音特征参数模型,将所述目标用户的用户声音信息的特征向量分别输入对象A、B、C、D、E、F的声音特征参数模型A’、B’、C’、D’、E’、F’,分别得到输出的匹配度为75%、15%、35%、80%、40%、85%,根据各个声音特征参数模型输出的匹配度的高低,若选取匹配度最高的三个社交对象,则可获得与所述目标用户的用户声音信息相匹配的社交对象A、D、F。
在优选的实施例中,每个对象的声音特征参数模型可以包括说话人模型和反话者模型,将所述用户声音信息的特征向量分别输入每个对象的说话人模型和反话者模型,然后通过D-S证据理论进行融合,从而确定所述用户声音信息与该声音特征参数模型的匹配度。
在D-S证据理论中,由互不相容的基本命题(假定)组成的完备集合称为识别框架,表示对某一问题的所有可能答案,但其中只有一个答案是正确的。该框架的子集称为命题。分配给各命题的信任程度称为基本概率分配(BPA,也称m函数),m(A)为基本可信数,反映着对A的信度大小。信任函数Bel(A)表示对命题A的信任程度,似然函数Pl(A)表示对命题A非假的信任程度,也即对A似乎可能成立的不确定性度量,实际上,[Bel(A),Pl(A)]表示A的不确定区间,[0,Bel(A)]表示命题A支持证据区间,[0,Pl(A)]表示命题A的拟信区间,[Pl(A),1]表示命题A的拒绝证据区间。设m1和m2是由两个独立的证据源(传感器)导出的基本概率分配函数,则Dempster组合规则可以计算这两个证据共同作用产生的反映融合信息的新的基本概率分配函数。
当然,本领域技术人员应能理解上述声音特征参数模型仅为举例,其他现有的或今后可能出现的声音特征参数模型如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
优选地,所述方法还包括:网络设备2根据所述用户声音信息的多个特征参数,生成所述目标用户的声音特征参数模型,将所述目标用户的声音特征参数模型存入所述社交对象信息库。
例如,若所述对象数据库中没有所述目标用户的声音特征参数模型,可以根据所述目标用户的用户声音信息的多个特征参数,通过机器学习训练出所述目标用户的声音特征参数模型,并将所述目标用户的声音特征参数模型存入所述社交对象信息库。若所述对象数据库中已有所述目标用户的声音特征参数模型,也可以根据用户设备1最新上传的所述目标用户的用户声音信息的多个特征参数,生成所述目标用户的声音特征参数模型,并更新所述对象数据库中所述目标用户的声音特征参数模型。
优选地,步骤S202中,网络设备2基于所述用户声音信息确定所述目标用户的用户性格特征信息;基于所述用户性格特征信息在社交对象信息库中匹配查询,以获得与所述用户性格特征信息相匹配的一个或多个社交对象。优选地,提取出所述用户声音信息的目标特征参数,根据所述目标特征参数确定所述目标用户的用户性格特征信息。
例如,可以将基音(Pitch)、梅尔频率倒谱系数(MFCC)、动态差分参数作为所述目标特征参数,提取所述用户声音信息的基音(Pitch)、梅尔频率倒谱系数(MFCC)、动态差分参数,每帧声音可以得到多达36维的特征向量(包括:基频、能量、12维的MFCC、12维的一阶差分MFCC、12维的二阶差分MFCC)。其中,梅尔频率倒谱系数(MFCC)能够反映出人的声音个性化的特征,特征参数矩阵中的基频和能量参数能够反映出说话的语调和音量大小,从而确定所述目标用户的用户性格特征信息。基于所述对象数据库中社交对象的声音特征参数模型,得到社交对象的声音信息的所述目标特征参数,确定社交对象的性格特征信息。基于所述目标用户的用户性格特征信息在社交对象信息库中匹配查询社交对象的性格特征信息,以获得与所述目标用户的用户性格特征信息相匹配的一个或多个社交对象。
优选地,步骤S202中,网络设备2基于所述用户声音信息及所述目标用户的用户相关信息在社交对象信息库中匹配查询,以获得与所述用户声音信息及所述用户相关信息相匹配的一个或多个社交对象。
例如,不仅基于所述用户声音信息,还基于所述目标用户的用户相关信息,在社交对象信息库中匹配查询,以获得与所述用户声音信息及所述用户相关信息相匹配的一个或多个社交对象。
优选地,所述用户相关信息包括以下至少任一项:所述目标用户的期望社交对象的图像信息;所述目标用户的图像信息;所述目标用户的口音信息;所述目标用户的兴趣爱好信息。
例如,可以给所述用户声音信息及各项所述用户相关信息分别赋予一个权重值;基于所述用户声音信息、所述目标用户的期望社交对象的图像信息、所述目标用户的图像信息、所述目标用户的口音信息、所述目标用户的兴趣爱好信息,分别在所述社交对象信息库中进行匹配查询,再根据所述用户声音信息及各项所述用户相关信息的权重值,确定与所述用户声音信息及所述用户相关信息相匹配的一个或多个社交对象。
其中,所运用的人脸匹配技术包括但不限于:基于眼睛坐标的几何匹配、基于SIFT(Scale-invariant feature transform,尺度不变特征变换)特征的匹配、基于统计特征的模板匹配等。
优选地,所述用户相关信息包括所述目标用户的期望社交对象的图像信息;其中,所述方法还包括:用户设备1向对应网络设备2上传目标用户的期望社交对象的图像信息;网络设备2获取用户设备上传的目标用户的期望社交对象的图像信息;步骤S202中,网络设备2基于所述用户声音信息及所述期望社交对象的图像信息在社交对象信息库中匹配查询,以获得与所述用户声音信息及所述期望社交对象的图像信息相匹配的一个或多个社交对象;步骤S102中,用户设备1接收所述网络设备2提供的、与所述用户声音信息及所述图像信息相匹配的一个或多个社交对象。
例如,可以给所述用户声音信息及所述期望社交对象的图像信息分别赋予一个权重值;基于所述用户声音信息、所述期望社交对象的图像信息,分别在所述社交对象信息库中进行匹配查询,再根据所述用户声音信息及所述期望社交对象的图像信息的权重值,确定与所述用户声音信息及所述期望社交对象的图像信息相匹配的一个或多个社交对象。
在具体的实施例中,可以通过如下步骤匹配所述期望社交对象的图像信息及所述社交对象信息库中的图像信息:
1)运用图像人脸检测(Face Dectection)以及脸部特征点定位,从所述图像信息中找到人脸所在的位置。
例如,可以采用haar分类器+AdaBoost算法,从图像中抽取harr-like特征,再利用AdaBoost算法进行人脸检测。或者,也可以采用模版匹配法,使用眼睛、鼻子、嘴和人脸轮廓等子模板建模,检测图像中的正面人脸,计算子图像和轮廓模板之间的相互关系去检测人脸的候选区域,完成用其他子模板在候选区域的匹配。或者,还可以采用其他现有的或今后可能出现的技术。
2)人脸图像几何归一化。
根据脸部特征点位置从图像中得到归一化的人脸区域图像(每个图像的像素一致,统一尺寸),这一步主要是使得不同人脸上的像素对应的人脸位置一致,这样才有可比性,这个步骤可以看作是一个对图像进行仿射变化的过程(进行线性插值或者缩放完成)。
3-1)人脸图像光照归一化。
主要目的是克服不同光照对人脸的影响,提高算法对光照条件的鲁棒性。例如,可以采用高斯差分滤波(一种基于高斯差分滤波器的图像的光照归一化方法),或者,也可以采用其他现有的或今后可能出现的技术。
3-2)人脸局部光照归一化。
对图像像素分段,使得每段中各像素对应的物体表面点具有相近的表面法向量分布,因而对光源具有相似的灰度响应,然后局部归一化在各段中进行以削弱光照影响。例如,可以首先建立物体的朗伯(Lambert)表面反射模型,用奇异值分解方法估计出人脸形状的平均表面法向量分布矩阵,根据法向量方向利用聚类算法对像素进行分段,然后在各段中进行局部的像素归一化处理。
4)人脸图像特征提取。
肤色特征(根据彩色图像不同的色度空间来选择,RGB、SHI、YUV等色度空间):常用的肤色模型有高斯模型、直方图模型等;灰度特征:包括人脸轮廓特征,人脸灰度分布特征,器官特征,模版特征。人脸区域内的各个器官(如眼睛、鼻子、嘴等)是人脸的重要特征。例如,用人工神经网分别检测眼睛、鼻子、嘴以及人脸的整体特征。人脸区域的灰度本身可以作为模板特征,通常取仅包含眼睛、鼻子和嘴的面部中心区域作为共性的人脸模板特征;对人脸进行变换后的其他特征:比如哈伯(gabor)特征和局部二值模式(LBP)特征,可以对多种特征进行融合。
5)特征的处理(降维处理)。
将高维的人脸特征映射到分类或者识别能力更强的低维度特征,例如,可以采用常见的PCA(Principal Component Analysis,主成分分析)+LDA(Linear DiscriminantAnalysis,线性判别式分析)的方法。然后把处理的特征链接成一个特征向量vector:v。
6)计算两个图像特征之间的距离。
例如,计算它们(向量v1,v2)之间的Cosine相似度:
Figure BDA0001300003190000121
或者,计算它们之间的欧式距离:
d(v1,v2)=||v1-v2||2
根据两个图像特征之间的距离大小,来确定其匹配度的高低。两个图像特征之间的距离越小,其匹配度越高;两个图像特征之间的距离越大,其匹配度越低。
优选地,所述用户相关信息包括所述目标用户的图像信息;步骤S202中,网络设备2基于所述用户声音信息及所述目标用户的图像信息在社交对象信息库中匹配查询,以获得与所述用户声音信息及所述目标用户的图像信息相匹配的一个或多个社交对象。
例如,可以给所述用户声音信息及所述目标用户的图像信息分别赋予一个权重值;基于所述用户声音信息、所述目标用户的图像信息,分别在所述社交对象信息库中进行匹配查询,再根据所述用户声音信息及所述目标用户的图像信息的权重值,确定与所述用户声音信息及所述目标用户的图像信息相匹配的一个或多个社交对象。
优选地,步骤S201中,网络设备2获取用户设备1上传的目标用户的用户视频信息;从所述用户视频信息中提取所述目标用户的用户声音信息及图像信息。
例如,步骤S101中,用户设备1可以直接上传音频数据,也可以上传视频数据,其中,视频数据包括音频数据和图像数据。若用户设备1上传的是音频数据,网络设备2可以直接获取所述目标用户的用户声音信息;若用户设备1上传的是视频数据,网络设备2可以从中提取出所述目标用户的用户声音信息及图像信息。
优选地,所述方法还包括:网络设备2确定所述社交对象的优先级信息;步骤S203中,网络设备2基于所述社交对象的优先级信息,将所述一个或多个社交对象中至少一个社交对象提供至所述用户设备1。
例如,可以根据匹配度的高低确定所述社交对象的优先级信息,匹配度较高的社交对象的优先级信息高于匹配度较低的社交对象。然后,基于所述社交对象的优先级信息,将所述一个或多个社交对象中优先级信息最高的一个或优先级信息较高的几个社交对象提供至所述用户设备1。
优选地,确定所述社交对象的优先级信息,包括:基于所述社交对象的对象属性信息,确定所述社交对象的优先级信息。
例如,所述对象属性信息可以包括:社交对象的外貌、声音、身高、学历、财富等。在一个实施例中,可以根据所述社交对象在外貌、声音、身高、学历、财富等各分量的得分信息,加权确定该社交对象的优先级信息。在另一个实施例中,可以根据所述社交对象的属性X(例如声音)对各社交对象进行排序,从而确定所述社交对象的优先级信息,其中,属性X可以由用户设置。
优选地,确定所述社交对象的优先级信息,包括:基于所述目标用户的自身属性信息,调整所述社交对象的对象属性信息中各分量的权重信息;基于所述社交对象的对象属性信息及所述各分量的权重信息,加权确定所述社交对象的优先级信息。
在此,所述自身属性信息可以包括所述目标用户的外貌、声音、身高、性别、年龄、学历等,例如,对于大部分身高较高的用户而言,可能不太关注所述社交对象的身高,因此可适当降低该类用户的社交对象的身高所占的权重。再例如,对于大部分男性用户而言,可能比较关注所述社交对象的外貌,因此可适当提高男性用户的社交对象的外貌所占的权重。
优选地,所述方法还包括:用户设备1将用户关于所述社交对象的反馈信息发送至所述网络设备2;网络设备2接收所述用户设备1发送的、用户关于所述社交对象的反馈信息;网络设备2基于所述反馈信息重新确定对应的一个或多个优选社交对象;网络设备2将所述一个或多个优选社交对象中至少一个优选社交对象提供至所述用户设备1;用户设备1接收所述网络设备2返回的、基于所述反馈信息重新确定的一个或多个优选社交对象;用户设备1呈现所述一个或多个优选社交对象中至少一个优选社交对象。
例如,若用户甲对所述网络设备2发送的一个或多个社交对象不满意,可以向所述网络设备2发送关于该一个或多个社交对象的反馈信息(比如声音太尖、年龄太大等)。所述网络设备2根据该反馈信息再次在社交对象信息库中匹配查询,重新确定对应的一个或多个优选社交对象,并将所述一个或多个优选社交对象中至少一个优选社交对象提供至所述用户设备1,然后,所述用户设备1呈现所述一个或多个优选社交对象中至少一个优选社交对象。
优选地,所呈现社交对象的联系信息处于隐藏状态;其中,所述方法还包括:用户设备1获取用户提交的、关于所呈现社交对象中目标社交对象的联系信息请求;当所述联系信息请求通过验证,呈现所述目标社交对象的联系信息。
例如,所述用户设备1接收所述网络设备2提供的、与所述用户声音信息相匹配的一个或多个社交对象之后,不向用户甲呈现社交对象的联系信息(如电话号码、电子邮箱、家庭住址等信息),即社交对象的联系信息处于隐藏状态。用户甲若对所述一个或多个社交对象中目标社交对象感兴趣,可以通过提交关于所述目标社交对象的联系信息请求,以获取所述目标社交对象的联系信息。
其中,对所述联系信息请求的验证包括但不限于:用户甲是否满足预定的会员等级、用户甲是否就所述联系信息请求支付成功等。在此,对所述联系信息请求的验证可以由所述用户设备1上特定应用来完成;也可以通过所述用户设备1将所述联系信息请求发送至该特定应用云端的网络设备2,由所述网络设备2来完成对所述联系信息请求的验证。
优选地,所述方法还包括:用户设备1将所述联系信息请求发送至所述网络设备2;网络设备2接收所述用户设备1发送的、所述用户关于所述至少一个社交对象中目标社交对象的联系信息请求;网络设备2验证所述联系信息请求;当所述联系信息请求通过验证,将所述目标社交对象的联系信息返回至所述用户设备1;用户设备1接收所述网络设备2在所述联系信息请求通过验证后返回的、所述目标社交对象的联系信息;用户设备1呈现所述目标社交对象的联系信息。
在本实施例中,通过所述用户设备1将所述联系信息请求发送至该特定应用云端的网络设备2,由所述网络设备2来完成对所述联系信息请求的验证。当所述联系信息请求通过验证,所述网络设备2将所述目标社交对象的联系信息返回至所述用户设备1。
优选地,用户设备1接收所述网络设备2提供的、与所述用户声音信息相匹配的一个或多个社交对象及每个社交对象的联系信息;当所述联系信息请求通过验证,呈现所述目标社交对象在所述用户设备1中存储的联系信息。
在本实施例中,所述用户设备1在接收所述网络设备2提供的、与所述用户声音信息相匹配的一个或多个社交对象的同时,还接收了每个社交对象的联系信息,但是不向用户甲呈现社交对象的联系信息。当所述联系信息请求通过验证,再向用户甲呈现所述用户设备1中存储的所述目标社交对象的联系信息。
根据本申请的又一个方面,提供了一种用于提供社交对象的方法,其中,该方法包括:
用户设备向对应网络设备上传目标用户的用户声音信息;
所述网络设备获取所述用户设备上传的目标用户的用户声音信息;
所述网络设备基于所述用户声音信息在社交对象信息库中匹配查询,以获得与所述用户声音信息相匹配的一个或多个社交对象;
所述网络设备将所述一个或多个社交对象中至少一个社交对象提供至所述用户设备;
所述用户设备接收所述网络设备提供的、与所述用户声音信息相匹配的一个或多个社交对象;
所述用户设备呈现所述一个或多个社交对象中至少一个社交对象。
根据本申请的再一个方面,提供了一种包括指令的计算机可读介质,所述指令在被执行时使得系统进行如上所述方法的操作。
根据本申请的又一个方面,提供了一种用于提供社交对象的网络设备,其中,该网络设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上所述的方法。
根据本申请的又一个方面,提供了一种用于提供社交对象的用户设备,其中,该用户设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上所述的方法。
根据本申请的又一个方面,提供了一种用于提供社交对象的系统,包括如上所述的网络设备,以及如上所述的用户设备。
与现有技术相比,本申请的用户设备向对应网络设备上传目标用户的用户声音信息,所述网络设备基于所述用户声音信息在社交对象信息库中匹配查询,以获得与所述用户声音信息相匹配的一个或多个社交对象,然后,将所述一个或多个社交对象中至少一个社交对象提供至所述用户设备,所述用户设备呈现所述一个或多个社交对象中至少一个社交对象;从而方便用户快速找到与所述用户声音信息相匹配的社交对象,可基于声音特征拓展用户的社交关系链,提升用户体验。进一步地,本申请基于所述用户声音信息及所述目标用户的用户相关信息在社交对象信息库中匹配查询,以获得与所述用户声音信息及所述用户相关信息相匹配的一个或多个社交对象,可以基于包括声音特征在内的多种特征拓展用户的社交关系链,从而进一步优化用户体验。进一步地,本申请基于所述社交对象的优先级信息,向用户提供所述一个或多个社交对象中至少一个社交对象,从而方便用户查看,节省用户的时间。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。本领域技术人员应能理解,计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等,相应地,计算机程序指令被计算机执行的方式包括但不限于:该计算机直接执行该指令,或者该计算机编译该指令后再执行对应的编译后程序,或者该计算机读取并执行该指令,或者该计算机读取并安装该指令后再执行对应的安装后程序。在此,计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。
通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如,光纤、同轴等))和能传播能量波的无线(未有导的传输)介质,诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。
作为示例而非限制,计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如,计算机可读存储介质包括,但不限于,易失性存储器,诸如随机存储器(RAM,DRAM,SRAM);以及非易失性存储器,诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM);以及磁性和光学存储设备(硬盘、磁带、CD、DVD);或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (13)

1.一种在网络设备端用于提供社交对象的方法,其中,该方法包括:
获取用户设备上传的目标用户的用户视频信息,其中,所述目标用户包括使用所述用户设备的用户、所述用户的亲戚、所述用户的朋友、所述用户的同事或所述用户的同学;
从所述用户视频信息中提取所述目标用户的用户声音信息及图像信息;
基于所述目标用户的所述用户声音信息及对应的声音特征参数模型,提取所述用户声音信息对应的目标特征参数,根据所述目标特征参数确定所述目标用户的用户性格特征信息;
基于所述用户性格特征信息及用户相关信息在社交对象信息库中匹配查询,以获得与所述用户性格特征信息及所述用户相关信息相匹配的一个或多个社交对象,其中,所述用户相关信息包括所述图像信息;
将所述一个或多个社交对象中至少一个社交对象提供至所述用户设备。
2.根据权利要求1所述的方法,其中,所述获取用户设备上传的目标用户的用户声音信息,包括:
获取用户设备上传的目标用户的用户声音信息,对所述用户声音信息进行预处理;
其中,所述基于所述用户声音信息在社交对象信息库中匹配查询,以获得与所述用户声音信息相匹配的一个或多个社交对象,包括:
基于预处理后的所述用户声音信息在社交对象信息库中匹配查询,以获得与所述用户声音信息相匹配的一个或多个社交对象。
3.根据权利要求1或2所述的方法,其中,所述基于所述用户声音信息在社交对象信息库中匹配查询,以获得与所述用户声音信息相匹配的一个或多个社交对象,包括:
提取所述用户声音信息的多个特征参数;
根据所述用户声音信息的多个特征参数,得到所述用户声音信息的特征向量;
基于所述用户声音信息的特征向量在社交对象信息库中匹配查询,以获得与所述用户声音信息相匹配的一个或多个社交对象。
4.根据权利要求3所述的方法,其中,所述社交对象信息库包括一个或多个与社交对象对应的声音特征参数模型;
其中,所述基于所述用户声音信息的特征向量在社交对象信息库中匹配查询,以获得与所述用户声音信息相匹配的一个或多个社交对象,包括:
将所述用户声音信息的特征向量作为所述社交对象信息库中声音特征参数模型的输入,得到所述社交对象信息库中声音特征参数模型输出的匹配度;
根据所述社交对象信息库中声音特征参数模型输出的匹配度的高低,获得与所述用户声音信息相匹配的一个或多个社交对象。
5.根据权利要求4所述的方法,其中,所述方法还包括:
根据所述用户声音信息的多个特征参数,生成所述目标用户的声音特征参数模型,将所述目标用户的声音特征参数模型存入所述社交对象信息库。
6.根据权利要求1所述的方法,其中,所述用户相关信息包括以下至少任一项:
所述目标用户的口音信息;
所述目标用户的兴趣爱好信息。
7.根据权利要求1所述的方法,其中,所述用户相关信息包括所述目标用户的图像信息;
其中,所述基于所述用户声音信息在社交对象信息库中匹配查询,以获得与所述用户声音信息相匹配的一个或多个社交对象,包括:
基于所述用户声音信息及所述目标用户的图像信息在社交对象信息库中匹配查询,以获得与所述用户声音信息及所述目标用户的图像信息相匹配的一个或多个社交对象。
8.一种在用户设备端用于提供社交对象的方法,其中,该方法包括:
向对应网络设备上传目标用户的用户视频信息,其中,所述目标用户包括使用所述用户设备的用户、所述用户的亲戚、所述用户的朋友、所述用户的同事或所述用户的同学,所述用户视频信息包括所述目标用户的用户声音信息及图像信息,所述用户声音信息用于通过对应的声音特征参数模型提取所述用户声音信息对应的目标特征参数,所述目标特征参数用于确定所述目标用户的用户性格特征信息;
接收所述网络设备提供的、与所述目标用户的所述用户性格特征信息及用户相关信息相匹配的一个或多个社交对象,其中,所述用户相关信息包括所述图像信息;
呈现所述一个或多个社交对象中至少一个社交对象。
9.一种用于提供社交对象的方法,其中,该方法包括:
用户设备向对应网络设备上传目标用户的用户视频信息,其中,所述目标用户包括使用所述用户设备的用户、所述用户的亲戚、所述用户的朋友、所述用户的同事或所述用户的同学,所述用户视频信息包括所述目标用户的用户声音信息及图像信息;
所述网络设备获取所述用户设备上传的所述目标用户的用户视频信息;
所述网络设备基于所述目标用户的所述用户声音信息及对应的声音特征参数模型,提取所述用户声音信息对应的目标特征参数,根据所述目标特征参数确定所述目标用户的用户性格特征信息;
基于所述用户性格特征信息及用户相关信息在社交对象信息库中匹配查询,以获得与所述用户性格特征信息及所述用户相关信息相匹配的一个或多个社交对象,其中,所述用户相关信息包括所述图像信息;
所述网络设备将所述一个或多个社交对象中至少一个社交对象提供至所述用户设备;
所述用户设备接收所述一个或多个社交对象;
所述用户设备呈现所述一个或多个社交对象中至少一个社交对象。
10.一种包括指令的计算机可读介质,所述指令在被执行时使得系统进行如权利要求1至8中任一项所述方法的操作。
11.一种用于提供社交对象的网络设备,其中,该网络设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1至7中任一项所述的方法。
12.一种用于提供社交对象的用户设备,其中,该用户设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求8所述的方法。
13.一种用于提供社交对象的系统,包括如权利要求11所述的网络设备,以及如权利要求12所述的用户设备。
CN201710359576.0A 2017-05-19 2017-05-19 一种用于提供社交对象的方法与设备 Active CN107229691B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710359576.0A CN107229691B (zh) 2017-05-19 2017-05-19 一种用于提供社交对象的方法与设备
PCT/CN2018/087420 WO2018210323A1 (zh) 2017-05-19 2018-05-18 一种用于提供社交对象的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710359576.0A CN107229691B (zh) 2017-05-19 2017-05-19 一种用于提供社交对象的方法与设备

Publications (2)

Publication Number Publication Date
CN107229691A CN107229691A (zh) 2017-10-03
CN107229691B true CN107229691B (zh) 2021-11-02

Family

ID=59933274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710359576.0A Active CN107229691B (zh) 2017-05-19 2017-05-19 一种用于提供社交对象的方法与设备

Country Status (2)

Country Link
CN (1) CN107229691B (zh)
WO (1) WO2018210323A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229691B (zh) * 2017-05-19 2021-11-02 上海掌门科技有限公司 一种用于提供社交对象的方法与设备
CN110111221A (zh) * 2019-04-30 2019-08-09 刘柏佟 一种智能舍友匹配方法及系统
CN111914111A (zh) * 2019-05-08 2020-11-10 阿里巴巴集团控股有限公司 基于声音的面具形象确定方法、装置及计算机存储介质
CN111916096B (zh) * 2019-05-09 2021-04-27 南京农业大学 一种基于树莓派的藏羊牧食行为监测方法
CN111047173B (zh) * 2019-12-05 2022-09-09 国网河南省电力公司 基于改进d-s证据理论的社团可信度评估方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653614A (zh) * 2015-12-23 2016-06-08 广东欧珀移动通信有限公司 联系信息获取、提供方法及装置
CN106650359A (zh) * 2016-12-30 2017-05-10 中广热点云科技有限公司 一种用于对象信息采集和信息匹配的系统及方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486793A (zh) * 2010-12-06 2012-06-06 武汉若鱼网络科技有限公司 一种搜索目标用户的方法和系统
US9183310B2 (en) * 2012-06-12 2015-11-10 Microsoft Technology Licensing, Llc Disambiguating intents within search engine result pages
CN105303150B (zh) * 2014-06-26 2019-06-25 腾讯科技(深圳)有限公司 实现图像处理的方法和系统
CN105893389A (zh) * 2015-01-26 2016-08-24 阿里巴巴集团控股有限公司 一种语音信息搜索方法、装置及服务器
CN105550223B (zh) * 2015-12-04 2020-03-17 小米科技有限责任公司 用户推荐方法及装置
CN107204910A (zh) * 2016-03-20 2017-09-26 徐超 社交软件中利用声音口令查找好友的方法
CN107229691B (zh) * 2017-05-19 2021-11-02 上海掌门科技有限公司 一种用于提供社交对象的方法与设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653614A (zh) * 2015-12-23 2016-06-08 广东欧珀移动通信有限公司 联系信息获取、提供方法及装置
CN106650359A (zh) * 2016-12-30 2017-05-10 中广热点云科技有限公司 一种用于对象信息采集和信息匹配的系统及方法

Also Published As

Publication number Publication date
WO2018210323A1 (zh) 2018-11-22
CN107229691A (zh) 2017-10-03

Similar Documents

Publication Publication Date Title
CN107229691B (zh) 一种用于提供社交对象的方法与设备
CN109726624B (zh) 身份认证方法、终端设备和计算机可读存储介质
CN106575500B (zh) 基于面部结构合成话音的方法和装置
Farid Creating, using, misusing, and detecting deep fakes
Ren et al. Sound-event classification using robust texture features for robot hearing
KR20170053525A (ko) 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
Stastny et al. Automatic bird species recognition based on birds vocalization
CN107341464A (zh) 一种用于提供交友对象的方法、设备及系统
Zhang Voice keyword retrieval method using attention mechanism and multimodal information fusion
CN114218488A (zh) 基于多模态特征融合的信息推荐方法、装置及处理器
US20230058259A1 (en) System and Method for Video Authentication
CN111932056A (zh) 客服质量评分方法、装置、计算机设备和存储介质
Kuo et al. DNAE-GAN: Noise-free acoustic signal generator by integrating autoencoder and generative adversarial network
Abraham et al. A deep learning approach for robust speaker identification using chroma energy normalized statistics and mel frequency cepstral coefficients
Tsai et al. Sentiment analysis of pets using deep learning technologies in artificial intelligence of things system
Shah et al. Speech emotion recognition based on SVM using MATLAB
Oo et al. Fusion of Log-Mel Spectrogram and GLCM feature in acoustic scene classification
CN116935889B (zh) 一种音频类别的确定方法、装置、电子设备及存储介质
JP2015175859A (ja) パターン認識装置、パターン認識方法及びパターン認識プログラム
Shah et al. Speech recognition using spectrogram-based visual features
Reimao Synthetic speech detection using deep neural networks
KR102559074B1 (ko) 뉴럴 네트워크를 이용하여 학습자 단말과 학부모 단말에게 영어 교육 서비스를 제공하는 방법 및 장치
Firc Applicability of Deepfakes in the Field of Cyber Security
Hassan et al. Enhancing speaker identification through reverberation modeling and cancelable techniques using ANNs
KR20230120790A (ko) 가변적 언어모델을 이용한 음성인식 헬스케어 서비스

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant