CN110516083B - 相册管理方法、存储介质及电子设备 - Google Patents

相册管理方法、存储介质及电子设备 Download PDF

Info

Publication number
CN110516083B
CN110516083B CN201910816156.XA CN201910816156A CN110516083B CN 110516083 B CN110516083 B CN 110516083B CN 201910816156 A CN201910816156 A CN 201910816156A CN 110516083 B CN110516083 B CN 110516083B
Authority
CN
China
Prior art keywords
information
uploaded
image
album
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910816156.XA
Other languages
English (en)
Other versions
CN110516083A (zh
Inventor
胡风硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN201910816156.XA priority Critical patent/CN110516083B/zh
Publication of CN110516083A publication Critical patent/CN110516083A/zh
Priority to US16/840,716 priority patent/US11580971B2/en
Application granted granted Critical
Publication of CN110516083B publication Critical patent/CN110516083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • G06F16/436Filtering based on additional data, e.g. user or group profiles using biological or physiological data of a human being, e.g. blood pressure, facial expression, gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • G06F16/4387Presentation of query results by the use of playlists
    • G06F16/4393Multimedia presentations, e.g. slide shows, multimedia albums
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/178Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本公开属于终端显示设备技术领域,涉及一种相册管理方法、计算机可读存储介质及电子设备。该方法包括:获取来自家庭成员的语音搜索信息,并对语音搜索信息进行意图识别,以得到作用于家庭相册的意图识别结果;提取语音搜索信息的搜索声纹特征,并识别搜索声纹特征,以确定家庭成员中的搜索成员身份信息;发送意图识别结果和搜索成员身份信息,并根据意图识别结果和搜索成员身份信息打开所述家庭相册。本公开通过声纹识别技术可以实现为不同的家庭成员做出个性化响应的功能。一方面,通过语音设备确认用户身份,保障使用安全,并提供个性化的服务;另一方面,提高了语音搜索结果的准确率,简化了用户操作,节省了操作时间,提高了用户操作效率。

Description

相册管理方法、存储介质及电子设备
技术领域
本公开涉及终端显示设备技术领域,尤其涉及一种相册管理方法、计算机可读存储介质及电子设备。
背景技术
当前的智能语音设备,基于语音识别技术和自然语言处理技术,可以实现与用户交互,并给予合适操作的功能。举例而言,智能相册可以根据家庭成员输入的语音信息,实现查看相册照片等功能。然而,当前的智能语音设备对家庭成员的响应均为相同的处理方式,例如智能相册或者画屏只能对家庭中的各成员做同样的处理,丧失了推送媒体的个性化,也限制了使用场景的拓展。
鉴于此,本领域亟需开发一种新的相册管理方法。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种相册管理方法、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制而导致的智能语音设备无法智能化响应的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一个方面,提供一种应用于客户端的相册管理方法,所述方法包括:获取来自家庭成员的语音搜索信息,并对所述语音搜索信息进行意图识别,以得到作用于家庭相册的意图识别结果;提取所述语音搜索信息的搜索声纹特征,并识别所述搜索声纹特征,以确定所述家庭成员中的搜索成员身份信息;发送所述意图识别结果和所述搜索成员身份信息,并根据所述意图识别结果和所述搜索成员身份信息打开所述家庭相册。
在本公开的一种示例性实施例中,在所述根据所述意图识别结果和所述搜索成员身份信息打开所述家庭相册之后,所述方法还包括:接收到根据所述意图识别结果确定的目标相册图像或目标属性相册图像;将所述目标相册图像或目标属性相册图像显示给与所述搜索成员身份信息对应的家庭成员。
在本公开的一种示例性实施例中,所述对所述语音搜索信息进行意图识别,以得到作用于家庭相册的意图识别结果,包括:对所述语音搜索信息进行语音识别处理,以得到与所述语音搜索信息对应的文本搜索信息;对所述文本搜索信息进行自然语言理解处理,以得到作用于所述家庭相册的意图识别结果。
在本公开的一种示例性实施例中,所述方法还包括:获取所述家庭成员中待上传成员的待上传语音信息,并提取所述待上传语音信息的待上传声纹特征;获取所述待上传成员的待上传图像和待上传身份信息,并关联所述待上传声纹特征、所述待上传图像和所述待上传身份信息;上传关联后的所述待上传声纹特征、所述待上传图像和所述待上传身份信息。
在本公开的一种示例性实施例中,所述识别所述搜索声纹特征,以确定所述家庭成员中的搜索成员身份信息,包括:计算所述搜索声纹特征与所述预设声纹特征之间的声纹相似信息;若所述声纹相似信息满足预设条件,获取与所述预设声纹特征关联的预设身份信息,以确定为所述家庭成员中的搜索成员身份信息。
根据本公开的第二个方面,提供一种应用于服务器端的相册管理方法,所述方法包括:接收意图识别结果和搜索成员身份信息,根据所述意图识别结果和所述搜索成员身份信息确定待查看的目标家庭成员;利用人脸识别算法对家庭相册进行人脸识别,以得到所述目标家庭成员的目标相册图像;发送所述目标相册图像,以将所述目标相册图像反馈给与所述搜索成员身份信息对应的家庭成员。
在本公开的一种示例性实施例中,所述意图识别结果包括人脸属性意图结果,所述方法还包括:对所述目标相册图像进行人脸属性检测,以得到满足所述人脸属性意图结果的目标属性相册图像;发送所述目标属性相册图像,以将所述目标属性相册图像反馈给与所述搜索成员身份信息对应的家庭成员。
在本公开的一种示例性实施例中,所述对所述目标相册图像进行人脸属性检测,以得到满足所述人脸属性意图结果的目标属性相册图像,包括:对所述目标相册图像进行人脸属性检测,以根据预设人脸属性信息得到满足人脸属性意图结果的目标人脸属性信息;确定包括所述目标人脸属性信息的目标相册图像,以确定为所述目标属性相册图像。
在本公开的一种示例性实施例中,所述方法还包括:接收上传的已关联的待上传身份信息、待上传声纹特征与待上传图像;存储所述待上传身份信息、所述待上传声纹特征与所述待上传图像。
在本公开的一种示例性实施例中,所述存储所述待上传身份信息、所述待上传声纹特征与所述待上传图像,包括:将所述待上传身份信息确定为预设身份信息,并进行存储;将所述待上传声纹特征确定为预设声纹特征,并进行存储;将所述待上传图像确定为预设图像,并进行存储。
在本公开的一种示例性实施例中,所述将所述待上传图像确定为预设图像,并进行存储,包括:对所述预设图像进行人脸属性检测,以得到预设人脸属性信息;关联所述预设人脸属性信息与所述预设图像,并进行存储。
在本公开的一种示例性实施例中,所述预设人脸属性信息包括:预设头部属性信息、预设人脸年龄信息、预设人脸颜值信息和预设人脸情绪信息。
在本公开的一种示例性实施例中,所述方法还包括:接收上传的后续上传图像,将所述后续上传图像与所述预设图像进行匹配;获取匹配到的所述预设图像,并获取与所述预设图像关联的预设人脸属性信息、所述预设身份信息和所述预设声纹特征;将所述预设人脸属性信息、所述预设身份信息与所述预设声纹信息确定为与所述后续上传图像关联的人脸属性信息、身份信息和声纹特征,进行存储。
根据本公开的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意示例性实施例中任意一项所述的相册管理方法。
根据本公开的第四个方面,提供一种电子设备,包括:处理器和存储器;其中,存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例中任意一项所述的相册管理方法。
由上述技术方案可知,本公开示例性实施例中的相册管理方法、计算机存储介质及电子设备至少具备以下优点和积极效果:
在本公开的示例性实施例提供的方法中,通过声纹识别技术和人脸识别技术的结合,可以实现为不同的家庭成员做出个性化响应的功能。一方面,可以使语音设备在与用户交互的时候确认用户身份,保障使用安全,并为不同的用户提供个性化的服务;另一方面,根据搜索成员的意图和人脸识别技术,确定出目标相册图像,实现该场景下的个性化响应。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开示例性实施例中一种应用于客户端的相册管理方法的流程图;
图2示意性示出本公开示例性实施例中对语音搜索信息进行意图识别的方法的流程示意图;
图3示意性示出本公开示例性实施例中确定搜索成员身份信息的方法的流程示意图;
图4示意性示出本公开示例性实施例中上传家庭成员的数据的方法的流程示意图;
图5示意性示出本公开示例性实施例中显示目标图像的方法的流程示意图;
图6示意性示出本公开示例性实施例中一种应用于服务器端的相册管理方法的流程示意图;
图7示意性示出本公开示例性实施例中发送目标属性相册图像的方法的流程示意图;
图8示意性示出本公开示例性实施例中确定目标属性相册图像的方法的流程示意图;
图9示意性示出本公开示例性实施例中接收到待上传成员的数据的处理方法的流程示意图;
图10示意性示出本公开示例性实施例中存储已关联的数据的方法的流程示意图;
图11示意性示出本公开示例性实施例中存储预设图像的方法的流程示意图;
图12示意性示出本公开示例性实施例中非首次存储数据的方法的流程示意图;
图13示意性示出本公开示例性实施例中在应用场景的相册管理方法的流程示意图;
图14示意性示出本公开示例性实施例中相册管理系统保存家庭成员关系的结构示意图;
图15示意性示出本公开示例性实施例中的一种存储的家庭成员关系的结构示意图;
图16示意性示出本公开示例性实施例中一种用于实现相册管理方法的电子设备;
图17示意性示出本公开示例性实施例中一种用于实现相册管理方法的计算机可读存储介质。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”和“第二”等仅作为标记使用,不是对其对象的数量限制。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
针对相关技术中存在的问题,本公开提出了一种应用于客户端的相册管理方法。图1示出了相册管理方法的流程图,如图1所示,相册管理方法至少包括以下步骤:
步骤S110.获取来自家庭成员的语音搜索信息,并对语音搜索信息进行意图识别,以得到作用于家庭相册的意图识别结果。
步骤S120.提取语音搜索信息的搜索声纹特征,并识别搜索声纹特征,以确定家庭成员中的搜索成员身份信息。
步骤S130.发送意图识别结果和搜索成员身份信息,并根据意图识别结果和搜索成员身份信息打开家庭相册。
在本公开的示例性实施例中,通过声纹识别技术可以实现确定不同的家庭成员,以做出个性化响应的功能。一方面,可以使语音设备在与用户交互的时候确认用户身份,保障使用安全,并为不同的用户提供个性化的服务;另一方面,提高了语音搜索结果的准确率,简化了用户操作,节省了操作时间,提高了用户操作效率。
下面对相册管理方法的各个步骤进行详细说明。
在步骤S110中,获取来自家庭成员的语音搜索信息,并对语音搜索信息进行意图识别,以得到作用于家庭相册的意图识别结果。
在本公开的示例性实施例中,语音搜索信息可以是在家庭成员使用家里的语音搜索设备的时候,对语音搜索设备发出的一段包含该家庭成员搜索请求的语音。
在可选的实施例中,图2示出了对语音搜索信息进行意图识别的方法的流程示意图,如图2所示,该方法至少包括以下步骤:在步骤S210中,对语音搜索信息进行语音识别处理,以得到与语音搜索信息对应的文本搜索信息。其中,可以采用深度学习方法对语音搜索信息进行语音识别处理。举例而言,利用卷积神经网络或者短期记忆网络等构造语音识别模型,将语音搜索信息输入至语音识别模型。该语音识别模型可以对语音搜索信息进行转换,得到与语音搜索信息对应的文本搜索信息。
在步骤S220中,对文本搜索信息进行自然语言理解处理,以得到作用于家庭相册的意图识别结果。自然语言理解处理可以包括分词、去停用词等预处理过程,并采用现有的自然语言处理(Natural Language Understanding,NLU)技术对文本搜索信息进行自然语言处理。具体的,对文本搜索信息进行预处理之后,基于对文本搜索信息中词语的词性分析以及句法分析,可以确定文本搜索信息的自然语言处理的处理结果,该处理结果可以是与文本搜索信息对应的特征词的有序序列。其中,特征词可以是对文本搜索信息进行预处理之后确定的词语,并且可以根据文本搜索信息中的特征词顺序确定有序序列,也可以根据标准语法生成特征词的有序序列。然后,将该有序序列填充至嵌套化的意图信息结构体中,可以得到作用于家庭相册的意图识别结果。其中,嵌套化的意图信息结构体可以根据应用场景事先定义具体字段,例如搜索意图类别、意图类别信息、历史行为信息等。
在本示例性实施例中,通过对语音搜索信息进行语音识别处理和自然语言理解处理,可以获得作用于家庭相册的意图识别结果,能更精确的获得家庭成员的需求,进行精确搜索,提高了搜索结果的准确率。
在步骤S120中,提取语音搜索信息的搜索声纹特征,并识别搜索声纹特征,以确定家庭成员中的搜索成员身份信息。
在本公开的示例性实施例中,声纹识别技术就是利用语音的声纹特征对说话人进行身份验证的生物识别技术。每个人都具有特定的声纹特征,这是由我们的发声器官在生长过程中逐渐形成的特征。无论别人对我们的说话模仿的多么相似,声纹特征都具有显著差别。在实际应用中,经典的梅尔倒谱系数(Mel-Frequency Cepstrum,简称MFCC)、感知线性预测系数(Perceptual Linear Predictive,简称PLP)、深度特征(Deep Feature)以及能量规整谱系数等,都可以作为声纹特征。举例而言,可以采用MFCC作为搜索声纹特征。具体的,提取语音搜索信息的搜索声纹特征时,可以先对语音搜索信息进行预处理,去除非语音信号和静默信号,然后对经过预处理之后的语音搜索信息进行分帧,得到每一帧语音信号,并提取每一帧语音信号的MFCC,把得到的MFCC确定为语音搜索信息的搜索声纹特征。除此之外,还可以采用其他方式获得搜索声纹特征,本示例性实施例对此不做特殊限定。
在可选的实施例中,图3示出了确定搜索成员身份信息的方法的流程示意图,如图3所示,该方法至少包括以下步骤:在步骤S310中,计算搜索声纹特征与预设声纹特征之间的声纹相似信息。其中,预设声纹特征可以是在首次使用该家庭相册时,录入的家庭成员的声音的声纹特征信息。将搜索声纹特征与预设声纹特征进行比对,以确定声纹相似信息。举例而言,可以根据计算搜索声纹特征与预设声纹特征计算得到对应的声纹向量,然后采用余弦距离,还可以采用切比雪夫距离,也可以采用采用马氏距离,或者是其他计算两个向量相似度的算法来计算,将计算结果确定为搜索声纹特征与预设声纹特征之间的声纹相似信息。
在步骤S320中,若声纹相似信息满足预设条件,获取与预设声纹特征关联的预设身份信息,以确定为家庭成员中的搜索成员身份信息。其中,该预设条件可以是判断搜索声纹特征对应的家庭成员的判断条件。并且,声纹相似信息用于表示两种声纹向量之间的相似度,可以认为声纹相似信息越小,表明搜索声纹特征与预设声纹特征越不相似,相反的,声纹相似信息越大,表明搜索声纹特征与预设声纹特征越相似。鉴于此,该预设条件可以是大于数值阈值,若声纹相似大于该数值阈值,表明该搜索声纹特征与预设声纹特征匹配。此时,可以获取该预设声纹特征关联的预设身份信息,并确定为搜索成员身份信息。
在本示例性实施例中,使用搜索声纹特征确定家庭成员的搜索成员身份信息,可以更加充分地利用语音搜索信息,提高搜索结果的准确率,保障家庭相册的使用安全,提供更为精准的个性化服务。
在可选的实施例中,图4示出了上传家庭成员的数据的方法的流程示意图,如图4所示,该方法包括以下步骤:在步骤S410中,获取家庭成员中待上传成员的待上传语音信息,并提取待上传语音信息的待上传声纹特征。在首次使用该家庭相册的时候,家庭成员可以念一小段话,作为该待上传成员的待上传语音信息,并提取该待上传语音信息的待上传声纹特征。举例而言,可以采用MFCC作为待上传声纹特征。具体的,提取待上传语音信息的待上传声纹特征时,可以先对待上传语音信息进行预处理,去除非语音信号和静默信号,然后对经过预处理之后的待上传语音信息进行分帧,得到每一帧语音信号,并提取每一帧语音信号的MFCC,把得到的MFCC确定为待上传语音信息的待上传声纹特征。除此之外,还可以采用其他提取待上传声纹特征的方法,本示例性实施例对此不做特殊限定。
在步骤S420中,获取待上传成员的待上传图像和待上传身份信息,并关联待上传声纹特征、待上传图像和待上传身份信息。待上传成员除了念一段待上传语音信息之外,还可以上传自己的照片,作为待上传图像。并且,在首次出现该待上传成员时,可以指定该待上传成员在家庭成员结构图中的位置,作为待上传身份信息。并且,针对该待上传成员,可以关联其待上传声纹特征、待上传图像和待上传身份信息,使三者之间建立映射关系。
在步骤S430中,上传关联后的待上传声纹特征、待上传图像和待上传身份信息。将已关联的待上传声纹特征、待上传图像和待上传身份信息上传,便于后续该家庭成员使用家庭相册。
在可选的实施例中,建立家庭中各成员的声纹特征、图像和身份信息之间的一一对应关系,可以作为个性化显示的基础。
在步骤S130中,发送意图识别结果和搜索成员身份信息,并根据意图识别结果和搜索成员身份信息打开家庭相册。
在本公开的示例性实施例中,根据已得到的搜索成员身份信息,可以确定该家庭成员对家庭相册的使用权限,并且,根据已确定的意图识别结果,可以打开该家庭相册,以进行后续个性化服务。
在可选的实施例中,图5示出了显示目标图像的方法的流程示意图,如图5所示,该方法至少包括以下步骤:在步骤S510中,接收到根据意图识别结果确定的目标相册图像或目标属性相册图像。其中,目标相册图像可以是想要查看的目标家庭成员的图像,目标属性相册图像可以是包括想要查看的目标家庭成员的人脸属性信息的图像。举例而言,目标相册图像可以是妹妹的照片,目标属性相册图像可以是妹妹长头发的照片。除此之外,还可以是其他的目标相册图像和目标属性相册图像,本示例性实施例对此不做特殊限定。
在步骤S520中,将目标相册图像或目标属性相册图像显示给与搜索成员身份信息对应的家庭成员。接收到目标相册图像或目标属性相册图像之后,可以在家庭相册中显示该目标相册图像或目标属性相册图像,以满足发起搜索请求的家庭成员的查看需求。
在本示例性实施例中,针对发起搜索请求的家庭成员的语音搜索信息,可以分别显示目标相册图像或目标属性相册图像,以实现根据不同家庭成员和意图进行个性化显示的功能。
针对相关技术中存在的问题,本公开还提出一种应用于服务器端的相册管理方法。图6示出了该相册管理方法的流程示意图,如图6所示,该相册管理方法至少包括以下步骤:
步骤S610.接收意图识别结果和搜索成员身份信息,根据意图识别结果和搜索成员身份信息确定待查看的目标家庭成员;
步骤S620.利用人脸识别算法对家庭相册进行人脸识别,以得到目标家庭成员的目标相册图像;
步骤S630.发送目标相册图像,以将目标相册图像反馈给与搜索成员身份信息对应的家庭成员。
在本公开的示例性实施例中,通过人脸识别技术可以实现为不同的家庭成员做出个性化响应的功能。一方面,可以简化用户操作,节省操作时间,提高用户操作的效率和准确度;另一方面,根据搜索成员的意图和人脸识别技术,确定出目标相册图像,实现该场景下的个性化响应。
下面对该相册管理方法的各个步骤进行详细说明。
在步骤S610中,接收意图识别结果和搜索成员身份信息,根据意图识别结果和搜索成员身份信息确定待查看的目标家庭成员。
在本公开的一种示例性实施例中,举例而言,若发起搜索的家庭成员的语音搜索信息是“我想看妹妹小时候的照片”,可以根据该语音搜索信息的意图识别结果和搜索成员身份信息可以确定待查看的目标家庭成员为妹妹。
在步骤S620中,利用人脸识别算法对家庭相册进行人脸识别,以得到目标家庭成员的目标相册图像。
在本公开的一种示例性实施例中,人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和根据人脸,进而对检测到的人脸进行脸部识别的一系列相关技术,通常也叫作人像识别、面部识别。人脸识别算法可以有基于人脸特征点的识别算法、基于整幅人脸图像的识别算法、基于模板的识别算法和利用神经网络进行识别的算法等。利用人脸识别算法可以对家庭相册中已上传的所有图像进行人脸识别,从中确定包含目标家庭成员的目标相册图像。
在步骤S630中,发送目标相册图像,以将目标相册图像反馈给与搜索成员身份信息对应的家庭成员。
在本公开的一种示例性实施例中,将已确定的目标相册图像可以发送给客户端,以作为发起搜索请求的家庭成员的反馈信息。
在可选的实施例中,意图识别结果包括人脸属性意图结果,图7示出了发送目标属性相册图像的方法的流程示意图,如图7所示,该方法至少包括以下步骤:在步骤S710中,对目标测图像进行人脸属性检测,以得到满足人脸属性意图结果的目标属性相册图像。
在可选的实施例中,图8示出了确定目标属性相册图像的方法的流程示意图,如图8所示,该方法至少包括以下步骤:在步骤S810中,对目标相册图像进行人脸属性检测,以根据预设人脸属性信息得到满足人脸属性意图结果的目标人脸属性信息。举例而言,人脸属性检测可以包括头部姿态检测和人脸对应的性别和年龄检测、人脸的情绪检测以及人脸的颜值分数检测等,本示例性实施例对此不做特殊限定。对已确定的目标相册图像进行人脸属性检测,可以是对目标相册图像中的人物的头部朝向角度、年龄、性别、情绪、颜值分值进行检测。并且,可以采用与人脸属性一一对应的卷积神经网络模型对目标相册图像进行人脸属性检测。除此之外,还可以采用其他人脸属性检测算法,本示例性实施例对此不做特殊限定。
在可选的实施例中,预设人脸属性信息包括预设头部属性信息、预设人脸年龄信息、预设人脸颜值信息和预设人脸情绪信息。其中,预设头部属性信息可以是成员头部的朝向,例如低头、抬头等;预设人脸年龄信息可以是人物的人脸年龄值;预设人脸颜值信息可以是人物的人脸颜值打分值;预设人脸情绪信息可以是人物的脸部情绪信息,例如开心、伤心等,本示例性实施例对此不做特殊限定。
基于预设人脸属性信息,可以根据人脸属性检测的结果,获得满足人脸属性意图结果的目标人脸属性信息。举例而言,目标人脸属性信息可以是“大哭”,也可以是“5岁”和“大哭”,还可以是其他目标人脸属性信息,还可以是其他数目的目标人脸属性信息,本示例性实施例对此不做特殊限定。
在步骤S820中,确定包括目标人脸属性信息的目标相册图像,以确定为目标属性相册图像。将包含目标人脸属性信息的目标相册图像确定为目标属性相册图像,亦即查找到满足人脸属性意图结果的目标属性相册图像。
在本示例性实施例中,根据预设人脸属性信息确定目标属性相册信息,减少操作流程,节约查看时长。
在步骤S720中,发送目标属性相册图像,以将目标属性相册图像反馈给与搜索成员身份信息对应的家庭成员。将已确定的目标属性相册图像可以发送给客户端,以作为发起搜索请求的家庭成员的反馈信息。
在本示例性实施例中,利用人脸属性分析技术,增加相册图像查看的需求,丰富查看相册场景下的个性化响应。
在可选的实施例中,图9示出了接收到待上传成员的数据的处理方法的流程示意图,如图9所示,该方法至少包括以下步骤:在步骤S910中,接收上传的已关联的待上传身份信息、待上传声纹特征与待上传图像。在首次使用该家庭相册的时候,家庭成员可以念一小段话,作为该待上传成员的待上传语音信息,并提取该待上传语音信息的待上传声纹特征。举例而言,可以采用MFCC作为待上传声纹特征,还可以是其他形式的待上传声纹特征,本示例性实施例对此不做特殊限定。待上传成员除了念一段待上传语音信息之外,还可以上传自己的照片,作为待上传图像。并且,在首次出现该待上传成员时,可以指定该待上传成员在家庭成员结构图中的位置,作为待上传身份信息。并且,待上传成员的待上传声纹特征、待上传图像和待上传身份信息,三者之间可以建立映射关系,以使其关联。服务器端可以接收到客户端上传的已关联的待上传身份信息、待上传声纹特征和待上传图像。
在步骤S920中,存储待上传身份信息、待上传声纹特征与待上传图像。
在可选的实施例中,图10示出了存储已关联的数据的方法的流程示意图,如图10所示,该方法至少包括以下步骤:在步骤S1010中,将待上传身份信息确定为预设身份信息,并进行存储。在上传待上传身份信息时,可以将其确定为预设身份信息,并进行存储,亦即将已上传的身份信息保存在服务器端。
在步骤S1020中,将待上传声纹特征确定为预设声纹特征,并进行存储。在上传待上传声纹特征时,可以将其确定为预设声纹特征,并进行存储,亦即将已上传的声纹特征保存在服务器端。
在步骤S1030中,将待上传图像确定为预设图像,并进行存储。
在可选的实施例中,图11示出了存储预设图像的方法的流程示意图,如图11所示,该方法至少包括以下步骤:在步骤S1110中,对预设图像进行人脸属性检测,以得到预设人脸属性信息。举例而言,人脸属性检测可以包括头部姿态检测和人脸对应的性别和年龄检测、人脸的情绪检测以及人脸的颜值分数检测等,本示例性实施例对此不做特殊限定。对预设图像进行人脸属性检测,可以是对预设图像中的人物的头部朝向角度、年龄、性别、情绪、颜值分值进行检测。并且,可以采用与人脸属性一一对应的卷积神经网络模型对目标相册图像进行人脸属性检测。除此之外,还可以采用其他人脸属性检测算法,本示例性实施例对此不做特殊限定。
并且,预设人脸属性信息包括预设头部属性信息、预设人脸年龄信息、预设人脸颜值信息和预设人脸情绪信息。其中,预设头部属性信息可以是成员头部的朝向,例如低头、抬头等;预设人脸年龄信息可以是人物的人脸年龄值;预设人脸颜值信息可以是人物的人脸颜值打分值;预设人脸情绪信息可以是人物的脸部情绪信息,例如开心、伤心等,本示例性实施例对此不做特殊限定。
在步骤S1120中,关联预设人脸属性信息与预设图像,并进行存储。为便于家庭成员通过预设人脸属性信息查找目标人脸属性信息,进一步确定目标相册图像,可以在预设人脸属性信息和预设图像之间建立映射关系,然后进行存储。
在本示例性实施例中,在待上传图像中进一步获取人脸属性信息,丰富存储数据,为搜索需求提供更为多样化的选择。
在可选的实施例中,图12示出了非首次存储数据的处理方法的流程示意图,如图12所示,该方法至少包括以下步骤:在步骤S1210中,接收上传的后续上传图像,将后续上传图像与预设图像进行匹配。当家庭成员想要在家庭相册中上传新的照片时,可以将后续上传图像与预设图像进行匹配。举例而言,具体的匹配方式可以是通过家庭成员与家庭相册之间的交互,实现对家庭相册的匹配和管理,还可以是其他匹配方式,本示例性实施例对此不做特殊限定。
在步骤S1220中,获取匹配到的预设图像,并获取与预设图像关联的预设人脸属性信息、预设身份信息和预设声纹特征。根据已确定的预设图像,可以根据预设图像、预设人脸属性信息、预设身份信息和预设声纹特征之间的关联关系,获取到对应的预设人脸属性信息、预设身份信息和预设声纹特征。
在步骤S1230中,将预设人脸属性信息、预设身份信息与预设声纹特征确定为与后续上传图像关联的人脸属性信息、身份信息和声纹特征,进行存储。将已获取到的对应的预设人脸属性信息、预设身份信息和预设声纹特征与后续上传图像进行关联,以作为该后续上传图像的人脸属性信息、身份信息和声纹特征,并存储在服务器端。
在本示例性实施例中,基于已存储的预设数据,为后续上传的图像自动生成关联数据和信息,简化了上传流程,节省了人力和时间,提升了用户体验。
下面结合一应用场景对本公开实施例中的相册管理方法做出详细说明。
图13示出了应用场景中的相册管理方法的系统结构示意图,如图13所示,该系统可以由智能终端1310、相册管理系统1320和各个算法模块组成。
其中,智能终端1310可以与用户直接交互,包括语音等控制信号的收取。举例而言,该智能终端可以是智能电子相册、智能画屏、智能电视和智能音响等设备。
相册管理系统1320部署在服务器端,包含人脸识别算法模块、人脸属性分析算法模块和用户家庭的家庭成员关系结构存储模块。
各个算法模块是用来支撑该系统中的数据走向的。其中,声纹识别模块1330可以分析声音属于哪个家庭成员,亦即输入语音搜索信息的语音信号,可以输出搜索成员的身份信息。
语音识别模块1340可以将语音信息转化成文字信息,亦即输入语音搜索信息的语音信息,可以输出对应的文本搜索信息。
自然语言理解模块1350可以对家庭成员的意图进行理解,亦即输入语音识别后的文本搜索信息,可以输出家庭成员的意图识别结果。
人脸识别算法模块1360部署在相册管理系统中,可以当输入家庭成员的照片时,输出照片中的各个人脸对应的身份信息。
人脸属性分析算法模块1370也部署在相册管理系统中,当输入用户照片时,可以输出对应的人脸属性信息。
图14示出了相册管理系统保存家庭成员关系的结构示意图,如图14所示,为爷爷打上的标签为A,且A:{年龄:65;颜值:66;长发:0;眼镜:1}。其中,0表示该家庭成员不具备该人脸属性信息,1表示该家庭成员具备该人脸属性信息。可以看出,该图像中,爷爷的年龄为65岁,颜值分值为66分,短发且戴眼镜。同样的,为奶奶打上的标签为B,且B:{年龄:63;颜值:79;长发:0;眼镜:0}。可以看出,该图像中,奶奶的年龄为63岁,颜值分值为79分,短发且不戴眼镜。爸爸为C:{年龄:37;颜值:77;长发:0;眼镜:0}。可以看出,该图像中,爸爸的年龄为37岁,颜值分值为77分,短发且不戴眼镜。妈妈为D:{年龄:37;颜值:83;长发:1;眼镜:0}。可以看出,该图像中,妈妈的年龄为37岁,颜值分值为83分,长发且不戴眼镜。儿子为E:{年龄:6;颜值:51;长发:0;眼镜:0}。可以看出,该图像中,儿子的年龄为6岁,颜值分值为51分,短发且不戴眼镜。女儿为F:{年龄:4;颜值:71;长发:1;眼镜:0}。可以看出,该图像中,女儿的年龄为4岁,颜值分值为71分,长发且不戴眼镜。
图15示出了一种相册管理系统中存储的家庭成员关系的结构示意图,如图15所示,C为该家庭相册的账户主人,A和B分别为该账户主任的父亲和母亲,D为该相册主人的妻子,E和F分别为该家庭相册主人的儿子和女儿。
根据该家庭成员的关系结构示意图,若发起“我想看妹妹小时候的照片”的语音搜索信息,可以根据声纹识别技术判断出搜索成员的身份信息,并且通过语音识别技术和自然语言理解处理技术判断出该家庭成员的意图识别结果。然后,从家庭相册中确定出目标相册图像,并反馈给发起语音搜索请求的家庭成员。
在本公开的示例性实施例中,通过声纹识别技术和人脸识别技术的结合,可以实现为不同的家庭成员做出个性化响应的功能。一方面,可以使语音设备在与用户交互的时候确认用户身份,保障使用安全,并为不同的用户提供个性化的服务;另一方面,根据搜索成员的意图和人脸识别技术,确定出目标相册图像,实现该场景下的个性化响应。
需要说明的是,虽然以上示例性实施例的实施方式以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或者必须执行全部的步骤才能实现期望的结果。附加地或者备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
此外,在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
下面参照图16来描述根据本发明的这种实施例的电子设备1600。图16显示的电子设备1600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图16所示,电子设备1600以通用计算设备的形式表现。电子设备1600的组件可以包括但不限于:上述至少一个处理单元1610、上述至少一个存储单元1620、连接不同系统组件(包括存储单元1620和处理单元1610)的总线1630、显示单元1640。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1610执行,使得所述处理单元1610执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
存储单元1620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)1621和/或高速缓存存储单元1622,还可以进一步包括只读存储单元(ROM)1623。
存储单元1620还可以包括具有一组(至少一个)程序模块1625的程序/实用工具1624,这样的程序模块1625包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1600也可以与一个或多个外部设备1800(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1600交互的设备通信,和/或与使得该电子设备1600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1650进行。并且,电子设备1600还可以通过网络适配器1660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1640通过总线1630与电子设备1600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
参考图17所示,描述了根据本发明的实施例的用于实现上述方法的程序产品1700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (14)

1.一种应用于客户端的相册管理方法,其特征在于,所述方法包括:
获取来自家庭成员的语音搜索信息,并利用卷积神经网络或者短期记忆网络构造的语音识别模型对所述语音搜索信息进行语音识别处理,以得到与所述语音搜索信息对应的文本搜索信息;对所述文本搜索信息进行自然语言理解处理,以得到作用于家庭相册的意图识别结果;所述意图识别结果包括与所述文本搜索信息对应的特征词的有序序列;
对所述语音搜索信息进行去除非语音信号和静默信号处理,并对处理之后的所述语音搜索信息进行分帧,并提取每一帧语音信号的MFCC,将所述MFCC确定为所述语音搜索信息的搜索声纹特征,并识别所述搜索声纹特征,以确定所述家庭成员中的搜索成员身份信息;
发送所述意图识别结果和所述搜索成员身份信息,并根据所述意图识别结果和所述搜索成员身份信息打开所述家庭相册。
2.根据权利要求1所述的相册管理方法,其特征在于,在所述根据所述意图识别结果和所述搜索成员身份信息打开所述家庭相册之后,所述方法还包括:
接收到根据所述意图识别结果确定的目标相册图像或目标属性相册图像;
将所述目标相册图像或目标属性相册图像显示给与所述搜索成员身份信息对应的家庭成员。
3.根据权利要求1所述的相册管理方法,其特征在于,所述方法还包括:
获取所述家庭成员中待上传成员的待上传语音信息,并提取所述待上传语音信息的待上传声纹特征;
获取所述待上传成员的待上传图像和待上传身份信息,并关联所述待上传声纹特征、所述待上传图像和所述待上传身份信息;
上传关联后的所述待上传声纹特征、所述待上传图像和所述待上传身份信息。
4.根据权利要求3所述的相册管理方法,其特征在于,所述识别所述搜索声纹特征,以确定所述家庭成员中的搜索成员身份信息,包括:
计算所述搜索声纹特征与预设声纹特征之间的声纹相似信息;
若所述声纹相似信息满足预设条件,获取与预设声纹特征关联的预设身份信息,以确定为所述家庭成员中的搜索成员身份信息。
5.一种应用于服务器端的相册管理方法,其特征在于,所述方法包括:
接收意图识别结果和搜索成员身份信息,根据所述意图识别结果和所述搜索成员身份信息确定待查看的目标家庭成员;其中,利用卷积神经网络或者短期记忆网络构造的语音识别模型对语音搜索信息进行语音识别处理,以得到与所述语音搜索信息对应的文本搜索信息;对所述文本搜索信息进行自然语言理解处理,以得到作用于家庭相册的所述意图识别结果;所述意图识别结果包括与所述文本搜索信息对应的特征词的有序序列;其中,对所述语音搜索信息进行去除非语音信号和静默信号处理,并对处理之后的所述语音搜索信息进行分帧,并提取每一帧语音信号的MFCC,将所述MFCC确定为所述语音搜索信息的搜索声纹特征,并识别所述搜索声纹特征,以确定所述家庭成员中的搜索成员身份信息;
利用人脸识别算法对家庭相册进行人脸识别,以得到所述目标家庭成员的目标相册图像;
发送所述目标相册图像,以将所述目标相册图像反馈给与所述搜索成员身份信息对应的家庭成员。
6.根据权利要求5所述的相册管理方法,其特征在于,
所述意图识别结果包括人脸属性意图结果,
所述方法还包括:
对所述目标相册图像进行人脸属性检测,以得到满足所述人脸属性意图结果的目标属性相册图像;
发送所述目标属性相册图像,以将所述目标属性相册图像反馈给与所述搜索成员身份信息对应的家庭成员。
7.根据权利要求6所述的相册管理方法,其特征在于,所述对所述目标相册图像进行人脸属性检测,以得到满足所述人脸属性意图结果的目标属性相册图像,包括:
对所述目标相册图像进行人脸属性检测,以根据预设人脸属性信息得到满足人脸属性意图结果的目标人脸属性信息;
确定包括所述目标人脸属性信息的目标相册图像,以确定为所述目标属性相册图像。
8.根据权利要求5所述的相册管理方法,其特征在于,所述方法还包括:
接收上传的已关联的待上传身份信息、待上传声纹特征与待上传图像;
存储所述待上传身份信息、所述待上传声纹特征与所述待上传图像。
9.根据权利要求8所述的相册管理方法,其特征在于,所述存储所述待上传身份信息、所述待上传声纹特征与所述待上传图像,包括:
将所述待上传身份信息确定为预设身份信息,并进行存储;
将所述待上传声纹特征确定为预设声纹特征,并进行存储;
将所述待上传图像确定为预设图像,并进行存储。
10.根据权利要求9所述的相册管理方法,其特征在于,所述将所述待上传图像确定为预设图像,并进行存储,包括:
对所述预设图像进行人脸属性检测,以得到预设人脸属性信息;
关联所述预设人脸属性信息与所述预设图像,并进行存储。
11.根据权利要求10所述的相册管理方法,其特征在于,所述预设人脸属性信息包括:预设头部属性信息、预设人脸年龄信息、预设人脸颜值信息和预设人脸情绪信息。
12.根据权利要求11所述的相册管理方法,其特征在于,所述方法还包括:
接收上传的后续上传图像,将所述后续上传图像与所述预设图像进行匹配;
获取匹配到的所述预设图像,并获取与所述预设图像关联的预设人脸属性信息、所述预设身份信息和所述预设声纹特征;
将所述预设人脸属性信息、所述预设身份信息与所述预设声纹信息确定为与所述后续上传图像关联的人脸属性信息、身份信息和声纹特征,进行存储。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被发送器执行时实现权利要求1-4或者5-12中任意一项所述的相册管理方法。
14.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器被配置为经由执行所述可执行指令来执行权利要求1-4或者5-12中任意一项所述的相册管理方法。
CN201910816156.XA 2019-08-30 2019-08-30 相册管理方法、存储介质及电子设备 Active CN110516083B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910816156.XA CN110516083B (zh) 2019-08-30 2019-08-30 相册管理方法、存储介质及电子设备
US16/840,716 US11580971B2 (en) 2019-08-30 2020-04-06 Photo album management method, storage medium and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910816156.XA CN110516083B (zh) 2019-08-30 2019-08-30 相册管理方法、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN110516083A CN110516083A (zh) 2019-11-29
CN110516083B true CN110516083B (zh) 2022-07-12

Family

ID=68629644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910816156.XA Active CN110516083B (zh) 2019-08-30 2019-08-30 相册管理方法、存储介质及电子设备

Country Status (2)

Country Link
US (1) US11580971B2 (zh)
CN (1) CN110516083B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109426785B (zh) * 2017-08-31 2021-09-10 杭州海康威视数字技术股份有限公司 一种人体目标身份识别方法及装置
CN115242569B (zh) * 2021-04-23 2023-12-05 海信集团控股股份有限公司 智能家居中的人机交互方法和服务器
CN115238111B (zh) * 2022-06-15 2023-11-14 荣耀终端有限公司 一种图片显示方法及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201523457U (zh) * 2009-04-27 2010-07-07 大唐移动通信设备有限公司 一种家庭网关
CN102708185A (zh) * 2012-05-11 2012-10-03 广东欧珀移动通信有限公司 一种图片语音搜索方法
CN103984415A (zh) * 2014-05-19 2014-08-13 联想(北京)有限公司 一种信息处理方法及电子设备
CN105677799A (zh) * 2015-12-31 2016-06-15 宇龙计算机通信科技(深圳)有限公司 一种照片检索方法与系统
CN106773742A (zh) * 2015-11-23 2017-05-31 宏碁股份有限公司 语音控制方法及语音控制系统
CN107395846A (zh) * 2017-07-07 2017-11-24 珠海格力电器股份有限公司 一种语音与相册关联方法及其装置、用户终端
CN109582882A (zh) * 2018-11-15 2019-04-05 百度在线网络技术(北京)有限公司 搜索结果的展现方法、装置和电子设备
CN109871460A (zh) * 2019-01-23 2019-06-11 深圳市酷开网络科技有限公司 一种图片查找方法、智能终端及存储介质
CN110046305A (zh) * 2019-04-23 2019-07-23 江西财经大学 一种人工智能深度学习的方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE519700C2 (sv) * 1999-12-23 2003-04-01 Wespot Ab Bilddatabehandling
CA2615659A1 (en) * 2005-07-22 2007-05-10 Yogesh Chunilal Rathod Universal knowledge management and desktop search system
CN102016882B (zh) * 2007-12-31 2015-05-27 应用识别公司 利用脸部签名来标识和共享数字图像的方法、系统和计算机程序
US9721148B2 (en) * 2007-12-31 2017-08-01 Applied Recognition Inc. Face detection and recognition
WO2011001002A1 (en) * 2009-06-30 2011-01-06 Nokia Corporation A method, devices and a service for searching
WO2012009751A1 (en) * 2010-07-19 2012-01-26 Tapestry International Limited Systems and methods for providing simplified computing functionalities to a user
JP5723446B2 (ja) * 2011-06-02 2015-05-27 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路
US10333876B2 (en) * 2011-06-30 2019-06-25 Audiobyte Llc Method and system for communicating between a sender and a recipient via a personalized message including an audio clip extracted from a pre-existing recording
CN102841923B (zh) * 2012-07-09 2016-07-06 中国联合网络通信集团有限公司 信息处理平台及信息处理方法
US9904774B2 (en) * 2014-06-26 2018-02-27 Xiaomi Inc. Method and device for locking file
US9338493B2 (en) * 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN104408343B (zh) * 2014-11-09 2017-03-29 河南华辰智控技术有限公司 通过认证系统对生物特征识别的一种阈值计算方法
US10331312B2 (en) * 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10062133B1 (en) * 2016-01-26 2018-08-28 Google Llc Image retrieval for computing devices
CN107239203A (zh) * 2016-03-29 2017-10-10 北京三星通信技术研究有限公司 一种图像管理方法和装置
US11314898B2 (en) * 2017-02-28 2022-04-26 Samsung Electronics Co., Ltd. Operating method of electronic device for function execution based on voice command in locked state and electronic device supporting the same
KR102389996B1 (ko) * 2017-03-28 2022-04-25 삼성전자 주식회사 전자 장치 및 이를 이용한 사용자 입력을 처리하기 위한 화면 제어 방법
CN107357875B (zh) * 2017-07-04 2021-09-10 北京奇艺世纪科技有限公司 一种语音搜索方法、装置及电子设备
KR102440651B1 (ko) * 2017-09-19 2022-09-06 삼성전자주식회사 자연어 표현 제공 방법 및 이를 지원하는 전자 장치
CN107948132B (zh) * 2017-10-19 2022-01-18 远光软件股份有限公司 一种身份认证系统及报销设备
CN107944417A (zh) * 2017-12-07 2018-04-20 杭州测质成科技有限公司 基于图像识别的任务管理与量具数据提取系统及其方法
KR20190118813A (ko) * 2018-04-11 2019-10-21 삼성전자주식회사 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
US11314940B2 (en) * 2018-05-22 2022-04-26 Samsung Electronics Co., Ltd. Cross domain personalized vocabulary learning in intelligent assistants
US11222196B2 (en) * 2018-07-11 2022-01-11 Samsung Electronics Co., Ltd. Simultaneous recognition of facial attributes and identity in organizing photo albums

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201523457U (zh) * 2009-04-27 2010-07-07 大唐移动通信设备有限公司 一种家庭网关
CN102708185A (zh) * 2012-05-11 2012-10-03 广东欧珀移动通信有限公司 一种图片语音搜索方法
CN103984415A (zh) * 2014-05-19 2014-08-13 联想(北京)有限公司 一种信息处理方法及电子设备
CN106773742A (zh) * 2015-11-23 2017-05-31 宏碁股份有限公司 语音控制方法及语音控制系统
CN105677799A (zh) * 2015-12-31 2016-06-15 宇龙计算机通信科技(深圳)有限公司 一种照片检索方法与系统
CN107395846A (zh) * 2017-07-07 2017-11-24 珠海格力电器股份有限公司 一种语音与相册关联方法及其装置、用户终端
CN109582882A (zh) * 2018-11-15 2019-04-05 百度在线网络技术(北京)有限公司 搜索结果的展现方法、装置和电子设备
CN109871460A (zh) * 2019-01-23 2019-06-11 深圳市酷开网络科技有限公司 一种图片查找方法、智能终端及存储介质
CN110046305A (zh) * 2019-04-23 2019-07-23 江西财经大学 一种人工智能深度学习的方法

Also Published As

Publication number Publication date
CN110516083A (zh) 2019-11-29
US20210065706A1 (en) 2021-03-04
US11580971B2 (en) 2023-02-14

Similar Documents

Publication Publication Date Title
EP3477519B1 (en) Identity authentication method, terminal device, and computer-readable storage medium
WO2021082941A1 (zh) 视频人物识别方法、装置、存储介质与电子设备
CN107481720B (zh) 一种显式声纹识别方法及装置
US10621991B2 (en) Joint neural network for speaker recognition
CN107492379B (zh) 一种声纹创建与注册方法及装置
CN111415677B (zh) 用于生成视频的方法、装置、设备和介质
KR100586767B1 (ko) 다중모드 입력을 이용한 다중모드 초점 탐지, 기준 모호성해명 및 기분 분류를 위한 시스템 및 방법
US11854550B2 (en) Determining input for speech processing engine
CN110516083B (zh) 相册管理方法、存储介质及电子设备
CN112997186A (zh) “存活性”检测系统
CN109783642A (zh) 多人会议场景的结构化内容处理方法、装置、设备及介质
WO2021135685A1 (zh) 身份认证的方法以及装置
US20210110815A1 (en) Method and apparatus for determining semantic meaning of pronoun
CN114038457B (zh) 用于语音唤醒的方法、电子设备、存储介质和程序
CN112233680A (zh) 说话人角色识别方法、装置、电子设备及存储介质
CN115376559A (zh) 基于音视频的情绪识别方法、装置及设备
Szczuko et al. Validating data acquired with experimental multimodal biometric system installed in bank branches
JPH07105848B2 (ja) メデイア変換方式
US20210337274A1 (en) Artificial intelligence apparatus and method for providing visual information
US11681364B1 (en) Gaze prediction
CN111899718A (zh) 用于识别合成语音的方法、装置、设备和介质
CN111554269A (zh) 一种语音取号方法、系统及存储介质
KR102444834B1 (ko) 운전자 음성 인식을 이용한 운전자 의도를 추정하는 방법 및 장치
US11792365B1 (en) Message data analysis for response recommendations
US20230188892A1 (en) Contextual awareness in dynamic device groups

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant