CN111326175A - 一种对话者的提示方法及穿戴设备 - Google Patents

一种对话者的提示方法及穿戴设备 Download PDF

Info

Publication number
CN111326175A
CN111326175A CN202010100120.4A CN202010100120A CN111326175A CN 111326175 A CN111326175 A CN 111326175A CN 202010100120 A CN202010100120 A CN 202010100120A CN 111326175 A CN111326175 A CN 111326175A
Authority
CN
China
Prior art keywords
face
determining
dialogue
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010100120.4A
Other languages
English (en)
Inventor
廖志颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202010100120.4A priority Critical patent/CN111326175A/zh
Publication of CN111326175A publication Critical patent/CN111326175A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality

Abstract

本发明提供了一种对话者的提示方法及穿戴设备。在本申请中,在有人向佩戴穿戴设备的用户说话时,即使佩戴穿戴设备的用户所在环境很嘈杂,穿戴设备也可以基于至少两个麦克风分别采集向佩戴穿戴设备的用户发出的对话语音,然后确定对话语音的来源方向,再获取基于摄像头拍摄的该来源方向的图像,并在该图像中识别发出对话语音的对话者,进而可以基于该图像提示对话者正在向用户发出对话语音。如此使得用户在听扬声器播放的、向用户发出的对话语音的过程中,可以及时准确地基于图像的提示来获知发出对话语音的对话者,也即,获知谁在对自己说话。

Description

一种对话者的提示方法及穿戴设备
技术领域
本发明涉及计算机技术领域,特别是涉及一种对话者的提示方法及穿戴设备。
背景技术
在日常生活和工作中,人们通常需要其他人对话,当某一对话者向用户说话时,用户可以通过双耳迅速判定出声源的方向,然后从声源的方向中确定出向用户说话的这个对话者,然后继续与这个对话者进行对话。
然而,发明人发现,如果用户所在环境很嘈杂,例如,用户所在环境中有很多人都在相互大声对话,如此,由于大量对话语音的干扰,导致用户无法准确地确定出是谁在对自己说话。
发明内容
为了使得用户能够确定出是谁在对自己说话,本申请示出了一种对话者的提示方法及穿戴设备。
第一方面,本申请示出了一种对话者的提示方法,应用于穿戴设备,所述穿戴设备上设置有至少两个麦克风和至少一个摄像头,所述方法包括:
基于所述至少两个麦克风采集向佩戴所述穿戴设备的用户发出的对话语音;
确定所述对话语音的来源方向;
根据所述对话语音的来源方向,拍摄所述来源方向的图像;
在所述图像中识别发出所述对话语音的对话者;
提示所述对话者正在向所述用户发出对话语音。
在一个可选的实现方式中,所述提示所述对话者正在向所述用户发出对话语音,包括:
在所述穿戴设备的显示界面中显示所述图像;
在所述图像上绘制所述对话者的人物轮廓;或者,在所述图像上的所述对话者所在的区域显示预设符号。
在一个可选的实现方式中,所述基于所述至少两个麦克风采集向佩戴所述穿戴设备的用户发出的对话语音,包括:
基于所述至少两个麦克风分别采集语音;
对所述语音进行语义识别,得到所述语音所表达的文本;
确定所述文本中是否存在对话关键词;
在所述文本中存在所述对话关键词的情况下,确定采集的语音是对话语音;
在所述文本中不存在所述对话关键词的情况下,确定采集的语音不是对话语音;
在一个可选的实现方式中,所述在所述图像中识别发出所述对话语音的对话者,包括:
基于人脸识别技术识别所述图像中的人脸;
在识别出的人脸中,确定与所述对话语音相匹配的人脸;
根据确定出的人脸确定所述对话者。
在一个可选的实现方式中,所述在识别出的人脸中,确定与所述对话语音相匹配的人脸,包括:
确定所述对话语音的起始时刻以及结束时刻;
对于识别出的每一个人脸,确定所述人脸的唇部变化的开始时刻以及唇部变化的结束时刻;
在所述对话语音的起始时刻与所述唇部变化的开始时刻相同,且,所述对话语音的结束时刻与所述唇部变化的结束时刻相同的情况下,将所述人脸确定为与所述对话语音相匹配的人脸。
在一个可选的实现方式中,所述在识别出的人脸中,确定与所述对话语音相匹配的人脸,包括:
对于识别出的每一个人脸,确定所述人脸的唇部的变化速率;
确定所述对话语音的语音速率;
在所述变化速率与所述语音速率相同的情况下,将所述人脸确定为与所述对话语音相匹配的人脸。
在一个可选的实现方式中,所述将所述人脸确定为与所述对话语音相匹配的人脸之前,还包括:
获取所述人脸的视线聚焦方向;
在所述视线聚焦方向指向所述穿戴设备的情况下,执行所述将所述人脸确定为与所述对话语音相匹配的人脸的步骤。
第二方面,本申请示出了一种穿戴设备,所述穿戴设备上设置有至少两个麦克风和至少一个摄像头,所述穿戴设备包括:
采集模块,用于基于所述至少两个麦克风采集向佩戴所述穿戴设备的用户发出的对话语音;
确定模块,用于确定所述对话语音的来源方向;
拍摄模块,用于根据所述对话语音的来源方向,拍摄所述来源方向的图像;
识别模块,用于在所述图像中识别发出所述对话语音的对话者;
提示模块,用于提示所述对话者正在向所述用户发出对话语音。
在一个可选的实现方式中,所述提示模块包括:
第一显示单元,用于在所述穿戴设备的显示界面中显示所述图像;
绘制单元,用于在所述图像上绘制所述对话者的人物轮廓;或者,第二显示单元,用于在所述图像上的所述对话者所在的区域显示预设符号。
在一个可选的实现方式中,所述采集模块包括:
采集单元,用于基于所述至少两个麦克风分别采集语音;
识别单元,用于对所述语音进行语义识别,得到所述语音所表达的文本;
第一确定单元,用于确定所述文本中是否存在对话关键词;
第二确定单元,用于在所述文本中存在所述对话关键词的情况下,确定采集的语音是对话语音;
第三确定单元,用于在所述文本中不存在所述对话关键词的情况下,确定采集的语音不是对话语音;
在一个可选的实现方式中,所述识别模块包括:
识别单元,用于基于人脸识别技术识别所述图像中的人脸;
第四确定单元,用于在识别出的人脸中,确定与所述对话语音相匹配的人脸;
第五确定单元,用于根据确定出的人脸确定所述对话者。
在一个可选的实现方式中,所述第四确定单元包括:
第一确定子单元,用于确定所述对话语音的起始时刻以及结束时刻;
第二确定子单元,用于对于识别出的每一个人脸,确定所述人脸的唇部变化的开始时刻以及唇部变化的结束时刻;
第三确定子单元,用于在所述对话语音的起始时刻与所述唇部变化的开始时刻相同,且,所述对话语音的结束时刻与所述唇部变化的结束时刻相同的情况下,将所述人脸确定为与所述对话语音相匹配的人脸。
在一个可选的实现方式中,所述第四确定单元包括:
第四确定子单元,对于识别出的每一个人脸,确定所述人脸的唇部的变化速率;
第五确定子单元,用于确定所述对话语音的语音速率;
第六确定子单元,用于在所述变化速率与所述语音速率相同的情况下,将所述人脸确定为与所述对话语音相匹配的人脸。
在一个可选的实现方式中,所述第四确定单元还包括:
获取子单元,用于获取所述人脸的视线聚焦方向;
所述第三确定子单元或所述第六确定子单元还用于在所述视线聚焦方向指向所述穿戴设备的情况下,将所述人脸确定为与所述对话语音相匹配的人脸。
第三方面,本发明示出了一种穿戴设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的对话者的提示方法的步骤。
第四方面,本发明示出了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的对话者的提示方法的步骤。
在本申请中,在有人向佩戴穿戴设备的用户说话时,即使佩戴穿戴设备的用户所在环境很嘈杂,穿戴设备也可以基于至少两个麦克风分别采集向佩戴穿戴设备的用户发出的对话语音,然后确定对话语音的来源方向,再获取基于摄像头拍摄的该来源方向的图像,并在该图像中识别发出对话语音的对话者,进而可以基于该图像提示对话者正在向用户发出对话语音。如此使得用户在听扬声器播放的、向用户发出的对话语音的过程中,可以及时准确地基于图像的提示来获知发出对话语音的对话者,也即,获知谁在对自己说话。
附图说明
图1是本申请示出的一种穿戴设备的示意图。
图2是本申请示出的一种对话者的提示方法的步骤流程图。
图3是本申请示出的一种场景示意图。
图4是本申请的一种穿戴设备的结构框图。
图5是本申请的一种穿戴设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,示出了本发明一种穿戴设备的示意图,穿戴设备包括上设置有至少两个麦克风和至少一个摄像头,还可以包括扬声器以及显示界面等,当然,也可以根据实际情况增加设置其他设备,本申请对此不加以限定。
图1以穿戴设备中包括三个摄像头、两个麦克风、两个显示界面以及两个扬声器为例进行举例说明,但不作为对本申请的穿戴设备的限制。
穿戴设备基于两个麦克风可以分别采集语音,以及基于摄像头可以拍摄图像,扬声器用于播放语音。
其中,摄像头越多,则穿戴设备的拍摄视角越广,摄像头的分布可以相对于穿戴设备的中轴线对称。
穿戴设备的麦克风越多,则穿戴设备确定采集语音的来源方向越准确,麦克风的分布可以相对于穿戴设备的中轴线对称。
参照图2,示出了本发明一种对话者的提示方法的步骤流程图,该方法应用于图1所示的穿戴设备,该方法包括:
在步骤S101中,基于至少两个麦克风采集向佩戴穿戴设备的用户发出的对话语音;
在本申请中,可以基于至少两个麦克风采集语音,每个麦克风采集的语音是同一个对话者发出的,然后对语音进行语义识别,得到语音所表达的文本;本申请对语义识别的识别方法不做限定,再确定文本中是否存在对话关键词,在本申请中,对话关键词包括在日常对话中可能会用到的词汇,例如,代称,打招呼常用语以及佩戴穿戴设备的用户的名称等,代称包括诸如师傅、兄弟、大姐、大妈以及大爷等。在人与人之间对话的过程中,通常会使用对话关键词,因此,可以通过判断该文本中是否存在对话关键词来确定采集的语音是不是对话语音。其中,在该文本中存在对话关键词的情况下,确定采集的语音是对话语音;在该文本中不存在对话关键词的情况下,确定采集的语音不是对话语音;
在步骤S102中,确定对话语音的来源方向;
在本步骤中,可以确定至少两个麦克风分别采集的对话语音的采集时刻,然后确定至少两个麦克风分别采集的对话语音的采集时刻之间的时间差,再根据该时间差确定对话语音的来源方向。
参见图3,以穿戴设备上包括2个麦克风为例进行举例说明,两个麦克风分别为A和B,假设对话语音的从位置S发出.
假设麦克风A采集到的对话语音的采集时刻为T1,麦克风B采集到的对话语音的采集时刻为T2,由于图3中的麦克风A与位置S之间的距离大于麦克风B与位置S之间的距离,因此,T1大于T2,可以沿B做线段AS的垂线,得到垂线BM,点M将线段AS划分为了两段,其中,对话语音在空间中传播的是球形波,而不是平面波,因此,对话语音从S到达M点的路程与对话语音从S点到达B点的路程相同,如此,线段AM的长度即为声速与时间差之间的乘积,时间差包括对话语音达到麦克风A的时刻与对话语音到达麦克风B的时刻之间的之间的时间差。
由于已经获知麦克风A与麦克风B之间的距离,因此,根据麦克风A与麦克风B之间的距离以及线段AM的长度可以确定出角A的角度,从而,确定出对话语音的来源方向。
在步骤S103中,根据所述对话语音的来源方向,拍摄该来源方向的图像;
在本申请中,在基于至少两个麦克风开始分别采集向佩戴穿戴设备的用户发出的对话语音时,穿戴设备就会控制摄像头开始不断地拍摄图像,穿戴设备控制摄像头拍摄的是视角范围较广的图像,且拍摄的图像中包括该来源方向的图像。因此,可以在基于摄像头拍摄的图像中确定该来源方向的图像。
在步骤S104中,在该图像中识别发出对话语音的对话者;
在本申请中,本步骤可以通过如下流程实现,包括:
1041、基于人脸识别技术识别该图像中的人脸;
其中,在本申请中,在该来源方向上可能存在多个人,也即,该来源方向的图像中可能会包括多个人,然而,在多个人中,可能只有一人在向用户说话,也即,只有一个人是发出对话语音的对话者,因此,需要在多个人中确定出哪一个人是发出对话语音的对话者,然后基于该图像向用户提示哪一个人是发出对话语音的对话者,以使用户可以轻易得知谁在向用户说话。
1042、在识别出的人脸中,确定与对话语音相匹配的人脸;
在本申请一个实施例中,可以确定对话语音的起始时刻以及结束时刻;对话语音的起始时刻可以是麦克风接收到对话语音的第一个语音信号的接收时刻,对话语音的结束时刻可以是麦克风接收到对话语音的最后一个语音信号的接收时刻;
对于识别出的每一个人脸,确定该人脸的唇部变化的开始时刻以及唇部变化的结束时刻;其中,在穿戴设备控制摄像头连续拍摄的多个图像中,每一个图像都各自的拍摄时刻,因此,在获取的基于摄像头拍摄的该来源方向的图像中,每一个图像都各自的拍摄时刻,在按照拍摄时刻由早至晚的顺序排列的多个该来源方向的图像中,可以确定该人脸的唇部开始变化的图像,并将该图像的拍摄时刻作为人脸的唇部变化的开始时刻,以及,在按照拍摄时刻由早至晚的顺序排列的多个该来源方向的图像中,可以将确定该人脸的不再继续变化的第一个图像,并将该图像的拍摄时刻作为人脸的唇部变化的结束时刻。
然后,在对话语音的起始时刻与唇部变化的开始时刻相同,且,对话语音的结束时刻与唇部变化的结束时刻相同的情况下,可以将该人脸确定为与对话语音相匹配的人脸。
在本申请另一个实施例中,对于识别出的每一个人脸,确定人脸的唇部的变化速率;例如,其中,在获取的基于摄像头拍摄的该来源方向的图像中,可以确定该人脸的唇部一共变化过的形状的总数量,以及确定该人脸的唇部变化的持续时长,例如,可以确定该人脸的唇部开始变化的图像的拍摄时刻,以及确定与该人脸的唇部结束变化的图像的拍摄时刻,然后计算该人脸的唇部结束变化的图像的拍摄时刻与该人脸的唇部开始变化的图像的拍摄时刻之间的差值,得到该人脸的唇部变化的持续时长,再计算该总数量与该持续时长之间的比值,作为该人脸的唇部的变化速率。其中,在确定对话语音的语音速率时,可以对于对话语音进行语义识别,得到对话语音所表达的文本,确定文本中包括的字符的数量,以及确定对话语音的持续时长,然后计算该数量与对话语音的持续时长之间的比值,作为对话语音的语音速率。在该人脸的唇部的变化速率与对话语音的语音速率相同的情况下,将该人脸确定为与对话语音相匹配的人脸。
1043、根据确定出的人脸确定对话者。
将该人脸所属的人物确定为发出对话语音的对话者。
进一步地,在对话语音的来源方向中,可能有多个人在说话,且有至少两个人说的话比较类似,例如,至少两个人说话的起始时刻与结束时刻凑巧均相同,或者,至少两个人说话的速率凑巧相同,但是至少两个人中只有一个人是对佩戴穿戴设备的用户说话,而至少两个人中的其他人是对另外的人说话。
通常情况下,实际向用户说话的人的视线会朝向用户,而实际未向用户说话的人的视线往往不会朝向用户,因此,在前述实施例的基础之上,可以获取该人脸的视线聚焦方向,在视线聚焦方向指向穿戴设备的情况下,再将人脸确定为与对话语音相匹配的人脸。
在步骤S105中,提示对话者正在向用户发出对话语音。
在本申请中,穿戴设备中包括显示界面,显示界面可以位于镜片上,在使用穿戴设备的扬声器播放采集的对话语音的过程中,可以在穿戴设备的显示界面中显示基于摄像头拍摄的图像,例如,显示基于摄像头拍摄的该来源方向的图像,然后在该图像上标记发出对话语音的对话者。例如,可以基于AR((Augmented Reality,增强现实)或MR(MixedReality,混合现实)来在该图像上标记对话者,例如,在该图像上绘制对话者的人物轮廓,例如,进一步地,可以将人物轮廓加亮;或者,在该图像上的对话者所在的区域显示预设符号,例如,在对话者的头顶显示预设符号,如此,佩戴穿戴设备的用户就可以在显示界面上看到标记了对话者的图像,并在图像上看到标记的对话者,从而在听扬声器播放的、向用户发出的对话语音的过程中,可以及时获知发出对话语音的对话者,以确定出是谁在对自己说话。
在本申请中,在有人向佩戴穿戴设备的用户说话时,即使佩戴穿戴设备的用户所在环境很嘈杂,穿戴设备也可以基于至少两个麦克风分别采集向佩戴穿戴设备的用户发出的对话语音,然后确定对话语音的来源方向,再获取基于摄像头拍摄的该来源方向的图像,并在该图像中识别发出对话语音的对话者,进而可以基于该图像提示对话者正在向用户发出对话语音。如此使得用户在听扬声器播放的、向用户发出的对话语音的过程中,可以及时准确地基于图像的提示来获知发出对话语音的对话者,也即,获知谁在对自己说话。
参照图4,示出了本申请的一种穿戴设备的结构框图,所述穿戴设备上设置有至少两个麦克风和至少一个摄像头,所述穿戴设备包括:
采集模块11,用于基于所述至少两个麦克风采集向佩戴所述穿戴设备的用户发出的对话语音;
确定模块12,用于确定所述对话语音的来源方向;
拍摄模块13,用于根据所述对话语音的来源方向,拍摄所述来源方向的图像;
识别模块14,用于在所述图像中识别发出所述对话语音的对话者;
提示模块15,用于提示所述对话者正在向所述用户发出对话语音。
在一个可选的实现方式中,所述提示模块包括:
第一显示单元,用于在所述穿戴设备的显示界面中显示所述图像;
绘制单元,用于在所述图像上绘制所述对话者的人物轮廓;或者,第二显示单元,用于在所述图像上的所述对话者所在的区域显示预设符号。
在一个可选的实现方式中,所述采集模块包括:
采集单元,用于基于所述至少两个麦克风分别采集语音;
识别单元,用于对所述语音进行语义识别,得到所述语音所表达的文本;
第一确定单元,用于确定所述文本中是否存在对话关键词;
第二确定单元,用于在所述文本中存在所述对话关键词的情况下,确定采集的语音是对话语音;
第三确定单元,用于在所述文本中不存在所述对话关键词的情况下,确定采集的语音不是对话语音;
在一个可选的实现方式中,所述识别模块包括:
识别单元,用于基于人脸识别技术识别所述图像中的人脸;
第四确定单元,用于在识别出的人脸中,确定与所述对话语音相匹配的人脸;
第五确定单元,用于根据确定出的人脸确定所述对话者。
在一个可选的实现方式中,所述第四确定单元包括:
第一确定子单元,用于确定所述对话语音的起始时刻以及结束时刻;
第二确定子单元,用于对于识别出的每一个人脸,确定所述人脸的唇部变化的开始时刻以及唇部变化的结束时刻;
第三确定子单元,用于在所述对话语音的起始时刻与所述唇部变化的开始时刻相同,且,所述对话语音的结束时刻与所述唇部变化的结束时刻相同的情况下,将所述人脸确定为与所述对话语音相匹配的人脸。
在一个可选的实现方式中,所述第四确定单元包括:
第四确定子单元,对于识别出的每一个人脸,确定所述人脸的唇部的变化速率;
第五确定子单元,用于确定所述对话语音的语音速率;
第六确定子单元,用于在所述变化速率与所述语音速率相同的情况下,将所述人脸确定为与所述对话语音相匹配的人脸。
在一个可选的实现方式中,所述第四确定单元还包括:
获取子单元,用于获取所述人脸的视线聚焦方向;
所述第三确定子单元或所述第六确定子单元还用于在所述视线聚焦方向指向所述穿戴设备的情况下,将所述人脸确定为与所述对话语音相匹配的人脸。
在本申请中,在有人向佩戴穿戴设备的用户说话时,即使佩戴穿戴设备的用户所在环境很嘈杂,穿戴设备也可以基于至少两个麦克风分别采集向佩戴穿戴设备的用户发出的对话语音,然后确定对话语音的来源方向,再获取基于摄像头拍摄的该来源方向的图像,并在该图像中识别发出对话语音的对话者,进而可以基于该图像提示对话者正在向用户发出对话语音。如此使得用户在听扬声器播放的、向用户发出的对话语音的过程中,可以及时准确地基于图像的提示来获知发出对话语音的对话者,也即,获知谁在对自己说话。
参照图5,为实现本发明各个实施例的一种穿戴设备的硬件结构示意图。
该穿戴设备500包括但不限于:射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、处理器510、以及电源511等部件。本领域技术人员可以理解,图5中示出的穿戴设备结构并不构成对穿戴设备的限定,穿戴设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,穿戴设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
处理器510,用于基于至少两个麦克风分别采集向佩戴穿戴设备的用户发出的对话语音;确定对话语音的来源方向;获取基于摄像头拍摄的该来源方向的图像;在该图像中识别发出对话语音的对话者;基于该图像提示对话者正在向用户发出对话语音。
在本申请中,在有人向佩戴穿戴设备的用户说话时,即使佩戴穿戴设备的用户所在环境很嘈杂,穿戴设备也可以基于至少两个麦克风分别采集向佩戴穿戴设备的用户发出的对话语音,然后确定对话语音的来源方向,再获取基于摄像头拍摄的该来源方向的图像,并在该图像中识别发出对话语音的对话者,进而可以基于该图像提示对话者正在向用户发出对话语音。如此使得用户在听扬声器播放的、向用户发出的对话语音的过程中,可以及时准确地基于图像的提示来获知发出对话语音的对话者,也即,获知谁在对自己说话。
应理解的是,本发明实施例中,射频单元501可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器510处理;另外,将上行的数据发送给基站。通常,射频单元501包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元501还可以通过无线通信系统与网络和其他设备通信。
穿戴设备通过网络模块502为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元503可以将射频单元501或网络模块502接收的或者在存储器509中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元503还可以提供与穿戴设备500执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元503包括扬声器、蜂鸣器以及受话器等。
输入单元504用于接收音频或视频信号。输入单元504可以包括图形处理器(Graphics Processing Unit,GPU)5041和麦克风5042,图形处理器5041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图像或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元506上。经图形处理器5041处理后的图像帧可以存储在存储器509(或其它存储介质)中或者经由射频单元501或网络模块502进行发送。麦克风5042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元501发送到移动通信基站的格式输出。
穿戴设备500还包括至少一种传感器505,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板5061的亮度,接近传感器可在穿戴设备500移动到耳边时,关闭显示面板5061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别穿戴设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器505还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元506用于显示由用户输入的信息或提供给用户的信息。显示单元506可包括显示面板5061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板5061。
用户输入单元507可用于接收输入的数字或字符信息,以及产生与穿戴设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元507包括触控面板5071以及其他输入设备5072。触控面板5071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板5071上或在触控面板5071附近的操作)。触控面板5071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器510,接收处理器510发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板5071。除了触控面板5071,用户输入单元507还可以包括其他输入设备5072。具体地,其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板5071可覆盖在显示面板5061上,当触控面板5071检测到在其上或附近的触摸操作后,传送给处理器510以确定触摸事件的类型,随后处理器510根据触摸事件的类型在显示面板5061上提供相应的视觉输出。虽然在图5中,触控面板5071与显示面板5061是作为两个独立的部件来实现穿戴设备的输入和输出功能,但是在某些实施例中,可以将触控面板5071与显示面板5061集成而实现穿戴设备的输入和输出功能,具体此处不做限定。
接口单元508为外部装置与穿戴设备500连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元508可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到穿戴设备500内的一个或多个元件或者可以用于在穿戴设备500和外部装置之间传输数据。
存储器509可用于存储软件程序以及各种数据。存储器509可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器509可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器510是穿戴设备的控制中心,利用各种接口和线路连接整个穿戴设备的各个部分,通过运行或执行存储在存储器509内的软件程序和/或模块,以及调用存储在存储器509内的数据,执行穿戴设备的各种功能和处理数据,从而对穿戴设备进行整体监控。处理器510可包括一个或多个处理单元;优选的,处理器510可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器510中。
穿戴设备500还可以包括给各个部件供电的电源511(比如电池),优选的,电源511可以通过电源管理系统与处理器510逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,穿戴设备500包括一些未示出的功能模块,在此不再赘述。
优选的,本发明实施例还提供一种穿戴设备,包括处理器510,存储器509,存储在存储器509上并可在所述处理器510上运行的计算机程序,该计算机程序被处理器510执行时实现上述信息处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述信息处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (16)

1.一种对话者的提示方法,其特征在于,应用于穿戴设备,所述穿戴设备上设置有至少两个麦克风和至少一个摄像头,所述方法包括:
基于所述至少两个麦克风采集向佩戴所述穿戴设备的用户发出的对话语音;
确定所述对话语音的来源方向;
根据所述对话语音的来源方向,拍摄所述来源方向的图像;
在所述图像中识别发出所述对话语音的对话者;
提示所述对话者正在向所述用户发出对话语音。
2.根据权利要求1所述的方法,其特征在于,所述提示所述对话者正在向所述用户发出对话语音,包括:
在所述穿戴设备的显示界面中显示所述图像;
在所述图像上绘制所述对话者的人物轮廓;或者,在所述图像上的所述对话者所在的区域显示预设符号。
3.根据权利要求1所述的方法,其特征在于,所述基于所述至少两个麦克风采集向佩戴所述穿戴设备的用户发出的对话语音,包括:
基于所述至少两个麦克风分别采集语音;
对所述语音进行语义识别,得到所述语音所表达的文本;
确定所述文本中是否存在对话关键词;
在所述文本中存在所述对话关键词的情况下,确定采集的语音是对话语音;
在所述文本中不存在所述对话关键词的情况下,确定采集的语音不是对话语音。
4.根据权利要求1所述的方法,其特征在于,所述在所述图像中识别发出所述对话语音的对话者,包括:
基于人脸识别技术识别所述图像中的人脸;
在识别出的人脸中,确定与所述对话语音相匹配的人脸;
根据确定出的人脸确定所述对话者。
5.根据权利要求4所述的方法,其特征在于,所述在识别出的人脸中,确定与所述对话语音相匹配的人脸,包括:
确定所述对话语音的起始时刻以及结束时刻;
对于识别出的每一个人脸,确定所述人脸的唇部变化的开始时刻以及唇部变化的结束时刻;
在所述对话语音的起始时刻与所述唇部变化的开始时刻相同,且,所述对话语音的结束时刻与所述唇部变化的结束时刻相同的情况下,将所述人脸确定为与所述对话语音相匹配的人脸。
6.根据权利要求4所述的方法,其特征在于,所述在识别出的人脸中,确定与所述对话语音相匹配的人脸,包括:
对于识别出的每一个人脸,确定所述人脸的唇部的变化速率;
确定所述对话语音的语音速率;
在所述变化速率与所述语音速率相同的情况下,将所述人脸确定为与所述对话语音相匹配的人脸。
7.根据权利要求5或6所述的方法,其特征在于,所述将所述人脸确定为与所述对话语音相匹配的人脸之前,还包括:
获取所述人脸的视线聚焦方向;
在所述视线聚焦方向指向所述穿戴设备的情况下,执行所述将所述人脸确定为与所述对话语音相匹配的人脸的步骤。
8.一种穿戴设备,其特征在于,所述穿戴设备上设置有至少两个麦克风和至少一个摄像头,所述穿戴设备包括:
采集模块,用于基于所述至少两个麦克风采集向佩戴所述穿戴设备的用户发出的对话语音;
确定模块,用于确定所述对话语音的来源方向;
拍摄模块,用于根据所述对话语音的来源方向,拍摄所述来源方向的图像;
识别模块,用于在所述图像中识别发出所述对话语音的对话者;
提示模块,用于提示所述对话者正在向所述用户发出对话语音。
9.根据权利要求8所述的穿戴设备,其特征在于,所述提示模块包括:
第一显示单元,用于在所述穿戴设备的显示界面中显示所述图像;
绘制单元,用于在所述图像上绘制所述对话者的人物轮廓;或者,第二显示单元,用于在所述图像上的所述对话者所在的区域显示预设符号。
10.根据权利要求8所述的穿戴设备,其特征在于,所述采集模块包括:
采集单元,用于基于所述至少两个麦克风分别采集语音;
识别单元,用于对所述语音进行语义识别,得到所述语音所表达的文本;
第一确定单元,用于确定所述文本中是否存在对话关键词;
第二确定单元,用于在所述文本中存在所述对话关键词的情况下,确定采集的语音是对话语音;
第三确定单元,用于在所述文本中不存在所述对话关键词的情况下,确定采集的语音不是对话语音。
11.根据权利要求8所述的穿戴设备,其特征在于,所述识别模块包括:
识别单元,用于基于人脸识别技术识别所述图像中的人脸;
第四确定单元,用于在识别出的人脸中,确定与所述对话语音相匹配的人脸;
第五确定单元,用于根据确定出的人脸确定所述对话者。
12.根据权利要求11所述的穿戴设备,其特征在于,所述第四确定单元包括:
第一确定子单元,用于确定所述对话语音的起始时刻以及结束时刻;
第二确定子单元,用于对于识别出的每一个人脸,确定所述人脸的唇部变化的开始时刻以及唇部变化的结束时刻;
第三确定子单元,用于在所述对话语音的起始时刻与所述唇部变化的开始时刻相同,且,所述对话语音的结束时刻与所述唇部变化的结束时刻相同的情况下,将所述人脸确定为与所述对话语音相匹配的人脸。
13.根据权利要求11所述的穿戴设备,其特征在于,所述第四确定单元包括:
第四确定子单元,对于识别出的每一个人脸,确定所述人脸的唇部的变化速率;
第五确定子单元,用于确定所述对话语音的语音速率;
第六确定子单元,用于在所述变化速率与所述语音速率相同的情况下,将所述人脸确定为与所述对话语音相匹配的人脸。
14.根据权利要求12或13所述的穿戴设备,其特征在于,所述第四确定单元还包括:
获取子单元,用于获取所述人脸的视线聚焦方向;
所述第三确定子单元或所述第六确定子单元还用于在所述视线聚焦方向指向所述穿戴设备的情况下,将所述人脸确定为与所述对话语音相匹配的人脸。
15.一种穿戴设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的对话者的提示方法的步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的对话者的提示方法的步骤。
CN202010100120.4A 2020-02-18 2020-02-18 一种对话者的提示方法及穿戴设备 Pending CN111326175A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010100120.4A CN111326175A (zh) 2020-02-18 2020-02-18 一种对话者的提示方法及穿戴设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010100120.4A CN111326175A (zh) 2020-02-18 2020-02-18 一种对话者的提示方法及穿戴设备

Publications (1)

Publication Number Publication Date
CN111326175A true CN111326175A (zh) 2020-06-23

Family

ID=71171041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010100120.4A Pending CN111326175A (zh) 2020-02-18 2020-02-18 一种对话者的提示方法及穿戴设备

Country Status (1)

Country Link
CN (1) CN111326175A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113301372A (zh) * 2021-05-20 2021-08-24 广州繁星互娱信息科技有限公司 直播方法、装置、终端及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361276A (zh) * 2014-11-18 2015-02-18 新开普电子股份有限公司 一种多模态生物特征身份认证方法及系统
CN104598796A (zh) * 2015-01-30 2015-05-06 科大讯飞股份有限公司 身份识别方法及系统
CN106233384A (zh) * 2014-04-17 2016-12-14 微软技术许可有限责任公司 对话检测
CN107221324A (zh) * 2017-08-02 2017-09-29 上海木爷机器人技术有限公司 语音处理方法及装置
CN108028957A (zh) * 2015-09-29 2018-05-11 索尼公司 信息处理装置、信息处理方法和程序
CN109313911A (zh) * 2016-06-02 2019-02-05 微软技术许可有限责任公司 沉浸式显示设备上的自动音频衰减
CN110321789A (zh) * 2019-05-21 2019-10-11 平安普惠企业管理有限公司 基于生物特征识别面试欺诈的方法及相关设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106233384A (zh) * 2014-04-17 2016-12-14 微软技术许可有限责任公司 对话检测
CN104361276A (zh) * 2014-11-18 2015-02-18 新开普电子股份有限公司 一种多模态生物特征身份认证方法及系统
CN104598796A (zh) * 2015-01-30 2015-05-06 科大讯飞股份有限公司 身份识别方法及系统
CN108028957A (zh) * 2015-09-29 2018-05-11 索尼公司 信息处理装置、信息处理方法和程序
CN109313911A (zh) * 2016-06-02 2019-02-05 微软技术许可有限责任公司 沉浸式显示设备上的自动音频衰减
CN107221324A (zh) * 2017-08-02 2017-09-29 上海木爷机器人技术有限公司 语音处理方法及装置
CN110321789A (zh) * 2019-05-21 2019-10-11 平安普惠企业管理有限公司 基于生物特征识别面试欺诈的方法及相关设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113301372A (zh) * 2021-05-20 2021-08-24 广州繁星互娱信息科技有限公司 直播方法、装置、终端及存储介质

Similar Documents

Publication Publication Date Title
CN109461117B (zh) 一种图像处理方法及移动终端
CN107919138B (zh) 一种语音中的情绪处理方法及移动终端
CN107886969B (zh) 一种音频播放方法及音频播放装置
CN109065060B (zh) 一种语音唤醒方法及终端
WO2019206077A1 (zh) 视频通话处理方法及移动终端
CN109257498B (zh) 一种声音处理方法及移动终端
CN110097872B (zh) 一种音频处理方法及电子设备
CN110602389B (zh) 一种显示方法及电子设备
CN110225195B (zh) 一种语音通话方法及终端
CN107770598B (zh) 一种同步播放的检测方法、移动终端
CN108989558A (zh) 终端通话的方法及装置
CN109040444B (zh) 一种通话录音方法、终端及计算机可读存储介质
CN111182118B (zh) 一种音量调节方法及电子设备
CN109949809B (zh) 一种语音控制方法及终端设备
CN109982273B (zh) 一种信息回复方法及移动终端
CN109873894B (zh) 一种音量调节方法及移动终端
CN109451158B (zh) 一种提醒方法和装置
CN110995921A (zh) 通话处理方法、电子设备及计算机可读存储介质
CN108270928B (zh) 一种语音识别的方法及移动终端
CN108763475B (zh) 一种录制方法、录制装置及终端设备
CN108597495B (zh) 一种处理语音数据的方法及装置
CN108632465A (zh) 一种语音输入的方法及移动终端
CN110427149B (zh) 终端的操作方法及终端
CN111326175A (zh) 一种对话者的提示方法及穿戴设备
CN109543193B (zh) 一种翻译方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination